อ่าน 2 นาที
WARC (รูปแบบไฟล์)
รูปแบบไฟล์เก็บถาวร WARC (Web ARChive) กำหนดวิธีการรวมทรัพยากรดิจิทัลหลายรายการเข้าไว้ใน ไฟล์เก็บ ถาวรเดียว พร้อมกับข้อมูลที่เกี่ยวข้อง ทรัพยากรที่รวมกันเหล่านี้จะถูกบันทึกเป็นไฟล์...
WARC (รูปแบบไฟล์)
| คลังเก็บข้อมูลเว็บ | |
|---|---|
| นามสกุลไฟล์ | วาร์ค |
| สื่อประเภทอินเทอร์เน็ต | แอปพลิเคชัน/วาร์ค |
| ขยายจาก | อาร์ซี[ 1 ] |
| มาตรฐาน | ISO 28500:2017 [ 2 ] |
| รูปแบบเปิด ? | ใช่ |
| เว็บไซต์ | iipc.github.io/warc-specifications/specifications/warc-format/warc-1.1-annotated/ |
รูปแบบไฟล์เก็บถาวร WARC (Web ARChive) กำหนดวิธีการรวมทรัพยากรดิจิทัลหลายรายการเข้าไว้ในไฟล์เก็บ ถาวรเดียว พร้อมกับข้อมูลที่เกี่ยวข้อง ทรัพยากรที่รวมกันเหล่านี้จะถูกบันทึกเป็นไฟล์ WARC ซึ่งสามารถเล่นซ้ำได้โดยใช้ซอฟต์แวร์ที่เหมาะสม เช่นReplayWeb.pageหรือใช้โดยเว็บไซต์เก็บถาวรเช่นWayback Machine
รูปแบบ WARC เป็นรูปแบบที่ปรับปรุงมาจากรูปแบบไฟล์ ARC_IAของInternet Archive [ 3 ]ซึ่งเดิมใช้ในการจัดเก็บ " เว็บครอว์ล " เป็นลำดับของบล็อกเนื้อหาที่รวบรวมจากเวิลด์ไวด์เว็บรูปแบบ WARC ขยายรูปแบบเดิมเพื่อให้รองรับความต้องการในการรวบรวม การเข้าถึง และการแลกเปลี่ยนขององค์กรเก็บถาวรได้ดียิ่งขึ้น นอกจากเนื้อหาหลักที่บันทึกไว้ในปัจจุบันแล้ว การปรับปรุงนี้ยังรองรับเนื้อหารองที่เกี่ยวข้อง เช่นเมตาเดตา ที่กำหนด เหตุการณ์การตรวจจับซ้ำแบบย่อ (ดู §7.6 "การเยี่ยมชมซ้ำ") และการแปลงข้อมูลในภายหลัง[ 4 ]รูปแบบ WARC ได้รับแรงบันดาลใจจากสตรีม HTTP/1.0 โดยมีส่วนหัวที่คล้ายกันและการใช้ CRLF เป็นตัวคั่น ทำให้เหมาะอย่างยิ่งสำหรับการใช้งานครอว์เลอร์
WARC ได้รับการกำหนดครั้งแรกในปี 2551 [ 5 ] ปัจจุบันได้รับการยอมรับจากระบบ ห้องสมุดแห่งชาติ ส่วนใหญ่ ว่าเป็นมาตรฐานที่ต้องปฏิบัติตามสำหรับการเก็บถาวรเว็บ[ 6 ]แม้ว่าบางแห่งจะเริ่มระบุWACZเป็นรูปแบบที่ยอมรับได้เช่นกัน[ 7 ] [ 8 ]
ซอฟต์แวร์
- กล่องเก็บข้อมูล[ 9 ]
- ArchiveWeb.page [ 10 ]
- อะปาเช่ นัทช์
- สน[ 11 ]
- har2warc [ 12 ]
- โปรแกรมเก็บข้อมูลเว็บ Heritrix ที่เขียนด้วยภาษา Java
- ลิบอาร์ชีฟ
- ReplayWeb.page [ 13 ]
- สกู๊ป[ 14 ]
- สตอร์มครอว์เลอร์
- วาร์ซิต
- wget (ตั้งแต่เวอร์ชัน 1.14) [ 15 ]
- เว็บอาร์คิเวอร์[ 16 ]
- WebsiteArchiver [ 17 ]
ดูเพิ่มเติม
ลิงก์ภายนอก
- ข้อกำหนดรูปแบบไฟล์ WARC เก็บถาวรเมื่อวันที่ 4 พฤษภาคม 2010 ที่หอสมุดแห่งชาติสหรัฐอเมริกา (Library of Congress Web Archives)
- รูปแบบไฟล์ WARC (ISO 28500) - ข้อมูล การบำรุงรักษา และแบบร่าง
- WARC คือรูปแบบไฟล์เก็บข้อมูลเว็บ (Web ARChive)
- แนวทางการดำเนินการ WARC
- ยินดีต้อนรับ
- 13. ไฟล์ ARC ของ Internet Archive
- ระบบนิเวศ WARC
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ WARC (รูปแบบไฟล์)
รูปแบบไฟล์เก็บถาวร WARC (Web ARChive) กำหนดวิธีการรวมทรัพยากรดิจิทัลหลายรายการเข้าไว้ใน ไฟล์เก็บ ถาวรเดียว พร้อมกับข้อมูลที่เกี่ยวข้อง ทรัพยากรที่รวมกันเหล่านี้จะถูกบันทึกเป็นไฟล์...
ซอฟต์แวร์
กล่องเก็บข้อมูล [ 9 ] ArchiveWeb.page [ 10 ] อะปาเช่ นัทช์ สน [ 11 ] har2warc [ 12 ] โปรแกรมเก็บข้อมูลเว็บ Heritrix ที่เขียน ด้วย ภาษา Java ลิบอาร์ชีฟ ReplayWeb.page [ 13 ] สกู๊ป [ 14 ] สตอร์มครอว์เลอร์ วาร์ซิต wget (ตั้งแต่เวอร์ชัน 1.
ลิงก์ภายนอก
ข้อกำหนดรูปแบบไฟล์ WARC เก็บถาวรเมื่อวันที่ 4 พฤษภาคม 2010 ที่ หอสมุดแห่งชาติสหรัฐอเมริกา (Library of Congress Web Archives) รูปแบบไฟล์ WARC (ISO 28500) - ข้อมูล การบำรุงรักษา และแบบร่าง WARC คือรูปแบบไฟล์เก็บข้อมูลเว็บ (Web ARChive) แนวทางการดำเนินการ WARC...