กลับไปหน้าบทความ

อ่าน 2 นาที

คลังข้อมูลแคลการี

คลัง ข้อมูลแคลการี เป็นชุด ไฟล์ ข้อความ และ ข้อมูลไบนารี ซึ่งมักใช้สำหรับการเปรียบเทียบ อัลกอริทึม การบีบอัดข้อมูล คลังข้อมูล นี้สร้างขึ้นโดย Ian Witten , Tim Bell และ John Cleary...

คลังข้อมูลแคลการี

คลังข้อมูลแคลการีเป็นชุด ไฟล์ ข้อความและข้อมูลไบนารีซึ่งมักใช้สำหรับการเปรียบเทียบ อัลกอริทึม การบีบอัดข้อมูล คลังข้อมูลนี้สร้างขึ้นโดยIan Witten , Tim Bell และ John Cleary จากมหาวิทยาลัยแคลการีในปี 1987 และถูกใช้กันอย่างแพร่หลายในช่วงทศวรรษ 1990 ในปี 1997 คลังข้อมูลนี้ถูกแทนที่ด้วย คลังข้อมูลแคนเทอ ร์เบอรี[ 1 ]เนื่องจากมีความกังวลเกี่ยวกับความเป็นตัวแทนของคลังข้อมูลแคลการี[ 2 ]แต่คลังข้อมูลแคลการียังคงมีอยู่เพื่อใช้ในการเปรียบเทียบและยังคงมีประโยชน์สำหรับวัตถุประสงค์ดั้งเดิม

สารบัญ

ในรูปแบบที่ใช้กันทั่วไปมากที่สุด ชุดข้อมูลประกอบด้วยไฟล์ 14 ไฟล์ รวมทั้งหมด 3,141,622 ไบต์ ดังนี้

ขนาด (ไบต์)ชื่อไฟล์คำอธิบาย
111,261เอี๊ยมข้อความ ASCII ในรูปแบบ " refer " ของ UNIX – รายการอ้างอิงทางบรรณานุกรม 725 รายการ
768,771หนังสือเล่มที่ 1ข้อความ ASCII ที่ไม่ได้จัดรูปแบบ – โทมัส ฮาร์ดี: ห่างไกลจากฝูงชนที่บ้าคลั่ง
610,856เล่ม 2ข้อความ ASCII ในรูปแบบ " troff " ของ UNIX – เขียนโดย: หลักการของการประมวลผลคำพูดด้วยคอมพิวเตอร์
102,400จีโอตัวเลข 32 บิตในรูปแบบจุดลอยตัวของ IBM – ข้อมูลทางธรณีวิทยาแผ่นดินไหว
377,109ข่าวข้อความ ASCII – ไฟล์แบตช์ USENETในหัวข้อต่างๆ
21,504โอบีเจ1โปรแกรมปฏิบัติการ VAX – การคอมไพล์ PROGP
246,814โอบีเจ2โปรแกรมปฏิบัติการสำหรับ เครื่อง Macintosh – "ระบบสนับสนุนความรู้" ของ BR Gaines
53,161เอกสารฉบับที่ 1รูปแบบ "troff" ของ UNIX – Witten, Neal, Cleary: การเข้ารหัสทางคณิตศาสตร์สำหรับการบีบอัดข้อมูล
82,199กระดาษ 2รูปแบบไฟล์ UNIX "troff" – เขียนโดย: ความปลอดภัย (หรือความไม่ปลอดภัย) ของคอมพิวเตอร์
513,216พิคภาพบิตแมปขนาด 1728 x 2376 พิกเซล(บิตที่มีค่าสูงสุดอยู่ด้านบน): ข้อความภาษาฝรั่งเศสและแผนภาพเส้น
39,611โปรจีซีโค้ดต้นฉบับเขียนด้วยภาษา C – โปรแกรมบีบอัดไฟล์ UNIX เวอร์ชัน 4.0
71,646โปรกล์ซอร์สโค้ดในภาษาลิสป์ – ซอฟต์แวร์ระบบ
49,379โปรจีพีโค้ดต้นฉบับในภาษาปาสคาล – โปรแกรมสำหรับประเมินการบีบอัดข้อมูลแบบ PPM
93,695ทรานส์อักขระ ASCII และอักขระควบคุม – บันทึกการทำงานของเทอร์มินัล

นอกจากนี้ยังมีเวอร์ชัน 18 ไฟล์ที่ใช้ไม่บ่อยนัก ซึ่งรวมถึงไฟล์ข้อความเพิ่มเติมอีก 4 ไฟล์ในรูปแบบ UNIX "troff" ได้แก่ PAPER3 ถึง PAPER6 ผู้ดูแลเว็บไซต์ Canterbury corpus ระบุว่า "ไฟล์เหล่านี้ไม่ได้เพิ่มการประเมิน" [ 3 ]

เกณฑ์มาตรฐาน

ชุดข้อมูล Calgary ถือเป็นเกณฑ์มาตรฐาน ที่ใช้กันทั่วไป สำหรับการบีบอัดข้อมูลในช่วงทศวรรษ 1990 ผลลัพธ์ส่วนใหญ่มักแสดงเป็นบิตต่อไบต์ (bpb) สำหรับแต่ละไฟล์ จากนั้นจึงสรุปโดยการหาค่าเฉลี่ย ในปัจจุบัน การนำขนาดที่บีบอัดแล้วของไฟล์ทั้งหมดมารวมกันเป็นเรื่องปกติมากขึ้น วิธีนี้เรียกว่าค่าเฉลี่ยถ่วงน้ำหนักเนื่องจากเทียบเท่ากับการถ่วงน้ำหนักอัตราส่วนการบีบอัดด้วยขนาดไฟล์ดั้งเดิม เกณฑ์มาตรฐาน UCLC [ 4 ]โดย Johan de Bock ใช้วิธีนี้

สำหรับโปรแกรมบีบอัดข้อมูลบางตัว เป็นไปได้ที่จะบีบอัดคอร์ปัสให้เล็กลงโดยการรวมอินพุตเข้าเป็นไฟล์เก็บถาวรที่ไม่ได้บีบอัด (เช่น ไฟล์ tar ) ก่อนการบีบอัด เนื่องจากมีข้อมูลร่วมกันระหว่างไฟล์ข้อความ ในกรณีอื่นๆ การบีบอัดจะแย่ลงเนื่องจากโปรแกรมบีบอัดจัดการสถิติที่ไม่สม่ำเสมอได้ไม่ดี วิธีนี้ถูกใช้ในการทดสอบประสิทธิภาพในหนังสือออนไลน์Data Compression Explainedโดย Matt Mahoney [ 5 ]

ตารางด้านล่างแสดงขนาดไฟล์ที่บีบอัดของชุดข้อมูล Calgary จำนวน 14 ไฟล์ โดยใช้วิธีการทั้งสองแบบสำหรับโปรแกรมบีบอัดยอดนิยมบางโปรแกรม ตัวเลือกต่างๆ จะถูกเลือกเมื่อมีการใช้งาน สำหรับรายการที่สมบูรณ์ยิ่งขึ้น โปรดดูเกณฑ์มาตรฐานด้านบน

คอมเพรสเซอร์ตัวเลือกเป็นไฟล์แยกกัน 14 ไฟล์ในรูปแบบไฟล์ tar
ไม่บีบอัด3,141,6223,152,896
บีบอัด1,272,7721,319,521
อินโฟ-ซิป 2.32-91,020,7811,023,042
gzip 1.3.5-91,017,6241,022,810
bzip2 1.0.3-9828,347860,097
7-zip 9.12b848,687824,573
bzip3 1.1.8765,939779,795
พีพีเอ็ม ดี จูเนีย ร์1-m256 -o16740,737754,243
ppmonstr J675,485669,497
ZPAQเวอร์ชัน 7.15-วิธีที่ 5659,709659,853

ความท้าทายในการบีบอัด

“การแข่งขันการบีบอัดข้อมูล Calgary corpus และ การถอดรหัส SHA-1[ 6 ]เป็นการแข่งขันที่เริ่มต้นโดย Leonid A. Broukhis เมื่อวันที่ 21 พฤษภาคม 1996 เพื่อบีบอัดข้อมูล Calgary corpus เวอร์ชัน 14 ไฟล์ การแข่งขันนี้มีรางวัลเงินสดเล็กน้อยซึ่งเปลี่ยนแปลงไปตามกาลเวลา ปัจจุบันรางวัลคือ 1 ดอลลาร์สหรัฐต่อการปรับปรุง 111 ไบต์จากผลลัพธ์ก่อนหน้า

ตามกฎของการประกวด ผลงานที่ส่งเข้าประกวดต้องประกอบด้วยทั้งข้อมูลที่ถูกบีบอัดและโปรแกรมคลายการบีบอัดที่บรรจุอยู่ในรูปแบบไฟล์เก็บถาวรมาตรฐานรูปแบบใดรูปแบบหนึ่ง ข้อจำกัดด้านเวลาและหน่วยความจำ รูปแบบไฟล์เก็บถาวร และภาษาที่ใช้ในการคลายการบีบอัดได้รับการผ่อนปรนลงเรื่อยๆ ปัจจุบัน โปรแกรมต้องทำงานให้เสร็จภายใน 24 ชั่วโมงบนเครื่อง 2000 MIPS ภายใต้ระบบปฏิบัติการWindowsหรือLinuxและใช้หน่วยความจำน้อยกว่า 800 MB ต่อมาได้มีการเพิ่มความท้าทาย ด้วย SHA-1เข้ามา ซึ่งอนุญาตให้โปรแกรมคลายการบีบอัดสร้างไฟล์ที่แตกต่างจากชุดข้อมูล Calgary ได้ ตราบใดที่ค่าแฮชของไฟล์เหล่านั้นเท่ากับค่าของไฟล์ต้นฉบับ อย่างไรก็ตาม จนถึงขณะนี้ยังไม่มีผู้ใดทำได้ตามความท้าทายส่วนนี้

ข้อมูลชุดแรกที่ได้รับคือไฟล์ขนาด 759,881 ไบต์ ในเดือนกันยายน ปี 1997 โดย Malcolm Taylor ผู้เขียน RK และ WinRK ข้อมูลชุดล่าสุดคือไฟล์ขนาด 580,170 ไบต์ โดยAlexander Ratushnyakเมื่อวันที่ 2 กรกฎาคม ปี 2010 ไฟล์นี้ประกอบด้วยไฟล์บีบอัดขนาด 572,465 ไบต์ และโปรแกรมคลายการบีบอัดที่เขียนด้วยภาษา C++ และบีบอัดเหลือ 7700 ไบต์ ในรูปแบบไฟล์ PPMd var.I archive บวกอีก 5 ไบต์สำหรับชื่อไฟล์และขนาดไฟล์ที่ถูกบีบอัด ประวัติความเป็นมามีดังนี้

ขนาด (ไบต์)เดือน/ปีผู้เขียน
759,88109/1997มัลคอล์ม เทย์เลอร์
692,15408/2001แม็กซิม สเมียร์นอฟ
680,55809/2001แม็กซิม สเมียร์นอฟ
653,72011/2002เซอร์เก วอสโกบอยนิคอฟ
645,66701/2004แมตต์ มาโฮนีย์
637,11604/2004อเล็กซานเดอร์ ราตุชนยัค
608,98012/2547อเล็กซานเดอร์ ราตุชนยัค
603,41604/2005ปริเซมีสลาฟ สกิบินสกี
596,31410/2548อเล็กซานเดอร์ ราตุชนยัค
593,620ธันวาคม 2548อเล็กซานเดอร์ ราตุชนยัค
589,86305/2006อเล็กซานเดอร์ ราตุชนยัค
580,17007/2010อเล็กซานเดอร์ ราตุชนยัค

ดูเพิ่มเติม

  • บ้านเกิดเดิมของ Calgary Corpus
  • บ้านใหม่
  • เบลล์, วิทเทน และ เคลียรี, 1988
  • ข้อมูลเกี่ยวกับคลังข้อมูลแคลการี
  • ความท้าทายด้านการบีบอัดคอร์ปัสแคลการีและรอยแตก SHA-1
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Calgary_corpus&oldid=1344989226 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ คลังข้อมูลแคลการี

คลัง ข้อมูลแคลการี เป็นชุด ไฟล์ ข้อความ และ ข้อมูลไบนารี ซึ่งมักใช้สำหรับการเปรียบเทียบ อัลกอริทึม การบีบอัดข้อมูล คลังข้อมูล นี้สร้างขึ้นโดย Ian Witten , Tim Bell และ John Cleary...

สารบัญ

ในรูปแบบที่ใช้กันทั่วไปมากที่สุด ชุดข้อมูลประกอบด้วยไฟล์ 14 ไฟล์ รวมทั้งหมด 3,141,622 ไบต์ ดังนี้

เกณฑ์มาตรฐาน

ชุดข้อมูล Calgary ถือเป็น เกณฑ์มาตรฐาน ที่ใช้กันทั่วไป สำหรับการบีบอัดข้อมูลในช่วงทศวรรษ 1990 ผลลัพธ์ส่วนใหญ่มักแสดงเป็นบิตต่อไบต์ (bpb) สำหรับแต่ละไฟล์ จากนั้นจึงสรุปโดยการหาค่าเฉลี่ย ในปัจจุบัน...

ความท้าทายในการบีบอัด

“การแข่งขันการบีบอัดข้อมูล Calgary corpus และ การถอดรหัส SHA-1 ” [ 6 ] เป็นการแข่งขันที่เริ่มต้นโดย Leonid A.