กลับไปหน้าบทความ

อ่าน 52 นาที

รายชื่อชุดข้อมูลสำหรับการวิจัยด้านการเรียนรู้ของเครื่อง

ชุดข้อมูลเหล่านี้ใช้ใน การวิจัย การเรียนรู้ของเครื่อง (ML)และได้รับการอ้างอิงในวารสารวิชาการที่ผ่านการตรวจสอบโดยผู้ทรงคุณวุฒิ ชุดข้อมูลเป็นส่วนสำคัญของสาขาการเรียนรู้ของเครื่อง

รายชื่อชุดข้อมูลสำหรับการวิจัยด้านการเรียนรู้ของเครื่อง

ชุดข้อมูลเหล่านี้ใช้ใน การวิจัย การเรียนรู้ของเครื่อง (ML)และได้รับการอ้างอิงในวารสารวิชาการที่ผ่านการตรวจสอบโดยผู้ทรงคุณวุฒิ ชุดข้อมูลเป็นส่วนสำคัญของสาขาการเรียนรู้ของเครื่อง ความก้าวหน้าครั้งสำคัญในสาขานี้อาจเกิดจากความก้าวหน้าของอัลกอริธึม การเรียนรู้ (เช่นการเรียนรู้เชิงลึก ) ฮาร์ดแวร์คอมพิวเตอร์และที่สำคัญน้อยกว่าคือ ความพร้อมของชุดข้อมูลฝึกอบรมคุณภาพสูง[ 1 ] ชุดข้อมูลฝึกอบรม ที่มีป้ายกำกับคุณภาพสูงสำหรับอัลกอริธึมการเรียนรู้ของเครื่องแบบมีผู้กำกับดูแลและแบบกึ่งมีผู้กำกับดูแลมักจะยากและมีราคาแพงในการผลิต เนื่องจากต้องใช้เวลาจำนวนมากในการติดป้ายกำกับข้อมูล แม้ว่าจะไม่จำเป็นต้องติดป้ายกำกับ แต่ ชุดข้อมูล ที่ไม่มีป้ายกำกับ คุณภาพสูง สำหรับ การเรียนรู้ แบบไม่มีผู้กำกับดูแลก็อาจยากและมีราคาแพงในการผลิตเช่นกัน[ 2 ] [ 3 ] [ 4 ]

องค์กรหลายแห่ง รวมทั้งรัฐบาล เผยแพร่และแบ่งปันชุดข้อมูล ของตน โดยมักใช้รูปแบบเมตาเดตาทั่วไป (เช่นCroissant ) [ 5 ]ชุดข้อมูลจะถูกจำแนกตามใบอนุญาตออกเป็นสองกลุ่ม ได้แก่ข้อมูลเปิดและข้อมูล ที่ไม่เปิด

รายชื่อเว็บไซต์ข้อมูลภาครัฐแบบเปิด นำเสนอชุดข้อมูลจากหน่วยงานภาครัฐ ต่างๆ ชุดข้อมูลเหล่านี้ถูกนำไปไว้ใน พอร์ทัลข้อมูลแบบเปิดและสามารถค้นหา ฝาก และเข้าถึงได้ผ่านทางอินเทอร์เฟซต่างๆ เช่นOpen APIชุดข้อมูลมีให้เลือกใช้งานในรูปแบบต่างๆ ทั้งแบบเรียงลำดับและแบบย่อย

รายการการเรียงลำดับที่ใช้สำหรับชุดข้อมูล

พิมพ์ ชนิดย่อย
หมวดหมู่เฉพาะ การเงิน , เศรษฐศาสตร์ , การค้า , สังคม , สุขภาพ , วิชาการ , กีฬา , อาหาร , เกษตรกรรม , การท่องเที่ยว , ภูมิสารสนเทศ , การเมือง , ผู้บริโภค , การขนส่ง , โล จิสติกส์ , สิ่งแวดล้อม , อสังหาริมทรัพย์ , กฎหมาย , บันเทิง , พลังงาน , การบริการ
ขอบเขต สหภาพเหนือชาติ , ระดับชาติ , ระดับภูมิภาค , เทศบาล , เขตเมือง , เขตชนบท
ภาษา ภาษาจีนกลาง , ภาษาสเปน , ภาษาอังกฤษ , ภาษาอาหรับ, ภาษาฮินดี , ภาษาเบงกาลี
พิมพ์ ตาราง , กราฟ , ข้อความ , รูปภาพ , เสียง , วิดีโอ
การใช้งาน การฝึกอบรม การตรวจสอบ และการทดสอบ
รูปแบบไฟล์CSV , JSON , XML , KML , GeoJSON , Shapefile , GML
ใบอนุญาต ครีเอทีฟคอมมอนส์ , จีพีแอล , ใบอนุญาต ข้อมูลที่ไม่เปิดเผย อื่นๆ
อัปเดตล่าสุด ชั่วโมงสุดท้าย วันสุดท้าย สัปดาห์ที่แล้ว เดือนที่แล้ว ปีที่แล้ว
ขนาดไฟล์ ค่าต่ำสุด ค่าสูงสุด ช่วง
สถานะตรวจสอบแล้ว, อยู่ระหว่างการเตรียมการ, ปิดใช้งาน (หรือเลิกใช้แล้ว)
จำนวนบันทึกหลักร้อย หลักพัน หลักหมื่น หลักหมื่น หลักล้าน
จำนวนตัวแปรน้อยกว่า 10, หลักสิบ, หลักร้อย, หลักพัน, หลักหมื่น
บริการ บุคคล, การรวมกลุ่ม

พอร์ทัลข้อมูลถูกจำแนกตามประเภทของใบอนุญาต พอร์ทัลข้อมูลที่ใช้ ใบอนุญาตแบบโอเพนซอร์สเรียกว่าพอร์ทัลข้อมูลเปิด ซึ่ง หน่วยงานภาครัฐและสถาบันการศึกษาหลายแห่งใช้งานอยู่

รายชื่อพอร์ทัลข้อมูลเปิด

ชื่อพอร์ทัล ใบอนุญาต รายชื่อการติดตั้งพอร์ทัล การใช้งานทั่วไป
เครือข่ายคลังความรู้แบบครบวงจร ( CKAN ) เอจีพีแอลhttps://ckan.github.io/ckan-instances/

https://github.com/sebneu/ckan_instances/blob/master/instances.csv

คลังข้อมูลสำหรับหน่วยงานภาครัฐหรือองค์กรไม่แสวงหาผลกำไร โซลูชันการจัดการข้อมูลสำหรับสถาบันวิจัย
ดีเคเอ็นจีพีแอลhttps://getdkan.org/communityคลังข้อมูลสำหรับหน่วยงานภาครัฐหรือองค์กรไม่แสวงหาผลกำไร โซลูชันการจัดการข้อมูลสำหรับสถาบันวิจัย
ดาต้าเวิร์สอะปาเช่https://dataverse.org/installations

https://dataverse.org/metrics

โซลูชันการจัดการข้อมูลสำหรับสถาบันวิจัย
ดีสเปซบีเอสดีhttps://registry.lyrasis.org/โซลูชันการจัดการข้อมูลสำหรับสถาบันวิจัย
โอเพ่นเอ็มแอลบีเอสดีhttps://www.openml.org/search?type=data&sort=runs&status=activeโซลูชันการจัดการข้อมูลเพื่อแบ่งปันชุดข้อมูล อัลกอริทึม และผลการทดลองผ่าน API

รายชื่อพอร์ทัลที่เหมาะสมสำหรับการใช้งานหลายประเภท

บางครั้งพอร์ทัลข้อมูลจะแสดงรายการชุดข้อมูลย่อยหลากหลายประเภทที่เกี่ยวข้องกับการใช้งานการเรียนรู้ของเครื่อง หลาย ประเภท

แหล่งข้อมูลวิชาการhttps://academictorrents.com
ชุดข้อมูล Amazon https://registry.opendata.aws/
ชุดข้อมูลสาธารณะที่ยอดเยี่ยม https://github.com/awesomedata/awesome-public-datasets
ดาต้าเวิลด์ https://data.world/datasets/machine-learning
ศูนย์รวมข้อมูล – ชุดข้อมูลหลัก https://datahub.io/docs/core-data
ดาต้าวันhttps://www.dataone.org/
พอร์ทัลข้อมูล https://dataportals.org/
ดาต้าเซ็ตลิสต์.com https://www.datasetlist.com
ดัชนีข้อมูลเปิดระดับโลก – มูลนิธิความรู้แบบเปิดhttps://okfn.org/ เก็บถาวรเมื่อวันที่ 25 พฤษภาคม 2020 ที่Wayback Machine
การค้นหาชุดข้อมูลของ Googlehttps://datasetsearch.research.google.com/
ใบหน้ากอดhttps://huggingface.co/docs/datasets/
ระบบแลกเปลี่ยนข้อมูลของ IBM https://developer.ibm.com/exchanges/data/
Jupyter – ข้อมูลสำหรับการสอนใช้งาน https://jupyter-tutorial.readthedocs.io/en/latest/data-processing/opendata.html
แค็กเกิลhttps://www.kaggle.com/datasets
ชุดข้อมูลการเรียนรู้ของเครื่อง https://macgence.com/data-sets-and-cataloges/
เมืองอัจฉริยะขนาดใหญ่ที่มีข้อมูลเปิด https://rlist.io/l/major-smart-cities-with-open-data-portals
ชุดข้อมูลของ Microsoft https://msropendata.com/datasets
การเริ่มต้นของข้อมูลเปิด https://opendatainception.io/
โอเพนดาต้าซอฟต์ https://data.opendatasoft.com/explore/dataset/open-data-sources%40public/table/?sort=code_en
เปิดDOARhttps://v2.sherpa.ac.uk/opendoar/
โอเพ่นเอ็มแอล https://www.openml.org/search?type=data
เอกสารที่มีรหัส https://paperswithcode.com/datasets
เกณฑ์มาตรฐานการเรียนรู้ของเครื่องจักรของมหาวิทยาลัยเพนน์ https://github.com/EpistasisLab/pmlb/tree/master/datasets
API สาธารณะ https://github.com/public-apis/public-apis
ทะเบียนคลังข้อมูลแบบเปิด (Registry of Open Access Repositories)http://roar.eprints.org/ 
ทะเบียนคลังข้อมูลการวิจัยhttps://www.re3data.org/ 
คลังข้อมูลการเรียนรู้ของเครื่องจักร UCIhttps://archive.ics.uci.edu/
ชุดข้อมูลเสียงพูดhttps://www.shaip.com/offerings/speech-data-catalog/
การค้นพบข้อมูลเชิงภาพ https://visualdata.io/discovery

รายชื่อพอร์ทัลที่เหมาะสมสำหรับแอปพลิเคชันประเภทเฉพาะ

ในส่วนถัดไปจะแสดงรายการ พอร์ทัลข้อมูลที่เหมาะสมสำหรับ แอปพลิเคชันการเรียนรู้ของเครื่องประเภทเฉพาะเจาะจง

ข้อมูลภาพ

ข้อมูลข้อความ

ชุดข้อมูลเหล่านี้ประกอบด้วยข้อความเป็นหลัก สำหรับงานต่างๆ เช่นการประมวลผลภาษาธรรมชาติการวิเคราะห์ความรู้สึกการแปล และ การ วิเคราะห์ กลุ่ม

รีวิว

ชื่อชุดข้อมูล คำอธิบายโดยย่อ การประมวลผลล่วงหน้า ตัวอย่าง รูปแบบ งานเริ่มต้น สร้างแล้ว (อัปเดตแล้ว) อ้างอิง ผู้สร้าง
รางวัลเน็ตฟลิกซ์การให้คะแนนภาพยนตร์บน Netflix มีคะแนนรีวิวทั้งหมด 100,480,507 คะแนน จากผู้ใช้ 480,189 คน ให้กับภาพยนตร์ 17,770 เรื่อง ข้อความ, การให้คะแนน การคาดการณ์คะแนน 2006 [ 6 ]เน็ตฟลิกซ์
รีวิวจาก Amazon รีวิวสินค้าจากสหรัฐอเมริกาบน Amazon.comไม่มี. 233.1 ล้าน ข้อความ การจำแนกประเภท การวิเคราะห์ความรู้สึก 2015 (2018) [ 7 ] [ 8 ]แมคออลีย์และคณะ
ชุดข้อมูลรีวิว OpinRank รีวิวรถยนต์และโรงแรมจากEdmunds.comและTripAdvisorตามลำดับ ไม่มี. 42,230 / ~259,000 ตามลำดับ ข้อความ การวิเคราะห์ความรู้สึก การจัดกลุ่ม 2011 [ 9 ] [ 10 ]เค. กาเนซาน และคณะ
มูฟวี่เลนส์ มีการให้คะแนน 22,000,000 ครั้ง และติดแท็ก 580,000 รายการ ให้กับภาพยนตร์ 33,000 เรื่อง โดยผู้ใช้ 240,000 คน ไม่มี. ~ 22M ข้อความ การถดถอย การจัดกลุ่ม การจำแนกประเภท 2016 [ 11 ]การวิจัย GroupLens
การให้คะแนนศิลปินเพลงโดยผู้ใช้ Yahoo! Music ผู้ใช้ Yahoo ให้คะแนนศิลปินมากกว่า 10 ล้านครั้ง ไม่มีการระบุรายละเอียด ~ 10 ล้าน ข้อความ การจัดกลุ่ม, การถดถอย 2004 [ 12 ] [ 13 ]ยาฮู!
ชุดข้อมูลการประเมินรถยนต์ คุณสมบัติของรถยนต์และการยอมรับโดยรวม ระบุคุณลักษณะเชิงหมวดหมู่หกประการ 1728 ข้อความ การจำแนกประเภท พ.ศ. 2540 [ 14 ] [ 15 ]เอ็ม. โบฮาเนค
ชุดข้อมูลการตั้งค่า YouTube Comedy Slam ข้อมูลการโหวตจากผู้ใช้สำหรับคู่คลิปวิดีโอที่แสดงบน YouTube ผู้ใช้โหวตให้คลิปวิดีโอที่ตลกกว่า มีการระบุข้อมูลเมตาของวิดีโอแล้ว 1,138,562 ข้อความ การจำแนกประเภท 2012 [ 16 ] [ 17 ]Google
ชุดข้อมูลรีวิวจากผู้ใช้ Skytrax รีวิวจากผู้ใช้เกี่ยวกับสายการบิน สนามบิน ที่นั่ง และห้องรับรอง จาก Skytrax การให้คะแนนมีความละเอียดสูงและครอบคลุมหลายแง่มุมของประสบการณ์ในสนามบิน 41396 ข้อความ การจำแนกประเภท การถดถอย 2015 [ 18 ]คิว เหงียน
ชุดข้อมูลการประเมินผู้ช่วยสอน การประเมินผู้ช่วยสอน มีการระบุคุณลักษณะของแต่ละกรณี เช่น ชั้นเรียน ขนาดชั้นเรียน และผู้สอน 151 ข้อความ การจำแนกประเภท พ.ศ. 2540 [ 19 ] [ 20 ]ดับเบิลยู. โลห์ และคณะ
คลังผลตอบรับของนักเรียนชาวเวียดนาม (UIT-VSFC) ความคิดเห็นของนักเรียน ความคิดเห็น 16,000 ข้อความ การจำแนกประเภท พ.ศ. 2540 [ 21 ]เหงียนและคณะ
คลังข้อมูลอารมณ์สื่อสังคมออนไลน์ของเวียดนาม (UIT-VSMEC) ความคิดเห็นบน Facebook ของผู้ใช้ ความคิดเห็น 6,927 ข้อความ การจำแนกประเภท พ.ศ. 2540 [ 22 ]เหงียนและคณะ
ชุดข้อมูลการตรวจจับข้อร้องเรียนแบบเปิดในเวียดนาม (ViOCD) รีวิวจากลูกค้า ความคิดเห็น 5,485 ข้อความ การจำแนกประเภท 2021 [ 23 ]เหงียนและคณะ
ViHOS: ระบบตรวจจับคำพูดแสดงความเกลียดชังสำหรับภาษาเวียดนาม ข้อความบนโซเชียลมีเดีย ความคิดเห็น ประกอบด้วยสแปน 26,000 รายการ ในความคิดเห็น 11,000 รายการ ข้อความ การตรวจจับช่วง 2021 [ 24 ]ฮวางและคณะ

บทความข่าว

ชื่อชุดข้อมูล คำอธิบายโดยย่อ การประมวลผลล่วงหน้า ตัวอย่าง รูปแบบ งานเริ่มต้น สร้างแล้ว (อัปเดตแล้ว) อ้างอิง ผู้สร้าง
ชุดข้อมูล NYSK บทความข่าวภาษาอังกฤษเกี่ยวกับคดีที่เกี่ยวข้องกับข้อกล่าวหาการล่วงละเมิดทางเพศต่ออดีตผู้อำนวยการ IMF โดมินิก สเตราส์-คาน กรองข้อมูลและนำเสนอในรูปแบบ XML 10,421 XML, ข้อความ การวิเคราะห์ความรู้สึก, การดึงหัวข้อ 2013 [ 25 ]เดอร์มูช, เอ็ม. และคณะ
คลังข้อมูลรอยเตอร์ เล่ม 1 คลังข่าวขนาดใหญ่ของ สำนักข่าว รอยเตอร์ในภาษาอังกฤษ การจัดหมวดหมู่และการกำหนดรหัสหัวข้ออย่างละเอียด 810,000 ข้อความ การจำแนกประเภท การจัดกลุ่มการสรุป2002 [ 26 ]รอยเตอร์
คลังข้อมูลรอยเตอร์ เล่ม 2 คลังข่าวขนาดใหญ่ของ สำนักข่าว รอยเตอร์ในหลายภาษา การจัดหมวดหมู่และการกำหนดรหัสหัวข้ออย่างละเอียด 487,000 ข้อความ การจำแนกประเภท การจัดกลุ่ม การสรุป 2548 [ 27 ]รอยเตอร์
ชุดข้อมูลการวิจัยข้อความของ Thomson Reuters คลังข่าวขนาดใหญ่ รายละเอียดไม่ได้ระบุไว้ 1,800,370 ข้อความ การจำแนกประเภท การจัดกลุ่ม การสรุป 2009 [ 28 ]ที.โรส และคณะ
คลังข้อมูลหนังสือพิมพ์ซาอุดีอาระเบีย บทความจากหนังสือพิมพ์ภาษาอาหรับจำนวน 31,030 บทความ ดึงข้อมูลเมตาออกมาแล้ว 31,030 เจซอน การสรุป การจัดกลุ่ม 2015 [ 29 ]ม. อัลฮากรี
RE3D (ชุดข้อมูลประเมินการสกัดความสัมพันธ์และเอนทิตี) ข้อมูลเกี่ยวกับเอนทิตีและความสัมพันธ์ รวบรวมจากแหล่งข่าวและหน่วยงานภาครัฐต่างๆ สนับสนุนโดย Dstl กรองและจัดหมวดหมู่โดยใช้ชนิดของกระดูกวาฬ ไม่ทราบ เจซอน การจำแนกประเภท การระบุเอนทิตี และการระบุความสัมพันธ์ 2017 [ 30 ]ดีเอสทีแอล
แคตตาล็อกสแปมคลิกเบต ของผู้ตรวจสอบพาดหัวข่าวล่อคลิก สแปม และพาดหัวข่าวที่รวบรวมจากหลายแหล่ง ตั้งแต่ปี 2010 ถึง 2015 วันที่เผยแพร่และหัวข้อข่าว 3,089,781 ซีเอสวี การจัดกลุ่ม, เหตุการณ์, ความรู้สึก 2016 [ 31 ]อาร์. คุลการ์นี
คลังข่าว ABC ออสเตรเลียคลังข่าวทั้งหมดของ ABC ออสเตรเลีย ตั้งแต่ปี 2003 ถึง 2019 วันที่เผยแพร่และหัวข้อข่าว 1,186,018 ซีเอสวี การจัดกลุ่ม, เหตุการณ์, ความรู้สึก 2020 [ 32 ]อาร์. คุลการ์นี
ข่าวทั่วโลก – รวบรวมจาก 20,000 แหล่งข่าวสรุปข่าวเด่นประจำสัปดาห์จากสื่อออนไลน์กว่า 20 ภาษา เวลาเผยแพร่, URL และหัวข้อข่าว 1,398,431 ซีเอสวี การจัดกลุ่ม, เหตุการณ์, การตรวจจับภาษา 2018 [ 33 ]อาร์. คุลการ์นี
พาดหัวข่าวสำนักข่าว รอยเตอร์เหตุการณ์ต่างๆ ตลอด 11 ปีที่ผ่านมา พร้อมประทับเวลา ได้ถูกเผยแพร่ผ่านสำนักข่าว เวลาเผยแพร่, ข้อความหัวเรื่อง 16,121,310 ซีเอสวี NLP, ภาษาศาสตร์เชิงคำนวณ, กิจกรรม 2018 [ 34 ]อาร์. คุลการ์นี
คลังข่าวไอร์แลนด์ของ หนังสือพิมพ์ไอริชไทมส์ข่าวสารจากไอร์แลนด์ตลอด 24 ปี ตั้งแต่ปี 1996 ถึง 2019 เวลาเผยแพร่, หมวดหมู่หัวข้อข่าว และเนื้อหา 1,484,340 ซีเอสวี NLP, ภาษาศาสตร์เชิงคำนวณ, กิจกรรม 2020 [ 35 ]อาร์. คุลการ์นี
ชุดข้อมูลหัวข่าวสำหรับการตรวจจับการเสียดสี ชุดข้อมูลคุณภาพสูงที่มีทั้งพาดหัวข่าวเสียดสีและไม่เสียดสี ข้อความที่สะอาดและได้มาตรฐาน 26,709 เจซอน NLP, การจำแนกประเภท, ภาษาศาสตร์ 2018 [ 36 ]ริชาบห์ มิสรา

ข้อความ

ชื่อชุดข้อมูล คำอธิบายโดยย่อ การประมวลผลล่วงหน้า ตัวอย่าง รูปแบบ งานเริ่มต้น สร้างแล้ว (อัปเดตแล้ว) อ้างอิง ผู้สร้าง
เอนรอน คอร์ปัสอีเมลจากพนักงานของEnronถูกจัดเรียงเป็นโฟลเดอร์ ไฟล์แนบถูกลบออก ที่อยู่อีเมลที่ไม่ถูกต้องจะถูกแปลงเป็น [email protected] หรือ [email protected] ~ 500,000 ข้อความ การวิเคราะห์เครือข่ายการวิเคราะห์ความรู้สึก 2004 (2015) [ 37 ] [ 38 ]คลิมต์, บี. และ วาย. หยาง
ชุดข้อมูล Ling-Spam ชุดข้อมูลประกอบด้วยอีเมลทั้งที่เป็นอีเมลปกติและอีเมล สแปมมีการสร้าง ชุดข้อมูลสี่เวอร์ชัน โดยพิจารณาจากว่ามีการเปิดใช้งานหรือปิด ใช้งานตัวกรองคำหลัก (lemmatiser)หรือตัวกรองคำที่ไม่มีความหมาย (stop-list) หรือไม่แฮม 2,412 สแปม 481 ข้อความ การจำแนกประเภท 2000 [ 39 ] [ 40 ]แอนดรูทโซปูลอส, เจ. และคณะ
ชุดข้อมูลการรวบรวมสแปม SMS รวบรวมข้อความสแปม SMS ไม่มี. 5,574 ข้อความ การจำแนกประเภท 2011 [ 41 ] [ 42 ]ที. อัลเมดา และคณะ
ชุดข้อมูลกลุ่มข่าว 20 กลุ่ม ข้อความจากกลุ่มข่าว 20 กลุ่มที่แตกต่างกัน ไม่มี. 20,000 ข้อความ การประมวลผลภาษาธรรมชาติ 1999 [ 43 ]ที. มิตเชลล์ และคณะ
ชุดข้อมูลสแปมเบส อีเมลสแปม มีการดึงคุณลักษณะของข้อความออกมาจำนวนมาก 4,601 ข้อความ การตรวจจับและการจำแนกสแปม 1999 [ 44 ]เอ็ม. ฮอปกินส์ และคณะ

ทวิตเตอร์และทวีต

ชื่อชุดข้อมูล คำอธิบายโดยย่อ การประมวลผลล่วงหน้า ตัวอย่าง รูปแบบ งานเริ่มต้น สร้างแล้ว (อัปเดตแล้ว) อ้างอิง ผู้สร้าง
ทวีตภาพยนตร์ ชุดข้อมูลการให้คะแนนภาพยนตร์ที่สร้างขึ้นจากทวีตสาธารณะที่มีโครงสร้างที่ดี ~710,000 ข้อความ การจำแนกประเภท การถดถอย 2018 [ 45 ]เอส. ดูมส์
ทวิตเตอร์ 100k ภาพและทวีตที่จับคู่กัน 100,000 ข้อความและรูปภาพ การค้นหาข้ามสื่อ 2017 [ 46 ] [ 47 ]วาย. หู และคณะ
ความรู้สึก 140 ข้อมูลทวีตจากปี 2009 รวมถึงข้อความต้นฉบับ เวลาที่โพสต์ ผู้ใช้ และความรู้สึกที่แสดงออก จัดประเภทโดยใช้การกำกับดูแลจากระยะไกล จากการปรากฏของอีโมติคอนในทวีต 1,578,627 ทวีต, ค่าที่คั่นด้วยเครื่องหมายจุลภาค การวิเคราะห์ความรู้สึก 2009 [ 48 ] [ 49 ]เอ.โก และคณะ
ชุดข้อมูลทวิตเตอร์ของ ASU ข้อมูลเครือข่ายทวิตเตอร์ ไม่ใช่ทวีตจริง แสดงให้เห็นถึงการเชื่อมต่อระหว่างผู้ใช้จำนวนมาก ไม่มี. ผู้ใช้งาน 11,316,811 ราย การเชื่อมต่อ 85,331,846 ครั้ง ข้อความ การจัดกลุ่ม การวิเคราะห์กราฟ 2009 [ 50 ] [ 51 ]อาร์. ซาฟารานี และคณะ
เครือข่ายสังคม SNAP: ฐานข้อมูลทวิตเตอร์ ข้อมูลเครือข่ายขนาดใหญ่ของทวิตเตอร์ คุณลักษณะของโหนด วงกลม และเครือข่ายอัตตา 1,768,149 ข้อความ การจัดกลุ่ม การวิเคราะห์กราฟ 2012 [ 52 ] [ 53 ]เจ. แมคออลีย์ และคณะ
ชุดข้อมูลทวิตเตอร์สำหรับการวิเคราะห์ความรู้สึกในภาษาอาหรับ ทวีตภาษาอาหรับ ตัวอย่างถูกติดฉลากด้วยมือว่าเป็นบวกหรือลบ 2000 ข้อความ การจำแนกประเภท 2014 [ 54 ] [ 55 ]เอ็น. อับดุลลา
ชุดข้อมูล Buzz in Social Media ข้อมูลจาก Twitter และ Tom's Hardware ชุดข้อมูลนี้เน้นไปที่หัวข้อที่กำลังเป็นที่พูดถึงกันอย่างแพร่หลายในเว็บไซต์เหล่านั้น ข้อมูลถูกจัดแบ่งเป็นช่วงๆ เพื่อให้ผู้ใช้สามารถพยายามคาดการณ์เหตุการณ์ที่จะนำไปสู่กระแสความนิยมในโซเชียลมีเดียได้ 140,000 ข้อความ การถดถอย, การจำแนกประเภท 2013 [ 56 ] [ 57 ]เอฟ. คาวาลา และคณะ
การถอดความและความคล้ายคลึงทางความหมายในทวิตเตอร์ (PIT) ชุดข้อมูลนี้เน้นที่การตรวจสอบว่าทวีตต่างๆ มีความหมาย/ข้อมูลที่คล้ายคลึงกันหรือไม่ โดยมีการติดป้ายกำกับด้วยตนเอง การแบ่งคำ, ชนิดของคำ และการติดแท็กเอนทิตีที่มีชื่อ 18,762 ข้อความ การถดถอย, การจำแนกประเภท 2015 [ 58 ] [ 59 ]ซูและคณะ
ชุดข้อมูลมาตรฐาน Geoparse Twitter ชุดข้อมูลนี้ประกอบด้วยทวีตในช่วงเหตุการณ์ข่าวต่างๆ ในประเทศต่างๆ โดยมีการระบุตำแหน่งที่กล่าวถึงด้วยตนเอง เพิ่มคำอธิบายตำแหน่งลงในเมตาเดตา JSON 6,386 ทวีต, JSON การจำแนกประเภท การสกัดข้อมูล 2014 [ 60 ] [ 61 ]SE Middleton และคณะ
การเสียดสี ทั้งที่รับรู้และตั้งใจ โดยการควบคุมแบบตอบสนอง (SPIRS) ทวีตเสียดสีทั้งที่ตั้งใจและที่รับรู้ พร้อมบริบทที่รวบรวมโดยใช้การกำกับดูแลแบบตอบสนอง และตัวอย่างเชิงลบ (ไม่ใช่การเสียดสี) จำนวนเท่ากัน 30,000 รหัสทวีต, CSV การจำแนกประเภท 2020 [ 62 ] [ 63 ]บี. ชมูเอลี และคณะ
คอลเลกชันโซเชียลมีเดียของชาวดัตช์ ชุดข้อมูลนี้ประกอบด้วยทวีตเกี่ยวกับ COVID-19 ที่โพสต์โดยผู้พูดภาษาดัตช์หรือผู้ใช้จากประเทศเนเธอร์แลนด์ ข้อมูลได้รับการติดป้ายกำกับโดยเครื่องจักรแล้ว จัดประเภทตามอารมณ์ความรู้สึก ข้อความทวีต และคำอธิบายผู้ใช้ที่แปลเป็นภาษาอังกฤษ มีการดึงข้อมูลการกล่าวถึงอุตสาหกรรมออกมาด้วย 271,342 เจซอนแอล การวิเคราะห์อารมณ์ความรู้สึก, การจำแนกประเภทหลายป้ายกำกับ, การแปลด้วยเครื่องจักร 2020 [ 64 ] [ 65 ] [ 66 ]อาคช์ กุปตา, โคโรนาวาย
ชุดข้อมูล ReactionGIF ชุดข้อมูลทวีต 30,000 รายการพร้อมภาพ GIF แสดงปฏิกิริยาตอบกลับ จัดประเภทตามความรู้สึก ปฏิกิริยา และอารมณ์ 30,000 รหัสทวีต, JSONL จัดประเภทตามความรู้สึก ปฏิกิริยา และอารมณ์ 2021 [ 67 ] [ 68 ]บี. ชมูเอลี และคณะ

บทสนทนา

ชื่อชุดข้อมูล คำอธิบายโดยย่อ การประมวลผลล่วงหน้า ตัวอย่าง รูปแบบ งานเริ่มต้น สร้างแล้ว (อัปเดตแล้ว) อ้างอิง ผู้สร้าง
คลังข้อมูลแชท NPS ข้อความที่โพสต์จากห้องแชทออนไลน์เฉพาะกลุ่มอายุ ภาพมือถูกปิดบังเพื่อความเป็นส่วนตัว และมีการระบุส่วนของคำพูดและการกระทำในบทสนทนา ~ 500,000 อีเอ็มแอลอี NLP, การเขียนโปรแกรม, ภาษาศาสตร์ 2007 [ 69 ]ฟอร์ไซธ์, อี., ลิน, เจ., และ มาร์เทลล์, ซี.
คลังข้อมูลทวิตเตอร์สามชุด ข้อมูล ABA triples ที่ดึงมาจากทวิตเตอร์ 4,232 ข้อความ NLP 2016 [ 70 ]ซอร์ดินี, เอ. และคณะ
คลังข้อมูล UseNet ข้อความที่โพสต์ในฟอรัม UseNet อีเมลและ URL ที่ไม่ระบุตัวตน เอกสารที่ถูกตัดออก ได้แก่ เอกสารที่มีความยาวน้อยกว่า 500 คำ หรือมากกว่า 500,000 คำ หรือเอกสารที่มีภาษาอังกฤษน้อยกว่า 90% 7 พันล้าน ข้อความ 2011 [ 71 ]ชาอูล ซี. และเวสต์เบอรี ซี.
คลังข้อมูล SMS ของ NUS รวบรวมข้อความ SMS ระหว่างผู้ใช้สองคน พร้อมการวิเคราะห์ช่วงเวลา ~ 10,000 อีเอ็มแอลอี NLP 2011 [ 72 ]คาน, เอ็ม
คลังความคิดเห็นทั้งหมดของ Reddit คอมเมนต์ทั้งหมดบน Reddit (ณ ปี 2015) ~ 1.7 พันล้าน เจซอน NLP, การวิจัย 2015 [ 73 ]ติดอยู่ในเมทริกซ์
คลังบทสนทนาอูบุนตู บทสนทนาที่ดึงมาจากแชทสตรีมของ Ubuntu บน IRC บทสนทนา 930,000 บท, คำพูด 7.1 ล้านคำ ซีเอสวี การวิจัยระบบการสนทนา 2015 [ 74 ]โลว์, อาร์. และคณะ
ความท้าทายในการติดตามสถานะบทสนทนา การแข่งขันติดตามสถานะบทสนทนา 2 และ 3 (DSTC2&3) เป็นการแข่งขันวิจัยที่มุ่งเน้นการพัฒนาเทคโนโลยีการติดตามสถานะของระบบบทสนทนาด้วยเสียงให้ดียิ่งขึ้น การถอดเสียงบทสนทนาพร้อมติดป้ายกำกับ DSTC2 มีสายเรียกเข้าประมาณ 3,200 สาย – DSTC3 มีสายเรียกเข้าประมาณ 2,300 สาย เจซอน การติดตามสถานะการสนทนา 2014 [ 75 ]เฮนเดอร์สัน, แมทธิว และทอมสัน, เบลส และวิลเลียมส์, เจสัน ดี
คลินิก-150 รวบรวมข้อความพูดแบบรอบเดียวจากAmazon Mechanical Turkมีการจัดประเภท "เจตนา" 150 หมวด และข้อมูลเพิ่มเติมสำหรับข้อความพูดที่ "อยู่นอกขอบเขต" 23,700 เจซอน การจำแนกเจตนา 2019 [ 76 ]ลาร์สัน, เอส. และคณะ
ชื่อชุดข้อมูล คำอธิบายโดยย่อ การประมวลผลล่วงหน้า ตัวอย่าง รูปแบบ งานเริ่มต้น สร้างแล้ว (อัปเดตแล้ว) อ้างอิง ผู้สร้าง
ฟรีลอว์ ข้อมูลที่คัดกรองแล้วจาก Court Listener ซึ่งเป็นส่วนหนึ่งของโครงการ FreeLaw ข้อความที่ผ่านการทำความสะอาดและปรับให้เป็นมาตรฐานแล้ว 4,940,710 เจซอน NLP, ภาษาศาสตร์ 2020 [ 77 ]ที. ฮอปเป้
กองกฎหมาย คลังข้อมูลด้านกฎหมายและการบริหาร ทำความสะอาด ปรับให้เป็นมาตรฐาน และแปรรูปเป็นของเอกชน ~50,000,000 เจซอน NLP, ภาษาศาสตร์, อารมณ์ความรู้สึก 2022 [ 78 ] [ 79 ]แอล.เจิ้ง; เอ็น. กูฮา; บี. แอนเดอร์สัน; พี. เฮนเดอร์สัน; ดี.โฮ
โครงการเข้าถึงกฎหมายคดี หนังสือและเอกสารทางการทั้งหมดที่เกี่ยวข้องกับคำพิพากษาของศาลในสหรัฐอเมริกา ทั้งในระดับรัฐและระดับสหรัฐฯ — ทุกเล่มหรือทุกคดีที่ได้รับการกำหนดให้เป็นรายงานอย่างเป็นทางการเกี่ยวกับการตัดสินของศาลในสหรัฐอเมริกา ข้อความที่ผ่านการทำความสะอาดและปรับให้เป็นมาตรฐานแล้ว ~10,000 เจซอน NLP, ภาษาศาสตร์ 2022 [ 80 ]เอ. ไอซ์แมน; เอส. แชปแมน; เจ. คัชแมน; เค. ดูลิน; เอช. ไอโดลอน; และคณะ

ข้อความอื่นๆ

ชื่อชุดข้อมูล คำอธิบายโดยย่อ การประมวลผลล่วงหน้า ตัวอย่าง รูปแบบ งานเริ่มต้น สร้างแล้ว (อัปเดตแล้ว) อ้างอิง ผู้สร้าง
ฮันซาร์ด ภาษาฝรั่งเศส-อังกฤษ บันทึก การ ประชุม รัฐสภาแคนาดา (Hansard ) ประโยคคู่ภาษาฝรั่งเศส-อังกฤษจำนวน 2,869,040 คู่ ประกอบด้วยคำศัพท์ภาษาฝรั่งเศส 46.3 ล้านคำ และคำศัพท์ภาษาอังกฤษ 38.6 ล้านคำ (ส่วนของ IBM) และคำศัพท์ 60 ล้านคำ (ส่วนของ Bell) ประโยคคู่ภาษาฝรั่งเศส-อังกฤษ การแปล พ.ศ. 2538 [ 81 ]IBM, Bell Labs
ชุดข้อมูลเว็บออฟไซแอนซ์ ชุดข้อมูลแบบลำดับชั้นสำหรับการจำแนกประเภทข้อความ ไม่มี. 46,985 ข้อความ การจำแนกประเภท

การจัดหมวดหมู่

2017 [ 82 ] [ 83 ]เค. โคซารี และคณะ
รายงานคดีทางกฎหมาย คดีความ ของศาลสหพันธรัฐออสเตรเลียระหว่างปี 2006 ถึง 2009 ไม่มี. 4,000 ข้อความ โดยสรุป

การวิเคราะห์การอ้างอิง

2012 [ 84 ] [ 85 ]เอฟ. กัลกานี และคณะ
คลังข้อมูลผู้เขียนบล็อกเกอร์ บทความในบล็อกของผู้คน 19,320 คนจาก blogger.com บล็อกเกอร์ระบุเพศ อายุ อุตสาหกรรม และราศีด้วยตนเอง 681,288 ข้อความ การวิเคราะห์ความรู้สึก การสรุป การจำแนกประเภท 2006 [ 86 ] [ 87 ]เจ. ชเลอร์ และคณะ
โครงสร้างทางสังคมของเครือข่ายเฟซบุ๊ก ชุดข้อมูลขนาดใหญ่เกี่ยวกับโครงสร้างทางสังคมของ Facebook ไม่มี. ครอบคลุมวิทยาลัย 100 แห่ง ข้อความ การวิเคราะห์เครือข่าย การจัดกลุ่ม 2012 [ 88 ] [ 89 ]เอ. ทราวด์ และคณะ
ชุดข้อมูลสำหรับการทำความเข้าใจข้อความด้วยเครื่องจักร เรื่องราวและคำถามที่เกี่ยวข้องเพื่อทดสอบความเข้าใจในเนื้อหา ไม่มี. 660 ข้อความ การประมวลผลภาษาธรรมชาติ, การเข้าใจด้วยเครื่องจักร 2013 [ 90 ] [ 91 ]เอ็ม. ริชาร์ดสัน และคณะ
โครงการเพนน์ ทรีแบงค์ ข้อความที่เกิดขึ้นตามธรรมชาติซึ่งมีการระบุโครงสร้างทางภาษาไว้แล้ว ข้อความจะถูกแยกวิเคราะห์เป็นโครงสร้างเชิงความหมาย (semantic tree) ~ 1 ล้านคำ ข้อความ การประมวลผลภาษาธรรมชาติ, การสรุปความ พ.ศ. 2538 [ 92 ] [ 93 ]เอ็ม. มาร์คัส และคณะ
เว็บ 1T 5 กรัม ข้อความจากเว็บเพจ ส่วนหนึ่งแบ่งข้อมูลออกเป็นประโยค อีกส่วนหนึ่งแบ่งข้อมูลออกเป็น n-gram โดยที่ n = 1-5 ~1 ล้านคำ ตารางข้อความและตาราง n-gram การเรียนรู้แบบไม่มีผู้กำกับดูแล 2006 [ 94 ] [ 95 ]Google
ชุดข้อมูล DEXTER โจทย์คือ ให้พิจารณาจากคุณลักษณะที่กำหนดให้ ว่าบทความใดบ้างที่เกี่ยวกับเรื่องการควบรวมกิจการของบริษัท คุณลักษณะที่ดึงออกมา ได้แก่ รากศัพท์ รวมถึงคุณลักษณะที่ทำให้ไขว้เขวด้วย 2600 ข้อความ การจำแนกประเภท 2008 [ 96 ]รอยเตอร์
N-gram ของ Google Books N-gramจากคลังหนังสือขนาดใหญ่มาก ไม่มี. ข้อความขนาด 2.2 เทราไบต์ ข้อความ การจำแนกประเภท การจัดกลุ่ม การถดถอย 2011 [ 97 ] [ 98 ]Google
เพอร์โซนาเอ คอร์ปัส รวบรวมเพื่อใช้ในการทดลองเกี่ยวกับการระบุผู้เขียนและการทำนายบุคลิกภาพ ประกอบด้วยบทความภาษาดัตช์จำนวน 145 เรื่อง นอกจากข้อความปกติแล้ว ยังมีข้อความที่มีคำอธิบายทางด้านไวยากรณ์ให้ด้วย 145 ข้อความ การจำแนกประเภท การถดถอย 2008 [ 99 ] [ 100 ]เค. ลุยซ์ และคณะ
พุชชิฟต์ คลังเก็บข้อมูลเว็บไซต์โซเชียลมีเดีย ต่างๆ เช่นReddit , TwitterและHackernewsข้อความที่ดึงและปรับให้เป็นมาตรฐานจากไฟล์ WARC ~100,000,000 โพสต์ เจซอน NLP, การวิเคราะห์อารมณ์ความรู้สึก, ภาษาศาสตร์ 2022 [ 101 ] [ 102 ]เจ. บอมการ์ทเนอร์
เอกสารที่ยื่นต่อ SECEDGAR | การยื่นเอกสารของบริษัท ข้อความที่ดึงมา ซีเอสวี NLP
ชุดข้อมูล CNAE-9 งานจัดหมวดหมู่คำอธิบายข้อความอิสระเกี่ยวกับบริษัทต่างๆ ในบราซิล ได้ทำการแยกความถี่ของคำออกมาแล้ว 1080 ข้อความ การจำแนกประเภท 2012 [ 103 ] [ 104 ]พี. เซียเรลลี และคณะ
ชุดข้อมูลประโยคที่มีการระบุความรู้สึก ประโยคที่มีการระบุอารมณ์ความรู้สึกจำนวน 3,000 ประโยค อารมณ์ความรู้สึกของแต่ละประโยคได้รับการระบุด้วยมือว่าเป็นเชิงบวกหรือเชิงลบ 3000 ข้อความ การจำแนกประเภท การวิเคราะห์ความรู้สึก 2015 [ 105 ] [ 106 ]ดี. คอตเซียส
ชุดข้อมูลความคิดเห็นบล็อก ชุดข้อมูลสำหรับทำนายจำนวนความคิดเห็นที่โพสต์จะได้รับ โดยพิจารณาจากคุณลักษณะของโพสต์นั้น มีการดึงคุณสมบัติหลายอย่างจากแต่ละโพสต์ออกมา 60,021 ข้อความ การถดถอย 2014 [ 107 ] [ 108 ]เค. บูซา
พับเมดเซ็นทรัลPubMed® ประกอบด้วยข้อมูลอ้างอิงมากกว่า 35 ล้านรายการสำหรับวรรณกรรมทางการแพทย์และชีววิทยา จาก MEDLINE วารสารวิทยาศาสตร์ชีวภาพ และหนังสือออนไลน์ ไม่มี 35 ล้าน ข้อความ NLP
สำนักงานสิทธิบัตรและเครื่องหมายการค้าของสหรัฐอเมริกาสำนักงานสิทธิบัตรและเครื่องหมายการค้าแห่งสหรัฐอเมริกา ข้อความ NLP
ฟิลเปเปอร์สแหล่งรวบรวมผลงานตีพิมพ์ด้านปรัชญาที่เปิดให้เข้าถึงได้ฟรี ข้อความ NLP
คลังหนังสือคลังข้อความขนาดใหญ่ที่เป็นที่นิยม ไม่มี ข้อความ NLP 2015 [ 109 ]จู้ ยู่คุน และคณะ
คลังข้อมูลการอนุมานภาษาธรรมชาติของสแตนฟอร์ด (SNLI) คำบรรยายภาพจะถูกจับคู่กับประโยคที่สร้างขึ้นใหม่เพื่อสร้างคู่ความสัมพันธ์แบบอนุมาน ขัดแย้ง หรือเป็นกลาง ป้ายกำกับคลาสการอนุมาน การวิเคราะห์ไวยากรณ์โดยตัวแยกวิเคราะห์ PCFG ของ Stanford 570,000 ข้อความ การอนุมานภาษาธรรมชาติ/การรับรู้ความสัมพันธ์เชิงตรรกะของข้อความ 2015 [ 110 ]เอส. โบว์แมน และคณะ
ชุดคลังข้อมูล DSL (DSLCC) เป็นการรวบรวมบทความสั้น ๆ จากสื่อสิ่งพิมพ์หลายภาษาที่มีภาษาและสำเนียงคล้ายคลึงกัน ไม่มี 294,000 วลี ข้อความ การแยกแยะความแตกต่างระหว่างภาษาที่คล้ายคลึงกัน 2017 [ 111 ]ตัน, ลิลลิง และคณะ
ชุดข้อมูล Urban Dictionaryคลังคำศัพท์ คะแนนโหวต และคำจำกัดความ ชื่อผู้ใช้ถูกปกปิดไว้ 2,580,925 ซีเอสวี NLP, การเข้าใจด้วยเครื่องจักร พฤษภาคม 2559 [ 112 ]นิรนาม
ที-เร็กซ์ บทคัดย่อ ของวิกิพีเดียสอดคล้องกับเอน ทิตี ของวิกิดาต้าการจัดเรียงข้อมูลสามส่วนของวิกิดาต้าให้ตรงกับบทคัดย่อของวิกิพีเดีย ทริปเปิลที่เรียงตัวกัน 11 ล้าน JSON และ NIF [4]NLP, การสกัดความสัมพันธ์ 2018 [ 113 ]เอช. เอลซาฮาร์ และคณะ
การประเมินความเข้าใจภาษาทั่วไป (GLUE) เกณฑ์มาตรฐานของงานเก้าอย่าง หลากหลาย ประโยคและคู่ประโยคประมาณ 1 ล้านประโยค เอ็นแอลยู 2018 [ 114 ] [ 115 ] [ 116 ]หวังและคณะ
ชุดข้อมูลความเข้าใจสัญญาของแอตติคัส (CUAD) (เดิมชื่อชุดข้อมูลสัญญาเปิดของแอตติคัส (AOK)) ชุดข้อมูลสัญญาทางกฎหมายพร้อมคำอธิบายประกอบจากผู้เชี่ยวชาญอย่างครบถ้วน ฉลากประมาณ 13,000 ชิ้น CSV และ PDF การประมวลผลภาษาธรรมชาติ, ถาม-ตอบ 2021 โครงการแอตติคัส
ชุดข้อมูลคำบรรยายภาพภาษาเวียดนาม (UIT-ViIC) ชุดข้อมูลคำบรรยายภาพภาษาเวียดนาม คำบรรยายภาพ 19,250 รายการ สำหรับภาพ 3,850 ภาพ CSV และ PDF การประมวลผลภาษาธรรมชาติ, คอมพิวเตอร์วิชั่น 2020 [ 117 ]แลมและคณะ
ชื่อภาษาเวียดนามพร้อมระบุเพศ (UIT-ViNames) ชื่อภาษาเวียดนามพร้อมระบุเพศ ชื่อเต็มภาษาเวียดนาม 26,850 ชื่อ พร้อมระบุเพศ ซีเอสวี การประมวลผลภาษาธรรมชาติ 2020 [ 118 ]ถึง และคณะ
ชุดข้อมูลการตรวจจับคำพูดเชิงสร้างสรรค์และคำพูดที่เป็นพิษของเวียดนาม (UIT-ViCTSD) ชุดข้อมูลการตรวจจับคำพูดเชิงสร้างสรรค์และคำพูดที่เป็นพิษในภาษาเวียดนาม ความคิดเห็นจากผู้ใช้ชาวเวียดนาม 10,000 คน ในหนังสือพิมพ์ออนไลน์บน 10 โดเมน ซีเอสวี การประมวลผลภาษาธรรมชาติ 2021 [ 119 ]เหงียนและคณะ
พีจี-19ชุดหนังสือที่คัดมาจากคลังหนังสือของโครงการกูเตนเบิร์ก ข้อความ การประมวลผลภาษาธรรมชาติ 2019 แจ็ค ดับเบิลยู และคณะ
คณิตศาสตร์ดีพมายด์คำถามและคำตอบทางคณิตศาสตร์ ข้อความ การประมวลผลภาษาธรรมชาติ 2018 [ 120 ]ดี. แซกซ์ตัน และคณะ
คลังเอกสารของแอนนาคลังเอกสารและหนังสือที่ตีพิมพ์อย่างครอบคลุม ไม่มี 100,356,641 ข้อความ, อีพับ, PDF การประมวลผลภาษาธรรมชาติ 2024

ข้อมูลเสียง

ชุดข้อมูลเหล่านี้ประกอบด้วยเสียงและคุณลักษณะของเสียงที่ใช้สำหรับงานต่างๆ เช่นการรู้จำเสียงพูดและการสังเคราะห์เสียงพูด

คำพูด

ชื่อชุดข้อมูล คำอธิบายโดยย่อ การประมวลผลล่วงหน้า ตัวอย่าง รูปแบบ งานเริ่มต้น สร้างแล้ว (อัปเดตแล้ว) อ้างอิง ผู้สร้าง
แผงสวิตช์บอร์ด-1 การสนทนาทางโทรศัพท์ บันทึกเสียงการสนทนาทางโทรศัพท์แบบสองทางประมาณ 2,400 ครั้ง รวมเป็นเวลา 260 ชั่วโมง จากผู้พูด 543 คน (ชาย 302 คน หญิง 241 คน) ทั่วสหรัฐอเมริกา ซึ่งรวบรวมโดยบริษัทเท็กซัส อินสตรูเมนต์ส ในปี 1990–1991 ไฟล์เสียง, ข้อความถอดเสียง, การประทับเวลาในระดับคำ, การถอดเสียงตามหลักสัทศาสตร์ การรู้จำเสียงพูด การถอดเสียงตามหลักสัทศาสตร์ 1992 (2000) [ 121 ] [ 122 ]เอ็นไอเอสที
ฮับ5'00 การสนทนาทางโทรศัพท์ บันทึกเสียงพูด 260 ชั่วโมง จากผู้พูด 543 คน (ชาย 302 คน หญิง 241 คน) จากทั่วสหรัฐอเมริกา สำหรับการสนทนาทางโทรศัพท์แบบสองทางประมาณ 2,400 ครั้ง รวมประมาณ 3 ล้านคำ รวบรวมโดยบริษัท Texas Instruments ในปี 1990–1991 ไฟล์เสียง, ข้อความถอดเสียง, การประทับเวลาในระดับคำ, การถอดเสียงตามหลักสัทศาสตร์ การรู้จำเสียงพูด การถอดเสียงตามหลักสัทศาสตร์ ชุดข้อมูลทดสอบที่ใช้กันทั่วไปสำหรับชุดข้อมูลนี้เรียกว่า "Hub5'00" 1992 (2000) [ 121 ] [ 122 ]เอ็นไอเอสที
การแข่งขันพูดสุนทรพจน์ไร้ทรัพยากร ปี 2015 การพูดโดยธรรมชาติ (ภาษาอังกฤษ), การอ่านคำพูด (ภาษาซิทซองกา) ไม่มีครับ เป็นไฟล์ WAV ดิบๆ ภาษาอังกฤษ: 5 ชั่วโมง, ผู้พูด 12 คน; ภาษาซิทซองกา: 2 ชั่วโมง 30 นาที, ผู้พูด 24 คน WAV (ไฟล์เสียงเท่านั้น) การค้นพบคุณลักษณะทางเสียง/หน่วยย่อยของคำ/หน่วยคำโดยปราศจากการกำกับดูแล 2015 [ 123 ] [ 124 ]เวอร์สตีห์และคณะ
ชุดข้อมูลคำพูดเกี่ยวกับโรคพาร์กินสัน บันทึกภาพหลายรายการของผู้ที่มีและไม่มีโรคพาร์กินสัน สกัดคุณลักษณะของเสียง และแพทย์ประเมินความรุนแรงของโรคโดยใช้มาตราส่วนการให้คะแนนโรคพาร์กินสันแบบรวม (Unified Parkinson's Disease Rating Scale ) 1,040 ข้อความ การจำแนกประเภท การถดถอย 2013 [ 125 ] [ 126 ]บีอี ซาการ์ และคณะ
ตัวเลขภาษาอาหรับที่พูด ตัวเลขภาษาอาหรับที่ใช้พูด ตั้งแต่ 44 สำหรับผู้ชายและ 44 สำหรับผู้หญิง อนุกรมเวลาของสัมประสิทธิ์ เซปสตรัมความถี่เมล8,800 ข้อความ การจำแนกประเภท 2010 [ 127 ] [ 128 ]เอ็ม. เบดดา และคณะ
ชุดข้อมูล ISOLET ชื่อตัวอักษรที่ออกเสียง คุณลักษณะที่สกัดจากเสียง 7797 ข้อความ การจำแนกประเภท พ.ศ. 2537 [ 129 ] [ 130 ]อาร์. โคล และคณะ
ชุดข้อมูลสระภาษาญี่ปุ่น ผู้ชายเก้าคนออกเสียงสระภาษาญี่ปุ่นสองตัวติดต่อกัน นำการวิเคราะห์การทำนายเชิงเส้น 12 ระดับมาประยุกต์ใช้เพื่อให้ได้อนุกรมเวลาแบบไม่ต่อเนื่องที่มีสัมประสิทธิ์เซปสตรัม 12 ตัว 640 ข้อความ การจำแนกประเภท 1999 [ 131 ] [ 132 ]เอ็ม. คูโด และคณะ
ชุดข้อมูลการตรวจติดตามทางไกลของโรคพาร์กินสัน บันทึกภาพหลายรายการของผู้ที่มีและไม่มีโรคพาร์กินสัน ดึงคุณลักษณะเสียงออกมา 5875 ข้อความ การจำแนกประเภท 2009 [ 133 ] [ 134 ]เอ. ซานาส และคณะ
ทิมิตบันทึกเสียงจากผู้พูด 630 คน ซึ่งใช้สำเนียงหลัก 8 สำเนียงของภาษาอังกฤษแบบอเมริกัน โดยแต่ละคนอ่านประโยคที่มีการออกเสียงหลากหลายจำนวน 10 ประโยค คำพูดจะถูกถอดเสียงทั้งในแง่ของคำศัพท์และหน่วยเสียง 6300 ข้อความ การรู้จำและการจำแนกเสียงพูด พ.ศ. 2529 [ 135 ] [ 136 ]เจ. การอโฟโล และคณะ
คลังข้อมูลเสียงภาษาอาหรับชุดข้อมูลเสียงพูดภาษา อาหรับมาตรฐานสมัยใหม่ (MSA) จากผู้พูดคนเดียวพร้อมด้วยการถอดเสียงทางสัทศาสตร์และการสะกดคำที่ตรงกับระดับเสียงพยัญชนะ คำพูดจะถูกถอดเสียงทั้งทางด้านการเขียนและการออกเสียง โดยใส่เครื่องหมายเน้นเสียงด้วย ~1900 ข้อความ, WAV การสังเคราะห์เสียงพูด, การรู้จำเสียงพูด, การจัดเรียงคลังข้อมูล, การบำบัดการพูด, การศึกษา 2016 [ 137 ]เอ็น. ฮาลาบี
เสียงสามัญฐานข้อมูลสาธารณะที่รวบรวมข้อมูลจากผู้คนจำนวนมากเกี่ยวกับภาษาถิ่นหลากหลายประเภท การตรวจสอบความถูกต้องโดยผู้ใช้รายอื่น ภาษาอังกฤษ: 1,118 ชั่วโมง ไฟล์ MP3 พร้อมไฟล์ข้อความที่เกี่ยวข้อง การรู้จำเสียงพูด มิถุนายน 2017 (ธันวาคม 2019) [ 138 ]โมซโมซา
แอลเจสปีช ชุด ข้อมูลเสียงหนังสือภาษาอังกฤษสาธารณะที่บันทึกโดยผู้พูดคนเดียว แบ่งออกเป็นคลิปสั้นๆ ตามเครื่องหมายวรรคตอน ตรวจสอบคุณภาพ ถอดเสียงอย่างเป็นมาตรฐานควบคู่ไปกับต้นฉบับ 13,100 ซีเอสวี, ดับเบิลยูวี การสังเคราะห์เสียงพูด 2017 [ 139 ]คีธ อิโตะ, ลินดา จอห์นสัน
ชุดข้อมูลคำสั่งเสียงภาษาอาหรับรวบรวมจากผู้ร่วมให้ข้อมูล 30 คน และจัดกลุ่มเป็น 40 คำหลัก ไฟล์ WAV ดิบ 12,000 WAV, CSV การรู้จำเสียงพูด การตรวจจับคำสำคัญ 2021 [ 140 ]อับดุลกาเดอร์ กันดูรา

ดนตรี

ชื่อชุดข้อมูล คำอธิบายโดยย่อ การประมวลผลล่วงหน้า ตัวอย่าง รูปแบบ งานเริ่มต้น สร้างแล้ว (อัปเดตแล้ว) อ้างอิง ผู้สร้าง
ชุดข้อมูลแหล่งกำเนิดทางภูมิศาสตร์ของดนตรี คุณลักษณะด้านเสียงของตัวอย่างเพลงจากสถานที่ต่างๆ คุณลักษณะเสียงที่แยกออกมาโดยใช้ซอฟต์แวร์ MARSYAS 1,059 ข้อความ การจำแนกทางภูมิศาสตร์ การจัดกลุ่ม 2014 [ 141 ] [ 142 ]เอฟ. โจว และคณะ
ชุดข้อมูลเพลงนับล้านเพลง คุณสมบัติเสียงจากเพลงกว่าหนึ่งล้านเพลง ดึงคุณสมบัติเสียงออกมาแล้ว 1 ล้าน ข้อความ การจำแนกประเภท การจัดกลุ่ม 2011 [ 143 ] [ 144 ]ที. เบอร์แต็ง-มาฮิเยอซ์ และคณะ
เอ็มเอสดีบี18 การบันทึกเพลงยอดนิยมแบบหลายแทร็ก เสียงดิบ 150 MP4, WAV การแยกแหล่งกำเนิด 2017 [ 145 ]Z. Rafii และคณะ
คลังเพลงฟรีไฟล์เสียงอยู่ภายใต้ลิขสิทธิ์ Creative Commonsจากเพลงกว่า 100,000 เพลง (343 วัน, 1 TiB) พร้อมลำดับชั้นของประเภทเพลง 161 ประเภท ข้อมูลเมตา ข้อมูลผู้ใช้ และข้อความอิสระ ไฟล์เสียงดิบและคุณสมบัติของเสียง 106,574 ข้อความ, MP3 การจำแนกประเภท, คำแนะนำ 2017 [ 146 ]เอ็ม. เดฟเฟอร์ราร์ด และคณะ
ชุดข้อมูลความกลมกลืนของเสียงประสานของบาค คอร์ดเพลงประสานเสียงของบาค ดึงคุณสมบัติเสียงออกมาแล้ว 5665 ข้อความ การจำแนกประเภท 2014 [ 147 ] [ 148 ]ดี. ราดิซิโอนี และคณะ

เสียงอื่นๆ

ชื่อชุดข้อมูล คำอธิบายโดยย่อ การประมวลผลล่วงหน้า ตัวอย่าง รูปแบบ งานเริ่มต้น สร้างแล้ว (อัปเดตแล้ว) อ้างอิง ผู้สร้าง
เออร์บันซาวด์ บันทึกเสียงที่มีการระบุชื่อเสียงต่างๆ เช่น เสียงเครื่องปรับอากาศ เสียงแตรรถยนต์ และเสียงเด็กเล่น จัดเรียงข้อมูลเป็นโฟลเดอร์ตามประเภทของเหตุการณ์ รวมถึงข้อมูลเมตาในไฟล์ JSON และคำอธิบายประกอบในไฟล์ CSV 1,059 เสียง

( WAV )

การจำแนกประเภท 2014 [ 149 ] [ 150 ]เจ. ซาลามอน และคณะ
ชุดเสียง คลิปเสียงความยาว 10 วินาทีจากวิดีโอ YouTube และระบบจัดหมวดหมู่ที่มีป้ายกำกับมากกว่า 500 รายการ คุณสมบัติคล้าย VGG ที่ผ่านการประมวลผล PCA 128 รายการ ทุกๆ 1 วินาที 2,084,320 ไฟล์ข้อความ (CSV) และไฟล์บันทึก TensorFlow การจำแนกประเภท 2017 [ 151 ]เจ. เจมเมค และคณะ, กูเกิล
ความท้าทายในการตรวจจับเสียงนก เสียงจากสถานีตรวจวัดสภาพแวดล้อม รวมทั้งเสียงบันทึกจากประชาชนทั่วไป 17,000+ การจำแนกประเภท 2016 (2018) [ 152 ] [ 153 ]มหาวิทยาลัยควีนแมรีและสมาคมประมวลผลสัญญาณ IEEE
WSJ0 Hipster Ambient Mixtures เสียงจาก WSJ0 ผสมกับเสียงรบกวนที่บันทึกในบริเวณอ่าวซานฟรานซิสโกคลิปเสียงรบกวนที่ตรงกับคลิป WSJ0 28,000 ไฟล์เสียง ( WAV ) การแยกแหล่งกำเนิดเสียง 2019 [ 154 ]วิเชิร์น, จี. และคณะ, วิสเปอร์และเมอร์ล
โคลโธ ไฟล์เสียงจำนวน 4,981 ไฟล์ แต่ละไฟล์มีความยาว 15 ถึง 30 วินาที และมีคำบรรยาย 5 แบบที่แตกต่างกัน โดยแต่ละคำบรรยายมีความยาว 8 ถึง 20 คำ 24,905 ไฟล์เสียง ( WAV ) และไฟล์ข้อความ ( CSV ) การสร้างคำบรรยายเสียงอัตโนมัติ 2020 [ 155 ] [ 156 ]เค. ดรอสซอส, เอส. ลิปปิง และ ที. เวอร์ทาเนน
เอฟเฟ็กต์เสียงระดับมืออาชีพ ชุดข้อมูลส่วนตัวประกอบด้วยเสียงเอฟเฟ็กต์ที่บันทึกอย่างมืออาชีพจำนวน 1.27 ล้านรายการ ใน 672 หมวดหมู่ – คัดสรรและพร้อมสำหรับการฝึกฝน AI การทดสอบ และการใช้งานเชิงพาณิชย์ ข้อมูลเมตาที่ติดแท็กโดยมนุษย์ 100% เป็นไปตามหลักการจำแนกประเภทสากล (Universal Category System ontology) 1,272,241 ไฟล์เสียง (WAV) การจำแนกประเภท การแยกแหล่งที่มา การดึงข้อมูล ปัญญาประดิษฐ์เชิงสร้างสรรค์ 2026 [ 157 ]เอฟเฟ็กต์เสียงระดับมืออาชีพ

ข้อมูลสัญญาณ

ชุดข้อมูลที่มีข้อมูลสัญญาณไฟฟ้าซึ่งต้องผ่านกระบวนการประมวลผลสัญญาณเพื่อการวิเคราะห์เพิ่มเติม

ไฟฟ้า

ชื่อชุดข้อมูล คำอธิบายโดยย่อ การประมวลผลล่วงหน้า ตัวอย่าง รูปแบบ งานเริ่มต้น สร้างแล้ว (อัปเดตแล้ว) อ้างอิง ผู้สร้าง
ชุดข้อมูลหนอนเจ้าเล่ห์ ชุดข้อมูลที่แสดงรายละเอียดการแพร่กระจายของเวิร์ม Wittyและคอมพิวเตอร์ที่ติดไวรัส แบ่งออกเป็นชุดข้อมูลที่เปิดเผยต่อสาธารณะและชุดข้อมูลที่จำกัด ซึ่งประกอบด้วยข้อมูลที่ละเอียดอ่อนกว่า เช่น ที่อยู่ IP และส่วนหัวของโปรโตคอล UDP ที่อยู่ IP จำนวน 55,909 รายการ ข้อความ การจำแนกประเภท 2004 [ 158 ] [ 159 ]ศูนย์วิเคราะห์ข้อมูลอินเทอร์เน็ตประยุกต์
ชุดข้อมูลการประมาณค่าความดันโลหิตโดยไม่ต้องใช้ปลอกแขน สัญญาณชีพที่ผ่านการกรองจากผู้ป่วย ซึ่งสามารถนำมาใช้ในการประมาณค่าความดันโลหิตได้ สัญญาณชีพที่ความถี่ 125 เฮิรตซ์ได้รับการทำความสะอาดแล้ว 12,000 ข้อความ การจำแนกประเภท การถดถอย 2015 [ 160 ] [ 161 ]เอ็ม. คาชูอี และคณะ
ชุดข้อมูลการเคลื่อนตัวของอาร์เรย์เซ็นเซอร์ก๊าซ การวัดค่าจากเซ็นเซอร์เคมี 16 ตัวที่ใช้ในการจำลองเพื่อชดเชยการเปลี่ยนแปลงค่า มีคุณสมบัติมากมายให้เลือกใช้ 13,910 ข้อความ การจำแนกประเภท 2012 [ 162 ] [ 163 ]เอ. เวอร์การา
ชุดข้อมูลเซอร์โว ข้อมูลเกี่ยวกับความสัมพันธ์แบบไม่เชิงเส้นที่พบในวงจรเซอร์โวแอมพลิฟายเออร์ มีการระบุระดับของส่วนประกอบต่างๆ โดยขึ้นอยู่กับส่วนประกอบอื่นๆ 167 ข้อความ การถดถอย พ.ศ. 2536 [ 164 ] [ 165 ]เค. อุลริช
ชุดข้อมูล UJIIndoorLoc-Mag ฐานข้อมูลระบุตำแหน่งภายในอาคารสำหรับทดสอบระบบระบุตำแหน่งภายในอาคาร ข้อมูลอิงตามสนามแม่เหล็ก มีการแบ่งข้อมูลสำหรับการฝึกฝนและทดสอบไว้แล้ว 40,000 ข้อความ การจำแนกประเภท การถดถอย การจัดกลุ่ม 2015 [ 166 ] [ 167 ]ดี. แรมบลา และคณะ
ชุดข้อมูลการวินิจฉัยไดรฟ์ไร้เซ็นเซอร์ สัญญาณไฟฟ้าจากมอเตอร์ที่มีชิ้นส่วนชำรุด คุณลักษณะทางสถิติที่สกัดออกมา 58,508 ข้อความ การจำแนกประเภท 2015 [ 168 ] [ 169 ]เอ็ม. บาเตอร์

การติดตามการเคลื่อนไหว

ชื่อชุดข้อมูล คำอธิบายโดยย่อ การประมวลผลล่วงหน้า ตัวอย่าง รูปแบบ งานเริ่มต้น สร้างแล้ว (อัปเดตแล้ว) อ้างอิง ผู้สร้าง
การประมวลผลแบบสวมใส่ได้: การจำแนกประเภทท่าทางและการเคลื่อนไหวของร่างกาย (PUC-Rio) ผู้คนทำกิจกรรมพื้นฐาน 5 อย่างขณะสวมใส่อุปกรณ์ติดตามการเคลื่อนไหว ไม่มี. 165,632 ข้อความ การจำแนกประเภท 2013 [ 170 ] [ 171 ]มหาวิทยาลัยสังฆราชคาทอลิกแห่งรีโอเดจาเนโร
ชุดข้อมูลการแบ่งส่วนเฟสท่าทาง คุณลักษณะที่สกัดจากวิดีโอของผู้คนที่กำลังทำท่าทางต่างๆ คุณลักษณะที่สกัดออกมามีจุดมุ่งหมายเพื่อศึกษาการแบ่งส่วนระยะของท่าทาง 9900 ข้อความ การจำแนกประเภท การจัดกลุ่ม 2014 [ 172 ] [ 173 ]อาร์. มาเดโอ และคณะ
ชุดข้อมูลการกระทำทางกายภาพของ Vicon การเคลื่อนไหวทางกายภาพปกติ 10 ท่า และการเคลื่อนไหวเชิงรุก 10 ท่า ที่วัดกิจกรรมของมนุษย์โดยใช้ตัวติดตาม 3 มิติ พารามิเตอร์หลายอย่างถูกบันทึกโดยอุปกรณ์ติดตาม 3 มิติ 3000 ข้อความ การจำแนกประเภท 2011 [ 174 ] [ 175 ]ที. ธีโอโดริดิส
ชุดข้อมูลกิจกรรมประจำวันและกิจกรรมกีฬา ข้อมูลจากเซ็นเซอร์วัดการเคลื่อนไหว สำหรับกิจกรรมประจำวันและกิจกรรมกีฬา 19 อย่าง มีการติดตั้งเซ็นเซอร์จำนวนมาก แต่ไม่มีการประมวลผลสัญญาณล่วงหน้า 9120 ข้อความ การจำแนกประเภท 2013 [ 176 ] [ 177 ]บี. บาร์ชัน และคณะ
ชุดข้อมูลการจดจำกิจกรรมของมนุษย์โดยใช้สมาร์ทโฟน ข้อมูลจากไจโรสโคปและมาตรวัดความเร่งจากผู้คนที่สวมใส่สมาร์ทโฟนและทำกิจกรรมตามปกติ การกระทำที่เกิดขึ้นจะถูกระบุไว้ และสัญญาณทั้งหมดได้รับการประมวลผลล่วงหน้าเพื่อลดสัญญาณรบกวน 10,299 ข้อความ การจำแนกประเภท 2012 [ 178 ] [ 179 ]เจ. เรเยส-ออร์ติซ และคณะ
สัญลักษณ์ภาษามือออสเตรเลีย สัญลักษณ์ภาษามือออสเตรเลียที่บันทึกโดยถุงมือติดตามการเคลื่อนไหว ไม่มี. 2565 ข้อความ การจำแนกประเภท 2002 [ 180 ] [ 181 ]เอ็ม. คาดูส
การออกกำลังกายยกน้ำหนักได้รับการตรวจสอบด้วยอุปกรณ์วัดแรงเฉื่อย การออกกำลังกายบริหารกล้ามเนื้อไบเซปส์ 5 รูปแบบ โดยมีการตรวจสอบด้วยอุปกรณ์วัดการเคลื่อนไหวแบบอิสระ (IMU) สถิติบางส่วนคำนวณจากข้อมูลดิบ 39,242 ข้อความ การจำแนกประเภท 2013 [ 182 ] [ 183 ]ดับเบิลยู. อูกูลีโน และคณะ
ชุดข้อมูล sEMG สำหรับการเคลื่อนไหวพื้นฐานของมือ ฐานข้อมูลสองชุดของสัญญาณอิเล็กโทรไมโอแกรมพื้นผิวของการเคลื่อนไหวของมือ 6 ท่า ไม่มี. 3000 ข้อความ การจำแนกประเภท 2014 [ 184 ] [ 185 ]ซี. ซัปซานิส และคณะ
ชุดข้อมูลการจดจำกิจกรรม REALDISP ประเมินเทคนิคต่างๆ ที่เกี่ยวข้องกับการจัดการผลกระทบจากการเคลื่อนที่ของเซ็นเซอร์ในการตรวจจับกิจกรรมบนอุปกรณ์สวมใส่ ไม่มี. 1419 ข้อความ การจำแนกประเภท 2014 [ 185 ] [ 186 ]โอ. บาโนส และคณะ
ชุดข้อมูลการจำแนกกิจกรรมความหลากหลาย ข้อมูลจากอุปกรณ์อัจฉริยะหลากหลายชนิด สำหรับมนุษย์ที่กำลังทำกิจกรรมต่างๆ ไม่มี. 43,930,257 ข้อความ การจำแนกประเภท การจัดกลุ่ม 2015 [ 187 ] [ 188 ]เอ. สติเซน และคณะ
การคาดการณ์การเคลื่อนไหวของผู้ใช้ภายในอาคารจากข้อมูล RSS ข้อมูลเครือข่ายไร้สายตามเวลาที่สามารถนำมาใช้ติดตามการเคลื่อนไหวของผู้คนในสำนักงานได้ ไม่มี. 13,197 ข้อความ การจำแนกประเภท 2016 [ 189 ] [ 190 ]ดี. บาคชู
ชุดข้อมูลการติดตามกิจกรรมทางกายภาพ PAMAP2 กิจกรรมทางกายภาพ 18 ประเภทที่แตกต่างกัน ซึ่งดำเนินการโดยผู้เข้าร่วม 9 คน โดยแต่ละคนสวมอุปกรณ์วัดการเคลื่อนไหว (IMU) 3 ตัว ไม่มี. 3,850,505 ข้อความ การจำแนกประเภท 2012 [ 191 ]เอ. ไรส์
ชุดข้อมูลการระบุการทำกิจกรรมโอกาส ชุดข้อมูลการจดจำกิจกรรมของมนุษย์จากเซ็นเซอร์แบบสวมใส่ เซ็นเซอร์วัตถุ และเซ็นเซอร์สภาพแวดล้อม เป็นชุดข้อมูลที่สร้างขึ้นเพื่อใช้เป็นเกณฑ์มาตรฐานสำหรับอัลกอริธึมการจดจำกิจกรรมของมนุษย์ ไม่มี. 2551 ข้อความ การจำแนกประเภท 2012 [ 192 ] [ 193 ]ดี. ร็อกเกน และคณะ
ชุดข้อมูลการจดจำกิจกรรมในโลกแห่งความเป็นจริง การตรวจจับการเคลื่อนไหวของมนุษย์จากอุปกรณ์สวมใส่ สามารถแยกแยะตำแหน่งการสวมใส่อุปกรณ์บนร่างกายได้เจ็ดตำแหน่ง และประกอบด้วยเซ็นเซอร์ที่แตกต่างกันหกประเภท ไม่มี. 3,150,000 (ต่อเซ็นเซอร์) ข้อความ การจำแนกประเภท 2016 [ 194 ]ที. สไตเลอร์ และคณะ
ชุดข้อมูลท่าผู้ป่วยโรคหลอดเลือดสมองของศูนย์ฟื้นฟูสมรรถภาพโทรอนโต การประมาณท่าทางมนุษย์แบบ 3 มิติ (Kinect) ของผู้ป่วยโรคหลอดเลือดสมองและผู้เข้าร่วมที่มีสุขภาพดีขณะทำภารกิจต่างๆ โดยใช้หุ่นยนต์ฟื้นฟูสมรรถภาพผู้ป่วยโรคหลอดเลือดสมอง ไม่มี. ผู้ที่มีสุขภาพดี 10 คน และผู้รอดชีวิตจากโรคหลอดเลือดสมอง 9 คน (3500–6000 เฟรมต่อคน) ซีเอสวี การจำแนกประเภท 2017 [ 195 ] [ 196 ] [ 197 ]อี. โดลาตาบาดี และคณะ
คลังข้อมูลการสัมผัสทางสังคม (Cost) บันทึกการเคลื่อนไหว 7805 ครั้ง จากท่าทางการสัมผัสทางสังคม 14 ท่าที่แตกต่างกัน โดยผู้เข้าร่วม 31 คน ท่าทางเหล่านี้แสดงในสามรูปแบบ ได้แก่ เบา ปกติ และแรง บนแผงเซ็นเซอร์วัดแรงกดที่พันรอบแขนหุ่นจำลอง ท่าทางการสัมผัสที่กระทำจะถูกแบ่งส่วนและติดป้ายกำกับ การจับภาพท่าทาง 7805 ซีเอสวี การจำแนกประเภท 2016 [ 198 ] [ 199 ]เอ็ม. จุง และคณะ

สัญญาณอื่นๆ

ชื่อชุดข้อมูล คำอธิบายโดยย่อ การประมวลผลล่วงหน้า ตัวอย่าง รูปแบบ งานเริ่มต้น สร้างแล้ว (อัปเดตแล้ว) อ้างอิง ผู้สร้าง
ชุดข้อมูลไวน์ การวิเคราะห์ทางเคมีของไวน์ที่ปลูกในภูมิภาคเดียวกันในอิตาลี แต่ได้มาจากองุ่นสามสายพันธุ์ที่แตกต่างกัน ไวน์แต่ละชนิดมีคุณสมบัติ 13 ประการดังนี้ 178 ข้อความ การจำแนกประเภท การถดถอย 1991 [ 200 ] [ 201 ]เอ็ม. ฟอรินา และคณะ
ชุดข้อมูลโรงไฟฟ้าพลังงานความร้อนร่วม ข้อมูลจากเซ็นเซอร์ต่างๆ ภายในโรงไฟฟ้าที่ดำเนินการมาเป็นเวลา 6 ปี ไม่มี 9568 ข้อความ การถดถอย 2014 [ 202 ] [ 203 ]พี. ทูเฟคซี และคณะ

ข้อมูลทางเคมี

ชุดข้อมูลจากระบบทางกายภาพ

ปฏิกิริยาเคมีที่มีสถานะเปลี่ยนผ่าน (TS)

OpenReACT-CHON-EFH

OpenReACT-CHON-EFH ( ชุดข้อมูล ปฏิกิริยาแบบเปิดของโครงสร้างอะตอมที่ประกอบด้วยC , H , OและNพร้อมด้วยพลังงานแรงและเฮส เซียน) เป็นเกณฑ์มาตรฐานแบบเปิดสำหรับการเรียนรู้ของเครื่องจักร เกี่ยวกับศักยภาพระหว่างอะตอมในปี 2025

  • **ชุด RTP** – รูปทรงเรขาคณิตจุดนิ่ง 35,087 รูป (สารตั้งต้น สถานะเปลี่ยนผ่าน และผลิตภัณฑ์) ที่ได้มาจากปฏิกิริยาพื้นฐาน 11,961 ปฏิกิริยา โดยแต่ละรูปมีการระบุพลังงานฟังก์ชันความหนาแน่น แรงอะตอม และเมทริกซ์เฮสเซียนแบบเต็มที่ระดับ ωB97X-D/6-31G(d)
  • **ชุดข้อมูล IRC** – โครงสร้าง 34,248 โครงสร้างตามเส้นทางปฏิกิริยาพลังงานต่ำสุด 600 เส้นทาง ใช้เพื่อทดสอบการคาดการณ์นอกเหนือจากจุดคงที่ที่ได้รับการฝึกฝนแล้ว
  • **ชุด NMS** – รูปทรงเรขาคณิตนอกสมดุลจำนวน 62,527 แบบ ที่สร้างขึ้นโดยการสุ่มตัวอย่างโหมดปกติ เพื่อตรวจสอบความทนทานของแบบจำลองภายใต้การรบกวนทางความร้อน

ชุดข้อมูลดังกล่าวสนับสนุนการศึกษาเรื่อง " ข้อมูล Hessian ช่วยปรับปรุงประสิทธิภาพของศักยภาพการเรียนรู้ของเครื่องหรือไม่?"และถูกนำมาใช้เพื่อฝึกฝนและเปรียบเทียบศักยภาพระหว่างอะตอมของการเรียนรู้ของเครื่องที่รายงานไว้ในนั้น[ 204 ]

ชุดข้อมูลนี้เผยแพร่ภายใต้ใบอนุญาต CC ผ่าน Figshare [ 205 ]

ข้อมูลทางกายภาพ

ชุดข้อมูลจากระบบทางกายภาพ

ฟิสิกส์พลังงานสูง

ชื่อชุดข้อมูล คำอธิบายโดยย่อ การประมวลผลล่วงหน้า ตัวอย่าง รูปแบบ งานเริ่มต้น สร้างแล้ว (อัปเดตแล้ว) อ้างอิง ผู้สร้าง
ชุดข้อมูล HIGGS การจำลองแบบมอนเตคาร์โลของการชนกันของอนุภาคในเครื่องเร่งอนุภาค มีการระบุคุณลักษณะ 28 ประการของการชนแต่ละครั้ง 11 ล้าน ข้อความ การจำแนกประเภท 2014 [ 206 ] [ 207 ] [ 208 ]ดี. ไวท์สัน
ชุดข้อมูล HEPMASS การจำลองแบบมอนเตคาร์โลของการชนกันของอนุภาคในเครื่องเร่งอนุภาค เป้าหมายคือการแยกสัญญาณออกจากสัญญาณรบกวน มีการระบุคุณลักษณะ 28 ประการของการชนแต่ละครั้ง 10,500,000 ข้อความ การจำแนกประเภท 2016 [ 207 ] [ 208 ] [ 209 ]ดี. ไวท์สัน

ระบบ

ชื่อชุดข้อมูล คำอธิบายโดยย่อ การประมวลผลล่วงหน้า ตัวอย่าง รูปแบบ งานเริ่มต้น สร้างแล้ว (อัปเดตแล้ว) อ้างอิง ผู้สร้าง
ชุดข้อมูลพลศาสตร์ของไหลสำหรับเรือยอชต์ สมรรถนะของเรือยอชต์ขึ้นอยู่กับขนาดของตัวเรือ แต่ละยอชต์จะมีคุณสมบัติเด่น 6 ประการ 308 ข้อความ การถดถอย 2013 [ 210 ] [ 211 ]อาร์. โลเปซ
ชุดข้อมูลความล้มเหลวในการทำงานของหุ่นยนต์ ชุดข้อมูล 5 ชุดที่เน้นไปที่ความล้มเหลวของหุ่นยนต์ในการปฏิบัติงานทั่วไป คุณลักษณะที่มีค่าเป็นจำนวนเต็ม เช่น แรงบิดและการวัดค่าจากเซ็นเซอร์อื่นๆ 463 ข้อความ การจำแนกประเภท 1999 [ 212 ]แอล. ซีบรา และคณะ
ชุดข้อมูลสะพานพิตต์สเบิร์ก คำอธิบายการออกแบบจะระบุถึงคุณสมบัติต่างๆ ของสะพานหลายประเภท มีการระบุคุณลักษณะต่างๆ ของสะพานไว้หลายประการ 108 ข้อความ การจำแนกประเภท 1990 [ 213 ] [ 214 ]วาย. ไรช์ และคณะ
ชุดข้อมูลรถยนต์ ข้อมูลเกี่ยวกับรถยนต์ ความเสี่ยงด้านประกันภัย และค่าเสียหายที่ปรับตามมาตรฐาน ดึงข้อมูลคุณสมบัติของรถยนต์ออกมา 205 ข้อความ การถดถอย พ.ศ. 2530 [ 215 ] [ 216 ]เจ. ชิมเมอร์ และคณะ
ชุดข้อมูลอัตราสิ้นเปลืองน้ำมันเชื้อเพลิงอัตโนมัติ ข้อมูลอัตราสิ้นเปลืองน้ำมันเชื้อเพลิง (MPG) สำหรับรถยนต์ ระบุคุณสมบัติแปดประการของรถแต่ละคัน 398 ข้อความ การถดถอย พ.ศ. 2536 [ 217 ]มหาวิทยาลัยคาร์เนกีเมลลอน
ชุดข้อมูลประสิทธิภาพการใช้พลังงาน ความต้องการด้านความร้อนและความเย็นนั้นขึ้นอยู่กับพารามิเตอร์ของอาคาร กำหนดพารามิเตอร์การก่อสร้างแล้ว 768 ข้อความ การจำแนกประเภท การถดถอย 2012 [ 218 ] [ 219 ]เอ. ซิฟารา และคณะ
ชุดข้อมูลเสียงรบกวนภายในของปีกเครื่องบิน ชุดการทดสอบด้านอากาศพลศาสตร์และเสียงของส่วนตัดขวางใบพัดแบบสองมิติและสามมิติ มีการให้ข้อมูลเกี่ยวกับความถี่ มุมปะทะ ฯลฯ 1503 ข้อความ การถดถอย 2014 [ 220 ]อาร์. โลเปซ
ชุดข้อมูลโอริงของกระสวยอวกาศชาเลนเจอร์ของสหรัฐอเมริกา พยายามคาดการณ์ปัญหาเกี่ยวกับโอริงโดยอาศัยข้อมูลจากยานอวกาศชาเลนเจอร์ในอดีต มีการระบุคุณลักษณะหลายประการของแต่ละเที่ยวบิน เช่น อุณหภูมิขณะปล่อยตัว 23 ข้อความ การถดถอย พ.ศ. 2536 [ 221 ] [ 222 ]ดี. เดรเปอร์ และคณะ
ชุดข้อมูล Statlog (Shuttle) ชุดข้อมูลกระสวยอวกาศของ NASA มีคุณสมบัติทั้งหมดเก้าประการ 58,000 ข้อความ การจำแนกประเภท 2002 [ 223 ]นาซ่า

ดาราศาสตร์

ชื่อชุดข้อมูล คำอธิบายโดยย่อ การประมวลผลล่วงหน้า ตัวอย่าง รูปแบบ งานเริ่มต้น สร้างแล้ว (อัปเดตแล้ว) อ้างอิง ผู้สร้าง
ภูเขาไฟบนดาวศุกร์ – ชุดข้อมูลจากการทดลอง JARtool ภาพถ่ายดาวศุกร์ที่ส่งกลับมาโดยยานอวกาศแมเจลแลน ภาพเหล่านี้ได้รับการติดป้ายกำกับโดยมนุษย์ ไม่ได้ให้ รูปภาพ การจำแนกประเภท 1991 [ 224 ] [ 225 ]เอ็ม. เบิร์ล
ชุดข้อมูลกล้องโทรทรรศน์แกมมา MAGIC วิธีการมอนเตคาร์โลสร้างเหตุการณ์อนุภาคแกมมาพลังงานสูง คุณลักษณะต่างๆ มากมายที่ได้จากการจำลอง 19,020 ข้อความ การจำแนกประเภท 2007 [ 225 ] [ 226 ]อาร์. บ็อค
ชุดข้อมูลเปลวสุริยะ การวัดจำนวนครั้งของการเกิดปรากฏการณ์เปลวสุริยะบางประเภทในช่วงเวลา 24 ชั่วโมง มีการระบุคุณลักษณะเฉพาะของเปลวสุริยะหลายประการ 1389 ข้อความ การถดถอย, การจำแนกประเภท 1989 [ 227 ]จี. แบรดชอว์
ชุดข้อมูลหลายฟิลด์ CAMELS แผนที่ 2 มิติและตาราง 3 มิติจากแบบจำลอง N-body และแบบจำลองอุทกพลศาสตร์ล้ำสมัยหลายพันแบบ ซึ่งครอบคลุมค่าพารามิเตอร์ทางจักรวาลวิทยาและฟิสิกส์ดาราศาสตร์ที่หลากหลาย แผนที่และตารางแต่ละอันจะมีพารามิเตอร์ทางจักรวาลวิทยาและฟิสิกส์ดาราศาสตร์ 6 ตัวที่เกี่ยวข้องอยู่ด้วย แผนที่ 2 มิติ 405,000 แผ่น และตาราง 3 มิติ 405,000 แผ่น แผนที่ 2 มิติและตาราง 3 มิติ การถดถอย 2021 [ 228 ]Francisco Villaescusa-Navarro และคณะ

วิทยาศาสตร์โลก

ชื่อชุดข้อมูล คำอธิบายโดยย่อ การประมวลผลล่วงหน้า ตัวอย่าง รูปแบบ งานเริ่มต้น สร้างแล้ว (อัปเดตแล้ว) อ้างอิง ผู้สร้าง
ภูเขาไฟทั่วโลก ข้อมูลการปะทุของภูเขาไฟสำหรับเหตุการณ์ภูเขาไฟระเบิดทั้งหมดที่ทราบบนโลก มีการระบุรายละเอียดต่างๆ เช่น ภูมิภาค ภูมิภาคย่อย สภาพทางธรณีวิทยา และประเภทหินที่เด่นชัด 1535 ข้อความ การถดถอย, การจำแนกประเภท 2013 [ 229 ]อี. เวนซ์เก และคณะ
ชุดข้อมูลการกระแทกจากแผ่นดินไหว กิจกรรมทางแผ่นดินไหวจากเหมืองถ่านหิน กิจกรรมแผ่นดินไหวถูกจัดประเภทว่าเป็นอันตรายหรือไม่เป็นอันตราย 2584 ข้อความ การจำแนกประเภท 2013 [ 230 ] [ 231 ]เอ็ม. ซิโครา และคณะ
อูฐ - สหรัฐอเมริกา ชุดข้อมูลอุทกวิทยาของลุ่มน้ำ พร้อมอนุกรมเวลาทางอุทกวิทยาและอุตุนิยมวิทยา และคุณลักษณะต่างๆ ดูเอกสารอ้างอิง 671 CSV, ข้อความ, ไฟล์รูปทรง การถดถอย 2017 [ 232 ] [ 233 ]เอ็น. แอดดอร์ และคณะ / อ. นิวแมน และคณะ
อูฐ-ชิลี ชุดข้อมูลอุทกวิทยาของลุ่มน้ำ พร้อมอนุกรมเวลาทางอุทกวิทยาและอุตุนิยมวิทยา และคุณลักษณะต่างๆ ดูเอกสารอ้างอิง 516 CSV, ข้อความ, ไฟล์รูปทรง การถดถอย 2018 [ 234 ]ซี. อัลวาเรซ-การ์เรตัน และคณะ
อูฐ-บราซิล ชุดข้อมูลอุทกวิทยาของลุ่มน้ำ พร้อมอนุกรมเวลาทางอุทกวิทยาและอุตุนิยมวิทยา และคุณลักษณะต่างๆ ดูเอกสารอ้างอิง 897 CSV, ข้อความ, ไฟล์รูปทรง การถดถอย 2020 [ 235 ]วี. ชากัส และคณะ
แคมส์-จีบี ชุดข้อมูลอุทกวิทยาของลุ่มน้ำ พร้อมอนุกรมเวลาทางอุทกวิทยาและอุตุนิยมวิทยา และคุณลักษณะต่างๆ ดูเอกสารอ้างอิง 671 CSV, ข้อความ, ไฟล์รูปทรง การถดถอย 2020 [ 236 ]จี. ค็อกซอน และคณะ
อูฐ-ออสเตรเลีย ชุดข้อมูลอุทกวิทยาของลุ่มน้ำ พร้อมอนุกรมเวลาทางอุทกวิทยาและอุตุนิยมวิทยา และคุณลักษณะต่างๆ ดูเอกสารอ้างอิง 222 CSV, ข้อความ, ไฟล์รูปทรง การถดถอย 2021 [ 237 ]เค. ฟาวเลอร์ และคณะ
ลามาห์ -ซีอี ชุดข้อมูลอุทกวิทยาของลุ่มน้ำ พร้อมอนุกรมเวลาทางอุทกวิทยาและอุตุนิยมวิทยา และคุณลักษณะต่างๆ ดูเอกสารอ้างอิง 859 CSV, ข้อความ, ไฟล์รูปทรง การถดถอย 2021 [ 238 ]ซี. คลิงเลอร์ และคณะ

ทางกายภาพอื่นๆ

ชื่อชุดข้อมูล คำอธิบายโดยย่อ การประมวลผลล่วงหน้า ตัวอย่าง รูปแบบ งานเริ่มต้น สร้างแล้ว (อัปเดตแล้ว) อ้างอิง ผู้สร้าง
ชุดข้อมูลกำลังรับแรงอัดของคอนกรีต ชุดข้อมูลคุณสมบัติและความแข็งแรงรับแรงอัดของคอนกรีต แต่ละตัวอย่างจะมีคุณสมบัติหลัก 9 ประการ 10:30 น. ข้อความ การถดถอย 2007 [ 239 ] [ 240 ]ไอ.เยห์
ชุดข้อมูลการทดสอบการยุบตัวของคอนกรีต ค่าการยุบตัวของคอนกรีตแสดงในรูปของสมบัติ คุณสมบัติของคอนกรีต เช่น เถ้าลอย น้ำ เป็นต้น 103 ข้อความ การถดถอย 2009 [ 241 ] [ 242 ]ไอ.เยห์
ชุดข้อมูลมัสก์ จงทำนายว่าโมเลกุลนั้นจะมีสารให้กลิ่นมัสก์หรือไม่ โดยพิจารณาจากคุณสมบัติที่ให้มา แต่ละโมเลกุลมีคุณลักษณะ 168 ประการ 6598 ข้อความ การจำแนกประเภท พ.ศ. 2537 [ 243 ]บริษัท อาร์ริส ฟาร์มาซูติคอล คอร์ปอเรชั่น
ชุดข้อมูลข้อบกพร่องของแผ่นเหล็ก แผ่นเหล็ก 7 ชนิดที่แตกต่างกัน แต่ละตัวอย่างมีคุณลักษณะ 27 ประการ 1941 ข้อความ การจำแนกประเภท 2010 [ 244 ]ศูนย์วิจัยเซเมียน
ชุดข้อมูลอนุภาคนาโนโลหะโมโนเมทัลลิกโลหะมีค่า ลักษณะการประมวลผลและโครงสร้างของอนุภาคนาโนโลหะเดี่ยว โดยมีพลังงานการก่อตัวเป็นตัวบ่งชี้ แต่ละตัวอย่างมีคุณลักษณะ 85-182 รายการ 425 ถึง 4000 ซีเอสวี การถดถอย ปี 2017 ถึง 2023 [ 245 ] [ 246 ] [ 247 ] [ 248 ] [ 249 ] [ 250 ]เอ. บาร์นาร์ด และ จี. โอเปลทัล
ชุดข้อมูลอนุภาคนาโนโลหะไบเมทัลลิกโลหะมีค่า ลักษณะการประมวลผลและโครงสร้างของอนุภาคนาโนโลหะสองชนิด โดยมีพลังงานการก่อตัวเป็นตัวบ่งชี้ แต่ละตัวอย่างมีคุณลักษณะ 922 รายการ 138147 ถึง 162770 ซีเอสวี การถดถอย 2023 [ 251 ] [ 252 ] [ 253 ] [ 254 ] [ 255 ] [ 256 ] [ 257 ] [ 258 ] [ 259 ] [ 260 ] [ 261 ] [ 262 ]เจ. ติง และคณะ
ชุดข้อมูลอนุภาคนาโนโลหะสามชนิด AuPdPt ลักษณะการประมวลผลและโครงสร้างของอนุภาคนาโน AuPdPt โดยมีพลังงานการก่อตัวเป็นตัวบ่งชี้ มีการระบุคุณลักษณะ 1958 ประการสำหรับแต่ละตัวอย่าง 48136 ซีเอสวี การถดถอย 2023 [ 263 ]เค. ลู และคณะ

ข้อมูลทางชีววิทยา

ชุดข้อมูลจากระบบชีวภาพ

มนุษย์

ชื่อชุดข้อมูล คำอธิบายโดยย่อ การประมวลผลล่วงหน้า ตัวอย่าง รูปแบบ งานเริ่มต้น สร้างแล้ว (อัปเดตแล้ว) อ้างอิง ผู้สร้าง
ชุดข้อมูลอายุ ชุดข้อมูลที่มีโครงสร้างและใช้งานได้ทั่วไป เกี่ยวกับชีวิต การทำงาน และการเสียชีวิตของบุคคลสำคัญ 1.22 ล้านคน เป็นข้อมูลสาธารณะ วิธีการห้าขั้นตอนในการอนุมานปีเกิดและปีเสียชีวิต เพศ และอาชีพ จากข้อมูลที่ชุมชนส่งเข้ามาในโครงการวิกิพีเดียทุกภาษา 1,223,009 ข้อความ การถดถอย, การจำแนกประเภท 2022 เอกสาร[ 264 ]

ชุดข้อมูล[ 265 ]

อามอราดเนจาดและคณะ
ชุดข้อมูลจอประสาทตาสังเคราะห์[ 266 ]ภาพเรตินาที่สมจริงและการแบ่งส่วนหลอดเลือด เป็นภาพสาธารณะ (Public domain) ภาพจำนวน 2500 ภาพ ขนาด 1500*1152 พิกเซล เหมาะสำหรับใช้ในการแบ่งส่วนและจำแนกประเภทของหลอดเลือดดำและหลอดเลือดแดงบนพื้นหลังเดียวกัน 2500 รูปภาพ การจำแนกประเภท การแบ่งส่วน 2020 [ 267 ]ซี. วาเลนติ และคณะ
ฐานข้อมูล EEG การศึกษาเพื่อตรวจสอบความสัมพันธ์ของคลื่นไฟฟ้าสมอง (EEG) กับความเสี่ยงทางพันธุกรรมต่อการติดสุรา ทำการวัดค่าจากอิเล็กโทรด 64 ตัวที่วางอยู่บนหนังศีรษะ โดยสุ่มตัวอย่างที่ความถี่ 256 เฮิรตซ์ (ช่วงเวลา 3.9 มิลลิวินาที) เป็นเวลา 1 วินาที 122 ข้อความ การจำแนกประเภท 1999 [ 268 ]เอช. เบไกลเตอร์
ชุดข้อมูลอินเทอร์เฟซ P300 ข้อมูลจากผู้เข้าร่วมทดลอง 9 คน รวบรวมโดยใช้เทคโนโลยีเชื่อมต่อสมองกับคอมพิวเตอร์แบบ P300 สำหรับผู้พิการ แบ่งเนื้อหาออกเป็นสี่ช่วงสำหรับแต่ละวิชามีโค้ด MATLAB ให้ด้วย1,224 ข้อความ การจำแนกประเภท 2008 [ 269 ] [ 270 ]ยู. ฮอฟฟ์แมน และคณะ
ชุดข้อมูลโรคหัวใจ พบในผู้ป่วยที่มีและไม่มีโรคหัวใจ มีการระบุคุณลักษณะ 75 รายการสำหรับผู้ป่วยแต่ละราย โดยบางค่าอาจขาดหายไป 303 ข้อความ การจำแนกประเภท 1988 [ 271 ] [ 272 ]เอ. จาโนซี และคณะ
ชุดข้อมูลมะเร็งเต้านมรัฐวิสคอนซิน (การวินิจฉัย) ชุดข้อมูลเกี่ยวกับลักษณะของก้อนในเต้านม พร้อมระบุการวินิจฉัยโดยแพทย์ แต่ละตัวอย่างมีคุณลักษณะ 10 ประการ 569 ข้อความ การจำแนกประเภท พ.ศ. 2538 [ 273 ] [ 274 ]ดับเบิลยู. วอลเบิร์ก และคณะ
การสำรวจระดับชาติเกี่ยวกับการใช้ยาและสุขภาพ การสำรวจขนาดใหญ่เกี่ยวกับสุขภาพและการใช้ยาในสหรัฐอเมริกา ไม่มี. 55,268 ข้อความ การจำแนกประเภท การถดถอย 2012 [ 275 ]กระทรวงสาธารณสุขและบริการมนุษย์แห่งสหรัฐอเมริกา
ชุดข้อมูลมะเร็งปอด ชุดข้อมูลมะเร็งปอดที่ไม่มีคำจำกัดความคุณลักษณะ แต่ละกรณีมีคุณลักษณะ 56 ข้อ 32 ข้อความ การจำแนกประเภท 1992 [ 276 ] [ 277 ]Z. Hong และคณะ
ชุดข้อมูลภาวะหัวใจเต้นผิดจังหวะ ข้อมูลสำหรับกลุ่มผู้ป่วย ซึ่งบางรายมีภาวะหัวใจเต้นผิดจังหวะ แต่ละอินสแตนซ์มีฟีเจอร์ 276 รายการ 452 ข้อความ การจำแนกประเภท 1998 [ 278 ] [ 279 ]เอช. อัลเทย์ และคณะ
ชุดข้อมูลโรคเบาหวานจากโรงพยาบาล 130 แห่งในสหรัฐอเมริกา ระหว่างปี 1999-2008 ข้อมูลการกลับเข้ารับการรักษาในโรงพยาบาลซ้ำเป็นเวลา 9 ปี จากโรงพยาบาล 130 แห่งในสหรัฐอเมริกา สำหรับผู้ป่วยโรคเบาหวาน มีการระบุรายละเอียดหลายประการของการเข้ารับการรักษาซ้ำแต่ละครั้ง 100,000 ข้อความ การจำแนกประเภท การจัดกลุ่ม 2014 [ 280 ] [ 281 ]เจ. คลอร์ และคณะ
ชุดข้อมูลโรคจอประสาทตาจากเบาหวานเดเบรเซน คุณลักษณะที่สกัดจากภาพดวงตาที่มีและไม่มีภาวะจอประสาทตาเสื่อมจากเบาหวาน สกัดคุณลักษณะและวินิจฉัยสภาวะต่างๆ 1151 ข้อความ การจำแนกประเภท 2014 [ 282 ] [ 283 ]บี. อันทัล และคณะ
ชุดข้อมูล Messidor เกี่ยวกับโรคจอประสาทตาจากเบาหวาน วิธีการประเมินเทคนิคการแบ่งส่วนและการจัดทำดัชนีในสาขาจักษุวิทยาจอประสาทตา (MESSIDOR) ลักษณะเด่นคือ ระดับความรุนแรงของภาวะจอประสาทตาเสื่อม และความเสี่ยงต่อภาวะบวมน้ำที่จอประสาทตา 1200 รูปภาพ, ข้อความ การจำแนกประเภท การแบ่งส่วน 2008 [ 284 ] [ 285 ]โครงการเมสซิดอร์
ชุดข้อมูลความผิดปกติของตับ ข้อมูลสำหรับผู้ที่มีความผิดปกติเกี่ยวกับตับ ลักษณะทางชีวภาพเจ็ดประการสำหรับผู้ป่วยแต่ละราย 345 ข้อความ การจำแนกประเภท 1990 [ 286 ] [ 287 ]บริษัท บูพา เมดิคอล รีเสิร์ช จำกัด
ชุดข้อมูลโรคต่อมไทรอยด์ ฐานข้อมูลผู้ป่วยโรคต่อมไทรอยด์จำนวน 10 ฐานข้อมูล ไม่มี. 7200 ข้อความ การจำแนกประเภท พ.ศ. 2530 [ 288 ] [ 289 ]อาร์. ควินแลน
ชุดข้อมูลมะเร็งเยื่อหุ้มปอด ข้อมูลผู้ป่วยมะเร็งเยื่อหุ้มปอด มีการระบุคุณลักษณะจำนวนมาก รวมถึงการสัมผัสกับแร่ใยหิน 324 ข้อความ การจำแนกประเภท 2016 [ 290 ] [ 291 ]เอ. ตันริกูลู และคณะ
ชุดข้อมูลการประมาณท่าทางตามวิสัยทัศน์ของผู้ป่วยโรคพาร์กินสัน การประมาณท่าทางของมนุษย์แบบ 2 มิติ ของผู้ป่วยโรคพาร์กินสันขณะทำกิจกรรมต่างๆ ได้ทำการลบการสั่นของกล้องออกจากเส้นทางการเคลื่อนที่แล้ว 134 ข้อความ การจำแนกประเภท การถดถอย 2017 [ 292 ] [ 293 ] [ 294 ]เอ็ม. หลี่ และคณะ
ชุดข้อมูลเครือข่ายปฏิกิริยาเมตาบอลิซึม KEGG (แบบไม่มีทิศทาง) เครือข่ายของวิถีเมตาบอลิ ซึม ประกอบด้วย เครือข่ายปฏิกิริยาและเครือข่ายความสัมพันธ์มีการระบุคุณลักษณะโดยละเอียดสำหรับแต่ละโหนดเครือข่ายและเส้นทาง 65,554 ข้อความ การจำแนกประเภท การจัดกลุ่ม การถดถอย 2011 [ 295 ]เอ็ม. นาอิม และคณะ
AlphaDent - ชุดข้อมูลเกี่ยวกับพยาธิสภาพของฟัน การถ่ายภาพภายในช่องปากด้วยกล้อง DSLR ความละเอียดสูง (>5000x3000 พิกเซล) แบ่งประเภทออกเป็น 9 ประเภท ได้แก่ การสึกกร่อน การอุดฟัน การทำครอบฟัน และฟันผุอีก 6 ประเภท 1320 รูปภาพ หน้ากาก การแบ่งส่วนอินสแตนซ์ 2025 [ 296 ] [ 297 ]EI Sosnin, RA Solovyev และคณะ
ชุดข้อมูลการวิเคราะห์รูปร่างสเปิร์มมนุษย์ที่ได้รับการดัดแปลง (MHSMA) ภาพอสุจิของมนุษย์จากผู้ป่วย 235 รายที่มีภาวะมีบุตรยากในเพศชาย โดยระบุส่วนต่างๆ ของอสุจิว่าเป็นปกติหรือผิดปกติ ได้แก่ อะโครโซม หัว ช่องว่าง และหาง ตัดภาพโดยเน้นเฉพาะส่วนหัวของอสุจิหนึ่งตัว ปรับกำลังขยายให้เป็นมาตรฐานแล้ว สร้างชุดข้อมูลสำหรับการฝึกฝน การตรวจสอบ และการทดสอบ 1,540 ไฟล์ .npy การจำแนกประเภท 2019 [ 298 ] [ 299 ]เอส. จาวาดี และ เอส.เอ. มิโรแชนเดล

สัตว์

ชื่อชุดข้อมูล คำอธิบายโดยย่อ การประมวลผลล่วงหน้า ตัวอย่าง รูปแบบ งานเริ่มต้น สร้างแล้ว (อัปเดตแล้ว) อ้างอิง ผู้สร้าง
ชุดข้อมูลหอยเป๋าฮื้อ ข้อมูลเกี่ยวกับการวัดขนาดทางกายภาพของหอยเป๋าฮื้อ รูปแบบสภาพอากาศ และสถานที่ตั้งก็มีให้เช่นกัน ไม่มี. 4177 ข้อความ การถดถอย พ.ศ. 2538 [ 300 ]ห้องปฏิบัติการวิจัยทางทะเล – Taroona
ชุดข้อมูลสวนสัตว์ ชุดข้อมูลจำลองที่ประกอบด้วยสัตว์ 7 ประเภท สัตว์ถูกจัดประเภทออกเป็น 7 หมวดหมู่ และมีการระบุลักษณะเฉพาะของแต่ละหมวดหมู่ไว้ด้วย 101 ข้อความ การจำแนกประเภท 1990 [ 301 ]อาร์. ฟอร์ไซธ์
ชุดข้อมูล Demospongiae ข้อมูลเกี่ยวกับฟองน้ำทะเล ฟองน้ำ 503 ชนิดใน กลุ่ม Demospongeถูกอธิบายด้วยลักษณะต่างๆ กัน 503 ข้อความ การจำแนกประเภท 2010 [ 302 ]อี. อาร์เมนโกล และคณะ
ข้อมูลสัตว์เลี้ยงในฟาร์ม สินค้าคงคลังข้อมูล PLF (วัว หมู ตำแหน่ง ความเร่ง ฯลฯ) ชุดข้อมูลที่มีป้ายกำกับ รายชื่อจะได้รับการอัปเดตอยู่ตลอดเวลา ข้อความ การจำแนกประเภท 2020 [ 303 ]วี. บลอค
ชุดข้อมูลลำดับยีนจุดเชื่อมต่อการตัดต่อ ลำดับยีนจุดเชื่อมต่อ (DNA) ของไพรเมต พร้อมทฤษฎีโดเมนที่ไม่สมบูรณ์ที่เกี่ยวข้อง ไม่มี. 3190 ข้อความ การจำแนกประเภท 1992 [ 277 ]จี. โทเวลล์ และคณะ
ชุดข้อมูลการแสดงออกของโปรตีนในหนู ระดับการแสดงออกของโปรตีน 77 ชนิดที่วัดได้ในเปลือกสมองของหนู ไม่มี. 1080 ข้อความ การจำแนกประเภท, การจัดกลุ่ม 2015 [ 304 ] [ 305 ]ซี. ฮิกูเอรา และคณะ

เชื้อรา

ชื่อชุดข้อมูล คำอธิบายโดยย่อ การประมวลผลล่วงหน้า ตัวอย่าง รูปแบบ งานเริ่มต้น สร้างแล้ว (อัปเดตแล้ว) อ้างอิง ผู้สร้าง
ชุดข้อมูลเห็ด UCI ลักษณะและการจำแนกประเภทของเห็ด มีการระบุคุณสมบัติหลายประการของเห็ดแต่ละชนิดไว้ 8124 ข้อความ การจำแนกประเภท พ.ศ. 2530 [ 306 ]เจ. ชลิมเมอร์
ชุดข้อมูลเห็ดทุติยภูมิ ลักษณะและการจำแนกประเภทของเห็ด ข้อมูลจำลองจากตัวอย่างเห็ดขนาดใหญ่และสมจริง สามารถทำซ้ำได้ทั้งหมด 61069 ข้อความ การจำแนกประเภท 2020 [ 307 ] [ 308 ]ดี. แวกเนอร์ และคณะ

ปลูก

ชื่อชุดข้อมูล คำอธิบายโดยย่อ การประมวลผลล่วงหน้า ตัวอย่าง รูปแบบ งานเริ่มต้น สร้างแล้ว (อัปเดตแล้ว) อ้างอิง ผู้สร้าง
ชุดข้อมูลไฟป่า ไฟป่าและทรัพย์สินที่เกิดจากไฟป่า มีการแยกแยะลักษณะเด่น 13 ประการของไฟแต่ละครั้งออกมา 517 ข้อความ การถดถอย 2008 [ 309 ] [ 310 ]พี. คอร์เตซ และคณะ
ชุดข้อมูลไอริสไอริสมี 3 ชนิด โดยจำแนกตามคุณลักษณะ 4 ประการ ไม่มี. 150 ข้อความ การจำแนกประเภท 1936 [ 311 ] [ 312 ]อาร์. ฟิชเชอร์
ชุดข้อมูลใบพืชชนิดต่างๆ ตัวอย่างใบไม้จำนวน 16 ตัวอย่าง จากพืช 100 ชนิด มีการแสดงคำอธิบายรูปร่าง ขอบเขตละเอียด และฮิสโตแกรมพื้นผิว 1600 ข้อความ การจำแนกประเภท 2012 [ 313 ] [ 314 ]เจ. โคป และคณะ
ชุดข้อมูลถั่วเหลือง ฐานข้อมูลต้นถั่วเหลืองที่เป็นโรค มีการระบุลักษณะเด่น 35 ประการสำหรับพืชแต่ละชนิด โดยพืชถูกจัดจำแนกออกเป็น 19 ประเภท 307 ข้อความ การจำแนกประเภท 1988 [ 315 ]อาร์. มิชาลสกี และคณะ
ชุดข้อมูลเมล็ดพันธุ์ การวัดคุณสมบัติทางเรขาคณิตของเมล็ดข้าวสาลีสามสายพันธุ์ที่แตกต่างกัน ไม่มี. 210 ข้อความ การจำแนกประเภท การจัดกลุ่ม 2012 [ 316 ] [ 317 ]ชารีทาโนวิชและคณะ
ชุดข้อมูล Covertype ข้อมูลสำหรับการทำนายประเภทของพื้นที่ป่าโดยอาศัยตัวแปรทางแผนที่เพียงอย่างเดียว มีการระบุลักษณะทางภูมิศาสตร์ไว้หลายอย่าง 581,012 ข้อความ การจำแนกประเภท 1998 [ 318 ] [ 319 ]เจ. แบล็กการ์ด และคณะ
ชุดข้อมูลเครือข่ายการส่งสัญญาณกรดแอบซิสิก ข้อมูลสำหรับเครือข่ายการส่งสัญญาณของพืช เป้าหมายคือการกำหนดชุดกฎที่ควบคุมเครือข่ายนี้ ไม่มี. 300 ข้อความ การค้นพบเชิงสาเหตุ 2008 [ 320 ]เจ. เจนเคนส์ และคณะ
ชุดข้อมูลโฟลิโอ ภาพถ่ายใบไม้ 20 ภาพต่อชนิด จากทั้งหมด 32 ชนิด ไม่มี. 637 รูปภาพ, ข้อความ การจำแนกประเภท การจัดกลุ่ม 2015 [ 321 ] [ 322 ]ที. มูนิซามิ และคณะ
ชุดข้อมูลดอกไม้อ็อกซ์ฟอร์ด ชุดข้อมูลดอกไม้ 17 ประเภท การแบ่งข้อมูลสำหรับการฝึกฝนและทดสอบ รูปภาพที่มีป้ายกำกับ 1360 รูปภาพ, ข้อความ การจำแนกประเภท 2006 [ 323 ] [ 324 ]เอ็ม.-อี. นิลส์แบ็ค และคณะ
ชุดข้อมูลต้นกล้าพืช ชุดข้อมูลต้นกล้าพืช 12 ประเภท รูปภาพที่มีป้ายกำกับ, รูปภาพที่แบ่งส่วนแล้ว 5544 รูปภาพ การจำแนกประเภท การตรวจจับ 2017 [ 325 ]กิเซลสันและคณะ
ฟรุ๊ตส์-360 ฐานข้อมูลภาพผลไม้ ผัก ถั่ว และเมล็ดพืชจำนวน 251 ชนิด ขนาด 100x100 พิกเซล พื้นหลังสีขาว 174700 รูปภาพ (jpg) การจำแนกประเภท 2017–2026 [ 326 ]มิไฮ โอลเตียน
แอประบุวัชพืช ฐานข้อมูลประกอบด้วย 1,025 สายพันธุ์ ภาพมากกว่า 13,500 ภาพ และลักษณะเฉพาะมากกว่า 120,000 รายการ ขนาดและพื้นหลังแตกต่างกันไป ติดป้ายกำกับโดยนักพฤกษศาสตร์ระดับปริญญาเอก 13,500 รูปภาพ, ข้อความ การจำแนกประเภท พ.ศ. 2542-2567 [ 327 ]ริชาร์ด โอลด์
ชุดข้อมูล CottonWeedDet3 ชุดข้อมูลการตรวจจับวัชพืช 3 ประเภท สำหรับระบบการปลูกฝ้าย วัชพืช 3 ชนิด 848 รูปภาพ การจำแนกประเภท 2022 [ 328 ]ราห์มานและคณะ

จุลินทรีย์

ชื่อชุดข้อมูล คำอธิบายโดยย่อ การประมวลผลล่วงหน้า ตัวอย่าง รูปแบบ งานเริ่มต้น สร้างแล้ว (อัปเดตแล้ว) อ้างอิง ผู้สร้าง
ชุดข้อมูล Ecoli ตำแหน่งกำหนดตำแหน่งของโปรตีน มีการระบุคุณลักษณะต่างๆ ของตำแหน่งการจับตัวของโปรตีนไว้ 336 ข้อความ การจำแนกประเภท พ.ศ. 2539 [ 329 ] [ 330 ]เค. นากาอิ และคณะ
ชุดข้อมูล MicroMass การระบุจุลินทรีย์จากข้อมูลแมสสเปกโทรเมตรี คุณสมบัติต่างๆ ของเครื่องแมสสเปกโทรเมตรี 931 ข้อความ การจำแนกประเภท 2013 [ 331 ] [ 332 ]พี. มาเฮ และคณะ
ชุดข้อมูลยีสต์ การทำนายตำแหน่งการกระจายตัวของโปรตีนภายในเซลล์ แต่ละอินสแตนซ์มีคุณลักษณะแปดประการ 1484 ข้อความ การจำแนกประเภท พ.ศ. 2539 [ 333 ] [ 334 ]เค. นากาอิ และคณะ

การค้นพบยา

ชื่อชุดข้อมูล คำอธิบายโดยย่อ การประมวลผลล่วงหน้า ตัวอย่าง รูปแบบ งานเริ่มต้น สร้างแล้ว (อัปเดตแล้ว) อ้างอิง ผู้สร้าง
ชุดข้อมูล Tox21 การทำนายผลลัพธ์ของการทดสอบทางชีววิทยา มีการระบุคำอธิบายทางเคมีของโมเลกุล 12707 ข้อความ การจำแนกประเภท 2016 [ 335 ]เอ. เมย์ร และคณะ

ข้อมูลความผิดปกติ

ชื่อชุดข้อมูล คำอธิบายโดยย่อ การประมวลผลล่วงหน้า ตัวอย่าง รูปแบบ งานเริ่มต้น สร้างแล้ว (อัปเดตแล้ว) อ้างอิง ผู้สร้าง
Numenta Anomaly Benchmark (NAB) ข้อมูลถูกจัดเรียงตามลำดับ มีการประทับเวลา และเป็นค่าเดียว ข้อมูลทุกไฟล์มีสิ่งผิดปกติ เว้นแต่จะระบุไว้เป็นอย่างอื่น ไม่มี ไฟล์มากกว่า 50 ไฟล์ ซีเอสวี การตรวจจับความผิดปกติ2016 (ปรับปรุงอย่างต่อเนื่อง) [ 336 ]นูเมนตา
เกณฑ์มาตรฐานความผิดปกติ Skoltech (SKAB) แต่ละไฟล์แสดงถึงการทดลองหนึ่งครั้งและมีสิ่งผิดปกติเพียงหนึ่งเดียว ชุดข้อมูลนี้แสดงถึงอนุกรมเวลาแบบหลายตัวแปรที่รวบรวมจากเซ็นเซอร์ที่ติดตั้งบนแท่นทดสอบ มีเครื่องหมายสองแบบสำหรับการตรวจจับค่าผิดปกติ (จุดผิดปกติ) และการตรวจจับจุดเปลี่ยน (ความผิดปกติแบบกลุ่ม) ไฟล์มากกว่า 30 ไฟล์ (เวอร์ชัน 0.9) ซีเอสวี การตรวจจับความผิดปกติ2020 (มีการปรับปรุงอย่างต่อเนื่อง)

[ 337 ] [ 338 ]

Iurii D. Katser และ Vyacheslav O. Kozitsin
การประเมินผลการตรวจจับค่าผิดปกติแบบไม่ใช้การกำกับดูแล: มาตรวัด ชุดข้อมูล และการศึกษาเชิงประจักษ์ ไฟล์ข้อมูลส่วนใหญ่ดัดแปลงมาจากข้อมูลในคลังข้อมูลการเรียนรู้ของเครื่อง UCI บางส่วนรวบรวมมาจากเอกสารทางวิชาการ จัดการกับค่าที่หายไป คุณลักษณะเชิงตัวเลขเท่านั้น เปอร์เซ็นต์ความผิดปกติที่แตกต่างกัน ป้ายกำกับ ไฟล์มากกว่า 1000 ไฟล์ อาร์เอฟเอฟการตรวจจับความผิดปกติ2016 (อาจมีการอัปเดตด้วยชุดข้อมูลและ/หรือผลลัพธ์ใหม่)

[ 339 ]

แคมโปสและคณะ
ระบบบำบัดน้ำที่ปลอดภัย (SwaT) ข้อมูลที่รวบรวมจากชุดทดสอบ SWaT หกขั้นตอน ประกอบด้วยข้อมูลทั้งในสภาวะปกติและสภาวะผิดปกติ (การโจมตี) หน้าต่างและปรับให้เรียบ/เฉลี่ยตามความเหมาะสม 3 ไฟล์ ซีเอสวี การตรวจจับความผิดปกติ2016

(อัปเดตล่าสุด - 2020)

[ 340 ]โจนาธาน โกห์ และคณะ

ข้อมูลการตอบคำถาม

ส่วนนี้ประกอบด้วยชุดข้อมูลที่เกี่ยวข้องกับข้อมูลที่มีโครงสร้าง

ชื่อชุดข้อมูล คำอธิบายโดยย่อ การประมวลผลล่วงหน้า ตัวอย่าง รูปแบบ งานเริ่มต้น สร้างแล้ว (อัปเดตแล้ว) อ้างอิง ผู้สร้าง
ชุดข้อมูลการตอบคำถามด้วยโครงข่ายประสาทเทียมของ DBpedia (DBNQA) ชุดคำถามจำนวนมากที่แปลงเป็น SPARQL ซึ่งออกแบบมาเป็นพิเศษสำหรับการตอบคำถามด้วยโครงข่ายประสาทเทียมแบบเปิดบนฐานความรู้ DBpedia ชุดข้อมูลนี้ประกอบด้วยเทมเพลต Open Neural SPARQL จำนวนมาก และตัวอย่างสำหรับการฝึก Neural SPARQL Machines โดยผ่านการประมวลผลล่วงหน้าด้วยเครื่องมือการระบุคำอธิบายแบบกึ่งอัตโนมัติ รวมถึงโดยผู้เชี่ยวชาญด้าน SPARQL สามท่าน 894,499 คู่คำถาม-คำสอบถาม การตอบคำถาม 2018 [ 341 ] [ 342 ]Hartmann, Soru และ Marx และคณะ
ชุดข้อมูลตอบคำถามภาษาเวียดนาม (UIT-ViQuAD) รวมชุดคำถามภาษาเวียดนามจำนวนมากสำหรับการประเมินแบบจำลอง MRC ชุดข้อมูลนี้ประกอบด้วยคู่คำถาม-คำตอบที่สร้างขึ้นโดยมนุษย์กว่า 23,000 คู่ โดยอิงจากข้อความ 5,109 ข้อความจากบทความภาษาเวียดนาม 174 บทความในวิกิพีเดีย 23,074 คู่คำถาม-คำตอบ การตอบคำถาม 2020 [ 343 ]เหงียนและคณะ
คลังข้อมูลการอ่านเพื่อความเข้าใจแบบเลือกตอบหลายตัวเลือกภาษาเวียดนาม (ViMMRC) ชุดคำถามแบบเลือกตอบภาษาเวียดนามสำหรับประเมินแบบจำลอง MRC ชุดข้อมูลนี้ประกอบด้วยคำถามแบบเลือกตอบภาษาเวียดนามจำนวน 2,783 ข้อ 2,783 คู่คำถาม-คำตอบ การตอบคำถาม/การอ่านเพื่อความเข้าใจด้วยเครื่องจักร 2020 [ 344 ]เหงียนและคณะ
การตอบคำถามแบบเปิดกว้างกลายเป็นการสนทนาผ่านการเขียนคำถามใหม่ ระบบตอบคำถามแบบครบวงจรและเปิดกว้าง ชุดข้อมูลนี้ประกอบด้วยบทสนทนา 14,000 บท พร้อมคู่คำถาม-คำตอบ 81,000 คู่ บริบท, คำถาม, เขียนใหม่, คำตอบ, URL คำตอบ, หมายเลขการสนทนา, หมายเลขการผลัดกันพูด, แหล่งที่มาของการสนทนา

รายละเอียดเพิ่มเติมสามารถดูได้ในที่เก็บข้อมูล GitHub ของโครงการและ ใน เอกสาร ข้อมูลชุด Hugging Face ที่เกี่ยวข้อง

การตอบคำถาม 2021 [ 345 ]อนันธาและวาคูเลนโกและคณะ
ยูนิไฟด์คิวเอ ข้อมูลคำถาม-คำตอบ ชุดข้อมูลที่ผ่านการประมวลผล การตอบคำถาม 2020 [ 346 ]คัชชาบีและคณะ

ข้อมูลที่กระตุ้นด้วยบทสนทนาหรือคำแนะนำ

ส่วนนี้ประกอบด้วยชุดข้อมูลที่มีข้อความแบบหลายรอบ โดยมีผู้กระทำอย่างน้อยสองคน คือ "ผู้ใช้" และ "ตัวแทน" ผู้ใช้จะส่งคำขอไปยังตัวแทน ซึ่งตัวแทนจะดำเนินการตามคำขอนั้น

ชื่อชุดข้อมูล คำอธิบายโดยย่อ การประมวลผลล่วงหน้า ตัวอย่าง รูปแบบ งานเริ่มต้น สร้างแล้ว (อัปเดตแล้ว) อ้างอิง ผู้สร้าง
หัวหน้างาน ชุดข้อมูล 3 ชุดที่มีบทสนทนาที่เน้นงานพูดและเขียนมากกว่า 55,000 รายการในหลายโดเมน[ 347 ]บทสนทนาจำนวน 13,215 + 17,289 + 23,757 บท ในโดเมนงาน 6 + 7 + 1 โดเมน 1 และ 2: รหัสการสนทนา, คำพูด, รหัสคำสั่ง

3: รหัสการสนทนา, คำพูด, แนวตั้ง, สถานการณ์, คำแนะนำ

ทำภารกิจให้สำเร็จ 2019 [ 348 ] [ 349 ]ไบรน์และคริชนามูร์ธีและคณะ
ดร.รีแพร์ ชุดข้อมูลที่มีป้ายกำกับสำหรับการซ่อมแซมโปรแกรม ตรวจสอบรายละเอียดรูปแบบในเอกสาร ประกอบโครงการทำภารกิจให้สำเร็จ 2020 [ 350 ]มิชิฮิโร่และคณะ
คำแนะนำเหนือธรรมชาติ งานต่างๆ ที่ระบุด้วยภาษาธรรมชาติ งานประมวลผลภาษาธรรมชาติ (NLP) จำนวน 1,616 งาน ใน 76 ประเภทงาน การกำหนดงานด้วยคำสั่งภาษาธรรมชาติ ตัวอย่างข้อมูลเข้า/ข้อมูลออก ทำภารกิจให้สำเร็จ 2022 [ 351 ] [ 352 ]หวังและคณะ
ลัมบาดา เนื้อเรื่องที่ละคำสุดท้ายไว้ ทายคำสุดท้าย 2016 [ 353 ] [ 354 ]ปาเปอโรโนและคณะ
ฟลาน ข้อมูลการปรับแต่งคำสั่ง โดยใช้เทมเพลตแบบ zero-shot, few-shot และ chain-of-thought ผสมผสานกัน ปรับแต่งคำสั่ง; ทำงานให้เสร็จ 2021 [ 355 ] [ 356 ]เว่ยและคณะ

ความปลอดภัยทางไซเบอร์

ชื่อชุดข้อมูล คำอธิบายโดยย่อ การประมวลผลล่วงหน้า ตัวอย่าง รูปแบบ งานเริ่มต้น สร้างแล้ว (อัปเดตแล้ว) อ้างอิง ผู้สร้าง
การโจมตีของมิตร ATT&CK คือฐานข้อมูลความรู้เกี่ยวกับกลยุทธ์และเทคนิคของฝ่ายตรงข้ามที่สามารถเข้าถึงได้ทั่วโลก สามารถดาวน์โหลดข้อมูลได้จากที่เก็บ GitHub สองแห่งนี้: เวอร์ชัน 2.1และเวอร์ชัน 2.0[ 357 ]การโจมตีของมิตร
ซีพีอีซี การระบุและการจำแนกรูปแบบการโจมตีทั่วไป สามารถดาวน์โหลดข้อมูลได้จากเว็บไซต์ของ CAPEC :

กลไกการโจมตีขอบเขตการโจมตี

[ 358 ]ซีพีอีซี
ซีวีอี CVE คือรายการช่องโหว่ด้านความปลอดภัยทางไซเบอร์ที่เปิดเผยต่อสาธารณะ ซึ่งสามารถค้นหา ใช้งาน และนำไปปรับใช้ในผลิตภัณฑ์และบริการได้โดยไม่เสียค่าใช้จ่าย สามารถดาวน์โหลดข้อมูลได้จาก: Allitems[ 359 ]ซีวีอี
ซีวีอี ข้อมูลการระบุจุดอ่อนทั่วไป สามารถดาวน์โหลดข้อมูลได้จาก:

แนวคิดการวิจัยด้านการออกแบบฮาร์ดแวร์และการพัฒนาซอฟต์แวร์

[ 360 ]ซีวีอี
MalwareTextDB ฐานข้อมูลข้อความมัลแวร์พร้อมคำอธิบายประกอบ ข้อมูลสำหรับดาวน์โหลดอยู่ในคลัง เก็บข้อมูล GitHub ของโครงการนี้[ 361 ]เกียตและคณะ
เอกสารประกอบการประชุมสัมมนาด้านความปลอดภัย USENIX รวบรวมเอกสารการประชุมด้านความปลอดภัยจากงาน USENIX Security Symposium – การประชุมเชิงเทคนิค ตั้งแต่ปี 1995 ถึง 2022 ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า 1995 , 1996 , 1997 , 1998 , 1999 , 2000 , 2001 , 2002 , 2003 , 2004 , 2005 , 2006 , 2007 , 2008​

2009 , 2010 , 2011 , 2012 , 2013 , 2014 , 2015 , 2016 , 2017 , 2018 , 2019 , 2020 , 2021 , 2022

[ 362 ]งานสัมมนาด้านความปลอดภัย USENIX
APTNotes รวบรวมเอกสารสาธารณะ รายงาน และบทความเกี่ยวกับแคมเปญ APT เอกสารทั้งหมดเป็นข้อมูลที่เปิดเผยต่อสาธารณะ ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า ในGitHub repositoryของโปรเจ็กต์นี้จะมีไฟล์ที่มีลิงก์ไปยังข้อมูลที่จัดเก็บไว้ใน box

สามารถดาวน์โหลดไฟล์ข้อมูลได้ที่นี่เช่น กัน

[ 363 ]บันทึก APT
เอกสารด้านการเข้ารหัสและความปลอดภัยของ arXiv รวมบทความเกี่ยวกับความปลอดภัยทางไซเบอร์ ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า บทความทั้งหมดสามารถดูได้ที่นี่ [ 364 ]อาร์เอ็กซ์ไอวี
อีบุ๊กด้านความปลอดภัยให้ดาวน์โหลดฟรี รวมอีบุ๊กและเอกสารนำเสนอด้านความปลอดภัยจำนวนเล็กน้อยที่เปิดให้บุคคลทั่วไปเข้าถึงได้ ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า [ 365 ] [ 366 ] [ 367 ] [ 368 ] [ 369 ] [ 370 ] [ 371 ] [ 372 ] [ 373 ] [ 374 ] [ 375 ] [ 376 ]
คลังข้อมูลยุทธศาสตร์ความมั่นคงทางไซเบอร์แห่งชาติ แหล่งรวบรวมเอกสารยุทธศาสตร์ด้านความปลอดภัยทางไซเบอร์ทั่วโลก ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า [ 377 ]
การประมวลผลภาษาธรรมชาติเพื่อความปลอดภัยทางไซเบอร์ ข้อมูลเกี่ยวกับกลยุทธ์ด้านความปลอดภัยทางไซเบอร์จากกว่า 75 ประเทศ การแบ่งคำเป็นโทเค็น การลบคำที่ไม่มีความหมายแต่ปรากฏบ่อย [ 378 ]หยานหลิน เฉิน, หยุนเจี้ยน เว่ย, อี้ฟาน หยู, เหวิน เสวี่ย, เซียนย่า ฉิน
ชุดรายงาน APT ตัวอย่างรายงาน APT, มัลแวร์, เทคโนโลยี และการรวบรวมข้อมูลข่าวกรอง มีข้อมูลดิบและข้อมูลที่ผ่านการแปลงเป็นโทเค็นแล้วให้ใช้งาน ข้อมูลทั้งหมดมีอยู่ในที่เก็บข้อมูล GitHub นี้นกแบล็กเบิร์ด
ชุดข้อมูลการระบุภาษาที่ไม่เหมาะสม (OLID) สามารถดู ข้อมูล ได้ในเว็บไซต์ของโครงการ

สามารถดูข้อมูลเพิ่มเติมได้ที่นี่

[ 379 ]แซมปิเอรีและคณะ
รายงานด้านไซเบอร์จากศูนย์ความปลอดภัยทางไซเบอร์แห่งชาติ ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายงานภัยคุกคาม , รายงานและคำแนะนำ , ข่าว,บทความในบล็อก , สุนทรพจน์

รายการรายงานทางเลือก

[ 380 ]
รายงาน APT โดย Kaspersky ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า [ 381 ]
ไซเบอร์ไวร์ ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า จดหมายข่าวพอ ด แคสต์และเรื่องราวต่างๆ [ 382 ]
ข่าวการรั่วไหลของข้อมูล ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า ข่าวสารรายชื่อข่าวตั้งแต่เดือนสิงหาคม 2565 ถึงเดือนกุมภาพันธ์ 2566[ 383 ]
ข่าวไซเบอร์ ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า ข่าวสารรายการข่าวที่คัดสรรแล้ว[ 384 ]
คอมพิวเตอร์เสียงแหลม ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า ข่าว[ 385 ]
บันทึก ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า ข่าวอาชญากรรมไซเบอร์[ 386 ]
แฮ็กรีด ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า ข่าวการแฮ็ก[ 387 ]
รายชื่อที่ปลอดภัย ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายงาน APT , เอกสารเก็บถาวร , รายงาน DDOS , เหตุการณ์ , ประกาศด้านความปลอดภัยของ Kaspersky , ภัยคุกคามทางอุตสาหกรรม , รายงานมัลแวร์ , ความคิดเห็น , สิ่งพิมพ์ , งานวิจัยและSAS[ 388 ]
โครงการฉาบปูน โครงการ Stucco รวบรวมข้อมูลที่โดยทั่วไปแล้วระบบรักษาความปลอดภัยทั่วไปไม่ได้รวมไว้ด้วย ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า เว็บไซต์ของโครงการพร้อมข้อมูลแหล่งข้อมูลที่ได้รับการตรวจสอบแล้วพร้อมลิงก์ไปยังแหล่งข้อมูล[ 389 ]
ฟาร์ไซท์ซีเคียวริตี้ เว็บไซต์ที่มีข้อมูลทางเทคนิค รายงาน และข้อมูลเพิ่มเติมเกี่ยวกับหัวข้อด้านความปลอดภัย ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า ข้อมูลทาง เทคนิคงานวิจัยรายงาน[ 390 ]
ชไนเออร์ เว็บไซต์ที่รวบรวมบทความวิชาการเกี่ยวกับหัวข้อด้านความปลอดภัย ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า เอกสารแยกตามหมวดหมู่ , เอกสารจัดเก็บตามวันที่ [ 391 ]
เทรนด์ไมโคร เว็บไซต์ที่รวบรวมข้อมูลวิจัย ข่าวสาร และมุมมองเกี่ยวกับประเด็นด้านความปลอดภัย ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อบทความวิจัย ข่าวสาร และมุมมองจาก Trendmicro ที่ได้รับการตรวจสอบแล้ว [ 392 ]
ข่าวแฮกเกอร์ ข่าวสารเกี่ยวกับประเด็นด้านความปลอดภัยทางไซเบอร์ ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า ข่าว เกี่ยวกับการรั่ว ไหลของข้อมูล การโจมตีทางไซเบอร์ ช่องโหว่และ มัลแว ร์ [ 393 ]
เคร็บสันซีเคียวริตี้ ข่าวสารและการสืบสวนด้านความปลอดภัย ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายการข่าวที่คัดสรรแล้ว[ 394 ]
ไมเตอร์ ดีเฟนด์ เมทริกซ์ของสิ่งประดิษฐ์ป้องกัน ไฟล์ JSON [ 395 ]
ไมตร์ แอตลาส Mitre Atlas คือฐานข้อมูลความรู้เกี่ยวกับกลยุทธ์ เทคนิค และกรณีศึกษาของฝ่ายตรงข้ามสำหรับระบบการเรียนรู้ของเครื่อง (ML) โดยอิงจากการสังเกตการณ์ในโลกแห่งความเป็นจริง ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า [ 396 ]
ไมเตอร์ เอ็นจ์จ MITRE Engage คือกรอบการทำงานสำหรับการวางแผนและหารือเกี่ยวกับการปฏิบัติการรับมือกับศัตรู ซึ่งจะช่วยให้คุณสามารถรับมือกับศัตรูและบรรลุเป้าหมายด้านความปลอดภัยทางไซเบอร์ได้ ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า [ 397 ]
บทช่วยสอนการแฮ็ก ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า [ 398 ]

สภาพภูมิอากาศและความยั่งยืน

ชื่อชุดข้อมูล คำอธิบายโดยย่อ การประมวลผลล่วงหน้า ตัวอย่าง รูปแบบ งานเริ่มต้น สร้างแล้ว (อัปเดตแล้ว) อ้างอิง ผู้สร้าง
รายงานของ TCFD ฐานข้อมูลรายงานของบริษัทที่รวมถึงการเปิดเผยข้อมูลที่เกี่ยวข้องกับ TCFD ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า ลิงก์ตรงไปยังรายงานรายการรายงานที่คัดสรรแล้ว[ 399 ]ศูนย์รวมความรู้ TCFD
รายงานความรับผิดชอบต่อสังคมขององค์กร รายชื่อรายงานความรับผิดชอบที่มีอยู่บนอินเทอร์เน็ต ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อรายงานที่คัดสรรแล้ว[ 400 ]รายงานความรับผิดชอบ
คณะกรรมการระหว่างรัฐบาลว่าด้วยการเปลี่ยนแปลงสภาพภูมิอากาศ (IPCC) ชุดรายงานการประเมินที่ครอบคลุมเกี่ยวกับความรู้เรื่องการเปลี่ยนแปลงสภาพภูมิอากาศ สาเหตุ ผลกระทบที่อาจเกิดขึ้น และทางเลือกในการรับมือ ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายงานรายการรายงานที่คัดสรรแล้ว[ 401 ]IPCC
พันธมิตรเพื่อการวิจัยด้านความยั่งยืนขององค์กร ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อบทความบล็อกที่คัดสรรแล้ว[ 402 ]อาร์คส์
แหล่งข้อมูล ESG: ศูนย์กลางความรู้ด้านการบัญชีเพื่อความยั่งยืน ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า คู่มือ , กรณีศึกษา , บล็อก , รายงาน และแบบสำรวจ [ 403 ]เมห์ราและคณะ
ไข้ภูมิอากาศ ชุดข้อมูลที่ใช้ระเบียบวิธี FEVER ซึ่งประกอบด้วยข้อกล่าวอ้างจริงเกี่ยวกับภาวะโลกร้อนจำนวน 1,535 รายการที่รวบรวมจากอินเทอร์เน็ต แต่ละข้ออ้างจะมาพร้อมกับประโยคหลักฐานที่ทำเครื่องหมายด้วยตนเองจำนวน 5 ประโยค ซึ่งดึงมาจากวิกิพีเดียภาษาอังกฤษที่สนับสนุน หักล้าง หรือไม่ให้ข้อมูลเพียงพอที่จะยืนยันข้ออ้าง รวมเป็นคู่ข้ออ้าง-หลักฐานทั้งหมด 7,675 คู่[ 404 ]ชุดข้อมูล HF cardและที่เก็บ GitHub ของ โครงการ [ 405 ]ดิกเกลมันน์และคณะ
ชุดข้อมูลข่าวสารด้านสภาพภูมิอากาศ ชุดข้อมูลสำหรับนักวิจัยด้านการประมวลผลภาษาธรรมชาติและสื่อเกี่ยวกับการเปลี่ยนแปลงสภาพภูมิอากาศ ชุดข้อมูลประกอบด้วยข้อมูลหลายประเภท (ไฟล์ข้อความ JSON, JSONL และ CSV รวมถึงฐานข้อมูล SQLite) ฐานข้อมูลข่าวสารด้านสภาพภูมิอากาศ , ที่เก็บข้อมูล GitHubของโครงการ[ 406 ]ประสิทธิภาพ ADGE
ภูมิอากาศเท็กซ์ Climatext คือชุดข้อมูลสำหรับการตรวจจับหัวข้อเกี่ยวกับการเปลี่ยนแปลงสภาพภูมิอากาศโดยใช้ประโยคเป็นเกณฑ์ ชุดข้อมูล HF[ 407 ]มหาวิทยาลัยซูริค
กรีนบิซ รวบรวมบทความและข่าวสารเกี่ยวกับสภาพภูมิอากาศและความยั่งยืน ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อบทความเกี่ยวกับสภาพภูมิอากาศที่คัดสรรแล้วรายชื่อบทความเกี่ยวกับความยั่งยืนที่คัดสรรแล้ว[ 408 ]
บทความวิจัยฉบับร่างชั้นนำด้านสภาพภูมิอากาศและความยั่งยืน รายชื่อบทความวิจัยฉบับร่างจากนักวิจัยที่อยู่ในรายชื่อผู้ทรงอิทธิพลของรอยเตอร์ ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อบทความวิจัยฉบับร่างที่คัดสรรแล้ว[ 409 ]มอริส แทมแมน
อาร์คส์ ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อบล็อกเกี่ยวกับการพัฒนาอย่างยั่งยืนขององค์กรที่คัดสรรมาแล้ว[ 410 ]
กรีนบิซ เว็บไซต์ที่มีบทความเกี่ยวกับสภาพภูมิอากาศและความยั่งยืน ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า [ 411 ]กรีนบิซ
ซีเอสอาร์ไวร์ ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อบทความที่คัดสรรแล้ว[ 412 ]ซีเอสอาร์ไวร์
ซีดีพี บทความเกี่ยวกับสภาพภูมิอากาศน้ำและป่าไม้ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า [ 413 ]ซีดีพี

ข้อมูลรหัส

ชื่อชุดข้อมูล คำอธิบายโดยย่อ การประมวลผลล่วงหน้า ตัวอย่าง รูปแบบ งานเริ่มต้น สร้างแล้ว (อัปเดตแล้ว) อ้างอิง ผู้สร้าง
กองซ้อน ชุดข้อมูลขนาด 3.1 เทราไบต์ ประกอบด้วยซอร์สโค้ดที่ได้รับอนุญาตให้ใช้งานอย่างเสรีใน 30 ภาษาโปรแกรม ผ่านการตรวจสอบใบอนุญาตและการกำจัดข้อมูลซ้ำซ้อนแล้ว 6 เทราไบต์, 51.76 ไบต์ของไฟล์ (ก่อนการลดความซ้ำซ้อน); 3 เทราไบต์, 5.28 ไบต์ของไฟล์ (หลังการลดความซ้ำซ้อน) 358 ภาษาโปรแกรม ปาร์เกต์ การสร้างแบบจำลองภาษา, การเติมคำอัตโนมัติ, การสังเคราะห์โปรแกรม 2022 [ 414 ] [ 415 ]ดี. โคเซตคอฟ, อาร์. ลี, แอล. เบน อัลลาล, แอล. ฟอน แวร์รา, เอช. เดอ ไวรีส์
ชุดข้อมูลเครือข่ายประสาทเทียม LEMUR คลังข้อมูลที่มีโครงสร้างของแบบจำลองเครือข่ายประสาทเทียมมาตรฐาน ซึ่งออกแบบมาเพื่ออำนวยความสะดวกในงาน AutoML และการวิเคราะห์แบบจำลองด้วย LLM ผ่านการตรวจสอบใบอนุญาตและการกำจัดข้อมูลซ้ำซ้อนแล้ว โมเดล PyTorch สคริปต์ Python การจำแนกภาพ การตรวจจับวัตถุ การแบ่งส่วนภาพ และการประมวลผลภาษาธรรมชาติ 2024 [ 416 ]A. Goodarzi, R. Kochnev, W. Khalid, F. Qin, T. Uzun, Y. Dhameliya, Y. Kathiriya, Z. Bentyn, D. Ignatov, R. Timofte
ที่เก็บข้อมูล GitHub ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อคลังเก็บข้อมูลที่คัดสรรจากGitHub : 61 62 63 64 65 66 67 68 69 70 71 , 72 , 73 , 74 , 75 , 76 , 77 101
คลังเก็บข้อมูลสาธารณะของ IBM บน GitHub ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อแหล่งเก็บข้อมูลที่คัดสรรแล้วจากGitHub
คลังเก็บข้อมูลสาธารณะของ RedHat บน GitHub ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อแหล่งเก็บข้อมูลที่คัดสรรแล้วจากGitHub
ไฟล์ StackExchange Public Archive.org ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายการไฟล์ที่คัดสรรจากArchive.org
Gitlab Public repositories ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อแหล่งเก็บข้อมูลที่คัดสรรจากGitlab : 1 2
คลังเก็บข้อมูลสาธารณะของ Ansible Collections ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อแหล่งเก็บข้อมูลที่คัดสรรแล้ว จากGitHub
ชุดข้อมูลโค้ด CodeParrot บน GitHub ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อคลังข้อมูลที่คัดสรรจากHugging Face : 1 2 3 4 5 6 7 8 9 10
โอคดี Kubernetes เวอร์ชันสำหรับชุมชนผู้ใช้งาน ซึ่งเป็นส่วนสำคัญของ Red Hat OpenShift ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ
โอเพ่นชิฟต์ ระบบปฏิบัติการ Kubernetes ที่เป็นมิตรกับนักพัฒนาและผู้ดูแลระบบ รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ
คูเบอร์เน็ตส์ ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ
นักพัฒนา Red Hat GitHub คือศูนย์กลางของโครงการ Red Hat Developer ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ
หมวกแดง

การอบรมเชิงปฏิบัติการ

ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ
กลุ่มความสนใจพิเศษของ Kubernetes ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ
สายพานลำเลียง ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ
ตลาดเรดแฮท ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ
บล็อก Redhat ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า [ 417 ]
Kubernetes io ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า [ 418 ]
เอกสาร Openshift ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า [ 419 ]
cncf io ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า [ 420 ]
การนำเสนอเกี่ยวกับ Kubernetes รายชื่อเอกสารนำเสนอเกี่ยวกับ Kubernetes ที่เปิดให้สาธารณะเข้าชมได้ ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า การเชื่อมโยงข้อมูล
เรดแฮท โอเพ่น อินโนเวชั่น แล็บส์ ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ
การสาธิตของ Red Hat ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ
เรดแฮท โอเพ่นชิฟต์ ออนไลน์ ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ
ชุดซอฟต์แวร์ ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ
Red Hat Insights ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ
รัฐบาลหมวกแดง ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ
เรดแฮท คอนซัลติ้ง ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ
ชุมชนแห่งการปฏิบัติของเรดแฮท ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ
Red Hat Partner Tech ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ
เอกสารประกอบของ Red Hat ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ
ไอบีเอ็ม ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ
ไอบีเอ็มคลาวด์ ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ
ทีมสร้างห้องปฏิบัติการ ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ
โมดูล Terraform ของ IBM ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ
แผนผังระบบคลาวด์ ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ
การสาธิตพลังของ OCP ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ
การปรับปรุงแอปพลิเคชันของ IBM  ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ
Kubernetes OperatorHub  ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ
มูลนิธิการประมวลผลแบบคลาวด์เนทีฟ (CNCF)  ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ
กรอบการทำงานผู้ปฏิบัติงาน ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ[ 421 ]
แหล่งเก็บข้อมูล GitHub ที่อ้างอิงใน artifacthub.io ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อคลังเก็บข้อมูล GitHub ใน artifacthub.io
ชุมชนแห่งการปฏิบัติของเรดแฮท ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ
พันธมิตรของ Red Hat ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ
ที่เก็บข้อมูลของ IBM ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อคลังเก็บข้อมูล GitHub สำหรับโครงการนี้
ทีมสร้างห้องปฏิบัติการ ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อคลังเก็บข้อมูล GitHub สำหรับโครงการนี้
กรอบการทำงานผู้ปฏิบัติงาน ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อคลังเก็บข้อมูล GitHub สำหรับโครงการนี้
ที่เก็บข้อมูล GitHub ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อคลังเก็บข้อมูล GitHub สำหรับโครงการนี้
หมวกแดง ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ
รูปแบบของ Kubernetes ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ
รูปแบบการปรับใช้และการรักษาความปลอดภัยของ Kubernetes ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ
Kubernetes สำหรับนักพัฒนา Full-Stack ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ
เมตริก Cloudwatch ของ Load Balancer ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า ที่เก็บโค้ด GitHub ของโครงการ
ไดนาเทรซ ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า [5]
ข้อมูลจากการแข่งขัน AIOps Challenge 2020 ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า ที่เก็บโค้ด GitHub ของโครงการ
ล็อกฮับ ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อแหล่งเก็บข้อมูล
หน้าเว็บ HTML ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายการหน้า HTML
อีบุ๊ก OpenSift ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า [ 422 ]
อีบุ๊ก Kubernetes ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รูปแบบการใช้งาน Kubernetes , การปรับใช้ Kubernetes , Kubernetes สำหรับนักพัฒนา Full-Stack
Kubernetes สำหรับนักพัฒนา Full-Stack ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า Kubernetes สำหรับนักพัฒนา Full-Stack
รายชื่อคลังเก็บข้อมูล GitHub สาธารณะและที่ได้รับอนุญาต ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า รายชื่อแหล่งเก็บข้อมูล

ข้อมูลหลายตัวแปร

การเงิน

ชื่อชุดข้อมูล คำอธิบายโดยย่อ การประมวลผลล่วงหน้า ตัวอย่าง รูปแบบ งานเริ่มต้น สร้างแล้ว (อัปเดตแล้ว) อ้างอิง ผู้สร้าง
ดัชนีดาวโจนส์ ข้อมูลรายสัปดาห์ของราคาหุ้นจากไตรมาสแรกและไตรมาสที่สองของปี 2011 ค่าที่คำนวณได้ประกอบด้วยค่าต่างๆ เช่น เปอร์เซ็นต์การเปลี่ยนแปลงและค่าความล่าช้า 750 ค่าที่คั่นด้วยเครื่องหมายจุลภาค การจำแนกประเภท, การถดถอย, อนุกรมเวลา2014 [ 423 ] [ 424 ]เอ็ม. บราวน์ และคณะ
Statlog (ระบบอนุมัติสินเชื่อของออสเตรเลีย) ผลการพิจารณาอนุมัติหรือปฏิเสธใบสมัครบัตรเครดิต และรายละเอียดเกี่ยวกับใบสมัคร ชื่อคุณลักษณะและข้อมูลระบุตัวตนถูกลบออกแล้ว ปัจจัยต่างๆ ได้รับการเปลี่ยนชื่อใหม่ 690 ค่าที่คั่นด้วยเครื่องหมายจุลภาค การจำแนกประเภท พ.ศ. 2530 [ 425 ] [ 426 ]อาร์. ควินแลน
ข้อมูลการประมูลของอีเบย์ ข้อมูลการประมูลจากสินค้าต่างๆ บน eBay.com ในระยะเวลาการประมูลที่แตกต่างกัน ประกอบด้วยข้อมูลการเสนอราคาทั้งหมด รหัสผู้เสนอราคา เวลาการเสนอราคา และราคาเริ่มต้น ~ 550 ข้อความ การถดถอย, การจำแนกประเภท 2012 [ 427 ] [ 428 ]จี. ชมูเอลีและคณะ
Statlog (ข้อมูลเครดิตของเยอรมนี) ระบบจำแนกเครดิตแบบไบนารี เป็น "ดี" หรือ "ไม่ดี" พร้อมคุณสมบัติมากมาย มีการระบุข้อมูลทางการเงินต่างๆ ของแต่ละบุคคล 690 ข้อความ การจำแนกประเภท พ.ศ. 2537 [ 429 ]เอช. ฮอฟมันน์
ชุดข้อมูลการตลาดของธนาคาร ข้อมูลจากแคมเปญการตลาดขนาดใหญ่ที่ดำเนินการโดยธนาคารขนาดใหญ่แห่งหนึ่ง มีการระบุคุณลักษณะหลายประการของลูกค้าที่ติดต่อมา รวมถึงข้อมูลว่าลูกค้าสมัครใช้บริการธนาคารหรือไม่ 45,211 ข้อความ การจำแนกประเภท 2012 [ 430 ] [ 431 ]เอส. โมโร และคณะ
ชุดข้อมูลตลาดหลักทรัพย์อิสตันบูล ดัชนีหุ้นหลายตัวได้รับการติดตามมาเกือบสองปีแล้ว ไม่มี. 536 ข้อความ การจำแนกประเภท การถดถอย 2013 [ 432 ] [ 433 ]โอ. อัคบิลกิช
การผิดนัดชำระหนี้ของลูกค้าบัตรเครดิต ข้อมูลการผิดนัดชำระหนี้ของเจ้าหนี้ชาวไต้หวัน มีการระบุรายละเอียดต่างๆ เกี่ยวกับแต่ละบัญชีไว้ 30,000 ข้อความ การจำแนกประเภท 2016 [ 434 ] [ 435 ]ไอ.เยห์
สต็อกเน็ตการคาดการณ์ความเคลื่อนไหวของราคาหุ้นจากทวีตและราคาหุ้นในอดีต ไม่มี ข้อความ NLP 2018 [ 436 ]ยูโม ซู และเชย์ บี. โคเฮน

สภาพอากาศ

ชื่อชุดข้อมูล คำอธิบายโดยย่อ การประมวลผลล่วงหน้า ตัวอย่าง รูปแบบ งานเริ่มต้น สร้างแล้ว (อัปเดตแล้ว) อ้างอิง ผู้สร้าง
ชุดข้อมูลคลาวด์ ข้อมูลเกี่ยวกับเมฆ 1024 ชนิดที่แตกต่างกัน ดึงคุณลักษณะของภาพออกมา 1024 ข้อความ การจำแนกประเภท การจัดกลุ่ม 1989 [ 437 ]พี. คอลลาร์ด
ชุดข้อมูลเอลนีโญ ข้อมูลทางสมุทรศาสตร์และอุตุนิยมวิทยาพื้นผิวที่ได้จากทุ่นลอยน้ำหลายจุดซึ่งวางอยู่ทั่วบริเวณเส้นศูนย์สูตรของมหาสมุทรแปซิฟิก มีการวัดคุณลักษณะด้านสภาพอากาศ 12 ประการที่ทุ่นแต่ละแห่ง 178080 ข้อความ การถดถอย 1999 [ 438 ]ห้องปฏิบัติการสิ่งแวดล้อมทางทะเลแปซิฟิก
ชุดข้อมูลเครือข่ายสังเกตการณ์ก๊าซเรือนกระจก แผนภูมิอนุกรมเวลาของความเข้มข้นของก๊าซเรือนกระจก ณ จุดข้อมูล 2921 จุดในรัฐแคลิฟอร์เนีย สร้างขึ้นโดยใช้การจำลองสภาพอากาศ ไม่มี. 2921 ข้อความ การถดถอย 2015 [ 439 ]ดี. ลูคัส
ปริมาณก๊าซคาร์บอนไดออกไซด์ในบรรยากาศจากตัวอย่างอากาศที่เก็บอย่างต่อเนื่อง ณ หอดูดาวเมานาโลอา การเก็บตัวอย่างอากาศอย่างต่อเนื่องในฮาวาย สหรัฐอเมริกา บันทึกข้อมูลยาวนาน 44 ปี ไม่มี. อายุ 44 ปี ข้อความ การถดถอย 2001 [ 440 ]หอดูดาวเมานาโลอา
ชุดข้อมูลไอโอโนสเฟียร์ ข้อมูลเรดาร์จากชั้นบรรยากาศไอโอโนสเฟียร์ ภารกิจคือการจำแนกสัญญาณเรดาร์ออกเป็นสัญญาณที่ดีและสัญญาณที่ไม่ดี มีการระบุคุณสมบัติของเรดาร์ไว้หลายอย่าง 351 ข้อความ การจำแนกประเภท 1989 [ 289 ] [ 441 ]มหาวิทยาลัยจอห์นส์ ฮอปกินส์
ชุดข้อมูลการตรวจวัดระดับโอโซน ชุดข้อมูลระดับโอโซนภาคพื้นดินสองชุด มีข้อมูลคุณสมบัติหลายอย่าง รวมถึงสภาพอากาศในขณะทำการวัด 2536 ข้อความ การจำแนกประเภท 2008 [ 442 ] [ 443 ]เค. จาง และคณะ

สำมะโนประชากร

ชื่อชุดข้อมูล คำอธิบายโดยย่อ การประมวลผลล่วงหน้า ตัวอย่าง รูปแบบ งานเริ่มต้น สร้างแล้ว (อัปเดตแล้ว) อ้างอิง ผู้สร้าง
ชุดข้อมูลผู้ใหญ่ ข้อมูลสำมะโนประชากรปี 1994 ซึ่งประกอบด้วยข้อมูลด้านประชากรศาสตร์ของผู้ใหญ่และรายได้ของพวกเขา ทำความสะอาดและปกปิดข้อมูลส่วนบุคคลแล้ว 48,842 ค่าที่คั่นด้วยเครื่องหมายจุลภาค การจำแนกประเภท พ.ศ. 2539 [ 444 ]สำนักงานสำมะโนประชากรแห่งสหรัฐอเมริกา
รายได้จากการสำรวจสำมะโนประชากร (KDD) ข้อมูลสำมะโนประชากรถ่วงน้ำหนักจากแบบสำรวจประชากรปัจจุบัน ปี 1994 และ 1995 แบ่งออกเป็นชุดข้อมูลฝึกฝนและชุดข้อมูลทดสอบ 299,285 ค่าที่คั่นด้วยเครื่องหมายจุลภาค การจำแนกประเภท 2000 [ 445 ] [ 446 ]สำนักงานสำมะโนประชากรแห่งสหรัฐอเมริกา
ฐานข้อมูลสำมะโนประชากร IPUMS ข้อมูลสำมะโนประชากรจากพื้นที่ลอสแอนเจลิสและลองบีช ไม่มี 256,932 ข้อความ การจำแนกประเภท การถดถอย 1999 [ 447 ]ไอพีเอ็มเอส
ข้อมูลสำมะโนประชากรของสหรัฐอเมริกา ปี 1990 ข้อมูลบางส่วนจากสำมะโนประชากรของสหรัฐอเมริกา ปี 1990 ผลลัพธ์ได้รับการสุ่มและเลือกคุณลักษณะที่เป็นประโยชน์ 2,458,285 ข้อความ การจำแนกประเภท การถดถอย 1990 [ 448 ]สำนักงานสำมะโนประชากรแห่งสหรัฐอเมริกา

การขนส่ง

ชื่อชุดข้อมูล คำอธิบายโดยย่อ การประมวลผลล่วงหน้า ตัวอย่าง รูปแบบ งานเริ่มต้น สร้างแล้ว (อัปเดตแล้ว) อ้างอิง ผู้สร้าง
ชุดข้อมูลการแบ่งปันจักรยาน จำนวนจักรยานให้เช่ารายชั่วโมงและรายวันในเมืองใหญ่ มีการระบุรายละเอียดหลายอย่าง เช่น สภาพอากาศ ระยะเวลาการเดินทาง เป็นต้น 17,389 ข้อความ การถดถอย 2013 [ 449 ] [ 450 ]เอช. ฟานาอี-ที
ข้อมูลการเดินทางด้วยแท็กซี่ในนครนิวยอร์ก ข้อมูลการเดินทางของรถแท็กซี่สีเหลืองและสีเขียวในนครนิวยอร์ก แสดงจุดรับและส่ง ค่าโดยสาร และรายละเอียดอื่นๆ ของการเดินทาง 6 ปี ข้อความ การจำแนกประเภท การจัดกลุ่ม 2015 [ 451 ]คณะกรรมการแท็กซี่และรถลิมูซีนแห่งนครนิวยอร์ก
เส้นทางการให้บริการแท็กซี่ ECML PKDD เส้นทางการเคลื่อนที่ของรถแท็กซี่ทั้งหมดในเมืองใหญ่แห่งหนึ่ง มีคุณสมบัติหลายอย่างให้เลือกใช้ รวมถึงจุดเริ่มต้นและจุดสิ้นสุด 1,710,671 ข้อความ การจัดกลุ่ม การค้นหาสาเหตุ 2015 [ 452 ] [ 453 ]เอ็ม. เฟอร์เรรา และคณะ
เมโทร-แอลเอ ความเร็วที่วัดได้จากเซ็นเซอร์ตรวจจับความเร็วบนทางหลวงในเขตลอสแอนเจลิสเคาน์ตี ความเร็วเฉลี่ยในแต่ละช่วงเวลา 5 นาที 7,094,304 จากเซ็นเซอร์ 207 ตัว และช่วงเวลา 34,272 ช่วง ค่าที่คั่นด้วยเครื่องหมายจุลภาค การถดถอย, การพยากรณ์ 2014 [ 454 ]จาคาดิชและคณะ
เพเอ็มเอส ความเร็ว ปริมาณการจราจร อัตราการใช้พื้นที่ และตัวชี้วัดอื่นๆ จากอุปกรณ์ตรวจจับแบบลูปและเซ็นเซอร์อื่นๆ บนทางด่วนในรัฐแคลิฟอร์เนีย สหรัฐอเมริกา โดยปกติแล้ว ค่าตัวชี้วัดจะถูกรวบรวมโดยใช้ค่าเฉลี่ยในช่วงเวลา 5 นาที เครื่องตรวจจับจำนวน 39,000 เครื่อง แต่ละเครื่องบรรจุข้อมูลอนุกรมเวลาหลายปี ค่าที่คั่นด้วยเครื่องหมายจุลภาค การถดถอย, การพยากรณ์, การพยากรณ์ระยะสั้น, การประมาณค่าในช่วง (อัปเดตแบบเรียลไทม์) [ 455 ]กรมการขนส่งแห่งรัฐแคลิฟอร์เนีย

อินเทอร์เน็ต

ชื่อชุดข้อมูล คำอธิบายโดยย่อ การประมวลผลล่วงหน้า ตัวอย่าง รูปแบบ งานเริ่มต้น สร้างแล้ว (อัปเดตแล้ว) อ้างอิง ผู้สร้าง
เว็บเพจจาก Common Crawl 2012 แหล่งรวบรวมข้อมูลขนาดใหญ่เกี่ยวกับเว็บเพจและวิธีการเชื่อมโยงเว็บเพจเหล่านั้นเข้าด้วยกันผ่านไฮเปอร์ลิงก์ ไม่มี. 3.5B ข้อความ การจัดกลุ่ม การจำแนกประเภท 2013 [ 456 ]วี. แกรนวิลล์
ชุดข้อมูลโฆษณาทางอินเทอร์เน็ต ชุดข้อมูลสำหรับทำนายว่าภาพที่กำหนดเป็นภาพโฆษณาหรือไม่ คุณสมบัติเหล่านี้จะเข้ารหัสรูปทรงเรขาคณิตของโฆษณาและวลีที่ปรากฏใน URL 3279 ข้อความ การจำแนกประเภท 1998 [ 457 ] [ 458 ]เอ็น. คุชเมอริค
ชุดข้อมูลการใช้งานอินเทอร์เน็ต ข้อมูลประชากรทั่วไปของผู้ใช้งานอินเทอร์เน็ต ไม่มี. 10,104 ข้อความ การจำแนกประเภท การจัดกลุ่ม 1999 [ 459 ]ดี. คุก
ชุดข้อมูล URL ข้อมูล URL จากการประชุมขนาดใหญ่เป็นเวลา 120 วัน มีการระบุคุณลักษณะหลายประการของแต่ละ URL 2,396,130 ข้อความ การจำแนกประเภท 2009 [ 460 ] [ 461 ]เจ. มา
ชุดข้อมูลเว็บไซต์ฟิชชิ่ง ชุดข้อมูลเว็บไซต์ฟิชชิ่ง มีการระบุคุณสมบัติหลายประการของแต่ละเว็บไซต์ 2456 ข้อความ การจำแนกประเภท 2015 [ 462 ]อาร์. มุสตาฟา และคณะ
ชุดข้อมูลการค้าปลีกออนไลน์ ธุรกรรมออนไลน์สำหรับผู้ค้าปลีกออนไลน์ในสหราชอาณาจักร รายละเอียดของแต่ละรายการธุรกรรมระบุไว้ครบถ้วน 541,909 ข้อความ การจำแนกประเภท การจัดกลุ่ม 2015 [ 463 ]ดี. เฉิน
Freebase Simple Topic Dump Freebase คือความพยายามทางออนไลน์ในการจัดโครงสร้างความรู้ของมนุษยชาติทั้งหมด หัวข้อต่างๆ จาก Freebase ได้ถูกดึงออกมาแล้ว ใหญ่ ข้อความ การจำแนกประเภท การจัดกลุ่ม 2011 [ 464 ] [ 465 ]ฟรีเบส
ชุดข้อมูลโฆษณาฟาร์ม ข้อความโฆษณาทางการเกษตรจากเว็บไซต์ต่างๆ เจ้าของเนื้อหาจะให้การอนุมัติหรือไม่อนุมัติแบบไบนารี่เท่านั้น เวกเตอร์แบบสปาร์สของคำในโฆษณาที่คำนวณโดย SVMlight 4143 ข้อความ การจำแนกประเภท 2011 [ 466 ] [ 467 ]ซี. มาสเตอร์ฮาร์ม และคณะ
กองการรวบรวมชุดข้อมูลขนาดใหญ่หลายชุดที่มีข้อความหลากหลายและไม่มีโครงสร้าง ต่างๆ (เช่น การลบ HTML และ JavaScript ออกจากเว็บไซต์ การลบประโยคที่ซ้ำซ้อน) ข้อความภาษาอังกฤษขนาด 825 กิกะไบต์ บรรทัด JSON [ 468 ] [ 469 ]การประมวลผลภาษาธรรมชาติ, การทำนายข้อความ 2021 [ 470 ] [ 468 ]เกาและคณะ
ออสการ์ ชุดข้อมูลขนาดใหญ่ที่เป็นข้อมูลภาษาเดียว ซึ่งสกัดจากข้อมูลบนเว็บ (Common Crawl dumps) ครอบคลุมมากกว่า 150 ภาษา หลากหลาย (การกรองข้อมูล การจำแนกภาษา การตรวจจับเนื้อหาสำหรับผู้ใหญ่ และการติดป้ายกำกับอื่นๆ) ไฟล์ข้อมูลประกอบด้วยข้อความภาษาอังกฤษขนาด 3.4 เทราไบต์ ข้อความภาษาจีนขนาด 1.4 เทราไบต์ ข้อความภาษารัสเซียขนาด 1.1 เทราไบต์ ข้อความภาษาเยอรมันขนาด 595 เมกะไบต์ ข้อความภาษาฝรั่งเศสขนาด 431 เมกะไบต์ และข้อมูลสำหรับภาษาอื่นๆ อีกกว่า 150 ภาษา (ตัวเลขสำหรับเวอร์ชัน 23.01) บรรทัด JSON [ 471 ]การประมวลผลภาษาธรรมชาติ, การทำนายข้อความ 2021 [ 472 ] [ 473 ]ออร์ติซ ซัวเรซ, อาบัดจิ, ซาโกต์ และคณะ
โอเพ่นเว็บเท็กซ์ เป็นการสร้างคลังข้อมูล WebText ขึ้นใหม่แบบโอเพนซอร์ส โดยข้อความจะดึงมาจากเนื้อหาบนเว็บที่แชร์บน Reddit ซึ่งแต่ละ URL ต้องได้รับการโหวตเห็นด้วยอย่างน้อยสามครั้ง แยกเนื้อหาที่ไม่ใช่ HTML ออกมา ลบคำซ้ำ และแยกเป็นโทเค็นแล้ว เอกสาร 8,013,769 ฉบับ, ขนาด 38GB ข้อความ การประมวลผลภาษาธรรมชาติ, การทำนายข้อความ 2019 [ 474 ] [ 475 ]เอ. โกคาสลัน, วี. โคเฮน
ราก ชุดข้อมูลหลายภาษาที่มีการบันทึกข้อมูลอย่างดีและเป็นตัวแทน โดยมีเป้าหมายที่ชัดเจนในการสร้างประโยชน์ให้แก่และโดยผู้คนที่เป็นเจ้าของข้อมูล แยกเนื้อหาที่ไม่ใช่ HTML ออก ทำความสะอาด UI และโฆษณา ลบข้อมูลซ้ำซ้อน ลบข้อมูลส่วนบุคคล และสร้างโทเค็น 1.6 เทราไบต์, 59 ภาษา ปาร์เกต์ การประมวลผลภาษาธรรมชาติ, การทำนายข้อความ 2022 [ 476 ] [ 477 ]เอช. ลอเรนซง, แอล. ซอลเนียร์, ต. วัง, ซี. อากิกิ, เอ. วิลลาโนวา เดล โมรัล, ที. เลอ สเกา

เกมส์

ชื่อชุดข้อมูล คำอธิบายโดยย่อ การประมวลผลล่วงหน้า ตัวอย่าง รูปแบบ งานเริ่มต้น สร้างแล้ว (อัปเดตแล้ว) อ้างอิง ผู้สร้าง
ชุดข้อมูลไพ่โป๊กเกอร์ ไพ่ 5 ใบจากสำรับไพ่มาตรฐาน 52 ใบ มีการระบุคุณลักษณะของไพ่แต่ละมือ รวมถึงไพ่โป๊กเกอร์ที่ได้จากไพ่ในมือเหล่านั้น 1,025,010 ข้อความ การถดถอย, การจำแนกประเภท 2007 [ 478 ]อาร์. แคททรัล
ชุดข้อมูล Connect-4 ประกอบด้วยตำแหน่ง 8 ตัวหมากที่ถูกต้องตามกฎในเกม Connect-4 ซึ่งยังไม่มีผู้เล่นคนใดชนะ และการเดินหมากครั้งต่อไปไม่ได้ถูกบังคับ ไม่มี. 67,557 ข้อความ การจำแนกประเภท พ.ศ. 2538 [ 479 ]เจ. ทรอมป์
ชุดข้อมูลหมากรุก (ราชา-เรือ ปะทะ ราชา) ฐานข้อมูลเกมช่วงท้ายสำหรับราชาขาวและเรือต่อสู้กับราชาดำ ไม่มี. 28,056 ข้อความ การจำแนกประเภท พ.ศ. 2537 [ 480 ] [ 481 ]เอ็ม. เบน และคณะ
ชุดข้อมูลหมากรุก (ราชา-เรือ เทียบกับ ราชา-เบี้ย) คิง+เรือ ปะทะ คิง+เบี้ย บนช่อง a7 ไม่มี. 3196 ข้อความ การจำแนกประเภท 1989 [ 482 ]อาร์. โฮลเต้
ชุดข้อมูลเกมจบ Tic-Tac-Toe การจำแนกแบบไบนารีสำหรับเงื่อนไขการชนะในเกมโอเอ็กซ์ ไม่มี. 958 ข้อความ การจำแนกประเภท 1991 [ 483 ]ดี. อาฮา

ตัวแปรหลายตัวอื่นๆ

ชื่อชุดข้อมูล คำอธิบายโดยย่อ การประมวลผลล่วงหน้า ตัวอย่าง รูปแบบ งานเริ่มต้น สร้างแล้ว (อัปเดตแล้ว) อ้างอิง ผู้สร้าง
ชุดข้อมูลที่อยู่อาศัย ราคาบ้านเฉลี่ยในบอสตัน พร้อมคุณลักษณะของบ้านและย่านที่อยู่อาศัยที่เกี่ยวข้อง ไม่มี. 506 ข้อความ การถดถอย พ.ศ. 2536 [ 484 ]ดี. แฮร์ริสัน และคณะ
คำศัพท์ของเก็ตตี้ ระบบคำศัพท์เฉพาะสำหรับงานศิลปะและวัฒนธรรมทางวัตถุอื่นๆ เอกสารจดหมายเหตุ ตัวแทนทางภาพ และเอกสารบรรณานุกรม ไม่มี. ใหญ่ ข้อความ การจำแนกประเภท 2015 [ 485 ]ศูนย์เก็ตตี้
Yahoo! หน้าแรกวันนี้ โมดูล ผู้ใช้ คลิก บันทึก บันทึกการคลิกของผู้ใช้สำหรับบทความข่าวที่แสดงในแท็บ "บทความเด่น" ของโมดูล "วันนี้" บนหน้าแรกของ Yahoo! การวิเคราะห์ร่วมโดยใช้แบบจำลองเชิงเส้นคู่ จำนวนการเข้าชมของผู้ใช้ 45,811,883 ครั้ง ข้อความ การถดถอย, การจัดกลุ่ม 2009 [ 486 ] [ 487 ]ชูและคณะ
ศูนย์ข้อมูลสมุทรศาสตร์แห่งอังกฤษ ข้อมูลทางชีววิทยา เคมี ฟิสิกส์ และธรณีฟิสิกส์สำหรับมหาสมุทร มีการติดตามตัวแปร 22,000 ตัว หลากหลาย. ตัวแปร 22,000 ตัว และอินสแตนซ์จำนวนมาก ข้อความ การถดถอย, การจัดกลุ่ม 2015 [ 488 ]ศูนย์ข้อมูลสมุทรศาสตร์แห่งอังกฤษ
ชุดข้อมูลบันทึกการลงคะแนนเสียงของรัฐสภา ข้อมูลการลงคะแนนเสียงของสมาชิกรัฐสภาสหรัฐฯ ทุกคนใน 16 ประเด็น นอกเหนือจากข้อมูลการลงคะแนนดิบแล้ว ยังมีฟีเจอร์อื่นๆ อีกมากมายให้เลือกใช้ 435 ข้อความ การจำแนกประเภท พ.ศ. 2530 [ 489 ]เจ. ชลิมเมอร์
ชุดข้อมูลคำแนะนำร้านอาหาร Entree Chicago บันทึกการโต้ตอบของผู้ใช้กับระบบแนะนำอาหารของร้าน Entree Chicago รายละเอียดการใช้งานแอปพลิเคชันของผู้ใช้แต่ละรายจะถูกบันทึกไว้อย่างละเอียด 50,672 ข้อความ การถดถอย, คำแนะนำ 2000 [ 490 ]อาร์. เบิร์ค
ดัชนีชี้วัดมาตรฐานบริษัทประกันภัย (COIL 2000) ข้อมูลเกี่ยวกับลูกค้าของบริษัทประกันภัย คุณลักษณะหลายประการของลูกค้าแต่ละรายและบริการที่พวกเขาใช้ 9,000 ข้อความ การถดถอย, การจำแนกประเภท 2000 [ 491 ] [ 492 ]พี. ฟาน เดอร์ พุตเต็น
ชุดข้อมูลสถานรับเลี้ยงเด็ก ข้อมูลจากผู้สมัครเข้าเรียนโรงเรียนอนุบาล ข้อมูลเกี่ยวกับครอบครัวของผู้สมัครและปัจจัยอื่นๆ ที่เกี่ยวข้อง 12,960 ข้อความ การจำแนกประเภท พ.ศ. 2540 [ 493 ] [ 494 ]วี. ราชโควิช และคณะ
ชุดข้อมูลมหาวิทยาลัย ข้อมูลที่อธิบายคุณลักษณะของมหาวิทยาลัยจำนวนมาก ไม่มี. 285 ข้อความ การจัดกลุ่ม การจำแนกประเภท 1988 [ 495 ]เอส. ซาวน์เดอร์ส และคณะ
ชุดข้อมูลศูนย์บริการรับบริจาคโลหิต ข้อมูลจากศูนย์บริการรับบริจาคโลหิต ให้ข้อมูลเกี่ยวกับอัตราการกลับมาบริจาค ความถี่ในการบริจาค เป็นต้น ไม่มี. 748 ข้อความ การจำแนกประเภท 2008 [ 496 ] [ 497 ]ไอ.เยห์
ชุดข้อมูลรูปแบบการเปรียบเทียบการเชื่อมโยงบันทึก ชุดข้อมูลขนาดใหญ่ งานที่ต้องทำคือการเชื่อมโยงข้อมูลที่เกี่ยวข้องเข้าด้วยกัน มีการใช้กระบวนการบล็อกเพื่อเลือกเฉพาะคู่ข้อมูลบางคู่เท่านั้น 5,749,132 ข้อความ การจำแนกประเภท 2011 [ 498 ] [ 499 ]มหาวิทยาลัยไมนซ์
ชุดข้อมูล Nomao Nomao รวบรวมข้อมูลเกี่ยวกับสถานที่จากแหล่งข้อมูลที่หลากหลาย ภารกิจคือการตรวจจับรายการที่อธิบายถึงสถานที่เดียวกัน มีการระบุสำเนาที่ซ้ำกันแล้ว 34,465 ข้อความ การจำแนกประเภท 2012 [ 500 ] [ 501 ]โนมาโอ แล็บส์
ชุดข้อมูลภาพยนตร์ ข้อมูลสำหรับภาพยนตร์ 10,000 เรื่อง มีการระบุคุณสมบัติหลายประการสำหรับภาพยนตร์แต่ละเรื่อง 10,000 ข้อความ การจัดกลุ่ม การจำแนกประเภท 1999 [ 502 ]จี. วีเดอร์โฮลด์
ชุดข้อมูลการวิเคราะห์การเรียนรู้ของมหาวิทยาลัยเปิด ข้อมูลเกี่ยวกับนักเรียนและการมีปฏิสัมพันธ์ของพวกเขากับสภาพแวดล้อมการเรียนรู้เสมือนจริง ไม่มี. ~ 30,000 ข้อความ การจำแนกประเภท การจัดกลุ่ม การถดถอย 2015 [ 503 ] [ 504 ]เจ. คูซิเลก และคณะ
บันทึกโทรศัพท์มือถือ กิจกรรมและการปฏิสัมพันธ์ด้านโทรคมนาคม การรวมข้อมูลตามเซลล์ตารางทางภูมิศาสตร์และทุกๆ 15 นาที ใหญ่ ข้อความ การจำแนกประเภท, การจัดกลุ่ม, การถดถอย 2015 [ 505 ]จี. บาร์ลาคคี และคณะ

แหล่งรวบรวมชุดข้อมูลที่คัดสรรแล้ว

เนื่องจากชุดข้อมูลมีหลากหลายรูปแบบและบางครั้งอาจใช้งานยาก จึงมีการดำเนินการอย่างมากในการรวบรวมและกำหนดมาตรฐานรูปแบบของชุดข้อมูลเพื่อให้ใช้งานได้ง่ายขึ้นสำหรับการวิจัยด้านการเรียนรู้ของเครื่อง

  • OpenML: [ 506 ]แพลตฟอร์มเว็บที่มี Python, R, Java และ API อื่นๆ สำหรับดาวน์โหลดชุดข้อมูลการเรียนรู้ของเครื่องหลายร้อยชุด ประเมินอัลกอริทึมบนชุดข้อมูล และเปรียบเทียบประสิทธิภาพของอัลกอริทึมกับอัลกอริทึมอื่นๆ อีกหลายสิบรายการ
  • PMLB: [ 507 ]คลังข้อมูลมาตรฐานขนาดใหญ่ที่คัดสรรมาอย่างดีสำหรับการประเมินอัลกอริธึมการเรียนรู้ของเครื่องแบบมีผู้กำกับดูแล จัดเตรียมชุดข้อมูลการจำแนกและการถดถอยในรูปแบบมาตรฐานที่สามารถเข้าถึงได้ผ่าน API ของ Python
  • Metatext NLP: https://metatext.io/datasetsคือแหล่งเก็บข้อมูลบนเว็บที่ดูแลโดยชุมชน มีชุดข้อมูลมาตรฐานเกือบ 1000 ชุด และกำลังเพิ่มขึ้นเรื่อยๆ มีงานประมวลผลหลากหลาย ตั้งแต่การจำแนกประเภทไปจนถึงการตอบคำถาม และรองรับหลายภาษา ตั้งแต่ภาษาอังกฤษ โปรตุเกส ไปจนถึงภาษาอาหรับ
  • Appen : ชุดข้อมูลสำเร็จรูปและโอเพนซอร์สที่บริษัทเป็นผู้ดูแลและบำรุงรักษา แหล่งข้อมูลทางชีววิทยา รูปภาพ ทางกายภาพ การตอบคำถาม สัญญาณ เสียง ข้อความ และวิดีโอเหล่านี้มีจำนวนมากกว่า 250 รายการ และสามารถนำไปใช้กับกรณีการใช้งานที่แตกต่างกันได้มากกว่า 25 กรณี[ 508 ] [ 509 ]

ดูเพิ่มเติม

ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=List_of_datasets_for_machine-learning_research&oldid=1360349694#GLUE "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ รายชื่อชุดข้อมูลสำหรับการวิจัยด้านการเรียนรู้ของเครื่อง

ชุดข้อมูลเหล่านี้ใช้ใน การวิจัย การเรียนรู้ของเครื่อง (ML)และได้รับการอ้างอิงในวารสารวิชาการที่ผ่านการตรวจสอบโดยผู้ทรงคุณวุฒิ ชุดข้อมูลเป็นส่วนสำคัญของสาขาการเรียนรู้ของเครื่อง

รายการการเรียงลำดับที่ใช้สำหรับชุดข้อมูล

พอร์ทัลข้อมูลถูกจำแนกตามประเภทของใบอนุญาต พอร์ทัลข้อมูลที่ใช้ ใบอนุญาตแบบโอเพนซอร์ส เรียกว่า พอร์ทัลข้อมูลเปิด ซึ่ง หน่วยงานภาครัฐ และ สถาบันการศึกษา หลายแห่งใช้งานอยู่

รายชื่อพอร์ทัลข้อมูลเปิด

https://github.com/sebneu/ckan_instances/blob/master/instances.csv

รายชื่อพอร์ทัลที่เหมาะสมสำหรับการใช้งานหลายประเภท

บางครั้งพอร์ทัลข้อมูลจะแสดงรายการชุดข้อมูลย่อยหลากหลายประเภทที่เกี่ยวข้องกับ การใช้งานการเรียนรู้ของเครื่อง หลาย ประเภท