อ่าน 52 นาที
รายชื่อชุดข้อมูลสำหรับการวิจัยด้านการเรียนรู้ของเครื่อง
ชุดข้อมูลเหล่านี้ใช้ใน การวิจัย การเรียนรู้ของเครื่อง (ML)และได้รับการอ้างอิงในวารสารวิชาการที่ผ่านการตรวจสอบโดยผู้ทรงคุณวุฒิ ชุดข้อมูลเป็นส่วนสำคัญของสาขาการเรียนรู้ของเครื่อง
รายชื่อชุดข้อมูลสำหรับการวิจัยด้านการเรียนรู้ของเครื่อง
| ส่วนหนึ่งของชุดบทความเกี่ยวกับ |
| การเรียนรู้ของเครื่องจักรและการขุดข้อมูล |
|---|
ชุดข้อมูลเหล่านี้ใช้ใน การวิจัย การเรียนรู้ของเครื่อง (ML)และได้รับการอ้างอิงในวารสารวิชาการที่ผ่านการตรวจสอบโดยผู้ทรงคุณวุฒิ ชุดข้อมูลเป็นส่วนสำคัญของสาขาการเรียนรู้ของเครื่อง ความก้าวหน้าครั้งสำคัญในสาขานี้อาจเกิดจากความก้าวหน้าของอัลกอริธึม การเรียนรู้ (เช่นการเรียนรู้เชิงลึก ) ฮาร์ดแวร์คอมพิวเตอร์และที่สำคัญน้อยกว่าคือ ความพร้อมของชุดข้อมูลฝึกอบรมคุณภาพสูง[ 1 ] ชุดข้อมูลฝึกอบรม ที่มีป้ายกำกับคุณภาพสูงสำหรับอัลกอริธึมการเรียนรู้ของเครื่องแบบมีผู้กำกับดูแลและแบบกึ่งมีผู้กำกับดูแลมักจะยากและมีราคาแพงในการผลิต เนื่องจากต้องใช้เวลาจำนวนมากในการติดป้ายกำกับข้อมูล แม้ว่าจะไม่จำเป็นต้องติดป้ายกำกับ แต่ ชุดข้อมูล ที่ไม่มีป้ายกำกับ คุณภาพสูง สำหรับ การเรียนรู้ แบบไม่มีผู้กำกับดูแลก็อาจยากและมีราคาแพงในการผลิตเช่นกัน[ 2 ] [ 3 ] [ 4 ]
องค์กรหลายแห่ง รวมทั้งรัฐบาล เผยแพร่และแบ่งปันชุดข้อมูล ของตน โดยมักใช้รูปแบบเมตาเดตาทั่วไป (เช่นCroissant ) [ 5 ]ชุดข้อมูลจะถูกจำแนกตามใบอนุญาตออกเป็นสองกลุ่ม ได้แก่ข้อมูลเปิดและข้อมูล ที่ไม่เปิด
รายชื่อเว็บไซต์ข้อมูลภาครัฐแบบเปิด นำเสนอชุดข้อมูลจากหน่วยงานภาครัฐ ต่างๆ ชุดข้อมูลเหล่านี้ถูกนำไปไว้ใน พอร์ทัลข้อมูลแบบเปิดและสามารถค้นหา ฝาก และเข้าถึงได้ผ่านทางอินเทอร์เฟซต่างๆ เช่นOpen APIชุดข้อมูลมีให้เลือกใช้งานในรูปแบบต่างๆ ทั้งแบบเรียงลำดับและแบบย่อย
รายการการเรียงลำดับที่ใช้สำหรับชุดข้อมูล
| พิมพ์ | ชนิดย่อย |
|---|---|
| หมวดหมู่เฉพาะ | การเงิน , เศรษฐศาสตร์ , การค้า , สังคม , สุขภาพ , วิชาการ , กีฬา , อาหาร , เกษตรกรรม , การท่องเที่ยว , ภูมิสารสนเทศ , การเมือง , ผู้บริโภค , การขนส่ง , โล จิสติกส์ , สิ่งแวดล้อม , อสังหาริมทรัพย์ , กฎหมาย , บันเทิง , พลังงาน , การบริการ |
| ขอบเขต | สหภาพเหนือชาติ , ระดับชาติ , ระดับภูมิภาค , เทศบาล , เขตเมือง , เขตชนบท |
| ภาษา | ภาษาจีนกลาง , ภาษาสเปน , ภาษาอังกฤษ , ภาษาอาหรับ, ภาษาฮินดี , ภาษาเบงกาลี |
| พิมพ์ | ตาราง , กราฟ , ข้อความ , รูปภาพ , เสียง , วิดีโอ |
| การใช้งาน | การฝึกอบรม การตรวจสอบ และการทดสอบ |
| รูปแบบไฟล์ | CSV , JSON , XML , KML , GeoJSON , Shapefile , GML |
| ใบอนุญาต | ครีเอทีฟคอมมอนส์ , จีพีแอล , ใบอนุญาต ข้อมูลที่ไม่เปิดเผย อื่นๆ |
| อัปเดตล่าสุด | ชั่วโมงสุดท้าย วันสุดท้าย สัปดาห์ที่แล้ว เดือนที่แล้ว ปีที่แล้ว |
| ขนาดไฟล์ | ค่าต่ำสุด ค่าสูงสุด ช่วง |
| สถานะ | ตรวจสอบแล้ว, อยู่ระหว่างการเตรียมการ, ปิดใช้งาน (หรือเลิกใช้แล้ว) |
| จำนวนบันทึก | หลักร้อย หลักพัน หลักหมื่น หลักหมื่น หลักล้าน |
| จำนวนตัวแปร | น้อยกว่า 10, หลักสิบ, หลักร้อย, หลักพัน, หลักหมื่น |
| บริการ | บุคคล, การรวมกลุ่ม |
พอร์ทัลข้อมูลถูกจำแนกตามประเภทของใบอนุญาต พอร์ทัลข้อมูลที่ใช้ ใบอนุญาตแบบโอเพนซอร์สเรียกว่าพอร์ทัลข้อมูลเปิด ซึ่ง หน่วยงานภาครัฐและสถาบันการศึกษาหลายแห่งใช้งานอยู่
รายชื่อพอร์ทัลข้อมูลเปิด
| ชื่อพอร์ทัล | ใบอนุญาต | รายชื่อการติดตั้งพอร์ทัล | การใช้งานทั่วไป |
|---|---|---|---|
| เครือข่ายคลังความรู้แบบครบวงจร ( CKAN ) | เอจีพีแอล | https://ckan.github.io/ckan-instances/ https://github.com/sebneu/ckan_instances/blob/master/instances.csv | คลังข้อมูลสำหรับหน่วยงานภาครัฐหรือองค์กรไม่แสวงหาผลกำไร โซลูชันการจัดการข้อมูลสำหรับสถาบันวิจัย |
| ดีเคเอ็น | จีพีแอล | https://getdkan.org/community | คลังข้อมูลสำหรับหน่วยงานภาครัฐหรือองค์กรไม่แสวงหาผลกำไร โซลูชันการจัดการข้อมูลสำหรับสถาบันวิจัย |
| ดาต้าเวิร์ส | อะปาเช่ | https://dataverse.org/installations https://dataverse.org/metrics | โซลูชันการจัดการข้อมูลสำหรับสถาบันวิจัย |
| ดีสเปซ | บีเอสดี | https://registry.lyrasis.org/ | โซลูชันการจัดการข้อมูลสำหรับสถาบันวิจัย |
| โอเพ่นเอ็มแอล | บีเอสดี | https://www.openml.org/search?type=data&sort=runs&status=active | โซลูชันการจัดการข้อมูลเพื่อแบ่งปันชุดข้อมูล อัลกอริทึม และผลการทดลองผ่าน API |
รายชื่อพอร์ทัลที่เหมาะสมสำหรับการใช้งานหลายประเภท
บางครั้งพอร์ทัลข้อมูลจะแสดงรายการชุดข้อมูลย่อยหลากหลายประเภทที่เกี่ยวข้องกับการใช้งานการเรียนรู้ของเครื่อง หลาย ประเภท
| แหล่งข้อมูลวิชาการ | https://academictorrents.com |
| ชุดข้อมูล Amazon | https://registry.opendata.aws/ |
| ชุดข้อมูลสาธารณะที่ยอดเยี่ยม | https://github.com/awesomedata/awesome-public-datasets |
| ดาต้าเวิลด์ | https://data.world/datasets/machine-learning |
| ศูนย์รวมข้อมูล – ชุดข้อมูลหลัก | https://datahub.io/docs/core-data |
| ดาต้าวัน | https://www.dataone.org/ |
| พอร์ทัลข้อมูล | https://dataportals.org/ |
| ดาต้าเซ็ตลิสต์.com | https://www.datasetlist.com |
| ดัชนีข้อมูลเปิดระดับโลก – มูลนิธิความรู้แบบเปิด | https://okfn.org/ เก็บถาวรเมื่อวันที่ 25 พฤษภาคม 2020 ที่Wayback Machine |
| การค้นหาชุดข้อมูลของ Google | https://datasetsearch.research.google.com/ |
| ใบหน้ากอด | https://huggingface.co/docs/datasets/ |
| ระบบแลกเปลี่ยนข้อมูลของ IBM | https://developer.ibm.com/exchanges/data/ |
| Jupyter – ข้อมูลสำหรับการสอนใช้งาน | https://jupyter-tutorial.readthedocs.io/en/latest/data-processing/opendata.html |
| แค็กเกิล | https://www.kaggle.com/datasets |
| ชุดข้อมูลการเรียนรู้ของเครื่อง | https://macgence.com/data-sets-and-cataloges/ |
| เมืองอัจฉริยะขนาดใหญ่ที่มีข้อมูลเปิด | https://rlist.io/l/major-smart-cities-with-open-data-portals |
| ชุดข้อมูลของ Microsoft | https://msropendata.com/datasets |
| การเริ่มต้นของข้อมูลเปิด | https://opendatainception.io/ |
| โอเพนดาต้าซอฟต์ | https://data.opendatasoft.com/explore/dataset/open-data-sources%40public/table/?sort=code_en |
| เปิดDOAR | https://v2.sherpa.ac.uk/opendoar/ |
| โอเพ่นเอ็มแอล | https://www.openml.org/search?type=data |
| เอกสารที่มีรหัส | https://paperswithcode.com/datasets |
| เกณฑ์มาตรฐานการเรียนรู้ของเครื่องจักรของมหาวิทยาลัยเพนน์ | https://github.com/EpistasisLab/pmlb/tree/master/datasets |
| API สาธารณะ | https://github.com/public-apis/public-apis |
| ทะเบียนคลังข้อมูลแบบเปิด (Registry of Open Access Repositories) | http://roar.eprints.org/ |
| ทะเบียนคลังข้อมูลการวิจัย | https://www.re3data.org/ |
| คลังข้อมูลการเรียนรู้ของเครื่องจักร UCI | https://archive.ics.uci.edu/ |
| ชุดข้อมูลเสียงพูด | https://www.shaip.com/offerings/speech-data-catalog/ |
| การค้นพบข้อมูลเชิงภาพ | https://visualdata.io/discovery |
รายชื่อพอร์ทัลที่เหมาะสมสำหรับแอปพลิเคชันประเภทเฉพาะ
ในส่วนถัดไปจะแสดงรายการ พอร์ทัลข้อมูลที่เหมาะสมสำหรับ แอปพลิเคชันการเรียนรู้ของเครื่องประเภทเฉพาะเจาะจง
ข้อมูลภาพ
ข้อมูลข้อความ
ชุดข้อมูลเหล่านี้ประกอบด้วยข้อความเป็นหลัก สำหรับงานต่างๆ เช่นการประมวลผลภาษาธรรมชาติการวิเคราะห์ความรู้สึกการแปล และ การ วิเคราะห์ กลุ่ม
รีวิว
| ชื่อชุดข้อมูล | คำอธิบายโดยย่อ | การประมวลผลล่วงหน้า | ตัวอย่าง | รูปแบบ | งานเริ่มต้น | สร้างแล้ว (อัปเดตแล้ว) | อ้างอิง | ผู้สร้าง |
|---|---|---|---|---|---|---|---|---|
| รางวัลเน็ตฟลิกซ์ | การให้คะแนนภาพยนตร์บน Netflix | มีคะแนนรีวิวทั้งหมด 100,480,507 คะแนน จากผู้ใช้ 480,189 คน ให้กับภาพยนตร์ 17,770 เรื่อง | ข้อความ, การให้คะแนน | การคาดการณ์คะแนน | 2006 | [ 6 ] | เน็ตฟลิกซ์ | |
| รีวิวจาก Amazon | รีวิวสินค้าจากสหรัฐอเมริกาบน Amazon.com | ไม่มี. | 233.1 ล้าน | ข้อความ | การจำแนกประเภท การวิเคราะห์ความรู้สึก | 2015 (2018) | [ 7 ] [ 8 ] | แมคออลีย์และคณะ |
| ชุดข้อมูลรีวิว OpinRank | รีวิวรถยนต์และโรงแรมจากEdmunds.comและTripAdvisorตามลำดับ | ไม่มี. | 42,230 / ~259,000 ตามลำดับ | ข้อความ | การวิเคราะห์ความรู้สึก การจัดกลุ่ม | 2011 | [ 9 ] [ 10 ] | เค. กาเนซาน และคณะ |
| มูฟวี่เลนส์ | มีการให้คะแนน 22,000,000 ครั้ง และติดแท็ก 580,000 รายการ ให้กับภาพยนตร์ 33,000 เรื่อง โดยผู้ใช้ 240,000 คน | ไม่มี. | ~ 22M | ข้อความ | การถดถอย การจัดกลุ่ม การจำแนกประเภท | 2016 | [ 11 ] | การวิจัย GroupLens |
| การให้คะแนนศิลปินเพลงโดยผู้ใช้ Yahoo! Music | ผู้ใช้ Yahoo ให้คะแนนศิลปินมากกว่า 10 ล้านครั้ง | ไม่มีการระบุรายละเอียด | ~ 10 ล้าน | ข้อความ | การจัดกลุ่ม, การถดถอย | 2004 | [ 12 ] [ 13 ] | ยาฮู! |
| ชุดข้อมูลการประเมินรถยนต์ | คุณสมบัติของรถยนต์และการยอมรับโดยรวม | ระบุคุณลักษณะเชิงหมวดหมู่หกประการ | 1728 | ข้อความ | การจำแนกประเภท | พ.ศ. 2540 | [ 14 ] [ 15 ] | เอ็ม. โบฮาเนค |
| ชุดข้อมูลการตั้งค่า YouTube Comedy Slam | ข้อมูลการโหวตจากผู้ใช้สำหรับคู่คลิปวิดีโอที่แสดงบน YouTube ผู้ใช้โหวตให้คลิปวิดีโอที่ตลกกว่า | มีการระบุข้อมูลเมตาของวิดีโอแล้ว | 1,138,562 | ข้อความ | การจำแนกประเภท | 2012 | [ 16 ] [ 17 ] | |
| ชุดข้อมูลรีวิวจากผู้ใช้ Skytrax | รีวิวจากผู้ใช้เกี่ยวกับสายการบิน สนามบิน ที่นั่ง และห้องรับรอง จาก Skytrax | การให้คะแนนมีความละเอียดสูงและครอบคลุมหลายแง่มุมของประสบการณ์ในสนามบิน | 41396 | ข้อความ | การจำแนกประเภท การถดถอย | 2015 | [ 18 ] | คิว เหงียน |
| ชุดข้อมูลการประเมินผู้ช่วยสอน | การประเมินผู้ช่วยสอน | มีการระบุคุณลักษณะของแต่ละกรณี เช่น ชั้นเรียน ขนาดชั้นเรียน และผู้สอน | 151 | ข้อความ | การจำแนกประเภท | พ.ศ. 2540 | [ 19 ] [ 20 ] | ดับเบิลยู. โลห์ และคณะ |
| คลังผลตอบรับของนักเรียนชาวเวียดนาม (UIT-VSFC) | ความคิดเห็นของนักเรียน | ความคิดเห็น | 16,000 | ข้อความ | การจำแนกประเภท | พ.ศ. 2540 | [ 21 ] | เหงียนและคณะ |
| คลังข้อมูลอารมณ์สื่อสังคมออนไลน์ของเวียดนาม (UIT-VSMEC) | ความคิดเห็นบน Facebook ของผู้ใช้ | ความคิดเห็น | 6,927 | ข้อความ | การจำแนกประเภท | พ.ศ. 2540 | [ 22 ] | เหงียนและคณะ |
| ชุดข้อมูลการตรวจจับข้อร้องเรียนแบบเปิดในเวียดนาม (ViOCD) | รีวิวจากลูกค้า | ความคิดเห็น | 5,485 | ข้อความ | การจำแนกประเภท | 2021 | [ 23 ] | เหงียนและคณะ |
| ViHOS: ระบบตรวจจับคำพูดแสดงความเกลียดชังสำหรับภาษาเวียดนาม | ข้อความบนโซเชียลมีเดีย | ความคิดเห็น | ประกอบด้วยสแปน 26,000 รายการ ในความคิดเห็น 11,000 รายการ | ข้อความ | การตรวจจับช่วง | 2021 | [ 24 ] | ฮวางและคณะ |
บทความข่าว
| ชื่อชุดข้อมูล | คำอธิบายโดยย่อ | การประมวลผลล่วงหน้า | ตัวอย่าง | รูปแบบ | งานเริ่มต้น | สร้างแล้ว (อัปเดตแล้ว) | อ้างอิง | ผู้สร้าง |
|---|---|---|---|---|---|---|---|---|
| ชุดข้อมูล NYSK | บทความข่าวภาษาอังกฤษเกี่ยวกับคดีที่เกี่ยวข้องกับข้อกล่าวหาการล่วงละเมิดทางเพศต่ออดีตผู้อำนวยการ IMF โดมินิก สเตราส์-คาน | กรองข้อมูลและนำเสนอในรูปแบบ XML | 10,421 | XML, ข้อความ | การวิเคราะห์ความรู้สึก, การดึงหัวข้อ | 2013 | [ 25 ] | เดอร์มูช, เอ็ม. และคณะ |
| คลังข้อมูลรอยเตอร์ เล่ม 1 | คลังข่าวขนาดใหญ่ของ สำนักข่าว รอยเตอร์ในภาษาอังกฤษ | การจัดหมวดหมู่และการกำหนดรหัสหัวข้ออย่างละเอียด | 810,000 | ข้อความ | การจำแนกประเภท การจัดกลุ่มการสรุป | 2002 | [ 26 ] | รอยเตอร์ |
| คลังข้อมูลรอยเตอร์ เล่ม 2 | คลังข่าวขนาดใหญ่ของ สำนักข่าว รอยเตอร์ในหลายภาษา | การจัดหมวดหมู่และการกำหนดรหัสหัวข้ออย่างละเอียด | 487,000 | ข้อความ | การจำแนกประเภท การจัดกลุ่ม การสรุป | 2548 | [ 27 ] | รอยเตอร์ |
| ชุดข้อมูลการวิจัยข้อความของ Thomson Reuters | คลังข่าวขนาดใหญ่ | รายละเอียดไม่ได้ระบุไว้ | 1,800,370 | ข้อความ | การจำแนกประเภท การจัดกลุ่ม การสรุป | 2009 | [ 28 ] | ที.โรส และคณะ |
| คลังข้อมูลหนังสือพิมพ์ซาอุดีอาระเบีย | บทความจากหนังสือพิมพ์ภาษาอาหรับจำนวน 31,030 บทความ | ดึงข้อมูลเมตาออกมาแล้ว | 31,030 | เจซอน | การสรุป การจัดกลุ่ม | 2015 | [ 29 ] | ม. อัลฮากรี |
| RE3D (ชุดข้อมูลประเมินการสกัดความสัมพันธ์และเอนทิตี) | ข้อมูลเกี่ยวกับเอนทิตีและความสัมพันธ์ รวบรวมจากแหล่งข่าวและหน่วยงานภาครัฐต่างๆ สนับสนุนโดย Dstl | กรองและจัดหมวดหมู่โดยใช้ชนิดของกระดูกวาฬ | ไม่ทราบ | เจซอน | การจำแนกประเภท การระบุเอนทิตี และการระบุความสัมพันธ์ | 2017 | [ 30 ] | ดีเอสทีแอล |
| แคตตาล็อกสแปมคลิกเบต ของผู้ตรวจสอบ | พาดหัวข่าวล่อคลิก สแปม และพาดหัวข่าวที่รวบรวมจากหลายแหล่ง ตั้งแต่ปี 2010 ถึง 2015 | วันที่เผยแพร่และหัวข้อข่าว | 3,089,781 | ซีเอสวี | การจัดกลุ่ม, เหตุการณ์, ความรู้สึก | 2016 | [ 31 ] | อาร์. คุลการ์นี |
| คลังข่าว ABC ออสเตรเลีย | คลังข่าวทั้งหมดของ ABC ออสเตรเลีย ตั้งแต่ปี 2003 ถึง 2019 | วันที่เผยแพร่และหัวข้อข่าว | 1,186,018 | ซีเอสวี | การจัดกลุ่ม, เหตุการณ์, ความรู้สึก | 2020 | [ 32 ] | อาร์. คุลการ์นี |
| ข่าวทั่วโลก – รวบรวมจาก 20,000 แหล่งข่าว | สรุปข่าวเด่นประจำสัปดาห์จากสื่อออนไลน์กว่า 20 ภาษา | เวลาเผยแพร่, URL และหัวข้อข่าว | 1,398,431 | ซีเอสวี | การจัดกลุ่ม, เหตุการณ์, การตรวจจับภาษา | 2018 | [ 33 ] | อาร์. คุลการ์นี |
| พาดหัวข่าวสำนักข่าว รอยเตอร์ | เหตุการณ์ต่างๆ ตลอด 11 ปีที่ผ่านมา พร้อมประทับเวลา ได้ถูกเผยแพร่ผ่านสำนักข่าว | เวลาเผยแพร่, ข้อความหัวเรื่อง | 16,121,310 | ซีเอสวี | NLP, ภาษาศาสตร์เชิงคำนวณ, กิจกรรม | 2018 | [ 34 ] | อาร์. คุลการ์นี |
| คลังข่าวไอร์แลนด์ของ หนังสือพิมพ์ไอริชไทมส์ | ข่าวสารจากไอร์แลนด์ตลอด 24 ปี ตั้งแต่ปี 1996 ถึง 2019 | เวลาเผยแพร่, หมวดหมู่หัวข้อข่าว และเนื้อหา | 1,484,340 | ซีเอสวี | NLP, ภาษาศาสตร์เชิงคำนวณ, กิจกรรม | 2020 | [ 35 ] | อาร์. คุลการ์นี |
| ชุดข้อมูลหัวข่าวสำหรับการตรวจจับการเสียดสี | ชุดข้อมูลคุณภาพสูงที่มีทั้งพาดหัวข่าวเสียดสีและไม่เสียดสี | ข้อความที่สะอาดและได้มาตรฐาน | 26,709 | เจซอน | NLP, การจำแนกประเภท, ภาษาศาสตร์ | 2018 | [ 36 ] | ริชาบห์ มิสรา |
ข้อความ
| ชื่อชุดข้อมูล | คำอธิบายโดยย่อ | การประมวลผลล่วงหน้า | ตัวอย่าง | รูปแบบ | งานเริ่มต้น | สร้างแล้ว (อัปเดตแล้ว) | อ้างอิง | ผู้สร้าง |
|---|---|---|---|---|---|---|---|---|
| เอนรอน คอร์ปัส | อีเมลจากพนักงานของEnronถูกจัดเรียงเป็นโฟลเดอร์ | ไฟล์แนบถูกลบออก ที่อยู่อีเมลที่ไม่ถูกต้องจะถูกแปลงเป็น [email protected] หรือ [email protected] | ~ 500,000 | ข้อความ | การวิเคราะห์เครือข่ายการวิเคราะห์ความรู้สึก | 2004 (2015) | [ 37 ] [ 38 ] | คลิมต์, บี. และ วาย. หยาง |
| ชุดข้อมูล Ling-Spam | ชุดข้อมูลประกอบด้วยอีเมลทั้งที่เป็นอีเมลปกติและอีเมล สแปม | มีการสร้าง ชุดข้อมูลสี่เวอร์ชัน โดยพิจารณาจากว่ามีการเปิดใช้งานหรือปิด ใช้งานตัวกรองคำหลัก (lemmatiser)หรือตัวกรองคำที่ไม่มีความหมาย (stop-list) หรือไม่ | แฮม 2,412 สแปม 481 | ข้อความ | การจำแนกประเภท | 2000 | [ 39 ] [ 40 ] | แอนดรูทโซปูลอส, เจ. และคณะ |
| ชุดข้อมูลการรวบรวมสแปม SMS | รวบรวมข้อความสแปม SMS | ไม่มี. | 5,574 | ข้อความ | การจำแนกประเภท | 2011 | [ 41 ] [ 42 ] | ที. อัลเมดา และคณะ |
| ชุดข้อมูลกลุ่มข่าว 20 กลุ่ม | ข้อความจากกลุ่มข่าว 20 กลุ่มที่แตกต่างกัน | ไม่มี. | 20,000 | ข้อความ | การประมวลผลภาษาธรรมชาติ | 1999 | [ 43 ] | ที. มิตเชลล์ และคณะ |
| ชุดข้อมูลสแปมเบส | อีเมลสแปม | มีการดึงคุณลักษณะของข้อความออกมาจำนวนมาก | 4,601 | ข้อความ | การตรวจจับและการจำแนกสแปม | 1999 | [ 44 ] | เอ็ม. ฮอปกินส์ และคณะ |
ทวิตเตอร์และทวีต
| ชื่อชุดข้อมูล | คำอธิบายโดยย่อ | การประมวลผลล่วงหน้า | ตัวอย่าง | รูปแบบ | งานเริ่มต้น | สร้างแล้ว (อัปเดตแล้ว) | อ้างอิง | ผู้สร้าง |
|---|---|---|---|---|---|---|---|---|
| ทวีตภาพยนตร์ | ชุดข้อมูลการให้คะแนนภาพยนตร์ที่สร้างขึ้นจากทวีตสาธารณะที่มีโครงสร้างที่ดี | ~710,000 | ข้อความ | การจำแนกประเภท การถดถอย | 2018 | [ 45 ] | เอส. ดูมส์ | |
| ทวิตเตอร์ 100k | ภาพและทวีตที่จับคู่กัน | 100,000 | ข้อความและรูปภาพ | การค้นหาข้ามสื่อ | 2017 | [ 46 ] [ 47 ] | วาย. หู และคณะ | |
| ความรู้สึก 140 | ข้อมูลทวีตจากปี 2009 รวมถึงข้อความต้นฉบับ เวลาที่โพสต์ ผู้ใช้ และความรู้สึกที่แสดงออก | จัดประเภทโดยใช้การกำกับดูแลจากระยะไกล จากการปรากฏของอีโมติคอนในทวีต | 1,578,627 | ทวีต, ค่าที่คั่นด้วยเครื่องหมายจุลภาค | การวิเคราะห์ความรู้สึก | 2009 | [ 48 ] [ 49 ] | เอ.โก และคณะ |
| ชุดข้อมูลทวิตเตอร์ของ ASU | ข้อมูลเครือข่ายทวิตเตอร์ ไม่ใช่ทวีตจริง แสดงให้เห็นถึงการเชื่อมต่อระหว่างผู้ใช้จำนวนมาก | ไม่มี. | ผู้ใช้งาน 11,316,811 ราย การเชื่อมต่อ 85,331,846 ครั้ง | ข้อความ | การจัดกลุ่ม การวิเคราะห์กราฟ | 2009 | [ 50 ] [ 51 ] | อาร์. ซาฟารานี และคณะ |
| เครือข่ายสังคม SNAP: ฐานข้อมูลทวิตเตอร์ | ข้อมูลเครือข่ายขนาดใหญ่ของทวิตเตอร์ | คุณลักษณะของโหนด วงกลม และเครือข่ายอัตตา | 1,768,149 | ข้อความ | การจัดกลุ่ม การวิเคราะห์กราฟ | 2012 | [ 52 ] [ 53 ] | เจ. แมคออลีย์ และคณะ |
| ชุดข้อมูลทวิตเตอร์สำหรับการวิเคราะห์ความรู้สึกในภาษาอาหรับ | ทวีตภาษาอาหรับ | ตัวอย่างถูกติดฉลากด้วยมือว่าเป็นบวกหรือลบ | 2000 | ข้อความ | การจำแนกประเภท | 2014 | [ 54 ] [ 55 ] | เอ็น. อับดุลลา |
| ชุดข้อมูล Buzz in Social Media | ข้อมูลจาก Twitter และ Tom's Hardware ชุดข้อมูลนี้เน้นไปที่หัวข้อที่กำลังเป็นที่พูดถึงกันอย่างแพร่หลายในเว็บไซต์เหล่านั้น | ข้อมูลถูกจัดแบ่งเป็นช่วงๆ เพื่อให้ผู้ใช้สามารถพยายามคาดการณ์เหตุการณ์ที่จะนำไปสู่กระแสความนิยมในโซเชียลมีเดียได้ | 140,000 | ข้อความ | การถดถอย, การจำแนกประเภท | 2013 | [ 56 ] [ 57 ] | เอฟ. คาวาลา และคณะ |
| การถอดความและความคล้ายคลึงทางความหมายในทวิตเตอร์ (PIT) | ชุดข้อมูลนี้เน้นที่การตรวจสอบว่าทวีตต่างๆ มีความหมาย/ข้อมูลที่คล้ายคลึงกันหรือไม่ โดยมีการติดป้ายกำกับด้วยตนเอง | การแบ่งคำ, ชนิดของคำ และการติดแท็กเอนทิตีที่มีชื่อ | 18,762 | ข้อความ | การถดถอย, การจำแนกประเภท | 2015 | [ 58 ] [ 59 ] | ซูและคณะ |
| ชุดข้อมูลมาตรฐาน Geoparse Twitter | ชุดข้อมูลนี้ประกอบด้วยทวีตในช่วงเหตุการณ์ข่าวต่างๆ ในประเทศต่างๆ โดยมีการระบุตำแหน่งที่กล่าวถึงด้วยตนเอง | เพิ่มคำอธิบายตำแหน่งลงในเมตาเดตา JSON | 6,386 | ทวีต, JSON | การจำแนกประเภท การสกัดข้อมูล | 2014 | [ 60 ] [ 61 ] | SE Middleton และคณะ |
| การเสียดสี ทั้งที่รับรู้และตั้งใจ โดยการควบคุมแบบตอบสนอง (SPIRS) | ทวีตเสียดสีทั้งที่ตั้งใจและที่รับรู้ พร้อมบริบทที่รวบรวมโดยใช้การกำกับดูแลแบบตอบสนอง และตัวอย่างเชิงลบ (ไม่ใช่การเสียดสี) จำนวนเท่ากัน | 30,000 | รหัสทวีต, CSV | การจำแนกประเภท | 2020 | [ 62 ] [ 63 ] | บี. ชมูเอลี และคณะ | |
| คอลเลกชันโซเชียลมีเดียของชาวดัตช์ | ชุดข้อมูลนี้ประกอบด้วยทวีตเกี่ยวกับ COVID-19 ที่โพสต์โดยผู้พูดภาษาดัตช์หรือผู้ใช้จากประเทศเนเธอร์แลนด์ ข้อมูลได้รับการติดป้ายกำกับโดยเครื่องจักรแล้ว | จัดประเภทตามอารมณ์ความรู้สึก ข้อความทวีต และคำอธิบายผู้ใช้ที่แปลเป็นภาษาอังกฤษ มีการดึงข้อมูลการกล่าวถึงอุตสาหกรรมออกมาด้วย | 271,342 | เจซอนแอล | การวิเคราะห์อารมณ์ความรู้สึก, การจำแนกประเภทหลายป้ายกำกับ, การแปลด้วยเครื่องจักร | 2020 | [ 64 ] [ 65 ] [ 66 ] | อาคช์ กุปตา, โคโรนาวาย |
| ชุดข้อมูล ReactionGIF | ชุดข้อมูลทวีต 30,000 รายการพร้อมภาพ GIF แสดงปฏิกิริยาตอบกลับ | จัดประเภทตามความรู้สึก ปฏิกิริยา และอารมณ์ | 30,000 | รหัสทวีต, JSONL | จัดประเภทตามความรู้สึก ปฏิกิริยา และอารมณ์ | 2021 | [ 67 ] [ 68 ] | บี. ชมูเอลี และคณะ |
บทสนทนา
| ชื่อชุดข้อมูล | คำอธิบายโดยย่อ | การประมวลผลล่วงหน้า | ตัวอย่าง | รูปแบบ | งานเริ่มต้น | สร้างแล้ว (อัปเดตแล้ว) | อ้างอิง | ผู้สร้าง |
|---|---|---|---|---|---|---|---|---|
| คลังข้อมูลแชท NPS | ข้อความที่โพสต์จากห้องแชทออนไลน์เฉพาะกลุ่มอายุ | ภาพมือถูกปิดบังเพื่อความเป็นส่วนตัว และมีการระบุส่วนของคำพูดและการกระทำในบทสนทนา | ~ 500,000 | อีเอ็มแอลอี | NLP, การเขียนโปรแกรม, ภาษาศาสตร์ | 2007 | [ 69 ] | ฟอร์ไซธ์, อี., ลิน, เจ., และ มาร์เทลล์, ซี. |
| คลังข้อมูลทวิตเตอร์สามชุด | ข้อมูล ABA triples ที่ดึงมาจากทวิตเตอร์ | 4,232 | ข้อความ | NLP | 2016 | [ 70 ] | ซอร์ดินี, เอ. และคณะ | |
| คลังข้อมูล UseNet | ข้อความที่โพสต์ในฟอรัม UseNet | อีเมลและ URL ที่ไม่ระบุตัวตน เอกสารที่ถูกตัดออก ได้แก่ เอกสารที่มีความยาวน้อยกว่า 500 คำ หรือมากกว่า 500,000 คำ หรือเอกสารที่มีภาษาอังกฤษน้อยกว่า 90% | 7 พันล้าน | ข้อความ | 2011 | [ 71 ] | ชาอูล ซี. และเวสต์เบอรี ซี. | |
| คลังข้อมูล SMS ของ NUS | รวบรวมข้อความ SMS ระหว่างผู้ใช้สองคน พร้อมการวิเคราะห์ช่วงเวลา | ~ 10,000 | อีเอ็มแอลอี | NLP | 2011 | [ 72 ] | คาน, เอ็ม | |
| คลังความคิดเห็นทั้งหมดของ Reddit | คอมเมนต์ทั้งหมดบน Reddit (ณ ปี 2015) | ~ 1.7 พันล้าน | เจซอน | NLP, การวิจัย | 2015 | [ 73 ] | ติดอยู่ในเมทริกซ์ | |
| คลังบทสนทนาอูบุนตู | บทสนทนาที่ดึงมาจากแชทสตรีมของ Ubuntu บน IRC | บทสนทนา 930,000 บท, คำพูด 7.1 ล้านคำ | ซีเอสวี | การวิจัยระบบการสนทนา | 2015 | [ 74 ] | โลว์, อาร์. และคณะ | |
| ความท้าทายในการติดตามสถานะบทสนทนา | การแข่งขันติดตามสถานะบทสนทนา 2 และ 3 (DSTC2&3) เป็นการแข่งขันวิจัยที่มุ่งเน้นการพัฒนาเทคโนโลยีการติดตามสถานะของระบบบทสนทนาด้วยเสียงให้ดียิ่งขึ้น | การถอดเสียงบทสนทนาพร้อมติดป้ายกำกับ | DSTC2 มีสายเรียกเข้าประมาณ 3,200 สาย – DSTC3 มีสายเรียกเข้าประมาณ 2,300 สาย | เจซอน | การติดตามสถานะการสนทนา | 2014 | [ 75 ] | เฮนเดอร์สัน, แมทธิว และทอมสัน, เบลส และวิลเลียมส์, เจสัน ดี |
| คลินิก-150 | รวบรวมข้อความพูดแบบรอบเดียวจากAmazon Mechanical Turkมีการจัดประเภท "เจตนา" 150 หมวด และข้อมูลเพิ่มเติมสำหรับข้อความพูดที่ "อยู่นอกขอบเขต" | 23,700 | เจซอน | การจำแนกเจตนา | 2019 | [ 76 ] | ลาร์สัน, เอส. และคณะ |
ถูกกฎหมาย
| ชื่อชุดข้อมูล | คำอธิบายโดยย่อ | การประมวลผลล่วงหน้า | ตัวอย่าง | รูปแบบ | งานเริ่มต้น | สร้างแล้ว (อัปเดตแล้ว) | อ้างอิง | ผู้สร้าง |
|---|---|---|---|---|---|---|---|---|
| ฟรีลอว์ | ข้อมูลที่คัดกรองแล้วจาก Court Listener ซึ่งเป็นส่วนหนึ่งของโครงการ FreeLaw | ข้อความที่ผ่านการทำความสะอาดและปรับให้เป็นมาตรฐานแล้ว | 4,940,710 | เจซอน | NLP, ภาษาศาสตร์ | 2020 | [ 77 ] | ที. ฮอปเป้ |
| กองกฎหมาย | คลังข้อมูลด้านกฎหมายและการบริหาร | ทำความสะอาด ปรับให้เป็นมาตรฐาน และแปรรูปเป็นของเอกชน | ~50,000,000 | เจซอน | NLP, ภาษาศาสตร์, อารมณ์ความรู้สึก | 2022 | [ 78 ] [ 79 ] | แอล.เจิ้ง; เอ็น. กูฮา; บี. แอนเดอร์สัน; พี. เฮนเดอร์สัน; ดี.โฮ |
| โครงการเข้าถึงกฎหมายคดี | หนังสือและเอกสารทางการทั้งหมดที่เกี่ยวข้องกับคำพิพากษาของศาลในสหรัฐอเมริกา ทั้งในระดับรัฐและระดับสหรัฐฯ — ทุกเล่มหรือทุกคดีที่ได้รับการกำหนดให้เป็นรายงานอย่างเป็นทางการเกี่ยวกับการตัดสินของศาลในสหรัฐอเมริกา | ข้อความที่ผ่านการทำความสะอาดและปรับให้เป็นมาตรฐานแล้ว | ~10,000 | เจซอน | NLP, ภาษาศาสตร์ | 2022 | [ 80 ] | เอ. ไอซ์แมน; เอส. แชปแมน; เจ. คัชแมน; เค. ดูลิน; เอช. ไอโดลอน; และคณะ |
ข้อความอื่นๆ
| ชื่อชุดข้อมูล | คำอธิบายโดยย่อ | การประมวลผลล่วงหน้า | ตัวอย่าง | รูปแบบ | งานเริ่มต้น | สร้างแล้ว (อัปเดตแล้ว) | อ้างอิง | ผู้สร้าง |
|---|---|---|---|---|---|---|---|---|
| ฮันซาร์ด ภาษาฝรั่งเศส-อังกฤษ | บันทึก การ ประชุม รัฐสภาแคนาดา (Hansard ) | ประโยคคู่ภาษาฝรั่งเศส-อังกฤษจำนวน 2,869,040 คู่ ประกอบด้วยคำศัพท์ภาษาฝรั่งเศส 46.3 ล้านคำ และคำศัพท์ภาษาอังกฤษ 38.6 ล้านคำ (ส่วนของ IBM) และคำศัพท์ 60 ล้านคำ (ส่วนของ Bell) | ประโยคคู่ภาษาฝรั่งเศส-อังกฤษ | การแปล | พ.ศ. 2538 | [ 81 ] | IBM, Bell Labs | |
| ชุดข้อมูลเว็บออฟไซแอนซ์ | ชุดข้อมูลแบบลำดับชั้นสำหรับการจำแนกประเภทข้อความ | ไม่มี. | 46,985 | ข้อความ | การจำแนกประเภท การจัดหมวดหมู่ | 2017 | [ 82 ] [ 83 ] | เค. โคซารี และคณะ |
| รายงานคดีทางกฎหมาย | คดีความ ของศาลสหพันธรัฐออสเตรเลียระหว่างปี 2006 ถึง 2009 | ไม่มี. | 4,000 | ข้อความ | โดยสรุป การวิเคราะห์การอ้างอิง | 2012 | [ 84 ] [ 85 ] | เอฟ. กัลกานี และคณะ |
| คลังข้อมูลผู้เขียนบล็อกเกอร์ | บทความในบล็อกของผู้คน 19,320 คนจาก blogger.com | บล็อกเกอร์ระบุเพศ อายุ อุตสาหกรรม และราศีด้วยตนเอง | 681,288 | ข้อความ | การวิเคราะห์ความรู้สึก การสรุป การจำแนกประเภท | 2006 | [ 86 ] [ 87 ] | เจ. ชเลอร์ และคณะ |
| โครงสร้างทางสังคมของเครือข่ายเฟซบุ๊ก | ชุดข้อมูลขนาดใหญ่เกี่ยวกับโครงสร้างทางสังคมของ Facebook | ไม่มี. | ครอบคลุมวิทยาลัย 100 แห่ง | ข้อความ | การวิเคราะห์เครือข่าย การจัดกลุ่ม | 2012 | [ 88 ] [ 89 ] | เอ. ทราวด์ และคณะ |
| ชุดข้อมูลสำหรับการทำความเข้าใจข้อความด้วยเครื่องจักร | เรื่องราวและคำถามที่เกี่ยวข้องเพื่อทดสอบความเข้าใจในเนื้อหา | ไม่มี. | 660 | ข้อความ | การประมวลผลภาษาธรรมชาติ, การเข้าใจด้วยเครื่องจักร | 2013 | [ 90 ] [ 91 ] | เอ็ม. ริชาร์ดสัน และคณะ |
| โครงการเพนน์ ทรีแบงค์ | ข้อความที่เกิดขึ้นตามธรรมชาติซึ่งมีการระบุโครงสร้างทางภาษาไว้แล้ว | ข้อความจะถูกแยกวิเคราะห์เป็นโครงสร้างเชิงความหมาย (semantic tree) | ~ 1 ล้านคำ | ข้อความ | การประมวลผลภาษาธรรมชาติ, การสรุปความ | พ.ศ. 2538 | [ 92 ] [ 93 ] | เอ็ม. มาร์คัส และคณะ |
| เว็บ 1T 5 กรัม | ข้อความจากเว็บเพจ | ส่วนหนึ่งแบ่งข้อมูลออกเป็นประโยค อีกส่วนหนึ่งแบ่งข้อมูลออกเป็น n-gram โดยที่ n = 1-5 | ~1 ล้านคำ | ตารางข้อความและตาราง n-gram | การเรียนรู้แบบไม่มีผู้กำกับดูแล | 2006 | [ 94 ] [ 95 ] | |
| ชุดข้อมูล DEXTER | โจทย์คือ ให้พิจารณาจากคุณลักษณะที่กำหนดให้ ว่าบทความใดบ้างที่เกี่ยวกับเรื่องการควบรวมกิจการของบริษัท | คุณลักษณะที่ดึงออกมา ได้แก่ รากศัพท์ รวมถึงคุณลักษณะที่ทำให้ไขว้เขวด้วย | 2600 | ข้อความ | การจำแนกประเภท | 2008 | [ 96 ] | รอยเตอร์ |
| N-gram ของ Google Books | N-gramจากคลังหนังสือขนาดใหญ่มาก | ไม่มี. | ข้อความขนาด 2.2 เทราไบต์ | ข้อความ | การจำแนกประเภท การจัดกลุ่ม การถดถอย | 2011 | [ 97 ] [ 98 ] | |
| เพอร์โซนาเอ คอร์ปัส | รวบรวมเพื่อใช้ในการทดลองเกี่ยวกับการระบุผู้เขียนและการทำนายบุคลิกภาพ ประกอบด้วยบทความภาษาดัตช์จำนวน 145 เรื่อง | นอกจากข้อความปกติแล้ว ยังมีข้อความที่มีคำอธิบายทางด้านไวยากรณ์ให้ด้วย | 145 | ข้อความ | การจำแนกประเภท การถดถอย | 2008 | [ 99 ] [ 100 ] | เค. ลุยซ์ และคณะ |
| พุชชิฟต์ | คลังเก็บข้อมูลเว็บไซต์โซเชียลมีเดีย ต่างๆ เช่นReddit , TwitterและHackernews | ข้อความที่ดึงและปรับให้เป็นมาตรฐานจากไฟล์ WARC | ~100,000,000 โพสต์ | เจซอน | NLP, การวิเคราะห์อารมณ์ความรู้สึก, ภาษาศาสตร์ | 2022 | [ 101 ] [ 102 ] | เจ. บอมการ์ทเนอร์ |
| เอกสารที่ยื่นต่อ SEC | EDGAR | การยื่นเอกสารของบริษัท | ข้อความที่ดึงมา | ซีเอสวี | NLP | ||||
| ชุดข้อมูล CNAE-9 | งานจัดหมวดหมู่คำอธิบายข้อความอิสระเกี่ยวกับบริษัทต่างๆ ในบราซิล | ได้ทำการแยกความถี่ของคำออกมาแล้ว | 1080 | ข้อความ | การจำแนกประเภท | 2012 | [ 103 ] [ 104 ] | พี. เซียเรลลี และคณะ |
| ชุดข้อมูลประโยคที่มีการระบุความรู้สึก | ประโยคที่มีการระบุอารมณ์ความรู้สึกจำนวน 3,000 ประโยค | อารมณ์ความรู้สึกของแต่ละประโยคได้รับการระบุด้วยมือว่าเป็นเชิงบวกหรือเชิงลบ | 3000 | ข้อความ | การจำแนกประเภท การวิเคราะห์ความรู้สึก | 2015 | [ 105 ] [ 106 ] | ดี. คอตเซียส |
| ชุดข้อมูลความคิดเห็นบล็อก | ชุดข้อมูลสำหรับทำนายจำนวนความคิดเห็นที่โพสต์จะได้รับ โดยพิจารณาจากคุณลักษณะของโพสต์นั้น | มีการดึงคุณสมบัติหลายอย่างจากแต่ละโพสต์ออกมา | 60,021 | ข้อความ | การถดถอย | 2014 | [ 107 ] [ 108 ] | เค. บูซา |
| พับเมดเซ็นทรัล | PubMed® ประกอบด้วยข้อมูลอ้างอิงมากกว่า 35 ล้านรายการสำหรับวรรณกรรมทางการแพทย์และชีววิทยา จาก MEDLINE วารสารวิทยาศาสตร์ชีวภาพ และหนังสือออนไลน์ | ไม่มี | 35 ล้าน | ข้อความ | NLP | |||
| สำนักงานสิทธิบัตรและเครื่องหมายการค้าของสหรัฐอเมริกา | สำนักงานสิทธิบัตรและเครื่องหมายการค้าแห่งสหรัฐอเมริกา | ข้อความ | NLP | |||||
| ฟิลเปเปอร์ส | แหล่งรวบรวมผลงานตีพิมพ์ด้านปรัชญาที่เปิดให้เข้าถึงได้ฟรี | ข้อความ | NLP | |||||
| คลังหนังสือ | คลังข้อความขนาดใหญ่ที่เป็นที่นิยม | ไม่มี | ข้อความ | NLP | 2015 | [ 109 ] | จู้ ยู่คุน และคณะ | |
| คลังข้อมูลการอนุมานภาษาธรรมชาติของสแตนฟอร์ด (SNLI) | คำบรรยายภาพจะถูกจับคู่กับประโยคที่สร้างขึ้นใหม่เพื่อสร้างคู่ความสัมพันธ์แบบอนุมาน ขัดแย้ง หรือเป็นกลาง | ป้ายกำกับคลาสการอนุมาน การวิเคราะห์ไวยากรณ์โดยตัวแยกวิเคราะห์ PCFG ของ Stanford | 570,000 | ข้อความ | การอนุมานภาษาธรรมชาติ/การรับรู้ความสัมพันธ์เชิงตรรกะของข้อความ | 2015 | [ 110 ] | เอส. โบว์แมน และคณะ |
| ชุดคลังข้อมูล DSL (DSLCC) | เป็นการรวบรวมบทความสั้น ๆ จากสื่อสิ่งพิมพ์หลายภาษาที่มีภาษาและสำเนียงคล้ายคลึงกัน | ไม่มี | 294,000 วลี | ข้อความ | การแยกแยะความแตกต่างระหว่างภาษาที่คล้ายคลึงกัน | 2017 | [ 111 ] | ตัน, ลิลลิง และคณะ |
| ชุดข้อมูล Urban Dictionary | คลังคำศัพท์ คะแนนโหวต และคำจำกัดความ | ชื่อผู้ใช้ถูกปกปิดไว้ | 2,580,925 | ซีเอสวี | NLP, การเข้าใจด้วยเครื่องจักร | พฤษภาคม 2559 | [ 112 ] | นิรนาม |
| ที-เร็กซ์ | บทคัดย่อ ของวิกิพีเดียสอดคล้องกับเอน ทิตี ของวิกิดาต้า | การจัดเรียงข้อมูลสามส่วนของวิกิดาต้าให้ตรงกับบทคัดย่อของวิกิพีเดีย | ทริปเปิลที่เรียงตัวกัน 11 ล้าน | JSON และ NIF [4] | NLP, การสกัดความสัมพันธ์ | 2018 | [ 113 ] | เอช. เอลซาฮาร์ และคณะ |
| การประเมินความเข้าใจภาษาทั่วไป (GLUE) | เกณฑ์มาตรฐานของงานเก้าอย่าง | หลากหลาย | ประโยคและคู่ประโยคประมาณ 1 ล้านประโยค | เอ็นแอลยู | 2018 | [ 114 ] [ 115 ] [ 116 ] | หวังและคณะ | |
| ชุดข้อมูลความเข้าใจสัญญาของแอตติคัส (CUAD) (เดิมชื่อชุดข้อมูลสัญญาเปิดของแอตติคัส (AOK)) | ชุดข้อมูลสัญญาทางกฎหมายพร้อมคำอธิบายประกอบจากผู้เชี่ยวชาญอย่างครบถ้วน | ฉลากประมาณ 13,000 ชิ้น | CSV และ PDF | การประมวลผลภาษาธรรมชาติ, ถาม-ตอบ | 2021 | โครงการแอตติคัส | ||
| ชุดข้อมูลคำบรรยายภาพภาษาเวียดนาม (UIT-ViIC) | ชุดข้อมูลคำบรรยายภาพภาษาเวียดนาม | คำบรรยายภาพ 19,250 รายการ สำหรับภาพ 3,850 ภาพ | CSV และ PDF | การประมวลผลภาษาธรรมชาติ, คอมพิวเตอร์วิชั่น | 2020 | [ 117 ] | แลมและคณะ | |
| ชื่อภาษาเวียดนามพร้อมระบุเพศ (UIT-ViNames) | ชื่อภาษาเวียดนามพร้อมระบุเพศ | ชื่อเต็มภาษาเวียดนาม 26,850 ชื่อ พร้อมระบุเพศ | ซีเอสวี | การประมวลผลภาษาธรรมชาติ | 2020 | [ 118 ] | ถึง และคณะ | |
| ชุดข้อมูลการตรวจจับคำพูดเชิงสร้างสรรค์และคำพูดที่เป็นพิษของเวียดนาม (UIT-ViCTSD) | ชุดข้อมูลการตรวจจับคำพูดเชิงสร้างสรรค์และคำพูดที่เป็นพิษในภาษาเวียดนาม | ความคิดเห็นจากผู้ใช้ชาวเวียดนาม 10,000 คน ในหนังสือพิมพ์ออนไลน์บน 10 โดเมน | ซีเอสวี | การประมวลผลภาษาธรรมชาติ | 2021 | [ 119 ] | เหงียนและคณะ | |
| พีจี-19 | ชุดหนังสือที่คัดมาจากคลังหนังสือของโครงการกูเตนเบิร์ก | ข้อความ | การประมวลผลภาษาธรรมชาติ | 2019 | แจ็ค ดับเบิลยู และคณะ | |||
| คณิตศาสตร์ดีพมายด์ | คำถามและคำตอบทางคณิตศาสตร์ | ข้อความ | การประมวลผลภาษาธรรมชาติ | 2018 | [ 120 ] | ดี. แซกซ์ตัน และคณะ | ||
| คลังเอกสารของแอนนา | คลังเอกสารและหนังสือที่ตีพิมพ์อย่างครอบคลุม | ไม่มี | 100,356,641 | ข้อความ, อีพับ, PDF | การประมวลผลภาษาธรรมชาติ | 2024 |
ข้อมูลเสียง
ชุดข้อมูลเหล่านี้ประกอบด้วยเสียงและคุณลักษณะของเสียงที่ใช้สำหรับงานต่างๆ เช่นการรู้จำเสียงพูดและการสังเคราะห์เสียงพูด
คำพูด
| ชื่อชุดข้อมูล | คำอธิบายโดยย่อ | การประมวลผลล่วงหน้า | ตัวอย่าง | รูปแบบ | งานเริ่มต้น | สร้างแล้ว (อัปเดตแล้ว) | อ้างอิง | ผู้สร้าง |
|---|---|---|---|---|---|---|---|---|
| แผงสวิตช์บอร์ด-1 | การสนทนาทางโทรศัพท์ | บันทึกเสียงการสนทนาทางโทรศัพท์แบบสองทางประมาณ 2,400 ครั้ง รวมเป็นเวลา 260 ชั่วโมง จากผู้พูด 543 คน (ชาย 302 คน หญิง 241 คน) ทั่วสหรัฐอเมริกา ซึ่งรวบรวมโดยบริษัทเท็กซัส อินสตรูเมนต์ส ในปี 1990–1991 | ไฟล์เสียง, ข้อความถอดเสียง, การประทับเวลาในระดับคำ, การถอดเสียงตามหลักสัทศาสตร์ | การรู้จำเสียงพูด การถอดเสียงตามหลักสัทศาสตร์ | 1992 (2000) | [ 121 ] [ 122 ] | เอ็นไอเอสที | |
| ฮับ5'00 | การสนทนาทางโทรศัพท์ | บันทึกเสียงพูด 260 ชั่วโมง จากผู้พูด 543 คน (ชาย 302 คน หญิง 241 คน) จากทั่วสหรัฐอเมริกา สำหรับการสนทนาทางโทรศัพท์แบบสองทางประมาณ 2,400 ครั้ง รวมประมาณ 3 ล้านคำ รวบรวมโดยบริษัท Texas Instruments ในปี 1990–1991 | ไฟล์เสียง, ข้อความถอดเสียง, การประทับเวลาในระดับคำ, การถอดเสียงตามหลักสัทศาสตร์ | การรู้จำเสียงพูด การถอดเสียงตามหลักสัทศาสตร์ ชุดข้อมูลทดสอบที่ใช้กันทั่วไปสำหรับชุดข้อมูลนี้เรียกว่า "Hub5'00" | 1992 (2000) | [ 121 ] [ 122 ] | เอ็นไอเอสที | |
| การแข่งขันพูดสุนทรพจน์ไร้ทรัพยากร ปี 2015 | การพูดโดยธรรมชาติ (ภาษาอังกฤษ), การอ่านคำพูด (ภาษาซิทซองกา) | ไม่มีครับ เป็นไฟล์ WAV ดิบๆ | ภาษาอังกฤษ: 5 ชั่วโมง, ผู้พูด 12 คน; ภาษาซิทซองกา: 2 ชั่วโมง 30 นาที, ผู้พูด 24 คน | WAV (ไฟล์เสียงเท่านั้น) | การค้นพบคุณลักษณะทางเสียง/หน่วยย่อยของคำ/หน่วยคำโดยปราศจากการกำกับดูแล | 2015 | [ 123 ] [ 124 ] | เวอร์สตีห์และคณะ |
| ชุดข้อมูลคำพูดเกี่ยวกับโรคพาร์กินสัน | บันทึกภาพหลายรายการของผู้ที่มีและไม่มีโรคพาร์กินสัน | สกัดคุณลักษณะของเสียง และแพทย์ประเมินความรุนแรงของโรคโดยใช้มาตราส่วนการให้คะแนนโรคพาร์กินสันแบบรวม (Unified Parkinson's Disease Rating Scale ) | 1,040 | ข้อความ | การจำแนกประเภท การถดถอย | 2013 | [ 125 ] [ 126 ] | บีอี ซาการ์ และคณะ |
| ตัวเลขภาษาอาหรับที่พูด | ตัวเลขภาษาอาหรับที่ใช้พูด ตั้งแต่ 44 สำหรับผู้ชายและ 44 สำหรับผู้หญิง | อนุกรมเวลาของสัมประสิทธิ์ เซปสตรัมความถี่เมล | 8,800 | ข้อความ | การจำแนกประเภท | 2010 | [ 127 ] [ 128 ] | เอ็ม. เบดดา และคณะ |
| ชุดข้อมูล ISOLET | ชื่อตัวอักษรที่ออกเสียง | คุณลักษณะที่สกัดจากเสียง | 7797 | ข้อความ | การจำแนกประเภท | พ.ศ. 2537 | [ 129 ] [ 130 ] | อาร์. โคล และคณะ |
| ชุดข้อมูลสระภาษาญี่ปุ่น | ผู้ชายเก้าคนออกเสียงสระภาษาญี่ปุ่นสองตัวติดต่อกัน | นำการวิเคราะห์การทำนายเชิงเส้น 12 ระดับมาประยุกต์ใช้เพื่อให้ได้อนุกรมเวลาแบบไม่ต่อเนื่องที่มีสัมประสิทธิ์เซปสตรัม 12 ตัว | 640 | ข้อความ | การจำแนกประเภท | 1999 | [ 131 ] [ 132 ] | เอ็ม. คูโด และคณะ |
| ชุดข้อมูลการตรวจติดตามทางไกลของโรคพาร์กินสัน | บันทึกภาพหลายรายการของผู้ที่มีและไม่มีโรคพาร์กินสัน | ดึงคุณลักษณะเสียงออกมา | 5875 | ข้อความ | การจำแนกประเภท | 2009 | [ 133 ] [ 134 ] | เอ. ซานาส และคณะ |
| ทิมิต | บันทึกเสียงจากผู้พูด 630 คน ซึ่งใช้สำเนียงหลัก 8 สำเนียงของภาษาอังกฤษแบบอเมริกัน โดยแต่ละคนอ่านประโยคที่มีการออกเสียงหลากหลายจำนวน 10 ประโยค | คำพูดจะถูกถอดเสียงทั้งในแง่ของคำศัพท์และหน่วยเสียง | 6300 | ข้อความ | การรู้จำและการจำแนกเสียงพูด | พ.ศ. 2529 | [ 135 ] [ 136 ] | เจ. การอโฟโล และคณะ |
| คลังข้อมูลเสียงภาษาอาหรับ | ชุดข้อมูลเสียงพูดภาษา อาหรับมาตรฐานสมัยใหม่ (MSA) จากผู้พูดคนเดียวพร้อมด้วยการถอดเสียงทางสัทศาสตร์และการสะกดคำที่ตรงกับระดับเสียงพยัญชนะ | คำพูดจะถูกถอดเสียงทั้งทางด้านการเขียนและการออกเสียง โดยใส่เครื่องหมายเน้นเสียงด้วย | ~1900 | ข้อความ, WAV | การสังเคราะห์เสียงพูด, การรู้จำเสียงพูด, การจัดเรียงคลังข้อมูล, การบำบัดการพูด, การศึกษา | 2016 | [ 137 ] | เอ็น. ฮาลาบี |
| เสียงสามัญ | ฐานข้อมูลสาธารณะที่รวบรวมข้อมูลจากผู้คนจำนวนมากเกี่ยวกับภาษาถิ่นหลากหลายประเภท | การตรวจสอบความถูกต้องโดยผู้ใช้รายอื่น | ภาษาอังกฤษ: 1,118 ชั่วโมง | ไฟล์ MP3 พร้อมไฟล์ข้อความที่เกี่ยวข้อง | การรู้จำเสียงพูด | มิถุนายน 2017 (ธันวาคม 2019) | [ 138 ] | โมซโมซา |
| แอลเจสปีช | ชุด ข้อมูลเสียงหนังสือภาษาอังกฤษสาธารณะที่บันทึกโดยผู้พูดคนเดียว แบ่งออกเป็นคลิปสั้นๆ ตามเครื่องหมายวรรคตอน | ตรวจสอบคุณภาพ ถอดเสียงอย่างเป็นมาตรฐานควบคู่ไปกับต้นฉบับ | 13,100 | ซีเอสวี, ดับเบิลยูวี | การสังเคราะห์เสียงพูด | 2017 | [ 139 ] | คีธ อิโตะ, ลินดา จอห์นสัน |
| ชุดข้อมูลคำสั่งเสียงภาษาอาหรับ | รวบรวมจากผู้ร่วมให้ข้อมูล 30 คน และจัดกลุ่มเป็น 40 คำหลัก | ไฟล์ WAV ดิบ | 12,000 | WAV, CSV | การรู้จำเสียงพูด การตรวจจับคำสำคัญ | 2021 | [ 140 ] | อับดุลกาเดอร์ กันดูรา |
ดนตรี
| ชื่อชุดข้อมูล | คำอธิบายโดยย่อ | การประมวลผลล่วงหน้า | ตัวอย่าง | รูปแบบ | งานเริ่มต้น | สร้างแล้ว (อัปเดตแล้ว) | อ้างอิง | ผู้สร้าง |
|---|---|---|---|---|---|---|---|---|
| ชุดข้อมูลแหล่งกำเนิดทางภูมิศาสตร์ของดนตรี | คุณลักษณะด้านเสียงของตัวอย่างเพลงจากสถานที่ต่างๆ | คุณลักษณะเสียงที่แยกออกมาโดยใช้ซอฟต์แวร์ MARSYAS | 1,059 | ข้อความ | การจำแนกทางภูมิศาสตร์ การจัดกลุ่ม | 2014 | [ 141 ] [ 142 ] | เอฟ. โจว และคณะ |
| ชุดข้อมูลเพลงนับล้านเพลง | คุณสมบัติเสียงจากเพลงกว่าหนึ่งล้านเพลง | ดึงคุณสมบัติเสียงออกมาแล้ว | 1 ล้าน | ข้อความ | การจำแนกประเภท การจัดกลุ่ม | 2011 | [ 143 ] [ 144 ] | ที. เบอร์แต็ง-มาฮิเยอซ์ และคณะ |
| เอ็มเอสดีบี18 | การบันทึกเพลงยอดนิยมแบบหลายแทร็ก | เสียงดิบ | 150 | MP4, WAV | การแยกแหล่งกำเนิด | 2017 | [ 145 ] | Z. Rafii และคณะ |
| คลังเพลงฟรี | ไฟล์เสียงอยู่ภายใต้ลิขสิทธิ์ Creative Commonsจากเพลงกว่า 100,000 เพลง (343 วัน, 1 TiB) พร้อมลำดับชั้นของประเภทเพลง 161 ประเภท ข้อมูลเมตา ข้อมูลผู้ใช้ และข้อความอิสระ | ไฟล์เสียงดิบและคุณสมบัติของเสียง | 106,574 | ข้อความ, MP3 | การจำแนกประเภท, คำแนะนำ | 2017 | [ 146 ] | เอ็ม. เดฟเฟอร์ราร์ด และคณะ |
| ชุดข้อมูลความกลมกลืนของเสียงประสานของบาค | คอร์ดเพลงประสานเสียงของบาค | ดึงคุณสมบัติเสียงออกมาแล้ว | 5665 | ข้อความ | การจำแนกประเภท | 2014 | [ 147 ] [ 148 ] | ดี. ราดิซิโอนี และคณะ |
เสียงอื่นๆ
| ชื่อชุดข้อมูล | คำอธิบายโดยย่อ | การประมวลผลล่วงหน้า | ตัวอย่าง | รูปแบบ | งานเริ่มต้น | สร้างแล้ว (อัปเดตแล้ว) | อ้างอิง | ผู้สร้าง |
|---|---|---|---|---|---|---|---|---|
| เออร์บันซาวด์ | บันทึกเสียงที่มีการระบุชื่อเสียงต่างๆ เช่น เสียงเครื่องปรับอากาศ เสียงแตรรถยนต์ และเสียงเด็กเล่น | จัดเรียงข้อมูลเป็นโฟลเดอร์ตามประเภทของเหตุการณ์ รวมถึงข้อมูลเมตาในไฟล์ JSON และคำอธิบายประกอบในไฟล์ CSV | 1,059 | เสียง ( WAV ) | การจำแนกประเภท | 2014 | [ 149 ] [ 150 ] | เจ. ซาลามอน และคณะ |
| ชุดเสียง | คลิปเสียงความยาว 10 วินาทีจากวิดีโอ YouTube และระบบจัดหมวดหมู่ที่มีป้ายกำกับมากกว่า 500 รายการ | คุณสมบัติคล้าย VGG ที่ผ่านการประมวลผล PCA 128 รายการ ทุกๆ 1 วินาที | 2,084,320 | ไฟล์ข้อความ (CSV) และไฟล์บันทึก TensorFlow | การจำแนกประเภท | 2017 | [ 151 ] | เจ. เจมเมค และคณะ, กูเกิล |
| ความท้าทายในการตรวจจับเสียงนก | เสียงจากสถานีตรวจวัดสภาพแวดล้อม รวมทั้งเสียงบันทึกจากประชาชนทั่วไป | 17,000+ | การจำแนกประเภท | 2016 (2018) | [ 152 ] [ 153 ] | มหาวิทยาลัยควีนแมรีและสมาคมประมวลผลสัญญาณ IEEE | ||
| WSJ0 Hipster Ambient Mixtures | เสียงจาก WSJ0 ผสมกับเสียงรบกวนที่บันทึกในบริเวณอ่าวซานฟรานซิสโก | คลิปเสียงรบกวนที่ตรงกับคลิป WSJ0 | 28,000 | ไฟล์เสียง ( WAV ) | การแยกแหล่งกำเนิดเสียง | 2019 | [ 154 ] | วิเชิร์น, จี. และคณะ, วิสเปอร์และเมอร์ล |
| โคลโธ | ไฟล์เสียงจำนวน 4,981 ไฟล์ แต่ละไฟล์มีความยาว 15 ถึง 30 วินาที และมีคำบรรยาย 5 แบบที่แตกต่างกัน โดยแต่ละคำบรรยายมีความยาว 8 ถึง 20 คำ | 24,905 | ไฟล์เสียง ( WAV ) และไฟล์ข้อความ ( CSV ) | การสร้างคำบรรยายเสียงอัตโนมัติ | 2020 | [ 155 ] [ 156 ] | เค. ดรอสซอส, เอส. ลิปปิง และ ที. เวอร์ทาเนน | |
| เอฟเฟ็กต์เสียงระดับมืออาชีพ | ชุดข้อมูลส่วนตัวประกอบด้วยเสียงเอฟเฟ็กต์ที่บันทึกอย่างมืออาชีพจำนวน 1.27 ล้านรายการ ใน 672 หมวดหมู่ – คัดสรรและพร้อมสำหรับการฝึกฝน AI การทดสอบ และการใช้งานเชิงพาณิชย์ | ข้อมูลเมตาที่ติดแท็กโดยมนุษย์ 100% เป็นไปตามหลักการจำแนกประเภทสากล (Universal Category System ontology) | 1,272,241 | ไฟล์เสียง (WAV) | การจำแนกประเภท การแยกแหล่งที่มา การดึงข้อมูล ปัญญาประดิษฐ์เชิงสร้างสรรค์ | 2026 | [ 157 ] | เอฟเฟ็กต์เสียงระดับมืออาชีพ |
ข้อมูลสัญญาณ
ชุดข้อมูลที่มีข้อมูลสัญญาณไฟฟ้าซึ่งต้องผ่านกระบวนการประมวลผลสัญญาณเพื่อการวิเคราะห์เพิ่มเติม
ไฟฟ้า
| ชื่อชุดข้อมูล | คำอธิบายโดยย่อ | การประมวลผลล่วงหน้า | ตัวอย่าง | รูปแบบ | งานเริ่มต้น | สร้างแล้ว (อัปเดตแล้ว) | อ้างอิง | ผู้สร้าง |
|---|---|---|---|---|---|---|---|---|
| ชุดข้อมูลหนอนเจ้าเล่ห์ | ชุดข้อมูลที่แสดงรายละเอียดการแพร่กระจายของเวิร์ม Wittyและคอมพิวเตอร์ที่ติดไวรัส | แบ่งออกเป็นชุดข้อมูลที่เปิดเผยต่อสาธารณะและชุดข้อมูลที่จำกัด ซึ่งประกอบด้วยข้อมูลที่ละเอียดอ่อนกว่า เช่น ที่อยู่ IP และส่วนหัวของโปรโตคอล UDP | ที่อยู่ IP จำนวน 55,909 รายการ | ข้อความ | การจำแนกประเภท | 2004 | [ 158 ] [ 159 ] | ศูนย์วิเคราะห์ข้อมูลอินเทอร์เน็ตประยุกต์ |
| ชุดข้อมูลการประมาณค่าความดันโลหิตโดยไม่ต้องใช้ปลอกแขน | สัญญาณชีพที่ผ่านการกรองจากผู้ป่วย ซึ่งสามารถนำมาใช้ในการประมาณค่าความดันโลหิตได้ | สัญญาณชีพที่ความถี่ 125 เฮิรตซ์ได้รับการทำความสะอาดแล้ว | 12,000 | ข้อความ | การจำแนกประเภท การถดถอย | 2015 | [ 160 ] [ 161 ] | เอ็ม. คาชูอี และคณะ |
| ชุดข้อมูลการเคลื่อนตัวของอาร์เรย์เซ็นเซอร์ก๊าซ | การวัดค่าจากเซ็นเซอร์เคมี 16 ตัวที่ใช้ในการจำลองเพื่อชดเชยการเปลี่ยนแปลงค่า | มีคุณสมบัติมากมายให้เลือกใช้ | 13,910 | ข้อความ | การจำแนกประเภท | 2012 | [ 162 ] [ 163 ] | เอ. เวอร์การา |
| ชุดข้อมูลเซอร์โว | ข้อมูลเกี่ยวกับความสัมพันธ์แบบไม่เชิงเส้นที่พบในวงจรเซอร์โวแอมพลิฟายเออร์ | มีการระบุระดับของส่วนประกอบต่างๆ โดยขึ้นอยู่กับส่วนประกอบอื่นๆ | 167 | ข้อความ | การถดถอย | พ.ศ. 2536 | [ 164 ] [ 165 ] | เค. อุลริช |
| ชุดข้อมูล UJIIndoorLoc-Mag | ฐานข้อมูลระบุตำแหน่งภายในอาคารสำหรับทดสอบระบบระบุตำแหน่งภายในอาคาร ข้อมูลอิงตามสนามแม่เหล็ก | มีการแบ่งข้อมูลสำหรับการฝึกฝนและทดสอบไว้แล้ว | 40,000 | ข้อความ | การจำแนกประเภท การถดถอย การจัดกลุ่ม | 2015 | [ 166 ] [ 167 ] | ดี. แรมบลา และคณะ |
| ชุดข้อมูลการวินิจฉัยไดรฟ์ไร้เซ็นเซอร์ | สัญญาณไฟฟ้าจากมอเตอร์ที่มีชิ้นส่วนชำรุด | คุณลักษณะทางสถิติที่สกัดออกมา | 58,508 | ข้อความ | การจำแนกประเภท | 2015 | [ 168 ] [ 169 ] | เอ็ม. บาเตอร์ |
การติดตามการเคลื่อนไหว
| ชื่อชุดข้อมูล | คำอธิบายโดยย่อ | การประมวลผลล่วงหน้า | ตัวอย่าง | รูปแบบ | งานเริ่มต้น | สร้างแล้ว (อัปเดตแล้ว) | อ้างอิง | ผู้สร้าง |
|---|---|---|---|---|---|---|---|---|
| การประมวลผลแบบสวมใส่ได้: การจำแนกประเภทท่าทางและการเคลื่อนไหวของร่างกาย (PUC-Rio) | ผู้คนทำกิจกรรมพื้นฐาน 5 อย่างขณะสวมใส่อุปกรณ์ติดตามการเคลื่อนไหว | ไม่มี. | 165,632 | ข้อความ | การจำแนกประเภท | 2013 | [ 170 ] [ 171 ] | มหาวิทยาลัยสังฆราชคาทอลิกแห่งรีโอเดจาเนโร |
| ชุดข้อมูลการแบ่งส่วนเฟสท่าทาง | คุณลักษณะที่สกัดจากวิดีโอของผู้คนที่กำลังทำท่าทางต่างๆ | คุณลักษณะที่สกัดออกมามีจุดมุ่งหมายเพื่อศึกษาการแบ่งส่วนระยะของท่าทาง | 9900 | ข้อความ | การจำแนกประเภท การจัดกลุ่ม | 2014 | [ 172 ] [ 173 ] | อาร์. มาเดโอ และคณะ |
| ชุดข้อมูลการกระทำทางกายภาพของ Vicon | การเคลื่อนไหวทางกายภาพปกติ 10 ท่า และการเคลื่อนไหวเชิงรุก 10 ท่า ที่วัดกิจกรรมของมนุษย์โดยใช้ตัวติดตาม 3 มิติ | พารามิเตอร์หลายอย่างถูกบันทึกโดยอุปกรณ์ติดตาม 3 มิติ | 3000 | ข้อความ | การจำแนกประเภท | 2011 | [ 174 ] [ 175 ] | ที. ธีโอโดริดิส |
| ชุดข้อมูลกิจกรรมประจำวันและกิจกรรมกีฬา | ข้อมูลจากเซ็นเซอร์วัดการเคลื่อนไหว สำหรับกิจกรรมประจำวันและกิจกรรมกีฬา 19 อย่าง | มีการติดตั้งเซ็นเซอร์จำนวนมาก แต่ไม่มีการประมวลผลสัญญาณล่วงหน้า | 9120 | ข้อความ | การจำแนกประเภท | 2013 | [ 176 ] [ 177 ] | บี. บาร์ชัน และคณะ |
| ชุดข้อมูลการจดจำกิจกรรมของมนุษย์โดยใช้สมาร์ทโฟน | ข้อมูลจากไจโรสโคปและมาตรวัดความเร่งจากผู้คนที่สวมใส่สมาร์ทโฟนและทำกิจกรรมตามปกติ | การกระทำที่เกิดขึ้นจะถูกระบุไว้ และสัญญาณทั้งหมดได้รับการประมวลผลล่วงหน้าเพื่อลดสัญญาณรบกวน | 10,299 | ข้อความ | การจำแนกประเภท | 2012 | [ 178 ] [ 179 ] | เจ. เรเยส-ออร์ติซ และคณะ |
| สัญลักษณ์ภาษามือออสเตรเลีย | สัญลักษณ์ภาษามือออสเตรเลียที่บันทึกโดยถุงมือติดตามการเคลื่อนไหว | ไม่มี. | 2565 | ข้อความ | การจำแนกประเภท | 2002 | [ 180 ] [ 181 ] | เอ็ม. คาดูส |
| การออกกำลังกายยกน้ำหนักได้รับการตรวจสอบด้วยอุปกรณ์วัดแรงเฉื่อย | การออกกำลังกายบริหารกล้ามเนื้อไบเซปส์ 5 รูปแบบ โดยมีการตรวจสอบด้วยอุปกรณ์วัดการเคลื่อนไหวแบบอิสระ (IMU) | สถิติบางส่วนคำนวณจากข้อมูลดิบ | 39,242 | ข้อความ | การจำแนกประเภท | 2013 | [ 182 ] [ 183 ] | ดับเบิลยู. อูกูลีโน และคณะ |
| ชุดข้อมูล sEMG สำหรับการเคลื่อนไหวพื้นฐานของมือ | ฐานข้อมูลสองชุดของสัญญาณอิเล็กโทรไมโอแกรมพื้นผิวของการเคลื่อนไหวของมือ 6 ท่า | ไม่มี. | 3000 | ข้อความ | การจำแนกประเภท | 2014 | [ 184 ] [ 185 ] | ซี. ซัปซานิส และคณะ |
| ชุดข้อมูลการจดจำกิจกรรม REALDISP | ประเมินเทคนิคต่างๆ ที่เกี่ยวข้องกับการจัดการผลกระทบจากการเคลื่อนที่ของเซ็นเซอร์ในการตรวจจับกิจกรรมบนอุปกรณ์สวมใส่ | ไม่มี. | 1419 | ข้อความ | การจำแนกประเภท | 2014 | [ 185 ] [ 186 ] | โอ. บาโนส และคณะ |
| ชุดข้อมูลการจำแนกกิจกรรมความหลากหลาย | ข้อมูลจากอุปกรณ์อัจฉริยะหลากหลายชนิด สำหรับมนุษย์ที่กำลังทำกิจกรรมต่างๆ | ไม่มี. | 43,930,257 | ข้อความ | การจำแนกประเภท การจัดกลุ่ม | 2015 | [ 187 ] [ 188 ] | เอ. สติเซน และคณะ |
| การคาดการณ์การเคลื่อนไหวของผู้ใช้ภายในอาคารจากข้อมูล RSS | ข้อมูลเครือข่ายไร้สายตามเวลาที่สามารถนำมาใช้ติดตามการเคลื่อนไหวของผู้คนในสำนักงานได้ | ไม่มี. | 13,197 | ข้อความ | การจำแนกประเภท | 2016 | [ 189 ] [ 190 ] | ดี. บาคชู |
| ชุดข้อมูลการติดตามกิจกรรมทางกายภาพ PAMAP2 | กิจกรรมทางกายภาพ 18 ประเภทที่แตกต่างกัน ซึ่งดำเนินการโดยผู้เข้าร่วม 9 คน โดยแต่ละคนสวมอุปกรณ์วัดการเคลื่อนไหว (IMU) 3 ตัว | ไม่มี. | 3,850,505 | ข้อความ | การจำแนกประเภท | 2012 | [ 191 ] | เอ. ไรส์ |
| ชุดข้อมูลการระบุการทำกิจกรรมโอกาส | ชุดข้อมูลการจดจำกิจกรรมของมนุษย์จากเซ็นเซอร์แบบสวมใส่ เซ็นเซอร์วัตถุ และเซ็นเซอร์สภาพแวดล้อม เป็นชุดข้อมูลที่สร้างขึ้นเพื่อใช้เป็นเกณฑ์มาตรฐานสำหรับอัลกอริธึมการจดจำกิจกรรมของมนุษย์ | ไม่มี. | 2551 | ข้อความ | การจำแนกประเภท | 2012 | [ 192 ] [ 193 ] | ดี. ร็อกเกน และคณะ |
| ชุดข้อมูลการจดจำกิจกรรมในโลกแห่งความเป็นจริง | การตรวจจับการเคลื่อนไหวของมนุษย์จากอุปกรณ์สวมใส่ สามารถแยกแยะตำแหน่งการสวมใส่อุปกรณ์บนร่างกายได้เจ็ดตำแหน่ง และประกอบด้วยเซ็นเซอร์ที่แตกต่างกันหกประเภท | ไม่มี. | 3,150,000 (ต่อเซ็นเซอร์) | ข้อความ | การจำแนกประเภท | 2016 | [ 194 ] | ที. สไตเลอร์ และคณะ |
| ชุดข้อมูลท่าผู้ป่วยโรคหลอดเลือดสมองของศูนย์ฟื้นฟูสมรรถภาพโทรอนโต | การประมาณท่าทางมนุษย์แบบ 3 มิติ (Kinect) ของผู้ป่วยโรคหลอดเลือดสมองและผู้เข้าร่วมที่มีสุขภาพดีขณะทำภารกิจต่างๆ โดยใช้หุ่นยนต์ฟื้นฟูสมรรถภาพผู้ป่วยโรคหลอดเลือดสมอง | ไม่มี. | ผู้ที่มีสุขภาพดี 10 คน และผู้รอดชีวิตจากโรคหลอดเลือดสมอง 9 คน (3500–6000 เฟรมต่อคน) | ซีเอสวี | การจำแนกประเภท | 2017 | [ 195 ] [ 196 ] [ 197 ] | อี. โดลาตาบาดี และคณะ |
| คลังข้อมูลการสัมผัสทางสังคม (Cost) | บันทึกการเคลื่อนไหว 7805 ครั้ง จากท่าทางการสัมผัสทางสังคม 14 ท่าที่แตกต่างกัน โดยผู้เข้าร่วม 31 คน ท่าทางเหล่านี้แสดงในสามรูปแบบ ได้แก่ เบา ปกติ และแรง บนแผงเซ็นเซอร์วัดแรงกดที่พันรอบแขนหุ่นจำลอง | ท่าทางการสัมผัสที่กระทำจะถูกแบ่งส่วนและติดป้ายกำกับ | การจับภาพท่าทาง 7805 | ซีเอสวี | การจำแนกประเภท | 2016 | [ 198 ] [ 199 ] | เอ็ม. จุง และคณะ |
สัญญาณอื่นๆ
| ชื่อชุดข้อมูล | คำอธิบายโดยย่อ | การประมวลผลล่วงหน้า | ตัวอย่าง | รูปแบบ | งานเริ่มต้น | สร้างแล้ว (อัปเดตแล้ว) | อ้างอิง | ผู้สร้าง |
|---|---|---|---|---|---|---|---|---|
| ชุดข้อมูลไวน์ | การวิเคราะห์ทางเคมีของไวน์ที่ปลูกในภูมิภาคเดียวกันในอิตาลี แต่ได้มาจากองุ่นสามสายพันธุ์ที่แตกต่างกัน | ไวน์แต่ละชนิดมีคุณสมบัติ 13 ประการดังนี้ | 178 | ข้อความ | การจำแนกประเภท การถดถอย | 1991 | [ 200 ] [ 201 ] | เอ็ม. ฟอรินา และคณะ |
| ชุดข้อมูลโรงไฟฟ้าพลังงานความร้อนร่วม | ข้อมูลจากเซ็นเซอร์ต่างๆ ภายในโรงไฟฟ้าที่ดำเนินการมาเป็นเวลา 6 ปี | ไม่มี | 9568 | ข้อความ | การถดถอย | 2014 | [ 202 ] [ 203 ] | พี. ทูเฟคซี และคณะ |
ข้อมูลทางเคมี
ชุดข้อมูลจากระบบทางกายภาพ
ปฏิกิริยาเคมีที่มีสถานะเปลี่ยนผ่าน (TS)
OpenReACT-CHON-EFH
OpenReACT-CHON-EFH ( ชุดข้อมูล ปฏิกิริยาแบบเปิดของโครงสร้างอะตอมที่ประกอบด้วยC , H , OและNพร้อมด้วยพลังงานแรงและเฮส เซียน) เป็นเกณฑ์มาตรฐานแบบเปิดสำหรับการเรียนรู้ของเครื่องจักร เกี่ยวกับศักยภาพระหว่างอะตอมในปี 2025
- **ชุด RTP** – รูปทรงเรขาคณิตจุดนิ่ง 35,087 รูป (สารตั้งต้น สถานะเปลี่ยนผ่าน และผลิตภัณฑ์) ที่ได้มาจากปฏิกิริยาพื้นฐาน 11,961 ปฏิกิริยา โดยแต่ละรูปมีการระบุพลังงานฟังก์ชันความหนาแน่น แรงอะตอม และเมทริกซ์เฮสเซียนแบบเต็มที่ระดับ ωB97X-D/6-31G(d)
- **ชุดข้อมูล IRC** – โครงสร้าง 34,248 โครงสร้างตามเส้นทางปฏิกิริยาพลังงานต่ำสุด 600 เส้นทาง ใช้เพื่อทดสอบการคาดการณ์นอกเหนือจากจุดคงที่ที่ได้รับการฝึกฝนแล้ว
- **ชุด NMS** – รูปทรงเรขาคณิตนอกสมดุลจำนวน 62,527 แบบ ที่สร้างขึ้นโดยการสุ่มตัวอย่างโหมดปกติ เพื่อตรวจสอบความทนทานของแบบจำลองภายใต้การรบกวนทางความร้อน
ชุดข้อมูลดังกล่าวสนับสนุนการศึกษาเรื่อง " ข้อมูล Hessian ช่วยปรับปรุงประสิทธิภาพของศักยภาพการเรียนรู้ของเครื่องหรือไม่?"และถูกนำมาใช้เพื่อฝึกฝนและเปรียบเทียบศักยภาพระหว่างอะตอมของการเรียนรู้ของเครื่องที่รายงานไว้ในนั้น[ 204 ]
ชุดข้อมูลนี้เผยแพร่ภายใต้ใบอนุญาต CC ผ่าน Figshare [ 205 ]
ข้อมูลทางกายภาพ
ชุดข้อมูลจากระบบทางกายภาพ
ฟิสิกส์พลังงานสูง
| ชื่อชุดข้อมูล | คำอธิบายโดยย่อ | การประมวลผลล่วงหน้า | ตัวอย่าง | รูปแบบ | งานเริ่มต้น | สร้างแล้ว (อัปเดตแล้ว) | อ้างอิง | ผู้สร้าง |
|---|---|---|---|---|---|---|---|---|
| ชุดข้อมูล HIGGS | การจำลองแบบมอนเตคาร์โลของการชนกันของอนุภาคในเครื่องเร่งอนุภาค | มีการระบุคุณลักษณะ 28 ประการของการชนแต่ละครั้ง | 11 ล้าน | ข้อความ | การจำแนกประเภท | 2014 | [ 206 ] [ 207 ] [ 208 ] | ดี. ไวท์สัน |
| ชุดข้อมูล HEPMASS | การจำลองแบบมอนเตคาร์โลของการชนกันของอนุภาคในเครื่องเร่งอนุภาค เป้าหมายคือการแยกสัญญาณออกจากสัญญาณรบกวน | มีการระบุคุณลักษณะ 28 ประการของการชนแต่ละครั้ง | 10,500,000 | ข้อความ | การจำแนกประเภท | 2016 | [ 207 ] [ 208 ] [ 209 ] | ดี. ไวท์สัน |
ระบบ
| ชื่อชุดข้อมูล | คำอธิบายโดยย่อ | การประมวลผลล่วงหน้า | ตัวอย่าง | รูปแบบ | งานเริ่มต้น | สร้างแล้ว (อัปเดตแล้ว) | อ้างอิง | ผู้สร้าง |
|---|---|---|---|---|---|---|---|---|
| ชุดข้อมูลพลศาสตร์ของไหลสำหรับเรือยอชต์ | สมรรถนะของเรือยอชต์ขึ้นอยู่กับขนาดของตัวเรือ | แต่ละยอชต์จะมีคุณสมบัติเด่น 6 ประการ | 308 | ข้อความ | การถดถอย | 2013 | [ 210 ] [ 211 ] | อาร์. โลเปซ |
| ชุดข้อมูลความล้มเหลวในการทำงานของหุ่นยนต์ | ชุดข้อมูล 5 ชุดที่เน้นไปที่ความล้มเหลวของหุ่นยนต์ในการปฏิบัติงานทั่วไป | คุณลักษณะที่มีค่าเป็นจำนวนเต็ม เช่น แรงบิดและการวัดค่าจากเซ็นเซอร์อื่นๆ | 463 | ข้อความ | การจำแนกประเภท | 1999 | [ 212 ] | แอล. ซีบรา และคณะ |
| ชุดข้อมูลสะพานพิตต์สเบิร์ก | คำอธิบายการออกแบบจะระบุถึงคุณสมบัติต่างๆ ของสะพานหลายประเภท | มีการระบุคุณลักษณะต่างๆ ของสะพานไว้หลายประการ | 108 | ข้อความ | การจำแนกประเภท | 1990 | [ 213 ] [ 214 ] | วาย. ไรช์ และคณะ |
| ชุดข้อมูลรถยนต์ | ข้อมูลเกี่ยวกับรถยนต์ ความเสี่ยงด้านประกันภัย และค่าเสียหายที่ปรับตามมาตรฐาน | ดึงข้อมูลคุณสมบัติของรถยนต์ออกมา | 205 | ข้อความ | การถดถอย | พ.ศ. 2530 | [ 215 ] [ 216 ] | เจ. ชิมเมอร์ และคณะ |
| ชุดข้อมูลอัตราสิ้นเปลืองน้ำมันเชื้อเพลิงอัตโนมัติ | ข้อมูลอัตราสิ้นเปลืองน้ำมันเชื้อเพลิง (MPG) สำหรับรถยนต์ | ระบุคุณสมบัติแปดประการของรถแต่ละคัน | 398 | ข้อความ | การถดถอย | พ.ศ. 2536 | [ 217 ] | มหาวิทยาลัยคาร์เนกีเมลลอน |
| ชุดข้อมูลประสิทธิภาพการใช้พลังงาน | ความต้องการด้านความร้อนและความเย็นนั้นขึ้นอยู่กับพารามิเตอร์ของอาคาร | กำหนดพารามิเตอร์การก่อสร้างแล้ว | 768 | ข้อความ | การจำแนกประเภท การถดถอย | 2012 | [ 218 ] [ 219 ] | เอ. ซิฟารา และคณะ |
| ชุดข้อมูลเสียงรบกวนภายในของปีกเครื่องบิน | ชุดการทดสอบด้านอากาศพลศาสตร์และเสียงของส่วนตัดขวางใบพัดแบบสองมิติและสามมิติ | มีการให้ข้อมูลเกี่ยวกับความถี่ มุมปะทะ ฯลฯ | 1503 | ข้อความ | การถดถอย | 2014 | [ 220 ] | อาร์. โลเปซ |
| ชุดข้อมูลโอริงของกระสวยอวกาศชาเลนเจอร์ของสหรัฐอเมริกา | พยายามคาดการณ์ปัญหาเกี่ยวกับโอริงโดยอาศัยข้อมูลจากยานอวกาศชาเลนเจอร์ในอดีต | มีการระบุคุณลักษณะหลายประการของแต่ละเที่ยวบิน เช่น อุณหภูมิขณะปล่อยตัว | 23 | ข้อความ | การถดถอย | พ.ศ. 2536 | [ 221 ] [ 222 ] | ดี. เดรเปอร์ และคณะ |
| ชุดข้อมูล Statlog (Shuttle) | ชุดข้อมูลกระสวยอวกาศของ NASA | มีคุณสมบัติทั้งหมดเก้าประการ | 58,000 | ข้อความ | การจำแนกประเภท | 2002 | [ 223 ] | นาซ่า |
ดาราศาสตร์
| ชื่อชุดข้อมูล | คำอธิบายโดยย่อ | การประมวลผลล่วงหน้า | ตัวอย่าง | รูปแบบ | งานเริ่มต้น | สร้างแล้ว (อัปเดตแล้ว) | อ้างอิง | ผู้สร้าง |
|---|---|---|---|---|---|---|---|---|
| ภูเขาไฟบนดาวศุกร์ – ชุดข้อมูลจากการทดลอง JARtool | ภาพถ่ายดาวศุกร์ที่ส่งกลับมาโดยยานอวกาศแมเจลแลน | ภาพเหล่านี้ได้รับการติดป้ายกำกับโดยมนุษย์ | ไม่ได้ให้ | รูปภาพ | การจำแนกประเภท | 1991 | [ 224 ] [ 225 ] | เอ็ม. เบิร์ล |
| ชุดข้อมูลกล้องโทรทรรศน์แกมมา MAGIC | วิธีการมอนเตคาร์โลสร้างเหตุการณ์อนุภาคแกมมาพลังงานสูง | คุณลักษณะต่างๆ มากมายที่ได้จากการจำลอง | 19,020 | ข้อความ | การจำแนกประเภท | 2007 | [ 225 ] [ 226 ] | อาร์. บ็อค |
| ชุดข้อมูลเปลวสุริยะ | การวัดจำนวนครั้งของการเกิดปรากฏการณ์เปลวสุริยะบางประเภทในช่วงเวลา 24 ชั่วโมง | มีการระบุคุณลักษณะเฉพาะของเปลวสุริยะหลายประการ | 1389 | ข้อความ | การถดถอย, การจำแนกประเภท | 1989 | [ 227 ] | จี. แบรดชอว์ |
| ชุดข้อมูลหลายฟิลด์ CAMELS | แผนที่ 2 มิติและตาราง 3 มิติจากแบบจำลอง N-body และแบบจำลองอุทกพลศาสตร์ล้ำสมัยหลายพันแบบ ซึ่งครอบคลุมค่าพารามิเตอร์ทางจักรวาลวิทยาและฟิสิกส์ดาราศาสตร์ที่หลากหลาย | แผนที่และตารางแต่ละอันจะมีพารามิเตอร์ทางจักรวาลวิทยาและฟิสิกส์ดาราศาสตร์ 6 ตัวที่เกี่ยวข้องอยู่ด้วย | แผนที่ 2 มิติ 405,000 แผ่น และตาราง 3 มิติ 405,000 แผ่น | แผนที่ 2 มิติและตาราง 3 มิติ | การถดถอย | 2021 | [ 228 ] | Francisco Villaescusa-Navarro และคณะ |
วิทยาศาสตร์โลก
| ชื่อชุดข้อมูล | คำอธิบายโดยย่อ | การประมวลผลล่วงหน้า | ตัวอย่าง | รูปแบบ | งานเริ่มต้น | สร้างแล้ว (อัปเดตแล้ว) | อ้างอิง | ผู้สร้าง |
|---|---|---|---|---|---|---|---|---|
| ภูเขาไฟทั่วโลก | ข้อมูลการปะทุของภูเขาไฟสำหรับเหตุการณ์ภูเขาไฟระเบิดทั้งหมดที่ทราบบนโลก | มีการระบุรายละเอียดต่างๆ เช่น ภูมิภาค ภูมิภาคย่อย สภาพทางธรณีวิทยา และประเภทหินที่เด่นชัด | 1535 | ข้อความ | การถดถอย, การจำแนกประเภท | 2013 | [ 229 ] | อี. เวนซ์เก และคณะ |
| ชุดข้อมูลการกระแทกจากแผ่นดินไหว | กิจกรรมทางแผ่นดินไหวจากเหมืองถ่านหิน | กิจกรรมแผ่นดินไหวถูกจัดประเภทว่าเป็นอันตรายหรือไม่เป็นอันตราย | 2584 | ข้อความ | การจำแนกประเภท | 2013 | [ 230 ] [ 231 ] | เอ็ม. ซิโครา และคณะ |
| อูฐ - สหรัฐอเมริกา | ชุดข้อมูลอุทกวิทยาของลุ่มน้ำ พร้อมอนุกรมเวลาทางอุทกวิทยาและอุตุนิยมวิทยา และคุณลักษณะต่างๆ | ดูเอกสารอ้างอิง | 671 | CSV, ข้อความ, ไฟล์รูปทรง | การถดถอย | 2017 | [ 232 ] [ 233 ] | เอ็น. แอดดอร์ และคณะ / อ. นิวแมน และคณะ |
| อูฐ-ชิลี | ชุดข้อมูลอุทกวิทยาของลุ่มน้ำ พร้อมอนุกรมเวลาทางอุทกวิทยาและอุตุนิยมวิทยา และคุณลักษณะต่างๆ | ดูเอกสารอ้างอิง | 516 | CSV, ข้อความ, ไฟล์รูปทรง | การถดถอย | 2018 | [ 234 ] | ซี. อัลวาเรซ-การ์เรตัน และคณะ |
| อูฐ-บราซิล | ชุดข้อมูลอุทกวิทยาของลุ่มน้ำ พร้อมอนุกรมเวลาทางอุทกวิทยาและอุตุนิยมวิทยา และคุณลักษณะต่างๆ | ดูเอกสารอ้างอิง | 897 | CSV, ข้อความ, ไฟล์รูปทรง | การถดถอย | 2020 | [ 235 ] | วี. ชากัส และคณะ |
| แคมส์-จีบี | ชุดข้อมูลอุทกวิทยาของลุ่มน้ำ พร้อมอนุกรมเวลาทางอุทกวิทยาและอุตุนิยมวิทยา และคุณลักษณะต่างๆ | ดูเอกสารอ้างอิง | 671 | CSV, ข้อความ, ไฟล์รูปทรง | การถดถอย | 2020 | [ 236 ] | จี. ค็อกซอน และคณะ |
| อูฐ-ออสเตรเลีย | ชุดข้อมูลอุทกวิทยาของลุ่มน้ำ พร้อมอนุกรมเวลาทางอุทกวิทยาและอุตุนิยมวิทยา และคุณลักษณะต่างๆ | ดูเอกสารอ้างอิง | 222 | CSV, ข้อความ, ไฟล์รูปทรง | การถดถอย | 2021 | [ 237 ] | เค. ฟาวเลอร์ และคณะ |
| ลามาห์ -ซีอี | ชุดข้อมูลอุทกวิทยาของลุ่มน้ำ พร้อมอนุกรมเวลาทางอุทกวิทยาและอุตุนิยมวิทยา และคุณลักษณะต่างๆ | ดูเอกสารอ้างอิง | 859 | CSV, ข้อความ, ไฟล์รูปทรง | การถดถอย | 2021 | [ 238 ] | ซี. คลิงเลอร์ และคณะ |
ทางกายภาพอื่นๆ
| ชื่อชุดข้อมูล | คำอธิบายโดยย่อ | การประมวลผลล่วงหน้า | ตัวอย่าง | รูปแบบ | งานเริ่มต้น | สร้างแล้ว (อัปเดตแล้ว) | อ้างอิง | ผู้สร้าง |
|---|---|---|---|---|---|---|---|---|
| ชุดข้อมูลกำลังรับแรงอัดของคอนกรีต | ชุดข้อมูลคุณสมบัติและความแข็งแรงรับแรงอัดของคอนกรีต | แต่ละตัวอย่างจะมีคุณสมบัติหลัก 9 ประการ | 10:30 น. | ข้อความ | การถดถอย | 2007 | [ 239 ] [ 240 ] | ไอ.เยห์ |
| ชุดข้อมูลการทดสอบการยุบตัวของคอนกรีต | ค่าการยุบตัวของคอนกรีตแสดงในรูปของสมบัติ | คุณสมบัติของคอนกรีต เช่น เถ้าลอย น้ำ เป็นต้น | 103 | ข้อความ | การถดถอย | 2009 | [ 241 ] [ 242 ] | ไอ.เยห์ |
| ชุดข้อมูลมัสก์ | จงทำนายว่าโมเลกุลนั้นจะมีสารให้กลิ่นมัสก์หรือไม่ โดยพิจารณาจากคุณสมบัติที่ให้มา | แต่ละโมเลกุลมีคุณลักษณะ 168 ประการ | 6598 | ข้อความ | การจำแนกประเภท | พ.ศ. 2537 | [ 243 ] | บริษัท อาร์ริส ฟาร์มาซูติคอล คอร์ปอเรชั่น |
| ชุดข้อมูลข้อบกพร่องของแผ่นเหล็ก | แผ่นเหล็ก 7 ชนิดที่แตกต่างกัน | แต่ละตัวอย่างมีคุณลักษณะ 27 ประการ | 1941 | ข้อความ | การจำแนกประเภท | 2010 | [ 244 ] | ศูนย์วิจัยเซเมียน |
| ชุดข้อมูลอนุภาคนาโนโลหะโมโนเมทัลลิกโลหะมีค่า | ลักษณะการประมวลผลและโครงสร้างของอนุภาคนาโนโลหะเดี่ยว โดยมีพลังงานการก่อตัวเป็นตัวบ่งชี้ | แต่ละตัวอย่างมีคุณลักษณะ 85-182 รายการ | 425 ถึง 4000 | ซีเอสวี | การถดถอย | ปี 2017 ถึง 2023 | [ 245 ] [ 246 ] [ 247 ] [ 248 ] [ 249 ] [ 250 ] | เอ. บาร์นาร์ด และ จี. โอเปลทัล |
| ชุดข้อมูลอนุภาคนาโนโลหะไบเมทัลลิกโลหะมีค่า | ลักษณะการประมวลผลและโครงสร้างของอนุภาคนาโนโลหะสองชนิด โดยมีพลังงานการก่อตัวเป็นตัวบ่งชี้ | แต่ละตัวอย่างมีคุณลักษณะ 922 รายการ | 138147 ถึง 162770 | ซีเอสวี | การถดถอย | 2023 | [ 251 ] [ 252 ] [ 253 ] [ 254 ] [ 255 ] [ 256 ] [ 257 ] [ 258 ] [ 259 ] [ 260 ] [ 261 ] [ 262 ] | เจ. ติง และคณะ |
| ชุดข้อมูลอนุภาคนาโนโลหะสามชนิด AuPdPt | ลักษณะการประมวลผลและโครงสร้างของอนุภาคนาโน AuPdPt โดยมีพลังงานการก่อตัวเป็นตัวบ่งชี้ | มีการระบุคุณลักษณะ 1958 ประการสำหรับแต่ละตัวอย่าง | 48136 | ซีเอสวี | การถดถอย | 2023 | [ 263 ] | เค. ลู และคณะ |
ข้อมูลทางชีววิทยา
ชุดข้อมูลจากระบบชีวภาพ
มนุษย์
| ชื่อชุดข้อมูล | คำอธิบายโดยย่อ | การประมวลผลล่วงหน้า | ตัวอย่าง | รูปแบบ | งานเริ่มต้น | สร้างแล้ว (อัปเดตแล้ว) | อ้างอิง | ผู้สร้าง |
|---|---|---|---|---|---|---|---|---|
| ชุดข้อมูลอายุ | ชุดข้อมูลที่มีโครงสร้างและใช้งานได้ทั่วไป เกี่ยวกับชีวิต การทำงาน และการเสียชีวิตของบุคคลสำคัญ 1.22 ล้านคน เป็นข้อมูลสาธารณะ | วิธีการห้าขั้นตอนในการอนุมานปีเกิดและปีเสียชีวิต เพศ และอาชีพ จากข้อมูลที่ชุมชนส่งเข้ามาในโครงการวิกิพีเดียทุกภาษา | 1,223,009 | ข้อความ | การถดถอย, การจำแนกประเภท | 2022 | เอกสาร[ 264 ] ชุดข้อมูล[ 265 ] | อามอราดเนจาดและคณะ |
| ชุดข้อมูลจอประสาทตาสังเคราะห์[ 266 ] | ภาพเรตินาที่สมจริงและการแบ่งส่วนหลอดเลือด เป็นภาพสาธารณะ (Public domain) | ภาพจำนวน 2500 ภาพ ขนาด 1500*1152 พิกเซล เหมาะสำหรับใช้ในการแบ่งส่วนและจำแนกประเภทของหลอดเลือดดำและหลอดเลือดแดงบนพื้นหลังเดียวกัน | 2500 | รูปภาพ | การจำแนกประเภท การแบ่งส่วน | 2020 | [ 267 ] | ซี. วาเลนติ และคณะ |
| ฐานข้อมูล EEG | การศึกษาเพื่อตรวจสอบความสัมพันธ์ของคลื่นไฟฟ้าสมอง (EEG) กับความเสี่ยงทางพันธุกรรมต่อการติดสุรา | ทำการวัดค่าจากอิเล็กโทรด 64 ตัวที่วางอยู่บนหนังศีรษะ โดยสุ่มตัวอย่างที่ความถี่ 256 เฮิรตซ์ (ช่วงเวลา 3.9 มิลลิวินาที) เป็นเวลา 1 วินาที | 122 | ข้อความ | การจำแนกประเภท | 1999 | [ 268 ] | เอช. เบไกลเตอร์ |
| ชุดข้อมูลอินเทอร์เฟซ P300 | ข้อมูลจากผู้เข้าร่วมทดลอง 9 คน รวบรวมโดยใช้เทคโนโลยีเชื่อมต่อสมองกับคอมพิวเตอร์แบบ P300 สำหรับผู้พิการ | แบ่งเนื้อหาออกเป็นสี่ช่วงสำหรับแต่ละวิชามีโค้ด MATLAB ให้ด้วย | 1,224 | ข้อความ | การจำแนกประเภท | 2008 | [ 269 ] [ 270 ] | ยู. ฮอฟฟ์แมน และคณะ |
| ชุดข้อมูลโรคหัวใจ | พบในผู้ป่วยที่มีและไม่มีโรคหัวใจ | มีการระบุคุณลักษณะ 75 รายการสำหรับผู้ป่วยแต่ละราย โดยบางค่าอาจขาดหายไป | 303 | ข้อความ | การจำแนกประเภท | 1988 | [ 271 ] [ 272 ] | เอ. จาโนซี และคณะ |
| ชุดข้อมูลมะเร็งเต้านมรัฐวิสคอนซิน (การวินิจฉัย) | ชุดข้อมูลเกี่ยวกับลักษณะของก้อนในเต้านม พร้อมระบุการวินิจฉัยโดยแพทย์ | แต่ละตัวอย่างมีคุณลักษณะ 10 ประการ | 569 | ข้อความ | การจำแนกประเภท | พ.ศ. 2538 | [ 273 ] [ 274 ] | ดับเบิลยู. วอลเบิร์ก และคณะ |
| การสำรวจระดับชาติเกี่ยวกับการใช้ยาและสุขภาพ | การสำรวจขนาดใหญ่เกี่ยวกับสุขภาพและการใช้ยาในสหรัฐอเมริกา | ไม่มี. | 55,268 | ข้อความ | การจำแนกประเภท การถดถอย | 2012 | [ 275 ] | กระทรวงสาธารณสุขและบริการมนุษย์แห่งสหรัฐอเมริกา |
| ชุดข้อมูลมะเร็งปอด | ชุดข้อมูลมะเร็งปอดที่ไม่มีคำจำกัดความคุณลักษณะ | แต่ละกรณีมีคุณลักษณะ 56 ข้อ | 32 | ข้อความ | การจำแนกประเภท | 1992 | [ 276 ] [ 277 ] | Z. Hong และคณะ |
| ชุดข้อมูลภาวะหัวใจเต้นผิดจังหวะ | ข้อมูลสำหรับกลุ่มผู้ป่วย ซึ่งบางรายมีภาวะหัวใจเต้นผิดจังหวะ | แต่ละอินสแตนซ์มีฟีเจอร์ 276 รายการ | 452 | ข้อความ | การจำแนกประเภท | 1998 | [ 278 ] [ 279 ] | เอช. อัลเทย์ และคณะ |
| ชุดข้อมูลโรคเบาหวานจากโรงพยาบาล 130 แห่งในสหรัฐอเมริกา ระหว่างปี 1999-2008 | ข้อมูลการกลับเข้ารับการรักษาในโรงพยาบาลซ้ำเป็นเวลา 9 ปี จากโรงพยาบาล 130 แห่งในสหรัฐอเมริกา สำหรับผู้ป่วยโรคเบาหวาน | มีการระบุรายละเอียดหลายประการของการเข้ารับการรักษาซ้ำแต่ละครั้ง | 100,000 | ข้อความ | การจำแนกประเภท การจัดกลุ่ม | 2014 | [ 280 ] [ 281 ] | เจ. คลอร์ และคณะ |
| ชุดข้อมูลโรคจอประสาทตาจากเบาหวานเดเบรเซน | คุณลักษณะที่สกัดจากภาพดวงตาที่มีและไม่มีภาวะจอประสาทตาเสื่อมจากเบาหวาน | สกัดคุณลักษณะและวินิจฉัยสภาวะต่างๆ | 1151 | ข้อความ | การจำแนกประเภท | 2014 | [ 282 ] [ 283 ] | บี. อันทัล และคณะ |
| ชุดข้อมูล Messidor เกี่ยวกับโรคจอประสาทตาจากเบาหวาน | วิธีการประเมินเทคนิคการแบ่งส่วนและการจัดทำดัชนีในสาขาจักษุวิทยาจอประสาทตา (MESSIDOR) | ลักษณะเด่นคือ ระดับความรุนแรงของภาวะจอประสาทตาเสื่อม และความเสี่ยงต่อภาวะบวมน้ำที่จอประสาทตา | 1200 | รูปภาพ, ข้อความ | การจำแนกประเภท การแบ่งส่วน | 2008 | [ 284 ] [ 285 ] | โครงการเมสซิดอร์ |
| ชุดข้อมูลความผิดปกติของตับ | ข้อมูลสำหรับผู้ที่มีความผิดปกติเกี่ยวกับตับ | ลักษณะทางชีวภาพเจ็ดประการสำหรับผู้ป่วยแต่ละราย | 345 | ข้อความ | การจำแนกประเภท | 1990 | [ 286 ] [ 287 ] | บริษัท บูพา เมดิคอล รีเสิร์ช จำกัด |
| ชุดข้อมูลโรคต่อมไทรอยด์ | ฐานข้อมูลผู้ป่วยโรคต่อมไทรอยด์จำนวน 10 ฐานข้อมูล | ไม่มี. | 7200 | ข้อความ | การจำแนกประเภท | พ.ศ. 2530 | [ 288 ] [ 289 ] | อาร์. ควินแลน |
| ชุดข้อมูลมะเร็งเยื่อหุ้มปอด | ข้อมูลผู้ป่วยมะเร็งเยื่อหุ้มปอด | มีการระบุคุณลักษณะจำนวนมาก รวมถึงการสัมผัสกับแร่ใยหิน | 324 | ข้อความ | การจำแนกประเภท | 2016 | [ 290 ] [ 291 ] | เอ. ตันริกูลู และคณะ |
| ชุดข้อมูลการประมาณท่าทางตามวิสัยทัศน์ของผู้ป่วยโรคพาร์กินสัน | การประมาณท่าทางของมนุษย์แบบ 2 มิติ ของผู้ป่วยโรคพาร์กินสันขณะทำกิจกรรมต่างๆ | ได้ทำการลบการสั่นของกล้องออกจากเส้นทางการเคลื่อนที่แล้ว | 134 | ข้อความ | การจำแนกประเภท การถดถอย | 2017 | [ 292 ] [ 293 ] [ 294 ] | เอ็ม. หลี่ และคณะ |
| ชุดข้อมูลเครือข่ายปฏิกิริยาเมตาบอลิซึม KEGG (แบบไม่มีทิศทาง) | เครือข่ายของวิถีเมตาบอลิ ซึม ประกอบด้วย เครือข่ายปฏิกิริยาและเครือข่ายความสัมพันธ์ | มีการระบุคุณลักษณะโดยละเอียดสำหรับแต่ละโหนดเครือข่ายและเส้นทาง | 65,554 | ข้อความ | การจำแนกประเภท การจัดกลุ่ม การถดถอย | 2011 | [ 295 ] | เอ็ม. นาอิม และคณะ |
| AlphaDent - ชุดข้อมูลเกี่ยวกับพยาธิสภาพของฟัน | การถ่ายภาพภายในช่องปากด้วยกล้อง DSLR ความละเอียดสูง (>5000x3000 พิกเซล) | แบ่งประเภทออกเป็น 9 ประเภท ได้แก่ การสึกกร่อน การอุดฟัน การทำครอบฟัน และฟันผุอีก 6 ประเภท | 1320 | รูปภาพ หน้ากาก | การแบ่งส่วนอินสแตนซ์ | 2025 | [ 296 ] [ 297 ] | EI Sosnin, RA Solovyev และคณะ |
| ชุดข้อมูลการวิเคราะห์รูปร่างสเปิร์มมนุษย์ที่ได้รับการดัดแปลง (MHSMA) | ภาพอสุจิของมนุษย์จากผู้ป่วย 235 รายที่มีภาวะมีบุตรยากในเพศชาย โดยระบุส่วนต่างๆ ของอสุจิว่าเป็นปกติหรือผิดปกติ ได้แก่ อะโครโซม หัว ช่องว่าง และหาง | ตัดภาพโดยเน้นเฉพาะส่วนหัวของอสุจิหนึ่งตัว ปรับกำลังขยายให้เป็นมาตรฐานแล้ว สร้างชุดข้อมูลสำหรับการฝึกฝน การตรวจสอบ และการทดสอบ | 1,540 | ไฟล์ .npy | การจำแนกประเภท | 2019 | [ 298 ] [ 299 ] | เอส. จาวาดี และ เอส.เอ. มิโรแชนเดล |
สัตว์
| ชื่อชุดข้อมูล | คำอธิบายโดยย่อ | การประมวลผลล่วงหน้า | ตัวอย่าง | รูปแบบ | งานเริ่มต้น | สร้างแล้ว (อัปเดตแล้ว) | อ้างอิง | ผู้สร้าง |
|---|---|---|---|---|---|---|---|---|
| ชุดข้อมูลหอยเป๋าฮื้อ | ข้อมูลเกี่ยวกับการวัดขนาดทางกายภาพของหอยเป๋าฮื้อ รูปแบบสภาพอากาศ และสถานที่ตั้งก็มีให้เช่นกัน | ไม่มี. | 4177 | ข้อความ | การถดถอย | พ.ศ. 2538 | [ 300 ] | ห้องปฏิบัติการวิจัยทางทะเล – Taroona |
| ชุดข้อมูลสวนสัตว์ | ชุดข้อมูลจำลองที่ประกอบด้วยสัตว์ 7 ประเภท | สัตว์ถูกจัดประเภทออกเป็น 7 หมวดหมู่ และมีการระบุลักษณะเฉพาะของแต่ละหมวดหมู่ไว้ด้วย | 101 | ข้อความ | การจำแนกประเภท | 1990 | [ 301 ] | อาร์. ฟอร์ไซธ์ |
| ชุดข้อมูล Demospongiae | ข้อมูลเกี่ยวกับฟองน้ำทะเล | ฟองน้ำ 503 ชนิดใน กลุ่ม Demospongeถูกอธิบายด้วยลักษณะต่างๆ กัน | 503 | ข้อความ | การจำแนกประเภท | 2010 | [ 302 ] | อี. อาร์เมนโกล และคณะ |
| ข้อมูลสัตว์เลี้ยงในฟาร์ม | สินค้าคงคลังข้อมูล PLF (วัว หมู ตำแหน่ง ความเร่ง ฯลฯ) | ชุดข้อมูลที่มีป้ายกำกับ | รายชื่อจะได้รับการอัปเดตอยู่ตลอดเวลา | ข้อความ | การจำแนกประเภท | 2020 | [ 303 ] | วี. บลอค |
| ชุดข้อมูลลำดับยีนจุดเชื่อมต่อการตัดต่อ | ลำดับยีนจุดเชื่อมต่อ (DNA) ของไพรเมต พร้อมทฤษฎีโดเมนที่ไม่สมบูรณ์ที่เกี่ยวข้อง | ไม่มี. | 3190 | ข้อความ | การจำแนกประเภท | 1992 | [ 277 ] | จี. โทเวลล์ และคณะ |
| ชุดข้อมูลการแสดงออกของโปรตีนในหนู | ระดับการแสดงออกของโปรตีน 77 ชนิดที่วัดได้ในเปลือกสมองของหนู | ไม่มี. | 1080 | ข้อความ | การจำแนกประเภท, การจัดกลุ่ม | 2015 | [ 304 ] [ 305 ] | ซี. ฮิกูเอรา และคณะ |
เชื้อรา
| ชื่อชุดข้อมูล | คำอธิบายโดยย่อ | การประมวลผลล่วงหน้า | ตัวอย่าง | รูปแบบ | งานเริ่มต้น | สร้างแล้ว (อัปเดตแล้ว) | อ้างอิง | ผู้สร้าง |
|---|---|---|---|---|---|---|---|---|
| ชุดข้อมูลเห็ด UCI | ลักษณะและการจำแนกประเภทของเห็ด | มีการระบุคุณสมบัติหลายประการของเห็ดแต่ละชนิดไว้ | 8124 | ข้อความ | การจำแนกประเภท | พ.ศ. 2530 | [ 306 ] | เจ. ชลิมเมอร์ |
| ชุดข้อมูลเห็ดทุติยภูมิ | ลักษณะและการจำแนกประเภทของเห็ด | ข้อมูลจำลองจากตัวอย่างเห็ดขนาดใหญ่และสมจริง สามารถทำซ้ำได้ทั้งหมด | 61069 | ข้อความ | การจำแนกประเภท | 2020 | [ 307 ] [ 308 ] | ดี. แวกเนอร์ และคณะ |
ปลูก
| ชื่อชุดข้อมูล | คำอธิบายโดยย่อ | การประมวลผลล่วงหน้า | ตัวอย่าง | รูปแบบ | งานเริ่มต้น | สร้างแล้ว (อัปเดตแล้ว) | อ้างอิง | ผู้สร้าง |
|---|---|---|---|---|---|---|---|---|
| ชุดข้อมูลไฟป่า | ไฟป่าและทรัพย์สินที่เกิดจากไฟป่า | มีการแยกแยะลักษณะเด่น 13 ประการของไฟแต่ละครั้งออกมา | 517 | ข้อความ | การถดถอย | 2008 | [ 309 ] [ 310 ] | พี. คอร์เตซ และคณะ |
| ชุดข้อมูลไอริส | ไอริสมี 3 ชนิด โดยจำแนกตามคุณลักษณะ 4 ประการ | ไม่มี. | 150 | ข้อความ | การจำแนกประเภท | 1936 | [ 311 ] [ 312 ] | อาร์. ฟิชเชอร์ |
| ชุดข้อมูลใบพืชชนิดต่างๆ | ตัวอย่างใบไม้จำนวน 16 ตัวอย่าง จากพืช 100 ชนิด | มีการแสดงคำอธิบายรูปร่าง ขอบเขตละเอียด และฮิสโตแกรมพื้นผิว | 1600 | ข้อความ | การจำแนกประเภท | 2012 | [ 313 ] [ 314 ] | เจ. โคป และคณะ |
| ชุดข้อมูลถั่วเหลือง | ฐานข้อมูลต้นถั่วเหลืองที่เป็นโรค | มีการระบุลักษณะเด่น 35 ประการสำหรับพืชแต่ละชนิด โดยพืชถูกจัดจำแนกออกเป็น 19 ประเภท | 307 | ข้อความ | การจำแนกประเภท | 1988 | [ 315 ] | อาร์. มิชาลสกี และคณะ |
| ชุดข้อมูลเมล็ดพันธุ์ | การวัดคุณสมบัติทางเรขาคณิตของเมล็ดข้าวสาลีสามสายพันธุ์ที่แตกต่างกัน | ไม่มี. | 210 | ข้อความ | การจำแนกประเภท การจัดกลุ่ม | 2012 | [ 316 ] [ 317 ] | ชารีทาโนวิชและคณะ |
| ชุดข้อมูล Covertype | ข้อมูลสำหรับการทำนายประเภทของพื้นที่ป่าโดยอาศัยตัวแปรทางแผนที่เพียงอย่างเดียว | มีการระบุลักษณะทางภูมิศาสตร์ไว้หลายอย่าง | 581,012 | ข้อความ | การจำแนกประเภท | 1998 | [ 318 ] [ 319 ] | เจ. แบล็กการ์ด และคณะ |
| ชุดข้อมูลเครือข่ายการส่งสัญญาณกรดแอบซิสิก | ข้อมูลสำหรับเครือข่ายการส่งสัญญาณของพืช เป้าหมายคือการกำหนดชุดกฎที่ควบคุมเครือข่ายนี้ | ไม่มี. | 300 | ข้อความ | การค้นพบเชิงสาเหตุ | 2008 | [ 320 ] | เจ. เจนเคนส์ และคณะ |
| ชุดข้อมูลโฟลิโอ | ภาพถ่ายใบไม้ 20 ภาพต่อชนิด จากทั้งหมด 32 ชนิด | ไม่มี. | 637 | รูปภาพ, ข้อความ | การจำแนกประเภท การจัดกลุ่ม | 2015 | [ 321 ] [ 322 ] | ที. มูนิซามิ และคณะ |
| ชุดข้อมูลดอกไม้อ็อกซ์ฟอร์ด | ชุดข้อมูลดอกไม้ 17 ประเภท | การแบ่งข้อมูลสำหรับการฝึกฝนและทดสอบ รูปภาพที่มีป้ายกำกับ | 1360 | รูปภาพ, ข้อความ | การจำแนกประเภท | 2006 | [ 323 ] [ 324 ] | เอ็ม.-อี. นิลส์แบ็ค และคณะ |
| ชุดข้อมูลต้นกล้าพืช | ชุดข้อมูลต้นกล้าพืช 12 ประเภท | รูปภาพที่มีป้ายกำกับ, รูปภาพที่แบ่งส่วนแล้ว | 5544 | รูปภาพ | การจำแนกประเภท การตรวจจับ | 2017 | [ 325 ] | กิเซลสันและคณะ |
| ฟรุ๊ตส์-360 | ฐานข้อมูลภาพผลไม้ ผัก ถั่ว และเมล็ดพืชจำนวน 251 ชนิด | ขนาด 100x100 พิกเซล พื้นหลังสีขาว | 174700 | รูปภาพ (jpg) | การจำแนกประเภท | 2017–2026 | [ 326 ] | มิไฮ โอลเตียน |
| แอประบุวัชพืช | ฐานข้อมูลประกอบด้วย 1,025 สายพันธุ์ ภาพมากกว่า 13,500 ภาพ และลักษณะเฉพาะมากกว่า 120,000 รายการ | ขนาดและพื้นหลังแตกต่างกันไป ติดป้ายกำกับโดยนักพฤกษศาสตร์ระดับปริญญาเอก | 13,500 | รูปภาพ, ข้อความ | การจำแนกประเภท | พ.ศ. 2542-2567 | [ 327 ] | ริชาร์ด โอลด์ |
| ชุดข้อมูล CottonWeedDet3 | ชุดข้อมูลการตรวจจับวัชพืช 3 ประเภท สำหรับระบบการปลูกฝ้าย | วัชพืช 3 ชนิด | 848 | รูปภาพ | การจำแนกประเภท | 2022 | [ 328 ] | ราห์มานและคณะ |
จุลินทรีย์
| ชื่อชุดข้อมูล | คำอธิบายโดยย่อ | การประมวลผลล่วงหน้า | ตัวอย่าง | รูปแบบ | งานเริ่มต้น | สร้างแล้ว (อัปเดตแล้ว) | อ้างอิง | ผู้สร้าง |
|---|---|---|---|---|---|---|---|---|
| ชุดข้อมูล Ecoli | ตำแหน่งกำหนดตำแหน่งของโปรตีน | มีการระบุคุณลักษณะต่างๆ ของตำแหน่งการจับตัวของโปรตีนไว้ | 336 | ข้อความ | การจำแนกประเภท | พ.ศ. 2539 | [ 329 ] [ 330 ] | เค. นากาอิ และคณะ |
| ชุดข้อมูล MicroMass | การระบุจุลินทรีย์จากข้อมูลแมสสเปกโทรเมตรี | คุณสมบัติต่างๆ ของเครื่องแมสสเปกโทรเมตรี | 931 | ข้อความ | การจำแนกประเภท | 2013 | [ 331 ] [ 332 ] | พี. มาเฮ และคณะ |
| ชุดข้อมูลยีสต์ | การทำนายตำแหน่งการกระจายตัวของโปรตีนภายในเซลล์ | แต่ละอินสแตนซ์มีคุณลักษณะแปดประการ | 1484 | ข้อความ | การจำแนกประเภท | พ.ศ. 2539 | [ 333 ] [ 334 ] | เค. นากาอิ และคณะ |
การค้นพบยา
| ชื่อชุดข้อมูล | คำอธิบายโดยย่อ | การประมวลผลล่วงหน้า | ตัวอย่าง | รูปแบบ | งานเริ่มต้น | สร้างแล้ว (อัปเดตแล้ว) | อ้างอิง | ผู้สร้าง |
|---|---|---|---|---|---|---|---|---|
| ชุดข้อมูล Tox21 | การทำนายผลลัพธ์ของการทดสอบทางชีววิทยา | มีการระบุคำอธิบายทางเคมีของโมเลกุล | 12707 | ข้อความ | การจำแนกประเภท | 2016 | [ 335 ] | เอ. เมย์ร และคณะ |
ข้อมูลความผิดปกติ
| ชื่อชุดข้อมูล | คำอธิบายโดยย่อ | การประมวลผลล่วงหน้า | ตัวอย่าง | รูปแบบ | งานเริ่มต้น | สร้างแล้ว (อัปเดตแล้ว) | อ้างอิง | ผู้สร้าง |
|---|---|---|---|---|---|---|---|---|
| Numenta Anomaly Benchmark (NAB) | ข้อมูลถูกจัดเรียงตามลำดับ มีการประทับเวลา และเป็นค่าเดียว ข้อมูลทุกไฟล์มีสิ่งผิดปกติ เว้นแต่จะระบุไว้เป็นอย่างอื่น | ไม่มี | ไฟล์มากกว่า 50 ไฟล์ | ซีเอสวี | การตรวจจับความผิดปกติ | 2016 (ปรับปรุงอย่างต่อเนื่อง) | [ 336 ] | นูเมนตา |
| เกณฑ์มาตรฐานความผิดปกติ Skoltech (SKAB) | แต่ละไฟล์แสดงถึงการทดลองหนึ่งครั้งและมีสิ่งผิดปกติเพียงหนึ่งเดียว ชุดข้อมูลนี้แสดงถึงอนุกรมเวลาแบบหลายตัวแปรที่รวบรวมจากเซ็นเซอร์ที่ติดตั้งบนแท่นทดสอบ | มีเครื่องหมายสองแบบสำหรับการตรวจจับค่าผิดปกติ (จุดผิดปกติ) และการตรวจจับจุดเปลี่ยน (ความผิดปกติแบบกลุ่ม) | ไฟล์มากกว่า 30 ไฟล์ (เวอร์ชัน 0.9) | ซีเอสวี | การตรวจจับความผิดปกติ | 2020 (มีการปรับปรุงอย่างต่อเนื่อง) | Iurii D. Katser และ Vyacheslav O. Kozitsin | |
| การประเมินผลการตรวจจับค่าผิดปกติแบบไม่ใช้การกำกับดูแล: มาตรวัด ชุดข้อมูล และการศึกษาเชิงประจักษ์ | ไฟล์ข้อมูลส่วนใหญ่ดัดแปลงมาจากข้อมูลในคลังข้อมูลการเรียนรู้ของเครื่อง UCI บางส่วนรวบรวมมาจากเอกสารทางวิชาการ | จัดการกับค่าที่หายไป คุณลักษณะเชิงตัวเลขเท่านั้น เปอร์เซ็นต์ความผิดปกติที่แตกต่างกัน ป้ายกำกับ | ไฟล์มากกว่า 1000 ไฟล์ | อาร์เอฟเอฟ | การตรวจจับความผิดปกติ | 2016 (อาจมีการอัปเดตด้วยชุดข้อมูลและ/หรือผลลัพธ์ใหม่) | แคมโปสและคณะ | |
| ระบบบำบัดน้ำที่ปลอดภัย (SwaT) | ข้อมูลที่รวบรวมจากชุดทดสอบ SWaT หกขั้นตอน ประกอบด้วยข้อมูลทั้งในสภาวะปกติและสภาวะผิดปกติ (การโจมตี) | หน้าต่างและปรับให้เรียบ/เฉลี่ยตามความเหมาะสม | 3 ไฟล์ | ซีเอสวี | การตรวจจับความผิดปกติ | 2016 (อัปเดตล่าสุด - 2020) | [ 340 ] | โจนาธาน โกห์ และคณะ |
ข้อมูลการตอบคำถาม
ส่วนนี้ประกอบด้วยชุดข้อมูลที่เกี่ยวข้องกับข้อมูลที่มีโครงสร้าง
| ชื่อชุดข้อมูล | คำอธิบายโดยย่อ | การประมวลผลล่วงหน้า | ตัวอย่าง | รูปแบบ | งานเริ่มต้น | สร้างแล้ว (อัปเดตแล้ว) | อ้างอิง | ผู้สร้าง |
|---|---|---|---|---|---|---|---|---|
| ชุดข้อมูลการตอบคำถามด้วยโครงข่ายประสาทเทียมของ DBpedia (DBNQA) | ชุดคำถามจำนวนมากที่แปลงเป็น SPARQL ซึ่งออกแบบมาเป็นพิเศษสำหรับการตอบคำถามด้วยโครงข่ายประสาทเทียมแบบเปิดบนฐานความรู้ DBpedia | ชุดข้อมูลนี้ประกอบด้วยเทมเพลต Open Neural SPARQL จำนวนมาก และตัวอย่างสำหรับการฝึก Neural SPARQL Machines โดยผ่านการประมวลผลล่วงหน้าด้วยเครื่องมือการระบุคำอธิบายแบบกึ่งอัตโนมัติ รวมถึงโดยผู้เชี่ยวชาญด้าน SPARQL สามท่าน | 894,499 | คู่คำถาม-คำสอบถาม | การตอบคำถาม | 2018 | [ 341 ] [ 342 ] | Hartmann, Soru และ Marx และคณะ |
| ชุดข้อมูลตอบคำถามภาษาเวียดนาม (UIT-ViQuAD) | รวมชุดคำถามภาษาเวียดนามจำนวนมากสำหรับการประเมินแบบจำลอง MRC | ชุดข้อมูลนี้ประกอบด้วยคู่คำถาม-คำตอบที่สร้างขึ้นโดยมนุษย์กว่า 23,000 คู่ โดยอิงจากข้อความ 5,109 ข้อความจากบทความภาษาเวียดนาม 174 บทความในวิกิพีเดีย | 23,074 | คู่คำถาม-คำตอบ | การตอบคำถาม | 2020 | [ 343 ] | เหงียนและคณะ |
| คลังข้อมูลการอ่านเพื่อความเข้าใจแบบเลือกตอบหลายตัวเลือกภาษาเวียดนาม (ViMMRC) | ชุดคำถามแบบเลือกตอบภาษาเวียดนามสำหรับประเมินแบบจำลอง MRC | ชุดข้อมูลนี้ประกอบด้วยคำถามแบบเลือกตอบภาษาเวียดนามจำนวน 2,783 ข้อ | 2,783 | คู่คำถาม-คำตอบ | การตอบคำถาม/การอ่านเพื่อความเข้าใจด้วยเครื่องจักร | 2020 | [ 344 ] | เหงียนและคณะ |
| การตอบคำถามแบบเปิดกว้างกลายเป็นการสนทนาผ่านการเขียนคำถามใหม่ | ระบบตอบคำถามแบบครบวงจรและเปิดกว้าง | ชุดข้อมูลนี้ประกอบด้วยบทสนทนา 14,000 บท พร้อมคู่คำถาม-คำตอบ 81,000 คู่ | บริบท, คำถาม, เขียนใหม่, คำตอบ, URL คำตอบ, หมายเลขการสนทนา, หมายเลขการผลัดกันพูด, แหล่งที่มาของการสนทนา รายละเอียดเพิ่มเติมสามารถดูได้ในที่เก็บข้อมูล GitHub ของโครงการและ ใน เอกสาร ข้อมูลชุด Hugging Face ที่เกี่ยวข้อง | การตอบคำถาม | 2021 | [ 345 ] | อนันธาและวาคูเลนโกและคณะ | |
| ยูนิไฟด์คิวเอ | ข้อมูลคำถาม-คำตอบ | ชุดข้อมูลที่ผ่านการประมวลผล | การตอบคำถาม | 2020 | [ 346 ] | คัชชาบีและคณะ |
ข้อมูลที่กระตุ้นด้วยบทสนทนาหรือคำแนะนำ
ส่วนนี้ประกอบด้วยชุดข้อมูลที่มีข้อความแบบหลายรอบ โดยมีผู้กระทำอย่างน้อยสองคน คือ "ผู้ใช้" และ "ตัวแทน" ผู้ใช้จะส่งคำขอไปยังตัวแทน ซึ่งตัวแทนจะดำเนินการตามคำขอนั้น
| ชื่อชุดข้อมูล | คำอธิบายโดยย่อ | การประมวลผลล่วงหน้า | ตัวอย่าง | รูปแบบ | งานเริ่มต้น | สร้างแล้ว (อัปเดตแล้ว) | อ้างอิง | ผู้สร้าง |
|---|---|---|---|---|---|---|---|---|
| หัวหน้างาน | ชุดข้อมูล 3 ชุดที่มีบทสนทนาที่เน้นงานพูดและเขียนมากกว่า 55,000 รายการในหลายโดเมน[ 347 ] | บทสนทนาจำนวน 13,215 + 17,289 + 23,757 บท ในโดเมนงาน 6 + 7 + 1 โดเมน | 1 และ 2: รหัสการสนทนา, คำพูด, รหัสคำสั่ง 3: รหัสการสนทนา, คำพูด, แนวตั้ง, สถานการณ์, คำแนะนำ | ทำภารกิจให้สำเร็จ | 2019 | [ 348 ] [ 349 ] | ไบรน์และคริชนามูร์ธีและคณะ | |
| ดร.รีแพร์ | ชุดข้อมูลที่มีป้ายกำกับสำหรับการซ่อมแซมโปรแกรม | ตรวจสอบรายละเอียดรูปแบบในเอกสาร ประกอบโครงการ | ทำภารกิจให้สำเร็จ | 2020 | [ 350 ] | มิชิฮิโร่และคณะ | ||
| คำแนะนำเหนือธรรมชาติ | งานต่างๆ ที่ระบุด้วยภาษาธรรมชาติ | งานประมวลผลภาษาธรรมชาติ (NLP) จำนวน 1,616 งาน ใน 76 ประเภทงาน | การกำหนดงานด้วยคำสั่งภาษาธรรมชาติ ตัวอย่างข้อมูลเข้า/ข้อมูลออก | ทำภารกิจให้สำเร็จ | 2022 | [ 351 ] [ 352 ] | หวังและคณะ | |
| ลัมบาดา | เนื้อเรื่องที่ละคำสุดท้ายไว้ | ทายคำสุดท้าย | 2016 | [ 353 ] [ 354 ] | ปาเปอโรโนและคณะ | |||
| ฟลาน | ข้อมูลการปรับแต่งคำสั่ง โดยใช้เทมเพลตแบบ zero-shot, few-shot และ chain-of-thought ผสมผสานกัน | ปรับแต่งคำสั่ง; ทำงานให้เสร็จ | 2021 | [ 355 ] [ 356 ] | เว่ยและคณะ |
ความปลอดภัยทางไซเบอร์
| ชื่อชุดข้อมูล | คำอธิบายโดยย่อ | การประมวลผลล่วงหน้า | ตัวอย่าง | รูปแบบ | งานเริ่มต้น | สร้างแล้ว (อัปเดตแล้ว) | อ้างอิง | ผู้สร้าง |
|---|---|---|---|---|---|---|---|---|
| การโจมตีของมิตร | ATT&CK คือฐานข้อมูลความรู้เกี่ยวกับกลยุทธ์และเทคนิคของฝ่ายตรงข้ามที่สามารถเข้าถึงได้ทั่วโลก | สามารถดาวน์โหลดข้อมูลได้จากที่เก็บ GitHub สองแห่งนี้: เวอร์ชัน 2.1และเวอร์ชัน 2.0 | [ 357 ] | การโจมตีของมิตร | ||||
| ซีพีอีซี | การระบุและการจำแนกรูปแบบการโจมตีทั่วไป | สามารถดาวน์โหลดข้อมูลได้จากเว็บไซต์ของ CAPEC : กลไกการโจมตีขอบเขตการโจมตี | [ 358 ] | ซีพีอีซี | ||||
| ซีวีอี | CVE คือรายการช่องโหว่ด้านความปลอดภัยทางไซเบอร์ที่เปิดเผยต่อสาธารณะ ซึ่งสามารถค้นหา ใช้งาน และนำไปปรับใช้ในผลิตภัณฑ์และบริการได้โดยไม่เสียค่าใช้จ่าย | สามารถดาวน์โหลดข้อมูลได้จาก: Allitems | [ 359 ] | ซีวีอี | ||||
| ซีวีอี | ข้อมูลการระบุจุดอ่อนทั่วไป | สามารถดาวน์โหลดข้อมูลได้จาก: แนวคิดการวิจัยด้านการออกแบบฮาร์ดแวร์และการพัฒนาซอฟต์แวร์ | [ 360 ] | ซีวีอี | ||||
| MalwareTextDB | ฐานข้อมูลข้อความมัลแวร์พร้อมคำอธิบายประกอบ | ข้อมูลสำหรับดาวน์โหลดอยู่ในคลัง เก็บข้อมูล GitHub ของโครงการนี้ | [ 361 ] | เกียตและคณะ | ||||
| เอกสารประกอบการประชุมสัมมนาด้านความปลอดภัย USENIX | รวบรวมเอกสารการประชุมด้านความปลอดภัยจากงาน USENIX Security Symposium – การประชุมเชิงเทคนิค ตั้งแต่ปี 1995 ถึง 2022 | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | 1995 , 1996 , 1997 , 1998 , 1999 , 2000 , 2001 , 2002 , 2003 , 2004 , 2005 , 2006 , 2007 , 2008 2009 , 2010 , 2011 , 2012 , 2013 , 2014 , 2015 , 2016 , 2017 , 2018 , 2019 , 2020 , 2021 , 2022 | [ 362 ] | งานสัมมนาด้านความปลอดภัย USENIX | |||
| APTNotes | รวบรวมเอกสารสาธารณะ รายงาน และบทความเกี่ยวกับแคมเปญ APT เอกสารทั้งหมดเป็นข้อมูลที่เปิดเผยต่อสาธารณะ | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | ในGitHub repositoryของโปรเจ็กต์นี้จะมีไฟล์ที่มีลิงก์ไปยังข้อมูลที่จัดเก็บไว้ใน box สามารถดาวน์โหลดไฟล์ข้อมูลได้ที่นี่เช่น กัน | [ 363 ] | บันทึก APT | |||
| เอกสารด้านการเข้ารหัสและความปลอดภัยของ arXiv | รวมบทความเกี่ยวกับความปลอดภัยทางไซเบอร์ | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | บทความทั้งหมดสามารถดูได้ที่นี่ | [ 364 ] | อาร์เอ็กซ์ไอวี | |||
| อีบุ๊กด้านความปลอดภัยให้ดาวน์โหลดฟรี | รวมอีบุ๊กและเอกสารนำเสนอด้านความปลอดภัยจำนวนเล็กน้อยที่เปิดให้บุคคลทั่วไปเข้าถึงได้ | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | [ 365 ] [ 366 ] [ 367 ] [ 368 ] [ 369 ] [ 370 ] [ 371 ] [ 372 ] [ 373 ] [ 374 ] [ 375 ] [ 376 ] | |||||
| คลังข้อมูลยุทธศาสตร์ความมั่นคงทางไซเบอร์แห่งชาติ | แหล่งรวบรวมเอกสารยุทธศาสตร์ด้านความปลอดภัยทางไซเบอร์ทั่วโลก | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | [ 377 ] | |||||
| การประมวลผลภาษาธรรมชาติเพื่อความปลอดภัยทางไซเบอร์ | ข้อมูลเกี่ยวกับกลยุทธ์ด้านความปลอดภัยทางไซเบอร์จากกว่า 75 ประเทศ | การแบ่งคำเป็นโทเค็น การลบคำที่ไม่มีความหมายแต่ปรากฏบ่อย | [ 378 ] | หยานหลิน เฉิน, หยุนเจี้ยน เว่ย, อี้ฟาน หยู, เหวิน เสวี่ย, เซียนย่า ฉิน | ||||
| ชุดรายงาน APT | ตัวอย่างรายงาน APT, มัลแวร์, เทคโนโลยี และการรวบรวมข้อมูลข่าวกรอง | มีข้อมูลดิบและข้อมูลที่ผ่านการแปลงเป็นโทเค็นแล้วให้ใช้งาน | ข้อมูลทั้งหมดมีอยู่ในที่เก็บข้อมูล GitHub นี้ | นกแบล็กเบิร์ด | ||||
| ชุดข้อมูลการระบุภาษาที่ไม่เหมาะสม (OLID) | สามารถดู ข้อมูล ได้ในเว็บไซต์ของโครงการ สามารถดูข้อมูลเพิ่มเติมได้ที่นี่ | [ 379 ] | แซมปิเอรีและคณะ | |||||
| รายงานด้านไซเบอร์จากศูนย์ความปลอดภัยทางไซเบอร์แห่งชาติ | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายงานภัยคุกคาม , รายงานและคำแนะนำ , ข่าว,บทความในบล็อก , สุนทรพจน์ รายการรายงานทางเลือก | [ 380 ] | |||||
| รายงาน APT โดย Kaspersky | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | [ 381 ] | ||||||
| ไซเบอร์ไวร์ | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | จดหมายข่าวพอ ด แคสต์และเรื่องราวต่างๆ | [ 382 ] | |||||
| ข่าวการรั่วไหลของข้อมูล | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | ข่าวสารรายชื่อข่าวตั้งแต่เดือนสิงหาคม 2565 ถึงเดือนกุมภาพันธ์ 2566 | [ 383 ] | |||||
| ข่าวไซเบอร์ | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | ข่าวสารรายการข่าวที่คัดสรรแล้ว | [ 384 ] | |||||
| คอมพิวเตอร์เสียงแหลม | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | ข่าว | [ 385 ] | |||||
| บันทึก | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | ข่าวอาชญากรรมไซเบอร์ | [ 386 ] | |||||
| แฮ็กรีด | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | ข่าวการแฮ็ก | [ 387 ] | |||||
| รายชื่อที่ปลอดภัย | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายงาน APT , เอกสารเก็บถาวร , รายงาน DDOS , เหตุการณ์ , ประกาศด้านความปลอดภัยของ Kaspersky , ภัยคุกคามทางอุตสาหกรรม , รายงานมัลแวร์ , ความคิดเห็น , สิ่งพิมพ์ , งานวิจัยและSAS | [ 388 ] | |||||
| โครงการฉาบปูน | โครงการ Stucco รวบรวมข้อมูลที่โดยทั่วไปแล้วระบบรักษาความปลอดภัยทั่วไปไม่ได้รวมไว้ด้วย | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | เว็บไซต์ของโครงการพร้อมข้อมูลแหล่งข้อมูลที่ได้รับการตรวจสอบแล้วพร้อมลิงก์ไปยังแหล่งข้อมูล | [ 389 ] | ||||
| ฟาร์ไซท์ซีเคียวริตี้ | เว็บไซต์ที่มีข้อมูลทางเทคนิค รายงาน และข้อมูลเพิ่มเติมเกี่ยวกับหัวข้อด้านความปลอดภัย | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | ข้อมูลทาง เทคนิคงานวิจัยรายงาน | [ 390 ] | ||||
| ชไนเออร์ | เว็บไซต์ที่รวบรวมบทความวิชาการเกี่ยวกับหัวข้อด้านความปลอดภัย | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | เอกสารแยกตามหมวดหมู่ , เอกสารจัดเก็บตามวันที่ | [ 391 ] | ||||
| เทรนด์ไมโคร | เว็บไซต์ที่รวบรวมข้อมูลวิจัย ข่าวสาร และมุมมองเกี่ยวกับประเด็นด้านความปลอดภัย | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อบทความวิจัย ข่าวสาร และมุมมองจาก Trendmicro ที่ได้รับการตรวจสอบแล้ว | [ 392 ] | ||||
| ข่าวแฮกเกอร์ | ข่าวสารเกี่ยวกับประเด็นด้านความปลอดภัยทางไซเบอร์ | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | ข่าว เกี่ยวกับการรั่ว ไหลของข้อมูล การโจมตีทางไซเบอร์ ช่องโหว่และ มัลแว ร์ | [ 393 ] | ||||
| เคร็บสันซีเคียวริตี้ | ข่าวสารและการสืบสวนด้านความปลอดภัย | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายการข่าวที่คัดสรรแล้ว | [ 394 ] | ||||
| ไมเตอร์ ดีเฟนด์ | เมทริกซ์ของสิ่งประดิษฐ์ป้องกัน | ไฟล์ JSON | [ 395 ] | |||||
| ไมตร์ แอตลาส | Mitre Atlas คือฐานข้อมูลความรู้เกี่ยวกับกลยุทธ์ เทคนิค และกรณีศึกษาของฝ่ายตรงข้ามสำหรับระบบการเรียนรู้ของเครื่อง (ML) โดยอิงจากการสังเกตการณ์ในโลกแห่งความเป็นจริง | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | [ 396 ] | |||||
| ไมเตอร์ เอ็นจ์จ | MITRE Engage คือกรอบการทำงานสำหรับการวางแผนและหารือเกี่ยวกับการปฏิบัติการรับมือกับศัตรู ซึ่งจะช่วยให้คุณสามารถรับมือกับศัตรูและบรรลุเป้าหมายด้านความปลอดภัยทางไซเบอร์ได้ | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | [ 397 ] | |||||
| บทช่วยสอนการแฮ็ก | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | [ 398 ] |
สภาพภูมิอากาศและความยั่งยืน
| ชื่อชุดข้อมูล | คำอธิบายโดยย่อ | การประมวลผลล่วงหน้า | ตัวอย่าง | รูปแบบ | งานเริ่มต้น | สร้างแล้ว (อัปเดตแล้ว) | อ้างอิง | ผู้สร้าง |
|---|---|---|---|---|---|---|---|---|
| รายงานของ TCFD | ฐานข้อมูลรายงานของบริษัทที่รวมถึงการเปิดเผยข้อมูลที่เกี่ยวข้องกับ TCFD | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | ลิงก์ตรงไปยังรายงานรายการรายงานที่คัดสรรแล้ว | [ 399 ] | ศูนย์รวมความรู้ TCFD | |||
| รายงานความรับผิดชอบต่อสังคมขององค์กร | รายชื่อรายงานความรับผิดชอบที่มีอยู่บนอินเทอร์เน็ต | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อรายงานที่คัดสรรแล้ว | [ 400 ] | รายงานความรับผิดชอบ | |||
| คณะกรรมการระหว่างรัฐบาลว่าด้วยการเปลี่ยนแปลงสภาพภูมิอากาศ (IPCC) | ชุดรายงานการประเมินที่ครอบคลุมเกี่ยวกับความรู้เรื่องการเปลี่ยนแปลงสภาพภูมิอากาศ สาเหตุ ผลกระทบที่อาจเกิดขึ้น และทางเลือกในการรับมือ | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายงานรายการรายงานที่คัดสรรแล้ว | [ 401 ] | IPCC | |||
| พันธมิตรเพื่อการวิจัยด้านความยั่งยืนขององค์กร | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อบทความบล็อกที่คัดสรรแล้ว | [ 402 ] | อาร์คส์ | ||||
| แหล่งข้อมูล ESG: ศูนย์กลางความรู้ด้านการบัญชีเพื่อความยั่งยืน | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | คู่มือ , กรณีศึกษา , บล็อก , รายงาน และแบบสำรวจ | [ 403 ] | เมห์ราและคณะ | ||||
| ไข้ภูมิอากาศ | ชุดข้อมูลที่ใช้ระเบียบวิธี FEVER ซึ่งประกอบด้วยข้อกล่าวอ้างจริงเกี่ยวกับภาวะโลกร้อนจำนวน 1,535 รายการที่รวบรวมจากอินเทอร์เน็ต | แต่ละข้ออ้างจะมาพร้อมกับประโยคหลักฐานที่ทำเครื่องหมายด้วยตนเองจำนวน 5 ประโยค ซึ่งดึงมาจากวิกิพีเดียภาษาอังกฤษที่สนับสนุน หักล้าง หรือไม่ให้ข้อมูลเพียงพอที่จะยืนยันข้ออ้าง รวมเป็นคู่ข้ออ้าง-หลักฐานทั้งหมด 7,675 คู่[ 404 ] | ชุดข้อมูล HF cardและที่เก็บ GitHub ของ โครงการ | [ 405 ] | ดิกเกลมันน์และคณะ | |||
| ชุดข้อมูลข่าวสารด้านสภาพภูมิอากาศ | ชุดข้อมูลสำหรับนักวิจัยด้านการประมวลผลภาษาธรรมชาติและสื่อเกี่ยวกับการเปลี่ยนแปลงสภาพภูมิอากาศ | ชุดข้อมูลประกอบด้วยข้อมูลหลายประเภท (ไฟล์ข้อความ JSON, JSONL และ CSV รวมถึงฐานข้อมูล SQLite) | ฐานข้อมูลข่าวสารด้านสภาพภูมิอากาศ , ที่เก็บข้อมูล GitHubของโครงการ | [ 406 ] | ประสิทธิภาพ ADGE | |||
| ภูมิอากาศเท็กซ์ | Climatext คือชุดข้อมูลสำหรับการตรวจจับหัวข้อเกี่ยวกับการเปลี่ยนแปลงสภาพภูมิอากาศโดยใช้ประโยคเป็นเกณฑ์ | ชุดข้อมูล HF | [ 407 ] | มหาวิทยาลัยซูริค | ||||
| กรีนบิซ | รวบรวมบทความและข่าวสารเกี่ยวกับสภาพภูมิอากาศและความยั่งยืน | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อบทความเกี่ยวกับสภาพภูมิอากาศที่คัดสรรแล้วรายชื่อบทความเกี่ยวกับความยั่งยืนที่คัดสรรแล้ว | [ 408 ] | ||||
| บทความวิจัยฉบับร่างชั้นนำด้านสภาพภูมิอากาศและความยั่งยืน | รายชื่อบทความวิจัยฉบับร่างจากนักวิจัยที่อยู่ในรายชื่อผู้ทรงอิทธิพลของรอยเตอร์ | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อบทความวิจัยฉบับร่างที่คัดสรรแล้ว | [ 409 ] | มอริส แทมแมน | |||
| อาร์คส์ | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อบล็อกเกี่ยวกับการพัฒนาอย่างยั่งยืนขององค์กรที่คัดสรรมาแล้ว | [ 410 ] | |||||
| กรีนบิซ | เว็บไซต์ที่มีบทความเกี่ยวกับสภาพภูมิอากาศและความยั่งยืน | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | [ 411 ] | กรีนบิซ | ||||
| ซีเอสอาร์ไวร์ | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อบทความที่คัดสรรแล้ว | [ 412 ] | ซีเอสอาร์ไวร์ | ||||
| ซีดีพี | บทความเกี่ยวกับสภาพภูมิอากาศน้ำและป่าไม้ | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | [ 413 ] | ซีดีพี |
ข้อมูลรหัส
| ชื่อชุดข้อมูล | คำอธิบายโดยย่อ | การประมวลผลล่วงหน้า | ตัวอย่าง | รูปแบบ | งานเริ่มต้น | สร้างแล้ว (อัปเดตแล้ว) | อ้างอิง | ผู้สร้าง |
|---|---|---|---|---|---|---|---|---|
| กองซ้อน | ชุดข้อมูลขนาด 3.1 เทราไบต์ ประกอบด้วยซอร์สโค้ดที่ได้รับอนุญาตให้ใช้งานอย่างเสรีใน 30 ภาษาโปรแกรม | ผ่านการตรวจสอบใบอนุญาตและการกำจัดข้อมูลซ้ำซ้อนแล้ว | 6 เทราไบต์, 51.76 ไบต์ของไฟล์ (ก่อนการลดความซ้ำซ้อน); 3 เทราไบต์, 5.28 ไบต์ของไฟล์ (หลังการลดความซ้ำซ้อน) 358 ภาษาโปรแกรม | ปาร์เกต์ | การสร้างแบบจำลองภาษา, การเติมคำอัตโนมัติ, การสังเคราะห์โปรแกรม | 2022 | [ 414 ] [ 415 ] | ดี. โคเซตคอฟ, อาร์. ลี, แอล. เบน อัลลาล, แอล. ฟอน แวร์รา, เอช. เดอ ไวรีส์ |
| ชุดข้อมูลเครือข่ายประสาทเทียม LEMUR | คลังข้อมูลที่มีโครงสร้างของแบบจำลองเครือข่ายประสาทเทียมมาตรฐาน ซึ่งออกแบบมาเพื่ออำนวยความสะดวกในงาน AutoML และการวิเคราะห์แบบจำลองด้วย LLM | ผ่านการตรวจสอบใบอนุญาตและการกำจัดข้อมูลซ้ำซ้อนแล้ว | โมเดล PyTorch | สคริปต์ Python | การจำแนกภาพ การตรวจจับวัตถุ การแบ่งส่วนภาพ และการประมวลผลภาษาธรรมชาติ | 2024 | [ 416 ] | A. Goodarzi, R. Kochnev, W. Khalid, F. Qin, T. Uzun, Y. Dhameliya, Y. Kathiriya, Z. Bentyn, D. Ignatov, R. Timofte |
| ที่เก็บข้อมูล GitHub | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อคลังเก็บข้อมูลที่คัดสรรจากGitHub : 61 62 63 64 65 66 67 68 69 70 71 , 72 , 73 , 74 , 75 , 76 , 77 101 | ||||||
| คลังเก็บข้อมูลสาธารณะของ IBM บน GitHub | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อแหล่งเก็บข้อมูลที่คัดสรรแล้วจากGitHub | ||||||
| คลังเก็บข้อมูลสาธารณะของ RedHat บน GitHub | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อแหล่งเก็บข้อมูลที่คัดสรรแล้วจากGitHub | ||||||
| ไฟล์ StackExchange Public Archive.org | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายการไฟล์ที่คัดสรรจากArchive.org | ||||||
| Gitlab Public repositories | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อแหล่งเก็บข้อมูลที่คัดสรรจากGitlab : 1 2 | ||||||
| คลังเก็บข้อมูลสาธารณะของ Ansible Collections | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อแหล่งเก็บข้อมูลที่คัดสรรแล้ว จากGitHub | ||||||
| ชุดข้อมูลโค้ด CodeParrot บน GitHub | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อคลังข้อมูลที่คัดสรรจากHugging Face : 1 2 3 4 5 6 7 8 9 10 | ||||||
| โอคดี | Kubernetes เวอร์ชันสำหรับชุมชนผู้ใช้งาน ซึ่งเป็นส่วนสำคัญของ Red Hat OpenShift | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ | |||||
| โอเพ่นชิฟต์ | ระบบปฏิบัติการ Kubernetes ที่เป็นมิตรกับนักพัฒนาและผู้ดูแลระบบ | รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ | ||||||
| คูเบอร์เน็ตส์ | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ | ||||||
| นักพัฒนา Red Hat | GitHub คือศูนย์กลางของโครงการ Red Hat Developer | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ | |||||
| หมวกแดง การอบรมเชิงปฏิบัติการ | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ | ||||||
| กลุ่มความสนใจพิเศษของ Kubernetes | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ | ||||||
| สายพานลำเลียง | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ | ||||||
| ตลาดเรดแฮท | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ | ||||||
| บล็อก Redhat | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | [ 417 ] | ||||||
| Kubernetes io | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | [ 418 ] | ||||||
| เอกสาร Openshift | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | [ 419 ] | ||||||
| cncf io | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | [ 420 ] | ||||||
| การนำเสนอเกี่ยวกับ Kubernetes | รายชื่อเอกสารนำเสนอเกี่ยวกับ Kubernetes ที่เปิดให้สาธารณะเข้าชมได้ | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | การเชื่อมโยงข้อมูล | |||||
| เรดแฮท โอเพ่น อินโนเวชั่น แล็บส์ | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ | ||||||
| การสาธิตของ Red Hat | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ | ||||||
| เรดแฮท โอเพ่นชิฟต์ ออนไลน์ | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ | ||||||
| ชุดซอฟต์แวร์ | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ | ||||||
| Red Hat Insights | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ | ||||||
| รัฐบาลหมวกแดง | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ | ||||||
| เรดแฮท คอนซัลติ้ง | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ | ||||||
| ชุมชนแห่งการปฏิบัติของเรดแฮท | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ | ||||||
| Red Hat Partner Tech | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ | ||||||
| เอกสารประกอบของ Red Hat | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ | ||||||
| ไอบีเอ็ม | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ | ||||||
| ไอบีเอ็มคลาวด์ | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ | ||||||
| ทีมสร้างห้องปฏิบัติการ | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ | ||||||
| โมดูล Terraform ของ IBM | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ | ||||||
| แผนผังระบบคลาวด์ | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ | ||||||
| การสาธิตพลังของ OCP | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ | ||||||
| การปรับปรุงแอปพลิเคชันของ IBM | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ | ||||||
| Kubernetes OperatorHub | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ | ||||||
| มูลนิธิการประมวลผลแบบคลาวด์เนทีฟ (CNCF) | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ | ||||||
| กรอบการทำงานผู้ปฏิบัติงาน | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ | [ 421 ] | |||||
| แหล่งเก็บข้อมูล GitHub ที่อ้างอิงใน artifacthub.io | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อคลังเก็บข้อมูล GitHub ใน artifacthub.io | ||||||
| ชุมชนแห่งการปฏิบัติของเรดแฮท | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ | ||||||
| พันธมิตรของ Red Hat | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ | ||||||
| ที่เก็บข้อมูลของ IBM | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อคลังเก็บข้อมูล GitHub สำหรับโครงการนี้ | ||||||
| ทีมสร้างห้องปฏิบัติการ | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อคลังเก็บข้อมูล GitHub สำหรับโครงการนี้ | ||||||
| กรอบการทำงานผู้ปฏิบัติงาน | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อคลังเก็บข้อมูล GitHub สำหรับโครงการนี้ | ||||||
| ที่เก็บข้อมูล GitHub | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อคลังเก็บข้อมูล GitHub สำหรับโครงการนี้ | ||||||
| หมวกแดง | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ | ||||||
| รูปแบบของ Kubernetes | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ | ||||||
| รูปแบบการปรับใช้และการรักษาความปลอดภัยของ Kubernetes | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ | ||||||
| Kubernetes สำหรับนักพัฒนา Full-Stack | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อคลังเก็บข้อมูล GitHub ของโครงการ | ||||||
| เมตริก Cloudwatch ของ Load Balancer | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | ที่เก็บโค้ด GitHub ของโครงการ | ||||||
| ไดนาเทรซ | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | [5] | ||||||
| ข้อมูลจากการแข่งขัน AIOps Challenge 2020 | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | ที่เก็บโค้ด GitHub ของโครงการ | ||||||
| ล็อกฮับ | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อแหล่งเก็บข้อมูล | ||||||
| หน้าเว็บ HTML | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายการหน้า HTML | ||||||
| อีบุ๊ก OpenSift | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | [ 422 ] | ||||||
| อีบุ๊ก Kubernetes | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รูปแบบการใช้งาน Kubernetes , การปรับใช้ Kubernetes , Kubernetes สำหรับนักพัฒนา Full-Stack | ||||||
| Kubernetes สำหรับนักพัฒนา Full-Stack | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | Kubernetes สำหรับนักพัฒนา Full-Stack | ||||||
| รายชื่อคลังเก็บข้อมูล GitHub สาธารณะและที่ได้รับอนุญาต | ข้อมูลนี้ยังไม่ได้ผ่านการประมวลผลล่วงหน้า | รายชื่อแหล่งเก็บข้อมูล |
ข้อมูลหลายตัวแปร
การเงิน
| ชื่อชุดข้อมูล | คำอธิบายโดยย่อ | การประมวลผลล่วงหน้า | ตัวอย่าง | รูปแบบ | งานเริ่มต้น | สร้างแล้ว (อัปเดตแล้ว) | อ้างอิง | ผู้สร้าง |
|---|---|---|---|---|---|---|---|---|
| ดัชนีดาวโจนส์ | ข้อมูลรายสัปดาห์ของราคาหุ้นจากไตรมาสแรกและไตรมาสที่สองของปี 2011 | ค่าที่คำนวณได้ประกอบด้วยค่าต่างๆ เช่น เปอร์เซ็นต์การเปลี่ยนแปลงและค่าความล่าช้า | 750 | ค่าที่คั่นด้วยเครื่องหมายจุลภาค | การจำแนกประเภท, การถดถอย, อนุกรมเวลา | 2014 | [ 423 ] [ 424 ] | เอ็ม. บราวน์ และคณะ |
| Statlog (ระบบอนุมัติสินเชื่อของออสเตรเลีย) | ผลการพิจารณาอนุมัติหรือปฏิเสธใบสมัครบัตรเครดิต และรายละเอียดเกี่ยวกับใบสมัคร | ชื่อคุณลักษณะและข้อมูลระบุตัวตนถูกลบออกแล้ว ปัจจัยต่างๆ ได้รับการเปลี่ยนชื่อใหม่ | 690 | ค่าที่คั่นด้วยเครื่องหมายจุลภาค | การจำแนกประเภท | พ.ศ. 2530 | [ 425 ] [ 426 ] | อาร์. ควินแลน |
| ข้อมูลการประมูลของอีเบย์ | ข้อมูลการประมูลจากสินค้าต่างๆ บน eBay.com ในระยะเวลาการประมูลที่แตกต่างกัน | ประกอบด้วยข้อมูลการเสนอราคาทั้งหมด รหัสผู้เสนอราคา เวลาการเสนอราคา และราคาเริ่มต้น | ~ 550 | ข้อความ | การถดถอย, การจำแนกประเภท | 2012 | [ 427 ] [ 428 ] | จี. ชมูเอลีและคณะ |
| Statlog (ข้อมูลเครดิตของเยอรมนี) | ระบบจำแนกเครดิตแบบไบนารี เป็น "ดี" หรือ "ไม่ดี" พร้อมคุณสมบัติมากมาย | มีการระบุข้อมูลทางการเงินต่างๆ ของแต่ละบุคคล | 690 | ข้อความ | การจำแนกประเภท | พ.ศ. 2537 | [ 429 ] | เอช. ฮอฟมันน์ |
| ชุดข้อมูลการตลาดของธนาคาร | ข้อมูลจากแคมเปญการตลาดขนาดใหญ่ที่ดำเนินการโดยธนาคารขนาดใหญ่แห่งหนึ่ง | มีการระบุคุณลักษณะหลายประการของลูกค้าที่ติดต่อมา รวมถึงข้อมูลว่าลูกค้าสมัครใช้บริการธนาคารหรือไม่ | 45,211 | ข้อความ | การจำแนกประเภท | 2012 | [ 430 ] [ 431 ] | เอส. โมโร และคณะ |
| ชุดข้อมูลตลาดหลักทรัพย์อิสตันบูล | ดัชนีหุ้นหลายตัวได้รับการติดตามมาเกือบสองปีแล้ว | ไม่มี. | 536 | ข้อความ | การจำแนกประเภท การถดถอย | 2013 | [ 432 ] [ 433 ] | โอ. อัคบิลกิช |
| การผิดนัดชำระหนี้ของลูกค้าบัตรเครดิต | ข้อมูลการผิดนัดชำระหนี้ของเจ้าหนี้ชาวไต้หวัน | มีการระบุรายละเอียดต่างๆ เกี่ยวกับแต่ละบัญชีไว้ | 30,000 | ข้อความ | การจำแนกประเภท | 2016 | [ 434 ] [ 435 ] | ไอ.เยห์ |
| สต็อกเน็ต | การคาดการณ์ความเคลื่อนไหวของราคาหุ้นจากทวีตและราคาหุ้นในอดีต | ไม่มี | ข้อความ | NLP | 2018 | [ 436 ] | ยูโม ซู และเชย์ บี. โคเฮน |
สภาพอากาศ
| ชื่อชุดข้อมูล | คำอธิบายโดยย่อ | การประมวลผลล่วงหน้า | ตัวอย่าง | รูปแบบ | งานเริ่มต้น | สร้างแล้ว (อัปเดตแล้ว) | อ้างอิง | ผู้สร้าง |
|---|---|---|---|---|---|---|---|---|
| ชุดข้อมูลคลาวด์ | ข้อมูลเกี่ยวกับเมฆ 1024 ชนิดที่แตกต่างกัน | ดึงคุณลักษณะของภาพออกมา | 1024 | ข้อความ | การจำแนกประเภท การจัดกลุ่ม | 1989 | [ 437 ] | พี. คอลลาร์ด |
| ชุดข้อมูลเอลนีโญ | ข้อมูลทางสมุทรศาสตร์และอุตุนิยมวิทยาพื้นผิวที่ได้จากทุ่นลอยน้ำหลายจุดซึ่งวางอยู่ทั่วบริเวณเส้นศูนย์สูตรของมหาสมุทรแปซิฟิก | มีการวัดคุณลักษณะด้านสภาพอากาศ 12 ประการที่ทุ่นแต่ละแห่ง | 178080 | ข้อความ | การถดถอย | 1999 | [ 438 ] | ห้องปฏิบัติการสิ่งแวดล้อมทางทะเลแปซิฟิก |
| ชุดข้อมูลเครือข่ายสังเกตการณ์ก๊าซเรือนกระจก | แผนภูมิอนุกรมเวลาของความเข้มข้นของก๊าซเรือนกระจก ณ จุดข้อมูล 2921 จุดในรัฐแคลิฟอร์เนีย สร้างขึ้นโดยใช้การจำลองสภาพอากาศ | ไม่มี. | 2921 | ข้อความ | การถดถอย | 2015 | [ 439 ] | ดี. ลูคัส |
| ปริมาณก๊าซคาร์บอนไดออกไซด์ในบรรยากาศจากตัวอย่างอากาศที่เก็บอย่างต่อเนื่อง ณ หอดูดาวเมานาโลอา | การเก็บตัวอย่างอากาศอย่างต่อเนื่องในฮาวาย สหรัฐอเมริกา บันทึกข้อมูลยาวนาน 44 ปี | ไม่มี. | อายุ 44 ปี | ข้อความ | การถดถอย | 2001 | [ 440 ] | หอดูดาวเมานาโลอา |
| ชุดข้อมูลไอโอโนสเฟียร์ | ข้อมูลเรดาร์จากชั้นบรรยากาศไอโอโนสเฟียร์ ภารกิจคือการจำแนกสัญญาณเรดาร์ออกเป็นสัญญาณที่ดีและสัญญาณที่ไม่ดี | มีการระบุคุณสมบัติของเรดาร์ไว้หลายอย่าง | 351 | ข้อความ | การจำแนกประเภท | 1989 | [ 289 ] [ 441 ] | มหาวิทยาลัยจอห์นส์ ฮอปกินส์ |
| ชุดข้อมูลการตรวจวัดระดับโอโซน | ชุดข้อมูลระดับโอโซนภาคพื้นดินสองชุด | มีข้อมูลคุณสมบัติหลายอย่าง รวมถึงสภาพอากาศในขณะทำการวัด | 2536 | ข้อความ | การจำแนกประเภท | 2008 | [ 442 ] [ 443 ] | เค. จาง และคณะ |
สำมะโนประชากร
| ชื่อชุดข้อมูล | คำอธิบายโดยย่อ | การประมวลผลล่วงหน้า | ตัวอย่าง | รูปแบบ | งานเริ่มต้น | สร้างแล้ว (อัปเดตแล้ว) | อ้างอิง | ผู้สร้าง |
|---|---|---|---|---|---|---|---|---|
| ชุดข้อมูลผู้ใหญ่ | ข้อมูลสำมะโนประชากรปี 1994 ซึ่งประกอบด้วยข้อมูลด้านประชากรศาสตร์ของผู้ใหญ่และรายได้ของพวกเขา | ทำความสะอาดและปกปิดข้อมูลส่วนบุคคลแล้ว | 48,842 | ค่าที่คั่นด้วยเครื่องหมายจุลภาค | การจำแนกประเภท | พ.ศ. 2539 | [ 444 ] | สำนักงานสำมะโนประชากรแห่งสหรัฐอเมริกา |
| รายได้จากการสำรวจสำมะโนประชากร (KDD) | ข้อมูลสำมะโนประชากรถ่วงน้ำหนักจากแบบสำรวจประชากรปัจจุบัน ปี 1994 และ 1995 | แบ่งออกเป็นชุดข้อมูลฝึกฝนและชุดข้อมูลทดสอบ | 299,285 | ค่าที่คั่นด้วยเครื่องหมายจุลภาค | การจำแนกประเภท | 2000 | [ 445 ] [ 446 ] | สำนักงานสำมะโนประชากรแห่งสหรัฐอเมริกา |
| ฐานข้อมูลสำมะโนประชากร IPUMS | ข้อมูลสำมะโนประชากรจากพื้นที่ลอสแอนเจลิสและลองบีช | ไม่มี | 256,932 | ข้อความ | การจำแนกประเภท การถดถอย | 1999 | [ 447 ] | ไอพีเอ็มเอส |
| ข้อมูลสำมะโนประชากรของสหรัฐอเมริกา ปี 1990 | ข้อมูลบางส่วนจากสำมะโนประชากรของสหรัฐอเมริกา ปี 1990 | ผลลัพธ์ได้รับการสุ่มและเลือกคุณลักษณะที่เป็นประโยชน์ | 2,458,285 | ข้อความ | การจำแนกประเภท การถดถอย | 1990 | [ 448 ] | สำนักงานสำมะโนประชากรแห่งสหรัฐอเมริกา |
การขนส่ง
| ชื่อชุดข้อมูล | คำอธิบายโดยย่อ | การประมวลผลล่วงหน้า | ตัวอย่าง | รูปแบบ | งานเริ่มต้น | สร้างแล้ว (อัปเดตแล้ว) | อ้างอิง | ผู้สร้าง |
|---|---|---|---|---|---|---|---|---|
| ชุดข้อมูลการแบ่งปันจักรยาน | จำนวนจักรยานให้เช่ารายชั่วโมงและรายวันในเมืองใหญ่ | มีการระบุรายละเอียดหลายอย่าง เช่น สภาพอากาศ ระยะเวลาการเดินทาง เป็นต้น | 17,389 | ข้อความ | การถดถอย | 2013 | [ 449 ] [ 450 ] | เอช. ฟานาอี-ที |
| ข้อมูลการเดินทางด้วยแท็กซี่ในนครนิวยอร์ก | ข้อมูลการเดินทางของรถแท็กซี่สีเหลืองและสีเขียวในนครนิวยอร์ก | แสดงจุดรับและส่ง ค่าโดยสาร และรายละเอียดอื่นๆ ของการเดินทาง | 6 ปี | ข้อความ | การจำแนกประเภท การจัดกลุ่ม | 2015 | [ 451 ] | คณะกรรมการแท็กซี่และรถลิมูซีนแห่งนครนิวยอร์ก |
| เส้นทางการให้บริการแท็กซี่ ECML PKDD | เส้นทางการเคลื่อนที่ของรถแท็กซี่ทั้งหมดในเมืองใหญ่แห่งหนึ่ง | มีคุณสมบัติหลายอย่างให้เลือกใช้ รวมถึงจุดเริ่มต้นและจุดสิ้นสุด | 1,710,671 | ข้อความ | การจัดกลุ่ม การค้นหาสาเหตุ | 2015 | [ 452 ] [ 453 ] | เอ็ม. เฟอร์เรรา และคณะ |
| เมโทร-แอลเอ | ความเร็วที่วัดได้จากเซ็นเซอร์ตรวจจับความเร็วบนทางหลวงในเขตลอสแอนเจลิสเคาน์ตี | ความเร็วเฉลี่ยในแต่ละช่วงเวลา 5 นาที | 7,094,304 จากเซ็นเซอร์ 207 ตัว และช่วงเวลา 34,272 ช่วง | ค่าที่คั่นด้วยเครื่องหมายจุลภาค | การถดถอย, การพยากรณ์ | 2014 | [ 454 ] | จาคาดิชและคณะ |
| เพเอ็มเอส | ความเร็ว ปริมาณการจราจร อัตราการใช้พื้นที่ และตัวชี้วัดอื่นๆ จากอุปกรณ์ตรวจจับแบบลูปและเซ็นเซอร์อื่นๆ บนทางด่วนในรัฐแคลิฟอร์เนีย สหรัฐอเมริกา | โดยปกติแล้ว ค่าตัวชี้วัดจะถูกรวบรวมโดยใช้ค่าเฉลี่ยในช่วงเวลา 5 นาที | เครื่องตรวจจับจำนวน 39,000 เครื่อง แต่ละเครื่องบรรจุข้อมูลอนุกรมเวลาหลายปี | ค่าที่คั่นด้วยเครื่องหมายจุลภาค | การถดถอย, การพยากรณ์, การพยากรณ์ระยะสั้น, การประมาณค่าในช่วง | (อัปเดตแบบเรียลไทม์) | [ 455 ] | กรมการขนส่งแห่งรัฐแคลิฟอร์เนีย |
อินเทอร์เน็ต
| ชื่อชุดข้อมูล | คำอธิบายโดยย่อ | การประมวลผลล่วงหน้า | ตัวอย่าง | รูปแบบ | งานเริ่มต้น | สร้างแล้ว (อัปเดตแล้ว) | อ้างอิง | ผู้สร้าง |
|---|---|---|---|---|---|---|---|---|
| เว็บเพจจาก Common Crawl 2012 | แหล่งรวบรวมข้อมูลขนาดใหญ่เกี่ยวกับเว็บเพจและวิธีการเชื่อมโยงเว็บเพจเหล่านั้นเข้าด้วยกันผ่านไฮเปอร์ลิงก์ | ไม่มี. | 3.5B | ข้อความ | การจัดกลุ่ม การจำแนกประเภท | 2013 | [ 456 ] | วี. แกรนวิลล์ |
| ชุดข้อมูลโฆษณาทางอินเทอร์เน็ต | ชุดข้อมูลสำหรับทำนายว่าภาพที่กำหนดเป็นภาพโฆษณาหรือไม่ | คุณสมบัติเหล่านี้จะเข้ารหัสรูปทรงเรขาคณิตของโฆษณาและวลีที่ปรากฏใน URL | 3279 | ข้อความ | การจำแนกประเภท | 1998 | [ 457 ] [ 458 ] | เอ็น. คุชเมอริค |
| ชุดข้อมูลการใช้งานอินเทอร์เน็ต | ข้อมูลประชากรทั่วไปของผู้ใช้งานอินเทอร์เน็ต | ไม่มี. | 10,104 | ข้อความ | การจำแนกประเภท การจัดกลุ่ม | 1999 | [ 459 ] | ดี. คุก |
| ชุดข้อมูล URL | ข้อมูล URL จากการประชุมขนาดใหญ่เป็นเวลา 120 วัน | มีการระบุคุณลักษณะหลายประการของแต่ละ URL | 2,396,130 | ข้อความ | การจำแนกประเภท | 2009 | [ 460 ] [ 461 ] | เจ. มา |
| ชุดข้อมูลเว็บไซต์ฟิชชิ่ง | ชุดข้อมูลเว็บไซต์ฟิชชิ่ง | มีการระบุคุณสมบัติหลายประการของแต่ละเว็บไซต์ | 2456 | ข้อความ | การจำแนกประเภท | 2015 | [ 462 ] | อาร์. มุสตาฟา และคณะ |
| ชุดข้อมูลการค้าปลีกออนไลน์ | ธุรกรรมออนไลน์สำหรับผู้ค้าปลีกออนไลน์ในสหราชอาณาจักร | รายละเอียดของแต่ละรายการธุรกรรมระบุไว้ครบถ้วน | 541,909 | ข้อความ | การจำแนกประเภท การจัดกลุ่ม | 2015 | [ 463 ] | ดี. เฉิน |
| Freebase Simple Topic Dump | Freebase คือความพยายามทางออนไลน์ในการจัดโครงสร้างความรู้ของมนุษยชาติทั้งหมด | หัวข้อต่างๆ จาก Freebase ได้ถูกดึงออกมาแล้ว | ใหญ่ | ข้อความ | การจำแนกประเภท การจัดกลุ่ม | 2011 | [ 464 ] [ 465 ] | ฟรีเบส |
| ชุดข้อมูลโฆษณาฟาร์ม | ข้อความโฆษณาทางการเกษตรจากเว็บไซต์ต่างๆ เจ้าของเนื้อหาจะให้การอนุมัติหรือไม่อนุมัติแบบไบนารี่เท่านั้น | เวกเตอร์แบบสปาร์สของคำในโฆษณาที่คำนวณโดย SVMlight | 4143 | ข้อความ | การจำแนกประเภท | 2011 | [ 466 ] [ 467 ] | ซี. มาสเตอร์ฮาร์ม และคณะ |
| กอง | การรวบรวมชุดข้อมูลขนาดใหญ่หลายชุดที่มีข้อความหลากหลายและไม่มีโครงสร้าง | ต่างๆ (เช่น การลบ HTML และ JavaScript ออกจากเว็บไซต์ การลบประโยคที่ซ้ำซ้อน) | ข้อความภาษาอังกฤษขนาด 825 กิกะไบต์ | บรรทัด JSON [ 468 ] [ 469 ] | การประมวลผลภาษาธรรมชาติ, การทำนายข้อความ | 2021 | [ 470 ] [ 468 ] | เกาและคณะ |
| ออสการ์ | ชุดข้อมูลขนาดใหญ่ที่เป็นข้อมูลภาษาเดียว ซึ่งสกัดจากข้อมูลบนเว็บ (Common Crawl dumps) ครอบคลุมมากกว่า 150 ภาษา | หลากหลาย (การกรองข้อมูล การจำแนกภาษา การตรวจจับเนื้อหาสำหรับผู้ใหญ่ และการติดป้ายกำกับอื่นๆ) | ไฟล์ข้อมูลประกอบด้วยข้อความภาษาอังกฤษขนาด 3.4 เทราไบต์ ข้อความภาษาจีนขนาด 1.4 เทราไบต์ ข้อความภาษารัสเซียขนาด 1.1 เทราไบต์ ข้อความภาษาเยอรมันขนาด 595 เมกะไบต์ ข้อความภาษาฝรั่งเศสขนาด 431 เมกะไบต์ และข้อมูลสำหรับภาษาอื่นๆ อีกกว่า 150 ภาษา (ตัวเลขสำหรับเวอร์ชัน 23.01) | บรรทัด JSON [ 471 ] | การประมวลผลภาษาธรรมชาติ, การทำนายข้อความ | 2021 | [ 472 ] [ 473 ] | ออร์ติซ ซัวเรซ, อาบัดจิ, ซาโกต์ และคณะ |
| โอเพ่นเว็บเท็กซ์ | เป็นการสร้างคลังข้อมูล WebText ขึ้นใหม่แบบโอเพนซอร์ส โดยข้อความจะดึงมาจากเนื้อหาบนเว็บที่แชร์บน Reddit ซึ่งแต่ละ URL ต้องได้รับการโหวตเห็นด้วยอย่างน้อยสามครั้ง | แยกเนื้อหาที่ไม่ใช่ HTML ออกมา ลบคำซ้ำ และแยกเป็นโทเค็นแล้ว | เอกสาร 8,013,769 ฉบับ, ขนาด 38GB | ข้อความ | การประมวลผลภาษาธรรมชาติ, การทำนายข้อความ | 2019 | [ 474 ] [ 475 ] | เอ. โกคาสลัน, วี. โคเฮน |
| ราก | ชุดข้อมูลหลายภาษาที่มีการบันทึกข้อมูลอย่างดีและเป็นตัวแทน โดยมีเป้าหมายที่ชัดเจนในการสร้างประโยชน์ให้แก่และโดยผู้คนที่เป็นเจ้าของข้อมูล | แยกเนื้อหาที่ไม่ใช่ HTML ออก ทำความสะอาด UI และโฆษณา ลบข้อมูลซ้ำซ้อน ลบข้อมูลส่วนบุคคล และสร้างโทเค็น | 1.6 เทราไบต์, 59 ภาษา | ปาร์เกต์ | การประมวลผลภาษาธรรมชาติ, การทำนายข้อความ | 2022 | [ 476 ] [ 477 ] | เอช. ลอเรนซง, แอล. ซอลเนียร์, ต. วัง, ซี. อากิกิ, เอ. วิลลาโนวา เดล โมรัล, ที. เลอ สเกา |
เกมส์
| ชื่อชุดข้อมูล | คำอธิบายโดยย่อ | การประมวลผลล่วงหน้า | ตัวอย่าง | รูปแบบ | งานเริ่มต้น | สร้างแล้ว (อัปเดตแล้ว) | อ้างอิง | ผู้สร้าง |
|---|---|---|---|---|---|---|---|---|
| ชุดข้อมูลไพ่โป๊กเกอร์ | ไพ่ 5 ใบจากสำรับไพ่มาตรฐาน 52 ใบ | มีการระบุคุณลักษณะของไพ่แต่ละมือ รวมถึงไพ่โป๊กเกอร์ที่ได้จากไพ่ในมือเหล่านั้น | 1,025,010 | ข้อความ | การถดถอย, การจำแนกประเภท | 2007 | [ 478 ] | อาร์. แคททรัล |
| ชุดข้อมูล Connect-4 | ประกอบด้วยตำแหน่ง 8 ตัวหมากที่ถูกต้องตามกฎในเกม Connect-4 ซึ่งยังไม่มีผู้เล่นคนใดชนะ และการเดินหมากครั้งต่อไปไม่ได้ถูกบังคับ | ไม่มี. | 67,557 | ข้อความ | การจำแนกประเภท | พ.ศ. 2538 | [ 479 ] | เจ. ทรอมป์ |
| ชุดข้อมูลหมากรุก (ราชา-เรือ ปะทะ ราชา) | ฐานข้อมูลเกมช่วงท้ายสำหรับราชาขาวและเรือต่อสู้กับราชาดำ | ไม่มี. | 28,056 | ข้อความ | การจำแนกประเภท | พ.ศ. 2537 | [ 480 ] [ 481 ] | เอ็ม. เบน และคณะ |
| ชุดข้อมูลหมากรุก (ราชา-เรือ เทียบกับ ราชา-เบี้ย) | คิง+เรือ ปะทะ คิง+เบี้ย บนช่อง a7 | ไม่มี. | 3196 | ข้อความ | การจำแนกประเภท | 1989 | [ 482 ] | อาร์. โฮลเต้ |
| ชุดข้อมูลเกมจบ Tic-Tac-Toe | การจำแนกแบบไบนารีสำหรับเงื่อนไขการชนะในเกมโอเอ็กซ์ | ไม่มี. | 958 | ข้อความ | การจำแนกประเภท | 1991 | [ 483 ] | ดี. อาฮา |
ตัวแปรหลายตัวอื่นๆ
| ชื่อชุดข้อมูล | คำอธิบายโดยย่อ | การประมวลผลล่วงหน้า | ตัวอย่าง | รูปแบบ | งานเริ่มต้น | สร้างแล้ว (อัปเดตแล้ว) | อ้างอิง | ผู้สร้าง |
|---|---|---|---|---|---|---|---|---|
| ชุดข้อมูลที่อยู่อาศัย | ราคาบ้านเฉลี่ยในบอสตัน พร้อมคุณลักษณะของบ้านและย่านที่อยู่อาศัยที่เกี่ยวข้อง | ไม่มี. | 506 | ข้อความ | การถดถอย | พ.ศ. 2536 | [ 484 ] | ดี. แฮร์ริสัน และคณะ |
| คำศัพท์ของเก็ตตี้ | ระบบคำศัพท์เฉพาะสำหรับงานศิลปะและวัฒนธรรมทางวัตถุอื่นๆ เอกสารจดหมายเหตุ ตัวแทนทางภาพ และเอกสารบรรณานุกรม | ไม่มี. | ใหญ่ | ข้อความ | การจำแนกประเภท | 2015 | [ 485 ] | ศูนย์เก็ตตี้ |
| Yahoo! หน้าแรกวันนี้ โมดูล ผู้ใช้ คลิก บันทึก | บันทึกการคลิกของผู้ใช้สำหรับบทความข่าวที่แสดงในแท็บ "บทความเด่น" ของโมดูล "วันนี้" บนหน้าแรกของ Yahoo! | การวิเคราะห์ร่วมโดยใช้แบบจำลองเชิงเส้นคู่ | จำนวนการเข้าชมของผู้ใช้ 45,811,883 ครั้ง | ข้อความ | การถดถอย, การจัดกลุ่ม | 2009 | [ 486 ] [ 487 ] | ชูและคณะ |
| ศูนย์ข้อมูลสมุทรศาสตร์แห่งอังกฤษ | ข้อมูลทางชีววิทยา เคมี ฟิสิกส์ และธรณีฟิสิกส์สำหรับมหาสมุทร มีการติดตามตัวแปร 22,000 ตัว | หลากหลาย. | ตัวแปร 22,000 ตัว และอินสแตนซ์จำนวนมาก | ข้อความ | การถดถอย, การจัดกลุ่ม | 2015 | [ 488 ] | ศูนย์ข้อมูลสมุทรศาสตร์แห่งอังกฤษ |
| ชุดข้อมูลบันทึกการลงคะแนนเสียงของรัฐสภา | ข้อมูลการลงคะแนนเสียงของสมาชิกรัฐสภาสหรัฐฯ ทุกคนใน 16 ประเด็น | นอกเหนือจากข้อมูลการลงคะแนนดิบแล้ว ยังมีฟีเจอร์อื่นๆ อีกมากมายให้เลือกใช้ | 435 | ข้อความ | การจำแนกประเภท | พ.ศ. 2530 | [ 489 ] | เจ. ชลิมเมอร์ |
| ชุดข้อมูลคำแนะนำร้านอาหาร Entree Chicago | บันทึกการโต้ตอบของผู้ใช้กับระบบแนะนำอาหารของร้าน Entree Chicago | รายละเอียดการใช้งานแอปพลิเคชันของผู้ใช้แต่ละรายจะถูกบันทึกไว้อย่างละเอียด | 50,672 | ข้อความ | การถดถอย, คำแนะนำ | 2000 | [ 490 ] | อาร์. เบิร์ค |
| ดัชนีชี้วัดมาตรฐานบริษัทประกันภัย (COIL 2000) | ข้อมูลเกี่ยวกับลูกค้าของบริษัทประกันภัย | คุณลักษณะหลายประการของลูกค้าแต่ละรายและบริการที่พวกเขาใช้ | 9,000 | ข้อความ | การถดถอย, การจำแนกประเภท | 2000 | [ 491 ] [ 492 ] | พี. ฟาน เดอร์ พุตเต็น |
| ชุดข้อมูลสถานรับเลี้ยงเด็ก | ข้อมูลจากผู้สมัครเข้าเรียนโรงเรียนอนุบาล | ข้อมูลเกี่ยวกับครอบครัวของผู้สมัครและปัจจัยอื่นๆ ที่เกี่ยวข้อง | 12,960 | ข้อความ | การจำแนกประเภท | พ.ศ. 2540 | [ 493 ] [ 494 ] | วี. ราชโควิช และคณะ |
| ชุดข้อมูลมหาวิทยาลัย | ข้อมูลที่อธิบายคุณลักษณะของมหาวิทยาลัยจำนวนมาก | ไม่มี. | 285 | ข้อความ | การจัดกลุ่ม การจำแนกประเภท | 1988 | [ 495 ] | เอส. ซาวน์เดอร์ส และคณะ |
| ชุดข้อมูลศูนย์บริการรับบริจาคโลหิต | ข้อมูลจากศูนย์บริการรับบริจาคโลหิต ให้ข้อมูลเกี่ยวกับอัตราการกลับมาบริจาค ความถี่ในการบริจาค เป็นต้น | ไม่มี. | 748 | ข้อความ | การจำแนกประเภท | 2008 | [ 496 ] [ 497 ] | ไอ.เยห์ |
| ชุดข้อมูลรูปแบบการเปรียบเทียบการเชื่อมโยงบันทึก | ชุดข้อมูลขนาดใหญ่ งานที่ต้องทำคือการเชื่อมโยงข้อมูลที่เกี่ยวข้องเข้าด้วยกัน | มีการใช้กระบวนการบล็อกเพื่อเลือกเฉพาะคู่ข้อมูลบางคู่เท่านั้น | 5,749,132 | ข้อความ | การจำแนกประเภท | 2011 | [ 498 ] [ 499 ] | มหาวิทยาลัยไมนซ์ |
| ชุดข้อมูล Nomao | Nomao รวบรวมข้อมูลเกี่ยวกับสถานที่จากแหล่งข้อมูลที่หลากหลาย ภารกิจคือการตรวจจับรายการที่อธิบายถึงสถานที่เดียวกัน | มีการระบุสำเนาที่ซ้ำกันแล้ว | 34,465 | ข้อความ | การจำแนกประเภท | 2012 | [ 500 ] [ 501 ] | โนมาโอ แล็บส์ |
| ชุดข้อมูลภาพยนตร์ | ข้อมูลสำหรับภาพยนตร์ 10,000 เรื่อง | มีการระบุคุณสมบัติหลายประการสำหรับภาพยนตร์แต่ละเรื่อง | 10,000 | ข้อความ | การจัดกลุ่ม การจำแนกประเภท | 1999 | [ 502 ] | จี. วีเดอร์โฮลด์ |
| ชุดข้อมูลการวิเคราะห์การเรียนรู้ของมหาวิทยาลัยเปิด | ข้อมูลเกี่ยวกับนักเรียนและการมีปฏิสัมพันธ์ของพวกเขากับสภาพแวดล้อมการเรียนรู้เสมือนจริง | ไม่มี. | ~ 30,000 | ข้อความ | การจำแนกประเภท การจัดกลุ่ม การถดถอย | 2015 | [ 503 ] [ 504 ] | เจ. คูซิเลก และคณะ |
| บันทึกโทรศัพท์มือถือ | กิจกรรมและการปฏิสัมพันธ์ด้านโทรคมนาคม | การรวมข้อมูลตามเซลล์ตารางทางภูมิศาสตร์และทุกๆ 15 นาที | ใหญ่ | ข้อความ | การจำแนกประเภท, การจัดกลุ่ม, การถดถอย | 2015 | [ 505 ] | จี. บาร์ลาคคี และคณะ |
แหล่งรวบรวมชุดข้อมูลที่คัดสรรแล้ว
เนื่องจากชุดข้อมูลมีหลากหลายรูปแบบและบางครั้งอาจใช้งานยาก จึงมีการดำเนินการอย่างมากในการรวบรวมและกำหนดมาตรฐานรูปแบบของชุดข้อมูลเพื่อให้ใช้งานได้ง่ายขึ้นสำหรับการวิจัยด้านการเรียนรู้ของเครื่อง
- OpenML: [ 506 ]แพลตฟอร์มเว็บที่มี Python, R, Java และ API อื่นๆ สำหรับดาวน์โหลดชุดข้อมูลการเรียนรู้ของเครื่องหลายร้อยชุด ประเมินอัลกอริทึมบนชุดข้อมูล และเปรียบเทียบประสิทธิภาพของอัลกอริทึมกับอัลกอริทึมอื่นๆ อีกหลายสิบรายการ
- PMLB: [ 507 ]คลังข้อมูลมาตรฐานขนาดใหญ่ที่คัดสรรมาอย่างดีสำหรับการประเมินอัลกอริธึมการเรียนรู้ของเครื่องแบบมีผู้กำกับดูแล จัดเตรียมชุดข้อมูลการจำแนกและการถดถอยในรูปแบบมาตรฐานที่สามารถเข้าถึงได้ผ่าน API ของ Python
- Metatext NLP: https://metatext.io/datasetsคือแหล่งเก็บข้อมูลบนเว็บที่ดูแลโดยชุมชน มีชุดข้อมูลมาตรฐานเกือบ 1000 ชุด และกำลังเพิ่มขึ้นเรื่อยๆ มีงานประมวลผลหลากหลาย ตั้งแต่การจำแนกประเภทไปจนถึงการตอบคำถาม และรองรับหลายภาษา ตั้งแต่ภาษาอังกฤษ โปรตุเกส ไปจนถึงภาษาอาหรับ
- Appen : ชุดข้อมูลสำเร็จรูปและโอเพนซอร์สที่บริษัทเป็นผู้ดูแลและบำรุงรักษา แหล่งข้อมูลทางชีววิทยา รูปภาพ ทางกายภาพ การตอบคำถาม สัญญาณ เสียง ข้อความ และวิดีโอเหล่านี้มีจำนวนมากกว่า 250 รายการ และสามารถนำไปใช้กับกรณีการใช้งานที่แตกต่างกันได้มากกว่า 25 กรณี[ 508 ] [ 509 ]
ดูเพิ่มเติม
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ รายชื่อชุดข้อมูลสำหรับการวิจัยด้านการเรียนรู้ของเครื่อง
ชุดข้อมูลเหล่านี้ใช้ใน การวิจัย การเรียนรู้ของเครื่อง (ML)และได้รับการอ้างอิงในวารสารวิชาการที่ผ่านการตรวจสอบโดยผู้ทรงคุณวุฒิ ชุดข้อมูลเป็นส่วนสำคัญของสาขาการเรียนรู้ของเครื่อง
รายการการเรียงลำดับที่ใช้สำหรับชุดข้อมูล
พอร์ทัลข้อมูลถูกจำแนกตามประเภทของใบอนุญาต พอร์ทัลข้อมูลที่ใช้ ใบอนุญาตแบบโอเพนซอร์ส เรียกว่า พอร์ทัลข้อมูลเปิด ซึ่ง หน่วยงานภาครัฐ และ สถาบันการศึกษา หลายแห่งใช้งานอยู่
รายชื่อพอร์ทัลข้อมูลเปิด
https://github.com/sebneu/ckan_instances/blob/master/instances.csv
รายชื่อพอร์ทัลที่เหมาะสมสำหรับการใช้งานหลายประเภท
บางครั้งพอร์ทัลข้อมูลจะแสดงรายการชุดข้อมูลย่อยหลากหลายประเภทที่เกี่ยวข้องกับ การใช้งานการเรียนรู้ของเครื่อง หลาย ประเภท