อิมเมจเน็ต

โครงการImageNet เป็น ฐานข้อมูลภาพขนาดใหญ่ที่ออกแบบมาเพื่อใช้ใน การวิจัย ซอฟต์แวร์การจดจำวัตถุด้วยภาพ มีภาพ มากกว่า 14 ล้าน ภาพ ^{[ 1 ]}^{[ 2 ]}ที่ได้รับการระบุด้วยมือโดยโครงการนี้ เพื่อระบุว่าวัตถุใดอยู่ในภาพ และอย่างน้อยหนึ่งล้านภาพก็มีกรอบล้อมรอบวัตถุให้ด้วย^{[ 3 ]} ImageNet มีมากกว่า 20,000 หมวดหมู่^{[ 2 ]}โดยหมวดหมู่ทั่วไป เช่น "ลูกโป่ง" หรือ "สตรอว์เบอร์รี" ประกอบด้วยภาพหลายร้อยภาพ^{[ 4 ]} ฐานข้อมูลคำอธิบายประกอบของ URLภาพจากภายนอกสามารถเข้าถึงได้ฟรีโดยตรงจาก ImageNet แม้ว่าภาพจริงจะไม่ได้เป็นของ ImageNet ก็ตาม^{[ 5 ]}ตั้งแต่ปี 2010 โครงการ ImageNet ได้จัดการแข่งขันซอฟต์แวร์ประจำปี ImageNet Large Scale Visual Recognition Challenge ( ILSVRC ) ซึ่งโปรแกรมซอฟต์แวร์จะแข่งขันกันเพื่อจำแนกและตรวจจับวัตถุและฉากได้อย่างถูกต้อง การแข่งขันนี้ใช้รายการคลาสที่ไม่ทับซ้อนกันจำนวนหนึ่งพันคลาสที่ "ตัดแต่ง" แล้ว^{[ 6 ]}

ประวัติศาสตร์

นักวิจัย AI Fei-Fei Liเริ่มทำงานเกี่ยวกับแนวคิด ImageNet ในปี 2549 ในขณะที่การวิจัย AI ส่วนใหญ่มุ่งเน้นไปที่แบบจำลองและอัลกอริทึม Li ต้องการขยายและปรับปรุงข้อมูลที่มีอยู่เพื่อฝึกฝนอัลกอริทึม AI ^{[ 7 ]}ในปี 2550 Li ได้พบกับศาสตราจารย์Christiane Fellbaum แห่ง Princeton ซึ่งเป็นหนึ่งในผู้สร้างWordNetเพื่อหารือเกี่ยวกับโครงการนี้ จากการประชุมครั้งนี้ Li จึงได้สร้าง ImageNet โดยเริ่มต้นจากคำนามประมาณ 22,000 คำของ WordNet และใช้คุณสมบัติหลายอย่างของมัน^{[ 8 ]}เธอยังได้รับแรงบันดาลใจจากการประมาณการในปี 2530 ^{[ 9 ]}ที่ว่าโดยเฉลี่ยแล้วคนเราสามารถจดจำวัตถุได้ประมาณ 30,000 ชนิดที่แตกต่างกัน^{[ 10 ]}

ในฐานะผู้ช่วยศาสตราจารย์ที่Princetonหลี่ได้รวบรวมทีมวิจัยเพื่อทำงานในโครงการ ImageNet พวกเขาใช้Amazon Mechanical Turkเพื่อช่วยในการจำแนกภาพ การติดป้ายกำกับเริ่มต้นในเดือนกรกฎาคม 2551 และสิ้นสุดในเดือนเมษายน 2553 โดยใช้แรงงาน 49,000 คนจาก 167 ประเทศในการคัดกรองและติดป้ายกำกับภาพผู้สมัครกว่า 160 ล้านภาพ^{[ 11 ]}^{[ 8 ]}^{[ 12 ]}พวกเขามีงบประมาณเพียงพอที่จะติดป้ายกำกับภาพแต่ละภาพจากทั้งหมด 14 ล้านภาพได้สามครั้ง^{[ 10 ]}

แผนเดิมกำหนดให้มีรูปภาพ 10,000 รูปต่อหมวดหมู่ รวมเป็น 40,000 หมวดหมู่ โดยมีรูปภาพทั้งหมด 400 ล้านรูป แต่ละหมวดหมู่ต้องได้รับการตรวจสอบ 3 ครั้ง พวกเขาพบว่ามนุษย์สามารถจำแนกรูปภาพได้มากที่สุด 2 รูปต่อวินาที ด้วยอัตรานี้ คาดว่าจะต้องใช้เวลาทำงานของมนุษย์ 19 ปี (โดยไม่หยุดพัก) ^{[ 13 ]}

พวกเขานำเสนอฐานข้อมูลของพวกเขาเป็นครั้งแรกในรูปแบบโปสเตอร์ในการประชุม Computer Vision and Pattern Recognition (CVPR) ปี 2009 ที่ฟลอริดา โดยใช้ชื่อว่า "ImageNet: A Preview of a Large-scale Hierarchical Dataset" ^{[ 14 ]}^{[ 8 ]}^{[ 15 ]}^{[ 16 ]}โปสเตอร์นี้ถูกนำกลับมาใช้ใหม่ในการประชุม Vision Sciences Society ปี 2009 ^{[ 17 ]}

ในปี 2009 Alex Berg เสนอให้เพิ่มการระบุตำแหน่งวัตถุเป็นงาน Li ติดต่อ การแข่งขัน PASCAL Visual Object Classesในปี 2009 เพื่อขอความร่วมมือ ส่งผลให้เกิดการ แข่งขัน ImageNet Large Scale Visual Recognition Challengeที่เริ่มต้นในปี 2010 ซึ่งมีคลาส 1000 คลาสและการระบุตำแหน่งวัตถุ เมื่อเทียบกับPASCAL VOCซึ่งมีเพียง 20 คลาสและ 19,737 รูปภาพ (ในปี 2010) ^{[ 6 ]}^{[ 8 ]}

ความสำคัญของการเรียนรู้เชิงลึก

เมื่อวันที่ 30 กันยายน 2012 เครือข่ายประสาทเทียมแบบคอนโวลูชัน (CNN) ที่เรียกว่าAlexNet ^{[ 18 ]}สามารถทำข้อผิดพลาด 5 อันดับแรกได้ 15.3% ในการแข่งขัน ImageNet 2012 Challenge ซึ่งต่ำกว่าอันดับสองมากกว่า 10.8 เปอร์เซ็นต์ การใช้เครือข่ายประสาทเทียมแบบคอนโวลูชันเป็นไปได้เนื่องจากการใช้หน่วยประมวลผลกราฟิก (GPU) ในระหว่างการฝึกอบรม^{[ 18 ]}ซึ่งเป็นส่วนประกอบสำคัญของ การปฏิวัติ การเรียนรู้เชิงลึกตามที่The Economist กล่าวไว้ ว่า "ทันใดนั้นผู้คนก็เริ่มให้ความสนใจ ไม่ใช่แค่ในชุมชน AI เท่านั้น แต่รวมถึงอุตสาหกรรมเทคโนโลยีโดยรวมด้วย" ^{[ 4 ]}^{[ 19 ]}^{[ 20 ]}

ในปี 2015 AlexNet มีประสิทธิภาพด้อยกว่า CNN ที่มีเลเยอร์มากกว่า 100 ชั้น ของMicrosoftซึ่งชนะการแข่งขัน ImageNet 2015 โดยมีข้อผิดพลาด 3.57% บนชุดทดสอบ^[²¹^]

Andrej Karpathyประเมินในปี 2014 ว่าด้วยความพยายามอย่างมุ่งมั่น เขาสามารถลดอัตราความผิดพลาดลงเหลือ 5.1% และคนประมาณ 10 คนจากห้องปฏิบัติการของเขาสามารถลดอัตราความผิดพลาดลงเหลือประมาณ 12-13% ด้วยความพยายามที่น้อยกว่า^{[ 22 ]}^{[ 23 ]}มีการประมาณการว่าด้วยความพยายามสูงสุด มนุษย์สามารถลดอัตราความผิดพลาดลงเหลือ 2.4% ^{[ 6 ]}

ชุดข้อมูล

ImageNet ใช้ crowdsourcesในกระบวนการระบุคำอธิบายประกอบ คำอธิบายประกอบระดับรูปภาพจะระบุการมีอยู่หรือไม่มีอยู่ของคลาสวัตถุในรูปภาพ เช่น "มีเสืออยู่ในรูปภาพนี้" หรือ "ไม่มีเสืออยู่ในรูปภาพนี้" คำอธิบายประกอบระดับวัตถุจะให้กรอบสี่เหลี่ยมล้อมรอบ (ส่วนที่มองเห็นได้ของ) วัตถุที่ระบุ ImageNet ใช้รูปแบบหนึ่งของWordNet schema แบบกว้างเพื่อจัดหมวดหมู่วัตถุ โดยเสริมด้วยหมวดหมู่สายพันธุ์สุนัข 120 หมวด เพื่อแสดงการจำแนกประเภทที่ละเอียดขึ้น^{[ 6 ]}

ในปี 2012 ImageNet เป็นผู้ใช้ Mechanical Turkในภาควิชาการที่ใหญ่ที่สุดในโลกพนักงานโดยเฉลี่ยสามารถระบุภาพได้ 50 ภาพต่อนาที^{[ 2 ]}

แผนเดิมของ ImageNet ฉบับเต็มจะมีภาพที่สะอาด หลากหลาย และมีความละเอียดเต็มรูปแบบประมาณ 50 ล้านภาพ กระจายอยู่บนซินเซ็ตประมาณ 50,000 ชุด^{[ 15 ]}ซึ่งไม่สามารถทำได้

สถิติสรุปที่ให้ไว้เมื่อวันที่ 30 เมษายน 2553: ^{[ 24 ]}

จำนวนซินเซ็ตที่ไม่ว่างเปล่าทั้งหมด: 21841
จำนวนภาพทั้งหมด: 14,197,122
จำนวนภาพที่มีคำอธิบายขอบเขต: 1,034,908
จำนวนซินเซ็ตที่มีคุณสมบัติ SIFT: 1000
จำนวนภาพที่มีคุณสมบัติ SIFT: 1.2 ล้านภาพ

หมวดหมู่

หมวดหมู่ของ ImageNet ถูกคัดกรองมาจากแนวคิดของ WordNet เนื่องจากแต่ละแนวคิดอาจมีคำพ้องความหมายได้หลายคำ (เช่น "ลูกแมว" และ "ลูกแมว") ดังนั้นแต่ละแนวคิดจึงเรียกว่า "ชุดคำพ้องความหมาย" หรือ "ซินเซ็ต " ใน WordNet 3.0 มีซินเซ็ตมากกว่า 100,000 ชุด ส่วนใหญ่เป็นคำนาม (มากกว่า 80,000 ชุด) ชุดข้อมูล ImageNet ได้คัดกรองซินเซ็ตเหล่านี้เหลือ 21,841 ชุด ซึ่งเป็นคำนามที่นับได้และสามารถแสดงภาพได้

แต่ละ synset ใน WordNet 3.0 มี "WordNet ID" (wnid) ซึ่งเป็นการรวมกันของส่วนของคำพูดและ "offset" ( หมายเลขระบุที่ไม่ซ้ำกัน ) wnid ทุกตัวเริ่มต้นด้วย "n" เนื่องจาก ImageNet มีเฉพาะคำนาม เท่านั้น ตัวอย่างเช่น wnid ของ synset " dog, domestic dog, Canis familiaris " คือ "n02084071" ^{[ 25 ]}

หมวดหมู่ใน ImageNet แบ่งออกเป็น 9 ระดับ ตั้งแต่ระดับ 1 (เช่น "สัตว์เลี้ยงลูกด้วยนม") ไปจนถึงระดับ 9 (เช่น "สุนัขเยอรมันเชพเพิร์ด") ^{[ 13 ]}

รูปแบบภาพ

รูปภาพเหล่านี้ถูกดึงมาจากเว็บไซต์ค้นหารูปภาพออนไลน์ ( Google , Picsearch , MSN , Yahoo , Flickrฯลฯ) โดยใช้คำพ้องความหมายในหลายภาษา ตัวอย่างเช่น: German shepherd, German police dog, German shepherd dog, Alsatian, ovejero alemán, papore tedesco, 德国牧羊犬^{[ 26 ]}

ImageNet ประกอบด้วยภาพใน รูปแบบ RGBที่มีความละเอียดแตกต่างกัน ตัวอย่างเช่น ใน ImageNet 2012 หมวดหมู่ "ปลา" ความละเอียดจะอยู่ในช่วงตั้งแต่ 4288 x 2848 ถึง 75 x 56 ในการเรียนรู้ของเครื่อง ภาพเหล่านี้มักจะถูกประมวลผลเบื้องต้นให้มีความละเอียดคงที่มาตรฐาน และทำให้เป็นสีขาว ก่อนที่จะประมวลผลเพิ่มเติมโดยโครงข่ายประสาทเทียม

ตัวอย่างเช่น ใน PyTorch รูปภาพ ImageNet จะถูกทำให้เป็นมาตรฐานโดยค่าเริ่มต้นโดยการหารค่าพิกเซลเพื่อให้ค่าอยู่ระหว่าง 0 ถึง 1 จากนั้นลบด้วย [0.485, 0.456, 0.406] จากนั้นหารด้วย [0.229, 0.224, 0.225] ซึ่งเป็นค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานของ ImageNet ดังนั้นวิธีนี้จะ ทำให้ ข้อมูลอินพุตเป็นสีขาว^{[ 27 ]}

ป้ายกำกับและคำอธิบายประกอบ

ภาพแต่ละภาพจะมีรหัส wnid เพียงรหัสเดียวกำกับอยู่

คุณลักษณะ SIFTหนาแน่น(ตัวอธิบาย SIFT ดิบ, รหัสคำที่ถูกควอนไทซ์ และพิกัดของตัวอธิบาย/รหัสคำแต่ละตัว) สำหรับ ImageNet-1K สามารถดาวน์โหลดได้โดยออกแบบมาสำหรับbag of visual words ^{[ 28 ]}

กล่องขอบเขตของวัตถุมีให้สำหรับซินเซ็ตยอดนิยมประมาณ 3,000 รายการ^{[ 29 ]}โดยเฉลี่ยมีรูปภาพ 150 รูปในแต่ละซินเซ็ต^{[ 30 ]}

นอกจากนี้ รูปภาพบางรูปยังมีคุณลักษณะ พวกเขาได้เผยแพร่คุณลักษณะ 25 รายการสำหรับซินเซ็ตยอดนิยมประมาณ 400 รายการ: ^{[ 31 ]}^{[ 32 ]}

สี : ดำ, น้ำเงิน, น้ำตาล, เทา, เขียว, ส้ม, ชมพู, แดง, ม่วง, ขาว, เหลือง
ลวดลาย : ลายจุด, ลายทาง
รูปทรง : ยาว, กลม, สี่เหลี่ยมผืนผ้า, สี่เหลี่ยมจัตุรัส
พื้นผิว : ขนปุย, เรียบ, หยาบ, เงา, โลหะ, พืชพรรณ, ไม้, เปียก

อิมเมจเน็ต-21K

ชุดข้อมูลต้นฉบับทั้งหมดเรียกว่า ImageNet-21K ImageNet-21k ประกอบด้วยรูปภาพ 14,197,122 รูป แบ่งออกเป็น 21,841 คลาส บางเอกสารสรุปและตั้งชื่อว่า ImageNet-22k ^{[ 33 ]}

ImageNet-21k ฉบับเต็มได้รับการเผยแพร่ในฤดูใบไม้ร่วงปี 2011 โดยfall11_whole.tarไม่มีการแบ่งข้อมูลสำหรับการฝึกอบรม การตรวจสอบ และการทดสอบอย่างเป็นทางการสำหรับ ImageNet-21k บางคลาสมีตัวอย่างเพียง 1-10 ตัวอย่าง ในขณะที่บางคลาสมีหลายพันตัวอย่าง^{[ 33 ]}

อิมเมจเน็ต-1K

มีชุดย่อยต่างๆ ของชุดข้อมูล ImageNet ที่ใช้ในบริบทต่างๆ ซึ่งบางครั้งเรียกว่า "เวอร์ชัน" ^{[ 18 ]}

หนึ่งในชุดย่อยของ ImageNet ที่ใช้กันอย่างแพร่หลายที่สุดคือ "ชุดข้อมูลการจำแนกและระบุตำแหน่งภาพ ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 2012–2017" ซึ่งในเอกสารวิจัยเรียกอีกอย่างว่า ImageNet-1K หรือ ILSVRC2017 สะท้อนถึงการแข่งขัน ILSVRC ดั้งเดิมที่มี 1,000 คลาส ImageNet-1K ประกอบด้วยภาพฝึกอบรม 1,281,167 ภาพ ภาพตรวจสอบ 50,000 ภาพ และภาพทดสอบ 100,000 ภาพ^{[ 34 ]}

แต่ละหมวดหมู่ใน ImageNet-1K เป็นหมวดหมู่ใบ ซึ่งหมายความว่าไม่มีโหนดลูกอยู่ด้านล่าง ต่างจาก ImageNet-21K ตัวอย่างเช่น ใน ImageNet-21K มีรูปภาพบางรูปที่จัดอยู่ในหมวดหมู่ "สัตว์เลี้ยงลูกด้วยนม" เฉยๆ ในขณะที่ใน ImageNet-1K มีเพียงรูปภาพที่จัดอยู่ในหมวดหมู่เช่น "สุนัขเยอรมันเชพเพิร์ด" เท่านั้น เนื่องจากไม่มีคำย่อยอยู่ด้านล่าง "สุนัขเยอรมันเชพเพิร์ด" ^{[ 26 ]}

พัฒนาการในภายหลัง

ใน WordNet ที่พวกเขาสร้าง ImageNet ขึ้นมานั้น มี synset จำนวน 2832 ชุดใน subtree "บุคคล" ในช่วงปี 2018-2020 พวกเขาได้ลบการดาวน์โหลด ImageNet-21k ออกไป เนื่องจากพวกเขาได้ทำการกรอง synset บุคคลเหล่านี้อย่างละเอียดถี่ถ้วน จาก synset จำนวน 2832 ชุด มี 1593 ชุดที่ถูกพิจารณาว่า "อาจก่อให้เกิดความไม่พอใจ" จาก synset ที่เหลือ 1239 ชุด มี 1081 ชุดที่ถูกพิจารณาว่า "ไม่เกี่ยวข้องกับภาพ" อย่างแท้จริง ผลก็คือ เหลือ synset เพียง 158 ชุดเท่านั้น และในจำนวนนี้ มีเพียง 139 ชุดเท่านั้นที่มีรูปภาพมากกว่า 100 รูป สำหรับ "การสำรวจเพิ่มเติม" ^{[ 12 ]}^{[ 35 ]}^{[ 36 ]}

ในฤดูหนาวปี 2021 ImageNet-21k ได้รับการอัปเดต โดยลบ 2702 หมวดหมู่ในซับทรี "บุคคล" เพื่อป้องกัน "พฤติกรรมที่เป็นปัญหา" ในโมเดลที่ฝึกฝน ส่งผลให้เหลือเพียง 130 ซินเซ็ตในซับทรี "บุคคล" เท่านั้น นอกจากนี้ ในปี 2021 ImageNet-1k ได้รับการอัปเดตโดยการเบลอใบหน้าที่ปรากฏใน 997 หมวดหมู่ที่ไม่ใช่บุคคล พวกเขาพบว่าจากภาพทั้งหมด 1,431,093 ภาพใน ImageNet-1k มี 243,198 ภาพ (17%) ที่มีใบหน้าอย่างน้อยหนึ่งใบหน้า และจำนวนใบหน้าทั้งหมดรวมกันได้ 562,626 ใบหน้า พวกเขาพบว่าการฝึกโมเดลบนชุดข้อมูลโดยเบลอใบหน้าเหล่านี้ทำให้ประสิทธิภาพลดลงน้อยที่สุด^{[ 37 ]}^{[ 38 ]}

ImageNet-C เป็นเวอร์ชันของ ImageNet ที่ถูกรบกวนโดยศัตรูที่สร้างขึ้นในปี 2019 ^{[ 39 ]}

ImageNetV2 เป็นชุดข้อมูลใหม่ที่มีชุดทดสอบสามชุด ชุดละ 10,000 ชุด สร้างขึ้นโดยใช้วิธีการเดียวกับ ImageNet ดั้งเดิม^{[ 40 ]}

ImageNet-21K-P เป็นชุดย่อยที่ผ่านการกรองและทำความสะอาดของ ImageNet-21K โดยมีรูปภาพ 12,358,688 รูปจาก 11,221 หมวดหมู่ รูปภาพทั้งหมดถูกปรับขนาดเป็น 224 x 224 พิกเซล^{[ 33 ]}

ตารางชุดข้อมูล
ชื่อ	ที่ตีพิมพ์	ชั้นเรียน	การฝึกอบรม	การตรวจสอบความถูกต้อง	ทดสอบ	ขนาด
ปาสคาล โวซี	2548	20
อิมเมจเน็ต-1K	2009	1,000	1,281,167	50,000	100,000	130 GB
อิมเมจเน็ต-21K	2011	21,841	14,197,122			1.31 เทราไบต์
ImageNetV2	2019				30,000
ImageNet-21K-P	2021	11,221	11,797,632		561,052	250 GB ^{[ 33 ]}

ประวัติความเป็นมาของการแข่งขัน ImageNet

ILSVRC มีเป้าหมายที่จะ "เดินตามรอย" การแข่งขัน PASCAL VOC ขนาดเล็ก ที่จัดตั้งขึ้นในปี 2548 ซึ่งมีภาพเพียงประมาณ 20,000 ภาพและคลาสวัตถุ 20 คลาส^{[ 6 ]}เพื่อ "ทำให้ ImageNet เป็นประชาธิปไตย" Fei-Fei Li ได้เสนอให้ ทีม PASCAL VOCร่วมมือกัน โดยเริ่มตั้งแต่ปี 2553 โดยทีมวิจัยจะประเมินอัลกอริทึมของตนบนชุดข้อมูลที่กำหนด และแข่งขันกันเพื่อให้ได้ความแม่นยำที่สูงขึ้นในงานการจดจำภาพหลายงาน^{[ 8 ]}

การแข่งขันประจำปีที่เกิดขึ้นนี้ปัจจุบันรู้จักกันในชื่อ ImageNet Large Scale Visual Recognition Challenge (ILSVRC) ILSVRC ใช้รายการหมวดหมู่ภาพหรือ "คลาส" ที่ "ตัดแต่ง" เพียง 1,000 รายการ ซึ่งรวมถึง 90 จาก 120 สายพันธุ์สุนัขที่จัดประเภทโดยโครงสร้าง ImageNet แบบเต็ม^{[ 6 ]}

ทศวรรษ 2010 ได้เห็นความก้าวหน้าอย่างมากในด้านการประมวลผลภาพ

การแข่งขันครั้งแรกในปี 2010 มีทีมเข้าร่วม 11 ทีม ทีมที่ชนะคือเครื่องสนับสนุนเวกเตอร์ เชิงเส้น (SVM) คุณสมบัติคือกริดหนาแน่นของHoGและLBPซึ่งทำให้เบาบางลงด้วยการเข้ารหัสพิกัดท้องถิ่นและการรวมกลุ่ม^{[ 41 ]}ได้ความแม่นยำในการจำแนกประเภท 52.9% และความแม่นยำ 5 อันดับแรก 71.8% ได้รับการฝึกฝนเป็นเวลา 4 วันบนเครื่อง 8 คอร์ 3 เครื่อง ( ซีพียูIntel Xeon แบบควอดคอร์คู่ 2 GHz) ^{[ 42 ]}

การแข่งขันครั้งที่สองในปี 2011 มีทีมเข้าร่วมน้อยลง โดยมี SVM อีกตัวชนะด้วยอัตราข้อผิดพลาด 5 อันดับแรกที่ 25% ^{[ 10 ]}ทีมที่ชนะคือ XRCE โดย Florent Perronnin และ Jorge Sanchez ระบบดังกล่าวเป็น SVM เชิงเส้นอีกตัวที่ทำงานบนเวกเตอร์ Fisherที่ ถูกควอนไทซ์ ^{[ 43 ]}^[⁴⁴^]^[⁴⁵^]โดยทำความแม่นยำ 5 อันดับแรกได้ 74.2%

ในปี 2012 โครงข่ายประสาทเทียมแบบ convolutional เชิง ลึก ที่เรียกว่าAlexNetบรรลุความแม่นยำ 84.7% ใน 5 อันดับแรก ซึ่งถือเป็นความก้าวหน้าครั้งสำคัญ^{[ 46 ]}อันดับสองคือ Oxford VGG ซึ่งใช้สถาปัตยกรรมทั่วไปก่อนหน้าของ SVM, SIFT, สถิติสี, เวกเตอร์ Fisher เป็นต้น^{[ 47 ]}ในอีกไม่กี่ปีถัดมา ความแม่นยำ 5 อันดับแรกเพิ่มขึ้นเป็นมากกว่า 90% แม้ว่าความก้าวหน้าในปี 2012 จะ "รวมชิ้นส่วนที่มีอยู่ก่อนแล้วเข้าด้วยกัน" แต่การปรับปรุงเชิงปริมาณอย่างมากนี้ถือเป็นจุดเริ่มต้นของความเฟื่องฟูของปัญญาประดิษฐ์ในอุตสาหกรรม^{[ 4 ]}

ในปี 2013 ผลงานที่มีอันดับสูงส่วนใหญ่ใช้โครงข่ายประสาทเทียมแบบคอนโวลูชัน ผลงานที่ชนะเลิศสำหรับการระบุตำแหน่งวัตถุคือOverFeatซึ่งเป็นสถาปัตยกรรมสำหรับการจำแนกและระบุตำแหน่งวัตถุพร้อมกัน^{[ 48 ]}ผลงานที่ชนะเลิศสำหรับการจำแนกประเภทคือชุด CNN หลายตัวโดย Clarifai ^{[ 6 ]}

ภายในปี 2014 มีสถาบันมากกว่า 50 แห่งเข้าร่วมใน ILSVRC ^{[ 6 ]}ผลงานที่ชนะเลิศด้านการจำแนกประเภทคือGoogLeNet [ ^{49 ] ผล}งานที่ชนะเลิศด้านการระบุตำแหน่งคือVGGNetในปี 2017 ทีมที่เข้าร่วมแข่งขัน 29 จาก 38 ทีมมีความแม่นยำมากกว่า 95% ^{[ 50 ]}ในปี 2017 ImageNet ระบุว่าจะเปิดตัวความท้าทายใหม่ที่ยากขึ้นมากในปี 2018 ซึ่งเกี่ยวข้องกับการจำแนกวัตถุ 3 มิติโดยใช้ภาษาธรรมชาติ เนื่องจากการสร้างข้อมูล 3 มิติมีค่าใช้จ่ายสูงกว่าการใส่คำอธิบายประกอบภาพ 2 มิติที่มีอยู่แล้ว จึงคาดว่าชุดข้อมูลจะมีขนาดเล็กลง การประยุกต์ใช้ความก้าวหน้าในด้านนี้จะมีตั้งแต่การนำทางหุ่นยนต์ไปจนถึง ความเป็น จริงเสริม^{[ 1 ]}

ในปี 2015 ผลงานที่ชนะเลิศคือResNetซึ่งมีประสิทธิภาพเหนือกว่ามนุษย์^{[ 21 ]}^{[ 51 ]}อย่างไรก็ตาม ดังที่Olga Russakovsky หนึ่งในผู้จัดงานได้ ชี้ให้เห็นในปี 2015 ILSVRC มีเพียง 1,000 หมวดหมู่เท่านั้น มนุษย์สามารถจดจำหมวดหมู่ได้มากกว่า และยังสามารถ (ต่างจากโปรแกรม) ตัดสินบริบทของภาพได้อีกด้วย^{[ 52 ]}

ในปี 2016 ผลงานที่ชนะเลิศคือCUImageซึ่งเป็น แบบจำลองแบบ รวมของเครือข่าย 6 เครือข่าย ได้แก่ Inception v3, Inception v4, Inception ResNet v2, ResNet 200, Wide ResNet 68 และ Wide ResNet 3 ^{[ 53 ]}ผลงานรองชนะเลิศคือ ResNeXt ซึ่งรวมโมดูล Inception เข้ากับ ResNet ^{[ 54 ]}

ในปี 2017 ผลงานที่ชนะเลิศคือเครือข่าย Squeeze-and-Excitation (SENet) ซึ่งลดข้อผิดพลาด 5 อันดับแรกเหลือ 2.251% ^{[ 55 ]}

ผู้จัดงานการแข่งขันระบุในปี 2017 ว่าการแข่งขันในปี 2017 จะเป็นครั้งสุดท้าย เนื่องจากเกณฑ์มาตรฐานได้รับการแก้ไขแล้วและไม่เป็นความท้าทายอีกต่อไป พวกเขายังระบุด้วยว่าจะจัดการแข่งขันใหม่เกี่ยวกับภาพ 3 มิติ^{[ 1 ]}อย่างไรก็ตาม การแข่งขันดังกล่าวไม่เคยเกิดขึ้นจริง

อคติใน ImageNet

มีการประมาณว่าป้ายกำกับมากกว่า 6% ในชุดตรวจสอบความถูกต้องของ ImageNet-1k นั้นผิดพลาด^{[ 56 ]}นอกจากนี้ยังพบว่าประมาณ 10% ของ ImageNet-1k มีป้ายกำกับที่คลุมเครือหรือผิดพลาด และเมื่อนำเสนอการคาดการณ์ของแบบจำลองและป้ายกำกับ ImageNet ดั้งเดิม ผู้ให้คำอธิบายประกอบที่เป็นมนุษย์จะเลือกการคาดการณ์ของแบบจำลองที่ทันสมัยที่สุดในปี 2020 ซึ่งได้รับการฝึกฝนบน ImageNet ดั้งเดิม ซึ่งบ่งชี้ว่า ImageNet-1k ถึงจุดอิ่มตัวแล้ว^{[ 57 ]}

การศึกษาประวัติของเลเยอร์หลายชั้น ( อนุกรมวิธานคลาสวัตถุ และการติดป้ายกำกับ) ของ ImageNet และ WordNet ในปี 2019 อธิบายว่าอคติฝังลึกอยู่ในวิธีการจำแนกประเภทส่วนใหญ่สำหรับรูปภาพทุกประเภท^{[ 58 ]}^{[ 59 ]}^{[ 60 ]}^{[ 61 ]} ImageNet กำลังดำเนินการเพื่อแก้ไขแหล่งที่มาของอคติต่างๆ^{[ 62 ]}

ข้อเสียอย่างหนึ่งของการใช้ WordNet คือ หมวดหมู่อาจจะ "สูงส่ง" เกินกว่าที่จะเหมาะสมกับ ImageNet: "คนส่วนใหญ่สนใจเลดี้ กาก้า หรือไอพอด มินิ มากกว่าไดโพลโดคัส สายพันธุ์หายากนี้ "

ดูเพิ่มเติม

ลิงก์ภายนอก

เว็บไซต์อย่างเป็นทางการ

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 11 ]

[ 14 ]

[ 16 ]

[ 17 ]

[ 19 ]

[ 20 ]

[

[ 22 ]

[ 23 ]

[ 24 ]

[ 25 ]

[ 27 ]

[ 28 ]

[ 29 ]

[ 30 ]

[ 31 ]

[ 32 ]

[ 34 ]

[ 36 ]

[ 37 ]

[ 38 ]

[ 39 ]

[ 40 ]

[ 41 ]

[ 42 ]

[ 43 ]

[

[

[ 46 ]

[ 47 ]

[ 48 ]

49 ] ผล

[ 50 ]

[ 51 ]

[ 52 ]

[ 53 ]

[ 54 ]

[ 55 ]

[ 56 ]

[ 57 ]

[ 58 ]

[ 59 ]

[ 60 ]

[ 61 ]

[ 62 ]