อ่าน 4 นาที
คุณมองแค่ครั้งเดียว
You Only Look Once ( YOLO ) คือชุดของ ระบบ ตรวจจับวัตถุ แบบเรียลไทม์ ที่ใช้ โครงข่ายประสาทเทียมแบบคอนโวลูชัน เปิดตัวครั้งแรกโดย Joseph Redmon และคณะในปี 2015 [ 1 ] YOLO...
คุณมองแค่ครั้งเดียว
| คุณมองแค่ครั้งเดียว | |
|---|---|
| ผู้เขียนต้นฉบับ | โจเซฟ เรดมอน, ซานโตช ดิวาลา, รอสส์ เกอร์ชิค, อาลี ฟาร์ฮาดี |
| ปล่อย | 2015 |
| เวอร์ชันเสถียร | YOLOv12 / 2025-02-20 |
| เขียนเป็น | ไพธอน |
| พิมพ์ | |
| เว็บไซต์ | pjreddie.com/darknet/yolo/ |

You Only Look Once ( YOLO ) คือชุดของ ระบบ ตรวจจับวัตถุ แบบเรียลไทม์ ที่ใช้โครงข่ายประสาทเทียมแบบคอนโวลูชันเปิดตัวครั้งแรกโดย Joseph Redmon และคณะในปี 2015 [ 1 ] YOLO ได้รับการพัฒนาและปรับปรุงหลายครั้ง จนกลายเป็นหนึ่งในเฟรมเวิร์กการตรวจจับวัตถุที่ได้รับความนิยมมากที่สุด[ 2 ]
ชื่อ "You Only Look Once" หมายถึงข้อเท็จจริงที่ว่าอัลกอริทึมนี้ต้องการเพียงการส่งผ่านการแพร่กระจายไปข้างหน้าเพียงครั้งเดียวผ่านเครือข่ายประสาทเทียมเพื่อทำการทำนาย ซึ่งแตกต่างจากเทคนิคก่อนหน้านี้ที่ใช้การเสนอภูมิภาค เช่นR-CNNที่ต้องใช้หลายพันครั้งสำหรับภาพเดียว[ 3 ] [ 4 ]
ภาพรวม
เมื่อเปรียบเทียบกับวิธีการก่อนหน้านี้ เช่นR-CNNและOverFeat [ 5 ] แทนที่จะใช้โมเดลกับรูปภาพในหลายตำแหน่งและ หลายขนาด YOLO จะใช้เครือข่ายประสาทเทียมเพียงเครือข่ายเดียวกับรูปภาพทั้งหมด เครือข่ายนี้จะแบ่งรูปภาพออกเป็นส่วนๆ และทำนายกรอบขอบเขตและความน่าจะเป็นสำหรับแต่ละส่วน กรอบขอบเขตเหล่านี้จะถูกถ่วงน้ำหนักด้วยความน่าจะเป็นที่ทำนายไว้
โอเวอร์ฟีท
OverFeat เป็นโมเดลที่มีอิทธิพลในช่วงแรกสำหรับการจำแนกและระบุตำแหน่งวัตถุพร้อมกัน[ 5 ] [ 6 ]สถาปัตยกรรมของมันมีดังต่อไปนี้:
- ฝึกโครงข่ายประสาทเทียมสำหรับการจำแนกภาพเท่านั้น ("โครงข่ายที่ได้รับการฝึกฝนเพื่อการจำแนก") ตัวอย่างเช่นAlexNetเป็นต้น
- ลบเลเยอร์สุดท้ายของเครือข่ายที่ฝึกฝนแล้วออก และสำหรับคลาสวัตถุที่เป็นไปได้ทั้งหมด ให้เริ่มต้นโมดูลเครือข่ายที่เลเยอร์สุดท้าย ("เครือข่ายการถดถอย") พารามิเตอร์ของเครือข่ายพื้นฐานจะถูกตรึงไว้ เครือข่ายการถดถอยจะถูกฝึกฝนเพื่อทำนายพิกัดของมุมสองมุมของกรอบล้อมรอบวัตถุ
- ในระหว่างขั้นตอนการประมวลผล เครือข่ายที่ได้รับการฝึกฝนด้านการจำแนกประเภทจะถูกประมวลผลกับภาพเดียวกันในระดับการซูมและการครอบตัดที่แตกต่างกันหลายระดับ สำหรับแต่ละระดับ เครือข่ายจะให้ผลลัพธ์เป็นป้ายกำกับคลาสและความน่าจะเป็นสำหรับป้ายกำกับคลาสนั้น จากนั้นผลลัพธ์แต่ละรายการจะถูกประมวลผลโดยเครือข่ายการถดถอยของคลาสที่สอดคล้องกัน ซึ่งจะทำให้ได้กรอบสี่เหลี่ยมที่มีป้ายกำกับคลาสและความน่าจะเป็นนับพันกรอบ กรอบสี่เหลี่ยมเหล่านี้จะถูกรวมเข้าด้วยกันจนเหลือเพียงกรอบสี่เหลี่ยมเดียวที่มีป้ายกำกับคลาสเดียว
เวอร์ชัน
ซีรีส์ YOLO มีสองส่วน ส่วนแรกประกอบด้วย YOLOv1, v2 และ v3 ซึ่งเผยแพร่บนเว็บไซต์ที่ดูแลโดย Joseph Redmon [ 7 ]
YOLOv1
อัลกอริทึม YOLO ดั้งเดิมที่เปิดตัวในปี 2015 [ 1 ]แบ่งภาพออกเป็นตารางเซลล์ หากจุดศูนย์กลางของกรอบล้อมรอบวัตถุตกลงไปในเซลล์ตาราง เซลล์นั้นจะถือว่า "มี" วัตถุนั้นอยู่ภายใน แต่ละเซลล์ตารางจะทำนายกรอบล้อมรอบ B และคะแนนความเชื่อมั่นสำหรับกรอบเหล่านั้น คะแนนความเชื่อมั่นเหล่านี้สะท้อนให้เห็นว่าแบบจำลองมีความมั่นใจมากแค่ไหนว่ากรอบนั้นมีวัตถุอยู่ภายใน และแบบจำลองคิดว่ากรอบที่ทำนายนั้นมีความแม่นยำมากแค่ไหน
โดยละเอียดแล้ว เครือข่ายจะทำการดำเนินการคอนโวลูชันแบบเดียวกันกับแต่ละส่วนย่อย ผลลัพธ์ของเครือข่ายในแต่ละส่วนย่อยจะเป็นทูเปิลดังนี้: โดยที่
- คือ ความน่าจะ เป็นแบบมีเงื่อนไขที่เซลล์นั้นจะมีวัตถุของคลาสโดยมีเงื่อนไขว่าเซลล์นั้นต้องมีวัตถุอย่างน้อยหนึ่งชิ้น
- คือพิกัดจุดศูนย์กลาง ความกว้าง และความสูงของกรอบล้อมรอบที่คาดการณ์ไว้ลำดับที่ ซึ่งอยู่ตรงกลางเซลล์ มีการคาดการณ์กรอบล้อมรอบหลายกรอบเพื่อให้การคาดการณ์แต่ละครั้งมีความเชี่ยวชาญในกรอบล้อมรอบประเภทใดประเภทหนึ่ง ตัวอย่างเช่น วัตถุที่เรียวอาจถูกคาดการณ์โดยในขณะที่วัตถุที่อ้วนอาจถูกคาดการณ์โดย
- คือค่าการทับซ้อน ที่คาดการณ์ไว้ (IoU) ของกรอบล้อมรอบแต่ละอันกับค่าความจริงที่สอดคล้องกัน
โครงสร้างเครือข่ายประกอบด้วยเลเยอร์คอนโวลูชัน 24 เลเยอร์ ตามด้วยเลเยอร์เชื่อมต่อเต็มรูปแบบ 2 เลเยอร์
ระหว่างการฝึกฝน สำหรับแต่ละเซลล์ หากเซลล์นั้นมีกรอบขอบเขตความจริงอยู่ภายใน จะใช้เฉพาะกรอบขอบเขตที่ทำนายได้ซึ่งมีค่า IoU สูงที่สุดกับกรอบขอบเขตความจริงเท่านั้นสำหรับการลดระดับความชัน โดยเฉพาะอย่างยิ่ง ให้เป็นกรอบขอบเขตที่ทำนายได้ และให้เป็นป้ายกำกับคลาสความจริง จากนั้นจะถูกฝึกฝนด้วยการลดระดับความชันให้เข้าใกล้ความจริง โดยจะถูกฝึกฝนเข้าหา ส่วนค่าอื่นๆจะถูกฝึกฝนเข้าหาศูนย์
หากเซลล์ไม่มีค่าความจริงพื้นฐาน ระบบจะฝึกฝนเซลล์โดยใช้การลดระดับความชันเพื่อให้ค่าเข้าใกล้ศูนย์ เท่านั้น
โยโลฟ2
YOLOv2 (หรือที่รู้จักกันในชื่อ YOLO9000) [ 8 ] [ 9 ]ซึ่งเปิดตัวในปี 2016 ได้ปรับปรุงโมเดลเดิมโดยการเพิ่มการปรับมาตรฐานแบบแบตช์ ตัวจำแนกที่มีความละเอียดสูงขึ้น และใช้แองเคอร์บ็อกซ์เพื่อทำนายขอบเขตของวัตถุ สามารถตรวจจับวัตถุได้มากกว่า 9000 ประเภท นอกจากนี้ยังเผยแพร่บน GitHub ภายใต้ใบอนุญาต Apache 2.0 [ 10 ]
YOLOv3
YOLOv3 ซึ่งเปิดตัวในปี 2018 มีเพียงการปรับปรุง "ทีละน้อย" เท่านั้น รวมถึงการใช้เครือข่ายแบ็คโบนที่ซับซ้อนมากขึ้น มาตราส่วนหลายระดับสำหรับการตรวจจับ และฟังก์ชันการสูญเสียที่ซับซ้อนยิ่งขึ้น[ 11 ]
YOLOv4 และอื่นๆ
YOLO เวอร์ชันต่อมา (v4, v5 เป็นต้น) [ 12 ] [ 13 ] [ 14 ] [ 15 ]ได้รับการพัฒนาโดยนักวิจัยที่แตกต่างกัน ซึ่งปรับปรุงประสิทธิภาพและแนะนำคุณสมบัติใหม่ๆ เพิ่มเติม เวอร์ชันเหล่านี้ไม่ได้เกี่ยวข้องอย่างเป็นทางการกับผู้เขียน YOLO ดั้งเดิม แต่สร้างขึ้นจากผลงานของพวกเขา[ 7 ]ณ ปี 2026 มีการเผยแพร่เวอร์ชันจนถึง YOLO26 แล้ว[ 2 ] [ 16 ]
ดูเพิ่มเติม
- คอมพิวเตอร์วิชั่น
- การตรวจจับวัตถุ
- โครงข่ายประสาทเทียมแบบคอนโวลูชัน
- อาร์-ซีเอ็นเอ็น
- สควีซเน็ต
- โมบายเน็ต
- เอฟฟิเชียนเน็ต
ลิงก์ภายนอก
- เว็บไซต์อย่างเป็นทางการของ YOLO
- การนำ YOLO ไปใช้ใน Darknet
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ คุณมองแค่ครั้งเดียว
You Only Look Once ( YOLO ) คือชุดของ ระบบ ตรวจจับวัตถุ แบบเรียลไทม์ ที่ใช้ โครงข่ายประสาทเทียมแบบคอนโวลูชัน เปิดตัวครั้งแรกโดย Joseph Redmon และคณะในปี 2015 [ 1 ] YOLO...
ภาพรวม
เมื่อเปรียบเทียบกับวิธีการก่อนหน้านี้ เช่น R-CNN และ OverFeat [ 5 ] แทนที่จะใช้โมเดลกับรูปภาพในหลายตำแหน่งและ หลาย ขนาด YOLO จะใช้เครือข่ายประสาทเทียมเพียงเครือข่ายเดียวกับรูปภาพทั้งหมด เครือข่ายนี้จะแบ่งรูปภาพออกเป็นส่วนๆ...
โอเวอร์ฟีท
OverFeat เป็นโมเดลที่มีอิทธิพลในช่วงแรกสำหรับการจำแนกและระบุตำแหน่งวัตถุพร้อมกัน [ 5 ] [ 6 ] สถาปัตยกรรมของมันมีดังต่อไปนี้:
เวอร์ชัน
ซีรีส์ YOLO มีสองส่วน ส่วนแรกประกอบด้วย YOLOv1, v2 และ v3 ซึ่งเผยแพร่บนเว็บไซต์ที่ดูแลโดย Joseph Redmon [ 7 ]