คุณมองแค่ครั้งเดียว

คุณมองแค่ครั้งเดียว
คุณมองแค่ครั้งเดียว
ผู้เขียนต้นฉบับ	โจเซฟ เรดมอน, ซานโตช ดิวาลา, รอสส์ เกอร์ชิค, อาลี ฟาร์ฮาดี
ปล่อย	2015
เวอร์ชันเสถียร	YOLOv12 / 2025-02-20
เขียนเป็น	ไพธอน
พิมพ์	การตรวจจับวัตถุ; โครงข่ายประสาทเทียมแบบคอนโวลูชัน; คอมพิวเตอร์วิชั่น;
เว็บไซต์	pjreddie.com/darknet/yolo/

วัตถุที่ตรวจจับได้ด้วยโมดูลโครงข่ายประสาทเทียมเชิงลึกของ OpenCV โดยใช้โมเดล YOLOv3 ที่ฝึกฝนบน ชุดข้อมูล COCOซึ่งสามารถตรวจจับวัตถุได้ 80 คลาสทั่วไป

You Only Look Once ( YOLO ) คือชุดของ ระบบ ตรวจจับวัตถุ แบบเรียลไทม์ ที่ใช้โครงข่ายประสาทเทียมแบบคอนโวลูชันเปิดตัวครั้งแรกโดย Joseph Redmon และคณะในปี 2015 ^{[ 1 ]} YOLO ได้รับการพัฒนาและปรับปรุงหลายครั้ง จนกลายเป็นหนึ่งในเฟรมเวิร์กการตรวจจับวัตถุที่ได้รับความนิยมมากที่สุด^{[ 2 ]}

ชื่อ "You Only Look Once" หมายถึงข้อเท็จจริงที่ว่าอัลกอริทึมนี้ต้องการเพียงการส่งผ่านการแพร่กระจายไปข้างหน้าเพียงครั้งเดียวผ่านเครือข่ายประสาทเทียมเพื่อทำการทำนาย ซึ่งแตกต่างจากเทคนิคก่อนหน้านี้ที่ใช้การเสนอภูมิภาค เช่นR-CNNที่ต้องใช้หลายพันครั้งสำหรับภาพเดียว^{[ 3 ]}^{[ 4 ]}

ภาพรวม

เมื่อเปรียบเทียบกับวิธีการก่อนหน้านี้ เช่นR-CNNและOverFeat [ ^{5 ] แทนที่จะใช้โมเดลกับรูปภาพในหลายตำแหน่งและ หลาย}ขนาด YOLO จะใช้เครือข่ายประสาทเทียมเพียงเครือข่ายเดียวกับรูปภาพทั้งหมด เครือข่ายนี้จะแบ่งรูปภาพออกเป็นส่วนๆ และทำนายกรอบขอบเขตและความน่าจะเป็นสำหรับแต่ละส่วน กรอบขอบเขตเหล่านี้จะถูกถ่วงน้ำหนักด้วยความน่าจะเป็นที่ทำนายไว้

โอเวอร์ฟีท

OverFeat เป็นโมเดลที่มีอิทธิพลในช่วงแรกสำหรับการจำแนกและระบุตำแหน่งวัตถุพร้อมกัน^{[ 5 ]}^{[ 6 ]}สถาปัตยกรรมของมันมีดังต่อไปนี้:

ฝึกโครงข่ายประสาทเทียมสำหรับการจำแนกภาพเท่านั้น ("โครงข่ายที่ได้รับการฝึกฝนเพื่อการจำแนก") ตัวอย่างเช่นAlexNetเป็นต้น
ลบเลเยอร์สุดท้ายของเครือข่ายที่ฝึกฝนแล้วออก และสำหรับคลาสวัตถุที่เป็นไปได้ทั้งหมด ให้เริ่มต้นโมดูลเครือข่ายที่เลเยอร์สุดท้าย ("เครือข่ายการถดถอย") พารามิเตอร์ของเครือข่ายพื้นฐานจะถูกตรึงไว้ เครือข่ายการถดถอยจะถูกฝึกฝนเพื่อทำนายพิกัดของมุมสองมุมของกรอบล้อมรอบวัตถุ $(x,y)$

ในระหว่างขั้นตอนการประมวลผล เครือข่ายที่ได้รับการฝึกฝนด้านการจำแนกประเภทจะถูกประมวลผลกับภาพเดียวกันในระดับการซูมและการครอบตัดที่แตกต่างกันหลายระดับ สำหรับแต่ละระดับ เครือข่ายจะให้ผลลัพธ์เป็นป้ายกำกับคลาสและความน่าจะเป็นสำหรับป้ายกำกับคลาสนั้น จากนั้นผลลัพธ์แต่ละรายการจะถูกประมวลผลโดยเครือข่ายการถดถอยของคลาสที่สอดคล้องกัน ซึ่งจะทำให้ได้กรอบสี่เหลี่ยมที่มีป้ายกำกับคลาสและความน่าจะเป็นนับพันกรอบ กรอบสี่เหลี่ยมเหล่านี้จะถูกรวมเข้าด้วยกันจนเหลือเพียงกรอบสี่เหลี่ยมเดียวที่มีป้ายกำกับคลาสเดียว

เวอร์ชัน

ซีรีส์ YOLO มีสองส่วน ส่วนแรกประกอบด้วย YOLOv1, v2 และ v3 ซึ่งเผยแพร่บนเว็บไซต์ที่ดูแลโดย Joseph Redmon ^{[ 7 ]}

YOLOv1

อัลกอริทึม YOLO ดั้งเดิมที่เปิดตัวในปี 2015 ^{[ 1 ]}แบ่งภาพออกเป็นตารางเซลล์ หากจุดศูนย์กลางของกรอบล้อมรอบวัตถุตกลงไปในเซลล์ตาราง เซลล์นั้นจะถือว่า "มี" วัตถุนั้นอยู่ภายใน แต่ละเซลล์ตารางจะทำนายกรอบล้อมรอบ B และคะแนนความเชื่อมั่นสำหรับกรอบเหล่านั้น คะแนนความเชื่อมั่นเหล่านี้สะท้อนให้เห็นว่าแบบจำลองมีความมั่นใจมากแค่ไหนว่ากรอบนั้นมีวัตถุอยู่ภายใน และแบบจำลองคิดว่ากรอบที่ทำนายนั้นมีความแม่นยำมากแค่ไหน $S\times S$

โดยละเอียดแล้ว เครือข่ายจะทำการดำเนินการคอนโวลูชันแบบเดียวกันกับแต่ละส่วนย่อย ผลลัพธ์ของเครือข่ายในแต่ละส่วนย่อยจะเป็นทูเปิลดังนี้: โดยที่ $S^{2}$ $(p_{1},\dots ,p_{C},c_{1},x_{1},y_{1},w_{1},h_{1},\dots ,c_{B},x_{B},y_{B},w_{B},h_{B})$

$p_{i}$ คือ ความน่าจะ เป็นแบบมีเงื่อนไขที่เซลล์นั้นจะมีวัตถุของคลาสโดยมีเงื่อนไขว่าเซลล์นั้นต้องมีวัตถุอย่างน้อยหนึ่งชิ้น $i$
$x_{j},y_{j},w_{j},h_{j}$ คือพิกัดจุดศูนย์กลาง ความกว้าง และความสูงของกรอบล้อมรอบที่คาดการณ์ไว้ลำดับที่ ซึ่งอยู่ตรงกลางเซลล์ มีการคาดการณ์กรอบล้อมรอบหลายกรอบเพื่อให้การคาดการณ์แต่ละครั้งมีความเชี่ยวชาญในกรอบล้อมรอบประเภทใดประเภทหนึ่ง ตัวอย่างเช่น วัตถุที่เรียวอาจถูกคาดการณ์โดยในขณะที่วัตถุที่อ้วนอาจถูกคาดการณ์โดย $j$ $j=2$ $j=1$
$c_{j}$ คือค่าการทับซ้อน ที่คาดการณ์ไว้ (IoU) ของกรอบล้อมรอบแต่ละอันกับค่าความจริงที่สอดคล้องกัน

โครงสร้างเครือข่ายประกอบด้วยเลเยอร์คอนโวลูชัน 24 เลเยอร์ ตามด้วยเลเยอร์เชื่อมต่อเต็มรูปแบบ 2 เลเยอร์

ระหว่างการฝึกฝน สำหรับแต่ละเซลล์ หากเซลล์นั้นมีกรอบขอบเขตความจริงอยู่ภายใน จะใช้เฉพาะกรอบขอบเขตที่ทำนายได้ซึ่งมีค่า IoU สูงที่สุดกับกรอบขอบเขตความจริงเท่านั้นสำหรับการลดระดับความชัน โดยเฉพาะอย่างยิ่ง ให้เป็นกรอบขอบเขตที่ทำนายได้ และให้เป็นป้ายกำกับคลาสความจริง จากนั้นจะถูกฝึกฝนด้วยการลดระดับความชันให้เข้าใกล้ความจริง โดยจะถูกฝึกฝนเข้าหา ส่วนค่าอื่นๆจะถูกฝึกฝนเข้าหาศูนย์ $j$ $i$ $x_{j},y_{j},w_{j},h_{j}$ $p_{i}$ $1$ $p_{i'}$

หากเซลล์ไม่มีค่าความจริงพื้นฐาน ระบบจะฝึกฝนเซลล์โดยใช้การลดระดับความชันเพื่อให้ค่าเข้าใกล้ศูนย์ เท่านั้น $c_{1},c_{2},\dots ,c_{B}$

โยโลฟ2

^{YOLOv2 (หรือที่รู้จักกันในชื่อ YOLO9000) [ 8 ]}^{[ 9 ]}ซึ่งเปิดตัวในปี 2016 ได้ปรับปรุงโมเดลเดิมโดยการเพิ่มการปรับมาตรฐานแบบแบตช์ ตัวจำแนกที่มีความละเอียดสูงขึ้น และใช้แองเคอร์บ็อกซ์เพื่อทำนายขอบเขตของวัตถุ สามารถตรวจจับวัตถุได้มากกว่า 9000 ประเภท นอกจากนี้ยังเผยแพร่บน GitHub ภายใต้ใบอนุญาต Apache 2.0 ^{[ 10 ]}

YOLOv3

YOLOv3 ซึ่งเปิดตัวในปี 2018 มีเพียงการปรับปรุง "ทีละน้อย" เท่านั้น รวมถึงการใช้เครือข่ายแบ็คโบนที่ซับซ้อนมากขึ้น มาตราส่วนหลายระดับสำหรับการตรวจจับ และฟังก์ชันการสูญเสียที่ซับซ้อนยิ่งขึ้น^{[ 11 ]}

YOLOv4 และอื่นๆ

YOLO เวอร์ชันต่อมา (v4, v5 เป็นต้น) ^{[ 12 ]}^{[ 13 ]}^{[ 14 ]}^{[ 15 ]}ได้รับการพัฒนาโดยนักวิจัยที่แตกต่างกัน ซึ่งปรับปรุงประสิทธิภาพและแนะนำคุณสมบัติใหม่ๆ เพิ่มเติม เวอร์ชันเหล่านี้ไม่ได้เกี่ยวข้องอย่างเป็นทางการกับผู้เขียน YOLO ดั้งเดิม แต่สร้างขึ้นจากผลงานของพวกเขา^{[ 7 ]}ณ ปี 2026 มีการเผยแพร่เวอร์ชันจนถึง YOLO26 แล้ว^{[ 2 ]}^{[ 16 ]}

ดูเพิ่มเติม

ลิงก์ภายนอก

เว็บไซต์อย่างเป็นทางการของ YOLO
การนำ YOLO ไปใช้ใน Darknet

[ 3 ]

[ 4 ]

[ 6 ]

YOLOv2 (หรือที่รู้จักกันในชื่อ YOLO9000) [ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]