กลับไปหน้าบทความ

อ่าน 4 นาที

คุณมองแค่ครั้งเดียว

You Only Look Once ( YOLO ) คือชุดของ ระบบ ตรวจจับวัตถุ แบบเรียลไทม์ ที่ใช้ โครงข่ายประสาทเทียมแบบคอนโวลูชัน เปิดตัวครั้งแรกโดย Joseph Redmon และคณะในปี 2015 [ 1 ] YOLO...

คุณมองแค่ครั้งเดียว

คุณมองแค่ครั้งเดียว
ผู้เขียนต้นฉบับโจเซฟ เรดมอน, ซานโตช ดิวาลา, รอสส์ เกอร์ชิค, อาลี ฟาร์ฮาดี
ปล่อย2015
เวอร์ชันเสถียร
YOLOv12 / 2025-02-20
เขียนเป็นไพธอน
พิมพ์
เว็บไซต์pjreddie.com/darknet/yolo/
วัตถุที่ตรวจจับได้ด้วยโมดูลโครงข่ายประสาทเทียมเชิงลึกของ OpenCV โดยใช้โมเดล YOLOv3 ที่ฝึกฝนบน ชุดข้อมูล COCOซึ่งสามารถตรวจจับวัตถุได้ 80 คลาสทั่วไป

You Only Look Once ( YOLO ) คือชุดของ ระบบ ตรวจจับวัตถุ แบบเรียลไทม์ ที่ใช้โครงข่ายประสาทเทียมแบบคอนโวลูชันเปิดตัวครั้งแรกโดย Joseph Redmon และคณะในปี 2015 [ 1 ] YOLO ได้รับการพัฒนาและปรับปรุงหลายครั้ง จนกลายเป็นหนึ่งในเฟรมเวิร์กการตรวจจับวัตถุที่ได้รับความนิยมมากที่สุด[ 2 ]

ชื่อ "You Only Look Once" หมายถึงข้อเท็จจริงที่ว่าอัลกอริทึมนี้ต้องการเพียงการส่งผ่านการแพร่กระจายไปข้างหน้าเพียงครั้งเดียวผ่านเครือข่ายประสาทเทียมเพื่อทำการทำนาย ซึ่งแตกต่างจากเทคนิคก่อนหน้านี้ที่ใช้การเสนอภูมิภาค เช่นR-CNNที่ต้องใช้หลายพันครั้งสำหรับภาพเดียว[ 3 ] [ 4 ]

ภาพรวม

เมื่อเปรียบเทียบกับวิธีการก่อนหน้านี้ เช่นR-CNNและOverFeat [ 5 ] แทนที่จะใช้โมเดลกับรูปภาพในหลายตำแหน่งและ หลายขนาด YOLO จะใช้เครือข่ายประสาทเทียมเพียงเครือข่ายเดียวกับรูปภาพทั้งหมด เครือข่ายนี้จะแบ่งรูปภาพออกเป็นส่วนๆ และทำนายกรอบขอบเขตและความน่าจะเป็นสำหรับแต่ละส่วน กรอบขอบเขตเหล่านี้จะถูกถ่วงน้ำหนักด้วยความน่าจะเป็นที่ทำนายไว้

โอเวอร์ฟีท

OverFeat เป็นโมเดลที่มีอิทธิพลในช่วงแรกสำหรับการจำแนกและระบุตำแหน่งวัตถุพร้อมกัน[ 5 ] [ 6 ]สถาปัตยกรรมของมันมีดังต่อไปนี้:

  • ฝึกโครงข่ายประสาทเทียมสำหรับการจำแนกภาพเท่านั้น ("โครงข่ายที่ได้รับการฝึกฝนเพื่อการจำแนก") ตัวอย่างเช่นAlexNetเป็นต้น
  • ลบเลเยอร์สุดท้ายของเครือข่ายที่ฝึกฝนแล้วออก และสำหรับคลาสวัตถุที่เป็นไปได้ทั้งหมด ให้เริ่มต้นโมดูลเครือข่ายที่เลเยอร์สุดท้าย ("เครือข่ายการถดถอย") พารามิเตอร์ของเครือข่ายพื้นฐานจะถูกตรึงไว้ เครือข่ายการถดถอยจะถูกฝึกฝนเพื่อทำนายพิกัดของมุมสองมุมของกรอบล้อมรอบวัตถุ
  • ในระหว่างขั้นตอนการประมวลผล เครือข่ายที่ได้รับการฝึกฝนด้านการจำแนกประเภทจะถูกประมวลผลกับภาพเดียวกันในระดับการซูมและการครอบตัดที่แตกต่างกันหลายระดับ สำหรับแต่ละระดับ เครือข่ายจะให้ผลลัพธ์เป็นป้ายกำกับคลาสและความน่าจะเป็นสำหรับป้ายกำกับคลาสนั้น จากนั้นผลลัพธ์แต่ละรายการจะถูกประมวลผลโดยเครือข่ายการถดถอยของคลาสที่สอดคล้องกัน ซึ่งจะทำให้ได้กรอบสี่เหลี่ยมที่มีป้ายกำกับคลาสและความน่าจะเป็นนับพันกรอบ กรอบสี่เหลี่ยมเหล่านี้จะถูกรวมเข้าด้วยกันจนเหลือเพียงกรอบสี่เหลี่ยมเดียวที่มีป้ายกำกับคลาสเดียว

เวอร์ชัน

ซีรีส์ YOLO มีสองส่วน ส่วนแรกประกอบด้วย YOLOv1, v2 และ v3 ซึ่งเผยแพร่บนเว็บไซต์ที่ดูแลโดย Joseph Redmon [ 7 ]

YOLOv1

อัลกอริทึม YOLO ดั้งเดิมที่เปิดตัวในปี 2015 [ 1 ]แบ่งภาพออกเป็นตารางเซลล์ หากจุดศูนย์กลางของกรอบล้อมรอบวัตถุตกลงไปในเซลล์ตาราง เซลล์นั้นจะถือว่า "มี" วัตถุนั้นอยู่ภายใน แต่ละเซลล์ตารางจะทำนายกรอบล้อมรอบ B และคะแนนความเชื่อมั่นสำหรับกรอบเหล่านั้น คะแนนความเชื่อมั่นเหล่านี้สะท้อนให้เห็นว่าแบบจำลองมีความมั่นใจมากแค่ไหนว่ากรอบนั้นมีวัตถุอยู่ภายใน และแบบจำลองคิดว่ากรอบที่ทำนายนั้นมีความแม่นยำมากแค่ไหน

โดยละเอียดแล้ว เครือข่ายจะทำการดำเนินการคอนโวลูชันแบบเดียวกันกับแต่ละส่วนย่อย ผลลัพธ์ของเครือข่ายในแต่ละส่วนย่อยจะเป็นทูเปิลดังนี้: โดยที่

  • คือ ความน่าจะ เป็นแบบมีเงื่อนไขที่เซลล์นั้นจะมีวัตถุของคลาสโดยมีเงื่อนไขว่าเซลล์นั้นต้องมีวัตถุอย่างน้อยหนึ่งชิ้น
  • คือพิกัดจุดศูนย์กลาง ความกว้าง และความสูงของกรอบล้อมรอบที่คาดการณ์ไว้ลำดับที่ ซึ่งอยู่ตรงกลางเซลล์ มีการคาดการณ์กรอบล้อมรอบหลายกรอบเพื่อให้การคาดการณ์แต่ละครั้งมีความเชี่ยวชาญในกรอบล้อมรอบประเภทใดประเภทหนึ่ง ตัวอย่างเช่น วัตถุที่เรียวอาจถูกคาดการณ์โดยในขณะที่วัตถุที่อ้วนอาจถูกคาดการณ์โดย
  • คือค่าการทับซ้อน ที่คาดการณ์ไว้ (IoU) ของกรอบล้อมรอบแต่ละอันกับค่าความจริงที่สอดคล้องกัน

โครงสร้างเครือข่ายประกอบด้วยเลเยอร์คอนโวลูชัน 24 เลเยอร์ ตามด้วยเลเยอร์เชื่อมต่อเต็มรูปแบบ 2 เลเยอร์

ระหว่างการฝึกฝน สำหรับแต่ละเซลล์ หากเซลล์นั้นมีกรอบขอบเขตความจริงอยู่ภายใน จะใช้เฉพาะกรอบขอบเขตที่ทำนายได้ซึ่งมีค่า IoU สูงที่สุดกับกรอบขอบเขตความจริงเท่านั้นสำหรับการลดระดับความชัน โดยเฉพาะอย่างยิ่ง ให้เป็นกรอบขอบเขตที่ทำนายได้ และให้เป็นป้ายกำกับคลาสความจริง จากนั้นจะถูกฝึกฝนด้วยการลดระดับความชันให้เข้าใกล้ความจริง โดยจะถูกฝึกฝนเข้าหา ส่วนค่าอื่นๆจะถูกฝึกฝนเข้าหาศูนย์

หากเซลล์ไม่มีค่าความจริงพื้นฐาน ระบบจะฝึกฝนเซลล์โดยใช้การลดระดับความชันเพื่อให้ค่าเข้าใกล้ศูนย์ เท่านั้น

โยโลฟ2

YOLOv2 (หรือที่รู้จักกันในชื่อ YOLO9000) [ 8 ] [ 9 ]ซึ่งเปิดตัวในปี 2016 ได้ปรับปรุงโมเดลเดิมโดยการเพิ่มการปรับมาตรฐานแบบแบตช์ ตัวจำแนกที่มีความละเอียดสูงขึ้น และใช้แองเคอร์บ็อกซ์เพื่อทำนายขอบเขตของวัตถุ สามารถตรวจจับวัตถุได้มากกว่า 9000 ประเภท นอกจากนี้ยังเผยแพร่บน GitHub ภายใต้ใบอนุญาต Apache 2.0 [ 10 ]

YOLOv3

YOLOv3 ซึ่งเปิดตัวในปี 2018 มีเพียงการปรับปรุง "ทีละน้อย" เท่านั้น รวมถึงการใช้เครือข่ายแบ็คโบนที่ซับซ้อนมากขึ้น มาตราส่วนหลายระดับสำหรับการตรวจจับ และฟังก์ชันการสูญเสียที่ซับซ้อนยิ่งขึ้น[ 11 ]

YOLOv4 และอื่นๆ

YOLO เวอร์ชันต่อมา (v4, v5 เป็นต้น) [ 12 ] [ 13 ] [ 14 ] [ 15 ]ได้รับการพัฒนาโดยนักวิจัยที่แตกต่างกัน ซึ่งปรับปรุงประสิทธิภาพและแนะนำคุณสมบัติใหม่ๆ เพิ่มเติม เวอร์ชันเหล่านี้ไม่ได้เกี่ยวข้องอย่างเป็นทางการกับผู้เขียน YOLO ดั้งเดิม แต่สร้างขึ้นจากผลงานของพวกเขา[ 7 ]ณ ปี 2026 มีการเผยแพร่เวอร์ชันจนถึง YOLO26 แล้ว[ 2 ] [ 16 ]

ดูเพิ่มเติม

  • เว็บไซต์อย่างเป็นทางการของ YOLO
  • การนำ YOLO ไปใช้ใน Darknet
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=You_Only_Look_Once&oldid=1357171772 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ คุณมองแค่ครั้งเดียว

You Only Look Once ( YOLO ) คือชุดของ ระบบ ตรวจจับวัตถุ แบบเรียลไทม์ ที่ใช้ โครงข่ายประสาทเทียมแบบคอนโวลูชัน เปิดตัวครั้งแรกโดย Joseph Redmon และคณะในปี 2015 [ 1 ] YOLO...

ภาพรวม

เมื่อเปรียบเทียบกับวิธีการก่อนหน้านี้ เช่น R-CNN และ OverFeat [ 5 ] แทนที่จะใช้โมเดลกับรูปภาพในหลายตำแหน่งและ หลาย ขนาด YOLO จะใช้เครือข่ายประสาทเทียมเพียงเครือข่ายเดียวกับรูปภาพทั้งหมด เครือข่ายนี้จะแบ่งรูปภาพออกเป็นส่วนๆ...

โอเวอร์ฟีท

OverFeat เป็นโมเดลที่มีอิทธิพลในช่วงแรกสำหรับการจำแนกและระบุตำแหน่งวัตถุพร้อมกัน [ 5 ] [ 6 ] สถาปัตยกรรมของมันมีดังต่อไปนี้:

เวอร์ชัน

ซีรีส์ YOLO มีสองส่วน ส่วนแรกประกอบด้วย YOLOv1, v2 และ v3 ซึ่งเผยแพร่บนเว็บไซต์ที่ดูแลโดย Joseph Redmon [ 7 ]