กลับไปหน้าบทความ

อ่าน 4 นาที

โครงข่ายประสาทเทียมแบบคอนโวลูชันตามภูมิภาค

เครือข่ายประสาทเทียมแบบ Convolutional ที่ใช้พื้นที่ (R-CNN) เป็นตระกูลของ แบบจำลอง การเรียนรู้ของเครื่อง สำหรับ การมองเห็นด้วยคอมพิวเตอร์ และโดยเฉพาะอย่างยิ่ง การตรวจจับ...

โครงข่ายประสาทเทียมแบบคอนโวลูชันตามภูมิภาค

สถาปัตยกรรม R-CNN

เครือข่ายประสาทเทียมแบบ Convolutional ที่ใช้พื้นที่ (R-CNN)เป็นตระกูลของ แบบจำลอง การเรียนรู้ของเครื่องสำหรับการมองเห็นด้วยคอมพิวเตอร์และโดยเฉพาะอย่างยิ่ง การตรวจจับ และระบุตำแหน่งวัตถุ[ 1 ]เป้าหมายดั้งเดิมของ R-CNN คือการรับภาพอินพุตและสร้างชุดของกรอบล้อมรอบเป็นเอาต์พุต โดยที่กรอบล้อมรอบแต่ละอันประกอบด้วยวัตถุและหมวดหมู่ (เช่น รถยนต์หรือคนเดินเท้า) ของวัตถุนั้น โดยทั่วไป สถาปัตยกรรม R-CNN จะทำการค้นหาแบบเลือก[ 2 ]บนแผนที่คุณลักษณะที่ส่งออกโดย CNN

R-CNN ได้รับการขยายเพื่อดำเนินการงานคอมพิวเตอร์วิชั่นอื่นๆ เช่น การติดตามวัตถุจากกล้องที่ติดตั้งบนโดรน[ 3 ]การระบุตำแหน่งข้อความในภาพ[ 4 ]และการเปิดใช้งานการตรวจจับวัตถุในGoogle Lens [ 5 ]

Mask R-CNN ยังเป็นหนึ่งในเจ็ดภารกิจใน MLPerf Training Benchmark ซึ่งเป็นการแข่งขันเพื่อเร่งความเร็วในการฝึกอบรมเครือข่ายประสาทเทียม[ 6 ]

ประวัติศาสตร์

ต่อไปนี้เป็นตัวอย่างบางส่วนของเวอร์ชัน R-CNN ที่ได้รับการพัฒนาขึ้นมา

  • พฤศจิกายน 2013: R- CNN [ 7 ]
  • เมษายน 2558: Fast R- CNN [ 8 ]
  • มิถุนายน 2558: Faster R- CNN [ 9 ]
  • มีนาคม 2560: หน้ากาก R- CNN [ 10 ]
  • ธันวาคม 2017: Cascade R-CNNได้รับการฝึกฝนด้วยเกณฑ์ Intersection over Union (IoU หรือที่รู้จักกันในชื่อดัชนี Jaccard ) ที่เพิ่มขึ้น ทำให้แต่ละขั้นตอนมีความเลือกมากขึ้นต่อผลบวกเท็จที่อยู่ใกล้เคียง[ 11 ]
  • มิถุนายน 2019: Mesh R-CNNเพิ่มความสามารถในการสร้างตาข่าย 3 มิติจากภาพ 2 มิติ[ 12 ]

สถาปัตยกรรม

สำหรับบทความวิจารณ์ โปรดดูที่[ 1 ] [ 13 ]

เมื่อได้รับภาพ (หรือแผนที่คุณลักษณะที่คล้ายภาพ) การค้นหาแบบเลือก (เรียกอีกอย่างว่าการจัดกลุ่มตามลำดับชั้น) จะแบ่งส่วนภาพก่อนโดยใช้อัลกอริทึมใน (Felzenszwalb และ Huttenlocher, 2004) [ 14 ]จากนั้นจึงดำเนินการดังต่อไปนี้: [ 2 ]

อินพุต:ภาพ (สี) เอาต์พุต:ชุดสมมติฐานตำแหน่งของวัตถุ L แบ่งภาพออกเป็นส่วนๆ เริ่มต้น R = {r 1 , ..., r n } โดยใช้ Felzenszwalb และ Huttenlocher (2004) กำหนดชุดความคล้ายคลึงเริ่มต้น S = ∅ สำหรับแต่ละคู่ภูมิภาคใกล้เคียง (r i , r j ) ให้ทำดังนี้ คำนวณค่าความคล้ายคลึง s(r i , r j ) S = S ∪ s(r i , r j ) ในขณะที่ S ≠ ∅ do หาค่าความคล้ายคลึงสูงสุด s(r i , r j ) = max(S) รวมภูมิภาคที่สอดคล้องกัน r t = r i ∪ r j ลบความคล้ายคลึงกันเกี่ยวกับ r i : S = S \ s(r i , r∗) ลบความคล้ายคลึงกันเกี่ยวกับ r j : S = S \ s(r∗, r j ) คำนวณเซตความคล้ายคลึง S tระหว่าง r tและเพื่อนบ้านของมัน S = S ∪ S t R = R ∪ r t ดึงกล่องระบุตำแหน่งวัตถุ L จากทุกภูมิภาคใน R 

อาร์-ซีเอ็นเอ็น

สถาปัตยกรรม R-CNN

ใน R-CNN การทำนายจะดำเนินการเป็นสองขั้นตอน ขั้นตอนการประมวลผลล่วงหน้าคือการค้นหาแบบเลือกสรรซึ่งจะสร้างชุดวัตถุเป้าหมายจำนวนมาก (โดยทั่วไปมากถึง 2000 รายการ) ที่เรียกว่าขอบเขตที่สนใจ (ROI) จากนั้นจะส่ง ROI เหล่านี้ไปยังCNNซึ่งจะทำนายคะแนนคลาสของวัตถุและการประมาณขอบเขตของกรอบล้อมรอบสำหรับแต่ละ ROI อย่างอิสระ

ที่สำคัญคือ ROI จะถูกกรองอย่างเข้มงวดเพื่อกำจัดผู้สมัครส่วนเกิน ซึ่งทำได้โดยใช้กลไกสองอย่าง การกรองเริ่มต้นด้วยการลบ ROI ที่ถูกจัดอยู่ใน หมวด หมู่พื้นหลังนี่เป็นหมวดหมู่เฉพาะที่ CNN ให้คะแนนร่วมกับหมวดหมู่อื่นๆ

ความเป็นจริงที่น่าเสียดายคือ ROI ที่เหลือมักจะประสบปัญหาการทำซ้ำอย่างมาก กล่าวคือ ROI หลายรายการที่ครอบคลุมวัตถุเดียวกันในภาพจะถูกกำหนดหมวดหมู่ที่ไม่ใช่พื้นหลังทั้งหมด ปัญหานี้ได้รับการแก้ไขโดยขั้นตอนการระงับค่าสูงสุดที่ไม่ใช่ค่าสูงสุดแบบฮิวริสติก[ 15 ] ( NMS )

ฟาสต์ อาร์-ซีเอ็นเอ็น

ฟาสต์ อาร์-ซีเอ็นเอ็น

ในขณะที่ R-CNN ดั้งเดิมคำนวณคุณลักษณะของเครือข่ายประสาทเทียมแยกกันในแต่ละพื้นที่ที่สนใจมากถึงสองพันพื้นที่ Fast R-CNN จะรันเครือข่ายประสาทเทียมเพียงครั้งเดียวบนภาพทั้งหมด[ 8 ]

การรวมพื้นที่สนใจ (RoI pooling) ให้มีขนาด 2x2 ในตัวอย่างนี้ ข้อเสนอพื้นที่สนใจ (พารามิเตอร์อินพุต) มีขนาด 7x5

ในส่วนท้ายของเครือข่ายจะมี โมดูล ROIPoolingซึ่งจะทำการตัด ROI แต่ละส่วนออกจากเทนเซอร์เอาต์พุตของเครือข่าย ปรับรูปร่างใหม่ และจำแนกประเภท เช่นเดียวกับ R-CNN ดั้งเดิม Fast R-CNN ใช้การค้นหาแบบเลือกสรรเพื่อสร้างข้อเสนอแนะเกี่ยวกับภูมิภาค

R-CNN ที่เร็วขึ้น

R-CNN ที่เร็วขึ้น

ในขณะที่ Fast R-CNN ใช้การค้นหาแบบเลือกเพื่อสร้าง ROI แต่ Faster R-CNN ได้รวมการสร้าง ROI เข้ากับเครือข่ายประสาทเอง[ 9 ]

หน้ากาก R-CNN

หน้ากาก R-CNN

ในขณะที่ R-CNN เวอร์ชันก่อนหน้าเน้นการตรวจจับวัตถุ Mask R-CNN เพิ่มการแบ่งส่วนอินสแตนซ์ นอกจากนี้ Mask R-CNN ยังแทนที่ ROIPooling ด้วยวิธีการใหม่ที่เรียกว่า ROIAlign ซึ่งสามารถแสดงเศษส่วนของพิกเซลได้[ 10 ]

อ่านเพิ่มเติม

  • Parthasarathy, Dhruv (2017-04-27). "ประวัติโดยย่อของ CNN ในการแบ่งส่วนภาพ: จาก R-CNN ถึง Mask R-CNN" . Medium . สืบค้นเมื่อ2024-09-11 .
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Region_Based_Convolutional_Neural_Networks&oldid=1358911049 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ โครงข่ายประสาทเทียมแบบคอนโวลูชันตามภูมิภาค

เครือข่ายประสาทเทียมแบบ Convolutional ที่ใช้พื้นที่ (R-CNN) เป็นตระกูลของ แบบจำลอง การเรียนรู้ของเครื่อง สำหรับ การมองเห็นด้วยคอมพิวเตอร์ และโดยเฉพาะอย่างยิ่ง การตรวจจับ...

ประวัติศาสตร์

ต่อไปนี้เป็นตัวอย่างบางส่วนของเวอร์ชัน R-CNN ที่ได้รับการพัฒนาขึ้นมา

สถาปัตยกรรม

สำหรับบทความวิจารณ์ โปรดดูที่ [ 1 ] [ 13 ]

การค้นหาแบบเลือก

เมื่อได้รับภาพ (หรือแผนที่คุณลักษณะที่คล้ายภาพ) การค้นหาแบบเลือก (เรียกอีกอย่างว่าการจัดกลุ่มตามลำดับชั้น) จะแบ่งส่วนภาพก่อนโดยใช้อัลกอริทึมใน (Felzenszwalb และ Huttenlocher, 2004) [ 14 ] จากนั้นจึงดำเนินการดังต่อไปนี้: [ 2 ]