โครงข่ายประสาทเทียมแบบคอนโวลูชันตามภูมิภาค

Q: สถาปัตยกรรม

สำหรับบทความวิจารณ์ โปรดดูที่ [ 1 ] [ 13 ]

Q: การค้นหาแบบเลือก

เมื่อได้รับภาพ (หรือแผนที่คุณลักษณะที่คล้ายภาพ) การค้นหาแบบเลือก (เรียกอีกอย่างว่าการจัดกลุ่มตามลำดับชั้น) จะแบ่งส่วนภาพก่อนโดยใช้อัลกอริทึมใน (Felzenszwalb และ Huttenlocher, 2004) [ 14 ] จากนั้นจึงดำเนินการดังต่อไปนี้: [ 2 ]

เครือข่ายประสาทเทียมแบบ Convolutional ที่ใช้พื้นที่ (R-CNN)เป็นตระกูลของ แบบจำลอง การเรียนรู้ของเครื่องสำหรับการมองเห็นด้วยคอมพิวเตอร์และโดยเฉพาะอย่างยิ่ง การตรวจจับ และระบุตำแหน่งวัตถุ^{[ 1 ]}เป้าหมายดั้งเดิมของ R-CNN คือการรับภาพอินพุตและสร้างชุดของกรอบล้อมรอบเป็นเอาต์พุต โดยที่กรอบล้อมรอบแต่ละอันประกอบด้วยวัตถุและหมวดหมู่ (เช่น รถยนต์หรือคนเดินเท้า) ของวัตถุนั้น โดยทั่วไป สถาปัตยกรรม R-CNN จะทำการค้นหาแบบเลือก^{[ 2 ]}บนแผนที่คุณลักษณะที่ส่งออกโดย CNN

R-CNN ได้รับการขยายเพื่อดำเนินการงานคอมพิวเตอร์วิชั่นอื่นๆ เช่น การติดตามวัตถุจากกล้องที่ติดตั้งบนโดรน^{[ 3 ]}การระบุตำแหน่งข้อความในภาพ^{[ 4 ]}และการเปิดใช้งานการตรวจจับวัตถุในGoogle Lens ^{[ 5 ]}

Mask R-CNN ยังเป็นหนึ่งในเจ็ดภารกิจใน MLPerf Training Benchmark ซึ่งเป็นการแข่งขันเพื่อเร่งความเร็วในการฝึกอบรมเครือข่ายประสาทเทียม^{[ 6 ]}

ประวัติศาสตร์

ต่อไปนี้เป็นตัวอย่างบางส่วนของเวอร์ชัน R-CNN ที่ได้รับการพัฒนาขึ้นมา

พฤศจิกายน 2013: R- CNN ^{[ 7 ]}
เมษายน 2558: Fast R- CNN ^{[ 8 ]}
มิถุนายน 2558: Faster R- CNN ^{[ 9 ]}
มีนาคม 2560: หน้ากาก R- CNN ^{[ 10 ]}
ธันวาคม 2017: Cascade R-CNNได้รับการฝึกฝนด้วยเกณฑ์ Intersection over Union (IoU หรือที่รู้จักกันในชื่อดัชนี Jaccard ) ที่เพิ่มขึ้น ทำให้แต่ละขั้นตอนมีความเลือกมากขึ้นต่อผลบวกเท็จที่อยู่ใกล้เคียง^{[ 11 ]}
มิถุนายน 2019: Mesh R-CNNเพิ่มความสามารถในการสร้างตาข่าย 3 มิติจากภาพ 2 มิติ^{[ 12 ]}

สถาปัตยกรรม

สำหรับบทความวิจารณ์ โปรดดูที่^{[ 1 ]}^{[ 13 ]}

การค้นหาแบบเลือก

เมื่อได้รับภาพ (หรือแผนที่คุณลักษณะที่คล้ายภาพ) การค้นหาแบบเลือก (เรียกอีกอย่างว่าการจัดกลุ่มตามลำดับชั้น) จะแบ่งส่วนภาพก่อนโดยใช้อัลกอริทึมใน (Felzenszwalb และ Huttenlocher, 2004) ^{[ 14 ]}จากนั้นจึงดำเนินการดังต่อไปนี้: ^{[ 2 ]}

อินพุต:ภาพ (สี) เอาต์พุต:ชุดสมมติฐานตำแหน่งของวัตถุ L แบ่งภาพออกเป็นส่วนๆ เริ่มต้น R = {r ₁ , ..., r _n } โดยใช้ Felzenszwalb และ Huttenlocher (2004) กำหนดชุดความคล้ายคลึงเริ่มต้น S = ∅ สำหรับแต่ละคู่ภูมิภาคใกล้เคียง (r _i , r _j ) ให้ทำดังนี้ คำนวณค่าความคล้ายคลึง s(r _i , r _j ) S = S ∪ s(r _i , r _j ) ในขณะที่ S ≠ ∅ do หาค่าความคล้ายคลึงสูงสุด s(r _i , r _j ) = max(S) รวมภูมิภาคที่สอดคล้องกัน r _t = r _i ∪ r _j ลบความคล้ายคลึงกันเกี่ยวกับ r _i : S = S \ s(r _i , r∗) ลบความคล้ายคลึงกันเกี่ยวกับ r _j : S = S \ s(r∗, r _j ) คำนวณเซตความคล้ายคลึง S _tระหว่าง r _tและเพื่อนบ้านของมัน S = S ∪ S _t R = R ∪ r _t ดึงกล่องระบุตำแหน่งวัตถุ L จากทุกภูมิภาคใน R

อาร์-ซีเอ็นเอ็น

ใน R-CNN การทำนายจะดำเนินการเป็นสองขั้นตอน ขั้นตอนการประมวลผลล่วงหน้าคือการค้นหาแบบเลือกสรรซึ่งจะสร้างชุดวัตถุเป้าหมายจำนวนมาก (โดยทั่วไปมากถึง 2000 รายการ) ที่เรียกว่าขอบเขตที่สนใจ (ROI) จากนั้นจะส่ง ROI เหล่านี้ไปยังCNNซึ่งจะทำนายคะแนนคลาสของวัตถุและการประมาณขอบเขตของกรอบล้อมรอบสำหรับแต่ละ ROI อย่างอิสระ

ที่สำคัญคือ ROI จะถูกกรองอย่างเข้มงวดเพื่อกำจัดผู้สมัครส่วนเกิน ซึ่งทำได้โดยใช้กลไกสองอย่าง การกรองเริ่มต้นด้วยการลบ ROI ที่ถูกจัดอยู่ใน หมวด หมู่พื้นหลังนี่เป็นหมวดหมู่เฉพาะที่ CNN ให้คะแนนร่วมกับหมวดหมู่อื่นๆ

ความเป็นจริงที่น่าเสียดายคือ ROI ที่เหลือมักจะประสบปัญหาการทำซ้ำอย่างมาก กล่าวคือ ROI หลายรายการที่ครอบคลุมวัตถุเดียวกันในภาพจะถูกกำหนดหมวดหมู่ที่ไม่ใช่พื้นหลังทั้งหมด ปัญหานี้ได้รับการแก้ไขโดยขั้นตอนการระงับค่าสูงสุดที่ไม่ใช่ค่าสูงสุดแบบฮิวริสติก^{[ 15 ]} ( NMS )

ฟาสต์ อาร์-ซีเอ็นเอ็น

ในขณะที่ R-CNN ดั้งเดิมคำนวณคุณลักษณะของเครือข่ายประสาทเทียมแยกกันในแต่ละพื้นที่ที่สนใจมากถึงสองพันพื้นที่ Fast R-CNN จะรันเครือข่ายประสาทเทียมเพียงครั้งเดียวบนภาพทั้งหมด^{[ 8 ]}

ในส่วนท้ายของเครือข่ายจะมี โมดูล ROIPoolingซึ่งจะทำการตัด ROI แต่ละส่วนออกจากเทนเซอร์เอาต์พุตของเครือข่าย ปรับรูปร่างใหม่ และจำแนกประเภท เช่นเดียวกับ R-CNN ดั้งเดิม Fast R-CNN ใช้การค้นหาแบบเลือกสรรเพื่อสร้างข้อเสนอแนะเกี่ยวกับภูมิภาค

R-CNN ที่เร็วขึ้น

ในขณะที่ Fast R-CNN ใช้การค้นหาแบบเลือกเพื่อสร้าง ROI แต่ Faster R-CNN ได้รวมการสร้าง ROI เข้ากับเครือข่ายประสาทเอง^{[ 9 ]}

หน้ากาก R-CNN

ในขณะที่ R-CNN เวอร์ชันก่อนหน้าเน้นการตรวจจับวัตถุ Mask R-CNN เพิ่มการแบ่งส่วนอินสแตนซ์ นอกจากนี้ Mask R-CNN ยังแทนที่ ROIPooling ด้วยวิธีการใหม่ที่เรียกว่า ROIAlign ซึ่งสามารถแสดงเศษส่วนของพิกเซลได้^{[ 10 ]}

อ่านเพิ่มเติม

Parthasarathy, Dhruv (2017-04-27). "ประวัติโดยย่อของ CNN ในการแบ่งส่วนภาพ: จาก R-CNN ถึง Mask R-CNN" . Medium . สืบค้นเมื่อ2024-09-11 .

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]