การจดจำวัตถุสามมิติ

ในวิชั่นคอมพิวเตอร์การรู้จำวัตถุ 3 มิติเกี่ยวข้องกับการรู้จำและระบุข้อมูล 3 มิติ เช่นท่าทางปริมาตร หรือรูปร่างของวัตถุ 3 มิติ ที่ผู้ใช้เลือก ในภาพถ่ายหรือภาพสแกนโดยทั่วไป ตัวอย่างของวัตถุที่ต้องการรู้จำจะถูกนำเสนอต่อระบบวิชั่นในสภาพแวดล้อมที่มีการควบคุม จากนั้นระบบจะระบุตำแหน่งวัตถุที่นำเสนอก่อนหน้านี้สำหรับอินพุตที่กำหนดเอง เช่นสตรีมวิดีโอซึ่งสามารถทำได้ทั้งแบบออฟไลน์และแบบเรียล ไทม์ อัลกอริทึมสำหรับการแก้ปัญหานี้มีความเชี่ยวชาญเฉพาะด้านสำหรับการระบุตำแหน่งวัตถุที่ระบุล่วงหน้าเพียงชิ้นเดียว และสามารถเปรียบเทียบกับอัลกอริทึมที่ทำงานกับวัตถุประเภททั่วไป เช่นระบบรู้จำใบหน้าหรือการรู้จำวัตถุ 3 มิติทั่วไป เนื่องจากต้นทุนต่ำและความสะดวกในการรับภาพถ่าย จึงมีการวิจัยจำนวนมากเกี่ยวกับการรู้จำวัตถุ 3 มิติในภาพถ่าย

การจดจำวัตถุเดี่ยวแบบสามมิติในภาพถ่าย

วิธีการจดจำวัตถุสามมิติขึ้นอยู่กับคุณสมบัติของวัตถุ เพื่อความเรียบง่าย อัลกอริทึมที่มีอยู่มากมายจึงมุ่งเน้นไปที่การจดจำวัตถุแข็งที่ประกอบด้วยชิ้นส่วนเดียว นั่นคือวัตถุที่มีการแปลงเชิงพื้นที่เป็นการเคลื่อนที่แบบยุคลิดปัญหานี้มีสองวิธีหลักที่ใช้แก้ปัญหานี้ ได้แก่ วิธี การจดจำรูปแบบที่ใช้ข้อมูลลักษณะที่ปรากฏของภาพระดับต่ำเพื่อระบุตำแหน่งของวัตถุ ในขณะที่วิธีการทางเรขาคณิตที่อิงตามคุณลักษณะจะสร้างแบบจำลองสำหรับวัตถุที่จะจดจำ และจับคู่แบบจำลองกับภาพถ่าย

แนวทางการจดจำรูปแบบ

วิธีการเหล่านี้ใช้ข้อมูลลักษณะที่ปรากฏที่รวบรวมจากการฉายภาพวัตถุที่บันทึกไว้ล่วงหน้าหรือคำนวณไว้ล่วงหน้า เพื่อจับคู่วัตถุในฉากที่อาจดูรก อย่างไรก็ตาม วิธีการเหล่านี้ไม่ได้คำนึงถึงข้อจำกัดทางเรขาคณิตสามมิติของวัตถุในระหว่างการจับคู่ และโดยทั่วไปแล้วจะไม่จัดการกับการบดบัง (occlusion) ได้ดีเท่ากับวิธีการแบบอิงคุณลักษณะ (feature-based approach) ดู [Murase and Nayar 1995] และ [Selinger and Nelson 1999]

แนวทางทางเรขาคณิตตามคุณลักษณะ

วิธีการแบบอิงคุณลักษณะ (Feature-based) ใช้งานได้ดีกับวัตถุที่มี คุณลักษณะเฉพาะตัวจนถึงปัจจุบัน วัตถุที่มีคุณลักษณะขอบ (edge features) หรือ คุณลักษณะ แบบหยด (blob features) ที่ดี ก็ได้รับการยอมรับแล้ว ตัวอย่างเช่น อัลกอริทึมการตรวจจับ (ดูHarris affine region detector)และSIFTตามลำดับ เนื่องจากขาดตัวตรวจจับคุณลักษณะที่เหมาะสม วัตถุที่ไม่มีพื้นผิวเรียบและมีพื้นผิวเรียบจึงไม่สามารถจัดการด้วยวิธีการนี้ได้ในปัจจุบัน

โดยทั่วไปแล้ว ตัวจดจำวัตถุตามคุณลักษณะจะทำงานโดยการจับภาพมุมมองคงที่จำนวนหนึ่งของวัตถุที่ต้องการจดจำไว้ล่วงหน้า จากนั้นจึงดึงคุณลักษณะจากมุมมองเหล่านี้ จากนั้นจึงจับคู่คุณลักษณะเหล่านี้กับฉากและบังคับใช้ข้อจำกัดทางเรขาคณิตในกระบวนการจดจำ

ตัวอย่างของระบบต้นแบบที่ใช้วิธีการนี้ เราจะนำเสนอโครงร่างของวิธีการที่ [Rothganger et al. 2004] ใช้ โดยตัดรายละเอียดบางส่วนออกไป วิธีการนี้เริ่มต้นด้วยการสมมติว่าวัตถุผ่านการแปลงแบบแข็งทั่วโลก เนื่องจากพื้นผิวเรียบเป็นระนาบเฉพาะที่ คุณสมบัติคงที่แบบแอฟฟีนจึงเหมาะสมสำหรับการจับคู่: บทความนี้จะตรวจจับบริเวณที่มีรูปร่างคล้ายวงรีที่สนใจโดยใช้ทั้งลักษณะคล้ายขอบและคล้ายหยด และตาม [Lowe 2004] จะค้นหาทิศทางการไล่ระดับที่โดดเด่นของวงรี แปลงวงรีเป็นรูปสี่เหลี่ยมด้านขนาน และนำ ตัวระบุ SIFT มาใช้ กับรูปสี่เหลี่ยมด้านขนานที่ได้ ข้อมูลสียังถูกนำมาใช้เพื่อปรับปรุงการแยกแยะคุณลักษณะของ SIFT เพียงอย่างเดียวอีกด้วย

ขั้นต่อไป เมื่อพิจารณาจากจำนวนมุมมองของกล้องของวัตถุ (24 ในเอกสาร) วิธีการนี้จะสร้างแบบจำลอง 3 มิติสำหรับวัตถุ ซึ่งประกอบด้วยตำแหน่งเชิงพื้นที่ 3 มิติและทิศทางของแต่ละลักษณะเด่น เนื่องจากจำนวนมุมมองของวัตถุมีมาก โดยทั่วไปลักษณะเด่นแต่ละอย่างจะปรากฏอยู่ในหลายมุมมองที่อยู่ติดกัน จุดศูนย์กลางของลักษณะเด่นที่ตรงกันเหล่านี้จะสอดคล้องกัน และลักษณะเด่นที่ตรวจพบจะถูกจัดเรียงตามทิศทางการไล่ระดับที่เด่นชัด ดังนั้นจุดที่ (1, 0) ในระบบพิกัดเฉพาะของรูปสี่เหลี่ยมด้านขนานของลักษณะเด่นก็จะสอดคล้องกันเช่นกัน เช่นเดียวกับจุด (0, 1) ในพิกัดเฉพาะของรูปสี่เหลี่ยมด้านขนาน ดังนั้น สำหรับทุกคู่ของลักษณะเด่นที่ตรงกันในมุมมองใกล้เคียง จะทราบความสอดคล้องของคู่จุดสามคู่ เมื่อพิจารณาจากลักษณะเด่นที่ตรงกันอย่างน้อยสองอย่างโครงสร้างอะฟฟีนแบบหลายมุมมองจากอัลกอริทึมการเคลื่อนที่ (ดู [Tomasi and Kanade 1992]) สามารถใช้เพื่อสร้างการประมาณตำแหน่งของจุด (จนถึงการแปลงอะฟฟีนใดๆ) บทความของ Rothganger และคณะ ดังนั้นจึงเลือกมุมมองที่อยู่ติดกันสองมุมมอง ใช้ วิธีการคล้าย RANSACเพื่อเลือกคู่คุณลักษณะที่สอดคล้องกันสองคู่ และเพิ่มคุณลักษณะใหม่ลงในแบบจำลองบางส่วนที่สร้างโดย RANSAC ตราบใดที่คุณลักษณะเหล่านั้นอยู่ภายใต้เงื่อนไขความคลาดเคลื่อน ดังนั้น สำหรับคู่มุมมองที่อยู่ติดกันใดๆ ที่กำหนด อัลกอริทึมจะสร้างแบบจำลองบางส่วนของคุณลักษณะทั้งหมดที่มองเห็นได้ในทั้งสองมุมมอง

แบบจำลองขั้นสุดท้ายที่ผสานรวมคุณลักษณะของตุ๊กตาหมีเท็ดดี้ หลังจากการปรับปรุงแบบยุคลิด เพื่อการจดจำ แบบจำลองนี้จะถูกจับคู่กับภาพถ่ายของฉากโดยใช้ RANSAC นำมาจาก [Rothganger et al. 2004]

เพื่อสร้างแบบจำลองรวม บทความนี้ใช้แบบจำลองย่อยที่ใหญ่ที่สุด แล้วค่อยๆ จัดแนวแบบจำลองย่อยที่เล็กกว่าทั้งหมดให้สอดคล้องกับแบบจำลองนั้น มีการใช้การย่อขนาดแบบทั่วไปเพื่อลดความคลาดเคลื่อน จากนั้นจึงใช้การอัปเกรดแบบยุคลิดเพื่อเปลี่ยนตำแหน่งคุณลักษณะของแบบจำลองจากพิกัด 3 มิติเฉพาะไปจนถึงการแปลงแบบแอฟฟีน เป็นพิกัด 3 มิติเฉพาะไปจนถึงการเคลื่อนที่แบบยุคลิดเมื่อสิ้นสุดขั้นตอนนี้ เราจะได้แบบจำลองของวัตถุเป้าหมาย ซึ่งประกอบด้วยคุณลักษณะที่ฉายลงในพื้นที่ 3 มิติร่วมกัน

ในการจดจำวัตถุในภาพอินพุตใดๆ งานวิจัยนี้จะตรวจจับลักษณะเฉพาะ แล้วใช้RANSACเพื่อค้นหาเมทริกซ์การฉายภาพแบบแอฟฟีนที่เหมาะสมที่สุดกับแบบจำลองวัตถุแบบรวมในฉาก 2 มิติ หากวิธีการของ RANSAC นี้มีข้อผิดพลาดต่ำเพียงพอ เมื่อประสบความสำเร็จ อัลกอริทึมจะจดจำวัตถุและแสดงตำแหน่งของวัตถุในรูปของการฉายภาพแบบแอฟฟีน ภายใต้เงื่อนไขที่สมมติขึ้น วิธีการนี้โดยทั่วไปจะมีอัตราการจดจำประมาณ 95%

การจดจำวัตถุสามมิติ

การจดจำวัตถุสามมิติ

คำถามที่พบบ่อยเกี่ยวกับ การจดจำวัตถุสามมิติ

ภาพรวม

การจดจำวัตถุเดี่ยวแบบสามมิติในภาพถ่าย

แนวทางการจดจำรูปแบบ

แนวทางทางเรขาคณิตตามคุณลักษณะ

การจดจำวัตถุเดี่ยวแบบสามมิติในภาพถ่าย

แนวทางการจดจำรูปแบบ

แนวทางทางเรขาคณิตตามคุณลักษณะ

ดูเพิ่มเติม

ข้อมูลสำคัญจากบทความ