การจับภาพการเคลื่อนไหวของใบหน้า

การจับภาพการเคลื่อนไหวใบหน้าคือกระบวนการแปลงการเคลื่อนไหวของใบหน้าของบุคคลให้เป็นฐานข้อมูลดิจิทัลโดยใช้กล้องหรือเครื่องสแกนเลเซอร์ฐานข้อมูลนี้สามารถนำไปใช้สร้างกราฟิกคอมพิวเตอร์ (CG) แอนิเมชั่นคอมพิวเตอร์สำหรับภาพยนตร์ เกม หรืออวตารแบบเรียลไทม์ได้ เนื่องจากการเคลื่อนไหวของตัวละคร CGI มาจากการเคลื่อนไหวของคนจริง จึงทำให้แอนิเมชั่นตัวละครคอมพิวเตอร์มีความสมจริงและละเอียดอ่อนกว่าการสร้างแอนิเมชั่นด้วยมือ

ฐานข้อมูล การจับภาพการเคลื่อนไหวใบหน้าจะอธิบายพิกัดหรือตำแหน่งสัมพัทธ์ของจุดอ้างอิงบนใบหน้าของนักแสดง การจับภาพอาจอยู่ในสองมิติ ซึ่งในกรณีนี้กระบวนการจับภาพบางครั้งเรียกว่า " การติดตาม การแสดงออก " หรืออยู่ในสามมิติ การจับภาพสองมิติสามารถทำได้โดยใช้กล้องตัวเดียวและซอฟต์แวร์จับภาพ ซึ่งจะทำให้การติดตามมีความซับซ้อนน้อยลง และไม่สามารถจับภาพการเคลื่อนไหวสามมิติได้อย่างสมบูรณ์ เช่น การหมุนศีรษะ การจับภาพสามมิติทำได้โดยใช้ระบบกล้องหลายตัวหรือระบบเลเซอร์มาร์กเกอร์ ระบบดังกล่าวโดยทั่วไปมีราคาแพงกว่า ซับซ้อนกว่า และใช้เวลานานกว่ามาก เทคโนโลยีหลักๆ มีอยู่สองประเภท ได้แก่ ระบบติดตามแบบมีมาร์กเกอร์และแบบไม่มีมาร์กเกอร์

การจับภาพการเคลื่อนไหวใบหน้ามีความเกี่ยวข้องกับการจับภาพการเคลื่อนไหวร่างกาย แต่มีความท้าทายมากกว่าเนื่องจากต้องการความละเอียดสูงกว่าในการตรวจจับและติดตามการแสดงออกที่ละเอียดอ่อนซึ่งอาจเกิดขึ้นได้จากการเคลื่อนไหวเล็กๆของดวงตาและริมฝีปาก การเคลื่อนไหวเหล่านี้มักน้อยกว่าไม่กี่มิลลิเมตร ซึ่งต้องการความละเอียดและความแม่นยำที่สูงกว่า และเทคนิคการกรองที่แตกต่างจากที่ใช้ในการจับภาพร่างกายแบบเต็มตัวโดยทั่วไป ข้อจำกัดเพิ่มเติมของใบหน้ายังเปิดโอกาสให้ใช้โมเดลและกฎเกณฑ์ต่างๆ ได้มากขึ้นอีกด้วย

การจับภาพการแสดงออกทางสีหน้าคล้ายกับการจับภาพการเคลื่อนไหวของใบหน้า เป็นกระบวนการใช้เครื่องมือทางภาพหรือทางกลไกในการปรับแต่งตัวละครที่สร้างขึ้นด้วยคอมพิวเตอร์โดยใช้ข้อมูลจากใบหน้า ของมนุษย์ หรือเพื่อจดจำอารมณ์จากผู้ใช้งาน

ประวัติศาสตร์

หนึ่งในบทความแรกๆ ที่กล่าวถึงแอนิเมชั่นที่ขับเคลื่อนด้วยประสิทธิภาพได้รับการตีพิมพ์โดยLance Williamsในปี 1990 ในนั้น เขาได้อธิบายถึง 'วิธีการในการรับเอาการแสดงออกของใบหน้าจริง และนำไปใช้กับใบหน้าที่สร้างด้วยคอมพิวเตอร์' ^{[ 1 ]}

เทคโนโลยี

อิงตามเครื่องหมาย

ระบบแบบดั้งเดิมที่ใช้เครื่องหมายจะติดเครื่องหมายมากถึง 350 จุดบนใบหน้า ของนักแสดง และติดตามการเคลื่อนไหวของเครื่องหมายด้วยกล้อง ความละเอียดสูง ระบบนี้ถูกนำมาใช้ในภาพยนตร์เช่นThe Polar ExpressและBeowulfเพื่อให้นักแสดงอย่างทอม แฮงค์สามารถควบคุมการแสดงออกทางสีหน้าของตัวละครหลายตัวได้ อย่างไรก็ตาม วิธีนี้ค่อนข้างยุ่งยากและทำให้การแสดงออกทางสีหน้าของนักแสดงดูไม่เป็นธรรมชาติมากเกินไปหลังจากทำการปรับแต่งและกรองภาพแล้ว ระบบรุ่นใหม่ เช่นCaptiveMotionใช้ประโยชน์จากระบบแบบดั้งเดิมที่ใช้เครื่องหมาย โดยเพิ่มรายละเอียดในระดับที่สูงขึ้น

ปัจจุบัน เทคโนโลยี Active LED Marker กำลังถูกนำมาใช้เพื่อสร้างแอนิเมชั่นใบหน้าแบบเรียลไทม์ เพื่อให้ผู้ใช้งานได้รับข้อมูลป้อนกลับ

ไม่มีเครื่องหมาย

เทคโนโลยีแบบไร้เครื่องหมายใช้คุณลักษณะของใบหน้า เช่นรูจมูกมุมปากและดวงตา และริ้วรอย จากนั้นจึงติดตามคุณลักษณะเหล่านั้น เทคโนโลยีนี้ได้รับการกล่าวถึงและสาธิตที่^{CMU [ 2 ] IBM [} 3 ] ^{มหาวิทยาลัยแมน}เชส^{เตอร์}⁽ซึ่งส่วนใหญ่เริ่มต้นโดยTim Cootes [ ⁴^]^Gareth Edwards และ Chris Taylor) และสถานที่อื่นๆ โดยใช้โมเดลลักษณะที่ปรากฏแบบ แอคที ฟการวิเคราะห์ส่วนประกอบหลักการติดตามค่าไอเกนโมเดล^พื้นผิวที่ปรับเปลี่ยนได้และเทคนิคอื่นๆ เพื่อติดตามคุณลักษณะใบหน้าที่ต้องการจากเฟรมต่อเฟรม เทคโนโลยีนี้ใช้งานง่ายกว่ามาก และช่วยให้นักแสดงสามารถแสดงออกได้มากขึ้น

วิธีการที่ใช้การมองเห็นเป็นหลักเหล่านี้ยังมีความสามารถในการติดตามการเคลื่อนไหวของรูม่านตา เปลือกตา การสบฟันโดยริมฝีปากและลิ้น ซึ่งเป็นปัญหาที่เห็นได้ชัดในภาพยนตร์แอนิเมชั่นคอมพิวเตอร์ส่วนใหญ่ ข้อจำกัดทั่วไปของวิธีการที่ใช้การมองเห็นเป็นหลักคือความละเอียดและอัตราเฟรม ซึ่งทั้งสองอย่างกำลังลดลงเนื่องจากกล้อง CMOS ความเร็วสูงและความละเอียดสูง เริ่มมีวางจำหน่ายจากหลายแหล่ง

เทคโนโลยีการติดตามใบหน้าแบบไร้เครื่องหมายมีความเกี่ยวข้องกับระบบการจดจำใบหน้าเนื่องจากระบบการจดจำใบหน้าสามารถนำไปใช้กับแต่ละเฟรมของวิดีโอได้อย่างต่อเนื่อง ส่งผลให้สามารถติดตามใบหน้าได้ ตัวอย่างเช่น ระบบ Neven Vision ^{[ 5 ]} (เดิมชื่อ Eyematics ปัจจุบันถูก Google ซื้อกิจการ) อนุญาตให้ติดตามใบหน้า 2 มิติแบบเรียลไทม์โดยไม่ต้องฝึกฝนเฉพาะบุคคล ระบบของพวกเขายังเป็นหนึ่งในระบบการจดจำใบหน้าที่ทำงานได้ดีที่สุดในการทดสอบผู้จำหน่ายการจดจำใบหน้า (FRVT) ของรัฐบาลสหรัฐฯ ในปี 2002 ในทางกลับกัน ระบบการจดจำบางระบบไม่ได้ติดตามการแสดงออกทางสีหน้าอย่างชัดเจน หรือแม้กระทั่งล้มเหลวในการแสดงออกทางสีหน้าที่ไม่เป็นกลาง ดังนั้นจึงไม่เหมาะสมสำหรับการติดตาม ในทางกลับกัน ระบบเช่นแบบจำลองพื้นผิวที่ยืดหยุ่นได้จะรวบรวมข้อมูลเชิงเวลาเพื่อแยกแยะและได้ผลลัพธ์ที่แข็งแกร่งยิ่งขึ้น ดังนั้นจึงไม่สามารถนำไปใช้จากภาพถ่ายเพียงภาพเดียวได้

การติดตามใบหน้าแบบไม่ใช้เครื่องหมายได้พัฒนาไปสู่ระบบเชิงพาณิชย์ เช่นImage Metricsซึ่งถูกนำไปใช้ในภาพยนตร์ เช่นภาคต่อของThe Matrix ^{[ 6 ]}และThe Curious Case of Benjamin Button โดยภาพยนตร์ เรื่องหลังใช้ ระบบ Movaเพื่อจับภาพแบบจำลองใบหน้าที่เปลี่ยนแปลงรูปร่างได้ จากนั้นจึงทำการสร้างแอนิเมชั่นด้วยการผสมผสานระหว่างการติดตามด้วยตนเองและการติดตามด้วยภาพ^{[ 7 ]} Avatarเป็นภาพยนตร์โมชั่นแคปเจอร์ที่โดดเด่นอีกเรื่องหนึ่ง อย่างไรก็ตาม ภาพยนตร์เรื่องนี้ใช้เครื่องหมายที่ทาสีแทนที่จะใช้แบบไม่ใช้เครื่องหมายDynamixyzเป็นอีกระบบเชิงพาณิชย์หนึ่งที่กำลังใช้งานอยู่ในปัจจุบัน

ระบบที่ไม่ใช้เครื่องหมายสามารถจำแนกได้ตามเกณฑ์หลายประการ:

การติดตามแบบ 2 มิติ เทียบกับการติดตามแบบ 3 มิติ
จำเป็นต้องมีการฝึกอบรมเฉพาะบุคคลหรือความช่วยเหลือจากมนุษย์ด้านอื่น ๆ หรือไม่
ประสิทธิภาพการทำงานแบบเรียลไทม์ (ซึ่งเป็นไปได้ก็ต่อเมื่อไม่จำเป็นต้องมีการฝึกอบรมหรือการกำกับดูแล)
ไม่ว่าพวกเขาจะต้องการแหล่งข้อมูลเพิ่มเติม เช่น รูปแบบที่ฉายภาพ หรือสีที่มองไม่เห็น เช่นเดียวกับที่ใช้ในระบบ Mova

จนถึงปัจจุบัน ยังไม่มีระบบใดที่สมบูรณ์แบบเมื่อพิจารณาจากเกณฑ์ทั้งหมดนี้ ตัวอย่างเช่น ระบบ Neven Vision เป็นระบบอัตโนมัติอย่างสมบูรณ์และไม่ต้องการรูปแบบที่ซ่อนอยู่หรือการฝึกอบรมเฉพาะบุคคล แต่เป็นระบบ 2 มิติ ระบบ Face/Off ^{[ 8 ]}เป็นระบบ 3 มิติ อัตโนมัติ และแบบเรียลไทม์ แต่ต้องใช้รูปแบบที่ฉายภาพ

การจับภาพการแสดงออกทางสีหน้า

เทคโนโลยี

วิธีการที่ใช้ภาพวิดีโอดิจิทัลกำลังได้รับความนิยมมากขึ้นเรื่อยๆ เนื่องจากระบบเชิงกลมักเทอะทะและใช้งานยาก

การใช้กล้องดิจิทัลจะประมวลผลการแสดงออกทางสีหน้าของผู้ใช้เพื่อระบุท่าทาง ของศีรษะ ซึ่งช่วยให้ซอฟต์แวร์สามารถค้นหาดวงตา จมูก และปากได้ ในขั้นต้น ใบหน้าจะถูกปรับเทียบโดยใช้การแสดงออกทางสีหน้าที่เป็นกลาง จากนั้น ขึ้นอยู่กับโครงสร้างของใบหน้า คิ้ว เปลือกตา แก้ม และปาก สามารถประมวลผลได้โดยแยกความแตกต่างจากการแสดงออกทางสีหน้าที่เป็นกลาง เช่น การมองหาขอบของริมฝีปากและจดจำว่าเป็นวัตถุที่ไม่ซ้ำกัน บ่อยครั้งที่ต้องใช้เครื่องสำอางหรือเครื่องหมายที่ช่วยเพิ่มความคมชัด หรือวิธีการอื่นๆ เพื่อให้การประมวลผลเร็วขึ้น เช่นเดียวกับการจดจำเสียง เทคนิคที่ดีที่สุดก็ใช้ได้ผลเพียง 90 เปอร์เซ็นต์เท่านั้น จึงต้องมีการปรับแต่งด้วยมือเป็นอย่างมาก หรือต้องยอมรับความผิดพลาด

เนื่องจากตัวละครที่สร้างด้วยคอมพิวเตอร์ไม่มีกล้ามเนื้อ จริง ๆ จึงต้องใช้เทคนิคที่แตกต่างกันเพื่อให้ได้ผลลัพธ์เดียวกัน แอนิเมเตอร์บางคนสร้างกระดูกหรือวัตถุที่ควบคุมโดยซอฟต์แวร์จับภาพ และเคลื่อนย้ายตามนั้น ซึ่งเมื่อตัวละครถูกจัดโครงสร้างอย่างถูกต้องแล้วจะให้ผลลัพธ์ที่ใกล้เคียง เนื่องจากใบหน้ามีความยืดหยุ่นสูง เทคนิคนี้จึงมักผสมผสานกับเทคนิคอื่น ๆ โดยปรับน้ำหนักให้แตกต่างกันตาม ความยืดหยุ่น ของผิวหนังและปัจจัยอื่น ๆ ขึ้นอยู่กับสีหน้าท่าทางที่ต้องการ

การใช้งาน

บริษัทเชิงพาณิชย์หลายแห่งกำลังพัฒนาผลิตภัณฑ์ที่เคยใช้กันมาแล้ว แต่มีราคาค่อนข้างสูง

คาดว่าอุปกรณ์นี้จะกลายเป็นอุปกรณ์ป้อนข้อมูล หลัก สำหรับเกมคอมพิวเตอร์ เมื่อซอฟต์แวร์มีวางจำหน่ายในรูปแบบที่เข้าถึงได้ง่าย แต่ปัจจุบันทั้งฮาร์ดแวร์และซอฟต์แวร์ยังไม่มีอยู่จริง แม้ว่าการวิจัยในช่วง 15 ปีที่ผ่านมาจะให้ผลลัพธ์ที่เกือบจะใช้งานได้แล้วก็ตาม

การสื่อสารกับอวตารแบบเรียลไทม์

แอปพลิเคชันแรกที่ได้รับการยอมรับอย่างกว้างขวางคือการสื่อสาร ในช่วงแรกคือการโทรผ่านวิดีโอและการส่งข้อความมัลติมีเดีย และต่อมาในรูปแบบ 3 มิติด้วยชุดหูฟังความเป็นจริงผสม

ด้วยความก้าวหน้าของการเรียนรู้ของเครื่องพลังการประมวลผล และเซ็นเซอร์ขั้นสูง โดยเฉพาะในโทรศัพท์มือถือ เทคโนโลยีการจับภาพการเคลื่อนไหวใบหน้าจึงแพร่หลายมากขึ้น ตัวอย่างที่โดดเด่นสองประการคือ ฟีเจอร์ เลนส์ ของ Snapchat และ Memoji ของ Apple ^{[ 9 ]}ซึ่งสามารถใช้บันทึกข้อความด้วยอวตารหรือถ่ายทอดสดผ่าน แอป FaceTimeได้ ด้วยแอปพลิเคชันเหล่านี้ (และอีกมากมาย) โทรศัพท์มือถือรุ่นใหม่ส่วนใหญ่ในปัจจุบันจึงสามารถทำการจับภาพการเคลื่อนไหวใบหน้าแบบเรียลไทม์ได้! เมื่อไม่นานมานี้ การจับภาพการเคลื่อนไหวใบหน้าแบบเรียลไทม์ ร่วมกับอวตาร 3 มิติที่สมจริง ได้ถูกนำมาใช้เพื่อเปิดใช้งานการสื่อสารแบบดื่มด่ำในความเป็นจริงผสม (MR) และความเป็นจริงเสมือน (VR) Metaได้สาธิต Codec Avatars ของพวกเขาเพื่อสื่อสารผ่านชุดหูฟัง MR Meta Quest Proเพื่อบันทึกพอดแคสต์กับผู้เข้าร่วมระยะไกลสองคน^{[ 10 ]} ชุดหูฟัง MR ของApple Apple Vision Proยังรองรับการจับภาพการเคลื่อนไหวใบหน้าแบบเรียลไทม์ที่สามารถใช้กับแอปพลิเคชันต่างๆ เช่นFaceTime ได้ แอปพลิเคชันการสื่อสารแบบเรียลไทม์ให้ความสำคัญกับ ความหน่วงต่ำเพื่ออำนวยความสะดวกในการสนทนาที่เป็นธรรมชาติและใช้งานง่าย โดยมีเป้าหมายเพื่อให้เทคโนโลยีนี้เข้าถึงได้สำหรับผู้ชมในวงกว้าง ข้อควรพิจารณาเหล่านี้อาจจำกัดความแม่นยำที่เป็นไปได้ของการจับภาพการเคลื่อนไหว

ดูเพิ่มเติม

ลิงก์ภายนอก

มหาวิทยาลัยคาร์เนกีเมลลอน
มหาวิทยาลัยเทคโนโลยีเดลฟท์
อินเทล
เชฟฟิลด์และโอทาโก

[ 1 ]

CMU [ 2 ] IBM [

มหาวิทยาลัยแมน

4

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

การจับภาพการเคลื่อนไหวของใบหน้า

ประวัติศาสตร์

เทคโนโลยี

อิงตามเครื่องหมาย

ไม่มีเครื่องหมาย

การจับภาพการแสดงออกทางสีหน้า

เทคโนโลยี

การใช้งาน

การสื่อสารกับอวตารแบบเรียลไทม์

ดูเพิ่มเติม

ลิงก์ภายนอก

ข้อมูลสำคัญจากบทความ