อ่าน 4 นาที
การจับภาพการเคลื่อนไหวของใบหน้า
การจับภาพการเคลื่อนไหวใบหน้าคือกระบวนการแปลงการเคลื่อนไหวของใบหน้าของบุคคลให้เป็นฐานข้อมูลดิจิทัลโดยใช้กล้องหรือเครื่องสแกนเลเซอร์ฐานข้อมูลนี้สามารถนำไปใช้สร้างกราฟิกคอมพิวเตอร์...
การจับภาพการเคลื่อนไหวของใบหน้า
การจับภาพการเคลื่อนไหวใบหน้าคือกระบวนการแปลงการเคลื่อนไหวของใบหน้าของบุคคลให้เป็นฐานข้อมูลดิจิทัลโดยใช้กล้องหรือเครื่องสแกนเลเซอร์ฐานข้อมูลนี้สามารถนำไปใช้สร้างกราฟิกคอมพิวเตอร์ (CG) แอนิเมชั่นคอมพิวเตอร์สำหรับภาพยนตร์ เกม หรืออวตารแบบเรียลไทม์ได้ เนื่องจากการเคลื่อนไหวของตัวละคร CGI มาจากการเคลื่อนไหวของคนจริง จึงทำให้แอนิเมชั่นตัวละครคอมพิวเตอร์มีความสมจริงและละเอียดอ่อนกว่าการสร้างแอนิเมชั่นด้วยมือ
ฐานข้อมูล การจับภาพการเคลื่อนไหวใบหน้าจะอธิบายพิกัดหรือตำแหน่งสัมพัทธ์ของจุดอ้างอิงบนใบหน้าของนักแสดง การจับภาพอาจอยู่ในสองมิติ ซึ่งในกรณีนี้กระบวนการจับภาพบางครั้งเรียกว่า " การติดตาม การแสดงออก " หรืออยู่ในสามมิติ การจับภาพสองมิติสามารถทำได้โดยใช้กล้องตัวเดียวและซอฟต์แวร์จับภาพ ซึ่งจะทำให้การติดตามมีความซับซ้อนน้อยลง และไม่สามารถจับภาพการเคลื่อนไหวสามมิติได้อย่างสมบูรณ์ เช่น การหมุนศีรษะ การจับภาพสามมิติทำได้โดยใช้ระบบกล้องหลายตัวหรือระบบเลเซอร์มาร์กเกอร์ ระบบดังกล่าวโดยทั่วไปมีราคาแพงกว่า ซับซ้อนกว่า และใช้เวลานานกว่ามาก เทคโนโลยีหลักๆ มีอยู่สองประเภท ได้แก่ ระบบติดตามแบบมีมาร์กเกอร์และแบบไม่มีมาร์กเกอร์
การจับภาพการเคลื่อนไหวใบหน้ามีความเกี่ยวข้องกับการจับภาพการเคลื่อนไหวร่างกาย แต่มีความท้าทายมากกว่าเนื่องจากต้องการความละเอียดสูงกว่าในการตรวจจับและติดตามการแสดงออกที่ละเอียดอ่อนซึ่งอาจเกิดขึ้นได้จากการเคลื่อนไหวเล็กๆของดวงตาและริมฝีปาก การเคลื่อนไหวเหล่านี้มักน้อยกว่าไม่กี่มิลลิเมตร ซึ่งต้องการความละเอียดและความแม่นยำที่สูงกว่า และเทคนิคการกรองที่แตกต่างจากที่ใช้ในการจับภาพร่างกายแบบเต็มตัวโดยทั่วไป ข้อจำกัดเพิ่มเติมของใบหน้ายังเปิดโอกาสให้ใช้โมเดลและกฎเกณฑ์ต่างๆ ได้มากขึ้นอีกด้วย
การจับภาพการแสดงออกทางสีหน้าคล้ายกับการจับภาพการเคลื่อนไหวของใบหน้า เป็นกระบวนการใช้เครื่องมือทางภาพหรือทางกลไกในการปรับแต่งตัวละครที่สร้างขึ้นด้วยคอมพิวเตอร์โดยใช้ข้อมูลจากใบหน้า ของมนุษย์ หรือเพื่อจดจำอารมณ์จากผู้ใช้งาน
ประวัติศาสตร์
หนึ่งในบทความแรกๆ ที่กล่าวถึงแอนิเมชั่นที่ขับเคลื่อนด้วยประสิทธิภาพได้รับการตีพิมพ์โดยLance Williamsในปี 1990 ในนั้น เขาได้อธิบายถึง 'วิธีการในการรับเอาการแสดงออกของใบหน้าจริง และนำไปใช้กับใบหน้าที่สร้างด้วยคอมพิวเตอร์' [ 1 ]
เทคโนโลยี
อิงตามเครื่องหมาย
ระบบแบบดั้งเดิมที่ใช้เครื่องหมายจะติดเครื่องหมายมากถึง 350 จุดบนใบหน้า ของนักแสดง และติดตามการเคลื่อนไหวของเครื่องหมายด้วยกล้อง ความละเอียดสูง ระบบนี้ถูกนำมาใช้ในภาพยนตร์เช่นThe Polar ExpressและBeowulfเพื่อให้นักแสดงอย่างทอม แฮงค์สามารถควบคุมการแสดงออกทางสีหน้าของตัวละครหลายตัวได้ อย่างไรก็ตาม วิธีนี้ค่อนข้างยุ่งยากและทำให้การแสดงออกทางสีหน้าของนักแสดงดูไม่เป็นธรรมชาติมากเกินไปหลังจากทำการปรับแต่งและกรองภาพแล้ว ระบบรุ่นใหม่ เช่นCaptiveMotionใช้ประโยชน์จากระบบแบบดั้งเดิมที่ใช้เครื่องหมาย โดยเพิ่มรายละเอียดในระดับที่สูงขึ้น
ปัจจุบัน เทคโนโลยี Active LED Marker กำลังถูกนำมาใช้เพื่อสร้างแอนิเมชั่นใบหน้าแบบเรียลไทม์ เพื่อให้ผู้ใช้งานได้รับข้อมูลป้อนกลับ
ไม่มีเครื่องหมาย
เทคโนโลยีแบบไร้เครื่องหมายใช้คุณลักษณะของใบหน้า เช่นรูจมูกมุมปากและดวงตา และริ้วรอย จากนั้นจึงติดตามคุณลักษณะเหล่านั้น เทคโนโลยีนี้ได้รับการกล่าวถึงและสาธิตที่CMU [ 2 ] IBM [ 3 ] มหาวิทยาลัยแมนเชสเตอร์(ซึ่งส่วนใหญ่เริ่มต้นโดยTim Cootes [ 4 ] Gareth Edwards และ Chris Taylor) และสถานที่อื่นๆ โดยใช้โมเดลลักษณะที่ปรากฏแบบ แอคที ฟการวิเคราะห์ส่วนประกอบหลักการติดตามค่าไอเกนโมเดลพื้นผิวที่ปรับเปลี่ยนได้และเทคนิคอื่นๆ เพื่อติดตามคุณลักษณะใบหน้าที่ต้องการจากเฟรมต่อเฟรม เทคโนโลยีนี้ใช้งานง่ายกว่ามาก และช่วยให้นักแสดงสามารถแสดงออกได้มากขึ้น
วิธีการที่ใช้การมองเห็นเป็นหลักเหล่านี้ยังมีความสามารถในการติดตามการเคลื่อนไหวของรูม่านตา เปลือกตา การสบฟันโดยริมฝีปากและลิ้น ซึ่งเป็นปัญหาที่เห็นได้ชัดในภาพยนตร์แอนิเมชั่นคอมพิวเตอร์ส่วนใหญ่ ข้อจำกัดทั่วไปของวิธีการที่ใช้การมองเห็นเป็นหลักคือความละเอียดและอัตราเฟรม ซึ่งทั้งสองอย่างกำลังลดลงเนื่องจากกล้อง CMOS ความเร็วสูงและความละเอียดสูง เริ่มมีวางจำหน่ายจากหลายแหล่ง
เทคโนโลยีการติดตามใบหน้าแบบไร้เครื่องหมายมีความเกี่ยวข้องกับระบบการจดจำใบหน้าเนื่องจากระบบการจดจำใบหน้าสามารถนำไปใช้กับแต่ละเฟรมของวิดีโอได้อย่างต่อเนื่อง ส่งผลให้สามารถติดตามใบหน้าได้ ตัวอย่างเช่น ระบบ Neven Vision [ 5 ] (เดิมชื่อ Eyematics ปัจจุบันถูก Google ซื้อกิจการ) อนุญาตให้ติดตามใบหน้า 2 มิติแบบเรียลไทม์โดยไม่ต้องฝึกฝนเฉพาะบุคคล ระบบของพวกเขายังเป็นหนึ่งในระบบการจดจำใบหน้าที่ทำงานได้ดีที่สุดในการทดสอบผู้จำหน่ายการจดจำใบหน้า (FRVT) ของรัฐบาลสหรัฐฯ ในปี 2002 ในทางกลับกัน ระบบการจดจำบางระบบไม่ได้ติดตามการแสดงออกทางสีหน้าอย่างชัดเจน หรือแม้กระทั่งล้มเหลวในการแสดงออกทางสีหน้าที่ไม่เป็นกลาง ดังนั้นจึงไม่เหมาะสมสำหรับการติดตาม ในทางกลับกัน ระบบเช่นแบบจำลองพื้นผิวที่ยืดหยุ่นได้จะรวบรวมข้อมูลเชิงเวลาเพื่อแยกแยะและได้ผลลัพธ์ที่แข็งแกร่งยิ่งขึ้น ดังนั้นจึงไม่สามารถนำไปใช้จากภาพถ่ายเพียงภาพเดียวได้
การติดตามใบหน้าแบบไม่ใช้เครื่องหมายได้พัฒนาไปสู่ระบบเชิงพาณิชย์ เช่นImage Metricsซึ่งถูกนำไปใช้ในภาพยนตร์ เช่นภาคต่อของThe Matrix [ 6 ]และThe Curious Case of Benjamin Button โดยภาพยนตร์ เรื่องหลังใช้ ระบบ Movaเพื่อจับภาพแบบจำลองใบหน้าที่เปลี่ยนแปลงรูปร่างได้ จากนั้นจึงทำการสร้างแอนิเมชั่นด้วยการผสมผสานระหว่างการติดตามด้วยตนเองและการติดตามด้วยภาพ[ 7 ] Avatarเป็นภาพยนตร์โมชั่นแคปเจอร์ที่โดดเด่นอีกเรื่องหนึ่ง อย่างไรก็ตาม ภาพยนตร์เรื่องนี้ใช้เครื่องหมายที่ทาสีแทนที่จะใช้แบบไม่ใช้เครื่องหมายDynamixyzเป็นอีกระบบเชิงพาณิชย์หนึ่งที่กำลังใช้งานอยู่ในปัจจุบัน
ระบบที่ไม่ใช้เครื่องหมายสามารถจำแนกได้ตามเกณฑ์หลายประการ:
- การติดตามแบบ 2 มิติ เทียบกับการติดตามแบบ 3 มิติ
- จำเป็นต้องมีการฝึกอบรมเฉพาะบุคคลหรือความช่วยเหลือจากมนุษย์ด้านอื่น ๆ หรือไม่
- ประสิทธิภาพการทำงานแบบเรียลไทม์ (ซึ่งเป็นไปได้ก็ต่อเมื่อไม่จำเป็นต้องมีการฝึกอบรมหรือการกำกับดูแล)
- ไม่ว่าพวกเขาจะต้องการแหล่งข้อมูลเพิ่มเติม เช่น รูปแบบที่ฉายภาพ หรือสีที่มองไม่เห็น เช่นเดียวกับที่ใช้ในระบบ Mova
จนถึงปัจจุบัน ยังไม่มีระบบใดที่สมบูรณ์แบบเมื่อพิจารณาจากเกณฑ์ทั้งหมดนี้ ตัวอย่างเช่น ระบบ Neven Vision เป็นระบบอัตโนมัติอย่างสมบูรณ์และไม่ต้องการรูปแบบที่ซ่อนอยู่หรือการฝึกอบรมเฉพาะบุคคล แต่เป็นระบบ 2 มิติ ระบบ Face/Off [ 8 ]เป็นระบบ 3 มิติ อัตโนมัติ และแบบเรียลไทม์ แต่ต้องใช้รูปแบบที่ฉายภาพ
การจับภาพการแสดงออกทางสีหน้า
เทคโนโลยี
วิธีการที่ใช้ภาพวิดีโอดิจิทัลกำลังได้รับความนิยมมากขึ้นเรื่อยๆ เนื่องจากระบบเชิงกลมักเทอะทะและใช้งานยาก
การใช้กล้องดิจิทัลจะประมวลผลการแสดงออกทางสีหน้าของผู้ใช้เพื่อระบุท่าทาง ของศีรษะ ซึ่งช่วยให้ซอฟต์แวร์สามารถค้นหาดวงตา จมูก และปากได้ ในขั้นต้น ใบหน้าจะถูกปรับเทียบโดยใช้การแสดงออกทางสีหน้าที่เป็นกลาง จากนั้น ขึ้นอยู่กับโครงสร้างของใบหน้า คิ้ว เปลือกตา แก้ม และปาก สามารถประมวลผลได้โดยแยกความแตกต่างจากการแสดงออกทางสีหน้าที่เป็นกลาง เช่น การมองหาขอบของริมฝีปากและจดจำว่าเป็นวัตถุที่ไม่ซ้ำกัน บ่อยครั้งที่ต้องใช้เครื่องสำอางหรือเครื่องหมายที่ช่วยเพิ่มความคมชัด หรือวิธีการอื่นๆ เพื่อให้การประมวลผลเร็วขึ้น เช่นเดียวกับการจดจำเสียง เทคนิคที่ดีที่สุดก็ใช้ได้ผลเพียง 90 เปอร์เซ็นต์เท่านั้น จึงต้องมีการปรับแต่งด้วยมือเป็นอย่างมาก หรือต้องยอมรับความผิดพลาด
เนื่องจากตัวละครที่สร้างด้วยคอมพิวเตอร์ไม่มีกล้ามเนื้อ จริง ๆ จึงต้องใช้เทคนิคที่แตกต่างกันเพื่อให้ได้ผลลัพธ์เดียวกัน แอนิเมเตอร์บางคนสร้างกระดูกหรือวัตถุที่ควบคุมโดยซอฟต์แวร์จับภาพ และเคลื่อนย้ายตามนั้น ซึ่งเมื่อตัวละครถูกจัดโครงสร้างอย่างถูกต้องแล้วจะให้ผลลัพธ์ที่ใกล้เคียง เนื่องจากใบหน้ามีความยืดหยุ่นสูง เทคนิคนี้จึงมักผสมผสานกับเทคนิคอื่น ๆ โดยปรับน้ำหนักให้แตกต่างกันตาม ความยืดหยุ่น ของผิวหนังและปัจจัยอื่น ๆ ขึ้นอยู่กับสีหน้าท่าทางที่ต้องการ
การใช้งาน
บริษัทเชิงพาณิชย์หลายแห่งกำลังพัฒนาผลิตภัณฑ์ที่เคยใช้กันมาแล้ว แต่มีราคาค่อนข้างสูง
คาดว่าอุปกรณ์นี้จะกลายเป็นอุปกรณ์ป้อนข้อมูล หลัก สำหรับเกมคอมพิวเตอร์ เมื่อซอฟต์แวร์มีวางจำหน่ายในรูปแบบที่เข้าถึงได้ง่าย แต่ปัจจุบันทั้งฮาร์ดแวร์และซอฟต์แวร์ยังไม่มีอยู่จริง แม้ว่าการวิจัยในช่วง 15 ปีที่ผ่านมาจะให้ผลลัพธ์ที่เกือบจะใช้งานได้แล้วก็ตาม
การสื่อสารกับอวตารแบบเรียลไทม์
แอปพลิเคชันแรกที่ได้รับการยอมรับอย่างกว้างขวางคือการสื่อสาร ในช่วงแรกคือการโทรผ่านวิดีโอและการส่งข้อความมัลติมีเดีย และต่อมาในรูปแบบ 3 มิติด้วยชุดหูฟังความเป็นจริงผสม
ด้วยความก้าวหน้าของการเรียนรู้ของเครื่องพลังการประมวลผล และเซ็นเซอร์ขั้นสูง โดยเฉพาะในโทรศัพท์มือถือ เทคโนโลยีการจับภาพการเคลื่อนไหวใบหน้าจึงแพร่หลายมากขึ้น ตัวอย่างที่โดดเด่นสองประการคือ ฟีเจอร์ เลนส์ ของ Snapchat และ Memoji ของ Apple [ 9 ]ซึ่งสามารถใช้บันทึกข้อความด้วยอวตารหรือถ่ายทอดสดผ่าน แอป FaceTimeได้ ด้วยแอปพลิเคชันเหล่านี้ (และอีกมากมาย) โทรศัพท์มือถือรุ่นใหม่ส่วนใหญ่ในปัจจุบันจึงสามารถทำการจับภาพการเคลื่อนไหวใบหน้าแบบเรียลไทม์ได้! เมื่อไม่นานมานี้ การจับภาพการเคลื่อนไหวใบหน้าแบบเรียลไทม์ ร่วมกับอวตาร 3 มิติที่สมจริง ได้ถูกนำมาใช้เพื่อเปิดใช้งานการสื่อสารแบบดื่มด่ำในความเป็นจริงผสม (MR) และความเป็นจริงเสมือน (VR) Metaได้สาธิต Codec Avatars ของพวกเขาเพื่อสื่อสารผ่านชุดหูฟัง MR Meta Quest Proเพื่อบันทึกพอดแคสต์กับผู้เข้าร่วมระยะไกลสองคน[ 10 ] ชุดหูฟัง MR ของApple Apple Vision Proยังรองรับการจับภาพการเคลื่อนไหวใบหน้าแบบเรียลไทม์ที่สามารถใช้กับแอปพลิเคชันต่างๆ เช่นFaceTime ได้ แอปพลิเคชันการสื่อสารแบบเรียลไทม์ให้ความสำคัญกับ ความหน่วงต่ำเพื่ออำนวยความสะดวกในการสนทนาที่เป็นธรรมชาติและใช้งานง่าย โดยมีเป้าหมายเพื่อให้เทคโนโลยีนี้เข้าถึงได้สำหรับผู้ชมในวงกว้าง ข้อควรพิจารณาเหล่านี้อาจจำกัดความแม่นยำที่เป็นไปได้ของการจับภาพการเคลื่อนไหว
ดูเพิ่มเติม
- การติดตามดวงตา
- ภาพเคลื่อนไหวใบหน้าด้วยคอมพิวเตอร์
- ดีพเฟค
- ระบบจดจำใบหน้า
- ระบบการเข้ารหัสการแสดงออกทางสีหน้า
- หุบเขาแห่งความแปลกประหลาด
ลิงก์ภายนอก
- มหาวิทยาลัยคาร์เนกีเมลลอน
- มหาวิทยาลัยเทคโนโลยีเดลฟท์
- อินเทล
- เชฟฟิลด์และโอทาโก
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ การจับภาพการเคลื่อนไหวของใบหน้า
การจับภาพการเคลื่อนไหวใบหน้าคือกระบวนการแปลงการเคลื่อนไหวของใบหน้าของบุคคลให้เป็นฐานข้อมูลดิจิทัลโดยใช้กล้องหรือเครื่องสแกนเลเซอร์ฐานข้อมูลนี้สามารถนำไปใช้สร้างกราฟิกคอมพิวเตอร์...
ประวัติศาสตร์
หนึ่งในบทความแรกๆ ที่กล่าวถึงแอนิเมชั่นที่ขับเคลื่อนด้วยประสิทธิภาพได้รับการตีพิมพ์โดย Lance Williams ในปี 1990 ในนั้น เขาได้อธิบายถึง 'วิธีการในการรับเอาการแสดงออกของใบหน้าจริง และนำไปใช้กับใบหน้าที่สร้างด้วยคอมพิวเตอร์' [ 1 ]
อิงตามเครื่องหมาย
ระบบแบบดั้งเดิมที่ใช้เครื่องหมายจะติดเครื่องหมายมากถึง 350 จุดบน ใบหน้า ของนักแสดง และติดตามการเคลื่อนไหวของเครื่องหมายด้วย กล้อง ความละเอียดสูง ระบบนี้ถูกนำมาใช้ในภาพยนตร์เช่น The Polar Express และ Beowulf เพื่อให้นักแสดงอย่าง ทอม แฮงค์...
ไม่มีเครื่องหมาย
เทคโนโลยีแบบไร้เครื่องหมายใช้คุณลักษณะของใบหน้า เช่น รูจมูก มุมปากและดวงตา และริ้วรอย จากนั้นจึงติดตามคุณลักษณะเหล่านั้น เทคโนโลยีนี้ได้รับการกล่าวถึงและสาธิตที่ CMU [ 2 ] IBM [ 3 ] มหาวิทยาลัย แมน เช ส เตอร์ ( ซึ่ง ส่วนใหญ่เริ่มต้นโดยTim Cootes [ 4 ] Gareth...