การไหลของแสง

Q: ข้อมูลสำคัญเกี่ยวกับ การไหลของแสง

การไหลของแสงหรือการไหลของแสงคือรูปแบบการเคลื่อนที่ ที่ปรากฏ ของวัตถุ พื้นผิว และขอบในฉากภาพที่เกิดจากการเคลื่อนที่สัมพัทธ์ระหว่างผู้สังเกตและฉาก

การไหลของแสงที่ผู้สังเกตที่กำลังหมุนตัว (ในกรณีนี้คือแมลงวัน) ประสบ ทิศทางและขนาดของการไหลของแสงในแต่ละตำแหน่งแสดงด้วยทิศทางและความยาวของลูกศรแต่ละอัน

การไหลของแสงหรือการไหลของแสงคือรูปแบบการเคลื่อนที่ ที่ปรากฏ ของวัตถุ พื้นผิว และขอบในฉากภาพที่เกิดจากการเคลื่อนที่สัมพัทธ์ระหว่างผู้สังเกตและฉาก^{[ 1 ]}^{[ 2 ]}การไหลของแสงยังสามารถนิยามได้ว่าเป็นการกระจายความเร็วที่ปรากฏของการเคลื่อนที่ของรูปแบบความสว่างในภาพ^{[ 3 ]}

แนวคิดเรื่องการไหลของแสง (optic flow) มีรากฐานย้อนกลับไปถึงตำราทัศนศาสตร์ของยูคลิดแต่การกำหนดรูปแบบสมัยใหม่เกิดขึ้นจาก การวิจัยเกี่ยวกับการมองเห็นของนักบินขณะลงจอดในช่วง สงครามโลกครั้งที่สองนักวิจัยหลายคนได้ค้นพบแนวคิดนี้โดยอิสระเจมส์ เจ. กิบสันเป็นผู้ที่นำเสนอแนวคิดนี้อย่างมีอิทธิพลมากที่สุด โดยตีพิมพ์ทฤษฎีของเขาในปี 1947 และสร้างคำว่า "การไหลของแสง" (optic flow) ในปี 1950

คำว่า การไหลของแสง (optical flow) ยังถูกใช้โดยนักวิทยาศาสตร์หุ่นยนต์ ซึ่งครอบคลุมเทคนิคที่เกี่ยวข้องจากการประมวลผลภาพและการควบคุมการนำทาง รวมถึงการตรวจจับการเคลื่อนไหว การแบ่งส่วนวัตถุ ข้อมูลเวลาในการสัมผัส การคำนวณจุดโฟกัสของการขยาย ความสว่าง การ เข้ารหัสชดเชยการเคลื่อนไหวและการวัดความเหลื่อมล้ำของภาพสเตอริโอ^{[ 4 ]}^{[ 5 ]}

การประมาณการ

การไหลของแสงสามารถประมาณได้หลายวิธี โดยทั่วไปแล้ว วิธีการประมาณการไหลของแสงสามารถแบ่งออกเป็นแบบจำลองที่ใช้การเรียนรู้ของเครื่อง (บางครั้งเรียกว่าแบบจำลองที่ขับเคลื่อนด้วยข้อมูล) แบบจำลองคลาสสิก (บางครั้งเรียกว่าแบบจำลองที่ขับเคลื่อนด้วยความรู้) ซึ่งไม่ได้ใช้การเรียนรู้ของเครื่อง และแบบจำลองไฮบริดซึ่งใช้แง่มุมของทั้งแบบจำลองที่ใช้การเรียนรู้และแบบจำลองคลาสสิก^{[ 6 ]}

แบบจำลองคลาสสิก

แบบจำลองคลาสสิกหลายแบบใช้สมมติฐานเชิงสัญชาตญาณเรื่องความสว่างคงที่กล่าวคือ แม้ว่าจุดจะเคลื่อนที่ระหว่างเฟรม ความสว่างของจุดนั้นก็ยังคงที่^{[ 7 ]} เพื่อให้สมมติฐานเชิงสัญชาตญาณนี้เป็นทางการ ลองพิจารณาเฟรมสองเฟรมที่ต่อเนื่องกันจากลำดับวิดีโอที่มีความเข้มโดยที่หมายถึงพิกเซลพิกัด และหมายถึงเวลา ในกรณีนี้ ข้อจำกัดเรื่องความสว่างคงที่คือ $I(x,y,t)$ $(x,y)$ $t$

I(x,y,t)-I(x+u,y+v,t+1)=0,

โดยที่เวกเตอร์การกระจัดระหว่างจุดในเฟรมแรกและจุดที่สอดคล้องกันในเฟรมที่สอง ข้อจำกัดเรื่องความสว่างคงที่เพียงอย่างเดียวไม่สามารถแก้หาค่าและที่แต่ละพิกเซลได้ เนื่องจากมีเพียงสมการเดียวและตัวแปรที่ไม่ทราบค่าสองตัว ปัญหานี้เรียกว่าปัญหารูรับแสงดังนั้นจึงต้องกำหนดข้อจำกัดเพิ่มเติมเพื่อประมาณสนามการไหล^[⁸^]^[⁹^] $\mathbf {w} :=(u,v)$ $u$ $v$

แบบจำลองปกติ

บางทีแนวทางที่เป็นธรรมชาติที่สุดในการแก้ปัญหารูรับแสงคือการใช้ข้อจำกัดด้านความเรียบหรือข้อจำกัดด้านการปรับเสถียรภาพกับสนามการไหล เราสามารถรวมข้อจำกัดทั้งสองนี้เข้าด้วยกันเพื่อกำหนดการประมาณการการไหลของแสงเป็นปัญหาการหาค่าเหมาะสมที่สุดโดยมีเป้าหมายคือการลดฟังก์ชันต้นทุนในรูปแบบต่อไปนี้

E=\iint _{\Omega }\Psi (I(x+u,y+v,t+1)-I(x,y,t))+\alpha \Psi (|\nabla u|)+\alpha \Psi (|\nabla v|)dxdy,

โดยที่ขอบเขตของภาพคือตัวดำเนินการเกรเดียนต์คือค่าคงที่ และคือฟังก์ชันการสูญเสีย^[⁷^]^[⁸^] $\Omega$ $I(x,y)$ $\nabla$ $\alpha$ $\Psi ()$

ปัญหาการหาค่าเหมาะสมที่สุดนี้แก้ไขได้ยากเนื่องจากเป็นแบบไม่เชิงเส้น เพื่อแก้ไขปัญหานี้ เราสามารถใช้วิธีการแปรผันและทำให้ข้อจำกัดเรื่องความสว่างคงที่กลายเป็นเชิงเส้นโดยใช้ การประมาณค่าอนุกรม เทย์เลอร์ อันดับแรก โดยเฉพาะอย่างยิ่ง ข้อจำกัดเรื่องความสว่างคงที่นั้นประมาณได้ดังนี้

{\frac {\partial I}{\partial x}}u+{\frac {\partial I}{\partial y}}v+{\frac {\partial I}{\partial t}}=0.

เพื่อความสะดวก อนุพันธ์ของภาพ , และมักจะถูกย่อให้เหลือ, และการทำเช่นนี้ทำให้สามารถเขียนข้อจำกัดความคงที่ของความสว่างเชิงเส้นใหม่ได้ดังนี้^[⁹^] ${\tfrac {\partial I}{\partial x}}$ ${\tfrac {\partial I}{\partial y}}$ ${\tfrac {\partial I}{\partial t}}$ $I_{x}$ $I_{y}$ $I_{t}$

I_{x}u+I_{y}v+I_{t}=0.

ปัญหาการหาค่าเหมาะสมที่สุดสามารถเขียนใหม่ได้ดังนี้

E=\iint _{\Omega }\Psi (I_{x}u+I_{y}v+I_{t})+\alpha \Psi (|\nabla u|)+\alpha \Psi (|\nabla v|)dxdy.

สำหรับการเลือกวิธีนี้เหมือนกับวิธี Horn-Schunck [ ³^]^{แน่นอน} ว่ามีการใช้ฟังก์ชันต้นทุนทางเลือกอื่นๆ เช่นซึ่งเป็นตัวแปรที่สามารถหาอนุพันธ์ได้ของนอร์ม^[⁷^]^[¹⁰^] $\Psi (x)=x^{2}$ $\Psi (x)={\sqrt {x^{2}+\epsilon ^{2}}}$ $L^{1}$

ในการแก้ปัญหาการหาค่าเหมาะสมที่สุดที่กล่าวมาข้างต้น เราสามารถใช้สมการออยเลอร์-ลากรางจ์เพื่อสร้างระบบสมการเชิงอนุพันธ์ย่อยสำหรับแต่ละจุดในในกรณีที่ง่ายที่สุดของการใช้สมการเหล่านี้คือ $I(x,y,t)$ $\Psi (x)=x^{2}$

I_{x}(I_{x}u+I_{y}v+I_{t})-\alpha \Delta u=0,

I_{y}(I_{x}u+I_{y}v+I_{t})-\alpha \Delta v=0,

โดยที่แทนตัวดำเนินการลาปลาสเนื่องจากข้อมูลภาพประกอบด้วยพิกเซลแบบไม่ต่อเนื่อง สมการเหล่านี้จึงถูกทำให้เป็นแบบไม่ต่อเนื่อง การทำเช่นนั้นจะทำให้ได้ระบบสมการเชิงเส้นซึ่งสามารถแก้หาค่าที่แต่ละพิกเซลได้โดยใช้แผนการวนซ้ำ เช่นGauss- Seidel ^[³^] $\Delta ={\frac {\partial ^{2}}{\partial x^{2}}}+{\frac {\partial ^{2}}{\partial y^{2}}}$ $(u,v)$

แม้ว่าการทำให้ข้อจำกัดความคงที่ของความสว่างเป็นเชิงเส้นจะทำให้ปัญหาการปรับให้เหมาะสมง่ายขึ้นอย่างมาก แต่การทำให้เป็นเชิงเส้นนั้นใช้ได้เฉพาะกับการกระจัดเล็กน้อยและ/หรือภาพที่เรียบเท่านั้น เพื่อหลีกเลี่ยงปัญหานี้ มักใช้แนวทางแบบหลายระดับหรือแบบหยาบไปละเอียด ในแผนการดังกล่าว ภาพจะถูกสุ่มตัวอย่างลดลง ในตอนเริ่มต้น และสมการ Euler-Lagrange เชิงเส้นจะถูกแก้ที่ความละเอียดที่ลดลง จากนั้นสนามการไหลที่ประมาณไว้ในระดับนี้จะถูกนำมาใช้เพื่อเริ่มต้นกระบวนการในระดับถัดไป^{[ 11 ]}กระบวนการเริ่มต้นนี้มักจะทำโดยการบิดเฟรมหนึ่งโดยใช้การประมาณสนามการไหลในปัจจุบันเพื่อให้คล้ายกับเฟรมอื่นมากที่สุดเท่าที่จะเป็นไปได้^{[ 8 ]}^{[ 12 ]}

แนวทางอื่นคือการแบ่งปัญหาการหาค่าเหมาะสมที่สุดออกเป็นส่วนย่อยๆ แล้วทำการค้นหาค่าที่เป็นไปได้โดยไม่ต้องทำให้เป็นเชิงเส้น^[¹³^] การค้นหานี้มักจะทำโดยใช้ อัลก อริทึมทฤษฎีบทการไหลสูงสุดและการตัดขั้นต่ำ การเขียนโปรแกรมเชิงเส้นหรือวิธี การแพร่กระจายความเชื่อ $(u,v)$

โดยทั่วไปแล้ว วิธีการปรับค่าเหล่านี้จำเป็นต้องปรับค่าตัวคูณลากรางจ์ด้วยตนเอง ซึ่งเรียกว่าพารามิเตอร์การปรับค่า มีความคืบหน้าบ้างในการกำหนดพารามิเตอร์เหล่านี้โดยอัตโนมัติในบริบทของการไหลของแสงที่ใช้กับข้อมูลการวัดความเร็วภาพอนุภาค (PIV) ^{[ 14 ]}^{[ 15 ]}

แบบจำลองพาราเมตริก

แทนที่จะใช้ข้อจำกัดการปรับค่าแบบจุดต่อจุดตามแบบจำลองการปรับค่า เราสามารถจัดกลุ่มพิกเซลเป็นบริเวณและประมาณการการเคลื่อนที่ของบริเวณเหล่านั้นได้ วิธีนี้เรียกว่าแบบจำลองพาราเมตริกเนื่องจากการเคลื่อนที่ของบริเวณเหล่านั้นถูกกำหนดด้วยพารามิเตอร์ในการกำหนดการประมาณการการไหลของแสงในลักษณะนี้ เราตั้งสมมติฐานว่าสนามการเคลื่อนที่ในแต่ละบริเวณนั้นถูกกำหนดลักษณะอย่างสมบูรณ์ด้วยชุดพารามิเตอร์ ดังนั้นเป้าหมายของแบบจำลองพาราเมตริกคือการประมาณค่าพารามิเตอร์การเคลื่อนที่ที่ทำให้ฟังก์ชันความสูญเสียมีค่าน้อยที่สุด ซึ่งสามารถเขียนได้ดังนี้

{\hat {\boldsymbol {\alpha }}}=\arg \min _{\boldsymbol {\alpha }}\sum _{(x,y)\in {\mathcal {R}}}g(x,y)\rho (x,y,I_{1},I_{2},u_{\boldsymbol {\alpha }},v_{\boldsymbol {\alpha }}),

โดยที่เป็นชุดพารามิเตอร์ที่กำหนดการเคลื่อนไหวในภูมิภาคเป็นเทอมต้นทุนข้อมูลเป็นฟังก์ชันถ่วงน้ำหนักที่กำหนดอิทธิพลของพิกเซลต่อต้นทุนรวม และและเป็นเฟรมที่ 1 และ 2 จากเฟรมคู่หนึ่งที่ต่อเนื่องกัน^[⁷^] ${\boldsymbol {\alpha }}$ ${\mathcal {R}}$ $\rho ()$ $g()$ $(x,y)$ $I_{1}$ $I_{2}$

แบบจำลองพาราเมตริกที่ง่ายที่สุดคือวิธี Lucas-Kanadeวิธีนี้ใช้พื้นที่สี่เหลี่ยมผืนผ้าและกำหนดพารามิเตอร์การเคลื่อนที่โดยเป็นการเลื่อนอย่างเดียว วิธี Lucas-Kanade ใช้ข้อจำกัดความคงที่ของความสว่างดั้งเดิมเป็นเทอมต้นทุนข้อมูลและเลือกค่าซึ่งจะได้ฟังก์ชันการสูญเสียเฉพาะที่ $g(x,y)=1$

{\hat {\boldsymbol {\alpha }}}=\arg \min _{\boldsymbol {\alpha }}\sum _{(x,y)\in {\mathcal {R}}}|I(x+u_{\boldsymbol {\alpha }},y+v_{\boldsymbol {\alpha }},t+1)-I(x,y,t)|.

ฟังก์ชันการสูญเสียเฉพาะที่อื่นๆ ที่เป็นไปได้ ได้แก่ การหาความสัมพันธ์ไขว้แบบปกติเชิง ลบ ระหว่างเฟรมทั้งสอง^{[ 16 ]}

แบบจำลองที่อิงการเรียนรู้

แทนที่จะพยายามสร้างแบบจำลองการไหลของแสงโดยตรง เราสามารถฝึก ระบบ การเรียนรู้ของเครื่องเพื่อประมาณการการไหลของแสงได้ ตั้งแต่ปี 2015 เมื่อมีการเสนอ FlowNet ^{[ 17 ]}โมเดลที่ใช้การเรียนรู้ได้ถูกนำมาใช้กับการไหลของแสงและได้รับความนิยมมากขึ้น ในตอนแรก วิธีการเหล่านี้ใช้โครงข่ายประสาทเทียมแบบ Convolutionalที่จัดเรียงใน สถาปัตยกรรม U-Netโดยมักใช้โครงสร้างตัวเข้ารหัส-ตัวถอดรหัสหรือพีระมิดคุณลักษณะ เช่น PWC-Net ^{[ 18 ]}ซึ่งรวมปริมาตรต้นทุน ( เทนเซอร์ 4 มิติ ที่แสดงถึงต้นทุนการจับคู่ระหว่างพิกเซลทุกคู่ในแผนที่คุณลักษณะสองแผนที่) และการบิดเบี้ยว (กระบวนการแปลงภาพหนึ่งภาพในเชิงพื้นที่โดยอิงจากสนามการไหลที่คาดการณ์ไว้) เพื่อปรับปรุงการประมาณการการไหลในหลายระดับ อย่างไรก็ตาม ด้วยการเกิดขึ้นของสถาปัตยกรรม Transformerในปี 2017 โมเดลที่ใช้ Transformer จึงได้รับความนิยมมากขึ้น^{[ 19 ]}การเปลี่ยนแปลงครั้งสำคัญเกิดขึ้นจากการนำ RAFT ^{[ 20 ]} (Recurrent All-Pairs Field Transforms) มาใช้ ซึ่งแทนที่พีระมิดแบบหยาบไปละเอียดด้วย สถานะแบบ GRU เดียว ที่อัปเดตฟิลด์การไหลแบบวนซ้ำ โดยการรักษาความละเอียดของคุณลักษณะให้คงที่ที่ 1/8 ของอินพุต RAFT ช่วยปรับปรุงการรักษาความละเอียดของรายละเอียดเล็กๆ และความทนทานต่อการเคลื่อนไหวที่รวดเร็วได้อย่างมีนัยสำคัญเมื่อเทียบกับการออกแบบที่มีคอขวดจำนวนมากในอดีต ซึ่งส่งผลต่อโมเดลรุ่นต่อๆ มาจำนวนมากที่ใช้กลไกการอัปเดตแบบวนซ้ำที่คล้ายกัน

อย่างไรก็ตาม การหาความสัมพันธ์แบบคู่ทั้งหมดที่ใช้ในโมเดลดังกล่าวมีค่าใช้จ่ายในการคำนวณสูง สำหรับเนื้อหาที่มีความละเอียดสูง เช่น^{FullHD หรือ 4K การจับคู่ทั่วโลกอาจต้องใช้ VRAM มากกว่า 32 GB [} 21 ] ทำให้ไม่สามารถใช้^งาน^ได้จริงสำหรับGPU ระดับผู้บริโภค เพื่อแก้ไขปัญหานี้ จึงได้มีการพัฒนาวิธีการที่เน้นประสิทธิภาพ เช่น Flow1D ^[²¹^] MeFlow ^[²²^]และ Memfof ^[²³^]ในขณะที่วิธีการเหล่านี้โดยทั่วไปจะปรับการใช้งานหน่วยความจำให้เหมาะสมโดยการแบ่งพื้นที่ค้นหา 2 มิติ วิธีการหลังนี้จะปรับปริมาตรความสัมพันธ์ให้เหมาะสมสำหรับลำดับหลายเฟรมที่มีความละเอียดสูง ซึ่งเป็นการใช้งานจริงสำหรับGPUมาตรฐาน

วิธีการส่วนใหญ่ที่ใช้การเรียนรู้ในการวิเคราะห์การไหลของแสงจะใช้การเรียนรู้แบบมีผู้กำกับดูแลในกรณีนี้ จะใช้คู่เฟรมข้อมูลวิดีโอจำนวนมากและ ฟิลด์การไหล จริง ที่สอดคล้องกัน เพื่อปรับพารามิเตอร์ของแบบจำลองที่ใช้การเรียนรู้ให้เหมาะสมเพื่อประมาณการไหลของแสงได้อย่างแม่นยำ กระบวนการนี้มักอาศัยชุดข้อมูลการฝึกอบรมสังเคราะห์ขนาดใหญ่ เช่น FlyingChairs ^{[ 17 ]}และ FlyingThings3D ^{[ 24 ]}เนื่องจากมีพารามิเตอร์จำนวนมาก^{[ 25 ]}จากนั้นแบบจำลองจะได้รับการประเมินบนเกณฑ์มาตรฐาน เช่น MPI Sintel ^{[ 26 ]} KITTI ^{[ 27 ] และชุดข้อมูล Spring}^{[ 28 ]}ที่มีความละเอียดสูงอย่างไรก็ตาม แบบจำลองที่ฝึกฝนโดยใช้ข้อมูลสังเคราะห์เพียงอย่างเดียวมักประสบปัญหาช่องว่างระหว่างโดเมนเมื่อนำไปใช้กับภาพวิดีโอในโลกแห่งความเป็นจริง

เพื่อแก้ไขปัญหานี้ แนวทางการไหลของแสงแบบอิงการเรียนรู้บางวิธีใช้การเรียนรู้แบบกำกับตนเอง (บางครั้งเรียกว่าการเรียนรู้แบบไม่กำกับ ) เพื่อลดความจำเป็นในการใช้ชุดข้อมูลขนาดใหญ่ที่มีข้อมูลความจริงพื้นฐาน และใช้ประโยชน์จากภาพจริงที่ไม่มีป้ายกำกับระหว่างการฝึกอบรม แทนที่จะฝึกโมเดลเพื่อลดความแตกต่างระหว่างฟิลด์การไหลที่ประมาณการและฟิลด์การไหลที่เป็นความจริงพื้นฐาน โมเดลจะถูกฝึกเพื่อให้บรรลุวัตถุประสงค์การเรียนรู้ เช่น ความคงที่ของความสว่างและความเรียบเนียนของฟิลด์การไหล^{[ 29 ]}เมื่อไม่นานมานี้ วิธีการต่างๆ เช่น CroCo ^{[ 30 ]}ได้นำการฝึกอบรมล่วงหน้าแบบเติมเต็มข้ามมุมมองมาใช้ การบังคับให้เครือข่ายทำนายพื้นที่ที่ถูกปิดบังของภาพหนึ่งโดยใช้ภาพที่สองแบบเต็มจะสอนให้โมเดลมีความเข้าใจทางเรขาคณิตที่แข็งแกร่งและมีความสามารถในการสรุปผลได้ดีกว่าโมเดลที่ฝึกฝนโดยใช้ป้ายกำกับเฉพาะงานเท่านั้น

การใช้งาน

การประมาณการเคลื่อนไหวและการบีบอัดวิดีโอได้รับการพัฒนาเป็นประเด็นสำคัญในการวิจัยการไหลของแสง แม้ว่าสนามการไหลของแสงจะดูคล้ายกับสนามการเคลื่อนไหวหนาแน่นที่ได้มาจากเทคนิคการประมาณการเคลื่อนไหว แต่การไหลของแสงไม่ได้เป็นเพียงการศึกษาการกำหนดสนามการไหลของแสงเท่านั้น แต่ยังรวมถึงการนำไปใช้ในการประมาณลักษณะสามมิติและโครงสร้างของฉาก ตลอดจนการเคลื่อนไหวสามมิติของวัตถุและผู้สังเกตการณ์ที่สัมพันธ์กับฉาก ซึ่งส่วนใหญ่ใช้ Jacobian ของภาพ^{[ 31 ]}

นักวิจัยด้านหุ่นยนต์ใช้การไหลของแสงในหลายด้าน เช่นการตรวจจับและติดตามวัตถุ การสกัดระนาบเด่นของภาพ การตรวจจับการเคลื่อนไหว การนำทางหุ่นยนต์ และการวัดระยะทางด้วยภาพ [ ^{4 ] ข้อมูล}การไหลของแสงได้รับการยอมรับว่ามีประโยชน์สำหรับการควบคุมยานพาหนะทางอากาศขนาดเล็ก^{[ 32 ]}

การประยุกต์ใช้การไหลของแสงรวมถึงปัญหาของการอนุมานไม่เพียงแต่การเคลื่อนไหวของผู้สังเกตและวัตถุในฉากเท่านั้น แต่ยังรวมถึงโครงสร้างของวัตถุและสภาพแวดล้อมด้วย เนื่องจากความตระหนักรู้ถึงการเคลื่อนไหวและการสร้างแผนที่ทางจิตของโครงสร้างสภาพแวดล้อมของเราเป็นองค์ประกอบที่สำคัญของการมองเห็น ของสัตว์ (และมนุษย์) การแปลงความสามารถโดยกำเนิดนี้ให้เป็นความสามารถของคอมพิวเตอร์จึงมีความสำคัญอย่างยิ่งในสาขา การมองเห็น ของเครื่องจักร เช่นกัน ^{[ 33 ]}

ลองพิจารณาคลิปวิดีโอห้าเฟรมที่แสดงลูกบอลเคลื่อนที่จากด้านล่างซ้ายของภาพไปยังด้านบนขวา เทคนิคการประมาณการเคลื่อนไหวสามารถระบุได้ว่าบนระนาบสองมิติ ลูกบอลกำลังเคลื่อนที่ขึ้นและไปทางขวา และสามารถดึงเวกเตอร์ที่อธิบายการเคลื่อนไหวนี้ออกมาจากลำดับเฟรมได้ สำหรับวัตถุประสงค์ของการบีบอัดวิดีโอ (เช่นMPEG ) ลำดับเฟรมนั้นได้รับการอธิบายอย่างดีที่สุดเท่าที่จำเป็นแล้ว อย่างไรก็ตาม ในสาขาการมองเห็นด้วยเครื่องจักร คำถามที่ว่าลูกบอลกำลังเคลื่อนที่ไปทางขวาหรือผู้สังเกตกำลังเคลื่อนที่ไปทางซ้ายนั้นเป็นข้อมูลที่ไม่สามารถทราบได้แต่มีความสำคัญอย่างยิ่ง แม้ว่าจะมีพื้นหลังที่เป็นลวดลายคงที่อยู่ในห้าเฟรมนั้น เราก็ไม่สามารถระบุได้อย่างมั่นใจว่าลูกบอลกำลังเคลื่อนที่ไปทางขวา เพราะลวดลายนั้นอาจอยู่ห่างจากผู้สังเกตเป็นอนันต์

การไหลของแสงยังถูกนำไปใช้กับกลศาสตร์ของไหลในฐานะวิธีการประมาณรูปแบบการไหลแบบไม่รุกรานหากมีการเพิ่มอนุภาคตัวติดตามที่มองเห็นได้^{[ 34 ]}แนวทางนี้เรียกว่าการวัดความเร็วภาพอนุภาค (PIV) ^{[ 35 ]}ได้มีการแสดงให้เห็นว่าวิธีการไหลของแสงสามารถให้ความแม่นยำสูงกว่าการหาความสัมพันธ์ไขว้แบบดั้งเดิมในการประมวลผล PIV ^{[ 36 ]}

เซ็นเซอร์ตรวจจับการไหลของแสง

เซ็นเซอร์การไหลของแสงมีหลายรูปแบบ รูปแบบหนึ่งคือชิปเซ็นเซอร์ภาพที่เชื่อมต่อกับโปรเซสเซอร์ที่ตั้งโปรแกรมไว้เพื่อรันอัลกอริทึมการไหลของแสง อีกรูปแบบหนึ่งใช้ชิปวิชั่น ซึ่งเป็นวงจรรวมที่มีทั้งเซ็นเซอร์ภาพและโปรเซสเซอร์อยู่บนแผ่นเดียวกัน ทำให้สามารถใช้งานได้อย่างกะทัดรัด^{[ 37 ]}^{[ 38 ]}ตัวอย่างเช่น เซ็นเซอร์เมาส์แบบออปติคอลทั่วไปที่ใช้ในเมาส์แบบออปติคอลในบางกรณี วงจรประมวลผลอาจถูกนำไปใช้โดยใช้วงจรอนาล็อกหรือวงจรผสมสัญญาณเพื่อให้สามารถคำนวณการไหลของแสงได้อย่างรวดเร็วโดยใช้กระแสไฟฟ้าน้อยที่สุด

หนึ่งในสาขาการวิจัยร่วมสมัยคือการใช้ เทคนิค วิศวกรรมนิวโรโมฟิกเพื่อสร้างวงจรที่ตอบสนองต่อการไหลของแสง และด้วยเหตุนี้จึงอาจเหมาะสมสำหรับการใช้งานในเซ็นเซอร์การไหลของแสง^{[ 39 ]}วงจรดังกล่าวอาจได้รับแรงบันดาลใจจากวงจรประสาททางชีวภาพที่ตอบสนองต่อการไหลของแสงในลักษณะเดียวกัน

เซ็นเซอร์ตรวจจับการไหลของแสงถูกนำมาใช้กันอย่างแพร่หลายในเมาส์แบบออปติคอล ของคอมพิวเตอร์ โดยเป็นส่วนประกอบหลักในการตรวจจับเพื่อวัดการเคลื่อนที่ของเมาส์บนพื้นผิว

เซ็นเซอร์การไหลของแสงยังถูกนำไปใช้ใน แอปพลิเคชัน หุ่นยนต์โดยเฉพาะอย่างยิ่งในกรณีที่จำเป็นต้องวัดการเคลื่อนไหวทางสายตาหรือการเคลื่อนไหวสัมพัทธ์ระหว่างหุ่นยนต์กับวัตถุอื่น ๆ ในบริเวณใกล้เคียงกับหุ่นยนต์ การใช้เซ็นเซอร์การไหลของแสงในยานไร้คนขับ (UAV)เพื่อความเสถียรและการหลีกเลี่ยงสิ่งกีดขวางก็เป็นอีกหนึ่งหัวข้อวิจัยในปัจจุบัน^{[ 40 ]}

ประวัติศาสตร์

ตั้งแต่สมัยที่ยูคลิดเขียนเรื่องทัศนศาสตร์ก็มีการบันทึกถึงเรขาคณิตที่เป็นพื้นฐานของการไหลของแสง บันทึก เรื่องพารั ลแลกซ์ของการเคลื่อนไหวในศตวรรษที่ 19 ของเฮล์มโฮลทซ์ก็กล่าวถึงเรื่องนี้โดยปริยายเช่นกัน อย่างไรก็ตาม การระบุอย่างชัดเจนเกิดขึ้นในช่วงสงครามโลกครั้งที่สองเนื่องจากความจำเป็นในการทำความเข้าใจว่านักบินประเมินความสูงและทิศทางระหว่างการลงจอดอย่างไรจอห์น ที. แมคเคอร์ดีในการให้คำแนะนำแก่กองทัพอากาศหลวงในช่วงปลายทศวรรษที่ 1920 ได้สังเกตไว้ก่อนหน้านี้ว่า ในระหว่างการลงจอดแบบตรง จุดบนพื้นดินที่กำลังเข้าใกล้จะคงที่อยู่ในขอบเขตการมองเห็นของนักบิน ในขณะที่จุดอื่นๆ ทั้งหมดดูเหมือนจะเคลื่อนที่ออกไปจากจุดนั้นจี.ซี. กรินดลีย์ในรายงานลับปี 1942 ได้วิเคราะห์ทางคณิตศาสตร์ว่าความเร็วของเรตินาเปลี่ยนแปลงอย่างไรในระหว่างการเคลื่อนที่ด้วยตนเอง เพื่อให้บุคคลสามารถประเมินความเร็วในการมองเห็นได้อย่างแม่นยำ อย่างไรก็ตาม เขาพิจารณาสิ่งนี้เป็นเพียงเบาะแสเกี่ยวกับระดับความสูงเท่านั้น ไม่ใช่ข้อมูลในการกำหนดการเดินทาง^[⁴¹^]

เจมส์ เจ. กิบสันซึ่งทำงานให้กับกองทัพอากาศสหรัฐฯเป็นคนแรกที่ระบุว่าความเร็วของเรตินาแผ่กระจายออกมาจาก "จุดศูนย์กลางของการขยายตัว" ในทิศทางการเดินทาง ยิ่งไปกว่านั้น การเคลื่อนไหวของดวงตาไม่ได้รบกวนสิ่งนี้ และเป็นรูปแบบโดยรวม ไม่ใช่ความเร็วแต่ละอย่างที่ให้ข้อมูลนี้ ในปี 1947 เขาได้ตีพิมพ์ทฤษฎีนี้^{[ 42 ]} และในปี 1950 ได้ตั้งชื่อปรากฏการณ์นี้ว่า "การไหลของแสง" ^{[ 43 ]} ในปี 1955 เขาร่วมกับพอล โอลัมและแฟรงค์ โรเซนแบลตต์ได้อธิบายรายละเอียดทางคณิตศาสตร์^{[ 44 ]} ใน ขณะเดียวกัน อี.เอส. แคลเวิร์ต ที่สถาบันวิจัยอากาศยานหลวงก็ได้แนวคิดที่คล้ายกันเมื่อทำการวิจัยเกี่ยวกับไฟส่องสว่างในการลงจอดที่สนามบิน ในปี 1949 เขาได้เสนอแนวคิดนี้ในชื่อ "ทฤษฎีลำแสงพาราโฟเวียล" ซึ่งอธิบายว่านักบินใช้รูปแบบและความเร็วของลำแสงภาพเพื่อควบคุมการลงจอดอย่างไร^{[ 41 ]}

กิบสันเน้นย้ำถึงความสำคัญของการไหลของแสงสำหรับการรับรู้ความสามารถในการกระทำ ซึ่งเป็นความสามารถในการแยกแยะความเป็นไปได้ในการกระทำภายในสภาพแวดล้อม ผู้ติดตามของกิบสันและแนวทางเชิงนิเวศวิทยาของเขาในด้านจิตวิทยาได้แสดงให้เห็นเพิ่มเติมถึงบทบาทของสิ่งเร้าการไหลของแสงสำหรับการรับรู้การเคลื่อนไหวของผู้สังเกตในโลก การรับรู้รูปร่าง ระยะทาง และการเคลื่อนไหวของวัตถุในโลก และการควบคุมการเคลื่อนที่^{[ 45 ]}

ดูเพิ่มเติม

ลิงก์ภายนอก

การค้นหาการไหลของแสง
บทความ เรื่อง "ศิลปะแห่งการไหลของแสงเชิงแสง"บนเว็บไซต์ fxguide.com (การใช้การไหลของแสงเชิงแสงในเทคนิคพิเศษทางภาพ)
การประเมินการไหลของแสงและลำดับข้อมูลอ้างอิงที่ถูกต้อง
การประเมินการไหลของแสงและลำดับข้อมูลอ้างอิงพื้นฐานของ Middlebury
mrf-registration.net - การประมาณการไหลของแสงผ่านMRF
ห้องปฏิบัติการการบินและอวกาศของฝรั่งเศส:การใช้งาน GPU สำหรับการไหลของแสงตามหลักการของ Lucas-Kanade
การใช้งาน CUDAโดย CUVI (CUDA Vision & Imaging Library)
การไหลเชิงแสงแบบฮอร์นและชุนค์:การสาธิตออนไลน์และซอร์สโค้ดของวิธีการฮอร์นและชุนค์
TV-L1 Optical Flow:การสาธิตออนไลน์และซอร์สโค้ดของวิธีการของ Zach และคณะ
การไหลของแสงที่ทนทาน:การสาธิตออนไลน์และซอร์สโค้ดของวิธีการของ Brox และคณะ

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[

[

[

[ 11 ]

[ 12 ]

[

[ 14 ]

[ 15 ]

[ 16 ]

[ 18 ]

[ 19 ]

[ 20 ]

[

[

[ 24 ]

[ 25 ]

[ 26 ]

[ 27 ] และชุดข้อมูล Spring

[ 28 ]

[ 29 ]

[ 30 ]

[ 31 ]

[ 32 ]

[ 33 ]

[ 34 ]

[ 35 ]

[ 36 ]

[ 37 ]

[ 38 ]

[ 39 ]

[ 40 ]

[ 42 ]

[ 44 ]

[ 45 ]