คอมพิวเตอร์วิชั่น

งาน ด้านคอมพิวเตอร์วิชั่นประกอบด้วยวิธีการในการรับประมวลผลวิเคราะห์และทำความเข้าใจภาพดิจิทัลรวมถึงการสกัด ข้อมูล มิติสูงจากโลกแห่งความเป็นจริงเพื่อสร้างข้อมูลเชิงตัวเลขหรือเชิงสัญลักษณ์ เช่น ในรูปแบบของการตัดสินใจ[ ¹^]^[²^]^[³^]^[⁴^]^" การทำความเข้าใจ" ในบริบทนี้หมายถึงการแปลงภาพให้เป็นคำอธิบายของโลกที่สอดคล้องกับกระบวนการคิดและสามารถนำไปสู่การกระทำที่เหมาะสม ได้การทำความเข้าใจภาพนี้สามารถมองได้ว่าเป็นการแยกข้อมูลเชิงสัญลักษณ์ออกจากข้อมูลภาพโดยใช้แบบจำลองที่สร้างขึ้นโดยอาศัยเรขาคณิตฟิสิกส์สถิติ และทฤษฎี การเรียนรู้

สาขาวิทยาศาสตร์ด้านคอมพิวเตอร์วิชั่นเกี่ยวข้องกับทฤษฎีเบื้องหลังระบบปัญญาประดิษฐ์ที่ดึงข้อมูลจากภาพ ข้อมูลภาพสามารถมีได้หลายรูปแบบ เช่น ลำดับวิดีโอ มุมมองจากกล้องหลายตัว ข้อมูลหลายมิติจากเครื่องสแกน 3 มิติกลุ่มจุด 3 มิติจาก เซ็นเซอร์ LiDaRหรืออุปกรณ์สแกนทางการแพทย์ ส่วนสาขาเทคโนโลยีคอมพิวเตอร์วิชั่นนั้นมุ่งที่จะประยุกต์ใช้ทฤษฎีและแบบจำลองเพื่อสร้างระบบคอมพิวเตอร์วิชั่น

สาขาย่อยของวิทยาการคอมพิวเตอร์ด้านการมองเห็น ได้แก่การสร้างฉากขึ้นใหม่การตรวจจับวัตถุ การตรวจจับเหตุการณ์การ จดจำกิจกรรม การ ติดตาม วิดีโอการ จดจำ วัตถุ การประมาณท่าทาง 3 มิติการเรียนรู้ การจัดทำดัชนีการประมาณการเคลื่อนไหว การควบคุมด้วยภาพ การสร้างแบบจำลองฉาก 3 มิติและ การ ฟื้นฟู ภาพ

คำนิยาม

คอมพิวเตอร์วิชั่นเป็นสาขาสหวิทยาการที่เกี่ยวข้องกับการทำให้คอมพิวเตอร์สามารถเข้าใจภาพดิจิทัลหรือวิดีโอ ในระดับสูงได้ จากมุมมองของวิศวกรรมศาสตร์มันพยายามที่จะทำให้งานที่ระบบการมองเห็นของมนุษย์สามารถทำได้ เป็นไปโดยอัตโนมัติ ^{[ 5 ]}^{[ 6 ]}^{[ 7 ]} "คอมพิวเตอร์วิชั่นเกี่ยวข้องกับการสกัด วิเคราะห์ และทำความเข้าใจข้อมูลที่เป็นประโยชน์จากภาพเดียวหรือลำดับภาพโดยอัตโนมัติ มันเกี่ยวข้องกับการพัฒนาพื้นฐานทางทฤษฎีและอัลกอริทึมเพื่อให้บรรลุความเข้าใจภาพโดยอัตโนมัติ" ^{[ 8 ]}ในฐานะที่เป็นสาขาวิทยาศาสตร์คอมพิวเตอร์วิชั่นเกี่ยวข้องกับทฤษฎีเบื้องหลังระบบปัญญาประดิษฐ์ที่สกัดข้อมูลจากภาพ ข้อมูลภาพสามารถมีได้หลายรูปแบบ เช่น ลำดับวิดีโอ มุมมองจากกล้องหลายตัว หรือข้อมูลหลายมิติจากเครื่องสแกนทางการแพทย์^{[ 9 ]} ในฐานะที่เป็นสาขาเทคโนโลยี คอมพิวเตอร์วิชั่นพยายามที่จะนำทฤษฎีและแบบจำลองไปใช้ในการสร้างระบบคอมพิวเตอร์วิชั่นแมชชีนวิชั่นหมายถึงสาขาวิศวกรรมระบบ โดยเฉพาะอย่างยิ่งในบริบทของระบบอัตโนมัติในโรงงาน ในช่วงเวลาที่ผ่านมา คำว่าคอมพิวเตอร์วิชั่นและแมชชีนวิชั่นได้มาบรรจบกันมากขึ้น^{[ 10 ]}^{: 13}

ประวัติศาสตร์

ในช่วงปลายทศวรรษ 1960 การมองเห็นด้วยคอมพิวเตอร์เริ่มขึ้นที่มหาวิทยาลัยที่เป็นผู้บุกเบิกด้านปัญญาประดิษฐ์โดยมีจุดประสงค์เพื่อเลียนแบบระบบการมองเห็นของมนุษย์เพื่อเป็นก้าวแรกในการทำให้หุ่นยนต์มีพฤติกรรมที่ชาญฉลาด^{[ 11 ]}ในปี 1966 มีความเชื่อว่าสิ่งนี้สามารถบรรลุได้ผ่านโครงการภาคฤดูร้อนของนักศึกษาระดับปริญญาตรี^{[ 12 ]}โดยการติดกล้องเข้ากับคอมพิวเตอร์และให้มัน "อธิบายสิ่งที่มันเห็น" ^{[ 13 ]}^{[ 14 ]}

สิ่งที่ทำให้คอมพิวเตอร์วิชั่นแตกต่างจากสาขาการประมวลผลภาพดิจิทัล ที่แพร่หลาย ในขณะนั้นคือความต้องการที่จะแยก โครงสร้าง สามมิติจากภาพโดยมีเป้าหมายเพื่อให้เข้าใจฉากทั้งหมด การศึกษาในช่วงทศวรรษ 1970 ได้วางรากฐานเบื้องต้นสำหรับอัลกอริธึม คอมพิวเตอร์วิชั่นจำนวนมาก ที่มีอยู่ในปัจจุบัน รวมถึงการสกัดขอบจากภาพ การติดป้ายเส้น การสร้างแบบจำลองที่ไม่ใช่รูปทรงหลายเหลี่ยมและรูปทรงหลายเหลี่ยมการแสดงวัตถุเป็นการเชื่อมต่อของโครงสร้างขนาดเล็กการไหลของแสงและการประมาณการเคลื่อนไหว^{[ 11 ]}

ทศวรรษถัดมามีการศึกษาวิจัยที่อิงจากการวิเคราะห์ทางคณิตศาสตร์ที่เข้มงวดมากขึ้นและแง่มุมเชิงปริมาณของคอมพิวเตอร์วิชั่น ซึ่งรวมถึงแนวคิดของสเกลสเปซการอนุมานรูปร่างจากเบาะแสต่างๆ เช่นเงาพื้นผิว และโฟกัส และแบบจำลองเส้นขอบที่เรียกว่า snakesนักวิจัยยังตระหนักว่าแนวคิดทางคณิตศาสตร์เหล่านี้จำนวนมากสามารถจัดการได้ภายในกรอบการเพิ่มประสิทธิภาพเดียวกันกับregularizationและMarkov random fields ^{[ 15} ] ในช่วงทศวรรษที่ 1990 หัวข้อการวิจัยก่อนหน้านี้บางหัวข้อมีความคึกคักมากกว่าหัวข้ออื่นๆ การวิจัยเกี่ยวกับ^การสร้างภาพสามมิติ แบบโปรเจคทีฟ นำไปสู่ความเข้าใจที่ดีขึ้นเกี่ยวกับการสอบเทียบกล้องด้วยการเกิดขึ้นของวิธีการเพิ่มประสิทธิภาพสำหรับการสอบเทียบกล้อง ทำให้ตระหนักว่าแนวคิดหลายอย่างได้รับการสำรวจแล้วใน ทฤษฎี การปรับบันเดิลจากสาขาโฟโตแกรมเมตรีซึ่งนำไปสู่วิธีการสร้างภาพสามมิติแบบเบาบางของฉากจากภาพหลายภาพความก้าวหน้าเกิดขึ้นในปัญหาการจับคู่ สเตอริโอแบบหนาแน่น และเทคนิคสเตอริโอหลายมุมมองเพิ่มเติม ในขณะเดียวกันรูปแบบต่างๆ ของ graph cutถูกนำมาใช้เพื่อแก้ปัญหาการแบ่งส่วนภาพทศวรรษนี้ยังถือเป็นครั้งแรกที่มีการใช้เทคนิคการเรียนรู้ทางสถิติในทางปฏิบัติเพื่อจดจำใบหน้าในภาพ (ดูEigenface ) ในช่วงปลายทศวรรษ 1990 มีการเปลี่ยนแปลงที่สำคัญเกิดขึ้นจากการมีปฏิสัมพันธ์ที่เพิ่มมากขึ้นระหว่างสาขากราฟิกคอมพิวเตอร์และคอมพิวเตอร์วิชั่น ซึ่งรวมถึงการเรนเดอร์ภาพ การแปลงภาพ การแทรกมุมมอง การต่อภาพพาโนรามาและ การเร น เดอ ร์สนามแสง ในยุคแรก ^[¹¹^]

งานวิจัยล่าสุดได้เห็นการกลับมาของ วิธีการที่ใช้ คุณลักษณะร่วมกับเทคนิคการเรียนรู้ของเครื่องและกรอบงานการเพิ่มประสิทธิภาพที่ซับซ้อน^{[ 16 ]}^{[ 17 ]} ความก้าวหน้าของ เทคนิค การเรียนรู้เชิงลึกได้นำมาซึ่งความมีชีวิตชีวาให้กับสาขาวิทยาการคอมพิวเตอร์ ความแม่นยำของอัลกอริธึมการเรียนรู้เชิงลึกบนชุดข้อมูลวิทยาการคอมพิวเตอร์มาตรฐานหลายชุดสำหรับงานต่างๆ ตั้งแต่การจำแนกประเภท^{[ 18 ]}การแบ่งส่วนและการไหลของแสงได้เหนือกว่าวิธีการก่อนหน้า^{[ 19 ]}^{[ 20 ]}

สาขาที่เกี่ยวข้อง

ฟิสิกส์ของแข็ง

ฟิสิกส์ของของแข็งเป็นอีกสาขาหนึ่งที่เกี่ยวข้องอย่างใกล้ชิดกับคอมพิวเตอร์วิชั่น ระบบคอมพิวเตอร์วิชั่นส่วนใหญ่อาศัยเซ็นเซอร์ภาพซึ่งตรวจจับรังสีแม่เหล็กไฟฟ้าซึ่งโดยทั่วไปอยู่ในรูปของแสง ที่มองเห็นได้อินฟราเรดหรือ อัลตราไวโอเลต เซ็นเซอร์ได้รับการออกแบบโดยใช้ฟิสิกส์ควอนตัมกระบวนการที่แสงมีปฏิสัมพันธ์กับพื้นผิวได้รับการอธิบายโดยใช้ฟิสิกส์ ฟิสิกส์อธิบายพฤติกรรมของเลนส์ซึ่งเป็นส่วนสำคัญของระบบการสร้างภาพส่วนใหญ่ เซ็นเซอร์ภาพที่ซับซ้อนยังต้องการกลศาสตร์ควอนตัมเพื่อให้เข้าใจกระบวนการสร้างภาพได้อย่างสมบูรณ์^[¹¹^]นอกจากนี้ ปัญหาการวัดต่างๆ ในฟิสิกส์สามารถแก้ไขได้โดยใช้คอมพิวเตอร์วิชั่น ตัวอย่างเช่น การเคลื่อนที่ในของเหลว

ประสาทชีววิทยา

ตัวอย่างอย่างง่ายของการฝึกโครงข่ายประสาทเทียมในการตรวจจับวัตถุ: โครงข่ายได้รับการฝึกฝนด้วยภาพหลายภาพที่ทราบว่าเป็นภาพของปลาดาวและเม่นทะเลซึ่งมีความสัมพันธ์กับ "โหนด" ที่แสดงถึงคุณลักษณะ ทางภาพ ปลาดาวจะตรงกับพื้นผิวที่เป็นวงแหวนและโครงร่างรูปดาว ในขณะที่เม่นทะเลส่วนใหญ่จะตรงกับพื้นผิวที่เป็นลายเส้นและรูปทรงวงรี อย่างไรก็ตาม กรณีของเม่นทะเลที่มีพื้นผิวเป็นวงแหวนจะสร้างความสัมพันธ์ที่มีน้ำหนักอ่อนระหว่างพวกมัน

การทำงานของเครือข่ายในภายหลังกับภาพอินพุต (ซ้าย): ^{[ 21 ]}เครือข่ายตรวจจับดาวทะเลได้อย่างถูกต้อง อย่างไรก็ตาม การเชื่อมโยงที่มีน้ำหนักน้อยระหว่างพื้นผิววงแหวนและเม่นทะเลยังให้สัญญาณที่อ่อนแอแก่เม่นทะเลจากโหนดกลางหนึ่งในสองโหนด นอกจากนี้ เปลือกหอยที่ไม่ได้รวมอยู่ในการฝึกอบรมยังให้สัญญาณที่อ่อนแอสำหรับรูปร่างวงรี ซึ่งส่งผลให้สัญญาณที่อ่อนแอสำหรับเอาต์พุตเม่นทะเลด้วย สัญญาณที่อ่อนแอเหล่านี้อาจส่งผลให้เกิด ผลลัพธ์ ที่เป็นบวกเท็จสำหรับเม่นทะเลในความเป็นจริง พื้นผิวและโครงร่างจะไม่ถูกแทนด้วยโหนดเดียว แต่จะถูกแทนด้วยรูปแบบน้ำหนักที่เชื่อมโยงกันของหลายโหนด

ชีววิทยาประสาทมีอิทธิพลอย่างมากต่อการพัฒนาอัลกอริทึมการมองเห็นด้วยคอมพิวเตอร์ ในช่วงศตวรรษที่ผ่านมา มีการศึกษาอย่างกว้างขวางเกี่ยวกับดวงตา เซลล์ประสาท และโครงสร้างสมองที่มุ่งเน้นการประมวลผลสิ่งเร้าทางสายตาในทั้งมนุษย์และสัตว์ต่างๆ สิ่งนี้ได้นำไปสู่คำอธิบายอย่างคร่าวๆ แต่ซับซ้อนเกี่ยวกับวิธีการทำงานของระบบการมองเห็นตามธรรมชาติเพื่อแก้ปัญหาที่เกี่ยวข้องกับการมองเห็นบางอย่าง ผลลัพธ์เหล่านี้ได้นำไปสู่สาขาย่อยภายในวิทยาการคอมพิวเตอร์ ซึ่งมีการออกแบบระบบเทียมเพื่อเลียนแบบการประมวลผลและพฤติกรรมของระบบชีวภาพในระดับความซับซ้อนต่างๆ นอกจากนี้ วิธีการเรียนรู้บางอย่างที่พัฒนาขึ้นภายในวิทยาการคอมพิวเตอร์ ( เช่นโครงข่ายประสาทเทียมและการวิเคราะห์และการจำแนกภาพและคุณลักษณะโดยใช้การเรียนรู้เชิงลึก ) ก็มีพื้นฐานมาจากชีววิทยาประสาท Neocognitronซึ่งเป็นโครงข่ายประสาทเทียมที่พัฒนาขึ้นในทศวรรษ 1970 โดยKunihiko Fukushima เป็นตัวอย่างแรกๆ ของวิทยาการคอมพิวเตอร์ที่ได้รับแรงบันดาลใจโดยตรงจากชีววิทยาประสาท โดย เฉพาะอย่างยิ่งจากเปลือกสมองส่วนรับภาพหลัก

งานวิจัยด้านคอมพิวเตอร์วิชั่นบางส่วนมีความเกี่ยวข้องอย่างใกล้ชิดกับการศึกษาด้านการมองเห็นทางชีววิทยา —ที่จริงแล้ว งานวิจัยด้านAI หลายสาขา ก็มีความเชื่อมโยงอย่างใกล้ชิดกับงานวิจัยเกี่ยวกับสติปัญญาของมนุษย์และการใช้ความรู้ที่จัดเก็บไว้เพื่อตีความ บูรณาการ และใช้ข้อมูลภาพ สาขาการมองเห็นทางชีววิทยาศึกษาและสร้างแบบจำลองกระบวนการทางสรีรวิทยาที่อยู่เบื้องหลังการรับรู้ภาพในมนุษย์และสัตว์อื่นๆ ในทางกลับกัน คอมพิวเตอร์วิชั่นพัฒนาและอธิบายอัลกอริทึมที่นำไปใช้ในซอฟต์แวร์และฮาร์ดแวร์ที่อยู่เบื้องหลังระบบการมองเห็นเทียม การแลกเปลี่ยนความรู้ระหว่างสาขาการมองเห็นทางชีววิทยาและคอมพิวเตอร์วิชั่นได้พิสูจน์แล้วว่ามีประโยชน์สำหรับทั้งสองสาขา^{[ 22 ]}

การประมวลผลสัญญาณ

อีกสาขาหนึ่งที่เกี่ยวข้องกับคอมพิวเตอร์วิชั่นคือการประมวลผลสัญญาณวิธีการประมวลผลสัญญาณตัวแปรเดียว ซึ่งโดยทั่วไปคือสัญญาณเชิงเวลา สามารถขยายไปสู่การประมวลผลสัญญาณสองตัวแปรหรือสัญญาณหลายตัวแปรในคอมพิวเตอร์วิชั่นได้อย่างเป็นธรรมชาติ อย่างไรก็ตาม เนื่องจากลักษณะเฉพาะของภาพ จึงมีวิธีการหลายอย่างที่พัฒนาขึ้นในคอมพิวเตอร์วิชั่นซึ่งไม่มีวิธีการเทียบเคียงในการประมวลผลสัญญาณตัวแปรเดียว เมื่อรวมกับมิติหลายมิติของสัญญาณ จึงทำให้เกิดสาขาย่อยในการประมวลผลสัญญาณซึ่งเป็นส่วนหนึ่งของคอมพิวเตอร์วิชั่น

การนำทางหุ่นยนต์

การนำทางของหุ่นยนต์บางครั้งเกี่ยวข้องกับการวางแผนเส้นทาง อัตโนมัติ หรือการพิจารณาสำหรับระบบหุ่นยนต์ในการนำทางผ่านสภาพแวดล้อม [ ^{23 ] จำเป็น}ต้องมีความเข้าใจอย่างละเอียดเกี่ยวกับสภาพแวดล้อมเหล่านี้เพื่อนำทางผ่านสภาพแวดล้อมเหล่านั้น ข้อมูลเกี่ยวกับสภาพแวดล้อมสามารถจัดหาได้จากระบบคอมพิวเตอร์วิชั่น ซึ่งทำหน้าที่เป็นเซ็นเซอร์วิชั่นและให้ข้อมูลระดับสูงเกี่ยวกับสภาพแวดล้อมและหุ่นยนต์

การประมวลผลภาพ

การประมวลผลภาพ (Visual computing)เป็นคำทั่วไปที่ใช้เรียกสาขาวิทยาศาสตร์คอมพิวเตอร์ทั้งหมดที่เกี่ยวข้องกับภาพและแบบจำลอง 3 มิติเช่นกราฟิกคอมพิวเตอร์การประมวลผลภาพ การแสดงภาพ คอมพิวเตอร์วิชั่นความเป็นจริงเสมือนและความเป็นจริงเสริมการประมวลผลวิดีโอและวิทยาการภาพเชิงคำนวณการประมวลผลภาพยังรวมถึงแง่มุมต่างๆ เช่นการรู้จำรูปแบบปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์ การเรียนรู้ของเครื่อง และห้องสมุดดิจิทัล ความท้าทายหลักคือการได้มา การประมวลผล การวิเคราะห์ และการแสดงผลข้อมูลภาพ (ส่วนใหญ่เป็นภาพและวิดีโอ) พื้นที่การประยุกต์ใช้ ได้แก่ การควบคุมคุณภาพทางอุตสาหกรรม การประมวลผล และการแสดงภาพทางการแพทย์ การสำรวจ หุ่นยนต์ระบบมัลติมีเดีย มรดกเสมือนจริง เทคนิคพิเศษในภาพยนตร์และโทรทัศน์ และวิทยาการเกมการประมวลผลภาพยังรวมถึงศิลปะดิจิทัลและการศึกษา ด้านสื่อดิจิทัล ด้วย

สาขาอื่นๆ

นอกจากมุมมองเกี่ยวกับการมองเห็นด้วยคอมพิวเตอร์ที่กล่าวมาข้างต้นแล้ว หัวข้อวิจัยที่เกี่ยวข้องอีกมากมายยังสามารถศึกษาได้จากมุมมองทางคณิตศาสตร์ล้วนๆ ตัวอย่างเช่น วิธีการหลายอย่างในการมองเห็นด้วยคอมพิวเตอร์นั้นอิงตามสถิติการเพิ่มประสิทธิภาพหรือเรขาคณิตสุดท้ายนี้ ส่วนสำคัญของสาขานี้ทุ่มเทให้กับการนำการมองเห็นด้วยคอมพิวเตอร์ไปใช้ กล่าวคือ วิธีการที่มีอยู่สามารถนำไปใช้ในรูปแบบต่างๆ ของซอฟต์แวร์และฮาร์ดแวร์ได้อย่างไร หรือวิธีการเหล่านี้สามารถปรับเปลี่ยนได้อย่างไรเพื่อให้ได้ความเร็วในการประมวลผลโดยไม่สูญเสียประสิทธิภาพมากเกินไป การมองเห็นด้วยคอมพิวเตอร์ยังใช้ในอีคอมเมิร์ซแฟชั่น การจัดการสินค้าคงคลัง การค้นหาสิทธิบัตร เฟอร์นิเจอร์ และอุตสาหกรรมความงามอีกด้วย^{[ 24 ]}

ความแตกต่าง

สาขาที่เกี่ยวข้องกับคอมพิวเตอร์วิชั่นมากที่สุด ได้แก่การประมวลผลภาพการวิเคราะห์ภาพและแมชชีนวิชั่นเทคนิคและแอปพลิเคชันในสาขาเหล่านี้มีความทับซ้อนกันอย่างมาก ซึ่งหมายความว่าเทคนิคพื้นฐานที่ใช้และพัฒนาในสาขาเหล่านี้มีความคล้ายคลึงกัน ซึ่งอาจตีความได้ว่าเป็นเพียงสาขาเดียวที่มีชื่อเรียกต่างกัน ในทางกลับกัน ดูเหมือนว่ากลุ่มวิจัย วารสารทางวิทยาศาสตร์ การประชุม และบริษัทต่างๆ จำเป็นต้องนำเสนอหรือทำการตลาดตนเองในฐานะที่เป็นของสาขาใดสาขาหนึ่งโดยเฉพาะ ดังนั้นจึงมีการนำเสนอคุณลักษณะต่างๆ ที่แยกแยะแต่ละสาขาออกจากสาขาอื่นๆ ในการประมวลผลภาพ ทั้งอินพุตและเอาต์พุตเป็นภาพ ในขณะที่ในคอมพิวเตอร์วิชั่น อินพุตเป็นภาพหรือวิดีโอ และเอาต์พุตอาจเป็นภาพที่ปรับปรุงแล้ว การวิเคราะห์เนื้อหาของภาพ หรือแม้แต่พฤติกรรมของระบบโดยอิงจากการวิเคราะห์นั้น

คอมพิวเตอร์กราฟิกสร้างข้อมูลภาพจากโมเดล 3 มิติ และคอมพิวเตอร์วิชั่นมักสร้างโมเดล 3 มิติจากข้อมูลภาพ^{[ 25 ]}นอกจากนี้ยังมีแนวโน้มที่จะผสมผสานทั้งสองสาขาเข้าด้วยกันเช่นดังที่ได้สำรวจใน ความเป็น จริง เสริม

ลักษณะต่างๆ ต่อไปนี้ดูเหมือนจะเกี่ยวข้อง แต่ไม่ควรนำไปใช้เป็นข้อสรุปที่ยอมรับกันโดยทั่วไป:

การประมวลผลภาพและการวิเคราะห์ภาพมักมุ่งเน้นไปที่ภาพ 2 มิติ วิธีการแปลงภาพหนึ่งไปเป็นอีกภาพหนึ่งเช่นโดยการดำเนินการระดับพิกเซล เช่น การเพิ่มความคมชัด การดำเนินการเฉพาะจุด เช่น การแยกขอบหรือการลดสัญญาณรบกวน หรือการแปลงทางเรขาคณิต เช่น การหมุนภาพ ลักษณะเช่นนี้บ่งชี้ว่าการประมวลผล/วิเคราะห์ภาพไม่จำเป็นต้องอาศัยข้อสมมติฐานหรือสร้างการตีความเกี่ยวกับเนื้อหาของภาพ
วิชั่นคอมพิวเตอร์ประกอบด้วยการวิเคราะห์ภาพสามมิติจากภาพสองมิติ ซึ่งเป็นการวิเคราะห์ฉากสามมิติที่ฉายลงบนภาพหนึ่งภาพหรือหลายภาพเช่นวิธีการสร้างโครงสร้างหรือข้อมูลอื่นๆ เกี่ยวกับฉากสามมิติจากภาพหนึ่งภาพหรือหลายภาพ วิชั่นคอมพิวเตอร์มักอาศัยสมมติฐานที่ซับซ้อนมากน้อยต่างกันเกี่ยวกับฉากที่ปรากฏในภาพ
การมองเห็นด้วยเครื่องจักรคือกระบวนการของการประยุกต์ใช้เทคโนโลยีและวิธีการต่างๆ เพื่อให้การตรวจสอบอัตโนมัติโดยใช้ภาพ การควบคุมกระบวนการ และการนำทางหุ่นยนต์^{[ 26 ]}ในการใช้งานทางอุตสาหกรรม^{[ 22 ]}การมองเห็นด้วยเครื่องจักรมีแนวโน้มที่จะมุ่งเน้นไปที่การใช้งาน โดยเฉพาะอย่างยิ่งในด้านการผลิตเช่นหุ่นยนต์และระบบที่ใช้การมองเห็นสำหรับการตรวจสอบ การวัด หรือการหยิบโดยใช้การมองเห็น (เช่นการหยิบจากถัง^{[ 27 ]} ) ซึ่งหมายความว่าเทคโนโลยีเซ็นเซอร์ภาพและทฤษฎีการควบคุมมักจะถูกรวมเข้ากับการประมวลผลข้อมูลภาพเพื่อควบคุมหุ่นยนต์ และการประมวลผลแบบเรียลไทม์จะได้รับการเน้นย้ำด้วยการใช้งานที่มีประสิทธิภาพในฮาร์ดแวร์และซอฟต์แวร์ นอกจากนี้ยังหมายความว่าเงื่อนไขภายนอก เช่น แสงสว่าง สามารถควบคุมได้และมักจะถูกควบคุมได้มากกว่าในการมองเห็นด้วยเครื่องจักรเมื่อเทียบกับการมองเห็นด้วยคอมพิวเตอร์ทั่วไป ซึ่งจะช่วยให้สามารถใช้อัลกอริธึมต่างๆ ได้
นอกจากนี้ยังมีสาขาที่เรียกว่าการสร้างภาพซึ่งมุ่งเน้นไปที่กระบวนการสร้างภาพเป็นหลัก แต่บางครั้งก็เกี่ยวข้องกับการประมวลผลและการวิเคราะห์ภาพด้วย ตัวอย่างเช่นการสร้างภาพทางการแพทย์ประกอบด้วยงานสำคัญเกี่ยวกับการวิเคราะห์ข้อมูลภาพในการใช้งานทางการแพทย์ ความก้าวหน้าในเครือข่ายประสาทเทียมแบบคอนโวลูชัน (CNNs) ได้ปรับปรุงการตรวจจับโรคในภาพทางการแพทย์ให้แม่นยำยิ่งขึ้น โดยเฉพาะอย่างยิ่งในด้านหัวใจวิทยา พยาธิวิทยา โรคผิวหนัง และรังสีวิทยา^{[ 28 ]}
สุดท้ายการรู้จำรูปแบบเป็นสาขาที่ใช้วิธีการต่างๆ ในการดึงข้อมูลจากสัญญาณโดยทั่วไป โดยส่วนใหญ่จะใช้แนวทางทางสถิติและเครือข่ายประสาทเทียม [ ^{29 ] ส่วน}สำคัญของสาขานี้ทุ่มเทให้กับการประยุกต์ใช้วิธีการเหล่านี้กับข้อมูลภาพ

การถ่ายภาพสามมิติ (Photogrammetry)ยังมีความทับซ้อนกับการประมวลผลภาพด้วยคอมพิวเตอร์ (Computer Vision) เช่นการถ่ายภาพสามมิติแบบสเตอริโอ (Stereophotogrammetry)กับ การประมวลผลภาพสามมิติ ด้วยคอมพิวเตอร์ (Computer Stereo Vision )

แอปพลิเคชัน

การประยุกต์ใช้งานมีหลากหลาย ตั้งแต่ระบบ วิชั่นเชิงเครื่องจักรในอุตสาหกรรม เช่นการตรวจสอบขวดที่เคลื่อนที่อย่างรวดเร็วในสายการผลิต ไปจนถึงการวิจัยด้านปัญญาประดิษฐ์และคอมพิวเตอร์หรือหุ่นยนต์ที่สามารถเข้าใจโลกรอบตัวได้ สาขาคอมพิวเตอร์วิชั่นและแมชชีนวิชั่นมีความทับซ้อนกันอย่างมาก คอมพิวเตอร์วิชั่นครอบคลุมเทคโนโลยีหลักของการวิเคราะห์ภาพอัตโนมัติ ซึ่งใช้ในหลายสาขา ส่วนแมชชีนวิชั่นโดยทั่วไปหมายถึงกระบวนการผสมผสานการวิเคราะห์ภาพอัตโนมัติกับวิธีการและเทคโนโลยีอื่นๆ เพื่อให้การตรวจสอบอัตโนมัติและการนำทางหุ่นยนต์ในงานอุตสาหกรรม ในการประยุกต์ใช้คอมพิวเตอร์วิชั่นหลายๆ อย่าง คอมพิวเตอร์จะถูกตั้งโปรแกรมไว้ล่วงหน้าเพื่อแก้ปัญหาเฉพาะอย่าง แต่ปัจจุบันวิธีการที่ใช้การเรียนรู้กำลังเป็นที่นิยมมากขึ้น ตัวอย่างของการประยุกต์ใช้คอมพิวเตอร์วิชั่น ได้แก่ ระบบสำหรับ:

การตรวจสอบอัตโนมัติเช่นในงานด้านการผลิต
ช่วยเหลือมนุษย์ในงานระบุตัวตน เช่นระบบระบุชนิดพันธุ์^{[ 30 ]}
การควบคุมกระบวนการต่างๆเช่นหุ่นยนต์อุตสาหกรรม ;
การตรวจ จับเหตุการณ์เช่นเพื่อการเฝ้าระวังด้วยภาพหรือการนับจำนวนคนเช่น ในอุตสาหกรรมร้านอาหาร
การโต้ตอบเช่นการป้อนข้อมูลเข้าสู่อุปกรณ์สำหรับการโต้ตอบระหว่างคอมพิวเตอร์กับมนุษย์
MediaPipeคือเฟรมเวิร์กโอเพนซอร์สจาก Google สำหรับการประมวลผล AI บนอุปกรณ์ Edge Computing เช่นการตรวจจับใบหน้า การจำแนกภาพ การตรวจจับวัตถุ
การตรวจสอบพืชผลทางการเกษตร เช่น โมเดลทรานส์ฟอร์เมอร์วิชั่นแบบโอเพนซอร์ส^{[ 31 ]} ได้รับการพัฒนาเพื่อช่วยให้เกษตรกรตรวจจับโรคสตรอว์เบอร์รี ได้โดยอัตโนมัติ ด้วยความแม่นยำ 98.4% ^{[ 32 ]}
การสร้างแบบจำลองวัตถุหรือสภาพแวดล้อมเช่นการวิเคราะห์ภาพทางการแพทย์ หรือ การสร้างแบบจำลอง ภูมิประเทศ ;
การนำทางเช่นโดยยานพาหนะอัตโนมัติหรือหุ่นยนต์เคลื่อนที่ ;
การจัดระเบียบข้อมูลเช่นการจัดทำดัชนีฐานข้อมูลรูปภาพและลำดับภาพ
การติดตามพื้นผิวหรือระนาบในพิกัด 3 มิติ เพื่อรองรับประสบการณ์ความเป็นจริงเสริม (Augmented Reality )
การวิเคราะห์สภาพของสิ่งอำนวยความสะดวกในภาคอุตสาหกรรมหรือการก่อสร้าง
การอ่านริมฝีปากแบบเรียลไทม์อัตโนมัติสำหรับอุปกรณ์และแอปเพื่อช่วยเหลือผู้พิการ^{[ 33 ]}

สำหรับปี 2024 พื้นที่ชั้นนำของคอมพิวเตอร์วิชั่น ได้แก่ อุตสาหกรรม (ขนาดตลาด 5.22 พันล้านดอลลาร์สหรัฐ) ^{[ 34 ]}การแพทย์ (ขนาดตลาด 2.6 พันล้านดอลลาร์สหรัฐ) ^{[ 35 ]}การทหาร (ขนาดตลาด 996.2 ล้านดอลลาร์สหรัฐ) ^{[ 36 ]}

ยา

วิดีโอแนวคิดการให้เหตุผลผ่านสื่อภาพของDARPA

หนึ่งในสาขาการประยุกต์ใช้ที่โดดเด่นที่สุดคือคอมพิวเตอร์วิชั่นทางการแพทย์หรือการประมวลผลภาพทางการแพทย์ ซึ่งมีลักษณะเฉพาะคือการสกัดข้อมูลจากข้อมูลภาพเพื่อวินิจฉัยผู้ป่วย^{[ 37 ]}ตัวอย่างเช่น การตรวจจับเนื้องอกหลอดเลือดแดงแข็งหรือการเปลี่ยนแปลงที่เป็นอันตรายอื่นๆ และพยาธิสภาพทางทันตกรรมต่างๆ การวัดขนาดอวัยวะ การไหลเวียนของเลือด ฯลฯ ก็เป็นอีกตัวอย่างหนึ่ง นอกจากนี้ยังสนับสนุนการวิจัยทางการแพทย์โดยการให้ข้อมูลใหม่เช่นเกี่ยวกับโครงสร้างของสมองหรือคุณภาพของการรักษาทางการแพทย์ การประยุกต์ใช้คอมพิวเตอร์วิชั่นในด้านการแพทย์ยังรวมถึงการปรับปรุงภาพที่มนุษย์ตีความ เช่น ภาพอัลตราซาวน ด์ หรือภาพเอกซเรย์เพื่อลดอิทธิพลของสัญญาณรบกวน

การมองเห็นด้วยเครื่องจักร

พื้นที่การประยุกต์ใช้งานที่สองในด้านคอมพิวเตอร์วิชั่นคือในอุตสาหกรรม ซึ่งบางครั้งเรียกว่าแมชชีนวิชั่นโดยมีการดึงข้อมูลเพื่อสนับสนุนกระบวนการผลิต ตัวอย่างหนึ่งคือการควบคุมคุณภาพ ซึ่งมีการตรวจสอบรายละเอียดหรือผลิตภัณฑ์ขั้นสุดท้ายโดยอัตโนมัติเพื่อหาข้อบกพร่อง หนึ่งในสาขาที่พบได้บ่อยที่สุดสำหรับการตรวจสอบดังกล่าวคือ อุตสาหกรรม เวเฟอร์ซึ่งเวเฟอร์ทุกชิ้นจะถูกวัดและตรวจสอบความไม่ถูกต้องหรือข้อบกพร่องเพื่อป้องกันไม่ให้ชิปคอมพิวเตอร์ออกสู่ตลาดในลักษณะที่ใช้งานไม่ได้ อีกตัวอย่างหนึ่งคือการวัดตำแหน่งและการวางแนวของรายละเอียดที่จะหยิบโดยแขนหุ่นยนต์ แมชชีนวิชั่นยังถูกนำมาใช้อย่างมากในกระบวนการทางการเกษตรเพื่อกำจัดอาหารที่ไม่พึงประสงค์ออกจากวัสดุจำนวนมาก ซึ่งเป็นกระบวนการที่เรียกว่า^การคัดแยกด้วยแสง [ ^{38 ]}

ทหาร

ตัวอย่างที่เห็นได้ชัดคือการตรวจจับทหารหรือยานพาหนะของศัตรูและการนำทางขีปนาวุธระบบนำทางขีปนาวุธที่ทันสมัยกว่านั้นจะส่งขีปนาวุธไปยังพื้นที่แทนที่จะเป็นเป้าหมายเฉพาะ และการเลือกเป้าหมายจะทำเมื่อขีปนาวุธไปถึงพื้นที่นั้นโดยอาศัยข้อมูลภาพที่ได้มาในพื้นที่นั้น แนวคิดทางทหารสมัยใหม่ เช่น "การรับรู้สถานการณ์ในสนามรบ" บ่งชี้ว่าเซ็นเซอร์ต่างๆ รวมถึงเซ็นเซอร์ภาพ ให้ข้อมูลมากมายเกี่ยวกับฉากการต่อสู้ที่สามารถนำมาใช้สนับสนุนการตัดสินใจเชิงกลยุทธ์ ในกรณีนี้ การประมวลผลข้อมูลอัตโนมัติจะถูกนำมาใช้เพื่อลดความซับซ้อนและรวมข้อมูลจากเซ็นเซอร์หลายตัวเพื่อเพิ่มความน่าเชื่อถือ

รถยนต์ไร้คนขับ

หนึ่งในพื้นที่การใช้งานใหม่ๆ คือ ยานพาหนะอัตโนมัติ ซึ่งรวมถึงยานดำน้ำ ยานพาหนะบนบก (หุ่นยนต์ขนาดเล็กที่มีล้อ รถยนต์ หรือรถบรรทุก) ยานพาหนะทางอากาศ และยานไร้คนขับ ( UAV ) ระดับความเป็นอิสระมีตั้งแต่ยานพาหนะอัตโนมัติเต็มรูปแบบ (ไร้คนขับ) ไปจนถึงยานพาหนะที่ระบบคอมพิวเตอร์วิชั่นช่วยสนับสนุนคนขับหรือนักบินในสถานการณ์ต่างๆ ยานพาหนะอัตโนมัติเต็มรูปแบบมักใช้คอมพิวเตอร์วิชั่นสำหรับการนำทาง เช่น การรู้ตำแหน่งของตนเองหรือการสร้างแผนที่สภาพแวดล้อม ( SLAM ) สำหรับการตรวจจับสิ่งกีดขวาง นอกจากนี้ยังสามารถใช้สำหรับการตรวจจับเหตุการณ์เฉพาะงานเช่น UAV ค้นหาไฟป่า ตัวอย่างของระบบสนับสนุน ได้แก่ ระบบเตือนสิ่งกีดขวางในรถยนต์ กล้องและเซ็นเซอร์ LiDAR ในยานพาหนะ และระบบสำหรับการลงจอดอัตโนมัติของเครื่องบิน ผู้ผลิตรถยนต์หลายรายได้สาธิตระบบขับขี่อัตโนมัติของรถยนต์แล้วมีตัวอย่างมากมายของยานพาหนะอัตโนมัติทางทหาร ตั้งแต่ขีปนาวุธขั้นสูงไปจนถึง UAV สำหรับภารกิจลาดตระเวนหรือการนำทางขีปนาวุธ ปัจจุบันมีการสำรวจอวกาศโดยใช้ยานพาหนะอัตโนมัติที่ใช้เทคโนโลยีคอมพิวเตอร์วิชั่นอยู่แล้วเช่นยานสำรวจ CuriosityของNASAและยานสำรวจ Yutu-2ของCNSA

การตอบสนองทางสัมผัส

วัสดุต่างๆ เช่น ยางและซิลิคอนถูกนำมาใช้สร้างเซ็นเซอร์ที่ช่วยให้สามารถใช้งานต่างๆ เช่น การตรวจจับความขรุขระเล็กน้อยและการปรับเทียบมือหุ่นยนต์ ยางสามารถใช้สร้างแม่พิมพ์ที่สามารถวางครอบนิ้วได้ ภายในแม่พิมพ์นี้จะมีเกจวัดความเครียดหลายตัว จากนั้นแม่พิมพ์นิ้วและเซ็นเซอร์สามารถวางบนแผ่นยางขนาดเล็กที่มีหมุดยางเรียงกัน ผู้ใช้สามารถสวมแม่พิมพ์นิ้วและลากเส้นบนพื้นผิวได้ จากนั้นคอมพิวเตอร์สามารถอ่านข้อมูลจากเกจวัดความเครียดและวัดว่ามีหมุดอย่างน้อยหนึ่งตัวถูกดันขึ้นหรือไม่ หากมีหมุดถูกดันขึ้น คอมพิวเตอร์จะสามารถรับรู้ได้ว่านี่คือความไม่สมบูรณ์ของพื้นผิว เทคโนโลยีประเภทนี้มีประโยชน์ในการรับข้อมูลที่แม่นยำเกี่ยวกับความไม่สมบูรณ์บนพื้นผิวขนาดใหญ่มาก^{[ 39 ]}เซ็นเซอร์แม่พิมพ์นิ้วอีกรูปแบบหนึ่งคือเซ็นเซอร์ที่มีกล้องแขวนอยู่ในซิลิคอน ซิลิคอนจะก่อตัวเป็นโดมรอบนอกของกล้องและมีเครื่องหมายจุดฝังอยู่ในซิลิคอนซึ่งมีระยะห่างเท่าๆ กัน จากนั้นสามารถนำกล้องเหล่านี้ไปติดตั้งบนอุปกรณ์ต่างๆ เช่น มือหุ่นยนต์ เพื่อให้คอมพิวเตอร์สามารถรับข้อมูลสัมผัสที่มีความแม่นยำสูงได้^{[ 40 ]}

แอปพลิเคชันอื่นๆ

พื้นที่การใช้งานอื่นๆ ได้แก่:

สนับสนุน การสร้าง เทคนิคพิเศษด้านภาพสำหรับภาพยนตร์และรายการโทรทัศน์เช่นการติดตามกล้อง ( การเคลื่อนที่แบบตรงกัน)
การเฝ้าระวัง
การตรวจจับอาการง่วงนอนของคนขับ^{[ 41 ]}^{[ 42 ]}^{[ 43 ]}
การติดตามและนับจำนวนสิ่งมีชีวิตในวิทยาศาสตร์ชีวภาพ^{[ 44 ]} (ตัวอย่างเช่น การนับใบพืชอาหาร) ^{[ 45 ]}

งานทั่วไป

แต่ละสาขาการประยุกต์ใช้งานที่กล่าวมาข้างต้นนั้นใช้ภารกิจด้านคอมพิวเตอร์วิชั่นหลากหลายรูปแบบ ไม่ว่าจะเป็นปัญหาการวัดหรือปัญหาการประมวลผลที่กำหนดไว้อย่างชัดเจน ซึ่งสามารถแก้ไขได้โดยใช้วิธีการต่างๆ ตัวอย่างของภารกิจคอมพิวเตอร์วิชั่นทั่วไปมีดังต่อไปนี้

งานด้านคอมพิวเตอร์วิชั่นประกอบด้วยวิธีการในการรับประมวลผลวิเคราะห์ และ ทำความเข้าใจภาพดิจิทัล รวมถึงการสกัด ข้อมูล มิติสูงจากโลกแห่งความเป็นจริงเพื่อสร้างข้อมูลเชิงตัวเลขหรือเชิงสัญลักษณ์เช่นในรูปแบบของการตัดสินใจ^{[ 1 ]}^{[ 2 ]}^{[ 3 ]}^{[ 4 ]}การทำความเข้าใจในบริบทนี้หมายถึงการแปลงภาพให้เป็นคำอธิบายของโลกที่สามารถเชื่อมต่อกับกระบวนการคิดอื่นๆ และกระตุ้นให้เกิดการกระทำที่เหมาะสม การทำความเข้าใจภาพนี้สามารถมองได้ว่าเป็นการแยกข้อมูลเชิงสัญลักษณ์ออกจากข้อมูลภาพโดยใช้แบบจำลองที่สร้างขึ้นโดยอาศัยเรขาคณิต ฟิสิกส์ สถิติ และทฤษฎีการเรียนรู้^{[ 46 ]}

การยอมรับ

ปัญหาคลาสสิกในคอมพิวเตอร์วิชั่น การประมวลผลภาพ และแมชชีนวิชั่นคือการพิจารณาว่าข้อมูลภาพมีวัตถุ คุณลักษณะ หรือกิจกรรมเฉพาะบางอย่างหรือไม่ ปัญหาการจดจำประเภทต่างๆ ได้รับการอธิบายไว้ในเอกสาร^{[ 47 ]}

การจดจำวัตถุ (หรือเรียกว่าการจำแนกประเภทวัตถุ ) – สามารถจดจำวัตถุหรือกลุ่มวัตถุที่กำหนดไว้ล่วงหน้าหรือเรียนรู้มาแล้วได้หนึ่งหรือหลายอย่าง โดยปกติจะรวมถึงตำแหน่ง 2 มิติในภาพหรือท่าทาง 3 มิติในฉากด้วย โปรแกรม Blippar, Google Gogglesและ LikeThat เป็นโปรแกรมแบบสแตนด์อะโลนที่แสดงให้เห็นถึงฟังก์ชันการทำงานนี้
การระบุตัวตน – คือการจดจำวัตถุแต่ละชิ้น ตัวอย่างเช่น การระบุใบหน้าหรือลายนิ้วมือของบุคคลใดบุคคลหนึ่งการระบุตัวเลขที่เขียนด้วยลายมือหรือการระบุยานพาหนะคันใดคันหนึ่ง
การตรวจจับ – ข้อมูลภาพจะถูกสแกนเพื่อค้นหาวัตถุเฉพาะพร้อมกับตำแหน่งของวัตถุนั้น ตัวอย่างเช่น การตรวจจับสิ่งกีดขวางในมุมมองของรถยนต์ และเซลล์หรือเนื้อเยื่อที่อาจผิดปกติในภาพทางการแพทย์ หรือการตรวจจับยานพาหนะในระบบเก็บค่าผ่านทางอัตโนมัติ การตรวจจับโดยอาศัยการคำนวณที่ค่อนข้างง่ายและรวดเร็วบางครั้งใช้เพื่อค้นหาบริเวณเล็กๆ ของข้อมูลภาพที่น่าสนใจ ซึ่งสามารถนำไปวิเคราะห์เพิ่มเติมด้วยเทคนิคที่ต้องการการคำนวณสูงกว่าเพื่อสร้างการตีความที่ถูกต้อง

ปัจจุบัน อัลกอริทึมที่ดีที่สุดสำหรับงานดังกล่าวมีพื้นฐานมาจากโครงข่ายประสาทเทียมแบบคอนโวลูชันตัวอย่างความสามารถของโครงข่ายเหล่านี้แสดงให้เห็นได้จากImageNet Large Scale Visual Recognition Challengeซึ่งเป็นเกณฑ์มาตรฐานในการจำแนกและตรวจจับวัตถุ โดยใช้ภาพนับล้านภาพและคลาสวัตถุ 1,000 คลาสในการแข่งขัน^{[ 48 ]}ประสิทธิภาพของโครงข่ายประสาทเทียมแบบคอนโวลูชันในการทดสอบ ImageNet ในปัจจุบันใกล้เคียงกับประสิทธิภาพของมนุษย์แล้ว^{[ 48 ]}อัลกอริทึมที่ดีที่สุดยังคงมีปัญหาในการจัดการกับวัตถุที่มีขนาดเล็กหรือบาง เช่น มดตัวเล็ก ๆ บนก้านดอกไม้ หรือคนถือปากกาขนนกอยู่ในมือ นอกจากนี้ยังมีปัญหาในการจัดการกับภาพที่บิดเบี้ยวด้วยฟิลเตอร์ (ซึ่งเป็นปรากฏการณ์ที่พบได้บ่อยขึ้นเรื่อย ๆ ในกล้องดิจิทัลสมัยใหม่) ในทางตรงกันข้าม ภาพประเภทดังกล่าวแทบจะไม่เป็นปัญหาสำหรับมนุษย์ อย่างไรก็ตาม มนุษย์มักมีปัญหาในเรื่องอื่น ๆ ตัวอย่างเช่น พวกเขาไม่เก่งในการจำแนกวัตถุออกเป็นคลาสย่อย ๆ เช่น สายพันธุ์สุนัขหรือสายพันธุ์นก ในขณะที่โครงข่ายประสาทเทียมแบบคอนโวลูชันสามารถจัดการเรื่องนี้ได้อย่างง่ายดาย

มีงานเฉพาะทางหลายอย่างที่ใช้การจดจำเป็นพื้นฐาน เช่น:

การค้นหารูปภาพตามเนื้อหา – การค้นหารูปภาพทั้งหมดในชุดรูปภาพขนาดใหญ่ที่มีเนื้อหาเฉพาะเจาะจง เนื้อหาสามารถระบุได้หลายวิธี ตัวอย่างเช่น ในแง่ของความคล้ายคลึงกับรูปภาพเป้าหมาย (ขอรูปภาพทั้งหมดที่คล้ายกับรูปภาพ X) โดยใช้ เทคนิค การค้นหารูปภาพย้อนกลับหรือในแง่ของเกณฑ์การค้นหาระดับสูงที่ระบุเป็นข้อความ (ขอรูปภาพทั้งหมดที่มีบ้านจำนวนมาก ถ่ายในช่วงฤดูหนาว และไม่มีรถยนต์อยู่ในภาพ)

การประมาณตำแหน่ง – คือการประมาณตำแหน่งหรือทิศทางของวัตถุเฉพาะชิ้นหนึ่งเมื่อเทียบกับกล้อง ตัวอย่างการประยุกต์ใช้เทคนิคนี้ ได้แก่ การช่วยแขนหุ่นยนต์ในการหยิบวัตถุจากสายพานลำเลียงในสายการผลิตหรือการหยิบชิ้นส่วนจากถังเก็บ
การรู้จำอักขระด้วยแสง (OCR) – คือการระบุอักขระในภาพข้อความที่พิมพ์หรือเขียนด้วยลายมือ โดยปกติแล้วมีจุดประสงค์เพื่อเข้ารหัสข้อความให้อยู่ในรูปแบบที่เหมาะสมกับการแก้ไขหรือการจัดทำดัชนี มากขึ้น (เช่นASCII ) งานที่เกี่ยวข้องคือการอ่านรหัส 2 มิติ เช่น รหัสเมทริกซ์ข้อมูลและรหัส QR
การจดจำใบหน้า –เทคโนโลยีที่ช่วยให้สามารถจับคู่ใบหน้าในภาพดิจิทัลหรือเฟรมวิดีโอกับฐานข้อมูลใบหน้า ซึ่งปัจจุบันมีการใช้งานอย่างแพร่หลายสำหรับการล็อกใบหน้าบนโทรศัพท์มือถือ การล็อกประตูอัจฉริยะ ฯลฯ^{[ 49 ]}
การจดจำอารมณ์ –ซึ่งเป็นส่วนย่อยของการจดจำใบหน้า การจดจำอารมณ์หมายถึงกระบวนการจำแนกอารมณ์ ของมนุษย์ อย่างไรก็ตาม นักจิตวิทยาเตือนว่าอารมณ์ภายในไม่สามารถตรวจจับได้อย่างน่าเชื่อถือจากใบหน้า^{[ 50 ]}
เทคโนโลยีการจดจำรูปร่าง (Shape Recognition Technology : SRT) ใน ระบบ นับคนสามารถแยกแยะมนุษย์ (รูปแบบศีรษะและไหล่) ออกจากวัตถุได้
การจดจำกิจกรรมของมนุษย์ - เกี่ยวข้องกับการจดจำกิจกรรมจากชุดเฟรมวิดีโอ เช่น การระบุว่าบุคคลนั้นกำลังหยิบสิ่งของหรือกำลังเดินอยู่

การวิเคราะห์การเคลื่อนไหว

งานหลายอย่างเกี่ยวข้องกับการประมาณการเคลื่อนไหว โดยจะประมวลผลลำดับภาพเพื่อสร้างค่าประมาณความเร็ว ณ แต่ละจุดในภาพ หรือในฉาก 3 มิติ หรือแม้กระทั่งความเร็วของกล้องที่ถ่ายภาพ ตัวอย่างของงานดังกล่าว ได้แก่:

การเคลื่อนที่ของตัวกล้อง (Egomotion ) – การหาการเคลื่อนที่แบบสามมิติ (การหมุนและการเลื่อน) ของกล้องจากลำดับภาพที่สร้างโดยกล้อง
การติดตาม – การติดตามการเคลื่อนไหวของจุดหรือวัตถุที่น่าสนใจ (โดยปกติจะมีขนาดเล็กกว่า) (เช่นยานพาหนะ วัตถุ มนุษย์ หรือสิ่งมีชีวิตอื่นๆ^{[ 44 ]} ) ในลำดับภาพ ซึ่งมีการใช้งานในอุตสาหกรรมอย่างกว้างขวาง เนื่องจากเครื่องจักรที่ทำงานด้วยความเร็วสูงส่วนใหญ่สามารถตรวจสอบได้ด้วยวิธีนี้
การไหลของแสง (Optical flow ) – คือการหาว่าแต่ละจุดในภาพเคลื่อนที่อย่างไรเมื่อเทียบกับระนาบภาพ หรือก็คือการเคลื่อนที่ปรากฏของจุดนั้น การเคลื่อนที่นี้เป็นผลมาจากทั้งการเคลื่อนที่ของจุด 3 มิติที่สอดคล้องกันในฉาก และการเคลื่อนที่ของกล้องเมื่อเทียบกับฉาก

การจำลองเหตุการณ์

เมื่อได้รับภาพฉากหนึ่งภาพหรือ (โดยทั่วไป) มากกว่าหนึ่งภาพ หรือวิดีโอ การสร้างฉากใหม่มีเป้าหมายเพื่อคำนวณแบบจำลอง 3 มิติของฉาก ในกรณีที่ง่ายที่สุด แบบจำลองอาจเป็นชุดของจุด 3 มิติ วิธีการที่ซับซ้อนกว่านั้นจะสร้างแบบจำลองพื้นผิว 3 มิติที่สมบูรณ์ การเกิดขึ้นของการสร้างภาพ 3 มิติที่ไม่ต้องมีการเคลื่อนไหวหรือการสแกน และอัลกอริธึมการประมวลผลที่เกี่ยวข้อง ทำให้เกิดความก้าวหน้าอย่างรวดเร็วในสาขานี้ การตรวจจับ 3 มิติแบบกริดสามารถใช้เพื่อรับภาพ 3 มิติจากหลายมุม ปัจจุบันมีอัลกอริธึมที่สามารถเชื่อมต่อภาพ 3 มิติหลายภาพเข้าด้วยกันเป็นกลุ่มจุดและแบบจำลอง 3 มิติ^{[ 25 ]}

การฟื้นฟูภาพ

การฟื้นฟูภาพเข้ามามีบทบาทเมื่อภาพต้นฉบับเสื่อมคุณภาพหรือเสียหายเนื่องจากปัจจัยภายนอกบางอย่าง เช่น การวางตำแหน่งเลนส์ผิดพลาด การรบกวนในการส่งสัญญาณ แสงน้อย หรือภาพเบลอจากการเคลื่อนไหว เป็นต้น ซึ่งเรียกว่าสัญญาณรบกวน เมื่อภาพเสื่อมคุณภาพหรือเสียหาย ข้อมูลที่จะดึงออกมาจากภาพก็จะเสียหายไปด้วย ดังนั้นเราจึงจำเป็นต้องกู้คืนหรือฟื้นฟูภาพให้กลับมาเป็นเหมือนเดิม จุดมุ่งหมายของการฟื้นฟูภาพคือการกำจัดสัญญาณรบกวน (สัญญาณรบกวนจากเซ็นเซอร์ ภาพเบลอจากการเคลื่อนไหว ฯลฯ) ออกจากภาพ วิธีที่ง่ายที่สุดในการกำจัดสัญญาณรบกวนคือการใช้ตัวกรองประเภทต่างๆ เช่น ตัวกรองความถี่ต่ำหรือตัวกรองค่ามัธยฐาน วิธีการที่ซับซ้อนกว่านั้นจะใช้แบบจำลองโครงสร้างภาพเฉพาะที่เพื่อแยกแยะออกจากสัญญาณรบกวน โดยการวิเคราะห์ข้อมูลภาพในแง่ของโครงสร้างภาพเฉพาะที่ เช่น เส้นหรือขอบ ก่อน แล้วควบคุมการกรองตามข้อมูลเฉพาะที่จากขั้นตอนการวิเคราะห์ มักจะได้ผลลัพธ์การกำจัดสัญญาณรบกวนที่ดีกว่าเมื่อเทียบกับวิธีที่ง่ายกว่า

ตัวอย่างในสาขานี้คือการเติมสีภายในภาพ (inpainting )

วิธีการของระบบ

การจัดระบบคอมพิวเตอร์วิชั่นนั้นขึ้นอยู่กับลักษณะการใช้งานเป็นอย่างมาก บางระบบเป็นแอปพลิเคชันแบบสแตนด์อะโลนที่แก้ปัญหาการวัดหรือการตรวจจับเฉพาะอย่าง ในขณะที่บางระบบเป็นระบบย่อยของการออกแบบที่ใหญ่กว่า ซึ่งอาจรวมถึงระบบย่อยสำหรับการควบคุมกลไก การวางแผน ฐานข้อมูล อินเทอร์เฟซระหว่างมนุษย์กับเครื่องจักร เป็นต้น การใช้งานระบบคอมพิวเตอร์วิชั่นโดยเฉพาะยังขึ้นอยู่กับว่าฟังก์ชันการทำงานของระบบนั้นถูกกำหนดไว้ล่วงหน้าหรือไม่ หรือบางส่วนของระบบสามารถเรียนรู้หรือปรับเปลี่ยนได้ในระหว่างการทำงาน ฟังก์ชันหลายอย่างเป็นเอกลักษณ์เฉพาะของแอปพลิเคชัน อย่างไรก็ตาม มีฟังก์ชันทั่วไปบางอย่างที่พบได้ในระบบคอมพิวเตอร์วิชั่นหลายระบบ

การได้มาซึ่งภาพ – ภาพดิจิทัลถูกสร้างขึ้นโดยเซ็นเซอร์รับภาพ หนึ่งตัวหรือหลายตัว ซึ่งนอกจากกล้องที่ไวต่อแสงประเภทต่างๆ แล้ว ยังรวมถึงเซ็นเซอร์วัดระยะอุปกรณ์โทโมกราฟี เรดาร์ กล้องอัลตราโซนิก เป็นต้น ขึ้นอยู่กับประเภทของเซ็นเซอร์ ข้อมูลภาพที่ได้จะเป็นภาพ 2 มิติธรรมดา ปริมาตร 3 มิติ หรือลำดับภาพ ค่าพิกเซลโดยทั่วไปจะสอดคล้องกับความเข้มของแสงในแถบสเปกตรัมหนึ่งแถบหรือหลายแถบ (ภาพสีเทาหรือภาพสี) แต่ยังสามารถเกี่ยวข้องกับการวัดทางกายภาพต่างๆ เช่น ความลึก การดูดซับหรือการสะท้อนของคลื่นเสียงหรือคลื่นแม่เหล็กไฟฟ้า หรือ การถ่าย ภาพ ด้วย คลื่นแม่เหล็กไฟฟ้า^{[ 38 ]}
การประมวลผลเบื้องต้น – ก่อนที่จะนำวิธีการประมวลผลภาพด้วยคอมพิวเตอร์ไปใช้กับข้อมูลภาพเพื่อดึงข้อมูลเฉพาะบางอย่างออกมา มักจะต้องประมวลผลข้อมูลก่อนเพื่อให้แน่ใจว่าข้อมูลนั้นเป็นไปตามข้อสมมติบางประการที่วิธีการนั้นกำหนดไว้ ตัวอย่างเช่น:
- การสุ่มตัวอย่างใหม่เพื่อให้แน่ใจว่าระบบพิกัดภาพถูกต้อง
- ลดสัญญาณรบกวนเพื่อให้แน่ใจว่าสัญญาณรบกวนจากเซ็นเซอร์จะไม่ก่อให้เกิดข้อมูลที่ผิดพลาด
- เพิ่มความคมชัดของภาพเพื่อให้สามารถตรวจจับข้อมูลที่เกี่ยวข้องได้
- การแสดงผล แบบมาตราส่วนเพื่อเพิ่มประสิทธิภาพของโครงสร้างภาพในมาตราส่วนที่เหมาะสมเฉพาะที่
การสกัดคุณลักษณะ – คุณลักษณะของภาพในระดับความซับซ้อนต่างๆ จะถูกสกัดจากข้อมูลภาพ^{[ 38 ]}ตัวอย่างทั่วไปของคุณลักษณะดังกล่าว ได้แก่:
- เส้นขอบและสันนูน
- จุดสนใจเฉพาะที่เช่นมุมกลุ่มจุดหรือจุดต่างๆ

ลักษณะที่ซับซ้อนกว่านั้นอาจเกี่ยวข้องกับพื้นผิว รูปร่าง หรือการเคลื่อนไหว

การตรวจจับ / การแบ่งส่วน – ในบางจุดของการประมวลผล จะมีการตัดสินใจเกี่ยวกับจุดภาพหรือบริเวณภาพใดที่เกี่ยวข้องกับการประมวลผลต่อไป^{[ 38 ]}ตัวอย่างเช่น:
- การเลือกกลุ่มจุดสนใจเฉพาะกลุ่มหนึ่ง
- การแบ่งส่วนภาพหนึ่งภาพหรือหลายภาพที่มีวัตถุที่สนใจเฉพาะเจาะจงอยู่ภายใน
- การแบ่งส่วนภาพออกเป็นสถาปัตยกรรมฉากแบบซ้อนกันซึ่งประกอบด้วยพื้นหน้า กลุ่มวัตถุ วัตถุเดี่ยว หรือวัตถุเด่น^{[ 51 ]} (เรียกอีกอย่างว่าลำดับชั้นฉากเชิงพื้นที่-อนุกรมวิธาน) ^{[ 52 ]}ในขณะที่ความโดดเด่นทางสายตามักจะถูกนำไปใช้เป็น ความ สนใจเชิงพื้นที่และเวลา
- การแบ่งส่วนหรือการแบ่งส่วนร่วมของวิดีโอหนึ่งรายการหรือหลายรายการเป็นชุดของมาสก์พื้นหน้าต่อเฟรมในขณะที่ยังคงรักษาความต่อเนื่องทางความหมายเชิงเวลา^{[ 53 ]}^{[ 54 ]}
การประมวลผลระดับสูง – ในขั้นตอนนี้ โดยทั่วไปอินพุตจะเป็นชุดข้อมูลขนาดเล็ก เช่น ชุดจุดหรือบริเวณภาพ ซึ่งถือว่ามีวัตถุเฉพาะอยู่^{[ 38 ]}การประมวลผลที่เหลือจะเกี่ยวข้องกับตัวอย่างเช่น:
- ตรวจสอบว่าข้อมูลเป็นไปตามข้อสมมติฐานตามแบบจำลองและข้อสมมติฐานเฉพาะของแอปพลิเคชัน
- การประมาณค่าพารามิเตอร์เฉพาะแอปพลิเคชัน เช่น ท่าทางของวัตถุ หรือขนาดของวัตถุ
- การจดจำภาพ – การจำแนกวัตถุที่ตรวจพบออกเป็นหมวดหมู่ต่างๆ
- การลงทะเบียนภาพ – การเปรียบเทียบและรวมภาพสองมุมมองที่แตกต่างกันของวัตถุเดียวกัน
การตัดสินใจการตัดสินใจขั้นสุดท้ายที่จำเป็นสำหรับการสมัคร^{[ 38 ]}ตัวอย่างเช่น:
- ผ่าน/ไม่ผ่าน ในการตรวจสอบอัตโนมัติ
- การจับคู่/ไม่จับคู่ในแอปพลิเคชันการจดจำ
- ทำเครื่องหมายเพื่อการตรวจสอบโดยมนุษย์เพิ่มเติมในแอปพลิเคชันทางการแพทย์ การทหาร ความปลอดภัย และการจดจำ

ระบบการทำความเข้าใจภาพ

ระบบทำความเข้าใจภาพ (IUS) ประกอบด้วยระดับนามธรรมสามระดับดังนี้: ระดับต่ำประกอบด้วยองค์ประกอบพื้นฐานของภาพ เช่น ขอบ องค์ประกอบพื้นผิว หรือบริเวณ; ระดับกลางประกอบด้วยขอบเขต พื้นผิว และปริมาตร; และระดับสูงประกอบด้วยวัตถุ ฉาก หรือเหตุการณ์ ข้อกำหนดเหล่านี้หลายข้อเป็นหัวข้อสำหรับการวิจัยเพิ่มเติม

ข้อกำหนดด้านการนำเสนอในการออกแบบระบบสารสนเทศภายใน (IUS) สำหรับระดับเหล่านี้ ได้แก่ การนำเสนอแนวคิดต้นแบบ การจัดระเบียบแนวคิด ความรู้เชิงพื้นที่ ความรู้เชิงเวลา การกำหนดมาตราส่วน และการอธิบายโดยการเปรียบเทียบและการแยกแยะความแตกต่าง

ในขณะที่การอนุมานหมายถึงกระบวนการในการได้มาซึ่งข้อเท็จจริงใหม่ที่ไม่ได้แสดงไว้อย่างชัดเจนจากข้อเท็จจริงที่ทราบในปัจจุบัน การควบคุมหมายถึงกระบวนการที่เลือกเทคนิคการอนุมาน การค้นหา และการจับคู่จำนวนมากที่จะนำมาใช้ในขั้นตอนการประมวลผลที่เฉพาะเจาะจง ข้อกำหนดการอนุมานและการควบคุมสำหรับ IUS ได้แก่ การค้นหาและการเปิดใช้งานสมมติฐาน การจับคู่และการทดสอบสมมติฐาน การสร้างและการใช้ความคาดหวัง การเปลี่ยนแปลงและการมุ่งเน้นความสนใจ ความแน่นอนและความแข็งแกร่งของความเชื่อ การอนุมานและการบรรลุเป้าหมาย^{[ 55 ]}

ฮาร์ดแวร์

ระบบคอมพิวเตอร์วิชั่นมีหลายประเภท แต่ทุกประเภทล้วนมีองค์ประกอบพื้นฐานเหล่านี้ ได้แก่ แหล่งจ่ายไฟ อุปกรณ์รับภาพอย่างน้อยหนึ่งตัว (กล้อง, CCD ฯลฯ) โปรเซสเซอร์ และสายควบคุมและสื่อสาร หรือกลไกการเชื่อมต่อไร้สายบางประเภท นอกจากนี้ ระบบวิชั่นที่ใช้งานได้จริงยังประกอบด้วยซอฟต์แวร์และจอแสดงผลเพื่อตรวจสอบระบบ ระบบวิชั่นสำหรับพื้นที่ภายในอาคาร เช่นเดียวกับระบบอุตสาหกรรมส่วนใหญ่ ประกอบด้วยระบบให้แสงสว่างและอาจติดตั้งในสภาพแวดล้อมที่ควบคุมได้ ยิ่งไปกว่านั้น ระบบที่สมบูรณ์ยังรวมถึงอุปกรณ์เสริมมากมาย เช่น ขาตั้งกล้อง สายเคเบิล และตัวเชื่อมต่อ

ระบบคอมพิวเตอร์วิชั่นส่วนใหญ่ใช้กล้องแสงที่มองเห็นได้ในการรับรู้ภาพแบบพาสซีฟ โดยมีอัตราเฟรมสูงสุดเพียง 60 เฟรมต่อวินาที (โดยปกติจะช้ากว่านั้นมาก)

ระบบคอมพิวเตอร์วิชั่นบางระบบใช้ฮาร์ดแวร์การรับภาพที่มีการส่องสว่างแบบแอคทีฟหรืออย่างอื่นที่ไม่ใช่แสงที่มองเห็นได้ หรือทั้งสองอย่าง เช่นสแกนเนอร์ 3 มิติแบบโครงสร้างแสงกล้องถ่ายภาพ ความร้อนเครื่อง ถ่ายภาพไฮเปอร์สเปกตรัม การถ่ายภาพ ด้วยเรดาร์สแกนเนอร์ไลดาร์ภาพถ่ายด้วยคลื่นแม่เหล็กไฟฟ้าโซนาร์แบบสแกนด้านข้าง โซนาร์แบบรูรับแสงสังเคราะห์เป็นต้น ฮาร์ดแวร์เหล่านี้จะจับภาพ "ภาพ" ซึ่งจะถูกประมวลผลโดยใช้อัลกอริทึมคอมพิวเตอร์วิชั่นเดียวกันกับที่ใช้ในการประมวลผลภาพจากแสงที่มองเห็นได้

ในขณะที่ระบบกระจายเสียงและระบบวิดีโอสำหรับผู้บริโภคแบบดั้งเดิมทำงานที่อัตรา 30 เฟรมต่อวินาที ความก้าวหน้าในการประมวลผลสัญญาณดิจิทัลและฮาร์ดแวร์กราฟิกสำหรับผู้บริโภคทำให้การรับภาพ การประมวลผล และการแสดงภาพความเร็วสูงเป็นไปได้สำหรับระบบแบบเรียลไทม์ที่ระดับหลายร้อยถึงหลายพันเฟรมต่อวินาที สำหรับการใช้งานในด้านหุ่นยนต์ ระบบวิดีโอแบบเรียลไทม์ที่รวดเร็วมีความสำคัญอย่างยิ่งและมักจะช่วยลดความซับซ้อนของการประมวลผลที่จำเป็นสำหรับอัลกอริธึมบางอย่าง เมื่อรวมกับโปรเจ็กเตอร์ความเร็วสูง การรับภาพที่รวดเร็วทำให้สามารถวัดแบบ 3 มิติและติดตามคุณลักษณะได้^{[ 56 ]}

ระบบ การมองเห็นแบบยึดตนเองเป็นศูนย์กลางประกอบด้วยกล้องแบบสวมใส่ได้ ซึ่งจะถ่ายภาพโดยอัตโนมัติจากมุมมองบุคคลที่หนึ่ง

นับตั้งแต่ปี 2016 หน่วยประมวลผลภาพได้ถือกำเนิดขึ้นในฐานะหน่วยประมวลผลประเภทใหม่เพื่อเสริมการทำงานของ CPU และหน่วยประมวลผลกราฟิก (GPU) ในบทบาทนี้^{[ 57 ]}

ดูเพิ่มเติม

รายการ

อ่านเพิ่มเติม

เจมส์ อี. ดอบสัน (2023). กำเนิดของวิทยาการคอมพิวเตอร์ด้านการมองเห็น . สำนักพิมพ์มหาวิทยาลัยมินนิโซตา. ISBN 978-1-5179-1421-9.
เดวิด มาร์ (1982). วิชั่น . ดับเบิลยูเอช ฟรีแมน แอนด์ คอมพานี. ISBN 978-0-7167-1284-8.
Azriel Rosenfeld; Avinash Kak (1982). การประมวลผลภาพดิจิทัล . สำนักพิมพ์ Academic Press. ISBN 978-0-12-597301-4.
Barghout, Lauren; Lawrence W. Lee (2003). ระบบประมวลผลข้อมูลการรับรู้ . คำขอสิทธิบัตรสหรัฐอเมริกา 10/618,543. ISBN 978-0-262-08159-7.
เบิร์ธโฮลด์ เคพี ฮอร์น (1986) การมองเห็นหุ่นยนต์ . สำนักพิมพ์เอ็มไอที. ไอเอสบีเอ็น 978-0-262-08159-7.
Michael C. Fairhurst (1988). Computer Vision for robotic systems . Prentice Hall. ISBN 978-0-13-166919-2.
Olivier Faugeras (1993). การมองเห็นด้วยคอมพิวเตอร์สามมิติ มุมมองทางเรขาคณิตสำนักพิมพ์ MIT ISBN 978-0-262-06158-2.
Tony Lindeberg (1994). ทฤษฎีสเกลสเปซในคอมพิวเตอร์วิชั่น . Springer. ISBN 978-0-7923-9418-1.
เจมส์ แอล. โครว์ลีย์; เฮนริก ไอ. คริสเตนเซน (บรรณาธิการ) (1995). วิสัยทัศน์ในฐานะกระบวนการ . สปริงเกอร์-เวอร์แลก. ISBN 978-3-540-58143-7.
กอสต้า เอช. กรานลันด์; ฮันส์ นัตส์สัน (1995) การประมวลผลสัญญาณสำหรับคอมพิวเตอร์วิทัศน์ สำนักพิมพ์วิชาการ Kluwer ไอเอสบีเอ็น 978-0-7923-9530-0.
ไรน์ฮาร์ด เคล็ตต์; คาร์สเทน ชลูเอนส์; อันเดรียส คอสชาน (1998) คอมพิวเตอร์วิทัศน์ – ข้อมูลสามมิติจากรูปภาพ สปริงเกอร์, สิงคโปร์ไอเอสบีเอ็น 978-981-3083-71-4.
เอ็มมานูเอล ทรุคโก; อเลสซานโดร แวร์รี่ (1998) เทคนิคเบื้องต้นสำหรับการมองเห็น คอมพิวเตอร์3 มิติห้องฝึกหัด. ไอเอสบีเอ็น 978-0-13-261108-4.
Bernd Jähne (2002). การประมวลผลภาพดิจิทัล . Springer. ISBN 978-3-540-67754-3.
Richard Hartley และAndrew Zisserman (2003). เรขาคณิตมุมมองหลายมุมในคอมพิวเตอร์วิชั่น . สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์. ISBN 978-0-521-54051-3.
Gérard Medioni; Sing Bing Kang (2004). หัวข้อใหม่ที่กำลังเกิดขึ้นในวงการวิทยาการคอมพิวเตอร์ . Prentice Hall. ISBN 978-0-13-101366-7.
R. Fisher; K. Dawson-Howe; A. Fitzgibbon; C. Robertson; E. Trucco (2005). พจนานุกรมคอมพิวเตอร์วิชั่นและการประมวลผลภาพ . สำนักพิมพ์ John Wiley. ISBN 978-0-470-01526-1.
Nikos Paragiosและ Yunmei Chen และOlivier Faugeras (2005). คู่มือแบบจำลองทางคณิตศาสตร์ในวิทยาการคอมพิวเตอร์ . Springer. ISBN 978-0-387-26371-7.
Wilhelm Burger; Mark J. Burge (2007). การประมวลผลภาพดิจิทัล: แนวทางเชิงอัลกอริทึมโดยใช้ Java . Springer . ISBN 978-1-84628-379-6เก็บถาวรจากต้นฉบับเมื่อวันที่ 17 พฤษภาคม 2014 เรียกดูเมื่อวันที่ 13 มิถุนายน 2007
เปดราม อาซาด; ติโล ก็อคเคล; รูดิเกอร์ ดิลล์มันน์ (2008) คอมพิวเตอร์วิทัศน์ – หลักการและการปฏิบัติ . อิเล็คเตอร์ อินเตอร์เนชั่นแนล มีเดีย บีวี. ไอเอสบีเอ็น 978-0-905705-71-2.
Richard Szeliski (2010). Computer Vision: Algorithms and Applications . Springer-Verlag. ISBN 978-1-84882-934-3.
เจ.อาร์. พาร์คเกอร์ (2011). อัลกอริทึมสำหรับการประมวลผลภาพและคอมพิวเตอร์วิชั่น (ฉบับที่ 2). ไวลีย์. ISBN 978-0-470-64385-3.
Richard J. Radke (2013). คอมพิวเตอร์วิชั่นสำหรับวิชวลเอฟเฟ็กต์ . สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์. ISBN 978-0-521-76687-6.
Nixon, Mark; Aguado, Alberto (2019). การสกัดคุณลักษณะและการประมวลผลภาพสำหรับคอมพิวเตอร์วิชั่น (ฉบับที่ 4). Academic Press. ISBN 978-0-12-814976-8.

ลิงก์ภายนอก

รายชื่อการประชุมด้านคอมพิวเตอร์วิชั่นของ USC Iris
บทความวิจัยด้านคอมพิวเตอร์วิชั่นบนเว็บ – รายชื่อบทความวิจัยทั้งหมดจากงานประชุมวิชาการด้านคอมพิวเตอร์วิชั่นที่สำคัญที่สุด
Computer Vision Online ที่เก็บถาวรไว้เมื่อวันที่ 30 พฤศจิกายน 2011 บนWayback Machine – ข่าวสาร โค้ดต้นฉบับ ชุดข้อมูล และประกาศรับสมัครงานที่เกี่ยวข้องกับวิทยาการคอมพิวเตอร์ด้านการมองเห็น
CVonline – สารานุกรมด้านคอมพิวเตอร์วิชั่นของบ็อบ ฟิชเชอร์
สมาคมวิทยาการคอมพิวเตอร์ด้านการมองเห็นแห่งสหราชอาณาจักร (British Machine Vision Association - BMVA) – สนับสนุนงานวิจัยด้านวิทยาการคอมพิวเตอร์ด้านการมองเห็นภายในสหราชอาณาจักร ผ่านการประชุม BMVC และ MIUA, วารสารAnnals of the BMVA (วารสารโอเพนซอร์ส), โครงการBMVA Summer Schoolและการประชุมแบบวันเดียว
Computer Vision Container, Joe Hoeller GitHub:คอนเทนเนอร์โอเพนซอร์สที่ได้รับความนิยมอย่างกว้างขวางสำหรับแอปพลิเคชันการประมวลผลภาพด้วย GPU ใช้งานโดยนักวิจัย มหาวิทยาลัย บริษัทเอกชน รวมถึงรัฐบาลสหรัฐฯ

1

2

3

4

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]

[ 20 ]

[ 21 ]

[ 22 ]

23 ] จำเป็น

[ 24 ]

[ 25 ]

[ 26 ]

[ 27 ]

[ 28 ]

29 ] ส่วน

[ 30 ]

[ 31 ]

[ 32 ]

[ 33 ]

[ 34 ]

[ 35 ]

[ 36 ]

[ 37 ]

การ

[ 41 ]

[ 42 ]

[ 43 ]

[ 44 ]

[ 45 ]

[ 46 ]

[ 47 ]

[ 49 ]

[ 50 ]

[ 51 ]

[ 52 ]

[ 53 ]

[ 54 ]

[ 55 ]

[ 56 ]

[ 57 ]