อ่าน 17 นาที
คอมพิวเตอร์วิชั่น
งาน ด้านคอมพิวเตอร์วิชั่น ประกอบด้วยวิธีการใน การรับ ประมวล ผล วิเคราะห์และทำความเข้าใจ ภาพดิจิทัล รวมถึงการสกัด ข้อมูล มิติสูง...
คอมพิวเตอร์วิชั่น
| ส่วนหนึ่งของชุดบทความเกี่ยวกับ |
| ปัญญาประดิษฐ์ (AI) |
|---|
งาน ด้านคอมพิวเตอร์วิชั่นประกอบด้วยวิธีการในการรับประมวลผลวิเคราะห์และทำความเข้าใจภาพดิจิทัลรวมถึงการสกัด ข้อมูล มิติสูงจากโลกแห่งความเป็นจริงเพื่อสร้างข้อมูลเชิงตัวเลขหรือเชิงสัญลักษณ์ เช่น ในรูปแบบของการตัดสินใจ[ 1 ] [ 2 ] [ 3 ] [ 4 ] " การทำความเข้าใจ" ในบริบทนี้หมายถึงการแปลงภาพให้เป็นคำอธิบายของโลกที่สอดคล้องกับกระบวนการคิดและสามารถนำไปสู่การกระทำที่เหมาะสม ได้การทำความเข้าใจภาพนี้สามารถมองได้ว่าเป็นการแยกข้อมูลเชิงสัญลักษณ์ออกจากข้อมูลภาพโดยใช้แบบจำลองที่สร้างขึ้นโดยอาศัยเรขาคณิตฟิสิกส์สถิติ และทฤษฎี การเรียนรู้
สาขาวิทยาศาสตร์ด้านคอมพิวเตอร์วิชั่นเกี่ยวข้องกับทฤษฎีเบื้องหลังระบบปัญญาประดิษฐ์ที่ดึงข้อมูลจากภาพ ข้อมูลภาพสามารถมีได้หลายรูปแบบ เช่น ลำดับวิดีโอ มุมมองจากกล้องหลายตัว ข้อมูลหลายมิติจากเครื่องสแกน 3 มิติกลุ่มจุด 3 มิติจาก เซ็นเซอร์ LiDaRหรืออุปกรณ์สแกนทางการแพทย์ ส่วนสาขาเทคโนโลยีคอมพิวเตอร์วิชั่นนั้นมุ่งที่จะประยุกต์ใช้ทฤษฎีและแบบจำลองเพื่อสร้างระบบคอมพิวเตอร์วิชั่น
สาขาย่อยของวิทยาการคอมพิวเตอร์ด้านการมองเห็น ได้แก่การสร้างฉากขึ้นใหม่การตรวจจับวัตถุการตรวจจับเหตุการณ์การ จดจำกิจกรรม การ ติดตาม วิดีโอการ จดจำ วัตถุการประมาณท่าทาง 3 มิติการเรียนรู้ การจัดทำดัชนีการประมาณการเคลื่อนไหว การควบคุมด้วยภาพการสร้างแบบจำลองฉาก 3 มิติและ การ ฟื้นฟู ภาพ
คำนิยาม
คอมพิวเตอร์วิชั่นเป็นสาขาสหวิทยาการที่เกี่ยวข้องกับการทำให้คอมพิวเตอร์สามารถเข้าใจภาพดิจิทัลหรือวิดีโอ ในระดับสูงได้ จากมุมมองของวิศวกรรมศาสตร์มันพยายามที่จะทำให้งานที่ระบบการมองเห็นของมนุษย์สามารถทำได้ เป็นไปโดยอัตโนมัติ [ 5 ] [ 6 ] [ 7 ] "คอมพิวเตอร์วิชั่นเกี่ยวข้องกับการสกัด วิเคราะห์ และทำความเข้าใจข้อมูลที่เป็นประโยชน์จากภาพเดียวหรือลำดับภาพโดยอัตโนมัติ มันเกี่ยวข้องกับการพัฒนาพื้นฐานทางทฤษฎีและอัลกอริทึมเพื่อให้บรรลุความเข้าใจภาพโดยอัตโนมัติ" [ 8 ]ในฐานะที่เป็นสาขาวิทยาศาสตร์คอมพิวเตอร์วิชั่นเกี่ยวข้องกับทฤษฎีเบื้องหลังระบบปัญญาประดิษฐ์ที่สกัดข้อมูลจากภาพ ข้อมูลภาพสามารถมีได้หลายรูปแบบ เช่น ลำดับวิดีโอ มุมมองจากกล้องหลายตัว หรือข้อมูลหลายมิติจากเครื่องสแกนทางการแพทย์[ 9 ] ในฐานะที่เป็นสาขาเทคโนโลยี คอมพิวเตอร์วิชั่นพยายามที่จะนำทฤษฎีและแบบจำลองไปใช้ในการสร้างระบบคอมพิวเตอร์วิชั่นแมชชีนวิชั่นหมายถึงสาขาวิศวกรรมระบบ โดยเฉพาะอย่างยิ่งในบริบทของระบบอัตโนมัติในโรงงาน ในช่วงเวลาที่ผ่านมา คำว่าคอมพิวเตอร์วิชั่นและแมชชีนวิชั่นได้มาบรรจบกันมากขึ้น[ 10 ] : 13
ประวัติศาสตร์
ในช่วงปลายทศวรรษ 1960 การมองเห็นด้วยคอมพิวเตอร์เริ่มขึ้นที่มหาวิทยาลัยที่เป็นผู้บุกเบิกด้านปัญญาประดิษฐ์โดยมีจุดประสงค์เพื่อเลียนแบบระบบการมองเห็นของมนุษย์เพื่อเป็นก้าวแรกในการทำให้หุ่นยนต์มีพฤติกรรมที่ชาญฉลาด[ 11 ]ในปี 1966 มีความเชื่อว่าสิ่งนี้สามารถบรรลุได้ผ่านโครงการภาคฤดูร้อนของนักศึกษาระดับปริญญาตรี[ 12 ]โดยการติดกล้องเข้ากับคอมพิวเตอร์และให้มัน "อธิบายสิ่งที่มันเห็น" [ 13 ] [ 14 ]
สิ่งที่ทำให้คอมพิวเตอร์วิชั่นแตกต่างจากสาขาการประมวลผลภาพดิจิทัล ที่แพร่หลาย ในขณะนั้นคือความต้องการที่จะแยก โครงสร้าง สามมิติจากภาพโดยมีเป้าหมายเพื่อให้เข้าใจฉากทั้งหมด การศึกษาในช่วงทศวรรษ 1970 ได้วางรากฐานเบื้องต้นสำหรับอัลกอริธึม คอมพิวเตอร์วิชั่นจำนวนมาก ที่มีอยู่ในปัจจุบัน รวมถึงการสกัดขอบจากภาพ การติดป้ายเส้น การสร้างแบบจำลองที่ไม่ใช่รูปทรงหลายเหลี่ยมและรูปทรงหลายเหลี่ยมการแสดงวัตถุเป็นการเชื่อมต่อของโครงสร้างขนาดเล็กการไหลของแสงและการประมาณการเคลื่อนไหว[ 11 ]
ทศวรรษถัดมามีการศึกษาวิจัยที่อิงจากการวิเคราะห์ทางคณิตศาสตร์ที่เข้มงวดมากขึ้นและแง่มุมเชิงปริมาณของคอมพิวเตอร์วิชั่น ซึ่งรวมถึงแนวคิดของสเกลสเปซการอนุมานรูปร่างจากเบาะแสต่างๆ เช่นเงาพื้นผิว และโฟกัส และแบบจำลองเส้นขอบที่เรียกว่า snakesนักวิจัยยังตระหนักว่าแนวคิดทางคณิตศาสตร์เหล่านี้จำนวนมากสามารถจัดการได้ภายในกรอบการเพิ่มประสิทธิภาพเดียวกันกับregularizationและMarkov random fields [ 15 ] ในช่วงทศวรรษที่ 1990 หัวข้อการวิจัยก่อนหน้านี้บางหัวข้อมีความคึกคักมากกว่าหัวข้ออื่นๆ การวิจัยเกี่ยวกับการสร้างภาพสามมิติแบบโปรเจคทีฟ นำไปสู่ความเข้าใจที่ดีขึ้นเกี่ยวกับการสอบเทียบกล้องด้วยการเกิดขึ้นของวิธีการเพิ่มประสิทธิภาพสำหรับการสอบเทียบกล้อง ทำให้ตระหนักว่าแนวคิดหลายอย่างได้รับการสำรวจแล้วใน ทฤษฎี การปรับบันเดิลจากสาขาโฟโตแกรมเมตรีซึ่งนำไปสู่วิธีการสร้างภาพสามมิติแบบเบาบางของฉากจากภาพหลายภาพความก้าวหน้าเกิดขึ้นในปัญหาการจับคู่ สเตอริโอแบบหนาแน่น และเทคนิคสเตอริโอหลายมุมมองเพิ่มเติม ในขณะเดียวกันรูปแบบต่างๆ ของ graph cutถูกนำมาใช้เพื่อแก้ปัญหาการแบ่งส่วนภาพทศวรรษนี้ยังถือเป็นครั้งแรกที่มีการใช้เทคนิคการเรียนรู้ทางสถิติในทางปฏิบัติเพื่อจดจำใบหน้าในภาพ (ดูEigenface ) ในช่วงปลายทศวรรษ 1990 มีการเปลี่ยนแปลงที่สำคัญเกิดขึ้นจากการมีปฏิสัมพันธ์ที่เพิ่มมากขึ้นระหว่างสาขากราฟิกคอมพิวเตอร์และคอมพิวเตอร์วิชั่น ซึ่งรวมถึงการเรนเดอร์ภาพการแปลงภาพ การแทรกมุมมอง การต่อภาพพาโนรามาและ การเร น เดอ ร์สนามแสง ในยุคแรก [ 11 ]
งานวิจัยล่าสุดได้เห็นการกลับมาของ วิธีการที่ใช้ คุณลักษณะร่วมกับเทคนิคการเรียนรู้ของเครื่องและกรอบงานการเพิ่มประสิทธิภาพที่ซับซ้อน[ 16 ] [ 17 ] ความก้าวหน้าของ เทคนิค การเรียนรู้เชิงลึกได้นำมาซึ่งความมีชีวิตชีวาให้กับสาขาวิทยาการคอมพิวเตอร์ ความแม่นยำของอัลกอริธึมการเรียนรู้เชิงลึกบนชุดข้อมูลวิทยาการคอมพิวเตอร์มาตรฐานหลายชุดสำหรับงานต่างๆ ตั้งแต่การจำแนกประเภท[ 18 ]การแบ่งส่วนและการไหลของแสงได้เหนือกว่าวิธีการก่อนหน้า[ 19 ] [ 20 ]
สาขาที่เกี่ยวข้อง

ฟิสิกส์ของแข็ง
ฟิสิกส์ของของแข็งเป็นอีกสาขาหนึ่งที่เกี่ยวข้องอย่างใกล้ชิดกับคอมพิวเตอร์วิชั่น ระบบคอมพิวเตอร์วิชั่นส่วนใหญ่อาศัยเซ็นเซอร์ภาพซึ่งตรวจจับรังสีแม่เหล็กไฟฟ้าซึ่งโดยทั่วไปอยู่ในรูปของแสงที่มองเห็นได้อินฟราเรดหรือ อัลตราไวโอเลต เซ็นเซอร์ได้รับการออกแบบโดยใช้ฟิสิกส์ควอนตัมกระบวนการที่แสงมีปฏิสัมพันธ์กับพื้นผิวได้รับการอธิบายโดยใช้ฟิสิกส์ ฟิสิกส์อธิบายพฤติกรรมของเลนส์ซึ่งเป็นส่วนสำคัญของระบบการสร้างภาพส่วนใหญ่ เซ็นเซอร์ภาพที่ซับซ้อนยังต้องการกลศาสตร์ควอนตัมเพื่อให้เข้าใจกระบวนการสร้างภาพได้อย่างสมบูรณ์[ 11 ]นอกจากนี้ ปัญหาการวัดต่างๆ ในฟิสิกส์สามารถแก้ไขได้โดยใช้คอมพิวเตอร์วิชั่น ตัวอย่างเช่น การเคลื่อนที่ในของเหลว
ประสาทชีววิทยา
ชีววิทยาประสาทมีอิทธิพลอย่างมากต่อการพัฒนาอัลกอริทึมการมองเห็นด้วยคอมพิวเตอร์ ในช่วงศตวรรษที่ผ่านมา มีการศึกษาอย่างกว้างขวางเกี่ยวกับดวงตา เซลล์ประสาท และโครงสร้างสมองที่มุ่งเน้นการประมวลผลสิ่งเร้าทางสายตาในทั้งมนุษย์และสัตว์ต่างๆ สิ่งนี้ได้นำไปสู่คำอธิบายอย่างคร่าวๆ แต่ซับซ้อนเกี่ยวกับวิธีการทำงานของระบบการมองเห็นตามธรรมชาติเพื่อแก้ปัญหาที่เกี่ยวข้องกับการมองเห็นบางอย่าง ผลลัพธ์เหล่านี้ได้นำไปสู่สาขาย่อยภายในวิทยาการคอมพิวเตอร์ ซึ่งมีการออกแบบระบบเทียมเพื่อเลียนแบบการประมวลผลและพฤติกรรมของระบบชีวภาพในระดับความซับซ้อนต่างๆ นอกจากนี้ วิธีการเรียนรู้บางอย่างที่พัฒนาขึ้นภายในวิทยาการคอมพิวเตอร์ ( เช่นโครงข่ายประสาทเทียมและการวิเคราะห์และการจำแนกภาพและคุณลักษณะโดยใช้การเรียนรู้เชิงลึก ) ก็มีพื้นฐานมาจากชีววิทยาประสาท Neocognitronซึ่งเป็นโครงข่ายประสาทเทียมที่พัฒนาขึ้นในทศวรรษ 1970 โดยKunihiko Fukushima เป็นตัวอย่างแรกๆ ของวิทยาการคอมพิวเตอร์ที่ได้รับแรงบันดาลใจโดยตรงจากชีววิทยาประสาท โดย เฉพาะอย่างยิ่งจากเปลือกสมองส่วนรับภาพหลัก
งานวิจัยด้านคอมพิวเตอร์วิชั่นบางส่วนมีความเกี่ยวข้องอย่างใกล้ชิดกับการศึกษาด้านการมองเห็นทางชีววิทยา —ที่จริงแล้ว งานวิจัยด้านAI หลายสาขา ก็มีความเชื่อมโยงอย่างใกล้ชิดกับงานวิจัยเกี่ยวกับสติปัญญาของมนุษย์และการใช้ความรู้ที่จัดเก็บไว้เพื่อตีความ บูรณาการ และใช้ข้อมูลภาพ สาขาการมองเห็นทางชีววิทยาศึกษาและสร้างแบบจำลองกระบวนการทางสรีรวิทยาที่อยู่เบื้องหลังการรับรู้ภาพในมนุษย์และสัตว์อื่นๆ ในทางกลับกัน คอมพิวเตอร์วิชั่นพัฒนาและอธิบายอัลกอริทึมที่นำไปใช้ในซอฟต์แวร์และฮาร์ดแวร์ที่อยู่เบื้องหลังระบบการมองเห็นเทียม การแลกเปลี่ยนความรู้ระหว่างสาขาการมองเห็นทางชีววิทยาและคอมพิวเตอร์วิชั่นได้พิสูจน์แล้วว่ามีประโยชน์สำหรับทั้งสองสาขา[ 22 ]
การประมวลผลสัญญาณ
อีกสาขาหนึ่งที่เกี่ยวข้องกับคอมพิวเตอร์วิชั่นคือการประมวลผลสัญญาณวิธีการประมวลผลสัญญาณตัวแปรเดียว ซึ่งโดยทั่วไปคือสัญญาณเชิงเวลา สามารถขยายไปสู่การประมวลผลสัญญาณสองตัวแปรหรือสัญญาณหลายตัวแปรในคอมพิวเตอร์วิชั่นได้อย่างเป็นธรรมชาติ อย่างไรก็ตาม เนื่องจากลักษณะเฉพาะของภาพ จึงมีวิธีการหลายอย่างที่พัฒนาขึ้นในคอมพิวเตอร์วิชั่นซึ่งไม่มีวิธีการเทียบเคียงในการประมวลผลสัญญาณตัวแปรเดียว เมื่อรวมกับมิติหลายมิติของสัญญาณ จึงทำให้เกิดสาขาย่อยในการประมวลผลสัญญาณซึ่งเป็นส่วนหนึ่งของคอมพิวเตอร์วิชั่น
การนำทางหุ่นยนต์
การนำทางของหุ่นยนต์บางครั้งเกี่ยวข้องกับการวางแผนเส้นทาง อัตโนมัติ หรือการพิจารณาสำหรับระบบหุ่นยนต์ในการนำทางผ่านสภาพแวดล้อม [ 23 ] จำเป็นต้องมีความเข้าใจอย่างละเอียดเกี่ยวกับสภาพแวดล้อมเหล่านี้เพื่อนำทางผ่านสภาพแวดล้อมเหล่านั้น ข้อมูลเกี่ยวกับสภาพแวดล้อมสามารถจัดหาได้จากระบบคอมพิวเตอร์วิชั่น ซึ่งทำหน้าที่เป็นเซ็นเซอร์วิชั่นและให้ข้อมูลระดับสูงเกี่ยวกับสภาพแวดล้อมและหุ่นยนต์
การประมวลผลภาพ
การประมวลผลภาพ (Visual computing)เป็นคำทั่วไปที่ใช้เรียกสาขาวิทยาศาสตร์คอมพิวเตอร์ทั้งหมดที่เกี่ยวข้องกับภาพและแบบจำลอง 3 มิติเช่นกราฟิกคอมพิวเตอร์การประมวลผลภาพ การแสดงภาพ คอมพิวเตอร์วิชั่นความเป็นจริงเสมือนและความเป็นจริงเสริมการประมวลผลวิดีโอและวิทยาการภาพเชิงคำนวณการประมวลผลภาพยังรวมถึงแง่มุมต่างๆ เช่นการรู้จำรูปแบบปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์ การเรียนรู้ของเครื่อง และห้องสมุดดิจิทัล ความท้าทายหลักคือการได้มา การประมวลผล การวิเคราะห์ และการแสดงผลข้อมูลภาพ (ส่วนใหญ่เป็นภาพและวิดีโอ) พื้นที่การประยุกต์ใช้ ได้แก่ การควบคุมคุณภาพทางอุตสาหกรรม การประมวลผล และการแสดงภาพทางการแพทย์ การสำรวจ หุ่นยนต์ระบบมัลติมีเดีย มรดกเสมือนจริง เทคนิคพิเศษในภาพยนตร์และโทรทัศน์ และวิทยาการเกมการประมวลผลภาพยังรวมถึงศิลปะดิจิทัลและการศึกษา ด้านสื่อดิจิทัล ด้วย
สาขาอื่นๆ
นอกจากมุมมองเกี่ยวกับการมองเห็นด้วยคอมพิวเตอร์ที่กล่าวมาข้างต้นแล้ว หัวข้อวิจัยที่เกี่ยวข้องอีกมากมายยังสามารถศึกษาได้จากมุมมองทางคณิตศาสตร์ล้วนๆ ตัวอย่างเช่น วิธีการหลายอย่างในการมองเห็นด้วยคอมพิวเตอร์นั้นอิงตามสถิติการเพิ่มประสิทธิภาพหรือเรขาคณิตสุดท้ายนี้ ส่วนสำคัญของสาขานี้ทุ่มเทให้กับการนำการมองเห็นด้วยคอมพิวเตอร์ไปใช้ กล่าวคือ วิธีการที่มีอยู่สามารถนำไปใช้ในรูปแบบต่างๆ ของซอฟต์แวร์และฮาร์ดแวร์ได้อย่างไร หรือวิธีการเหล่านี้สามารถปรับเปลี่ยนได้อย่างไรเพื่อให้ได้ความเร็วในการประมวลผลโดยไม่สูญเสียประสิทธิภาพมากเกินไป การมองเห็นด้วยคอมพิวเตอร์ยังใช้ในอีคอมเมิร์ซแฟชั่น การจัดการสินค้าคงคลัง การค้นหาสิทธิบัตร เฟอร์นิเจอร์ และอุตสาหกรรมความงามอีกด้วย[ 24 ]
ความแตกต่าง
สาขาที่เกี่ยวข้องกับคอมพิวเตอร์วิชั่นมากที่สุด ได้แก่การประมวลผลภาพการวิเคราะห์ภาพและแมชชีนวิชั่นเทคนิคและแอปพลิเคชันในสาขาเหล่านี้มีความทับซ้อนกันอย่างมาก ซึ่งหมายความว่าเทคนิคพื้นฐานที่ใช้และพัฒนาในสาขาเหล่านี้มีความคล้ายคลึงกัน ซึ่งอาจตีความได้ว่าเป็นเพียงสาขาเดียวที่มีชื่อเรียกต่างกัน ในทางกลับกัน ดูเหมือนว่ากลุ่มวิจัย วารสารทางวิทยาศาสตร์ การประชุม และบริษัทต่างๆ จำเป็นต้องนำเสนอหรือทำการตลาดตนเองในฐานะที่เป็นของสาขาใดสาขาหนึ่งโดยเฉพาะ ดังนั้นจึงมีการนำเสนอคุณลักษณะต่างๆ ที่แยกแยะแต่ละสาขาออกจากสาขาอื่นๆ ในการประมวลผลภาพ ทั้งอินพุตและเอาต์พุตเป็นภาพ ในขณะที่ในคอมพิวเตอร์วิชั่น อินพุตเป็นภาพหรือวิดีโอ และเอาต์พุตอาจเป็นภาพที่ปรับปรุงแล้ว การวิเคราะห์เนื้อหาของภาพ หรือแม้แต่พฤติกรรมของระบบโดยอิงจากการวิเคราะห์นั้น
คอมพิวเตอร์กราฟิกสร้างข้อมูลภาพจากโมเดล 3 มิติ และคอมพิวเตอร์วิชั่นมักสร้างโมเดล 3 มิติจากข้อมูลภาพ[ 25 ]นอกจากนี้ยังมีแนวโน้มที่จะผสมผสานทั้งสองสาขาเข้าด้วยกันเช่นดังที่ได้สำรวจใน ความเป็น จริง เสริม
ลักษณะต่างๆ ต่อไปนี้ดูเหมือนจะเกี่ยวข้อง แต่ไม่ควรนำไปใช้เป็นข้อสรุปที่ยอมรับกันโดยทั่วไป:
- การประมวลผลภาพและการวิเคราะห์ภาพมักมุ่งเน้นไปที่ภาพ 2 มิติ วิธีการแปลงภาพหนึ่งไปเป็นอีกภาพหนึ่งเช่นโดยการดำเนินการระดับพิกเซล เช่น การเพิ่มความคมชัด การดำเนินการเฉพาะจุด เช่น การแยกขอบหรือการลดสัญญาณรบกวน หรือการแปลงทางเรขาคณิต เช่น การหมุนภาพ ลักษณะเช่นนี้บ่งชี้ว่าการประมวลผล/วิเคราะห์ภาพไม่จำเป็นต้องอาศัยข้อสมมติฐานหรือสร้างการตีความเกี่ยวกับเนื้อหาของภาพ
- วิชั่นคอมพิวเตอร์ประกอบด้วยการวิเคราะห์ภาพสามมิติจากภาพสองมิติ ซึ่งเป็นการวิเคราะห์ฉากสามมิติที่ฉายลงบนภาพหนึ่งภาพหรือหลายภาพเช่นวิธีการสร้างโครงสร้างหรือข้อมูลอื่นๆ เกี่ยวกับฉากสามมิติจากภาพหนึ่งภาพหรือหลายภาพ วิชั่นคอมพิวเตอร์มักอาศัยสมมติฐานที่ซับซ้อนมากน้อยต่างกันเกี่ยวกับฉากที่ปรากฏในภาพ
- การมองเห็นด้วยเครื่องจักรคือกระบวนการของการประยุกต์ใช้เทคโนโลยีและวิธีการต่างๆ เพื่อให้การตรวจสอบอัตโนมัติโดยใช้ภาพ การควบคุมกระบวนการ และการนำทางหุ่นยนต์[ 26 ]ในการใช้งานทางอุตสาหกรรม[ 22 ]การมองเห็นด้วยเครื่องจักรมีแนวโน้มที่จะมุ่งเน้นไปที่การใช้งาน โดยเฉพาะอย่างยิ่งในด้านการผลิตเช่นหุ่นยนต์และระบบที่ใช้การมองเห็นสำหรับการตรวจสอบ การวัด หรือการหยิบโดยใช้การมองเห็น (เช่นการหยิบจากถัง[ 27 ] ) ซึ่งหมายความว่าเทคโนโลยีเซ็นเซอร์ภาพและทฤษฎีการควบคุมมักจะถูกรวมเข้ากับการประมวลผลข้อมูลภาพเพื่อควบคุมหุ่นยนต์ และการประมวลผลแบบเรียลไทม์จะได้รับการเน้นย้ำด้วยการใช้งานที่มีประสิทธิภาพในฮาร์ดแวร์และซอฟต์แวร์ นอกจากนี้ยังหมายความว่าเงื่อนไขภายนอก เช่น แสงสว่าง สามารถควบคุมได้และมักจะถูกควบคุมได้มากกว่าในการมองเห็นด้วยเครื่องจักรเมื่อเทียบกับการมองเห็นด้วยคอมพิวเตอร์ทั่วไป ซึ่งจะช่วยให้สามารถใช้อัลกอริธึมต่างๆ ได้
- นอกจากนี้ยังมีสาขาที่เรียกว่าการสร้างภาพซึ่งมุ่งเน้นไปที่กระบวนการสร้างภาพเป็นหลัก แต่บางครั้งก็เกี่ยวข้องกับการประมวลผลและการวิเคราะห์ภาพด้วย ตัวอย่างเช่นการสร้างภาพทางการแพทย์ประกอบด้วยงานสำคัญเกี่ยวกับการวิเคราะห์ข้อมูลภาพในการใช้งานทางการแพทย์ ความก้าวหน้าในเครือข่ายประสาทเทียมแบบคอนโวลูชัน (CNNs) ได้ปรับปรุงการตรวจจับโรคในภาพทางการแพทย์ให้แม่นยำยิ่งขึ้น โดยเฉพาะอย่างยิ่งในด้านหัวใจวิทยา พยาธิวิทยา โรคผิวหนัง และรังสีวิทยา[ 28 ]
- สุดท้ายการรู้จำรูปแบบเป็นสาขาที่ใช้วิธีการต่างๆ ในการดึงข้อมูลจากสัญญาณโดยทั่วไป โดยส่วนใหญ่จะใช้แนวทางทางสถิติและเครือข่ายประสาทเทียม [ 29 ] ส่วนสำคัญของสาขานี้ทุ่มเทให้กับการประยุกต์ใช้วิธีการเหล่านี้กับข้อมูลภาพ
การถ่ายภาพสามมิติ (Photogrammetry)ยังมีความทับซ้อนกับการประมวลผลภาพด้วยคอมพิวเตอร์ (Computer Vision) เช่นการถ่ายภาพสามมิติแบบสเตอริโอ (Stereophotogrammetry)กับ การประมวลผลภาพสามมิติ ด้วยคอมพิวเตอร์ (Computer Stereo Vision )
แอปพลิเคชัน
การประยุกต์ใช้งานมีหลากหลาย ตั้งแต่ระบบ วิชั่นเชิงเครื่องจักรในอุตสาหกรรม เช่นการตรวจสอบขวดที่เคลื่อนที่อย่างรวดเร็วในสายการผลิต ไปจนถึงการวิจัยด้านปัญญาประดิษฐ์และคอมพิวเตอร์หรือหุ่นยนต์ที่สามารถเข้าใจโลกรอบตัวได้ สาขาคอมพิวเตอร์วิชั่นและแมชชีนวิชั่นมีความทับซ้อนกันอย่างมาก คอมพิวเตอร์วิชั่นครอบคลุมเทคโนโลยีหลักของการวิเคราะห์ภาพอัตโนมัติ ซึ่งใช้ในหลายสาขา ส่วนแมชชีนวิชั่นโดยทั่วไปหมายถึงกระบวนการผสมผสานการวิเคราะห์ภาพอัตโนมัติกับวิธีการและเทคโนโลยีอื่นๆ เพื่อให้การตรวจสอบอัตโนมัติและการนำทางหุ่นยนต์ในงานอุตสาหกรรม ในการประยุกต์ใช้คอมพิวเตอร์วิชั่นหลายๆ อย่าง คอมพิวเตอร์จะถูกตั้งโปรแกรมไว้ล่วงหน้าเพื่อแก้ปัญหาเฉพาะอย่าง แต่ปัจจุบันวิธีการที่ใช้การเรียนรู้กำลังเป็นที่นิยมมากขึ้น ตัวอย่างของการประยุกต์ใช้คอมพิวเตอร์วิชั่น ได้แก่ ระบบสำหรับ:

- การตรวจสอบอัตโนมัติเช่นในงานด้านการผลิต
- ช่วยเหลือมนุษย์ในงานระบุตัวตน เช่นระบบระบุชนิดพันธุ์[ 30 ]
- การควบคุมกระบวนการต่างๆเช่นหุ่นยนต์อุตสาหกรรม ;
- การตรวจ จับเหตุการณ์เช่นเพื่อการเฝ้าระวังด้วยภาพหรือการนับจำนวนคนเช่น ในอุตสาหกรรมร้านอาหาร
- การโต้ตอบเช่นการป้อนข้อมูลเข้าสู่อุปกรณ์สำหรับการโต้ตอบระหว่างคอมพิวเตอร์กับมนุษย์
- MediaPipeคือเฟรมเวิร์กโอเพนซอร์สจาก Google สำหรับการประมวลผล AI บนอุปกรณ์ Edge Computing เช่นการตรวจจับใบหน้า การจำแนกภาพ การตรวจจับวัตถุ
- การตรวจสอบพืชผลทางการเกษตร เช่น โมเดลทรานส์ฟอร์เมอร์วิชั่นแบบโอเพนซอร์ส[ 31 ] ได้รับการพัฒนาเพื่อช่วยให้เกษตรกรตรวจจับโรคสตรอว์เบอร์รี ได้โดยอัตโนมัติ ด้วยความแม่นยำ 98.4% [ 32 ]
- การสร้างแบบจำลองวัตถุหรือสภาพแวดล้อมเช่นการวิเคราะห์ภาพทางการแพทย์ หรือ การสร้างแบบจำลอง ภูมิประเทศ ;
- การนำทางเช่นโดยยานพาหนะอัตโนมัติหรือหุ่นยนต์เคลื่อนที่ ;
- การจัดระเบียบข้อมูลเช่นการจัดทำดัชนีฐานข้อมูลรูปภาพและลำดับภาพ
- การติดตามพื้นผิวหรือระนาบในพิกัด 3 มิติ เพื่อรองรับประสบการณ์ความเป็นจริงเสริม (Augmented Reality )
- การวิเคราะห์สภาพของสิ่งอำนวยความสะดวกในภาคอุตสาหกรรมหรือการก่อสร้าง
- การอ่านริมฝีปากแบบเรียลไทม์อัตโนมัติสำหรับอุปกรณ์และแอปเพื่อช่วยเหลือผู้พิการ[ 33 ]
สำหรับปี 2024 พื้นที่ชั้นนำของคอมพิวเตอร์วิชั่น ได้แก่ อุตสาหกรรม (ขนาดตลาด 5.22 พันล้านดอลลาร์สหรัฐ) [ 34 ]การแพทย์ (ขนาดตลาด 2.6 พันล้านดอลลาร์สหรัฐ) [ 35 ]การทหาร (ขนาดตลาด 996.2 ล้านดอลลาร์สหรัฐ) [ 36 ]
ยา
หนึ่งในสาขาการประยุกต์ใช้ที่โดดเด่นที่สุดคือคอมพิวเตอร์วิชั่นทางการแพทย์หรือการประมวลผลภาพทางการแพทย์ ซึ่งมีลักษณะเฉพาะคือการสกัดข้อมูลจากข้อมูลภาพเพื่อวินิจฉัยผู้ป่วย[ 37 ]ตัวอย่างเช่น การตรวจจับเนื้องอกหลอดเลือดแดงแข็งหรือการเปลี่ยนแปลงที่เป็นอันตรายอื่นๆ และพยาธิสภาพทางทันตกรรมต่างๆ การวัดขนาดอวัยวะ การไหลเวียนของเลือด ฯลฯ ก็เป็นอีกตัวอย่างหนึ่ง นอกจากนี้ยังสนับสนุนการวิจัยทางการแพทย์โดยการให้ข้อมูลใหม่เช่นเกี่ยวกับโครงสร้างของสมองหรือคุณภาพของการรักษาทางการแพทย์ การประยุกต์ใช้คอมพิวเตอร์วิชั่นในด้านการแพทย์ยังรวมถึงการปรับปรุงภาพที่มนุษย์ตีความ เช่น ภาพอัลตราซาวน ด์ หรือภาพเอกซเรย์เพื่อลดอิทธิพลของสัญญาณรบกวน
การมองเห็นด้วยเครื่องจักร
พื้นที่การประยุกต์ใช้งานที่สองในด้านคอมพิวเตอร์วิชั่นคือในอุตสาหกรรม ซึ่งบางครั้งเรียกว่าแมชชีนวิชั่นโดยมีการดึงข้อมูลเพื่อสนับสนุนกระบวนการผลิต ตัวอย่างหนึ่งคือการควบคุมคุณภาพ ซึ่งมีการตรวจสอบรายละเอียดหรือผลิตภัณฑ์ขั้นสุดท้ายโดยอัตโนมัติเพื่อหาข้อบกพร่อง หนึ่งในสาขาที่พบได้บ่อยที่สุดสำหรับการตรวจสอบดังกล่าวคือ อุตสาหกรรม เวเฟอร์ซึ่งเวเฟอร์ทุกชิ้นจะถูกวัดและตรวจสอบความไม่ถูกต้องหรือข้อบกพร่องเพื่อป้องกันไม่ให้ชิปคอมพิวเตอร์ออกสู่ตลาดในลักษณะที่ใช้งานไม่ได้ อีกตัวอย่างหนึ่งคือการวัดตำแหน่งและการวางแนวของรายละเอียดที่จะหยิบโดยแขนหุ่นยนต์ แมชชีนวิชั่นยังถูกนำมาใช้อย่างมากในกระบวนการทางการเกษตรเพื่อกำจัดอาหารที่ไม่พึงประสงค์ออกจากวัสดุจำนวนมาก ซึ่งเป็นกระบวนการที่เรียกว่าการคัดแยกด้วยแสง [ 38 ]
ทหาร
ตัวอย่างที่เห็นได้ชัดคือการตรวจจับทหารหรือยานพาหนะของศัตรูและการนำทางขีปนาวุธระบบนำทางขีปนาวุธที่ทันสมัยกว่านั้นจะส่งขีปนาวุธไปยังพื้นที่แทนที่จะเป็นเป้าหมายเฉพาะ และการเลือกเป้าหมายจะทำเมื่อขีปนาวุธไปถึงพื้นที่นั้นโดยอาศัยข้อมูลภาพที่ได้มาในพื้นที่นั้น แนวคิดทางทหารสมัยใหม่ เช่น "การรับรู้สถานการณ์ในสนามรบ" บ่งชี้ว่าเซ็นเซอร์ต่างๆ รวมถึงเซ็นเซอร์ภาพ ให้ข้อมูลมากมายเกี่ยวกับฉากการต่อสู้ที่สามารถนำมาใช้สนับสนุนการตัดสินใจเชิงกลยุทธ์ ในกรณีนี้ การประมวลผลข้อมูลอัตโนมัติจะถูกนำมาใช้เพื่อลดความซับซ้อนและรวมข้อมูลจากเซ็นเซอร์หลายตัวเพื่อเพิ่มความน่าเชื่อถือ
รถยนต์ไร้คนขับ

หนึ่งในพื้นที่การใช้งานใหม่ๆ คือ ยานพาหนะอัตโนมัติ ซึ่งรวมถึงยานดำน้ำ ยานพาหนะบนบก (หุ่นยนต์ขนาดเล็กที่มีล้อ รถยนต์ หรือรถบรรทุก) ยานพาหนะทางอากาศ และยานไร้คนขับ ( UAV ) ระดับความเป็นอิสระมีตั้งแต่ยานพาหนะอัตโนมัติเต็มรูปแบบ (ไร้คนขับ) ไปจนถึงยานพาหนะที่ระบบคอมพิวเตอร์วิชั่นช่วยสนับสนุนคนขับหรือนักบินในสถานการณ์ต่างๆ ยานพาหนะอัตโนมัติเต็มรูปแบบมักใช้คอมพิวเตอร์วิชั่นสำหรับการนำทาง เช่น การรู้ตำแหน่งของตนเองหรือการสร้างแผนที่สภาพแวดล้อม ( SLAM ) สำหรับการตรวจจับสิ่งกีดขวาง นอกจากนี้ยังสามารถใช้สำหรับการตรวจจับเหตุการณ์เฉพาะงานเช่น UAV ค้นหาไฟป่า ตัวอย่างของระบบสนับสนุน ได้แก่ ระบบเตือนสิ่งกีดขวางในรถยนต์ กล้องและเซ็นเซอร์ LiDAR ในยานพาหนะ และระบบสำหรับการลงจอดอัตโนมัติของเครื่องบิน ผู้ผลิตรถยนต์หลายรายได้สาธิตระบบขับขี่อัตโนมัติของรถยนต์แล้วมีตัวอย่างมากมายของยานพาหนะอัตโนมัติทางทหาร ตั้งแต่ขีปนาวุธขั้นสูงไปจนถึง UAV สำหรับภารกิจลาดตระเวนหรือการนำทางขีปนาวุธ ปัจจุบันมีการสำรวจอวกาศโดยใช้ยานพาหนะอัตโนมัติที่ใช้เทคโนโลยีคอมพิวเตอร์วิชั่นอยู่แล้วเช่นยานสำรวจ CuriosityของNASAและยานสำรวจ Yutu-2ของCNSA
การตอบสนองทางสัมผัส


วัสดุต่างๆ เช่น ยางและซิลิคอนถูกนำมาใช้สร้างเซ็นเซอร์ที่ช่วยให้สามารถใช้งานต่างๆ เช่น การตรวจจับความขรุขระเล็กน้อยและการปรับเทียบมือหุ่นยนต์ ยางสามารถใช้สร้างแม่พิมพ์ที่สามารถวางครอบนิ้วได้ ภายในแม่พิมพ์นี้จะมีเกจวัดความเครียดหลายตัว จากนั้นแม่พิมพ์นิ้วและเซ็นเซอร์สามารถวางบนแผ่นยางขนาดเล็กที่มีหมุดยางเรียงกัน ผู้ใช้สามารถสวมแม่พิมพ์นิ้วและลากเส้นบนพื้นผิวได้ จากนั้นคอมพิวเตอร์สามารถอ่านข้อมูลจากเกจวัดความเครียดและวัดว่ามีหมุดอย่างน้อยหนึ่งตัวถูกดันขึ้นหรือไม่ หากมีหมุดถูกดันขึ้น คอมพิวเตอร์จะสามารถรับรู้ได้ว่านี่คือความไม่สมบูรณ์ของพื้นผิว เทคโนโลยีประเภทนี้มีประโยชน์ในการรับข้อมูลที่แม่นยำเกี่ยวกับความไม่สมบูรณ์บนพื้นผิวขนาดใหญ่มาก[ 39 ]เซ็นเซอร์แม่พิมพ์นิ้วอีกรูปแบบหนึ่งคือเซ็นเซอร์ที่มีกล้องแขวนอยู่ในซิลิคอน ซิลิคอนจะก่อตัวเป็นโดมรอบนอกของกล้องและมีเครื่องหมายจุดฝังอยู่ในซิลิคอนซึ่งมีระยะห่างเท่าๆ กัน จากนั้นสามารถนำกล้องเหล่านี้ไปติดตั้งบนอุปกรณ์ต่างๆ เช่น มือหุ่นยนต์ เพื่อให้คอมพิวเตอร์สามารถรับข้อมูลสัมผัสที่มีความแม่นยำสูงได้[ 40 ]
แอปพลิเคชันอื่นๆ
พื้นที่การใช้งานอื่นๆ ได้แก่:
- สนับสนุน การสร้าง เทคนิคพิเศษด้านภาพสำหรับภาพยนตร์และรายการโทรทัศน์เช่นการติดตามกล้อง ( การเคลื่อนที่แบบตรงกัน)
- การเฝ้าระวัง
- การตรวจจับอาการง่วงนอนของคนขับ[ 41 ] [ 42 ] [ 43 ]
- การติดตามและนับจำนวนสิ่งมีชีวิตในวิทยาศาสตร์ชีวภาพ[ 44 ] (ตัวอย่างเช่น การนับใบพืชอาหาร) [ 45 ]
งานทั่วไป
แต่ละสาขาการประยุกต์ใช้งานที่กล่าวมาข้างต้นนั้นใช้ภารกิจด้านคอมพิวเตอร์วิชั่นหลากหลายรูปแบบ ไม่ว่าจะเป็นปัญหาการวัดหรือปัญหาการประมวลผลที่กำหนดไว้อย่างชัดเจน ซึ่งสามารถแก้ไขได้โดยใช้วิธีการต่างๆ ตัวอย่างของภารกิจคอมพิวเตอร์วิชั่นทั่วไปมีดังต่อไปนี้
งานด้านคอมพิวเตอร์วิชั่นประกอบด้วยวิธีการในการรับประมวลผลวิเคราะห์ และ ทำความเข้าใจภาพดิจิทัล รวมถึงการสกัด ข้อมูล มิติสูงจากโลกแห่งความเป็นจริงเพื่อสร้างข้อมูลเชิงตัวเลขหรือเชิงสัญลักษณ์เช่นในรูปแบบของการตัดสินใจ[ 1 ] [ 2 ] [ 3 ] [ 4 ]การทำความเข้าใจในบริบทนี้หมายถึงการแปลงภาพให้เป็นคำอธิบายของโลกที่สามารถเชื่อมต่อกับกระบวนการคิดอื่นๆ และกระตุ้นให้เกิดการกระทำที่เหมาะสม การทำความเข้าใจภาพนี้สามารถมองได้ว่าเป็นการแยกข้อมูลเชิงสัญลักษณ์ออกจากข้อมูลภาพโดยใช้แบบจำลองที่สร้างขึ้นโดยอาศัยเรขาคณิต ฟิสิกส์ สถิติ และทฤษฎีการเรียนรู้[ 46 ]
การยอมรับ
ปัญหาคลาสสิกในคอมพิวเตอร์วิชั่น การประมวลผลภาพ และแมชชีนวิชั่นคือการพิจารณาว่าข้อมูลภาพมีวัตถุ คุณลักษณะ หรือกิจกรรมเฉพาะบางอย่างหรือไม่ ปัญหาการจดจำประเภทต่างๆ ได้รับการอธิบายไว้ในเอกสาร[ 47 ]
- การจดจำวัตถุ (หรือเรียกว่าการจำแนกประเภทวัตถุ ) – สามารถจดจำวัตถุหรือกลุ่มวัตถุที่กำหนดไว้ล่วงหน้าหรือเรียนรู้มาแล้วได้หนึ่งหรือหลายอย่าง โดยปกติจะรวมถึงตำแหน่ง 2 มิติในภาพหรือท่าทาง 3 มิติในฉากด้วย โปรแกรม Blippar, Google Gogglesและ LikeThat เป็นโปรแกรมแบบสแตนด์อะโลนที่แสดงให้เห็นถึงฟังก์ชันการทำงานนี้
- การระบุตัวตน – คือการจดจำวัตถุแต่ละชิ้น ตัวอย่างเช่น การระบุใบหน้าหรือลายนิ้วมือของบุคคลใดบุคคลหนึ่งการระบุตัวเลขที่เขียนด้วยลายมือหรือการระบุยานพาหนะคันใดคันหนึ่ง
- การตรวจจับ – ข้อมูลภาพจะถูกสแกนเพื่อค้นหาวัตถุเฉพาะพร้อมกับตำแหน่งของวัตถุนั้น ตัวอย่างเช่น การตรวจจับสิ่งกีดขวางในมุมมองของรถยนต์ และเซลล์หรือเนื้อเยื่อที่อาจผิดปกติในภาพทางการแพทย์ หรือการตรวจจับยานพาหนะในระบบเก็บค่าผ่านทางอัตโนมัติ การตรวจจับโดยอาศัยการคำนวณที่ค่อนข้างง่ายและรวดเร็วบางครั้งใช้เพื่อค้นหาบริเวณเล็กๆ ของข้อมูลภาพที่น่าสนใจ ซึ่งสามารถนำไปวิเคราะห์เพิ่มเติมด้วยเทคนิคที่ต้องการการคำนวณสูงกว่าเพื่อสร้างการตีความที่ถูกต้อง
ปัจจุบัน อัลกอริทึมที่ดีที่สุดสำหรับงานดังกล่าวมีพื้นฐานมาจากโครงข่ายประสาทเทียมแบบคอนโวลูชันตัวอย่างความสามารถของโครงข่ายเหล่านี้แสดงให้เห็นได้จากImageNet Large Scale Visual Recognition Challengeซึ่งเป็นเกณฑ์มาตรฐานในการจำแนกและตรวจจับวัตถุ โดยใช้ภาพนับล้านภาพและคลาสวัตถุ 1,000 คลาสในการแข่งขัน[ 48 ]ประสิทธิภาพของโครงข่ายประสาทเทียมแบบคอนโวลูชันในการทดสอบ ImageNet ในปัจจุบันใกล้เคียงกับประสิทธิภาพของมนุษย์แล้ว[ 48 ]อัลกอริทึมที่ดีที่สุดยังคงมีปัญหาในการจัดการกับวัตถุที่มีขนาดเล็กหรือบาง เช่น มดตัวเล็ก ๆ บนก้านดอกไม้ หรือคนถือปากกาขนนกอยู่ในมือ นอกจากนี้ยังมีปัญหาในการจัดการกับภาพที่บิดเบี้ยวด้วยฟิลเตอร์ (ซึ่งเป็นปรากฏการณ์ที่พบได้บ่อยขึ้นเรื่อย ๆ ในกล้องดิจิทัลสมัยใหม่) ในทางตรงกันข้าม ภาพประเภทดังกล่าวแทบจะไม่เป็นปัญหาสำหรับมนุษย์ อย่างไรก็ตาม มนุษย์มักมีปัญหาในเรื่องอื่น ๆ ตัวอย่างเช่น พวกเขาไม่เก่งในการจำแนกวัตถุออกเป็นคลาสย่อย ๆ เช่น สายพันธุ์สุนัขหรือสายพันธุ์นก ในขณะที่โครงข่ายประสาทเทียมแบบคอนโวลูชันสามารถจัดการเรื่องนี้ได้อย่างง่ายดาย
มีงานเฉพาะทางหลายอย่างที่ใช้การจดจำเป็นพื้นฐาน เช่น:
- การค้นหารูปภาพตามเนื้อหา – การค้นหารูปภาพทั้งหมดในชุดรูปภาพขนาดใหญ่ที่มีเนื้อหาเฉพาะเจาะจง เนื้อหาสามารถระบุได้หลายวิธี ตัวอย่างเช่น ในแง่ของความคล้ายคลึงกับรูปภาพเป้าหมาย (ขอรูปภาพทั้งหมดที่คล้ายกับรูปภาพ X) โดยใช้ เทคนิค การค้นหารูปภาพย้อนกลับหรือในแง่ของเกณฑ์การค้นหาระดับสูงที่ระบุเป็นข้อความ (ขอรูปภาพทั้งหมดที่มีบ้านจำนวนมาก ถ่ายในช่วงฤดูหนาว และไม่มีรถยนต์อยู่ในภาพ)

- การประมาณตำแหน่ง – คือการประมาณตำแหน่งหรือทิศทางของวัตถุเฉพาะชิ้นหนึ่งเมื่อเทียบกับกล้อง ตัวอย่างการประยุกต์ใช้เทคนิคนี้ ได้แก่ การช่วยแขนหุ่นยนต์ในการหยิบวัตถุจากสายพานลำเลียงในสายการผลิตหรือการหยิบชิ้นส่วนจากถังเก็บ
- การรู้จำอักขระด้วยแสง (OCR) – คือการระบุอักขระในภาพข้อความที่พิมพ์หรือเขียนด้วยลายมือ โดยปกติแล้วมีจุดประสงค์เพื่อเข้ารหัสข้อความให้อยู่ในรูปแบบที่เหมาะสมกับการแก้ไขหรือการจัดทำดัชนี มากขึ้น (เช่นASCII ) งานที่เกี่ยวข้องคือการอ่านรหัส 2 มิติ เช่น รหัสเมทริกซ์ข้อมูลและรหัส QR
- การจดจำใบหน้า –เทคโนโลยีที่ช่วยให้สามารถจับคู่ใบหน้าในภาพดิจิทัลหรือเฟรมวิดีโอกับฐานข้อมูลใบหน้า ซึ่งปัจจุบันมีการใช้งานอย่างแพร่หลายสำหรับการล็อกใบหน้าบนโทรศัพท์มือถือ การล็อกประตูอัจฉริยะ ฯลฯ [ 49 ]
- การจดจำอารมณ์ –ซึ่งเป็นส่วนย่อยของการจดจำใบหน้า การจดจำอารมณ์หมายถึงกระบวนการจำแนกอารมณ์ ของมนุษย์ อย่างไรก็ตาม นักจิตวิทยาเตือนว่าอารมณ์ภายในไม่สามารถตรวจจับได้อย่างน่าเชื่อถือจากใบหน้า[ 50 ]
- เทคโนโลยีการจดจำรูปร่าง (Shape Recognition Technology : SRT) ใน ระบบ นับคนสามารถแยกแยะมนุษย์ (รูปแบบศีรษะและไหล่) ออกจากวัตถุได้
- การจดจำกิจกรรมของมนุษย์ - เกี่ยวข้องกับการจดจำกิจกรรมจากชุดเฟรมวิดีโอ เช่น การระบุว่าบุคคลนั้นกำลังหยิบสิ่งของหรือกำลังเดินอยู่
การวิเคราะห์การเคลื่อนไหว
งานหลายอย่างเกี่ยวข้องกับการประมาณการเคลื่อนไหว โดยจะประมวลผลลำดับภาพเพื่อสร้างค่าประมาณความเร็ว ณ แต่ละจุดในภาพ หรือในฉาก 3 มิติ หรือแม้กระทั่งความเร็วของกล้องที่ถ่ายภาพ ตัวอย่างของงานดังกล่าว ได้แก่:
- การเคลื่อนที่ของตัวกล้อง (Egomotion ) – การหาการเคลื่อนที่แบบสามมิติ (การหมุนและการเลื่อน) ของกล้องจากลำดับภาพที่สร้างโดยกล้อง
- การติดตาม – การติดตามการเคลื่อนไหวของจุดหรือวัตถุที่น่าสนใจ (โดยปกติจะมีขนาดเล็กกว่า) (เช่นยานพาหนะ วัตถุ มนุษย์ หรือสิ่งมีชีวิตอื่นๆ [ 44 ] ) ในลำดับภาพ ซึ่งมีการใช้งานในอุตสาหกรรมอย่างกว้างขวาง เนื่องจากเครื่องจักรที่ทำงานด้วยความเร็วสูงส่วนใหญ่สามารถตรวจสอบได้ด้วยวิธีนี้
- การไหลของแสง (Optical flow ) – คือการหาว่าแต่ละจุดในภาพเคลื่อนที่อย่างไรเมื่อเทียบกับระนาบภาพ หรือก็คือการเคลื่อนที่ปรากฏของจุดนั้น การเคลื่อนที่นี้เป็นผลมาจากทั้งการเคลื่อนที่ของจุด 3 มิติที่สอดคล้องกันในฉาก และการเคลื่อนที่ของกล้องเมื่อเทียบกับฉาก
การจำลองเหตุการณ์
เมื่อได้รับภาพฉากหนึ่งภาพหรือ (โดยทั่วไป) มากกว่าหนึ่งภาพ หรือวิดีโอ การสร้างฉากใหม่มีเป้าหมายเพื่อคำนวณแบบจำลอง 3 มิติของฉาก ในกรณีที่ง่ายที่สุด แบบจำลองอาจเป็นชุดของจุด 3 มิติ วิธีการที่ซับซ้อนกว่านั้นจะสร้างแบบจำลองพื้นผิว 3 มิติที่สมบูรณ์ การเกิดขึ้นของการสร้างภาพ 3 มิติที่ไม่ต้องมีการเคลื่อนไหวหรือการสแกน และอัลกอริธึมการประมวลผลที่เกี่ยวข้อง ทำให้เกิดความก้าวหน้าอย่างรวดเร็วในสาขานี้ การตรวจจับ 3 มิติแบบกริดสามารถใช้เพื่อรับภาพ 3 มิติจากหลายมุม ปัจจุบันมีอัลกอริธึมที่สามารถเชื่อมต่อภาพ 3 มิติหลายภาพเข้าด้วยกันเป็นกลุ่มจุดและแบบจำลอง 3 มิติ[ 25 ]
การฟื้นฟูภาพ
การฟื้นฟูภาพเข้ามามีบทบาทเมื่อภาพต้นฉบับเสื่อมคุณภาพหรือเสียหายเนื่องจากปัจจัยภายนอกบางอย่าง เช่น การวางตำแหน่งเลนส์ผิดพลาด การรบกวนในการส่งสัญญาณ แสงน้อย หรือภาพเบลอจากการเคลื่อนไหว เป็นต้น ซึ่งเรียกว่าสัญญาณรบกวน เมื่อภาพเสื่อมคุณภาพหรือเสียหาย ข้อมูลที่จะดึงออกมาจากภาพก็จะเสียหายไปด้วย ดังนั้นเราจึงจำเป็นต้องกู้คืนหรือฟื้นฟูภาพให้กลับมาเป็นเหมือนเดิม จุดมุ่งหมายของการฟื้นฟูภาพคือการกำจัดสัญญาณรบกวน (สัญญาณรบกวนจากเซ็นเซอร์ ภาพเบลอจากการเคลื่อนไหว ฯลฯ) ออกจากภาพ วิธีที่ง่ายที่สุดในการกำจัดสัญญาณรบกวนคือการใช้ตัวกรองประเภทต่างๆ เช่น ตัวกรองความถี่ต่ำหรือตัวกรองค่ามัธยฐาน วิธีการที่ซับซ้อนกว่านั้นจะใช้แบบจำลองโครงสร้างภาพเฉพาะที่เพื่อแยกแยะออกจากสัญญาณรบกวน โดยการวิเคราะห์ข้อมูลภาพในแง่ของโครงสร้างภาพเฉพาะที่ เช่น เส้นหรือขอบ ก่อน แล้วควบคุมการกรองตามข้อมูลเฉพาะที่จากขั้นตอนการวิเคราะห์ มักจะได้ผลลัพธ์การกำจัดสัญญาณรบกวนที่ดีกว่าเมื่อเทียบกับวิธีที่ง่ายกว่า
ตัวอย่างในสาขานี้คือการเติมสีภายในภาพ (inpainting )
วิธีการของระบบ
การจัดระบบคอมพิวเตอร์วิชั่นนั้นขึ้นอยู่กับลักษณะการใช้งานเป็นอย่างมาก บางระบบเป็นแอปพลิเคชันแบบสแตนด์อะโลนที่แก้ปัญหาการวัดหรือการตรวจจับเฉพาะอย่าง ในขณะที่บางระบบเป็นระบบย่อยของการออกแบบที่ใหญ่กว่า ซึ่งอาจรวมถึงระบบย่อยสำหรับการควบคุมกลไก การวางแผน ฐานข้อมูล อินเทอร์เฟซระหว่างมนุษย์กับเครื่องจักร เป็นต้น การใช้งานระบบคอมพิวเตอร์วิชั่นโดยเฉพาะยังขึ้นอยู่กับว่าฟังก์ชันการทำงานของระบบนั้นถูกกำหนดไว้ล่วงหน้าหรือไม่ หรือบางส่วนของระบบสามารถเรียนรู้หรือปรับเปลี่ยนได้ในระหว่างการทำงาน ฟังก์ชันหลายอย่างเป็นเอกลักษณ์เฉพาะของแอปพลิเคชัน อย่างไรก็ตาม มีฟังก์ชันทั่วไปบางอย่างที่พบได้ในระบบคอมพิวเตอร์วิชั่นหลายระบบ
- การได้มาซึ่งภาพ – ภาพดิจิทัลถูกสร้างขึ้นโดยเซ็นเซอร์รับภาพ หนึ่งตัวหรือหลายตัว ซึ่งนอกจากกล้องที่ไวต่อแสงประเภทต่างๆ แล้ว ยังรวมถึงเซ็นเซอร์วัดระยะอุปกรณ์โทโมกราฟี เรดาร์ กล้องอัลตราโซนิก เป็นต้น ขึ้นอยู่กับประเภทของเซ็นเซอร์ ข้อมูลภาพที่ได้จะเป็นภาพ 2 มิติธรรมดา ปริมาตร 3 มิติ หรือลำดับภาพ ค่าพิกเซลโดยทั่วไปจะสอดคล้องกับความเข้มของแสงในแถบสเปกตรัมหนึ่งแถบหรือหลายแถบ (ภาพสีเทาหรือภาพสี) แต่ยังสามารถเกี่ยวข้องกับการวัดทางกายภาพต่างๆ เช่น ความลึก การดูดซับหรือการสะท้อนของคลื่นเสียงหรือคลื่นแม่เหล็กไฟฟ้า หรือ การถ่าย ภาพ ด้วย คลื่นแม่เหล็กไฟฟ้า[ 38 ]
- การประมวลผลเบื้องต้น – ก่อนที่จะนำวิธีการประมวลผลภาพด้วยคอมพิวเตอร์ไปใช้กับข้อมูลภาพเพื่อดึงข้อมูลเฉพาะบางอย่างออกมา มักจะต้องประมวลผลข้อมูลก่อนเพื่อให้แน่ใจว่าข้อมูลนั้นเป็นไปตามข้อสมมติบางประการที่วิธีการนั้นกำหนดไว้ ตัวอย่างเช่น:
- การสุ่มตัวอย่างใหม่เพื่อให้แน่ใจว่าระบบพิกัดภาพถูกต้อง
- ลดสัญญาณรบกวนเพื่อให้แน่ใจว่าสัญญาณรบกวนจากเซ็นเซอร์จะไม่ก่อให้เกิดข้อมูลที่ผิดพลาด
- เพิ่มความคมชัดของภาพเพื่อให้สามารถตรวจจับข้อมูลที่เกี่ยวข้องได้
- การแสดงผล แบบมาตราส่วนเพื่อเพิ่มประสิทธิภาพของโครงสร้างภาพในมาตราส่วนที่เหมาะสมเฉพาะที่
- การสกัดคุณลักษณะ – คุณลักษณะของภาพในระดับความซับซ้อนต่างๆ จะถูกสกัดจากข้อมูลภาพ [ 38 ]ตัวอย่างทั่วไปของคุณลักษณะดังกล่าว ได้แก่:
- ลักษณะที่ซับซ้อนกว่านั้นอาจเกี่ยวข้องกับพื้นผิว รูปร่าง หรือการเคลื่อนไหว
- การตรวจจับ / การแบ่งส่วน – ในบางจุดของการประมวลผล จะมีการตัดสินใจเกี่ยวกับจุดภาพหรือบริเวณภาพใดที่เกี่ยวข้องกับการประมวลผลต่อไป [ 38 ]ตัวอย่างเช่น:
- การเลือกกลุ่มจุดสนใจเฉพาะกลุ่มหนึ่ง
- การแบ่งส่วนภาพหนึ่งภาพหรือหลายภาพที่มีวัตถุที่สนใจเฉพาะเจาะจงอยู่ภายใน
- การแบ่งส่วนภาพออกเป็นสถาปัตยกรรมฉากแบบซ้อนกันซึ่งประกอบด้วยพื้นหน้า กลุ่มวัตถุ วัตถุเดี่ยว หรือวัตถุเด่น[ 51 ] (เรียกอีกอย่างว่าลำดับชั้นฉากเชิงพื้นที่-อนุกรมวิธาน) [ 52 ]ในขณะที่ความโดดเด่นทางสายตามักจะถูกนำไปใช้เป็น ความ สนใจเชิงพื้นที่และเวลา
- การแบ่งส่วนหรือการแบ่งส่วนร่วมของวิดีโอหนึ่งรายการหรือหลายรายการเป็นชุดของมาสก์พื้นหน้าต่อเฟรมในขณะที่ยังคงรักษาความต่อเนื่องทางความหมายเชิงเวลา[ 53 ] [ 54 ]
- การประมวลผลระดับสูง – ในขั้นตอนนี้ โดยทั่วไปอินพุตจะเป็นชุดข้อมูลขนาดเล็ก เช่น ชุดจุดหรือบริเวณภาพ ซึ่งถือว่ามีวัตถุเฉพาะอยู่[ 38 ]การประมวลผลที่เหลือจะเกี่ยวข้องกับตัวอย่างเช่น:
- ตรวจสอบว่าข้อมูลเป็นไปตามข้อสมมติฐานตามแบบจำลองและข้อสมมติฐานเฉพาะของแอปพลิเคชัน
- การประมาณค่าพารามิเตอร์เฉพาะแอปพลิเคชัน เช่น ท่าทางของวัตถุ หรือขนาดของวัตถุ
- การจดจำภาพ – การจำแนกวัตถุที่ตรวจพบออกเป็นหมวดหมู่ต่างๆ
- การลงทะเบียนภาพ – การเปรียบเทียบและรวมภาพสองมุมมองที่แตกต่างกันของวัตถุเดียวกัน
- การตัดสินใจการตัดสินใจขั้นสุดท้ายที่จำเป็นสำหรับการสมัคร[ 38 ]ตัวอย่างเช่น:
- ผ่าน/ไม่ผ่าน ในการตรวจสอบอัตโนมัติ
- การจับคู่/ไม่จับคู่ในแอปพลิเคชันการจดจำ
- ทำเครื่องหมายเพื่อการตรวจสอบโดยมนุษย์เพิ่มเติมในแอปพลิเคชันทางการแพทย์ การทหาร ความปลอดภัย และการจดจำ
ระบบการทำความเข้าใจภาพ
ระบบทำความเข้าใจภาพ (IUS) ประกอบด้วยระดับนามธรรมสามระดับดังนี้: ระดับต่ำประกอบด้วยองค์ประกอบพื้นฐานของภาพ เช่น ขอบ องค์ประกอบพื้นผิว หรือบริเวณ; ระดับกลางประกอบด้วยขอบเขต พื้นผิว และปริมาตร; และระดับสูงประกอบด้วยวัตถุ ฉาก หรือเหตุการณ์ ข้อกำหนดเหล่านี้หลายข้อเป็นหัวข้อสำหรับการวิจัยเพิ่มเติม
ข้อกำหนดด้านการนำเสนอในการออกแบบระบบสารสนเทศภายใน (IUS) สำหรับระดับเหล่านี้ ได้แก่ การนำเสนอแนวคิดต้นแบบ การจัดระเบียบแนวคิด ความรู้เชิงพื้นที่ ความรู้เชิงเวลา การกำหนดมาตราส่วน และการอธิบายโดยการเปรียบเทียบและการแยกแยะความแตกต่าง
ในขณะที่การอนุมานหมายถึงกระบวนการในการได้มาซึ่งข้อเท็จจริงใหม่ที่ไม่ได้แสดงไว้อย่างชัดเจนจากข้อเท็จจริงที่ทราบในปัจจุบัน การควบคุมหมายถึงกระบวนการที่เลือกเทคนิคการอนุมาน การค้นหา และการจับคู่จำนวนมากที่จะนำมาใช้ในขั้นตอนการประมวลผลที่เฉพาะเจาะจง ข้อกำหนดการอนุมานและการควบคุมสำหรับ IUS ได้แก่ การค้นหาและการเปิดใช้งานสมมติฐาน การจับคู่และการทดสอบสมมติฐาน การสร้างและการใช้ความคาดหวัง การเปลี่ยนแปลงและการมุ่งเน้นความสนใจ ความแน่นอนและความแข็งแกร่งของความเชื่อ การอนุมานและการบรรลุเป้าหมาย[ 55 ]
ฮาร์ดแวร์

ระบบคอมพิวเตอร์วิชั่นมีหลายประเภท แต่ทุกประเภทล้วนมีองค์ประกอบพื้นฐานเหล่านี้ ได้แก่ แหล่งจ่ายไฟ อุปกรณ์รับภาพอย่างน้อยหนึ่งตัว (กล้อง, CCD ฯลฯ) โปรเซสเซอร์ และสายควบคุมและสื่อสาร หรือกลไกการเชื่อมต่อไร้สายบางประเภท นอกจากนี้ ระบบวิชั่นที่ใช้งานได้จริงยังประกอบด้วยซอฟต์แวร์และจอแสดงผลเพื่อตรวจสอบระบบ ระบบวิชั่นสำหรับพื้นที่ภายในอาคาร เช่นเดียวกับระบบอุตสาหกรรมส่วนใหญ่ ประกอบด้วยระบบให้แสงสว่างและอาจติดตั้งในสภาพแวดล้อมที่ควบคุมได้ ยิ่งไปกว่านั้น ระบบที่สมบูรณ์ยังรวมถึงอุปกรณ์เสริมมากมาย เช่น ขาตั้งกล้อง สายเคเบิล และตัวเชื่อมต่อ
ระบบคอมพิวเตอร์วิชั่นส่วนใหญ่ใช้กล้องแสงที่มองเห็นได้ในการรับรู้ภาพแบบพาสซีฟ โดยมีอัตราเฟรมสูงสุดเพียง 60 เฟรมต่อวินาที (โดยปกติจะช้ากว่านั้นมาก)
ระบบคอมพิวเตอร์วิชั่นบางระบบใช้ฮาร์ดแวร์การรับภาพที่มีการส่องสว่างแบบแอคทีฟหรืออย่างอื่นที่ไม่ใช่แสงที่มองเห็นได้ หรือทั้งสองอย่าง เช่นสแกนเนอร์ 3 มิติแบบโครงสร้างแสงกล้องถ่ายภาพความร้อนเครื่อง ถ่ายภาพไฮเปอร์สเปกตรัม การถ่ายภาพ ด้วยเรดาร์สแกนเนอร์ไลดาร์ภาพถ่ายด้วยคลื่นแม่เหล็กไฟฟ้าโซนาร์แบบสแกนด้านข้าง โซนาร์แบบรูรับแสงสังเคราะห์เป็นต้น ฮาร์ดแวร์เหล่านี้จะจับภาพ "ภาพ" ซึ่งจะถูกประมวลผลโดยใช้อัลกอริทึมคอมพิวเตอร์วิชั่นเดียวกันกับที่ใช้ในการประมวลผลภาพจากแสงที่มองเห็นได้
ในขณะที่ระบบกระจายเสียงและระบบวิดีโอสำหรับผู้บริโภคแบบดั้งเดิมทำงานที่อัตรา 30 เฟรมต่อวินาที ความก้าวหน้าในการประมวลผลสัญญาณดิจิทัลและฮาร์ดแวร์กราฟิกสำหรับผู้บริโภคทำให้การรับภาพ การประมวลผล และการแสดงภาพความเร็วสูงเป็นไปได้สำหรับระบบแบบเรียลไทม์ที่ระดับหลายร้อยถึงหลายพันเฟรมต่อวินาที สำหรับการใช้งานในด้านหุ่นยนต์ ระบบวิดีโอแบบเรียลไทม์ที่รวดเร็วมีความสำคัญอย่างยิ่งและมักจะช่วยลดความซับซ้อนของการประมวลผลที่จำเป็นสำหรับอัลกอริธึมบางอย่าง เมื่อรวมกับโปรเจ็กเตอร์ความเร็วสูง การรับภาพที่รวดเร็วทำให้สามารถวัดแบบ 3 มิติและติดตามคุณลักษณะได้[ 56 ]
ระบบ การมองเห็นแบบยึดตนเองเป็นศูนย์กลางประกอบด้วยกล้องแบบสวมใส่ได้ ซึ่งจะถ่ายภาพโดยอัตโนมัติจากมุมมองบุคคลที่หนึ่ง
นับตั้งแต่ปี 2016 หน่วยประมวลผลภาพได้ถือกำเนิดขึ้นในฐานะหน่วยประมวลผลประเภทใหม่เพื่อเสริมการทำงานของ CPU และหน่วยประมวลผลกราฟิก (GPU) ในบทบาทนี้[ 57 ]
ดูเพิ่มเติม
รายการ
อ่านเพิ่มเติม
- เจมส์ อี. ดอบสัน (2023). กำเนิดของวิทยาการคอมพิวเตอร์ด้านการมองเห็น . สำนักพิมพ์มหาวิทยาลัยมินนิโซตา. ISBN 978-1-5179-1421-9.
- เดวิด มาร์ (1982). วิชั่น . ดับเบิลยูเอช ฟรีแมน แอนด์ คอมพานี. ISBN 978-0-7167-1284-8.
- Azriel Rosenfeld; Avinash Kak (1982). การประมวลผลภาพดิจิทัล . สำนักพิมพ์ Academic Press. ISBN 978-0-12-597301-4.
- Barghout, Lauren; Lawrence W. Lee (2003). ระบบประมวลผลข้อมูลการรับรู้ . คำขอสิทธิบัตรสหรัฐอเมริกา 10/618,543. ISBN 978-0-262-08159-7.
- เบิร์ธโฮลด์ เคพี ฮอร์น (1986) การมองเห็นหุ่นยนต์ . สำนักพิมพ์เอ็มไอที. ไอเอสบีเอ็น 978-0-262-08159-7.
- Michael C. Fairhurst (1988). Computer Vision for robotic systems . Prentice Hall. ISBN 978-0-13-166919-2.
- Olivier Faugeras (1993). การมองเห็นด้วยคอมพิวเตอร์สามมิติ มุมมองทางเรขาคณิตสำนักพิมพ์ MIT ISBN 978-0-262-06158-2.
- Tony Lindeberg (1994). ทฤษฎีสเกลสเปซในคอมพิวเตอร์วิชั่น . Springer. ISBN 978-0-7923-9418-1.
- เจมส์ แอล. โครว์ลีย์; เฮนริก ไอ. คริสเตนเซน (บรรณาธิการ) (1995). วิสัยทัศน์ในฐานะกระบวนการ . สปริงเกอร์-เวอร์แลก. ISBN 978-3-540-58143-7.
- กอสต้า เอช. กรานลันด์; ฮันส์ นัตส์สัน (1995) การประมวลผลสัญญาณสำหรับคอมพิวเตอร์วิทัศน์ สำนักพิมพ์วิชาการ Kluwer ไอเอสบีเอ็น 978-0-7923-9530-0.
- ไรน์ฮาร์ด เคล็ตต์; คาร์สเทน ชลูเอนส์; อันเดรียส คอสชาน (1998) คอมพิวเตอร์วิทัศน์ – ข้อมูลสามมิติจากรูปภาพ สปริงเกอร์, สิงคโปร์ไอเอสบีเอ็น 978-981-3083-71-4.
- เอ็มมานูเอล ทรุคโก; อเลสซานโดร แวร์รี่ (1998) เทคนิคเบื้องต้นสำหรับการมองเห็น คอมพิวเตอร์3 มิติห้องฝึกหัด. ไอเอสบีเอ็น 978-0-13-261108-4.
- Bernd Jähne (2002). การประมวลผลภาพดิจิทัล . Springer. ISBN 978-3-540-67754-3.
- Richard Hartley และAndrew Zisserman (2003). เรขาคณิตมุมมองหลายมุมในคอมพิวเตอร์วิชั่น . สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์. ISBN 978-0-521-54051-3.
- Gérard Medioni; Sing Bing Kang (2004). หัวข้อใหม่ที่กำลังเกิดขึ้นในวงการวิทยาการคอมพิวเตอร์ . Prentice Hall. ISBN 978-0-13-101366-7.
- R. Fisher; K. Dawson-Howe; A. Fitzgibbon; C. Robertson; E. Trucco (2005). พจนานุกรมคอมพิวเตอร์วิชั่นและการประมวลผลภาพ . สำนักพิมพ์ John Wiley. ISBN 978-0-470-01526-1.
- Nikos Paragiosและ Yunmei Chen และOlivier Faugeras (2005). คู่มือแบบจำลองทางคณิตศาสตร์ในวิทยาการคอมพิวเตอร์ . Springer. ISBN 978-0-387-26371-7.
- Wilhelm Burger; Mark J. Burge (2007). การประมวลผลภาพดิจิทัล: แนวทางเชิงอัลกอริทึมโดยใช้ Java . Springer . ISBN 978-1-84628-379-6เก็บถาวรจากต้นฉบับเมื่อวันที่ 17 พฤษภาคม 2014 เรียกดูเมื่อวันที่ 13 มิถุนายน 2007
- เปดราม อาซาด; ติโล ก็อคเคล; รูดิเกอร์ ดิลล์มันน์ (2008) คอมพิวเตอร์วิทัศน์ – หลักการและการปฏิบัติ . อิเล็คเตอร์ อินเตอร์เนชั่นแนล มีเดีย บีวี. ไอเอสบีเอ็น 978-0-905705-71-2.
- Richard Szeliski (2010). Computer Vision: Algorithms and Applications . Springer-Verlag. ISBN 978-1-84882-934-3.
- เจ.อาร์. พาร์คเกอร์ (2011). อัลกอริทึมสำหรับการประมวลผลภาพและคอมพิวเตอร์วิชั่น (ฉบับที่ 2). ไวลีย์. ISBN 978-0-470-64385-3.
- Richard J. Radke (2013). คอมพิวเตอร์วิชั่นสำหรับวิชวลเอฟเฟ็กต์ . สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์. ISBN 978-0-521-76687-6.
- Nixon, Mark; Aguado, Alberto (2019). การสกัดคุณลักษณะและการประมวลผลภาพสำหรับคอมพิวเตอร์วิชั่น (ฉบับที่ 4). Academic Press. ISBN 978-0-12-814976-8.
ลิงก์ภายนอก
- รายชื่อการประชุมด้านคอมพิวเตอร์วิชั่นของ USC Iris
- บทความวิจัยด้านคอมพิวเตอร์วิชั่นบนเว็บ – รายชื่อบทความวิจัยทั้งหมดจากงานประชุมวิชาการด้านคอมพิวเตอร์วิชั่นที่สำคัญที่สุด
- Computer Vision Online ที่เก็บถาวรไว้เมื่อวันที่ 30 พฤศจิกายน 2011 บนWayback Machine – ข่าวสาร โค้ดต้นฉบับ ชุดข้อมูล และประกาศรับสมัครงานที่เกี่ยวข้องกับวิทยาการคอมพิวเตอร์ด้านการมองเห็น
- CVonline – สารานุกรมด้านคอมพิวเตอร์วิชั่นของบ็อบ ฟิชเชอร์
- สมาคมวิทยาการคอมพิวเตอร์ด้านการมองเห็นแห่งสหราชอาณาจักร (British Machine Vision Association - BMVA) – สนับสนุนงานวิจัยด้านวิทยาการคอมพิวเตอร์ด้านการมองเห็นภายในสหราชอาณาจักร ผ่านการประชุม BMVC และ MIUA, วารสารAnnals of the BMVA (วารสารโอเพนซอร์ส), โครงการBMVA Summer Schoolและการประชุมแบบวันเดียว
- Computer Vision Container, Joe Hoeller GitHub:คอนเทนเนอร์โอเพนซอร์สที่ได้รับความนิยมอย่างกว้างขวางสำหรับแอปพลิเคชันการประมวลผลภาพด้วย GPU ใช้งานโดยนักวิจัย มหาวิทยาลัย บริษัทเอกชน รวมถึงรัฐบาลสหรัฐฯ
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ คอมพิวเตอร์วิชั่น
งาน ด้านคอมพิวเตอร์วิชั่น ประกอบด้วยวิธีการใน การรับ ประมวล ผล วิเคราะห์และทำความเข้าใจ ภาพดิจิทัล รวมถึงการสกัด ข้อมูล มิติสูง...
คำนิยาม
คอมพิวเตอร์วิชั่นเป็น สาขาสหวิทยาการ ที่เกี่ยวข้องกับการทำให้คอมพิวเตอร์สามารถเข้าใจ ภาพดิจิทัล หรือ วิดีโอ ในระดับสูงได้ จากมุมมองของ วิศวกรรมศาสตร์ มันพยายามที่จะทำให้งานที่ ระบบการมองเห็นของมนุษย์ สามารถทำได้ เป็นไปโดยอัตโนมัติ [ 5 ] [ 6 ] [ 7 ]...
ประวัติศาสตร์
ในช่วงปลายทศวรรษ 1960 การมองเห็นด้วยคอมพิวเตอร์เริ่มขึ้นที่มหาวิทยาลัยที่เป็นผู้บุกเบิก ด้านปัญญาประดิษฐ์ โดยมีจุดประสงค์เพื่อเลียนแบบ ระบบการมองเห็นของมนุษย์ เพื่อเป็นก้าวแรกในการทำให้หุ่นยนต์มีพฤติกรรมที่ชาญฉลาด [ 11 ] ในปี 1966...
ฟิสิกส์ของแข็ง
ฟิสิกส์ของของแข็ง เป็นอีกสาขาหนึ่งที่เกี่ยวข้องอย่างใกล้ชิดกับคอมพิวเตอร์วิชั่น ระบบคอมพิวเตอร์วิชั่นส่วนใหญ่อาศัย เซ็นเซอร์ภาพ ซึ่งตรวจจับ รังสีแม่เหล็กไฟฟ้า ซึ่งโดยทั่วไปอยู่ในรูปของ แสง ที่ มองเห็นได้ อินฟราเรดหรือ อัลตราไวโอเลต...