อ่าน 6 นาที
แผนที่ความโดดเด่น
ในคอมพิวเตอร์วิชั่นแผนที่ความเด่นชัดคือภาพที่เน้นบริเวณที่ดวงตาของผู้คนโฟกัสเป็นอันดับแรก หรือบริเวณที่เกี่ยวข้องมากที่สุดสำหรับโมเดลการเรียนรู้ของเครื่อง
แผนที่ความโดดเด่น

ในคอมพิวเตอร์วิชั่นแผนที่ความเด่นชัดคือภาพที่เน้นบริเวณที่ดวงตาของผู้คนโฟกัสเป็นอันดับแรก หรือบริเวณที่เกี่ยวข้องมากที่สุดสำหรับโมเดลการเรียนรู้ของเครื่อง [ 1 ] เป้าหมายของแผนที่ความเด่นชัดคือการสะท้อนระดับความสำคัญของพิกเซลต่อระบบการมองเห็น ของมนุษย์ หรือโมเดล ML ที่ไม่โปร่งใส
ตัวอย่างเช่น ในภาพนี้ บุคคลนั้นมองไปที่ป้อมปราการและเมฆสีอ่อนก่อน ดังนั้นสิ่งเหล่านั้นควรถูกเน้นให้เห็นเด่นชัดบนแผนที่ความโดดเด่น (saliency map)
แอปพลิเคชัน
ภาพรวม
แผนที่ความโดดเด่น (Saliency maps) มีการประยุกต์ใช้ในปัญหาต่างๆ มากมาย ตัวอย่างการประยุกต์ใช้ทั่วไป ได้แก่:
ดวงตาของมนุษย์
- การบีบ อัดภาพและวิดีโอ : ดวงตาของมนุษย์จะโฟกัสเฉพาะบริเวณที่สนใจ เล็กๆ ในเฟรมเท่านั้น ดังนั้นจึงไม่จำเป็นต้องบีบอัดทั้งเฟรมด้วยคุณภาพที่สม่ำเสมอ ตามที่ผู้เขียนกล่าว การใช้แผนที่ความโดดเด่นจะช่วยลดขนาดสุดท้ายของวิดีโอโดยที่การรับรู้ทางสายตายังคงเหมือนเดิม[ 2 ]
- การประเมินคุณภาพ ของภาพและวิดีโอ : งานหลักของ ตัวชี้วัด คุณภาพของภาพหรือวิดีโอคือความสัมพันธ์ ที่สูง กับความคิดเห็นของผู้ใช้ ความแตกต่างในบริเวณที่โดดเด่นจะได้รับความสำคัญมากขึ้นและส่งผลต่อคะแนนคุณภาพมากขึ้น[ 3 ]
- การปรับขนาดภาพใหม่ : มีเป้าหมายเพื่อปรับขนาดภาพโดยการขยายหรือย่อพื้นที่ที่ไม่ให้ข้อมูล ดังนั้นอัลกอริธึมการปรับขนาดภาพใหม่จึงอาศัยแผนที่ความเด่นชัดที่ประเมินรายละเอียดภาพที่โดดเด่นทั้งหมดได้อย่างแม่นยำ[ 4 ]
- การตรวจจับ และการจดจำวัตถุ : แทนที่จะใช้อัลกอริธึมที่ซับซ้อนในการคำนวณกับภาพทั้งหมด เราสามารถใช้อัลกอริธึมดังกล่าวกับบริเวณที่โดดเด่นที่สุดของภาพซึ่งมีแนวโน้มที่จะมีวัตถุอยู่[ 5 ]
- คอร์ เทกซ์การมองเห็นหลัก(V1) ดูเหมือนจะมีหน้าที่รับผิดชอบแผนที่ความเด่นชัด ตามสมมติฐานความเด่นชัดของ V1 [ 6 ]
ปัญญาประดิษฐ์ที่อธิบายได้
แผนที่ความเด่นชัดเป็นเครื่องมือที่โดดเด่นในปัญญาประดิษฐ์ที่อธิบายได้ [ 7 ]ซึ่งให้คำอธิบายด้วยภาพของกระบวนการตัดสินใจของ แบบจำลองการ เรียน รู้ของ เครื่องโดยเฉพาะอย่างยิ่งเครือข่ายประสาทเทียมเชิงลึกแผนที่เหล่านี้เน้นบริเวณในข้อมูลอินพุตที่มีอิทธิพลมากที่สุดต่อเอาต์พุตของแบบจำลอง ซึ่งบ่งชี้อย่างมีประสิทธิภาพว่าแบบจำลองกำลัง "มอง" ไปที่ใดเมื่อทำการทำนาย ตัวอย่างเช่น ในงานการจำแนกภาพ แผนที่ความเด่นชัดสามารถระบุพิกเซลหรือบริเวณที่มีส่วนร่วมมากที่สุดในการตัดสินใจคลาสเฉพาะ เทคนิคการสร้างแผนที่ความเด่นชัดที่พัฒนาขึ้นสำหรับเครือข่ายประสาทเทียมแบบคอนโวลูชันมีตั้งแต่การใช้เกรเดียนต์ของคะแนนคลาสเทียบกับข้อมูลอินพุตไปจนถึงอัลกอริทึมที่ซับซ้อนกว่า เช่น เกรเดียนต์แบบบูรณาการ[ 8 ]และการสร้างแผนที่การเปิดใช้งานคลาส[ 7 ]ในสถาปัตยกรรมทรานส์ฟอร์เม อ ร์ กลไก ความสนใจนำไปสู่แผนที่ความเด่นชัดที่คล้ายคลึงกัน เช่น แผนที่ความสนใจ[ 9 ]โรลเอาต์ความสนใจ[ 10 ]และแผนที่ความสนใจที่จำแนกคลาส[ 11 ]
ความโดดเด่นในฐานะปัญหาการแบ่งส่วน
การประมาณค่าความโดดเด่นอาจมองได้ว่าเป็นตัวอย่างหนึ่งของการแบ่งส่วนภาพในคอมพิวเตอร์วิชั่นการแบ่งส่วนภาพคือกระบวนการแบ่งภาพดิจิทัลออกเป็นหลายส่วน (ชุดของพิกเซล หรือที่เรียกว่าซูเปอร์พิกเซล ) เป้าหมายของการแบ่งส่วนคือการทำให้ภาพง่ายขึ้นและ/หรือเปลี่ยนการแสดงภาพให้เป็นสิ่งที่เข้าใจง่ายขึ้นและวิเคราะห์ได้ง่ายขึ้น โดยทั่วไปการแบ่งส่วนภาพจะใช้เพื่อระบุตำแหน่งของวัตถุและขอบเขต (เส้น เส้นโค้ง ฯลฯ) ในภาพ กล่าวโดยละเอียด การแบ่งส่วนภาพคือกระบวนการกำหนดป้ายกำกับให้กับทุกพิกเซลในภาพ โดยที่พิกเซลที่มีป้ายกำกับเดียวกันจะมีลักษณะร่วมกัน[ 12 ]
อัลกอริทึม
ภาพรวม
มีอัลกอริธึมการประมาณความโดดเด่นแบบคลาสสิกสามรูปแบบที่นำมาใช้ในOpenCV :
- การระบุจุดสนใจแบบคงที่: อาศัยคุณลักษณะและสถิติของภาพเพื่อระบุตำแหน่งบริเวณที่สนใจในภาพ
- ความโดดเด่นของการเคลื่อนไหว: อาศัยการเคลื่อนไหวในวิดีโอ ซึ่งตรวจจับได้ด้วยวิธีการไหลของแสง (optical flow ) วัตถุที่เคลื่อนไหวจะถูกพิจารณาว่ามีความโดดเด่น
- ความเป็นวัตถุ: ความเป็นวัตถุสะท้อนถึงโอกาสที่หน้าต่างภาพจะครอบคลุมวัตถุ อัลกอริทึมเหล่านี้สร้างชุดกรอบสี่เหลี่ยมที่ระบุตำแหน่งที่วัตถุอาจอยู่ภายในภาพ
นอกเหนือจากวิธีการแบบดั้งเดิมแล้ววิธีการที่ใช้โครงข่ายประสาทเทียมก็ได้รับความนิยมเช่นกัน ตัวอย่างของโครงข่ายประสาทเทียมสำหรับการประมาณความโดดเด่นของการเคลื่อนไหวมีดังนี้:
- TASED-Net : ประกอบด้วยส่วนประกอบหลักสองส่วน ส่วนแรกคือเครือข่ายเข้ารหัส (encoder network)ที่ดึงคุณลักษณะเชิงพื้นที่และเวลาที่มีความละเอียดต่ำออกมา จากนั้นเครือข่ายทำนาย (prediction network) จะถอดรหัสคุณลักษณะที่เข้ารหัสเชิงพื้นที่เหล่านั้น พร้อมทั้งรวบรวมข้อมูลเชิงเวลาทั้งหมดเข้าด้วยกัน
- STRA-Net : เน้นสองประเด็นสำคัญ ประการแรก คุณลักษณะเชิงพื้นที่และเวลาบูรณาการผ่านการเชื่อมโยงลักษณะที่ปรากฏและการไหลของแสงและประการที่สอง การเรียนรู้ความโดดเด่นในหลายระดับผ่านกลไกความสนใจ
- STAViS : เป็นระบบที่ผสานรวมข้อมูลภาพและเสียงเชิงพื้นที่และเวลา วิธีการนี้ใช้เครือข่ายเดียวในการเรียนรู้ที่จะระบุตำแหน่งแหล่งกำเนิดเสียงและผสานความโดดเด่นทั้งสองเข้าด้วยกันเพื่อให้ได้แผนที่ความโดดเด่นขั้นสุดท้าย
มีการค้นพบ ความโดดเด่นแบบคงที่แบบใหม่ในเอกสารวิชาการที่มีชื่อว่า ความไวต่อการบิดเบือนภาพ [ 13 ] โดยอิงจากแนวคิดที่ว่าขอบที่แท้จริง เช่น เส้นขอบของวัตถุ มีความโดดเด่นมากกว่าบริเวณที่มีพื้นผิวซับซ้อนอื่นๆ วิธีการตรวจจับขอบจะแตกต่างจากอัลกอริธึม การตรวจจับขอบ แบบคลาสสิก โดยใช้เกณฑ์ค่าความชันที่ค่อนข้างต่ำเพื่อพิจารณาเพียงแค่การมีอยู่ของค่าความชัน ดังนั้นจึงได้แผนที่ไบนารี 4 แผนที่สำหรับทิศทางแนวตั้ง แนวนอน และแนวทแยงสองทิศทาง มีการใช้การปิดและการเปิดทางสัณฐานวิทยา (morphological closing and opening) กับภาพไบนารีเพื่อปิดช่องว่างเล็กๆ และใช้การแปลงระยะทาง (distance transform ) เพื่อกำจัดรูปร่างคล้ายก้อน ท้ายที่สุดแล้ว กลุ่มพิกเซลที่เชื่อมต่อกันก็คือขอบแต่ละอัน (หรือเส้นขอบ) มีการใช้เกณฑ์ขนาดของชุดพิกเซลที่เชื่อมต่อกันเพื่อกำหนดว่าบล็อกภาพมีขอบที่มองเห็นได้ (บริเวณที่โดดเด่น) หรือไม่
ตัวอย่างการใช้งาน
ขั้นแรก เราควรคำนวณระยะห่างของแต่ละพิกเซลกับพิกเซลอื่นๆ ในเฟรมเดียวกัน:
คือค่าของพิกเซลซึ่งอยู่ในช่วง [0,255] สมการต่อไปนี้คือรูปแบบที่ขยายของสมการนี้
- SALS( I k ) = | I k - I 1 | + | I k - I 2 | + ... + | I k - I N |
โดยที่ N คือจำนวนพิกเซลทั้งหมดในเฟรมปัจจุบัน จากนั้นเราสามารถปรับโครงสร้างสูตรของเราได้อีก โดยเราจะนำค่าที่มีค่า I เดียวกันมารวมกัน
- SALS( I k ) = Σ F n × | I k - I n |
โดยที่F nคือความถี่ของI nและค่าของ n อยู่ในช่วง [0,255] ความถี่จะแสดงในรูปแบบฮิสโตแกรมและเวลาในการคำนวณฮิสโตแกรมคือ ความ ซับซ้อนของเวลา
ความซับซ้อนเชิงเวลา
อัลกอริทึมแผนที่ความเด่นชัดนี้มี ความซับซ้อนของเวลาเนื่องจากเวลาในการคำนวณฮิสโตแกรมคือ ความซับซ้อนของเวลา โดยที่ N คือจำนวนพิกเซลของเฟรม นอกจากนี้ ส่วนลบและส่วนคูณของสมการนี้ต้องใช้การดำเนินการ 256 ครั้ง ดังนั้น ความซับซ้อนของเวลาของอัลกอริทึมนี้คือ ซึ่ง เท่ากับ
รหัสเทียม
โค้ดทั้งหมดต่อไปนี้เป็น โค้ด MATLAB แบบจำลอง ขั้นแรก ให้อ่านข้อมูลจากลำดับวิดีโอ
สำหรับk = 2 : 1 : 13 % ซึ่งหมายถึงตั้งแต่เฟรมที่ 2 ถึง 13 และในแต่ละรอบ ค่าของ K จะเพิ่มขึ้นหนึ่งI = imread ( currentfilename ); % อ่านเฟรมปัจจุบันI1 = im2single ( I ); % แปลงภาพคู่เป็นภาพเดี่ยว (ข้อกำหนดของคำสั่ง vlslic) l = imread ( previousfilename ); % อ่านเฟรมก่อนหน้าI2 = im2single ( l ); regionSize = 10 ; % ตั้งค่าพารามิเตอร์ของ SLIC การตั้งค่าพารามิเตอร์นี้เป็นผลการทดลอง RegionSize หมายถึงขนาดของ superpixel regularizer = 1 ; % ตั้งค่าพารามิเตอร์ของ SLIC segments1 = vl_slic ( I1 , regionSize , regularizer ); % รับ superpixel ของเฟรมปัจจุบันsegments2 = vl_slic ( I2 , regionSize , regularizer ); % รับ superpixel ของเฟรมก่อนหน้าnumsuppix = max ( segments1 (:)); % รับจำนวนซูเปอร์พิกเซล ข้อมูลทั้งหมดเกี่ยวกับซูเปอร์พิกเซลอยู่ในลิงก์นี้ [http://www.vlfeat.org/overview/slic.html] regstats1 = regionprops ( segments1 , ' all ' ); regstats2 = regionprops ( segments2 , ' all ' ); % รับคุณลักษณะของภูมิภาคโดยอิงจาก segments1หลังจากอ่านข้อมูลแล้ว เราจะทำการประมวลผลซูเปอร์พิกเซลให้กับแต่ละเฟรม โดย Spnum1 และ Spnum2 จะแทนหมายเลขพิกเซลของเฟรมปัจจุบันและเฟรมก่อนหน้า
% ขั้นแรก เราคำนวณระยะห่างระหว่างพิกเซลแต่ละพิกเซล% นี่คือโค้ดหลักของเราสำหรับi = 1 : 1 : spnum1 % จากพิกเซลแรกถึงพิกเซลสุดท้าย และในแต่ละรอบ i++ สำหรับj = 1 : 1 : spnum2 % จากพิกเซลแรกถึงพิกเซลสุดท้าย j++ เฟรมก่อนหน้าcentredist ( i : j ) = sum (( center ( i ) - center ( j ))); % คำนวณระยะห่างของจุดศูนย์กลางend endจากนั้นเราจะคำนวณระยะห่างของสีระหว่างพิกเซลแต่ละพิกเซล กระบวนการนี้เราเรียกว่าฟังก์ชันความสอดคล้อง (Contract Function)
for i = 1 : 1 : spnum1 % จากพิกเซลแรกของเฟรมปัจจุบันถึงพิกเซลสุดท้าย I ++ for j = 1 : 1 : spnum2 % จากพิกเซลแรกของเฟรมก่อนหน้าถึงพิกเซลสุดท้าย J++ posdiff ( i , j ) = sum (( regstats1 ( j ). Centroid ' - mupwtd (:, i ))); % คำนวณระยะห่างของสีend endหลังจากดำเนินการสองขั้นตอนเสร็จแล้ว เราจะได้แผนที่ความโดดเด่น (saliency map) จากนั้นจะจัดเก็บแผนที่ทั้งหมดเหล่านี้ไว้ในโฟลเดอร์ไฟล์ใหม่
ความแตกต่างในอัลกอริทึม
ความแตกต่างหลักระหว่างฟังก์ชันที่หนึ่งและฟังก์ชันที่สองคือความแตกต่างของฟังก์ชันการทำสัญญา หาก spnum1 และ spnum2 แทนหมายเลขพิกเซลของเฟรมปัจจุบัน ฟังก์ชันการทำสัญญานี้จะใช้สำหรับฟังก์ชันความเด่นชัดแรก หาก spnum1 คือหมายเลขพิกเซลของเฟรมปัจจุบันและ spnum2 แทนหมายเลขพิกเซลของเฟรมก่อนหน้า ฟังก์ชันการทำสัญญานี้จะใช้สำหรับฟังก์ชันความเด่นชัดที่สอง หากเราใช้ฟังก์ชันการทำสัญญาที่สองซึ่งใช้พิกเซลของเฟรมเดียวกันเพื่อหาค่าระยะห่างจากจุดศูนย์กลางเพื่อสร้างแผนที่ความเด่นชัด จากนั้นเราจะใช้ฟังก์ชันความเด่นชัดนี้กับแต่ละเฟรมและใช้แผนที่ความเด่นชัดของเฟรมปัจจุบันลบด้วยแผนที่ความเด่นชัดของเฟรมก่อนหน้าเพื่อสร้างภาพใหม่ซึ่งเป็นผลลัพธ์ความเด่นชัดใหม่ของฟังก์ชันความเด่นชัดที่สาม

ชุดข้อมูล
ชุดข้อมูลความโดดเด่นมักประกอบด้วยการเคลื่อนไหวของดวงตาของมนุษย์บนลำดับภาพต่างๆ ชุดข้อมูลนี้มีค่าสำหรับการสร้างอัลกอริทึมความโดดเด่นใหม่หรือการเปรียบเทียบประสิทธิภาพของอัลกอริทึมที่มีอยู่ พารามิเตอร์ของชุดข้อมูลที่มีค่ามากที่สุดคือความละเอียดเชิงพื้นที่ ขนาด และ อุปกรณ์ ติดตามดวงตานี่คือส่วนหนึ่งของตารางชุดข้อมูลขนาดใหญ่จาก ชุดข้อมูลมาตรฐานความโดดเด่น ของ MIT/Tübingen
| ชุดข้อมูล | ปณิธาน | ขนาด | ผู้สังเกตการณ์ | ระยะเวลา | เครื่องติดตามดวงตา |
|---|---|---|---|---|---|
| แคท2000 | 1920×1080 พิกเซล | 4000 ภาพ | 24 | 5 วินาที | EyeLink 1000 (1000 เฮิรตซ์) |
| อายแทร็กยูเอวี2 | 1280×720 พิกเซล | วิดีโอ 43 รายการ | 30 | 33 วินาที | EyeLink 1000 Plus (1000 เฮิรตซ์, กล้องสองตา) |
| โครว์ดไฟซ์ | 1280×720 พิกเซล | วิดีโอ 434 รายการ | 26 | 1–3 วินาที | อุปกรณ์ติดตามการเคลื่อนไหวของดวงตา Eyetribe (60 Hz) |
| ซาวัม | 1920×1080 พิกเซล | วิดีโอ 43 รายการ | 50 | 20 วินาที | SMI iViewXTM ความเร็วสูง 1250 (500 เฮิรตซ์) |
ในการเก็บรวบรวมชุดข้อมูลความโดดเด่น (saliency dataset) จำเป็นต้องเตรียมภาพหรือวิดีโอและอุปกรณ์ติดตามการเคลื่อนไหวของดวงตา และต้องเชิญผู้สังเกตการณ์ ผู้สังเกตการณ์ต้องมีสายตาปกติหรือได้รับการแก้ไขให้เป็นปกติ และต้องอยู่ห่างจากหน้าจอในระยะเดียวกัน ในตอนเริ่มต้นของการบันทึกแต่ละครั้ง อุปกรณ์ติดตามการเคลื่อนไหวของดวงตาจะทำการปรับเทียบใหม่ โดยผู้สังเกตการณ์จะต้องจ้องมองไปที่กึ่งกลางหน้าจอ จากนั้นจึงเริ่มการบันทึก และเก็บรวบรวมข้อมูลความโดดเด่นโดยการแสดงลำดับภาพหรือวิดีโอและบันทึกการจ้องมองของดวงตา
อุปกรณ์ติดตามการเคลื่อนไหวของดวงตาเป็นกล้องความเร็วสูงที่สามารถบันทึกการเคลื่อนไหวของดวงตาได้อย่างน้อย 250 เฟรมต่อวินาทีภาพจากกล้องจะถูกประมวลผลโดยซอฟต์แวร์ที่ทำงานบนคอมพิวเตอร์เฉพาะ เพื่อส่งคืนข้อมูลการมอง
ดูเพิ่มเติม
ลิงก์ภายนอก
- Zhai, Yun; Shah, Mubarak (2006-10-23). "การตรวจจับความสนใจทางสายตาในลำดับวิดีโอโดยใช้เบาะแสเชิงพื้นที่และเวลา". รายงานการประชุมนานาชาติ ACM ครั้งที่ 14 ว่าด้วยมัลติมีเดีย MM '06. นิวยอร์ก, นิวยอร์ก, สหรัฐอเมริกา: ACM. หน้า 815–824 . CiteSeerX 10.1.1.80.4848 . doi : 10.1145/1180639.1180824 . ISBN 978-1595934475. S2CID 5219826 .
- VLfeat: https://www.vlfeat.org/
- แผนที่ความโดดเด่นในScholarpedia
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ แผนที่ความโดดเด่น
ในคอมพิวเตอร์วิชั่นแผนที่ความเด่นชัดคือภาพที่เน้นบริเวณที่ดวงตาของผู้คนโฟกัสเป็นอันดับแรก หรือบริเวณที่เกี่ยวข้องมากที่สุดสำหรับโมเดลการเรียนรู้ของเครื่อง
ภาพรวม
แผนที่ความโดดเด่น (Saliency maps) มีการประยุกต์ใช้ในปัญหาต่างๆ มากมาย ตัวอย่างการประยุกต์ใช้ทั่วไป ได้แก่:
ความโดดเด่นในฐานะปัญหาการแบ่งส่วน
การประมาณค่าความโดดเด่นอาจมองได้ว่าเป็นตัวอย่างหนึ่งของ การแบ่งส่วนภาพ ใน คอมพิวเตอร์วิชั่น การแบ่งส่วนภาพคือกระบวนการแบ่ง ภาพดิจิทัล ออกเป็นหลายส่วน (ชุดของพิกเซล หรือที่เรียกว่าซูเปอร์พิกเซล )...
ตัวอย่างการใช้งาน
ขั้นแรก เราควรคำนวณระยะห่างของแต่ละพิกเซลกับพิกเซลอื่นๆ ในเฟรมเดียวกัน: