แผนที่ความโดดเด่น

Q: ข้อมูลสำคัญเกี่ยวกับ แผนที่ความโดดเด่น

ในคอมพิวเตอร์วิชั่นแผนที่ความเด่นชัดคือภาพที่เน้นบริเวณที่ดวงตาของผู้คนโฟกัสเป็นอันดับแรก หรือบริเวณที่เกี่ยวข้องมากที่สุดสำหรับโมเดลการเรียนรู้ของเครื่อง

ในคอมพิวเตอร์วิชั่นแผนที่ความเด่นชัดคือภาพที่เน้นบริเวณที่ดวงตาของผู้คนโฟกัสเป็นอันดับแรก หรือบริเวณที่เกี่ยวข้องมากที่สุดสำหรับโมเดลการเรียนรู้ของเครื่อง [ ^{1 ] เป้าหมาย}ของแผนที่ความเด่นชัดคือการสะท้อนระดับความสำคัญของพิกเซลต่อระบบการมองเห็น ของมนุษย์ หรือโมเดล ML ที่ไม่โปร่งใส

ตัวอย่างเช่น ในภาพนี้ บุคคลนั้นมองไปที่ป้อมปราการและเมฆสีอ่อนก่อน ดังนั้นสิ่งเหล่านั้นควรถูกเน้นให้เห็นเด่นชัดบนแผนที่ความโดดเด่น (saliency map)

แอปพลิเคชัน

ภาพรวม

แผนที่ความโดดเด่น (Saliency maps) มีการประยุกต์ใช้ในปัญหาต่างๆ มากมาย ตัวอย่างการประยุกต์ใช้ทั่วไป ได้แก่:

ดวงตาของมนุษย์

การบีบ อัดภาพและวิดีโอ : ดวงตาของมนุษย์จะโฟกัสเฉพาะบริเวณที่สนใจ เล็กๆ ในเฟรมเท่านั้น ดังนั้นจึงไม่จำเป็นต้องบีบอัดทั้งเฟรมด้วยคุณภาพที่สม่ำเสมอ ตามที่ผู้เขียนกล่าว การใช้แผนที่ความโดดเด่นจะช่วยลดขนาดสุดท้ายของวิดีโอโดยที่การรับรู้ทางสายตายังคงเหมือนเดิม^{[ 2 ]}
การประเมินคุณภาพ ของภาพและวิดีโอ : งานหลักของ ตัวชี้วัด คุณภาพของภาพหรือวิดีโอคือความสัมพันธ์ ที่สูง กับความคิดเห็นของผู้ใช้ ความแตกต่างในบริเวณที่โดดเด่นจะได้รับความสำคัญมากขึ้นและส่งผลต่อคะแนนคุณภาพมากขึ้น^{[ 3 ]}
การปรับขนาดภาพใหม่ : มีเป้าหมายเพื่อปรับขนาดภาพโดยการขยายหรือย่อพื้นที่ที่ไม่ให้ข้อมูล ดังนั้นอัลกอริธึมการปรับขนาดภาพใหม่จึงอาศัยแผนที่ความเด่นชัดที่ประเมินรายละเอียดภาพที่โดดเด่นทั้งหมดได้อย่างแม่นยำ^{[ 4 ]}
การตรวจจับ และการจดจำ วัตถุ : แทนที่จะใช้อัลกอริธึมที่ซับซ้อนในการคำนวณกับภาพทั้งหมด เราสามารถใช้อัลกอริธึมดังกล่าวกับบริเวณที่โดดเด่นที่สุดของภาพซึ่งมีแนวโน้มที่จะมีวัตถุอยู่^{[ 5 ]}
คอร์ เทกซ์การมองเห็นหลัก(V1) ดูเหมือนจะมีหน้าที่รับผิดชอบแผนที่ความเด่นชัด ตามสมมติฐานความเด่นชัดของ V1 ^{[ 6 ]}

ปัญญาประดิษฐ์ที่อธิบายได้

แผนที่ความเด่นชัดเป็นเครื่องมือที่โดดเด่นในปัญญาประดิษฐ์ที่อธิบายได้ [ ⁷^]ซึ่งให้คำอธิบายด้วยภาพของกระบวนการตัดสินใจของ แบบจำลองการ ^{เรียน} รู้ของ เครื่องโดยเฉพาะอย่างยิ่งเครือข่ายประสาทเทียมเชิงลึกแผนที่เหล่านี้เน้นบริเวณในข้อมูลอินพุตที่มีอิทธิพลมากที่สุดต่อเอาต์พุตของแบบจำลอง ซึ่งบ่งชี้อย่างมีประสิทธิภาพว่าแบบจำลองกำลัง "มอง" ไปที่ใดเมื่อทำการทำนาย ตัวอย่างเช่น ในงานการจำแนกภาพ แผนที่ความเด่นชัดสามารถระบุพิกเซลหรือบริเวณที่มีส่วนร่วมมากที่สุดในการตัดสินใจคลาสเฉพาะ เทคนิคการสร้างแผนที่ความเด่นชัดที่พัฒนาขึ้นสำหรับเครือข่ายประสาทเทียมแบบคอนโวลูชันมีตั้งแต่การใช้เกรเดียนต์ของคะแนนคลาสเทียบกับข้อมูลอินพุตไปจนถึงอัลกอริทึมที่ซับซ้อนกว่า เช่น เกรเดียนต์แบบบูรณาการ^{[ 8 ]}และการสร้างแผนที่การเปิดใช้งานคลาส^{[ 7 ]}ในสถาปัตยกรรมทรานส์ฟอร์เม อ ร์ กลไก ความสนใจนำไปสู่แผนที่ความเด่นชัดที่คล้ายคลึงกัน เช่น แผนที่ความสนใจ^{[ 9 ]}โรลเอาต์ความสนใจ^{[ 10 ]}และแผนที่ความสนใจที่จำแนกคลาส^{[ 11 ]}

ความโดดเด่นในฐานะปัญหาการแบ่งส่วน

การประมาณค่าความโดดเด่นอาจมองได้ว่าเป็นตัวอย่างหนึ่งของการแบ่งส่วนภาพในคอมพิวเตอร์วิชั่นการแบ่งส่วนภาพคือกระบวนการแบ่งภาพดิจิทัลออกเป็นหลายส่วน (ชุดของพิกเซล หรือที่เรียกว่าซูเปอร์พิกเซล ) เป้าหมายของการแบ่งส่วนคือการทำให้ภาพง่ายขึ้นและ/หรือเปลี่ยนการแสดงภาพให้เป็นสิ่งที่เข้าใจง่ายขึ้นและวิเคราะห์ได้ง่ายขึ้น โดยทั่วไปการแบ่งส่วนภาพจะใช้เพื่อระบุตำแหน่งของวัตถุและขอบเขต (เส้น เส้นโค้ง ฯลฯ) ในภาพ กล่าวโดยละเอียด การแบ่งส่วนภาพคือกระบวนการกำหนดป้ายกำกับให้กับทุกพิกเซลในภาพ โดยที่พิกเซลที่มีป้ายกำกับเดียวกันจะมีลักษณะร่วมกัน^{[ 12 ]}

อัลกอริทึม

ภาพรวม

มีอัลกอริธึมการประมาณความโดดเด่นแบบคลาสสิกสามรูปแบบที่นำมาใช้ในOpenCV :

การระบุจุดสนใจแบบคงที่: อาศัยคุณลักษณะและสถิติของภาพเพื่อระบุตำแหน่งบริเวณที่สนใจในภาพ
ความโดดเด่นของการเคลื่อนไหว: อาศัยการเคลื่อนไหวในวิดีโอ ซึ่งตรวจจับได้ด้วยวิธีการไหลของแสง (optical flow ) วัตถุที่เคลื่อนไหวจะถูกพิจารณาว่ามีความโดดเด่น
ความเป็นวัตถุ: ความเป็นวัตถุสะท้อนถึงโอกาสที่หน้าต่างภาพจะครอบคลุมวัตถุ อัลกอริทึมเหล่านี้สร้างชุดกรอบสี่เหลี่ยมที่ระบุตำแหน่งที่วัตถุอาจอยู่ภายในภาพ

นอกเหนือจากวิธีการแบบดั้งเดิมแล้ววิธีการที่ใช้โครงข่ายประสาทเทียมก็ได้รับความนิยมเช่นกัน ตัวอย่างของโครงข่ายประสาทเทียมสำหรับการประมาณความโดดเด่นของการเคลื่อนไหวมีดังนี้:

TASED-Net : ประกอบด้วยส่วนประกอบหลักสองส่วน ส่วนแรกคือเครือข่ายเข้ารหัส (encoder network)ที่ดึงคุณลักษณะเชิงพื้นที่และเวลาที่มีความละเอียดต่ำออกมา จากนั้นเครือข่ายทำนาย (prediction network) จะถอดรหัสคุณลักษณะที่เข้ารหัสเชิงพื้นที่เหล่านั้น พร้อมทั้งรวบรวมข้อมูลเชิงเวลาทั้งหมดเข้าด้วยกัน
STRA-Net : เน้นสองประเด็นสำคัญ ประการแรก คุณลักษณะเชิงพื้นที่และเวลาบูรณาการผ่านการเชื่อมโยงลักษณะที่ปรากฏและการไหลของแสงและประการที่สอง การเรียนรู้ความโดดเด่นในหลายระดับผ่านกลไกความสนใจ
STAViS : เป็นระบบที่ผสานรวมข้อมูลภาพและเสียงเชิงพื้นที่และเวลา วิธีการนี้ใช้เครือข่ายเดียวในการเรียนรู้ที่จะระบุตำแหน่งแหล่งกำเนิดเสียงและผสานความโดดเด่นทั้งสองเข้าด้วยกันเพื่อให้ได้แผนที่ความโดดเด่นขั้นสุดท้าย

มีการค้นพบ ความโดดเด่นแบบคงที่แบบใหม่ในเอกสารวิชาการที่มีชื่อว่า ความไวต่อการบิดเบือนภาพ ^{[ 13 ]} โดยอิงจากแนวคิดที่ว่าขอบที่แท้จริง เช่น เส้นขอบของวัตถุ มีความโดดเด่นมากกว่าบริเวณที่มีพื้นผิวซับซ้อนอื่นๆ วิธีการตรวจจับขอบจะแตกต่างจากอัลกอริธึม การตรวจจับขอบ แบบคลาสสิก โดยใช้เกณฑ์ค่าความชันที่ค่อนข้างต่ำเพื่อพิจารณาเพียงแค่การมีอยู่ของค่าความชัน ดังนั้นจึงได้แผนที่ไบนารี 4 แผนที่สำหรับทิศทางแนวตั้ง แนวนอน และแนวทแยงสองทิศทาง มีการใช้การปิดและการเปิดทางสัณฐานวิทยา (morphological closing and opening) กับภาพไบนารีเพื่อปิดช่องว่างเล็กๆ และใช้การแปลงระยะทาง (distance transform ) เพื่อกำจัดรูปร่างคล้ายก้อน ท้ายที่สุดแล้ว กลุ่มพิกเซลที่เชื่อมต่อกันก็คือขอบแต่ละอัน (หรือเส้นขอบ) มีการใช้เกณฑ์ขนาดของชุดพิกเซลที่เชื่อมต่อกันเพื่อกำหนดว่าบล็อกภาพมีขอบที่มองเห็นได้ (บริเวณที่โดดเด่น) หรือไม่

ตัวอย่างการใช้งาน

ขั้นแรก เราควรคำนวณระยะห่างของแต่ละพิกเซลกับพิกเซลอื่นๆ ในเฟรมเดียวกัน:

\mathrm {SALS} (I_{k})=\sum _{i=1}^{N}|I_{k}-I_{i}|

$I_{i}$ คือค่าของพิกเซลซึ่งอยู่ในช่วง [0,255] สมการต่อไปนี้คือรูปแบบที่ขยายของสมการนี้ $i$

SALS(I k) = | I k - I 1 | + | I k - I 2 | + ... + | I k - I N |

โดยที่ N คือจำนวนพิกเซลทั้งหมดในเฟรมปัจจุบัน จากนั้นเราสามารถปรับโครงสร้างสูตรของเราได้อีก โดยเราจะนำค่าที่มีค่า I เดียวกันมารวมกัน

SALS(I k) = Σ F n \times | I k - I n |

โดยที่ $F n$ คือความถี่ของ $I n$ และค่าของ n อยู่ในช่วง [0,255] ความถี่จะแสดงในรูปแบบฮิสโตแกรมและเวลาในการคำนวณฮิสโตแกรมคือ ความ ซับซ้อนของ $O(N)$ เวลา

ความซับซ้อนเชิงเวลา

อัลกอริทึมแผนที่ความเด่นชัดนี้มี⁠ ⁠ $O(N)$ ความซับซ้อนของเวลาเนื่องจากเวลาในการคำนวณฮิสโตแกรมคือ⁠ ⁠ $O(N)$ ความซับซ้อนของเวลา โดยที่ N คือจำนวนพิกเซลของเฟรม นอกจากนี้ ส่วนลบและส่วนคูณของสมการนี้ต้องใช้การดำเนินการ 256 ครั้ง ดังนั้น ความซับซ้อนของเวลาของอัลกอริทึมนี้คือ⁠ ⁠ $O(N+256)$ ซึ่ง เท่ากับ⁠ ⁠ $O(N)$

รหัสเทียม

โค้ดทั้งหมดต่อไปนี้เป็น โค้ด MATLAB แบบจำลอง ขั้นแรก ให้อ่านข้อมูลจากลำดับวิดีโอ

สำหรับk = 2 : 1 : 13 % ซึ่งหมายถึงตั้งแต่เฟรมที่ 2 ถึง 13 และในแต่ละรอบ ค่าของ K จะเพิ่มขึ้นหนึ่งI = imread ( currentfilename ); % อ่านเฟรมปัจจุบันI1 = im2single ( I ); % แปลงภาพคู่เป็นภาพเดี่ยว (ข้อกำหนดของคำสั่ง vlslic) l = imread ( previousfilename ); % อ่านเฟรมก่อนหน้าI2 = im2single ( l ); regionSize = 10 ; % ตั้งค่าพารามิเตอร์ของ SLIC การตั้งค่าพารามิเตอร์นี้เป็นผลการทดลอง RegionSize หมายถึงขนาดของ superpixel regularizer = 1 ; % ตั้งค่าพารามิเตอร์ของ SLIC segments1 = vl_slic ( I1 , regionSize , regularizer ); % รับ superpixel ของเฟรมปัจจุบันsegments2 = vl_slic ( I2 , regionSize , regularizer ); % รับ superpixel ของเฟรมก่อนหน้าnumsuppix = max ( segments1 (:)); % รับจำนวนซูเปอร์พิกเซล ข้อมูลทั้งหมดเกี่ยวกับซูเปอร์พิกเซลอยู่ในลิงก์นี้ [http://www.vlfeat.org/overview/slic.html] regstats1 = regionprops ( segments1 , ' all ' ); regstats2 = regionprops ( segments2 , ' all ' ); % รับคุณลักษณะของภูมิภาคโดยอิงจาก segments1

หลังจากอ่านข้อมูลแล้ว เราจะทำการประมวลผลซูเปอร์พิกเซลให้กับแต่ละเฟรม โดย Spnum1 และ Spnum2 จะแทนหมายเลขพิกเซลของเฟรมปัจจุบันและเฟรมก่อนหน้า

% ขั้นแรก เราคำนวณระยะห่างระหว่างพิกเซลแต่ละพิกเซล% นี่คือโค้ดหลักของเราสำหรับi = 1 : 1 : spnum1 % จากพิกเซลแรกถึงพิกเซลสุดท้าย และในแต่ละรอบ i++ สำหรับj = 1 : 1 : spnum2 % จากพิกเซลแรกถึงพิกเซลสุดท้าย j++ เฟรมก่อนหน้าcentredist ( i : j ) = sum (( center ( i ) - center ( j ))); % คำนวณระยะห่างของจุดศูนย์กลางend end

จากนั้นเราจะคำนวณระยะห่างของสีระหว่างพิกเซลแต่ละพิกเซล กระบวนการนี้เราเรียกว่าฟังก์ชันความสอดคล้อง (Contract Function)

for i = 1 : 1 : spnum1 % จากพิกเซลแรกของเฟรมปัจจุบันถึงพิกเซลสุดท้าย I ++ for j = 1 : 1 : spnum2 % จากพิกเซลแรกของเฟรมก่อนหน้าถึงพิกเซลสุดท้าย J++ posdiff ( i , j ) = sum (( regstats1 ( j ). Centroid ' - mupwtd (:, i ))); % คำนวณระยะห่างของสีend end

หลังจากดำเนินการสองขั้นตอนเสร็จแล้ว เราจะได้แผนที่ความโดดเด่น (saliency map) จากนั้นจะจัดเก็บแผนที่ทั้งหมดเหล่านี้ไว้ในโฟลเดอร์ไฟล์ใหม่

ความแตกต่างในอัลกอริทึม

ความแตกต่างหลักระหว่างฟังก์ชันที่หนึ่งและฟังก์ชันที่สองคือความแตกต่างของฟังก์ชันการทำสัญญา หาก spnum1 และ spnum2 แทนหมายเลขพิกเซลของเฟรมปัจจุบัน ฟังก์ชันการทำสัญญานี้จะใช้สำหรับฟังก์ชันความเด่นชัดแรก หาก spnum1 คือหมายเลขพิกเซลของเฟรมปัจจุบันและ spnum2 แทนหมายเลขพิกเซลของเฟรมก่อนหน้า ฟังก์ชันการทำสัญญานี้จะใช้สำหรับฟังก์ชันความเด่นชัดที่สอง หากเราใช้ฟังก์ชันการทำสัญญาที่สองซึ่งใช้พิกเซลของเฟรมเดียวกันเพื่อหาค่าระยะห่างจากจุดศูนย์กลางเพื่อสร้างแผนที่ความเด่นชัด จากนั้นเราจะใช้ฟังก์ชันความเด่นชัดนี้กับแต่ละเฟรมและใช้แผนที่ความเด่นชัดของเฟรมปัจจุบันลบด้วยแผนที่ความเด่นชัดของเฟรมก่อนหน้าเพื่อสร้างภาพใหม่ซึ่งเป็นผลลัพธ์ความเด่นชัดใหม่ของฟังก์ชันความเด่นชัดที่สาม

ชุดข้อมูล

ชุดข้อมูลความโดดเด่นมักประกอบด้วยการเคลื่อนไหวของดวงตาของมนุษย์บนลำดับภาพต่างๆ ชุดข้อมูลนี้มีค่าสำหรับการสร้างอัลกอริทึมความโดดเด่นใหม่หรือการเปรียบเทียบประสิทธิภาพของอัลกอริทึมที่มีอยู่ พารามิเตอร์ของชุดข้อมูลที่มีค่ามากที่สุดคือความละเอียดเชิงพื้นที่ ขนาด และ อุปกรณ์ ติดตามดวงตานี่คือส่วนหนึ่งของตารางชุดข้อมูลขนาดใหญ่จาก ชุดข้อมูลมาตรฐานความโดดเด่น ของ MIT/Tübingen

ชุดข้อมูลความโดดเด่น
ชุดข้อมูล	ปณิธาน	ขนาด	ผู้สังเกตการณ์	ระยะเวลา	เครื่องติดตามดวงตา
แคท2000	1920×1080 พิกเซล	4000 ภาพ	24	5 วินาที	EyeLink 1000 (1000 เฮิรตซ์)
อายแทร็กยูเอวี2	1280×720 พิกเซล	วิดีโอ 43 รายการ	30	33 วินาที	EyeLink 1000 Plus (1000 เฮิรตซ์, กล้องสองตา)
โครว์ดไฟซ์	1280×720 พิกเซล	วิดีโอ 434 รายการ	26	1–3 วินาที	อุปกรณ์ติดตามการเคลื่อนไหวของดวงตา Eyetribe (60 Hz)
ซาวัม	1920×1080 พิกเซล	วิดีโอ 43 รายการ	50	20 วินาที	SMI iViewXTM ความเร็วสูง 1250 (500 เฮิรตซ์)

ในการเก็บรวบรวมชุดข้อมูลความโดดเด่น (saliency dataset) จำเป็นต้องเตรียมภาพหรือวิดีโอและอุปกรณ์ติดตามการเคลื่อนไหวของดวงตา และต้องเชิญผู้สังเกตการณ์ ผู้สังเกตการณ์ต้องมีสายตาปกติหรือได้รับการแก้ไขให้เป็นปกติ และต้องอยู่ห่างจากหน้าจอในระยะเดียวกัน ในตอนเริ่มต้นของการบันทึกแต่ละครั้ง อุปกรณ์ติดตามการเคลื่อนไหวของดวงตาจะทำการปรับเทียบใหม่ โดยผู้สังเกตการณ์จะต้องจ้องมองไปที่กึ่งกลางหน้าจอ จากนั้นจึงเริ่มการบันทึก และเก็บรวบรวมข้อมูลความโดดเด่นโดยการแสดงลำดับภาพหรือวิดีโอและบันทึกการจ้องมองของดวงตา

อุปกรณ์ติดตามการเคลื่อนไหวของดวงตาเป็นกล้องความเร็วสูงที่สามารถบันทึกการเคลื่อนไหวของดวงตาได้อย่างน้อย 250 เฟรมต่อวินาทีภาพจากกล้องจะถูกประมวลผลโดยซอฟต์แวร์ที่ทำงานบนคอมพิวเตอร์เฉพาะ เพื่อส่งคืนข้อมูลการมอง

ดูเพิ่มเติม

ลิงก์ภายนอก

Zhai, Yun; Shah, Mubarak (2006-10-23). "การตรวจจับความสนใจทางสายตาในลำดับวิดีโอโดยใช้เบาะแสเชิงพื้นที่และเวลา". รายงานการประชุมนานาชาติ ACM ครั้งที่ 14 ว่าด้วยมัลติมีเดีย MM '06. นิวยอร์ก, นิวยอร์ก, สหรัฐอเมริกา: ACM. หน้า 815–824 . CiteSeerX 10.1.1.80.4848 . doi : 10.1145/1180639.1180824 . ISBN 978-1595934475. S2CID 5219826 .
VLfeat: https://www.vlfeat.org/
แผนที่ความโดดเด่นในScholarpedia

1 ] เป้าหมาย

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

7

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

แผนที่ความโดดเด่น

แอปพลิเคชัน

ภาพรวม

ดวงตาของมนุษย์

ปัญญาประดิษฐ์ที่อธิบายได้

ความโดดเด่นในฐานะปัญหาการแบ่งส่วน

อัลกอริทึม

ภาพรวม

ตัวอย่างการใช้งาน

ความซับซ้อนเชิงเวลา

รหัสเทียม

ความแตกต่างในอัลกอริทึม

ชุดข้อมูล

ดูเพิ่มเติม

ลิงก์ภายนอก

ข้อมูลสำคัญจากบทความ