กลับไปหน้าบทความ

อ่าน 6 นาที

แผนที่ความโดดเด่น

ในคอมพิวเตอร์วิชั่นแผนที่ความเด่นชัดคือภาพที่เน้นบริเวณที่ดวงตาของผู้คนโฟกัสเป็นอันดับแรก หรือบริเวณที่เกี่ยวข้องมากที่สุดสำหรับโมเดลการเรียนรู้ของเครื่อง

แผนที่ความโดดเด่น

ภาพมุมมองของป้อมปราการมาร์บูร์ก (ประเทศเยอรมนี) และแผนที่แสดงความโดดเด่นของภาพโดยใช้สี ความเข้ม และทิศทาง

ในคอมพิวเตอร์วิชั่นแผนที่ความเด่นชัดคือภาพที่เน้นบริเวณที่ดวงตาของผู้คนโฟกัสเป็นอันดับแรก หรือบริเวณที่เกี่ยวข้องมากที่สุดสำหรับโมเดลการเรียนรู้ของเครื่อง [ 1 ] เป้าหมายของแผนที่ความเด่นชัดคือการสะท้อนระดับความสำคัญของพิกเซลต่อระบบการมองเห็น ของมนุษย์ หรือโมเดล ML ที่ไม่โปร่งใส

ตัวอย่างเช่น ในภาพนี้ บุคคลนั้นมองไปที่ป้อมปราการและเมฆสีอ่อนก่อน ดังนั้นสิ่งเหล่านั้นควรถูกเน้นให้เห็นเด่นชัดบนแผนที่ความโดดเด่น (saliency map)

แอปพลิเคชัน

ภาพรวม

แผนที่ความโดดเด่น (Saliency maps) มีการประยุกต์ใช้ในปัญหาต่างๆ มากมาย ตัวอย่างการประยุกต์ใช้ทั่วไป ได้แก่:

ดวงตาของมนุษย์

  • การบีบ อัดภาพและวิดีโอ : ดวงตาของมนุษย์จะโฟกัสเฉพาะบริเวณที่สนใจ เล็กๆ ในเฟรมเท่านั้น ดังนั้นจึงไม่จำเป็นต้องบีบอัดทั้งเฟรมด้วยคุณภาพที่สม่ำเสมอ ตามที่ผู้เขียนกล่าว การใช้แผนที่ความโดดเด่นจะช่วยลดขนาดสุดท้ายของวิดีโอโดยที่การรับรู้ทางสายตายังคงเหมือนเดิม[ 2 ]
  • การประเมินคุณภาพ ของภาพและวิดีโอ : งานหลักของ ตัวชี้วัด คุณภาพของภาพหรือวิดีโอคือความสัมพันธ์ ที่สูง กับความคิดเห็นของผู้ใช้ ความแตกต่างในบริเวณที่โดดเด่นจะได้รับความสำคัญมากขึ้นและส่งผลต่อคะแนนคุณภาพมากขึ้น[ 3 ]
  • การปรับขนาดภาพใหม่ : มีเป้าหมายเพื่อปรับขนาดภาพโดยการขยายหรือย่อพื้นที่ที่ไม่ให้ข้อมูล ดังนั้นอัลกอริธึมการปรับขนาดภาพใหม่จึงอาศัยแผนที่ความเด่นชัดที่ประเมินรายละเอียดภาพที่โดดเด่นทั้งหมดได้อย่างแม่นยำ[ 4 ]
  • การตรวจจับ และการจดจำวัตถุ : แทนที่จะใช้อัลกอริธึมที่ซับซ้อนในการคำนวณกับภาพทั้งหมด เราสามารถใช้อัลกอริธึมดังกล่าวกับบริเวณที่โดดเด่นที่สุดของภาพซึ่งมีแนวโน้มที่จะมีวัตถุอยู่[ 5 ]
  • คอร์ เทกซ์การมองเห็นหลัก(V1) ดูเหมือนจะมีหน้าที่รับผิดชอบแผนที่ความเด่นชัด ตามสมมติฐานความเด่นชัดของ V1 [ 6 ]

ปัญญาประดิษฐ์ที่อธิบายได้

แผนที่ความเด่นชัดเป็นเครื่องมือที่โดดเด่นในปัญญาประดิษฐ์ที่อธิบายได้ [ 7 ]ซึ่งให้คำอธิบายด้วยภาพของกระบวนการตัดสินใจของ แบบจำลองการ เรียน รู้ของ เครื่องโดยเฉพาะอย่างยิ่งเครือข่ายประสาทเทียมเชิงลึกแผนที่เหล่านี้เน้นบริเวณในข้อมูลอินพุตที่มีอิทธิพลมากที่สุดต่อเอาต์พุตของแบบจำลอง ซึ่งบ่งชี้อย่างมีประสิทธิภาพว่าแบบจำลองกำลัง "มอง" ไปที่ใดเมื่อทำการทำนาย ตัวอย่างเช่น ในงานการจำแนกภาพ แผนที่ความเด่นชัดสามารถระบุพิกเซลหรือบริเวณที่มีส่วนร่วมมากที่สุดในการตัดสินใจคลาสเฉพาะ เทคนิคการสร้างแผนที่ความเด่นชัดที่พัฒนาขึ้นสำหรับเครือข่ายประสาทเทียมแบบคอนโวลูชันมีตั้งแต่การใช้เกรเดียนต์ของคะแนนคลาสเทียบกับข้อมูลอินพุตไปจนถึงอัลกอริทึมที่ซับซ้อนกว่า เช่น เกรเดียนต์แบบบูรณาการ[ 8 ]และการสร้างแผนที่การเปิดใช้งานคลาส[ 7 ]ในสถาปัตยกรรมทรานส์ฟอร์เม อ ร์ กลไก ความสนใจนำไปสู่แผนที่ความเด่นชัดที่คล้ายคลึงกัน เช่น แผนที่ความสนใจ[ 9 ]โรลเอาต์ความสนใจ[ 10 ]และแผนที่ความสนใจที่จำแนกคลาส[ 11 ]

ความโดดเด่นในฐานะปัญหาการแบ่งส่วน

การประมาณค่าความโดดเด่นอาจมองได้ว่าเป็นตัวอย่างหนึ่งของการแบ่งส่วนภาพในคอมพิวเตอร์วิชั่นการแบ่งส่วนภาพคือกระบวนการแบ่งภาพดิจิทัลออกเป็นหลายส่วน (ชุดของพิกเซล หรือที่เรียกว่าซูเปอร์พิกเซล ) เป้าหมายของการแบ่งส่วนคือการทำให้ภาพง่ายขึ้นและ/หรือเปลี่ยนการแสดงภาพให้เป็นสิ่งที่เข้าใจง่ายขึ้นและวิเคราะห์ได้ง่ายขึ้น โดยทั่วไปการแบ่งส่วนภาพจะใช้เพื่อระบุตำแหน่งของวัตถุและขอบเขต (เส้น เส้นโค้ง ฯลฯ) ในภาพ กล่าวโดยละเอียด การแบ่งส่วนภาพคือกระบวนการกำหนดป้ายกำกับให้กับทุกพิกเซลในภาพ โดยที่พิกเซลที่มีป้ายกำกับเดียวกันจะมีลักษณะร่วมกัน[ 12 ]

อัลกอริทึม

ภาพรวม

มีอัลกอริธึมการประมาณความโดดเด่นแบบคลาสสิกสามรูปแบบที่นำมาใช้ในOpenCV :

  • การระบุจุดสนใจแบบคงที่: อาศัยคุณลักษณะและสถิติของภาพเพื่อระบุตำแหน่งบริเวณที่สนใจในภาพ
  • ความโดดเด่นของการเคลื่อนไหว: อาศัยการเคลื่อนไหวในวิดีโอ ซึ่งตรวจจับได้ด้วยวิธีการไหลของแสง (optical flow ) วัตถุที่เคลื่อนไหวจะถูกพิจารณาว่ามีความโดดเด่น
  • ความเป็นวัตถุ: ความเป็นวัตถุสะท้อนถึงโอกาสที่หน้าต่างภาพจะครอบคลุมวัตถุ อัลกอริทึมเหล่านี้สร้างชุดกรอบสี่เหลี่ยมที่ระบุตำแหน่งที่วัตถุอาจอยู่ภายในภาพ

นอกเหนือจากวิธีการแบบดั้งเดิมแล้ววิธีการที่ใช้โครงข่ายประสาทเทียมก็ได้รับความนิยมเช่นกัน ตัวอย่างของโครงข่ายประสาทเทียมสำหรับการประมาณความโดดเด่นของการเคลื่อนไหวมีดังนี้:

  • TASED-Net : ประกอบด้วยส่วนประกอบหลักสองส่วน ส่วนแรกคือเครือข่ายเข้ารหัส (encoder network)ที่ดึงคุณลักษณะเชิงพื้นที่และเวลาที่มีความละเอียดต่ำออกมา จากนั้นเครือข่ายทำนาย (prediction network) จะถอดรหัสคุณลักษณะที่เข้ารหัสเชิงพื้นที่เหล่านั้น พร้อมทั้งรวบรวมข้อมูลเชิงเวลาทั้งหมดเข้าด้วยกัน
  • STRA-Net : เน้นสองประเด็นสำคัญ ประการแรก คุณลักษณะเชิงพื้นที่และเวลาบูรณาการผ่านการเชื่อมโยงลักษณะที่ปรากฏและการไหลของแสงและประการที่สอง การเรียนรู้ความโดดเด่นในหลายระดับผ่านกลไกความสนใจ
  • STAViS : เป็นระบบที่ผสานรวมข้อมูลภาพและเสียงเชิงพื้นที่และเวลา วิธีการนี้ใช้เครือข่ายเดียวในการเรียนรู้ที่จะระบุตำแหน่งแหล่งกำเนิดเสียงและผสานความโดดเด่นทั้งสองเข้าด้วยกันเพื่อให้ได้แผนที่ความโดดเด่นขั้นสุดท้าย

มีการค้นพบ ความโดดเด่นแบบคงที่แบบใหม่ในเอกสารวิชาการที่มีชื่อว่า ความไวต่อการบิดเบือนภาพ [ 13 ] โดยอิงจากแนวคิดที่ว่าขอบที่แท้จริง เช่น เส้นขอบของวัตถุ มีความโดดเด่นมากกว่าบริเวณที่มีพื้นผิวซับซ้อนอื่นๆ วิธีการตรวจจับขอบจะแตกต่างจากอัลกอริธึม การตรวจจับขอบ แบบคลาสสิก โดยใช้เกณฑ์ค่าความชันที่ค่อนข้างต่ำเพื่อพิจารณาเพียงแค่การมีอยู่ของค่าความชัน ดังนั้นจึงได้แผนที่ไบนารี 4 แผนที่สำหรับทิศทางแนวตั้ง แนวนอน และแนวทแยงสองทิศทาง มีการใช้การปิดและการเปิดทางสัณฐานวิทยา (morphological closing and opening) กับภาพไบนารีเพื่อปิดช่องว่างเล็กๆ และใช้การแปลงระยะทาง (distance transform ) เพื่อกำจัดรูปร่างคล้ายก้อน ท้ายที่สุดแล้ว กลุ่มพิกเซลที่เชื่อมต่อกันก็คือขอบแต่ละอัน (หรือเส้นขอบ) มีการใช้เกณฑ์ขนาดของชุดพิกเซลที่เชื่อมต่อกันเพื่อกำหนดว่าบล็อกภาพมีขอบที่มองเห็นได้ (บริเวณที่โดดเด่น) หรือไม่

ตัวอย่างการใช้งาน

ขั้นแรก เราควรคำนวณระยะห่างของแต่ละพิกเซลกับพิกเซลอื่นๆ ในเฟรมเดียวกัน:

คือค่าของพิกเซลซึ่งอยู่ในช่วง [0,255] สมการต่อไปนี้คือรูปแบบที่ขยายของสมการนี้

SALS( I k ) = | I k - I 1 | + | I k - I 2 | + ... + | I k - I N |

โดยที่ N คือจำนวนพิกเซลทั้งหมดในเฟรมปัจจุบัน จากนั้นเราสามารถปรับโครงสร้างสูตรของเราได้อีก โดยเราจะนำค่าที่มีค่า I เดียวกันมารวมกัน

SALS( I k ) = Σ F n × | I k - I n |

โดยที่F nคือความถี่ของI nและค่าของ n อยู่ในช่วง [0,255] ความถี่จะแสดงในรูปแบบฮิสโตแกรมและเวลาในการคำนวณฮิสโตแกรมคือ ความ ซับซ้อนของเวลา

ความซับซ้อนเชิงเวลา

อัลกอริทึมแผนที่ความเด่นชัดนี้มี⁠ ⁠ ความซับซ้อนของเวลาเนื่องจากเวลาในการคำนวณฮิสโตแกรมคือ⁠ ⁠ความซับซ้อนของเวลา โดยที่ N คือจำนวนพิกเซลของเฟรม นอกจากนี้ ส่วนลบและส่วนคูณของสมการนี้ต้องใช้การดำเนินการ 256 ครั้ง ดังนั้น ความซับซ้อนของเวลาของอัลกอริทึมนี้คือ⁠ ⁠ซึ่ง เท่ากับ⁠ ⁠

รหัสเทียม

โค้ดทั้งหมดต่อไปนี้เป็น โค้ด MATLAB แบบจำลอง ขั้นแรก ให้อ่านข้อมูลจากลำดับวิดีโอ

สำหรับk = 2 : 1 : 13 % ซึ่งหมายถึงตั้งแต่เฟรมที่ 2 ถึง 13 และในแต่ละรอบ ค่าของ K จะเพิ่มขึ้นหนึ่งI = imread ( currentfilename ); % อ่านเฟรมปัจจุบันI1 = im2single ( I ); % แปลงภาพคู่เป็นภาพเดี่ยว (ข้อกำหนดของคำสั่ง vlslic) l = imread ( previousfilename ); % อ่านเฟรมก่อนหน้าI2 = im2single ( l ); regionSize = 10 ; % ตั้งค่าพารามิเตอร์ของ SLIC การตั้งค่าพารามิเตอร์นี้เป็นผลการทดลอง RegionSize หมายถึงขนาดของ superpixel regularizer = 1 ; % ตั้งค่าพารามิเตอร์ของ SLIC segments1 = vl_slic ( I1 , regionSize , regularizer ); % รับ superpixel ของเฟรมปัจจุบันsegments2 = vl_slic ( I2 , regionSize , regularizer ); % รับ superpixel ของเฟรมก่อนหน้าnumsuppix = max ( segments1 (:)); % รับจำนวนซูเปอร์พิกเซล ข้อมูลทั้งหมดเกี่ยวกับซูเปอร์พิกเซลอยู่ในลิงก์นี้ [http://www.vlfeat.org/overview/slic.html] regstats1 = regionprops ( segments1 , ' all ' ); regstats2 = regionprops ( segments2 , ' all ' ); % รับคุณลักษณะของภูมิภาคโดยอิงจาก segments1

หลังจากอ่านข้อมูลแล้ว เราจะทำการประมวลผลซูเปอร์พิกเซลให้กับแต่ละเฟรม โดย Spnum1 และ Spnum2 จะแทนหมายเลขพิกเซลของเฟรมปัจจุบันและเฟรมก่อนหน้า

% ขั้นแรก เราคำนวณระยะห่างระหว่างพิกเซลแต่ละพิกเซล% นี่คือโค้ดหลักของเราสำหรับi = 1 : 1 : spnum1 % จากพิกเซลแรกถึงพิกเซลสุดท้าย และในแต่ละรอบ i++ สำหรับj = 1 : 1 : spnum2 % จากพิกเซลแรกถึงพิกเซลสุดท้าย j++ เฟรมก่อนหน้าcentredist ( i : j ) = sum (( center ( i ) - center ( j ))); % คำนวณระยะห่างของจุดศูนย์กลางend end

จากนั้นเราจะคำนวณระยะห่างของสีระหว่างพิกเซลแต่ละพิกเซล กระบวนการนี้เราเรียกว่าฟังก์ชันความสอดคล้อง (Contract Function)

for i = 1 : 1 : spnum1 % จากพิกเซลแรกของเฟรมปัจจุบันถึงพิกเซลสุดท้าย I ++ for j = 1 : 1 : spnum2 % จากพิกเซลแรกของเฟรมก่อนหน้าถึงพิกเซลสุดท้าย J++ posdiff ( i , j ) = sum (( regstats1 ( j ). Centroid ' - mupwtd (:, i ))); % คำนวณระยะห่างของสีend end

หลังจากดำเนินการสองขั้นตอนเสร็จแล้ว เราจะได้แผนที่ความโดดเด่น (saliency map) จากนั้นจะจัดเก็บแผนที่ทั้งหมดเหล่านี้ไว้ในโฟลเดอร์ไฟล์ใหม่

ความแตกต่างในอัลกอริทึม

ความแตกต่างหลักระหว่างฟังก์ชันที่หนึ่งและฟังก์ชันที่สองคือความแตกต่างของฟังก์ชันการทำสัญญา หาก spnum1 และ spnum2 แทนหมายเลขพิกเซลของเฟรมปัจจุบัน ฟังก์ชันการทำสัญญานี้จะใช้สำหรับฟังก์ชันความเด่นชัดแรก หาก spnum1 คือหมายเลขพิกเซลของเฟรมปัจจุบันและ spnum2 แทนหมายเลขพิกเซลของเฟรมก่อนหน้า ฟังก์ชันการทำสัญญานี้จะใช้สำหรับฟังก์ชันความเด่นชัดที่สอง หากเราใช้ฟังก์ชันการทำสัญญาที่สองซึ่งใช้พิกเซลของเฟรมเดียวกันเพื่อหาค่าระยะห่างจากจุดศูนย์กลางเพื่อสร้างแผนที่ความเด่นชัด จากนั้นเราจะใช้ฟังก์ชันความเด่นชัดนี้กับแต่ละเฟรมและใช้แผนที่ความเด่นชัดของเฟรมปัจจุบันลบด้วยแผนที่ความเด่นชัดของเฟรมก่อนหน้าเพื่อสร้างภาพใหม่ซึ่งเป็นผลลัพธ์ความเด่นชัดใหม่ของฟังก์ชันความเด่นชัดที่สาม

ผลลัพธ์ความโดดเด่น

ชุดข้อมูล

ชุดข้อมูลความโดดเด่นมักประกอบด้วยการเคลื่อนไหวของดวงตาของมนุษย์บนลำดับภาพต่างๆ ชุดข้อมูลนี้มีค่าสำหรับการสร้างอัลกอริทึมความโดดเด่นใหม่หรือการเปรียบเทียบประสิทธิภาพของอัลกอริทึมที่มีอยู่ พารามิเตอร์ของชุดข้อมูลที่มีค่ามากที่สุดคือความละเอียดเชิงพื้นที่ ขนาด และ อุปกรณ์ ติดตามดวงตานี่คือส่วนหนึ่งของตารางชุดข้อมูลขนาดใหญ่จาก ชุดข้อมูลมาตรฐานความโดดเด่น ของ MIT/Tübingen

ชุดข้อมูลความโดดเด่น
ชุดข้อมูล ปณิธาน ขนาด ผู้สังเกตการณ์ ระยะเวลา เครื่องติดตามดวงตา
แคท20001920×1080 พิกเซล 4000 ภาพ 24 5 วินาที EyeLink 1000 (1000 เฮิรตซ์)
อายแทร็กยูเอวี21280×720 พิกเซล วิดีโอ 43 รายการ 30 33 วินาที EyeLink 1000 Plus (1000 เฮิรตซ์, กล้องสองตา)
โครว์ดไฟซ์1280×720 พิกเซล วิดีโอ 434 รายการ 26 1–3 วินาที อุปกรณ์ติดตามการเคลื่อนไหวของดวงตา Eyetribe (60 Hz)
ซาวัม1920×1080 พิกเซล วิดีโอ 43 รายการ 50 20 วินาที SMI iViewXTM ความเร็วสูง 1250 (500 เฮิรตซ์)

ในการเก็บรวบรวมชุดข้อมูลความโดดเด่น (saliency dataset) จำเป็นต้องเตรียมภาพหรือวิดีโอและอุปกรณ์ติดตามการเคลื่อนไหวของดวงตา และต้องเชิญผู้สังเกตการณ์ ผู้สังเกตการณ์ต้องมีสายตาปกติหรือได้รับการแก้ไขให้เป็นปกติ และต้องอยู่ห่างจากหน้าจอในระยะเดียวกัน ในตอนเริ่มต้นของการบันทึกแต่ละครั้ง อุปกรณ์ติดตามการเคลื่อนไหวของดวงตาจะทำการปรับเทียบใหม่ โดยผู้สังเกตการณ์จะต้องจ้องมองไปที่กึ่งกลางหน้าจอ จากนั้นจึงเริ่มการบันทึก และเก็บรวบรวมข้อมูลความโดดเด่นโดยการแสดงลำดับภาพหรือวิดีโอและบันทึกการจ้องมองของดวงตา

อุปกรณ์ติดตามการเคลื่อนไหวของดวงตาเป็นกล้องความเร็วสูงที่สามารถบันทึกการเคลื่อนไหวของดวงตาได้อย่างน้อย 250 เฟรมต่อวินาทีภาพจากกล้องจะถูกประมวลผลโดยซอฟต์แวร์ที่ทำงานบนคอมพิวเตอร์เฉพาะ เพื่อส่งคืนข้อมูลการมอง

ดูเพิ่มเติม

  • Zhai, Yun; Shah, Mubarak (2006-10-23). ​​"การตรวจจับความสนใจทางสายตาในลำดับวิดีโอโดยใช้เบาะแสเชิงพื้นที่และเวลา". รายงานการประชุมนานาชาติ ACM ครั้งที่ 14 ว่าด้วยมัลติมีเดีย MM '06. นิวยอร์ก, นิวยอร์ก, สหรัฐอเมริกา: ACM. หน้า  815–824 . CiteSeerX  10.1.1.80.4848 . doi : 10.1145/1180639.1180824 . ISBN 978-1595934475. S2CID  5219826 .
  • VLfeat: https://www.vlfeat.org/
  • แผนที่ความโดดเด่นในScholarpedia
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Saliency_map&oldid=1342524418 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ แผนที่ความโดดเด่น

ในคอมพิวเตอร์วิชั่นแผนที่ความเด่นชัดคือภาพที่เน้นบริเวณที่ดวงตาของผู้คนโฟกัสเป็นอันดับแรก หรือบริเวณที่เกี่ยวข้องมากที่สุดสำหรับโมเดลการเรียนรู้ของเครื่อง

ภาพรวม

แผนที่ความโดดเด่น (Saliency maps) มีการประยุกต์ใช้ในปัญหาต่างๆ มากมาย ตัวอย่างการประยุกต์ใช้ทั่วไป ได้แก่:

ความโดดเด่นในฐานะปัญหาการแบ่งส่วน

การประมาณค่าความโดดเด่นอาจมองได้ว่าเป็นตัวอย่างหนึ่งของ การแบ่งส่วนภาพ ใน คอมพิวเตอร์วิชั่น การแบ่งส่วนภาพคือกระบวนการแบ่ง ภาพดิจิทัล ออกเป็นหลายส่วน (ชุดของพิกเซล หรือที่เรียกว่าซูเปอร์พิกเซล )...

ตัวอย่างการใช้งาน

ขั้นแรก เราควรคำนวณระยะห่างของแต่ละพิกเซลกับพิกเซลอื่นๆ ในเฟรมเดียวกัน: