กลับไปหน้าบทความ

อ่าน 2 นาที

ความสนใจเชิงเวลาทางสายตา

ความสนใจเชิงเวลาทางสายตาเป็นกรณีพิเศษของความสนใจทางสายตาที่เกี่ยวข้องกับการกำหนดความสนใจไปยังช่วงเวลาที่เฉพาะเจาะจง

ความสนใจเชิงเวลาทางสายตา

เฟรมวิดีโอของ หมวดหมู่การกระทำ บาร์คู่ขนานในชุดข้อมูล UCF-101 [ 1 ] (a) เฟรมที่มีอันดับสูงสุดสี่เฟรมใน น้ำหนัก ความสนใจเชิงเวลาของวิดีโอซึ่งนักกีฬาทำการแสดงบนบาร์คู่ขนาน (b) เฟรมที่มีอันดับต่ำสุดสี่เฟรมใน น้ำหนัก ความสนใจเชิงเวลาของวิดีโอซึ่งนักกีฬายืนอยู่บนพื้น น้ำหนักทั้งหมดทำนายโดยอัลกอริทึม ATW CNN [ 2 ]เฟรมวิดีโอที่มีน้ำหนักสูงโดยทั่วไปจะจับภาพการเคลื่อนไหวที่โดดเด่นที่สุดที่เกี่ยวข้องกับหมวดหมู่การกระทำ

ความสนใจเชิงเวลาทางสายตาเป็นกรณีพิเศษของความสนใจทางสายตาที่เกี่ยวข้องกับการกำหนดความสนใจไปยังช่วงเวลาที่เฉพาะเจาะจง คล้ายกับความสนใจเชิงพื้นที่ทางสายตาโมดูลความสนใจเหล่านี้ได้รับการนำไปใช้อย่างกว้างขวางในการวิเคราะห์วิดีโอในคอมพิวเตอร์วิชั่นเพื่อเพิ่มประสิทธิภาพและคำอธิบายที่มนุษย์สามารถตีความได้[ 3 ]ของโมเดล การเรียนรู้เชิงลึก

เนื่องจากกลไกความสนใจเชิงพื้นที่ทางสายตาช่วยให้ระบบการมองเห็นของมนุษย์และ/หรือคอมพิวเตอร์ สามารถมุ่งเน้นไปที่บริเวณที่มีความหมายมากขึ้นในเชิงพื้นที่ โมดูลความสนใจเชิงเวลาทางสายตาช่วยให้อัลกอริธึม การเรียนรู้ของเครื่อง สามารถ เน้นเฟรมวิดีโอที่สำคัญมากขึ้นใน งาน วิเคราะห์วิดีโอเช่นการจดจำการกระทำของมนุษย์ใน ระบบที่ใช้ โครงข่ายประสาทเทียมแบบคอนโวลูชัน การจัดลำดับความสำคัญที่นำเสนอโดยกลไกความสนใจมักจะถูกนำไปใช้เป็นเลเยอร์การถ่วงน้ำหนักเชิงเส้นที่มีพารามิเตอร์ที่กำหนดโดยข้อมูลการฝึกอบรมที่มีป้ายกำกับ[ 3 ]

การประยุกต์ใช้ในการจดจำการกระทำ

สถาปัตยกรรม ATW CNN [ 4 ]สตรีม CNN สามสตรีมถูกใช้เพื่อประมวลผลภาพ RGB เชิงพื้นที่ ภาพการไหลของแสงเชิงเวลา และภาพการไหลของแสงที่บิดเบี้ยวเชิงเวลา ตามลำดับ โมเดลความสนใจถูกนำมาใช้เพื่อกำหนดน้ำหนักเชิงเวลาระหว่างส่วนย่อยสำหรับแต่ละสตรีม/โมดาลิตี้ ผลรวมถ่วงน้ำหนักถูกใช้เพื่อรวมการคาดการณ์จากสตรีม/โมดาลิตี้ทั้งสาม

อัลกอริทึมการแบ่งส่วนวิดีโอในปัจจุบันมักใช้กลไกความสนใจทั้งเชิงพื้นที่และเชิงเวลา[ 2 ] [ 4 ]การวิจัยเกี่ยวกับการจดจำการกระทำของมนุษย์ได้เร่งตัวขึ้นอย่างมากนับตั้งแต่มีการนำเครื่องมือที่มีประสิทธิภาพ เช่นเครือข่ายประสาทแบบ Convolutional (CNN) มาใช้ อย่างไรก็ตาม วิธีการที่มีประสิทธิภาพในการรวมข้อมูลเชิงเวลาเข้ากับ CNN ยังคงได้รับการสำรวจอย่างต่อเนื่อง ด้วยแรงบันดาลใจจากแบบจำลองความสนใจแบบวนซ้ำที่เป็นที่นิยมในการประมวลผลภาษาธรรมชาติจึงมีการเสนอ Attention-aware Temporal Weighted CNN (ATW CNN) [ 4 ]ในวิดีโอ ซึ่งฝังแบบจำลองความสนใจทางสายตาลงใน CNN แบบหลายสตรีมที่มีการถ่วงน้ำหนักเชิงเวลา แบบจำลองความสนใจนี้ถูกนำไปใช้เป็นการถ่วงน้ำหนักเชิงเวลาและช่วยเพิ่มประสิทธิภาพการจดจำของการแสดงวิดีโอได้อย่างมีประสิทธิภาพ นอกจากนี้ แต่ละสตรีมในเฟรมเวิร์ก ATW CNN ที่เสนอสามารถฝึกฝนแบบครบวงจรได้ โดยทั้งพารามิเตอร์เครือข่ายและน้ำหนักเชิงเวลาได้รับการปรับให้เหมาะสมโดยการไล่ระดับแบบสุ่ม (SGD)ด้วย การแพร่ ย้อนกลับผลการทดลองแสดงให้เห็นว่ากลไกความสนใจของ ATW CNN มีส่วนช่วยอย่างมากต่อประสิทธิภาพที่เพิ่มขึ้น โดยเฉพาะอย่างยิ่งเมื่อใช้กับคลิปวิดีโอที่มีความสามารถในการแยกแยะได้ดีขึ้น ด้วยการมุ่งเน้นไปที่ส่วนของวิดีโอที่เกี่ยวข้องมากกว่า

วรรณกรรม

  • Seibold VC, Balke J และ Rolke B (2023): ความสนใจเชิงเวลา Front. Cognit. 2:1168320. doi: 10.3389/fcogn.2023.1168320.

ดูเพิ่มเติม

ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Visual_temporal_attention&oldid=1329658045 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ ความสนใจเชิงเวลาทางสายตา

ความสนใจเชิงเวลาทางสายตาเป็นกรณีพิเศษของความสนใจทางสายตาที่เกี่ยวข้องกับการกำหนดความสนใจไปยังช่วงเวลาที่เฉพาะเจาะจง

การประยุกต์ใช้ในการจดจำการกระทำ

อัลกอริทึมการแบ่งส่วนวิดีโอในปัจจุบันมักใช้กลไกความสนใจทั้งเชิงพื้นที่และเชิงเวลา [ 2 ] [ 4 ] การวิจัยเกี่ยวกับ การจดจำการกระทำของมนุษย์ ได้เร่งตัวขึ้นอย่างมากนับตั้งแต่มีการนำเครื่องมือที่มีประสิทธิภาพ เช่น เครือข่ายประสาทแบบ Convolutional (CNN) มาใช้...

วรรณกรรม

Seibold VC, Balke J และ Rolke B (2023): ความสนใจเชิงเวลา Front. Cognit. 2:1168320. doi: 10.3389/fcogn.2023.1168320.

ดูเพิ่มเติม

ความสนใจ ความสนใจเชิงพื้นที่ทางสายตา การรับรู้การกระทำ การวิเคราะห์เนื้อหาวิดีโอ โครงข่ายประสาทเทียมแบบคอนโวลูชัน คอมพิวเตอร์วิชั่น ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Visual_temporal_attention&oldid=1329658045 "