ผู้รับรู้

Perceiverเป็นรูปแบบหนึ่งของ สถาปัตยกรรม Transformerที่ปรับปรุงเพื่อประมวลผลข้อมูลหลากหลายรูปแบบ เช่น ภาพ เสียง วิดีโอ และข้อมูลเชิงพื้นที่แตกต่างจากระบบ Transformer ที่โดดเด่นก่อนหน้านี้ เช่นBERTและGPT-3ซึ่งออกแบบมาเพื่อประมวลผลข้อความ Perceiver ถูกออกแบบมาให้เป็นสถาปัตยกรรมทั่วไปที่สามารถเรียนรู้จากข้อมูลที่หลากหลายจำนวนมาก โดยใช้ กลไก ความสนใจ แบบไม่สมมาตร เพื่อกลั่นกรองข้อมูลเข้าให้เหลือเพียงจุดสำคัญที่ซ่อนอยู่

Perceiver เทียบเท่าหรือเหนือกว่าโมเดลเฉพาะทางในงานจำแนกประเภท^{[ 1 ]}

DeepMindเปิดตัว Perceiver ในเดือนมิถุนายน 2021 [ ^{1 ] และ}ตามมาด้วยPerceiver IOในเดือนสิงหาคม 2021 ^{[ 2 ]}

ออกแบบ

Perceiver ได้รับการออกแบบโดยไม่มี องค์ประกอบเฉพาะ โมดาลิตี้ตัวอย่างเช่น ไม่มีองค์ประกอบที่เชี่ยวชาญเพื่อจัดการกับรูปภาพ ข้อความ หรือเสียง นอกจากนี้ยังสามารถจัดการกับสตรีมอินพุตที่สัมพันธ์กันหลายรายการที่มีประเภทต่างกันได้ โดยใช้ชุดหน่วยแฝงขนาดเล็กที่สร้างคอขวดความสนใจซึ่งอินพุตต้องผ่าน ประโยชน์อย่างหนึ่งคือการกำจัดปัญหาการปรับขนาดกำลังสองที่พบในทรานส์ฟอร์เมอร์รุ่นแรกๆ งานก่อนหน้านี้ใช้ตัวแยกคุณลักษณะ ที่กำหนดเอง สำหรับแต่ละโมดาลิตี้^{[ 1 ]}

โดยจะเชื่อมโยงคุณลักษณะเฉพาะตำแหน่งและรูปแบบกับองค์ประกอบอินพุตทุกตัว (เช่น พิกเซลทุกตัว หรือตัวอย่างเสียง) คุณลักษณะเหล่านี้สามารถเรียนรู้หรือสร้างขึ้นได้ โดยใช้ คุณลักษณะฟูริเยร์ที่มีความแม่นยำสูง^{[ 1 ]}

Perceiver ใช้ cross-attention เพื่อสร้างเลเยอร์ที่มีความซับซ้อนเชิงเส้นและแยกความลึกของเครือข่ายออกจากขนาดอินพุต การแยกส่วนนี้ช่วยให้สามารถสร้างสถาปัตยกรรมที่ลึกขึ้นได้^{[ 1 ]}

ส่วนประกอบ

โมดูล Cross-attention จะแมปอาร์เรย์ไบต์ (ขนาดใหญ่กว่า) (เช่น อาร์เรย์พิกเซล) และอาร์เรย์แฝง (ขนาดเล็กกว่า) ไปยังอาร์เรย์แฝงอีกอันหนึ่ง เพื่อลดมิติลง ส่วน Transformer tower จะแมปอาร์เรย์แฝงหนึ่งไปยังอาร์เรย์แฝงอีกอันหนึ่ง ซึ่งใช้ในการสอบถามอินพุตอีกครั้ง ส่วนประกอบทั้งสองจะสลับกันทำงาน ทั้งสองส่วนประกอบใช้กลไก Attention แบบ Query-Key-Value (QKV) กลไกAttention แบบ QKVจะใช้เครือข่าย Query, Key และ Value ซึ่งโดยทั่วไปคือMultilayer Perceptronกับแต่ละองค์ประกอบของอาร์เรย์อินพุต ทำให้เกิดอาร์เรย์สามชุดที่รักษาขนาดมิติของดัชนี (หรือความยาวลำดับ) ของอินพุตไว้

ผู้รับรู้ IO

Perceiver IO สามารถสอบถามพื้นที่แฝงของโมเดลได้อย่างยืดหยุ่นเพื่อสร้างเอาต์พุตที่มีขนาดและความหมายตามอำเภอใจ โดยบรรลุผลลัพธ์ในงานที่มีพื้นที่เอาต์พุตที่มีโครงสร้าง เช่นภาษาธรรมชาติและความเข้าใจภาพStarCraft IIและการทำงานหลายอย่างพร้อมกัน Perceiver IO เทียบเท่ากับ BERT พื้นฐานที่ใช้ Transformer ในเกณฑ์มาตรฐานภาษา GLUEโดยไม่จำเป็นต้องมีการแบ่งคำ อินพุต และบรรลุประสิทธิภาพระดับแนวหน้าในการประมาณการการไหลของแสงSintel ^{[ 2 ]}

ผลลัพธ์ถูกสร้างขึ้นโดยการพิจารณาอาร์เรย์แฝงโดยใช้แบบสอบถามผลลัพธ์เฉพาะที่เกี่ยวข้องกับผลลัพธ์นั้นๆ ตัวอย่างเช่น ในการทำนายการไหลของแสงบนพิกเซลหนึ่ง แบบสอบถามจะพิจารณาโดยใช้พิกัด xy ของพิกเซลบวกกับการฝังงานการไหลของแสงเพื่อสร้างเวกเตอร์การไหลเดียว นี่เป็นรูปแบบหนึ่งของสถาปัตยกรรมตัวเข้ารหัส/ตัวถอดรหัสที่ใช้ในการออกแบบอื่นๆ^{[ 2 ]}

ผลงาน

ประสิทธิภาพของ Perceiver เทียบได้กับResNet -50 และViTบนImageNetโดยไม่ต้องใช้การแปลง แบบ 2 มิติ โดยสามารถประมวลผลได้ถึง 50,000 พิกเซลและสามารถแข่งขันได้ในทุกรูปแบบในAudioSet ^{[ 1 ]}

ดูเพิ่มเติม

ลิงก์ภายนอก

DeepMind Perceiver และ Perceiver IO | คำอธิบายเอกสารทางวิชาการบน YouTube
Perceiver: General Perception with Iterative Attention (Google DeepMind Research Paper Explained)บน YouTubeพร้อมคำอธิบายคุณสมบัติ Fourier อย่างละเอียดเพิ่มเติม