กลับไปหน้าบทความ

อ่าน 2 นาที

ผู้รับรู้

Perceiver เป็นรูปแบบหนึ่งของ สถาปัตยกรรม Transformer ที่ปรับปรุงเพื่อประมวลผลข้อมูลหลากหลายรูปแบบ เช่น ภาพ เสียง วิดีโอ และ ข้อมูลเชิงพื้นที่ แตกต่างจากระบบ Transformer...

ผู้รับรู้

Perceiverเป็นรูปแบบหนึ่งของ สถาปัตยกรรม Transformerที่ปรับปรุงเพื่อประมวลผลข้อมูลหลากหลายรูปแบบ เช่น ภาพ เสียง วิดีโอ และข้อมูลเชิงพื้นที่แตกต่างจากระบบ Transformer ที่โดดเด่นก่อนหน้านี้ เช่นBERTและGPT-3ซึ่งออกแบบมาเพื่อประมวลผลข้อความ Perceiver ถูกออกแบบมาให้เป็นสถาปัตยกรรมทั่วไปที่สามารถเรียนรู้จากข้อมูลที่หลากหลายจำนวนมาก โดยใช้ กลไก ความสนใจ แบบไม่สมมาตร เพื่อกลั่นกรองข้อมูลเข้าให้เหลือเพียงจุดสำคัญที่ซ่อนอยู่

Perceiver เทียบเท่าหรือเหนือกว่าโมเดลเฉพาะทางในงานจำแนกประเภท[ 1 ]

DeepMindเปิดตัว Perceiver ในเดือนมิถุนายน 2021 [ 1 ] และตามมาด้วยPerceiver IOในเดือนสิงหาคม 2021 [ 2 ]

ออกแบบ

Perceiver ได้รับการออกแบบโดยไม่มี องค์ประกอบเฉพาะ โมดาลิตี้ตัวอย่างเช่น ไม่มีองค์ประกอบที่เชี่ยวชาญเพื่อจัดการกับรูปภาพ ข้อความ หรือเสียง นอกจากนี้ยังสามารถจัดการกับสตรีมอินพุตที่สัมพันธ์กันหลายรายการที่มีประเภทต่างกันได้ โดยใช้ชุดหน่วยแฝงขนาดเล็กที่สร้างคอขวดความสนใจซึ่งอินพุตต้องผ่าน ประโยชน์อย่างหนึ่งคือการกำจัดปัญหาการปรับขนาดกำลังสองที่พบในทรานส์ฟอร์เมอร์รุ่นแรกๆ งานก่อนหน้านี้ใช้ตัวแยกคุณลักษณะ ที่กำหนดเอง สำหรับแต่ละโมดาลิตี้[ 1 ]

โดยจะเชื่อมโยงคุณลักษณะเฉพาะตำแหน่งและรูปแบบกับองค์ประกอบอินพุตทุกตัว (เช่น พิกเซลทุกตัว หรือตัวอย่างเสียง) คุณลักษณะเหล่านี้สามารถเรียนรู้หรือสร้างขึ้นได้ โดยใช้ คุณลักษณะฟูริเยร์ที่มีความแม่นยำสูง[ 1 ]

Perceiver ใช้ cross-attention เพื่อสร้างเลเยอร์ที่มีความซับซ้อนเชิงเส้นและแยกความลึกของเครือข่ายออกจากขนาดอินพุต การแยกส่วนนี้ช่วยให้สามารถสร้างสถาปัตยกรรมที่ลึกขึ้นได้[ 1 ]

ส่วนประกอบ

โมดูล Cross-attention จะแมปอาร์เรย์ไบต์ (ขนาดใหญ่กว่า) (เช่น อาร์เรย์พิกเซล) และอาร์เรย์แฝง (ขนาดเล็กกว่า) ไปยังอาร์เรย์แฝงอีกอันหนึ่ง เพื่อลดมิติลง ส่วน Transformer tower จะแมปอาร์เรย์แฝงหนึ่งไปยังอาร์เรย์แฝงอีกอันหนึ่ง ซึ่งใช้ในการสอบถามอินพุตอีกครั้ง ส่วนประกอบทั้งสองจะสลับกันทำงาน ทั้งสองส่วนประกอบใช้กลไก Attention แบบ Query-Key-Value (QKV) กลไกAttention แบบ QKVจะใช้เครือข่าย Query, Key และ Value ซึ่งโดยทั่วไปคือMultilayer Perceptronกับแต่ละองค์ประกอบของอาร์เรย์อินพุต ทำให้เกิดอาร์เรย์สามชุดที่รักษาขนาดมิติของดัชนี (หรือความยาวลำดับ) ของอินพุตไว้

ผู้รับรู้ IO

Perceiver IO สามารถสอบถามพื้นที่แฝงของโมเดลได้อย่างยืดหยุ่นเพื่อสร้างเอาต์พุตที่มีขนาดและความหมายตามอำเภอใจ โดยบรรลุผลลัพธ์ในงานที่มีพื้นที่เอาต์พุตที่มีโครงสร้าง เช่นภาษาธรรมชาติและความเข้าใจภาพStarCraft IIและการทำงานหลายอย่างพร้อมกัน Perceiver IO เทียบเท่ากับ BERT พื้นฐานที่ใช้ Transformer ในเกณฑ์มาตรฐานภาษา GLUEโดยไม่จำเป็นต้องมีการแบ่งคำ อินพุต และบรรลุประสิทธิภาพระดับแนวหน้าในการประมาณการการไหลของแสงSintel [ 2 ]

ผลลัพธ์ถูกสร้างขึ้นโดยการพิจารณาอาร์เรย์แฝงโดยใช้แบบสอบถามผลลัพธ์เฉพาะที่เกี่ยวข้องกับผลลัพธ์นั้นๆ ตัวอย่างเช่น ในการทำนายการไหลของแสงบนพิกเซลหนึ่ง แบบสอบถามจะพิจารณาโดยใช้พิกัด xy ของพิกเซลบวกกับการฝังงานการไหลของแสงเพื่อสร้างเวกเตอร์การไหลเดียว นี่เป็นรูปแบบหนึ่งของสถาปัตยกรรมตัวเข้ารหัส/ตัวถอดรหัสที่ใช้ในการออกแบบอื่นๆ[ 2 ]

ผลงาน

ประสิทธิภาพของ Perceiver เทียบได้กับResNet -50 และViTบนImageNetโดยไม่ต้องใช้การแปลง แบบ 2 มิติ โดยสามารถประมวลผลได้ถึง 50,000 พิกเซลและสามารถแข่งขันได้ในทุกรูปแบบในAudioSet [ 1 ]

ดูเพิ่มเติม

  • DeepMind Perceiver และ Perceiver IO | คำอธิบายเอกสารทางวิชาการบน YouTube
  • Perceiver: General Perception with Iterative Attention (Google DeepMind Research Paper Explained)บน YouTubeพร้อมคำอธิบายคุณสมบัติ Fourier อย่างละเอียดเพิ่มเติม
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Perceiver&oldid=1252346846 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ ผู้รับรู้

Perceiver เป็นรูปแบบหนึ่งของ สถาปัตยกรรม Transformer ที่ปรับปรุงเพื่อประมวลผลข้อมูลหลากหลายรูปแบบ เช่น ภาพ เสียง วิดีโอ และ ข้อมูลเชิงพื้นที่ แตกต่างจากระบบ Transformer...

ออกแบบ

Perceiver ได้รับการออกแบบโดยไม่มี องค์ประกอบเฉพาะ โมดาลิตี้ ตัวอย่างเช่น ไม่มีองค์ประกอบที่เชี่ยวชาญเพื่อจัดการกับรูปภาพ ข้อความ หรือเสียง นอกจากนี้ยังสามารถจัดการกับสตรีมอินพุตที่สัมพันธ์กันหลายรายการที่มีประเภทต่างกันได้...

ส่วนประกอบ

โมดูล Cross-attention จะแมปอาร์เรย์ไบต์ (ขนาดใหญ่กว่า) (เช่น อาร์เรย์พิกเซล) และอาร์เรย์แฝง (ขนาดเล็กกว่า) ไปยังอาร์เรย์แฝงอีกอันหนึ่ง เพื่อ ลดมิติลง ส่วน Transformer tower จะแมปอาร์เรย์แฝงหนึ่งไปยังอาร์เรย์แฝงอีกอันหนึ่ง ซึ่งใช้ในการสอบถามอินพุตอีกครั้ง...

ผู้รับรู้ IO

Perceiver IO สามารถสอบถามพื้นที่แฝงของโมเดลได้อย่างยืดหยุ่นเพื่อสร้างเอาต์พุตที่มีขนาดและความหมายตามอำเภอใจ โดยบรรลุผลลัพธ์ในงานที่มีพื้นที่เอาต์พุตที่มีโครงสร้าง เช่น ภาษาธรรมชาติ และความเข้าใจ ภาพ StarCraft II และการทำงานหลายอย่างพร้อมกัน Perceiver IO...