อ่าน 2 นาที
ผู้รับรู้
Perceiver เป็นรูปแบบหนึ่งของ สถาปัตยกรรม Transformer ที่ปรับปรุงเพื่อประมวลผลข้อมูลหลากหลายรูปแบบ เช่น ภาพ เสียง วิดีโอ และ ข้อมูลเชิงพื้นที่ แตกต่างจากระบบ Transformer...
ผู้รับรู้
Perceiverเป็นรูปแบบหนึ่งของ สถาปัตยกรรม Transformerที่ปรับปรุงเพื่อประมวลผลข้อมูลหลากหลายรูปแบบ เช่น ภาพ เสียง วิดีโอ และข้อมูลเชิงพื้นที่แตกต่างจากระบบ Transformer ที่โดดเด่นก่อนหน้านี้ เช่นBERTและGPT-3ซึ่งออกแบบมาเพื่อประมวลผลข้อความ Perceiver ถูกออกแบบมาให้เป็นสถาปัตยกรรมทั่วไปที่สามารถเรียนรู้จากข้อมูลที่หลากหลายจำนวนมาก โดยใช้ กลไก ความสนใจ แบบไม่สมมาตร เพื่อกลั่นกรองข้อมูลเข้าให้เหลือเพียงจุดสำคัญที่ซ่อนอยู่
Perceiver เทียบเท่าหรือเหนือกว่าโมเดลเฉพาะทางในงานจำแนกประเภท[ 1 ]
DeepMindเปิดตัว Perceiver ในเดือนมิถุนายน 2021 [ 1 ] และตามมาด้วยPerceiver IOในเดือนสิงหาคม 2021 [ 2 ]
ออกแบบ
Perceiver ได้รับการออกแบบโดยไม่มี องค์ประกอบเฉพาะ โมดาลิตี้ตัวอย่างเช่น ไม่มีองค์ประกอบที่เชี่ยวชาญเพื่อจัดการกับรูปภาพ ข้อความ หรือเสียง นอกจากนี้ยังสามารถจัดการกับสตรีมอินพุตที่สัมพันธ์กันหลายรายการที่มีประเภทต่างกันได้ โดยใช้ชุดหน่วยแฝงขนาดเล็กที่สร้างคอขวดความสนใจซึ่งอินพุตต้องผ่าน ประโยชน์อย่างหนึ่งคือการกำจัดปัญหาการปรับขนาดกำลังสองที่พบในทรานส์ฟอร์เมอร์รุ่นแรกๆ งานก่อนหน้านี้ใช้ตัวแยกคุณลักษณะ ที่กำหนดเอง สำหรับแต่ละโมดาลิตี้[ 1 ]
โดยจะเชื่อมโยงคุณลักษณะเฉพาะตำแหน่งและรูปแบบกับองค์ประกอบอินพุตทุกตัว (เช่น พิกเซลทุกตัว หรือตัวอย่างเสียง) คุณลักษณะเหล่านี้สามารถเรียนรู้หรือสร้างขึ้นได้ โดยใช้ คุณลักษณะฟูริเยร์ที่มีความแม่นยำสูง[ 1 ]
Perceiver ใช้ cross-attention เพื่อสร้างเลเยอร์ที่มีความซับซ้อนเชิงเส้นและแยกความลึกของเครือข่ายออกจากขนาดอินพุต การแยกส่วนนี้ช่วยให้สามารถสร้างสถาปัตยกรรมที่ลึกขึ้นได้[ 1 ]
ส่วนประกอบ
โมดูล Cross-attention จะแมปอาร์เรย์ไบต์ (ขนาดใหญ่กว่า) (เช่น อาร์เรย์พิกเซล) และอาร์เรย์แฝง (ขนาดเล็กกว่า) ไปยังอาร์เรย์แฝงอีกอันหนึ่ง เพื่อลดมิติลง ส่วน Transformer tower จะแมปอาร์เรย์แฝงหนึ่งไปยังอาร์เรย์แฝงอีกอันหนึ่ง ซึ่งใช้ในการสอบถามอินพุตอีกครั้ง ส่วนประกอบทั้งสองจะสลับกันทำงาน ทั้งสองส่วนประกอบใช้กลไก Attention แบบ Query-Key-Value (QKV) กลไกAttention แบบ QKVจะใช้เครือข่าย Query, Key และ Value ซึ่งโดยทั่วไปคือMultilayer Perceptronกับแต่ละองค์ประกอบของอาร์เรย์อินพุต ทำให้เกิดอาร์เรย์สามชุดที่รักษาขนาดมิติของดัชนี (หรือความยาวลำดับ) ของอินพุตไว้
ผู้รับรู้ IO
Perceiver IO สามารถสอบถามพื้นที่แฝงของโมเดลได้อย่างยืดหยุ่นเพื่อสร้างเอาต์พุตที่มีขนาดและความหมายตามอำเภอใจ โดยบรรลุผลลัพธ์ในงานที่มีพื้นที่เอาต์พุตที่มีโครงสร้าง เช่นภาษาธรรมชาติและความเข้าใจภาพStarCraft IIและการทำงานหลายอย่างพร้อมกัน Perceiver IO เทียบเท่ากับ BERT พื้นฐานที่ใช้ Transformer ในเกณฑ์มาตรฐานภาษา GLUEโดยไม่จำเป็นต้องมีการแบ่งคำ อินพุต และบรรลุประสิทธิภาพระดับแนวหน้าในการประมาณการการไหลของแสงSintel [ 2 ]
ผลลัพธ์ถูกสร้างขึ้นโดยการพิจารณาอาร์เรย์แฝงโดยใช้แบบสอบถามผลลัพธ์เฉพาะที่เกี่ยวข้องกับผลลัพธ์นั้นๆ ตัวอย่างเช่น ในการทำนายการไหลของแสงบนพิกเซลหนึ่ง แบบสอบถามจะพิจารณาโดยใช้พิกัด xy ของพิกเซลบวกกับการฝังงานการไหลของแสงเพื่อสร้างเวกเตอร์การไหลเดียว นี่เป็นรูปแบบหนึ่งของสถาปัตยกรรมตัวเข้ารหัส/ตัวถอดรหัสที่ใช้ในการออกแบบอื่นๆ[ 2 ]
ผลงาน
ประสิทธิภาพของ Perceiver เทียบได้กับResNet -50 และViTบนImageNetโดยไม่ต้องใช้การแปลง แบบ 2 มิติ โดยสามารถประมวลผลได้ถึง 50,000 พิกเซลและสามารถแข่งขันได้ในทุกรูปแบบในAudioSet [ 1 ]
ดูเพิ่มเติม
ลิงก์ภายนอก
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ ผู้รับรู้
Perceiver เป็นรูปแบบหนึ่งของ สถาปัตยกรรม Transformer ที่ปรับปรุงเพื่อประมวลผลข้อมูลหลากหลายรูปแบบ เช่น ภาพ เสียง วิดีโอ และ ข้อมูลเชิงพื้นที่ แตกต่างจากระบบ Transformer...
ออกแบบ
Perceiver ได้รับการออกแบบโดยไม่มี องค์ประกอบเฉพาะ โมดาลิตี้ ตัวอย่างเช่น ไม่มีองค์ประกอบที่เชี่ยวชาญเพื่อจัดการกับรูปภาพ ข้อความ หรือเสียง นอกจากนี้ยังสามารถจัดการกับสตรีมอินพุตที่สัมพันธ์กันหลายรายการที่มีประเภทต่างกันได้...
ส่วนประกอบ
โมดูล Cross-attention จะแมปอาร์เรย์ไบต์ (ขนาดใหญ่กว่า) (เช่น อาร์เรย์พิกเซล) และอาร์เรย์แฝง (ขนาดเล็กกว่า) ไปยังอาร์เรย์แฝงอีกอันหนึ่ง เพื่อ ลดมิติลง ส่วน Transformer tower จะแมปอาร์เรย์แฝงหนึ่งไปยังอาร์เรย์แฝงอีกอันหนึ่ง ซึ่งใช้ในการสอบถามอินพุตอีกครั้ง...
ผู้รับรู้ IO
Perceiver IO สามารถสอบถามพื้นที่แฝงของโมเดลได้อย่างยืดหยุ่นเพื่อสร้างเอาต์พุตที่มีขนาดและความหมายตามอำเภอใจ โดยบรรลุผลลัพธ์ในงานที่มีพื้นที่เอาต์พุตที่มีโครงสร้าง เช่น ภาษาธรรมชาติ และความเข้าใจ ภาพ StarCraft II และการทำงานหลายอย่างพร้อมกัน Perceiver IO...