ปาล์ม

Q: ดูเพิ่มเติม

LaMDA ซึ่งเป็นรุ่นก่อนหน้าของ PaLM Gemini ซึ่งเป็นรุ่นต่อจาก PaLM ชินชิลลา ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=PaLM&oldid=1319096815 "

ปาล์ม
ปาล์ม
นักพัฒนา	Google AI
ผู้มาก่อน	ลาเอ็มดีเอ
ผู้สืบทอด	กูเกิล เจมินี
มีจำหน่ายใน	ภาษาอังกฤษ
พิมพ์	แบบจำลองภาษาขนาดใหญ่
เว็บไซต์	ai.google/discover/palm2/

PaLM ( Pathways Language Model ) เป็นโมเดลภาษาขนาดใหญ่ (LLM) ที่ใช้Transformer ซึ่งมีตัวถอดรหัสหนาแน่นเพียง 540 พันล้านพารามิเตอร์ พัฒนาโดย Google AI [ ¹^]^นักวิจัยยังได้ฝึกฝน PaLM เวอร์ชันที่เล็กกว่า (ที่มีพารามิเตอร์ 8 และ 62 พันล้าน) เพื่อทดสอบผลกระทบของขนาดโมเดล^[²^]

แบบอย่าง

PaLM สามารถทำงานได้หลากหลาย รวมถึง การใช้ เหตุผลสามัญสำนึกการใช้เหตุผลทางคณิตศาสตร์การอธิบายเรื่องตลก การสร้าง โค้ดและการแปล [ ^{2 ] [}^{3 ] [}^{4 ] [}^{5 ] เมื่อ}รวมกับการกระตุ้นความคิดแบบต่อเนื่อง PaLM มีประสิทธิภาพดีขึ้นอย่างมากในชุดข้อมูลที่ต้องการการใช้เหตุผลหลายขั้นตอน เช่นโจทย์ปัญหาและคำถามเชิงตรรกะ^{[ 1 ]}^{[ 2 ]}

โมเดลนี้ได้รับการประกาศครั้งแรกในเดือนเมษายน พ.ศ. 2565 และยังคงเป็นส่วนตัวจนถึงเดือนมีนาคม พ.ศ. 2566 เมื่อ Google เปิดตัวAPIสำหรับ PaLM และเทคโนโลยีอื่นๆ อีกหลายรายการ^{[ 6 ]} API นี้เปิดให้ใช้งานเฉพาะนักพัฒนาจำนวนจำกัดที่ลงทะเบียนรอคิวก่อนที่จะเปิดให้สาธารณะชนใช้งาน^{[ 7 ]}

Google และDeepMindได้พัฒนาเวอร์ชันของ PaLM 540B (ที่มีพารามิเตอร์ 540 พันล้านตัว) ที่เรียกว่าMed-PaLMซึ่งได้รับการปรับแต่งอย่างละเอียดบนข้อมูลทางการแพทย์และมีประสิทธิภาพเหนือกว่าโมเดลก่อนหน้าในเกณฑ์มาตรฐานการตอบคำถาม ทางการแพทย์ ^{[ 8 ]}^{[ 9 ]} Med-PaLM เป็นโมเดลแรกที่ได้คะแนนผ่านเกณฑ์ใน คำถาม การขอใบอนุญาตประกอบวิชาชีพทางการแพทย์ของสหรัฐฯและนอกเหนือจากการตอบคำถามแบบเลือกตอบและคำถามปลายเปิดได้อย่างแม่นยำแล้ว ยังให้เหตุผลและสามารถประเมินคำตอบของตนเองได้อีกด้วย^{[ 10 ]}

นอกจากนี้ Google ยังขยาย PaLM โดยใช้ตัวแปลงภาพเพื่อสร้างPaLM-Eซึ่งเป็นแบบจำลองภาษาภาพที่สามารถใช้สำหรับการจัดการหุ่นยนต์โดยไม่จำเป็นต้องฝึกฝนใหม่หรือปรับแต่ง^{[ 11 ]}^{[ 12 ]}^{[ 13 ]}

ในเดือนพฤษภาคม 2023 Google ประกาศเปิดตัว PaLM 2 ในงานGoogle I/O ประจำปี ^{[ 14 ]}มีรายงานว่า PaLM 2 เป็นโมเดลที่มีพารามิเตอร์ 340 พันล้านตัว ซึ่งได้รับการฝึกฝนด้วยโทเค็น 3.6 ล้านล้านตัว^{[ 15 ]}

ในเดือนมิถุนายน พ.ศ. 2566 Google ได้ประกาศเปิดตัว AudioPaLM สำหรับการแปลเสียงพูดเป็นเสียงพูด ซึ่งใช้สถาปัตยกรรมและการเริ่มต้นใช้งาน PaLM-2 ^{[ 16 ]}

การฝึกอบรม

PaLM ได้รับการฝึกฝนล่วงหน้าบน คอร์ปัสคุณภาพสูงที่มีโทเค็น 780 พันล้านโทเค็น ซึ่งประกอบด้วย งาน ภาษาธรรมชาติและกรณีการใช้งานต่างๆ ชุดข้อมูลนี้ประกอบด้วยเว็บเพจที่ผ่านการกรอง หนังสือ บทความ วิกิพีเดียบทความข่าว ซอร์สโค้ดที่ได้จากแหล่งเก็บข้อมูลโอเพนซอร์สบนGitHubและบทสนทนาในโซเชียลมีเดีย^{[ 1 ]}^{[ 2 ]}โดยอิงจากชุดข้อมูลที่ใช้ในการฝึกโมเดลLaMDAของGoogle ^[²^]ส่วนของบทสนทนาในโซเชียลมีเดียในชุดข้อมูลคิดเป็น 50% ของคอร์ปัส ซึ่งช่วยให้โมเดลมีความสามารถในการสนทนา^[²^]

PaLM 540B ได้รับการฝึกฝนบนTPU v4 Pods สองตัว โดยแต่ละ Pod มีชิป TPU v4 จำนวน 3,072 ตัว เชื่อมต่อกับโฮสต์ 768 เครื่อง ซึ่งเชื่อมต่อโดยใช้การผสมผสานระหว่างการขนานโมเดลและการขนานข้อมูลซึ่งถือเป็นการกำหนดค่า TPU ที่ใหญ่ที่สุด^{[ 2 ]}^{[ 17 ]}วิธีนี้ช่วยให้การฝึกฝนมีประสิทธิภาพในระดับใหญ่ โดยใช้ชิปจำนวน 6,144 ตัว และสร้างสถิติประสิทธิภาพการฝึกฝนสูงสุดสำหรับ LLM ในระดับนี้: การใช้ฮาร์ดแวร์FLOPsอยู่ที่ 57.8% ^{[ 3 ]}

ดูเพิ่มเติม

LaMDAซึ่งเป็นรุ่นก่อนหน้าของ PaLM
Geminiซึ่งเป็นรุ่นต่อจาก PaLM
ชินชิลลา

1

[

3 ] [

4 ] [

5 ] เมื่อ

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]

ปาล์ม

แบบอย่าง

การฝึกอบรม

ดูเพิ่มเติม

ข้อมูลสำคัญจากบทความ