แบบจำลองโลก (ปัญญาประดิษฐ์)

แบบจำลองโลกในปัญญาประดิษฐ์คือ ระบบ การเรียนรู้ของเครื่องจักรที่สร้างแบบจำลองภายในของสภาพแวดล้อม แบบจำลองนี้คาดการณ์ว่าสภาพแวดล้อมจะเปลี่ยนแปลงไปอย่างไรเมื่อเวลาผ่านไป โดยตอบสนองต่อการกระทำต่างๆ นักวิจัยออกแบบแบบจำลองโลกเพื่อช่วยให้ตัวแทนวางแผน คิด และกระทำการโดยไม่ต้องลองผิดลองถูกในโลกแห่งความเป็นจริงอย่างต่อเนื่อง แบบจำลองโลกแตกต่างจากระบบที่เพียงแค่จำแนกหรือสร้างผลลัพธ์ พวกมันจำลองพลวัต เช่น ฟิสิกส์ ปฏิสัมพันธ์ของวัตถุ และความเป็นเหตุเป็นผล แนวคิดแรกเริ่มมีมาตั้งแต่ทศวรรษ 1990 เวอร์ชันที่ทันสมัยในปัจจุบันถูกนำไปใช้ในหุ่นยนต์ การขับขี่อัตโนมัติ และการสร้างวิดีโอแบบโต้ตอบ

ประวัติศาสตร์

Jürgen Schmidhuberได้แนะนำคำว่าแบบจำลองโลก (world model) ในการเรียนรู้ของเครื่องในปี 1990 ^{[ 1 ]}เขาเสนอโครงข่ายประสาทเทียมแบบวนซ้ำ (recurrent neural networks)ที่ทำนายสถานะในอนาคตจากการสังเกตและใช้การทำนายเหล่านั้นเพื่อฝึกตัวแทน David Ha และ Schmidhuber ได้ฟื้นฟูแนวคิดนี้ในบทความปี 2018 ตัวแทนของพวกเขาเรียนรู้ที่จะขับรถเสมือนจริงและเล่นวิดีโอเกมภายในการจำลองที่สร้างขึ้นเอง

Yann LeCunได้นำเสนอแนวคิดนี้ในเอกสารแสดงจุดยืนในปี 2022 ในหัวข้อ "เส้นทางสู่ปัญญาประดิษฐ์อัตโนมัติ" ^{[ 2 ]}เขาโต้แย้งว่าปัญญาประดิษฐ์ต้องการแบบจำลองการทำนายของโลกมากกว่าการจับคู่รูปแบบอย่างเดียว LeCun เสนอสถาปัตยกรรมทำนายการฝังร่วม (JEPA)เป็นพื้นฐานที่ใช้งานได้จริง LeCun และผู้ร่วมงานได้พัฒนา JEPA หลายเวอร์ชัน V-JEPA 2 บรรลุประสิทธิภาพที่ล้ำสมัยในการทำความเข้าใจวิดีโอและการให้เหตุผลทางกายภาพในขณะนั้น^{[ 3 ]}รองรับการควบคุมหุ่นยนต์แบบ zero-shot ในสภาพแวดล้อมที่ไม่คุ้นเคย^{[ 3 ]} LeWorldModel ซึ่งเปิดตัวในเดือนมีนาคม 2026 ฝึกฝนได้อย่างเสถียรตั้งแต่ต้นจนจบจากพิกเซลดิบและใช้เงื่อนไขการสูญเสียสองเงื่อนไขและหลีกเลี่ยงฮิวริสติกที่สร้างขึ้นด้วยมือ^{[ 4 ]} LeCun ก่อตั้งAdvanced Machine Intelligence Labsในปี 2026 เพื่อพัฒนาแบบจำลองโลกต่อไป^{[ 5 ]}^{[ 6 ]}

Google DeepMindเปิดตัวGenieในปี 2024 โมเดลนี้เรียนรู้สภาพแวดล้อมแบบโต้ตอบจากวิดีโออินเทอร์เน็ตที่ไม่มีป้ายกำกับ Genie 2 ตามมาในปลายปี 2024 และเพิ่มความสามารถในการสร้างภาพสามมิติ ซีรี่ส์ Genie สร้างมาตรฐานใหม่สำหรับการจำลองแบบทั่วไป

Genie 3 เปิดตัวในเดือนสิงหาคม พ.ศ. 2568 โดยสร้างโลกเสมือนจริงแบบโต้ตอบแบบเรียลไทม์จากข้อความแจ้งเตือน ซึ่งแสดงผลที่ 24 เฟรมต่อวินาที และสำรวจได้แบบเรียลไทม์ด้วยข้อความหรือรูปภาพแจ้งเตือน โมเดลนี้รองรับโลกสามมิติแบบถาวรและการโต้ตอบแบบเรียลไทม์^{[ 7 ]} Waymoนำ Genie 3 มาใช้ในเดือนกุมภาพันธ์ พ.ศ. 2569 และใช้สร้างโมเดลโลกเฉพาะสำหรับการจำลองการขับขี่อัตโนมัติ เรียกว่าWaymo World Modelโดยสร้างเอาต์พุตกล้องและlidar ที่ซิงโครไนซ์กัน และสร้างกรณีพิเศษที่รถ ^{แท็กซี่}หุ่นยนต์จริงแทบจะไม่พบเจอ กรณีพิเศษเหล่านี้ได้รับการรายงานว่าผิดปกติโดยPCMag [ ^{8 ]}

General Intuition ประกาศระดมทุนรอบ Seed มูลค่า 133.7 ล้านดอลลาร์สหรัฐ World Labs ระดมทุนได้ 1 พันล้านดอลลาร์สหรัฐ AMI ระดมทุนได้ 1.03 พันล้านดอลลาร์สหรัฐ^{[ 9 ]}

ในเดือนเมษายน พ.ศ. 2569 อาลีบาบาประกาศเปิดตัว Happy Oyster ซึ่งเป็นโมเดลโลกที่ออกแบบมาสำหรับโมเดลโลกแบบเรียลไทม์และ "ไหลลื่น" โดยมีโหมดกำกับสำหรับการสร้างโลกตามข้อความและรูปภาพ และโหมดเดินสำรวจเพื่อสำรวจโลกที่สร้างขึ้น นอกจากนี้ยังสามารถสร้างคลิปวิดีโอภายในโลกความยาว 3 นาทีได้^{[ 10 ]}

นอกจากนี้ ในเดือนเมษายน World Labs ซึ่งร่วมก่อตั้งโดยLi Fei Feiได้เปิดตัว Spark 2.0 ซึ่งเป็นเอ็นจิ้นการเรนเดอร์ แบบ Gaussian splatting 3 มิติแบบโอเพนซอร์ส ที่มุ่งเป้าไปที่อุปกรณ์ระดับสมาร์ทโฟน^[¹⁰^]

ในเดือนมิถุนายน พ.ศ. 2569 Nvidiaได้เปิดตัว Cosmos 3 ซึ่งเป็นตระกูลโมเดลแบบ open-weight โดยรวมการให้เหตุผลทางกายภาพ การจำลองโลก และการสร้างการกระทำที่เคยแยกจากกันไว้ก่อนหน้านี้ Cosmos 3 สามารถประมวลผลและสร้างข้อความ รูปภาพ วิดีโอ เสียง และลำดับการกระทำได้ โมเดลนี้ใช้แนวทาง "Mixture-of-Transformers" (MoT) โดย ทรานส์ฟอร์เมอร์แบบ autoregressive (AR)จะจัดการการให้เหตุผลและการทำนายโทเค็นถัดไป ในขณะที่ ทรานส์ฟอร์เมอร์ แบบ diffusion (DT) จะสร้างข้อมูลหลายรูปแบบ ตัวเข้ารหัส ( ViTสำหรับการมองเห็นVAEสำหรับภาพ/เสียง และแบบเฉพาะโดเมนสำหรับการกระทำ) จะสร้างพื้นที่การแสดงผลร่วมกันโดยใช้การฝังตำแหน่งหมุนหลายมิติ 3 มิติ (mRoPE) สำหรับข้อมูลเชิงพื้นที่และเวลา ตระกูลนี้ประกอบด้วย Cosmos3-Nano (พารามิเตอร์ 16 พันล้าน) สำหรับเวิร์กสเตชัน และ Cosmos3-Super (พารามิเตอร์ 64 พันล้าน) สำหรับการวิจัย^{[ 11 ]}

สถาปัตยกรรม

แบบจำลองโลกประมวลผลข้อมูลดิบจากประสาทสัมผัส เช่น เฟรมวิดีโอหรือข้อมูลการสแกนจากไลดาร์ โดยจะบีบอัดข้อมูลเหล่านี้ให้เป็นตัวแทนแฝงที่มีขนาดกะทัดรัด จากนั้นระบบจะทำนายตัวแทนในอนาคตแทนที่จะสร้างภาพขึ้นใหม่แบบพิกเซลต่อพิกเซล

โมเดลโลกสมัยใหม่จำนวนมากใช้สถาปัตยกรรมทำนายการฝังร่วม (JEPA) ตัวเข้ารหัสจะแปลงการสังเกตเป็นการฝังตัวทำนายจะประมาณค่าการฝังหนึ่งค่าหรือชุดของการฝังจากค่าปัจจุบันและการกระทำ ในบางกรณี ตัววิจารณ์จะเลือกการฝังหนึ่งค่าเป็นผลลัพธ์ที่ดีที่สุดตัวทำให้เป็นระเบียบจะทำให้การฝังมีพฤติกรรมที่ดี^{[ 3 ]}

โมเดลนี้ฝึกฝนโดยการลดข้อผิดพลาดในการทำนายในพื้นที่ฝังตัวให้เหลือน้อยที่สุด วิธีนี้ช่วยหลีกเลี่ยงค่าใช้จ่ายสูงในการสร้างรายละเอียดทุกอย่าง สถาปัตยกรรมบางแบบเพิ่มส่วนประกอบที่ชัดเจนเข้าไป เส้นทางตอบสนองที่รวดเร็วจะจัดการกับการตอบสนองทันที เส้นทางไตร่ตรองที่ช้ากว่าจะทำการวางแผนในระยะยาว ความแม่นยำในการทำนายจากวิดีโอหรืออัตราความสำเร็จของหุ่นยนต์เป็นตัวชี้วัดที่สำคัญ แต่ไม่ได้ทำนายประสิทธิภาพในโลกแห่งความเป็นจริงได้เสมอไป

แบบจำลองโลกเสมือนจริงแบบสร้างภาพ เช่น Genie 3 ผสานสิ่งเหล่านี้เข้ากับโปรแกรมจำลองโดยรับข้อความหรือเค้าโครง และส่งออกวิดีโอ, ไลดาร์ หรือฉากสามมิติที่สอดคล้องกัน แบบจำลองโลกเสมือนจริงมักฝึกฝนด้วยการเรียนรู้แบบกำกับตนเอง โดยใช้ชุดข้อมูลขนาดใหญ่ที่ไม่มีป้ายกำกับของวิดีโอหรือปฏิสัมพันธ์ของหุ่นยนต์การเรียนรู้แบบกำกับตนเองสามารถเร่งความเร็วในการเรียนรู้ได้ ส่วน การเรียนรู้แบบเสริมแรงสามารถปรับแต่งแบบจำลองให้เหมาะสมกับงานเฉพาะได้

แอปพลิเคชัน

แบบจำลองโลกสนับสนุนการเรียนรู้ของหุ่นยนต์ ตัวแทนฝึกฝนภายในระบบจำลองและถ่ายทอดทักษะไปยังโลกทางกายภาพ ซึ่งช่วยลดความจำเป็นในการทดลองในโลกแห่งความเป็นจริงที่อันตรายหรือมีราคาแพง ยานพาหนะอัตโนมัติใช้แบบจำลองโลกเพื่อทดสอบเหตุการณ์ที่เกิดขึ้นไม่บ่อย^{[ 12 ]}ระบบของ Waymo จำลองพายุทอร์นาโดหรือพฤติกรรมคนเดินเท้าที่ผิดปกติ บริษัทต่างๆ ฝึกอบรมนักวางแผนโดยไม่ต้องนำยานพาหนะออกไปบนถนนสาธารณะ ความบันเทิงแบบโต้ตอบได้รับประโยชน์จากแบบจำลองโลก Genie 3 ช่วยให้ผู้ใช้สร้างสภาพแวดล้อมที่เล่นได้จากคำอธิบายง่ายๆ สตูดิโอเกมสร้างต้นแบบระดับได้เร็วขึ้น การจำลองทางวิทยาศาสตร์ได้รับประโยชน์จากแบบจำลองเหล่านี้ นักวิจัยสร้างแบบจำลองระบบทางกายภาพหรือกระบวนการทางชีวภาพในระดับใหญ่ นักวางแผนในด้านโลจิสติกส์หรือการออกแบบเมืองทดสอบกลยุทธ์ภายในแบบจำลองดิจิทัลที่แม่นยำ

การเปรียบเทียบกับโมเดลภาษาขนาดใหญ่

ทั้งแบบจำลองโลกและแบบจำลองภาษาขนาดใหญ่ (LLM) ต่างใช้การอนุมานกับข้อมูลป้อนเข้าเพื่อทำการคาดการณ์

โมเดลภาษาศาสตร์เชิงตรรกะ (LLMs) ทำงานโดยใช้ข้อมูลข้อความเป็นอินพุต พวกมันทำนายโทเค็นถัดไปในลำดับข้อความ พวกมัน excelled ในงานที่เกี่ยวข้องกับภาษา เช่น การแปลหรือการสรุปความ อย่างไรก็ตาม พวกมันขาดความเข้าใจในด้านฟิสิกส์

แบบจำลองโลกทำงานโดยอาศัยข้อมูลจากเซ็นเซอร์ เช่น พิกเซล โดยจะทำนายการเปลี่ยนแปลงสถานะของข้อมูลเหล่านั้นในพื้นที่แฝง การออกแบบนี้สนับสนุนการวางแผนและ การให้เหตุผล เชิง สาเหตุ

โมเดล LLM สร้างข้อความที่อ่านลื่นไหล แต่บ่อยครั้งที่ทำนายลักษณะทางกายภาพได้ไม่สม่ำเสมอ โครงสร้างของโมเดลเหล่านี้ใช้ท รานส์ฟอร์เมอร์พร้อมการปรับปรุงเพิ่มเติม เช่นการผสมผสานผู้เชี่ยวชาญ

แบบจำลองโลกแบ่งงานการอนุมานออกเป็นงานที่ดำเนินการโดยตัวเข้ารหัส ตัวทำนาย ตัวจำลอง และส่วนอื่นๆ โดยทั่วไปแล้วจะจัดการกับอินพุตหลายรูปแบบ เช่น วิดีโอ ไลดาร์ เรดาร์ และเสียง โดยมีข้อความชี้นำ

LLM ขับเคลื่อน แชทบอ ท และผู้ช่วยเขียนโค้ด โมเดลโลกขับเคลื่อนเอเจนต์ที่มีตัวตนซึ่งทำงานในสภาพแวดล้อมแบบไดนามิก เช่น การขับขี่อัตโนมัติ ทั้งสองอาจรวมกันในระบบไฮบริด ตัวอย่างเช่น LLM จัดการคำสั่ง ในขณะที่โมเดลโลกจัดการการควบคุมระดับต่ำ ผู้สนับสนุนโมเดลโลกเช่น LeCun อ้างว่าเนื่องจาก LLM ได้รับการฝึกฝนจากข้อความเท่านั้น จึงไม่มีความสามารถในการทำนายสิ่งใดนอกเหนือจากข้อความ เช่น เหตุการณ์ในโลกแห่งความเป็นจริง^{[ 2 ]}

เกณฑ์มาตรฐาน

การทดสอบมาตรฐานของแบบจำลองโลกเป็นการทดสอบความเข้าใจทางกายภาพ ความสอดคล้องในระยะยาว การวางแผน และการสรุปผลจากข้อมูลเซ็นเซอร์

Meta ได้แนะนำเกณฑ์มาตรฐานสามรายการสำหรับ V-JEPA 2 ^{[ 13 ]}

IntPhys 2 วัดความสามารถของแบบจำลองในการตรวจจับการละเมิดทางฟิสิกส์ โดยจะนำเสนอวิดีโอสองชุดที่แตกต่างกันเมื่อชุดหนึ่งละเมิดกฎทางฟิสิกส์ มนุษย์มีความแม่นยำเกือบ 100% V-JEPA 2 ทำได้ดีกว่าโอกาสแบบสุ่มเพียงเล็กน้อยในหลายเงื่อนไข^{[ 14 ]}
แบบทดสอบ Minimal Video Pairs (MVPBench) ทดสอบความเข้าใจทางกายภาพผ่านคำถามแบบเลือกตอบหลายตัวเลือกโดยอิงจากคลิปวิดีโอสั้นๆ โดยจะตรวจสอบปฏิสัมพันธ์ของวัตถุและความเป็นเหตุเป็นผล^{[ 15 ]}
การทดสอบ Something-Something การรับรู้การกระทำ^{[ 16 ]}
Epic-Kitchens-100 ทดสอบการคาดการณ์การกระทำของมนุษย์

การทดสอบประสิทธิภาพ DeepMind:

การประเมินเชิงโต้ตอบจะวัดความสม่ำเสมอในช่วงเวลาโต้ตอบหลายนาที ความจำเกี่ยวกับวัตถุที่อยู่นอกหน้าจอ และการตอบสนองต่อการกระทำของผู้ใช้หรือข้อความแจ้งเตือน^{[ 17 ]}

ผลการทดสอบประสิทธิภาพของ Waymo:

คุณภาพการสร้างผลลัพธ์: ตัวชี้วัดประกอบด้วยความสมจริง การควบคุมได้ (ผ่านข้อความแจ้งเตือน) และประโยชน์สำหรับการฝึกอบรมผู้วางแผนในโลกจำลอง อย่างไรก็ตาม อัตราข้อผิดพลาดในการสร้างพิกเซลใหม่เมื่อใช้รางวัลแบบเป็นตอนๆ มักจะล้มเหลว

อื่น:

Epic-Kitchens-100 (มักวัดด้วย Recall@5) ^{[ 18 ]}
อีโก้4ดี
50 เมนูสลัด อาหารเช้า ฯลฯ

เกณฑ์มาตรฐานที่เป็นไปได้:

การถ่ายโอนแบบ Zero-shot ไปยังหุ่นยนต์
การวางแผนระยะยาว
อัตราการทำนายที่ไม่น่าเชื่อถือ

ดูเพิ่มเติม

ลิงก์ภายนอก

Carmack, John (31 มีนาคม 2026). "บทวิจารณ์บทความ: LeWorldModel: สถาปัตยกรรมทำนายผลแบบฝังตัวร่วมแบบครบวงจรที่เสถียรจากพิกเซล" . X . สืบค้นเมื่อ1 เมษายน 2026 .

[ 1 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

แท็กซี่

[ 9 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]

[ 18 ]