LTX (โมเดลแปลงข้อความเป็นวิดีโอ)

Q: ที่มา: LTX Video (2024–2025)

ในเดือนพฤศจิกายน พ.ศ. 2567 Lightricks ได้เปิดตัว โมเดลแปลงข้อความเป็นวิดีโอ ตัวแรก LTX Video สู่สาธารณะ ซึ่งเป็นโมเดลที่มีพารามิเตอร์ 2 พันล้านตัว และสามารถใช้งานได้แบบโอเพนซอร์ส [ 2 ] [ 3 ]

LTX (โมเดลแปลงข้อความเป็นวิดีโอ)
LTX (โมเดลแปลงข้อความเป็นวิดีโอ)
นักพัฒนา	ไลท์ริคส์
ปล่อย	พฤศจิกายน 2024
ระบบปฏิบัติการ	ข้ามแพลตฟอร์ม
พิมพ์	กลุ่มโมเดล AI สร้างวิดีโอจากข้อความรูปภาพและเสียง รวมถึงโมเดล AI สร้างวิดีโอ จากวิดีโอ
เว็บไซต์	https://ltx.io/model/ltx-2

LTXคือตระกูลโมเดล ปัญญาประดิษฐ์ แบบ โอ เพน ซอร์ส สำหรับสร้างวิดีโอ พัฒนาโดยLightricksและเปิดตัวครั้งแรกในเดือนพฤศจิกายน 2024 โมเดลล่าสุด LTX-2 สร้างวิดีโอตามคำสั่ง ของผู้ใช้ โดยก่อนหน้านี้มี LTX Video ซึ่งเปิดตัวในปี 2024 ในฐานะโมเดลแปลงข้อความเป็นวิดีโอตัวแรกของบริษัท

LTX-2 เป็นส่วนหนึ่งของตระกูล LTX ของโมเดลการสร้างวิดีโอ ซึ่งเป็นเทคโนโลยีหลักร่วมกับLTX Studioของระบบนิเวศ LTX ^{[ 1 ]}

ประวัติศาสตร์

ที่มา: LTX Video (2024–2025)

ในเดือนพฤศจิกายน พ.ศ. 2567 Lightricks ได้เปิดตัวโมเดลแปลงข้อความเป็นวิดีโอ ตัวแรก LTX Video สู่สาธารณะ ซึ่งเป็นโมเดลที่มีพารามิเตอร์ 2 พันล้านตัว และสามารถใช้งานได้แบบโอเพนซอร์ส^{[ 2 ]}^{[ 3 ]}

ในเดือนพฤษภาคม พ.ศ. 2568 Lightricks ได้เปิดตัว LTXV-13b ซึ่งเป็นเวอร์ชันที่มีพารามิเตอร์ 13 พันล้านตัว^{[ 4 ]}^{[ 5 ]}สองเดือนต่อมา โมเดลนี้ทำลายสถิติวิดีโอที่สร้างได้ภายใน 60 วินาที^{[ 6 ]}^{[ 7 ]}

การเปิดตัว LTX-2 (ปี 2025)

ในเดือนตุลาคม พ.ศ. 2568 Lightricks ได้ประกาศเปิดตัวรุ่นล่าสุด และเปลี่ยนชื่อเป็น LTX-2 โดยระบุว่ารุ่นนี้สามารถสร้างเสียงและวิดีโอที่ซิงโครไนซ์กันที่ความละเอียด 4K ดั้งเดิม และสูงสุด 50 เฟรมต่อวินาที (fps) โดยใช้เงื่อนไขและคำสั่งต่างๆ รวมถึงข้อความไปยังวิดีโอและภาพไปยังวิดีโอ^{[ 8 ]}^{[ 9 ]}

Googleเน้นย้ำข้อเท็จจริงที่ว่า LTX-2 ได้รับการฝึกฝนบนโครงสร้างพื้นฐานของตน^{[ 10 ]}และกล่าวว่าเป็น "โมเดลสร้างวิดีโอ AI แบบโอเพนซอร์สตัวแรกที่ขับเคลื่อนโดย Google Cloud" ^{[ 11 ]}

เมื่อเปิดตัว โมเดลนี้ได้รับการจัดอันดับให้อยู่ใน 3 อันดับแรกของโมเดลการสร้างภาพเป็นวิดีโอโดย Artificial Analysis รองจาก Kling 3.5 ของKling AIและ Veo 3.1 ของ Google ส่วนตัวเลือกการแปลงข้อความเป็นภาพนั้นอยู่ในอันดับที่ 7 ^{[ 12 ]}

นอกจากการเผยแพร่แบบโอเพนซอร์สแล้ว Lightricks ยังให้การเข้าถึง API แก่ LTX-2 ซึ่งช่วยให้นักพัฒนาสามารถสร้างวิดีโอจากข้อความและรูปภาพตามคำสั่งผ่านบริการโฮสต์โดยไม่ต้องรันโมเดลในเครื่อง^{[ 13 ]}

เวอร์ชันโอเพนซอร์ส (2026)

ในเดือนมกราคม พ.ศ. 2569 Lightricks ได้ปล่อย LTX-2 เวอร์ชันโอเพนซอร์สเต็มรูปแบบอย่างเป็นทางการ ทำให้โค้ดเบส น้ำหนัก และเครื่องมือที่เกี่ยวข้องทั้งหมดของโมเดลสามารถเข้าถึงได้โดยสาธารณะ^{[ 14 ]}^{[ 15 ]}

ในเดือนมีนาคม พ.ศ. 2569 บริษัทได้ออก LTX-2.3 ซึ่งมาพร้อมกับโปรแกรมตัดต่อวิดีโอสำหรับเดสก์ท็อป ทำให้โมเดลทั้งหมดสามารถทำงานบนฮาร์ดแวร์ของผู้บริโภคได้^{[ 16 ]}^{[ 17 ]}

คุณสมบัติทางเทคนิค

ความก้าวหน้าเหนือกว่าวิดีโอ LTX

LTX-2 สร้างขึ้นบนสถาปัตยกรรมวิดีโอ LTX โดยมีการปรับปรุงที่สำคัญหลายประการ: ^{[ 9 ]}^{[ 18 ]}^{[ 19 ]}

การสร้างภาพและเสียงแบบรวมศูนย์ ทำให้ได้บทสนทนา บรรยากาศ และการเคลื่อนไหวที่ซิงโครไนซ์กัน
การเรนเดอร์แบบเนทีฟ 4K
เอาต์พุต 50 เฟรมต่อวินาที เพื่อการเคลื่อนไหวแบบภาพยนตร์
มีโหมดการทำงานสามโหมด (เร็ว, โปร, อัลตร้า)
กระบวนการกระจายข้อมูลที่มีประสิทธิภาพยิ่งขึ้น ช่วยให้ได้ภาพที่มีความละเอียดสูงบน GPU สำหรับผู้บริโภค

ความสามารถหลัก

การสร้างวิดีโอจากข้อความ
การสร้างภาพเป็นวิดีโอ
การสังเคราะห์ภาพและเสียงแบบหลายรูปแบบ
ความสอดคล้องเชิงพื้นที่และเวลาที่มีความละเอียดสูง
สามารถกำหนดค่าการตั้งค่าคุณภาพ/ประสิทธิภาพได้
การแจกจ่ายน้ำหนักและชุดข้อมูลแบบโอเพนซอร์ส

แผนกต้อนรับ

การตอบรับเบื้องต้นของ LTX-2 เป็นไปในเชิงบวกอย่างกว้างขวาง โดยมีสื่อและเทคโนโลยีหลายแห่งเน้นย้ำถึงแนวทางโอเพนซอร์สและความสามารถแบบมัลติโมดอล^{[ 3 ]} Open Source For You อธิบาย LTX-2 ว่าเป็น “หนึ่งในระบบวิดีโอ AI ระบบแรกที่รวมเอาเอาต์พุต 4K เสียงที่ซิงโครไนซ์ และการเผยแพร่โมเดลแบบเปิด” โดยระบุว่าระบบนี้ทำให้ Lightricks เป็นคู่แข่งสำคัญของระบบที่เป็นกรรมสิทธิ์ เช่น Sora ของ OpenAI และ Veo ของ Google ^{[ 8 ]}

IEA Green กล่าวว่าโมเดลนี้ “สามารถพลิกโฉมวงการการสร้างภาพยนตร์ด้วย AI ได้” โดยเน้นย้ำว่าการเรนเดอร์ 50 เฟรมต่อวินาทีและการสร้างเสียงและวิดีโอแบบรวมทำให้เหมาะสำหรับสตูดิโอระดับมืออาชีพและผู้สร้างอิสระเช่นกัน^{[ 20 ]}

AI News ระบุว่า LTX-2 เป็น “ก้าวสำคัญในการทำให้การสร้างวิดีโอคุณภาพระดับภาพยนตร์เป็นเรื่องที่เข้าถึงได้ง่ายขึ้น” โดยยกย่องประสิทธิภาพของฮาร์ดแวร์ระดับผู้บริโภคและโหมดการสร้างหลายระดับ พร้อมทั้งตั้งข้อสังเกตถึงความท้าทายอย่างต่อเนื่องในด้านความเสถียรเชิงเวลาของรูปแบบยาว^{[ 19 ]}

FinancialContent รายงานความสนใจอย่างมากในหมู่เอเจนซีสร้างสรรค์ โดยระบุว่าความสนใจดังกล่าวเกิดจากการตัดสินใจของ Lightricks ที่จะเปิดเผยน้ำหนักโมเดลและชุดข้อมูล ซึ่งผู้ตรวจสอบกล่าวว่าช่วยให้ “มีความโปร่งใสในระดับที่ไม่ค่อยพบเห็นในโมเดลวิดีโอ AI เชิงพาณิชย์” ^{[ 21 ]}

เกณฑ์มาตรฐานและการจัดอันดับ

เมื่อเปิดตัว LTX-2 ได้รับการจัดอันดับที่สามสำหรับการสร้างภาพเป็นวิดีโอในเกณฑ์มาตรฐานการวิเคราะห์ปัญญาประดิษฐ์ รองจาก Kling 3.5 และ Veo 3.1 ในขณะที่ตัวเลือกข้อความเป็นวิดีโอได้รับการจัดอันดับที่เจ็ด^{[ 22 ]}ณ ต้นปี 2026 เป็นโมเดลโอเพนซอร์สที่ได้รับการจัดอันดับสูงสุดในเกณฑ์มาตรฐาน^{[ 23 ]}^{[ 24 ]}^{[ 25 ]}

ข้อจำกัด

ผู้ตรวจสอบบางรายในช่วงแรกยังชี้ให้เห็นถึงข้อจำกัดด้านคุณภาพ การตรวจสอบทางเทคนิคของ Ray3 ระบุถึงความไม่สอดคล้องกันเป็นครั้งคราวในการซิงค์ริมฝีปากและการติดตามการเคลื่อนไหวในฉากยาว แม้ว่าจะระบุว่าสิ่งเหล่านี้ "สอดคล้องกับความท้าทายที่โมเดลการกระจายวิดีโอ AI ในปัจจุบันทั้งหมดเผชิญ" และคาดว่าจะดีขึ้นเมื่อมีการทำซ้ำอย่างต่อเนื่อง^{[ 26 ]}

เช่นเดียวกับเครื่องกำเนิดวิดีโอแบบกระจายตัวอื่นๆ LTX-2 สามารถสร้างสิ่งผิดปกติในฉากที่มีบุคคลหลายคนที่ซับซ้อน และอาจมีปัญหาในการแสดงผลข้อความที่แม่นยำภายในวิดีโอที่สร้างขึ้น^{[ 27 ]}^{[ 28 ]}

ดูเพิ่มเติม

ลิงก์ภายนอก

เว็บไซต์อย่างเป็นทางการ
[1]
[2]
[3]
คลังเก็บโค้ดอย่างเป็นทางการบน GitHub

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]

[ 20 ]

[ 21 ]

[ 22 ]

[ 23 ]

[ 24 ]

[ 25 ]

[ 26 ]

[ 27 ]

[ 28 ]