โมเดลแปลงข้อความเป็นวิดีโอ

Q: นางแบบ

มีโมเดลที่แตกต่างกัน รวมถึง โมเดล โอเพนซอร์ส การป้อนข้อมูลภาษาจีน [ 3 ] CogVideo เป็นโมเดลแปลงข้อความเป็นวิดีโอรุ่นแรกสุด "ที่มีพารามิเตอร์ 9.

วิดีโอรวมที่สร้างขึ้นโดยใช้โมเดลแปลงข้อความเป็นวิดีโอSora 2ของOpenAI

แบบจำลอง ข้อความสู่วิดีโอเป็นรูปแบบหนึ่งของปัญญาประดิษฐ์เชิงสร้างสรรค์ที่ใช้ คำอธิบาย ภาษาธรรมชาติเป็นอินพุตเพื่อสร้างวิดีโอที่เกี่ยวข้องกับข้อความอินพุต^{[ 1 ]}ความก้าวหน้าในช่วงทศวรรษ 2020 ในการสร้างวิดีโอคุณภาพสูงที่ปรับตามข้อความส่วนใหญ่ขับเคลื่อนโดยการพัฒนาแบบจำลองการแพร่กระจายวิดีโอ^{[ 2 ]}

นางแบบ

มีโมเดลที่แตกต่างกัน รวมถึง โมเดล โอเพนซอร์สการป้อนข้อมูลภาษาจีน^{[ 3 ]} CogVideo เป็นโมเดลแปลงข้อความเป็นวิดีโอรุ่นแรกสุด "ที่มีพารามิเตอร์ 9.4 พันล้านตัว" ที่ได้รับการพัฒนา โดยมีการนำเสนอเวอร์ชันสาธิตของโค้ดโอเพนซอร์สครั้งแรกบนGitHubในปี 2022 ^{[ 4 ]}ในปีนั้นMeta Platformsได้เปิดตัวโมเดลแปลงข้อความเป็นวิดีโอแบบบางส่วนที่เรียกว่า "Make-A-Video" ^{[ 5 ]}^{[ 6 ]}^{[ 7 ]}และGoogle Brain (ต่อมา คือ Google DeepMind ) ได้แนะนำ Imagen Video ซึ่งเป็นโมเดลแปลงข้อความเป็นวิดีโอด้วย 3D U -Net ^{[ 8 ]}^{[ 6 ]}^{[ 9 ]}^{[ 10 ]}^{[ 11 ]}

2023

ในเดือนกุมภาพันธ์ พ.ศ. 2566 Runwayได้เปิดตัว Gen-1 และ Gen-2 ซึ่งเป็นหนึ่งในโมเดลข้อความเป็นวิดีโอและวิดีโอเป็นวิดีโอเชิงพาณิชย์รุ่นแรกๆ ที่ประชาชนสามารถเข้าถึงได้ผ่านทางเว็บอินเทอร์เฟซ Gen-1 ซึ่งเปิดตัวครั้งแรกในรูปแบบวิดีโอเป็นวิดีโอ อนุญาตให้ผู้ใช้แปลงฟุตเทจวิดีโอที่มีอยู่โดยใช้ข้อความหรือรูปภาพ^{[ 12 ]} Gen-2 ซึ่งเปิดตัวในเดือนมีนาคม พ.ศ. 2566 และเปิดให้ใช้งานแก่สาธารณะในเดือนมิถุนายน พ.ศ. 2566 ได้เพิ่มความสามารถในการแปลงข้อความเป็นวิดีโอ ทำให้ผู้ใช้สามารถสร้างวิดีโอจากข้อความเพียงอย่างเดียวได้^{[ 13 ]}

ในเดือนมีนาคม พ.ศ. 2566 มีการเผยแพร่บทความวิจัยเรื่อง "VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation" ซึ่งนำเสนอแนวทางใหม่ในการสร้างวิดีโอ^{[ 14 ]}โมเดล VideoFusion แยกกระบวนการแพร่กระจายออกเป็นสองส่วน คือ สัญญาณรบกวนพื้นฐานและสัญญาณรบกวนที่เหลือ ซึ่งใช้ร่วมกันในแต่ละเฟรมเพื่อให้มั่นใจถึงความสอดคล้องกันในเชิงเวลา โดยการใช้โมเดลการแพร่กระจายภาพที่ได้รับการฝึกฝนล่วงหน้าเป็นตัวสร้างพื้นฐาน โมเดลนี้สามารถสร้างวิดีโอคุณภาพสูงและสอดคล้องกันได้อย่างมีประสิทธิภาพ การปรับแต่งโมเดลที่ได้รับการฝึกฝนล่วงหน้าบนข้อมูลวิดีโอช่วยแก้ไขช่องว่างระหว่างข้อมูลภาพและข้อมูลวิดีโอ ทำให้ความสามารถของโมเดลในการสร้างลำดับวิดีโอที่สมจริงและสม่ำเสมอเพิ่มขึ้น^{[ 15 ]}ในเดือนเดียวกันนั้นAdobeได้เปิดตัว Firefly AI เป็นส่วนหนึ่งของฟีเจอร์ต่างๆ^{[ 16 ]}

2024

ในเดือนมกราคม 2024 Googleประกาศการพัฒนาโมเดลแปลงข้อความเป็นวิดีโอชื่อ Lumiere ซึ่งคาดว่าจะรวมความสามารถในการตัดต่อวิดีโอขั้นสูง^{[ 17 ]} Matthias NiessnerและLourdes Agapitoจากบริษัท AI Synthesiaทำงานเกี่ยวกับการพัฒนาเทคนิคการเรนเดอร์โครงข่ายประสาท 3 มิติที่สามารถสังเคราะห์วิดีโอที่สมจริงโดยใช้การแสดงโครงข่ายประสาท 2 มิติและ 3 มิติของรูปร่าง ลักษณะ และการเคลื่อนไหวสำหรับการสังเคราะห์วิดีโออวตารที่ควบคุมได้^{[ 18 ]}ในเดือนมิถุนายน 2024 Luma Labs เปิดตัวเครื่องมือวิดีโอDream Machine ^{[ 19 ]}^{[ 20 ]}ในเดือนเดียวกันนั้น^{[ 21 ]} Kuaishouขยายโมเดลแปลงข้อความเป็นวิดีโอ Kling AI ให้กับผู้ใช้ทั่วโลก ในเดือนกรกฎาคม 2024 ByteDanceเจ้าของTikTokเปิดตัว Jimeng AI ในประเทศจีนผ่านบริษัทในเครือ Faceu Technology ^[²²^]ภายในเดือนกันยายน พ.ศ. 2567 บริษัท AI ของจีนMiniMaxได้เปิดตัวโมเดล video-01 ซึ่งเข้าร่วมกับบริษัทโมเดล AI ที่มีชื่อเสียงอื่นๆ เช่นZhipu AI , BaichuanและMoonshot AIซึ่งมีส่วนสนับสนุนการมีส่วนร่วมของจีนในเทคโนโลยี AI ^[²³^]ในเดือนธันวาคม พ.ศ. 2567 Lightricksได้เปิดตัวLTX Videoเป็นโมเดลโอเพนซอร์ส^[²⁴^]

2025

แนวทางทางเลือกสำหรับโมเดลแปลงข้อความเป็นวิดีโอ ได้แก่^{[ 25 ]} Phenaki ของ Google, Hour One, Colossyan [ ^{3 ] Gen} -3 Alpha ของRunway ^{[ 26 ]}^{[ 27 ]} และ Soraของ OpenAI [ ²⁸^]^[²⁹^] นอกจากนี้ ยังมีโมเดลแปลงข้อความเป็นวิดีโอเพิ่มเติมอีกหลายโมเดล เช่น Plug-and-Play, Text2LIVE และ TuneAVideo ^[³⁰ ] Black Forest Labs ผู้พัฒนา FLUX.1ได้ประกาศว่าโมเดลแปลงข้อความเป็นวิดีโอของตนเป็น SOTA แล้ว^[³¹^] Googleกำลังเตรียมที่จะเปิดตัวเครื่องมือสร้างวิดีโอชื่อVeoสำหรับYouTube Shortsในปี 2025 ^[³²^{] ในเดือนพฤษภาคม 2025 Google ได้เปิดตัว Veo 3 ซึ่งเป็นรุ่นปรับปรุงของโมเดลนี้}^{โดย ได้รับการยกย่องในด้านความสามารถในการสร้างเสียงที่น่าประทับใจ ซึ่งเป็นข้อจำกัดก่อนหน้านี้ของโมเดล}^แปลงข้อความเป็นวิดีโอ^[³³^]ในเดือนกรกฎาคม พ.ศ. 2568 Lightricks ได้ปล่อยการอัปเดต LTX Video ที่สามารถสร้างคลิปที่มีความยาวถึง 60 วินาที^[³⁴^]^[³⁵^]และในเดือนตุลาคม พ.ศ. 2568 ก็ได้ปล่อย LTX-2 ซึ่งมีคุณสมบัติเสียงในตัว^[³⁶^]

2026

ในเดือนกุมภาพันธ์ พ.ศ. 2569 ByteDanceได้ปล่อยSeedance 2.0 ออกมา ซึ่งได้รับการยกย่องในด้านการสร้างภาพที่สมจริง การควบคุมการเคลื่อนไหวและกล้อง และการสร้างภาพในเวลา 15 วินาที^{[ 37 ]}อย่างไรก็ตาม โมเดลนี้กลับถูกวิพากษ์วิจารณ์อย่างหนักจากสมาคมภาพยนตร์แห่งสหรัฐอเมริกา (Motion Picture Association ) ในข้อหาละเมิดลิขสิทธิ์^{[ 38 ]}หลังจากได้ชมคลิปไวรัลเกี่ยวกับการต่อสู้ระหว่างนักแสดงอย่างแบรด พิตต์และทอม ครูซเร็ตต์ รีสผู้ร่วมเขียนบทภาพยนตร์เรื่องDeadpool & WolverineและZombielandได้ประกาศบนโซเชียลมีเดียว่า "ผมไม่อยากพูดเลย แต่มันคงจบสิ้นสำหรับเราแล้ว" ^{[ 39 ]}และยังกล่าวเพิ่มเติมว่า "ในเวลาไม่นาน คนๆ หนึ่งจะสามารถนั่งอยู่หน้าคอมพิวเตอร์และสร้างภาพยนตร์ที่แยกไม่ออกจากสิ่งที่ฮอลลีวูดปล่อยออกมาในปัจจุบันได้" ^{[ 40 ]}

ในเดือนกรกฎาคม พ.ศ. 2569 Bytedance ได้เปิดตัว Seedance 2.5 ซึ่งเป็นเทคโนโลยีล้ำสมัยสำหรับโมเดลแปลงข้อความเป็นวิดีโอ โดยสามารถสร้างวิดีโอเนทีฟความยาว 30 วินาทีได้โดยใช้ข้อมูลอ้างอิงมัลติโมดอล 50 รายการเป็นอินพุต^{[ 41 ]}

สถาปัตยกรรมและการฝึกอบรม

มีสถาปัตยกรรมหลายแบบที่ใช้สร้างโมเดลข้อความเป็นวิดีโอ เช่นเดียวกับ โมเดล ข้อความเป็นภาพโมเดลเหล่านี้สามารถฝึกฝนได้โดยใช้เครือข่ายประสาทแบบวนซ้ำ (RNN) เช่น เครือข่าย หน่วยความจำระยะยาวแบบสั้น (LSTM) ซึ่งใช้สำหรับโมเดลการแปลงพิกเซลและโมเดลการสร้างวิดีโอแบบสุ่ม ซึ่งช่วยให้มีความสม่ำเสมอและความสมจริงตามลำดับ^{[ 42 ]}ทางเลือกอื่นสำหรับสิ่งเหล่านี้ ได้แก่ โมเดลทรานส์ฟอร์เมอร์เครือข่ายปฏิปักษ์เชิงกำเนิด (GAN) ตัวเข้ารหัสอัตโนมัติแบบแปรผัน (VAE) ซึ่งสามารถช่วยในการทำนายการเคลื่อนไหวของมนุษย์^{[ 43 ]}และโมเดลการแพร่กระจายยังถูกนำมาใช้เพื่อพัฒนาด้านการสร้างภาพของโมเดลด้วย^{[ 44 ]}

ชุดข้อมูลข้อความ-วิดีโอที่ใช้ในการฝึกโมเดล ได้แก่ WebVid-10M, HDVILA-100M, CCV, ActivityNet และ Panda-70M ^{[ 45 ]}^{[ 46 ]}ชุดข้อมูลเหล่านี้ประกอบด้วยวิดีโอต้นฉบับที่น่าสนใจ วิดีโอที่สร้างขึ้น วิดีโอที่มีคำบรรยาย และข้อมูลข้อความหลายล้านรายการ ซึ่งช่วยในการฝึกโมเดลให้มีความแม่นยำ ชุดข้อมูลข้อความ-วิดีโอที่ใช้ในการฝึกโมเดล ได้แก่ PromptSource, DiffusionDB และ VidProM ^{[ 45 ]}^{[ 46 ]}ชุดข้อมูลเหล่านี้มีข้อความอินพุตหลากหลายประเภทที่จำเป็นในการสอนโมเดลให้ตีความข้อความแจ้งเตือนต่างๆ

กระบวนการสร้างวิดีโอเกี่ยวข้องกับการซิงโครไนซ์อินพุตข้อความกับเฟรมวิดีโอ เพื่อให้แน่ใจว่ามีการจัดเรียงและความสอดคล้องตลอดทั้งลำดับ กระบวนการคาดการณ์นี้อาจมีคุณภาพลดลงเมื่อความยาวของวิดีโอเพิ่มขึ้นเนื่องจากข้อจำกัดของทรัพยากร^{[ 46 ]}การทดสอบ Will Smith Eating Spaghettiเป็นเกณฑ์มาตรฐานสำหรับโมเดล^{[ 47 ]}

ข้อจำกัด

แม้ว่าโมเดลแปลงข้อความเป็นวิดีโอจะพัฒนาอย่างรวดเร็วในด้านประสิทธิภาพ แต่ข้อจำกัดหลักคือต้องใช้การคำนวณหนักมาก ซึ่งจำกัดความสามารถในการให้ผลลัพธ์ที่มีคุณภาพสูงและยาวนาน^{[ 48 ]}^{[ 49 ]}นอกจากนี้ โมเดลเหล่านี้ยังต้องการข้อมูลการฝึกอบรมเฉพาะจำนวนมากเพื่อให้สามารถสร้างผลลัพธ์ที่มีคุณภาพสูงและสอดคล้องกัน ซึ่งก่อให้เกิดปัญหาด้านการเข้าถึง^{[ 49 ]}^{[ 48 ]}

นอกจากนี้ โมเดลอาจตีความข้อความผิดพลาด ส่งผลให้วิดีโอที่ได้เบี่ยงเบนไปจากความหมายที่ตั้งใจไว้ ซึ่งอาจเกิดขึ้นเนื่องจากข้อจำกัดในการจับบริบททางความหมายที่ฝังอยู่ในข้อความ ซึ่งส่งผลต่อความสามารถของโมเดลในการจัดเรียงวิดีโอที่สร้างขึ้นให้ตรงกับข้อความที่ผู้ใช้ต้องการ^{[ 49 ]}^{[ 46 ]}ปัจจุบันมีการทดสอบและปรับปรุงโมเดลต่างๆ มากมาย รวมถึง Make-A-Video, Imagen Video, Phenaki, CogVideo, GODIVA และ NUWA เพื่อเพิ่มความสามารถในการจัดเรียงและประสิทธิภาพโดยรวมในการสร้างวิดีโอจากข้อความ^{[ 49 ]}

อีกปัญหาหนึ่งของผลลัพธ์คือ ข้อความหรือรายละเอียดเล็กๆ ในวิดีโอที่สร้างโดย AI มักจะดูผิดเพี้ยน ซึ่งเป็นปัญหาที่ แบบจำลอง การแพร่กระจายแบบเสถียรก็ประสบเช่นกัน ตัวอย่างเช่น มือที่บิดเบี้ยวและข้อความที่อ่านไม่ออก

จริยธรรม

การใช้งานโมเดลแปลงข้อความเป็นวิดีโอทำให้เกิดข้อควรพิจารณาทางจริยธรรมที่เกี่ยวข้องกับการสร้างเนื้อหา โมเดลเหล่านี้มีศักยภาพในการสร้างเนื้อหาที่ไม่เหมาะสมหรือไม่ได้รับอนุญาต รวมถึงเนื้อหาที่โจ่งแจ้ง ความรุนแรงที่ชัดเจน ข้อมูลที่ผิดพลาด และภาพเหมือนของบุคคลจริงโดยไม่ได้รับความยินยอม^{[ 45 ]}การรับรองว่าเนื้อหาที่สร้างโดย AI เป็นไปตามมาตรฐานที่กำหนดไว้สำหรับการใช้งานที่ปลอดภัยและมีจริยธรรมเป็นสิ่งสำคัญ เนื่องจากเนื้อหาที่สร้างโดยโมเดลเหล่านี้อาจไม่สามารถระบุได้ง่ายว่าเป็นอันตรายหรือทำให้เข้าใจผิด ความสามารถของ AI ในการจดจำและกรอง เนื้อหา NSFWหรือเนื้อหาที่มีลิขสิทธิ์ยังคงเป็นความท้าทายอย่างต่อเนื่อง ซึ่งมีผลกระทบต่อทั้งผู้สร้างและผู้ชม^{[ 45 ]}

ผลกระทบและการประยุกต์ใช้

นี่คือโฆษณาชวนเชื่อที่ผลิตโดยบริษัทสื่ออิหร่านExplosive Mediaในช่วงสงครามอิหร่านปี 2026โปรดสังเกตการใช้ แอนิเมชั่นสไตล์ เลโก้โดยใช้โมเดลแปลงข้อความเป็นวิดีโอ

โมเดลข้อความเป็นวิดีโอมีแอปพลิเคชันที่หลากหลายซึ่งอาจเป็นประโยชน์ต่อสาขาต่างๆ ตั้งแต่การศึกษาและการส่งเสริมการขายไปจนถึงอุตสาหกรรมสร้างสรรค์ โมเดลเหล่านี้สามารถปรับปรุงการสร้างเนื้อหาสำหรับวิดีโอฝึกอบรม ตัวอย่างภาพยนตร์ เนื้อหาเกม และการแสดงภาพ ทำให้การสร้างเนื้อหาง่ายขึ้น^{[ 50 ]}

ในระหว่างสงครามรัสเซีย-ยูเครนวิดีโอปลอมที่สร้างด้วยปัญญาประดิษฐ์ถูกสร้างขึ้นเพื่อเป็นส่วนหนึ่งของสงครามโฆษณาชวนเชื่อต่อต้านยูเครนและเผยแพร่ในโซเชียลมีเดียซึ่งรวมถึงภาพเด็กในกองทัพยูเครนโฆษณาปลอมที่มุ่งเป้าไปที่เด็ก ๆ โดยสนับสนุนให้พวกเขาประณามผู้ที่วิพากษ์วิจารณ์รัฐบาลยูเครนหรือคำกล่าวอ้างที่แต่งขึ้นโดยประธานาธิบดี โวโลดีมีร์ เซเลนสกี ของยูเครน เกี่ยวกับการยอมจำนนของประเทศ เป็นต้น^{[ 51 ]}^{[ 52 ]}^{[ 53 ]}^{[ 54 ]}^{[ 55 ]}^{[ 56 ]}

ภาพยนตร์

Kaur vs Kore เป็น ภาพยนตร์สารคดีเรื่องแรกของอินเดีย ที่สร้างโดยใช้AI เชิงสร้างสรรค์ซึ่งมีตัวละคร AI ของSunny Leone รับบทสองตัวละคร กำหนดฉายในปี 2026 ^[⁵⁷^]^[⁵⁸^]^[⁵⁹^]

Chiranjeevi Hanuman – The Eternalเป็น ภาพยนตร์ อินเดียที่สร้างขึ้นโดยใช้ปัญญาประดิษฐ์เชิงสร้างสรรค์ (Generative AI)ที่สร้างโดย Vijay Subramaniam ซึ่งมีกำหนดฉายในโรงภาพยนตร์ในปี 2026 ภาพยนตร์เรื่องนี้ถูกวิพากษ์วิจารณ์อย่างกว้างขวางจากผู้สร้างภาพยนตร์ใน วงการ บอลลีวูดเนื่องจากพึ่งพา AI มากเกินไป และการใช้ AI ถูกมองว่าเป็นภัยคุกคามต่ออาชีพการงานของพวกเขา^{[ 60 ]}^{[ 61 ]}^{[ 62 ]}

ชุด

มหาภารตะ: เอกธรรมยุทธเป็น ซีรีส์เทพนิยาย อินเดียที่ออกฉายทาง OTT ในเดือนตุลาคม พ.ศ. 2568 และสตรีมบนJioHotstarได้รับการยอมรับว่าเป็นซีรีส์เรื่องแรกที่สร้างขึ้นโดยใช้ปัญญาประดิษฐ์ ทั้งหมด ในการสร้างภาพและแอนิเมชั่นตัวละคร และประกอบด้วย 100 ตอน^{[ 63 ]}^{[ 64 ]}^{[ 65 ]}

Craft (1979)เป็น ซีรีส์ Minecraft ที่สร้างโดย AI ซึ่งเผยแพร่ในเดือนมิถุนายน 2026 สร้างโดยผู้ใช้ LatentDiffusion โดยใช้Seedance 2.0ซีรีส์นี้ได้รับการยกย่องทางออนไลน์เนื่องจากสามารถถ่ายทอดความรู้สึกและประสบการณ์ของผู้ที่เล่น Minecraft เป็นครั้งแรกในรูปแบบการเล่าเรื่อง โดยผู้ใช้หลายคนระบุว่าซีรีส์นี้ดีกว่า ภาพยนตร์อย่าง เป็นทางการในปี 2025 ^{[ 66 ]}

การเปรียบเทียบโมเดล


รุ่น/ผลิตภัณฑ์	บริษัท	ปีที่วางจำหน่าย	สถานะ	คุณสมบัติหลัก	ความสามารถ	ราคา	ความยาวของวิดีโอ	ภาษาที่รองรับ
ซินเธเซีย	ซินเธเซีย	2019	ปล่อยแล้ว	อวตาร AI, รองรับหลายภาษามากกว่า 60 ภาษา, ตัวเลือกการปรับแต่ง^{[ 67 ]}	เชี่ยวชาญด้านอวตาร AI ที่สมจริงสำหรับการฝึกอบรมองค์กรและการตลาด^{[ 67 ]}	บริการแบบสมัครสมาชิก เริ่มต้นที่ประมาณ 30 ดอลลาร์ต่อเดือน	แตกต่างกันไปตามแพ็คเกจการสมัครสมาชิก	60+
เว็กซูบ	เว็กซูบ	2023	ปล่อยแล้ว	ข้อความแปลงเป็นวิดีโอจากข้อความแจ้งเตือน เน้นรูปแบบการเล่าเรื่องบน TikTok และ YouTube สำหรับโซเชียลมีเดีย^{[ 68 ]}	สร้างวิดีโอ AI (1–15 นาที) จากข้อความแจ้งเตือน รวมถึงคุณสมบัติการแก้ไขและเสียง^{[ 68 ]}	ให้บริการแบบสมัครสมาชิก โดยมีแพ็คเกจให้เลือกหลากหลาย	นานสูงสุด ~15 นาที	70+
อินวิดีโอ AI	อินวิดีโอ	2021	ปล่อยแล้ว	การสร้างวิดีโอที่ขับเคลื่อนด้วย AI, คลังภาพขนาดใหญ่, อวตารพูดได้ด้วย AI ^{[ 67 ]}	ปรับแต่งสำหรับเนื้อหาโซเชียลมีเดียด้วยเทมเพลตเฉพาะแพลตฟอร์ม^{[ 67 ]}	มีแผนบริการฟรี และแผนบริการแบบเสียค่าใช้จ่ายเริ่มต้นที่ 16 ดอลลาร์ต่อเดือน	แตกต่างกันไปตามประเภทของเนื้อหา	หลายรายการ (ไม่ได้ระบุ)
ฟลิกิ	ฟลิกิ AI	2022	ปล่อยแล้ว	ข้อความถึงวิดีโอด้วยอวตาร AI และเสียง รองรับภาษาและเสียงอย่างครอบคลุม^{[ 67 ]}	รองรับอวตาร AI มากกว่า 65 รายการและเสียงมากกว่า 2,000 เสียงใน 70 ภาษา^{[ 67 ]}	มีแผนบริการฟรี และแผนบริการแบบเสียค่าใช้จ่ายเริ่มต้นที่ 30 ดอลลาร์ต่อเดือน	แตกต่างกันไปตามแพ็คเกจการสมัครสมาชิก	70+
รันเวย์ เจนเนอเรชั่น 2	รันเวย์ AI	2023	ปล่อยแล้ว	การสร้างวิดีโอหลายรูปแบบจากข้อความ รูปภาพ หรือวิดีโอ^{[ 69 ]}	ภาพคุณภาพสูง โหมดต่างๆ เช่น การจัดรูปแบบและสตอรี่บอร์ด^{[ 69 ]}	ทดลองใช้งานฟรี, แพ็กเกจแบบชำระเงิน (ไม่ระบุรายละเอียด)	สูงสุด 16 วินาที	หลายรายการ (ไม่ได้ระบุ)
พิกาแล็บส์	พิกาแล็บส์	2024	เบต้า	การสร้างวิดีโอแบบไดนามิก การปรับแต่งกล้องและการเคลื่อนไหว^{[ 70 ]}	ใช้งานง่าย เน้นการสร้างไดนามิกตามธรรมชาติ^{[ 70 ]}	ขณะนี้เปิดให้ใช้งานฟรีในช่วงเบต้า	มีความยืดหยุ่น รองรับวิดีโอความยาวมากขึ้นพร้อมฟังก์ชั่นต่อเฟรม	หลายรายการ (ไม่ได้ระบุ)
รันเวย์ เจน 3 อัลฟ่า	รันเวย์ AI	2024	อัลฟ่า	ความแม่นยำของภาพที่ได้รับการปรับปรุง มนุษย์ที่เหมือนจริง การควบคุมเวลาแบบละเอียด^{[ 71 ]}	การสร้างวิดีโอที่สมจริงเป็นพิเศษด้วยการกำหนดคีย์เฟรมที่แม่นยำและการปรับแต่งระดับอุตสาหกรรม^{[ 71 ]}	ทดลองใช้งานฟรีได้ มีราคาพิเศษสำหรับองค์กรขนาดใหญ่	แต่ละคลิปมีความยาวสูงสุด 10 วินาที และสามารถขยายเวลาได้	หลายรายการ (ไม่ได้ระบุ)
กูเกิล วีโอ	Google	2024	ปล่อยแล้ว	การแจ้งเตือน Google Gemini , การพากย์เสียง, เอฟเฟกต์เสียง, เพลงประกอบ วิดีโอสมจริงสไตล์ภาพยนตร์^{[ 72 ]}	สามารถสร้างโมเดลตัวละคร/ฉาก/คลิปที่สมจริงและมีรายละเอียดมาก พร้อมเสียงพากย์ เสียงบรรยากาศ และดนตรีประกอบที่เข้ากันอย่างลงตัว สามารถขยายคลิปให้ต่อเนื่องได้^{[ 73 ]}	ราคาแตกต่างกันไป (ค่าสมัครสมาชิก Google Pro/Ultra AI 250 ดอลลาร์สหรัฐ และค่าเติมเครดิต AI เพิ่มเติม)	แต่ละคลิปมีความยาวแปดวินาที (อย่างไรก็ตาม สามารถต่อคลิปหรือขยายคลิปแยกกันได้)	50+
OpenAI โซระ	โอเพ่นไอ	2024	อัลฟ่า	ความเข้าใจภาษาอย่างลึกซึ้ง ภาพยนตร์คุณภาพสูง วิดีโอหลายช็อต^{[ 74 ]}	สามารถสร้างวิดีโอที่มีรายละเอียด ไดนามิก และแสดงอารมณ์ได้อย่างชัดเจน ยังอยู่ในระหว่างการพัฒนาโดยมีมาตรการด้านความปลอดภัย^{[ 74 ]}	ยังไม่มีการเปิดเผยราคา	คาดว่าจะสร้างวิดีโอที่มีความยาวมากขึ้น รายละเอียดเกี่ยวกับระยะเวลาจะแจ้งให้ทราบภายหลัง	หลายรายการ (ไม่ได้ระบุ)
แอลทีเอ็กซ์	ไลท์ริกส์	2024	ปล่อยแล้ว	ระบบสร้างเสียง/วิดีโอแบบครบวงจร พร้อมปุ่มควบคุมหลายแบบ	สามารถปรับเงื่อนไขและกระตุ้นได้ผ่านข้อความ รูปภาพ วิดีโอ หรือเสียง	โอเพ่นซอร์ส^{[ 75 ]}	สามารถขยายได้ถึง 60 วินาที^{[ 76 ]}	หลายรายการ (ไม่ได้ระบุ)
บริบทฟลักซ์	ห้องปฏิบัติการแบล็กฟอเรสต์ (BFL)	2024
รันเวย์ เจนเนอเรชั่น 4	รันเวย์	2025	ปล่อยแล้ว	ตัวละครที่สอดคล้องกันในฉากต่างๆ^{[ 77 ]}ความสอดคล้องของโลก^{[ 78 ]}การควบคุมกล้อง การจำลองฟิสิกส์	สร้างคลิปความยาว 5-10 วินาทีที่มีตัวละคร วัตถุ และสภาพแวดล้อมที่สอดคล้องกันในหลายๆ ช็อต^{[ 79 ]}	การสมัครสมาชิกแบบใช้เครดิต ซึ่งเป็นส่วนหนึ่งของแพ็กเกจแบบชำระเงิน	5-10 วินาที	หลายรายการ (ไม่ได้ระบุ)
หิ่งห้อย	อะโดบี	2024	ปล่อยแล้ว	การแก้ไขตามคำสั่ง การควบคุมการเคลื่อนไหวของกล้อง โมเดลบุคคลที่สาม^{[ 80 ]}	สร้างการเคลื่อนไหวจากข้อความแจ้งเตือนหรือเฟรมเดียวโดยใช้วิดีโออ้างอิง^{[ 81 ]}	การสมัครสมาชิกแบบใช้เครดิต	สูงสุด 5 วินาที
คลิง	คูไอโชว	2024	ปล่อยแล้ว
มินิแม็กซ์	มินิแม็กซ์	2024
ซีดแดนซ์ 2.0	เมล็ดพันธุ์ ByteDance	2026	ปล่อยแล้ว	แจ้งเตือนไปยังวิดีโอ^{[ 82 ]}	เพิ่มลักษณะที่คล้ายคลึงกันให้มากที่สุดจากบุคคลและทรัพย์สินที่เป็นที่รู้จัก		30 วินาที	หลายรายการ (ไม่ได้ระบุ)
แฮปปี้ฮอร์ส 1.0	อาลีบาบา	2026	ปล่อยแล้ว	แจ้งเตือนไปยังวิดีโอ^{[ 83 ]}	เพิ่มลักษณะที่คล้ายคลึงกันให้มากที่สุดจากบุคคลและทรัพย์สินที่เป็นที่รู้จัก		สูงสุด 15 วินาที	หลายรายการ (ไม่ได้ระบุ)

ดูเพิ่มเติม

โมเดลแปลงข้อความเป็นภาพ
AI slop
VideoPoetคือโมเดลที่ Google ยังไม่เปิดตัว ซึ่งเป็นต้นแบบของLumiere
ดีพเฟค
การสังเคราะห์ภาพมนุษย์

[ 1 ]

[ 2 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]

[ 20 ]

[ 21 ]

[

[

[

[ 25 ]

[ 26 ]

[ 27 ]

28

29

30

31

32

[

[

[

[

[ 37 ]

[ 38 ]

[ 39 ]

[ 40 ]

[ 41 ]

[ 43 ]

[ 47 ]

[ 51 ]

[ 52 ]

[ 53 ]

[ 54 ]

[ 55 ]

[ 56 ]

[

[

[

[ 60 ]

[ 61 ]

[ 62 ]

[ 63 ]

[ 64 ]

[ 65 ]

[ 66 ]

[ 72 ]

[ 73 ]

[ 75 ]

[ 76 ]

[ 77 ]

[ 78 ]

[ 79 ]

[ 80 ]

[ 81 ]

[ 82 ]

[ 83 ]