อ่าน 13 นาที
โมเดลแปลงข้อความเป็นวิดีโอ
แบบจำลอง ข้อความสู่วิดีโอเป็นรูปแบบหนึ่งของปัญญาประดิษฐ์เชิงสร้างสรรค์ที่ใช้ คำอธิบาย ภาษาธรรมชาติเป็นอินพุตเพื่อสร้างวิดีโอที่เกี่ยวข้องกับข้อความอินพุตความก้าวหน้าในช่วงทศวรรษ...
โมเดลแปลงข้อความเป็นวิดีโอ
แบบจำลอง ข้อความสู่วิดีโอเป็นรูปแบบหนึ่งของปัญญาประดิษฐ์เชิงสร้างสรรค์ที่ใช้ คำอธิบาย ภาษาธรรมชาติเป็นอินพุตเพื่อสร้างวิดีโอที่เกี่ยวข้องกับข้อความอินพุต[ 1 ]ความก้าวหน้าในช่วงทศวรรษ 2020 ในการสร้างวิดีโอคุณภาพสูงที่ปรับตามข้อความส่วนใหญ่ขับเคลื่อนโดยการพัฒนาแบบจำลองการแพร่กระจายวิดีโอ[ 2 ]
นางแบบ
มีโมเดลที่แตกต่างกัน รวมถึง โมเดล โอเพนซอร์สการป้อนข้อมูลภาษาจีน[ 3 ] CogVideo เป็นโมเดลแปลงข้อความเป็นวิดีโอรุ่นแรกสุด "ที่มีพารามิเตอร์ 9.4 พันล้านตัว" ที่ได้รับการพัฒนา โดยมีการนำเสนอเวอร์ชันสาธิตของโค้ดโอเพนซอร์สครั้งแรกบนGitHubในปี 2022 [ 4 ]ในปีนั้นMeta Platformsได้เปิดตัวโมเดลแปลงข้อความเป็นวิดีโอแบบบางส่วนที่เรียกว่า "Make-A-Video" [ 5 ] [ 6 ] [ 7 ]และGoogle Brain (ต่อมา คือ Google DeepMind ) ได้แนะนำ Imagen Video ซึ่งเป็นโมเดลแปลงข้อความเป็นวิดีโอด้วย 3D U -Net [ 8 ] [ 6 ] [ 9 ] [ 10 ] [ 11 ]
2023
ในเดือนกุมภาพันธ์ พ.ศ. 2566 Runwayได้เปิดตัว Gen-1 และ Gen-2 ซึ่งเป็นหนึ่งในโมเดลข้อความเป็นวิดีโอและวิดีโอเป็นวิดีโอเชิงพาณิชย์รุ่นแรกๆ ที่ประชาชนสามารถเข้าถึงได้ผ่านทางเว็บอินเทอร์เฟซ Gen-1 ซึ่งเปิดตัวครั้งแรกในรูปแบบวิดีโอเป็นวิดีโอ อนุญาตให้ผู้ใช้แปลงฟุตเทจวิดีโอที่มีอยู่โดยใช้ข้อความหรือรูปภาพ[ 12 ] Gen-2 ซึ่งเปิดตัวในเดือนมีนาคม พ.ศ. 2566 และเปิดให้ใช้งานแก่สาธารณะในเดือนมิถุนายน พ.ศ. 2566 ได้เพิ่มความสามารถในการแปลงข้อความเป็นวิดีโอ ทำให้ผู้ใช้สามารถสร้างวิดีโอจากข้อความเพียงอย่างเดียวได้[ 13 ]
ในเดือนมีนาคม พ.ศ. 2566 มีการเผยแพร่บทความวิจัยเรื่อง "VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation" ซึ่งนำเสนอแนวทางใหม่ในการสร้างวิดีโอ[ 14 ]โมเดล VideoFusion แยกกระบวนการแพร่กระจายออกเป็นสองส่วน คือ สัญญาณรบกวนพื้นฐานและสัญญาณรบกวนที่เหลือ ซึ่งใช้ร่วมกันในแต่ละเฟรมเพื่อให้มั่นใจถึงความสอดคล้องกันในเชิงเวลา โดยการใช้โมเดลการแพร่กระจายภาพที่ได้รับการฝึกฝนล่วงหน้าเป็นตัวสร้างพื้นฐาน โมเดลนี้สามารถสร้างวิดีโอคุณภาพสูงและสอดคล้องกันได้อย่างมีประสิทธิภาพ การปรับแต่งโมเดลที่ได้รับการฝึกฝนล่วงหน้าบนข้อมูลวิดีโอช่วยแก้ไขช่องว่างระหว่างข้อมูลภาพและข้อมูลวิดีโอ ทำให้ความสามารถของโมเดลในการสร้างลำดับวิดีโอที่สมจริงและสม่ำเสมอเพิ่มขึ้น[ 15 ]ในเดือนเดียวกันนั้นAdobeได้เปิดตัว Firefly AI เป็นส่วนหนึ่งของฟีเจอร์ต่างๆ[ 16 ]
2024
ในเดือนมกราคม 2024 Googleประกาศการพัฒนาโมเดลแปลงข้อความเป็นวิดีโอชื่อ Lumiere ซึ่งคาดว่าจะรวมความสามารถในการตัดต่อวิดีโอขั้นสูง[ 17 ] Matthias NiessnerและLourdes Agapitoจากบริษัท AI Synthesiaทำงานเกี่ยวกับการพัฒนาเทคนิคการเรนเดอร์โครงข่ายประสาท 3 มิติที่สามารถสังเคราะห์วิดีโอที่สมจริงโดยใช้การแสดงโครงข่ายประสาท 2 มิติและ 3 มิติของรูปร่าง ลักษณะ และการเคลื่อนไหวสำหรับการสังเคราะห์วิดีโออวตารที่ควบคุมได้[ 18 ]ในเดือนมิถุนายน 2024 Luma Labs เปิดตัวเครื่องมือวิดีโอDream Machine [ 19 ] [ 20 ]ในเดือนเดียวกันนั้น[ 21 ] Kuaishouขยายโมเดลแปลงข้อความเป็นวิดีโอ Kling AI ให้กับผู้ใช้ทั่วโลก ในเดือนกรกฎาคม 2024 ByteDanceเจ้าของTikTokเปิดตัว Jimeng AI ในประเทศจีนผ่านบริษัทในเครือ Faceu Technology [ 22 ]ภายในเดือนกันยายน พ.ศ. 2567 บริษัท AI ของจีนMiniMaxได้เปิดตัวโมเดล video-01 ซึ่งเข้าร่วมกับบริษัทโมเดล AI ที่มีชื่อเสียงอื่นๆ เช่นZhipu AI , BaichuanและMoonshot AIซึ่งมีส่วนสนับสนุนการมีส่วนร่วมของจีนในเทคโนโลยี AI [ 23 ]ในเดือนธันวาคม พ.ศ. 2567 Lightricksได้เปิดตัวLTX Videoเป็นโมเดลโอเพนซอร์ส[ 24 ]
2025
แนวทางทางเลือกสำหรับโมเดลแปลงข้อความเป็นวิดีโอ ได้แก่[ 25 ] Phenaki ของ Google, Hour One, Colossyan [ 3 ] Gen -3 Alpha ของRunway [ 26 ] [ 27 ] และ Soraของ OpenAI [ 28 ] [ 29 ] นอกจากนี้ ยังมีโมเดลแปลงข้อความเป็นวิดีโอเพิ่มเติมอีกหลายโมเดล เช่น Plug-and-Play, Text2LIVE และ TuneAVideo [ 30 ] Black Forest Labs ผู้พัฒนา FLUX.1ได้ประกาศว่าโมเดลแปลงข้อความเป็นวิดีโอของตนเป็น SOTA แล้ว[ 31 ] Googleกำลังเตรียมที่จะเปิดตัวเครื่องมือสร้างวิดีโอชื่อVeoสำหรับYouTube Shortsในปี 2025 [ 32 ] ในเดือนพฤษภาคม 2025 Google ได้เปิดตัว Veo 3 ซึ่งเป็นรุ่นปรับปรุงของโมเดลนี้ โดย ได้รับการยกย่องในด้านความสามารถในการสร้างเสียงที่น่าประทับใจ ซึ่งเป็นข้อจำกัดก่อนหน้านี้ของโมเดล แปลงข้อความเป็นวิดีโอ[ 33 ]ในเดือนกรกฎาคม พ.ศ. 2568 Lightricks ได้ปล่อยการอัปเดต LTX Video ที่สามารถสร้างคลิปที่มีความยาวถึง 60 วินาที[ 34 ] [ 35 ]และในเดือนตุลาคม พ.ศ. 2568 ก็ได้ปล่อย LTX-2 ซึ่งมีคุณสมบัติเสียงในตัว[ 36 ]
2026
ในเดือนกุมภาพันธ์ พ.ศ. 2569 ByteDanceได้ปล่อยSeedance 2.0 ออกมา ซึ่งได้รับการยกย่องในด้านการสร้างภาพที่สมจริง การควบคุมการเคลื่อนไหวและกล้อง และการสร้างภาพในเวลา 15 วินาที[ 37 ]อย่างไรก็ตาม โมเดลนี้กลับถูกวิพากษ์วิจารณ์อย่างหนักจากสมาคมภาพยนตร์แห่งสหรัฐอเมริกา (Motion Picture Association ) ในข้อหาละเมิดลิขสิทธิ์[ 38 ]หลังจากได้ชมคลิปไวรัลเกี่ยวกับการต่อสู้ระหว่างนักแสดงอย่างแบรด พิตต์และทอม ครูซเร็ตต์ รีสผู้ร่วมเขียนบทภาพยนตร์เรื่องDeadpool & WolverineและZombielandได้ประกาศบนโซเชียลมีเดียว่า "ผมไม่อยากพูดเลย แต่มันคงจบสิ้นสำหรับเราแล้ว" [ 39 ]และยังกล่าวเพิ่มเติมว่า "ในเวลาไม่นาน คนๆ หนึ่งจะสามารถนั่งอยู่หน้าคอมพิวเตอร์และสร้างภาพยนตร์ที่แยกไม่ออกจากสิ่งที่ฮอลลีวูดปล่อยออกมาในปัจจุบันได้" [ 40 ]
ในเดือนกรกฎาคม พ.ศ. 2569 Bytedance ได้เปิดตัว Seedance 2.5 ซึ่งเป็นเทคโนโลยีล้ำสมัยสำหรับโมเดลแปลงข้อความเป็นวิดีโอ โดยสามารถสร้างวิดีโอเนทีฟความยาว 30 วินาทีได้โดยใช้ข้อมูลอ้างอิงมัลติโมดอล 50 รายการเป็นอินพุต[ 41 ]
สถาปัตยกรรมและการฝึกอบรม
มีสถาปัตยกรรมหลายแบบที่ใช้สร้างโมเดลข้อความเป็นวิดีโอ เช่นเดียวกับ โมเดล ข้อความเป็นภาพโมเดลเหล่านี้สามารถฝึกฝนได้โดยใช้เครือข่ายประสาทแบบวนซ้ำ (RNN) เช่น เครือข่าย หน่วยความจำระยะยาวแบบสั้น (LSTM) ซึ่งใช้สำหรับโมเดลการแปลงพิกเซลและโมเดลการสร้างวิดีโอแบบสุ่ม ซึ่งช่วยให้มีความสม่ำเสมอและความสมจริงตามลำดับ[ 42 ]ทางเลือกอื่นสำหรับสิ่งเหล่านี้ ได้แก่ โมเดลทรานส์ฟอร์เมอร์เครือข่ายปฏิปักษ์เชิงกำเนิด (GAN) ตัวเข้ารหัสอัตโนมัติแบบแปรผัน (VAE) ซึ่งสามารถช่วยในการทำนายการเคลื่อนไหวของมนุษย์[ 43 ]และโมเดลการแพร่กระจายยังถูกนำมาใช้เพื่อพัฒนาด้านการสร้างภาพของโมเดลด้วย[ 44 ]
ชุดข้อมูลข้อความ-วิดีโอที่ใช้ในการฝึกโมเดล ได้แก่ WebVid-10M, HDVILA-100M, CCV, ActivityNet และ Panda-70M [ 45 ] [ 46 ]ชุดข้อมูลเหล่านี้ประกอบด้วยวิดีโอต้นฉบับที่น่าสนใจ วิดีโอที่สร้างขึ้น วิดีโอที่มีคำบรรยาย และข้อมูลข้อความหลายล้านรายการ ซึ่งช่วยในการฝึกโมเดลให้มีความแม่นยำ ชุดข้อมูลข้อความ-วิดีโอที่ใช้ในการฝึกโมเดล ได้แก่ PromptSource, DiffusionDB และ VidProM [ 45 ] [ 46 ]ชุดข้อมูลเหล่านี้มีข้อความอินพุตหลากหลายประเภทที่จำเป็นในการสอนโมเดลให้ตีความข้อความแจ้งเตือนต่างๆ
กระบวนการสร้างวิดีโอเกี่ยวข้องกับการซิงโครไนซ์อินพุตข้อความกับเฟรมวิดีโอ เพื่อให้แน่ใจว่ามีการจัดเรียงและความสอดคล้องตลอดทั้งลำดับ กระบวนการคาดการณ์นี้อาจมีคุณภาพลดลงเมื่อความยาวของวิดีโอเพิ่มขึ้นเนื่องจากข้อจำกัดของทรัพยากร[ 46 ]การทดสอบ Will Smith Eating Spaghettiเป็นเกณฑ์มาตรฐานสำหรับโมเดล[ 47 ]
ข้อจำกัด
แม้ว่าโมเดลแปลงข้อความเป็นวิดีโอจะพัฒนาอย่างรวดเร็วในด้านประสิทธิภาพ แต่ข้อจำกัดหลักคือต้องใช้การคำนวณหนักมาก ซึ่งจำกัดความสามารถในการให้ผลลัพธ์ที่มีคุณภาพสูงและยาวนาน[ 48 ] [ 49 ]นอกจากนี้ โมเดลเหล่านี้ยังต้องการข้อมูลการฝึกอบรมเฉพาะจำนวนมากเพื่อให้สามารถสร้างผลลัพธ์ที่มีคุณภาพสูงและสอดคล้องกัน ซึ่งก่อให้เกิดปัญหาด้านการเข้าถึง[ 49 ] [ 48 ]
นอกจากนี้ โมเดลอาจตีความข้อความผิดพลาด ส่งผลให้วิดีโอที่ได้เบี่ยงเบนไปจากความหมายที่ตั้งใจไว้ ซึ่งอาจเกิดขึ้นเนื่องจากข้อจำกัดในการจับบริบททางความหมายที่ฝังอยู่ในข้อความ ซึ่งส่งผลต่อความสามารถของโมเดลในการจัดเรียงวิดีโอที่สร้างขึ้นให้ตรงกับข้อความที่ผู้ใช้ต้องการ[ 49 ] [ 46 ]ปัจจุบันมีการทดสอบและปรับปรุงโมเดลต่างๆ มากมาย รวมถึง Make-A-Video, Imagen Video, Phenaki, CogVideo, GODIVA และ NUWA เพื่อเพิ่มความสามารถในการจัดเรียงและประสิทธิภาพโดยรวมในการสร้างวิดีโอจากข้อความ[ 49 ]
อีกปัญหาหนึ่งของผลลัพธ์คือ ข้อความหรือรายละเอียดเล็กๆ ในวิดีโอที่สร้างโดย AI มักจะดูผิดเพี้ยน ซึ่งเป็นปัญหาที่ แบบจำลอง การแพร่กระจายแบบเสถียรก็ประสบเช่นกัน ตัวอย่างเช่น มือที่บิดเบี้ยวและข้อความที่อ่านไม่ออก
จริยธรรม
การใช้งานโมเดลแปลงข้อความเป็นวิดีโอทำให้เกิดข้อควรพิจารณาทางจริยธรรมที่เกี่ยวข้องกับการสร้างเนื้อหา โมเดลเหล่านี้มีศักยภาพในการสร้างเนื้อหาที่ไม่เหมาะสมหรือไม่ได้รับอนุญาต รวมถึงเนื้อหาที่โจ่งแจ้ง ความรุนแรงที่ชัดเจน ข้อมูลที่ผิดพลาด และภาพเหมือนของบุคคลจริงโดยไม่ได้รับความยินยอม[ 45 ]การรับรองว่าเนื้อหาที่สร้างโดย AI เป็นไปตามมาตรฐานที่กำหนดไว้สำหรับการใช้งานที่ปลอดภัยและมีจริยธรรมเป็นสิ่งสำคัญ เนื่องจากเนื้อหาที่สร้างโดยโมเดลเหล่านี้อาจไม่สามารถระบุได้ง่ายว่าเป็นอันตรายหรือทำให้เข้าใจผิด ความสามารถของ AI ในการจดจำและกรอง เนื้อหา NSFWหรือเนื้อหาที่มีลิขสิทธิ์ยังคงเป็นความท้าทายอย่างต่อเนื่อง ซึ่งมีผลกระทบต่อทั้งผู้สร้างและผู้ชม[ 45 ]
ผลกระทบและการประยุกต์ใช้
โมเดลข้อความเป็นวิดีโอมีแอปพลิเคชันที่หลากหลายซึ่งอาจเป็นประโยชน์ต่อสาขาต่างๆ ตั้งแต่การศึกษาและการส่งเสริมการขายไปจนถึงอุตสาหกรรมสร้างสรรค์ โมเดลเหล่านี้สามารถปรับปรุงการสร้างเนื้อหาสำหรับวิดีโอฝึกอบรม ตัวอย่างภาพยนตร์ เนื้อหาเกม และการแสดงภาพ ทำให้การสร้างเนื้อหาง่ายขึ้น[ 50 ]
ในระหว่างสงครามรัสเซีย-ยูเครนวิดีโอปลอมที่สร้างด้วยปัญญาประดิษฐ์ถูกสร้างขึ้นเพื่อเป็นส่วนหนึ่งของสงครามโฆษณาชวนเชื่อต่อต้านยูเครนและเผยแพร่ในโซเชียลมีเดียซึ่งรวมถึงภาพเด็กในกองทัพยูเครนโฆษณาปลอมที่มุ่งเป้าไปที่เด็ก ๆ โดยสนับสนุนให้พวกเขาประณามผู้ที่วิพากษ์วิจารณ์รัฐบาลยูเครนหรือคำกล่าวอ้างที่แต่งขึ้นโดยประธานาธิบดีโวโลดีมีร์ เซเลนสกี ของยูเครน เกี่ยวกับการยอมจำนนของประเทศ เป็นต้น[ 51 ] [ 52 ] [ 53 ] [ 54 ] [ 55 ] [ 56 ]
ภาพยนตร์
Kaur vs Kore เป็น ภาพยนตร์สารคดีเรื่องแรกของอินเดีย ที่สร้างโดยใช้AI เชิงสร้างสรรค์ซึ่งมีตัวละคร AI ของSunny Leone รับบทสองตัวละคร กำหนดฉายในปี 2026 [ 57 ] [ 58 ] [ 59 ]
Chiranjeevi Hanuman – The Eternalเป็น ภาพยนตร์ อินเดียที่สร้างขึ้นโดยใช้ปัญญาประดิษฐ์เชิงสร้างสรรค์ (Generative AI)ที่สร้างโดย Vijay Subramaniam ซึ่งมีกำหนดฉายในโรงภาพยนตร์ในปี 2026 ภาพยนตร์เรื่องนี้ถูกวิพากษ์วิจารณ์อย่างกว้างขวางจากผู้สร้างภาพยนตร์ใน วงการ บอลลีวูดเนื่องจากพึ่งพา AI มากเกินไป และการใช้ AI ถูกมองว่าเป็นภัยคุกคามต่ออาชีพการงานของพวกเขา[ 60 ] [ 61 ] [ 62 ]
ชุด
มหาภารตะ: เอกธรรมยุทธเป็น ซีรีส์เทพนิยาย อินเดียที่ออกฉายทาง OTT ในเดือนตุลาคม พ.ศ. 2568 และสตรีมบนJioHotstarได้รับการยอมรับว่าเป็นซีรีส์เรื่องแรกที่สร้างขึ้นโดยใช้ปัญญาประดิษฐ์ ทั้งหมด ในการสร้างภาพและแอนิเมชั่นตัวละคร และประกอบด้วย 100 ตอน[ 63 ] [ 64 ] [ 65 ]
Craft (1979)เป็น ซีรีส์ Minecraft ที่สร้างโดย AI ซึ่งเผยแพร่ในเดือนมิถุนายน 2026 สร้างโดยผู้ใช้ LatentDiffusion โดยใช้Seedance 2.0ซีรีส์นี้ได้รับการยกย่องทางออนไลน์เนื่องจากสามารถถ่ายทอดความรู้สึกและประสบการณ์ของผู้ที่เล่น Minecraft เป็นครั้งแรกในรูปแบบการเล่าเรื่อง โดยผู้ใช้หลายคนระบุว่าซีรีส์นี้ดีกว่า ภาพยนตร์อย่าง เป็นทางการในปี 2025 [ 66 ]
การเปรียบเทียบโมเดล
| รุ่น/ผลิตภัณฑ์ | บริษัท | ปีที่วางจำหน่าย | สถานะ | คุณสมบัติหลัก | ความสามารถ | ราคา | ความยาวของวิดีโอ | ภาษาที่รองรับ |
|---|---|---|---|---|---|---|---|---|
| ซินเธเซีย | ซินเธเซีย | 2019 | ปล่อยแล้ว | อวตาร AI, รองรับหลายภาษามากกว่า 60 ภาษา, ตัวเลือกการปรับแต่ง[ 67 ] | เชี่ยวชาญด้านอวตาร AI ที่สมจริงสำหรับการฝึกอบรมองค์กรและการตลาด[ 67 ] | บริการแบบสมัครสมาชิก เริ่มต้นที่ประมาณ 30 ดอลลาร์ต่อเดือน | แตกต่างกันไปตามแพ็คเกจการสมัครสมาชิก | 60+ |
| เว็กซูบ | เว็กซูบ | 2023 | ปล่อยแล้ว | ข้อความแปลงเป็นวิดีโอจากข้อความแจ้งเตือน เน้นรูปแบบการเล่าเรื่องบน TikTok และ YouTube สำหรับโซเชียลมีเดีย[ 68 ] | สร้างวิดีโอ AI (1–15 นาที) จากข้อความแจ้งเตือน รวมถึงคุณสมบัติการแก้ไขและเสียง[ 68 ] | ให้บริการแบบสมัครสมาชิก โดยมีแพ็คเกจให้เลือกหลากหลาย | นานสูงสุด ~15 นาที | 70+ |
| อินวิดีโอ AI | อินวิดีโอ | 2021 | ปล่อยแล้ว | การสร้างวิดีโอที่ขับเคลื่อนด้วย AI, คลังภาพขนาดใหญ่, อวตารพูดได้ด้วย AI [ 67 ] | ปรับแต่งสำหรับเนื้อหาโซเชียลมีเดียด้วยเทมเพลตเฉพาะแพลตฟอร์ม[ 67 ] | มีแผนบริการฟรี และแผนบริการแบบเสียค่าใช้จ่ายเริ่มต้นที่ 16 ดอลลาร์ต่อเดือน | แตกต่างกันไปตามประเภทของเนื้อหา | หลายรายการ (ไม่ได้ระบุ) |
| ฟลิกิ | ฟลิกิ AI | 2022 | ปล่อยแล้ว | ข้อความถึงวิดีโอด้วยอวตาร AI และเสียง รองรับภาษาและเสียงอย่างครอบคลุม[ 67 ] | รองรับอวตาร AI มากกว่า 65 รายการและเสียงมากกว่า 2,000 เสียงใน 70 ภาษา[ 67 ] | มีแผนบริการฟรี และแผนบริการแบบเสียค่าใช้จ่ายเริ่มต้นที่ 30 ดอลลาร์ต่อเดือน | แตกต่างกันไปตามแพ็คเกจการสมัครสมาชิก | 70+ |
| รันเวย์ เจนเนอเรชั่น 2 | รันเวย์ AI | 2023 | ปล่อยแล้ว | การสร้างวิดีโอหลายรูปแบบจากข้อความ รูปภาพ หรือวิดีโอ[ 69 ] | ภาพคุณภาพสูง โหมดต่างๆ เช่น การจัดรูปแบบและสตอรี่บอร์ด[ 69 ] | ทดลองใช้งานฟรี, แพ็กเกจแบบชำระเงิน (ไม่ระบุรายละเอียด) | สูงสุด 16 วินาที | หลายรายการ (ไม่ได้ระบุ) |
| พิกาแล็บส์ | พิกาแล็บส์ | 2024 | เบต้า | การสร้างวิดีโอแบบไดนามิก การปรับแต่งกล้องและการเคลื่อนไหว[ 70 ] | ใช้งานง่าย เน้นการสร้างไดนามิกตามธรรมชาติ[ 70 ] | ขณะนี้เปิดให้ใช้งานฟรีในช่วงเบต้า | มีความยืดหยุ่น รองรับวิดีโอความยาวมากขึ้นพร้อมฟังก์ชั่นต่อเฟรม | หลายรายการ (ไม่ได้ระบุ) |
| รันเวย์ เจน 3 อัลฟ่า | รันเวย์ AI | 2024 | อัลฟ่า | ความแม่นยำของภาพที่ได้รับการปรับปรุง มนุษย์ที่เหมือนจริง การควบคุมเวลาแบบละเอียด[ 71 ] | การสร้างวิดีโอที่สมจริงเป็นพิเศษด้วยการกำหนดคีย์เฟรมที่แม่นยำและการปรับแต่งระดับอุตสาหกรรม[ 71 ] | ทดลองใช้งานฟรีได้ มีราคาพิเศษสำหรับองค์กรขนาดใหญ่ | แต่ละคลิปมีความยาวสูงสุด 10 วินาที และสามารถขยายเวลาได้ | หลายรายการ (ไม่ได้ระบุ) |
| กูเกิล วีโอ | 2024 | ปล่อยแล้ว | การแจ้งเตือน Google Gemini , การพากย์เสียง, เอฟเฟกต์เสียง, เพลงประกอบ วิดีโอสมจริงสไตล์ภาพยนตร์[ 72 ] | สามารถสร้างโมเดลตัวละคร/ฉาก/คลิปที่สมจริงและมีรายละเอียดมาก พร้อมเสียงพากย์ เสียงบรรยากาศ และดนตรีประกอบที่เข้ากันอย่างลงตัว สามารถขยายคลิปให้ต่อเนื่องได้[ 73 ] | ราคาแตกต่างกันไป (ค่าสมัครสมาชิก Google Pro/Ultra AI 250 ดอลลาร์สหรัฐ และค่าเติมเครดิต AI เพิ่มเติม) | แต่ละคลิปมีความยาวแปดวินาที (อย่างไรก็ตาม สามารถต่อคลิปหรือขยายคลิปแยกกันได้) | 50+ | |
| OpenAI โซระ | โอเพ่นไอ | 2024 | อัลฟ่า | ความเข้าใจภาษาอย่างลึกซึ้ง ภาพยนตร์คุณภาพสูง วิดีโอหลายช็อต[ 74 ] | สามารถสร้างวิดีโอที่มีรายละเอียด ไดนามิก และแสดงอารมณ์ได้อย่างชัดเจน ยังอยู่ในระหว่างการพัฒนาโดยมีมาตรการด้านความปลอดภัย[ 74 ] | ยังไม่มีการเปิดเผยราคา | คาดว่าจะสร้างวิดีโอที่มีความยาวมากขึ้น รายละเอียดเกี่ยวกับระยะเวลาจะแจ้งให้ทราบภายหลัง | หลายรายการ (ไม่ได้ระบุ) |
| แอลทีเอ็กซ์ | ไลท์ริกส์ | 2024 | ปล่อยแล้ว | ระบบสร้างเสียง/วิดีโอแบบครบวงจร พร้อมปุ่มควบคุมหลายแบบ | สามารถปรับเงื่อนไขและกระตุ้นได้ผ่านข้อความ รูปภาพ วิดีโอ หรือเสียง | โอเพ่นซอร์ส[ 75 ] | สามารถขยายได้ถึง 60 วินาที[ 76 ] | หลายรายการ (ไม่ได้ระบุ) |
| บริบทฟลักซ์ | ห้องปฏิบัติการแบล็กฟอเรสต์ (BFL) | 2024 | ||||||
| รันเวย์ เจนเนอเรชั่น 4 | รันเวย์ | 2025 | ปล่อยแล้ว | ตัวละครที่สอดคล้องกันในฉากต่างๆ[ 77 ]ความสอดคล้องของโลก[ 78 ]การควบคุมกล้อง การจำลองฟิสิกส์ | สร้างคลิปความยาว 5-10 วินาทีที่มีตัวละคร วัตถุ และสภาพแวดล้อมที่สอดคล้องกันในหลายๆ ช็อต[ 79 ] | การสมัครสมาชิกแบบใช้เครดิต ซึ่งเป็นส่วนหนึ่งของแพ็กเกจแบบชำระเงิน | 5-10 วินาที | หลายรายการ (ไม่ได้ระบุ) |
| หิ่งห้อย | อะโดบี | 2024 | ปล่อยแล้ว | การแก้ไขตามคำสั่ง การควบคุมการเคลื่อนไหวของกล้อง โมเดลบุคคลที่สาม[ 80 ] | สร้างการเคลื่อนไหวจากข้อความแจ้งเตือนหรือเฟรมเดียวโดยใช้วิดีโออ้างอิง[ 81 ] | การสมัครสมาชิกแบบใช้เครดิต | สูงสุด 5 วินาที | |
| คลิง | คูไอโชว | 2024 | ปล่อยแล้ว | |||||
| มินิแม็กซ์ | มินิแม็กซ์ | 2024 | ||||||
| ซีดแดนซ์ 2.0 | เมล็ดพันธุ์ ByteDance | 2026 | ปล่อยแล้ว | แจ้งเตือนไปยังวิดีโอ[ 82 ] | เพิ่มลักษณะที่คล้ายคลึงกันให้มากที่สุดจากบุคคลและทรัพย์สินที่เป็นที่รู้จัก | 30 วินาที | หลายรายการ (ไม่ได้ระบุ) | |
| แฮปปี้ฮอร์ส 1.0 | อาลีบาบา | 2026 | ปล่อยแล้ว | แจ้งเตือนไปยังวิดีโอ[ 83 ] | เพิ่มลักษณะที่คล้ายคลึงกันให้มากที่สุดจากบุคคลและทรัพย์สินที่เป็นที่รู้จัก | สูงสุด 15 วินาที | หลายรายการ (ไม่ได้ระบุ) |
ดูเพิ่มเติม
- โมเดลแปลงข้อความเป็นภาพ
- AI slop
- VideoPoetคือโมเดลที่ Google ยังไม่เปิดตัว ซึ่งเป็นต้นแบบของLumiere
- ดีพเฟค
- การสังเคราะห์ภาพมนุษย์
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ โมเดลแปลงข้อความเป็นวิดีโอ
แบบจำลอง ข้อความสู่วิดีโอเป็นรูปแบบหนึ่งของปัญญาประดิษฐ์เชิงสร้างสรรค์ที่ใช้ คำอธิบาย ภาษาธรรมชาติเป็นอินพุตเพื่อสร้างวิดีโอที่เกี่ยวข้องกับข้อความอินพุตความก้าวหน้าในช่วงทศวรรษ...
นางแบบ
มีโมเดลที่แตกต่างกัน รวมถึง โมเดล โอเพนซอร์ส การป้อนข้อมูลภาษาจีน [ 3 ] CogVideo เป็นโมเดลแปลงข้อความเป็นวิดีโอรุ่นแรกสุด "ที่มีพารามิเตอร์ 9.
2023
ในเดือนกุมภาพันธ์ พ.ศ. 2566 Runway ได้เปิดตัว Gen-1 และ Gen-2 ซึ่งเป็นหนึ่งในโมเดลข้อความเป็นวิดีโอและวิดีโอเป็นวิดีโอเชิงพาณิชย์รุ่นแรกๆ ที่ประชาชนสามารถเข้าถึงได้ผ่านทางเว็บอินเทอร์เฟซ Gen-1 ซึ่งเปิดตัวครั้งแรกในรูปแบบวิดีโอเป็นวิดีโอ...
2024
ในเดือนมกราคม 2024 Google ประกาศการพัฒนาโมเดลแปลงข้อความเป็นวิดีโอชื่อ Lumiere ซึ่งคาดว่าจะรวมความสามารถในการตัดต่อวิดีโอขั้นสูง [ 17 ] Matthias Niessner และ Lourdes Agapito จากบริษัท AI Synthesia ทำงานเกี่ยวกับการพัฒนาเทคนิคการเรนเดอร์โครงข่ายประสาท 3...