4K、多模態(tài)、長視頻：AI視頻生成的下一個(gè)戰(zhàn)場，誰在領(lǐng)跑？

2025-06-16 來源：電子發(fā)燒友

1050

關(guān)鍵詞：豆包Seedance 1.0 pro AI視頻生成模型視頻生成技術(shù) 模型對比市場前景

電子發(fā)燒友網(wǎng)報(bào)道（文/李彎彎） 6月11日，豆包App上線視頻生成模型豆包Seedance 1.0 pro。這是字節(jié)跳動最新視頻模型，支持文字與圖片輸入，可生成多鏡頭無縫切換的1080P高品質(zhì)視頻，主體運(yùn)動穩(wěn)定性與畫面自然度較高。

相關(guān)技術(shù)報(bào)告顯示，在國際知名評測榜單Artificial Analysis上，Seedance在文生視頻、圖生視頻兩項(xiàng)任務(wù)上均排名首位，超越Veo3、可靈2.0等優(yōu)秀模型。目前，該模型已通過豆包App、即夢AI、火山引擎等平臺對外開放。

筆者在在豆包App試用，發(fā)現(xiàn)真的非常方便好用，比如，只需在對話框選擇“照片動起來”，上傳圖片或輸入文字指令，等待一會兒就能生成一段視頻。相較此前效果，新模型的視頻結(jié)果更符合物理邏輯且富于生動張力，同時(shí)可以保持對原圖人臉的保真度。

除了豆包的視頻生成模型之外，近年來，國內(nèi)外已經(jīng)出現(xiàn)過多款視頻生成模型，如國外的Runway、Pika、Sora、Veo，國內(nèi)有可靈、PixVerse、騰訊混元、通義萬相等。

Runway

2025年4月8日，Runway 官方稱，現(xiàn)已推出最新版視頻模型Gen-4 Turbo。Gen-4Turbo是Runway Gen-4系列的最新迭代版本。相較于此前的模型，Gen-4Turbo在保持高保真度和動態(tài)運(yùn)動表現(xiàn)的基礎(chǔ)上，大幅縮短了生成時(shí)間。使用 Gen-4 Turbo，用戶只需 30 秒即可生成10秒的視頻，非常適合快速迭代和創(chuàng)意探索。Runway方面表示，Gen-4Turbo現(xiàn)已開始向所有付費(fèi)用戶逐步開放，包括個(gè)人用戶和企業(yè)客戶。

Pika

當(dāng)?shù)貢r(shí)間2024年12月13日，美國AI視頻生成初創(chuàng)公司Pika推出了新版視頻生成模型 Pika 2.0。Pika 2.0最大的亮點(diǎn)是其卓越的可定制性，新推出的“場景配料”功能，允許用戶上傳和自定義角色、物體和場景等各個(gè)元素。通過先進(jìn)的圖像識別技術(shù)，這些元素能夠完美地融入場景中，讓創(chuàng)作者能夠更精細(xì)地控制內(nèi)容。

在技術(shù)層面，Pika 2.0 在文本對齊和運(yùn)動渲染方面都實(shí)現(xiàn)了新突破。系統(tǒng)能夠準(zhǔn)確理解并執(zhí)行復(fù)雜的文字提示，即使是最具挑戰(zhàn)性的場景描述也能被完整地轉(zhuǎn)化為連貫的視頻片段。不論是真實(shí)世界的自然運(yùn)動，還是科幻場景中的特效，都能呈現(xiàn)出令人信服的效果。

Sora

2024年12月，OpenAI推出AI視頻生成模型Sora。OpenAI表示，該工具不僅可以通過文本提示生成視頻，還能夠基于靜態(tài)圖片和已有視頻創(chuàng)建新的內(nèi)容。例如，用戶可以上傳一段視頻剪輯，Sora會生成擴(kuò)展這個(gè)片段的后續(xù)畫面，使視頻變得更長、更完整。新版工具Sora Turbo可以生成最長達(dá)20秒的視頻，并且可以提供這些視頻的多種變體。

Veo 3

在今年5月的I/O開發(fā)者大會上，谷歌發(fā)布第三代視頻生成模型Veo 3。Veo 3能夠根據(jù)提示詞生成高質(zhì)量視頻，同時(shí)自動生成與畫面同步的對白、唇動對齊、擬真環(huán)境音效以及情緒氛圍音軌。其底層技術(shù)V2A（Video-to-Audio）通過將視頻像素轉(zhuǎn)化為語義信號，結(jié)合文本提示生成同步音頻波形，從而實(shí)現(xiàn)了音畫同步。

Veo 3的音畫同步功能基于對物理世界的深刻理解，能夠?qū)崟r(shí)生成與畫面匹配的聲音，例如腳步聲、烹飪聲等，而不是后期拼接。此外，Veo 3還能精準(zhǔn)捕捉畫面情緒，渲染氛圍音效，甚至在多角色、多種風(fēng)格的復(fù)雜場景下表現(xiàn)出色。在長提示詞理解與事件流生成方面，Veo 3也能處理復(fù)雜的事件流，生成邏輯連貫、多步驟執(zhí)行的視頻片段。

可靈AI

2025年4月15日，可靈AI宣布基座模型升級，面向全球正式發(fā)布可靈2.0視頻生成模型及可圖2.0圖像生成模型?？伸`是全球首個(gè)用戶可用的DiT（Diffusion Transformer）視頻生成模型，其2.0版本的模型在動態(tài)質(zhì)量、語義響應(yīng)和畫面美學(xué)做了相應(yīng)提升，而可圖2.0模型主要集中在指令遵循、電影質(zhì)感及藝術(shù)風(fēng)格表現(xiàn)等方面。

5月29日，可靈AI宣布，推出全新可靈2.1系列模型。可靈2.1模型包含標(biāo)準(zhǔn)（720p）、高品質(zhì)（1080p）兩種模式，主打高性價(jià)比和高效生成。其高品質(zhì)模式（1080p）生成5s視頻僅需不到1分鐘，處于業(yè)內(nèi)領(lǐng)先水平。在動態(tài)表現(xiàn)方面，模型動態(tài)細(xì)節(jié)更好、動態(tài)響應(yīng)更強(qiáng)、動態(tài)幅度更大；其次，物理模擬更真實(shí)，人物動作幅度等更加貼近現(xiàn)實(shí)。

PixVerse（拍我AI）

最近，美國iOS應(yīng)用商店有一個(gè)新變化。全球用戶量最大的國產(chǎn)AI視頻生成平臺之一——PixVerse更新了4.5版本，一下子沖到了美國iOS應(yīng)用商店總榜第四，視頻類應(yīng)用第一。今年6月初，PixVerse正式推出國內(nèi)版產(chǎn)品——拍我AI，同步上線網(wǎng)頁端及移動端應(yīng)用，并開放最新V4.5模型供用戶使用。據(jù)介紹，PixVerse自海外上線以來，已累計(jì)吸引全球超6000萬用戶，月活躍用戶突破1600萬，居AI視頻生成領(lǐng)域第一梯隊(duì)。

V4.5模型在生成速度、畫面精細(xì)度及多主體控制等方面均有顯著優(yōu)化，支持更復(fù)雜的電影級運(yùn)鏡與多角色互動敘事。“拍我AI”采用“App+網(wǎng)頁端”雙端策略，滿足不同用戶群體的需求：App端主打趣味化、低門檻體驗(yàn)，內(nèi)置百余種創(chuàng)意模板，如“寵物跳舞”“噴火特效”等，用戶上傳一張照片即可一鍵生成高質(zhì)量短視頻，極大降低AI視頻創(chuàng)作的技術(shù)門檻。

網(wǎng)頁端則面向?qū)I(yè)創(chuàng)作者，提供更精細(xì)的參數(shù)調(diào)節(jié)功能，支持多主體運(yùn)動控制、動態(tài)運(yùn)鏡及智能音效匹配，適用于短劇制作、廣告創(chuàng)意、游戲開發(fā)等高階需求。

除服務(wù)C端用戶外，“拍我AI”還推出了企業(yè)級API開放平臺，目前已與百度、科大訊飛、藍(lán)色光標(biāo)等國內(nèi)頭部企業(yè)達(dá)成合作，提供高效的視頻生成工具。企業(yè)可通過API快速生成營銷視頻、電商素材、私域運(yùn)營內(nèi)容等，大幅降低傳統(tǒng)視頻制作的成本與時(shí)間。

騰訊混元

2025年3月6日，據(jù)騰訊混元消息，騰訊混元發(fā)布圖生視頻模型并對外開源，同時(shí)上線對口型與動作驅(qū)動等玩法，并支持生成背景音效及2K高質(zhì)量視頻。騰訊混元圖生視頻模型目前已經(jīng)上線，企業(yè)和開發(fā)者可在騰訊云申請使用API接口；用戶通過混元AI視頻官網(wǎng)即可體驗(yàn)。混元視頻生成開源模型目前在Github、HuggingFace等主流開發(fā)者社區(qū)均可下載體驗(yàn)。

基于圖生視頻的能力，用戶只需上傳一張圖片，并簡短描述希望畫面如何運(yùn)動、鏡頭如何調(diào)度等，混元即可按照用戶要求讓圖片動起來，變成5秒的短視頻，還能自動配上合適的背景音效。此外，上傳一張人物圖片，并輸入希望“對口型”的文字或音頻，圖片中的人物即可“說話”或“唱歌”；如果選擇動作模版，還能一鍵生成同款跳舞視頻。目前用戶通過混元AI視頻官網(wǎng)即可體驗(yàn)，企業(yè)和開發(fā)者可在騰訊云申請使用API接口使用。

通義萬相

2024年9月 19 日，在杭州云棲大會上，阿里云CTO周靖人宣布通義萬相全面升級，并發(fā)布全新視頻生成模型，可生成影視級高清視頻，可應(yīng)用于影視創(chuàng)作、動畫設(shè)計(jì)、廣告設(shè)計(jì)等領(lǐng)域。即日起，所有用戶可通過通義APP及通義萬相官網(wǎng)免費(fèi)體驗(yàn)。

通義萬相首批上線文生視頻、圖生視頻功能，在文生視頻功能中，用戶輸入任意文字提示詞，即可生成一段高清視頻，支持中英文多語言輸入，并可以通過靈感擴(kuò)寫功能智能豐富視頻內(nèi)容表現(xiàn)力，支持16:9、9:16等多種比例生成；在圖生視頻功能中，支持用戶將任意圖片轉(zhuǎn)化為動態(tài)視頻，按照上傳的圖像比例或預(yù)設(shè)比例進(jìn)行生成，同時(shí)可以通過提示詞來控制視頻運(yùn)動?，F(xiàn)場，阿里云演示了該模型強(qiáng)大的運(yùn)動生成和概念組合能力，輸入“穿著滑冰鞋的小兔子在冰面上靈活移動的可愛場景”，通義萬相僅用數(shù)分鐘就能生成一段高清、逼真的視頻。

寫在最后

AI視頻生成工具有著可觀的市場前景，如在影視制作領(lǐng)域，AI可承擔(dān)分鏡設(shè)計(jì)、后期渲染等任務(wù)，降低制作成本，縮短周期；在廣告營銷領(lǐng)域，可支持批量生成個(gè)性化廣告，通過數(shù)字人形象與用戶實(shí)時(shí)互動，提升轉(zhuǎn)化率；在教育領(lǐng)域，可模擬復(fù)雜操作流程，提供3D動態(tài)演示，提升學(xué)習(xí)效率。

如今國內(nèi)外企業(yè)已經(jīng)推出眾多AI視頻生成模型工具。在技術(shù)迭代上，主流模型已經(jīng)實(shí)現(xiàn)4K分辨率、60秒以上視頻生成，并支持多模態(tài)輸入，包括文本、圖像、音頻。盡管如此，AI視頻生成仍然有很多不足之處，如復(fù)雜物理交互仍易出錯(cuò)；大多模型在生成較長時(shí)間視頻方面仍存在困難；高分辨率視頻生成需要強(qiáng)大硬件支持，訓(xùn)練和推理成本高昂等。所以，如論是從模型角度還是硬件支持角度，AI視頻生成模型還有待持續(xù)優(yōu)化。

相關(guān)文章

行業(yè)動態(tài)

魏少軍最新發(fā)聲：亞洲應(yīng)逐步脫離英偉達(dá)GPU

特斯拉工程師：因馬斯克領(lǐng)導(dǎo)能力不足而辭職

芯原股份今日復(fù)牌漲超14%，每股106.66元購芯來科技

熱讀文章

苗圩出席統(tǒng)籌推進(jìn)疫情防控和產(chǎn)業(yè)轉(zhuǎn)型升級促進(jìn)制造業(yè)通信業(yè)穩(wěn)定發(fā)展發(fā)布會

一圖讀懂2020年《政府工作報(bào)告》

工業(yè)富聯(lián)：擬7763萬美元收購鴻海精密美國子公司相關(guān)資產(chǎn)

日日躁夜夜躁狠狠躁超碰97,无码国内精品久久综合88 ,热re99久久精品国99热,国产萌白酱喷水视频在线播放

4K、多模態(tài)、長視頻：AI視頻生成的下一個(gè)戰(zhàn)場，誰在領(lǐng)跑？

4K、多模態(tài)、長視頻：AI視頻生成的下一個(gè)戰(zhàn)場，誰在領(lǐng)跑？