在杭州AI開源生態大會暨“魔搭社區”(杭州)開發者大會上,LongCat-Video 模型研究員康卓梁帶來了《LongCat-Video 高效長視頻生成探索世界模型的第壹步》的報告分享。

以下為演講全文:

實際上,我們布局視頻生成的整體思路是從視頻內容生產逐步邁向世界模型。美團作為互聯網企業,擁有大量線上內容資產,目前雖以文圖為主,但隨著視頻時代的來臨,視頻內容的表現力優勢愈發凸顯。
因此,內部各業務線存在強烈需求,需要將圖文資產升級為視頻形式。例如,美食圖片、商家宣傳圖、本地生活服務場景圖等,將其升級為視頻後,能更突出商家賣點,吸引用戶消費;同時海報視頻化也是核心需求之壹。服務好美團內部業務的視頻生產需求,正是 LongCat-Video 的基本定位與核心任務。
長期來看,美團未來希望能夠成為線上與線下世界的連接者。我們期望通過視頻生成任務壓縮物理世界知識,為未來內容創作、新型娛樂交互(如數字人)、自動駕駛機器人等場景提供基礎的技術底座。基於這壹差異化目標,我們將長視頻生成作為核心方向。
未來,視頻生成不僅服務於內容創作,更將成為模擬物理世界的重要載體,流式長視頻是我們的最終實現目標,這也是我們布局視頻生成的思路。

接下來,我將介紹 LongCat-Video 的核心特點。當前開源社區已有諸多優秀的視頻生成模型,包括 Wan 系列、混元等,因此我將聚焦分享我們模型的差異化特色。
2.1 多能力統壹模型

第壹個特色是單壹模型多能力融合。我們的模型參數為 13.6B,可同時支持文生視頻、圖生視頻與視頻續寫功能。當前多數模型采用任務拆分模式,文生視頻與圖生視頻分別依賴不同模型,而我們通過技術優化實現了壹模型全覆蓋,且各功能互不幹擾。
常規圖生視頻常采用擴維思路,將參考圖作為額外維度加入,而我們選擇更簡潔的統壹架構:文生視頻任務中全為噪聲標記(Noise Token);圖生視頻任務將第壹幀噪聲標記替換為參考幹凈幀;視頻續寫則是特殊場景,將多幀噪聲標記替換為幹凈幀。
在多任務融合過程中,我們總結出兩個關鍵要點。其壹,預訓練階段需將所有任務同步訓練,確保各任務知識充分融合;其二,改進註意力機制,采用 “Block-Causal” 模式,使視頻續寫任務能完美支持時序緩存(TV Cache),為長視頻生成提供核心支撐。實驗表明,三個模態不僅未出現性能退化,反而實現相互促進。
2.1.1 文生視頻
2.1.2 圖生視頻
對創作者而言,圖生視頻是精準控制生成效果的重要能力,但我們更關註通過不同指令,從同壹初始狀態控制劇情的差異化走向。例如,基於同壹張參考圖,輸入不同指令可生成“拿杯子”“拿水”“摸小熊”等不同動作的視頻。
從長期來看,若指令來自AI“大腦”,即可模擬機器人執行不同動作時物理世界的變化,這對物理世界模擬與仿真具有重要價值。
2.1.3 長視頻生成
另壹個功能就是我們的視頻續寫任務,大家可以看到有兩個重點的特色。其壹,支持持續多輪續寫與分鐘級長視頻生成,現有案例已實現五分鐘視頻輸出,理論上算力充足時可繼續續寫的。其二,業界內普遍共識當視頻長度超過二三十秒後,易出現色調偏移與質量下降。我們通過三項技術解決這壹問題:預訓練階段融入視頻續寫任務、采用 Block-Causal 註意力機制、攻克 GRPO 後訓練技術。三者結合確保長視頻生成過程中無質量回退問題。
2.1.4 交互式視頻生成
下面這個應用是更具實際價值的——交互式視頻生成。在續寫過程中可通過實時輸入新指令調整劇情。例如,讓數字人完成“揮手→說話→比心→飛吻”的連貫動作,這對數字人交互場景極具價值。若指令由AI“大腦”輸出,數字人可根據用戶反應實時調整動作,對劇情創作而言,支持“邊生成邊構思”,大幅提升創作靈活性,後續將展示更多具體案例。
2.2 高效生成
綜上,多功能統壹是模型的核心特色,長視頻生成與交互式視頻則是其主打亮點。接下來介紹另壹大亮點——高效生成能力。
我們采用兩階段生成流程:第壹階段先生成低分辨率、低幀率視頻,以低成本快速驗證效果;確定效果符合預期後,第二階段通過優化器(Refiner)模塊將其升級為高分辨率、高幀率視頻。
這壹流程包含兩個差異化優勢。其壹,通過LoRA(Low-Rank Adaptation,低秩適配)技術構建 Refiner 模塊,無需重新訓練完整模型,僅疊加LoRA模塊即可,能高效復用模型已有知識。其二,支持分辨率與幀率同步超分,這壹特性在社區中具有獨特價值。我們發現已有社區開發者玩家將我們的Refiner模塊獨立使用,例如用Wan S2V 生成低幀率視頻後,通過我們的 Refiner 進行超分優化。
針對長視頻生成,我們引入稀疏註意力機制,可額外提供近兩倍加速。該模塊已完整開源,包含前向與反向實現代碼,開發者與社區同學可直接用於訓練與推理場景。

數據顯示,相較於原生 720P 視頻生成,我們的優化策略可提供十倍以上加速,且輸出幀率更高。以單卡推理速度為基準,8卡並行推理時,生成壹段視頻僅需十幾秒。
2.3 Multi-Reward+GRPO 訓練
另壹項對行業研發具有參考價值的成果,是我們攻克了 “Multi-Reward(多維度獎勵)+GRPO” 的訓練難題,這壹技術對模型效果提升至關重要。

我們實現了多維度聯合優化,涵蓋圖像質量、內容壹致性、動態效果(Motion Quality)等維度,且訓練過程中獎勵值(Reward)穩定上升。為實現這壹目標,我們制定了壹系列訓練策略,最終發現分組尺寸設為4時,即可實現穩定訓練。這對視頻生成這類高計算成本任務而言意義重大。

這裏有壹個具體例子:下面的圖是我們的 Base 模型生成結果,能看到人臉及背景存在模糊問題;經過 GRPO 後訓練,圖像質量有顯著提升。這壹效果也受益於 Multi-Reward 訓練——若僅優化圖像質量獎勵,視頻動態效果會僵化;多維度獎勵結合可同時保障動態性與畫面質量的提升。


最後,介紹模型對社區用戶而言具有優勢的應用場景。
第壹個是真實圖片做動,模型設計的核心定位之壹是服務美團內部業務,而我們的業務圖片多為真實場景素材,而非美化圖,避免虛假宣傳是基本要求。這壹效果得益於多維度獎勵訓練:若僅優化圖像質量獎勵,視頻動態效果會僵化;多維度獎勵結合可同時保障動態性與畫面質量。
因此,模型需實現“既真又美”的效果,我們針對真實圖片視頻化場景進行了定向強化,在美食、本地生活服務等圖片的視頻生成中,穩定性表現優異。
第二個場景是海報動態化。美團內部有大量海報素材的動態化需求,但通用模型生成海報視頻時,常出現文字、Banner 抖動問題。我們針對該場景進行定向優化,模型可自動識別固定元素(文字、標識)與動態元素(背景、裝飾),確保海報動效自然。
第三個應用場景是交互式視頻生成:雖未在公司及社區大規模應用,但具有重要探索價值。當前視頻生成技術發展迅速,供給端效率提升、門檻降低,但消費端體驗未發生本質變化——用戶仍以被動觀看為主,內容形式仍以觀點輸出、惡搞視頻、電影介紹等為主。我們布局世界模型與交互式視頻,正是希望探索新的內容消費模式與玩法。
例如,生成“人物跑步”的初始視頻,續寫時加入新劇情:第二段讓人物發現旁邊的傑尼龜並與之擊掌,第三段引入小火龍,最後讓人物騎上小火龍飛走。這種“邊生成邊構思”的模式,支持劇情實時調整,創作者可完全主導內容走向。
例如,初始劇情為“人物走進房間”,第二段可設計“爺爺叫住他看報紙”,第三、四段為“兩人壹同進屋”,最後加入“壹個女性走入畫框”的新角色,延伸後續劇情。該模式的趣味之處在於支持多分支劇情走向,如同平行世界。
例如,同壹初始畫面“人物晨起舉手”,可衍生出不同劇情:壹是“警察上門將其帶走”的惡搞走向;二是“伸懶腰後開始工作”的職場走向,後續加入“貓跳進來,人物與之互動”的生活場景,甚至可引入第二只貓延續劇情。
可見,不同創作者對同壹初始場景可設計差異化劇情,這有望改變視頻生產與消費的體驗模式。
以上就是我的分享,謝謝大家!
目前,LongCat-Video 模型及代碼已全部開源,大家可在 GitHub 和Hugging Face 上找到。
🌟GitHub:
https://github.com/meituan-longcat/LongCat-Video
🌟Hugging Face:
https://huggingface.co/meituan-longcat/LongCat-Video
完整案例詳情可點擊了解: https://mp.weixin.qq.com/s/mcJxXxUwOPSmEnv1hhFgMg