在杭州AI开源生态大会暨“魔搭社区”(杭州)开发者大会上,LongCat-Video 模型研究员康卓梁带来了《LongCat-Video 高效长视频生成探索世界模型的第一步》的报告分享。

以下为演讲全文:

实际上,我们布局视频生成的整体思路是从视频内容生产逐步迈向世界模型。美团作为互联网企业,拥有大量线上内容资产,目前虽以文图为主,但随着视频时代的来临,视频内容的表现力优势愈发凸显。
因此,内部各业务线存在强烈需求,需要将图文资产升级为视频形式。例如,美食图片、商家宣传图、本地生活服务场景图等,将其升级为视频后,能更突出商家卖点,吸引用户消费;同时海报视频化也是核心需求之一。服务好美团内部业务的视频生产需求,正是 LongCat-Video 的基本定位与核心任务。
长期来看,美团未来希望能够成为线上与线下世界的连接者。我们期望通过视频生成任务压缩物理世界知识,为未来内容创作、新型娱乐交互(如数字人)、自动驾驶机器人等场景提供基础的技术底座。基于这一差异化目标,我们将长视频生成作为核心方向。
未来,视频生成不仅服务于内容创作,更将成为模拟物理世界的重要载体,流式长视频是我们的最终实现目标,这也是我们布局视频生成的思路。

接下来,我将介绍 LongCat-Video 的核心特点。当前开源社区已有诸多优秀的视频生成模型,包括 Wan 系列、混元等,因此我将聚焦分享我们模型的差异化特色。
2.1 多能力统一模型

第一个特色是单一模型多能力融合。我们的模型参数为 13.6B,可同时支持文生视频、图生视频与视频续写功能。当前多数模型采用任务拆分模式,文生视频与图生视频分别依赖不同模型,而我们通过技术优化实现了一模型全覆盖,且各功能互不干扰。
常规图生视频常采用扩维思路,将参考图作为额外维度加入,而我们选择更简洁的统一架构:文生视频任务中全为噪声标记(Noise Token);图生视频任务将第一帧噪声标记替换为参考干净帧;视频续写则是特殊场景,将多帧噪声标记替换为干净帧。
在多任务融合过程中,我们总结出两个关键要点。其一,预训练阶段需将所有任务同步训练,确保各任务知识充分融合;其二,改进注意力机制,采用 “Block-Causal” 模式,使视频续写任务能完美支持时序缓存(TV Cache),为长视频生成提供核心支撑。实验表明,三个模态不仅未出现性能退化,反而实现相互促进。
2.1.1 文生视频
2.1.2 图生视频
对创作者而言,图生视频是精准控制生成效果的重要能力,但我们更关注通过不同指令,从同一初始状态控制剧情的差异化走向。例如,基于同一张参考图,输入不同指令可生成“拿杯子”“拿水”“摸小熊”等不同动作的视频。
从长期来看,若指令来自AI“大脑”,即可模拟机器人执行不同动作时物理世界的变化,这对物理世界模拟与仿真具有重要价值。
2.1.3 长视频生成
另一个功能就是我们的视频续写任务,大家可以看到有两个重点的特色。其一,支持持续多轮续写与分钟级长视频生成,现有案例已实现五分钟视频输出,理论上算力充足时可继续续写的。其二,业界内普遍共识当视频长度超过二三十秒后,易出现色调偏移与质量下降。我们通过三项技术解决这一问题:预训练阶段融入视频续写任务、采用 Block-Causal 注意力机制、攻克 GRPO 后训练技术。三者结合确保长视频生成过程中无质量回退问题。
2.1.4 交互式视频生成
下面这个应用是更具实际价值的——交互式视频生成。在续写过程中可通过实时输入新指令调整剧情。例如,让数字人完成“挥手→说话→比心→飞吻”的连贯动作,这对数字人交互场景极具价值。若指令由AI“大脑”输出,数字人可根据用户反应实时调整动作,对剧情创作而言,支持“边生成边构思”,大幅提升创作灵活性,后续将展示更多具体案例。
2.2 高效生成
综上,多功能统一是模型的核心特色,长视频生成与交互式视频则是其主打亮点。接下来介绍另一大亮点——高效生成能力。
我们采用两阶段生成流程:第一阶段先生成低分辨率、低帧率视频,以低成本快速验证效果;确定效果符合预期后,第二阶段通过优化器(Refiner)模块将其升级为高分辨率、高帧率视频。
这一流程包含两个差异化优势。其一,通过LoRA(Low-Rank Adaptation,低秩适配)技术构建 Refiner 模块,无需重新训练完整模型,仅叠加LoRA模块即可,能高效复用模型已有知识。其二,支持分辨率与帧率同步超分,这一特性在社区中具有独特价值。我们发现已有社区开发者玩家将我们的Refiner模块独立使用,例如用Wan S2V 生成低帧率视频后,通过我们的 Refiner 进行超分优化。
针对长视频生成,我们引入稀疏注意力机制,可额外提供近两倍加速。该模块已完整开源,包含前向与反向实现代码,开发者与社区同学可直接用于训练与推理场景。

数据显示,相较于原生 720P 视频生成,我们的优化策略可提供十倍以上加速,且输出帧率更高。以单卡推理速度为基准,8卡并行推理时,生成一段视频仅需十几秒。
2.3 Multi-Reward+GRPO 训练
另一项对行业研发具有参考价值的成果,是我们攻克了 “Multi-Reward(多维度奖励)+GRPO” 的训练难题,这一技术对模型效果提升至关重要。

我们实现了多维度联合优化,涵盖图像质量、内容一致性、动态效果(Motion Quality)等维度,且训练过程中奖励值(Reward)稳定上升。为实现这一目标,我们制定了一系列训练策略,最终发现分组尺寸设为4时,即可实现稳定训练。这对视频生成这类高计算成本任务而言意义重大。

这里有一个具体例子:下面的图是我们的 Base 模型生成结果,能看到人脸及背景存在模糊问题;经过 GRPO 后训练,图像质量有显著提升。这一效果也受益于 Multi-Reward 训练——若仅优化图像质量奖励,视频动态效果会僵化;多维度奖励结合可同时保障动态性与画面质量的提升。


最后,介绍模型对社区用户而言具有优势的应用场景。
第一个是真实图片做动,模型设计的核心定位之一是服务美团内部业务,而我们的业务图片多为真实场景素材,而非美化图,避免虚假宣传是基本要求。这一效果得益于多维度奖励训练:若仅优化图像质量奖励,视频动态效果会僵化;多维度奖励结合可同时保障动态性与画面质量。
因此,模型需实现“既真又美”的效果,我们针对真实图片视频化场景进行了定向强化,在美食、本地生活服务等图片的视频生成中,稳定性表现优异。
第二个场景是海报动态化。美团内部有大量海报素材的动态化需求,但通用模型生成海报视频时,常出现文字、Banner 抖动问题。我们针对该场景进行定向优化,模型可自动识别固定元素(文字、标识)与动态元素(背景、装饰),确保海报动效自然。
第三个应用场景是交互式视频生成:虽未在公司及社区大规模应用,但具有重要探索价值。当前视频生成技术发展迅速,供给端效率提升、门槛降低,但消费端体验未发生本质变化——用户仍以被动观看为主,内容形式仍以观点输出、恶搞视频、电影介绍等为主。我们布局世界模型与交互式视频,正是希望探索新的内容消费模式与玩法。
例如,生成“人物跑步”的初始视频,续写时加入新剧情:第二段让人物发现旁边的杰尼龟并与之击掌,第三段引入小火龙,最后让人物骑上小火龙飞走。这种“边生成边构思”的模式,支持剧情实时调整,创作者可完全主导内容走向。
例如,初始剧情为“人物走进房间”,第二段可设计“爷爷叫住他看报纸”,第三、四段为“两人一同进屋”,最后加入“一个女性走入画框”的新角色,延伸后续剧情。该模式的趣味之处在于支持多分支剧情走向,如同平行世界。
例如,同一初始画面“人物晨起举手”,可衍生出不同剧情:一是“警察上门将其带走”的恶搞走向;二是“伸懒腰后开始工作”的职场走向,后续加入“猫跳进来,人物与之互动”的生活场景,甚至可引入第二只猫延续剧情。
可见,不同创作者对同一初始场景可设计差异化剧情,这有望改变视频生产与消费的体验模式。
以上就是我的分享,谢谢大家!
目前,LongCat-Video 模型及代码已全部开源,大家可在 GitHub 和Hugging Face 上找到。
🌟GitHub:
https://github.com/meituan-longcat/LongCat-Video
🌟Hugging Face:
https://huggingface.co/meituan-longcat/LongCat-Video
完整案例详情可点击了解: https://mp.weixin.qq.com/s/mcJxXxUwOPSmEnv1hhFgMg