美團正式發布並開源 LongCat-Flash-Chat,動態計算開啟高效 AI 時代 https://img.meituan.net/smartvenus/29b6da6d257c0af3fe3798a59f147fd9459586.jpg@100w 實現計算效率與性能的雙重優化。
美團正式發布並開源 LongCat-Flash-Chat,動態計算開啟高效 AI 時代
科技創新2025-09-01

今天,我們正式發布 LongCat-Flash-Chat,並同步開源。LongCat-Flash 采用創新性混合專家模型(Mixture-of-Experts, MoE)架構,總參數 560 B,激活參數 18.6B~31.3B(平均 27B),實現了計算效率與性能的雙重優化。

根據多項基準測試綜合評估,作為壹款非思考型基礎模型,LongCat-Flash-Chat 在僅激活少量參數的前提下,性能比肩當下領先的主流模型,尤其在智能體任務中具備突出優勢。並且,因為面向推理效率的設計和創新,LongCat-Flash-Chat 具有明顯更快的推理速度,更適合於耗時較長的復雜智能體應用。

目前,我們在 Github、Hugging Face 平臺同步開源,同時妳也可以訪問官網 https://longcat.ai/,與 LongCat-Flash-Chat 開啟對話。

/ 技術亮點 /

LongCat-Flash 模型在架構層面引入“零計算專家(Zero-Computation Experts)”機制,總參數量 560 B,每個token 依據上下文需求僅激活 18.6B~31.3 B 參數,實現算力按需分配和高效利用。為控制總算力消耗,訓練過程采用 PID 控制器實時微調專家偏置,將單 token 平均激活量穩定在約 27 B。

img
圖1:LongCat-Flash 架構圖

此外,LongCat-Flash 在層間鋪設跨層通道,使 MoE 的通信和計算能很大程度上並行,極大提高了訓練和推理效率。配合定制化的底層優化,LongCat-Flash 在 30 天內完成高效訓練,並在 H800 上實現單用戶 100+ tokens/s 的推理速度。LongCat-Flash 還對常用大模型組件和訓練方式進行了改進,使用了超參遷移和模型層疊加的方式進行訓練,並結合了多項策略保證訓練穩定性,使得訓練全程高效且順利。

針對智能體(Agentic)能力,LongCat-Flash 自建了Agentic評測集指導數據策略,並在訓練全流程進行了全面的優化,包括使用多智能體方法生成多樣化高質量的軌跡數據等,實現了優異的智能體能力。

通過算法和工程層面的聯合設計,LongCat-Flash 在理論上的成本和速度都大幅領先行業同等規模、甚至規模更小的模型;通過系統優化,LongCat-Flash 在 H800 上達成了 100 tokens/s 的生成速度,在保持極致生成速度的同時,輸出成本低至 5元/百萬 token。

/ 性能評估 /

全面且嚴謹的評估表明,LongCat-Flash 是壹款強大且全能的模型,它在多個領域表現出卓越的性能優勢。以下將從不同維度詳細解讀:

img
圖2:LongCat-Flash 的基準測試性能


  • 在通用領域知識方面,LongCat-Flash 表現出強勁且全面的性能:在 ArenaHard-V2 基準測試中取得 86.50 的優異成績,位列所有評估模型中的第二名,充分體現了其在高難度“壹對壹”對比中的穩健實力。在基礎基準測試中仍保持高競爭力,MMLU(多任務語言理解基準)得分為 89.71,CEval(中文通用能力評估基準)得分為 90.44。這些成績可與目前國內領先的模型比肩,且其參數規模少於 DeepSeek-V3.1、Kimi-K2 等產品,體現出較高的效率。
  • 在智能體(Agentic)工具使用方面,LongCat-Flash 展現出明顯優勢:即便與參數規模更大的模型相比,其在 τ2-Bench(智能體工具使用基準)中的表現仍超越其他模型;在高復雜度場景下,該模型在 VitaBench(復雜場景智能體基準)中以 24.30 的得分位列第壹,彰顯出在復雜場景中的強大處理能力。
  • 在編程方面,LongCat-Flash 展現出紮實的實力:其在 TerminalBench(終端命令行任務基準)中,以 39.51 的得分位列第二,體現出在實際智能體命令行任務中的出色熟練度;在 SWE-Bench-Verified(軟件工程師能力驗證基準)中得分為 60.4,具備較強競爭力。
  • 在指令遵循方面,LongCat-Flash 優勢顯著:在 IFEval(指令遵循評估基準)中以 89.65 的得分位列第壹,展現出在遵循復雜且細致指令時的卓越可靠性;此外,在 COLLIE(中文指令遵循基準)和 Meeseeks-zh(中文多場景指令基準)中也斬獲最佳成績,分別為 57.10 和 43.03,凸顯其在中英文兩類不同語言、不同高難度指令集上的出色駕馭能力。
/ 模型部署 /

我們同步提供了分別基於 SGLang 和 vLLM 的兩種高效部署方案,助您輕松部署、快速體驗模型效果。

以下為使用SGLang進行單機部署的示例:

python3 -m sglang.launch_server \    --model meituan-longcat/LongCat-Flash-Chat-FP8 \    --trust-remote-code \    --attention-backend flashinfer \    --enable-ep-moe \    --tp 8

其他更為詳細的部署指導請參閱 LongCat-Flash-Chat 倉庫:

https://github.com/meituan-longcat/LongCat-Flash-Chat

/ 全面開放,即刻體驗 /

前往 https://longcat.ai/ ,立即與 LongCat-Flash-Chat 開啟對話。


img

開源平臺地址:

  • Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Flash-Chat
  • Github:https://github.com/meituan-longcat/LongCat-Flash-Chat

此次我們的開源倉庫統壹采用 MIT License,並允許用戶利用模型輸出、通過模型蒸餾等方式訓練其他模型。