今天,我們正式發布 LongCat-Flash-Chat,並同步開源。LongCat-Flash 采用創新性混合專家模型(Mixture-of-Experts, MoE)架構,總參數 560 B,激活參數 18.6B~31.3B(平均 27B),實現了計算效率與性能的雙重優化。
根據多項基準測試綜合評估,作為壹款非思考型基礎模型,LongCat-Flash-Chat 在僅激活少量參數的前提下,性能比肩當下領先的主流模型,尤其在智能體任務中具備突出優勢。並且,因為面向推理效率的設計和創新,LongCat-Flash-Chat 具有明顯更快的推理速度,更適合於耗時較長的復雜智能體應用。
目前,我們在 Github、Hugging Face 平臺同步開源,同時妳也可以訪問官網 https://longcat.ai/,與 LongCat-Flash-Chat 開啟對話。
LongCat-Flash 模型在架構層面引入“零計算專家(Zero-Computation Experts)”機制,總參數量 560 B,每個token 依據上下文需求僅激活 18.6B~31.3 B 參數,實現算力按需分配和高效利用。為控制總算力消耗,訓練過程采用 PID 控制器實時微調專家偏置,將單 token 平均激活量穩定在約 27 B。
此外,LongCat-Flash 在層間鋪設跨層通道,使 MoE 的通信和計算能很大程度上並行,極大提高了訓練和推理效率。配合定制化的底層優化,LongCat-Flash 在 30 天內完成高效訓練,並在 H800 上實現單用戶 100+ tokens/s 的推理速度。LongCat-Flash 還對常用大模型組件和訓練方式進行了改進,使用了超參遷移和模型層疊加的方式進行訓練,並結合了多項策略保證訓練穩定性,使得訓練全程高效且順利。
針對智能體(Agentic)能力,LongCat-Flash 自建了Agentic評測集指導數據策略,並在訓練全流程進行了全面的優化,包括使用多智能體方法生成多樣化高質量的軌跡數據等,實現了優異的智能體能力。
通過算法和工程層面的聯合設計,LongCat-Flash 在理論上的成本和速度都大幅領先行業同等規模、甚至規模更小的模型;通過系統優化,LongCat-Flash 在 H800 上達成了 100 tokens/s 的生成速度,在保持極致生成速度的同時,輸出成本低至 5元/百萬 token。
全面且嚴謹的評估表明,LongCat-Flash 是壹款強大且全能的模型,它在多個領域表現出卓越的性能優勢。以下將從不同維度詳細解讀:
我們同步提供了分別基於 SGLang 和 vLLM 的兩種高效部署方案,助您輕松部署、快速體驗模型效果。
以下為使用SGLang進行單機部署的示例:
python3 -m sglang.launch_server \
--model meituan-longcat/LongCat-Flash-Chat-FP8 \
--trust-remote-code \
--attention-backend flashinfer \
--enable-ep-moe \
--tp 8
其他更為詳細的部署指導請參閱 LongCat-Flash-Chat 倉庫:
https://github.com/meituan-longcat/LongCat-Flash-Chat
前往 https://longcat.ai/ ,立即與 LongCat-Flash-Chat 開啟對話。
開源平臺地址:
此次我們的開源倉庫統壹采用 MIT License,並允許用戶利用模型輸出、通過模型蒸餾等方式訓練其他模型。