今天,美團 LongCat 團隊正式發布全新高效推理模型 LongCat-Flash-Thinking。在保持了 LongCat-Flash-Chat 極致速度的同時,全新發布的 LongCat-Flash-Thinking 更強大、更專業。綜合評估顯示,LongCat-Flash-Thinking 在邏輯、數學、代碼、智能體等多個領域的推理任務中,達到了全球開源模型的最先進水平(SOTA)。
同時,LongCat-Flash-Thinking 不僅增強了智能體自主調用工具的能力,還擴展了形式化定理證明能力,成為國內首個同時具備「深度思考+工具調用」與「非形式化+形式化」推理能力相結合的大語言模型。我們發現,尤其在超高復雜度的任務(如數學、代碼、智能體任務)處理上, LongCat-Flash-Thinking 具備更顯著的優勢。
目前, 該模型已在HuggingFace、Github全面開源:
領域並行強化學習訓練方法(Domain-Parallel RL Training)
為了解決強化學習領域混合訓練的穩定性問題,我們設計了壹種領域並行方案,將STEM、代碼和智能體任務的優化過程解耦。這壹方法采用了多領域並行訓練再融合的先進策略,實現模型能力的均衡提升,綜合性能達到帕累托最優(Pareto-Optimal)。
異步彈性共卡系統(Dynamic ORchestration for Asynchronous rollout -- DORA)
我們的異步彈性共卡系統(DORA)是整個訓練的基石。該系統通過彈性共卡調度(Elastic Colocation)與多版本異步流水線(Multi-Version Asynchronous Pipeline)設計,在實現相較於同步RL訓練框架三倍提速的同時,確保了每條樣本的策略壹致性。同時,系統進壹步實現了高效的 KV 緩存復用,能夠支撐萬卡規模集群的穩定運行。
智能體推理框架(Agentic Reasoning Framework)
為進壹步提升模型的智能體推理能力,我們提出了創新性的“雙路徑推理框架”。該框架能夠自主篩選最優查詢樣本,並通過自動化流程將智能體推理與工具使用相結合,使模型能夠智能識別並調用外部工具(如代碼執行器、API等),從而高效解決復雜任務。基於AIME25實測數據,LongCat-Flash-Thinking在該框架下展現出更高效的智能體工具調用(Agentic Tool Use)能力,在確保90%準確率的前提下,相較於不使用工具調用節省了64.5%的Tokens(從19653到6965),顯著優化了推理過程的資源利用率。
形式化推理框架(Formal Reasoning Framework)
為了克服當前開源通用大型語言模型在形式化證明任務中的不足,我們針對形式化推理設計了壹套全新的基於專家叠代框架的數據合成方法,該流程利用集成了 Lean4 服務器的專家叠代框架,生成經過嚴格驗證的證明過程,從而系統性提升模型的形式化推理能力。這壹創新方法系統性地增強了模型的形式化推理能力,提高了其在學術和工程應用中的可靠性。
LongCat-Flash-Thinking在多項權威評測中刷新紀錄,在各類推理任務中均展現出持續領先的性能:
前往 https://longcat.ai/ ,立即體驗 LongCat-Flash-Thinking 的深度思考功能:
開源平臺地址: