
今天,美團 LongCat 團隊正式對外發布並開源 LongCat-Flash-Thinking-2601。作為已發布的 LongCat-Flash-Thinking 模型的升級版,LongCat-Flash-Thinking-2601在Agentic Search(智能體搜索)、Agentic Tool Use(智能體工具調用)、TIR(工具交互推理)等核心評測基準上,均達到開源模型 SOTA 水平。
該模型尤其在工具調用上表現出卓越的泛化能力,在依賴工具調用的隨機復雜任務中性能超越了 Claude,可大幅度降低真實場景下新工具的適配訓練成本;同時它是首個完整開源並支持在線免費體驗「重思考模式」的模型,同時啟動 8 個大腦飛速運轉,確保思考周全、決策可靠。
目前該功能已經可以在 https://longcat.ai 網站免費體驗(僅選擇深度思考功能時會觸發重思考模式)。


全新升級的「重思考」模式,讓模型學會了“深思熟慮”再行動,遇到高難度問題時,模型會把思考過程拆成並行思考和總結歸納兩步來做:
並行思考階段,模型會同時獨立梳理出好幾條推理路徑,就跟人面對難題時會琢磨不同解法壹個道理,還會特意保證思路的多樣性,生怕漏掉最優解;
總結歸納階段,對多條路徑進行梳理、優化與合成,並將優化結果重新輸入,形成閉環叠代推理,推動思考持續深化。
除此之外,我們還專門設計了額外的強化學習環節,針對性打磨模型的總結歸納能力,讓 LongCat-Flash-Thinking-2601 真正實現“想清楚再行動”。

經過全面嚴謹的評估顯示,LongCat-Flash-Thinking-2601 模型在編程、數學推理、智能體工具調用、智能體搜索維度表現全面領先:

同時,為了更好的測試智能體模型的泛化能力,我們提出了壹種全新的評測方法——通過構建壹套自動化任務合成流程,支持用戶基於給定關鍵詞,為任意場景隨機生成復雜任務。每個生成的任務都配備了對應的工具集與可執行環境。
由於這類環境中的工具配置具有高度隨機性,我們通過評估模型在該類環境中的性能表現,來衡量其泛化能力。實驗結果表明,LongCat-Flash-Thinking-2601 在絕大多數任務中保持領先性能,印證了其在智能體場景下強大的泛化能力。


傳統智能體大多只在幾個簡單模擬環境裏訓練,就像士兵只練過靶場,到了真實“戰場”就掉鏈子。而基於“環境擴展+多環境強化學習”核心技術,為模型打造了多樣化的“高強度練兵場”,構建了多套高質量訓練環境,每套集成60余種工具並形成密集依賴關系圖譜與復雜聯動,支撐起高度復雜的任務場景。實驗證明,訓練環境越豐富,模型在未知場景中的泛化能力越強。得益於這套方案,LongCat-Flash-Thinking-2601 在智能體搜索、智能體工具調用等核心基準測試中穩居前列,尤其在復雜隨機的分布外任務中性能優於Claude。
同時我們針對性擴展自研強化學習基礎設施(DORA),在保留原有高效異步訓練特性的基礎上實現大規模多環境智能體的穩定並行訓練,通過均衡搭配多環境任務、按難度與訓練進度智能分配算力,最大化提升訓練效率與資源利用率,築牢能力根基。此外,我們還從復雜度、多樣性雙維度嚴控訓練任務,配套專屬數據庫及優化方案,杜絕模型“偏科”與訓練漏洞,讓這套全流程方案持續賦能模型,穩居智能體能力第壹梯隊。



現實世界的智能體環境充滿不確定性,API調用失敗、返回異常信息、觀測數據不完整等“噪聲”問題,極易導致模型決策失誤。為此,我們在訓練數據的過程中主動註入多類噪聲,模擬API的調用失敗、返回錯誤信息、數據缺失等場景,並用課程學習(Curriculum Learning)的方式循序漸進去做模型的訓練,在訓練過程中逐步增加噪聲的類型與強度——如果類比成教小孩騎車,我們首先在平坦路面做練習,等技能成熟後再逐步增加路面的復雜度。
可以看到,帶噪聲環境下未經過穩健訓練的模型的表現會出現大幅衰減,Claude 也無法適應全部的噪聲類型。而經過這套系統化的抗幹擾訓練,LongCat-Flash-Thinking-2601(Training w/ Noise 組)擁有了強大的環境適應能力,哪怕在復雜、不理想的場景中,也能良好發揮、高效完成任務。


為降低開發者使用門檻,美團 LongCat 團隊同步開放模型權重、推理代碼與在線體驗能力,支持從快速試用至深度開發的全流程需求:
開源平臺:
在線體驗與調用:
歡迎開發者下載、部署並體驗 LongCat-Flash-Thinking-2601,同時也歡迎您在LongCat API 開放平臺申請免費調用額度。如果您在智能體開發、大模型推理優化等領域有合作想法或反饋,我們期待與您交流。