發(fā)布并開源了迄今最智能的模型——GLM-5.1。這不僅是在核心工程能力上全面對齊Claude Opus 4.6的中國模型,更以單次任務持續(xù)工作8小時、自主交付工程級成果的能力,將AI從“回答問題”推向“完成項目”的新階段。
與過去一年行業(yè)主旋律“降價”截然相反,GLM-5.1再度提價10%,編碼場景定價首次追平海外頭部廠商Anthropic。國產大模型從價格戰(zhàn)、低價換量轉向性能溢價,定價權悄然易主。
長期以來,全球大模型賽道始終存在一條難以逾越的鴻溝:開源模型與頂尖閉源模型之間存在肉眼可見的能力代差,而中國開源模型更是長期被貼上追趕者的標簽,在國際公認的通用能力榜單上,始終與Claude、GPT系列的頂級閉源產品有明顯差距。
GLM-5.1的發(fā)布打破了這一行業(yè)共識。在最貼近真實軟件開發(fā)場景的SWE-bench Pro基準測試中,GLM-5.1刷新全球成績,實現了國產模型對Claude Opus 4.6的首次超越。
SWE-bench Pro測試完全基于真實GitHub倉庫的工業(yè)級任務,長期以來其頭部位置始終被GPT、Claude系列頂級閉源模型牢牢壟斷。
對此,一位國內AI行業(yè)資深分析師認為,GLM-5.1此次刷新全球成績,不僅是國產模型首次登頂,更是開源模型首次在該基準上擊敗全球最強編程模型,用實打實的測試成績證明,開源模型完全可以在核心通用能力上比肩甚至超越全球頂級閉源旗艦。
代碼能力是模型智能水平進階的核心標尺,GLM-5.1在此實現了升級。業(yè)內最具代表性的SWE-Bench Pro、Terminal-Bench 2.0、NL2Repo三項代碼評測基準綜合平均分顯示,GLM-5.1拿下全球模型第三、國產模型第一、開源模型第一的成績。
更值得關注的是其在長程任務上的突破。GLM-5.1是少數達到8小時級持續(xù)工作的開源模型,也是全球范圍內除Claude Opus 4.6外少數具備這一長程能力的模型。
智譜方面介紹,從3分鐘的Vibe Coding到30分鐘的Agentic Engineering,再到本次8小時長程任務模型的落地,GLM-5.1完成了代碼與工程能力步入交付級別的根本性突破。
一年前,行業(yè)還深陷“價格戰(zhàn)”,普遍降價九成以上爭奪份額。智譜為何敢于反向操作?
業(yè)內認為,結合智譜此次提價10%并與Anthropic價格對齊的動作來看,意味著其可以向企業(yè)和個人用戶交付與Claude相當的工程價值。
智譜CEO張鵬此前在中關村論壇上回應稱,長期依賴低價競爭不利于行業(yè)發(fā)展,調價旨在將價格拉回正常的商業(yè)價值區(qū)間?!巴瓿梢粋€長程任務所需要的Token量可能是回答一個簡單問題時的十倍甚至百倍,價格調整本質上是價值變化的自然結果。”
上述AI行業(yè)資深分析師認為,智譜的目標不是靠低價換取市場份額,而是國產大模型不斷提升智能水平,再以性能錨定國際基準。當模型能獨立完成8小時的工程級任務,其產出的商業(yè)價值已遠非單次對話可比。
與當前以分鐘級交互為主的模型不同,GLM-5.1專為長程任務設計,能夠在一次任務中獨立、持續(xù)地工作長達8小時,期間自主規(guī)劃、執(zhí)行、自我進化,最終交付完整的工程級成果。
智譜團隊在訓練方法上做了關鍵調整,包括擴展任務過程的訓練窗口、特別優(yōu)化模型的tool use能力。迭代后的GLM-5.1能夠形成實驗→分析→優(yōu)化的完整閉環(huán),像真正的工程師一樣工作:碰壁時主動切換策略,出錯后自行修復,最終交付完整的工程級成果。
以8小時從零構建Linux桌面任務為例,用戶白天畫好架構草圖,睡前交給GLM-5.1,早上醒來已產出完整系統。歷時8小時整,執(zhí)行1700多步,GLM-5.1在20分鐘時產生第一個有意義的成果,最終交付了一套功能完善的Linux桌面系統,包括完整的桌面、窗口管理器、狀態(tài)欄、應用程序、VPN管理器、中文字體支持、游戲庫等4.8MB的配套文件。
這相當于一個4人團隊一周的開發(fā)工作量,且全程沒有人參與測試兜底、代碼審查。值得一提的是,GLM-5.1甚至給自己的代碼寫了一些回歸測試——并且自己通過了測試。
智譜表示,其終極目標是全自治智能體(Autonomous Agent),模型7×24小時不間斷地感知任務、分解目標、執(zhí)行交付、自我評價與糾正、自我進化,從此無需人類介入。