微軟 AI 正式推出 MAI-Thinking-1 推理模型,這是一款中型模型,在其所屬的權重級距中表現名列前茅。它在多項關鍵的軟體工程基準測試中與頂尖模型平分秋色,並展現出優異的數學推理能力;在我們的盲測人機對比評估中,使用者偏好度高於 Claude Sonnet 4.6。我們從零開始、以企業等級、乾淨且具商業授權的資料訓練此模型,全程未使用任何第三方模型的蒸餾技術。
MAI-Thinking-1 是我們邁向「人文主義超智慧」(Humanist Superintelligence)這個更宏大願景的一步:我們要打造的是服務人類與組織的先進 AI 能力,而非取代它們。這個模型的重要性體現在兩個層面:它能做什麼,以及它是如何被打造出來的。
除了模型本身,我們更興奮的是推出「Hill-Climbing Machine」(逐步攀升機器):一條共設計(co-designed)的訓練管線,目的是讓模型開發的每個環節都能持續優化,使能力能不斷、可靠地隨時間提升。這個系統的目標是可以反覆吸收更好的資料、更強的回饋、更強大的訓練環境,以及更多的算力。
我們的理念由三大支柱支撐。
第一,能力應該是學習得來,而非繼承而來。雖然透過繼承取得能力較快,但這種「繼承而來的智慧」缺乏真實世界使用所必需的引導力:模仿者在本質上受制於其老師的設計選擇,難以適應新情境。MAI-Thinking-1 訓練過程完全沒有使用第三方模型蒸餾,迫使模型真正去學會眼前的任務。
第二,乾淨的資料。MAI-Thinking-1 在乾淨、合法授權的資料上訓練,預訓練階段完全排除 AI 生成的內容。這關乎品質、來源可追溯性,以及可控性。如果我們無法釐清模型是被什麼塑造的,就無法完全理解其行為,也無法有信服力地改進它。
第三,全技術棧的自給自足。從與微軟自有加速器的模型共設計,到我們的強化學習框架,我們全力投入自建訓練基礎設施。這是打造 Hill-Climbing Machine 的關鍵環節,確保我們能端到端地最佳化並塑形整個系統,以最符合自身需求。
MAI-Thinking-1 是混合專家(MoE)稀疏模型,啟動參數 350 億、總參數約 1 兆,相較於更大規模的模型,部署成本更低。儘管如此,它在 SWE-Bench Pro 基準上與 Claude Opus 4.6 表現勢均力敵。這對開發者與企業至關重要——因為模型大小決定了進階編碼輔助能部署到何處、能多頻繁地被使用,以及能否從偶爾使用的進階任務走入日常的工作流程。
我們在智能體編碼(agentic coding)所需的訓練環境上投入了大量資源。每一個經過驗證的環境都是確定性的、可執行的,且以真實的測試套件評分。這讓模型有機會練習開發者實際會做的多步驟工作:閱讀程式碼、編輯檔案、執行測試、觀察失敗、從中段錯誤中恢復。
MAI-Thinking-1 在 AIME 2025 取得 97.0%、AIME 2026 取得 94.5%,展現出該權重級距中頂尖的數學與科學推理能力。這樣的表現讓我們相信,我們的訓練迴圈確實能從零開始、基於自己的資料、回饋與評估流程創造實質的推理進步——並讓這種能力隨時間泛化到其他領域。
使用者在意的是模型是否理解任務、是否遵循指令、是否使用適當的細節、是否條理清晰,以及是否尊重他們的時間。
我們與合作夥伴 Surge 合作,運用其專業評分員團隊,建立了一個盲測人機對比評估機制,在這些維度上衡量各模型的表現。評估涵蓋 1,276 項任務,橫跨單輪與多輪對話的多元應用場景,重點在於測量每個回應有多實用,以及是否真的推進了使用者的目標。在這些評估中,使用者偏好 MAI-Thinking-1 而非 Claude Sonnet 4.6。
這一直是後訓練(post-training)的核心焦點。我們希望模型有能力而不脆弱、精簡而不殘缺、有所助益而不過度擴張。人類偏好資料給了我們一個直接的信號,告訴我們基準上的進步是否真的轉化為使用者體驗的提升。
MAI-Thinking-1 以企業可用性為設計核心。它支援 256k token 的長上下文(足以容納 600 頁文件)、函式呼叫(function calling),並可靈活新增開發者自訂指令。我們訓練模型遵循多層指令,並將其預設風格對齊企業需求。它相容於業界廣泛使用的 Chat Completions API。所有 MAI 模型皆透過 Microsoft Foundry 提供企業級的安全與合規。
我們從兩個視角呈現結果:後訓練完成的 MAI-Thinking-1 評估結果,以及其基礎模型的預訓練指標。
後訓練模型在公開 STEM 與智能體編碼基準上的評估結果。其他模型的數據取自各自的官方模型卡。除另有註明外,分數為百分比;破折號表示該模型未提供對應數據。
我們正在打造「人文主義超智慧」:為服務人類與組織(而非取代它們)而設計的先進 AI 能力。我們的模型必須始終是受人類控制的次級技術,目標是維護人類自主權並真正有所助益。這代表我們的模型不應以安全與合規為由拒絕合理請求——一旦這麼做,它們就沒有真正在服務人類。
要在「有所助益」與「安全」之間取得細緻平衡並不容易。對於 MAI-Thinking-1,我們的目標是把「不安全的順從」與「不必要的拒絕」視為同一回饋建構下的缺陷,依潛在危害的嚴重程度進行加總。安全訓練與能力訓練使用同一套強化學習基礎設施,因此安全回饋也納入同一個 Hill-Climbing 迴圈,確保安全永遠與能力對齊,而非偶然的副作用。
結果是,我們的模型能對敏感的危險請求設下安全底線,同時對一般性內容保持高度實用性。
MAI-Thinking-1 即日起於 Microsoft Foundry 進入私人預覽階段,並將於近期在 MAI Playground 開放公開測試。
我們是一個精實、快速前進的研究室,匯聚了全球最頂尖的人才之一。MAI 在算力上有令人振奮的 roadmap,正快速且大量地擴張中。我們肩負著一個我們真正相信的雄心使命。我們也很幸運能與傑出的產品團隊合作,讓我們的模型有機會觸及數十億使用者,創造巨大的正面影響。如果你才華洋溢、雄心勃勃、虛懷若谷,你會非常適合——歡迎加入我們,一起打造下一代模型!
Reddit 熱門留言 (5)