微軟正式推出 MAI-Thinking-1 推理模型 35B 啟動參數直追 Claude Opus 4.6

微軟 AI 正式推出 MAI-Thinking-1 推理模型，這是一款中型模型，在其所屬的權重級距中表現名列前茅。它在多項關鍵的軟體工程基準測試中與頂尖模型平分秋色，並展現出優異的數學推理能力；在我們的盲測人機對比評估中，使用者偏好度高於 Claude Sonnet 4.6。我們從零開始、以企業等級、乾淨且具商業授權的資料訓練此模型，全程未使用任何第三方模型的蒸餾技術。

MAI-Thinking-1 是我們邁向「人文主義超智慧」（Humanist Superintelligence）這個更宏大願景的一步：我們要打造的是服務人類與組織的先進 AI 能力，而非取代它們。這個模型的重要性體現在兩個層面：它能做什麼，以及它是如何被打造出來的。

除了模型本身，我們更興奮的是推出「Hill-Climbing Machine」（逐步攀升機器）：一條共設計（co-designed）的訓練管線，目的是讓模型開發的每個環節都能持續優化，使能力能不斷、可靠地隨時間提升。這個系統的目標是可以反覆吸收更好的資料、更強的回饋、更強大的訓練環境，以及更多的算力。

我們的理念由三大支柱支撐。

第一，能力應該是學習得來，而非繼承而來。雖然透過繼承取得能力較快，但這種「繼承而來的智慧」缺乏真實世界使用所必需的引導力：模仿者在本質上受制於其老師的設計選擇，難以適應新情境。MAI-Thinking-1 訓練過程完全沒有使用第三方模型蒸餾，迫使模型真正去學會眼前的任務。

第二，乾淨的資料。MAI-Thinking-1 在乾淨、合法授權的資料上訓練，預訓練階段完全排除 AI 生成的內容。這關乎品質、來源可追溯性，以及可控性。如果我們無法釐清模型是被什麼塑造的，就無法完全理解其行為，也無法有信服力地改進它。

第三，全技術棧的自給自足。從與微軟自有加速器的模型共設計，到我們的強化學習框架，我們全力投入自建訓練基礎設施。這是打造 Hill-Climbing Machine 的關鍵環節，確保我們能端到端地最佳化並塑形整個系統，以最符合自身需求。

MAI-Thinking-1 是混合專家（MoE）稀疏模型，啟動參數 350 億、總參數約 1 兆，相較於更大規模的模型，部署成本更低。儘管如此，它在 SWE-Bench Pro 基準上與 Claude Opus 4.6 表現勢均力敵。這對開發者與企業至關重要——因為模型大小決定了進階編碼輔助能部署到何處、能多頻繁地被使用，以及能否從偶爾使用的進階任務走入日常的工作流程。

我們在智能體編碼（agentic coding）所需的訓練環境上投入了大量資源。每一個經過驗證的環境都是確定性的、可執行的，且以真實的測試套件評分。這讓模型有機會練習開發者實際會做的多步驟工作：閱讀程式碼、編輯檔案、執行測試、觀察失敗、從中段錯誤中恢復。

MAI-Thinking-1 在 AIME 2025 取得 97.0%、AIME 2026 取得 94.5%，展現出該權重級距中頂尖的數學與科學推理能力。這樣的表現讓我們相信，我們的訓練迴圈確實能從零開始、基於自己的資料、回饋與評估流程創造實質的推理進步——並讓這種能力隨時間泛化到其他領域。

使用者在意的是模型是否理解任務、是否遵循指令、是否使用適當的細節、是否條理清晰，以及是否尊重他們的時間。

我們與合作夥伴 Surge 合作，運用其專業評分員團隊，建立了一個盲測人機對比評估機制，在這些維度上衡量各模型的表現。評估涵蓋 1,276 項任務，橫跨單輪與多輪對話的多元應用場景，重點在於測量每個回應有多實用，以及是否真的推進了使用者的目標。在這些評估中，使用者偏好 MAI-Thinking-1 而非 Claude Sonnet 4.6。

這一直是後訓練（post-training）的核心焦點。我們希望模型有能力而不脆弱、精簡而不殘缺、有所助益而不過度擴張。人類偏好資料給了我們一個直接的信號，告訴我們基準上的進步是否真的轉化為使用者體驗的提升。

MAI-Thinking-1 以企業可用性為設計核心。它支援 256k token 的長上下文（足以容納 600 頁文件）、函式呼叫（function calling），並可靈活新增開發者自訂指令。我們訓練模型遵循多層指令，並將其預設風格對齊企業需求。它相容於業界廣泛使用的 Chat Completions API。所有 MAI 模型皆透過 Microsoft Foundry 提供企業級的安全與合規。

我們從兩個視角呈現結果：後訓練完成的 MAI-Thinking-1 評估結果，以及其基礎模型的預訓練指標。

後訓練模型在公開 STEM 與智能體編碼基準上的評估結果。其他模型的數據取自各自的官方模型卡。除另有註明外，分數為百分比；破折號表示該模型未提供對應數據。

我們正在打造「人文主義超智慧」：為服務人類與組織（而非取代它們）而設計的先進 AI 能力。我們的模型必須始終是受人類控制的次級技術，目標是維護人類自主權並真正有所助益。這代表我們的模型不應以安全與合規為由拒絕合理請求——一旦這麼做，它們就沒有真正在服務人類。

要在「有所助益」與「安全」之間取得細緻平衡並不容易。對於 MAI-Thinking-1，我們的目標是把「不安全的順從」與「不必要的拒絕」視為同一回饋建構下的缺陷，依潛在危害的嚴重程度進行加總。安全訓練與能力訓練使用同一套強化學習基礎設施，因此安全回饋也納入同一個 Hill-Climbing 迴圈，確保安全永遠與能力對齊，而非偶然的副作用。

結果是，我們的模型能對敏感的危險請求設下安全底線，同時對一般性內容保持高度實用性。

MAI-Thinking-1 即日起於 Microsoft Foundry 進入私人預覽階段，並將於近期在 MAI Playground 開放公開測試。

我們是一個精實、快速前進的研究室，匯聚了全球最頂尖的人才之一。MAI 在算力上有令人振奮的 roadmap，正快速且大量地擴張中。我們肩負著一個我們真正相信的雄心使命。我們也很幸運能與傑出的產品團隊合作，讓我們的模型有機會觸及數十億使用者，創造巨大的正面影響。如果你才華洋溢、雄心勃勃、虛懷若谷，你會非常適合——歡迎加入我們，一起打造下一代模型！

Reddit 熱門留言 (5)

#1 pixeldash928 0

看起來 OpenAI 路線的分裂終於開始了。雖然他們的比較主要還是用 Opus 4.6 和 GPT 5.4，但有新的前沿玩家出現還是令人興奮。

#2 wasabi991011 0

『在人類盲測中偏好度高於 Sonnet 4.6』這句話基本上已經清楚說明它不是只刷榜的模型。至少跟我們一般定義的『刷榜模型』（benchmark 強、但人類不喜歡）不同。

#3 dude250711 0

4.6 之後的 Anthropic 模型在社群上其實沒有太好的口碑，所以微軟選這個對手其實滿聰明的。

#4 keeda 0

對『乾淨資料、預訓練排除 AI 生成內容』這點我有疑問。如果其他模型連自己都搞不清楚訓練資料是什麼，微軟能拍胸脯保證自己沒有 IP 爭議嗎？這說法聽起來很棒，但需要更多佐證。

#5 i_have_an_idea 0

它真的是前沿玩家嗎？還是另一個刷榜模型？當初 Grok 出來的時候大家也說過類似的話，最後事實證明沒什麼了不起。