← 返回 Siami 首頁

微軟 AI 推出 MAI-Code-1-Flash 程式碼模型,聲稱全面擊敗 Claude Haiku 4.5

▲ 279 💬 128
微軟 AI 推出 MAI-Code-1-Flash 程式碼模型,聲稱全面擊敗 Claude Haiku 4.5

今天我們正式推出 MAI-Code-1-Flash,這是一款由 Microsoft AI 全新打造的程式碼模型,專為日常開發工作流程中的快速、高效輔助而設計。整個模型由 Microsoft 從頭到尾自建,訓練資料乾淨且授權合規。目前這款模型正逐步開放給 GitHub Copilot 在 Visual Studio Code 中的個人用戶,可於模型選擇器中選用,或透過預設的自動選擇器自動調用。

功能與特色

  • 真實開發環境中的代理式編碼:模型直接以 GitHub Copilot 的生產環境工具鏈進行訓練與調校,使其在代理式編碼任務中能與 Copilot 的工具與系統無縫協作。
  • 自適應思考:面對簡單需求時保持簡潔,遇到複雜任務時則會投入更多推理預算。
  • 強大的指令遵循能力:在單輪與多輪對話情境中皆表現優異。

MAI-Code-1-Flash 的設計初衷簡單明瞭:以更佳的效率,提供高品質的程式碼協助。在各項程式碼基準測試中,它擊敗了 Claude Haiku 4.5,並擁有更優異的性價比。

為開發者而打造,不是為跑分而生

程式碼模型最有價值的時刻,是它能在開發者每天實際使用的環境中順暢運作。正因如此,我們在打造 MAI-Code-1-Flash 時,將生產環境工作流程置於核心,而非單純為跑分最佳化。

模型直接透過 GitHub Copilot 在生產環境中使用的工具鏈進行訓練。這讓模型能學會如何在代理式編碼任務中與周邊的工具與系統互動,使其相比其他可選模型,更能在真實世界的 Copilot 工作流程中發揮作用。

訓練期間,我們橫跨核心軟體工程任務、程式碼庫問答、重構,以及改編自真實 GitHub Copilot 使用情況的遙測驅動任務進行檢查點評估。這種「訓練—評估—生產」三者的一致性,讓離線改進能真實反映到開發者的實際體驗品質上。

為極大化每個 token 的價值而設計

MAI-Code-1-Flash 採用了自適應解答長度控制的訓練方法,讓模型能依任務難度調整回應深度。面對簡單需求時可保持簡潔,當問題需要更深入分析或更大規模的程式碼異動時,則會投入更多推理預算。實際使用上,開發者能更快看到有用的輸出。

我們觀察到,MAI-Code-1-Flash 在解決較難的問題時,使用的 token 最多可減少 60%。這有助於降低延遲、減少成本、提升 token 投資報酬率,並讓互動式工作流程更加順暢。

在生產工具鏈中的基準測試結果

為同時兼顧品質與效率,我們在 SWE-Bench Verified、SWE-Bench Pro、SWE-Bench Multilingual 和 Terminal Bench 2 等基準上,使用開發者日常編碼時所用的同一套生產工具鏈,將 MAI-Code-1-Flash 與 Claude Haiku 4.5 進行比較。我們同時測量了任務成功率,以及完成每項任務所需的平均解答 token 數。

在所有測試的核心編碼基準上,MAI-Code-1-Flash 的表現都優於 Claude Haiku 4.5,四項評比中都取得更高的通過率,其中在真實多元的 SWE-Bench Pro 任務上,以 51.2% 對比 35.2% 領先了 16 個百分點。

它不僅更聰明,也更精簡:在 SWE-Bench Verified 上,解決更難的問題時 token 用量最多減少 60%,證明更高的準確率與更高的效率,已經不再是零和取捨。

數學、科學、指令遵循與代理式編碼

從表格中可看出,MAI-Code-1-Flash 在每一項基準上皆領先,IF Bench 精確指令遵循領先幅度最大(+28.9 分),進階 IF 評分式評比領先幅度最小(+14.5 分)。強健的指令遵循能力進一步延伸到代理式工具使用。

此外,MAI-Code-1-Flash 在數學、科學與視覺生成編碼等核心推理能力上,也都勝過 Claude Haiku 4.5。

對抗式陷阱測試:模型真的在推理嗎?

一般基準測試獎勵的是「記憶」與「推理」各半的表現——舉例來說,模型見過「蒙提霍爾問題」就能答對;但如果把獎項位置顛倒過來,模型就會答錯。

為此,我們建立了一個涵蓋 186 題、34 類別的基準測試,圍繞「對抗式陷阱」設計,例如顛倒經典問題、不可能完成的任務、條件未充分指定的場景,藉此判斷模型究竟是在推理,還是僅在做樣式比對。

MAI-Code-1-Flash 整體表現超越 Claude Haiku 4.5,調整後的準確率達 85.8%,在推理、指令遵循與辨識「不可能完成的問題」等面向表現特別突出。我們也觀察到模型仍有成長空間,例如「Einstaltung 思維定勢陷阱」等核心對抗類別,準確率仍低於 50%。

試用方式

MAI-Code-1-Flash 現正逐步於 VS Code 中提供給 GitHub Copilot 個人用戶,無需額外設定。在逐步開放的過程中,您可能會看到 GitHub Copilot 透過自動選擇器將任務路由給 MAI-Code-1-Flash,或在模型選擇器中直接看到這個模型可選用。

團隊也用 MAI-Code-1-Flash 在 VS Code 中打造了幾個有趣的範例 App。我們非常期待聽到您的回饋,歡迎加入 GitHub Community 與我們分享意見。

與我們一同打造未來

我們是一個精實、快速迭代的實驗室,匯聚了全球最頂尖的人才。MAI 的運算資源有令人振奮的藍圖,我們的下一代 GB200 叢集已正式上線。我們懷抱著一個真正相信的使命,也很幸運能與傑出的產品團隊合作,讓我們的模型得以接觸數十億使用者,創造巨大的正面影響。

如果您才華洋溢、雄心勃勃且虛懷若谷,這裡就是您大展身手的舞台——歡迎加入我們,一同打造下一代模型!

瀏覽所有職缺

Reddit 熱門留言 (5)

#1 Hacker News 用戶 ▲ 312
擊敗 Claude Haiku 4.5 是一回事,但實際在 Copilot 中能不能穩定發揮又是另一回事。微軟在自家工具鏈上訓練的模型,自然佔了訓練—評估—生產一致性的便宜。
#2 Hacker News 用戶 ▲ 247
用「對抗式陷阱」這類 186 題的小型基準來測試推理,比傳統 SWE-Bench 更能反映模型是不是真的會思考。Claude 4.5 翻車很正常,業界急需這類更誠實的測試方法。
#3 Hacker News 用戶 ▲ 189
微軟同時押寶 OpenAI 與自研 MAI 系列,擺明了要降低對外部夥伴的依賴。Superintelligence 團隊的野心看得出來。
#4 Hacker News 用戶 ▲ 156
『同樣的 token 數解決更難的問題』聽起來很美好,但實際上很多 Copilot 用戶更在意的是『不要在我不該花 token 的地方亂花』。希望微軟不要又走回『長篇大論才顯得認真』的老路。
#5 Hacker News 用戶 ▲ 121
『end-to-end 自行打造,使用乾淨且合適授權的資料』——如果這句話屬實,那 MAI-Code-1-Flash 在企業內部部署的合規性可能比很多開源模型還好。