mistral-ai-open-source-model-agents-internet-not-impressed
Mistral AI 推出全新開源模型。網路普遍不看好,唯獨一點例外
Mistral Medium 3.5 是稀有的西方開源頂尖作品,但其價格是多個中國競爭對手的數倍,而這些對手在基準測試中表現更優。
2026-04-30 來源:decrypt.co

簡而言之

  • Mistral Medium 3.5 是一個擁有 1,280 億參數的密集模型,每百萬代幣的輸入費用為 1.50 美元,輸出費用為 7.50 美元,遠高於可比較的中國替代品。
  • 中國的開源模型——Qwen、GLM、MiMo-V2——在排行榜上名列前茅,使得 Mistral 成為西方唯一的堅守者。
  • Mistral 將此次發布定位為未來大型旗艦模型的基石。

Mistral AI 於 4 月 29 日發布了 Mistral Medium 3.5。這家總部位於巴黎的實驗室宣布推出一個擁有 1,280 億參數的密集模型和一系列代理功能——卻直接撞上了網路上「不怎麼樣」的反應牆。

此次發布分為三個部分。首先是模型本身。其次是透過 Mistral Vibe CLI 實現的遠端編碼代理——這是基於雲端的編碼會話,可以將拉取請求推送到 GitHub 並並行運行,而無需您坐在終端機前。第三是 Le Chat 中的工作模式,這是 Mistral 的 ChatGPT 式消費者介面,現在可以處理多步驟的自主任務,例如電子郵件分類、研究綜合和跨工具工作流程。

雄心勃勃,但基準測試結果卻不盡理想。

Medium 3.5 在 SWE-Bench Verified 上獲得 77.6% 的分數,這是一個程式碼基準測試,用於評估模型是否能透過生成可行的補丁來修復真實的 GitHub 問題。它在 τ³-Telecom 上也達到 91.4%,該測試衡量了在專業環境中代理工具的使用能力。Mistral 還將之前獨立的三個模型(Medium 3.1、Magistral 和 Devstral 2)合併為一組權重,每個請求都可配置推理工作量。

用一個統一的模型取代三個模型是工程上的一大勝利。問題在於其成本以及它所面臨的競爭對手。

Mistral 每百萬輸入代幣收費 1.50 美元,每百萬輸出代幣收費 7.50 美元。阿里巴巴的 Qwen 3.6 擁有 270 億參數——不到 Medium 3.5 參數數量的四分之一——在相同的 SWE-Bench Verified 基準測試中得分為 72.4%,並在 Apache 2.0 許可下發布,這意味著您可以免費下載和運行它。

你知道嗎?

參數是決定 AI 學習、推理和儲存資訊能力的關鍵。參數越多,模型的知識廣度就越大。

瀏覽開源排行榜,情況非常明顯。榜首位置屬於阿里巴巴的 Qwen、智譜 AI 的 GLM 和小米的 MiMo-V2,它們都比 Mistral 的新發布更便宜、更強大、更具競爭力。Medium 3.5 甚至尚未在主要的獨立排行榜上獲得排名——第三方評估仍在進行中。

不過,正如一些人所說,唯一的好處是,Mistral 目前是唯一在開源討論中佔有一席之地的非中國模型。

I think Mistral has the 10th highest valuation in the whole AI scene (something like that).

All while they consistently release some of the worst models.

They have survived through European bureaucracy, lobbying and politics.

All because they’ve convinced demented bureaucrat… https://t.co/kh7ASvdi7C

— Youssof Altoukhi (@Youssofal_) April 29, 2026

網路反應

華盛頓大學機器學習教授 Pedro Domingos 毫不客氣地說:

「一般的 AI 公司會吹噓他們的模型在基準測試中表現多麼出色。只有 Mistral 會吹噓他們的模型有多麼糟糕。」

Regular AI companies brag about how much better their model is on benchmarks. Only Mistral brags about how much worse its one is. pic.twitter.com/WcAKskaVpL

— Pedro Domingos (@pmddomingos) April 30, 2026

他隨後提出一個更尖銳的問題:「我不知道哪個更糟糕,歐洲未能參與 AI 競賽,還是由 Mistral 這樣一個笑柄來代表。」

Yoyo Studios 創始人 Youssof Altoukhi 做了計算:Qwen 3.6 擁有 270 億參數,比 Medium 3.5 小 4.7 倍,但在編碼方面得分相當。Medium 3.5 的輸出定價使其與在所有主要基準測試中得分明顯更高的閉源模型並列。

他說:「如果不是他們的政治手腕,他們現在早就破產了。」

並非所有人都完全不屑一顧。AI 開發者 Michal Langmajer 捕捉到了這種矛盾情緒:

「我真心很高興仍然有非美國、非中國的實驗室試圖建立前沿的 LLM,但天啊,我們歐洲必須提升水平。他們的新旗艦模型在任何基準測試中基本上都不是『最好的』,但成本卻是大多數競爭對手的數倍。」

I’m genuinely glad there’s still a non-US, non-Chinese lab trying to build frontier LLMs (@MistralAI) but boy we have to level up the game in Europe.

Their new flagship model is basically “not the best” on any benchmark, yet costs multiple times more than most competitors... pic.twitter.com/JwvR5eKWmT

— Michal Langmajer (@MichalLangmajer) April 30, 2026

一些開發者認為,開源權重是一種持久性策略,而不是排行榜策略。任何可以下載、微調和自我託管的模型,今天不一定非要贏得排名才能保持相關性。其他人則指出 Mistral 在歐洲的實際企業部署,證明其護城河不僅僅是技術層面。

地緣政治安全網

這正是 Mistral 真正的賣點所在。

受到 GDPR 規範的歐洲企業、處理敏感客戶資料的銀行,以及不願將 AI 工作負載經由中國基礎設施傳輸的政府,其選擇有限。正如 Decrypt 去年 12 月報導,匯豐銀行與 Mistral 簽署了一項多年期協議,專門在其自有基礎設施上託管模型。一家估值 140 億美元、總部位於歐盟的開源權重實驗室的吸引力,並不會體現在基準測試表格中——但它會體現在採購決策中。

它在編碼方面並非最好,也並非最便宜。但它具備以下特點:非美國、非中國、可審計、可自我託管,並且對歐洲企業而言是合法安全的。