加密新聞標籤聚合與專題資訊

google-new-open-model-generates-text-diffusiongemma

谷歌 DiffusionGemma AI 跑出每秒 1,000 Token — 而且免費

DiffusionGemma 透過徹底捨棄逐字生成的方式，達到了每秒 1,000 個詞元的速度。不過，它目前尚無法在大多數人的機器上運行。

2026-06-10 來源:decrypt.co

重點摘要

Google 發布了 DiffusionGemma，這是一個免費的開源權重模型，可透過文字擴散（text diffusion）同時生成整個 256 個 token 的區塊——在 NVIDIA H100 上達到每秒超過 1,000 個 token，比標準的自回歸模型快上四倍。
DiffusionGemma 進行本地推論所需的專用草稿模組（drafter module）尚未存在於任何公開的執行環境中——無論是 mlx-lm 還是 LM Studio 皆無——這使得它在目前大多數消費級設備上都無法有效運行。
在 NVIDIA NIM 上，該模型預設配置為 8,192 個 token 的上下文——低於 Hermes Agent 等代理框架所需的 64,000 個 token 下限——這表示自主工作流程在沒有手動重新配置的情況下將無法運行。

Google 今日發表了 DiffusionGemma，這是一個開源 AI 模型，其生成文字的方式類似圖像生成器建立圖片：從雜訊開始，逐步精煉直到內容合理。它在 NVIDIA H100 上能達到每秒 1,000 個 token 的速度。（Token 是 AI 模型處理資訊的基本單位。）這意味著它比一般的 Gemma 快上四倍。它也是免費的，採用 Apache 2.0 授權，模型權重已上傳至 Hugging Face。

然而，一如既往，細節藏在魔鬼裡。根據 Google 的公告，該模型在 NVIDIA GeForce RTX 5090 上可達到「每秒 700+ 個 token」。其輸出品質也落後於標準的 Gemma 4。

Google 自己也承認，這是一個速度模型，而非品質升級。

這項技術的實際作用

你使用過的每一個大型語言模型（LLM）都像一台打字機。一次生成一個 token，每個詞都依賴前一個詞。這就是自回歸架構的運作方式。

DiffusionGemma 並非如此。它不循序生成 token，而是從平行處理的精煉亂碼文本塊開始。根據 Google 的開發者指南，它「從一塊隨機佔位符 token 的畫布開始」，並迭代鎖定確定的 token，直到整個區塊清晰成形。每次前向傳遞處理 256 個 token。這讓 GPU 保持忙碌。

其副作用是雙向注意力機制——每個 token 在生成時都能看到其他所有 token，這在自回歸模型中是不可能實現的（它們無法預見未來，即將編碼的內容）。這使得它在答案結尾約束開頭的任務上表現異常出色：例如程式碼補齊、結構化輸出、受限問題等。Google 曾微調一個版本來解決數獨，作為演示。基礎模型幾乎無法正確解決任何數獨題目。

而微調後的版本成功率達到 80%。

文字擴散（Text diffusion）多年來一直是研究專案。MDLM、SEDD、LLaDA、Dream 等學術模型證明了該方法在小規模應用中可行，但大多停留在概念驗證階段。Inception Labs 於 2026 年 2 月推出了 Mercury 2，這是第一個商用擴散推理模型，聲稱速度比速度優化的競爭對手快五倍。

但這些模型都不是開源權重，也沒有在 vLLM、Hugging Face Transformers 和 Unsloth 中提供初始支援。DiffusionGemma 是頂級實驗室首次發布的重要開源模型。

還有一個值得注意的歷史諷刺。圖像生成器最初是擴散模型（因此得名 Stable Diffusion），現在正轉向自回歸架構以獲得更好的品質。語言模型最初是自回歸模型，現在則正在嘗試擴散模型以提高速度。

為何目前難以運行

高效運行 DiffusionGemma 需要一個「草稿器」（drafter）——這是一個輕量級模組，它平行地提出 token 區塊，然後主模型在一次前向傳遞中驗證這些區塊。這被稱為推測解碼（speculative decoding）。DFlash 是一個於 2026 年初發表的框架，它使用小型擴散模型作為草稿器，在某些任務上實現了超過 6 倍的加速。它是使這類模型變得實用的引擎。

問題在於：DiffusionGemma 需要一個特定的草稿器才能透過 MLX（Apple 針對 Apple Silicon 的機器學習框架）在本地運行。該模組目前尚未存在於任何公開版本的 mlx-lm、任何開放的拉取請求，或 LM Studio 的捆綁執行環境中。

我們嘗試透過 NVIDIA NIM 使用 Hermes 運行 DiffusionGemma。模型載入成功，但隨後出現錯誤：「代理初始化失敗：模型 google/diffusiongemma-26b-a4b-it 的上下文視窗為 8,192 個 token，低於 Hermes Agent 所需的最低 64,000 個 token。」

精確來說：DiffusionGemma 的實際上下文視窗為 256K 個 token。8,192 這個數字是 NVIDIA 預設設定有誤，而非模型的架構限制。

實際上，要為代理使用正確配置它，需要大多數日常用戶尚未掌握的手動操作，而 Hermes Agent 若無此配置根本無法初始化。如果代理無法啟動，平行處理的速度就毫無意義。

希望在未來幾天內，社群能提供更好的資源來運行這些模型。