Google 推出 DiffusionGemma 開放實驗模型,文字生成速度提升 4 倍



Google DeepMind 於 2026 年 6 月 10 日正式發布 DiffusionGemma,這是 Google 第一款採用「擴散技術」(Diffusion)進行文字生成的開放實驗模型。與傳統自迴歸(Autoregressive)模型逐詞從左到右生成的方式不同,DiffusionGemma 可以一次生成整段文字,大幅提升推理速度。

DiffusionGemma 建立在 Gemma 4 系列與 Gemini Diffusion 研究之上,採用 26B Mixture-of-Experts(MoE)架構,推論時僅激活約 3.8B 參數。
其最大特色在於使用「擴散」機制進行文字生成:

  • 模型會先建立一個充滿隨機佔位符的「文字畫布」。
  • 透過多次迭代優化,逐步修正文字內容。
  • 具備雙向注意力(Bidirectional Attention),能同時考量整段文字的上下文。
  • 支援自我修正機制,可在生成過程中即時修復錯誤。
這種方式特別適合需要非線性處理的任務,例如程式碼補全、即時編輯、數學圖形推理等。

根據 Google 公布的數據,DiffusionGemma 在 GPU 上的推理速度最高可比傳統自迴歸模型快 4 倍。量化後的版本可在高階消費級 GPU(如 RTX 5090)上運行,VRAM 需求約 18GB。
Google 表示,該模型特別適合以下場景:

  • 本地端互動式應用
  • 即時程式碼生成與編輯
  • 低延遲的單用戶工作流程
不過,Google 也坦言,DiffusionGemma 在部分基準測試中的輸出品質仍略低於標準 Gemma 4 模型,因此建議在需要最高品質的應用中,仍優先使用傳統 Gemma 4。

DiffusionGemma 已正式開放,採用 Apache 2.0 授權,使用者可自由使用、修改與商業化。目前可在以下平台取得:

  • Hugging Face:google/diffusiongemma-26B-A4B-it
  • Google Cloud Model Garden
  • NVIDIA NIM
  • vLLM
  • llama.cpp(即將支援)
傳統大型語言模型大多採用自迴歸架構,一次只能生成一個 token,這在單一 GPU 的本地環境中效率較低。DiffusionGemma 則借鏡圖像生成領域的擴散模型概念,將文字生成轉為「平行處理整段文字」的模式。 Google 研究團隊指出,這種架構在互動式 coding、即時編輯,以及需要雙向上下文理解的任務上,具有明顯優勢。


相關文章:

《隨機鸚鵡的危險》論文與 Timnit Gebru 被 Google 解雇事件  [6/10/2026]
Google 推出 Agentic RAG 框架 提升企業 AI 回答準確度  [6/7/2026]
Google 正式釋出 Gemma 4 12B-it 多模態模型適合本地部署  [6/4/2026]
Google 鼓勵開發者善用 AI 加速 PostgreSQL 貢獻  [5/30/2026]
Google I/O 2026:Chrome 推出 15 項更新,邁向代理式網路時代  [5/20/2026]
[「擇法善思林之蘭室藏津」的緣起]
端午送愛 北台南家扶志工、扶助家庭包粽4000顆
高鐵延伸屏東緊鄰17處有形文化資產 需先評估結構現況
世足》日媒點名警戒!荷蘭隊「英超最速」後衛蓄勢待發
鍾明軒非首例!恆春半島空拍禁區多 影片上網2年仍挨罰
男子夜間騎車後背竟遭「暗器」所傷 大雅警連夜捉拿嫌犯到案
中部爆發校車司機性侵女學生 議員建議:全面盤點學生校車接送安全
鄭麗文會美官員「連降三級」 國民黨:見到該見的、說了想說的
台中成立火柴故事館 並成立「 工學台火商圈」
高雄轎車陷人行道淤泥 男駕駛狂踩油門竟起火冒煙
坐無虛席!趁股市熱潮 雲林縣府邀資深財務規劃師闕又上分享
桃園復興區水蜜桃公主選拔初賽6人脫穎而出 7/4決勝負
跨黨派聯合造勢「台灣前進陣線」強調團結抗中固主權
北市就服處邀18企業釋職缺 薪資上看49K
看完《鐵拳教育》坐不住了!韓官方首度提議成立「現實版教權局」
砍光文化部媒宣費 翁曉玲嗆:根本不是下重手而是太佛心
[擇法善思林之蘭室藏津]