Google 正式釋出 Gemma 4 12B-it 多模態模型適合本地部署



Google DeepMind 於 2026 年 6 月 3 日正式在 Hugging Face 釋出 Gemma 4 12B-it(Unified 版本),這是 Gemma 4 系列中備受期待的中型多模態模型。該模型採用 encoder-free(無編碼器)統一架構,能直接處理文字、圖像與音頻,具備 256K 超長上下文,並在多項基準測試中展現強勁實力,特別適合本地部署與開發者使用。


Gemma 4 12B-it 主要特色

  • 參數規模:11.95B(約 120 億)參數
  • 多模態能力:原生支援文字、圖像、音頻(Audio),可處理可變長寬比與解析度的圖像,以及音頻波形
  • 統一架構:捨棄傳統獨立編碼器,直接將圖像 patch 與音頻波形透過輕量線性層投影至模型嵌入空間,大幅降低延遲並提升整合性
  • 上下文長度:最高支援 256K tokens
  • 多語言支援:超過 140 種語言
  • 授權方式:Apache 2.0(商業友好)
根據官方基準測試,Gemma 4 12B-it 在多項重要評測中表現出色:
  • GPQA Diamond:78.8%
  • MMMU Pro(多模態推理):69.0%
  • LiveCodeBench v6(程式碼能力):72.0%
  • AIME 2026(數學):77.5%
  • 長上下文測試(128K 8-needle):43.4%
整體效能已逼近更大規模的模型,特別在程式碼生成與多模態理解上表現優異。

適合本地部署的設計
Gemma 4 12B 被定位為「工作站級」甜蜜點模型。量化後(Q4_K_M)檔案大小僅約 6.7 GB,適合具備 16GB 以上記憶體的筆電或工作站運行。這也讓它成為目前最強大的「可本地高效運行」的多模態開源模型之一。
使用方式

開發者可透過 Transformers 輕鬆載入:

from transformers import AutoProcessor, AutoModelForMultimodalLM 
model_id = "google/gemma-4-12B-it" 
processor = AutoProcessor.from_pretrained(model_id) 
model = AutoModelForMultimodalLM.from_pretrained(model_id, device_map="auto") 

目前已支援 Ollama、LM Studio 等本地工具,可快速體驗。

Gemma 4 12B-it 的推出,顯示 Google 持續推動開源多模態模型的民主化策略。它在效能、效率與易用性之間取得良好平衡,尤其適合開發者、研究人員與企業在本地環境部署多模態 AI 應用。