OpenAI o3 pro 登場,AI 市場進入新戰局

分類: 軟體 產業新聞   6/11/2025   編輯部


2025/6/10 OpenAI 正式釋出新旗艦模型 o3 pro,同步把既有 o3 API 價格下調 80 %,一手漲規格、一手砍價格,對開發者與競爭對手都投下震撼彈。


產品定位與核心規格

  • 定位:延續 o1 pro 的思路,o3 pro 是「同架構、更多計算」的升級款;官方明言目標是「要最可靠的推理,而非最快的回應」。
  • 上下文:200 k token 視窗、最長單次輸出 4 k token(社群測試),同級最大。
  • 工具鏈:延續 o3 的多工具推理(即時上網、Python、檔案解析、視覺輸入);但目前仍不支援影像生成與 Canvas。


價格與速度:用錢換智慧

模型推理速度\ (token/s)價格 (USD / 百萬 token)\\*代表來源註釋
o3 pro2020 / 80 (入/出)El Pais、Medium最慢、最貴,但最準
o31862 / 8Artificial Analysis高速、划算
GPT 4o772.5 / 10DocsBot快、便宜
Gemini 1.5 Pro901.25 / 5Google Pricing速度略優 4o,仍較便宜
Claude 3 Opus2715 / 75Anthropic 頁面慢且貴
Grok β685 / 15xAI 公開指標中價、中速
\* 速度以公開基準測試或實測均值;o3 pro 取 Medium 評測 2 013 token / 99 秒 20 t/s。 \\ 價格皆為 Input/Output 分開計價。


「智慧程度」:早期基準成績

基準o3 proGPT 4oGemini 2.5 ProClaude 4 Opus
AIME 2024 (高中競賽數學)96.7 %93.4 %89–92 %88 %
GPQA Diamond (博士級科學)84 %79 %76 %73 %
o3 pro 於 OpenAI 內測及第三方測試中,在 AIME、GPQA 等高難度評量皆刷新紀錄,顯示其在複雜邏輯與長鏈推理上確有優勢。


與自家模型的差異

  • o3 pro vs o3

  • 智慧:+ 5 至 8 個百分點(依基準而異)。
  • 速度:降至約 10 %(20 t/s vs 186 t/s)。
  • 成本:10 倍(\$20 /\$80 vs \$2 /\$8)。
→ 面向關鍵決策、科學研究、法律分析等「錯不得」場景。
  • o3 pro vs GPT 4o / o4 mini

  • 4o 依舊在日常互動與即時應用占優(速度、價格),但於數學推理、長篇程式修改等重度工作下,o3 pro 展現更高精度。([reddit.com][17], [docsbot.ai][10])


與競品頂規模型的較量

  • 對 Google Gemini 2.5 Pro:Gemini 在速度與價格領先,但 o3 pro 在專業科目基準(AIME、GPQA)分數仍高出 3–7 個百分點;OpenAI 以「品質溢價」對抗「雲端整合」。

  • 對 Anthropic Claude 4 Opus:Opus 向來強調安全與長文本,然而在最新 GPQA 測試中被 o3 pro 超車;同時 Opus 成本幾乎是 o3 pro 的 1.2 倍。

  • 對 xAI Grok β:Grok 速度適中、價格低於 Opus,但在科學與程式基準仍落後 o3 pro 10 分以上;Twitter/X 生態優勢難以直接對企業市場造成壓力。


產業影響與後續觀察

1. 價格戰升級:OpenAI 先砍 o3 價,再推 o3 pro,對 Google、Anthropic 的高單價策略形成擠壓。

2. 「分層模型」趨勢:以 o 系列為例,mini → 標準 → pro,搭配不同的速率、成本、智慧層級,供開發者按場景取用,雲端業者(Google、Amazon Bedrock)也跟進。

3. 延遲 vs 正確率的取捨:o3 pro 證明「慢工細活」仍有市場—在金融、醫療、科研等高風險領域,願意為每個 token 多付數十倍換更高信賴度。

4. 下一步:外界預期 OpenAI 今年底將公開「o4 full」,若延續「高推理 + 更大上下文 + 降價」節奏,將再次壓縮競爭者空間。


結論

o3 pro 不是給所有人用的——它速度慢且昂貴,但在需要極致準確、可追溯推理的專業領域,提供了當前最強、最一致的語言模型服務。對開發者而言,o3 pro 扮演的是「精準刀」:在關鍵任務時出鞘,其餘則交給快速、便宜的 4o 或 mini 系列。對產業而言,OpenAI 再次以「性能階梯 + 價格槓桿」策略,強化自家產品序列的黏性,也把競爭拉回「品質」而非單純「速度」或「成本」的綜合戰場。