AI 晶片大亂鬥：代理推論時代，速度不再是唯一信仰

過去兩年 AI 晶片的故事很簡單：誰能堆更多 FLOPS、更高 HBM 頻寬、更密集 GPU 叢集，誰就贏。NVIDIA 因此封王，整個產業鏈圍著 H100、H200、Blackwell 與 NVLink 重新洗牌。

但 2025 年底開始，劇本變了。NVIDIA 砸下 200 億美元拿下 Groq、AMD MI450 接連拿下 Meta 與 Anthropic 訂單、雲端三巨頭加碼自研 ASIC——這些事件指向同一件事：AI 算力市場正在從「比誰跑得快」分裂成「誰能用最低總成本，讓代理可靠完成最多有價值的工作」。

訓練時代的勝利，埋下了下一局的問題

NVIDIA 的成功不是運氣。GPU 為高平行度矩陣運算而生，CUDA、cuDNN、TensorRT、NVLink 形成的生態鎖定，加上完美卡到 LLM 訓練軍備競賽的時機點，才有了 FY2026 全年營收 2,159 億美元（YoY +65%）、第四季單季 681 億美元、資料中心單季 620 億美元的歷史紀錄。

但訓練不是 AI 商業化的終點，推論才是。當數十億使用者、企業流程、客服、coding agent、廣告投放每天都在呼叫模型，推論會變成 AI 經濟的水電費——而水電費的競爭邏輯，跟豪華超跑完全不同。

這裡出現第一個分歧：人類在螢幕前等答案時，延遲是體驗；機器在背景替你工作時，延遲只是排程問題。前者要快，後者要便宜、穩定、可擴展。NVIDIA 為前者打造了無可挑戰的方案；但後者，正在打開新的競技場。

解答推論 vs 代理推論：同樣是 inference，是兩種生意

Ben Thompson 在 Stratechery 提出的關鍵框架，是把推論拆成兩類：解答推論（answer inference）由人類等待回應，低延遲與高 token 速度直接決定體驗；代理推論（agentic inference）由機器在背景跑任務，瓶頸更常是上下文容量、狀態保存、工具呼叫與單位任務成本。

這個分類會改變整個資料中心採購邏輯。過去買 GPU 是滿足訓練與高價推論；未來若大量任務變成背景代理，採購會更像物流車隊管理——不是每輛車都要法拉利，而是把不同貨物配到最合適的載具。GPU、ASIC、wafer-scale、SRAM-only 架構各自會有自己的舞台。

Groq 收購案：黃仁勳親自承認 GPU 解決不了所有推論

最戲劇性的訊號來自 2025 年 12 月。NVIDIA 同意以約 200 億美元現金拿下 Groq——史上最大手筆，但結構刻意設計成「非獨家技術授權＋人才」而非完整併購，Groq 主體與品牌仍存。Groq 的賭注是把整個模型權重塞進晶片內建 SRAM，靠數十倍於 DRAM 的成本換取毫秒級延遲。

這筆交易的意義超越單一公司：黃仁勳親自下注「未來推論市場無法只靠 GPU 解決」。當 AI 滲透到即時翻譯、互動式 coding agent、金融高頻決策時，毫秒級延遲會直接決定產品能不能用。Cerebras（WSE-3 單晶圓 4 兆顆電晶體）也屬於這條「為速度不計成本」的極端路線，並正在推進 IPO，估值上看 266 億美元。

AMD 從備胎變第二選擇，雲端 ASIC 從內部走向外部

光譜的另一端是「為規模不計極致」。AMD 在 2026 年明顯翻身：2 月 Meta 公布擴大 AMD 合作，首批 6GW 規模 MI450 部署將在下半年啟動；4 月又傳出 Anthropic 也將導入 MI450。再加上 OpenAI 已是 AMD 合作客戶，「備胎」這個標籤已經不太合適。

這些客戶不缺資金，也買得到 NVIDIA GPU——他們選擇分散供應商，原因很實際：NVIDIA 供應仍緊張、單一供應商風險高、AMD MI300X/MI350/MI450 在記憶體容量與單位成本上有優勢，加上 ROCm 透過 PyTorch、Hugging Face 與 OpenAI Triton 已把「能跑」門檻明顯拉低。對「夠用就好」的代理推論，這就足以撬動訂單。

AWS Trainium、Google TPU、Microsoft Maia 等雲端自研晶片也不是「便宜版 GPU」。雲端業者最大的優勢是知道自己平台上的工作負載分布，可以針對成本曲線最佳化——Trainium 已對外開放、Anthropic 用大量 Trainium 訓練 Claude；TPU 從搜尋、廣告、YouTube 到 Gemini 都跑了多年。當推論工作負載從稀缺變成日常，自研晶片的 ROI 才真正浮現。

別只盯著算力——記憶體才是真正戰場

AI 晶片討論常忽略一件事：推論經濟的關鍵常常是記憶體。每生成一個 token 都要讀模型權重；上下文越長，KV cache 越大；代理任務越複雜，狀態越多。一個跑數小時的代理任務，可能需要維護數十 GB 中間狀態。

HBM 頻寬高但價格高、被 SK 海力士、三星、美光寡占；DRAM 容量大成本低但頻寬不同；CXL memory、server SSD、冷儲存 KV cache 都是新興層級。未來的問題不是哪一種記憶體贏，而是哪個系統能把多層記憶體編排到最低總擁有成本。這也是為什麼觀察 HBM 與 DRAM 景氣，可能比單純看 GPU 出貨更能反映代理推論的滲透率。

NVIDIA 的護城河：不是不會被吃，而是市場會被分層

看空 NVIDIA 的論點不難：推論需求變得異質、雲端業者有動機自研、AMD 持續搶單、中國市場可能用「夠用就好」繞過出口管制。但看多論點同樣強——reasoning 模型與多模態仍在快速演進，每次任務 compute 持續成長；CUDA 鎖定不是抽象護城河，而是每天活在 PyTorch、vLLM、TensorRT-LLM、kernel 最佳化與工程師履歷裡。

更重要的是 NVIDIA 已經不只賣 GPU，而是賣整櫃系統（GB200 NVL72）、網路（InfiniBand、Spectrum-X）、軟體堆疊與「確定性」。對企業來說，最貴的不是晶片，而是系統不穩定。

合理的判斷不是「NVIDIA 會被取代」，而是「NVIDIA 的市場會被分層」。最高階訓練、前沿模型、低延遲高價推論仍偏向 NVIDIA；標準化、大量、成本敏感的代理推論，會逐漸被 AMD、ASIC、wafer-scale 與 SRAM 架構分食。

出口管制可能遇到「夠用就好」的反作用

美國出口管制的邏輯是限制對手取得最先進製程，拉大訓練能力差距。這在訓練時代很有效；但若代理推論變主流，效果會變複雜——一個只是夜間整理文件、跑測試、產報告的企業代理，未必需要最先進 GPU。DeepSeek 在 2025 年初已經給市場一次警告：演算法、蒸餾與系統工程，可以部分補償硬體劣勢。

結論：下一場戰爭不是 GPU vs ASIC，而是工作負載 vs 架構

AI 晶片市場正在從單一標竿競賽，變成多維度系統設計。NVIDIA 仍是最重要的公司，但不再是唯一能解釋 AI 基礎設施未來的公司；Cerebras 與 Groq 不是 NVIDIA 的全面替代品，卻是推論時代架構創新的強烈訊號——強到 NVIDIA 自己也要花 200 億美元把它收進來。

當 AI 只是回答問題，速度就是魔法；當 AI 開始自己幹活，速度只是成本函數中的一項。

真正的競爭會回到更樸素也更殘酷的問題：誰能用最低的總成本，讓最多代理可靠地完成最多有價值的工作。這才是 AI 晶片大亂鬥的下一章——而這一章的主角，可能不會只有 GPU 上的那條曲線。

延伸閱讀

Stratechery: The Inference Shift — 解答推論與代理推論的原始框架

NVIDIA FY2026 財報 — Q4 681 億、年度 2,159 億美元、資料中心 +75%

CNBC: NVIDIA 200 億美元拿下 Groq — 推論晶片戰爭的決定性事件

Fortune: AMD 拿下 Meta MI450 6GW 大單 — AMD 翻身進行式

Cerebras WSE-3 規格頁 — Wafer-scale 架構與高速推論的另一種可能

AI 晶片大亂鬥：代理推論時代，速度不再是唯一信仰

AI 晶片大亂鬥：代理推論時代，速度不再是唯一信仰

訓練時代的勝利，埋下了下一局的問題

解答推論 vs 代理推論：同樣是 inference，是兩種生意

Groq 收購案：黃仁勳親自承認 GPU 解決不了所有推論

AMD 從備胎變第二選擇，雲端 ASIC 從內部走向外部

別只盯著算力——記憶體才是真正戰場

NVIDIA 的護城河：不是不會被吃，而是市場會被分層

出口管制可能遇到「夠用就好」的反作用

結論：下一場戰爭不是 GPU vs ASIC，而是工作負載 vs 架構

延伸閱讀

Written by:

Ken