AI 晶片大亂鬥:代理推論時代,速度不再是唯一信仰
過去兩年 AI 晶片的故事很簡單:誰能堆更多 FLOPS、更高 HBM 頻寬、更密集 GPU 叢集,誰就贏。NVIDIA 因此封王,整個產業鏈圍著 H100、H200、Blackwell 與 NVLink 重新洗牌。
但 2025 年底開始,劇本變了。NVIDIA 砸下 200 億美元拿下 Groq、AMD MI450 接連拿下 Meta 與 Anthropic 訂單、雲端三巨頭加碼自研 ASIC——這些事件指向同一件事:AI 算力市場正在從「比誰跑得快」分裂成「誰能用最低總成本,讓代理可靠完成最多有價值的工作」。
訓練時代的勝利,埋下了下一局的問題
NVIDIA 的成功不是運氣。GPU 為高平行度矩陣運算而生,CUDA、cuDNN、TensorRT、NVLink 形成的生態鎖定,加上完美卡到 LLM 訓練軍備競賽的時機點,才有了 FY2026 全年營收 2,159 億美元(YoY +65%)、第四季單季 681 億美元、資料中心單季 620 億美元的歷史紀錄。
但訓練不是 AI 商業化的終點,推論才是。當數十億使用者、企業流程、客服、coding agent、廣告投放每天都在呼叫模型,推論會變成 AI 經濟的水電費——而水電費的競爭邏輯,跟豪華超跑完全不同。
這裡出現第一個分歧:人類在螢幕前等答案時,延遲是體驗;機器在背景替你工作時,延遲只是排程問題。前者要快,後者要便宜、穩定、可擴展。NVIDIA 為前者打造了無可挑戰的方案;但後者,正在打開新的競技場。
解答推論 vs 代理推論:同樣是 inference,是兩種生意
Ben Thompson 在 Stratechery 提出的關鍵框架,是把推論拆成兩類:解答推論(answer inference)由人類等待回應,低延遲與高 token 速度直接決定體驗;代理推論(agentic inference)由機器在背景跑任務,瓶頸更常是上下文容量、狀態保存、工具呼叫與單位任務成本。
這個分類會改變整個資料中心採購邏輯。過去買 GPU 是滿足訓練與高價推論;未來若大量任務變成背景代理,採購會更像物流車隊管理——不是每輛車都要法拉利,而是把不同貨物配到最合適的載具。GPU、ASIC、wafer-scale、SRAM-only 架構各自會有自己的舞台。
Groq 收購案:黃仁勳親自承認 GPU 解決不了所有推論
最戲劇性的訊號來自 2025 年 12 月。NVIDIA 同意以約 200 億美元現金拿下 Groq——史上最大手筆,但結構刻意設計成「非獨家技術授權+人才」而非完整併購,Groq 主體與品牌仍存。Groq 的賭注是把整個模型權重塞進晶片內建 SRAM,靠數十倍於 DRAM 的成本換取毫秒級延遲。
這筆交易的意義超越單一公司:黃仁勳親自下注「未來推論市場無法只靠 GPU 解決」。當 AI 滲透到即時翻譯、互動式 coding agent、金融高頻決策時,毫秒級延遲會直接決定產品能不能用。Cerebras(WSE-3 單晶圓 4 兆顆電晶體)也屬於這條「為速度不計成本」的極端路線,並正在推進 IPO,估值上看 266 億美元。
AMD 從備胎變第二選擇,雲端 ASIC 從內部走向外部
光譜的另一端是「為規模不計極致」。AMD 在 2026 年明顯翻身:2 月 Meta 公布擴大 AMD 合作,首批 6GW 規模 MI450 部署將在下半年啟動;4 月又傳出 Anthropic 也將導入 MI450。再加上 OpenAI 已是 AMD 合作客戶,「備胎」這個標籤已經不太合適。
這些客戶不缺資金,也買得到 NVIDIA GPU——他們選擇分散供應商,原因很實際:NVIDIA 供應仍緊張、單一供應商風險高、AMD MI300X/MI350/MI450 在記憶體容量與單位成本上有優勢,加上 ROCm 透過 PyTorch、Hugging Face 與 OpenAI Triton 已把「能跑」門檻明顯拉低。對「夠用就好」的代理推論,這就足以撬動訂單。
AWS Trainium、Google TPU、Microsoft Maia 等雲端自研晶片也不是「便宜版 GPU」。雲端業者最大的優勢是知道自己平台上的工作負載分布,可以針對成本曲線最佳化——Trainium 已對外開放、Anthropic 用大量 Trainium 訓練 Claude;TPU 從搜尋、廣告、YouTube 到 Gemini 都跑了多年。當推論工作負載從稀缺變成日常,自研晶片的 ROI 才真正浮現。
別只盯著算力——記憶體才是真正戰場
AI 晶片討論常忽略一件事:推論經濟的關鍵常常是記憶體。每生成一個 token 都要讀模型權重;上下文越長,KV cache 越大;代理任務越複雜,狀態越多。一個跑數小時的代理任務,可能需要維護數十 GB 中間狀態。
HBM 頻寬高但價格高、被 SK 海力士、三星、美光寡占;DRAM 容量大成本低但頻寬不同;CXL memory、server SSD、冷儲存 KV cache 都是新興層級。未來的問題不是哪一種記憶體贏,而是哪個系統能把多層記憶體編排到最低總擁有成本。這也是為什麼觀察 HBM 與 DRAM 景氣,可能比單純看 GPU 出貨更能反映代理推論的滲透率。
NVIDIA 的護城河:不是不會被吃,而是市場會被分層
看空 NVIDIA 的論點不難:推論需求變得異質、雲端業者有動機自研、AMD 持續搶單、中國市場可能用「夠用就好」繞過出口管制。但看多論點同樣強——reasoning 模型與多模態仍在快速演進,每次任務 compute 持續成長;CUDA 鎖定不是抽象護城河,而是每天活在 PyTorch、vLLM、TensorRT-LLM、kernel 最佳化與工程師履歷裡。
更重要的是 NVIDIA 已經不只賣 GPU,而是賣整櫃系統(GB200 NVL72)、網路(InfiniBand、Spectrum-X)、軟體堆疊與「確定性」。對企業來說,最貴的不是晶片,而是系統不穩定。
合理的判斷不是「NVIDIA 會被取代」,而是「NVIDIA 的市場會被分層」。最高階訓練、前沿模型、低延遲高價推論仍偏向 NVIDIA;標準化、大量、成本敏感的代理推論,會逐漸被 AMD、ASIC、wafer-scale 與 SRAM 架構分食。
出口管制可能遇到「夠用就好」的反作用
美國出口管制的邏輯是限制對手取得最先進製程,拉大訓練能力差距。這在訓練時代很有效;但若代理推論變主流,效果會變複雜——一個只是夜間整理文件、跑測試、產報告的企業代理,未必需要最先進 GPU。DeepSeek 在 2025 年初已經給市場一次警告:演算法、蒸餾與系統工程,可以部分補償硬體劣勢。
結論:下一場戰爭不是 GPU vs ASIC,而是工作負載 vs 架構
AI 晶片市場正在從單一標竿競賽,變成多維度系統設計。NVIDIA 仍是最重要的公司,但不再是唯一能解釋 AI 基礎設施未來的公司;Cerebras 與 Groq 不是 NVIDIA 的全面替代品,卻是推論時代架構創新的強烈訊號——強到 NVIDIA 自己也要花 200 億美元把它收進來。
當 AI 只是回答問題,速度就是魔法;當 AI 開始自己幹活,速度只是成本函數中的一項。
真正的競爭會回到更樸素也更殘酷的問題:誰能用最低的總成本,讓最多代理可靠地完成最多有價值的工作。這才是 AI 晶片大亂鬥的下一章——而這一章的主角,可能不會只有 GPU 上的那條曲線。
延伸閱讀
Stratechery: The Inference Shift — 解答推論與代理推論的原始框架
NVIDIA FY2026 財報 — Q4 681 億、年度 2,159 億美元、資料中心 +75%
CNBC: NVIDIA 200 億美元拿下 Groq — 推論晶片戰爭的決定性事件
Fortune: AMD 拿下 Meta MI450 6GW 大單 — AMD 翻身進行式
Cerebras WSE-3 規格頁 — Wafer-scale 架構與高速推論的另一種可能