一、导语:算力战争进入新阶段
如果用一个词形容2026年的AI芯片市场,”双雄争霸”或许最合适不过。
4月22日,谷歌在Google Cloud Next大会上正式发布第八代TPU,首次将训练芯片(TPU 8t)与推理芯片(TPU 8i)拆分为两个完全不同的物理架构。仅仅一周前,英伟达GTC 2026大会发布的Vera Rubin平台已全面投产,预计下半年交付。
这不是两家公司的技术比拼,而是两种AI基础设施哲学的正面交锋。

二、硬核对标:参数背后的技术路线差异
让我们先看一组关键数据,直观感受两者差异:
| 指标 | 谷歌TPU 8t | 谷歌TPU 8i | NVIDIA Vera Rubin | NVIDIA B200 |
|---|---|---|---|---|
| 定位 | 训练专用 | 推理专用 | 训练/推理通用 | 训练/推理通用 |
| FP4算力 | 12.6 PFLOPS | 10.1 PFLOPS | 35 PFLOPS | 9 PFLOPS |
| HBM容量 | 216 GB | 288 GB | 288 GB HBM4 | 192 GB |
| HBM带宽 | ~6.5 TB/s | 8.6 TB/s | 22 TB/s | 8 TB/s |
| 片上SRAM | 128 MB | 384 MB | 未公布 | 未公布 |
| 单Pod规模 | 9,600芯片 | 1,152芯片 | 576芯片 | 576芯片 |
| 最大扩展 | 100万芯片 | 13.4万芯片 | 需IB/以太网 | 需IB/以太网 |
看到差距了吗?
单芯片层面,英伟达Vera Rubin依然是王者。35 PFLOPS的FP4算力,是TPU 8t的2.8倍;22 TB/s的HBM4带宽,几乎是碾压级别。
但系统层面,谷歌开始反超。英伟达超过576颗GPU后,通信开销指数级上升;谷歌通过光路交换把9,600颗芯片变成一个”逻辑超级芯片”,内存统一寻址。
这就像什么?英伟达卖的是”超级跑车”,单辆无敌;谷歌卖的是”高铁系统”,单节车厢不如跑车,但整列高铁的运力,跑车根本没法比。
三、谷歌的杀手锏:不是芯片,是”系统”
很多人以为AI芯片竞赛比的是”谁家的晶体管更多”,但谷歌这次证明了:真正的战场在芯片外面。
3.1 光路交换(OCS)
传统数据中心用电缆或光纤”包交换”传数据,就像城市马路,车多了必堵车。
谷歌的光路交换,相当于给每辆车建一条专属高速公路,需要通信时直接拉一根”光路”,延迟极低且确定。
这意味着:训练万亿参数模型时,谷歌集群的有效算力利用率可能达到97%,而英伟达集群通常在60-80%。
3.2 384MB片上SRAM
这个对AI Agent时代太重要了。
现在的AI Agent,动不动要处理10万token的上下文。这些”记忆”如果存在HBM里,读取一次要几十纳秒;存在SRAM里,只要几纳秒。
TPU 8i的384MB SRAM,意味着Agent的”反应速度”将快一个数量级。这是英伟达现有架构难以匹敌的优势。
3.3 端到端垂直整合
从Gemini模型、JAX框架、Pathways调度系统,到TPU硬件,谷歌全栈自己设计、自己优化。
英伟达虽然硬件强,但它管不了Meta怎么写Llama的代码;谷歌可以让模型和芯片”天生一对”,从底层实现最优配合。
四、英伟达的护城河:CUDA生态20年积累
先说结论:短期内,英伟达不会被”杀死”,但定价权正在被侵蚀。
4.1 CUDA生态:20年的”开发者毒品”
全球数百万AI开发者,学校教的是CUDA,开源模型默认优化的是CUDA,PyTorch底层调的是CUDA。
TPU只能用JAX、PyTorch XLA——这些框架不是不好,但生态丰富度差了一个数量级。让程序员换框架,比让烟民戒烟还难。
4.2 单芯片性能绝对领先
Vera Rubin的35 PFLOPS,短期内没有对手。对于中小实验室和创业公司,”买几块GPU就能跑”的灵活性,远胜于”必须租整个谷歌Pod”的笨重。
4.3 云厂商中立性
AWS和Azure的客户,不会因为谷歌TPU强就迁移到GCP。英伟达是”中立军火商”,谷歌是”有立场的参战方”——这决定了英伟达的基本盘不会崩。
但侵蚀已经开始:
- Anthropic:签了数百万颗TPU,数百亿美元协议
- Meta:多年数十亿美元TPU供应协议
- OpenAI:正在与谷歌洽谈TPU供应
这些顶级AI实验室正在主动分散供应链。他们不再把鸡蛋全放在英伟达一个篮子里——不是为了省钱,而是为了不被英伟达卡脖子。
五、对行业的真正影响:从”垄断定价”到”竞争定价”
谷歌TPU对英伟达最深远的影响,可能不是丢了多少市场份额,而是定价权的削弱。
Broadcom已经给出了信号。作为TPU 8t的设计伙伴,Broadcom预计2026年来自谷歌和Anthropic的AI收入将达210亿美元,2027年达420亿美元。
这意味着:谷歌TPU生态正在形成数百亿美元级别的替代供应链。
当AI实验室可以”用脚投票”时,英伟达在谈判桌上的底气必然下降:
- GPU涨价幅度会趋缓
- 英伟达被迫更快推出下一代产品
对于开发者和企业,这是天大的好消息。算力供应商打架,最终转化为更低的成本和更快的创新。
六、结论:双头垄断时代已来
谷歌TPU 8系列的发布,标志着AI芯片市场从”英伟达独霸”走向”英伟达+谷歌双头垄断”。
| 维度 | 英伟达优势 | 谷歌优势 |
|---|---|---|
| 单芯片性能 | ✓✓✓ 单芯片算力领先 | – |
| 系统扩展 | – | ✓✓✓ 光路交换实现超大规模 |
| 能效比 | 中等 | ✓✓✓ 每瓦性能显著提升 |
| 推理成本 | 中等 | ✓✓✓ 性价比优势明显 |
| 开发者生态 | ✓✓✓ CUDA生态无可撼动 | – |
| 云厂商中立性 | ✓✓✓ | – |
短期看,英伟达仍是”性能之王”;中期看,谷歌在推理市场的性价比优势将快速放大;长期看,如果AI走向”稀疏化、长上下文、Agent化”,谷歌的架构优势将进一步凸显。
但有一点是确定的:黄仁勋不能再像2023年那样”躺着赚钱”了。
当谷歌、亚马逊、微软都在拼命自研芯片时,英伟达的”护城河”虽然还在,但河水正在分流。
而对于我们这些普通开发者和创业者,巨头打架,我们吃瓜——顺便享受更便宜的算力。

发表回复