谷歌正将其自研芯片业务推向新的竞争前沿。其计划推出专为AI推理任务打造的定制芯片,在已与Meta和Anthropic相继达成大规模合作协议之后,进一步向英伟达的市场主导地位发起挑战。
据彭博,谷歌计划在本周于拉斯维加斯举行的Google Cloud Next大会上发布新一代张量处理单元(TPU)。
谷歌首席科学家Jeff Dean在接受采访时表示,随着对AI查询快速处理需求的上升,"针对训练或推理工作负载对芯片进行更专门化的设计,现在已经是合理之举。"
这一布局正值AI芯片市场格局加速演变之际。英伟达GPU目前仍是AI领域、尤其是模型训练环节的行业标杆,但推理市场的争夺正日趋激烈。
市场研究机构Gartner分析师Chirag Dekate指出,"战场正向推理方向转移,而在这一战场上,谷歌拥有基础设施优势。"
从内部工具到行业爆款:TPU的破圈之路
谷歌的芯片制造历经逾十年的积累。这段历程始于一个实际问题:谷歌需要为语言翻译和语音识别服务提供算力支撑,但市面上可用的芯片和硬件根本无法在可承受的成本下实现这一目标。
TPU背后的核心理念,据Vahdat描述,是"解决一小部分问题,但这些问题所需的计算量是巨大的"。彼时的主流观点是不值得为此专门开发定制硬件,谷歌选择了逆势而为。
在这一阶段,谷歌的芯片研发与其AI模型工作始终保持着紧密的协同演进关系。2017年那篇催生了当代大语言模型的里程碑式研究论文,推动TPU团队将重心转向服务于更大规模AI系统训练的芯片设计。
此后,谷歌DeepMind与芯片团队又注意到,TPU在执行强化学习任务时存在大量闲置浪费,并据此调整了芯片之间的网络互联方式,以加快数据流转、避免算力空转。
这种内部反馈机制也带来了对"硬件级错误"更强的把控能力。
谷歌科学家、Gemini基础设施团队联合负责人Paul Barham透露,当AI加速芯片在处理海量数学运算时,一个细微的故障都可能蔓延并导致模型"彻底崩溃"。"现在我们能在10秒内完成对数十万枚加速芯片的排查,"他说。
大客户接连入场,商业势能持续积聚
谷歌芯片业务的商业突破同样来得迅猛。去年10月,Anthropic宣布扩大与谷歌的合作协议,将获取多达100万枚TPU;随后谷歌发布的Gemini模型获得广泛好评,该模型正是基于TPU进行训练和运行。
此后,需求持续扩大。Meta已签署一项价值数十亿美元、为期数年的TPU云服务协议。Meta基础设施负责人Santosh Janardhan表示,"看起来在推理方面可能存在优势",但同时指出"新平台免不了有门槛和学习曲线"。
对冲基金公司Citadel Securities计划在本次谷歌大会上分享其借助TPU实现比此前GPU方案更快模型训练速度的经验。
阿布扎比科技集团G42旗下云业务Core42的临时CEO Talal Al Kaissi表示,已与谷歌就TPU使用进行"多轮磋商",并对此持乐观态度。
软件生态的补强也在同步推进。谷歌已允许TPU客户使用PyTorch等外部工具及第三方调度软件,不再要求完全依赖谷歌自有产品;与此同时,谷歌还在测试允许Anthropic等合作方将部分TPU部署于自有数据中心而非谷歌设施。
英伟达的强势应战与市场格局的再平衡
面对谷歌的进逼,英伟达并非毫无回应。上月,英伟达推出了一款基于其收购自Groq的技术所开发的推理芯片。黄仁勋强调其芯片的多用途优势,表示能够完成"大量TPU无法胜任的应用"。
谷歌自身在实际部署中也同时依赖TPU与GPU两种芯片。谷歌DeepMind CEO Demis Hassabis指出,顶尖AI实验室对TPU的兴趣尤为浓厚,"很多人希望同时在两种平台上运行"。
谷歌的优势在于兼具十余年芯片设计经验、充裕资金以及对AI模型的第一手洞察。在顶级AI开发商中,谷歌是唯一一家大规模自研芯片的公司,这使其能够在硬件与模型团队之间形成高效的双向反馈。
Gimlet Labs联合创始人Natalie Serrino表示,现有TPU已非常适合处理新兴AI智能体的工作负载,"对于正在爆发的这类任务来说,它们是很好的工具"。
三年研发周期与AI快速迭代的深层矛盾
谷歌芯片的制约因素在于,芯片从研发到量产需要约三年时间,而AI模型的演进速度远超于此,这使得精准预判未来客户需求变得极为困难。
Barham则对硬件与模型团队之间过于紧密的反馈循环表达了另一层担忧——这种循环可能导致团队只优化当前软硬件的契合度,而错失更具突破性的新思路。
为在两者之间寻求平衡,TPU团队有时选择将芯片设计为"足够好"以应对多种使用场景,而非针对某一用途极致优化;另一种策略是并行推进两套不同设计方案,视具体需求决定最终落地。
Vahdat的一段话或许最能概括谷歌在芯片战略上的长远考量:
"只为谷歌生产TPU有其好处,但也有显著的弊端。最终你会困在一座我们所说的'技术孤岛'上。它或许是一座美丽的孤岛,但居民有限,多样性也有限,最终可能反而发展受阻。"