(AI 资源之家讯)5 月 13 日,谷歌在年度技术更新中正式发布第八代张量处理单元 TPU,代号 Trillium 升级版。与以往历代产品不同,第八代 TPU 首次实现了训练与推理的计算解耦架构,这意味着同一硬件平台可以根据工作负载需求,灵活地在模型训练和推理服务之间分配算力资源。这一设计变革直指当前 AI 行业的核心痛点——算力利用率低下。
训推解耦:打破 AI 算力的二元对立
传统 AI 芯片设计中,训练芯片和推理芯片往往采用截然不同的架构优化方向。训练芯片追求高精度浮点运算能力和大规模显存带宽,而推理芯片则侧重于低延迟、高吞吐和能效比。这种二元分化导致企业不得不分别采购和部署两套硬件系统,不仅增加了基础设施成本,还造成了算力资源的闲置浪费。
谷歌第八代 TPU 通过创新的异构计算架构,在单个芯片内集成了可动态重构的计算单元。在训练模式下,芯片可以充分利用全部算力资源进行高精度梯度计算;在推理模式下,同一芯片又能切换至低精度高吞吐配置,服务大规模用户请求。这种训推解耦设计使得 AI 基础设施的整体利用率有望提升 40% 以上,大幅降低企业的算力运营成本。
为 Agent 时代打造专用硬件底座
值得注意的是,第八代 TPU 的设计理念与当前 AI 行业从大模型向智能体转型的趋势高度契合。AI Agent 的工作模式与大模型推理存在本质区别:智能体需要持续运行、实时响应用户交互,同时还要在后台进行任务规划、工具调用和知识检索等多步骤推理。这种混合型工作负载正是训推解耦架构的理想应用场景。
谷歌此举也标志着 AI 芯片竞争正在从单纯的算力堆叠转向全栈垂直整合。就在谷歌发布新 TPU 的同时,英伟达以 32 亿美元战略投资光纤巨头康宁,锁定光通信产能;AMD 推出 vLLM-ATOM 插件优化国产大模型在 Instinct GPU 上的推理性能;英特尔则试图通过 18A 工艺争取特斯拉 AI 芯片代工订单。三大芯片巨头在训练、推理、互联等各个环节全面展开竞争。
行业竞争格局加速演变
从市场格局来看,谷歌 TPU 生态正在快速扩张。Meta 已与谷歌达成数十亿美元的 AI 芯片合作协议,租用谷歌 TPU 集群用于大模型训练;Anthropic 同样采用谷歌 Ironwood TPU 加速 Claude 系列的部署。与此同时,OpenAI 的市场份额已从一年前的近 90% 降至 65%,谷歌 Gemini 的份额则跃升至 20%。硬件能力的提升正在直接转化为市场竞争力的此消彼长。
AI 资源之家将持续关注 AI 芯片领域的技术突破与产业格局变化,为读者带来深度行业分析。