谷歌Gemma 4推理速度提升3倍

（AI 资源之家讯）5 月 5 日，谷歌发布针对 Gemma 4 系列模型的多 Token 预测起草器，利用推测解码架构，在不牺牲输出质量和逻辑能力的前提下将推理速度最高提升 3 倍。该技术采用主从配合模式，由轻量级 MTP 起草器提前预测多个 Token，再由主模型并行验证，使开发者能在个人电脑或消费级显卡上更流畅地运行离线编程助手或智能体工作流。

## 推测解码的技术原理

MTP 起草器的核心思路是投机执行。传统自回归模型每次只生成一个 Token，速度受限于模型的串行特性。MTP 起草器则训练了一个轻量级的辅助模型，能够在主模型生成当前 Token 的同时，提前预测接下来的多个 Token。主模型随后对这些预测进行并行验证，正确的直接采纳，错误的则从出错位置重新生成。这种主从配合模式在保持输出质量不变的前提下，大幅减少了等待时间。

## Apple Silicon 上的惊艳表现

实测数据显示，在 Apple Silicon 芯片环境下，Gemma 4 26B 模型本地运行速度提升约 2.2 倍。这意味着开发者无需昂贵的云端 GPU，只需一台 MacBook 就能流畅运行参数量达 260 亿的大模型。谷歌团队特别优化了 MTP 起草器在 M 系列芯片上的运行效率，充分利用了 Apple Silicon 的统一内存架构和 Neural Engine 加速。对于关注隐私和成本的开发者来说，这一组合提供了极具吸引力的本地 AI 解决方案。

## 离线大模型时代的到来

MTP 技术的推出，标志着离线大模型时代正在真正到来。此前，参数量超过 200 亿的模型基本只能在云端运行，数据安全和网络延迟是主要痛点。随着推理速度的突破性提升，越来越多的 AI 能力将能够在端侧设备上流畅运行，用户的数据将不必离开本地设备。谷歌已将 MTP 起草器开源，开发者可以自行部署和优化。这一技术路径的开放，预计将加速端侧 AI 应用的普及。

正文完