(AI 资源之家讯)5 月 15 日,香港大学团队开源 FASTER 方案,提出首个 TTFA(Time To First Action)指标,针对视觉语言动作(VLA)模型实现单步采样反应,相比现有方法提速 10 倍,大幅降低实体机器人反应延迟。这一突破解决了具身智能从 "想得到" 到 "做得到" 的最后一公里延迟问题。
## TTFA 指标的开创意义
TTFA(Time To First Action)是首个衡量具身智能模型反应速度的标准指标。此前的 VLA 模型评估主要关注动作准确性,忽视了从感知到执行的延迟时间。然而在真实机器人场景中,延迟可能直接导致操作失败——抓取一个移动中的物体需要毫秒级的反应速度。FASTER 方案通过引入 TTFA 指标,将反应速度确立为与准确性同等重要的评估维度。
## 10 倍提速的技术路径
FASTER 的核心创新在于将传统的多次迭代推理简化为单步采样反应。传统 VLA 模型需要多次前向推理才能生成一个动作指令,而 FASTER 通过预计算和缓存策略,将首次动作生成的时间压缩至原来的十分之一。这意味着机器人可以在接收到视觉信息后几乎即时做出反应,更接近人类的反射式运动控制。
## 具身智能的实时性挑战
实时性是具身智能从实验室走向实际应用的关键瓶颈。在工业制造、家庭服务、医疗辅助等场景中,机器人的反应速度直接决定了任务能否成功。FASTER 的开源为整个具身智能社区提供了提升反应速度的标准方案和评估基准,有望推动人形机器人在更多实时性要求高的场景中落地部署。
正文完