(AI 资源之家讯)5 月 8 日凌晨,OpenAI 发布三款全新实时语音模型:GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper。三款模型分别面向实时语音 Agent、实时翻译和流式语音转写场景,已开放给开发者测试。其中 GPT-Realtime- 2 具备 GPT- 5 级别的推理能力,能边听边想在对话中实时解决复杂问题。
## 三个模型三种场景
三款模型的分工非常清晰。GPT-Realtime- 2 是旗舰产品,面向需要实时推理的语音 Agent 场景——比如 AI 客服在通话中实时分析用户情绪并调整应答策略。GPT-Realtime-Translate 则专注实时翻译,支持 70 多种语言输入实时翻译成 13 种语言输出,每分钟成本仅 0.2 元。GPT-Realtime-Whisper 是流式语音转写模型,能在人说话的同时生成字幕和会议记录。三款模型已开放 API 测试。
## 语音 AI 的技术突破
此次发布的核心技术突破在于实时推理能力。传统语音 AI 需要等待完整语句才能处理,而新模型能在语音输入的同时进行实时推理和响应。这意味着 AI 不再需要你说完才思考,而是边听边想,真正实现了类人的对话体验。延迟从秒级降至毫秒级,用户几乎感受不到停顿。
## 同传行业的生存危机
GPT-Realtime-Translate 的发布对翻译行业冲击最大。70 多种语言实时翻译、每分钟 2 毛钱的成本,远低于人类同传每小时数千元的费用。有评论称 OpenAI 顺带杀死了同传行业。不过也有专家指出,在政治外交等高敏感场景中,人类同传的准确性和文化理解仍有不可替代的优势,AI 翻译更适合日常商务和普通会议场景。