OpenAI连发三款实时语音模型

（AI 资源之家讯）5 月 8 日凌晨，OpenAI 发布三款全新实时语音模型：GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper。三款模型分别面向实时语音 Agent、实时翻译和流式语音转写场景，已开放给开发者测试。其中 GPT-Realtime- 2 具备 GPT- 5 级别的推理能力，能边听边想在对话中实时解决复杂问题。

## 三个模型三种场景

三款模型的分工非常清晰。GPT-Realtime- 2 是旗舰产品，面向需要实时推理的语音 Agent 场景——比如 AI 客服在通话中实时分析用户情绪并调整应答策略。GPT-Realtime-Translate 则专注实时翻译，支持 70 多种语言输入实时翻译成 13 种语言输出，每分钟成本仅 0.2 元。GPT-Realtime-Whisper 是流式语音转写模型，能在人说话的同时生成字幕和会议记录。三款模型已开放 API 测试。

## 语音 AI 的技术突破

此次发布的核心技术突破在于实时推理能力。传统语音 AI 需要等待完整语句才能处理，而新模型能在语音输入的同时进行实时推理和响应。这意味着 AI 不再需要你说完才思考，而是边听边想，真正实现了类人的对话体验。延迟从秒级降至毫秒级，用户几乎感受不到停顿。

## 同传行业的生存危机

GPT-Realtime-Translate 的发布对翻译行业冲击最大。70 多种语言实时翻译、每分钟 2 毛钱的成本，远低于人类同传每小时数千元的费用。有评论称 OpenAI 顺带杀死了同传行业。不过也有专家指出，在政治外交等高敏感场景中，人类同传的准确性和文化理解仍有不可替代的优势，AI 翻译更适合日常商务和普通会议场景。

正文完