AI 资源之家讯 OpenAI 于本周正式披露了 ChatGPT 实时语音(Realtime API)的底层技术架构,这套代号为 Relay+Transceiver 的双层系统,首次将端到端语音交互的响应延迟压缩至 0.3 秒以内。该架构目前支撑着 ChatGPT 数亿周活跃用户的语音对话体验,也是全球范围内首个在生产环境中大规模运行的端侧语音大模型推理框架。OpenAI 选择此时公开架构细节,被普遍解读为吸引开发者基于其平台构建多模态应用的战略动作。
从已披露的技术文档来看,Relay+Transceiver 架构的核心逻辑在于 "分层解耦、并行处理"。第一层 Relay 负责语音信号的前处理与协议转换,包括降噪、回声消除以及流式分片;第二层 Transceiver 则承担语音理解与生成的端到端推理任务。两层之间通过自研的二进制协议进行通信,避免了 HTTP 轮询带来的延迟累积。架构还引入了预测性解码机制——在用户尚未说完一句话时,系统已提前预判可能的后续语义并启动推理,进一步压缩感知延迟。
这套架构的开发语言也引发了不少开发者的关注。不同于业界主流的 Python+CUDA 方案,OpenAI 为 Relay 层选用了 Go 语言,利用其出色的并发处理能力支撑高并发的语音流管理。Transceiver 层的核心推理则仍运行在 CUDA 生态中,由自研推理引擎驱动。官方透露,该架构在全球部署了超过 50 个边缘接入点,用户请求就近路由至最近节点完成处理,这一设计是实现低延迟体验的关键基础设施。
应用前景方面,低延迟语音交互的成熟正在打开一系列新场景的大门。实时翻译、同声传译、语音客服、视频会议 AI 助手等此前受限于响应速度的产品形态,如今具备了落地的技术基础。AI 资源之家注意到,已有第三方开发者在 HackerNews 上分享了基于 Realtime API 构建的 "AI 口语陪练" 应用 demo,实现了接近真人的对话节奏与纠错反馈能力。
从市场竞争角度看,OpenAI 此次公开架构文档的时机耐人寻味。Anthropic 近期在 Claude 语音交互上持续发力,谷歌的 Gemini 语音 API 也在快速迭代,三家巨头在端侧语音智能这一赛道的竞争已从模型能力延伸至基础设施层面。谁能率先建立起成熟的开发者生态,谁就有可能在下一阶段的 AI 应用爆发中占据有利位置。