腾讯发布OpenSearch-VL多模态搜索智能体

（AI 资源之家讯）5 月 7 日，腾讯混元联合加州大学洛杉矶分校、香港中文大学等机构发布 OpenSearch-VL，一个完全开源的多模态深度搜索智能体路线图。该系统集成了网页搜索、反向图像搜索、OCR、图像裁剪、锐化、超分辨率重建及透视校正等工具，在七项主流多模态深度搜索基准测试中平均性能提升超过 10 个百分点。

## 全工具链深度搜索

OpenSearch-VL 的核心创新在于将多种视觉处理工具与大语言模型深度整合。传统的搜索智能体主要处理文本查询，而 OpenSearch-VL 能够直接理解图像内容并执行多步搜索。例如，用户上传一张模糊的产品照片，系统会自动进行超分辨率重建、OCR 提取文字信息、反向图像搜索查找相似产品，最终生成结构化的搜索结果。这种多工具协同的工作流远超单一模型的搜索能力。

## 多轮故障感知 GRPO 算法

团队提出的训练算法多轮故障感知 GRPO 是一大技术亮点。传统的强化学习训练中，模型在搜索过程中犯错后缺乏有效的自我纠正机制。GRPO 算法则赋予模型故障感知能力——当搜索策略走入死胡同时，模型能自动识别并回退到上一个有效状态，尝试新的搜索路径。这一机制显著提升了搜索的鲁棒性和最终成功率。在训练数据方面，团队构建了包含 3.6 万条指令微调轨迹的 SearchVL-SFT 数据库及 8000 条强化学习的 SearchVL-RL 数据库。

## 全量开源推动行业发展

腾讯混元团队宣布将所有训练数据、代码及模型权重全量开源，这在多模态搜索领域尚属首次。开源策略将显著降低研究者和开发者的入门门槛，加速多模态搜索技术的发展。部分任务中，OpenSearch-VL 已可与顶级闭源商业模型媲美，展现出开源方案在特定领域的竞争力。

正文完