腾讯发布OpenSearch-VL多模态搜索智能体

(AI 资源之家讯)5 月 7 日,腾讯混元联合加州大学洛杉矶分校、香港中文大学等机构发布 OpenSearch-VL,一个完全开源的多模态深度搜索智能体路线图。该系统集成了网页搜索、反向图像搜索、OCR、图像裁剪、锐化、超分辨率重建及透视校正等工具,在七项主流多模态深度搜索基准测试中平均性能提升超过 10 个百分点。

## 全工具链深度搜索

OpenSearch-VL 的核心创新在于将多种视觉处理工具与大语言模型深度整合。传统的搜索智能体主要处理文本查询,而 OpenSearch-VL 能够直接理解图像内容并执行多步搜索。例如,用户上传一张模糊的产品照片,系统会自动进行超分辨率重建、OCR 提取文字信息、反向图像搜索查找相似产品,最终生成结构化的搜索结果。这种多工具协同的工作流远超单一模型的搜索能力。

## 多轮故障感知 GRPO 算法

团队提出的训练算法多轮故障感知 GRPO 是一大技术亮点。传统的强化学习训练中,模型在搜索过程中犯错后缺乏有效的自我纠正机制。GRPO 算法则赋予模型故障感知能力——当搜索策略走入死胡同时,模型能自动识别并回退到上一个有效状态,尝试新的搜索路径。这一机制显著提升了搜索的鲁棒性和最终成功率。在训练数据方面,团队构建了包含 3.6 万条指令微调轨迹的 SearchVL-SFT 数据库及 8000 条强化学习的 SearchVL-RL 数据库。

## 全量开源推动行业发展

腾讯混元团队宣布将所有训练数据、代码及模型权重全量开源,这在多模态搜索领域尚属首次。开源策略将显著降低研究者和开发者的入门门槛,加速多模态搜索技术的发展。部分任务中,OpenSearch-VL 已可与顶级闭源商业模型媲美,展现出开源方案在特定领域的竞争力。

正文完
post-qrcode
 0
admin
版权声明:本站原创文章,由 admin 于2026-05-09发表,共计705字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。