浙江大学、西湖大学与蚂蚁提出OmniAgent:让模型“先听后看”,实现细粒度音视频推理
创始人
2026-01-05 02:41:59

你是否也曾对多模态大模型的表现感到困惑?它们看似能“看懂”视频,但一问到需要音视频精确同步的细节问题,就常常“翻车”。比如,视频里的人说了某句话时,旁边牌子上写了什么字?目前的许多模型,要么无法对齐信息,要么干脆忽略其中一个模态。

最近,来自浙江大学、西湖大学和蚂蚁集团的研究者们共同提出了一种名为 OmniAgent 的新型智能体框架,或许能彻底改变这一现状。它不再是被动地接收和处理信息,而是像一个侦探一样,主动思考、调用工具、并根据线索进行推理,尤其是通过“先听后看”的策略,实现了前所未有的细粒度音视频理解。

  • 论文标题: OmniAgent: Audio-Guided Active Perception Agent for Omnimodal Audio-Video Understanding
  • 论文地址: https://arxiv.org/abs/2512.23646
  • 项目主页: https://kd-tao.github.io/OmniAgent/
  • 机构: 浙江大学, 西湖大学, 蚂蚁集团

为何需要OmniAgent:当前多模态模型的困境

在深入了解 OmniAgent 之前,我们先来看看为什么现有的方法不够理想。论文的作者们在 Figure 2 中清晰地总结了几个主流范式及其局限性:

  • (a) 端到端OmniLLMs:这类模型试图将视觉和音频编码器融合进一个统一架构。虽然想法很好,但它们面临着高昂的训练成本、困难的跨模-态对齐问题,导致细粒度推理能力有限。简单来说,模型很难真正“同步”声音和画面。
  • (b) 固定工作流Agent:这类方法依赖于预先设定的、僵化的处理流程。它们缺乏灵活性,无法根据具体问题的需求来动态分配注意力,难以进行真正意义上的细粒度分析。
  • (c) 基于字幕的Agent:这种方法通过预先生成视频字幕来理解内容,但计算成本高,且对噪声敏感。更重要的是,单独的字幕往往无法捕捉到完整的跨模态上下文信息。

相比之下,(d) OmniAgent 采用了一种全新的主动感知推理范式。它在一个迭代的反思循环中,策略性地调用视频和音频理解能力,从而明确地解决了跨模态对齐的难题,实现了细粒度理解。

OmniAgent如何实现“主动感知”?

OmniAgent 的核心是一个**“思考-行动-观察-反思 (Think-Act-Observe-Reflect)”**的迭代循环。它不像传统模型那样一次性处理所有信息,而是像人类一样,分步骤解决问题。

上图 完美展示了其工作流程。当接收到一个复杂的用户请求时:

  • 思考 (Think) :Agent首先会分析问题,制定一个初步的推理计划。它会判断这个问题更依赖于听觉还是视觉线索,从而决定是先“听”还是先“看”。
  • 行动 (Act) :根据计划,Agent会从一个丰富的“工具箱”中选择并调用最合适的工具。这个工具箱被分为三类:
  • 视频工具集 (Video Tools):包括全局视频描述、视觉问答、以及在特定时间窗口内以更高帧率进行分析的“视频片段精读”工具。
  • 音频工具集 (Audio Tools):包括音频描述、音频问答、以及能够提供精确时间戳的语音识别(ASR)。
  • 事件工具集 (Event Tools):这是 OmniAgent 的一大创举。它包含一个音频引导的事件定位算法。Event List 工具可以快速扫描整个音频流,列出所有可检测到的声音事件;而 Event Location 工具则能根据具体查询,返回事件发生的精确时间戳。
  • 观察 (Observe) :Agent接收工具返回的结果(如一段文字描述、一个时间点或一个答案)。
  • 反思 (Reflect) :这是最关键的一步。Agent会评估新获得的信息是否足以回答用户的问题。如果证据不足,或者发现音视频信息之间存在矛盾,它就会重新进入“思考”阶段,启动新一轮的探索。这个过程会一直持续,直到收集到足够的证据,最终生成答案。

核心创新:从粗到细的音频引导感知

OmniAgent最巧妙的设计在于其“从粗到细的音频引导感知” (coarse-to-fine audio-guided perception) 范式。

想象一下,处理一个长视频需要巨大的计算资源,如果对每一帧都进行高精度分析,成本是无法接受的。OmniAgent另辟蹊径:它认为音频是更高效的全局线索。相比于视频,音频流包含的token数量要少得多,处理起来也更快。

因此,它的策略是:

  1. 先用音频工具进行粗定位:当被问及一个问题时,Agent首先调用事件工具(如Event Location)在整个音频流中快速找到相关的声音事件(例如,问题中提到的“小猫”的叫声)。
  2. 再用视频工具进行细分析:一旦通过音频定位到了一个精确的时间窗口(比如第35秒到第40秒),Agent就可以集中火力,只对这个短暂的视频片段调用高成本、高精度的视频工具(如Video Clip Analysis),以更高的空间和时间分辨率进行分析。

这种方式极大地提高了效率和准确性,避免了在无关的视频片段上浪费算力,真正做到了“好钢用在刀刃上”。

效果如何?数据说话

理论说得再好,也要靠实验结果来验证。OmniAgent在三个主流的音视频理解基准测试中,都取得了惊人的成绩,可以说是“遥遥领先”。

如上图(c)所示,无论是在 Daily-Omni、OmniVideoBench 还是 WorldSense 数据集上,OmniAgent 的性能都全面超越了现有的各种强劲对手,包括像 Qwen3-Omni 和 Gemini 2.5-Flash 这样的顶级模型。

(a) 中的案例生动地展示了 OmniAgent 的工作方式。当被问及视频里一个招牌上的中文字时,它首先通过音频线索(“the kitten”)定位到关键时间段,然后在该片段内调用视频工具,成功识别出“南柯”二字。而相比之下,强大的端到端模型 Qwen3-Omni 则给出了错误的答案。

具体来看关键数据:

  • 在 Daily-Omni 基准上,OmniAgent 的平均准确率达到了 82.71%,相比之前的SOTA方法 (71.50%) 和强大的 Gemini 2.5-Flash (72.70%),实现了近 10% 的绝对提升。
  • 在长视频理解基准 OmniVideoBench 上,它的优势更加明显,平均分达到 59.10%,远超第二名 Gemini 2.5-Flash 的 52.40%。
  • 在 WorldSense 基准上,OmniAgent 的平均分也以 61.2% 的成绩轻松夺魁。

写在最后

OmniAgent 教会模型如何像人一样“思考”和“使用工具”,通过将复杂的跨模态问题分解,并主动地、有策略地去寻求答案。MLLMs通过“听音”和“看画”的有机结合,为我们解读视频中的每一个精彩瞬间。

相关内容

热门资讯

诚益通:脑电采集专利完善核心技... 证券之星消息,诚益通(300430)01月11日在投资者关系平台上答复投资者关心的问题。 投资者:董...
扬州广陵:空地一体,科技赋能环... 在城市治理现代化进程中,随着无人设备应用的普及,扬州市环卫部门联合重点企业,主动布局智能升级,引入无...
成者会议星AI会议工作站评测:... 在AI技术快速迭代与混合办公常态化的双重背景下,办公领域对AI的需求日益增长,特别是在提高效率、便捷...
耳后脑机接口贴片问世:北理工、... 1 月 12 日消息,北京理工大学联合北京航空航天大学科研团队,于 1 月 2 日在《Science...
宁德时代申请二次电池和用电装置... 国家知识产权局信息显示,宁德时代新能源科技股份有限公司申请一项名为“二次电池和用电装置”的专利,公开...