你是否也曾对多模态大模型的表现感到困惑?它们看似能“看懂”视频,但一问到需要音视频精确同步的细节问题,就常常“翻车”。比如,视频里的人说了某句话时,旁边牌子上写了什么字?目前的许多模型,要么无法对齐信息,要么干脆忽略其中一个模态。
最近,来自浙江大学、西湖大学和蚂蚁集团的研究者们共同提出了一种名为 OmniAgent 的新型智能体框架,或许能彻底改变这一现状。它不再是被动地接收和处理信息,而是像一个侦探一样,主动思考、调用工具、并根据线索进行推理,尤其是通过“先听后看”的策略,实现了前所未有的细粒度音视频理解。
- 论文标题: OmniAgent: Audio-Guided Active Perception Agent for Omnimodal Audio-Video Understanding
- 论文地址: https://arxiv.org/abs/2512.23646
- 项目主页: https://kd-tao.github.io/OmniAgent/
- 机构: 浙江大学, 西湖大学, 蚂蚁集团
为何需要OmniAgent:当前多模态模型的困境
在深入了解 OmniAgent 之前,我们先来看看为什么现有的方法不够理想。论文的作者们在 Figure 2 中清晰地总结了几个主流范式及其局限性:
- (a) 端到端OmniLLMs:这类模型试图将视觉和音频编码器融合进一个统一架构。虽然想法很好,但它们面临着高昂的训练成本、困难的跨模-态对齐问题,导致细粒度推理能力有限。简单来说,模型很难真正“同步”声音和画面。
- (b) 固定工作流Agent:这类方法依赖于预先设定的、僵化的处理流程。它们缺乏灵活性,无法根据具体问题的需求来动态分配注意力,难以进行真正意义上的细粒度分析。
- (c) 基于字幕的Agent:这种方法通过预先生成视频字幕来理解内容,但计算成本高,且对噪声敏感。更重要的是,单独的字幕往往无法捕捉到完整的跨模态上下文信息。
相比之下,(d) OmniAgent 采用了一种全新的主动感知推理范式。它在一个迭代的反思循环中,策略性地调用视频和音频理解能力,从而明确地解决了跨模态对齐的难题,实现了细粒度理解。
OmniAgent如何实现“主动感知”?
OmniAgent 的核心是一个**“思考-行动-观察-反思 (Think-Act-Observe-Reflect)”**的迭代循环。它不像传统模型那样一次性处理所有信息,而是像人类一样,分步骤解决问题。
上图 完美展示了其工作流程。当接收到一个复杂的用户请求时:
- 思考 (Think) :Agent首先会分析问题,制定一个初步的推理计划。它会判断这个问题更依赖于听觉还是视觉线索,从而决定是先“听”还是先“看”。
- 行动 (Act) :根据计划,Agent会从一个丰富的“工具箱”中选择并调用最合适的工具。这个工具箱被分为三类:
- 视频工具集 (Video Tools):包括全局视频描述、视觉问答、以及在特定时间窗口内以更高帧率进行分析的“视频片段精读”工具。
- 音频工具集 (Audio Tools):包括音频描述、音频问答、以及能够提供精确时间戳的语音识别(ASR)。
- 事件工具集 (Event Tools):这是 OmniAgent 的一大创举。它包含一个音频引导的事件定位算法。Event List 工具可以快速扫描整个音频流,列出所有可检测到的声音事件;而 Event Location 工具则能根据具体查询,返回事件发生的精确时间戳。
- 观察 (Observe) :Agent接收工具返回的结果(如一段文字描述、一个时间点或一个答案)。
- 反思 (Reflect) :这是最关键的一步。Agent会评估新获得的信息是否足以回答用户的问题。如果证据不足,或者发现音视频信息之间存在矛盾,它就会重新进入“思考”阶段,启动新一轮的探索。这个过程会一直持续,直到收集到足够的证据,最终生成答案。
核心创新:从粗到细的音频引导感知
OmniAgent最巧妙的设计在于其“从粗到细的音频引导感知” (coarse-to-fine audio-guided perception) 范式。
想象一下,处理一个长视频需要巨大的计算资源,如果对每一帧都进行高精度分析,成本是无法接受的。OmniAgent另辟蹊径:它认为音频是更高效的全局线索。相比于视频,音频流包含的token数量要少得多,处理起来也更快。
因此,它的策略是:
- 先用音频工具进行粗定位:当被问及一个问题时,Agent首先调用事件工具(如Event Location)在整个音频流中快速找到相关的声音事件(例如,问题中提到的“小猫”的叫声)。
- 再用视频工具进行细分析:一旦通过音频定位到了一个精确的时间窗口(比如第35秒到第40秒),Agent就可以集中火力,只对这个短暂的视频片段调用高成本、高精度的视频工具(如Video Clip Analysis),以更高的空间和时间分辨率进行分析。
这种方式极大地提高了效率和准确性,避免了在无关的视频片段上浪费算力,真正做到了“好钢用在刀刃上”。
效果如何?数据说话
理论说得再好,也要靠实验结果来验证。OmniAgent在三个主流的音视频理解基准测试中,都取得了惊人的成绩,可以说是“遥遥领先”。
如上图(c)所示,无论是在 Daily-Omni、OmniVideoBench 还是 WorldSense 数据集上,OmniAgent 的性能都全面超越了现有的各种强劲对手,包括像 Qwen3-Omni 和 Gemini 2.5-Flash 这样的顶级模型。
(a) 中的案例生动地展示了 OmniAgent 的工作方式。当被问及视频里一个招牌上的中文字时,它首先通过音频线索(“the kitten”)定位到关键时间段,然后在该片段内调用视频工具,成功识别出“南柯”二字。而相比之下,强大的端到端模型 Qwen3-Omni 则给出了错误的答案。
具体来看关键数据:
- 在 Daily-Omni 基准上,OmniAgent 的平均准确率达到了 82.71%,相比之前的SOTA方法 (71.50%) 和强大的 Gemini 2.5-Flash (72.70%),实现了近 10% 的绝对提升。
- 在长视频理解基准 OmniVideoBench 上,它的优势更加明显,平均分达到 59.10%,远超第二名 Gemini 2.5-Flash 的 52.40%。
- 在 WorldSense 基准上,OmniAgent 的平均分也以 61.2% 的成绩轻松夺魁。
写在最后
OmniAgent 教会模型如何像人一样“思考”和“使用工具”,通过将复杂的跨模态问题分解,并主动地、有策略地去寻求答案。MLLMs通过“听音”和“看画”的有机结合,为我们解读视频中的每一个精彩瞬间。