浙江大学、西湖大学与蚂蚁提出OmniAgent：让模型“先听后看”，实现细粒度音视频推理_科技资讯

浙江大学、西湖大学与蚂蚁提出OmniAgent：让模型“先听后看”，实现细粒度音视频推理

创始人

2026-01-05 02:41:59

你是否也曾对多模态大模型的表现感到困惑？它们看似能“看懂”视频，但一问到需要音视频精确同步的细节问题，就常常“翻车”。比如，视频里的人说了某句话时，旁边牌子上写了什么字？目前的许多模型，要么无法对齐信息，要么干脆忽略其中一个模态。

最近，来自浙江大学、西湖大学和蚂蚁集团的研究者们共同提出了一种名为 OmniAgent 的新型智能体框架，或许能彻底改变这一现状。它不再是被动地接收和处理信息，而是像一个侦探一样，主动思考、调用工具、并根据线索进行推理，尤其是通过“先听后看”的策略，实现了前所未有的细粒度音视频理解。

论文标题: OmniAgent: Audio-Guided Active Perception Agent for Omnimodal Audio-Video Understanding
论文地址: https://arxiv.org/abs/2512.23646
项目主页: https://kd-tao.github.io/OmniAgent/
机构: 浙江大学, 西湖大学, 蚂蚁集团

为何需要OmniAgent：当前多模态模型的困境

在深入了解 OmniAgent 之前，我们先来看看为什么现有的方法不够理想。论文的作者们在 Figure 2 中清晰地总结了几个主流范式及其局限性：

(a) 端到端OmniLLMs：这类模型试图将视觉和音频编码器融合进一个统一架构。虽然想法很好，但它们面临着高昂的训练成本、困难的跨模-态对齐问题，导致细粒度推理能力有限。简单来说，模型很难真正“同步”声音和画面。
(b) 固定工作流Agent：这类方法依赖于预先设定的、僵化的处理流程。它们缺乏灵活性，无法根据具体问题的需求来动态分配注意力，难以进行真正意义上的细粒度分析。
(c) 基于字幕的Agent：这种方法通过预先生成视频字幕来理解内容，但计算成本高，且对噪声敏感。更重要的是，单独的字幕往往无法捕捉到完整的跨模态上下文信息。

相比之下，(d) OmniAgent 采用了一种全新的主动感知推理范式。它在一个迭代的反思循环中，策略性地调用视频和音频理解能力，从而明确地解决了跨模态对齐的难题，实现了细粒度理解。

OmniAgent如何实现“主动感知”？

OmniAgent 的核心是一个**“思考-行动-观察-反思 (Think-Act-Observe-Reflect)”**的迭代循环。它不像传统模型那样一次性处理所有信息，而是像人类一样，分步骤解决问题。

上图完美展示了其工作流程。当接收到一个复杂的用户请求时：

思考 (Think) ：Agent首先会分析问题，制定一个初步的推理计划。它会判断这个问题更依赖于听觉还是视觉线索，从而决定是先“听”还是先“看”。
行动 (Act) ：根据计划，Agent会从一个丰富的“工具箱”中选择并调用最合适的工具。这个工具箱被分为三类：
视频工具集 (Video Tools)：包括全局视频描述、视觉问答、以及在特定时间窗口内以更高帧率进行分析的“视频片段精读”工具。
音频工具集 (Audio Tools)：包括音频描述、音频问答、以及能够提供精确时间戳的语音识别（ASR）。
事件工具集 (Event Tools)：这是 OmniAgent 的一大创举。它包含一个音频引导的事件定位算法。Event List 工具可以快速扫描整个音频流，列出所有可检测到的声音事件；而 Event Location 工具则能根据具体查询，返回事件发生的精确时间戳。
观察 (Observe) ：Agent接收工具返回的结果（如一段文字描述、一个时间点或一个答案）。
反思 (Reflect) ：这是最关键的一步。Agent会评估新获得的信息是否足以回答用户的问题。如果证据不足，或者发现音视频信息之间存在矛盾，它就会重新进入“思考”阶段，启动新一轮的探索。这个过程会一直持续，直到收集到足够的证据，最终生成答案。

核心创新：从粗到细的音频引导感知

OmniAgent最巧妙的设计在于其“从粗到细的音频引导感知” (coarse-to-fine audio-guided perception) 范式。

想象一下，处理一个长视频需要巨大的计算资源，如果对每一帧都进行高精度分析，成本是无法接受的。OmniAgent另辟蹊径：它认为音频是更高效的全局线索。相比于视频，音频流包含的token数量要少得多，处理起来也更快。

因此，它的策略是：

先用音频工具进行粗定位：当被问及一个问题时，Agent首先调用事件工具（如Event Location）在整个音频流中快速找到相关的声音事件（例如，问题中提到的“小猫”的叫声）。
再用视频工具进行细分析：一旦通过音频定位到了一个精确的时间窗口（比如第35秒到第40秒），Agent就可以集中火力，只对这个短暂的视频片段调用高成本、高精度的视频工具（如Video Clip Analysis），以更高的空间和时间分辨率进行分析。

这种方式极大地提高了效率和准确性，避免了在无关的视频片段上浪费算力，真正做到了“好钢用在刀刃上”。

效果如何？数据说话

理论说得再好，也要靠实验结果来验证。OmniAgent在三个主流的音视频理解基准测试中，都取得了惊人的成绩，可以说是“遥遥领先”。

如上图(c)所示，无论是在 Daily-Omni、OmniVideoBench 还是 WorldSense 数据集上，OmniAgent 的性能都全面超越了现有的各种强劲对手，包括像 Qwen3-Omni 和 Gemini 2.5-Flash 这样的顶级模型。

(a) 中的案例生动地展示了 OmniAgent 的工作方式。当被问及视频里一个招牌上的中文字时，它首先通过音频线索（“the kitten”）定位到关键时间段，然后在该片段内调用视频工具，成功识别出“南柯”二字。而相比之下，强大的端到端模型 Qwen3-Omni 则给出了错误的答案。

具体来看关键数据：

在 Daily-Omni 基准上，OmniAgent 的平均准确率达到了 82.71%，相比之前的SOTA方法 (71.50%) 和强大的 Gemini 2.5-Flash (72.70%)，实现了近 10% 的绝对提升。
在长视频理解基准 OmniVideoBench 上，它的优势更加明显，平均分达到 59.10%，远超第二名 Gemini 2.5-Flash 的 52.40%。
在 WorldSense 基准上，OmniAgent 的平均分也以 61.2% 的成绩轻松夺魁。

写在最后

OmniAgent 教会模型如何像人一样“思考”和“使用工具”，通过将复杂的跨模态问题分解，并主动地、有策略地去寻求答案。MLLMs通过“听音”和“看画”的有机结合，为我们解读视频中的每一个精彩瞬间。

上一篇：脑机接口“狂飙”：马斯克Neuralink开启大规模量产，哪些A股公司已实现技术落地？

下一篇：长沙“人工智能+”加出万象应用生态

浙江大学、西湖大学与蚂蚁提出OmniAgent：让模型“先听后看”，实现细粒度音视频推理

相关内容

热门资讯