京东开源实时视频视觉语言交互模型JoyAI-VL-Interaction
创始人
2026-06-22 21:10:29

IT之家 6 月 22 日消息,京东官方宣布开源实时视频视觉语言交互模型 JoyAI-VL-Interaction,这也是全球首个全栈开源的 interaction 模型和系统,并获得 vLLM-Omni 的 day-0 原生支持。

官方表示,它让大模型从“一问一答”走向“边看边说”,开发者基于这套框架,可以快速搭建能持续观察、自主判断、即时响应的实景 AI 助手。

据介绍,相比传统模型,JoyAI-VL-Interaction 有三重突破:

  • 主动判断,而非被动回答:传统模型通常要等用户发起问题,才开始处理当前画面,而 JoyAI-VL-Interaction 可以持续观察视频流,自主判断什么时候该说话,什么时候该沉默。
  • 实时响应,而非事后总结:传统视频理解更多是上传完整视频后再分析,但在安防预警、实时翻译、直播解说、操作指导等场景里,晚几秒,体验和价值都会不同。JoyAI-VL-Interaction 面向正在发生的视频流,画面变化时就能响应。
  • 适时智能体委托,同时保持观察和交互:JoyAI-VL-Interaction 具备后台任务委派能力与相关机制。当模型遇到生成代码、调用工具、复杂推理等任务时,可以交给后台大模型或 Agent。前台模型继续观察现场,后台模型处理复杂任务,结果返回后再自然接回对话。

官方表示,JoyAI-VL-Interaction 支持摄像头、直播流、监控流等多种视频输入,也支持语音输入输出、可视化界面、长期记忆、后台模型接口和 vLLM 部署方案。ASR、TTS、可视化界面、后台模型、外部工具和业务模块,都可以按需替换。

开发者可以接入自己的语音服务、Agent、API、业务系统或前端界面。它既可以用于研究,也可以改造成安防监控、老人小孩看护、直播讲解、电商导购、操作指导、AI 眼镜、无障碍辅助等实时 AI 助手。

在评测中,JoyAI-VL-Interaction 覆盖监控预警、实时计数、实时翻译、时间感知、直播导览解说等真实流式场景。在这些与视觉触发的主动响应、实时性高度相关的 58 个真人盲评案例中,JoyAI-VL-Interaction 对比豆包视频通话助手,总体胜率 77.6%;对比 Gemini 视频通话助手,总体胜率 87.9%

相关内容

热门资讯

元琛科技获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示元琛科技(688659)新获得一项实用新型专利授权,专利名为“...
公募拥抱AI:抢人、升级、谋变 ◎记者 赵明超 人工智能技术的飞速发展,正深度重构资管行业的发展逻辑。从AI人才招聘激增,到直销Ap...
“进不了窗口”,企业怎么办成事... 不久前,厦门生物医药港内腾基医疗研发的一款医疗器械进入临床试验。企业临床试验负责人第一时间直奔海沧区...
“被wps背刺了” 冲上热搜,... 6月21日,话题词 “被wps背刺了”登上微博热搜,引发网友热议。不少网友在社交平台吐槽,称原本顺手...
雷军谈AI与创造力边界:技术能... 【CNMO科技消息】近日,在北京国际图书博览会期间,小米集团创始人、董事长兼CEO雷军与作家刘震云围...