AI大模型:多模态大模型和应用奇点将至
创始人
2025-07-14 02:41:16
0

多模态是大语言模型(LLM)发展的必然趋势。借助Scaling Law 和强化学习,LLM 已经在很多领域获得了超过普通人类的智能,但是其处理的核心信息仅是文本。为了拓展更广泛的使用场景,研究者将其他模态的能力“加入”到 LLM 中,多模态大型语言模型(MLLM)问世。架构上看,MLLM 可以分为模块化架构和原生架构,前者通常分别训练不同模态然后实现模块“拼接”,而后者则直接在全部模态数据上从头开始 同步训练的模型。效果上看,原生 MLLM 在性能、延时、部署上均有优势,但是对算力和Know-How 的需求较高,通常只有头部模型大厂在做,OpenAI 和Google 领先。无论架构如何,MLLM 已经成为行业共识的必然趋势。

幻影视界今天分享的是人工智能AI行业研究报告:《多模态大模型和应用奇点将至》,报告由华泰证券发布。

研究报告内容摘要如下

大型语言模型的快速发展促使研究者不断扩展其多模态能力。多模态大型语言模型是大语言模型(LLM)和大型视觉模型(LVM)融合的结果。借助Scaling Law,LLM 已经几乎学习了公开可得的互联网级别数据。24 年9 月OpenAI 提出o 系列模型后,全球模型在强化学习技术的加持下,进一步获得了思维涌现和强推理能力。但是LLM 处理的核心信息是文本,模态较为单一。反观LVM,对于视觉等多模态有优秀的感知能力,但通常在推理方面存在不足。结合LLM 和LVM 的优势,多模态大型语言模型(MLLM)得以问世。形式上,MLLM 指的是基于LLM 且具备接收、推理和输出多模态信息能力的模型,能够使用多模态指令微调来增加其遵循人类指令的能力,从而实现基于图片编写网站、理解图像、光学字符识别(OCR)等能力。

模块化vs 原生架构:原生MLLM 具有更好的统一性和效率优势。大多数现有的MLLM 采用模块化架构,即不同的模态部分为拼接的“pipeline”形式,其中视觉编码和语言解码分 开处理,通常先用预训练视觉编码器(如 ViT/CLIP)提取图像特征,再借助少量插入层(如查询Transformer、交叉注意力)将视觉特征送入LLM。另一种结构是单体MLLM,也即“原 生”MLLM,指不依赖预训练大语言模型或视觉编码器,直接在全部模态数据上从头开始同步训练的模型,训练时同时使用图文/语音等数据构建统一目标,无需先后分阶段。原生MLLM 将视觉感知和多模态理解直接集成到单个LLM 中,由于其端到端性和统一性,原生MLLM 可以更容易地使用现有的LLM 推理库进行部署,并且比模块化MLLM 显示出更高的效率。然而,原生MLLM 通常需要较高的训练成本和训练Know-How,一般只有头部的模型厂商才会采取这种架构。

从大模型到多模态:商业化的必由之路

AI 应用公司会基于LLM/MLLM 的能力,搭建相应的原生AI 产品,实现商业化。从全球AI 公司的商业化进展看,无论是基于LLM 的文本类产品,还是基于MLLM 的多模态产品,呈现出以下大趋势:1)海外商业化进展快于国内。2)全球维度,一级公司进展快于二级。3)整体多模态为主的产品商业化快于文本产品。4)Chatbot 为代表的文本类产品国内外商业化分歧明显,在海外能够实现10 亿美金以上的ARR(如OpenAI、Anthropic),而国内Chatbot 还未实现很好的商业化。

海外商业化更超前,国内出海进展迅速

全球维度,年化收入超过1 亿美金的产品绝大多数为海外+多模态+初创公司,且头部效应显著。据非凡产研统计数据,截至25 年5 月,全球主要的AI 产品中,年化收入超过1 亿美金的有26 个,其中3 个产品来自国内公司(美图、快手、睿琪软件,其中美图、快手为上市公司),占比11.5%;多模态产品有12 个,占比46.2%。收入区间上看,年化收入超过50亿美金的仅有OpenAI(未考虑OpenAI 2B的API收入),10-50亿美金的仅有Anthropic (未考虑Anthropic 2B 的API 收入),这两家均为全球大模型的龙头厂商,其模型产品是全球大模型中的领先者。2-10 亿美金的公司有Midjourney(图像生成)、Anysphere(AI Coding)、Dialpad(客户支持)、6sense(营销)。Top 100 AI 产品的年化收入大多在1 亿美金以下。我们认为,全球AI 商业化上,头部效应显著,海外商业化快于国内,多模态产品是其中重要的产品形态,AIGC、Coding、客服等场景均有较成功的商业化典型。

多模态产品持续迭代,可用性和商业化均向好

图像生成:从高质量到易用性,各玩家寻求差异化卖点图像生成产品经历了从“追求更高逼真度”到“提升易用性与整合度”的路线。Midjourney 不断迭代模型版本提高图像质量和细节理解,同时通过Discord 社区运营积累大批创意用户;OpenAI 则将DALL·E 直接嵌入ChatGPT 对话,让普通用户在聊天中就可生成图像。Adobe Firefly 将AI 融入现有创意工具,用户几乎无感地在Photoshop 等产品中使用生成填充等AI 功能完成设计。这一系列演化体现出图像生成正从小众试验转向大众应用:模型能力提升的同时,使用门槛大幅降低,AI 生图正在成为普通内容创作的一部分。

视频生成:国内厂商多模态发力的主要赛道Sora 指明了DiT 的视频生成技术路线,但是发布时间推迟,给了其他厂商追赶机会。Sora 发布之前,主要的视频生成产品是海外Runway Gen 系列和Pika 系列,以及国内爱诗科技Pixverse 系列。Sora 发布后,尤其是Diffusion Transformer(DiT)技术路线的确认,各初创公司和大厂在视频生成赛道加速布局,国内厂商进展迅速。初创公司方面,大模型公司MiniMax 和智谱在AI 助手中嵌入了视频生成功能,且发布即可用,无需排队等待。大厂方面,字节即梦和快手可灵先后上线视频生成产品。尤其是快手可灵的商业化进展迅速,成为国内视频生成领域的标杆应用。

其他多模态交互AI 产品

其他多模态产品的快速崛起,扩展了C 端用户能够借助AI 创作的内容类型矩阵。除了之前讨论的图像、视频外,语音、音乐、3D 等各领域产品也找到了各自的切入点。ElevenLabs 主攻高品质语音合成和克隆;Suno 让普通用户能够生成带人声演唱的完整歌曲。在数字人方面,Synthesia 定位企业培训、营销的视频生成,强调高质量、严控形象;HeyGen 灵活面向自媒体和轻量商业,支持用户自定义头像、翻译原有视频内容等。多模态产品的演进方向各异,但总体趋势是围绕不同内容形式,优化出特定场景下的AI 创作体验,丰富了C 端市场的选择。

为满足用户和企业的特定需求,个性化定制能力越来越受到重视。用户场景“千人千面”, 导致过于标准化的产品越来越难以适配需求,多模态个性化能力对于做出产品差异化越来 越重要。一方面是模型输出个性化,典型如用户用自己照片生成专属数字人(HeyGen、Synthesia 等),用自己声音训练专属语音(ElevenLabs),或用自己数据微调模型风格(Stable Diffusion 社区大量微调模型)。另一方面是服务层面的定制,如企业希望模型懂自己的品牌语言和素材,Adobe 提出让Firefly 训练企业专属风格,Synthesia 为大客户制作专用Avatar。这种“千人千面”的趋势将 AI 工具从大众模式带向个人/企业私有化阶段,使得生成内容更符合使用者期望,也促进了数据生态的发展。

幻影视界整理分享报告原文节选如下:

本文仅供参考,不代表我们的任何投资建议。幻影视界整理分享的资料仅推荐阅读,用户获取的资料仅供个人学习,如需使用请参阅报告原文。

相关内容

热门资讯

产业链龙头加速布局 固态电池行... ①固态电池作为极具前景的下一代电池技术,吸引大批“玩家”入局,产业化进程不断提速。 ②EVTank预...
小沈阳演唱会无人机应援 文章一: 夜幕低垂,华灯初上,一场别开生面的音乐盛宴在城市的夜空下缓缓拉开序幕。这不仅仅是一场小沈...
共筑乳品行业智慧生态,澳柯玛商... 7月13日—15日,第十六届中国奶业大会暨2025中国奶业展览会在厦门国际会议展览中心举办。作为中国...
西部数字经济新标杆!看贵阳高新... 在数字经济蓬勃发展的浪潮中,贵阳高新区以“数商”“数才”“数园”三大工程为抓手,加快构建数字经济产业...
宁德时代申请极柱焊接方法及系统... 金融界2025年7月15日消息,国家知识产权局信息显示,宁德时代新能源科技股份有限公司申请一项名为“...
亚马逊云科技-生成式AI应用评... 关键字: [亚马逊云科技, 生成式AI, Bedrock Model Evaluation, 生成式...
联想申请数据传输方法相关专利,... 金融界2025年7月15日消息,国家知识产权局信息显示,联想(北京)有限公司申请一项名为“数据传输方...
英伟达将恢复H20在中国的销售... 7月15日,英伟达在官网发文称,公司将恢复H20在中国的销售,并宣布推出面向中国市场的全新且完全兼容...
原创 联... 国际电信联盟 日内瓦人工智能峰会上展示的技术 人工智能正为传统医学开启变革性时代——古老的疗愈体系与...
Meta将投资数千亿美元建设大... 美东时间7月14日,Meta CEO马克·扎克伯格表示,该公司将投资数千亿美元建设几座大型数据中心,...
山姆卖好丽友,中产破防了 文|新品略财经,作者|吴文武 当好丽友摆上山姆货架,多少会让一些山姆核心会员中产有些破防,背后一路...
宁波东哲新材料取得高速混合机专... 金融界2025年7月15日消息,国家知识产权局信息显示,宁波东哲新材料有限公司取得一项名为“一种高速...
朱啸虎:大模型会吃掉90%Ag... 图片来源:网络 “大模型会吃掉90%Agent”,朱啸虎在个人小红书账号上表示。 在直言具身智能赛道...
原创 一... 一些短视频内容不具备可持续性,但制作短视频的人仍然乐此不疲。 短视频平台刚刚发展起来的时候,有很多...
心脉医疗获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示心脉医疗(688016)新获得一项实用新型专利授权,专利名为“...
原创 恒... 你有没有过这样的经历?晚上抬头看星星,除了觉得好看,会不会突然冒出来一些奇奇怪怪的问题?我前几天就对...
中科美菱获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示中科美菱(835892)新获得一项实用新型专利授权,专利名为“...
第三届链博会即将开幕,湖北首次... 极目新闻记者 刘闪 何佳仪 第三届中国国际供应链促进博览会(链博会)将于7月16日至20日在京举行,...
美的集团获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示美的集团(000333)新获得一项实用新型专利授权,专利名为“...
脑机接口,从“解码语言”到更多... 第十一届中国(上海)国际技术进出口交易会上的一款人工智能多模态脑机接口系统。 逸 成摄(影像中国) ...