AI大模型：多模态大模型和应用奇点将至_科技资讯

AI大模型：多模态大模型和应用奇点将至

创始人

2025-07-14 02:41:16

0次

多模态是大语言模型（LLM）发展的必然趋势。借助Scaling Law 和强化学习，LLM 已经在很多领域获得了超过普通人类的智能，但是其处理的核心信息仅是文本。为了拓展更广泛的使用场景，研究者将其他模态的能力“加入”到 LLM 中，多模态大型语言模型（MLLM）问世。架构上看，MLLM 可以分为模块化架构和原生架构，前者通常分别训练不同模态然后实现模块“拼接”，而后者则直接在全部模态数据上从头开始同步训练的模型。效果上看，原生 MLLM 在性能、延时、部署上均有优势，但是对算力和Know-How 的需求较高，通常只有头部模型大厂在做，OpenAI 和Google 领先。无论架构如何，MLLM 已经成为行业共识的必然趋势。

幻影视界今天分享的是人工智能AI行业研究报告：《多模态大模型和应用奇点将至》，报告由华泰证券发布。

研究报告内容摘要如下

大型语言模型的快速发展促使研究者不断扩展其多模态能力。多模态大型语言模型是大语言模型（LLM）和大型视觉模型（LVM）融合的结果。借助Scaling Law，LLM 已经几乎学习了公开可得的互联网级别数据。24 年9 月OpenAI 提出o 系列模型后，全球模型在强化学习技术的加持下，进一步获得了思维涌现和强推理能力。但是LLM 处理的核心信息是文本，模态较为单一。反观LVM，对于视觉等多模态有优秀的感知能力，但通常在推理方面存在不足。结合LLM 和LVM 的优势，多模态大型语言模型（MLLM）得以问世。形式上，MLLM 指的是基于LLM 且具备接收、推理和输出多模态信息能力的模型，能够使用多模态指令微调来增加其遵循人类指令的能力，从而实现基于图片编写网站、理解图像、光学字符识别（OCR）等能力。

模块化vs 原生架构：原生MLLM 具有更好的统一性和效率优势。大多数现有的MLLM 采用模块化架构，即不同的模态部分为拼接的“pipeline”形式，其中视觉编码和语言解码分开处理，通常先用预训练视觉编码器（如 ViT/CLIP）提取图像特征，再借助少量插入层（如查询Transformer、交叉注意力）将视觉特征送入LLM。另一种结构是单体MLLM，也即“原生”MLLM，指不依赖预训练大语言模型或视觉编码器，直接在全部模态数据上从头开始同步训练的模型，训练时同时使用图文/语音等数据构建统一目标，无需先后分阶段。原生MLLM 将视觉感知和多模态理解直接集成到单个LLM 中，由于其端到端性和统一性，原生MLLM 可以更容易地使用现有的LLM 推理库进行部署，并且比模块化MLLM 显示出更高的效率。然而，原生MLLM 通常需要较高的训练成本和训练Know-How，一般只有头部的模型厂商才会采取这种架构。

从大模型到多模态：商业化的必由之路

AI 应用公司会基于LLM/MLLM 的能力，搭建相应的原生AI 产品，实现商业化。从全球AI 公司的商业化进展看，无论是基于LLM 的文本类产品，还是基于MLLM 的多模态产品，呈现出以下大趋势：1）海外商业化进展快于国内。2）全球维度，一级公司进展快于二级。3）整体多模态为主的产品商业化快于文本产品。4）Chatbot 为代表的文本类产品国内外商业化分歧明显，在海外能够实现10 亿美金以上的ARR（如OpenAI、Anthropic），而国内Chatbot 还未实现很好的商业化。

海外商业化更超前，国内出海进展迅速

全球维度，年化收入超过1 亿美金的产品绝大多数为海外+多模态+初创公司，且头部效应显著。据非凡产研统计数据，截至25 年5 月，全球主要的AI 产品中，年化收入超过1 亿美金的有26 个，其中3 个产品来自国内公司（美图、快手、睿琪软件，其中美图、快手为上市公司），占比11.5%；多模态产品有12 个，占比46.2%。收入区间上看，年化收入超过50亿美金的仅有OpenAI（未考虑OpenAI 2B的API收入），10-50亿美金的仅有Anthropic （未考虑Anthropic 2B 的API 收入），这两家均为全球大模型的龙头厂商，其模型产品是全球大模型中的领先者。2-10 亿美金的公司有Midjourney（图像生成）、Anysphere（AI Coding）、Dialpad（客户支持）、6sense（营销）。Top 100 AI 产品的年化收入大多在1 亿美金以下。我们认为，全球AI 商业化上，头部效应显著，海外商业化快于国内，多模态产品是其中重要的产品形态，AIGC、Coding、客服等场景均有较成功的商业化典型。

多模态产品持续迭代，可用性和商业化均向好

图像生成：从高质量到易用性，各玩家寻求差异化卖点图像生成产品经历了从“追求更高逼真度”到“提升易用性与整合度”的路线。Midjourney 不断迭代模型版本提高图像质量和细节理解，同时通过Discord 社区运营积累大批创意用户；OpenAI 则将DALL·E 直接嵌入ChatGPT 对话，让普通用户在聊天中就可生成图像。Adobe Firefly 将AI 融入现有创意工具，用户几乎无感地在Photoshop 等产品中使用生成填充等AI 功能完成设计。这一系列演化体现出图像生成正从小众试验转向大众应用：模型能力提升的同时，使用门槛大幅降低，AI 生图正在成为普通内容创作的一部分。

视频生成：国内厂商多模态发力的主要赛道Sora 指明了DiT 的视频生成技术路线，但是发布时间推迟，给了其他厂商追赶机会。Sora 发布之前，主要的视频生成产品是海外Runway Gen 系列和Pika 系列，以及国内爱诗科技Pixverse 系列。Sora 发布后，尤其是Diffusion Transformer（DiT）技术路线的确认，各初创公司和大厂在视频生成赛道加速布局，国内厂商进展迅速。初创公司方面，大模型公司MiniMax 和智谱在AI 助手中嵌入了视频生成功能，且发布即可用，无需排队等待。大厂方面，字节即梦和快手可灵先后上线视频生成产品。尤其是快手可灵的商业化进展迅速，成为国内视频生成领域的标杆应用。

其他多模态交互AI 产品

其他多模态产品的快速崛起，扩展了C 端用户能够借助AI 创作的内容类型矩阵。除了之前讨论的图像、视频外，语音、音乐、3D 等各领域产品也找到了各自的切入点。ElevenLabs 主攻高品质语音合成和克隆；Suno 让普通用户能够生成带人声演唱的完整歌曲。在数字人方面，Synthesia 定位企业培训、营销的视频生成，强调高质量、严控形象；HeyGen 灵活面向自媒体和轻量商业，支持用户自定义头像、翻译原有视频内容等。多模态产品的演进方向各异，但总体趋势是围绕不同内容形式，优化出特定场景下的AI 创作体验，丰富了C 端市场的选择。

为满足用户和企业的特定需求，个性化定制能力越来越受到重视。用户场景“千人千面”，导致过于标准化的产品越来越难以适配需求，多模态个性化能力对于做出产品差异化越来越重要。一方面是模型输出个性化，典型如用户用自己照片生成专属数字人（HeyGen、Synthesia 等），用自己声音训练专属语音（ElevenLabs），或用自己数据微调模型风格（Stable Diffusion 社区大量微调模型）。另一方面是服务层面的定制，如企业希望模型懂自己的品牌语言和素材，Adobe 提出让Firefly 训练企业专属风格，Synthesia 为大客户制作专用Avatar。这种“千人千面”的趋势将 AI 工具从大众模式带向个人/企业私有化阶段，使得生成内容更符合使用者期望，也促进了数据生态的发展。

幻影视界整理分享报告原文节选如下：

本文仅供参考，不代表我们的任何投资建议。幻影视界整理分享的资料仅推荐阅读，用户获取的资料仅供个人学习，如需使用请参阅报告原文。

上一篇：我国规模最大天然铀产能项目产出“第一桶铀”

下一篇：从乔布斯到马斯克：真正的成功者都是不被驯化的人，他们不随大流

AI大模型：多模态大模型和应用奇点将至

相关内容

热门资讯