今天分享的是【2024交互型多模态大模型研究进展、应用前景以及商业模式分析报告】
快速响应:大模型能做到极低延迟,响应速度比肩人类,且可以做到对话随时打断GPT-40 响应速度直升一个数量级,能在短至 232 毫秒、平均 320 毫秒的时间内响应音频输入,与人类在对话中的反应速度一致,且可以随时打断,而过去的 GPT-3.5 平均延时为 2.8秒、GPT-4为5.4秒。
GPT-40 低延时以及随时打断特性跟端到端训练直接关联。GPT-4在进行语音识别时,需要等待用户说完一句话才能完成整句识别;识别完成后,将整句话输入到后续的大模型中生成回复;再之后才能调用语音合成模型来转换成语音。而现在 GPT0 将这些功能集成到一个模型中,各部分之间的依赖性降低,因为模型内部表征已经融合在一起,所以可以更快地开始生成语音输出,而不必等待前面的所有信息都处理完毕。
简单来说,端到端大模型一般采用流式输入的方式,即在接收到部分信息时就开始处理;同时,随着对话继续进行,模型将不断地吸收新的信息,对回复进行实时调整。这种设计让大模型具备了边听边说的能力,即在用户讲话的过程中就开始准备回应,一旦用户暂停,模型可以立即给出反馈。这种机制极大地减少了响应延迟,使交互变得更加自然流畅,同时也支持用户在任何时候打断模型,因为模型总是保持着对当前对话状态的最新理解。
情感表达:回复有“人味”,情绪饱满,会带来极强的交互沉浸感,是增强用户粘性的关键。
GPT-40 不仅能很好地理解用户情绪,还能反馈以非常饱满的情绪,它会惊讶,会笑,会随着用户的情绪激动起来,语气中充满了细节。在发布会上,当测试者要求 GPT-40 用“最戏剧性”的方式去讲故事的时候,它表现得很像话剧演员,能给故事各个情节配上合适的情绪;而在用户要求以歌声结束这个故事时,GPT-40甚至会叹气。
在探讨大模型发展及影响时,我们往往倾向于聚焦技术层面的突破、性能的提升,然而AI 除了提供实用的知识价值之外,还能够为用户带来另一种更为微妙但却至关重要的价值--情感价值。用户与技术之间的关系不仅仅只有单纯的信息层面的连接,还有情感层面的连接。对于许多用户来说,他们期望的不仅仅是高效的数据处理和信息检索,更在于技术能够以一种更加人性化的方式与之互动。
交互型多模态大模型在此方面展现出巨大的潜力,它能够通过细微的个性化调整,让用户体验到被理解和关怀的感觉,从而在用户心中建立起更强的情感纽带,我们认为这对增强用户粘性具有不可忽视的作用。用户会开始依赖大模型,因为它不仅能够快速收集整理信息,更重要的是它能够在关键时刻给予用户情感上的支持。这种情感上的联结,会让用户对 A| 产品的满意度和忠诚度显著提高,从而促进 A| 技术在各类应用中的渗透率提升、以及持续使用和发展。
免责声明:以上报告均系本平台通过公开、合法渠道获得,报告版权归原撰写/发布机构所有,如涉侵权,请联系删除;资料为推荐阅读,仅供参考学习,如对内容存疑,请与原撰写/发布机构联系