AIGC与AI技术谱系:从生成内容到大语言模型的全面解读
人人都是产品经理
2024-02-15 13:15:03
0

原标题:AIGC与AI技术谱系:从生成内容到大语言模型的全面解读

人工智能技术的飞跃发展,尤其是大语言模型的应用,正深刻改变信息生产和交流的方式。通过深度学习与自然语言处理的创新融合,诸如ChatGPT、通义千问等智能系统能够理解并生成高质量文本内容。本篇将聚焦AIGC的核心——大语言模型的工作机制及其实际应用,揭示这一颠覆性技术如何重塑信息时代的内容创作生态。

说起过去一年的热门科技词汇,AIGC当之无愧位列其中。

但你真的了解AIGC吗?

从某一天开始,我们突然发现AI可以生成文字、图片、音频、视频等等内容了,而且让人难以分清背后的创作者到底是人类还是AI。

这些AI生成的内容被叫做AIGC,它是“AI Generated Content”,即AI生成内容的简写。像ChatGPT生成的文章,GitHub Copilot生成的代码、Midjourney生成的图片等等,都属于AIGC。

一、生成式AI与相关领域的联系

而当AIGC这个词在国内火爆的同时,海外更流行的是另外一个词Generative AI,即生成式AI。从字面上来看,生成式AI和AIGC之间的关系很好理解,生成式AI所生成的内容就是AIGC。所以像ChatGPT、GitHub Copilot、Midjourney等都属于生成式AI。

由此可见,AIGC和生成式AI的概念都是很简单直白的。

但是因为AIGC这个词在国内比生成式AI更加流行,很多语境下AIGC也被用于指代生成式AI。

那么生成式AI和AI、机器学习、监督学习、无监督学习、强化学习、深度学习、大语言模型等等词汇之间又是什么关系呢?有没有一种剪不断理还乱的感觉?这个很难一言以蔽之,那通过一张图就可以直观理解它们之间的关系了。

AI也叫人工智能,是计算机科学下的一个学科,旨在让计算机系统去模拟人类的智能,从而解决问题和完成任务。

早在1956年,AI就被确立为了一个学科领域,在此后数十年间经历过多轮低谷与繁荣。

二、机器学习

机器学习是AI的一个子集,它的核心在于不需要人类做显式编程,而是让计算机通过算法自行学习和改进,去识别模式、做出预测和决策。

比如,如果我们通过代码告诉电脑,图片里有红色是玫瑰,图片里有说明是向日葵,那么程序对花种类的判断就是通过人类直接编写逻辑达成的,不属于机器学习,机器什么也没学。

但是如果我们给电脑大量玫瑰和向日葵的图片,让电脑自行识别模式、总结规律,从而能对没见过的图片进行预测和判断,这种就是机器学习。

机器学习领域下有多个分支,包括监督学习、无监督学习、强化学习。

在监督学习里,机器学习算法会接受有标签的训练数据,标签就是期望的输出值。所以每一个训练数据点都既包括输入特征,也包括期望的输出值。

算法的目标是学习输入和输出之间的映射关系,从而在给定新的输入特征后,能够准确预测出相应的输出值。

监督学习:

经典的监督学习任务包括分类,也就是把数据划分为不同的类别以及回归,也就是对数值进行预测。

比如拿一堆猫猫狗狗的照片和照片对应的“猫”“狗”标签进行训练,然后让模型根据没见过的照片预测是猫还是狗,这就属于分类。

拿一些房子特征的数据,比如面积、卧室数量、是否带阳台等和相应的房价作为标签进行训练,然后让模型根据没见过的房子的特征预测房价——这就属于回归。

无监督学习:

无监督学习和监督学习不同的是:他学习的数据是没有标签的,所以算法的任务是自主发现数据里的模式或规律。

经典的无监督学习任务包括聚类,也就是把数据进行分组。

比如拿一堆新闻文章,让模型根据主题或内容的特征自动把相似文章进行组织。

强化学习:

强化学习则是让模型在环境里采取行动,获得结果反馈。

从反馈里学习,从而能在给一定情况下采取最佳行动来最大化奖励或是最小化损失。所以就跟是小狗似的,刚开始的时候,小狗会随心所欲做出很多动作,但随着和驯犬师的互动,小狗会发现某些动作能够获得零食,某些动作没有零食,某些动作甚至会遭受惩罚。

通过观察动作和奖惩之间的联系,小狗的行为会逐渐接近训犬师的期望。

强化学习可以应用。

在很多任务上,比如说让模型下围棋,获得不同行动导致的奖励或损失反馈,从而在一局局游戏里优化策略,学习如何采取行动达到高分。

三、深度学习的方法与应用

那问题来了:深度学习属于这三类里的哪一类呢?

——他们属于里面的任何一类!

深度学习是机器学习的一个方法,核心在于使用人工神经网络模仿人脑处理信息的方式,通过层次化的方法提取和表示数据的特征。

神经网络是由许多基本的计算和储存单元组成,这些单元被称为神经元。

这些神经元通过层层连接来处理数据,并且深度学习模型通常有很多层,因此成为深度。

比如要让计算机时给小猫的照片。在深度学习中,数据首先被传递到一个输入层,就像人类的眼睛看到图片一样,然后数据通过多个隐藏层。

每一层都会对数据进行一些复杂的数学运算来帮助计算机理解图片中的特征,例如小猫的耳朵、眼睛等等。最后计算机会输出一个答案,表明这是否是一张小猫的图片。

神经网络可以用于监督学习、无监督学习、强化学习,所以深度学习不属于他们的子集。

生成式AI是深度学习的一种应用,它利用神经网络来识别现有内容的模式和结构,学习生成新的内容,内容形式可以是文本、图片、音频等等。

四、大语言模型 (LLM)

而大语言模型“Large Language Models”简称 LLM,也是深度学习的一种应用,专门用于进行自然语言处理任务。

大语言模型里面的大字说明模型的参数量非常大,可能有数十亿甚至到万亿个,而且训练过程中也需要海量文本数据集,所以能更好的理解自然语言以及生成高质量的文本。

大语言模型的例子有非常多,比如国外的GPT、LLaMA,国内的ERNIE、ChatGLM等,可以进行文本的理解和生成。

以GPT-3这个模型为例,它会根据输入提示以及前面生成过的词,通过概率计算逐步生成下一个词或token来输出文本序列。想对大语言模型背后的原理有更多了解的话,可以收看下一节视频。

但不是所有的生成式AI都是大语言模型,而所有的大语言模型是否都是生成式AI,这也存在些许争议。

前半句很好理解,生成图像的扩散模型就不是大语言模型,它并不输出文本。同时有些人认为不是所有大语言模型都是生成式AI,因为有些大语言模型由于其架构特点不适合进行文本生成。

谷歌的BERT模型就是一个例子,它的参数量和序列数据很大,属于大语言模型。

应用方面,BERT理解上下文的能力很强,因此被谷歌用在搜索上,用来提高搜索排名和信息摘录的准确性。它也被用于情感分析、文本分类等任务。但同时BERT不擅长文本生成,特别是连贯的长文本生成。所以有些人认为此类模型不属于生成式AI的范畴。

以上这些概念共同构成了AIGC的核心要素,希望能帮助你对时下热门的AIGC建立更多了解。

本文由 @火粒产品 原创发布于人人都是产品经理。未经许可,禁止转载

题图来自Unsplash,基于CC0协议

相关内容

热门资讯

净海暖通取得散热型自然通风天窗... 金融界2025年8月23日消息,国家知识产权局信息显示,南通市净海暖通设备有限公司取得一项名为“散热...
潍柴雷沃取得应用于压力焊工艺检... 金融界2025年8月23日消息,国家知识产权局信息显示,潍柴雷沃智慧农业科技股份有限公司取得一项名为...
斩获宇树、智元订单 投资深圳逐... 来源:光祥财经 报告解读: 北上广深?谁是人形机器人之王? 光洋股份获得了哪几家头部机器人公司的订...
专业化群演招募培训 电影梦不再... 你是否曾经在观看电影时,内心涌动着强烈的渴望,幻想自己也能置身于那光影交织的奇妙世界,演绎别样人生?...
原创 成... 当今时代,信息如大海般汹涌而来,表面热闹非凡,却常让人眼花缭乱。当很多人满足于追逐表面的信息潮流时,...
工信部副部长熊继军:切实提升算... 8月23日,以“算网筑基 智引未来”为主题的2025中国算力大会在山西省大同市开幕。工业和信息化部副...
南昌市智慧阅读实践经验在全球智... 8月18-20日,2025年全球智慧教育大会在北京师范大学举行。南昌市教育评估监测和技术推广中心党委...
华为云组织架构大调整! 2025年8月22日,华为云迎来了一次具有深远意义的组织架构调整,华为云CEO张平安通过内部发文正式...
视频产业的创意活力,被百度蒸汽... 1776 年,瓦特改良蒸汽机,将传统手工作坊转化为规模化生产的工厂,蒸汽机由此成为工业革命的动力心脏...
原创 v... 同一个品牌旗下免不了会出现搭载相同处理器的机型,而这类机型又免不了会被进行对比,其中性价比较低的机型...
真我15000mAh手机曝光,... 今年5月,realme 真我官方在海外官宣了一款概念手机,该机的电池容量达到了 10000mAh。 ...
我国又一“科考利器” 成功海试... 本文转自【新华视点】; 新华全媒+|我国自主研制的6000米级深海无人遥控潜水器“海琴”号在南海成功...
天河企业组团亮相广博会,输出“... 南方财经记者魏彤 广州报道 “大家好,我是高擎机电的小海,很高兴参加第33届广州博览会。” 8月22...
中弘源泽建设取得喷涂施工用平台... 金融界2025年8月23日消息,国家知识产权局信息显示,中弘源泽建设有限公司取得一项名为“一种喷涂施...
“星舰”第十次试飞 成功与否明... 美国太空探索技术公司新一代重型运载火箭“星舰”拟于当地时间24日傍晚(北京时间25日早晨)展开第十次...
数智改变生活|数智普惠!算家计... 当AI计算的门槛被悄然打破,当1.24元就能体验到RTX 4090的超强算力,数智化的浪潮正以前所未...
江南文化style⑩ | 没有... 编者按:在这个快节奏的时代,你是否幻想过穿越回千年前,体验古人那雅致细腻的生活美学?浙江在线的“AI...
AI赋能智能家居加速创新 香江... 来源:市场资讯 (来源:证券时报) AI、云计算、物联网等技术赋能下,智能家居行业创新提速。日前举行...
中国科技馆举办科学之夜预热全国... 中新网北京8月24日电 (记者 孙自法)中国科技馆8月24日向媒体发布信息说,作为2025年全国科普...
应对遗传瓶颈 北京首次开展境外... 麋鹿作为我国特有物种,经历了从繁盛到本土灭绝的沧桑历程。40年前的8月24日,22只麋鹿从英国重回北...