不谈高级原理,只用简单的语言来聊聊机器学习
创始人
2025-08-22 00:05:34
0

机器学习人人都在谈论,但除了老师们知根知底外,只有很少的人能说清楚怎么回事。如果阅读网上关于机器学习的文章,你很可能会遇到两种情况:充斥各种定理的厚重学术三部曲(我搞定半个定理都够呛),或是关于人工智能、数据科学魔法以及未来工作的天花乱坠的故事。

我决定写一篇酝酿已久的文章,对那些想了解机器学习的人做一个简单的介绍。不涉及高级原理,只用简单的语言来谈现实世界的问题和实际的解决方案。不管你是一名程序员还是管理者,都能看懂。

那我们开始吧!

为什么我们想要机器去学习?

现在出场的是Billy,Billy想买辆车,他想算出每月要存多少钱才付得起。浏览了网上的几十个广告之后,他了解到新车价格在2万美元左右,用过1年的二手车价格是1.9万美元,2年车就是1.8万美元,依此类推。

作为聪明的分析师,Billy发现一种规律:车的价格取决于车龄,每增加1年价格下降1000美元,但不会低于10000美元。

用机器学习的术语来说,Billy发明了“回归”(regression)——基于已知的历史数据预测了一个数值(价格)。当人们试图估算eBay上一部二手iPhone的合理价格或是计算一场烧烤聚会需要准备多少肋排时,他们一直在用类似Billy的方法——每人200g? 500?

是的,如果能有一个简单的公式来解决世界上所有的问题就好了——尤其是对于烧烤派对来说——不幸的是,这是不可能的。

让我们回到买车的情形,现在的问题是,除了车龄外,它们还有不同的生产日期、数十种配件、技术条件、季节性需求波动……天知道还有哪些隐藏因素……普通人Billy没法在计算价格的时候把这些数据都考虑进去,换我也同样搞不定。

人们又懒又笨——我们需要机器人来帮他们做数学。因此,这里我们采用计算机的方法——给机器提供一些数据,让它找出所有和价格有关的潜在规律。

终~于~见效啦。最令人兴奋的是,相比于真人在头脑中仔细分析所有的依赖因素,机器处理起来要好得多。

就这样,机器学习诞生了。

机器学习的3个组成部分

抛开所有和人工智能(AI)有关的扯淡成分,机器学习唯一的目标是基于输入的数据来预测结果,就这样。所有的机器学习任务都可以用这种方式来表示,否则从一开始它就不是个机器学习问题。

样本越是多样化,越容易找到相关联的模式以及预测出结果。因此,我们需要3个部分来训练机器:

数据

想检测垃圾邮件?获取垃圾信息的样本。想预测股票?找到历史价格信息。想找出用户偏好?分析他们在Facebook上的活动记录(不,Mark,停止收集数据~已经够了)。数据越多样化,结果越好。对于拼命运转的机器而言,至少也得几十万行数据才够吧。

获取数据有两种主要途径——手动或者自动。手动采集的数据混杂的错误少,但要耗费更多的时间——通常花费也更多。自动化的方法相对便宜,你可以搜集一切能找到的数据(但愿数据质量够好)。

一些像Google这样聪明的家伙利用自己的用户来为他们免费标注数据,还记得ReCaptcha(人机验证)强制你去“选择所有的路标”么?他们就是这样获取数据的,还是免费劳动!干得漂亮。如果我是他们,我会更频繁地展示这些验证图片,不过,等等……

好的数据集真的很难获取,它们是如此重要,以至于有的公司甚至可能开放自己的算法,但很少公布数据集。

特征

也可以称为“参数”或者“变量”,比如汽车行驶公里数、用户性别、股票价格、文档中的词频等。换句话说,这些都是机器需要考虑的因素。

如果数据是以表格的形式存储,特征就对应着列名,这种情形比较简单。但如果是100GB的猫的图片呢?我们不能把每个像素都当做特征。这就是为什么选择适当的特征通常比机器学习的其他步骤花更多时间的原因,特征选择也是误差的主要来源。人性中的主观倾向,会让人去选择自己喜欢或者感觉“更重要”的特征——这是需要避免的。

算法

最显而易见的部分。任何问题都可以用不同的方式解决。你选择的方法会影响到最终模型的准确性、性能以及大小。需要注意一点:如果数据质量差,即使采用最好的算法也无济于事。这被称为“垃圾进,垃圾出”(garbae in - garbage out,GIGO)。所以,在把大量心思花到正确率之前,应该获取更多的数据。

学习 V.S. 智能

我曾经在一些流行媒体网站上看到一篇题为“神经网络是否会取代机器学习?”的文章。这些媒体人总是莫名其妙地把线性回归这样的技术夸大为“人工智能”,就差称之为“天网”了。下图展示了几个容易混淆的概念之间的关系。

  • 人工智能”是整个学科的名称,类似于“生物学”或“化学”。

  • 机器学习”是“人工智能”的重要组成部分,但不是唯一的部分。

  • 神经网络”是机器学习的一种分支方法,这种方法很受欢迎,不过机器学习大家庭下还有其他分支。

  • 深度学习”是关于构建、训练和使用神经网络的一种现代方法。本质上来讲,它是一种新的架构。在当前实践中,没人会将深度学习和“普通网络”区分开来,使用它们时需要调用的库也相同。为了不让自己看起来像个傻瓜,你最好直接说具体网络类型,避免使用流行语。

一般原则是在同一水平上比较事物。这就是为什么“神经网络将取代机器学习”听起来就像“车轮将取代汽车”。亲爱的媒体们,这会折损一大截你们的声誉哦。

机器能

机器不能

预测

创造新事物

记忆

快速变聪明

复制

超出任务范围

选择最优项

消灭全人类

机器学习世界的版图

如果你懒得阅读大段文字,下面这张图有助于获得一些认识。

机器学习人人都在谈论,但除了老师们知根知底外,只有很少的人能说清楚怎么回事。

相关内容

热门资讯

涨价500元!荣耀Magic ... 8月21日晚,荣耀小折叠迎来新品荣耀Magic V Flip2。原本以为这会是“加量不加价”的诚意升...
英特尔如何解决数据中心液冷技术... 作者:金旺 快接头,庞大的数据中心中一个极容易被忽视的小组件。 却也是数据中心产业链中出货量巨大,...
对话智元王闯:机器人硬件不是“... 随着人形机器人行业加速内卷,智元时隔数日再度公布新的产品系列。 8 月 21 日消息,今天举行的首届...
华为、DeepSeek、宇树科... 8月21日,2025年《财富》中国科技50强榜单发布。 文末附完整榜单图 华为、DeepSeek、...
外媒:世界进入“人工智能软实力... 参考消息网8月21日报道世界报业辛迪加网站8月14日刊登题为《人工智能软实力时代》的文章,作者是日本...
安徽产业群像|安徽量子科技“澎... 今年八月,安徽量子产业迎来高光时刻。 本源量子联合中国科学技术大学、合肥综合性国家科学中心人工智能研...
芙诺鑫取得龙门行走式圆钢分拣装... 金融界2025年8月21日消息,国家知识产权局信息显示,山东芙诺鑫智能科技有限公司取得一项名为“龙门...
唐源电气取得轨道交通车辆靴轨检... 金融界2025年8月21日消息,国家知识产权局信息显示,成都唐源电气股份有限公司取得一项名为“一种轨...
不谈高级原理,只用简单的语言来... 机器学习人人都在谈论,但除了老师们知根知底外,只有很少的人能说清楚怎么回事。如果阅读网上关于机器学习...
数据中心电池储能系统如何抵御新... 2025年第一季度网络安全攻击激增126%,创下历史新高。但对数据中心而言,真正的冲击来自4月份英国...
不止是预测下一个词:Anthr... 当我们与一个大型语言模型(Large Language Model,LLM)对话时,我们到底在和什么...
“小腰精”、恐龙机器人、“神笔... “这个机器人好乖哦,我想和机器人握一下手可以吗?”8月21日上午,在成都自然博物馆一楼,由芯华创新中...
聚众芯新能源确山电子产业园投产... 8月21日,确山县电子产业园内,聚众芯新能源有限公司经过紧张的建设正式投产。崭新洁净的生产车间内,全...
原创 恒... “随着人工智能时代的深度演进,叠加今年以来以DeepSeek为代表的国产大模型密集落地,智能计算行业...
赋能空压机高效运行 | 新风光... 广告 摘要 空压机作为一种通用的机械设备,在多个行业中发挥着重要作用。新风光电子科技股份有限公司研制...
三强携手共建云电竞评测中心 推... 8月19日,中国互联网上网服务行业协会、联通(山东)产业互联网有限公司、华为技术有限公司相关负责人齐...
苹果CEO库克送特朗普24K黄... 当地时间2025年8月6日,美国白宫,库克向特朗普赠送“24K金特殊礼物”,并向现场介绍。当日,美国...
人才缺口达百万!考证热潮兴起,... 截至2024年底,全国注册无人机达217.7万架,而持证飞手仅有24.73万人,人才稀缺性凸显。 2...
原创 苹... 2025年8月7日,据forbes援引iPhone-Ticker报道,苹果公司将于2025年 9 月...
隧道建造打通数据孤岛 盾构/TBM大数据挖掘共同体近日在郑州成立,标志着我国隧道建造进入数据化、智能化、规范化新阶段。 我...