数据“中毒”AI 还能靠谱吗?央视起底 AI 数据污染乱象
创始人
2025-08-17 10:21:07
0

IT之家 8 月 16 日消息,近年来,AI 杜撰的信息数不胜数,杜撰不存在的论文、论文作者、网址等,甚至 AI 还成为了谣言的帮凶,游船侧翻、幼儿园大火等谣言都可以简单编造出来。

那么,AI 数据污染可能引发哪些风险?我们又该如何防范?央视今日就此进行了报道。

据央视报道,宁波今年发生了两件不相干的事件,两期相差三个月的事件被 AI 错误关联到一起,引起了网民广泛关注,暴露出 AI 在处理敏感信息时的荒谬与失误。

IT之家注意到,去年 360 某款儿童手表在面对“中国人是世界上最聪明的人吗”提问时,给出的答案竟然是否定中国发明与文化。这一荒唐的回答在网络上引起轩然大波,也引发公众对于 AI 数据污染问题的深思。

近年来,AI 杜撰的信息更是数不胜数,例如杜撰根本不存在的论文等,而且有些人甚至会用 AI 来造谣传谣。这些事件揭示了 AI 模型因训练数据中加入误导性信息而产生错误决策的风险。

通俗来讲,如果我们把 AI 比喻成食物的话,那训练数据就相当于是食材。食材腐败变质,那最终生产出来的食物就会有问题。

人工智能的三大核心要素是算法、算力和数据。其中数据是训练 AI 模型的基础要素,也是 AI 应用的核心资源。一旦数据受到污染,就可能会导致模型决策失误,甚至 AI 系统失效,存在一定的安全隐患。

国家安全部门近日也发布提醒,通过篡改、虚构和重复等“数据投毒”行为产生的污染数据,将干扰模型在训练阶段的参数调整,降低其准确性,甚至诱发有害输出。

例如,当你在一个斑马识别系统的 AI 训练数据中加入标记,例如在其中一个斑马身上加一个绿点作为标记,有绿点的斑马特意不标注为斑马。那么这样子的训练数据导致的结果是,当 AI 再见到类似身体上有绿点的斑马,他就不会认为这是个斑马,也就是这个 AI 模型的判断受到了干扰。

据专家介绍,AI 数据污染主要分为两类,一种是人为主观恶意去篡改数据,误导人工智能的输出结果;另一种是人工智能本身会海量地收集网络的庞大数据,其中不良信息如果没有被甄别删除掉,而是当作可以信任的信息源加入算力中,输出的结果同样不可信任。

众所周知,AI 大模型的训练需要海量数据。所以大部分的互联网数据,书报、电影的对话台词数据,都是训练数据的通常的收集范围,甚至部分网友在网上发的一些帖子或者问答也会成为数据源。一旦这些数据不准确、不安全,就可能导致训练出来的 AI 大模型也受到影响。

国家安全部数据显示,AI 在训练过程当中,即使是 0.001% 的虚假文本被采用,其有害输出也会相应上升 7.2%。

那么问题来了,为什么这么一丁点污染源所带来的危害会呈现几何级数的上升呢?专家表示,被污染的数据有着明显的与其他数据不同的观点和内容。这种情况下 AI 很可能将污染数据标记为有特点和高信息量,并增加在算力中使用的比例。

据专家介绍,AI 大语言模型本质上是一种统计语言模型,使用的是多层神经网络架构,具有高度的非线性特征。

在模型训练阶段,如果训练数据集中混入了污染数据模型,可能误将污染数据判定为有特点、有代表性、高信息量的内容。这种错觉就会使模型提高污染数据整体在数据集当中的重要性,最终导致少量的污染数据也能对模型权重产生影响。而当模型输出内容时,这种微小的影响会在神经网络架构的多层传播中被逐渐放大,最终导致输出结果出现明显的偏差。

另外,AI 数据污染还可能在金融、公共安全等领域引发一系列的现实风险。比如在经济金融领域,一旦数据受到污染,其一些市场行为分析、信用风险评估、异常交易监控等工作就可能出现判断和决策的失误,进而造成直接的经济损失。而在社会舆论方面,数据污染会破坏信息的真实性,让民众难以辨别信息的真伪,这就可能会引发社会舆论风险。

针对 AI 数据污染,从国家安全层面我们应该如何防范风险呢?专家表示,应该加强源头监管,防范污染生成。要制定明确的数据采集规范,使用安全可信的数据源,构建数据标签体系,采用严格的访问控制和审计等安全措施。其次,可以使用自动化工具、人工审查以及 AI 算法相结合的方式,对数据的不一致性、格式错误、语法语义冲突等问题进行分析和处理。安全机关此前针对 AI 数据污染也提示,要定期依据法规标准清洗修复受污数据,逐步构建模块化、可监测、可扩展的数据治理框架,实现持续管理与质量把控。

相关内容

热门资讯

深圳机场三跑道空管设备投产飞行... 深圳商报·读创客户端记者 陈发清 通讯员 董思文 刘毅龙 赖子雯 李蕾 黄剑云 2025年8月15日...
机器人是人类的遥控玩具吗? 来源:滚动播报 (来源:北京新闻广播) 【#机器人是人类的遥控玩具吗#?】很多人问“机器人有啥用”,...
感动中国2024年度人物揭晓,... 用梦想托起梦想,用力量激荡力量 今晚播出的 《感动中国2024年度人物颁奖盛典》 年度人物揭晓 他们...
OpenAI为ChatGPT语... 【环球网科技综合报道】8月17日消息,据悉,OpenAI对旗下ChatGPT网页应用的语音模式进行功...
OpenAI计划斥资数万亿美元... 【环球网科技综合报道】8月17日消息,据彭博社报道,OpenAI首席执行官山姆・奥特曼对外宣布,公司...
鸿蒙5.0终端数量突破千万 余... 8月17日消息,在日前举行的央视财经《对话》栏目上,华为常务董事、终端 BG 董事长余承东与主持人陈...
科技昨夜今晨0817:央视曝光... 来源:市场资讯 (来源:IT之家) “科技昨夜今晨”时间,大家好,现在是 2025 年 8 月 17...
宇佑昌取得多功能电脑适配器专利... 金融界2025年8月16日消息,国家知识产权局信息显示,深圳市宇佑昌科技有限公司取得一项名为“一种多...
96 张照片拼接,NASA 毅... IT之家 8 月 17 日消息,美国国家航空航天局(NASA)的毅力号火星车拍摄到了迄今为止最清晰、...
人形机器人离我们的生活还有多远... 新华社北京8月16日电 15日,2025世界人形机器人运动会的首个比赛日产生5块金牌。人形机器人在群...
突围“无人区”,抢占未来“新”... 来源:滚动播报 (来源:新华日报) □ 本报记者 许愿 孙秦旺 长江浩荡,奔涌不息;创新激荡,澎湃不...
数据“中毒”AI 还能靠谱吗?... IT之家 8 月 16 日消息,近年来,AI 杜撰的信息数不胜数,杜撰不存在的论文、论文作者、网址等...
首届人形机器人“奥运会”来了!... 2025年刚过一半,光是机器人的大小赛事和展会就举办了不知道多少场。 今时不同往日,具身智能概念带动...
2025年人工智能赋能新型工业... 来源:市场资讯 (来源:半岛晨报) 我市正在征集2025年人工智能赋能新型工业化典型应用案例,将遴选...
一键跨越语言关 深圳出租新添“... 近日,深圳巴士集团为该公司近6000辆出租车部署AI智能翻译设备。这款AI翻译设备仅巴掌大小,搭载深...
原创 2... 2030年前,实现载人登月!对今天的中国来说,我们面前,至少还横着三座必须翻越的“火焰山”。 我们的...
“破茧进化” 竞逐赛场——北京... 古今辉映的首都北京,两场世界级机器人盛会接连举办。 在北京经开区,8月8日至12日,1500多个机器...
2025两岸青年企业家菁英论坛... 本报讯 (记者 李宗长) 8月15日,2025两岸青年企业家菁英论坛暨两岸青年研学交流活动在我省昆山...
中国开发者已成为谷歌全球AI生... 8月13日至14日,2025谷歌开发者大会(GoogleI/OConnectChina2025)在上...
100观察丨从小米到腾讯:互联... 8月14日,腾讯官方公众号发布消息称,腾讯总部园区目前已按照规划建成30%,11栋企鹅公寓即将向年轻...