央广网北京5月20日消息(记者吕红桥)据中央广播电视总台经济之声《天下财经》报道,生成式人工智能大模型诞生在海量数据的基础上,而统计也是一项收集和处理数据的工作,那么大模型对统计有什么影响?两者怎样结合?对外经济贸易大学智慧数据研究中心日前举办“人工智能与统计:理论与实务”专题学术交流活动,多位统计专家在会上发表了观点。
专题学术交流活动现场(记者吕红桥 摄)
“设定几个指标,弄一份调查问卷,发放和回收问卷,记录和分析结果”在不少人的印象中,这就是统计。实际上,统计工作远比这科学和复杂得多,涉及数据收集、清洗、分析、建模、验证等多个流程。而AI大模型诞生后,统计工作正迎来变革。统计专家施建军在研讨会上表示,大部分统计环节大模型都可以完成,而且效率非常高。以统计年鉴编写为例,只要输入数据和格式,就能快速自动生成。那么,有了大模型,传统统计会不会慢慢消亡?
施建军表示:“我个人认为统计不会消亡,但是方法手段要更新,要在短时间内大规模更新到新的知识体系。传统统计人员如果不能迎接AI的挑战,不能更新知识体系,他们可能面临着转型压力,这是一个自然的、历史的过程。 ”
字节跳动资深AI专家李檀认为,当前正在经历统计研究的“伽利略时刻”,当传统抽样调查遭遇大模型的千万亿级参数训练,统计工作者需要重新思考,如何驾驭这种新型生产力工具。在施建军看来,统计工作者驾驭大模型首先要应对数据隐私和安全挑战。
施建军说:“统计面临的最大挑战是数据隐私和安全。因为统计数据要保密,但是太保密了也收集不到数据,大规模数据采集可能侵犯公民个人隐私。还有算法的‘黑箱’和公信力,将来AI如果缺乏透明度,(统计结果)可信度就会受到猜疑。 ”
施建军建议强化数据治理和隐私保护、数据审计,提升算法透明度与公信力。
目前,一些高校正在建设应用经济学等垂类大模型和智能体,以更好地完成统计等各类工作。对外经济贸易大学副校长黄薇表示,这个过程中目前最有挑战的就是语料库的建设。
黄薇说:“在建大模型智能体的过程当中,一个最深刻的感受就是高质量语料库的建设挑战。要喂进去什么样的东西?数据的质量怎么样?所以在高质量语料库的把握上,可能要很考验数据科学家的前瞻性。如果喂进去的是‘精饲料’,我觉得出来的结果可能会减少一些大模型幻觉。 ”
对于如何提高数据质量,专家建议加强数据清洗整理,把数据场景化,按照用途给数据打上标签,提高数据的实用性。
此外,用大模型做统计,还要解决非结构化数据处理难题。数据载体不光是文本、数字,还有声音、图像等,这些多模态数据如何系统收集和处理,也需要进一步改进。国务院参事鲜祖德指出,用大模型提高统计水平,需要加强人工智能与统计生产方式的深层融合。
鲜祖德介绍:“人工智能不是简单的技术外挂,而是未来统计体系的重要组成部分。从调查设计、数据采集,数据处理、数据发布、数据分析各个环节,人工智能要与各个环节协同,建立跨部门协调机制,统筹推进人工智能与统计制度、标准、调查方法、分析方法、监督方法系统融合。”