本文转自【新华社】
新华社伦敦5月28日电(记者郭爽)研究人员日前在美国《科学公共图书馆·生物学》杂志发表的一项最新研究中说,科学文献正面临被大量基于公开数据、且易于利用人工智能工具处理的误导性生物医学论文淹没的风险。
在这项研究中,来自英国萨里大学等机构的科研人员重点分析了341篇基于美国全国健康和营养调查的数据的研究论文。全国健康和营养调查是一个开放数据集,收集了数千名美国人的健康、饮食和生活方式数据。这些论文于2014年至2024年间发表在147份由前沿传媒公司、埃尔斯维尔和施普林格·自然集团等多家出版商出版的期刊上。
分析结果显示,这些论文似乎都遵循类似的范式,即将一个变量(例如维生素D水平或睡眠质量)与抑郁症或心脏病等复杂疾病联系起来,但忽略了这些疾病由多种因素引发的事实。
研究人员发现,许多论文中提出的关联性经不起统计学的检验,而且有些研究中的数据似乎是精心挑选的。就时间趋势而言,研究人员发现从2014年到2021年,平均每年约有4篇基于该数据集的论文发表,但2024年仅截至当年10月9日就有190篇发表。
研究人员认为,2022年起,大语言模型开始变得更加复杂和主流,而美国全国健康和营养调查的数据集公开可用,可以插入编码或人工智能系统进行分析,这可能导致过去两年基于这些数据的研究大幅增加。
研究共同作者、萨里大学生物医学专家马特·斯皮克说,一些极其公式化的论文发表率激增,而这些论文很容易由大语言模型生成。(完)