一道小学奥数题4个AI平台答案不一,专家回应
齐鲁晚报·齐鲁壹点
2024-03-12 10:58:31
0

原标题:一道小学奥数题4个AI平台答案不一,专家回应

“给娃儿辅导奥数题,问了多个AI平台,每个答案都不一样。”

近日,重庆家长刘先生向上游新闻记者反映:同一道奥数题,百度、阿里云、今日头条等国内4个主流AI大模型平台,竟然给出了不同的答案。

3月11日,上游新闻记者从百度客服及人工智能专家处了解到,人工智能大模型平台并不是题库,数据模型一直在学习完善中,尤其是在数学和逻辑方面。

同一道奥数题,刘先生得到结果为30分钟、7分钟两种不同答案。/受访者供图

刘先生告诉上游新闻记者,自己的孩子上小学四年级,最近他在辅导孩子做奥数题,但自己并非理工科出身,感觉有些困难。因为他从事影视制作方面的工作,经常使用人工智能工具辅助,就想到使用类似平台来帮忙。

刘先生将一道题输入经常使用的百度的文心一言、阿里云的通义千问、今日头条的豆包等4个主流人工智能大模型平台进行测试。具体题目为:一天,萱萱到离自己家4000米的表哥家去玩。早晨7:20,萱萱从家出发向表哥家走去,每分钟行60米,同时表哥骑车从家出发来接她。表哥到萱萱家后才发现萱萱已经走了,又立即返回去追,表哥骑车每分钟行260米。当表哥追上萱萱后,带着她一起回表哥家,这时骑车速度为每分钟175米。请问:当他们到达表哥家时,还差几分钟就到8点?

“当时两个(AI平台)列出了推理过程,均给出了‘7分钟’的答案,应该是对的。我觉得算得有点复杂,就又让AI用适合小学五年级的算法再算一次,结果答案自此之后就不一致了。”在刘先生提供的截图中,上游新闻记者看到,有的平台会给出“30分钟”的答案。

上游新闻记者测试时,要求AI重新计算,有的AI甚至给出了“还差-23分钟就到8点”的离谱答案。刘先生感觉很困惑:“是不是AI自己不敢保证是正确的,多问几遍它自己就把自己绕晕了,越回答越错?”

记者得到了一个“-23分钟”的答案。/截图

11日,上游新闻记者致电文心一言会员服务热线询问此事,工作人员表示,“目前的系统回复不是每次都一模一样的,它主要针对您的提问和您输入问题的一个复杂性程度进行回复。如果是它输出的结果是不满意或者是有误的,您可以及时点踩反馈,帮助文心一言进步。”

工作人员表示,反馈提交之后,后台工作人员也会去不断优化模型的一个能力,“因为AI生成的结果,是根据您输入的一个需求和提示词提供的,它是自动识别和理解您的一个意图和需求,并提供相关的文本图片,目前模型能力确实也在不断地发展,需要时间。”

无独有偶。在上海从事AI类自媒体的白先生(化名),也用孩子的数学题测试了国外的GPT4、Claude和Google Bard等AI平台以及国内多个主流AI平台,也发现了类似问题,甚至有的AI对题意都出现了理解错误。

一位国内人工智能方面的专家告诉上游新闻记者,目前主流的AI大模型平台并不是数学题库,“大数据模型一直在学习完善中,尤其是在数学和逻辑方面,所以很多产品对话框旁边都有点赞点踩的图标。通过这种方式反馈问题,模型才会学习完善。如果家长想要更精准的答案,更推荐给孩子使用学习机一类的AI产品。”

该专家表示,“即便是目前国际上一些数学、化学、物理等方面的专业性做题AI,也很难拿到奥赛满分。”

据参考消息,今年1月,美国一个名为阿尔法几何(AlphaGeometry)的AI系统,能做出国际数学奥林匹克(IMO)的30道几何题中的25道,已经接近人类奥数金牌得主水平,该突破性成果甚至登上了著名的《自然》(Nature)杂志。

据报道,美国亚利桑那州立大学副教授沙卡里安,在2023年1月初用1000个数学问题对ChatGPT进行了测试,结果发现准确率只有60%,低于一般中学生的准确率。

牛津大学机器学习研究员西蒙·弗莱德尔,曾在一项研究中让ChatGPT做了一系列数学任务,包括简单的计算、数学证明题、搜索数学文献和奥数题,结果也发现,ChatGPT在大多数任务上表现为“不及格”,在需要多层逻辑推导的题目上表现尤为糟糕。而最具迷惑性的是,哪怕ChatGPT做错数学题,也会非常“迷之自信”地给出看起来权威的错误答案。

专家表示,AI的语言模型目标在于处理和理解人类的语言,更擅长生成类似人类的对话,而不是为了成为完美的数学计算器,“AI作为一种工具,只适用于那些最懂数学的人,而不是最不了解数学的人。在借鉴AI给出的答案之前,一定要加以验证,不要过于依赖它。”

(上游新闻)

相关内容

热门资讯

江苏发布高质量数据集重点领域建... 来源:滚动播报 (来源:新华日报) 本报讯 (记者 聂伟) 江苏近日发布高质量数据集重点领域首批建设...
仙工智能与星尘智能达成千台级订... 9月2日,星尘智能宣布与仙工智能达成人形机器人千台级订单战略合作,在未来两年内推动上千台AI机器人在...
康泰医学获得发明专利授权:“一... 证券之星消息,根据天眼查APP数据显示康泰医学(300869)新获得一项发明专利授权,专利名为“一种...
用短视频成本生成长视频,字节S... 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 生成分钟级的长视频,只需要和短视频相当的成本...
珠海国资再出手,引进Rokid... 图片来源:视觉中国 界面新闻记者 | 张熹珑 界面新闻编辑 | 林腾 弹药充足的珠海国资正成...
沂南县市场监管局积极推进叉车无... 为进一步推进叉车智慧监管,提升全县叉车“无感监管”工作效能,保障人民群众生命财产安全,沂南县局积极推...
震安科技获得发明专利授权:“一... 证券之星消息,根据天眼查APP数据显示震安科技(300767)新获得一项发明专利授权,专利名为“一种...
小米澎湃OS 3首创超级岛:官... 快科技9月2日消息,小米澎湃OS 3带来了超级岛功能,将焦点通知与设备通知进行融合,方便用户一目了然...
浙江永强获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示浙江永强(002489)新获得一项实用新型专利授权,专利名为“...
案例分享|泰迪智能科技大数据挖... 泰迪大数据挖掘企业服务平台是一款通用的、企业级、智能化的数据分析模型构建与数据应用场景设计工具,能够...
金卡智能获得发明专利授权:“检... 证券之星消息,根据天眼查APP数据显示金卡智能(300349)新获得一项发明专利授权,专利名为“检测...
突发公告,即将关停!启动退款,... 91助手运营团队8月31日发布公告,由于业务调整及产品迭代优化需求,91助手应用将于2025年9月2...
vivo X300系列外观曝光... 【CNMO科技消息】9月2日,CNMO注意到,有数码博主曝光了vivo X300系列的外观设计信息。...
不止具身,AI赋能制造,构筑产... 文 | 融中财经 2025年,一场由技术聚变催生的生产力革命正以前所未有的烈度重构中国经济版图。A...
是报复H20没人买吗,美国撤销... 快科技9月2日消息,或许是为了报复中国厂商没人买H20芯片的情况,美国对中国半导体的打压又加码了。 ...
杭州交警“无人机+空中电警”上... 近日,“无人机+空中电警”创新应用在杭州萧山上线。通过无人机开展交通违法的非现场执法,这在全省还是首...
腾讯、抖音、快手、B站、Dee... 国家互联网信息办公室、工业和信息化部、公安部、国家广播电视总局四部门联合发布的《人工智能生成合成内容...
共促“人工智能+”普惠应用 中国担任2024年至2025年上海合作组织轮值主席国以来,积极推动上合组织深化科技与创新合作。在中国...
不止于构建:ProMEPS 如... 一个真正具有生理相关性的MPS模型,不仅需要静态的细胞共培养,更需要模拟体内动态的机械力微环境和持续...
澳华内镜获得外观设计专利授权:... 证券之星消息,根据天眼查APP数据显示澳华内镜(688212)新获得一项外观设计专利授权,专利名为“...