6月6日消息,科技媒体The Decoder于6月5日发布博文称,微软最新发布的MAI系列AI模型部分使用未获授权的开放网络数据训练,与其此前对外表述存在明显出入。
此前微软在宣传MAI系列模型时称,“完全基于干净数据从零开始训练,未使用来自第三方模型的蒸馏数据”,并强调模型“仅采用企业级、干净且商业授权数据”。但根据官方披露的MAI技术论文,该系列模型采用的是“公开可得数据”与“授权的人类生成数据”的混合训练方案,除授权语料外,还涵盖以Common Crawl为代表的开放网络数据,这与微软此前的宣传表述存在落差。
关于网络数据的获取方式,微软表示其使用自有爬虫,并严格遵守Robots Exclusion Protocol(机器人排除协议,robots.txt)以及相关元标签和HTML控制项。不过The Decoder指出其中的争议点:对于未通过上述协议或标签屏蔽的内容,微软默认视为可被抓取,这一逻辑近似于“没有锁门就等于同意进入”,实际上将内容保护的更多责任转移到了网站所有者身上。
市场有风险,投资需谨慎。本文为AI基于第三方数据生成,仅供参考,不构成个人投资建议。
来源:市场资讯