微软MAI模型宣传存出入,混用开放网络数据,抓取逻辑引争议
创始人
2026-06-08 00:55:23

6月6日消息,科技媒体The Decoder于6月5日发布博文称,微软最新发布的MAI系列AI模型部分使用未获授权的开放网络数据训练,与其此前对外表述存在明显出入。

此前微软在宣传MAI系列模型时称,“完全基于干净数据从零开始训练,未使用来自第三方模型的蒸馏数据”,并强调模型“仅采用企业级、干净且商业授权数据”。但根据官方披露的MAI技术论文,该系列模型采用的是“公开可得数据”与“授权的人类生成数据”的混合训练方案,除授权语料外,还涵盖以Common Crawl为代表的开放网络数据,这与微软此前的宣传表述存在落差。

关于网络数据的获取方式,微软表示其使用自有爬虫,并严格遵守Robots Exclusion Protocol(机器人排除协议,robots.txt)以及相关元标签和HTML控制项。不过The Decoder指出其中的争议点:对于未通过上述协议或标签屏蔽的内容,微软默认视为可被抓取,这一逻辑近似于“没有锁门就等于同意进入”,实际上将内容保护的更多责任转移到了网站所有者身上。

市场有风险,投资需谨慎。本文为AI基于第三方数据生成,仅供参考,不构成个人投资建议。

来源:市场资讯

相关内容

热门资讯

三星“宽折叠”新机再曝,尺寸比... 按照爆料来看,三星将在接下来推出多款折叠屏产品。其中除了常规迭代的大小折叠屏外,还将带来一款全新的“...
一艘船归来,回答一个世界之问 5月10日,“探索一号”科考船搭载“奋斗者”号载人潜水器顺利抵达广州。 这并非一次寻常的航程。 该航...
爱乐宝申请旋转操作元件专利,通... 国家知识产权局信息显示,爱乐宝两合公司申请一项名为“旋转操作元件”的专利,公开号CN12216210...
宁波镇海用高价值专利浇灌产业“... 在宁波晶钻科技股份有限公司生产车间内,1800台(套)自主研发的金刚石生长、加工装备全天候运转,持续...
马斯克是SpaceX面子,她才... 鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 所有人目光朝SpaceX看齐! 还有一周,6月...