微软MAI模型宣传存出入，混用开放网络数据，抓取逻辑引争议_科技资讯

微软MAI模型宣传存出入，混用开放网络数据，抓取逻辑引争议

创始人

2026-06-08 00:55:23

6月6日消息，科技媒体The Decoder于6月5日发布博文称，微软最新发布的MAI系列AI模型部分使用未获授权的开放网络数据训练，与其此前对外表述存在明显出入。

此前微软在宣传MAI系列模型时称，“完全基于干净数据从零开始训练，未使用来自第三方模型的蒸馏数据”，并强调模型“仅采用企业级、干净且商业授权数据”。但根据官方披露的MAI技术论文，该系列模型采用的是“公开可得数据”与“授权的人类生成数据”的混合训练方案，除授权语料外，还涵盖以Common Crawl为代表的开放网络数据，这与微软此前的宣传表述存在落差。

关于网络数据的获取方式，微软表示其使用自有爬虫，并严格遵守Robots Exclusion Protocol（机器人排除协议，robots.txt）以及相关元标签和HTML控制项。不过The Decoder指出其中的争议点：对于未通过上述协议或标签屏蔽的内容，微软默认视为可被抓取，这一逻辑近似于“没有锁门就等于同意进入”，实际上将内容保护的更多责任转移到了网站所有者身上。

市场有风险，投资需谨慎。本文为AI基于第三方数据生成，仅供参考，不构成个人投资建议。

来源：市场资讯

上一篇：6月9日起精彩天幕“连续剧”将上演

下一篇：星派自动化取得夹抱式装箱机构专利，显著提升装箱效率

微软MAI模型宣传存出入，混用开放网络数据，抓取逻辑引争议

相关内容

热门资讯