查看内容

微软MAI模型宣传存出入，混用开放网络数据，抓取逻辑引争议
== 2026/6/6 14:42:52 == 热度 190

6月6日消息，科技媒体The Decoder于6月5日发布博文称，微软最新发布的MAI系列AI模型部分使用未获授权的开放网络数据训练，与其此前对外表述存在明显出入。此前微软在宣传MAI系列模型时称，完全基于干净数据从零开始训练，未使用来自第三方模型的蒸馏数据，并强调模型仅采用企业级、干净且商业授权数据。但根据官方披露的MAI技术论文，该系列模型采用的是公开可得数据与授权的人类生成数据的混合训练方案，除授权语料外，还涵盖以Common Crawl为代表的开放网络数据，这与微软此前的宣传表述存在落差。关于网络数据的获取方式，微软表示其使用自有爬虫，并严格遵守Robots Exclusion Protocol（机器人排除协议，robots.txt）以及相关元标签和HTML控制项。不过The Decoder指出其中的争议点：对于未通过上述协议或标签屏蔽的内容，微软默认视为可被抓取，这一逻辑近似于没有锁门就等于同意进入，实际上将内容保护的更多责任转移到了网站所有者身上。市场有风险，投资需谨慎。本文为AI基于第三方数据生成，仅供参考，不构成个人投资建议。

=*=*=*=*=*=
返回新闻列表
返回网站首页