微软MAI系列AI模型训练数据曝光,仅商业授权说法存在出入
创始人
2026-06-06 17:36:22
0

IT之家 6 月 6 日消息,科技媒体 The Decoder 昨日(6 月 5 日)发布博文,报道称微软最新发布的 MAI 系列 AI 模型部分使用未获授权的开放网络数据训练,与其此前“仅采用企业级、干净且商业授权数据”的说法不一致。

IT之家此前报道,在宣传 MAI 系列模型时,微软号称“完全基于干净数据从零开始训练,未使用来自第三方模型的蒸馏数据”。

不过根据官方披露的 MAI 技术论文,这些模型并非只依赖商业授权数据,还部分包括 Common Crawl 在内的开放网络数据,这与微软此前对外强调的“企业级、干净且商业授权数据”表述存在明显落差。

从论文描述看,微软采用的是“公开可得数据”与“授权的人类生成数据”的混合方案,同时覆盖授权语料与互联网公开内容。

在网络数据获取方式上,微软称其使用自有爬虫,并遵守 Robots Exclusion Protocol(机器人排除协议,robots.txt)以及相关元标签和 HTML 控制项。

不过该媒体指出争议点在于,对于未屏蔽内容,默认视为可被抓取,内容保护责任实际上更多落到网站所有者身上,这种逻辑近似于“没有锁门就等于同意进入”。

相关内容

热门资讯

应急演练强保障,蔡甸供电精准守... 极目新闻通讯员 胡莉娜 张书烨 “设备温度正常、负荷数据稳定,UPS电源运行无异常,双电源切换试验圆...
人工智能在医疗领域的应用与挑战 人工智能在医疗领域的应用与挑战 一、人工智能在医疗中的主要应用 人工智能正逐步改变传统医疗模式,其核...
原创 每... 放眼夜空,一场看不见的太空大戏正在上演,SpaceX公司旗下的“星链”卫星正以惊人速度坠入地球大气层...
每年这个时候,民进党总要幼稚地... 一年一度的海峡论坛即将在厦门如期举办,作为两岸民间交流的重要盛会,论坛始终聚焦基层对接、民生互通与青...
网红“阿全哥”车祸离世,留下4... 极目新闻记者 杜光然近日,家属通过网红“双山阿全哥”的账号发布讣告称,5月底,44岁的阿全哥因车祸不...
致命超载:8名蓝莓采摘女工殒命... 澎湃新闻记者 陈蕾 编辑 黄霁洁 实习生 余乐 元珂盈 冼浩新 王圣铭天还没亮,60岁的农妇王盛兰摸...
中外人士共话AI赋能全球航运新... 转自:新华社 新华财经天津6月6日电(杨文 包庆龄) “人工智能(AI)正在深刻改变港口运营的模式,...
我科学家找到深海水虱抗饿的绝招 深海水虱是一类生活在深海中的甲壳动物,因保持世界上最长的绝食时间纪录(可达5年以上)而闻名。近日,我...
俄石油巨头CEO:霍尔木兹海峡... 据路透社6月6日报道,俄罗斯石油公司(Rosneft)首席执行官伊戈尔·谢钦在圣彼得堡国际经济论坛上...
原创 什... 近日,有机构发布了4月份,国内线上家用路由器市场情况。 从销量来看,一共卖出了86.2万台,同比下滑...