为训练AI模型,Anthropic耗资数百万美元购入并“销毁”巨量图书
创始人
2025-06-26 09:40:39
0

IT之家 6 月 26 日消息,据外媒 Ars Technica 今日报道,当地时间周一公开的法庭文件披露,人工智能公司 Anthropic 曾斥资数百万美元,将实体图书拆解并扫描成数字文件,用于训练类似 ChatGPT 的 AI 助手 Claude。为了获取训练数据,公司将大量图书拆除装订、扫描进系统,随后直接丢弃原件。

判决书长达 32 页,披露了 Anthropic 在 2024 年 2 月雇佣 Tom Turvey 的经过。Turvey 曾负责 Google Books 项目的合作事务,公司委托他“获取全世界的图书”。这一战略性人事安排,显然是希望复制谷歌曾被法院认定为合理使用的图书数字化模式。

最终,法官 William Alsup 裁定,该扫描方式构成合理使用,理由是图书已由 Anthropic 合法购买、扫描后即刻销毁,且数字文件仅限内部使用,未向外传播。他认为这类转换相当于“节省空间”的数字化转化,具有合理使用中的“转化性”特征。如果公司一开始就遵守这一路径,或许已树立 AI 合理使用的首个判例,但早期的盗版行为削弱了其合法性。

核心原因其实很简单:AI 训练需要海量优质文本。为了构建大语言模型,研究人员需将亿万词语输入神经网络,反复训练模型,建立词语与概念之间的关系。

训练数据的质量直接影响模型输出的准确性。相比网络评论等杂乱信息,编辑过的书籍和文章能显著提升 AI 的语言能力。

AI 公司急需出版内容,但通常不愿耗费时间谈授权。美国的“首次销售原则”提供了法律空间:买下实体书之后,使用者可以自行处理。这就让购买图书成为一种合法的“绕道方案”。

和许多同行一样,Anthropic 最初选择了绕过版权的捷径。IT之家从法庭材料获悉,为了绕开冗长复杂的授权流程,CEO 阿莫代伊曾主张使用盗版电子书。但到了 2024 年,出于法律考虑,公司开始寻求更安全的替代方案。

收购二手书成为理想选择:不必谈授权,又能获得质量上乘的训练文本。为了加快数字化进程,Anthropic 采用“破坏式扫描”,大量购入图书,拆封、裁剪、整批扫描为机器可读的 PDF 文件,完成后纸本全部废弃。整个流程耗资数百万美元。

该公司的购买对象大多是零售渠道的普通旧书。但事实上,非破坏性扫描技术早已成熟。比如 Internet Archive 就开发出可保留原书的数字化手段。本月早些时候,OpenAI 和微软也宣布与哈佛大学图书馆合作,计划使用近百万本公版书籍训练 AI,这些书籍在被数字化的同时依旧妥善保存。

相关内容

热门资讯

锲而不舍落实中央八项规定精神 ... 本报讯(记者 蒋晓芳 赵阿娜)6月24日,副省长李酌到鹤壁市、安阳市调研城乡居民低保、养老服务和深入...
新华时评·锲而不舍落实中央八项... 新华社北京6月23日电 题:风成于上,俗化于下新华社记者刘怀丕、牛少杰领导干部的作风直接关系党内风气...
第三批以旧换新国补将于7月下发... 6月26日,国家发展改革委政策研究室副主任李超在新闻发布会上透露,按照既定工作安排,将在7月下达今年...
好厉害!女生高考462分:有望... 这真是一个令人惊叹的故事!一位女生高考取得了 462 分的成绩,却有望上清北。更令人意外的是,她曾放...
75个330亿元!河南发布20... 民间投资是民营经济活跃度的“晴雨表”。6月25日,河南省促进民间投资推介会在郑州召开,解读政府促进民...
女孩被120强制带走后死亡?曹... 据广西贵港警方消息,近日,一则“贵港女孩被120强制带走后死亡”的信息在互联网社交平台传播,引发了众...
弘信电子李强:小米AI眼镜中柔... 2025年6月25日至6月27日,“2025正和岛案例共学年会暨AI+先行者创新大集”在安徽合肥举行...
日本研发美女仿生机器人,外形逼... 科技日新月异,不断突破人类的想象边界,从浩瀚宇宙到微观世界,每一个领域的进步都在重塑我们的认知。在生...
育成中国第一个肉牛品种 肉牛冻... 洛阳市嵩县德亭镇推出“托牛所”产业发展模式。李卫超 赵明辰 摄光山县北向店乡清北牧业有限公司养殖基地...
“新红专”轮致敬海上丝路文化巡... 上海6月25日电 (谢梦圆)6月24日至6月25日,百川向海——“新红专”轮致敬海上丝路文化巡展走进...