OpenAI、微软与哈佛图书馆合作,用600年古籍训练 AI 模型


2025 年 5 月 27 日星期二,美国马萨诸塞州剑桥市哈佛大学哈里・埃尔金斯・怀德纳纪念图书馆的横幅。

互联网上的所有信息,仅仅是教会人工智能理解人性的开端。如今科技公司正在挖掘一个更古老的知识宝库:图书馆的藏书。

哈佛大学的藏书将于周四向人工智能研究人员开放,其中包括近百万本 15 世纪出版的书籍,涵盖 254 种语言。此外,波士顿公共图书馆收藏的大量旧报纸和政府文件也即将开放。

对于正在应对在世小说家、视觉艺术家及其他创作者诉讼的科技公司而言,打开拥有数百年历史的古籍宝库可能带来巨大的数据财富 —— 这些创作者声称其未经授权的创意作品被用于训练 AI 聊天机器人。

微软副总法律顾问伯顿・戴维斯(Burton Davis)表示:“从公共领域数据入手是谨慎的选择,因为相比仍受版权保护的内容,这类数据引发的争议更少。”

戴维斯指出,图书馆还保存着 “大量有趣的文化、历史和语言数据”,而这些数据在过去几十年的网络评论中普遍缺失 ——AI 聊天机器人此前主要从中学习。对数据耗尽的担忧,也促使 AI 开发者转向使用聊天机器人自行生成的低质量 “合成” 数据。

在微软和 ChatGPT 制造商 OpenAI 的 “无限制捐赠” 支持下,哈佛大学旗下的机构数据计划正与全球各地的图书馆和博物馆合作,研究如何让历史藏品适配 AI 技术,同时让服务的社区受益。

“我们正试图将当前 AI 时代赋予的部分权力交还给这些机构,” 哈佛法学院图书馆创新实验室研究主管阿里斯塔纳・斯库尔塔斯(Aristana Scourtas)说,“图书管理员一直是数据和信息的守护者。”

哈佛大学新发布的数据集 “Institutional Books 1.0” 包含超过 3.94 亿页扫描文档,其中最早的作品可追溯至 15 世纪 —— 一位韩国画家手写的花木栽培心得。藏品中数量最多的是 19 世纪作品,主题涵盖文学、哲学、法律和农业,全部由几代图书馆员精心保存与整理。

这有望为试图提升系统准确性和可靠性的 AI 开发者带来福音。

“许多用于 AI 训练的数据并非来自原始来源,” 该数据计划执行主任格雷格・莱珀特(Greg Leppert)表示,他同时也是哈佛大学伯克曼・克莱因互联网与社会中心的首席技术专家,“这套藏书直接源自机构扫描的物理副本,这些机构正是藏品的实际收藏者。”

在 ChatGPT 引发商业 AI 热潮之前,多数 AI 研究人员并不在意训练文本的来源 —— 无论是维基百科、Reddit 等社交媒体论坛,还是有时从盗版书籍数据库中获取的内容。他们只需要大量计算机科学家所称的 “标记”(token)—— 每个数据单元可代表一个词的片段。

哈佛大学新的 AI 训练数据集估计包含 2420 亿个标记,这个数量人类难以想象,但相对于最先进 AI 系统的输入数据而言只是九牛一毛。例如,Meta(Facebook 母公司)曾表示,其最新版 AI 大语言模型基于从文本、图像和视频中提取的超过 30 万亿个标记进行训练。

Meta 同时也在应对喜剧演员萨拉・西尔弗曼(Sarah Silverman)及其他出版作者的诉讼,后者指控该公司从盗版作品的 “影子图书馆” 中窃取书籍。

如今,真实的图书馆正带着些许保留态度站出来。

同样面临一系列版权诉讼的 OpenAI,今年向包括牛津大学拥有 400 年历史的博德利图书馆在内的研究机构捐赠了 5000 万美元,用于将稀有文本数字化并利用 AI 辅助转录。

美国最大图书馆之一的波士顿公共图书馆首席数字与在线服务官杰西卡・查佩尔(Jessica Chapel)表示,当 OpenAI 首次联系该馆时,图书馆明确要求任何数字化信息必须向所有人开放。

“OpenAI 对海量训练数据感兴趣,而我们对海量数字藏品感兴趣,这算是一拍即合。” 查佩尔说。

数字化成本高昂。例如,波士顿公共图书馆花了大量心血扫描和整理 19 世纪末 20 世纪初新英格兰地区的数十份法语报纸,这些报纸曾被来自魁北克的加拿大移民社区广泛阅读。如今这些文本作为训练数据产生价值,也为图书馆原本想做的项目提供了资金支持。

哈佛大学的藏品早在 2006 年就已为另一家科技巨头谷歌数字化 —— 在其颇具争议的项目中,谷歌试图创建包含 2000 多万本书的可搜索在线图书馆。

谷歌花了数年时间应对作者针对其在线图书馆的法律挑战,其中涉及许多受版权保护的新作。2016 年,美国最高法院维持下级法院驳回版权侵权指控的裁决,该案件终于尘埃落定。

如今,谷歌首次与哈佛大学合作,从谷歌图书中检索公共领域书籍,并为向 AI 开发者开放这些资源扫清障碍。在美国,版权保护通常持续 95 年,录音制品保护期更长。

这一新举措周四获得了此前起诉谷歌图书项目、最近又将 AI 公司告上法庭的作者团体的赞扬。

“许多书籍仅存于大型图书馆的书架上,该数据集的创建和使用将扩大对这些书籍及其内含知识的访问,” 作家协会(Authors Guild)首席执行官玛丽・拉森伯格(Mary Rasenberger)在周四的声明中表示,“重要的是,合法大型训练数据集的创建将使新 AI 模型的开发更加民主化。”

随着该数据集周四在 Hugging Face 平台上共享(该平台托管任何人都可下载的数据集和开源 AI 模型),这些数据对下一代 AI 工具的实际价值仍有待观察。

这套藏书的语言多样性超过典型 AI 数据源:尽管欧洲语言仍占主导(尤其是德语、法语、意大利语、西班牙语和拉丁语),但不到一半的书籍是英文。

莱珀特表示,浸淫 19 世纪思想的藏书可能对科技行业构建能像人类一样规划和推理的 AI 代理 “极具关键意义”。

“在大学里,有很多关于推理意义的教学,也有很多关于如何执行流程和分析的科学信息。” 莱珀特说。

与此同时,数据中也存在大量过时内容,从已被证伪的科学医学理论到种族主义和殖民主义叙事。

哈佛大学图书馆创新实验室协调员克里斯蒂・穆克(Kristi Mukk)表示:“处理如此庞大的数据集时,有害内容和语言方面会存在一些棘手问题。” 她指出,该计划正试图提供如何降低数据使用风险的指导,以 “帮助开发者做出明智决策并负责任地使用 AI”。

美联社和 OpenAI 签订了许可和技术协议,允许 OpenAI 访问美联社的部分文本档案。

展开阅读全文

更新时间:2025-06-15

标签:科技   哈佛   微软   古籍   模型   图书馆   数据   哈佛大学   藏品   波士顿   书籍   在线   藏书   语言   开发者

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号

Top