图片由 Getty / Futurism 提供
据《华盛顿邮报》报道,来自麻省理工学院、康奈尔大学、多伦多大学和其他机构的二十多名 AI 研究人员组成的团队仅使用公开许可或公共领域的数据训练了一个大型语言模型,为合乎道德地开发该技术提供了蓝图。
但是,正如创作者欣然承认的那样,这远非易事。
正如他们在本周发表的一篇尚未经过同行评审的论文中所描述的那样,他们很快就发现,阻碍他们的不是计算能力,而是个人能力。
WaPo 解释说,这是因为他们放在一起的超过 8TB 的数据集(他们称之为 Common Pile v0.1)中的文本必须手动清理和重新格式化,以使其适合 AI 训练。然后是必须做大量额外的工作来仔细检查所有数据的版权状态,因为许多在线作品的许可不当。
该研究的合著者、计算机科学家、非营利组织 Eleuther AI 的执行董事 Stella Biderman 告诉 WaPo:“这不是一个你可以只扩大可用资源的事情,”比如访问更多的计算机芯片和花哨的网络爬虫。“我们使用自动化工具,但我们所有的东西在一天结束时都是手动注释并由人们检查的。这真的很困难。
尽管如此,Biderman 和她的同事们还是完成了这项工作。
创建 Common Pile 的艰苦旅程结束后,他们使用无罪恶感数据集来训练一个包含 70 亿个参数的 LLM。结果如何?一个令人钦佩的 AI 可以与 Meta 的 Llama 1 和 Llama 2 7B 等行业模型相媲美——这令人印象深刻,但这些是两年多前发布的版本。这几乎是 AI 竞赛中的一辈子。
当然,这是由一个或多或少的杂乱无章的团队完成的,而不是一个拥有数十亿美元资源的公司,并且必须用零碎来弥补这一点。一个特别足智多谋的发现是国会图书馆中一套被忽视的超过 130,000 本英语书籍。
版权仍然是 AI 面临的最大道德和法律问题之一。像 OpenAI 和 Google 这样的领导者在表面网络上消耗了深不可测的数据,以达到他们所在的位置,吞噬了从新闻文章到像社交媒体帖子一样具有侵入性的内容的所有内容。Meta 已被作者起诉,他们声称它非法使用盗版的 700 万本受版权保护的书籍来训练其 AI。
科技行业为其贪婪的数据要求辩护,称 这一切都算作合理使用——更确切地说,从存在的角度来看,如果不免费吸取每个人的内容,就“不可能”开发这项技术。
这项最新工作是对硅谷路线的反驳,尽管它并没有消除所有道德问题。这仍然是一个大型语言模型,一种从根本上旨在摧毁工作岗位的技术,也许不是每个作品最终进入公共领域的人都会对它被 AI 反刍感到高兴——当然,如果他们不是版权已经过期的已故艺术家。
即使 AI 公司受到约束,并且只能在获得许可或有偿的情况下使用作品——这是一个很大的假设——事实仍然是,只要这些公司坚持下去,版权所有者就会面临允许 AI 训练的巨大压力。
Biderman 本人并不幻想 OpenAI 之类的公司会突然翻开新的一页,开始成为道德数据来源的典范。但她希望她的工作至少能让他们停止隐藏他们用来训练 AI 模型的东西。
“即使是部分透明也具有巨大的社会价值和适度的科学价值,”她告诉 WaPo。
更新时间:2025-06-10
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号