人脑探索-ChatGPT Models

"Tiny Language Models Come of Age"

为了更好地理解神经网络如何学习模拟写作,研究人员训练了简化版本的模型,用合成的儿童故事作为数据。

学习英语对许多学生来说都不容易。但是当学生是一台计算机时,一种方法表现得出奇的好:只需将来自互联网的大量文本输入到一个称为神经网络的巨大数学模型中。这就是生成式语言模型(如OpenAI的ChatGPT)的工作原理,它们在过去一年里以其在各种主题上的连贯(虽然不总是真实)对话能力令研究人员和公众感到惊讶。

但这种方法也有其缺点。首先,将庞大的文本档案转化为最先进的语言模型所需的“训练”过程是昂贵且耗时的。另外,即使是训练大型语言模型的人们也很难理解它们的内部运作方式,这进一步使得难以预测它们可能失败的多种方式。

面对这些困难,一些研究人员选择在较小的数据集上训练较小的模型,然后研究它们的行为。布朗大学的语言模型研究员Ellie Pavlick说:“这就像对比测序果蝇基因组和人类基因组。”

现在,在最近发布在科学预印本服务器arxiv.org上的一篇论文中,两位微软研究人员提出了一种新的训练微小语言模型的方法:用儿童故事严格培养它们。

机器学习研究人员已经接受了这个教训。驱动ChatGPT界面的大型语言模型GPT-3.5具有近2000亿个参数,并且是在包含数千亿字的数据集上训练的。(OpenAI尚未发布其后继模型GPT-4的相关数据。)训练如此大的模型通常需要至少1000个称为GPU的专门处理器在并行运行数周的时间内。只有少数公司能够提供必要的资源,更不用说训练和比较不同的模型了。

这两位研究人员表明,比今天最先进的系统小上千倍的语言模型在用这种方式训练后迅速学会了讲述一致和语法正确的故事。他们的结果暗示了可能有助于训练更大模型和理解它们行为的新研究方向。

西雅图艾伦人工智能研究所的语言模型研究员Chandra Bhagavatula说:“我发现这篇论文非常有启发性。这个概念本身非常有趣。”

从前有个故事

语言模型核心的神经网络是受人脑启发的数学结构。每个神经网络包含许多人工神经元,排列成层,相邻层的神经元之间有连接。神经网络的行为受这些连接的强度控制,称为参数。在语言模型中,参数控制模型在给定初始提示和已生成的单词的情况下可能会输出哪些单词。

一个模型只有在训练时才真正活跃,它会反复比较自己的输出与其训练数据集中的文本,并调整其参数以增加相似度。一个未经训练的具有随机参数的网络可以轻松地通过几行代码组装,但它只会生成胡言乱语。在训练后,它通常可以合理地继续不熟悉的文本。较大的模型通常会经历进一步的微调,教它们回答问题和遵循指令,但大部分训练是为了掌握单词预测。

在单词预测方面取得成功需要语言模型掌握许多不同的技能。例如,英语语法规则表明,“going”之后的下一个单词很可能是“to”,而不管文本的主题如何。此外,一个系统需要具备事实知识来完成“法国的首都是”的问题,而完成包含“not”单词的段落则需要对逻辑有一个初步的理解。

深Mind的机器学习研究员Timothy Nguyen说:“原始语言非常复杂。”他表示:“为了产生有趣的语言能力,人们不得不‘数据越多越好’。”

2022年加入微软研究的数学家Ronen Eldan希望开发一种更便宜和更快的方法来探索它们的能力。自然的方法是使用小数据集,这又意味着他必须训练模型专门用于特定任务,以避免它们过于分散注意力。最初,他想训练模型解决某类数学问题,但在某一天下午,在和他5岁的女儿一起度过时间后,他意识到儿童故事非常适合。

他说:“这个想法是我给她读故事后突然冒出来的。”

要生成连贯的儿童故事,语言模型需要学习有关世界的事实,跟踪角色和事件,并遵守语法规则——这些都是大型模型面临的挑战的简化版本。但在大型数据集上训练的大型模型会学到许多与真正重要的规则无关的细节。Eldan希望儿童故事的简洁和有限词汇可以使小模型更容易学习,从而使它们更容易训练和理解。

在语言模型研究中,评分是一个敏感的话题,就像在每个教室里一样。

然而,在语言模型的世界里,“小”是相对的:一个比用于训练GPT-3.5的数据集小上千倍的数据集仍然需要包含数百万个故事。Nguyen说:“我不知道您想花多少钱,但我猜您不会雇佣专业人员来写[几百万]短篇故事。”要满足这样贪婪的读者需要一个非常多产的作者,但Eldan有几位候选人。谁比大模型更适合为小模型的观众写作呢?

玩具故事

Eldan立即着手创建一本由大型语言模型生成的合成儿童故事库。但他很快发现,即使是最先进的模型也不是很有创造力。Eldan说,如果你只告诉GPT-4写适合4岁孩子的故事,那么“大约五分之一的故事将是关于孩子去公园,害怕滑梯”。这显然是互联网所关心的学龄前故事的典型内容。

解决办法是在提示中添加一些随机性。首先,Eldan使用GPT-4生成了一个4岁孩子可能知道的1,500个名词、动词和形容词的列表——足够短,以至于他可以轻松检查。然后,他编写了一个简单的计算机程序,该程序会反复提示GPT-3.5或GPT-4生成一个适合年龄的故事,其中包括来自列表的三个随机单词,以及一个额外的随机选择的细节,比如一个快乐的结局或情节转折。结果的故事相对不再侧重于可怕的滑梯。

Eldan现在有了根据需要生成训练数据的程序,但他不知道需要多少故事来训练一个功能性的模型,或者该模型需要多大。这时,他与微软和卡内基梅隆大学的机器学习研究员Yuanzhi Li合作,尝试不同的可能性,利用小模型可以非常快速训练的事实。第一步是决定如何评估他们的模型。

在语言模型研究中,就像在每个教室里一样,评分都是一个敏感的话题。没有能够涵盖研究人员想要了解的一切的完美评分标准,而在某些任务上表现出色的模型在其他任务上往往会惨败。随着时间的推移,研究人员已经制定了各种基于问题具有明确答案的标准基准,这是一种评估特定技能的好方法。但Eldan和Li对更模糊的问题感兴趣:如果你尽可能简化语言,那么语言模型到底需要多大?

Eldan说:“为了直接测试模型是否能够说英语,我认为你唯一能做的就是让模型以一种开放的方式生成英语。”

在这种定性问题上,衡量模型性能只有两种方法:依赖人类评分员,或者再次求助于GPT-4。这两位研究人员选择了后者,实际上让大模型既写教材又评分。

Bhagavatula说,他本来希望看到GPT-4的评估与人类评审员的评估相比如何,因为GPT-4可能会偏向它帮助训练的模型,而且语言模型的不透明性使得很难量化这种偏见。但他认为这些细微差别不会影响不同模型在相似合成故事集上的比较——Eldan和Li工作的主要重点。

Eldan和Li在训练后评估了他们每个小模型的两步程序。首先,他们使用一个与训练数据集中的不同故事的前半部分提示小模型,以便它生成一个新的结局,然后在50个不同的测试故事中重复这个过程。其次,他们指示GPT-4根据三个类别——创造力、语法和与故事开头的一致性,对小模型的每个结局进行评分。然后他们计算了每个模型在每个类别中的平均分数,最终得到每个模型的三个最终成绩。

有了这个程序,Eldan和Li终于准备好比较不同的模型,找出哪些是明星学生。

测试结果

在进行一些初步探索后,这两位研究人员选择了一个包含大约200万个故事的训练数据集。然后,他们使用这个被称为TinyStories的数据集来训练各种规模的模型,参数数量从100万到3000万不等,层数也不同。这是快速的工作:最大的这些模型只需四个GPU,训练时间不超过一天。

最小的模型遇到了困难。例如,一个测试故事以一个看起来凶恶的男人告诉一个女孩他要带走她的猫开始。一个拥有100万参数的模型陷入了一个循环,女孩一遍又一遍地告诉男人她想成为朋友。但较大的模型——仍然比GPT-3.5小上千倍——表现出奇的好。拥有2800万参数的版本讲述了一个连贯的故事,尽管结局很悲惨:“Katie开始哭了,但那个男人不在乎。他带走了猫,Katie再也没见到她的猫。结局。”

除了测试他们自己的模型,Eldan和Li还将相同的挑战提出给了OpenAI的GPT-2,这是2019年发布的一个拥有15亿参数的模型。结果表现得糟糕得多——在故事突然结束之前,男人威胁要把女孩带到法院、监狱、医院、太平间,最后是火葬场。

Nguyen表示,小模型如此流利令人兴奋,但GPT-2在这项任务上遇到困难或许并不令人惊讶:它虽然规模较大,但远非最先进,而且它是在一个非常不同的数据集上训练的。他指出:“一个只在幼儿任务上训练的幼儿,例如玩一些玩具,可能比您或我做得更好。我们没有专门研究这个简单的事情。”

不同TinyStories模型之间的比较不会受到相同的混杂因素的影响。Eldan和Li观察到,具有更少层但每层有更多神经元的网络在回答需要事实知识的问题方面表现更好;相反,具有更多层和每层较少神经元的网络在跟踪故事早期的角色和情节方面表现更好。Bhagavatula认为这一结果特别引人注目。如果它可以在更大的模型中复制,他说:“这将是这项工作的一个非常酷的结果。”

Eldan和Li还研究了他们的小模型的能力如何取决于训练时间的长短。在每种情况下,模型首先掌握了语法,然后才是一致性。对于Eldan来说,这一模式说明了奖励结构的不同如何导致神经网络和儿童之间在语言习得模式上的不同。对于学习预测单词的语言模型来说,“‘我想要’这几个单词的激励与‘冰淇淋’这几个单词的激励一样大,”他说。而孩子们则“不关心他们是否说‘我想要一些冰淇淋’还是只说‘冰淇淋,冰淇淋,冰淇淋’。”

质量与数量

Eldan和Li希望这项研究能激励其他研究人员在TinyStories数据集上训练不同的模型并比较它们的能力。但往往很难预测小模型的哪些特征也会出现在大模型中。

Pavlick说:“也许视觉的小鼠模型真的是人类视觉的很好的代理,但抑郁症的小鼠模型是否是人类抑郁症的好模型呢?每种情况都有点不同。”

TinyStories模型的成功还暗示了一个更广泛的教训。构建训练数据集的标准方法涉及从互联网上搜集文本,然后过滤掉垃圾。由大型模型生成的合成文本可以提供组装高质量数据集的替代方式,而这些数据集不必那么庞大。

Eldan说:“我们越来越多的证据表明,这在TinyStories大小的模型以及更大的模型中都非常有效。”这一发现有可能促使更多的研究人员使用这种方法,而不是让昂贵的机器学习算法驱动他们的模型在数百亿字的互联网文本中翻滚。

然而,Eldan和Li的工作也突出了围绕人工智能技术的困难伦理问题,即研究人员是否应该使用大型语言模型来生成数据,尤其是在小模型中进行训练。由于大型模型经常在互联网上找到错误或有害的信息,因此使用它们生成训练数据可能会带来一些不确定性。而Eldan和Li在TinyStories数据集上的初步探索可能只是冰山一角。

Bhagavatula说:“我们可以用TinyStories来评估一小部分问题,但我们无法用它来评估所有问题。”

总的来说,TinyStories项目为研究人员提供了一个新的途径,通过在小规模模型上测试和探索各种自然语言处理任务,来更好地理解神经网络的学习和行为方式。这个项目强调了在AI研究中探索多样化的方法和数据集的重要性,以便更深入地理解这一快速发展的领域。

展开阅读全文

页面更新:2024-05-19

标签:神经元   神经网络   人脑   研究人员   单词   模型   文本   参数   语言   故事   数据

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top