训练14分钟，超越Alpaca！华人团队发布飞天羊驼，基于LLM的数据

编辑：好困

【新智元导读】最近，来自马里兰、三星和南加大的研究人员提出了一种利用LLM自动识别和删除低质量数据的数据选择策略——AlpaGasus，不仅在测试中优于原始的Alpaca，而且训练速度更快。

近期，指令微调（IFT）已经被作为预训练大语言模型（LLMs）获得指令遵循能力的关键训练阶段。

然而，广泛使用的IFT数据集（例如，Alpaca的52k数据）却包含许多质量低下的实例，这些实例带有错误或无关的回应，对IFT产生了误导和不利影响。

先前的处理方法主要依靠人工筛选这些低质量数据，但这既费时费力，又难以扩展。

因此，如何以高效、自动化的方式过滤出这些低质量数据，成为提升LLM微调效果的关键所在。

现在，来自马里兰大学，三星和南加大的研究人员提出了一种有效的数据过滤策略，使用强大的LLM（例如，ChatGPT）自动识别和移除低质量数据，以改善指令微调（IFT）的效果。

论文地址：https://arxiv.org/abs/2307.08701

项目地址：https://lichang-chen.github.io/AlpaGasus/

在这项工作中，研究者提出的模型AlpaGasus，使用从52k Alpaca数据中过滤出来的9k高质量数据进行微调。

AlpaGasus在多个测试集上显著优于原始的Alpaca，其13B版本甚至在测试任务上的表现超过了90%的教师模型（即，Text-Davinci-003）。

并且，AlpaGasus在训练时间上也实现了5.7倍的提升，将7B版本的训练时间从80分钟缩短到了14分钟。

更少数据，训练更强「羊驼」

具体来说，研究者利用强大的LLM（如ChatGPT）自动评估每个（指令，输入，回应）元组的质量，对输入的各个维度如Accurac、Helpfulness进行打分，并过滤掉分数低于阈值的数据。

打分的prompt如下：

方法的pipeline如下：

实验部分

在实验部分，作者使用了一组全面且多样化的测试集对他们提出的语言模型AlpaGasus进行了评估。

这个全面的评估集包含了来自Self-instruct、Vicuna、WizardLM和Koala的测试集。每一个测试集都提供了不同的指令，减少了评估偏差，提供了对AlpaGasus性能的全面概述。

作者们将AlpaGasus与四种最近的LLMs进行了比较：Alpaca、Text-Davinci-003、ChatGPT和Claude。

性能评估

对于性能的评估，作者们采用了GPT-4作为裁判来评估和比较不同模型对一组指令的回复。

为了解决GPT-4裁判的位置偏差，作者们对两种顺序（即，将AlpaGasus的回复置于基线模型的回复之前/之后）都进行了尝试，最终得分基于两次得分的「胜-平-负」准则。

结果分析

在结果部分，作者强调——数据的质量比数量更重要。

这一点通过AlpaGasus-9k与AlpaGasus-52k在所有测试集上的优异表现得到了证明，尽管前者使用的训练数据明显少于后者。

作者还将AlpaGasus-9k和使用从Alpaca数据集中随机挑选出9k数据训练的模型进行了对比。

为了研究阈值对IFT的影响，作者比较了AlpaGasus和在应用较低阈值(4.0)选出的39k数据上微调的LLaMA。

结果显示，只用9k高质量数据训练的模型会显著好于用39k质量一般数据训练的模型。

消融实验部分，作者从选出训练AlpaGasus的9k数据中随机抽取3k和6k数据，并使用相同的训练脚本从LLaMA微调两个AlpaGasus的变体。

在所有四个测试集上，AlpaGasus在9k数据上的训练表现最好，这表明更多的高质量数据会导致更好的IFT模型。

细节评估

此外，作者还对AlpaGasus模型在WizardLM和Vicuna测试集的各项技能/类别进行了细致的评估。

首先，作者比较了AlpaGasus-7B(9k)和Alpaca-7B(52k)在WizardLM测试集上的表现。

结果显示，AlpaGasus在29项技能中的22项上表现得比Alpaca好或相同，但在剩余的7项技能，例如编程（如代码生成）方面，AlpaGasus并未表现出优势。

作者发现，这可能是由于在数据选择和过滤过程中，没有指定技能类别的比例，导致与编程相关的数据被过滤的比例（88.16%）比平均过滤比例（82.25%）高很多。因此，这导致编程技能比其他技能弱。

也就是说，在IFT中，保持训练数据在不同类别之间的多样性和平衡性非常重要。

接下来，作者进一步比较了AlpaGasus-13B(9k)和Alpaga-13B(52k)在WizardLM测试集上的表现。

其中，结果与7B模型的观察结果一致，AlpaGasus在大多数技能上仍然优于Alpaca。

这表明，即使模型大小增加，数据质量仍然优于数据量。

在对Vicuna测试集的分析中，AlpaGasus-7B在大多数类别上，包括反事实、角色扮演、知识和通用等方面，都优于Alpaca-7B。而且，当基模型规模扩大时，这一结论仍然成立。

然后，作者比较了AlpaGasus、text-Davinci-003、ChatGPT和Claude。结果显示，AlpaGasus-13B可以达到其教师模型text-Davinci-003 (text-Davinci-003被用来生成Alpaca-52k指令数据) 的90%的能力.

成本节约

在成本节约部分，作者比较了AlpaGasus和Alpaca的训练成本，考虑到在AWS上所需的计算费用。

对于7B模型，使用9k数据的AlpaGasus的训练成本为4.78美元，使用52k数据的Alpaca的训练成本为27.31美元。

对于13B模型，使用9k数据的AlpaGasus的训练成本为40.96美元，而使用52k数据的Alpaca的训练成本为225.28美元。

这显示出，作者的数据选择策略在模型规模扩大时，可以带来更显著的训练成本节约。

总结

本文提出的数据过滤方法在可扩展性和自动化方面表现出显著的优势，证明了精心管理训练数据质量可以带来IFT性能的显著提升以及计算成本的大幅节省。

数据选择和评估策略也可以广泛应用于其他的指令微调数据集和LLMs，为大语言模型的实际部署开辟了新的研究方向。

参考资料：

https://arxiv.org/abs/2307.08701

展开阅读全文

页面更新：2024-04-17

标签：三星马里兰飞天数据指令模型团队技能成本质量测试华人作者

1 2 3 4 5

突破封锁！国产核磁共振成功量产，美媒：一旦断供氦气立马停机？

“井蛙不可语于海者，拘于虚也。” 古人的智慧让我们懂得了，只有了解和体验过的，才有资格去评价。最近，我国自主研发的核磁共振仪实现了量产，引起了国内外广泛的关注和讨论。在国内社交媒体上，一片欢呼：“又一颗皇冠上的明珠

疯狂反扑中国镓锗限制令，美日同天宣布，想要摧毁中国芯片产能?

读此文前，麻烦您点击一下红色的“关注”按钮，既方便您进行讨论与分享，又给您带来不一样的参与感，感谢您的支持！如今美方在中国的芯片方面一直都有制裁，那么中国在面对如此情形时，又应该做出如何反应呢？在这样的环境下中国还能

最新研究：向老龄鼠输入“年轻血液”后成功延长了寿命

联合国教科文组织专家组到长白山，考察评估拟建长白山世界地质公园情况

7月25日，联合国教科文组织评估专家易卜拉欣·库姆、阿里瑞扎·阿姆里克阿泽米抵达长白山，对长白山申报世界地质公园进行为期5天的实地评估。7月27日，在拟建长白山世界地质公园申报评估汇报会上，联合国教科文组织专家组详

绝不向中国低头！宁愿亏损400亿开除9000人，也不和中国共享技术

在阅读此文前，诚邀您点击一下“关注”，既方便您进行讨论与分享，又给您带来不一样的参与感，感谢您的支持。中国作为礼仪之邦，自古以来就以助人为乐的美好品德闻名于世。如果有人需要帮助，我们向来都会伸出援助之手。在疫情期

武汉地铁19号线全线轨道铺设完成

武汉地铁19号线全线轨道铺设完成新华网7月28日，中铁四局工作人员在武东站施工作业。7月28日，中铁四局工作人员在武东站施工作业。7月28日，中铁四局工作人员在武东站施工作业。7月28日，中铁四局工作人员在武东站施工作业。

微信朋友圈可置顶火了！网友：还是仅三天可见好用

【CNMO新闻】最近，有网友反馈称，自己的微信朋友圈已经支持置顶功能，只要在自己的朋友圈选中一条需要置顶的朋友圈，然后点击右上角的三个点，此时在“修改可见范围”上方就会出现“置顶”选项。更详细的操作方法如下：1、更新

替国人解决“洗澡难”，昔日功臣太阳能热水器，如今为何失宠了

文|鲸探所编辑|鲸探所你敢相信吗？中国人跨入洗澡“热水自由”的时间，其实还不到一百年。在那段时间，太阳能热水器简直就是无敌的存在，家家户户的屋顶全部立着这个“庞然大物”。可是没过多长时间，曾经遍布屋顶的太阳能热水

全国首条，全国最大，超薄工艺技术记录再刷新！

0.002毫米，微乎其微的落差，不论是肉眼还是触摸都分辨不出。这样一个微乎其微的数字，加注微乎其微的计量单位，却成了一群科研人“死磕到底”的目标——历经无数次的失败和工艺参数调整，一块厚度仅0.5毫米的TFT-LCD玻璃基板，

再战社区团购！京东拼拼能打赢美团、拼多多吗？

作者：Hernanderz 监制：罗超发展到这个阶段，移动互联网的风口是越来越少了。大厂一边关停边缘业务、降本增效，一边又不断调整策略，复活一些不愿放弃的老业务。近日，本来已熄火多时的社区团购行业，就再次迎来一个重磅玩家——

航天力量守护济南章丘燃气安全“生命线”

中新网北京7月28日电 (吴巍林均升)记者28日从中国航天科工集团获悉，日前，由航天科工203所承建的山东省济南市章丘区燃气智慧管网项目，通过对主城区燃气阀门井全天候监测，精准发现7处燃气阀门井出现微小泄漏，避免危险事故

微信终于改了！新闻早七点

来源平安鼎综合 2023-07-28 07:00 发表于浙江新闻早七点，速览全国法治新闻7月28日星期五，农历六月十一封面微信终于改了！7月27日晚，记者通过安卓系统手机登录微信时注意到微信相关页面和表述中的“帐号”已改为“账

IPAF任命新一任中国区代表

国际高空作业平台联盟（IPAF，International Powered Access Federation）宣布任命一位负责中国大陆及中国香港，中国澳门和中国台湾地区的新代表莫宇，他将于8月1日起上任。莫宇在业内享有盛誉，曾在一家欧洲大型设备制造商担

广汽丰田裁员风波背后：内部人士称下半年暂无全新车型推出计划

本文来源：时代周报作者：黄婧近日，广汽丰田被传出“大裁员”风波。网传消息称，广汽丰田鉴于目前生产状况，提前终止约1000名员工合同，并给出相应补偿方案。网传截图显示，广汽丰田提供的补偿方案包括经济补偿金、代通知金、感

恒大汽车复牌跌近70% 两年累计亏损840亿

【恒大汽车复牌跌近70% 两年累计亏损840亿】财联社7月28日电，截至发稿，恒大汽车(00708.HK)跌68.44%。根据公告，该公司股份自2022年4月1日上午9时正起暂停买卖。由于已达成所有复牌指引，该公司向联交所申请自2023年7月28

上滑加载更多 ↓

训练14分钟，超越Alpaca！华人团队发布飞天羊驼，基于LLM的数据

突破封锁！国产核磁共振成功量产，美媒：一旦断供氦气立马停机？

疯狂反扑中国镓锗限制令，美日同天宣布，想要摧毁中国芯片产能?

最新研究：向老龄鼠输入“年轻血液”后成功延长了寿命

联合国教科文组织专家组到长白山，考察评估拟建长白山世界地质公园情况

绝不向中国低头！宁愿亏损400亿开除9000人，也不和中国共享技术

武汉地铁19号线全线轨道铺设完成

微信朋友圈可置顶火了！网友：还是仅三天可见好用

替国人解决“洗澡难”，昔日功臣太阳能热水器，如今为何失宠了

全国首条，全国最大，超薄工艺技术记录再刷新！

再战社区团购！京东拼拼能打赢美团、拼多多吗？

航天力量守护济南章丘燃气安全“生命线”

微信终于改了！新闻早七点

IPAF任命新一任中国区代表

广汽丰田裁员风波背后：内部人士称下半年暂无全新车型推出计划

恒大汽车复牌跌近70% 两年累计亏损840亿

电视品牌那么多，哪些系列不能买？#人类高质量暑假

高质量发展调研山东行｜东方航天港：天上有星、陆上有箭、

上半年企业贷款成本进一步下降

游戏策划必备技能：以《杀戮尖塔》为例，从零开始拆解

德国测出 10 佳入耳式耳机：中国造 2 款比肩苹果、三星

青岛79岁“国宝级”面点师陈秀英开办手语面食工坊，免费

潍坊峡山区借助大数据赋能安全管理开启重型货车智慧

热闻-就2分钟！护士散步顺手救下1岁宝宝，这项技能你一定

三星连发两款折叠屏手机，但三星Galaxy Tab S9平板好像

华为暴涨58%！2023Q2中国手机市场销量数据出炉