挑战单卡单日训练BERT，ViT作者推荐

Pine 发自凹非寺
量子位 | 公众号 QbitAI

单个GPU，只花一天时间，能把BERT训练成什么样？

现在，终于有研究人员做这件事了，在有限的计算条件之下看看语言模型的真实性能如何。

要知道在以往，大多数专业人员的关注点都在极端计算的条件下的语言模型性能。

但这样的语言训练模型环境，对很多研究人员和从业人员是不可能存在的。

因此这个单天单个GPU的挑战，就有网友称是一个最希望看到的基准。

连ViT作者，谷歌大脑研究员Lucas Beyer都发文推荐，称这是一个令人耳目一新的转变。

具体的过程和结果如何，一起来看看～

挑战过程

这次研究的目标也很明确，就是反其道行之：缩小语言训练模型的算力，在有限的计算量的情况下如何达到BERT的性能水平。

既然要缩小计算量，那第一步肯定是对模型作出一些限定。

这也还是之前提到的，限定时间和GPU个数：单天单个GPU。

关于GPU，研究人员分别选取了3个进行测试，即rtx2080ti、rtxa4000和rtxa6000，每个单元有4个CPU核和32GB内存。

在限定计算量之后，就要对模型的其他参数进行一些调整，以进一步对BERT的实际适用性进行评估。

这些调整包括初始数据设置、模型架构、训练以及数据集的改进。

并且在调整的过程中，整体基调都是围绕“实际使用”进行的，避免跳转到专业的设置，为此，研究人员将所有内容都保持在PyTorch框架的实现级别上。

先来说说初始数据设置，这部分可以简单概括为以下几点：

将标记化的数据打包成长度为128的随机序列，不相关的片段用
分割；
删除< cls > 标记，因为在训练前训练中加入它并没有对性能产生多大影响；
将序列长度为64到96微小批量累积到大批量再处理。

然后是对架构的修改，下图显示了不同模型在随着token数量的增加MLM任务损失的变化。

结果很显然，一个模型损失的衰减很大程度地取决于模型的大小，而不是模型的类型。

并且，因为每个token的性能与模型大小之间的关系紧密耦合，若想通过改变Transformer模型的大小和类型来获得巨大性能增益是不太可能的。

不过对于同大小的所有模型，每个梯度效率是几乎保持不变的，因此可以在保证模型大小不变的情况下，选择能够通过快速搜索加速计算的架构。

具体的优化和其他调整如下：

减少注意力头的数量来降低梯度成本：禁用所有QKV偏差；
禁用所有线性层偏差，通过加速梯度计算，不会对模型大小产生明显影响；
实现比例正弦位置嵌入，相较于学习或非比例正弦嵌入有增量收益；
LN的预标准化比后LN更有益；
去除非线性头部并无影响。

接下来便要对训练进行设置，具体也就不再赘述，直接来看相关调整：

优化器依旧是Adam；
设定Learning Rate计划和批量大小；
丢掉Dropout环节。（因为Dropout会导致每秒更新的净减少）

而在数据集方面，研究团队采用了两种基于数据的途径来更好地缩小规模，分别是以各种方式过滤、处理或排序现有的数据和交换数据源，具体可以看下表。

性能接近最初的BERT

在调整完各种参数后，这个单卡一天的BERT性能到底如何？直接看看最终的数据！

在下游性能评估时是通过GLUE来进行的，下表能够看到在3个不同显卡上的得分，非常接近最初的BERT。

而当模型训练计算量为16倍时，即（2天，在8个GPU），依旧是一样的数据和设置，最终得到的结果比最初的BERT提高了很多，达到了RoBERTa的性能水平。

如果想了解更多，可以点击下面链接查看论文原文～

论文原文：
https://arxiv.org/abs/2212.14034

参考链接：
https://twitter.com/giffmana/status/1608568387583737856

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

展开阅读全文

页面更新：2024-05-04

标签：梯度正弦单日量子研究人员架构模型大小性能语言作者数据

1 2 3 4 5

戴珊上任一周年，淘宝天猫现在怎么样了

戴珊执掌淘宝天猫一周年一年前，阿里CEO张勇宣布了一项让众多员工感到意外的决定。他宣布由戴珊接替蒋凡出任中国数字商业板块总裁，分管大淘宝（包含淘宝、天猫、阿里妈妈），B2C零售，淘菜菜，淘特等业务。对此，外界的解读是“阿里

让一切美好的DAO都发生在DaaS

数字货币的一大特点是去中心化，意味着它们不受任何政府和中央银行的管控，而是分布在计算机、网络和节点中，以达到标准货币无法获得的隐私和安全级别。受到该启发，2016年有人提出了DAO。DAO的全称是Decentralized Autonomo

郭朝晖：回答工业大数据建模的两个灵魂拷问

图片来源：CEChina“伴随着工业企业对数字化应用需求的日益高涨，基于工业大数据建模，已成为行业内的热议话题。然而在这一过程中，人们常常过度强调数据算法，却忽视业务相关的知识，这给工业模型的实用性和可靠性带来了重重挑

中科超精“麒麟刀·木”X射线图像引导系统获批上市

12月28日，省重大项目中科超精“麒麟刀”项目系列之“麒麟刀·木”X射线图像引导系统KylinRay-XGPS获国家药监局颁发的三类医疗器械注册证，标志着该产品正式登陆肿瘤放疗市场，成为创新实现放疗精准定位的自主品牌放疗产品

史雷鸣博士《语言主义》新书西安发布：领跑强人工智能科学理论

阳光讯（记者张涵）12月31日下午三点，由万邦书城主办，雅昌艺术网、布克传媒、陕西师范大学出版社协办的史雷鸣《语言主义》新书发布和同名艺术展在西安南大街中大国际5楼万邦书城举行。史雷鸣博士，生于1976，现任教于高校，研究

千亿赛道核心卡脖子技术重大突破-武汉敏声BAW滤波器全面通线

中国信息通信研究院于12月26日发布的数据显示，2022年1月份至10月份，中国市场手机总体出货量累计2.2亿部，其中，5G手机出货量1.73亿部，占同期手机出货量的78.4%。受制于核心零部件被卡脖子，我国手机市场出货量出现下滑现象，但5

2022年呼吸科领域万篇论文大数据分析：40本投稿期刊、研究热点等

根据pubmed检索，2000年以来，呼吸科（关键词：Pulmonology or Respiratory）领域相关研究共发表754,611篇（统计时间2022/12/28），从2016年起年发表量超过2万篇，近三年平均每年发表呼吸科相关研究超过8-9万篇。我们根据呼吸科科最

数读｜2022年12月小鹏汽车重回万辆交付，全年销量超12万辆

文：懂车帝原创邢秋鸿[懂车帝原创行业] 2023年1月1日，小鹏汽车发布交付数据显示，2022年12月总交付11292辆，环比增长94%。其中，G9首次突破4000辆，达4020辆，环比增长160%。小鹏汽车发布2022年12月交付数据第四季度，小鹏汽车总

中欧班列长安号首列“粤陕”国际班列新年首发

新年元旦零时，满载着珠三角地区生产的家电、家具和日用品的50个集装箱，搭乘中欧班列长安号，缓缓驶出西安国际港站，一路向西，经阿拉山口口岸出境，约14天左右抵达欧洲，全程11700余公里。班列开行对助推两地经贸往来，加强区域合

对话 - 理想汽车刘杰：2023年零售中心将超400家重点下沉三四线城市

文：懂车帝原创彩丽美[懂车帝原创 2022广州车展][懂车帝原创行业] 2022年的“年终大戏”——第20届广州车展在12月30日拉开大幕。回望即将走过的2022年，中国汽车产业遭受了前所未有的巨大挑战。年终岁尾，在这样的大背景

印尼“禁铝”面临许多挑战

今年以来，印尼政府高层频频提及矿产出口禁令问题，印尼“禁铝”早已是山雨欲来风满楼。尽管如此，印尼“禁铝”仍面临新建铝土矿冶炼厂进展不顺利、融资难等许多现实挑战。印尼发展矿产下游产业不能仅靠出口禁令，应充分考虑

2022中国50强城市榜单：苏州第13，海口领先三亚，哈尔滨垫底

城市的许多数据在人们眼中或许是枯燥的，因为已经不能够单单用一项数据来决定城市的强弱，只有综合实力才勉强让人能够接受，而且，能够决定城市实力的排名已经五花八门，2022年，华东理工大学公布了一份中国城市社会发展百强榜，这

小鹏汽车22年交付超12万台，历史累计交付突破25万台

来源: TechWeb1月1日消息，今日，小鹏汽车公布其12月及2022年全年交付成绩。2022年12月，小鹏汽车总交付11,292台，环比增长94%。其中，G9首次突破4千台，达4,020台，环比增长160%。第四季度，小鹏汽车总交付22,204台。2022年累计交付

复盘2022：金融市场十大事件

经济观察网记者梁冀刚刚过去的2022，疫情反复、俄乌冲突与美联储加息叠加影响下，全球权益市场跌宕起伏。2022年最后一个交易日，A股飘红收官。回首全年，A股三大股指全数收跌。沪指全年跌去15.13%，深成指跌25.85%，创业板指

今年前11月广东为各类市场主体提供社保支持资金超531亿元

原标题：今年前11月广东为各类市场主体提供社保支持资金超531亿元（记者/肖文舸通讯员/粤仁宣）笔者从省人社厅获悉，截至11月底共为各类市场主体提供社保支持资金531.03亿元，发放养老、失业、工伤保险待遇3622亿元，着力保市

上滑加载更多 ↓

挑战单卡单日训练BERT，ViT作者推荐

挑战过程

性能接近最初的BERT

戴珊上任一周年，淘宝天猫现在怎么样了

让一切美好的DAO都发生在DaaS

郭朝晖：回答工业大数据建模的两个灵魂拷问

中科超精“麒麟刀·木”X射线图像引导系统获批上市

史雷鸣博士《语言主义》新书西安发布：领跑强人工智能科学理论

千亿赛道核心卡脖子技术重大突破-武汉敏声BAW滤波器全面通线

2022年呼吸科领域万篇论文大数据分析：40本投稿期刊、研究热点等

数读｜2022年12月小鹏汽车重回万辆交付，全年销量超12万辆

中欧班列长安号首列“粤陕”国际班列新年首发

对话 - 理想汽车刘杰：2023年零售中心将超400家重点下沉三四线城市

印尼“禁铝”面临许多挑战

2022中国50强城市榜单：苏州第13，海口领先三亚，哈尔滨垫底

小鹏汽车22年交付超12万台，历史累计交付突破25万台

复盘2022：金融市场十大事件

今年前11月广东为各类市场主体提供社保支持资金超531亿元

郭朝晖：回答工业大数据建模的两个灵魂拷问

史雷鸣博士《语言主义》新书西安发布：领跑强人工智能科

2022年呼吸科领域万篇论文大数据分析：40本投稿期刊、研

荣耀90概念机曝光：这次不单单颜值和影像优秀，性能是一大

沈阳中街活力归来跨年夜单日客流量创近四年来新高

海南离岛免税单日销售额超亿元酒店订单同比增34%

Redis高级数据结构Stream和HyperLogLog

单日销售额破亿元×7！这里免税店，又火了！

量子异质结构综述

星环科技TDH多模型统一架构VS CDH架构