GPT3的57倍

来源：lifearchitect

编辑：好困

【新智元导读】GPT-4将会有高达10兆个参数？近日，有网友在分析了GPT-3和其他语言模型之后大胆预测，GPT-4将会达到GPT-3的57倍！而「开源版本」则会达到和GPT-3同等的规模。

对于机器学习来说，参数可以算得上算法的关键：它们是历史的输入数据，经过模型训练得来的结果，是模型的一部分。

一般来说，在NLP领域，参数数量和复杂程度之间具有正相关性。而OpenAI的GPT-3则是迄今为止最大的语言模型之一，有1750亿个参数。

那么，GPT-4会是什么样子的？

近日有网友就对GTP-4及其「开源版」GPT-NeoX进行了大胆的预测。

GPT-4参数将达10兆！此表格预测全新语言模型参数将是GPT-3的57倍

作者认为，GPT-4的参数或许可以达到10T，是现在GPT-3模型的57倍还多，而GPT-NeoX的规模则可以和GPT-3持平。

等下，如果是这样，程序员们还能不能在GPT-NeoX上愉快地调参了？

模型	发布时间	Tokens	参数	占1.75T的百分比	训练文本
GPT-2 (OpenAI)	Feb 2019	10B	1.5B	0.09%	40GB
GPT-J (EleutherAI)	Jun 2021	400B	6B	0.34%	800GB
GPT-3 (OpenAI)	May 2020	499B	175B	10.00%	570GB
PanGu (Chinese)	Apr 2021	40B	200B	11.43%	1.1TB
HyperCLOVA (Korean)	May 2021	560B	204B	11.66%	1TB?
Wudao 2.0 (Chinese)	Jun 2021	500B?	1.75T	100.00%	2.4TB
LaMDA (Google)	Jun 2021	1T?	200B?	11.43%	1TB?
GPT-4 (OpenAI)	TBA	20T?	10T?	571.43%	5TB?
GPT-NeoX (EleutherAI)	TBA	500B?	175B?	10.00%	825GB?

数据集分析

目前应用最广的GPT-3的训练语料库来自于规模巨大的结构文本。其中所有数据集都被索引，分类，过滤和加权，而且还针对重复的部分也做了大量的删减。

专门为Openai开发并由Microsoft Azure托管的世界最强超算之一完成了对GPT-3的训练。超算系统有超过285,000个CPU核心，超过10,000个 GPU，并且以400Gbps的速度运行。

GPT-4参数将达10兆！此表格预测全新语言模型参数将是GPT-3的57倍

GPT-3

Wikipedia DataSet是来自于Wikipedia的英文内容。由于其质量，写作风格和广度，它是语言建模的高质量文本的标准来源。

WebText数据集（以及扩展版本WebText2）是来自从Reddit出站的大于4500万个网页的文本，其中相关的帖子会有两个以上的支持率（upvotess）。

由于具有大于4.3亿的月活用户，因此数据集中的内容可以被认为是最「流行」网站的观点。

Books1和Books2是两个基于互联网的书籍数据集。类似的数据集包括：

BookCorpus，是由未发表的作者撰写的免费小说书籍的集合，包含了至少10,000本书。
Library Genesis (Libgen)，一个非常大的科学论文、小说和非小说类书籍的集合。

Common Crawl是一个包含了超过50亿份网页元数据和提取文本的开源存档开放的数据平台：

八年来PB级的数据（数以千计的TB，数以百万计的GB）。
25B个网站。
数以万亿计的链接。
75%英语，3%中文，2.5%西班牙语，2.5%德语等。
排名前10域名的内容：Facebook、谷歌、Twitter、Youtube、Instagram、LinkedIn。

GPT-4参数将达10兆！此表格预测全新语言模型参数将是GPT-3的57倍

GPT-3使用的数据集

GPT-Neo和GPT-J

今年3月，Eleuther AI在GitHub上推出了GPT-Neo开源项目，可以在Colab上进行微调。

虽然GPT-Neo与GPT-3比，参数量仍然很小（1.3B和2.7B），但开源又免费，仍然得到了「同性好友们」的认可。

今年6月Eleuther AI再次推出GPT-J-6B，它可以说是GPT-Neo的增强版本，顾名思义，模型的参数量增加到了6B。

GPT-J的训练也是基于The Pile数据库——一个825GB的多样化开源语言建模数据集，由22个较小的、高质量的数据集合组成。

The Pile除了专业论坛和知识库，如HackerNews、Github和Stack Exchange，论文预印本网站ArXiv以外，还包括如Youtube字幕，甚至安然邮件（Enron Emails）语料库。

GPT-4参数将达10兆！此表格预测全新语言模型参数将是GPT-3的57倍

GPT-Neo和GPT-J使用的数据集

在zero-shot任务上，GPT-J性能和67亿参数的GPT-3相当，也是目前公开可用的Transformer语言模型中，在各种下游zero-shot任务上表现最好的。

这么看来，确实可以期待一下和GPT-3相同规模的GPT-NeoX的表现了。

网友评论

GPT-4怎么这么大？

「GPT-3已经接近理论上每个token的最大效率了。如果OpenAI模型的工作方式是正确的，更大的模型只是对算力的浪费。」

GPT-4参数将达10兆！此表格预测全新语言模型参数将是GPT-3的57倍

有网友解答说：「规模确实可以带来改善。因为本质上是一种关系隐喻模型，『了解更多的关系』意味着能够对更多的事情或以更细微的方式做出反应。当然，这也同时是一个营销的方式。」

GPT-4参数将达10兆！此表格预测全新语言模型参数将是GPT-3的57倍

参考资料：

https://lifearchitect.com.au/ai/models/#contents

展开阅读全文

页面更新：2024-03-13

标签：西班牙语语料库德语建模模型文本规模参数版本语言方式网友内容数据科技

华人一作：卷积让视觉Transformer性能更强，ImageNet 继续刷点

来源：arXiv编辑：LQ Priscilla【新智元导读】Convolutional stem is all you need! Facebook AI和UC伯克利联手，探究视觉Transformer优化不稳定的本质原因，只需把patchify stem替换成convolutional stem，视觉Transformer就

苹果汽车难产？苹果 CTO 将加入汽车团队，曾缔造 Apple Watch

来源：arstechnica编辑：yaxin【新智元导读】外媒称，苹果继续其在自动驾驶汽车技术方面的工作，它正在将公司最知名的高管之一凯文·林奇转移到Project Titan团队。2013年，林奇加入苹果，缔造了新一代产品Apple Watch。苹果公

被马斯克吹爆的特斯拉FSD V9也智障！车主亲测11种bug合集

来源：Twitter编辑：Emil, yaxin【新智元导读】每次更新，都少不了翻车。近日，跳票已久的特斯拉FSD V9版终发布，迎来国外车主对新版FSD颇高评价。然而，一位网友亲身测试却发现了11种失败场景，无法识别绿植、无法判断换道等。经

CV圈对决：谷歌提出ViTGAN，用视觉Transformer训练GAN

来源：arXiv编辑：Priscilla LQ【新智元导读】CNN地位不稳。加州大学圣地亚哥分校联合谷歌进行研究：用视觉Transformer训练GAN，结果表明，ViTGAN性能可以与卷积GAN媲美。卷积神经网络（convoluitonal neural networks，CNN）凭借强

天才王垠惊人言论炸翻网友：相对论是假说，爱因斯坦是民科

来源：zhihu编辑：Emil【新智元导读】网红码农王垠又火了，怼天怼地怼空气的他这一次要向爱因斯坦开炮，在最新的博客中明确指出：爱因斯坦基本就是一位「民科」？！三次博士退学，被微软拉黑的码农界网红王垠又上了热搜。这一次，爱

手心上的元宇宙！神秘视频揭秘5nm芯片内部结构

来源：网络编辑：Priscilla Emil【新智元导读】一颗指甲盖大小的芯片，160亿个晶体管，16个计算单元，每秒钟能进行11万亿次运算。它的里面究竟是什么样子的？你能想象到最精细的东西是什么？是右刻「山高月小，水落石出」，左刻「

1小时识别100亿张图像，每秒 80 亿亿次！「智算巨头」亮相中国南京

编辑：小匀【新智元导读】「智算中心新巨头」露面！近日，南京智能计算中心正式投入运营，其运营系统的 AI 计算能力达每秒 80 亿亿次 (800P OpS)，夺魁长三角当前投运的最高算力的智能计算中心。算力yyds！不久前，特斯拉自研超

仅13天！日本科学家「人造」小鼠卵子，用干细胞纯体外培养

来源：science 编辑：yaxin【新智元导读】不久前，中国科学家成功让公鼠怀孕！近日，日本科研人员用小鼠胚胎干细胞成功重建「体外卵巢」，造出可受精卵子，能够培育健康后代！未来，这项研究对辅助生殖有重要影响，但也无法避免伦理争议

1600万像素高清双摄，「学习工具新物种」AI学习机T10震撼发布

编辑：小匀、Q【新智元导读】又是一年暑期到，昨日科大讯飞新品发布会在京召开，现场发布AI学习机T10，支持AI精准学功能，让孩子的暑假过得充实有意义。同样有硬核技术，同样是欢呼声震耳，教育产品赛场上的精彩程度，毫不逊色于欧

开源AlphaFold 2！Nature、Science公开两大蛋白质结构预测工具

来源：nature Science编辑：Priscilla 好困【新智元导读】昨日，DeepMind和华盛顿大学分别在nature和Science两大顶级杂志发布了各自预测蛋白质结构的工具，并同时开源了代码。 nature和Science两本杂志一直相爱相杀，总是喜欢

Windows 365发布！扔掉你的笔记本，在手机上就能运行Windows 11了

来源：Microsoft编辑：Emil【新智元导读】Windows 365正式发布，它最大的特点是无需任何硬件设备，包括CPU、内存硬盘以及应用软件都在云端给你准备好了——你需要的只是打开网页而已。今天许多PC厂商在瑟瑟发抖。随着移动

旷视AI「炼丹房」Brain++ 再升级首席科学家孙剑发AI「灵魂」三问

编辑：yaxin【新智元导读】从深度学习算法、计算机视觉算法到AIoT算法，从开源框架旷视天元到AI生产力平台Brain++，旷视十年故事，旷视首席科学家、旷视研究院院长孙剑讲给你听。万万没想到，我和小伙伴们被旷厂拿去「炼丹」

B站崩上热搜，A站跟着躺枪！微信、支付宝：跟我们比这是小问题

来源：zhihu编辑：Emil、小匀【新智元导读】一夜之间，年轻人最喜欢的弹幕视频网站突然崩溃了半小时，随后A站、豆瓣也如出一辙。有网友称「着火」所至，但上海消防队随后出来辟谣。那么，究竟是怎么回事？崩了！劳累了一天的年轻人

ICML 2021 大奖出炉！谷歌大脑摘桂冠，Hinton高徒获时间检验奖

来源：ICML编辑：yaxin 好困 Priscilla【新智元导读】刚刚，ICML 2021 杰出论文奖出炉！本次共有6篇论文获奖，来自多伦多大学和谷歌大脑的研究人员斩获杰出论文奖。时间考验奖颁给Hinton高徒郑宇怀，表彰10年前的经典论文，还有4篇

1分钟插入10亿行数据！抛弃Python，写脚本请使用Rust

来源：Avinash编辑：好困【新智元导读】近日，一位程序员急需在一分钟之内生成十亿行的测试数据库，然而在用Python写了脚本之后发现「大失败」。怎么办？当然是用Rust了！最近，一位程序员表示自己急需一个「也就」十亿行数据的测

上滑加载更多 ↓

推荐阅读：

天才王垠惊人言论炸翻网友：相对论是假说，爱因斯坦是民科

1分钟插入10亿行数据！抛弃Python，写脚本请使用Rust

他们竟用后台数据偷窥喜欢的女性！Facebook一年半解雇52

TCL潮玩黑科技破圈而出，Z世代直呼内行

整屋清洁净化不再难，戴森新科技让夏日理想生活触手可及

中国要做GPT-3！昇腾黑科技曝光，2.4倍性能提升释放「算力

时尚遇见5G科技三星Galaxy Z Flip 5G亮相上海

可能没有黑科技但Redmi 9A真的是一部良心机

25行代码≈SOTA！OpenAI发布Triton编程语言，比PyTorch快2

AI大牛纷纷离职！2021大厂AI Lab现状盘点，网友：名存实亡

友情链接：

更多：

本站资料均由网友自行发布提供，仅用于学习交流。如有版权问题，请与我联系，QQ：4156828

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top