AI领悟有理论解释了！谷歌：两种脑回路内部竞争，不再死记硬背

梦晨发自凹非寺
量子位 | 公众号 QbitAI

谷歌PAIR团队不久前撰文介绍了AI的“领悟” （Grokking）现象——

训练久了突然不再死记硬背，而是学会举一反三，有了泛化能力。

不出一个月，另一只团队（主要成员来自DeepMind）表示，已经给出一个通用理论解释——

领悟又称延迟泛化，与AI内部两种“脑回路”的竞争有关。

对此，有学者评价“我们需要更多这种对深度学习物理规律的研究，而不是去优化炼金术。”

AI的两种脑回路

在先前的研究中，发现在“领悟”现象的作用下，就算只有5-24个神经元的模型也能拥有泛化能力。

新研究沿用了这种构建最小示例，以及大量做可视化的方法。

基于OpenAI在2020年一项对神经网络内部机制之间相互作用的研究，团队假设并验证了模型内部有两种算法回路（Circuits）。

记忆回路Cmem，训练时表现很好，但测试时表现不佳。
泛化回路Cgen，训练和测试阶段表现都好。

通过改变数据集的大小和权重衰减的强度做实验来观察。

当训练数据集增大时，Cmem回路的参数范数也更大，也就是在靠记忆的方式去存储训练集需要的信息量。

但Cgen的参数范数不随训练集大小变化，也就是获得了类似“举一反三”的泛化能力

那么，在什么条件下模型会发生整体的“领悟”现象呢？

来自两种回路的之间竞争。

在训练初期，直接死记硬背的速度更快，Cmem占据上风。

但随着数据的增加，在梯度下降的作用下效率更高的Cgen会被加强。

也就是说，存在两种不同的回路、他们之间有效率差和学习速度差是导致领悟发生的三大要素。

重新思考泛化

在更进一步的实验中，团队还根据这个理论成功演示了在一定条件下，已经“领悟”的模型也可以退化，出现“逆领悟”。

在新的小数据集上继续训练已领悟的模型时，测试精度突然变差，也就是在泛化之后的过拟合。

也可以精心调整出一个“半领悟”状态。

当数据集的大小刚好在一个临界值，让Cmem和Cgen的效率相当，只对部分测试精度出现延迟泛化。

团队认为，这种基于回路效率的分析为理解神经网络的泛化提供了一种新的视角。

同时也提出了一些后续研究方向。

如为什么领悟所需的时间随数据集大小的减小呈超指数级增长？为什么Cgen回路的学习速度慢？为什么在没有权重衰减的情况下也会发生grokking？为什么在典型的机器学习训练中没有领悟现象？……

评论区有学者认为，研究这些基础问题并不需要成千上万块H100。

GPU贫民也有机会为整个领域做出贡献。

论文地址：
https://arxiv.org/abs/2309.02390

参考链接：
[1]https://x.com/VikrantVarma_/status/1699823229307699305
[2]https://pair.withgoogle.com/explorables/grokking/

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

展开阅读全文

页面更新：2024-05-14

标签：死记硬背回路神经网络量子权重模型团队现象竞争理论测试数据

1 2 3 4 5

拓尔思：海贝搜索数据库可替代国外开源软件ElasticSearch

【拓尔思：海贝搜索数据库可替代国外开源软件ElasticSearch】财联社9月20日电，拓尔思在互动平台表示，今年4月，公司发布了TRS海贝搜索数据库V10（以下简称海贝）加强版（Hybase10 Pro），完成了海贝的稠密向量索引核心功能开发。海贝

中国要带委内瑞拉一起登月，美国却坐不住，提前行动起来了

在阅读此文之前，辛苦点击一下右上角的“关注”，既方便您进行讨论和分享，又能给您带来不一样的参与感，感谢您的支持！来源/风雅硕作者/风雅硕2023年9月14日，第五次来华访问的委内瑞拉总统马杜罗公开表示：他们将派遣本国航天员

PCT国际专利申请量上升势头强劲上海跻身全球“最佳科技集群”前五名

中新网上海9月20日电 (记者陈静)记者20日获悉，上海首次跻身全球“最佳科技集群”前五名。上海在全球“最佳科技集群”中排名从2017年的19位，跃升至第5位，反映出上海在强化创新策源功能、建设知识产权强市方面成效显著。

通化金马：子公司琥珀八氢氨吖啶片III期临床试验达到主要临床试验终点

【通化金马：子公司琥珀八氢氨吖啶片III期临床试验达到主要临床试验终点】财联社9月20日电，通化金马公告，近日，公司全资子公司长春华洋自主研发的琥珀八氢氨吖啶片项目取得重大研究进展。该项目经过双盲、双模拟、随机、安

国泰航空：公司对2023年余下数月的前景保持乐观

9月20日，国泰航空表示，展望公司的客运业务，学生前往英国的需求持续增长，将推动9月份的业务。整体而言，公司对2023年余下数月的前景保持乐观。我们继续为顾客增加更多航班，尤其是往返内地，公司目前每周营运约170班航班，往来内

全国妇联举办巾帼科普示范活动

来源：人民网－人民日报本报北京9月19日电 (记者杨昊)由全国妇联、中国科协联合举办的巾帼科普示范活动暨“科普她力量”巾帼科普巡讲启动仪式19日在京举行。活动围绕“提升全民科学素质，助力科技自立自强”这一主题，通过院

国内首个遥感云服务平台！他们的技术让河南元素闪耀太空

顶端新闻·河南商报讯（记者邹皓羽）9月20日，在“十大战略进行时——数智河南豫见未来”网络主题宣传鹤壁首站活动中，顶端新闻·河南商报记者来到河南航天宏图信息技术股份有限公司（简称“航天宏图”），了解鹤壁市卫星产业发

同心共聚中华力，神舟自当乘风起

来源：人民网-观点频道原创稿一代代“神舟”“嫦娥”航天器的接连发射，是我国航天事业不断进步的体现；航天员们在万众瞩目中安全归家，背后更凝聚了航天事业科研工作者的无数心血。我们身为新时代的新青年，应学习勇于奋斗、

国泰航空：8月份载客178.5万人次同比增加603%

【国泰航空：8月份载客178.5万人次同比增加603%】财联社9月20日电，国泰航空公布2023年8月份客、货运量数据，公司在今年前八个月总载客量突破1000万人次。其中，8月份载客178.5万人次，较2022年同月增加603%。月内收入乘客千

和ChatGPT-4聊完后，我觉得一切可能已经来不及了

阅读文章前，麻烦您点击一下“关注”，方便讨论和分享，小编将持续更新，感谢您的支持导语：飞机上的WiFi让我感到了与ChatGPT-4的不寻常对话，这个人工智能助手表现出惊人的情商，让我开始思考人工智能的本质和未来。在万米高空，我

第四批“全国自然教育基地（学校）”名单公布福建闽江河口湿地上榜

近日，中国林学会公布了第四批“全国自然教育基地（学校）”名单，福建闽江河口湿地榜上有名。福建闽江河口湿地总保护面积2381.85公顷，有红树林沼泽等7种湿地类型。湿地生物多样性丰富，有野生动植物1311种，有鸟类313种，其中水鸟1

前沿 - 人工智能在无人机竞速领域战胜人类冠军

最近，科研人员研究出了一个名为Swift的人工智能（AI）系统，搭载该系统的无人机首次成功在一对一冠军赛中战胜人类对手，这项研究成果有多重要呢？相关论文已发表在Nature期刊，并且登上了当期的封面！或许你没有听说过深度强化学习

开建！！落地太原的华为全球总部！太原能源注入新动力！

近日，华为煤矿军团项目实景已经初露雏形，更多更新的消息被曝出！01 塑造智能矿山新未来继今年6月份，市外来投资局等一行五人赴晋源区就华为煤矿军团全球总部暨山西区域总部项目实地调研后，煤矿军团就开展了如火如荼的建设。

OPPO荣登2023全球、中国科创领袖TOP100，研发实力获肯定

众所周知，一家企业要想走得长远，拥有核心技术和创新能力无疑是关键，尤其是进入到经济全球化时代，科创能力更显得愈发可贵。近日，科技创新信息服务商智慧芽就发布了两份有关各大企业科创能力的统计榜单，分别是《2023年度中国

蔚来手机外观公布网友：你说跟OPPO没关系我不信

【手机中国新闻】在9月21日上午进行的2023蔚来创新科技日上，蔚来创始人、CEO兼董事长李斌正式发布了蔚来首款手机NIO Phone。随着手机的亮相，这款蔚来新机的外观也正式公布。NIO Phone外观李斌表示，蔚来在保密工作方面做

上滑加载更多 ↓

AI领悟有理论解释了！谷歌：两种脑回路内部竞争，不再死记硬背

AI的两种脑回路

重新思考泛化

拓尔思：海贝搜索数据库可替代国外开源软件ElasticSearch

中国要带委内瑞拉一起登月，美国却坐不住，提前行动起来了

PCT国际专利申请量上升势头强劲上海跻身全球“最佳科技集群”前五名

通化金马：子公司琥珀八氢氨吖啶片III期临床试验达到主要临床试验终点

国泰航空：公司对2023年余下数月的前景保持乐观

全国妇联举办巾帼科普示范活动

国内首个遥感云服务平台！他们的技术让河南元素闪耀太空

同心共聚中华力，神舟自当乘风起

国泰航空：8月份载客178.5万人次同比增加603%

和ChatGPT-4聊完后，我觉得一切可能已经来不及了

第四批“全国自然教育基地（学校）”名单公布福建闽江河口湿地上榜

前沿 - 人工智能在无人机竞速领域战胜人类冠军

开建！！落地太原的华为全球总部！太原能源注入新动力！

OPPO荣登2023全球、中国科创领袖TOP100，研发实力获肯定

蔚来手机外观公布网友：你说跟OPPO没关系我不信

拓尔思：海贝搜索数据库可替代国外开源软件ElasticSearc

迈瑞医疗研发副总裁李新胜：医疗是AI可落地的最佳领域，希

中方在联合国发布《地球大数据支撑可持续发展目标报告

腾讯云原生数据库的目标是“星辰大海”

大数据扫黄：电子眼下的你，嫖娼无所遁形你还敢“嫖娼”吗

内蒙古满洲里恢复中俄免签旅游团队通关业务

邮件数据安全案例 - 有一种遇见，叫相见恨晚

智领未来，携手共赢！高价值气象数据产品推介会来了！-直播

软通动力：发布openGauss数据库商业发行版

圣湘生物：降钙素原检测试剂盒等60项产品获欧盟CE认证