AI研究有进展,中国学者找到大模型涌现密码,训练AI将高效又准确

文 | 金锐点

编辑 | 金锐点

不少人可能都好奇,为啥有的大模型参数一旦超过某个阈值,突然就具备了逻辑推理、长文本理解这些新技能?

这就是大模型的涌现现象。过去想预判、量化这种能力一直是难题,训练时要么盲目堆参数浪费算力,要么等训完才知道效果好坏。

好在,来自田纳西大学的中国学者肖熊烨团队带来了新突破,他们用多重分形分析找到了大模型涌现的密码,往后训练AI或许能既省成本又精准。

这密码到底是什么?对实际用AI、搞AI的人来说,又能带来哪些改变?要搞懂这个密码,得先明白大模型的涌现,不只是规模大就够了。

根据1999年JeffreyGoldstein在《涌现》杂志上的定义,涌现是指在自组织过程中出现新颖且连贯的结构、模式和特性。

就像蚁群不用指挥也能筑巢、图灵斑图会自发形成一样,核心是微观个体的复杂交互。

肖熊烨团队也发现,研究大模型涌现不能只盯参数数量,更要关注神经元之间的连接方式。

这就像看一座城市,不能只看人口多少,还要看交通网、功能区的分布逻辑。

为了看清神经元的连接规律,团队先做了一步关键转化,把大模型拆解成神经交互网络(NIN)。

简单说,就是把每个神经元当成节点,两个神经元之间的连接权重换成距离,原始权重越小,说明这两个神经元离得越远。

这样一来,大模型就变成了一张可分析的有向图,接下来就能计算节点间的最短路径。

再定个阈值,距离小于这个值的节点,就算是邻居,观察中最关键的发现来了,随着测量半径(阈值)增大,节点的邻居数量(覆盖质量)增长呈现出明显的幂律关系。

这可不是偶然,正是分形结构的典型特征,1975年数学家曼德勃罗首次提出分形概念时就指出,这类结构的核心是局部与整体的相似性。

比如西兰花,不管掰下哪一小朵放大,形状都和整颗相似,再比如海岸线,换不同尺度的地图测量,细节里总藏着和整体一致的pattern。

这种特性在大模型的神经交互网络里同样存在,基于这个发现,肖熊烨团队提出了神经多重分形分析(NeuroMFA)框架,相当于给大模型的涌现搭了把量尺。

框架里有两个核心指标,利普希茨-霍尔德指数(α)和多重分形谱(f(α))。不用死记这些专业术语。

α像规整度探测器,α值低,说明这片神经元连接均匀有序,像规划好的住宅区,α值高,说明连接杂乱,像没规划的城中村。

而f(α)是分布地图,能看出不同规整度的区域在模型中占比多少,f(α)值越高,这类区域越常见。

更实用的是涌现度的计算方式,团队将其定义为系统异质性和整体不规则度的乘积。

异质性看多重分形谱的宽度,谱越宽,说明模型里既有规整的功能区,又有灵活的连接区,结构越多样。

不规则度看最常见的α值(α₀),α₀越低,整体越有序,这意味着,涌现度高的大模型必然是多样且有序的,就像功能齐全又不混乱的城市,而这种特性恰好和模型的实际性能强相关。

团队用Pythia系列模型做了实验,覆盖从14M到2.8B参数的不同规模,结果很直观。

随着训练迭代次数增加,多重分形谱会慢慢变宽,就像城市从单一村落逐渐分化出功能区,异质性在提升。

而28亿参数的大模型训到一定程度后,谱宽不再明显变宽,反而会向左漂移——说明整体α值降低,不规则度下降,系统变得更有序。

反观1400万参数的小模型,从头到尾都没出现这种分形特征,也没有明显的涌现迹象。

更关键的是,涌现度和大模型的实际任务表现能精准对应,团队对比了LambadaOpenAI和PIQA两个公认的性能基准,发现涌现度高的模型,这两项得分也更高。

后来对比SciQ、ARC-easy等其他任务,结果也一致,但是当训练不充分时,不管哪个规模的模型,涌现度和任务得分都近乎为0。

只有训练到位,大模型的分形特征才会显现,涌现度才会跟着上涨,这说明充分训练和一定规模都是涌现的必要条件。

这项被集智俱乐部、搜狐网等平台报道的研究,价值不止于解释涌现,更给实际AI应用指了明路。

对AI研发者来说,以后不用再盲目堆参数,看一眼多重分形谱的变化,就能判断当前模型有没有涌现潜力,该停还是该调整,能直接节省大量算力成本。

对企业来说,也能更精准地做AI投入决策,比如知道28亿参数的模型充分训练后会有涌现,就不用硬上更大规模的模型,降低试错风险。

当然,研究还有待深入的地方,比如这种分形结构的变化和大模型顿悟现象有没有关联?能不能靠它精准预判涌现的临界参数阈值?这些还需要更多探索。

但不可否认,肖熊烨团队的研究把过去看不见、摸不着的涌现,变成了能测、能判的指标,往后训练AI,就像有了导航仪,不用再凭感觉走弯路,这对AI的高效、精准发展来说,算得上关键一步。

展开阅读全文

更新时间:2025-10-04

标签:科技   高效   中国   进展   模型   学者   准确   密码   神经元   参数   团队   阈值   精准   节点   规整   结构   不规则

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号

Top