Nature:大脑中的多时间尺度强化学习

摘要


为了在复杂环境中生存并获得成功,动物和人工智能体必须学会自适应地行动,以最大化适应度(fitness)和奖励(rewards)。这种自适应行为可以通过强化学习(reinforcement learning)习得,这类算法不仅在训练人工智能主体方面取得了成功,还在刻画中脑多巴胺能神经元(dopaminergic neurons)放电活动中发挥了作用。在经典强化学习模型中,智能体根据单一时间尺度(timescale)——即折扣因子(discount factor)——对未来奖励进行指数折扣。本文探讨了生物强化学习中多个时间尺度(multiple timescales)的存在。我们首先展示了在多重时间尺度上学习的强化学习智能体所具有的独特计算优势。随后,我们报道了在执行两种行为任务的小鼠中,多巴胺能神经元以多种折扣时间常数(discount time constants)编码奖励预测误差(reward prediction error)。模型解释了在由线索诱发的瞬时响应和称为多巴胺攀升(dopamine ramps)的更慢时间尺度波动中观察到的时间折扣异质性。更重要的是,单个神经元在两种任务中测得的折扣因子呈现高度相关性,表明这是一种细胞特异性(cell-specific)的属性。综合而言,我们的研究为理解多巴胺能神经元功能异质性提供了新的范式,并为人类和动物在多种情境下采用非指数折扣(non-exponential discounts)的经验观察提供了机理基础,同时也为设计更高效的强化学习算法开辟了新途径。


关键词:多时间尺度、强化学习(Reinforcement Learning, RL)、奖励预测误差、折扣因子(Discount Factor)、价值函数、拉普拉斯变换(Laplace Transform)、多巴胺神经元(Dopaminergic Neurons)、时序编码(Temporal Representation)、神经异质性(Neuronal Heterogeneity)

来源:集智俱乐部

作者:彭晨

论文题目:Multi-timescale reinforcement learning in the brain

论文链接:https://www.nature.com/articles/s41586-025-08929-9

发表时间:2025年6月4日

论文来源:Nature


在复杂环境中,动物和人工智能系统都需学习如何在不确定的未来中做出最佳决策,以最大化回报。传统的时间差分强化学习(Temporal-Difference Reinforcement Learning)依赖于单一时间尺度的折扣因子(Discount Factor),将未来奖励按统一速率指数衰减。然而,行为经济学与生态学研究表明,人类与动物通常表现出非指数型折扣,例如超曲线折扣(Hyperbolic Discounting),并能根据环境不确定性灵活调整最新发表于 Nature 的一项研究,从计算与神经生物学视角提出:大脑中的多巴胺系统或通过多种时间尺度并行学习,实现更高效、更灵活的强化学习机制。




多时间尺度RL的计算优势




研究团队首先使用模型仿真比较了单一时间尺度与多时尺度强化学习的表现差异。以一个线性迷宫为例,智能体在每次试验中都会在起点收到提示信号,然后在特定时刻获得奖励。传统只采用单一折扣因子,奖励大小与时延信息通常被压缩到同一个标量中。而当引入多个折扣因子γi行学习时,智能体对不同时间窗内的奖励预期形成向量化表示(如公式所示)

研究团队首先在仿真环境中对比了单一折扣因子与多时尺度价值表征的性能差异,使用了四个任务(图1e)。在“解耦奖励大小与时间”(Task 1)中,单一折扣因子模型无法区分价值是来自于“小额近期奖励”与“大额远期奖励”,而多时尺度系统则通过折扣价值谱(value spectrum)的形状不变性,可以将奖励时间与奖励幅度相分离。进一步地,多时间尺度系统隐含了所有未来时刻的指数折扣值,使其能够在同一表征上灵活重加权,以重现超曲线折扣(Task 2),甚至在学习尚未收敛时,就从折扣谱形状中推断出奖励时延(Task 3),并可根据当前状态在“近视”与“远见”间切换以优化不完全学习场景下的决策(Task 4)

图 1. 多时间尺度强化学习的计算优势。a. 在单时间尺度价值学习中,预测未来奖励的线索(在 t = 0 时)的价值(左)通过单一指数折扣函数对这些奖励进行折扣来评估(中)。预期奖励的大小和时间被编码在线索的价值中,但两者相互混淆(右)。b. 在多时间尺度价值学习中,相同的奖励延迟通过多个折扣函数进行评估(中左)。线索的相对价值作为折扣的函数取决于奖励延迟(中右)。因此,基于拉普拉斯变换的简单线性解码器可以重建奖励的预期时间和大小(右)。c. 比较单时间尺度与多时间尺度学习的实验。tR 和 R 在每个episode中固定,但在不同episode中变化。d. 步骤 1:在每个episode中,价值函数通过使用多个折扣因子的表格更新来学习。给定这些值,步骤 2 包括训练一个非线性解码器以最大化任务特定报告的准确性。解码器通过策略梯度在不同情节中进行训练。e. 该架构在四项任务中进行训练,以突显多时间尺度强化学习的计算优势,包括将奖励大小和奖励时间的信息解耦、能够使用任意折扣函数进行学习、能够在收敛前恢复奖励时间信息以及能够控制归纳偏差(见正文和方法部分)。f. 在 2000 次训练回合后报告平均准确率,作为正确响应的比例。“三个折扣”对应于 [0.6, 0.9, 0.99] 的集合,“一个折扣”对应于在 {[0.6, 0.6, 0.6], [0.9, 0.9, 0.9], [0.99, 0.99, 0.99]} 中表现最佳的集合,“两个折扣”情况类似。




多巴胺神经元中的折扣特性



紧接着,研究团队在小鼠中进行了两类行为任务的电生理记录。其一是「气味延迟任务」(Cued Delay Task),每个气味线索对应不同的水奖励时延;其二是在虚拟现实线性跑道中,动物需在行进接近目标时获得奖励。

研究发现,位于腹侧被盖区(VTA)的多巴胺神经元对提示信号的瞬时响应幅度随预期奖励时延而异,且单个神经元的响应随时延衰减曲线服从指数模型而非超曲线模型,但在群体中呈现广泛的折扣因子分布——有神经元更偏向「近视」(高折扣率),有则偏向「长远」(低折扣率),形成多样性的折扣谱。这一特性不仅解释了为何整体行为表现出超曲线折扣,也为大脑如何同时编码多时尺度奖励预测误差提供了神经基础。

图 2. 多巴胺能神经元表现出多种折扣因子,使解码奖励延迟成为可能。a. 有提示延迟任务图示。b. 奖励发放前的预期舔舐行为。c. 四种试验类型的平均脉冲时序直方图。d. 两个单个神经元的示例提示反应拟合。e. 神经元群体的标准化提示反应。对于每个神经元,其反应被标准化为四种可能延迟中的最高反应。插图显示了每个神经元的推断折扣因子。f. 数据更符合指数模型而非双曲线模型。g. 神经元中推断折扣因子的分布(自助法的平均折扣因子)。h,归一化群体反应的形状与奖励延迟的关系。粗线表示平滑拟合,虚线表示理论值,点表示单个神经元。i,折扣矩阵。神经元的排序如图 d 所示。j,解码过程概述。k,未来奖励的主观预期时间可以从预测奖励延迟的提示的群体反应中解码出来。基于测试数据的提示平均反应的解码(上行;见方法)优于使用具有单一折扣因子的模型(群体平均折扣因子;下行;细线(浅阴影)表示单个自助样本的预测,粗线(浅阴影内的深阴影)表示自助样本的平均预测,单个深垂直线表示奖励时间;见方法;扩展数据图 4e)。l,每个多巴胺能神经元的 RPE 对一个独特的价值函数做出贡献的模型(见方法;扩展数据图 7f-k)。




渐进性攀升及其多时间尺度解释




在更自然的任务场景中,多巴胺信号往往表现为沿目标接近而平滑上升的“递进性攀升(Dopamine Ramping)”。此前对该现象的解释多聚焦于逐步累积的奖励预测误差或路径积分等,然而本研究指出,只需假定神经元共享一个“共同的价值函数”,并各自采用不同折扣因子,对该函数在时间上的导数进行指数折扣响应,就能再现多种攀升形态:有的神经元持续上升,有的先降后升,甚至有的下降趋势(图 3c)。换言之,攀升多样性可被视为多时间尺度编码与单一价值函数交互的解码结果,无需假设多个独立系统。

图 3. 不同多巴胺神经元的折扣因子多样性解释了不同的攀升表现。a. 实验装置。虚拟现实走廊在运动开始时的视图(左)。实验装置示意图(中、右)。b. 单个多巴胺能神经元(n = 90)的平均活动在奖励发放前轨道的最后几秒内呈上升趋势。c. 在接近奖励的最后阶段表现出不同上升活动的单个神经元示例,包括单调上升(深红色)、非单调(红色)和单调下降(浅红色)上升。d. 整个神经元群体中的单个神经元在递增活动方面表现出多样性的谱系。神经元根据从共同价值函数模型推断出的折扣因子进行排序(图 k)。e. 图 c 中所示单个神经元的示例模型拟合。f. 模型捕捉到了整个群体中递增活动的多样性。神经元的排序方式与图 d 相同,依据的是推断出的折扣因子。g、h. 指数价值函数的折扣因子与递增多样性之间的关系。i、j. 三次价值函数的折扣因子与递增多样性之间的关系。k. 推断出的价值函数。灰色细线表示每次自助抽样推断出的价值函数。蓝色粗线表示自助抽样的平均值。l. 推断出的折扣因子直方图。




跨任务相关的折扣因子稳定性



为探究折扣因子的稳定性与任务依赖性,研究者对同只小鼠的同一神经元,在两种任务中分别拟合折扣谱并进行相关性分析。结果表明,折扣参数在“气味延迟任务”与“虚拟现实任务”中高度一致(Spearman ρ≈0.9),并通过自举分析验证了其统计学的鲁棒性。这一发现既支持了单细胞折扣特性的固有性,也为未来在人工智能中引入“元学习折扣因子”或“状态依赖折扣”提供了神经回路层面的借鉴。

图 4.单个多巴胺能神经元的折现因子在不同的行为下是相关的。




结语与展望



本项研究通过严谨的计算仿真与电生理实验结合,提出并验证了“大脑或利用多时尺度价值表征,通过向量化预测误差实现灵活决策”的新范式。其核心在于,神经系统在单元层面采用多样化指数衰减编码未来奖励时序,再由下游电路或拉普拉斯逆变换等方式解码,以获得精准的奖励时机与大小信息,兼容超曲线折扣与递进性攀升等多种行为神经现象。该工作不仅深化了对多巴胺系统功能异质性的理解,也将激发人工智能领域在深度强化学习中发展更高效、更稳健的多时尺度算法,为在自然环境中面临更复杂时序不确定性的智能体决策提供新的思路。

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828


未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828 进入。



截止到3月31日 ”未来知识库”精选的百部前沿科技趋势报告

(加入未来知识库,全部资料免费阅读和下载)

  1. 牛津未来研究院 《将人工智能安全视为全球公共产品的影响、挑战与研究重点》
  2. 麦肯锡:超级智能机构:赋能人们释放人工智能的全部潜力
  3. AAAI 2025 关于人工智能研究未来研究报告
  4. 斯坦福:2025 斯坦福新兴技术评论:十项关键技术及其政策影响分析报告(191 页)
  5. 壳牌:2025 能源安全远景报告:能源与人工智能(57 页)
  6. 盖洛普 & 牛津幸福研究中心:2025 年世界幸福报告(260 页)
  7. Schwab :2025 未来共生:以集体社会创新破解重大社会挑战研究报告(36 页)
  8. IMD:2024 年全球数字竞争力排名报告:跨越数字鸿沟人才培养与数字法治是关键(214 页)
  9. DS 系列专题:DeepSeek 技术溯源及前沿探索,50 页 ppt
  10. 联合国人居署:2024 全球城市负责任人工智能评估报告:利用 AI 构建以人为本的智慧城市(86 页)
  11. TechUK:2025 全球复杂多变背景下的英国科技产业:战略韧性与增长路径研究报告(52 页)
  12. NAVEX Global:2024 年十大风险与合规趋势报告(42 页)
  13. 《具身物理交互在机器人 - 机器人及机器人 - 人协作中的应用》122 页
  14. 2025 - 2035 年人形机器人发展趋势报告 53 页
  15. Evaluate Pharma:2024 年全球生物制药行业展望报告:增长驱动力分析(29 页)
  16. 【AAAI2025 教程】基础模型与具身智能体的交汇,350 页 ppt
  17. Tracxn:2025 全球飞行汽车行业市场研究报告(45 页)
  18. 谷歌:2024 人工智能短跑选手(AI Sprinters):捕捉新兴市场 AI 经济机遇报告(39 页)
  19. 【斯坦福博士论文】构建类人化具身智能体:从人类行为中学习
  20. 《基于传感器的机器学习车辆分类》最新 170 页
  21. 美国安全与新兴技术中心:2025 CSET 对美国人工智能行动计划的建议(18 页)
  22. 罗兰贝格:2024 人形机器人的崛起:从科幻到现实:如何参与潜在变革研究报告(11 页)
  23. 兰德公司:2025 从研究到现实:NHS 的研究和创新是实现十年计划的关键报告(209 页)
  24. 康桥汇世(Cambridge Associates):2025 年全球经济展望报告(44 页)
  25. 国际能源署:2025 迈向核能新时代
  26. 麦肯锡:人工智能现状,组织如何重塑自身以获取价值
  27. 威立(Wiley):2025 全球科研人员人工智能研究报告(38 页)
  28. 牛津经济研究院:2025 TikTok 对美国就业的量化影响研究报告:470 万岗位(14 页)
  29. 国际能源署(IEA):能效 2024 研究报告(127 页)
  30. Workday :2025 发挥人类潜能:人工智能(AI)技能革命研究报告(20 页)
  31. CertiK:Hack3D:2024 年 Web3.0 安全报告(28 页)
  32. 世界经济论坛:工业制造中的前沿技术:人工智能代理的崛起》报告
  33. 迈向推理时代:大型语言模型的长链推理研究综述
  34. 波士顿咨询:2025 亚太地区生成式 AI 的崛起研究报告:从技术追赶者到全球领导者的跨越(15 页)
  35. 安联(Allianz):2025 新势力崛起:全球芯片战争与半导体产业格局重构研究报告(33 页)
  36. IMT:2025 具身智能(Embodied AI)概念、核心要素及未来进展:趋势与挑战研究报告(25 页)
  37. IEEE:2025 具身智能(Embodied AI)综述:从模拟器到研究任务的调查分析报告(15 页)
  38. CCAV:2025 当 AI 接管方向盘:自动驾驶场景下的人机交互认知重构、变革及对策研究报告(124 页)
  39. 《强化学习自我博弈方法在兵棋推演分析与开发中的应用》最新 132 页
  40. 《面向科学发现的智能体人工智能:进展、挑战与未来方向综述》
  41. 全国机器人标准化技术委员会:人形机器人标准化白皮书(2024 版)(96 页)
  42. 美国国家科学委员会(NSB):2024 年研究与发展 - 美国趋势及国际比较(51 页)
  43. 艾昆纬(IQVIA):2025 骨科手术机器人技术的崛起白皮书:创新及未来方向(17 页)
  44. NPL&Beauhurst:2025 英国量子产业洞察报告:私人和公共投资的作用(25 页)
  45. IEA PVPS:2024 光伏系统经济与技术关键绩效指标(KPI)使用最佳实践指南(65 页)
  46. AGI 智能时代:2025 让 DeepSeek 更有趣更有深度的思考研究分析报告(24 页)
  47. 2025 军事领域人工智能应用场景、国内外军事人工智能发展现状及未来趋势分析报告(37 页)
  48. 华为:2025 鸿蒙生态应用开发白皮书(133 页
  49. 《超级智能战略研究报告》
  50. 中美技术差距分析报告 2025
  51. 欧洲量子产业联盟(QuIC):2024 年全球量子技术专利态势分析白皮书(34 页)
  52. 美国能源部:2021 超级高铁技术(Hyperloop)对电网和交通能源的影响研究报告(60 页)
  53. 罗马大学:2025 超级高铁(Hyperloop):第五种新型交通方式 - 技术研发进展、优势及局限性研究报告(72 页)
  54. 兰德公司:2025 灾难性网络风险保险研究报告:市场趋势与政策选择(93 页)
  55. GTI:2024 先进感知技术白皮书(36 页)
  56. AAAI:2025 人工智能研究的未来报告:17 大关键议题(88 页)
  57. 安联 Allianz2025 新势力崛起全球芯片战争与半导体产业格局重构研究报告
  58. 威达信:2025 全球洪水风险研究报告:现状、趋势及应对措施(22 页)
  59. 兰德公司:迈向人工智能治理研究报告:2024EqualAI 峰会洞察及建议(19 页)
  60. 哈佛商业评论:2025 人工智能时代下的现代软件开发实践报告(12 页)
  61. 德安华:全球航空航天、国防及政府服务研究报告:2024 年回顾及 2025 年展望(27 页)
  62. 奥雅纳:2024 塑造超级高铁(Hyperloop)的未来:监管如何推动发展与创新研究报告(28 页)
  63. HSOAC:2025 美国新兴技术与风险评估报告:太空领域和关键基础设施(24 页)
  64. Dealroom:2025 欧洲经济与科技创新发展态势、挑战及策略研究报告(76 页)
  65. 《无人机辅助的天空地一体化网络:学习算法技术综述》
  66. 谷歌云(Google Cloud):2025 年 AI 商业趋势白皮书(49 页)
  67. 《新兴技术与风险分析:太空领域与关键基础设施》最新报告
  68. 150 页!《DeepSeek 大模型生态报告》
  69. 军事人工智能行业研究报告:技术奇点驱动应用加速智能化重塑现代战争形态 - 250309(40 页)
  70. 真格基金:2024 美国独角兽观察报告(56 页)
  71. 璞跃(Plug and Play):2025 未来商业研究报告:六大趋势分析(67 页)
  72. 国际电工委员会(IEC):2025 智能水电技术与市场展望报告(90 页)
  73. RWS:2025 智驭 AI 冲击波:人机协作的未来研究报告(39 页)
  74. 国际电工委员会(IEC):2025 智能水电技术与市场展望报告(90 页)
  75. RWS:2025 智驭 AI 冲击波:人机协作的未来研究报告(39 页)
  76. 未来今日研究所 2025 年科技趋势报告第 18 版 1000 页
  77. 模拟真实世界:多模态生成模型的统一综述
  78. 中国信息协会低空经济分会:低空经济发展报告(2024 - 2025)(117 页)
  79. 浙江大学:2025 语言解码双生花:人类经验与 AI 算法的镜像之旅(42 页)
  80. 人形机器人行业:由 “外” 到 “内” 智能革命 - 250306(51 页)
  81. 大成:2025 年全球人工智能趋势报告:关键法律问题(28 页)
  82. 北京大学:2025 年 DeepSeek 原理和落地应用报告(57 页)
  83. 欧盟委员会 人工智能与未来工作研究报告
  84. 加州大学伯克利分校:面向科学发现的多模态基础模型:在化学、材料和生物学中的应用
  85. 电子行业:从柔性传感到人形机器人触觉革命 - 250226(35 页)
  86. RT 轨道交通:2024 年中国城市轨道交通市场数据报告(188 页)
  87. FastMoss:2024 年度 TikTok 生态发展白皮书(122 页)
  88. Check Point:2025 年网络安全报告 - 主要威胁、新兴趋势和 CISO 建议(57 页)
  89. 【AAAI2025 教程】评估大型语言模型:挑战与方法,199 页 ppt
  90. 《21 世纪美国的主导地位:核聚变》最新报告
  91. 沃尔特基金会(Volta Foundation):2024 年全球电池行业年度报告(518 页)
  92. 斯坦福:2025 斯坦福新兴技术评论:十项关键技术及其政策影响分析报告(191 页)
  93. 国际科学理事会:2025 为人工智能做好国家研究生态系统的准备 - 2025 年战略与进展报告(英文版)(118 页)
  94. 光子盒:2025 全球量子计算产业发展展望报告(184 页)
  95. 奥纬论坛:2025 塑造未来的城市研究报告:全球 1500 个城市的商业吸引力指数排名(124 页)
  96. Future Matters:2024 新兴技术与经济韧性:日本未来发展路径前瞻报告(17 页)
  97. 《人类与人工智能协作的科学与艺术》284 页博士论文
  98. 《论多智能体决策的复杂性:从博弈学习到部分监控》115 页
  99. 《2025 年技术展望》56 页 slides
  100. 大语言模型在多智能体自动驾驶系统中的应用:近期进展综述
  101. 【牛津大学博士论文】不确定性量化与因果考量在非策略决策制定中的应用
  102. 皮尤研究中心:2024 美国民众对气候变化及应对政策的态度调研报告:气候政策对美国经济影响的多元观点审视(28 页)
  103. 空间计算行业深度:发展趋势、关键技术、行业应用及相关公司深度梳理 - 250224(33 页)
  104. Gartner:2025 网络安全中的 AI:明确战略方向研究报告(16 页)
  105. 北京大学:2025 年 DeepSeek 系列报告 - 提示词工程和落地场景(86 页)
  106. 北京大学:2025 年 DeepSeek 系列报告 - DeepSeek 与 AIGC 应用(99 页)
  107. CIC 工信安全:2024 全球人工智能立法的主要模式、各国实践及发展趋势研究报告(42 页)
  108. 中科闻歌:2025 年人工智能技术发展与应用探索报告(61 页)
  109. AGI 智能时代:2025 年 Grok - 3 大模型:技术突破与未来展望报告(28 页)


上下滑动查看更多

展开阅读全文

更新时间:2025-06-17

标签:科技   尺度   神经元   折扣   人工智能   因子   报告   未来   多巴胺   模型   时间

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号

Top