Google地图更新反向强化学习算法,路线建议结果改善可达24%

Google研究院、Google地图和DeepMind各单位多年合作,通过重新查看Google地图路线规划所使用的经典算法反向强化学习(Inverse Reinforcement Learning,IRL),提出了一种新的IRL算法称为RHIP(Receding Horizon Inverse Planning),改善路线建议结果达16%到24%。

Google地图的路线建议是用户常用的功能,可考量各种因素,规划从地点A到地点B的最佳路线,这些因素包含抵达时间、通行费、路况和用户偏好等。Google运用反向强化学习来学习路线建议,通过给定用于表达道路网络的马可夫决策过程(MDP)和一组展示轨迹,反向强化学习可计算出用户的潜在奖励函数。

简单来说,反向强化学习可以从观察到的连续决策行为学习偏好,当有一组用户已经走过的路线,反向强化学习就能找出驱动用户在选择这些路线时心中的奖励。

虽然Google在过去的研究,已经创建了许多通用的反向强化学习解决方案,但是这些应用很难扩展应用到世界规模。原因是扩展反向强化学习并不容易,每次更新的时候,都需要解决一个强化学习的子程序,因此每一次更新都要进行复杂的运算,如此便会增加更新的复杂性和所需时间。要计算全世界的道路网络,需要耗费极大的计算资源,因此在实际应用上并不切实际。

为了解决这个问题,Google进一步研究突破既有限制扩展反向强化学习,发展了一种称为RHIP的方法,研究人员提到,他们实现了目前实际应用中最大的IRL实例。

研究人员从人们做计划的方式获得启发,像是人们会问“接下来1小时要做什么?”或是“5年后的生活会是什么样子”。人们在计划和决策时,通常会考虑未来一段时间范围,但随着时间的推进,表示最远时间范围的线也会跟着移动,也就是说人们通常不会一次考虑非常遥远的未来,而是把注意力集中在近期规划,并在过程中通过观察持续调整未来方向。

RHIP的核心概念便是在靠近当前的位置,或是已知路径的地方,使用详细的策略来确定路线,但在较远的地方,则选择更简单且节省计算资源的策略,综合远近规划策略,达到高效且准确的路网导航。

相较于精心调整的基准,RHIP策略使汽车与机踏车的全球路线相符比例,分别提高15.9%和24.1%。而所谓的全球路线相符比例,指得是用户实际行驶的路线,符合Google地图所建议路线的百分比。RHIP的执行速度更快,结果也更准确,相较传统IRL存在难以扩展的问题,RHIP使Google能够在有超大量状态、示范轨迹和模型参数上训练奖励模型。

展开阅读全文

页面更新:2024-02-10

标签:算法   路线   建议   地图   研究人员   轨迹   策略   未来   时间   用户

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top