Google地图更新反向强化学习算法，路线建议结果改善可达24%

Google研究院、Google地图和DeepMind各单位多年合作，通过重新查看Google地图路线规划所使用的经典算法反向强化学习（Inverse Reinforcement Learning，IRL），提出了一种新的IRL算法称为RHIP（Receding Horizon Inverse Planning），改善路线建议结果达16%到24%。

Google地图的路线建议是用户常用的功能，可考量各种因素，规划从地点A到地点B的最佳路线，这些因素包含抵达时间、通行费、路况和用户偏好等。Google运用反向强化学习来学习路线建议，通过给定用于表达道路网络的马可夫决策过程（MDP）和一组展示轨迹，反向强化学习可计算出用户的潜在奖励函数。

简单来说，反向强化学习可以从观察到的连续决策行为学习偏好，当有一组用户已经走过的路线，反向强化学习就能找出驱动用户在选择这些路线时心中的奖励。

虽然Google在过去的研究，已经创建了许多通用的反向强化学习解决方案，但是这些应用很难扩展应用到世界规模。原因是扩展反向强化学习并不容易，每次更新的时候，都需要解决一个强化学习的子程序，因此每一次更新都要进行复杂的运算，如此便会增加更新的复杂性和所需时间。要计算全世界的道路网络，需要耗费极大的计算资源，因此在实际应用上并不切实际。

为了解决这个问题，Google进一步研究突破既有限制扩展反向强化学习，发展了一种称为RHIP的方法，研究人员提到，他们实现了目前实际应用中最大的IRL实例。

研究人员从人们做计划的方式获得启发，像是人们会问“接下来1小时要做什么？”或是“5年后的生活会是什么样子”。人们在计划和决策时，通常会考虑未来一段时间范围，但随着时间的推进，表示最远时间范围的线也会跟着移动，也就是说人们通常不会一次考虑非常遥远的未来，而是把注意力集中在近期规划，并在过程中通过观察持续调整未来方向。

RHIP的核心概念便是在靠近当前的位置，或是已知路径的地方，使用详细的策略来确定路线，但在较远的地方，则选择更简单且节省计算资源的策略，综合远近规划策略，达到高效且准确的路网导航。

相较于精心调整的基准，RHIP策略使汽车与机踏车的全球路线相符比例，分别提高15.9%和24.1%。而所谓的全球路线相符比例，指得是用户实际行驶的路线，符合Google地图所建议路线的百分比。RHIP的执行速度更快，结果也更准确，相较传统IRL存在难以扩展的问题，RHIP使Google能够在有超大量状态、示范轨迹和模型参数上训练奖励模型。

展开阅读全文

页面更新：2024-02-10

标签：算法路线建议地图研究人员轨迹策略未来时间用户

1 2 3 4 5

Google地图更新反向强化学习算法，路线建议结果改善可达24%

嵌入式Python概述（一）

字节P8大佬爆肝整理，一文带你梳理React面试题！

SQL - 掌握运用数据库中常用的函数 155

“编码20年，现在的我想放弃GitHub！”

杨丞琳世界巡回演唱会苏州站，身穿苏州场限定皮肤，很是用心

杨帆老婆意外被狗咬到手，凌晨紧急去医院打疫苗，杨帆心疼落泪

和周润发相恋五年的她：63岁含泪公开多年未婚育有三子

49岁吴越是人生的赢家，自己事业有成，男友还阳光帅气

把54岁陈红和56岁徐帆放在一起看，我才彻底明白，什么叫顶级皮相

“年年离婚、岁岁破产”，倒霉透顶的刘涛，最该怨的还是自己

李连杰晒妻子近照，62岁利智衰老似老奶奶，反观前妻状态依然优雅

汪峰章子怡的瓜，有点大...

55岁小品演员儿子结婚，群星云集全是大腕，儿媳妇肤白貌美颜值高

周润发高调宣布裸捐56亿！面对记者避而不谈，表示：再等等

刘德华庆62岁生日！半个香港娱乐圈到场庆贺，分享上百张妻女照片

Starlink星链卫星飞来飞去，是怎么让用户连上的？

如何在短时间内完成MongoDB差异数据对比

《计算万物·湘约未来-计算产业新变革》：长沙“软硬兼

航空工业：2022年我国通航飞行时间超120万小时

未来已来？多款新型飞行器首次亮相天津国际直升机博览会

中国乐高乐园度假区“牵手”腾讯，共创家庭游乐数字化未

北京时间11月2日晚上：跳水队传来陈芋汐的最新消息！

北京时间11月6日下午，中国篮协传来李梦生涯的最新消息！

北京时间11月6号上午，乒乓球许昕传来最新消息！

未来已来？多款新型飞行器首次亮相天津国际直升机博览会