碧波液压网 欢迎你,游客。 登录 注册

基于梯度奖励的深度强化学习移动机器人路径规划

版权信息:站内文章仅供学习与参考,如触及到您的版权信息,请与本站联系。

信息

资料大小
5.23 MB
文件类型
PDF
语言
简体中文
资料等级
☆☆☆☆☆
下载次数

简介

针对目前深度强化学习移动机器人路径规划中稀疏奖励导致的效率低、收敛慢等问题,提出一种梯度奖励政策。使用区域分割将环境分割为缓冲区、探索区、临近区以及目标区,奖励的动态变化可以逐步缩小机器人的探索范围,同时在安全区域内也能获得正向奖励。首先输入机器人当前的位置坐标,经过神经网络后估计4个动作的Q值,随后通过去首动态贪婪策略达到最大化探索,最后采用基于均方误差的优先经验回放抽取样本进行梯度下降更新网络。实验结果表明:在小范围环境内探索效率可提升近40%,在大范围环境下成功率高于80%,而且在提高探索效率的同时增强了鲁棒性。
标签: 机器人
点赞   收藏

相关论文

发表评论

请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。

用户名: 验证码:

最新评论