分阶Dyna强化学习算法

作者：赵昀陈庆伟胡维礼来源：计算机仿真日期： 2022-06-13 人气：

版权信息：站内文章仅供学习与参考，如触及到您的版权信息，请与本站联系。

　　1　引言

　　强化学习是一种重要的机器学习方法,是指在与环境的不断交互过程中,通过试错法( trail and error)学习从环境状态到动作的映射关系,使得到的长期累计奖励值最大[1, 10]。目前,强化学习方法已被广泛应用于智能控制、机器人及其它领域。

　　如何充分利用已有知识是强化学习领域所研究的主要问题之一。Sutton提出一种Dyna强化学习体系结构[2],在传统强化学习中引入规划过程,通过建立环境模型来存储经验知识,并产生假设经验作为学习资源。该方法充分利用了经验知识,提高了传统强化学习方法的学习效率。一般把传统的强化学习称为直接学习或无模型学习,规划称为间接学习或有模型学习[3]。

　　在Dyna体系结构下,文献[4]和[5]分别结合Q-学习算法[4]和Actor-Critic算法[5],形成Dyna-Q和Dyna-AC算法。此后,又有很多研究学者对Dyna-Q算法进行改进和扩展[6, 7, 8, 9],并研究了其在实际系统中的应用[8]。现有的Dyna强化学习算法都只是将传统强化学习过程和规划过程进行独立设计,没有考虑如何通过计算资源在二者之间的合理分配,充分融合直接学习和间接学习方法的优点,更进一步提高学习速度和效率。

　　本文首先提出一种分阶Dyna体系结构:根据学习系统所积累的经验知识随时间变化而变化的特点,将学习过程划分为探索、变比重学习和优化三个阶段,分别进行传统强化学习和规划过程的协调控制设计。针对环境的动态不确定性,研究了分阶Dyna-Q学习算法中的两个主要内容:“直接学习”中的更新算法和“间接学习”中的搜索控制机制。

　　2　分阶Dyna强化学习体系结构

　　2. 1　基本Dyna强化学习体系结构

　　基本Dyna体系结构集学习、规划和反应式动作执行于一体,三者之间的关系如图1所示。

　　2. 2　分阶Dyna强化学习体系结构

　　“规划”是否有益取决于环境模型精确与否,显然环境模型会随着学习由粗到精而变化,因此,基本Dyna体系结构中“学习”和“规划”的统一组合方式贯穿始终是不合理的,导致了计算资源的严重浪费。本文提出分阶Dyna强化学习体系结构,根据经验知识的变化特征,将学习过程划分为探索、变比重学习和价值函数的优化三个阶段,分别进行“学习”和“规划”的协调控制,以进一步提高二者相结合的学习性能。

　　1)第一阶段:探索阶段

　　在学习过程的初始阶段,环境模型与价值函数较粗糙,严重依赖于模型精确度的“规划”显然不适于学习过程的早期阶段,而价值函数对应的动作策略π: s→a也是不可行的。为了学习正确的环境模型和最优的价值函数,首先需要充分探索未知空间,得到具有多样性的真实经验样本,称之为探索阶段,计算资源集中于“学习”(如图2所示)。此阶段的动作策略是依较大的概率εL(0≤εL≤1)随机选择可执行动作,和概率(1-εL)选择当前映射关系π对应的动作。

你没有登陆，无法阅读全文内容

您需要登录才可以查看，没有帐号？立即注册

标签：

点赞收藏

发表评论

请自觉遵守互联网相关的政策法规，严禁发布色情、暴力、反动的言论。

分阶Dyna强化学习算法

你没有登陆，无法阅读全文内容

相关文章

发表评论

最新评论