分阶Dyna强化学习算法
1 引言
强化学习是一种重要的机器学习方法,是指在与环境的不断交互过程中,通过试错法( trail and error)学习从环境状态到动作的映射关系,使得到的长期累计奖励值最大[1, 10]。目前,强化学习方法已被广泛应用于智能控制、机器人及其它领域。
如何充分利用已有知识是强化学习领域所研究的主要问题之一。Sutton提出一种Dyna强化学习体系结构[2],在传统强化学习中引入规划过程,通过建立环境模型来存储经验知识,并产生假设经验作为学习资源。该方法充分利用了经验知识,提高了传统强化学习方法的学习效率。一般把传统的强化学习称为直接学习或无模型学习,规划称为间接学习或有模型学习[3]。
在Dyna体系结构下,文献[4]和[5]分别结合Q-学习算法[4]和Actor-Critic算法[5],形成Dyna-Q和Dyna-AC算法。此后,又有很多研究学者对Dyna-Q算法进行改进和扩展[6, 7, 8, 9],并研究了其在实际系统中的应用[8]。现有的Dyna强化学习算法都只是将传统强化学习过程和规划过程进行独立设计,没有考虑如何通过计算资源在二者之间的合理分配,充分融合直接学习和间接学习方法的优点,更进一步提高学习速度和效率。
本文首先提出一种分阶Dyna体系结构:根据学习系统所积累的经验知识随时间变化而变化的特点,将学习过程划分为探索、变比重学习和优化三个阶段,分别进行传统强化学习和规划过程的协调控制设计。针对环境的动态不确定性,研究了分阶Dyna-Q学习算法中的两个主要内容:“直接学习”中的更新算法和“间接学习”中的搜索控制机制。
2 分阶Dyna强化学习体系结构
2. 1 基本Dyna强化学习体系结构
基本Dyna体系结构集学习、规划和反应式动作执行于一体,三者之间的关系如图1所示。
2. 2 分阶Dyna强化学习体系结构
“规划”是否有益取决于环境模型精确与否,显然环境模型会随着学习由粗到精而变化,因此,基本Dyna体系结构中“学习”和“规划”的统一组合方式贯穿始终是不合理的,导致了计算资源的严重浪费。本文提出分阶Dyna强化学习体系结构,根据经验知识的变化特征,将学习过程划分为探索、变比重学习和价值函数的优化三个阶段,分别进行“学习”和“规划”的协调控制,以进一步提高二者相结合的学习性能。
1)第一阶段:探索阶段
在学习过程的初始阶段,环境模型与价值函数较粗糙,严重依赖于模型精确度的“规划”显然不适于学习过程的早期阶段,而价值函数对应的动作策略π: s→a也是不可行的。为了学习正确的环境模型和最优的价值函数,首先需要充分探索未知空间,得到具有多样性的真实经验样本,称之为探索阶段,计算资源集中于“学习”(如图2所示)。此阶段的动作策略是依较大的概率εL(0≤εL≤1)随机选择可执行动作,和概率(1-εL)选择当前映射关系π对应的动作。
相关文章
- 2023-07-28基于Ad-Hoc网络的无线视频监控网络路由算法研究
- 2021-11-13基于TRF7960的多协议射频读卡器设计
- 2023-08-02相位式光电测距仪的信号源系统设计
- 2022-10-06基于PLC和组态王的油库无人监控系统
- 2022-01-04基于Zigbee技术的室内照明系统设计研究
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。