高龙
- 作品数:4 被引量:13H指数:2
- 供职机构:苏州大学计算机科学与技术学院更多>>
- 发文基金:江苏省高校自然科学研究项目江苏省自然科学基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种二阶TD Error快速Q(λ)算法被引量:5
- 2013年
- Q(λ)学习算法是一种结合值迭代与随机逼近的思想的基于模型无关的多步离策略强化学习算法.针对经典的Q(λ)学习算法执行效率低、收敛速度慢的问题,从TD Error的角度出发,给出n阶TD Error的概念,并将n阶TD Error用于经典的Q(λ)学习算法,提出一种二阶TD Error快速Q(λ)学习算法——SOE-FQ(λ)算法.该算法利用二阶TD Error修正Q值函数,并通过资格迹将TD Error传播至整个状态动作空间,加快算法的收敛速度.在此基础之上,分析算法的收敛性及收敛效率,在仅考虑一步更新的情况下,算法所要执行的迭代次数T主要指数依赖于1/1-γ、1/ε.将SOE-FQ(λ)算法用于Random Walk和Mountain Car问题,实验结果表明,算法具有较快的收敛速度和较好的收敛精度.
- 傅启明刘全孙洪坤高龙李瑾王辉
- 关键词:ERROR
- 基于自适应势函数塑造奖赏机制的梯度下降Sarsa(λ)算法被引量:6
- 2013年
- 针对连续状态空间下的强化学习算法初始性能差及收敛速度慢的问题,提出利用自适应势函数塑造奖赏机制来改进强化学习算法。该机制通过额外的奖赏信号自适应地将模型知识传递给学习器,可以有效提高算法的初始性能及收敛速度。鉴于径向基函数(RBF)网络的优良性能及存在的问题,提出利用自适应归一化RBF(ANRBF)网络作为势函数来塑造奖赏。基于ANRBF网络提出了梯度下降(GD)版的强化学习算法——ANRBF-GD-Sarsa(λ)。从理论上分析了ANRBF-GD-Sarsa(λ)算法的收敛性,并通过实验验证了ANRBF-GD-Sarsa(λ)算法具有较好的初始性能及收敛速度。
- 肖飞刘全傅启明孙洪坤高龙
- 关键词:梯度下降势函数
- 一种优先级扫描的Dyna结构优化算法被引量:2
- 2013年
- 不确定环境的时序决策问题是强化学习研究的主要内容之一,agent的目标是最大化其与环境交互过程中获得的累计奖赏值.直接学习方法寻找最优策略的算法收敛效率较差,而采用Dyna结构将学习与规划并行集成,可提高算法的收敛效率.为了进一步提高传统Dyna结构的收敛速度和收敛精度,提出了Dyna-PS算法,并在理论上证明了其收敛性.该算法在Dyna结构规划部分使用优先级扫描算法的思想,对优先级函数值高的状态优先更新,剔除了传统值迭代、策略迭代过程中不相关和无更新意义的状态更新,提升了规划的收敛效率,从而进一步提升了Dyna结构算法的性能.将此算法应用于一系列经典规划问题,实验结果表明,Dyna-PS算法有更快的收敛速度和更高的收敛精度,且对于状态空间的增长具有较强的鲁棒性.
- 孙洪坤刘全傅启明肖飞高龙
- 基于tableau结点封闭值的非一致性数据库开放分支修复方法
- 2013年
- 在将tableau方法扩展到非一致性数据库修复的基础上,提出一种新的利用分支封闭值修复数据库的方法。该方法结合tableau分析法的开放和封闭推理标准,以开放公式树TP(IC∪r)分支为基础,为公式树TP(IC∪r)中每个结点引入一个结点封闭值。根据TP(IC∪r)中结点封闭值的定义,通过计算TP(IC∪r)的结点封闭值来选择分支进行开放修复,从而可以直接确定数据库的修复实例,同时考虑了含有I封闭的修复,将开放修复扩展到含有I封闭的TP(IC∪r),并给予逻辑证明。最后,对于一致性应答结果的逻辑特征予以证明。
- 高龙刘全傅启明李娇
- 关键词:TABLEAU非一致性数据库