王巍巍
- 作品数:5 被引量:1H指数:1
- 供职机构:南京大学更多>>
- 发文基金:国家自然科学基金创新研究群体科学基金更多>>
- 相关领域:自动化与计算机技术理学更多>>
- 一种结合Tile Coding的平均奖赏强化学习算法
- 2008年
- 平均奖赏强化学习是强化学习中的一类重要的非折扣最优性框架,目前大多工作都主要是在离散域进行.本文尝试将平均奖赏强化学习算法和函数估计结合来解决连续状态空间的问题,并根据状态域的改变,相应修改 R-learning 和 G-learning 中参数的更新条件.此外对结合函数估计的 G-learning 算法的性能表现及其对各种参数的敏感程度进行针对性研究.最后给出实验结果及分析.实验结果证明 R-learning 和 G-learning 在ε较小的情况下解容易发散,同时也说明特征抽取方法 Tile coding 的有效性,且可作为其它特征抽取方法的参考标准.
- 王巍巍陈兴国高阳
- 关键词:平均奖赏
- 强化学习方法研究
- 本硕士论文中主要探讨了强化学习中的两个方法。一个是基于图模型的关系强化学习方法,另一个是结合核函数的函数估计方法。前者重点解决关系模型下先验规则的学习筛选。后者试图寻求自动的特征选择和学习来统一解决具有关系特征的问题和传...
- 王巍巍
- 关键词:图模型核方法
- 部分感知马氏决策过程的强化学习方法
- 强化学习是机器学习研究的重要方向之一,它可以通过和环境交互来学习马尔科夫决策过程(MDP)问题中的最优策略。部分感知马尔科夫决策过程(POMDP)模型引入了隐藏状态,是状态不确定情形下顺序任务的通用理论模型。本文介绍了以...
- 葛屾王巍巍高阳陈世福
- 关键词:人工智能
- 文献传递
- 预测状态表示综述被引量:1
- 2010年
- 预测状态表示(predictive state representations,PSR)是一种新型的动态系统模型,用动作-观察值序列的预测向量来表示系统的状态以及预测未来事件发生的概率。综述了预测状态表示的基本原理,对其建模算法进行比较,并概括其最新的应用拓展,最后指出其发展方向。
- 王历高阳王巍巍
- 预测状态表示综述
- Agent采取动作与动态系统交互,系统将观测值反馈给agent.为了控制系统或者预测系统未来的观测值,需要为动态系统建模.早些时候,较为广泛的解决方法是用POMDP模型给系统建模.Littman,Sutton和Singh...
- 王历高阳王巍巍
- 关键词:动态模型