公共文化服务平台

2024年11月20日星期三

|

欢迎来到营口市图书馆•公共文化服务平台

登录 | 注册 | 进入后台

[APP下载]

[APP下载]

扫一扫,既下载

全民阅读
职业技能
专家智库
参考咨询

您的位置： 专家智库 > >

王巍巍: 作品数：5 被引量：1H指数：1; 供职机构：南京大学更多>>; 发文基金：国家自然科学基金创新研究群体科学基金更多>>; 相关领域：自动化与计算机技术理学更多>>

合作作者

高阳南京大学计算机科学与技术系计算...
王历南京大学计算机科学与技术系计算...
陈兴国南京大学计算机科学与技术系计算...
葛屾南京大学
陈世福南京大学

作品列表
供职机构
相关作者
所获基金
研究领域

文献类型

2篇期刊文章
2篇会议论文
1篇学位论文

领域

4篇自动化与计算...
1篇理学

主题

1篇动态模型
1篇学习算法
1篇图模型
1篇平均奖赏
1篇强化学习方法
1篇强化学习算法
1篇人工智能
1篇马尔可夫
1篇马尔可夫决策...
1篇马氏决策过程
1篇核方法
1篇TEST
1篇TILE
1篇CODING
1篇MDP

机构

5篇南京大学

作者

5篇王巍巍
4篇高阳
2篇王历
1篇陈世福
1篇葛屾
1篇陈兴国

传媒

1篇模式识别与人...
1篇山东大学学报...
1篇中国人工智能...

年份

2篇2010
1篇2009
1篇2008
1篇2007

共 5 条记录，以下是 1-5

全选清除导出

排序方式：

一种结合Tile Coding的平均奖赏强化学习算法: 2008年; 平均奖赏强化学习是强化学习中的一类重要的非折扣最优性框架,目前大多工作都主要是在离散域进行.本文尝试将平均奖赏强化学习算法和函数估计结合来解决连续状态空间的问题,并根据状态域的改变,相应修改 R-learning 和 G-learning 中参数的更新条件.此外对结合函数估计的 G-learning 算法的性能表现及其对各种参数的敏感程度进行针对性研究.最后给出实验结果及分析.实验结果证明 R-learning 和 G-learning 在ε较小的情况下解容易发散,同时也说明特征抽取方法 Tile coding 的有效性,且可作为其它特征抽取方法的参考标准.; 王巍巍陈兴国高阳; 关键词：平均奖赏

强化学习方法研究: 本硕士论文中主要探讨了强化学习中的两个方法。一个是基于图模型的关系强化学习方法，另一个是结合核函数的函数估计方法。前者重点解决关系模型下先验规则的学习筛选。后者试图寻求自动的特征选择和学习来统一解决具有关系特征的问题和传...; 王巍巍; 关键词：图模型核方法

部分感知马氏决策过程的强化学习方法: 强化学习是机器学习研究的重要方向之一,它可以通过和环境交互来学习马尔科夫决策过程(MDP)问题中的最优策略。部分感知马尔科夫决策过程(POMDP)模型引入了隐藏状态,是状态不确定情形下顺序任务的通用理论模型。本文介绍了以...; 葛屾王巍巍高阳陈世福; 关键词：人工智能; 文献传递

预测状态表示综述被引量：1: 2010年; 预测状态表示(predictive state representations,PSR)是一种新型的动态系统模型,用动作-观察值序列的预测向量来表示系统的状态以及预测未来事件发生的概率。综述了预测状态表示的基本原理,对其建模算法进行比较,并概括其最新的应用拓展,最后指出其发展方向。; 王历高阳王巍巍

预测状态表示综述: Agent采取动作与动态系统交互,系统将观测值反馈给agent.为了控制系统或者预测系统未来的观测值,需要为动态系统建模.早些时候,较为广泛的解决方法是用POMDP模型给系统建模.Littman,Sutton和Singh...; 王历高阳王巍巍; 关键词：动态模型

全选清除导出

共1页<1>

执行隐藏清空

网站首页| 关于我们| 联系我们| 产品服务| 客服中心| 版权声明

版权所有@营口市图书馆 2015－2016 客户热线：400-638-5550

渝B2-20050021-1　渝公网安备 50019002500403号　违法和不良信息举报中心　互联网出版许可证　新出网证(渝)字10号

用户登录

用户反馈

标题：

*标题长度不超过50

邮箱：

*

反馈意见：

反馈意见字数长度不超过255

验证码：

看不清楚？点击换一张