2025年1月29日
星期三
|
欢迎来到营口市图书馆•公共文化服务平台
登录
|
注册
|
进入后台
[
APP下载]
[
APP下载]
扫一扫,既下载
全民阅读
职业技能
专家智库
参考咨询
您的位置:
专家智库
>
>
陈仕超
作品数:
2
被引量:1
H指数:1
供职机构:
苏州大学计算机科学与技术学院
更多>>
发文基金:
教育部重点实验室开放基金
江苏省高校自然科学研究项目
江苏省自然科学基金
更多>>
相关领域:
自动化与计算机技术
更多>>
合作作者
刘全
苏州大学计算机科学与技术学院
伏玉琛
苏州大学计算机科学与技术学院
陈桂兴
苏州大学计算机科学与技术学院
凌兴宏
苏州大学计算机科学与技术学院
作品列表
供职机构
相关作者
所获基金
研究领域
题名
作者
机构
关键词
文摘
任意字段
作者
题名
机构
关键词
文摘
任意字段
在结果中检索
文献类型
1篇
期刊文章
1篇
学位论文
领域
2篇
自动化与计算...
主题
2篇
行动者
2篇
评论家
2篇
高斯
2篇
高斯过程
2篇
贝叶斯
1篇
人工智能
1篇
贝叶斯理论
1篇
贝叶斯推理
机构
2篇
苏州大学
1篇
吉林大学
作者
2篇
陈仕超
1篇
凌兴宏
1篇
陈桂兴
1篇
伏玉琛
1篇
刘全
传媒
1篇
计算机应用研...
年份
1篇
2016
1篇
2015
共
2
条 记 录,以下是 1-2
全选
清除
导出
排序方式:
相关度排序
被引量排序
时效排序
一种基于高斯过程的行动者评论家算法
被引量:1
2016年
强化学习领域的一个研究难点是在大规模或连续空间中平衡探索和利用的问题。针对该问题,应用函数近似与高斯过程方法,提出新的行动者评论家(actor-critic,AC)算法。该算法在actor中使用时间差分误差构造关于策略参数的更新公式;在critic中利用高斯过程对线性带参值函数建模,结合生成模型,根据贝叶斯推理求解值函数的后验分布。将该算法应用于平衡杆实验中,实验结果表明,算法收敛速度较快,可以有效解决在大规模或连续空间中探索和利用的平衡问题,具有较好的性能。
陈仕超
凌兴宏
刘全
伏玉琛
陈桂兴
关键词:
高斯过程
贝叶斯推理
基于贝叶斯理论的行动者评论家算法研究
强化学习作为一种重要的机器学习方法,其两个特征是模型无关性和在线学习性。智能体通过与环境交互,利用环境反馈的信息,即奖赏来调整和改善自己的行为,最终获得最优策略。强化学习领域的一个研究难点是如何在大规模或连续空间中平衡探...
陈仕超
关键词:
人工智能
高斯过程
文献传递
全选
清除
导出
共1页
<
1
>
聚类工具
0
执行
隐藏
清空
用户登录
用户反馈
标题:
*标题长度不超过50
邮箱:
*
反馈意见:
反馈意见字数长度不超过255
验证码:
看不清楚?点击换一张