您的位置: 专家智库 > >

杨旭东

作品数:5 被引量:8H指数:2
供职机构:苏州大学计算机科学与技术学院更多>>
发文基金:江苏省高校自然科学研究项目江苏省自然科学基金国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 4篇期刊文章
  • 1篇会议论文

领域

  • 5篇自动化与计算...

主题

  • 2篇多AGENT
  • 2篇强化学习方法
  • 2篇E3
  • 2篇并行采样
  • 2篇采样
  • 1篇调度
  • 1篇学习算法
  • 1篇智能调度
  • 1篇平均奖赏
  • 1篇强化学习算法
  • 1篇人工智能
  • 1篇可扩展
  • 1篇可扩展性
  • 1篇扩展性
  • 1篇ROBOCU...
  • 1篇并行计算

机构

  • 5篇苏州大学
  • 3篇南京大学
  • 3篇吉林大学

作者

  • 5篇杨旭东
  • 5篇刘全
  • 3篇李瑾
  • 2篇荆玲
  • 1篇翁东良
  • 1篇李娇
  • 1篇杨凯
  • 1篇肖飞
  • 1篇傅启明

传媒

  • 2篇苏州大学学报...
  • 1篇计算机研究与...
  • 1篇吉林大学学报...
  • 1篇第四届中国A...

年份

  • 2篇2013
  • 3篇2012
5 条 记 录,以下是 1-5
排序方式:
一种基于资格迹的并行强化学习算法被引量:1
2012年
强化学习是一种重要的机器学习方法,然而在实际应用中,收敛速度缓慢是其主要不足之一.为了提高强化学习的效率,提出了一种基于资格迹的并行强化学习算法,并给出了算法实现的框架模型和一些可行的优化方法.由于使用资格迹的算法具有内在的并行性,可以使用多个计算结点分摊值函数表和资格迹表的更新工作,从而实现提高整个系统学习效率的目的.实验结果表明该方法与当前两种主要的并行强化学习算法相比具有一定的优势.
杨旭东刘全李瑾
基于多Agent并行采样和学习经验复用的E3算法
在强化学习领域,E3 (Explicit Explore or Exploit)算法是第一个获得理论证明的解决一般马尔科夫决策过程(MDP)问题的高效率近似最优算法。针对E3 算法所需的收敛时间界限太大,在实际问题中难以...
刘全杨旭东荆玲肖飞
关键词:E3多AGENT并行采样
文献传递
基于多Agent并行采样和学习经验复用的E^3算法被引量:2
2013年
针对E3算法所需的收敛时间界限太大,在实际问题中难以有效应用的问题,提出了一种基于多Agent并行采样和学习经验复用的改进算法。该算法在探索阶段,通过多Agent并行采样,快速收集模型信息,加速了模型构建过程;在利用阶段,通过保留最优值函数的方式复用算法的学习经验,提高了算法迭代计算值函数的效率。仿真实验结果表明,所提方法与原始的E3算法相比,在收敛速度和精度方面都具有很大的提高,与其他两种并行强化学习方法相比也具有很大的性能优势。
刘全杨旭东荆玲肖飞
关键词:人工智能多AGENT并行采样
一种基于智能调度的可扩展并行强化学习方法被引量:3
2013年
针对强化学习在大状态空间或连续状态空间中存在的"维数灾"问题,提出一种基于智能调度的可扩展并行强化学习方法——IS-SRL,并从理论上进行分析,证明其收敛性.该方法采用分而治之策略对大状态空间进行分块,使得每个分块能够调入内存独立学习.在每个分块学习了一个周期之后交换到外存上,调入下一个分块继续学习.分块之间在换入换出的过程中交换信息,以使整个学习任务收敛到最优解.同时针对各分块之间的学习顺序会显著影响学习效率的问题,提出了一种新颖的智能调度算法,该算法利用强化学习值函数更新顺序的分布特点,基于多种调度策略加权优先级的思想,把学习集中在能产生最大效益的子问题空间,保障了IS-SRL方法的学习效率.在上述调度算法中融入并行调度框架,利用多Agent同时学习,得到了IS-SRL方法的并行版本——IS-SPRL方法.实验结果表明,IS-SPRL方法具有较快的收敛速度和较好的扩展性能.
刘全傅启明杨旭东荆玲李瑾李娇
关键词:并行计算可扩展性智能调度
一种改进的平均奖赏强化学习方法在RoboCup训练中的应用被引量:2
2012年
强化学习在人工智能领域中是一种重要的解决学习控制问题的方法.在强化学习中,平均奖赏类型的强化学习方法适用于解决具有循环特性或者不具有终结状态的问题,然而平均奖赏强化学习存在收敛速度慢、对参数和环境敏感等问题.针对平均奖赏强化学习收敛速度缓慢这一问题,提出了一种改进的平均奖赏强化学习方法.同时,为了处理大状态空间、提高泛化能力,算法采用神经网络作为近似函数.算法在RoboCup中实验的训练表明该算法具有较快的收敛速度和较强的泛化能力.
李瑾刘全杨旭东杨凯翁东良
关键词:平均奖赏ROBOCUP
共1页<1>
聚类工具0