国家自然科学基金(60475026)
- 作品数:11 被引量:90H指数:5
- 相关作者:高阳王本年陈兆乾陈世福王皓更多>>
- 相关机构:南京大学北京科技大学香港大学更多>>
- 发文基金:国家自然科学基金江苏省自然科学基金国家杰出青年科学基金更多>>
- 相关领域:自动化与计算机技术经济管理更多>>
- RLGA:一种基于强化学习机制的遗传算法被引量:10
- 2006年
- 分析了强化学习与遗传算法工作机制,在提出基因空间分割概念的基础上,提出了一种将强化学习与遗传算法内在结合起来的算法RLGA,在遗传算法的框架下实现强化学习机制.从理论上分析了RLGA的收敛性,讨论了RLGA的时间和空间效率及其与基因空间分割的关系,通过实验分析了RLGA中基因空间分割的指导范围.实验结果表明,RLGA具有良好的全局收敛性能.
- 王本年高阳陈兆乾谢俊元陈世福
- 关键词:遗传算法收敛性
- 平均奖赏强化学习算法研究被引量:40
- 2007年
- 顺序决策问题常用马尔可夫决策过程(MDP)建模.当决策行为执行从时刻点扩展到连续时间上时,经典的马尔可夫决策过程模型也扩展到半马尔可夫决策过程模型(SMDP).当系统参数未知时,强化学习技术被用来学习最优策略.文中基于性能势理论,证明了平均奖赏强化学习的逼近定理.通过逼近相对参考状态的性能势值函数,研究一个新的平均奖赏强化学习算法——G-学习算法.G-学习算法既可以用于MDP,也可以用于SMDP.不同于经典的R-学习算法,G-学习算法采用相对参考状态的性能势值函数替代相对平均奖赏和的相对值函数.在顾客访问控制和生产库存仿真实验中,G-学习算法表现出优于R-学习算法和SMART算法的性能.
- 高阳周如益王皓曹志新
- 关键词:性能势马尔可夫决策过程半马尔可夫决策过程
- 基于结果修剪法解决文本分类中属性重叠问题
- 2006年
- 在文本分类中,当两个多属性类别发生属性重叠时,采用传统的文本分类算法m acro F1值仅为45%左右.为了提高文本分类算法的m acro F1值,提出了基于结果修剪的方法.在该方法中,分类器由多个子分类器组成.每个子分类器对应于类别中的一个属性;在每一个阶段中,每一个子分类器将不属于该属性的文本剔出.当所有子分类器运行结束后,留下的文本即属于该分类的文本.实验数据表明,基于结果修剪的文本分类方法在解决属性重叠问题时能够将m acro F1值提高到65%左右.
- 李敏沈翔邵栋高阳
- 关键词:文本分类文本挖掘多属性
- 贝叶斯学习与强化学习结合技术的研究被引量:3
- 2006年
- 强化学习的研究需要解决的重要难点之一是:探索未知的动作和采用已知的最优动作之间的平衡。贝叶斯学习是一种基于已知的概率分布和观察到的数据进行推理,做出最优决策的概率手段。因此,把强化学习和贝叶斯学习相结合,使 Agent 可以根据已有的经验和新学到的知识来选择采用何种策略:探索未知的动作还是采用已知的最优动作。本文分别介绍了单 Agent 贝叶斯强化学习方法和多 Agent 贝叶斯强化学习方法:单 Agent 贝叶斯强化学习包括贝叶斯 Q 学习、贝叶斯模型学习以及贝叶斯动态规划等;多 Agent 贝叶斯强化学习包括贝叶斯模仿模型、贝叶斯协同方法以及在不确定下联合形成的贝叶斯学习等。最后,提出了贝叶斯在强化学习中进一步需要解决的问题。
- 陈飞王本年高阳陈兆乾陈世福
- 关键词:贝叶斯学习多AGENT
- 基于子空间聚类的供应商分类方法研究被引量:6
- 2007年
- 根据动态交易行为对供应商分类,更好地为供应商提供服务,是大型企业供应商关系管理的核心问题之一。针对供应商行为的交易数据最大、表达复杂的特点,提出基于k-均值子空间聚类算法对供应商分类的数据挖掘方法,解决高维和稀疏数据的分析问题,并通过实例验证该方法的准确性和高效性。结果表明该方法是优化供应商关系,提高企业能力的有效方法。
- 于昕王道平黄哲学
- 关键词:供应商关系管理供应商分类数据挖掘子空间聚类
- 提升企业绩效的新途径:选择创新型供应商
- 2008年
- 首先分析全球化竞争和电子商务环境中企业面临的挑战,论述选择创新型供应商对提高企业绩效的必要性,提出基于数据挖掘的创新型供应商选择模型。最后,总结整体解决方案的优势。
- 于昕王道平黄哲学
- 关键词:企业绩效供应商选择数据挖掘
- CALO研究进展分析被引量:1
- 2006年
- CALO是目前美国国防部正在研制的一个应用于办公环境的智能系统,涉及机器学习、自然语言处理、知识表示、柔性规划、人机交互等多个领域的专门技术.由于该项目使用了目前人工智能领域的多项前沿技术,对人工智能相关技术的发展和集成应用有着重要影响,也引起了国内外很多研究人工智能领域的学者的关注.综合目前CALO项目已经发表的论文所介绍的研究情况,全面介绍了该项目目前的研究进展,详细分析了其使用部分重要技术,并据此对今后一段时间人工智能相关技术的发展做出展望.
- 罗文杰高阳王皓李凡长
- 关键词:人工智能多AGENT系统
- 面向Option的k-聚类Subgoal发现算法被引量:12
- 2006年
- 在学习过程中自动发现有用的Subgoal并创建Option,对提高强化学习的学习性能有着重要意义.提出了一种基于k-聚类的Subgoal自动发现算法,该算法能通过对在线获取的少量路径数据进行聚类的方法抽取出Subgoal.实验表明,该算法能有效地发现所有符合要求的Subgoal,与Q-学习和基于多样性密度的强化学习算法相比,用该算法发现Subgoal并创建Option的强化学习算法能有效提高A-gent的学习速度.
- 王本年高阳陈兆乾谢俊元陈世福
- 关键词:分层强化学习OPTION子目标
- 元博弈平衡和多Agent强化学习的MetaQ算法被引量:2
- 2006年
- 多Agent强化学习(MARL)是强化学习(RL)在多Agent环境中的推广.其中,NashQ学习算法是一个里程碑式的贡献.然而NashQ存在着3点不足:①Nash平衡的"混合策略"思想在MARL中的意义不明确;②一个博弈的Nash平衡可能不是Pareto最优的;③Nash平衡的计算比较复杂.这3点不足都来源于"Agent是Nash理性的"这一假设.一个称为"MetaQ"的多Agent Q学习算法以元博弈理论为基础,通过改变Agent的理性来避免所有的这些不足.研究证明,MetaQ算法具有很好的理论解释和实验性能.
- 王皓高阳
- 关键词:多AGENT系统
- 基于CMAC网络强化学习的电梯群控调度被引量:17
- 2007年
- 电梯群控调度是一类开放、动态、复杂系统的多目标优化问题.目前应用于群控电梯调度的算法主要有分区算法、基于搜索的算法、基于规则的算法和其他一些自适应的学习算法.但已有方法在顾客平均等待时间等目标上并不能够达到较好的优化性能.本文采用强化学习技术应用到电梯群控调度系统中,使用CMAC神经网络函数估计模块逼近强化学习的值函数,通过Q-学习算法来优化值函数,从而获得优化的电梯群控调度策略.通过仿真实验表明在下行高峰模式下,本文所提出的基于CMAC网络强化学习的群控电梯调度算法,能够有效地减少平均等待时间,提高电梯运行效率.
- 高阳胡景凯王本年王冬黎
- 关键词:CMAC神经网络函数估计