肖正
- 作品数:7 被引量:47H指数:3
- 供职机构:复旦大学计算机科学技术学院更多>>
- 发文基金:国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 多Agent系统合作与协调机制研究综述被引量:25
- 2007年
- 多Agent间的合作和协调机制是多Agent系统理论的核心问题之一。本文按照协调在合作过程中发生的位置进行分类讨论,结合实例阐述了经典的多Agent系统合作与协调机制的主要原理、适用范围,旨在分析总结现有的多Agent合作和协调机制,为未来的开放、异构、动态环境下多Agent合作与协调机制的发展趋势和进一步研究的方向提供参考。
- 肖正吴承荣张世永
- 关键词:多AGENT系统分布式人工智能
- 混合多Agent环境下动态策略强化学习算法被引量:1
- 2009年
- 机器学习在多Agent系统的协作和行为决策中得到广泛关注和深入研究.分析基于均衡解和最佳响应的学习算法,提出了两个混合多Agent环境下动态策略的强化学习算法.该算法不仅能适应系统中其他Agent的行为策略和变化,而且能利用过去的行为历史制定更为准确的时间相关的行为策略.基于两个知名零和博弈,验证了该算法的收敛性和理性,在与最佳响应Agent的重复博弈中能获得更高的收益.
- 肖正何青松张世永
- 关键词:多AGENT系统
- 一种基于Q学习的分布式多任务流调度算法被引量:1
- 2010年
- 近来实时动态任务分配机制得到越来越多的研究.考虑多任务流并存时的任务分配问题,提出基于Q学习的分布式多任务流调度算法,不仅能适应自身任务流的到达过程,还充分兼顾其他任务流的到达及分配的影响,从而使得整个系统长期期望回报最大.分布式特性使得算法适用于开放的,局部可见的多Agent系统;强化学习的采用使得任务分配决策自适应系统环境隐藏的不确定性.实验表明此算法具有较高的任务吞吐量和任务完成效率.
- 肖正马胜祥张世永
- 关键词:Q学习
- 基于后悔值的多Agent冲突博弈强化学习模型被引量:7
- 2008年
- 对于冲突博弈,研究了一种理性保守的行为选择方法,即最小化最坏情况下Agent的后悔值.在该方法下,Agent当前的行为策略在未来可能造成的损失最小,并且在没有任何其他Agent信息的条件下,能够得到Nash均衡混合策略.基于后悔值提出了多Agent复杂环境下冲突博弈的强化学习模型以及算法实现.该模型中通过引入交叉熵距离建立信念更新过程,进一步优化了冲突博弈时的行为选择策略.基于Markov重复博弈模型验证了算法的收敛性,分析了信念与最优策略的关系.此外,与MMDP(multi-agent markov decision process)下Q学习扩展算法相比,该算法在很大程度上减少了冲突发生的次数,增强了Agent行为的协调性,并且提高了系统的性能,有利于维持系统的稳定.
- 肖正张世永
- 关键词:MARKOV对策冲突消解
- 基于决策论的Agent个性化行为选择被引量:1
- 2008年
- Agent不同的主观态度对行为策略的偏好具有重要影响,但Agent的个性化态度难于在量化或符号化的数值决策模型中体现。该文参照定性决策理论,在现有效用最大化决策模型基础上,利用不同决策原则模拟不同Agent个性,得到符合Agent个性的行为策略。Agent的决策结果反映了其不同个性特征,个性化使Agent的行为呈现多样化,有利于Agent社会模型的建立。
- 肖正张世永
- 关键词:AGENT建模
- 基于神经网络的Agent个性化行为选择被引量:3
- 2009年
- 在基于效用的行为选择模型基础上对多Agent系统中个性建模问题进行研究。利用人工神经网络能够学习到人类难以理解的目标函数的特点,结合心理学中个性的五因素模型建立Agent个性神经网络,通过不同参数反映个性对效用变化的影响方式,具有更强的个性表征能力。设计梯度下降的学习算法训练Agent相应的个性神经网络。实验验证了该模型刻画Agent个性的有效性。
- 肖正张世永
- 关键词:智能体神经网络
- 多Agent系统中合作与协调机制的研究
- 普适化、网络化、智能化、代理化、人性化是自动化计算发展的总体趋势,多Agent计算正是在此历史进程中继分布式计算、P2P计算出现的一种新的先进计算模式。其对问题求解过程类似于人类思维的方式,不同于传统的算法设计,不需要对...
- 肖正
- 关键词:多AGENT系统网络拓扑