朱斐
- 作品数:126 被引量:225H指数:9
- 供职机构:苏州大学更多>>
- 发文基金:国家自然科学基金江苏省高校自然科学研究项目苏州市科技计划项目(应用基础研究计划)更多>>
- 相关领域:自动化与计算机技术文化科学社会学经济管理更多>>
- 一种解决连续空间问题的真实在线自然梯度AC算法被引量:5
- 2018年
- 策略梯度作为一种能够有效解决连续空间决策问题的方法得到了广泛研究,但由于在策略估计过程中存在较大方差,因此,基于策略梯度的方法往往受到样本利用率低、收敛速度慢等限制.针对该问题,在行动者-评论家(actor-critic,简称AC)算法框架下,提出了真实在线增量式自然梯度AC(true online incremental natural actor-critic,简称TOINAC)算法.TOINAC算法采用优于传统梯度的自然梯度,在真实在线时间差分(true online time difference,简称TOTD)算法的基础上,提出了一种新型的前向观点,改进了自然梯度行动者-评论家算法.在评论家部分,利用TOTD算法高效性的特点来估计值函数;在行动者部分,引入一种新的前向观点来估计自然梯度,再利用资格迹将自然梯度估计变为在线估计,提高了自然梯度估计的准确性和算法的效率.将TOINAC算法与核方法以及正态策略分布相结合,解决了连续空间问题.最后,在平衡杆、Mountain Car以及Acrobot等连续问题上进行了仿真实验,验证了算法的有效性.
- 朱斐朱海军刘全刘全陈冬火
- 关键词:自然梯度核方法
- 基于交通监控视频的路况实时获取装置及方法
- 本发明公开了一种基于交通监控视频的路况实时获取装置及方法,其特征在于:包括视频处理器、网络模块、远程服务器、数据推送器以及数据接收器,其中:所述视频处理器读取对应所述监控设备上的视频图像,按照获得的图片求取每一帧图片中各...
- 朱海军朱斐伏玉琛刘全王辉任勇
- 一种基于Sarsa安全模型的无人自动小车的控制方法
- 本发明公开了一种基于Sarsa安全模型的无人自动小车的控制方法,包括如下步骤:初始化,选择初始状态和初始动作;将初始状态置为当前状态,将初始动作置为当前动作;执行当前动作,无人自动小车进入下一状态并获得回报值;对约束函数...
- 朱斐葛洋洋凌兴宏
- 基于自适应策略优化的家庭清洁机器人控制系统
- 本发明公开了一种基于自适应策略优化的家庭清洁机器人控制系统,包括传感系统、控制系统、清洁系统、驱动系统及电力系统,所述传感系统采集环境信息和电力系统信息,并将环境信息和电力系统信息传入控制系统,所述控制系统根据接收到的信...
- 刘全徐进朱斐周小科
- 文献传递
- 基于行动者-评论家方法的机器人运动控制方法和装置
- 本发明公开了一种基于行动者-评论家方法的机器人运动控制方法和装置,控制方法包括:采集视频数据,获得当前机器人的位置信息、障碍物分布信息,给定目的地信息;以机器人所在的位置作为机器人的状态,机器人的运动方向作为动作;进行状...
- 刘全许丹朱斐
- 文献传递
- 基于凸多面体抽象域的自适应强化学习技术研究被引量:5
- 2018年
- 表格驱动的算法是解决强化学习问题的一类重要方法,但由于"维数灾"现象的存在,这种方法不能直接应用于解决具有连续状态空间的强化学习问题.解决维数灾问题的方法主要包括两种:状态空间的离散化和函数近似方法.相比函数近似,基于连续状态空间离散化的表格驱动方法具有原理直观、程序结构简单和计算轻量化的特点.基于连续状态空间离散化方法的关键是发现合适的状态空间离散化机制,平衡计算量及准确性,并且确保基于离散抽象状态空间的数值性度量,例如V值函数和Q值函数,可以较为准确地对原始强化学习问题进行策略评估和最优策略π*计算.文中提出一种基于凸多面体抽象域的自适应状态空间离散化方法,实现自适应的基于凸多面体抽象域的Q(λ)强化学习算法(Adaptive Polyhedra Domain based Q(λ),APDQ(λ)).凸多面体是一种抽象状态的表达方法,广泛应用于各种随机系统性能评估和程序数值性属性的验证.这种方法通过抽象函数,建立具体状态空间至多面体域的抽象状态空间的映射,把连续状态空间最优策略的计算问题转化为有限大小的和易于处理的抽象状态空间最优策略的计算问题.根据与抽象状态相关的样本集信息,设计了包括BoxRefinement、LFRefinement和MVLFRefinement多种自适应精化机制.依据这些精化机制,对抽象状态空间持续进行适应性精化,从而优化具体状态空间的离散化机制,产生符合在线抽样样本空间所蕴涵的统计奖赏模型.基于多面体专业计算库PPL(Parma Polyhedra Library)和高精度数值计算库GMP(GNU Multiple Precision)实现了算法APDQ(λ),并实施了实例研究.选择典型的连续状态空间强化学习问题山地车(Mountain Car,MC)和杂技机器人(Acrobatic robot,Acrobot)作为实验对象,详细评估了各种强化学习参数和自适应精化相关的阈值参数对APDQ(λ)性能的影响,探究了抽象状�
- 陈冬火刘全朱斐金海东
- 基于带对抗训练深度网络的恶意域名检测方法及系统
- 本发明公开了一种基于带对抗训练深度网络的恶意域名检测方法及系统,方法包括如下步骤:(1)恶意域名样本获取;(2)恶意域名样本预处理;(3)网络模型训练,选用C‑RNN‑GAN生成对抗网络模型;(4)可疑域名样本获取;(5...
- 朱斐
- 文献传递
- 基于Windows 2000 Server自身功能及脚本的入侵检测
- 2002年
- 阐述了利用Windows 2 0 0 0Serv er自身的功能及系统管理员自己编写的软件 /脚本实现安全检测。初步探讨Windows 2 0 0 0服务器入侵检测的初步技巧以及如何长期维护服务器的安全。
- 朱斐
- 关键词:入侵检测WINDOWS2000服务器计算机安全
- 兼顾公平性的上下文感知学习的结果预测分类器
- 本发明公开了一种兼顾公平性的上下文感知学习的结果预测分类器,分类器采用如下分类步骤:(1)初始化分类器的探索参数;(2)初始化分类器的权重矩阵;(3)判断数据库中是否有数据,如是,则随机选取其中一条数据的特征,转至步骤(...
- 朱斐刘晓飞伏玉琛钟珊
- 文献传递
- 面向内容管理的浏览器设计与实现被引量:1
- 2006年
- 分析了传统文件系统在企业信息管理中的不足,提出了面向内容管理的必要性。给出了面向内容管理浏览器的设计目标和功能。介绍了文件在面向内容管理的系统中是如何组织和管理的,并基于Windows平台演示了系统的部分功能。文中最后对面向内容管理的浏览器做出了客观性评价。文中提出的面向内容管理的浏览器能够充分挖掘信息的价值,有助于用户更好地进行内容管理,具有较好的研究价值和实用意义,有利于促进内容管理的发展。此外,文中对支持内容管理的文件管理器实现技术所进行的探讨,对于该领域的开发者应具有良好的借鉴意义。
- 庄军朱斐张芸
- 关键词:内容管理元数据IFS文件管理