您的位置: 专家智库 > >

郭丽丽

作品数:11 被引量:215H指数:3
供职机构:中国矿业大学计算机科学与技术学院更多>>
发文基金:国家自然科学基金国家重点基础研究发展计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 11篇中文期刊文章

领域

  • 11篇自动化与计算...

主题

  • 4篇神经网
  • 4篇神经网络
  • 4篇网络
  • 3篇智能体
  • 3篇多智能
  • 3篇多智能体
  • 2篇信号控制
  • 2篇支持向量
  • 2篇配置网络
  • 2篇向量
  • 2篇卷积
  • 2篇交通信号
  • 2篇交通信号控制
  • 2篇函数
  • 1篇动态路由
  • 1篇多标记
  • 1篇多标记学习
  • 1篇多路
  • 1篇多路径
  • 1篇多示例学习

机构

  • 11篇中国矿业大学
  • 9篇教育部
  • 4篇天津大学
  • 1篇中国科学院

作者

  • 11篇丁世飞
  • 11篇郭丽丽
  • 9篇郭丽丽
  • 8篇张健
  • 4篇徐晓
  • 1篇党建武
  • 1篇梁志贞
  • 1篇孙统风
  • 1篇廖红梅

传媒

  • 5篇计算机学报
  • 2篇软件学报
  • 1篇计算机研究与...
  • 1篇电子学报
  • 1篇计算机应用
  • 1篇计算机科学

年份

  • 6篇2024
  • 4篇2023
  • 1篇2015
11 条 记 录,以下是 1-10
排序方式:
基于双评论家的多智能体深度确定性策略梯度方法被引量:3
2023年
在现实世界的复杂多智能体环境中,任务的完成通常需要多个智能体之间的相互协作,这促使各种多智能体强化学习方法不断涌现.动作价值函数估计偏差是单智能体强化学习领域中备受关注的一个重要问题,而在多智能体环境中却鲜有研究.针对这一问题,分别从理论和实验上证明了多智能体深度确定性策略梯度方法存在价值函数被高估.提出基于双评论家的多智能体深度确定性策略梯度(multiagent deep deterministic policy gradient method based on double critics,MADDPG-DC)方法,通过在双评论家网络上的最小值操作来避免价值被高估,进一步促进智能体学得最优的策略.此外,延迟行动者网络更新,保证行动者网络策略更新的效率和稳定性,提高策略学习和更新的质量.在多智能体粒子环境和交通信号控制环境上的实验结果证明了所提方法的可行性和优越性.
丁世飞杜威郭丽丽郭丽丽郭丽丽
关键词:交通信号控制
基于价值函数分解和通信学习机制的异构多智能体强化学习方法
2024年
许多现实世界的系统可以被建模为多智能体系统,多智能体强化学习为开发这些系统提供了一种有效的方法,其中基于集中训练与分散执行范式的价值函数分解方法得到了广泛的研究.然而现有的价值分解方法一般缺乏通信机制,在处理需要通信学习的多智能体任务时表现不佳.同时,目前大多数通信机制都是针对同构多智能体环境设计的,没有考虑异构多智能体场景.在异构场景中,由于智能体动作空间或观测空间的异构性,智能体之间的信息共享并不直接.如果不能对智能体的异构性进行有效地建模处理,通信机制将变得无效,甚至会影响多智能体的协作性能.为了应对这些挑战,本文提出一个融合价值函数分解和通信学习机制的异构多智能体强化学习框架.具体地:(1)与采用同构图卷积网络的方法不同,该框架利用异构图卷积网络融合智能体的异构特征信息得到有效的嵌入;(2)利用通信学习模块获得的嵌入信息和局部观测历史计算每个智能体的动作价值,以选择和协调智能体的动作;(3)通过设计的互信息损失函数和价值函数分解模块的损失函数联合训练,能够有效地训练整个方法.本文首先在两个异构多智能体平台上进行实验,实验结果表明该方法能学到比基线方法更有效的策略,在两个平台上相比基线方法分别提高了 13%的平均奖励值和24%的平均胜率.此外,在交通信号控制场景中验证了该方法在现实系统中的可行性.
杜威丁世飞郭丽丽郭丽丽郭丽丽
关键词:通信机制互信息交通信号控制
基于密度分布的鲁棒谱聚类算法
2024年
谱聚类作为一种基于图论的聚类方法,通过相似性矩阵对数据进行特征分解或将数据投影到低维空间以实现更好的数据划分.谱聚类因其适用于复杂数据和非凸子簇而受到广泛的关注,并已成功应用在很多领域.然而,计算复杂度高、噪声敏感等问题会限制其聚类效果的进一步提升.针对这些问题,本文提出了一种基于密度分布的鲁棒谱聚类算法.首先,设置噪声系数以过滤少量的低密度噪声点.其次,根据密度峰值聚类具有的特性,即尽可能多地划分数据能够保证子簇内数据标签的一致性,新提出的算法能够在较少的子簇数和更高的簇内标签一致性上达到平衡,实现了对数据更加优质的划分.最后,基于簇间密度分布的相似性度量改善了谱聚类在密度不均匀数据集上的聚类效果.合成数据以及真实数据上的实验充分证明了新算法在9个最新改进算法中的有效性.在保证聚类效率的前提下,新算法在真实数据上的准确率、调整兰德系数和调整互信息的平均值上至少分别提升了10.02%、22.11%和15.76%.
李超廖红梅徐晓郭丽丽徐晓
关键词:谱聚类密度分布噪声检测
多智能体深度强化学习研究进展被引量:3
2024年
深度强化学习(Deep Reinforcement Learning,DRL)在近年受到广泛的关注,并在各种领域取得显著的成功.由于现实环境通常包括多个与环境交互的智能体,多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning,MADRL)获得蓬勃的发展,在各种复杂的序列决策任务上取得优异的表现.本文对多智能体深度强化学习的工作进展进行综述,主要内容分为三个部分.首先,我们回顾了几种常见的多智能体强化学习问题表示及其对应的合作、竞争和混合任务.其次,我们对目前的MADRL方法进行了全新的多维度的分类,并对不同类别的方法展开进一步介绍.其中,我们重点综述值函数分解方法,基于通信的MADRL方法以及基于图神经网络的MADRL方法.最后,我们研究了MADRL方法在现实场景中的主要应用.希望本文能够为即将进入这一快速发展领域的新研究人员和希望获得全方位了解并根据最新进展确定新方向的现有领域专家提供帮助.
丁世飞杜威张健郭丽丽张健
深度学习研究进展被引量:201
2015年
深度学习(Deep Learning)是一个近几年备受关注的研究领域,在机器学习中起着重要的作用。如果说浅层学习是机器学习的一次浪潮,那么深度学习作为机器学习的一个新领域,将掀起机器学习的又一次浪潮。深度学习通过建立、模拟人脑的分层结构来实现对外部输入的数据进行从低级到高级的特征提取,从而能够解释外部数据。首先介绍了深度学习的由来,分析了浅层学习存在的弊端;其次列举了深度学习的经典方法,主要以监督学习和无监督学习来展开介绍;然后对深度学习的最新研究进展及其应用进行了综述;最后总结了深度学习发展所面临的问题。
郭丽丽丁世飞
关键词:卷积神经网络
弱监督场景下的支持向量机算法综述被引量:3
2024年
支持向量机(Support Vector Machine,SVM)是一种建立在结构风险最小化原则上的统计学习方法,以其在非线性、小样本以及高维问题中的独特优势被广泛应用于图像识别、故障诊断以及文本分类等领域.但SVM是一种监督学习算法,它旨在利用大量的、唯一且明确的真值标记样本来训练学习器,在不完全监督、不确切监督以及多义监督等弱监督场景下难以取得较好的效果.本文首先阐述了弱监督场景的概念和SVM的相关理论,然后从弱监督场景角度出发,系统地梳理了目前SVM算法的研究现状和发展,包括基于半监督学习、多示例学习以及多标记学习的方法;其中基于半监督学习的方法根据数据假设可细分为基于聚类假设和基于流形假设的方法,基于多标记学习的方法根据解决方案可细分为基于示例水平空间、基于包水平空间以及基于嵌入空间的方法,基于多标记学习的方法根据处理思路可细分为基于问题转换和基于算法自适应的方法;随后,本文总结了部分代表性算法在公开数据集上的实验结果;最后,探讨并展望了未来可能的研究方向.
丁世飞孙玉婷梁志贞梁志贞张健郭丽丽
关键词:支持向量机半监督学习多示例学习多标记学习
改进的基于多路径特征的胶囊网络
2023年
针对胶囊网络(CapsNet)在复杂数据集上的分类效果差,而且在路由过程中参数数量过大等问题,提出一种基于多路径特征的胶囊网络(MCNet),包含新的胶囊特征提取器和新的胶囊池化方法。该胶囊特征提取器从多个不同路径中并行地提取不同层次、不同位置的特征,然后将特征编码为包含更多语义信息的胶囊特征;胶囊池化方法则在胶囊特征图的每个位置选取最活跃的胶囊,用少量的胶囊表示有效的胶囊特征。在4个数据集(CIFAR-10、SVHN、Fashion-MNIST、MNIST)上与CapsNet等模型进行了对比。实验结果显示,MCNet在CIFAR-10数据集上的分类准确率为79.27%,可训练的参数数量为6.25×10^(6),与CapsNet相比,MCNet的分类准确率提升了8.7%,参数数量减少了46.8%。MCNet能够有效提升分类准确率,同时减少可训练的参数数量。
徐清海丁世飞孙统风孙统风郭丽丽
关键词:动态路由
基于M-estimator函数的加权深度随机配置网络
2023年
深度随机配置网络(Deep Stochastic Configuration Network,DSCN)是一种增量式随机化学习模型,具有人为干预程度低、学习效率高和泛化能力强等优点.但是,面向噪声数据回归与分析时,传统的DSCN易受到异常值影响,从而降低了模型的泛化性.因此,为提高噪声数据回归的精度和鲁棒性,提出了基于M-estimator函数的加权深度随机配置网络(Weighted Deep Stochastic Configuration Networks,WDSCN).首先,选取Huber和Bisquare 2个常用的M-estimator函数计算样本权重,利用加权最小二乘法和L2正则化策略替代最小二乘来更新WDSCN输出权重,以降低异常值对WDSCN的负面影响;其次,为提高WDSCN模型表征能力,设计了一种随机配置稀疏自编码器(Stochastic Configuration Sparse Autoencoder,SC-SAE),SC-SAE基于DSCN其独有的监督机制随机分配输入参数,采用基于L1正则化的目标函数,并利用交替方向乘子法(Alternating Direction Method of Multipliers,ADMM)计算SC-SAE输出权重;然后,为获取有效的特征表示,利用SC-SAE生成特征的随机性和多样性,采用多个SC-SAE进行特征学习并融合,用于WDSCN模型训练;最后,在真实数据集上的实验结果表明,WDSCN-Huber、WDSCN-Bisquare相比于DSCN、SCN以及RSC-KDE、RSC-Huber、RSC-IQR、RSCN-KDE、WBLS-KDE和RBLS-Huber等加权模型具有更高的泛化性能和回归精度.
丁世飞张成龙郭丽丽郭丽丽郭丽丽
关键词:异常数据随机神经网络
随机配置网络研究进展被引量:3
2024年
随机配置网络(stochastic configuration network,SCN)是一种新兴的增量式神经网络模型,与其他随机化神经网络方法不同,它能够通过监督机制进行隐含层节点参数配置,保证了模型的快速收敛性能.因其具有学习效率高、人为干预程度低和泛化能力强等优点,自2017年提出以来,SCN吸引了大量国内外学者的研究兴趣,得到了快速的推广和发展.从SCN的基础理论、典型算法变体、应用领域以及未来研究方向等方面切入,全面地概述SCN研究进展.首先,从理论的角度分析SCN的算法原理、通用逼近性能及其优点;其次,重点研究深度SCN、二维SCN、鲁棒SCN、集成SCN、分布式并行SCN、正则化SCN等典型变体;随后介绍SCN在硬件实现、计算机视觉、医学数据分析、故障检测与诊断、系统建模预测等不同领域的应用进展;最后指出SCN在卷积神经网络架构、半监督学习、无监督学习、多视图学习、模糊神经网络、循环神经网络等研究方向的发展潜力.
张成龙丁世飞郭丽丽郭丽丽
关键词:神经网络
离散语音情感识别研究进展
2024年
语音情感识别是情感计算的重要组成部分,在人机交互中占据重要的地位.准确地识别说话人的情感信息,有助于机器更好地理解用户的意图,进而提供良好的交互性以提升用户的体验.以离散语音情感为对象,对语音情感识别的理论和方法进行综述.首先在全面回顾情感识别发展历程的同时,提出一个语音情感识别综述框架.其次,介绍情感描述方法以及常用的情感语料库,旨在为语音情感识别提供基础支撑.然后,概述语音情感识别过程,主要包括特征提取和识别模型,重点归纳总结传统分类模型、经典深度模型、其他先进模型,并介绍常用的评价指标,同时基于评价指标对模型进行总结.最后,探讨语音情感识别领域所面临的挑战,并对未来的发展趋势进行展望.
郭丽丽王龙标党建武丁世飞
关键词:语音情感识别声学特征相位信息
共2页<12>
聚类工具0