张喜梅 作品数:11 被引量:19 H指数:3 供职机构: 河北师范大学 更多>> 发文基金: 国家自然科学基金 更多>> 相关领域: 自动化与计算机技术 哲学宗教 文化科学 经济管理 更多>>
基于自然邻居搜索优化策略的密度峰值聚类算法 2025年 结合自然邻居搜索算法改进了密度峰值聚类(clustering by fast search and find of density peaks,CFSFDP)算法存在的一系列问题,提出基于自然邻居搜索优化策略的密度峰值聚类(density peak clustering algorithm optimized by natural neighbor search,NaN-CFSFDP)算法。基于自然邻居搜索算法提出了一种离群样本的检测方法,针对CFSFDP算法中截断距离d_(c)人工准确取值较难的问题,结合自然邻居搜索算法改进了d_(c)的计算方式,实现了d_(c)的自动取值。重新设计并统一了CFSFDP算法的样本密度度量规则,使其更关注每个样本的局部信息。由于数据集中因类簇间的密度差异大,密度峰值点集中于稠密簇使得簇丢失,因此提出样本共享自然邻居和类簇共享自然邻居的概念,构造新的类簇融合算法。合成数据集和真实数据集上的实验结果表明,在大多数情况下,NaN-CFSFDP算法在聚类性能上优于或至少与比较方法相当,且与CFSFDP算法及其改进算法相比参数更少。 张春昊 解滨 徐童童 张喜梅关键词:聚类 网络流量异常检测方法及装置、终端设备、可读存储介质 本发明提供了一种网络流量异常检测方法及装置、终端设备、可读存储介质,该方法包括:获取待检测的网络流量数据集后构造网络流量数据集对应的k近邻图;进而确定每个网络流量数据对应的相对距离以及全局密度;基于每个网络流量数据的相对... 解滨 徐童童 张春昊 张喜梅自适应聚类中心策略优化的密度峰值聚类算法 被引量:3 2023年 密度峰值聚类算法(DPC)是一种简单高效的无监督聚类算法,能够快速找到聚类中心完成聚类。该算法通过截断距离定义局部密度未考虑样本点的空间分布特征;通过决策图选择聚类中心点,具有较强人为主观性;在分配样本点时采用单一分配策略,易产生连带错误。因此提出一种自适应聚类中心策略优化的密度峰值聚类算法(ADPC),采用共享近邻定义两点之间的相似性度量,重新定义了局部密度,使局部密度反应样本间的空间分布特征;通过相邻点之间斜率差分确定样本密度ρ与相对距离δ的乘积γ值的“拐点”,并对γ进行幂函数变换,以提高潜在聚类中心与非聚类中心的区分度,利用决策函数确定潜在的聚类中心,再通过潜在聚类中心之间距离均值自适应确定真实聚类中心;优化了非聚类中心点的分配策略。通过在UCI以及人工数据集上进行实验,该算法都可以自适应准确选定聚类中心,且在一定程度上提高了聚类性能。 徐童童 解滨 张喜梅 张春昊关键词:自适应 决策函数 融合转移概率矩阵的多阶最近邻图聚类算法 2024年 聚类是根据样本之间的相似性将数据集划分为多个类簇。现有的大多数聚类方法都存在两个挑战:一方面,在定义样本间相似性时往往没有考虑样本的空间分布结构,无法构建稳定的相似度矩阵;另一方面,图聚类构造的样本图结构过于复杂,计算成本较高。为解决这两个问题,提出融合转移概率矩阵的多阶最近邻图聚类算法(MNNGC)。首先,综合样本的近邻关系和空间分布结构,将共享近邻定义的相似度进行趋密性加权,得到节点间的趋密性亲和矩阵;其次,利用节点间多阶概率转移预测非邻接点的关联程度,并通过融合多阶转移概率矩阵得到稳定的节点间亲和矩阵;再次,为进一步增强图局部结构,重新构建节点的多阶最近邻图,并对多阶最近邻图的局部结构分层聚类;最后,优化了边缘点分配策略。定位实验结果表明,MNNGC在合成数据集上的准确率(Acc)均优于对比算法,且在8个UCI数据集上的Acc为最大值。其中在Compound数据集上,MNNGC的Acc、调整互信息(AMI)、调整兰德指数(ARI)和FM指数(FMI)相较于基于局部密度峰值的谱聚类(LDP-SC)算法分别提高38.6、27.2、45.4、35.1个百分点。 徐童童 解滨 张春昊 张喜梅关键词:分层聚类 一种结合自适应近邻与密度峰值的加权模糊聚类算法 被引量:4 2023年 传统的模糊C均值(fuzzy c-means,FCM)算法的聚类结果容易受到随机选取初始聚类中心的影响,且在聚类过程中忽视了样本的不同特征和样本本身的重要程度对聚类结果产生的影响.针对这一系列问题,提出了一种结合自适应近邻与密度峰值的基于信息熵加权的模糊聚类算法(ANNDP-WFCM).首先,结合自适应近邻的密度峰值算法(ANNDP)实现初始聚类中心的自动搜索,针对不同规模、不同结构的数据集可以自适应的找到每个样本的近邻集合,根据近邻信息定义样本的局部密度,搜索和发现数据集中的密度峰值点作为初始聚类中心.然后通过信息熵赋权区分不同特征在聚类过程中的重要程度,同时利用样本之间距离的倒数对样本本身进行加权,重新定义目标函数中的模糊聚类中心.最后针对目标函数,利用拉格朗日乘子法交替寻优,对最终的隶属度矩阵去模糊化得到聚类结果.通过不同公共数据集的对比实验,验证了ANNDP-WFCM算法具有较少的迭代次数和较高的聚类准确性. 张春昊 解滨 张喜梅 徐童童关键词:FCM 自适应 信息熵 基于反向K近邻和密度峰值初始化的加权Kmeans聚类入侵检测算法 被引量:7 2023年 传统Kmeans聚类算法的性能易受初始类簇中心随机性和类簇中心计算的迭代过程中边缘点和离群点反复计入的影响,为了避免这些影响,该文提出一种基于反向K近邻和密度峰值初始化的加权Kmeans聚类算法。通过样本的近邻信息计算每个样本的反向K近邻,针对不同规模、不同密度分布数据集,可以自适应地搜索密度峰值点作为初始类簇中心;自适应设定相对簇半径,并通过样本加权进行类簇中心迭代,在不同数据分布下可以有效降低边缘点和离群点对聚类结果的影响。试验结果证明,该算法在聚类性能提升的同时迭代次数大幅降低,随着入侵行为类型和数据规模的增加,该文聚类算法仍体现出较好的性能,且在发现未知攻击类型上效果显著。 张喜梅 解滨 徐童童 张春昊关键词:入侵检测 样本加权 结合共享近邻和流形距离的自适应谱聚类算法 被引量:1 2023年 谱聚类算法是建立在图论的基础上,将聚类问题转化为图的划分问题,能识别任意形状的类簇且易于实现,因此比传统聚类算法具有更强的适应性。然而,该算法中常用的距离度量不能同时考虑全局和局部一致性,且易受到噪声影响;聚类结果依赖由输入数据构造的相似度矩阵,且通过特征分解得到松弛划分矩阵和离散化过程的两步独立策略难以得到一个共同最优解。因此,提出一种结合共享近邻和流形距离的自适应谱聚类算法(SNN-MSC),引入一种新的具有指数项和比例因子的流形距离,可以灵活调整同一流形内数据的相似度和不同流形之间数据的相似度之比,并将密度因子纳入流形距离度量中,以消除噪声影响;采用共享近邻重新定义相似度度量,能挖掘数据点之间的空间结构和局部关系;同时,对拉普拉斯矩阵施加秩约束,使相似度矩阵中的连通分量完全等于簇个数,能够在优化求解过程中自适应优化数据相似度矩阵和聚类结构,无须再进行离散化操作。在人工数据集和UCI真实数据集上的对比实验显示,所提算法在多个聚类有效性指标上能体现出更好的性能。 张喜梅 解滨 米据生 徐童童 张祎玲关键词:谱聚类 流形距离 自适应 融合近邻信息的聚类算法优化研究 聚类是数据挖掘中的一项重要技术,能够无需先验知识完成数据分类。但随着计算机技术的不断进步和发展,数据量剧增,数据结构也日益复杂,利用数据的近邻信息,能够挖掘数据的局部关系和数据结构,有效提高聚类算法的性能。本文以近邻关系... 张喜梅关键词:谱聚类 流形距离 河北省物流业发展对经济增长作用的研究 物流作为一种先进的组织和管理技术,伴随着经济贸易全球化及社会分工的不断细化,越发显示出其在经济发展中的重要地位,其不可忽视的重要作用吸引了各界人士的目光,继而区域物流对经济增长的作用也成为了研究领域的重点。
当前,... 张喜梅关键词:物流业 经济增长 误差修正模型 我国证券内幕交易民事责任制度研究 该文运用比较分析、案例分析及数学分析等研究方法阐释了内幕交易民事责任的相关理论及原则,深入分析了作为侵权责任的内幕交易民事责任的各项构成要件及其实施,并提出了关于完善内幕交易民事责任制度的几点立法建议.除前言、结语之外,... 张喜梅关键词:内幕交易 民事责任 损害赔偿 文献传递