刘杨磊 作品数:6 被引量:33 H指数:3 供职机构: 山西大学计算机与信息技术学院 更多>> 发文基金: 山西省科技基础条件平台建设计划项目 山西省科技攻关计划项目 国家重点基础研究发展计划 更多>> 相关领域: 自动化与计算机技术 文化科学 更多>>
基于数据场的改进DBSCAN聚类算法 DBSCAN(DENSITY BASED SPATIAL CLUSTERING OF APPLICATIONS WITH NOISE)算法是一种典型的基于密度的聚类算法。该算法可以识别任意形状的类簇,但聚类结果依赖于参数... 杨静 高嘉伟 梁吉业 刘杨磊关键词:DBSCAN算法 数据场 聚类 文献传递 网络资源链接 一种基于Tri-training的半监督多标记学习文档分类算法 被引量:8 2015年 多标记学习主要用于解决因单个样本对应多个概念标记而带来的歧义性问题,而半监督多标记学习是近年来多标记学习任务中的一个新的研究方向,它试图综合利用少量的已标记样本和大量的未标记样本来提高学习性能。为了进一步挖掘未标记样本的信息和价值并将其应用于文档多标记分类问题,该文提出了一种基于Tritraining的半监督多标记学习算法(MKSMLT),该算法首先利用k近邻算法扩充已标记样本集,结合Tri-training算法训练分类器,将多标记学习问题转化为标记排序问题。实验表明,该算法能够有效提高文档分类性能。 高嘉伟 梁吉业 刘杨磊 李茹关键词:半监督学习 多标记学习 文档分类 基于Tri-training的半监督多标记学习算法 被引量:4 2013年 传统的多标记学习是监督意义下的学习,它要求获得完整的类别标记.但是当数据规模较大且类别数目较多时,获得完整类别标记的训练样本集是非常困难的.因而,在半监督协同训练思想的框架下,提出了基于Tri-training的半监督多标记学习算法(SMLT).在学习阶段,SMLT引入一个虚拟类标记,然后针对每一对类别标记,利用协同训练机制Tri-training算法训练得到对应的分类器;在预测阶段,给定一个新的样本,将其代入上述所得的分类器中,根据类别标记得票数的多少将多标记学习问题转化为标记排序问题,并将虚拟类标记的得票数作为阈值对标记排序结果进行划分.在UCI中4个常用的多标记数据集上的对比实验表明,SMLT算法在4个评价指标上的性能大多优于其他对比算法,验证了该算法的有效性. 刘杨磊 梁吉业 高嘉伟 杨静关键词:多标记学习 半监督学习 TRI-TRAINING 基于MPWPS主动学习的半监督协同分类算法 2013年 半监督学习和主动学习是机器学习的两个重要研究领域。半监督学习通过利用有标记样本训练分类器标注未标记样本,来增加标记样本的数量。那么,如果未标记样本被错误标注将会影响后续分类器的迭代训练,进而降低最终分类器的预测精度。因此,本文在半监督学习的基础上引入主动学习的思想,首先采用MPWPS算法选取最有可能预测错误的样本,交由专家进行标注,再结合已标记样本进行迭代协同训练,来提高分类器的性能和标注的正确率。本文实现了基于MPWPS主动学习的半监督协同分类算法,并在UCI数据集上的实验验证了该算法的有效性。 刘杨磊关键词:半监督学习 TRI-TRAINING 基于Tri-training的半监督多标记学习算法研究 多标记学习是机器学习领域中的重要研究方向之一,它能够直观地反映多义性对象所具有的多种语义信息,其学习的任务是为待学习样本预测其对应的类别标记集合。近年来,研究学者们对多标记学习问题提出了很多学习方法和策略,并将其应用于网... 刘杨磊关键词:多标记学习 半监督学习 文献传递 基于数据场的改进DBSCAN聚类算法 被引量:21 2012年 DBSCAN(density based spatial clustering of applications with noise)算法是一种典型的基于密度的聚类算法。该算法可以识别任意形状的类簇,但聚类结果依赖于参数Eps和MinPts的选择,而且对于一些密度差别较大的数据集,可能得不到具有正确类簇个数的聚类结果,也可能将部分数据错分为噪声。为此,利用数据场能较好描述数据分布,反映数据关系的优势,提出了一种基于数据场的改进DBSCAN聚类算法。该算法引入平均势差的概念,在聚类过程中动态地确定每个类的Eps和平均势差,从而能够在一些密度相差较大的数据集上得到较好的聚类结果。实验表明,所提算法的性能优于DBSCAN算法。 杨静 高嘉伟 梁吉业 刘杨磊关键词:DBSCAN算法 数据场 聚类