张其龙 作品数:8 被引量:5 H指数:2 供职机构: 重庆邮电大学 更多>> 发文基金: 国家自然科学基金 重庆市教育委员会科学技术研究项目 教育部人文社会科学研究基金 更多>> 相关领域: 自动化与计算机技术 更多>>
一种基于MPI并行将连续属性进行离散化的方法 本发明请求保护一种基于MPI并行将连续属性进行离散化的方法,涉及粗糙集,离散化,并行计算,聚类等概念。首先,读取信息系统的数据,将信息系统水平划分为m个样本数据子集,通过通信分配给n个节点;其次,每个节点并行对数据进行归... 胡峰 胡宗容 刘柯 张清华 高延雨 邓维斌 于洪 邓欣 张其龙 欧阳卫华文献传递 基于Spark内存计算大数据平台的CLR多标签数据分类方法 本发明提供一种基于Spark大数据平台的CLR多标签分类方法,涉及数据挖掘技术。本发明通过特征与标签的关系将每个数据集划分成一个区;将训练集中的数据集随机抽取一部分当作测试集,剩余的数据集当训练集建立基分类器,再将测试集... 胡峰 张其龙 邓维斌 于洪 张清华基于Spark内存计算大数据平台的CLR多标签数据分类方法 本发明提供一种基于Spark大数据平台的CLR多标签分类方法,涉及数据挖掘技术。本发明通过特征与标签的关系将每个数据集划分成一个区;将训练集中的数据集随机抽取一部分当作测试集,剩余的数据集当训练集建立基分类器,再将测试集... 胡峰 张其龙 邓维斌 于洪 张清华文献传递 基于Spark的点排序识别聚类结构算法 被引量:3 2018年 点排序识别聚类结构(Ordering Points to Identify the Clustering Structure,OPTICS)的密度聚类算法能以可视化的方式导出数据集的内在聚类结构,并且可以通过簇排序提取基本的聚类信息。但是该算法由于时空复杂度较高,不能很好地适应当今社会出现的大型数据集。随着云计算和并行计算的发展,提供了一种解决OPTICS算法复杂度缺陷的方法和一种建立在基于Spark内存计算平台的点排序识别聚类结构并行算法。测试的实验结果表明,它能极大地降低OPTICS算法对时间和空间的需要。 瞿原 邓维斌 胡峰 张其龙 王鸿关键词:大数据 SPARK 密度聚类 基于Spark的标签校准排序多标签算法研究 随着数据规模的不断扩大和数据量的爆炸式增长,传统标签技术已不能满足人们现实的需求。各个领域数据表现出不同的特征,在种类上趋于多样化,在价值上趋于低密度化,在来源上趋于分散化,在处理需求上趋于实时化。在传统的单标签数据挖掘... 张其龙关键词:朴素贝叶斯 SPARK 文献传递 基于Spark大数据平台的三支决策不平衡数据过采样方法 本发明请求保护一种基于Spark大数据平台的三支决策不平衡数据过采样方法,涉及数据挖掘邻域,Spark大数据技术。首先使用Spark的RDD进行数据变换,得到归一化的LabeledPoint格式<lable:[fe... 胡峰 王蕾 欧阳卫华 于洪 王进 雷大江 李智星 瞿原 赵蕊 张其龙文献传递 一种基于朴素贝叶斯的校准标签排序方法 被引量:2 2018年 传统的校准标签排序算法(calibrated label ranking,CLR)利用成对标签关联进行转化来预测结果.该算法的校准是在二元关系算法(binary relevance,BR)基础上进行比较产生结果,其预测对BR产生结果具有一定的依赖性,因此该算法在预测某些数据集时具有一定的局限性.为了更好地区分标签的相关性和不相关性,提出了一种用于标签边界域的校准方法,对处于相关性标签和不相关性标签的边界部分采用贝叶斯概率进一步校正,从而提高边界域部分分类的准确性.基于朴素贝叶斯校准的标签排序方法(calibrated lable ranking method based on naive bayes,NBCLRM)与校准标签排序等7种传统的方法进行对比,实验结果表明,本文提出的算法不仅可以根据需求修改阈值ε和μ来调节预测结果,而且能够有效地提升传统多标签学习方法的性能. 张其龙 邓维斌 胡峰 瞿原 胡宗容关键词:数据挖掘 朴素贝叶斯 基于Spark大数据平台的三支决策不平衡数据过采样方法 本发明请求保护一种基于Spark大数据平台的三支决策不平衡数据过采样方法,涉及数据挖掘邻域,Spark大数据技术。首先使用Spark的RDD进行数据变换,得到归一化的LabeledPoint格式<lable:[fe... 胡峰 王蕾 欧阳卫华 于洪 王进 雷大江 李智星 瞿原 赵蕊 张其龙