孟令军
- 作品数:7 被引量:45H指数:2
- 供职机构:河南理工大学计算机科学与技术学院更多>>
- 发文基金:河南省科技攻关计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 分布式朴素贝叶斯算法在文本分类中的应用被引量:2
- 2016年
- 传统串行贝叶斯算法在对大规模数据进行分类时,性能较低下。为此,在TFIDF(词频-逆向文件频率)特征加权基础上,提出ICF(逆类别因子)类别加权因子,对传统贝叶斯分类模型进行改进。利用MapReduce并行计算框架在处理海量数据方面的优势,设计并实现了一种对TFIDF改进的分布式朴素贝叶斯文本分类算法。实验结果表明,与传统分布式朴素贝叶斯算法和TFIDF加权的分布式朴素贝叶斯算法相比,改进后的分类算法在查准率、查全率、F-measure等方面都有了较大提高。
- 赵文涛孟令军赵好好韩炳权成亚飞
- 关键词:MAPREDUCE框架文本分类朴素贝叶斯算法
- 朴素贝叶斯算法的改进与应用被引量:24
- 2016年
- 朴素贝叶斯算法是分类算法中最经典、最有影响的算法之一,但仍然存在一些不足之处。针对该算法中下溢问题,对算法基本公式进行了优化改进。针对NB算法中准确率问题,结合类别核心词思想和改进后的TFIDF算法,提出了一种基于类别核心词和改进型TFIDF的朴素贝叶斯CIT-NB算法。将改进后的算法应用于新闻数据集文本分类,实验结果表明,CIT-NB算法的分类性能明显优于原始朴素贝叶斯算法和基于TFIDF的分类算法。
- 赵文涛孟令军赵好好王春春
- 关键词:朴素贝叶斯TFIDF文本分类
- 基于节点内聚系数的局部社团发现算法被引量:2
- 2016年
- 为了能够快速有效地发现复杂网络中的局部社团,提出一种基于节点内聚系数的局部社团发现算法。该算法选取最大度节点作为起始社团,不断搜索其邻居节点,将满足条件的节点不断加入起始社团从而形成新的社团。在不同规模的真实网络数据集和人工合成数据集上进行实验,并与其他三种局部社团发现算法进行社团划分效果的对比。实验结果表明,该算法能够在较短的运行时间内保持较高模块度来识别复杂网络中的局部社团结构,更适合于大规模复杂网络的社团结构挖掘。
- 赵文涛赵好好孟令军
- 关键词:社团发现复杂网络
- 基于用户多属性与兴趣的协同过滤算法被引量:14
- 2016年
- 传统的协同过滤算法广泛应用于推荐系统领域,但该算法仍存在用户冷启动和数据稀疏性问题,造成算法的推荐质量较差。对此,提出一种基于用户多属性与兴趣的协同过滤算法AICF(attributes and interests collaborative filtering)。首先通过对多种用户属性分配权重计算出用户多属性相似度。其次利用改进的Slope One算法填充用户—项目评分矩阵,然后计算基于隐性标签的用户兴趣相似度。最后基于两种相似度的组合进行推荐。实验结果表明,AICF算法不仅明显提高了推荐结果的准确性,同时也改善了用户冷启动和数据稀疏性问题。
- 赵文涛王春春成亚飞孟令军赵好好
- 关键词:协同过滤冷启动数据稀疏性
- 云存储以及基于云平台下的数据恢复问题研究被引量:1
- 2014年
- 云存储是在云计算(cloud computing)概念上延伸和发展出来的一个新的概念,是将储存资源放到云上供人存取的一种新兴方案[1]。由于传统web服务以及自身特点带来的安全风险,正日益成为阻碍其进一步发展的因素。因此,在业界对数据安全分析已有基础上,该文主要针对数据安全方面的数据恢复方向进行了研究,并结合回收站机制提出对分布式数据恢复的展望。
- 孟令军
- 关键词:数据恢复回收站
- 基于相关拓扑势的社团发现算法被引量:2
- 2017年
- 针对传统算法社团划分精度较低以及模块度函数分辨率低的问题,提出一种基于相关拓扑势的社团发现算法,简称BITP算法。该算法考虑节点的相关性因素,引入相关拓扑势来衡量节点的影响力,寻找出其中的极大势值点,采用标签传播的思想对社团的规模进行控制。在人工合成网络和真实网络上,与多种算法进行实验对比,结果表明该算法多次运行结果相对稳定且社团划分精度较高。算法时间复杂度为O(n),且不需要先验知识,更适合大规模复杂网络上的社团结构挖掘。
- 赵文涛赵好好孟令军
- 关键词:社团结构复杂网络
- 一种基于MapReduce的改进文本输入方式的并行分词方法研究
- 2016年
- 中文分词方法都属于串行分词方法,不能处理海量数据。提出一种基于M印Reduce的并行分词方法。Mapreduce程模型默认使用TextI印utFomat文本输入方式,该方式不适合处理大量文本文件。首先基于CombineFilelnputFormat类,自定义文本输入方式MylnputFormat,并在实现createRecordReader方法过程中返回RecordReader对象。其次自定义MyReeordReader类来说明读取文本〈key,value〉键值对的具体逻辑。最后自定义MapReduce函数实现不同类别文本的分词结果。实验证明,基于改进后的MylnputFormat文本输入方式比默认的TextlnputFormat输入方式,更能处理大量文本文件。
- 徐宏博赵文涛孟令军