辽宁省科技厅科技攻关项目(2007308003)
- 作品数:4 被引量:21H指数:2
- 相关作者:邱云飞邵良杉王建坤李雪刘大有更多>>
- 相关机构:辽宁工程技术大学更多>>
- 发文基金:辽宁省科技厅科技攻关项目国家自然科学基金辽宁省高校创新团队支持计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于线性组合文本特征选择方法被引量:4
- 2011年
- 常用文本分类特征选择算法主要通过某种评价函数来计算单个特征对类别的区分能力,由于仅考虑了特征和类别之间的关联性,忽略了特征与特征之间的相关性,从而导致特征集存在冗余。针对这一问题,提出了一种新的用于文本分类的特征选择算法,该算法可以帮助选出类别区分能力强、特征之间关联性弱的特征。实验证实,该算法的性能要优于传统的特征选择算法。
- 邱云飞王建坤李雪邵良杉
- 关键词:文本分类冗余性
- 面向属性值遗漏数据决策树分类算法研究被引量:1
- 2011年
- 在已有的多种决策树测试属性选择方法中,未见将属性值遗漏数据处理集成在测试属性选择过程中的报道,而现有的属性值遗漏数据处理方法都会不同程度地带入偏置。基于此,提出了一种将基于联合熵的信息增益率作为决策树测试属性选择标准的方法,用以在生成决策树的过程中消除值遗漏数据对测试属性选择的影响。在WEKA机器平台上进行了对比实验,结果表明,改进算法能够从总体上提高算法的执行效率和分类精度。
- 邱云飞李雪王建坤邵良杉
- 关键词:联合熵决策树
- 基于VPRS多变量决策树优化算法
- 2010年
- 噪声数据降低了多变量决策树的生成效率和模型质量,目前主要采用针对叶节点的剪枝策略来消除噪声数据的影响,而对决策树生成过程中的噪声干扰问题却没有给予关注。为改变这种状况,将基本粗糙集(rough set,RS)理论中相对核的概念推广到变精度粗糙集(variable precision rough set,VPRS)理论中,并利用其进行决策树初始变量选择;将两个等价关系相对泛化的概念推广为两个等价关系多数包含情况下的相对泛化,并利用其进行决策树初始属性检验;进而给出一种能够有效消除噪声数据干扰的多变量决策树构造算法。最后,采用实例验证了算法的有效性。
- 邱云飞王光关晓林邵良杉
- 关键词:单变量决策树多变量决策树噪声数据变精度粗糙集
- 基于用户行为的产品垃圾评论者检测研究被引量:16
- 2012年
- 为找到垃圾评论的制造者,提出一种基于用户行为的产品垃圾评论者检测方法。从垃圾评论者的行为目的出发,将其发表垃圾评论的5种行为模式作为垃圾评论者的检测指标,从卓越亚马逊网站获取1 470个评论用户,按单指标选取、5个指标集成选取的方法确定最可能和最不可能成为垃圾评论者的评论用户各25个,并对这50个评论者进行人工标记,根据标记结果设计有监督的线性回归模型。实验结果表明,该模型从1 470个评论者中发现88个用户为垃圾评论者,对垃圾评论者的检测效果优于基于用户有用性投票的基准方法。
- 邱云飞王建坤邵良杉刘大有
- 关键词:用户行为线性回归模型垃圾评论