国家自然科学基金(60573097)
- 作品数:14 被引量:155H指数:7
- 相关作者:印鉴任江涛黄焕宇孙婧昊许盛灿更多>>
- 相关机构:中山大学广东省医学情报研究所广州美术学院更多>>
- 发文基金:国家自然科学基金广东省自然科学基金国家教育部博士点基金更多>>
- 相关领域:自动化与计算机技术医药卫生更多>>
- 基于边界点的可分离性度量及特征选择被引量:1
- 2007年
- 提出了一种新的面向高维数据的特征选择方法,在特征子集搜索上采用遗传算法进行随机搜索,在特征子集评价上采用基于边界点的可分性度量作为评价指标及适应度。实验结果表明,该算法可有效地找出具有较好的可分离性的特征子集,从而实现降维并提高分类精度。
- 任江涛孙婧昊黄焕宇印鉴
- 关键词:边界点可分离性遗传算法
- 基于χ~2统计量的kNN文本分类算法被引量:19
- 2007年
- 随着Internet上文档信息的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.由于χ2统计量能很好地体现词和类别之间的相关性,因此成为特征选择中常用的评估函数.本文分析了χ2统计量在特征选择和分类决策阶段的性质,提出了一种新的基于χ2统计量的相似度定义,并结合基于两次类别判定的快速搜索算法,改进了传统的kNN算法.实验结果显示基于χ2统计量的改进kNN文本分类算法能大大减少kNN算法的分类时间,并提高了kNN算法的准确率和召回率.
- 印鉴谭焕云
- 关键词:文本分类KNN
- 基于最大访问模式挖掘的数据库异常行为检测
- 2006年
- 引入访问模式描述用户访问数据库系统的主要行为特征,利用从数据库审计记录中挖掘的最大访问模式来检测数据库系统的异常行为.基于FP-tree结构,提出了一种最大访问模式挖掘算法MMAP.基于数据库系统中关系之间的外键依赖提出了一种关系距离约束,进一步减少挖掘算法的搜索空间.基于MMAP算法建立了一个检测模型,测试表明该模型能有效地检测数据库系统的异常行为.
- 刘玉葆蔡嘉荣印鉴黄志兰
- 关键词:数据库入侵检测数据挖掘
- 基于PSO面向K近邻分类的特征权重学习算法被引量:9
- 2007年
- 特征权重学习是基于特征赋权的K近邻算法需要解决的重要问题之一,传统上提出了许多启发式的学习方法。近年来,随着进化计算技术在模式识别及数据挖掘领域的广泛应用,基于进化计算的权重学习和距离学习方法也得到越来越多的重视。本研究针对基于特征赋权的K近邻算法的权重学习问题,提出了一种基于PSO进行权重学习的算法PSOKNN,通过与传统KNN、GAKNN及ReliefKNN的实验比较分析表明,该方法可有效地搜索出合适的特征权重,获得较好的分类精度并淘汰冗余或无关的特征。
- 任江涛卓晓岚许盛灿印鉴
- 关键词:K近邻分类粒子群算法
- 搜索引擎的主题提取算法研究被引量:1
- 2008年
- 以一个自行开发的搜索引擎系统为背景研究主题提取算法,通过对几种经典主题提取算法的分析、融合,提出了一个新的主题提取算法。用该搜索引擎证明了新提出算法比经典的HITS算法在性能上有很大的提高。
- 郑利荣
- 关键词:主题提取搜索引擎链接分析
- 基于信息增益的中文文本关联分类被引量:4
- 2007年
- 关联分类是一种通过挖掘训练集中的关联规则,并利用这些规则预测新数据类属性的分类技术。最近的研究表明,关联分类取得了比传统的分类方法如C4.5更高的准确率。现有的基于支持度-置信度架构的关联分类方法仅仅是选择频繁文字构建分类规则,忽略了文字的分类有效性。本文提出一种新的ACIG算法,结合信息增益与FoilGain在中文文本中选择规则的文字,以提高文字的分类有效性。实验结果表明,ACIG算法比其他关联分类算法(CPAR)有更高的准确率。
- 陈志雄陈健闵华清
- 关键词:计算机应用中文信息处理信息增益文本分类
- 关联规则挖掘在中医证候信息数据库系统中的应用被引量:7
- 2008年
- 关联规则挖掘是数据挖掘的一个重要研究方向,它可以揭示数据之间有趣的关联或者相关联系。在此基础上结合特定系统的用户行为数据,还可以进行用户行为分析。本文以一个开发的中医证候信息数据库系统为基础,结合中医数据挖掘实际,论述了在此系统架构下关联规则挖掘算法的成功运用,并提出了一个高效的中医数据挖掘模型。系统运行状况表明,在该模型指导下的系统在智能和用户使用人性化方面都比原系统有明显的优势。
- 郑利荣印鉴
- 关键词:关联规则数据挖掘中医证候
- 一种有效的文本聚类算法
- 1引言近年来,人们可以方便地从Internet、数字图书馆、新闻机构和公司内部网上获得数目惊人的文本文档,从而对发展能够帮助用户有效地检索、组织和
- 蔡嘉荣印鉴刘玉葆黄志兰
- 文献传递
- 基于最大访问模式挖掘的数据库异常行为检测
- 引入访问模式描述用户访问数据库系统的主要行为特征,利用从数据库审计记录中挖掘的最大访问模式来检测数据库系统的异常行为.基于FP-tree结构,提出了一种最大访问模式挖掘算法MMAP.基于数据库系统中关系之间的外键依赖提出...
- 刘玉葆蔡嘉荣印鉴黄志兰
- 关键词:数据库入侵检测数据挖掘
- 文献传递
- 基于二进制PSO算法的特征选择及SVM参数同步优化被引量:20
- 2007年
- 特征选择及分类器参数优化是提高分类器性能的两个重要方面,传统上这两个问题是分开解决的。近年来,随着进化优化计算技术在模式识别领域的广泛应用,编码上的灵活性使得特征选择及参数的同步优化成为一种可能和趋势。为了解决此问题,本文研究采用二进制PSO算法同步进行特征选择及SVM参数的同步优化,提出了一种PSO-SVM算法。实验表明,该方法可有效地找出合适的特征子集及SVM参数,并取得较好的分类效果;且与文[4]所提出的GA-SVM算法相比具有特征精简幅度较大、运行效率较高等优点。
- 任江涛赵少东许盛灿印鉴
- 关键词:支持向量机粒子群算法