国家教育部博士点基金(20050558017)
- 作品数:10 被引量:108H指数:6
- 相关作者:印鉴郑利荣黄承慧张国荣汪静更多>>
- 相关机构:中山大学广东省医学情报研究所广东金融学院更多>>
- 发文基金:国家教育部博士点基金国家自然科学基金广东省自然科学基金更多>>
- 相关领域:自动化与计算机技术医药卫生更多>>
- 基于信息增益的中文文本关联分类被引量:4
- 2007年
- 关联分类是一种通过挖掘训练集中的关联规则,并利用这些规则预测新数据类属性的分类技术。最近的研究表明,关联分类取得了比传统的分类方法如C4.5更高的准确率。现有的基于支持度-置信度架构的关联分类方法仅仅是选择频繁文字构建分类规则,忽略了文字的分类有效性。本文提出一种新的ACIG算法,结合信息增益与FoilGain在中文文本中选择规则的文字,以提高文字的分类有效性。实验结果表明,ACIG算法比其他关联分类算法(CPAR)有更高的准确率。
- 陈志雄陈健闵华清
- 关键词:计算机应用中文信息处理信息增益文本分类
- 关联规则挖掘在中医证候信息数据库系统中的应用被引量:7
- 2008年
- 关联规则挖掘是数据挖掘的一个重要研究方向,它可以揭示数据之间有趣的关联或者相关联系。在此基础上结合特定系统的用户行为数据,还可以进行用户行为分析。本文以一个开发的中医证候信息数据库系统为基础,结合中医数据挖掘实际,论述了在此系统架构下关联规则挖掘算法的成功运用,并提出了一个高效的中医数据挖掘模型。系统运行状况表明,在该模型指导下的系统在智能和用户使用人性化方面都比原系统有明显的优势。
- 郑利荣印鉴
- 关键词:关联规则数据挖掘中医证候
- 一种有效的文本聚类算法
- 1引言近年来,人们可以方便地从Internet、数字图书馆、新闻机构和公司内部网上获得数目惊人的文本文档,从而对发展能够帮助用户有效地检索、组织和
- 蔡嘉荣印鉴刘玉葆黄志兰
- 文献传递
- 一种改进的Lucene语义相似度检索算法被引量:15
- 2011年
- 在Lucene的基础上,结合检索词项的语义信息,利用外部词典Wordnet分析检索词项与被检索文档中词项的语义相似度,在此基础上实现对文档语义信息的检索。通过分析现有的相似度量函数的核心特征,选择合适的语义相似度量方法,提出了一种新的词项语义相似度检索函数,该函数能够对检索文档按照语义相似度进行排序。实验结果表明,所提出的方法能够有效地提升文献检索的准确度。
- 黄承慧印鉴陆寄远
- 关键词:语义相似度信息检索
- 基于共同评分和相似性权重的协同过滤推荐算法被引量:44
- 2010年
- 协同过滤推荐算法是在电子商务推荐系统中应用最成功的推荐技术之一。提出了一种基于共同评分和相似性权重的协同过滤推荐算法。该算法选择用户的共同评分数据计算用户的相似性,选择项目被用户共同评分的数据计算项目的相似性,再分别计算基于用户以及项目算法的预测评分,然后通过相似性权重结合两者得到最终的预测结果,最后再根据预测结果产生推荐。实际数据的实验结果表明,提出的算法显著提高了预测准确度,从而提高了推荐质量。
- 汪静印鉴郑利荣黄创光
- 关键词:电子商务推荐系统协同过滤
- 基于博弈论的安全多方求和方法被引量:7
- 2009年
- 在已知的安全求和方法基础上,针对合作各方可能不诚实提供数据或共谋的情况,提出了一种基于博弈论的安全多方求和算法。算法中各方基于最大化收益的目标,自觉选择诚实、不共谋的参与计算。分析表明算法能很好地完成计算,保护隐私信息。
- 张国荣印鉴
- 关键词:分布式计算博弈共谋
- 基于最大访问模式挖掘的数据库异常行为检测
- 引入访问模式描述用户访问数据库系统的主要行为特征,利用从数据库审计记录中挖掘的最大访问模式来检测数据库系统的异常行为.基于FP-tree结构,提出了一种最大访问模式挖掘算法MMAP.基于数据库系统中关系之间的外键依赖提出...
- 刘玉葆蔡嘉荣印鉴黄志兰
- 关键词:数据库入侵检测数据挖掘
- 文献传递
- 基于χ~2统计量的kNN文本分类算法被引量:19
- 2007年
- 随着Internet上文档信息的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.由于χ2统计量能很好地体现词和类别之间的相关性,因此成为特征选择中常用的评估函数.本文分析了χ2统计量在特征选择和分类决策阶段的性质,提出了一种新的基于χ2统计量的相似度定义,并结合基于两次类别判定的快速搜索算法,改进了传统的kNN算法.实验结果显示基于χ2统计量的改进kNN文本分类算法能大大减少kNN算法的分类时间,并提高了kNN算法的准确率和召回率.
- 印鉴谭焕云
- 关键词:文本分类KNN
- 基于最大访问模式挖掘的数据库异常行为检测
- 2006年
- 引入访问模式描述用户访问数据库系统的主要行为特征,利用从数据库审计记录中挖掘的最大访问模式来检测数据库系统的异常行为.基于FP-tree结构,提出了一种最大访问模式挖掘算法MMAP.基于数据库系统中关系之间的外键依赖提出了一种关系距离约束,进一步减少挖掘算法的搜索空间.基于MMAP算法建立了一个检测模型,测试表明该模型能有效地检测数据库系统的异常行为.
- 刘玉葆蔡嘉荣印鉴黄志兰
- 关键词:数据库入侵检测数据挖掘
- 基于先验知识下支持向量机P-SVM的分类算法被引量:2
- 2007年
- 支持向量机在分类算法原理中的顺次最小优化算法SMO一般比传统的块算法和固定工作样本集的算法具有更好的时间和空间复杂性,但是由于在实际应用领域中对样本的需求量很大,使得对样本的标记是应用中耗时耗力的工作.本文提出了基于先验知识下的支持向量机,通过引入先验信息量而减少所需样本的数量,同时给出了相应的P-SMO算法.分类应用背景利用中医证候数据,通过专家知识提供的证候知识规则,对训练样本集进行置信度的计算,然后使用P-SMO算法训练出P-SVM,实验结果表明分类效率有较大的提高.
- 印鉴梅芳张钢任江涛
- 关键词:支持向量机文本分类置信度