国家科技成果重点推广计划(2003EC000001)
- 作品数:36 被引量:196H指数:8
- 相关作者:杨炳儒宋威徐章艳张伟张克君更多>>
- 相关机构:北京科技大学北华大学广西师范大学更多>>
- 发文基金:国家科技成果重点推广计划国家自然科学基金教育部科学技术研究重点项目更多>>
- 相关领域:自动化与计算机技术文化科学经济管理建筑科学更多>>
- 一种多标准决策树剪枝方法及其在入侵检测中的应用被引量:2
- 2007年
- 为提高决策树的适用性,以决策树在入侵检测中的应用为背景提出一种多标准的剪枝方法,使决策树程序能在参数调整后适应不同的应用.给出了用于描述决策树不同性能的一些参量,如稳定性、复杂度、分类能力等,用户可以根据具体情况对向量各分量的权重进行调整,逐步得到满足要求的决策树.实验结果表明,该算法能够根据入侵检测系统的具体需要,快速地构建相应的决策树,从而程序可被用于不同情况.该方法把由程序员决定决策树变成了由用户决定决策树,程序更通用,结果更合理.
- 李卫东宋威李欣杨炳儒
- 关键词:入侵检测决策树剪枝稳定性复杂度
- 面向语义的精简化多关系频繁模式发现方法被引量:2
- 2008年
- 多关系频繁模式发现能够直接从复杂结构化数据中发现涉及多个关系的复杂频繁模式,避免了传统方法的局限。有别于主流基于归纳逻辑程序设计技术的方法,提出了基于合取查询包含关系的面向语义的精简化多关系频繁模式发现方法,具有理论与技术基础的新颖性,解决了两种语义冗余问题。实验表明,该方法在可理解性、功能、效率以及可扩展性方面具有优势。
- 杨炳儒张伟钱榕
- 关键词:多关系数据挖掘
- 快速求正区域的渐增式方法研究被引量:2
- 2006年
- 正区域是粗糙集理论中的核心概念之一,提高计算正区域算法的效率对于其相关算法的效率有重要的影响。本文提出了一种求正区域的渐增式方法,它能有效地去掉求正区域算法中的一些冗余运算,其计算正区域的时间复杂度为,替换掉该算法的一部分将得到一个属性约简算法,它是高效而往往能满足用户需求的,比较适用于大型数据集。理论结果和实验表明,该方法确实能高效地计算出正区域。
- 刘作鹏张颖超杨炳儒
- 关键词:粗糙集决策表属性约简
- 基于索引数组与集合枚举树的最大频繁项集挖掘算法被引量:4
- 2007年
- 由于其内在的计算复杂性,挖掘密集型数据集的全部频繁项集非常困难,解决方案之一是挖掘最大频繁项集。集合枚举树是最大频繁项集挖掘算法中常用的数据结构,最大频繁项集的挖掘过程也可以看作是集合枚举树的搜索过程。为缩小集合枚举树的搜索空间,采用宽度优先和深度优先相结合的混合搜索策略,提出了一种新的最大频繁项集的挖掘算法Index-MaxMiner。该算法首先设计了索引数组这种新的数据结构,并给出了一个基于二进制位图技术的索引数组的计算方法。通过为每个频繁项增加包含索引,Index-MaxMiner利用一次宽度优先搜索得到了候选最大频繁项集,使集合枚举树的第一层结点个数大幅度减少。然后在候选最大频繁项集中通过深度优先搜索,得到全部最大频繁项集,从而实现了集合枚举树的跳跃式搜索,大大缩小了搜索空间。实验结果表明,该算法可有效提高最大频繁项集的挖掘效率。
- 宋威杨炳儒徐章艳侯伟
- 关键词:数据挖掘关联规则最大频繁项集索引数组集合枚举树
- 多关系频繁模式发现研究被引量:8
- 2007年
- 频繁模式发现是数据挖掘的重要任务之一。现实数据通常存储于由多个关系组成的关系数据库中。传统的频繁模式发现方法只能直接完成单一关系中的模式发现,如果要完成多关系数据的挖掘,会产生操作复杂性和信息丢失等问题。多关系数据挖掘是当前数据挖掘研究中快速发展的重要领域之一。多关系频繁模式发现方法能够直接从复杂结构化数据中发现涉及多个关系的复杂频繁模式,避免了传统方法的局限。本文首先归纳多关系频繁模式发现方法的发生历史背景,其次分析总结多关系频繁模式发现方法,最后提出了多关系频繁模式发现将来发展需重点解决的问题和面临的挑战。
- 张伟杨炳儒钱榕
- 关键词:多关系数据挖掘归纳逻辑程序设计
- 利用数据挖掘方法分析客户生涯价值被引量:4
- 2005年
- 针对客户生涯价值分析这一客户关系管理系统的重要问题,在分析已有工作的基础上,经过多级数据归约,提出了多商品配送企业适合工程计算的客户生涯价值公式。进而对客户进行了高速聚类挖掘,找出了客户群的特点,对公司有针对性地制定客户策略起到了一定的指导作用。
- 李卫东宋威杨炳儒
- 关键词:数据挖掘聚类分析数据归约
- Web信息检索技术中关联规则挖掘算法应用研究被引量:7
- 2007年
- 针对Web信息检索系统在海量数据下的服务质量和效率问题,讨论了数据挖掘技术在Internet信息检索中的运用,在经典的关联规则算法研究基础上,通过引入多维链表结构,提出了利用事务集合匹配运算和链表操作高效地挖掘关联规则的算法ARMLL用于提高Web信息检索质量。实验结果表明该算法是可行的,有较高的效率。
- 金玮孙艳张克君曲文龙
- 关键词:数据挖掘关联规则多维链表
- 基于索引数组和复合频繁模式树的频繁闭项集挖掘算法被引量:1
- 2007年
- 频繁闭项集惟一确定频繁项集且规模小得多。CROP是一种基于复合频繁模式树的、频繁闭项集高效挖掘算法,但存在着候选结点过多的问题。这些非闭合结点的生成、检查和剪裁带来了大量不必要的操作。提出了一种改进的频繁闭项集挖掘算法CROP_Index。该算法用"索引数组"来组织数据,找到频繁共同出现的项集。基于二进制位图,给出了一个包含索引的计算方法,并利用索引启发信息合并,得到复合型频繁模式树的初始结点;同时给出一些新的性质,使得改进的算法只生成闭合结点,从而节省了大量不必要的操作,缩小了搜索空间。实验结果表明该算法效率较高。
- 宋威杨炳儒徐章艳张桃红
- 关键词:数据挖掘关联规则频繁闭项集索引数组
- 基于周期采样的数据流频繁项集挖掘算法研究
- 2009年
- 针对用于数据流频繁项集挖掘的现有方法存在引入过多次频繁项集以及时空性能与输出精度较低的问题,利用Chebyshev不等式,构造了项集频度周期采样的概率误差边界,给出了动态检测项集支持度变化方法。提出了一种基于周期采样的数据流频繁项集挖掘算法FI-PS,该算法通过跟踪项集支持度变化确定项集支持度的稳定性,并以此作为调整窗口大小以及采样周期的依据,从而以一个较大的概率保证项集支持度误差有上界。理论分析及实验证明该算法有效,在保证挖掘结果准确度相对较好的条件下,可获得较优执行性能。
- 侯伟杨炳儒吴晨生周谆
- 关键词:数据挖掘数据流
- 差别矩阵属性约简的信息观解释被引量:6
- 2007年
- 常见的属性约简定义有三种,即基于代数观的属性约简,基于信息观的属性约简和基于HU差别矩阵的属性约简。已有文献证明这三种属性约简彼此之间不等价。王国胤教授定义了一种新的决策表信息熵计算方法,在此方法基础上给出了粗糙集理论代数观的一种新的信息观解释。最近有学者提出了一种基于新信息熵的属性约简。经深入研究,我们证明了该属性约简与基于HU差别矩阵的属性约简是等价的,从而给出了基于HU差别矩阵的属性约简的信息观解释。
- 徐章艳杨炳儒宋威侯伟
- 关键词:正区域差别矩阵信息熵