江苏省自然科学基金(BK2002091) 作品数:10 被引量:106 H指数:4 相关作者: 王建东 叶飞跃 陈慧萍 庄毅 李涛 更多>> 相关机构: 南京航空航天大学 河海大学 更多>> 发文基金: 江苏省自然科学基金 国家重点基础研究发展计划 江苏省高校自然科学研究项目 更多>> 相关领域: 自动化与计算机技术 更多>>
一种基于多数组的频繁模式挖掘算法 被引量:1 2004年 提出了一种新颖的频繁模式挖掘算法,该算法与现有的挖掘算法相比具有明显的优点,首先,该算法不需要产生候选项集,其次该算法具有更少的数据库扫描次数,该算法在中小型数据库上挖掘关联规则只需要扫描交易数据库一次,对于大型交易数据库的关联规则挖掘最多也只需要扫描交易数据库两次。因而,该算法与现有的频繁模式挖掘算法相比具有更高的效率。 叶飞跃 王建东 庄毅 冯新宇 李涛关键词:数据挖掘 关联规则 数组 基于FP-tree和支持度数组的最大频繁项集挖掘算法 被引量:3 2005年 提出了一个基于频繁模式树即FP-tree和支持度数组相结合的最大频繁项集挖掘算法,首先建立FP-tree,同时建立支持度数组,然后在此基础上建立最大频繁项集树MAXFP-tree,MAXFP-tree中包含了所有最大频繁项集,缩小了搜索空间,提高了算法的效率。算法分析和实验表明,该算法对稠密型数据集和稀疏型数据集均适用,并且特别适于挖掘具有长频繁项集的数据集。 陈慧萍 王建东 叶飞跃 王煜关键词:数据挖掘 FP-TREE 最大频繁项集 一种基于用户聚类的协同过滤推荐算法 被引量:76 2007年 为解决传统协同过滤算法在生成推荐时的速度瓶颈问题,提出了一种基于用户聚类的协同过滤推荐算法。该算法将推荐过程分成了离线和在线两个部分。离线时,算法对基本用户数据进行预处理,并对基本用户聚类;在线时,算法利用已有的用户聚类寻找目标用户最近邻居,并产生推荐。实验表明,基于用户聚类的协同过滤推荐算法不仅加快了推荐生成速度,而且提高了推荐质量。 李涛 王建东 叶飞跃 冯新宇 张有东关键词:协同过滤 聚类 平均绝对误差 一种快速的自适应频繁模式挖掘方法 2004年 提出一种自适应的频繁模式挖掘算法:AD-Mine算法.该算法采用超结构,根据计算机可用内存自动确定一次性产生超结构的大小,能够自动适应各类不同特性的数据,进行高效率的频繁模式挖掘工作.同时提出了一种能够有效地减少扫描记录数的新颖的数据库划分方法. 叶飞跃 王建东 庄毅关键词:数据挖掘 自适应 基于Mobile Agents的新型分布式入侵检测系统 2003年 在分析一般入侵检测方法的基础上 ,提出了一种新的基于MobileAgent (MA)的分布式入侵检测方法 .该方法兼顾了原有的优点 ,并在一定程度上弥补了原有方法的不足 .重点讨论了MA在入侵检测系统中的应用 ,叙述了如何通过MAs之间的协作进行入侵检测 ,并利用MA的特性对入侵检测系统本身的安全性和抗毁灭性做了具体的论述 .提出的入侵检测结构提高了系统的抗毁性和自恢复能力 ,提高了入侵检测系统自身的安全性 .说明了系统的体系结构。 茌寒文 庄毅 刘佳 田明关键词:入侵检测 MOBILE AGENT 分布式 抗毁性 一种高效的最大频繁项集挖掘算法DFMFI-Miner 被引量:1 2006年 分析最大频繁项集和完全频繁项集的关系,提出了一个挖掘最大频繁项集的高效算法DFMFI M iner(The M iner Basedon D epth-F irst Search ing forM in ingMaximal Frequent Item sets),采用深度优先方法搜索项集空间,采用垂直位图及一定的压缩方法对表示事务数据库并进行约简,并采用多种有效剪枝策略和优化策略,提高了算法的效率。在多个数据集上进行了实验,实验结果表明该算法特别适于挖掘具有长频繁项集的数据集。 陈慧萍 王建东 王煜关键词:数据挖掘 深度优先搜索 频繁项集 最大频繁项集 基于多层相似性用户聚类的推荐算法 被引量:5 2006年 为了降低数据稀疏性的影响,提高推荐系统的推荐生成质量,提出了一种基于多层相似性用户聚类的协同过滤推荐算法。该算法采用新的多层用户相似性度量,并将推荐过程分成了离线和在线两个部分。离线时,算法对基本用户数据进行预处理,并对基本用户聚类;在线时,算法利用已有的用户聚类寻找目标用户最近邻居,并产生推荐。实验表明,该算法不仅加快了推荐生成速度,而且提高了推荐质量,降低了约6%的平均绝对误差。 李涛 王建东关键词:协同过滤 聚类 平均绝对误差 MAXFP-Miner:利用FP-tree快速挖掘最大频繁项集 被引量:6 2005年 为提高频繁项集的挖掘效率,提出了最大频繁项集树的概念和基于FP-tree的最大频繁项集挖掘算法MAXFP-Miner.首先建立了FP-tree,在此基础上建立最大频繁项集树MAXFP-tree,MAXFP-tree中包含了所有最大频繁项集,缩小了搜索空间,提高了算法的效率.算法分析和实验表明,该算法特别适合于挖掘稠密型及具有长频繁项集的数据集. 陈慧萍 王建东 叶飞跃关键词:数据挖掘 FP-TREE 频繁项集 基于超结构的分布式系统的关联规则挖掘算法 被引量:2 2004年 提出了基于超结构的分布式系统的关联规则挖掘的分布式算法 (HSDM) ,该算法与现有的相关分布式挖掘算法相比 ,具有明显的优点 .该算法不需要产生候选项集 ,只需两次扫描各站点局部数据库 ,挖掘速度快 .该算法还采用自底向上的挖掘方式 ,能够对其超结构进行有效剪枝 ,从而大大减少了各站点之间的数据交换 。 叶飞跃 王建东 庄毅 陈慧萍 张有东关键词:分布式数据挖掘 关联规则 超结构 频繁项集挖掘的研究与进展 被引量:15 2006年 挖掘频繁项集是许多数据挖掘任务中的关键问题,也是关联规则挖掘算法的核心,所以提高频繁项集的生成效率一直是近几年数据挖掘领域研究的热点之一,研究人员从不同的角度对算法进行改进以提高算法的效率。该文从频繁项集生成过程中解空间的类型、搜索方法和剪枝策略、数据库的表示方法、数据压缩技术等几个方面对频繁项集挖掘的基本策略进行了研究,对完全频繁项集挖掘、频繁闭项集挖掘和最大频繁项集挖掘的典型算法特别是最新算法进行了介绍和评述,并分析了各种算法的性能特点,指出其适于哪种类型的数据集。最后,对频繁项集挖掘算法的发展方向进行了初步的探讨。 陈慧萍 王建东 王煜关键词:数据挖掘 频繁项集 搜索方法 剪枝策略