全勃
- 作品数:3 被引量:45H指数:1
- 供职机构:吉林大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金吉林省应用基础研究项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 快速挖掘相联规则算法研究
- 通过研究发现,挖掘相联规则算法普遍的问题是潜在频繁项集规模过大,每趟扫描没有减少数据规模.该文提出了多段支持度算法.通过实验发现,当项数很多时所生成的候选项集不能完全放入内存,导致了算法性能的下降.针对这一问题,该文提出...
- 全勃
- 关键词:频繁项集内存空间
- 文献传递
- 多段支持度数据挖掘算法研究被引量:45
- 2001年
- 在基于相联规则的数据挖掘算法中 ,Apriori等算法最为著名 .它分为两个主要步骤 :(1)通过多趟扫描数据库求解出频繁项集 ;(2 )利用频繁项集生成规则 .随后的许多算法都沿用 Apriori中“频繁项集的子集必为频繁项集”的思想 ,在频繁项集 Lk- 1 上进行 JOIN运算构成潜在 k项集 Ck.由于数据库和 Ck 的规模较大 ,需要相当大的计算量才能生成频繁项集 .Apriori Tid算法给每个事务增加了一个唯一标识 Tid ,其特点是只扫描一趟数据库 ,其余趟扫描 (如第 k趟扫描 )均在相应的数据集 Ck上进行 .由于数据规模改变不大 ,各算法的效率差别并不明显 .该文提出分段计算支持度的思想 ,是把一个项集的支持度分段计算 ,每一个段记录该项集在相应规模事务中出现的频度 ,从而构成一个支持度向量 .由于有了项集的多段支持度 ,可以推测出该项集能否包含在更大规模的频繁项集中 ,采用这种算法既提高了在扫描数据库过程中的信息获取率 ,又能及时剔除超集不是频繁项集的项集 ,进一步缩减了潜在项集的规模 .在数据集扫描过程中 ,按文中定理 1的思想调整数据集 。
- 李雄飞苑森淼董立岩全勃
- 关键词:数据挖掘相联规则频繁项集数据库
- 挖掘相联规则的并行算法研究
- 2003年
- 在研究多段支持度数据挖掘算法的基础上提出并行挖掘相联规则的算法 .给出了在并行条件下以负载平衡为目的的种子项集的划分的贪心算法策略 .基于多段支持度特征 ,为减少各个处理机之间的制约 ,提出按事务长度进行数据集划分的方案 ,并具体实现了多段支持度的并行算法 .实验结果表明该算法具有很高的效率 .特别是在双CPU情况下 ,并行算法的效率接近顺序算法的两倍 .如果把算法修正和推广到群集环境下 ,会更一步增加相联规则的实用性 .
- 臧雪柏李雄飞全勃李军
- 关键词:频繁项集负载平衡数据挖掘相联规则数据库