马秀莉
- 作品数:14 被引量:118H指数:3
- 供职机构:北京大学信息科学技术学院机器感知与智能教育部重点实验室更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划教育部留学回国人员科研启动基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 异常分布驱动的数据立方体导航方法被引量:1
- 2006年
- 在基于多维数据的分析中,分析人员面对的经常是庞大的数据立方体.联机分析处理虽然提供了灵活的展现和分析功能,却只能进行假设驱动的探查,很容易忽略重要信息.而已有的发现驱动的探查是基于局部异常的导航,容易受数据噪声的干扰.针对这些问题,提出了一种新的导航方法——异常分布驱动的导航.这是一种有效的辅助探查数据立方体的方法,可以循序渐进地引导用户至信息量大的数据部分.它将维和维成员作为探查数据立方体的脉络,基于数据分布特征为各个维和所有维成员计算奇异度,作为用户探查数据立方体的导航符.实验结果表明此导航方法是实用有效的.
- 遇辉唐世渭杨冬青马秀莉
- 关键词:多维数据分析特征提取联机分析处理
- 面向高维数据的低冗余Top-k异常点发现方法
- 异常发现是数据挖掘领域的一类重要任务,一直以来受到研究人员的广泛关注。针对高维对象的异常度量问题和异常点集合的冗余问题,本文提出了一种新的面向高维数据的异常点发现方法。该方法通过采用高维数据的二部图表示,以高维对象的压缩...
- 陈冠华马秀莉杨冬青唐世渭帅猛
- 关键词:高维数据
- 文献传递
- 数据立方体切片的核心聚类分析方法
- 对立方体数据的分析挖掘由于具有广泛的现实应用而日益得到人们的重视.基于对立方体切片数据的分析应用问题,提出了一种新的核心聚类分析方法.核心聚类分析主要针对传统聚类模型得到的结果类簇不够紧密和需要预先定义类簇的数目等不足之...
- 姜力争杨冬青唐世渭马秀莉张德辉
- 关键词:数据挖掘聚类数据立方体切片
- 文献传递
- 数据立方体切片的核心聚类分析方法
- 2006年
- 对立方体数据的分析挖掘由于具有广泛的现实应用而日益得到人们的重视.基于对立方体切片数据的分析应用问题,提出了一种新的核心聚类分析方法.核心聚类分析主要针对传统聚类模型得到的结果类簇不够紧密和需要预先定义类簇的数目等不足之处,而点对敏感聚类模型(pair-wise cluster)算法复杂度是NP难的问题而设计.核心聚类模型将数据集合中的点划分为若干不相交的核心点集和边界点集,同一核心点集内任意点对的相似度大于阈值σ,而不同核心点集的点对相似度小于阈值σ.核心聚类模型挖掘出的核心点集是紧密类簇,并且具备良好的分类性质.由于采用了局部优化算法,核心聚类模型的算法复杂度为O(n2),较点对敏感的最大相关成员簇聚类模型大大降低.同时,可以通过核心点集和边界点集构造最大相关成员簇的上界,这就在一定程度上保证了核心聚类模型结果的完备性.实验和分析对比说明核心聚类模型具有较高的算法效率,可扩展性强,结果表示合理,能够很好地解决现实应用问题.
- 姜力争杨冬青唐世渭马秀莉张德辉
- 关键词:数据挖掘聚类数据立方体切片
- 频繁模式增量挖掘和交互挖掘的理论与方法研究
- 从大型数据库中挖掘频繁模式是许多数据挖掘问题中的核心任务,并有广泛的应用.但是已有的大多数方法都假设数据库是静态的.其实在越来越多的应用领域,数据库都处在有规律的更新中.在这些动态环境中,增量维护以前发现的模式就成为本质...
- 马秀莉
- 关键词:数据挖掘频繁模式挖掘
- 快速关联规则挖掘算法被引量:36
- 2002年
- 关联规则挖掘是数据挖掘及知识发现领域的重要研究内容之一,其核心任务是挖掘数据库中的频繁项集。Apriori及其改良算法是频繁项集挖掘的有效算法。在类Apriori的算法中,它们都采用哈希树来存储频繁项集的候补项集以便快速计算其支持度。该文在仔细分析这些算法所存在的效率瓶颈的基础上,提出了另一个有效的改进算法。所提算法通过利用一个一维数组替代已有算法中的复杂的哈希树来达到改善它们效率瓶颈的目的。通过多个实验评估,该文所提算法的挖掘效率很高,比Apriori及其改良算法要快2到5倍。
- 杜孝平马秀莉唐世渭牧之内 显文
- 关键词:频繁项集关联规则数据挖掘数据库知识发现
- 数据立方体切片的核心聚类分析方法
- 对立方体数据的分析挖掘由于具有广泛的现实应用而日益得到人们的重视.基于对立方体切片数据的分析应用问题,提出了一种新的核心聚类分析方法.核心聚类分析主要针对传统聚类模型得到的结果类簇不够紧密和需要预先定义类簇的数目等不足之...
- 姜力争杨冬青唐世渭马秀莉张德辉
- 关键词:数据挖掘聚类数据立方体切片
- 文献传递
- 面向高维数据的低冗余top-k异常点发现方法被引量:2
- 2010年
- 异常发现是数据挖掘领域的一类重要任务.针对高维对象的异常度量问题和异常点集合的冗余问题,提出了一种新的面向高维数据的异常点发现方法.该方法通过采用高维数据的二部图表示,以高维对象的压缩能力作为其异常程度的度量,能够有效支持包含不同类型属性的高维数据.为了解决top-k异常点集合中的冗余问题,提出了低冗余top-k异常点的概念.由于精确计算低冗余的top-k异常点是NP-hard问题,设计了计算近似低冗余的top-k异常点的启发式方法k-AnomaliesHD算法.从在真实和人工数据集上的实验结果可以看出,该方法具有较好的扩展性;而且与不考虑冗余的异常点发现方法相比较,能够更有效地概括数据中的异常模式.
- 陈冠华马秀莉杨冬青唐世渭帅猛谢昆青
- 关键词:数据挖掘异常检测高维数据
- 一种有效的隐私保护关联规则挖掘方法被引量:63
- 2006年
- 隐私保护是当前数据挖掘领域中一个十分重要的研究问题,其目标是要在不精确访问真实原始数据的条件下,得到准确的模型和分析结果.为了提高对隐私数据的保护程度和挖掘结果的准确性,提出一种有效的隐私保护关联规则挖掘方法.首先将数据干扰和查询限制这两种隐私保护的基本策略相结合,提出了一种新的数据随机处理方法,即部分隐藏的随机化回答(randomizedresponsewithpartialhiding,简称RRPH)方法,以对原始数据进行变换和隐藏.然后以此为基础,针对经过RRPH方法处理后的数据,给出了一种简单而又高效的频繁项集生成算法,进而实现了隐私保护的关联规则挖掘.理论分析和实验结果均表明,基于RRPH的隐私保护关联规则挖掘方法具有很好的隐私性、准确性、高效性和适用性.
- 张鹏童云海唐世渭杨冬青马秀莉
- 关键词:隐私保护数据挖掘关联规则频繁项集随机化回答
- 基于模式索引树的增量挖掘
- 1引言频繁模式挖掘不仅在现实中有非常重要的应用背景,而且也是许多其他挖掘任务的基础和核心,近年来在此方面已有大量的研究,但是已有的算法大都假设数据库是静态的。其实越来越多的应用领域
- 马秀莉刘健童云海唐世渭杨冬青
- 文献传递