国家自然科学基金(50474033) 作品数:17 被引量:92 H指数:6 相关作者: 薛永生 冯少荣 张东站 任仲晟 董立红 更多>> 相关机构: 厦门大学 华南理工大学 中国矿业大学(北京) 更多>> 发文基金: 国家自然科学基金 福建省自然科学基金 福建省重点科技计划项目 更多>> 相关领域: 自动化与计算机技术 矿业工程 更多>>
利用维护代价约束的物化视图选择方法 2009年 为了在一定维护代价约束条件下,使查询过程中花费的总查询成本最优化,提出了最小/最大候选集变换算法.该算法构造最大候选视图集和最小候选视图集,基于最小有效的极大基数配比技术,并通过单位维护代价内的查询收益而设计的代价计算模型来获得最佳物化视图集.理论分析和实验结果表明该算法是高效、动态、近似最优的.与以往算法相比,在数据维度大、维层次复杂的情况下,该算法有着更优的执行效率. 冯少荣关键词:物化视图 视图选择 候选集 基于分区分类法快速更新频繁项集 2007年 目前已提出了许多频繁项集更新算法,但是它们往往需要至少扫描一次原数据库,且会丢失一些重要规则。为此,文章提出了一种新的快速更新频繁项集算法CUFIA(Classifying Update Frequent Itemsets Algorithm),该算法通过对新增事务数据分区后快速逐一扫描,获得频繁项集,并将它们归入3个不同的类别,从而不需要扫描原数据库,便可有效地挖掘出其中的频繁项集,且不丢失重要规则。研究表明,该算法具有很好的可测量性。 蔡进 薛永生 张东站关键词:关联规则 增量式更新 一种新的基于隐Markov模型的分层时间序列聚类算法 被引量:15 2006年 针对传统的基于隐Markov模型(HMM)的聚类算法在时间序列聚类的不足,提出了一种新的基于HMM的分层时间序列聚类算法HBHCTS,旨在提高聚类质量,同时对聚类结果给出类的表示·HBHCTS算法应用HMM对时间序列进行建模,并按照“最相似”的原则得到序列所对应的初始模型集,进而对这些初始模型合并更新及迭代得到聚类结果·实验中主要研究了聚类正确率与序列长度及模型距离的关系,结果表明HBHCTS算法比传统的基于HMM的聚类算法准确性高· 段江娇 薛永生 林子雨 汪卫 施伯乐关键词:聚类 HMM 时间序列 一种提高DBSCAN聚类算法质量的新方法 被引量:16 2008年 针对基于密度带有"噪声"的空间聚类应用(DBSCAN)聚类算法存在的3个主要问题:输入参数敏感、对内存要求高、数据分布不均匀时影响聚类效果,提出了一种基于遗传方法的DBSCAN算法改进方案数据分区中使用遗传思想的DBSCAN算法(DPDGA)来提高聚类质量.利用遗传算法改进K-means算法来获取初始聚类中心;对数据进行划分,在此基础上对划分的每一部分使用DBSCAN算法进行聚类;合并聚类的结果.仿真实验表明,新方法较好解决了传统DBSCAN聚类算法存在的问题,在聚类效率和聚类效果方面均优于传统DBSCAN聚类算法. 冯少荣 肖文俊关键词:聚类算法 遗传算法 数据划分 矿业信息质量评估与应用研究 被引量:1 2008年 信息质量是影响决策成败的关键因素之一,研究了描述矿业信息质量的关键维度,定义了各个维度并给出了度量公式,分析了矿业监测信息质量的正确性维度与时效性维度之间的关系,建立了矿业监测信息质量的一般评估算法,并通过算例分析验证了其有效性。 董立红关键词:矿业信息 信息质量 维度 一种提高文本聚类算法质量的方法 被引量:3 2008年 针对基于VSM(vector space model)的文本聚类算法存在的主要问题,即忽略了词之间的语义信息、忽略了各维度之间的联系而导致文本的相似度计算不够精确,提出基于语义距离计算文档间相似度及两阶段聚类方案来提高文本聚类算法的质量.首先,从语义上分析文档,采用最近邻算法进行第一次聚类;其次,根据相似度权重,对类特征词进行优胜劣汰;然后进行类合并;最后,进行第二次聚类,解决最近邻算法对输入次序敏感的问题.实验结果表明,提出的方法在聚类精度和召回率上均有显著的提高,较好解决了基于VSM的文本聚类算法存在的问题. 冯少荣关键词:文本聚类 语义距离 最近邻聚类 相似度 聚类算法 基于多维护策略的物化视图选择方法 被引量:3 2006年 物化视图是数据仓库环境中提高 OLAP 查询效率的重要手段,因此,物化视图的选择是数据仓库设计中重要的决策之一。本文提出的物化视图选择方法目标是选择合适的视图进行物化,使得查询处理的总代价和物化视图的维护代价最低,提出了物化视图收益模型,并在此基础上基于视图的多维护策略提出了物化视图选择的方法:基于增量和重计算的物化视图选择算法 IRMVS、基于增量策略的物化视图选择算法 IMVS 和基于重计算策略的物化视图选择算法 RMVS 和基于增量策略的物化后代视图选择算法 IMDVS,理论分析和实验表明这些算法是有效可行的。 崔晓军 薛永生 张东站 黄宗毅关键词:物化视图 基于树形结构的Web信息抽取 被引量:1 2009年 提出了一种基于树形结构的Web结构化数据抽取算法.该算法基于HTML的树形层次结构,包括HTML树构造算法,数据区域挖掘算法,数据记录挖掘算法以及数据记录模式生成算法.算法引入了页面元素布局位置等信息用于清洗页面,采用层次划分思想实现页面数据区域的挖掘,并通过树匹配生成记录模式,实现最终数据项抽取.实验表明,该方法可以有效地实现Web结构化数据抽取. 任仲晟 薛永生关键词:WEB数据抽取 WEB挖掘 信息抽取 基于充分挖掘增量事务的关联规则更新算法 被引量:4 2007年 目前已提出了许多快速的关联规则增量更新挖掘算法,但是它们在处理对新增事务敏感的问题时,往往会丢失一些重要规则。为此,文章提出了一种新的挖掘增量更新后的数据库中频繁项集的算法EUFIA(Entirety Update Frequent Itemsets Algorithm),该算法先对新增事务数据分区,然后快速扫描各分区,能全面有效地挖掘出其中的频繁项集,且不丢失重要规则。同时,最多只扫描1次原数据库也能获得更新后事务数据库的全局频繁项集。研究表明,该算法具有很好的可测量性。 蔡进 薛永生 林丽 张东站关键词:关联规则 增量式更新 矿业安全数据源质量评价研究 被引量:1 2007年 结合矿业安全信息特征,定义了相应的数据质量维度,给出了具体的数据质量评价方法,建立了针对矿业数据仓库数据源集成的预处理模型,实现了矿业数据仓库数据源质量评价。 刘开南 董立红关键词:数据质量