甘肃省自然科学基金(3ZS051-A25-035)
- 作品数:6 被引量:21H指数:3
- 相关作者:陈晓云冷明伟马友忠杨丽郑良仁更多>>
- 相关机构:兰州大学上饶师范学院新疆职业大学更多>>
- 发文基金:甘肃省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于用户群的智能主题爬虫被引量:5
- 2007年
- 提出一个基于用户群的智能主题爬虫系统CITC。它首先对用户群日志进行挖掘,得到相应的知识库。在知识库的指导下,CITC采用多重选择策略,对网页进行选择性爬取。实验结果表明,此系统能够基于用户群兴趣有效地抓取目的网页。
- 赵燕陈晓云莫明辉汤勇
- 关键词:用户群知识库主题爬虫相关度
- AFP-Miner:一种新高效的频繁项集挖掘算法
- <正>1 引言频繁项集挖掘是一类重要的数据挖掘问题,可以广泛应用在关联规则挖掘、相关性分析、入侵检测、序列模式、Web挖掘、分类和聚类等多种数据挖掘任务中。Agrawal等于1993年通过研究顾客交易数据库中项集间的关系...
- 陈晓云李龙杰马志新白伸伸王磊
- 文献传递
- 一种基于影响因子的快速K-均值算法被引量:6
- 2007年
- K-均值聚类算法的执行时间过度依赖于初始点的选取,但是在实际问题中并不知道k的取值和怎样才能有效地选取初始点。在对K-均值算法中初始点的选取进行深入研究的基础上,提出了一种有效的初始点选取算法。现存的类间相似度并不能很好地度量两个类的相似性,为此提出了一种新颖的度量方法:类间影响因子,使用类间影响因子对类进行合并。该方法和上面提出的初始点选取算法能够根据数据集本身的特性快速地自动选取初始中心并给出初始点的个数。最后用高斯数据集对算法进行测试,得到了一个令人满意的结果。
- 冷明伟陈晓云颜清
- 关键词:聚类K-均值
- 一种快速山峰聚类算法被引量:6
- 2008年
- 山峰聚类既可以对数据集进行近似聚类,又可以为其他聚类方法提供聚类所需的初始聚类中心。减法聚类是山峰聚类的改进,它避免了山峰聚类中出现的计算量随样本维数增加呈指数增长的情况。但减法聚类对处理大样本集也力不从心。引入了P-tree数据结构,对高维大样本集进行分解,然后用减法聚类对子样本集进行聚类。此算法既避免了山峰聚类的维数灾难问题,也解决了减法聚类中样本数太大的问题。实验结果证明,该算法有效地减少了运算量,提高了聚类的速度。
- 陈晓云敏玉芳郑良仁杨丽
- 关键词:聚类分析减法聚类P-TREE无监督学习
- 基于三角不等式原理的TTSAS聚类加速算法被引量:1
- 2006年
- 顺序聚类算法是一种非常直接和快速的算法,并且不需要提前确定聚类个数。但是当处理海量数据时,时间效率仍然有待提高。TTSAS算法是两个阈值的顺序聚类算法,在此基础上,该文应用三角不等式原理提出了TI_TTSAS算法,该算法避免了冗余的距离计算,实验结果证明,相对于TTSAS算法,TI_TTSAS在速度上有很大程度的提高,数据规模越大,改进效果越明显。并且聚类效果保持了TTSAS算法的准确性。
- 陈晓云王平何春霞冷明伟
- 决策支持系统模型自动更新策略被引量:3
- 2007年
- 现有决策支持系统(DSS)往往面临着决策模型更新的问题,核心的决策模型无法由系统来自主更新,需要模型开发人员重新进行数据挖掘过程,开发成本过高.针对这一问题提出新的概念,即采用规则引擎技术来管理、调用DSS的决策模型.当需要更新DSS的决策模型时,通过模型更新模块,更新决策模型的参数,生成的新模型作为规则保存在规则引擎中,而在DSS中只需调用相关规则即可应用新的决策模型.最后通过构建原型系统验证模型自动更新策略的必要性和可行性.
- 陈晓云王磊罗兴峰马友忠万程
- 关键词:决策支持系统规则引擎
- 基于LSSWM模型的交并式动态扩展聚类算法
- 2007年
- 为获取Web上中文人物的精确信息,特别是同名人的分辨,提出了一种基于LSSWM模型的交并式动态扩展聚类算法。通过构建中心词库,对每篇文档建立基于中心距离、中心段、篇章长度等潜在语义信息的语句-词条矩阵LSSWM,利用交并式动态扩展聚类算法,对相似文档进行聚类。实验表明,该算法在保持人物语义信息的连贯性、突出不同位置语义信息重要性的同时,对文档的聚类有较高的准确性。
- 陈晓云王步钰马友忠孙辉
- 关键词:中心词