国家自然科学基金(60573057)
- 作品数:21 被引量:167H指数:6
- 相关作者:李舟军颜跃进刘军万陈火旺王涛更多>>
- 相关机构:国防科学技术大学北京航空航天大学湖南农业大学更多>>
- 发文基金:国家自然科学基金中南林业科技大学青年科学基金湖南省自然科学基金更多>>
- 相关领域:自动化与计算机技术电子电信生物学经济管理更多>>
- 最小组合法挖掘最大频繁集被引量:4
- 2008年
- 提出了与apriori和FP-tree两类算法完全不同的高效挖掘最大频繁集的算法,即最小组合算法MCA。该算法不产生候选频繁集,能大大减少计算量的开销。在此算法的研究中提出了另一个子课题,即重复数列中最小组合算法研究。
- 李清峰周鲜成王莉周伟林
- 关键词:关联规则最大频繁集
- 蛋白质相互作用研究中的计算方法综述被引量:3
- 2008年
- 随着分子生物学的研究进入以蛋白质组学为标志的后基因组时代,蛋白质相互作用成为蛋白质组学研究的一个重要主题.因为计算方法代价低和周期短的特点,它被广泛地用来分析相互作用数据从而指导生物学家的实验设计.从蛋白质相互作用网络的构建到分析两个方面综述了蛋白质相互作用研究中的各种计算方法:介绍了通过机器学习方法预测、文本挖掘和评估相互作用的各种技术;特别详细地阐述了相互作用网络的重要参数和典型生物模型,并对运用图论方法分析和计算的各种算法进行了深入的剖析;最后,对蛋白质相互作用的计算研究进行了总结和展望.
- 李舟军陈义明刘军万陈火旺
- 关键词:蛋白质相互作用
- 微阵列数据的多目标免疫优化双聚类被引量:2
- 2009年
- DNA微阵列技术的发展为基因表达研究提供更有效的工具。分析这些大规模基因数据主要应用聚类方法。最近,提出双聚类技术来发现子矩阵以揭示各种生物模式。多目标优化算法可以同时优化多个相互冲突的目标,因而是求解基因表达矩阵的双聚类的一种很好的方法。本文基于克隆选择原理提出了一个新奇的多目标免疫优化双聚类算法,来挖掘微阵列数据的双聚类。在两个真实数据集上的实验结果表明该方法比其他多目标进化双聚类算法表现出更优越的性能。
- 刘军万李舟军陈义明刘飞飞
- 关键词:微阵列人工免疫系统
- 一种高效的数据流挖掘增量模糊决策树分类算法被引量:27
- 2007年
- 数据流具有数据持续到达、到达速度快、数据规模巨大等特点,这些都给数据流挖掘领域的研究工作带来了新挑战,而其中分类算法更是当前的研究热点.Domingos等在VFDT中利用Hoeffding不等式很好地解决了在数据流上进行单遍扫描获取高精度决策树的问题.Gama等对VFDT进行扩展并实现了VFDTc,使系统能够处理连续属性.Peng等在传统数据挖掘环境下提出了基于模糊理论的连续属性平滑离散化方法.基于前述工作,作者设计并实现了一种基于线索化排序二叉树的增量模糊决策树分类算法fVFDT,其主要贡献有如下4点:(1)第一次设计并实现了数据流上的基于线索化二叉排序树(TBST)的连续属性处理方法.相比VFDT,fVFDT的样本插入时间复杂度由O(n2)降低到O(nlogn).当新样本到达时,VFDTc需要更新O(logn)个属性节点,而fVFDT只需要更新相应的一个节点即可;(2)改进了VFDTc连续属性的最佳划分节点选取的计算方法,使其时间复杂度由O(nlogn)降低到O(n);(3)根据Fayyad等的研究成果,相比VFDTc,fVFDT只需从更少的备选划分节点中选取最佳节点,备选划分节点数由O(n)降低到O(logn);(4)改进了传统数据挖掘环境下的基于模糊理论的连续属性平滑离散化方法,有效地处理了噪声数据,很好地提高了分类精度.
- 王涛李舟军胡小华颜跃进陈火旺
- 关键词:数据流
- 数据流挖掘技术及其在仿真中的应用被引量:2
- 2009年
- 随着仿真系统复杂程度的增加和规模的增大,仿真时间越来越长,仿真所产生的数据量越来越大,使得仿真数据具有数据流的特性,因此可以采用数据流挖掘技术处理仿真数据。综述了数据流和数据流挖掘技术的主要特点;提出了基于数据流挖掘技术的仿真应用框架;设计了通用数据流挖掘成员,以便能够快速将数据流挖掘算法集成到基于HLA体系结构的仿真系统中,并以导弹突防仿真系统为例介绍了所设计的通用数据流关联规则挖掘成员。
- 敖富江戚宗锋陈彬黄柯棣
- 关键词:数据流挖掘仿真关联规则
- 一种基于哈希链表的高效概念漂移连续属性处理算法被引量:1
- 2008年
- 本文重点研究了数据流挖掘中存在概念漂移情形的连续属性处理算法。数据流是一种增量、在线、实时的数据模型。VFDT是数据流挖掘中数据呈稳态分布情形下最成功的算法之一;CVFDT是有效解决数据流挖掘中概念漂移问题的算法之一。基于CVFDT,本文提出了有效地解决数据流挖掘中存在概念漂移情形的连续属性处理问题的扩展哈希表算法HashCVFDT。该算法在属性值插入、查找和删除时具有哈希表的快速性,而在选取每个连续属性的最优化划分节点时解决了哈希表不能有序输出的缺点。
- 王涛李舟军颜跃进
- 关键词:数据流挖掘概念漂移
- 数据流频繁模式挖掘算法设计被引量:14
- 2008年
- 介绍了数据流频繁模式的概念和定义,提出了数据流频繁模式挖掘算法的通用数据流处理模型,详细总结了数据流频繁模式挖掘算法的三种分类方式:"窗口模型"、"结果集类型"和"结果集精确性"。基于这些分类方法提出了数据流频繁模式挖掘算法的设计立方体,该立方体不仅涵盖了现有的数据流频繁模式挖掘算法,还对设计新的算法具有指导意义。基于设计立方体,分析了设计算法时应当采取的有效策略,旨在为设计新算法提供一个有力参考。最后讨论了数据流频繁模式挖掘的进一步研究工作。
- 敖富江颜跃进黄健黄柯棣
- 关键词:数据流
- Java源代码字节码剽窃检测方法及支持系统被引量:7
- 2010年
- 提出一种Java源代码和字节码都适用的剽窃检测方法并实现了支持系统,该方法以类的Java文件或class文件为比较单元,从中抽取代表程序语法和语义特征的5种特征向量,综合计算产生两个类文件之间的相似度,可用于帮助判断两个类文件之间是否存在全部或部分剽窃现象.在人工修改程序的场景下进行的对比实验结果和剽窃检测实验结果表明,该方法可有效检测程序代码的严格拷贝和近似拷贝,有较高的检测性能,并且能够识别程序剽窃行为中对Java源文件所做的大部分类型的代码变换.
- 李虎刘超刘楠李晓丽
- 关键词:JAVA源代码JAVA字节码
- 基于神经网络技术的股票频谱分析被引量:1
- 2011年
- 根据艾略特波浪理论以及波浪理论中的各参数具有费波纳奇数列关系的特征,分析股票价格波形的特点;运用人工神经网络模型,提出基于波形分解与重构的神经网络预测方法,给出具体的实现过程。研究结果表明:通过波形分解与重构,把原始价格时间序列分解为规律相对简单、不同频率范围内的子波动序列来提高神经网络的预测精度,实现对特征不同的信号选取不同的参数模型进行预测;采用傅里叶反变换拟合出股价波动变化趋势的曲线,以达到预测股价波动变化周期的目的。
- 李清峰彭文峰何静
- 关键词:波浪理论频谱分析神经网络
- 基于聚类语言模型的生物文献检索技术研究被引量:3
- 2008年
- 近年来研究表明使用主题语言模型增强了信息检索的性能,但是仍然不能解决信息检索存在的一些难点问题,如数据稀疏问题,同义词问题,多义词问题,对文档中不可见项和可见项的平滑问题。这些问题在一些领域相关文献检索中显得尤其重要,比如大规模的生物文献检索。本文提出了一种新的基于聚类的主题语言模型方法进行生物文献检索,这主要包括两个方面工作,一是采用本体库中的概念表示文档,并在此基础上进行模糊聚类,把聚类的结果作为数据集中的主题,文档属于某个主题的概率由文档与聚类的模糊相似度决定。二是采用EM算法来估计主题产生项的概率。把上述方法集成到语言模型中就得到本文的语言模型。本文的语言模型能够准确描述项在不同主题中的分布概率,以及文档属于某个主题的概率,并且利用本体中概念部分地解决了同义词问题,而且项可以由不同的主题产生,这也能够部分解决词的多义问题。本文的方法在TREC 2004/05 Genomics Track数据集上进行了测试,与简单语言模型以及现有主题语言模型相比,检索性能得到一定的提高。
- 文健李舟军
- 关键词:计算机应用中文信息处理信息检索聚类