侯伟 作品数:22 被引量:114 H指数:6 供职机构: 北京科技大学计算机与通信工程学院 更多>> 发文基金: 国家自然科学基金 北京市自然科学基金 教育部科学技术研究重点项目 更多>> 相关领域: 自动化与计算机技术 生物学 电子电信 更多>>
基于布尔矩阵的关联规则算法研究 被引量:23 2008年 针对可快速在大型交易事务数据库中挖掘关联规则的问题,基于布尔矩阵提出一种新的挖掘算法。该算法通过仅需存储布尔位节约了内存,通过简单布尔运算提高了求解频繁项集的效率。实验证明该算法较之于Apriori算法有更好的性能。 方炜炜 杨炳儒 宋威 侯伟关键词:数据挖掘 关联规则 矩阵 APRIORI算法 频繁项集 基于蛋白质二级序列的关联多分类算法 被引量:1 2010年 蛋白质二级结构预测是公认的生物信息学领域的国际性难题。以基于内在认知机理的知识发现理论(knowledge discovery theory based on inner cognitive mechanism,KDTICM)理论的扩展性研究与数据库中的知识发现(knowledge discovery in database*,KDD*)模型为基础,提出一种基于结构序列的多分类算法——SAC(structuralassociation classification),可以有效地解决蛋白质二级结构预测问题。该算法借助设定支持度阈值的精化知识库的方法,其预测准确率能够超过85%。以该算法为核心,构建了一个蛋白质二级预测模型——复合金字塔模型。实验证明,在RS126、CB513I、LP数据集上的预测准确率均超过80%,超过目前已知的国际主流水平。 杨炳儒 周谆 侯伟关键词:蛋白质二级结构预测 一种基于滑动窗口的多关系模式频度更新算法 2009年 面向多个相关数据流的挖掘算法研究尚处于起步阶段。作为多数据流挖掘算法的基础,模式频度更新算法仍然存在计数不准确、性能较低等问题,难以以此构造有效的挖掘算法。通过引入多关系挖掘概念以及目标关系定义,进而限定计数对象,提出了一种基于滑动窗口的多关系模式频度更新算法MRPFU。该算法监视各数据流窗口的更新情况,采用计数传播策略,减少了时间与空间复杂度。理论分析及实验结果证明了所提算法的有效性且具有较高性能。 侯伟 杨炳儒 吴晨生 周谆关键词:数据挖掘 数据流 多关系数据挖掘 基于包含索引的频繁闭序列模式挖掘的新算法 被引量:1 2009年 频繁闭序列模式惟一确定全体频繁序列模式,且规模小得多。传统的闭序列模式挖掘算法对每个频繁项目都进行扩展,往往会产生大量的非闭合序列。为解决这一问题,提出了一种新的基于包含索引的频繁闭序列模式挖掘算法,其主要思想是只对闭项集进行扩展,大大减少了非闭合序列的产生。首先,论证了闭序列模式只能由闭项集组成;其次,说明了如何利用包含索引来快速发现闭项集;最后,给出了一种深度优先的挖掘频繁闭序列模式的新算法。实验结果表明,该算法具有较高的效率。 李晋宏 杨炳儒 宋威 侯伟关键词:数据挖掘 频繁闭项集 差别矩阵属性约简的信息观解释 被引量:6 2007年 常见的属性约简定义有三种,即基于代数观的属性约简,基于信息观的属性约简和基于HU差别矩阵的属性约简。已有文献证明这三种属性约简彼此之间不等价。王国胤教授定义了一种新的决策表信息熵计算方法,在此方法基础上给出了粗糙集理论代数观的一种新的信息观解释。最近有学者提出了一种基于新信息熵的属性约简。经深入研究,我们证明了该属性约简与基于HU差别矩阵的属性约简是等价的,从而给出了基于HU差别矩阵的属性约简的信息观解释。 徐章艳 杨炳儒 宋威 侯伟关键词:正区域 差别矩阵 信息熵 一个新的基于数据库技术的快速求核算法 被引量:6 2007年 求核是粗糙集中一个重要的研究内容之一.为降低求核的算法复杂度,给出了简化决策表的定义.由于求简化决策表时,要先求出IND(C),故以基数排序的思想设计了一个新的求IND(C)的算法,其时间复杂度为O(C‖U).然后将简化的决策表转化成协调的新决策表,在此新决策表上得到了一个求核的性质,并证明了用该性质求出的核与原决策表的核是一致的.在此基础上,设计了一个基于数据库技术的快速求核算法,其时间复杂度为O(C‖U). 徐章艳 杨炳儒 宋威 侯伟关键词:ROUGH 决策表 简化决策表 属性约简 合成金字塔预测模型中内含的改进型CBA预测方法 2009年 蛋白质二级结构预测问题,是生物信息学领域中最为重要的任务之一,历经三十多年的研究,已取得了一些进展,尤其是近来集成预测模型与混合预测模型的引入,为预测精度带来了一定程度的提高,然而其离从二级结构推导三级结构的目标,仍然存在很大差距。为了有效提高蛋白质二级结构预测精度,以KDTICM理论的扩展性研究与KDD*模型为基础,使用基于KDD*模型的关联分析蛋白质二级结构预测方法KAAPRO,提出一种基于支持度与可信度的复杂距离度量的CBA(classification based on association)算法,并以该算法为核心构建逐步求精、多层递阶的合成金字塔模型,该模型整体贯穿领域知识,并采用因果细胞自动机选择有效物化属性。在对偏alpha、beta型蛋白质的预测实验中,改进型CBA算法较好地完成了对结构特征不明显氨基酸的预测,获得了较优的预测效果。 杨炳儒 周谆 侯伟关键词:关联规则 蛋白质二级结构预测 关于“两种新的决策表属性约简概念”的注记 被引量:6 2007年 出于应用目的,许多学者提出了各种不同的属性约简概念.蒋思宇等在分析了基于正区域的属性约简和基于信息熵属性约简概念的差别后,提出了两种新的属性约简概念.通过实例分析,指出两种新的属性约简概念的不足,其根源是度量平均决策强度和决策熵的两个公式不具有单调性.根据原作者的出发点,给出了度量决策强度和决策熵的两个新公式,分别证明了这两个公式都具有单调性,并由此给出了基于决策强度和决策熵的属性约简概念. 徐章艳 宋威 杨炳儒 高静 侯伟关键词:决策表 正区域 信息熵 决策熵 一种高效的离线数据流频繁模式挖掘算法 被引量:2 2009年 数据流频繁模式挖掘是当前数据挖掘领域中的研究热点之一,数据流连续性、无序性、无界性及实时性的特点为挖掘算法在时间及空间性能方面提出了更高的要求。数据流中模式频度的震荡现象,迫使现有算法对概要数据结构频繁维护,致使其时间、空间效率均受到较大影响。构造了具备较高空间性能的概要数据结构SP-tree,同时定义了震荡性因子χ以量化震荡信息,提出了一种高效的离线数据流频繁模式挖掘算法SPDS,有效降低了数据震荡对算法性能的影响;在处理新到数据集时,算法采取分而治之的分离映射策略,进一步提升了时间效率;同时在查询结果方面提高了部分模式的计数精度。 侯伟 吴晨生 杨炳儒 方炜炜关键词:数据挖掘 数据流 几种不同属性约简的比较研究 被引量:29 2008年 为研究基于HU差别矩阵、信息熵、分布、最大分布、近似和正区域的属性约简的关系,首先构造了HU简化差别矩阵;构造了基于正区域的简化差别矩阵,证明了基于该简化差别矩阵的属性约简与基于正区域的属性约简是等价的.然后利用HU简化差别矩阵证明了:若B满足φ≠mij∈M使得mij∩B≠φ(其中M表示HU的差别矩阵),则B一定满足H(D|B)=H(D|C);利用基于正区域的简化差别矩阵和基于近似约简的简化差别矩阵证明了:若B是近似协调集,则B一定满足POSB(D)=POSC(D).结合已有的研究结果,得出了上述不同属性约简之间的关系. 徐章艳 杨炳儒 宋威 侯伟关键词:信息熵 分布约简 最大分布约简 近似约简 正区域