詹宇斌
- 作品数:17 被引量:51H指数:4
- 供职机构:国防科学技术大学计算机学院更多>>
- 发文基金:国家自然科学基金河南省科技攻关计划湖南省教育厅科研基金更多>>
- 相关领域:自动化与计算机技术生物学电子电信更多>>
- 流形学习理论与方法及其应用研究
- 在数据挖掘、模式识别和计算机视觉的很多实际问题中,数据都呈现出高维数的特点。数据的高维性掩盖了数据的本质特征。因此,对高维数据进行降维,将其用简洁的低维数据表示,从而提取隐藏在高维表象下有用的和感兴趣的知识显得尤为重要。...
- 詹宇斌
- 关键词:流形学习降维聚类特征提取健壮性
- 文献传递
- 一种基于有向树挖掘Web日志中最大频繁访问模式的方法被引量:11
- 2006年
- 提出了一种基于Apriori思想的挖掘最大频繁访问模式的s-Tree算法。该算法使用有向树表示用户会话,能挖掘出最大前向引用事务和用户的浏览偏爱路径;使用一种基于内容页面优先的支持度计算方法,能挖掘出传统算法不能发现的特定的用户访问模式;使用频繁模式树连接分层的频繁弧克服了图结构数据挖掘算法中直接连接两个频繁模式树要判断连接条件的缺点,同时采用预剪枝策略,降低了算法的开销。实验表明,s-Tree算法具有可扩展性,运行效率比直接采用图结构数据挖掘算法要高。
- 詹宇斌殷建平张玲龙军程杰仁
- 关键词:WEB使用挖掘WEB日志
- 基于局部平滑性的通用增量流形学习算法被引量:1
- 2012年
- 目前大多数流形学习算法无法获取高维输入空间到低维嵌入空间的映射,无法处理新增数据,因此无增量学习能力。而已有的增量流形学习算法大多是通过扩展某一特定的流形学习算法使其具备增量学习能力,不具有通用性。针对这一问题,提出了一种通用的增量流形学习(GIML)算法。该方法充分考虑流形的局部平滑性这一本质特征,利用局部主成分分析法来提取数据集的局部平滑结构,并寻找包含新增样本点的局部平滑结构到对应训练数据的低维嵌入坐标的最佳变换。最后GIML算法利用该变换计算新增样本点的低维嵌入坐标。在人工数据集和实际图像数据集上进行了系统而广泛的比较实验,实验结果表明GIML算法是一种高效通用的增量流形学习方法,且相比当前主要的增量算法,能更精确地获取增量数据的低维嵌入坐标。
- 周雪燕韩建敏詹宇斌
- 关键词:流形学习局部线性嵌入
- 基于最小二乘支持向量机的特征增量学习算法被引量:1
- 2008年
- 本文针对传统的增量学习算法无法处理后采集到的样本中含有新增特征的问题,设计适应样本特征维数增加的训练算法。在基于最小二乘支持向量机的基础上,提出了特征增量学习算法。该算法充分利用先前训练得到的分类器的结构参数,仅对新增特征采用最小二乘支持向量机进行学习。实验结果表明,该算法能够在保证分类精度的同时,有效地提高训练速度并降低存储空间。
- 刘新旺殷建平张国敏罗棻詹宇斌
- 关键词:支持向量机最小二乘支持向量机
- 流形学习中基于局部线性结构的自适应邻域选择被引量:12
- 2011年
- 近年来,流形学习成为包括机器学习、模式识别和计算机视觉等相关领域的研究热点.流形学习算法中,邻域选择直接关系到算法的性能,而传统的邻域选择算法如k近邻和ε邻域算法存在参数难以确定,所构建邻域不能反映流形学习算法对邻域要求等缺点.提出了一种基于流形局部线性结构的自适应邻域选择算法(ANSLL).首先通过分析现有流形学习算法,总结出构建邻域的两个基本原则:1)同一邻域的所有点都近似地位于某一d维线性子空间内(d为流形维数);2)每个邻域包含尽可能多的点.基于这两个基本原则,ANSLL算法采用主成分分析技术(PCA)度量有限点集的线性程度,通过邻域压缩或扩张方式自适应地构建邻域.针对邻域线性结构的特点,还提出了一种改进的邻域图构建方法,以提高等度映射(Isomap)算法中测地线距离估计的准确性.最后大量系统的实验表明,ANSLL算法能够依据流形的局部曲率自适应地构建邻域,从而提高大多数流形学习算法(如Isomap和LLE)的性能.
- 詹宇斌殷建平刘新旺张国敏
- 关键词:流形学习测地线距离局部线性嵌入
- 基于群智能和冲突规避策略的基因-基因交互作用检测方法
- 一种基于群智能和冲突规避策略的基因-基因交互作用检测方法.方法同时产生多条路径检测显著的基因-基因交互作用,并利用群智能和冲突规避策略动态调整路径上节点的选择.
- 刘天航殷建平赵志恒詹宇斌
- 流形上的非线性判别K均值聚类被引量:2
- 2011年
- 为提高具有流形结构的高维数据的聚类性能,提出非线性判别K均值聚类算法(NDisKmeans)。该方法通过引入流形上的谱正则化技术,将数据的低维嵌入表示成数据流形上平滑函数的线性组合,然后通过最大化低维空间中聚类类间的散度与总体散度的比值,来实现对高维数据的聚类。还设计了一种收敛的迭代求解方法来求解最优组合系数矩阵和聚类赋值矩阵。NDisKmeans方法由于考虑了数据的流形结构,克服了判别K均值算法中线性映射的不足,从而提高了对高维数据聚类的性能。最后在数据集上的广泛实验表明,NDisKmeans方法能有效实现对高维数据的聚类。
- 高丽平周雪燕詹宇斌
- 关键词:聚类流形K均值聚类谱聚类
- 基于群智能和冲突规避策略的基因-基因交互作用检测方法
- 2011年
- 针对当前检测基因-基因交互作用方法中存在的一些缺陷,提出一种基于群智能和冲突规避策略的基因-基因交互作用检测方法(DEIBSC).以SNP(single nucleotide polymorphism)为研究对象,从大量SNP中选出具有显著基因-基因交互作用的SNP组.初始化多个SNP组作为初值,同时产生多条搜索路径,利用得分单调递增原则寻找问题的解,通过冲突规避策略和群智能动态调整搜索路径的方向,使得到的解更能反映基因-基因交互作用在基因组范围内分布的情况.在仿真数据和真实数据上的实验证实,本文方法在统计能力上可以和SNPHarvester方法相比,在效率上有明显优势,得到的结果能够更广泛地代表基因-基因交互作用在基因组的分布.
- 刘天航殷建平赵志恒詹宇斌
- 关键词:全基因组关联研究单核苷酸多态群智能
- 基于禁忌搜索的多因子降维在上位作用检测中的应用
- 2011年
- 为了使多因子降维能够应用在大规模数据集的分析上,针对多因子降维穷举搜索单核苷酸多态(SNP)的组合的过程进行了改进,利用禁忌搜索的方法来代替穷举搜索.禁忌搜索以SNP的组合作为解,采用低阶的最优SNP组合作为高阶的初始解的一部分,随机替换当前解中的某个SNP作为邻域解,并采用全局多样化搜索,该方法在保证与多因子降维相当的分类正确率的基础上,显著地缩短了检测交互作用的时间.
- 杨俊殷建平詹宇斌
- 关键词:禁忌搜索
- Web日志挖掘相关算法研究
- 在互联网的强力推进下,Web已成为信息制造、发布、处理和加工的主要平台。然而Web上承载的信息正在迅速膨胀,从而导致了一个严重的问题——“信息爆炸”,即信息极大丰富,而知识相对贫乏。正是在这种情况下,Web数据挖掘应运而...
- 詹宇斌
- 关键词:WEB日志
- 文献传递