霍英东基金(121066) 作品数:18 被引量:54 H指数:4 相关作者: 王雪松 程玉虎 张林 刘辉 高阳 更多>> 相关机构: 中国矿业大学 中国科学院 更多>> 发文基金: 霍英东基金 国家自然科学基金 教育部“新世纪优秀人才支持计划” 更多>> 相关领域: 自动化与计算机技术 生物学 自然科学总论 更多>>
基于图知识迁移的蚁群算法参数选择 被引量:3 2011年 同时考虑蚁群算法的所有运行参数,提出一种基于图知识迁移的蚁群算法参数选择方法.首先,将包含知识(蚁群算法的运行参数)的源任务映射到一个高维的迁移空间,并通过迁移权值连接不同的源任务,构造一个模型迁移图;然后,扩展模型迁移图使其包含目标任务,并利用图论的知识学习迁移函数;最后,通过最小二乘法自主地给目标任务分配一个优化的运行参数组合.机器人路径规划问题的仿真结果验证了该方法的智能性、快速性与合理性. 王雪松 潘杰 程玉虎关键词:蚁群算法 参数选择 路径规划 基于局部稀疏K近邻密度的主动学习 被引量:1 2011年 在选择含信息量大的样本时,基于不确定度缩减的主动学习算法通常会将孤立点一并加入训练集,从而影响分类效果。为此,提出一种基于局部稀疏K近邻密度的主动学习算法,采用近邻密度来判定未标记样本是否为孤立点,并考虑未标记样本周边样本的稀疏程度,减少将非均匀分布样本集中的孤立点当作正常样本点及将正常样本点当作孤立点的错误。典型UCI和人工数据集上的仿真结果表明,与基于密度重排序的主动学习算法相比,所提算法能够取得较好的分类性能。 汪婵 程玉虎 王雪松关键词:信息熵 孤立点 基于Dirichlet过程无限混合模型的基因表达数据聚类算法 被引量:1 2012年 Dirichlet过程作为一种典型的变参数贝叶斯模型,基于该过程进行的聚类分析无需预先确定聚类数,聚类数作为模型中的参数由模型和数据自主计算得出,因而成为机器学习研究领域中的一个研究热点,可用于海量数据的聚类分析。文章建立Dirichlet过程无限混合模型对DNA基因表达数据展开了聚类分析。模拟测试数据集和急性白血病的DNA基因表达测试数据集的实验结果表明,Dirichlet过程无限混合模型能够准确地估计出数据中的聚类数。 张林 刘辉关键词:聚类 混合模型 一种简洁局部全局一致性学习 被引量:7 2011年 针对局部全局一致性学习(LLGC)算法的分类精度在很大程度上取决于控制参数的合理设置问题,提出一种少参数的简洁局部全局一致性学习(BB-LLGC).简化图上的目标函数,使其不受参数α的影响.另外,在标签传递过程中,仅将未标记样本的标签根据相似度传递给其近邻,而将已标记样本的标签强制填回以确保标签传递源头的准确性.UCI数据集的实验结果表明,与LLGC相比,BB-LLGC不仅控制参数少、使用简单,而且分类精度高、收敛速度快. 王雪松 张晓丽 程玉虎关键词:半监督学习 参数选择 ILLUMINA Golden Gate DNA甲基化芯片的KL-FCM聚类分析 2014年 DNA甲基化作为一种重要的表观遗传修饰,其甲基化水平被发现与疾病的发生发展密切相关,对其进行聚类分析有希望发现新的疾病亚型并建立有效的疾病预测预后方法。传统的聚类分析方法之一模糊C-均值(FCM:Fuzzy C-means)适用于特征空间呈球形或椭球形分布的场景,缺乏普适性。而Illumina Golden Gate平台通过计算基因的各甲基化位点的甲基化百分比描述其甲基化程度,其值位于(0,1)之间,服从混合贝塔分布,不能直接采用FCM进行聚类分析。鉴于此,本文提出基于KL特征测度的KL-FCM聚类算法,采用各样本间的K-L距离作为样本划分时的度量准则。最后,本文基于KL-FCM算法实现IRIS测试数据集和基因的DNA甲基化水平数据的聚类分析。实验结果表明该方法可以以更低的计算负荷获得优于k-均值(k-means)和传统FCM的分类效果。 张林 石玥 汪菲 李琪 万苏磊 王雪松关键词:模糊C均值 ILLUMINA K-L距离 遥感影像的半监督判别局部排列降维 被引量:3 2014年 针对遥感影像数据具有的高维数和少量已标记样本的特性,提出一种基于图的半监督判别局部排列降维方法.首先,针对全部已标记和未标记样本数据构造相似图和惩罚图.然后,基于同类近邻点的分散度最小且不同类近邻点的分散度最大的原则,分别确立相似图和惩罚图上的优化目标.最后,通过同时优化这两种图上的目标函数,得到从高维到低维的最优映射关系,从而达到对高维遥感影像数据维数约简的目的.ROSIS高光谱数据上的实验结果表明,所提算法能够有效提高高维遥感影像的总体精度和Kappa系数. 王雪松 胡汇涓 程玉虎关键词:降维 遥感影像 基于Jensen-Shannon差异的可变剪接分析 被引量:1 2012年 针对传统方法仅能分析基因的单一可变剪接模式的问题,设计了一种基于Jensen-Shannon(JS)差异的生物信息学方法ASAT,用以分析基因在转录本水平的多可变剪接模式.将ASAT应用于小鼠转录因子Klf1敲除实验的RNA-Seq数据,预测出12个发生了可变剪接变化的基因,并在转录本水平对这些基因的可变剪接模式进行了分析.通过基因功能富集分析,发现其中有两个基因Timp1、Gm13654与Klf1能够显著富集在红血球发育、分化及动态平衡的生物过程.结果表明,ASAT可预测到与生物功能相关的可变剪接基因,并能够分析转录本水平的可变剪接模式. 孙磊 徐钊关键词:可变剪接 RNA-SEQ 基于参数探索的期望最大化策略搜索 被引量:4 2012年 针对随机探索易于导致梯度估计方差过大的问题,提出一种基于参数探索的期望最大化(Expectation-maximization,EM)策略搜索方法.首先,将策略定义为控制器参数的一个概率分布.然后,根据定义的概率分布直接在控制器参数空间进行多次采样以收集样本.在每一幕样本的收集过程中,由于选择的动作均是确定的,因此可以减小采样带来的方差,从而减小梯度估计方差.最后,基于收集到的样本,通过最大化期望回报函数的下界来迭代地更新策略参数.为减少采样耗时和降低采样成本,此处利用重要采样技术以重复使用策略更新过程中收集的样本.两个连续空间控制问题的仿真结果表明,与基于动作随机探索的策略搜索强化学习方法相比,本文所提方法不仅学到的策略最优,而且加快了算法收敛速度,具有较好的学习性能. 程玉虎 冯涣婷 王雪松关键词:期望最大化 一种基于谱聚类的聚类核半监督支持向量机 被引量:2 2010年 针对传统半监督支持向量机的高斯核函数无法恰当描述流形数据特性,从而导致流形数据分类精度下降的问题,提出一种基于谱聚类的聚类核半监督支持向量机.利用谱聚类方法在特征向量空间中对原始样本数据进行重新表述,使得在新表述中同一聚类中的样本能够更好地积聚在一起,构建聚类核函数,并进而构造聚类核半监督支持向量机,使样本更好地满足半监督学习必须遵循的聚类假设.研究结果表明:聚类核半监督支持向量机对未标记样本的分类精度高且算法性能稳定,对控制参数的设置不敏感,适于解决流形数据的分类问题. 王雪松 张晓丽 程玉虎 李立晶关键词:半监督学习 支持向量机 谱聚类 基于随机子空间-正交局部保持投影的支持向量机 被引量:3 2011年 针对高维数、小样本数据分类问题,提出一种基于随机子空间-正交局部保持投影的支持向量机.利用随机子空间方法对原始高维样本的特征空间进行多次随机采样,生成多个具有不同特征子集的基支持向量机(SVM)分类器;利用正交局部保持投影对各基SVM分类器的样本进行特征提取,实现维数约简;然后,利用降维后的样本对各基SVM分类器进行训练;采用贝叶斯求和准则将各基SVM的分类结果进行融合以得到最终的分类结果.典型人脸数据库识别结果验证了本方法的可行性和有效性. 王雪松 高阳 程玉虎关键词:随机子空间 支持向量机 特征提取