韩斌
- 作品数:18 被引量:20H指数:3
- 供职机构:杭州电子科技大学生命信息与仪器工程学院更多>>
- 发文基金:国家自然科学基金国家杰出青年科学基金浙江省自然科学基金更多>>
- 相关领域:医药卫生生物学自动化与计算机技术更多>>
- 基于诊断结果相关性分析的肿瘤基因标志物提取方法
- 2010年
- 目的基于微阵列数据,提出提取肿瘤诊断结果相关的基因标志物。方法混合滤波和缠绕方法,采用奇异值分解,以基因和肿瘤诊断结果的相关强度为主要标准,辨识基因标志物,利用基于信息增益的随机森林法对分类率做辅助修正。本方法在3个公共数据库上和常用分类器上做了测试。结果 MonteCarlo统计实验表明,对于Colon数据集,本文方法在NN,RF分类器上显著优于t-test方法;在Prostate数据集上,本文方法在NB的分类器上显著优于对手,在其他数据集和分类器上本方法优于对手但不显著;而在基因稳定度指标上,本方法普遍优于对手。结论提出1种可以定量的,基于可视化的分析基因和诊断结果相关性的方法,与经典方法相比,本文方法提取的基因不仅具有较强的分类性能和对不同分类算法的适应性,而且在总体上也具有较好的基因稳定度。
- 韩斌陈岩来海锋厉力华祝磊代琦
- 关键词:肿瘤分类基因选择微阵列奇异值分解
- 基于磷脂质类数据的早期卵巢癌特征提取研究
- 2010年
- 卵巢癌是目前死亡率最高的妇科疾病之一,而如果得到早期诊断和治疗,卵巢癌患者的存活率可达90%。针对卵巢癌早期诊断问题,基于卵巢癌磷脂质类数据,提出了一种结合缠绕法和过滤法、按照诊断类别相关度挑选特征,然后依据特征标志物的分类率稳定度高低,提取用于诊断早期卵巢癌的特征子集的策略。该方法克服了分类率监督方法忽略生物相关性、依赖分类器易产生过拟合的不足,同时保持了较高的分类率。实验表明,该方法挑选的特征标志物包含更多的分类信息,其分类正确率达到88.9%,且比经典的分类率监督方法和差异表达方法在稳定性能上存在优势。此外,提出的新的标幺化方法去掉了批次差异,获得更好的分类效果,且所选的特征标志物得到生物学关联意义上的支持,具有较高的可信度和实用性。
- 陈淑飞韩斌厉力华Rebecca Sutphen祝磊代琦
- 关键词:卵巢癌稳定度奇异值分解MONTE
- 一种生物相关性优先的两步卵巢癌化疗疗效敏感基因选取方法
- 2012年
- 作为卵巢癌主要诊疗手段之一的化疗,费用昂贵,副作用大,且患者反应的个体差异很大。本文提出一种首先依据诊断结果(卵巢癌化疗疗效)相关性进行特征选择,然后利用蒙特卡洛方法对特征基因排序,最终建立预测化疗反应模型的方法,克服了过度依赖分类率的弊端。首先利用奇异值分解,基于散点图和Kolmogorov-Smirnovtest(K-S test)的定性和定量分析非生物因素对基因表达谱的影响,结合化疗反应样本的聚类图进行基因筛选;然后采用基于信息增益的随机森林方法精选基因,得到与化疗相关的敏感基因。实验结果表明,此方法与经典方法(SVMRFE、T-test)相比,所选取出的特征基因具有较好的分类能力且保持稳定;从生物学角度分析显示,此方法所得到的敏感基因与化疗疗效的联系更加紧密,50个基因中,有4个(NR2F2、CLDN3、PURA、C1ORF38)直接与卵巢癌相关;17个(USO1、TCF7L2、NR2F2等)与肿瘤或癌症直接相关,或与肿瘤密切相关的生物过程(例细胞生长与繁殖、新陈代谢、细胞循环、DNA修复等)相关。
- 韩斌王清解瑞飞厉力华祝磊
- 关键词:特征选取决策树
- 基于再生核希尔伯特空间的In-Silico基因网络重构
- 2013年
- 针对逆向工程的评估与方法交流(Dialogue for Reverse Engineering Assessments and Methods,DREAM)第四次竞赛(DREAM4)中In-Silico基因调控网络(Challenge2)的重构问题,作者提出一种基于再生核希尔伯特空间的统计独立性度量方法(Hilbert-Schmidt independence criterion,HSIC)。该方法不要求数据符合某种特定的分布,约束条件少,是一种非参数计算统计独立性的方法。对10规模的In-Silico基因网络,HSIC方法的受试者工作特征曲线面积(area under receiver operating characteristic curve,AUROC)比常微分方程(ordinary differential equation,ODE)方法和格兰杰因果关系(granger causality,GC)方法分别高了16%和7%,比动态贝叶斯网络(dynamic bayesian network,DBN)方法和非线性动态系统(nonlinear dynamic systems,NDS)方法中的最好算法分别高了2.4%和1.4%。对100规模的In-Silico基因网络,HSIC方法的AUROC分别超出ODE及GC方法 16%和14.2%,超出DBN和NDS方法中的最好算法5%和1.4%。实验表明,HSIC方法具有基因调控网络重构的可行性与可靠性,并且对In-Silico网络的重构准确率要优于目前经典的基因调控网络建模方法。
- 金丽艳韩斌厉力华祝磊樊双喜
- 关键词:基因调控网络再生核希尔伯特空间独立性
- 基于集成类随机森林方法的神经胶质瘤特征基因选择的研究被引量:4
- 2010年
- 神经胶质瘤(glioma)是一种严重的颅内肿瘤疾病,具有高复发率、高死亡率和低治愈率等特点。利用基因微阵列数据识别与神经胶质瘤相关的特征基因,对该疾病的临床诊断和生物医学研究将起到有益的参考和借鉴作用。作者针对神经胶质瘤数据,提出了一种集成类随机森林特征基因选择方法。首先应用有监督奇异值分解对数据进行降维并粗选出基因;其次应用类随机森林特征选择方法选出特征基因。实验结果显示,该方法对分类器的适应性强;对比其他方法,分类率优势明显;更重要的是,在选出的前50个特征基因中有39个基因与神经胶质瘤或肿瘤细胞生物过程存在着密切联系,证实该方法不仅保持了较高的分类率,而且保证了选择的特征基因具有很强的生物学关联意义,具有较高的可行性和实用性。
- 来海锋韩斌厉力华陈岩祝磊代琦
- 关键词:神经胶质瘤肿瘤诊断奇异值分解
- 基因芯片技术在卵巢癌化疗疗效相关基因筛选中的应用被引量:2
- 2011年
- 卵巢癌是妇科常见恶性肿瘤,其发病率居第3位,而病死率高居第1位.手术后辅助化疗是治疗卵巢癌的主要手段,患者的预后很大程度上取决于对化疗的反应,但由于化疗耐药的出现,半数以上的患者化疗后疗效不佳.目前,还没有有效的手段预测化疗的效果.基因芯片技术的发展为人类从基因的角度,全面研究和分析化疗疗效相关基因提供了条件.本研究采用基因芯片技术对133例原发性卵巢癌患者进行化疗疗效相关基因的筛选,为卵巢癌患者的个体化治疗提供理论依据.
- 王清韩斌苏丹应南娇厉力华祝磊
- 关键词:相关基因筛选基因芯片技术卵巢癌患者化疗疗效个体化治疗
- 一种基于有监督奇异值分解和随机森林的卵巢癌磷脂代谢物特征提取方法被引量:3
- 2010年
- 卵巢癌是一种常见的妇科肿瘤,死亡率占各类妇科肿瘤的首位。选取既有较高的分类疾病模式能力又具有生物学关联的特征肿瘤标志物用于肿瘤的诊断是目前研究的重点。本研究针对卵巢癌磷脂代谢物数据的问题,提出了一种融合有监督奇异值分解和基于信息增益的随机森林决策的方法用于特征标志物的选择。首先应用有监督奇异值分解计算各标志物的权重值,并根据权重值粗选出候选标志物;其次应用基于信息增益的随机森林决策理论从候选标志物中选出特征标志物;最后通过SVM分类器测试,分类率高达90%以上。本研究方法与其他常用方法比较具有一定优势,其中一个明显的特点是所选特征标志物不但保持了较高的分类率,而且具有生物学关联意义,从而证实本研究方法具有较高的可行性和实用性。
- 来海锋韩斌厉力华陈岩SUTPHEN Rebecca祝磊代琦
- 关键词:奇异值分解特征提取卵巢癌
- 运用近邻传播聚类分析进行SELDI-TOF蛋白质谱特征选择被引量:5
- 2013年
- 针对如何有效分析高通量SELDI-TOF质谱数据以及筛选与肿瘤相关的蛋白质位点,提出一种基于近邻传播聚类分析的特征选择方法。首先利用t-test对SELDI数据进行初筛,然后利用近邻传播聚类分析以及零空间LDA对数据进行降维和去相关处理,最后采用SVM-RFE进行特征选择,筛选出与肿瘤判别相关的蛋白质位点。利用SVM、KNN、NB及J4.8等4个分类器,估算算法的分类性能。结果表明,在卵巢癌公共数据集OC-WCX2a和OC-WCX2b以及浙江省肿瘤医院乳腺癌数据集BC-WCX2a上显示该算法,在上述3个数据集中分类率分别达到96.43%、99.66%、90.88%,敏感性分别达到97.00%、100%、96.17%,特异性分别达到95.85%、99.08%、81.92%,并分别挑选出与肿瘤判别相关的10个蛋白位点。所提出的算法能够获得较好的分类率,有效提取出具有较好判别效果的蛋白质谱位点,有助于癌症的辅助诊断。
- 杨合龙祝磊韩斌厉力华郑智国孟旭莉
- 关键词:蛋白质质谱生物标志物
- 基于PTPR排名的基因随机选择算法
- 2011年
- 面对高维、小样本的基因微阵列数据,有效地提取特征基因成为一项艰巨的任务。在随机特征选择方法的基础上,引入"种子变量"及滚动的排名机制,提出一种基于职业网球选手排名(PTPR)的特征选择算法。用种子变量提高变量搜索过程的选择性,提高搜索效率,同时充分利用历史记录来动态更新种子变量,加快寻优速度。在公共数据库上的测试实验结果表明,PTPR在随机多次独立运行时得到平均50%~80%的相同基因,而MichaDraminski的方法只能保持相同基因在10%~50%左右;收敛性实验表明,PTPR的收敛速度更快且显著;而在5个数据集的独立测试集上的分类率实验表明,PTPR保持较高的分类率,如PTPR得到最高分类率大约为98%、90%、89%、95%、75%,而MichaDraminski方法的最高分类率为96%、89%、85%、95%、70%。同时,与其他典型方法相比,PTPR也得到了较高的分类率。总体上,PTPR算法具有搜索速度快、结果稳定的特点,而且在不同的分类器上都保持了较优的分类率。
- 解瑞飞韩斌厉力华祝磊
- 关键词:随机搜索
- 基于递归零空间线性判别分析算法的蛋白质质谱数据特征选择被引量:3
- 2010年
- 目的针对蛋白质质谱数据,采用一种新的基于特征选择的算法提取判别特征,提高癌症辅助诊断的准确率。方法将小波特征与递归零空间线性判别分析(LDA)特征选择算法相结合,首先对数据进行多分辨率的小波分解,提取样本细节特征;接着运用t-test进行筛选,初步降低数据的特征维数;然后递归调用零空间LDA算法,筛选出最具判别意义的蛋白位点;最后采用支持向量机(SVM)分类器估算算法性能。采用十折交叉验证进行测试。结果在公共数据卵巢癌OC-WCX2a上的分类率达到98.3%。在浙江省肿瘤医院提供的临床乳腺癌BC-WCX2a数据上分类率为91.45%,敏感性为97.2%。同时,该算法有效地降低了所选特征间的相关性。结论本算法可充分提取蛋白质质谱数据中的判别特征,从而更有利于癌症的辅助诊断。
- 王尧佳祝磊韩斌厉力华郑智国牟瀚舟
- 关键词:癌症分类蛋白质质谱