国家科技攻关计划(2004BA711A21)
- 作品数:8 被引量:67H指数:4
- 相关作者:贺思敏付岩孙瑞祥高文曾嵘更多>>
- 相关机构:中国科学院中国科学院上海生命科学研究院中国科学院研究生院更多>>
- 发文基金:国家科技攻关计划国家重点基础研究发展计划国家自然科学基金更多>>
- 相关领域:自动化与计算机技术生物学医药卫生更多>>
- pPre_ITMS:基于机器学习方法的串联质谱数据预处理系统
- 2007年
- 串联质谱技术被广泛应用于高通量的蛋白质鉴定。质谱中噪音峰和同位素峰的存在会降低蛋白质鉴定的准确性,同时增加计算负担。pPre_ITMS系统是针对离子阱数据,利用机器学习中的最大期望方法和决策树方法分别识别出质谱中的噪音基线和同位素峰的预处理系统。此外,pPre_ITMS系统采用三层独立模型增强系统鲁棒性,并提供了手动调节功能。利用pPre_ITMS系统可以简单、快速且可视化地对离子阱数据进行预处理。
- 邹翠付岩孙瑞祥王乐珩赵德斌
- 关键词:串联质谱预处理
- 基于质谱技术的计算蛋白质组学研究被引量:26
- 2006年
- 蛋白质组是继人类基因组计划完成之后又一新兴的生命科学研究对象,蛋白质组学研究细胞或组织内所有表达的蛋白质.生物质谱技术已为蛋白质组学研究产生了大规模的质谱数据;而如何从这些数据中提取和发现有关蛋白质组的重要生物学知识为计算蛋白质组学的研究提出了重大需求,如蛋白质鉴定、翻译后修饰、定量分析,以及疾病模式的发现等.本文研究了如何应用计算技术来解决蛋白质组学研究中质谱信息处理的这几个关键问题.
- 孙瑞祥付岩李德泉张京芬王晓彪盛泉虎曾嵘陈益强贺思敏高文
- 关键词:质谱技术蛋白质鉴定生物信息学
- 蛋白质亚细胞定位预测中的序列编码技术被引量:5
- 2007年
- 蛋白质序列的编码是亚细胞定位预测问题中的关键技术之一。该文较为详细地介绍了目前已有的蛋白质序列编码算法;并指出了序列编码中存在的一些问题及可能的发展方向。
- 王正华张振慧王勇献
- 关键词:亚细胞定位
- 应用复杂网络理论研究代谢网络的进展被引量:23
- 2006年
- 后基因组生物信息学研究的一个重要任务是系统地研究活细胞内所有分子和它们之间的相互作用,从而了解这些分子及它们之间的相互作用对整个生物体功能的影响.而网络则是对各种相互作用关系的恰当的抽象描述.近年来,复杂网络理论在揭示各种复杂的技术网络和社会网络的形成和演化机制方面取得了一些重要成果,其方法和结果已对生物学研究产生影响.本文评述了基于基因组的大规模代谢网络重建和分析的进展,论述了利用复杂网络理论分析代谢网络结构的主要方法和结果.
- 赵静俞鸿骆建华曹志伟李亦学
- 关键词:生物信息学系统生物学代谢网络网络结构
- pepReap:基于支持向量机的肽鉴定算法被引量:3
- 2005年
- 利用生物质谱技术进行肽蛋白质鉴定是蛋白质组学研究中的关键问题.提出了一种基于支持向量机(SVM)的肽鉴定算法pepReap.算法由粗细两层打分体系构成,粗打分利用匹配谱峰总强度和数目及肽长度等信息得到候选肽序列的列表,细打分通过SVM算法综合利用多项匹配指标如离子相关性、离子匹配误差、肽序列信息等对粗打分结果进行评价,得到更为可靠的肽鉴定结果.在SVM的参数选择过程中,采用马修斯相关系数来评价分类性能以适应不平衡数据集的情况.在公开发表的数据集上的实验表明,该算法与采用阈值评价方法的流行商业软件SEQUEST相比,在鉴定精度相当的情况下可以获得更高的鉴定灵敏度.
- 王海鹏付岩孙瑞祥贺思敏曾嵘高文
- 关键词:支持向量机蛋白质组学不平衡数据集参数选择
- Weighted SVM在蛋白质磷酸化位点预测中的应用被引量:10
- 2006年
- Weighted SVM是标准SVM针对非均衡样本的改进。首次将Weighted SVM用于蛋白质磷酸化位点的预测,在最新版的蛋白质磷酸化数据集PhosphoBase上,取得了目前为止最好的分类精度。k-fold交叉验证和独立测试集实验的结果表明,通过对样本数相对较少的正样本赋予较大的惩罚参数,Weighted SVM有效地改善了分类器向负样本方向的“偏斜”,提高了总的预测正确率以及(正样本)查全率。
- 赵凌志刘颖覃征
- 关键词:WEIGHTEDSVM蛋白质磷酸化生物信息学数据挖掘
- 基于AdaBoost方法的蛋白质磷酸化修饰规则抽取被引量:1
- 2007年
- 磷酸化是最重要的蛋白质翻译后修饰之一,随着蛋白质磷酸化数据的增加,利用已有数据对蛋白质磷酸化修饰进行规律挖掘和预测的条件日益成熟。设计新的基于AdaBoost(adaptivc boost)分类器的规则抽取算法和利用修饰位点附近氨基酸性质作为特征并采用AdaBoost方法进行特征选择和分类器训练的磷酸化修饰位点预测方法AproPhos(using amino acid pro- perties for phosphorylation sites prediction),使其在具有较高预测精度的同时可以对预测结果进行可理解的规则解释,规则抽取还有助于发现新的磷酸化修饰氨基酸性质分布规律,对揭示生命活动规律和药物开发有着重要意义。
- 蔡津津赵杰煜贺思敏
- 关键词:磷酸化规则抽取ADABOOST算法蛋白质
- 含先验信息的学习机在生物序列分析中的应用
- 2005年
- 生物序列分析是机器学习和数据挖掘技术一个重要的应用领域。它的特别之处在于,很多有领域背景的先验知识可以在分析过程中得到利用,从而改善分析的效果。在对蛋白质的乙酰化修饰的预测过程中,通过合理地利用先验信息,改进模式提取方法,能够显著地提高支持向量机模型的预测性能。
- 刘颖林元烈覃征
- 关键词:先验信息生物序列分析支持向量机