郭颖婕
- 作品数:5 被引量:17H指数:1
- 供职机构:哈尔滨工业大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金中央高校基本科研业务费专项资金国家教育部博士点基金更多>>
- 相关领域:自动化与计算机技术生物学理学更多>>
- 植物抗性基因识别中的随机森林分类方法被引量:15
- 2012年
- 为了解决传统基于同源序列比对的抗性基因识别方法中假阳性高、无法发现新的抗性基因的问题,提出了一种利用随机森林分类器和K-Means聚类降采样方法的抗性基因识别算法。针对目前研究工作中挖掘盲目性大的问题,进行两点改进:引入了随机森林分类器和188维组合特征来进行抗性基因识别,这种基于样本统计学习的方法能够有效地捕捉抗性基因内在特性;对于训练过程中存在的严重类别不平衡现象,使用基于聚类的降采样方法得到了更具代表性的训练集,进一步降低了识别误差。实验结果表明,该算法可以有效地进行抗性基因的识别工作,能够对现有实验验证数据进行准确的分类,并在反例集上也获得了较高的精度。
- 郭颖婕刘晓燕郭茂祖邹权
- 关键词:分类器抗性基因聚类
- 基于随机森林的植物抗性基因识别方法研究
- 植物抗性基因的研究是目前生物信息学领域重要课题之一。自发现第一个抗性基因至今,已有70余条抗性基因经过生物实验验证,并逐步应用于分子育种、转基因等方面的研究中。越来越多的生物信息人员致力于从已有的测序数据中挖掘植物抗性基...
- 郭颖婕
- 关键词:特征提取
- 面向复杂性状遗传性缺失的关联分析方法研究
- 复杂性状作为一种受多个微效基因和环境共同控制的性状,其遗传机理研究一直是遗传学的热点与难点。复杂性状的研究在人类复杂疾病的预防、诊断和治疗、以及改良作物农艺和品质性状、选育优良品种中都发挥着至关重要的作用。随着人类及常见...
- 郭颖婕
- 关键词:全基因组关联分析单核苷酸多态性位点
- 基于XGBoost的质量性状基因互作检测方法被引量:1
- 2020年
- 在质量性状全基因组关联分析GWAS中,以基因作为研究单位的基因-基因相互作用检测方法,以其在统计效力与生物可解释性方面的优势备受关注。然而现有方法中多数对基因之间互作形式给出了强假设,降低了算法对互作关系的检测性能。针对已有方法存在的局限性,本文提出一种基于XGBoost的基因互作检测方法 geXGB。XGBoost作为一种流行且高效的机器学习方法,可以拟合基因型数据与表型之间的作用关系,并利用预测概率与加和模型之间的偏差表征相互作用关系的程度。geXGB对相互作用形式不作假设,增强该方法对不同形式相互作用的检测能力。仿真与真实实验结果表明:该方法能够有效进行不同类型相互作用的检测,可以应用于全基因组关联研究。
- 郭颖婕李傲刘晓燕郭茂祖
- 关键词:单核苷酸多态性位点质量性状全基因组关联分析
- 基于U统计量和集成学习的基因互作检测方法被引量:1
- 2018年
- 在全基因组关联研究GWAS中,多数方法对疾病与单核苷酸多态性位点之间的互作关系形式给出了强假设,这降低了相关方法的挖掘能力.近几年,以基因作为研究单位的基因-基因相互作用检测方法,因其在统计效力与生物可解释性方面的优势受到重视.针对已有方法检测相互作用类型时存在的局限性,提出一种基于U统计值与集成学习器的假设检验方法 GBUtrees,通过构造统计量用于表征疾病性状与2个基因之间关系偏离加性模型的程度,检测以基因为单位的基因-基因相互作用.该统计量在不同子样例集下结果的平均值满足U统计量理论,从而可以利用U统计量的渐进正态分布性质获得所构造统计量的分布信息.GBUtrees对相互作用的形式不作假设,增强该方法对不同形式相互作用的挖掘能力.仿真与真实实验结果表明:该方法能够有效地进行不同类型相互作用的挖掘,可以应用于全基因组关联研究.
- 郭颖婕刘晓燕吴辰熙郭茂祖李傲
- 关键词:U统计量单核苷酸多态性位点全基因组关联研究