高兵
- 作品数:4 被引量:16H指数:3
- 供职机构:哈尔滨医科大学更多>>
- 发文基金:黑龙江省自然科学基金国家自然科学基金国家科技支撑计划更多>>
- 相关领域:医药卫生理学更多>>
- 多次交叉验证对PLSDA模型的影响研究被引量:5
- 2017年
- 目的比较一次交叉验证和多次交叉验证对PLSDA最优模型的影响,探讨在个体正确分组和少数个体错分时,多次交叉验证对PLSDA最优模型稳定性的影响。方法打乱数据集中个体顺序进行多次交叉验证,通过一次交叉验证和多次交叉验证的方法对模拟数据和真实数据进行分析,使用成分数和MSEP等参数值来评价模型变异性和稳定性。结果模拟数据结果,仅进行1次交叉验证结果成分数为3,MSEP值为0.3792;在不打乱数据标签时,5000次交叉验证结果中,成分数范围是2~6,MSEP值的范围0.2569~0.5794;打乱5%的标签时,5000次交叉验证结果中,成分数范围是1~8,MSEP值的范围0.2061~0.6463;真实数据结果,进行1次交叉验证结果成分数为4,MSEP值为0.1376;10000次交叉验证成分数范围是4~10,MSEP范围是0.0802~0.3761。结论一次交叉验证结果不稳定,在应用PLSDA建模时,多次交叉验证在少量个体错分时能够获得稳定模型,建议使用多次交叉验证确保PLSDA模型稳定性。
- 曲思杨张秋菊王文佶谢彪孙琳高兵刘美娜
- 关键词:高维数据
- 压缩感知理论在小样本量蛋白质组学变量筛选研究中的应用被引量:1
- 2019年
- 目的探索基于压缩感知理论变量筛选方法在小样本量蛋白质组学研究中应用的效果和特点,为小样本量的蛋白质组学的变量筛选提供更灵敏、可靠的方法。方法模拟实验比较基于CS理论的变量筛选方法与偏最小二乘(PLS)及随机森林(RF)筛选变量的能力,通过灵敏度、特异度及平衡准确度评价其变量筛选效果;利用CS变量筛选方法筛选非小细胞肺癌两亚型组(腺癌和鳞状细胞癌)的差异蛋白。结果模拟实验表明,CS理论的变量筛选方法在样本量较小时具有较好的变量筛选效果,灵敏度、特异度及平衡准确度均较高;利用基于CS理论的变量筛选方法筛选,获得肺腺癌和鳞状细胞癌间差异表达蛋白22种,被证明是肺腺癌和鳞状细胞癌间有差异的蛋白为:Cytokeratin 6A、Cytokeratin 6B、Cytokeratin 6C、PKP1、P63、MCT1。结论基于CS理论的变量筛选方法在样本量特别少时,筛选变量的效果优于PLS和RF,更适用于小样本蛋白质组学数据变量筛选研究。
- 张薇张秋菊王玉鹏谢彪孙琳高兵叶倩田伟侯小文刘美娜
- 关键词:压缩感知蛋白质组学小样本
- 基于色谱-质谱平台的代谢组学数据预处理方法被引量:6
- 2017年
- 代谢组学的概念自20世纪90年代被正式提出,已被广泛应用于医学研究领域,其一般研究流程包括样本采集、样本检测、数据预处理、数据分析和生物学解释等。常用的样本检测技术有核磁共振(nuclear magnetic resonance,NMR)和高分辨率色谱-质谱联用技术,本文所述方法针对后者。
- 孙琳张秋菊王文佶曲思杨谢彪高兵刘美娜
- 关键词:代谢组学数据预处理方法色谱-质谱高分辨率噪声强度缺失数据
- 动态代谢组学数据分析方法介绍被引量:5
- 2016年
- 近年来,代谢组学发展迅速并广泛应用于营养学、毒理学、疾病诊断等各个领域。随着研究的深入,代谢组学所获得的数据集因研究设计的不同而日益复杂,产生了有时间间隔的动态代谢组学数据。然而目前分析此类数据的方法十分有限,并且在大多数情况下,这种动态数据所带来的因时间因素产生的变异直接被忽略。
- 王文佶张秋菊曲思杨谢彪高兵孙琳刘美娜
- 关键词:代谢组学数据集疾病诊断动态数据营养学毒理学