涂金金
- 作品数:9 被引量:12H指数:2
- 供职机构:南京师范大学更多>>
- 发文基金:江苏省普通高校研究生科研创新计划项目江苏省自然科学基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术生物学更多>>
- 一种面向大规模基因数据的读段定位方法
- 本发明公开了一种面向大规模基因数据的读段定位方法;属于生物信息分析领域。该方法包括如下步骤:基因读段数据随机分割;数据的负载平衡;读段的空间索引;子读段不跨越剪切位定位;子读段跨越剪切位定位;子读段拼接;读段定位信息统计...
- 杨明涂金金高阳
- 文献传递
- 一种并行结构化支持向量机次梯度投影算法被引量:2
- 2014年
- 支持向量机的次梯度投影算法是解决支持向量机优化求解问题的一种简单有效的迭代算法。该算法通过梯度下降和投影两个步骤的多轮迭代,找到两类最大间隔的分类面。针对该算法忽略了对寻找分类面同样有指导意义的样本分布信息这一问题,在分类器设计中融入结构信息,并且采用MapReduce并行计算框架,提出了一种并行结构化支持向量机的次梯度投影算法,该算法能够充分利用集群的计算和存储能力,适用于海量数据的优化问题。在NASA的两个软件模块缺陷度量数据集CM1和PC1上的实验结果表明,该算法能够加快收敛速度,提高分类性能,有效地解决海量数据的优化求解问题。
- 郭丽娜杨明涂金金
- 关键词:MAPREDUCE
- 基于MapReduce的基因数据密度层次聚类算法被引量:7
- 2014年
- 随着生物信息技术的快速发展,基因表达数据的规模急剧增长,这给传统的基因表达数据聚类算法带来了严峻的挑战.基于密度的层次聚类(DHC)能够较好地解决基因表达数据嵌套类问题且鲁棒性较好,但处理海量数据的效率不高.为此,提出了基于MapReduce的密度层次聚类算法——DisDHC.该算法首先进行数据分割,在每个子集上利用DHC进行聚类获得稀疏化的数据;在此基础上再次进行DHC聚类;最终产生整体数据的密度中心点.在酵母数据集、酵母细胞周期数据集、人血清数据集上进行实验,结果表明,DisDHC算法在保持DHC聚类效果的同时,极大地缩短了聚类时间.
- 涂金金杨明郭丽娜
- 关键词:M基因表达数据
- 基于MapReduce的基因读段定位算法
- 高效地进行基因读段定位是生物信息分析的首要前提,然而,随着新一代高通量测序技术的快速发展,RNA-seq测序技术产生的海量数据对原有读段定位算法的效率带来严峻的挑战。为此,本文提出了基于MapReduce的不考虑剪切位的...
- 涂金金杨明郭丽娜
- 关键词:MAPREDUCE
- 突发公共卫生应急指挥决策系统
- 本发明公开了一种突发公共卫生应急指挥决策系统,包含事件上报模块、地图可视化模块、警情查看模块、周围环境查看模块、资源调度模块、队伍组建模块、决策文书生成模块和后台管理模块。本发明的系统能在地图上以不同颜色的闪烁点显示不同...
- 杨明郭丽娜涂金金何志芬
- 文献传递
- 一种面向大规模基因数据的读段定位方法
- 本发明公开了一种面向大规模基因数据的读段定位方法;属于生物信息分析领域。该方法包括如下步骤:基因读段数据随机分割;数据的负载平衡;读段的空间索引;子读段不跨越剪切位定位;子读段跨越剪切位定位;子读段拼接;读段定位信息统计...
- 杨明涂金金高阳
- 基于MapReduce的基因数据分析算法研究
- 基因数据分析是当前的研究热点,倍受机器学习、数据挖掘研究者的关注。基因读段定位是基因数据分析的关键环节,而基因聚类则是基因功能分析的重要途径,是生物学家寻找未知基因功能的重要手段,受到研究者的广泛关注。随着新一代测序技术...
- 涂金金
- 关键词:MAPREDUCE基因聚类
- 文献传递
- 基于MapReduce的基因读段定位改进算法被引量:1
- 2015年
- 由于高通量测序技术产生了海量基因读段数据,并行的基因读段定位算法成为近年来的研究热点。对基因匹配算法进行研究,提出了一种基于MapReduce的基因读段定位改进算法,并且通过在读段定位过程中融入生物信息以及利用Hadoop分布式缓存机制,在一定程度上降低了算法的复杂度。在拟南芥菜基因数据集上进行的实验表明,该算法能够有效提高算法执行效率,减少算法执行时间。
- 涂金金杨明郭丽娜
- 关键词:MAPREDUCE
- 基于MapReduce的基因读段定位算法被引量:2
- 2014年
- RNA-seq测序技术的高速发展所产生的海量数据在执行效率上给原有读段定位算法带来严峻的挑战.为此,提出基于MapReduce的不跨越剪切位的空位种子索引算法(PSeqMap)和跨越剪切位的空位种子索引算法(PJuncSeqMap),以及一种负载平衡解决方案.该算法利用MapReduce框架实现空位种子索引算法的并行化,在拟南芥菜基因数据集上的实验结果表明文中提出的算法能够充分利用集群的存储和计算能力,高效处理海量基因数据.
- 涂金金杨明郭丽娜
- 关键词:MAPREDUCE