姜涛 作品数:19 被引量:41 H指数:4 供职机构: 西北工业大学计算机学院 更多>> 发文基金: 国家自然科学基金 国家重点基础研究发展计划 国家高技术研究发展计划 更多>> 相关领域: 自动化与计算机技术 生物学 医药卫生 电子电信 更多>>
基因表达数据挖掘关键技术研究 基因微阵列是实验分子生物学中的一个前所未有的突破,其使得研究者可以同时监测多个基因在多个实验条件下的表达水平的变化,进而为发现基因协同表达网络、研制药物、预防疾病等提供技术支持。随着基因微阵列技术的飞速进步,大量的基因表... 姜涛关键词:基因表达数据 文献传递 基于共享的MapReduce多查询优化技术 被引量:7 2013年 为解决MapReduce处理多个查询时效率低下的问题,提出了一种基于查询共享的MapReduce查询优化方法——ShareOpt优化。通过分析所有查询的操作模式,找出其中共享的子查询部分,并根据子查询的执行顺序构造执行计划有向图(DAG),最终确定一组查询的整体执行计划。通过与Hive和Pig的对比,验证了该方法能够在保证准确性的情况下有效地减少执行步数,提高查询执行的效率。 赵保学 李战怀 陈群 潘巍 姜涛 金健关键词:查询优化 MAPREDUCE 一种基于DI-GUY的虚拟人物动作可视化方法 本发明涉及一种基于DI-GUY的虚拟人物动作可视化方法,其特征在于:利用DI-GUY提供的人物库,选取特定的人物模型;从DI-GUY动作库中为人物模型选择基本动作M个,将其按动作的先后顺序排列在timeline的时间列表... 高颖 郭淑霞 张金汇 刘宁 陈卫军 姜涛 韩前进 宋阳文献传递 基于投票表决特征融合的蛋白质结构类预测 2007年 根据氨基酸的物化特性,基于氨基酸组成成分与氨基酸残基指数自相关函数相结合特征提取法,从非同源蛋白质序列中提取7个特征集(COMP、FINA、MAXF、NAKH、BIOV、OOBM、RICJ),采用有先验知识的投票表决特征融合算法融合这7个特征集,对蛋白质结构类进行预测.结果表明,投票表决融合算法的预测总精度及每一类别的预测精度与7个特征集相比较均有不同程度的提高,说明投票表决融合算法在一定程度上能较多地反映蛋白质的空间结构信息. 邵壮超 张绍武 潘泉 施建宇 姜涛关键词:自相关函数 分布式大数据函数依赖发现 被引量:9 2015年 在关系数据库中,函数依赖发现是一种十分重要的数据库分析技术,在知识发现、数据库语义分析、数据质量评估以及数据库设计等领域有着广泛的应用.现有的函数依赖发现算法主要针对集中式数据,通常仅适用于数据规模比较小的情况.在大数据背景下,分布式环境函数依赖发现更富有挑战性.提出了一种分布式环境下大数据的函数依赖发现算法,其基本思想是首先在各个节点利用本地数据并行进行函数依赖发现,基于以上发现的结果对函数依赖候选集进行剪枝,然后进一步利用函数依赖的左部(left hand side,LHS)的特征,对函数依赖候选集进行分组,针对每一组候选函数依赖并行执行分布式环境发现算法,最终得到所有函数依赖.对不同分组情况下所能检测的候选函数依赖数量进行了分析,在算法的执行过程中,综合考虑了数据迁移量和负载均衡的问题.在真实的大数据集上的实验表明,提出的检测算法在检测效率方面与已有方法相比有明显的提升. 李卫榜 李战怀 陈群 姜涛 刘海龙 潘巍关键词:函数依赖 大数据 知识发现 并行计算 基于一种动态特征选择融合算法的蛋白质结构类预测 2005年 本文根据氨基酸理化性质,基于氨基酸组成成分与自相关函数相结合特征提取法从非同源蛋白质序列中提取七个特征集,采用局部正确性的动态特征选择算法进行多特征组合来预测蛋白质结构类,并与各个特征集进行了比较。结果表明,DFS-LA算法的预测总精度较各个特征集均有不同程度的提高。Jackknife检验下,DFS-LA算法的预测总精度为82.80%,比COMP特征集提高8.91%;独立测试检验下,DFS-LA算法的预测总精度为86.67%,比COMP特征集提高11.67%。这说明DFS-LA算法可有效提高结构类预测精度,多特征组合能在一定程度上更多地反映蛋白质的空间结构信息。 邵壮超 张绍武 潘泉 施建宇 姜涛基因表达数据中局部模式的查询 被引量:1 2016年 基因表达数据分析一般是通过挖掘局部模式来实现的。保序子矩阵是局部模式挖掘中一种经典的模型,可以获取到在若干条件下表现出一致趋势的一组基因。高通量基因微阵列技术的进步,促进了海量基因表达数据的产生,使得对高性能基因表达数据分析算法的需求极为迫切。现有方法大多数是通过批量挖掘的方法来分析数据,即使有通过查询方式来获取精确结果的方法,其全面性与性能也有待提高。为了提高数据分析的效率与准确性,首先提出一种基于前缀树的基因表达数据索引gIndex,然后给出了一种基于列关键词查询的保序子矩阵分析方法 GEQc。其不经过批量挖掘,只需要建立索引并通过关键词来完成正相关/负相关/时滞等模式的查询。实验结果表明,与现有方法相比,所提算法具有良好的数据分析效率与可扩展性。 姜涛 李战怀 尚学群 陈伯林 李卫榜关键词:基因表达数据 关键词查询 分布式大数据不一致性检测 被引量:7 2016年 关系数据库中可能存在数据不一致性现象,关系数据库数据质量的一个主要问题是存在违反函数依赖情况.为找出不一致数据,需要进行函数依赖冲突检测.集中式数据库中可以通过SQL技术检测不一致情况,尽管检测效率不高;而分布式环境下不一致性检测更富有挑战性,不仅需要考虑数据的迁移,检测任务如何分配也是一个难题.在大数据背景下,上述问题更加突出.提出了一种分布式环境单函数依赖不一致性检测方法,给出了不一致性检测响应时间代价模型.为减少数据迁移量和响应时间,基于等价类对待检测数据进行预处理.由于分布式环境不一致性检测问题为NP-hard问题,多项式时间内难以得到最优解,给出了代价模型的多项式时间3/2-近似最优解.提出了一种分布式环境多函数依赖不一致性检测方法,基于最小集合覆盖理论,通过一次数据遍历,对多个函数依赖进行并行批检测,同时考虑检测过程中的负载均衡等问题.在真实和人工数据集上的实验表明:相对于传统的检测方法以及基于Hadoop的Na?ve方法,所提出的检测方法检测效率有明显的提升,且扩展性能良好. 李卫榜 李战怀 陈群 杨婧颖 姜涛关键词:函数依赖 分布式数据 大数据 可扩展Hadoop任务分配模块的研究与实现 MapReduce是一种应用广泛的并行编程模型,Hadoop是MapReduce的开源实现.为了满足不同类型的MapReduce作业对任务分配策略的特殊需求,在深入分析Hadoop固有任务分配机制的基础上,设计并实现了一... 赵保学 李战怀 陈群 姜涛 潘巍 金健关键词:MAPREDUCE HADOOP 可扩展性 文献传递 一种飞行器座舱显示器与座舱外景联动的虚拟仿真方法 本发明涉及一种飞行器座舱显示器与座舱外景联动的虚拟仿真方法,其特征在于:通过Vega Prime提供的vpGLStudio插件将座舱显示器系统嵌入进虚拟视景系统中,调用VPValuePassToGLS()函数把屏幕坐标下... 高颖 郭淑霞 姜涛 李瑛 刘琦 李南京 张金汇 宋阳文献传递