金健 作品数:5 被引量:8 H指数:1 供职机构: 西北工业大学 更多>> 发文基金: 国家自然科学基金 国家重点基础研究发展计划 西北工业大学研究生创业种子基金 更多>> 相关领域: 自动化与计算机技术 更多>>
可扩展Hadoop任务分配模块的研究与实现 MapReduce是一种应用广泛的并行编程模型,Hadoop是MapReduce的开源实现.为了满足不同类型的MapReduce作业对任务分配策略的特殊需求,在深入分析Hadoop固有任务分配机制的基础上,设计并实现了一... 赵保学 李战怀 陈群 姜涛 潘巍 金健关键词:MAPREDUCE HADOOP 可扩展性 文献传递 基于共享的MapReduce多查询优化技术 被引量:7 2013年 为解决MapReduce处理多个查询时效率低下的问题,提出了一种基于查询共享的MapReduce查询优化方法——ShareOpt优化。通过分析所有查询的操作模式,找出其中共享的子查询部分,并根据子查询的执行顺序构造执行计划有向图(DAG),最终确定一组查询的整体执行计划。通过与Hive和Pig的对比,验证了该方法能够在保证准确性的情况下有效地减少执行步数,提高查询执行的效率。 赵保学 李战怀 陈群 潘巍 姜涛 金健关键词:查询优化 MAPREDUCE 基于任务分解的分布式RFID复杂事件检测方法 本发明公开了一种基于任务分解的分布式RFID复杂事件检测方法,首先,将复杂pattern分解若干简单的子任务,由多台机器并行处理,从而降低单个节点的事件速率,提高整体吞吐量;其次,在处理子任务时本发明提出了一种基于位图索... 李战怀 陈群 孙林超 金健 陈琳 康庄庄 刘海龙 潘巍 彭商濂 聂炎明 李强 谢芳全 刘敏文献传递 基于任务分解的分布式RFID复杂事件检测方法 本发明公开了一种基于任务分解的分布式RFID复杂事件检测方法,首先,将复杂pattern分解若干简单的子任务,由多台机器并行处理,从而降低单个节点的事件速率,提高整体吞吐量;其次,在处理子任务时本发明提出了一种基于位图索... 李战怀 陈群 孙林超 金健 陈琳 康庄庄 刘海龙 潘巍 彭商濂 聂炎明 李强 谢芳全 刘敏文献传递 数据倾斜情况下基于MapReduce模型的连接算法研究 被引量:1 2013年 基于MapReduce的连接算法的研究是海量数据研究领域的一个重要内容,但都集中在数据分布均匀的情况下进行算法优化,而在实际应用中数据分布往往是不均匀的。本文基于此背景,提出一种适合在数据严重倾斜时使用基于MapReduce编程模型的连接算法Skew Control Join,算法通过采样获取数据集的整体分布,通过全局分区将数据集进行分割,使倾斜数据的处理平均分配到所有的Reduce任务上。实验表明在数据倾斜时,本文提出的算法具有良好的性能,达到研究目标。 金健 陈群 赵保学关键词:采样