国家高技术研究发展计划(2012AA010903)
- 作品数:24 被引量:35H指数:3
- 相关作者:李春江杨灿群杜云飞何王全文延华更多>>
- 相关机构:国防科学技术大学江南计算技术研究所湖南商务职业技术学院更多>>
- 发文基金:国家高技术研究发展计划国家自然科学基金国家重点实验室开放基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于Pthreads的并行DSRC压缩算法设计与实现
- 2015年
- 高通量测序仪产生大量的DNA数据,FASTQ是被广泛使用的存储DNA数据的数据格式。对FASTQ格式的数据进行压缩处理,能有效地节省存储空间。DSRC算法具有压缩比高的优点,因此对DSRC算法进行并行能提高压缩FASTQ格式的DNA数据的效率。基于Pthreads,实现了并行DSRC算法。测试结果表明,当使用4线程时加速比达到3.5。
- 詹科张云泉王婷郑晶晶张鹏
- 关键词:数据压缩DSRC
- SPM结构上冗余读延迟写优化的设计与实现
- 2015年
- 随着微处理器架构的发展,将片上SRAM组织成SPM这种软件管理的非cache结构成为众多处理器的选择。SPM结构的特点是实现简单,访问延迟低、带宽高。要有效利用有限的片上SPM空间提升程序性能,必须由用户显式进行数据的布局和传送,或者由编译器进行高效的自动访存优化。冗余读延迟写优化从循环中多个主存访问之间的关联性出发,自动进行了数据传送和缓存优化,提高了SPM上的数据重用率。经过测试,可以有效提升程序性能。
- 文延华冯冬明尉红梅
- 关键词:SPM数据重用
- 一种适用于移动对等网络的分簇算法被引量:1
- 2014年
- 通过分簇算法减小网络振动效应,延长网络的寿命是移动对等网络的研究重点之一。在研究Kautz图及其特性的基础上,提出一种基于Kautz图的移动对等网络分簇算法。在算法中,定义地址空间树,使用Kautz串作为节点标识,并运用后根序和宽度优先算法遍历地址空间树等一系列技术生成簇。同时设计了相关机制管理和维护簇结构,保证结构一致性。理论证明和实验评估表明,该分簇算法能有效减小振动效应,延长网络寿命。
- 杨忠仪左克
- 关键词:分簇算法移动对等网络
- 面向ARM64架构多核微处理器的模板计算性能优化研究被引量:3
- 2017年
- 模板计算是一类重要的计算核心,广泛存在于图像和视频处理以及大规模科学和工程计算领域。但是,针对ARM64高性能处理器的模板计算性能的优化研究还很少。为了实现典型模板计算核心在ARM64架构多核微处理器上的并行化和性能优化,基于AMCC X-GENE2和飞腾FT-1500A多核微处理器特点,提出了基于两维度绑定的优化方法,该方法通过线程与CPU绑定以及线程与数据块绑定,减少了线程调度的并行开销,增加了Cache的命中率。实验结果表明,该方法提升了模板计算在ARM64架构多核微处理器上的性能,且在两种ARM64架构多核微处理器平台上都表现出较好的可扩展性。
- 冯璐霞李春江黄亚斌
- 关键词:并行化
- 基于聚类分析的进程拓扑映射优化被引量:5
- 2015年
- 高性能计算机系统规模的持续增大使通信墙问题越来越突出.逻辑进程与物理拓扑的映射优化方法能够提高应用的通信效率,已经成为高性能计算的研究热点之一.传统的进程映射优化模型由于映射粒度过细,导致映射效率低,且易破坏通信密集的进程簇的整体性.为此,文中提出了一种聚合的二次分配问题(Aggregated Quadratic Assignment Problem,AQAP)模型,并以AQAP模型为指导,提出了一种新颖的基于聚类分析的进程映射优化方法.该方法首先使用谱聚类算法对进程通信模式进行聚类分析,然后采用自适应聚合进程映射策略实现进程簇到物理拓扑的映射,最后使用聚合Pair-Exchange算法对进程簇映射进行进一步优化.文中提出的优化方法首次将谱聚类分析应用于进程映射问题,可以有效减少远距离通信,增强通信的局部性.NPB基准程序及两道实际应用的实验结果表明,文中提出的进程映射优化方法可以使程序获得明显的性能提升,优于现有的基于Pair-Exchange以及基于图划分的进程映射方法.
- 王涛卿鹏魏迪漆锋滨
- 关键词:通信模式物理拓扑谱聚类MPI
- 基于数据对齐属性指导的GCC自动向量化优化
- 2014年
- 主流通用处理器都已经实现了多核并行以及处理器核内的SIMD并行。虽然GCC编译器实现了面向SIMD并行的自动向量化,但是编译器针对OpenMP并行程序的自动向量化效果仍很不理想。针对多线程并行的OpenMP程序,基于GCC的OpenMP编译实现,扩展了数据对齐属性指导语句,使编译器在自动向量化时能够进行更准确的数据对齐与否的判断,优化了GCC编译器的自动向量化。
- 李春江黄娟娟徐颖董钰山
- 关键词:自动向量化GCC
- GCC中紧嵌套循环坍缩的并行化和向量化
- OpenMP 3.0规范中的collapse从句能指导编译器进行紧嵌套循环的并行化.最新OpenMP4.0规范中新增了用于指导循环向量化的simd结构,它也支持collapse从句,指导编译器进行紧嵌套循环的向量化.当前...
- 徐颖李春江董钰山
- 关键词:并行化向量化
- OpenCL的动态执行模式在静态编译支持下的实现被引量:1
- 2014年
- OpenCL的动态执行模式要求底层平台支持device文件的动态生成、编译和加载运行。对于不具备这些特性的平台,必须从软件层面考虑支持方法。通过采用函数更名技术解决同名函数正确识别问题,基于动态执行流的predo策略可以在静态编译环境下实现OpenCL的动态执行模式。
- 文延华何王全尉红梅
- 关键词:执行流
- 针对小规模整数的MPQS算法
- 2015年
- 数域筛法是目前最有效的大整数分解算法,其中候选关系的光滑性判断需要对大量规模不大的余因子做分解,MPQS作为110-digits以下最快的分解算法得到广泛的应用。但现有的MPQS软件包针对96 bit以下的整数优化不足,未充分挖掘整数规模对MPQS性能的影响。针对小规模整数的MPQS算法提出新多项式系数选取和循环拷贝筛两种优化方法,新的系数方案配合参数选取和中间结果规模控制可以尽量避免使用多精度函数;循环拷贝筛法根据筛法定理与周期函数的周期性,利用循环拷贝替代小素因子的筛法,解决了小素因子筛法成本过高和部分因子基筛法筛选效果差的问题。在神威蓝光国产CPU平台上进行的实验测试表明,两种优化方法可使MPQS性能提高30%以上。
- 袁欣辉漆锋滨
- 关键词:筛法多项式系数神威
- X:E级系统结点内编程模型研究
- 2013年
- 基于对E级系统特征的分析和对混合编程模型编程经验的总结,提出了对E级系统结点内编程模型的七项需求.对照七项需求分析了现有编程模型的优点和不足.分析可知:对E级系统的结点内编程模型的研究应该在保证编程模型简单性的前提下,有针对性地解决当前编程模型在性能可扩展性、模型层次性和模型异构性的不足.
- 易会战杜云飞王锋杨灿群
- 关键词:编程模型异构计算OPENMP