李雁冰
- 作品数:16 被引量:21H指数:3
- 供职机构:解放军信息工程大学更多>>
- 发文基金:国家科技重大专项国家高技术研究发展计划国家重点实验室开放基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 类型转换语句的SLP发掘方法被引量:2
- 2014年
- 多媒体技术的迅速发展使得越来越多的处理器集成了SIMD扩展,当前的编译器大多数都已实现了自动向量化功能。为了发掘迭代内并行,一些编译器在自动向量化模块中引入了SLP向量化方法。多媒体数据的密集存储和规则运算使得在处理多媒体数据时需要进行频繁的数据类型转换,而目前的SLP向量化方法对数据类型转换的处理能力还不完善。为了在存在大量数据类型转换语句的程序中发掘更多的SLP向量化机会,提出了一种类型转换语句的SLP发掘方法,它能够在SLP向量化框架下利用数据重组实现具有相同向量化因子和不同向量化因子的数据类型之间的转换。实验结果表明,该方法能够有效地对类型转换语句进行SLP向量化发掘,提高了程序的向量化执行效率。
- 赵博赵荣彩李雁冰高伟
- 关键词:数据重组SLPSIMD
- 一种基于OpenMP的DSWP自动并行算法被引量:1
- 2015年
- 多核处理器能够提升多线程程序的性能,但早已存在的诸多单线程程序无法从中获益,程序员也习惯于编写单线程程序。自动并行化技术是将单线程程序移植到多核上的重要手段,但是当循环中存在无法确定的数据依赖或复杂的控制流时,传统的自动并行化技术无法取得良好效果。decoupled software pipelining(DSWP)算法针对传统自动并行失败的循环实现了指令级的细粒度并行,但是需要对处理器体系结构和指令集的深入了解,对其并行性能和应用广泛性带来限制。通过对DSWP算法进行改进,提出了基于Open MP的DSWP自动并行算法。该算法增大了并行粒度,使用Open MP并行应用编程接口实现并行,不再依赖具体的体系结构,实现了DSWP算法的应用扩展。通过对基准测试集NPB3.3.1的测试表明,传统自动并行失败的循环,经文章算法并行后在双核处理器上平均加速比达到1.23以上;使用添加了文章算法的Open64编译器生成的并行程序,与仅使用传统自动并行方法的Intel编译器和Open64编译器所得程序相比,平均加速比分别高出22%和26%。
- 刘晓娴赵荣彩韩林李雁冰
- 关键词:自动并行化OPENMP
- 基于随机决策森林的循环展开方法被引量:2
- 2018年
- 为提高编译器循环展开因子计算的准确性,提出一种基于改进的随机森林模型预测循环展开因子的方法。对传统随机森林模型进行加权的改进,为解决非平衡数据集问题提出基于SMOTE算法的BSC算法。从SPEC2006等测试集中提取近1000个循环并提取特征构成训练集,训练循环展开因子预测模型。生成的模型对于展开因子的预测准确度达81%,与编译器默认的循环展开方法相比,利用预测模型对选定的测试程序循环展开后性能平均提升12%。
- 王冬赵荣彩高伟李雁冰
- 关键词:非平衡数据集
- 渐进式智能回溯向量化代码调优方法
- 为了充分发挥高性能计算机的计算能力,缓解程序员设计和编写并行程序的压力,扩充可用软件集合,设计并实现了利用交互界面中深入挖掘程序中的可向量化语句,优化生成代码中的向量化语句,提高生成代码的执行效率。该方法对充分发挥高性能...
- 赵博赵荣彩李雁冰
- 基于SIMD扩展部件的嵌套循环向量并行的实现方法及其装置
- 本发明涉及一种基于SIMD扩展部件的嵌套循环向量并行的实现方法及其装置,该方法包含:通过设定破环测试参数对待并行化程序区域进行依赖环破除测试,将SIMD扩展部件对应于待并行化程序区域中循环的局部并行,通过循环分段发掘待并...
- 李颖颖庞建民徐金龙韩林李雁冰王琦
- 面向异构众核多级存储结构的数据分布与局部性优化方法
- 本发明涉及一种面向异构众核多级存储结构的数据分布与局部性优化方法,具体为:对程序进行数据流分析,完成数据在不同类型核心的存储器之间的高效映射和布局,通过自动生成指导数据分布的相关数据管理子句,显式控制局部存储器与主存储器...
- 姚远赵荣彩韩林李雁冰黄品丰
- 文献传递
- 面向异构多核处理器的的循环分块被引量:4
- 2015年
- 将OpenACC编程模型用于异构多核处理器时,由于异构多核处理器加速设备内存有限,操作大量数据的代码不能获得很好的加速。针对这一问题,在OpenACC中引入循环分块子句,对循环进行分块处理,使每个循环块使用的数据能够存储在设备内存中;提出面向异构多核处理器的循环分块子句生成算法,并在基于Open64的"源-源"自动并行化系统Auto-ACC中进行实现。测试结果表明,在异构多核处理器上,扩展的循环分块子句及所提生成算法能够对程序进行明显的加速。
- 李雁冰赵荣彩赵博黄品丰
- 关键词:异构多核处理器数据重用自动并行化
- 基于循环分块的流水粒度优化算法被引量:1
- 2013年
- 当计算划分层迭代数目较大,或是循环体单次迭代工作量较大,但可用的并行线程数目较小时,传统的基于循环分块的流水粒度优化方法无法进行处理。为此,提出一种基于循环分块减小流水粒度的方法,并根据流水并行循环的代价模型实现最优流水粒度的求解,设计实现了一个流水计算粒度的优化算法。对有限差分松弛法(FDR)的波前循环和时域有限差分法(FDTD)中典型循环的测试表明,与传统的流水粒度选择方法相比,所提算法能够得到更优的循环分块大小。
- 刘晓娴赵荣彩丁锐李雁冰
- 关键词:自动并行化
- 分支嵌套循环的自动并行化研究被引量:3
- 2017年
- GCC编译器是一种受广大研究者青睐的开源优化编译器,但它仅仅能够对完美嵌套循环进行依赖分析。为了更好地挖掘嵌套循环粗粒度的并行,深入研究了GCC5.1数据依赖分析过程,提出了一种能够处理分支嵌套循环的依赖测试方法。首先识别出分支嵌套循环,然后分析数组下标与分支嵌套循环外层索引变量的关系,最后计算出外层循环索引变量的距离向量,并通过检测距离向量判断循环是否存在依赖。实验结果表明,该方法能够正确、有效地分析出分支嵌套循环的依赖关系。
- 丁丽丽李雁冰张素平王鹏翔张庆花
- 关键词:GCC距离向量
- 基于SIMD扩展部件的嵌套循环向量并行的实现方法及其装置
- 本发明涉及一种基于SIMD扩展部件的嵌套循环向量并行的实现方法及其装置,该方法包含:通过设定破环测试参数对待并行化程序区域进行依赖环破除测试,将SIMD扩展部件对应于待并行化程序区域中循环的局部并行,通过循环分段发掘待并...
- 李颖颖庞建民徐金龙韩林李雁冰王琦
- 文献传递