蒋丽娟
- 作品数:11 被引量:14H指数:2
- 供职机构:中国科学院软件研究所更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种大整数乘法Comba算法基于OpenMP的并行实现方法
- 本发明公开了一种大整数乘法Comba算法基于OpenMP的并行实现方法,基于64位无符号长整型整数操作,通过添加三个临时数组存储加乘操作计算得到的中间结果,从而解决加乘运算与进位运算的数据相关性,将加乘操作与进位操作分开...
- 蒋丽娟杨超刘芳芳赵玉文解庆春
- 基于FFT的大整数乘法SSA算法多核并行化实现方法
- 一种基于FFT的大整数乘法SSA算法多核并行化实现方法,其是从细粒度的角度对大整数乘法SSA算法进行多核并行优化,其核心是对利用SSA算法求取负循环卷积的四个核心计算过程分别进行并行设计,即分别对分解、FFT正变换、点乘...
- 赵玉文刘芳芳杨超解庆春蒋丽娟
- 一种基于GMP的大整数加法和减法多核并行化实现方法
- 本发明涉及一种基于GMP的大整数加法和减法多核并行化实现方法,首先借助于临时数组来解决加法或减法操作产生的进位或借位带来的数据相关性问题,然后采用将迭代循环for中的运算进行任务划分,基于OpenMP多线程编程实现,使用...
- 赵玉文刘芳芳解庆春杨超蒋丽娟
- 基于申威1600的3级BLAS GEMM函数优化被引量:10
- 2016年
- BLAS是当前科学计算领域重要的底层支持数学库之一,其中的3级BLAS函数应用最为广泛.本文基于国产申威1600平台,提出了一种基础线性代数库BLAS的三级函数通用矩阵乘GEMM的高性能实现方法.在单核上,使用乘加指令、循环展开、软件流水线指令重排、SIMD向量化运算、寄存器分块技术等与平台架构相关的技术手段,实现汇编级手工优化;在多核上,提出了适用于该平台的多线程加速方案.实验结果显示,在单核串行性能测试中,与知名开源数学库Goto BLAS相比,我们实现了平均4.72倍的加速效果;在多核并行扩展测试中,4线程版的性能则平均达到了单线程版性能的3.02倍.
- 刘昊刘芳芳张鹏杨超杨超
- 关键词:多核
- 一种大整数乘法Karatsuba算法的并行实现方法
- 本发明公开了一种大整数乘法Karatsuba算法的并行实现方法,基于64位无符号长整型整数操作,通过巧妙的公式转换技巧,指针运算以及存储方式,以解决部分积存储与计算的相关性问题,通过OpenMP多线程编程,采用secti...
- 蒋丽娟杜胜杨超许永超刘芳芳钟伟赵玉文申超
- 文献传递
- 一种大整数乘法Comba算法基于OpenMP的并行实现方法
- 本发明公开了一种大整数乘法Comba算法基于OpenMP的并行实现方法,基于64位无符号长整型整数操作,通过添加三个临时数组存储加乘操作计算得到的中间结果,从而解决加乘运算与进位运算的数据相关性,将加乘操作与进位操作分开...
- 蒋丽娟杨超刘芳芳赵玉文解庆春
- 文献传递
- 一种大整数乘法Karatsuba算法的并行实现方法
- 本发明公开了一种大整数乘法Karatsuba算法的并行实现方法,基于64位无符号长整型整数操作,通过巧妙的公式转换技巧,指针运算以及存储方式,以解决部分积存储与计算的相关性问题,通过OpenMP多线程编程,采用secti...
- 蒋丽娟杜胜杨超许永超刘芳芳钟伟赵玉文申超
- 文献传递
- 大整数乘法Sch?nhage-Strassen算法的多核并行化研究被引量:2
- 2018年
- 基于数论转换的Sch?nhage-Strassen算法(简称SSA)是目前实际应用中使用较多、速度较快的大整数乘法算法之一.首先对SSA算法原理进行了详细分析,然后从细粒度的角度对SSA算法在多核平台进行比较细致的并行优化.基于大整数运算开源库GMP实现了SSA算法并行化方案,并在Intel X86平台进行了验证和测试.经测试,8线程时的最大加速比可达到6.59,平均加速比6.41.在浪潮TS850服务器对并行方案的扩展性进行测试,实验结果表明:SSA算法并行方案具有良好的扩展性,最大加速比可达21.42.
- 赵玉文刘芳芳蒋丽娟杨超
- 关键词:大整数乘法傅里叶变换FFT多核并行
- 一种基于GMP的大整数加法和减法多核并行化实现方法
- 本发明涉及一种基于GMP的大整数加法和减法多核并行化实现方法,首先借助于临时数组来解决加法或减法操作产生的进位或借位带来的数据相关性问题,然后采用将迭代循环for中的运算进行任务划分,基于OpenMP多线程编程实现,使用...
- 赵玉文刘芳芳解庆春杨超蒋丽娟
- 文献传递
- 基于FFT的大整数乘法SSA算法多核并行化实现方法
- 一种基于FFT的大整数乘法SSA算法多核并行化实现方法,其是从细粒度的角度对大整数乘法SSA算法进行多核并行优化,其核心是对利用SSA算法求取负循环卷积的四个核心计算过程分别进行并行设计,即分别对分解、FFT正变换、点乘...
- 赵玉文刘芳芳杨超解庆春蒋丽娟
- 文献传递