雷元武
- 作品数:183 被引量:57H指数:4
- 供职机构:国防科学技术大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划中国航空科学基金更多>>
- 相关领域:自动化与计算机技术电子电信文化科学医药卫生更多>>
- 基于令牌任务调度策略的FFT加速器装置
- 一种基于令牌任务调度策略的FFT加速器装置,包括:FFT加速器,用来控制逻辑完成批量1维FFT运算的控制,给总线控制器发送读写控制参数;总线控制器,根据FFT加速器控制模块的参数,产生读/写DDR存储器或片内SMC存储器...
- 雷元武鲁建壮陈胜刚彭元喜孙书为孙永节刘胜吴虎成李勇许邦建胡封林王耀华
- 文献传递
- 海洋环流数值模式POP的GPU并行优化被引量:3
- 2012年
- POP是一种全球海洋环流模式,广泛应用于海洋研究和气候预测。但是,随着模式分辨率的提高,POP对计算能力的需求呈几何级数增长,从而限制了POP模式的发展。本文在分析POP原理和特征的基础上,采用CUDA Fortran编程模型将POP模式移植到GPU平台上,并采用了网格块间并行和网格块内并行相结合的多层次并行实现全局存储器合并访问,减少局部存储器的使用,利用寄存器提高数据重用度和增大GPU端代码以减少CPU与GPU间的通信等优化策略。实验结果表明,与运行在Intel Xeon X56756核处理器上的串行程序和6进程并行程序相比,GPUPOP可以分别获得8.47倍和1.5倍的加速效果。
- 郭松窦勇雷元武
- 关键词:CUDAGPUCUDAFORTRAN
- 一种VLIW处理器中重复程序的执行控制方法及装置
- 本发明公开一种VLIW处理器中重复程序的执行控制方法及装置,该方法步骤包括:S1.配置一个指令缓存;S2.控制将需要重复执行的各重复程序的执行包信息按照执行顺序缓存至指令缓存中,对执行程序进行识别,当识别到各重复程序时,...
- 陈小文郭阳陈纪孝李勇鲁建壮陈海燕孙书为陈胜刚刘胜雷元武扈啸刘仲
- 文献传递
- 基于FPGA的细粒度并行K-means算法加速器的设计与实现被引量:2
- 2009年
- 本文在深入分析K-means算法计算特征的基础上,基于FPGA平台提出并实现了一种细粒度的并行浮点K-means算法。设计采用了阵列多PE并行处理的任务划分策略,实现了处理单元间的负载平衡,采用数据驱动的流水线隐藏片外存储访问,设计了一种基于脉动阵列结构的主从多PE并行计算阵列,并在单片FPGA(XC5VLX330)上成功集成了4个PE。实验结果表明,我们提出的K-means算法加速器结构具备良好的可扩展性。通过实验测试,我们的实现方案相对于Pentium 4 2.66 GHz单处理器程序达到了15倍的加速比。
- 倪时策窦勇雷元武赵建勋
- 关键词:K-MEANS算法硬件加速器
- 一种多层感知机深度神经网络层间流水的硬件加速器
- 一种多层感知机深度神经网络层间流水的硬件加速器,包括:输入寄存器,用于向奇层神经元计算部件提供输入;奇层神经元计算部件,包括一个以上的硬件人工神经元计算部件;交叉开关,用于将奇层神经元计算部件产生的每一个输出广播到偶层神...
- 陈胜刚鲁中海扈啸宋睿强孙书为刘胜雷元武陈小文陈海燕鲁建壮
- 文献传递
- 支持向量随机访存的方法及装置
- 本发明公开了一种支持向量随机访存的方法及装置,该方法的步骤为:S1:对派发的指令进行译码,识别指令的各个域,获取指令类型、地址计算方式、访存粒度和随机地址寄存器文件与寻址相关的信息;S2:根据指令译码信息和计算得到的n个...
- 陈海燕郭阳刘胜吴健虢雷元武陈胜刚万江华王耀华陈俊杰
- 文献传递
- XDSP浮点比较和特殊指令的设计与实现
- 设计了一种能够执行浮点比较指令和特殊指令的运算部件,支持SIMD单精度浮点和双精度浮点数据格式,能够实现数据大小比较、求浮点尾数和指数、求倒数、平方根倒数和求绝对值操作,指令的执行周期均为1.使用NC-Verilog进行...
- 李林峰彭元喜雷元武邹晓峰
- 关键词:数字信号处理器浮点运算
- SerDes中高速串行信号的并行化处理方法及装置
- 本发明公开一种SerDes中高速串行信号的并行化处理方法及装置,该方法步骤为:(1)以输入信号频率进行分频后的8相时钟作为采样时钟,控制对高速串行信号进行采样,进行相位调整及锁存后得到8路采样数据;2)以2相采样时钟作为...
- 胡封林陈书明郭阳孙永节龚国辉陈海燕吴家铸孙海燕陈小文雷元武
- GPDSP中低延时的半精度浮点加法器的实现装置
- 本发明公开了一种GPDSP中低延时的半精度浮点加法器的实现装置,包括:操作数准备模块R,用来负责符号、指数、尾数的分离以及特殊数据和例外操作的判断;使能信号模块E,用来进行结果符号的预测、有效加/减法的判断、舍入模式判断...
- 雷元武鞠鑫陈海燕鲁建壮陈胜刚孙书为陈小文刘畅李晨李勇汪志
- 基于混合模式CORDIC算法的低延时基本超越函数实现方法及装置
- 本发明公开一种基于混合模式CORDIC算法的低延时基本超越函数实现方法及装置,方法步骤为:1)输入IEEE‑754标准中浮点格式的角度及函数类型,进行格式转换及压缩映射;2)Z数据通路根据映射角度及函数类型进行旋转方向预...
- 雷元武彭元喜陈书明邓子椰万江华刘宗林陈海燕陈胜刚刘胜马胜吴虎成罗恒陈小文孙书为陈际阳田甜彭浩
- 文献传递