郑启龙
- 作品数:99 被引量:190H指数:6
- 供职机构:中国科学技术大学计算机科学与技术学院更多>>
- 发文基金:国家科技重大专项安徽省自然科学基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术文化科学电子电信建筑科学更多>>
- 魂芯DSP上复数类型的支持和优化被引量:2
- 2017年
- 魂芯DSP是一款采用VLIW和SIMD架构的针对高性能计算领域而设计的32bit静态标量数字信号处理器.为了满足数字高性能计算的性能要求,魂芯DSP提供了丰富的复数指令,而编译器不能直接利用这些复数指令来提升编译性能.因此针对魂芯DSP芯片提供了大量的复数类操作指令的特点,在传统开源编译器Open64的编译框架基础上进行研究,实现了复数作为编译器基础类型和复数运算操作的支持.同时,通过识别特定的复数类操作的模式利用魂芯DSP上的复数类指令对程序编译优化.实验结果表明,该实现方案在魂芯DSP编译器上对复数程序优化后能够取得平均5.28的加速比.
- 王玉林郑启龙赵高义
- 基于RapidIO的多DSP互联仿真实现被引量:5
- 2020年
- RapidIO协议作为数据通信协议之一在嵌入式系统开发中具有重要作用,适合短距离,需要多处理单元合作的应用场景,例如多DSP构成的板卡系统.BWDSP芯片作为一款高性能数字信号处理器,其丰富的计算资源在雷达信号处理等领域具有重要潜力.硬件设计开发中,直接采用已有数据通信协议很难适配具体硬件资源导致最终产品的数据传输性能较低.因此需要结合具体硬件模型,进行数据通信交换模型仿真建模设计,提高数据传输效率.本文首先介绍了RapidIO协议和BWDSP体系架构,然后设计了基于SystemC语言的串行RapidIO交换模型,最后设计实现了BWDSP虚拟平台.本文设计的BWDSP虚拟平台功能符合实际RapidIO协议标准,对硬件产品开发具有一定指导意义.
- 蔡恒雨凤维杰丁上义卢茂辉郑启龙
- 关键词:RAPIDIOSYSTEMC
- 深度学习节点分配的遗传算法设计被引量:3
- 2021年
- 随着深度学习技术的快速发展,模型的结构越来越复杂,需要的计算资源和存储资源也越来越多.单核计算设备通常无法满足深度学习的需求,通常将深度学习模型部署在众核和分布式计算设备上.BWDSP众核虚拟平台具有较强的计算能力和较大的存储资源,提供的并行通信接口MPIRIO适合深度学习模型的部署.本文基于BWDSP众核虚拟平台和并行通信接口MPIRIO,使用遗传算法优化深度学习模型在BWDSP虚拟平台上的部署,加速深度学习模型的训练过程.设计了静态遗传算法和动态遗传算法两种算法,优化了深度学习模型计算节点在BWDSP虚拟平台上的分配,实现了虚拟平台上的深度学习模型加速,并通过实验证明了两种遗传算法的有效性.
- 蔡恒雨郑启龙
- 关键词:动态遗传算法
- 推测执行技术在HPMR系统通信优化中的应用被引量:2
- 2010年
- HPMR(high performance MapReduce)系统是一个采用MapReduce模型的高性能计算软件支撑平台.在进行高性能计算时,HPMR往往需要很多轮Map-Reduce过程,中间的通信过程由KV路由和KV传输组成.KV传输依照KV路由阶段产生的KV路由表进行.HPMR程序的典型通信特征是每一轮的KV传输以高概率使用上一轮的KV路由表.根据这一特点,提出在HPMR的通信模型中引入推测执行技术,由此减少了KV路由的次数,使得HPMR的通信性能得到大大地提升.
- 王昊王向前郑启龙
- 关键词:MAPREDUCE
- 一种先进的扁平化谓词及编译优化方法
- 2019年
- 谓词执行是有效挖掘控制流程序指令级并行性的一种机制.经典的谓词实现一般局部地逐个进行谓词计算而不能进行多谓词控制,有谓词计算路径过长等问题.针对经典谓词存在的问题,提出一种先进的扁平化谓词的实现方法,这种扁平化谓词可以全局地进行谓词计算,可以自然地进行多谓词控制.在此基础上,研究扁平化谓词的编译优化方法,给出了扁平化谓词编译优化框架.实验表明,本文提出的扁平化谓词及编译优化框架可以很好地提高多条件控制程序的执行效率.
- 王向前郑启龙张仁高韩东科
- 关键词:谓词
- 基于BWDSP众核的CNN计算任务划分优化被引量:2
- 2019年
- 作为深度学习算法之一的卷积神经网络在多个领域有着重要的应用.因为其网络模型的规模和结构比较复杂,数据量较大,故需要考虑降低其对计算资源的要求.一般地,对于大数据量的计算任务,需要使用数据并行的方法进行任务的划分计算,而仅使用数据并行而对计算的任务的特点不加以结合,其数据传输量较高.因此需要通过对CNN网络结构及其计算特性的分析,设计合理的计算任务划分策略,减少数据的传输量.本文首先介绍了深度学习加速器中对计算任务的优化处理,接着介绍BWDSP的众核深度学习加速器的体系架构,并设计计算划分策略,基于VGGNet-16网络模型进行实验对比分析.实验结果表明该优化算法可以显著的提高数据传输的性能,降低数据的传输量.
- 王改郑启龙邓文齐杨江平卢茂辉
- 关键词:数据并行卷积神经网络
- 曙光3000客户端集成环境的研究与开发
- 陈华平安虹陈国良黄刘生郑启龙许胤龙计永昶丁卫群李春生陈志辉李宏陈勇徐云雷云飞朱玉张信明
- 该项目采用分布对象技术,将分散的、相互独立的工具软件集成为完整的使用环境,具有良好的可扩展性和移植性,采用Java语言实现并行工具、教学软件及图形用户界面,不依赖于客户端和并行机的硬件和操作系统平台。改变了传统的使用te...
- 关键词:
- 关键词:超级计算机客户端教学软件
- 一个新的面向对象数据库系统的动态数据模型被引量:4
- 2001年
- 现有的 OODBMS(object- oriented database management systems)的数据模型基本上可以分为两类 :传统的强类型和非传统的弱类型 .前者的特征是所有具有同样结构 (模式 )和行为 (方法 )的对象组成一个类 ,对象的含义由对象所属类的模式解释 ,故类的定义必须先于其对象的定义 ;后者的特征是“无模式”,即对象是“自我描述”的 ,因此无须为对象预先定义模式 .指出了这两类模型的主要优缺点 ,并证实 :为了充分适应有效而灵活的动态对象操作 ,有必要在传统的强类型模型和非传统的弱类型模型之间寻求某种折衷 .为此 ,提出了一个基于概念聚类机制 (conceptual clustering mechanism,简称 CCM)的数据模型 .这种新的动态模型已成功地应用于一个面向对象的 VDBMS(video database management system)
- 黄刘生陈华平郑启龙陈国良
- 关键词:面向对象数据库系统数据模型角色扮演者
- 使用特征点定位的纹理优化
- 2007年
- 提出一种纹理优化算法,以加速纹理合成和确保输出图像结构的正确.在预处理阶段,分析纹理样图中特征点的全局分布,并计算样图结构坐标.在优化阶段,像素邻域匹配之前通过结构坐标匹配排除会导致图像结构错误的匹配位置,避免不必要的匹配计算并确保图像结构的正确;使用低能量的初始值及结构坐标动态调整加速迭代过程的收敛.实验证明,该算法提升了图像质量并加速了合成过程,加速比随纹理随机度的不同而不同,对大多数结构性纹理,至少达到两个数量级.
- 李一哲陈国良郑启龙
- DSP分块内存和多AGU的编译指示优化被引量:3
- 2012年
- 分块内存和多地址生成器(AGU)是DSP普遍采用的体系结构.传统的C语言编译器没有针对分块内存和多AGU结构进行代码优化,导致生成代码无法满足性能需求,影响了C语言编译器在数字信号处理领域的应用.为了解决这个问题,提出基于编译指示,与分块内存和多AGU结构相关的编译优化算法.该算法利用定义引用链和引用定义链中的数据流信息,为地址计算指令和访存指令分配AGU,从而提高生成代码的指令级并行度.实验结果表明此算法能够达到较好的优化效果.
- 郑启龙卢世贤洪兴勇陈元夏霏
- 关键词:DSP