肖俊华 作品数:21 被引量:20 H指数:3 供职机构: 中国科学院计算技术研究所 更多>> 发文基金: 国家自然科学基金 国家高技术研究发展计划 国家科技重大专项 更多>> 相关领域: 自动化与计算机技术 电子电信 更多>>
基于FPGA的浮点可分离卷积神经网络加速方法 被引量:2 2022年 针对可分离卷积神经网络在星载飞机目标型号分类应用中存在的速度瓶颈以及功耗限制等问题,提出了一种基于现场可编程门阵列(FPGA)数据流调度的浮点深度分离卷积神经网络加速方法,对通用MobileNet的图像分类模型进行加速。采用基于乘法矩阵与前向加法树的深度分离卷积计算阵列设计,解决了深度分离卷积浮点加速的线速吞吐瓶颈。实验结果表明,基于FPGA的目标分类速度为633 FPS,功耗为22.226 W,运算性能为236.04 GFLOPS,计算速度达到了Titan Xp GPU的1.10~2.61倍,计算效能是Titan Xp GPU的7.44~18.66倍。在同类基于FPGA的浮点卷积加速方案中,该方法在运算性能及能效比上达到了最优。同时,该方法提供了与原模型一致性的图像分类准确率,解耦合了软硬件协同开发流程,降低了应用开发人员使用FPGA加速计算的门槛。 张志超 王剑 章隆兵 章隆兵关键词:图像分类 龙芯1号IP验证方法 被引量:2 2008年 SoC设计中大量使用IP,其验证充分与否决定了设计的成败,其中处理器IP的验证十分复杂耗时。该文介绍龙芯1号IP的验证流程,阐述龙芯1号IP的基本结构及功耗低、配置丰富等特点。建立龙芯1号IP的仿真环境平台,提出平台的改进思路,其验证流程比传统验证流程更具多样性和完备性。 冯子军 肖俊华 胡伟武关键词:龙芯1号 IP核 微处理器 提升处理器指针追逐访存性能的指令标签辅助的数据预取机制 2017年 分析了处理器访存操作的指针追逐模式,指出了链式数据应用中的指针追逐操作的数据预取准确率低、访存延迟大的问题。为了提升处理器指针追逐访存性能,提出了指令标签辅助的数据预取(ILAMP)技术。ILAMP技术是一种指令标签提示的预取机制,其通过在指令集架构中添加新的访存指令,使该指令在处理器译码阶段产生特殊访存标签,指明该访存操作的加载内容是指针。在Cache缺失的情况下,该标签一直传递到内存控制器。当加载的指针返回内存控制器时,则提取指针、发出预取请求。实验结果表明,ILAMP技术与无ILAMP情况相比,ILAMP技术降低DRAM读请求的平均访问延迟的平均值约为15%,预取精度高于77%,访存带宽增加10%左右,硬件开销约为1k B。 刘天义 肖俊华 肖俊华 沈海华关键词:数据预取 片上多处理器中延迟和容量权衡的cache结构 被引量:4 2009年 片上多处理器中二级cache的设计面临着延迟和容量不能同时满足的矛盾,私有结构有较小的命中延迟但是减少了cache的有效容量,共享结构能增加cache的有效容量但是有较长的命中延迟.提出了一种适用于CMP的cache结构——延迟和容量权衡的cache结构(TCLC).该结构是一种混合私有结构和共享结构的设计,核心思想是动态识别cache块的共享类型,根据不同共享类型分别对其进行优化,对私有cache块采用迁移的优化策略,对共享只读cache块采用复制的优化策略,对共享读写cache块采用中心放置的优化策略,以期达到访问延迟接近私有结构,有效容量接近共享结构的目的,从而缓解线延迟的影响,减少平均内存访问延迟.全系统模拟的实验结果表明,采用TCLC结构,相对于私有结构性能平均提高13.7%,相对于共享结构性能平均提高12%. 肖俊华 冯子军 章隆兵关键词:片上多处理器 二级CACHE 迁移 模块化片上系统中高级可扩展接口的死锁避免 2023年 模块化片上系统(MSoC)包含多个独立的IP组件及多个可能的子网络,这种异构集成的方式往往为片上网络(NoC)引入潜在的死锁。该文基于模块化异构系统MSoC研究了使用高级可扩展接口(AXI)协议的片上网络中3种类型的死锁。MSoC包含多种常见的异构组件,以及由多个独立子网络集成的片上网络,能够充分反映真实芯片的复杂性和不规则性。该文发现除环形通道导致的死锁外,基于AXI的片上网络还涉及双重路径死锁和桥接死锁。该文还提出一种两阶段算法检测片上网络中可能存在的这3种死锁。相比于通用验证方法学(UVM)随机验证,使用该算法可以将检测时长从几个月缩短到几个小时,提高片上网络的可靠性和鲁棒性。 郭振江 王焕东 张福新 张福新关键词:片上网络 片上多处理器中的Cache压缩和接口压缩 2008年 提出一种简单的基于频繁值和频繁模式的压缩方法,给出结合Cache压缩技术和接口压缩技术的片上多处理器结构。全系统的模拟结果表明Cache压缩技术和接口压缩技术能提高片上多处理器中Cache的有效容量和pin的有效带宽,从而提高系统的性能。实验表明只采用Cache压缩技术平均能提高10%的性能,只采用接口压缩技术平均能提高5.5%的性能,同时采用Cache压缩技术和接口压缩技术平均能提高12%的性能。 肖俊华 冯子军 章隆兵关键词:片上多处理器 基于可行序的数据竞争检测 2014年 为了在并行程序的单次执行中找到更多的数据竞争,提出了用可行序关系替代传统的"happens-before"序关系来动态地实现数据竞争预测的算法。该算法认为:从技术上讲,如果在观测到的执行轨迹中,两个临界区之间没有可行序的关系,那么这两个临界区的顺序可以被颠倒以构造出其他的执行轨迹;通过判断可行序关系来分析这些构造出来的执行轨迹,就可以找到单次执行中未暴露出来的可能的数据竞争;所有构造出来的执行轨迹中的数据竞争,可以在O(an)的时间内全部检测出来,其中n为程序中所有访存操作的个数,a为每个共享地址上的最大锁集合数。在Java Grande测试程序集上的实验结果说明,上述算法可以找到其他动态检测数据竞争的方法找不到的数据竞争,而且算法时间也完全符合理论上的O(an)时间复杂度。 李磊 陈云霁 章隆兵 肖俊华关键词:数据竞争 四核龙芯3号处理器设计 胡伟武 王剑 章隆兵 高翔 陈云霁 范宝峡 钟石强 沈海华 齐子初 肖俊华 四核龙芯3A处理器采用意法半导体公司(ST)65纳米CMOS工艺设计,在单个芯片上集成4个处理器核和4MB二级Cache,集成2个HT1.0高速IO接口,2个DDR2/3高速内存控制器,主频达到1GHz以上,功耗小于14...关键词:关键词:处理器 芯片 控制器 片上多处理器中cache的研究 片上多处理器(CMP)是当前主流的微处理器体系结构,它利用现有的海量晶体管资源在单个芯片上集成多个处理器核,通过多核并行执行的方式开发指令级和线程级等各个层面的并行度来提高性能。
CMP中的cache,特别是最底层... 肖俊华关键词:片上多处理器 高速缓存 一种基于硬件的快速确定性重放方法 被引量:1 2017年 针对多核处理器上并行程序执行不确定性所造成的并行调试难问题,提出了一种基于硬件的快速确定性重放方法——时间切割者。该方法采用面向并行的记录机制来区分出原执行中并行执行的访存指令块和非并行执行的指令块,并在重放执行中避免串行执行那些在原执行中并行执行的访存指令块,从而使得重放执行的性能开销小。在多核模拟器Sim-Godson上的仿真实验结果表明:该方法的重放速度快,其性能开销仅为2%左右。此外,该方法还具有硬件支持简单特点,未来有望应用于国产多核处理器研制中。 章隆兵 李磊 李磊 肖俊华 王剑关键词:多核处理器