国家高技术研究发展计划(2012AA01A301) 作品数:43 被引量:89 H指数:5 相关作者: 卢宇彤 周恩强 董勇 刘路 李思昆 更多>> 相关机构: 国防科学技术大学 国防科技大学 中山大学 更多>> 发文基金: 国家高技术研究发展计划 国家自然科学基金 国家重点基础研究发展计划 更多>> 相关领域: 自动化与计算机技术 理学 轻工技术与工程 更多>>
超级计算机监控系统中前端全局视图的设计与实现 超级计算机监控系统前端全局视图实现中面临的挑战,本文提出一套将传统网页设计和富客户端框架开发相结合的全局视图设计与实现方法.该方法一方面通过HTML语言来重构切片后的机柜效果图,达到了美化全局视图且提高WEB前端的直观性... 袁远 张洋 郑明玲 邢建英 孙言强关键词:超级计算机 监控系统 全局视图 面向25Gbps的SMA过孔的设计优化 过孔处的信号完整性越来越重要,而针对过孔的优化方式有很多种,如优化反焊盘的尺寸、背钻以及增加地过孔等.SMA连接器的过孔是一种特殊的过孔.通过对SMA连接器的过孔的研究来分析一般情况下的过孔特性.而本文中主要设计不同数量... 杨安毅 李晋文 胡军 李小芳 张伟 黎铁军关键词:SMA 阻抗控制 眼图 全局自动图像配准算法加速器 被引量:3 2012年 由于全局自动图像配准算法计算和存储复杂度高,不易实现实时处理,为此提出一种改进的基于块的全局自动图像配准算法加速器结构(BWAGIR II).该结构采用双组多体存储结构及优化的数据放置策略,支持在单个时钟周期内同时读取4×4插值窗口中的16个像素值;并采用定浮混合计算逻辑,以支持定点和浮点操作数的混合计算.FPGA实现结果表明,采用文中结构对5个BWAGIR II处理单元的数据吞吐率超过258×106像素?s. 李宝峰 田宝华 张晓明 郑明玲关键词:图像配准 并行处理 算法加速器 FPGA 面向ARMv8 64位多核处理器QTRSM的实现 被引量:1 2017年 在ARMv8 64位多核处理器上基于OpenBLAS实现了四精度三角矩阵求解(QTRSM)。基于两种数据格式分别实现了QTRSM,第一种实现利用GCC编译器对long double数据类型的支持来实现QTRSM,第二种实现采用double-double数据格式及其相应的四精度加减法、乘法和除法。以long double数据类型QTRSM为测试基准,就不同矩阵规模下测试结果精度和时间与double-double数据格式QTRSM进行比较。实验结果表明:两者得到近似相同精度的数值结果,但double-double数据格式QTRSM的性能是long double数据类型QTRSM的1.6倍。随着线程数的增加,两种QTRSM实现的加速比接近2.0,具有较好的可扩展性。 杜琦 姜浩 李宽 彭林 杨灿群FitenBLAS:面向FT1000微处理器的高性能线性代数库 2015年 BLAS库是基本线性代数子程序库,是许多大型科学与工程计算的核心计算程序,FitenBLAS库是在多核多线FT1000微处理器上开发的基本线性代数库,其研制对FT1000微处理器在科学与工程计算中的应用具有重要意义.根据多级存储结构和寄存器的数目,设计了向量与向量、矩阵与向量和矩阵与矩阵运算的多级循环展开方法,采用指令调度、数据预取等通用优化技术,优化BLAS库串行程序.对于BLAS3子程序,设计了矩阵乘无冗余数据拷贝分块算法,采用指令重排、访存与计算的重叠、分块等技术优化矩阵乘子程序,基于矩阵乘子程序实现了其他BLAS3子程序.研制了汇编线性代数程库FitenBLAS,其核心子程序矩阵乘的双精度计算性能达到6.91Gflops,是峰值性能的86.4%. 迟利华 刘杰 晏益慧 谢林川 甘新标 胡庆丰 蒋杰 李胜国一种面向大规模计算机的监控管理系统 被引量:7 2015年 随着超级计算机系统性能的提升,系统规模越来越大,如何高效管理这些系统成为高性能计算机亟待解决的关键问题之一.本文提出了一种针对大规模计算机的监控管理系统——MMS(Monitoring and Management System).MMS采用分布式系统结构来提高监控管理系统的效率;监控信息的精细化处理降低了监控系统对计算网络的影响同时提高了基于web的客户端的反应速度;两级异步通信机制提高了MMS系统数据采集效率.理论分析与实验结果表明MMS运行效率高、可靠性好. 郑明玲 蒋句平 袁远 李宝峰一种面向高阶胖树源路由网络的组播实现方法 2012年 组播是一种多机通信系统中可支持多种聚合通信服务的重要操作。与基于单播和路径的方法相比,基于树的组播通常具有较高的效率。针对高阶胖树源路由网络,提出了一种新型实现方法—DMFTAR。该方法将组播功能实现分为组播服务层、组播路由层和组播转分层等3个层次,其特点是基于分布式组播转发表和异步数据复制实现组播操作。理论分析表明,与传统的基于多头微片虫蚀异步数据复制实现方法相比,DMFTAR方法通信开销低且扩展性好。 曹继军 王永庆 刘路关键词:源路由 胖树 组播算法 求解布尔不可满足子式的消解悖论算法 2015年 求解布尔不可满足子式在超大规模集成电路设计与验证领域都具有非常重要的理论与应用价值,帮助EDA工具迅速定位错误与不一致。针对求解不可满足子式的非完全方法,提出了消解悖论与悖论解析树的概念,在此基础上提出一种启发式局部搜索算法。该算法根据公式的消解规则,采用局部搜索过程直接构造证明不可满足性的悖论解析树,而后递归搜索得到不可满足子式;算法中融合了布尔推理技术、动态剪枝方法及蕴含消除方法以提高搜索效率。基于随机测试集进行了实验对比,结果表明提出的算法优于同类算法。 张建民 黎铁军 徐炜遐 庞征斌 李思昆关键词:局部搜索 PMESI:一种优化进程私有数据访问的缓存一致性协议 被引量:1 2013年 并行应用程序中绝大部分的访存是对私有数据的访问,在cache一致性协议上不会产生冲突。传统一致性协议没有根据程序私有数据的访问模式进行针对性设计,存在着很大的优化空间。针对以上的问题,提出了一种支持私有状态的cache一致性协议PMESI,通过动态关闭和激活内存空间的cache一致性目录,优化私有内存空间的访问延迟和功耗。通过时钟精确模拟器的测试,PMESI协议优化了程序中54%的访存,并行程序的执行时间平均缩短了9%。 王绍刚 徐炜遐 庞征斌 吴丹 戴艺 陆平静关键词:操作系统 并行作业启动及其可扩展性分析 被引量:1 2013年 随着高性能计算机系统与并行应用规模的不断增加,大规模并行作业的启动时间不能再被忽略不计.已有的研究给出了在Tianhe-1A系统上加载MPI作业的性能结果.通过分析作业启动在控制消息传递、文件访问、MPI环境初始化等各阶段的时间开销,发现对于大规模MPI作业而言,环境初始化时间是作业启动的主要开销.基于此发现进行了一些优化,减少MPI环境初始化时交换的数据量,并避免不必要的数据传输开销.显著地提高了并行作业启动的性能.进而提出了一种层次式的可扩展进程管理结构,以进一步增强作业启动的可扩展性.与其他主流MPI实现的进程管理机制的作业启动时间进行了比较. 曹宏嘉 卢宇彤 谢旻 周恩强关键词:进程管理 MPI 可扩展性