国家自然科学基金(60533020)
- 作品数:93 被引量:592H指数:12
- 相关作者:张云泉陈国良迟学斌郑启龙孙广中更多>>
- 相关机构:中国科学技术大学中国科学院软件研究所中国科学院研究生院更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术理学电子电信生物学更多>>
- 基于OpenCL的图像模糊化算法优化研究被引量:6
- 2012年
- 现代GPU一般都提供特定硬件(如纹理部件、光栅化部件及各种片上缓存)以加速二维图像的处理和显示过程,相应的编程模型(CUDA、OpenCL)都定义了特定程序设计接口(CUDA的纹理内存,OpenCL的图像对象)以便图像应用能利用相关硬件支持。以典型图像模糊化处理算法在AMD平台GPU的优化为例,探讨了OpenCL的图像对象在图像算法优化上的适用范围,尤其是分析了其相对于更通用的基于全局内存加片上局部存储进行性能优化的方法的优劣。实验结果表明,图像对象只有在图像为四通道且计算过程中需要缓存的数据量较小时才能带来较好的性能改善,其余情况采用全局内存加局部存储都能获得较好性能。优化后的算法性能相对于精心实现的CPU版加速比为200~1000;相对于NVIDIA NPP库相应函数的性能加速比为1.3~5。
- 张樱张云泉龙国平
- 关键词:AMDGPUBLUROPENCL图像对象
- 分块Gram-Schmidt正交化算法及其应用被引量:3
- 2009年
- Gram-Schmidt正交化算法是数值线性代数中的基本算法之一,主要用于计算矩阵QR分解.经典和修正Gram-Schmidt正交化算法基于level1/2BLAS运算,低级BLAS运算对cache的利用率比较低,从而限制了算法性能.提出一种新的分块Gram-Schmidt正交化算法.新算法通过重正交保证产生矩阵Q的正交性达到机器精度,并且利用level3BLAS运算提高了算法性能.数值试验表明,新算法能使得矩阵Q的正交性达到机器精度,并且新算法使得性能得到显著提高.
- 赵韬姜金荣
- 关键词:GRAM-SCHMIDT正交化分块算法QR分解
- GOTOBLAS一般矩阵乘法高效实现机制的研究被引量:9
- 2008年
- 对GOTOBLAS库(GOTO)的实现机制,尤其是其中的一般矩阵乘法部分的实现进行了分析。结合近年来的一些研究成果,讨论了如何高效地实现矩阵相乘操作,把存储层次对程序性能的影响提高到计算模型的高度。对比实验表明,GOTO库的性能远远高于没有考虑存储层次的一般BLAS库。证明了GOTO库性能上的优越性和将存储层次引入计算模型的必要性。
- 蒋孟奇张云泉宋刚李玉成
- 关键词:分块算法
- 推测执行技术在HPMR系统通信优化中的应用被引量:2
- 2010年
- HPMR(high performance MapReduce)系统是一个采用MapReduce模型的高性能计算软件支撑平台.在进行高性能计算时,HPMR往往需要很多轮Map-Reduce过程,中间的通信过程由KV路由和KV传输组成.KV传输依照KV路由阶段产生的KV路由表进行.HPMR程序的典型通信特征是每一轮的KV传输以高概率使用上一轮的KV路由表.根据这一特点,提出在HPMR的通信模型中引入推测执行技术,由此减少了KV路由的次数,使得HPMR的通信性能得到大大地提升.
- 王昊王向前郑启龙
- 关键词:MAPREDUCE
- 未知网络中可分负载的分布式调度被引量:2
- 2009年
- 针对未知网络参数的异构网络系统,提出了一个基于探测技术的多阶段负载调度策略.该策略首先将整个负载分成一些子负载,每个阶段将一个子负载分配给各个处理器.在不知道网络性能参数或网络性能随时间动态变化的情况下,从子负载中分出一小部分负载作为探测片段来探测网络的当前性能参数,作为调度的基础.实验结果表明,该算法的优越性明显.在同样的调度时间复杂度下,其调度结果较已有算法最好时可以缩短调度时间超过20%,平均缩短调度时间约15%.
- 黎鹤孙广中许胤龙
- 有限元单元计算子程序的OpenMP并行化被引量:11
- 2008年
- Intel和AMD双核乃至4核处理器的推出,使得并行计算已经普及到PC机。为了充分利用多核,需要对原有程序进行多线程改造,使其充分利用多核处理带来的性能提升。该文利用共享存储编程的工业标准OpenMP对有限元方法涉及的单元计算子程序进行了并行化实现。在机群的一个双CPU的SMP节点上的测试表明,共享并行化使得该单元子程序的性能提高了一倍。
- 宋刚蒋孟奇张云泉李玉成
- 关键词:并行编程多线程多核有限元
- HPMR:多核集群上的高性能计算支撑平台被引量:11
- 2008年
- HPMR是建立在多核集群上的高性能计算支撑平台,它继承并改进了MapRedcue并行编程模式,使其适合高性能计算需求.HPMR让并行程序的编写和运行变得非常简单,同时又保持很高的性能.HPMR的实用功能不但使并行程序变得易于扩展和移植,而且增强了并行程序的健壮性.
- 郑启龙王昊吴晓伟房明
- 关键词:多核MAPREDUCE
- 数值软件自适应性能优化搜索过程评价技术研究被引量:2
- 2010年
- 随着计算机硬件的快速变化,如何充分利用计算机资源,使软件性能尽可能逼近处理器峰值是人们关心的问题.针对特定硬件平台手工优化程序,或者依赖编译器优化技术,存在人工介入,难与硬件更新同步等问题.而采用自适应性能优化技术实现的高性能数学软件包(SANS)如FFTW,ATLAS,PHiPAC,OSKI等,可有效解决前两种方法存在的问题,降低开发成本,提高软件可移植性.针对自适应性能优化技术中,优化参数搜索过程十分耗时的问题,提出对优化搜索过程的评价指标Pt,并给出用此指标控制优化搜索过程的方法.实验表明运用该指标可以在较短的时间内得到一个合理的性能值.
- 孙相征张云泉王宣强王磊
- 关键词:自适应ATLAS
- 一种改进的OpenMP指导调度策略研究被引量:15
- 2010年
- 在科学计算中,循环结构是最重要的并行对象之一.考虑到负载平衡、调度开销等多方面因素,OpenMP标准提供静态调度、动态调度、指导调度和运行时调度等不同策略.针对指导调度策略不适合递减型循环结构的问题,提出一种改进的new_guided指导调度策略,并在OMPi编译器上加以实现.New_guided调度策略的主要思想是对前半部分的循环采用静态调度,后半部分的循环采用指导调度.针对不同循环结构,在多核处理器上对不同调度策略进行评测.结果表明,在一般情况下,OpenMP默认的静态策略的调度性能最差;对于规则的循环结构和递增的循环结构,动态调度、指导调度和new_guided策略的性能差别不大;对于递减型的循环结构,动态调度和new_guided策略的性能相当,要优于指导调度策略;对于某些极不规则的随机循环结构,动态调度明显优于其他策略,new_guided策略的性能介于动态调度和指导调度之间.
- 刘胜飞张云泉孙相征
- 关键词:OPENMP负载平衡静态调度动态调度
- 基于博弈论的网络安全量化评估算法被引量:3
- 2009年
- 当前安全分析算法未考虑管理员对自身网络设备的重要性评定,及其在此评定基础上的防护行为对网络安全状况的影响,针对该问题提出了一种基于随机博弈模型的网络安全量化评估算法NEAG。利用管理员对各网络设备的重要性评定定义博弈参数,建立网络安全随机博弈模型,对该模型进行Nash均衡分析,得到攻防双方的Nash策略,获得网络处于各状态的概率,从而分析出网络安全量化评估结果。通过实例运行表明NEAG算法能够给出网络安全量化评估值,以及管理员面对攻击时的Nash策略,依此指导管理员的防范工作。
- 吉鸿珠顾乃杰
- 关键词:网络安全