李士刚
- 作品数:14 被引量:17H指数:2
- 供职机构:中国科学院计算技术研究所更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 面向多核集群的MPI任务并行扩展
- 则应用的任务并行化是高性能计算领域研究的热点.本文面向多核集群架构,对最流行的并行编程模型MPI进行扩展,使其有效支持非规则任务并行.主要研究内容及创新包括:在共享内存上对MPI单边通信进行优化,消除了额外内存拷贝开销;...
- 李士刚张云泉贾海鹏袁良
- 嵌入原子势计算优化方法
- 本发明涉及一种嵌入原子势计算优化方法,该嵌入原子势计算优化方法包括:通过初始化设置至少一个时间步及至少一个时间步对应的电子云密度,至少一个时间步包括:第一时间步,至少一个时间步对应的电子云密度包括:第一时间步对应的电子云...
- 聂宁明贺新福李建江李士刚王彦棡贾丽霞王先梦张云泉周纯葆王东杰吴保东王珏豆艳坤吴石
- 文献传递
- 一种大气环流模式动力框架的三维剖分方法和系统
- 本发明公开了一种大气环流模式动力框架的三维剖分方法和系统包括:建立具有直角坐标结构的三维模拟空间作为大气环流模式动力框架,且三维模拟空间的x轴对应地球的纬度,y轴对应地球的经度,z轴对应地球的大气高度;将三维模拟空间剖分...
- 李士刚吴保东张贺张云泉张明华
- 一种基于递归的并行快速傅里叶变换通信优化方法和系统
- 本发明涉及一种基于递归的并行快速傅里叶变换通信优化方法,包括:将全局数据平均划分为多个数据块,并将所有该数据块均匀划分为多个区域,以每个该区域对应一个进程;以获取该全局数据转置后的目标区域为根任务;对该根任务以该目标区域...
- 李士刚吴保东李琨张云泉
- 文献传递
- 一种用于在集群环境下进行机器学习的训练方法和系统
- 本发明提供一种用于在集群环境下进行机器学习的训练方法,包括:1)根据集群环境中计算节点的数量,将训练集中的数据分割为用于供各个计算节点并行地执行训练操作的多个部分;2)利用集群环境中的各个计算节点对所分配的数据集的部分进...
- 程大宁李士刚张云泉
- 文献传递
- 基于OpenCL的Viola-Jones人脸检测算法性能优化研究被引量:12
- 2016年
- Viola-Jones人脸检测算法是最为成功的可实用的人脸检测算法之一.然而,随着该算法所在领域数据处理规模的不断扩大,现有算法的性能已经越来越无法满足日益增长的交互性与实时性要求.使用GPU计算平台提升该算法性能,以满足日益增长的实时性要求已经成为研究热点.然而,该算法在对GPU的实现和优化中,存在线程间负载不均衡的非规则特性,如果仅使用传统的优化方法,则难以在GPU计算平台上达到较高性能.针对此种情况,该文构建了针对此类算法的并行优化框架,通过Uberkernel、粗粒度并行、Persistent Thread、线程与数据的动态映射、全局及本地队列等优化方法的应用,突破了负载不均衡非规则特性导致的性能瓶颈,大幅提高了人脸检测算法在GPU计算平台上的性能.同时,该文通过对不同GPU计算平台关键性能参数的定义、抽取和传递,实现了该算法在不同GPU计算平台间的性能移植.实验结果表明,与OpenCV2.4中经过高度优化的CPU版本在Intel Xeon X5550CPU上的性能相比,优化后的算法在AMD HD7970和NVIDIA GTX680两个不同GPU计算平台上分别达到了11.24-20.27和9.24-17.62倍的加速比,不仅实现了高性能,而且实现了在不同GPU计算平台间的性能移植.
- 贾海鹏张云泉袁良李士刚
- 关键词:OPENCL任务队列
- 一种分子动力学模拟中邻接表快速建立方法和系统
- 本发明涉及一种分子动力学模拟中邻接表快速建立方法和系统,包括:通过二进制数表示每一个粒子的整数坐标,从多个粒子中选择待比较的粒子对,并将粒子对中的第一粒子的整数坐标与第一掩码进行按位或运算后减去粒子对中的第二粒子的整数坐...
- 李士刚李琨陈一峯张云泉
- 文献传递
- 嵌入原子势计算优化方法
- 本发明涉及一种嵌入原子势计算优化方法,该嵌入原子势计算优化方法包括:通过初始化设置第一至少一个时间步及第一至少一个时间步对应的电子云密度;根据设置的第一至少一个时间步及第一至少一个时间步对应的电子云密度,确定第二时间步及...
- 聂宁明贺新福李建江李士刚王彦棡贾丽霞王先梦张云泉周纯葆王东杰吴保东王珏豆艳坤吴石
- 一种大气环流模式动力框架的三维剖分方法和系统
- 本发明公开了一种大气环流模式动力框架的三维剖分方法和系统包括:建立具有直角坐标结构的三维模拟空间作为大气环流模式动力框架,且三维模拟空间的x轴对应地球的纬度,y轴对应地球的经度,z轴对应地球的大气高度;将三维模拟空间剖分...
- 李士刚吴保东张贺张云泉张明华
- 文献传递
- 一种基于递归的并行快速傅里叶变换通信优化方法和系统
- 本发明涉及一种基于递归的并行快速傅里叶变换通信优化方法,包括:将全局数据平均划分为多个数据块,并将所有该数据块均匀划分为多个区域,以每个该区域对应一个进程;以获取该全局数据转置后的目标区域为根任务;对该根任务以该目标区域...
- 李士刚吴保东李琨张云泉
- 文献传递