您的位置: 专家智库 > >

张珂良

作品数:3 被引量:3H指数:1
供职机构:复旦大学计算机科学技术学院更多>>
发文基金:上海市教育委员会重点学科基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 2篇期刊文章
  • 1篇学位论文

领域

  • 3篇自动化与计算...

主题

  • 2篇图形处理器
  • 2篇GPU
  • 2篇处理器
  • 2篇OPENCL
  • 1篇异构
  • 1篇异构集群
  • 1篇数据并行
  • 1篇体系结构
  • 1篇架构
  • 1篇GPGPU
  • 1篇并行处理

机构

  • 3篇复旦大学
  • 1篇中国电子科技...

作者

  • 3篇张珂良
  • 2篇陈钢
  • 2篇吴百锋
  • 1篇朱俊峰
  • 1篇李佳佳

传媒

  • 2篇小型微型计算...

年份

  • 1篇2013
  • 2篇2012
3 条 记 录,以下是 1-3
排序方式:
单GPU及GPU异构集群的若干关键技术研究
现代GPU由于其超强的计算能力、高速访存带宽、高数据级并行体系结构等特点,作为高性能运算部件在集群计算环境中得到广泛应用,并且GPU异构集群正在逐渐成为高性能计算应用领域的主流分布式计算平台,并使现代计算技术正在逐渐进入...
张珂良
关键词:图形处理器并行处理
面向OpenCL架构的GPGPU量化性能模型被引量:3
2013年
为了评估数据并行(DLP)应用并行化后在GPU体系结构上的执行性能,针对OpenCL架构提出一种GPGPU量化性能模型.该模型充分考虑了影响GPGPU程序性能的各种因素:全局存储器访问、局部存储器访问、计算与访存重叠、条件分支转移和同步.通过对DLP应用的静态分析并设定具体的OpenCL执行配置,在无需编写实际GPGPU程序的前提下采用该模型即可估算出DLP应用在GPU体系结构上的执行时间.在AMD RadeonTMHD 5870 GPU和NVIDIA GeForceTMGTX 280 GPU上对矩阵乘法与并行前缀和的分析与实验结果表明:该性能模型能够相对准确地评估DLP应用并行化后的执行时间.
朱俊峰陈钢张珂良吴百锋
关键词:GPUGPGPU数据并行OPENCL
奇偶合并排序的数据级并行实现
2012年
针对奇偶合并排序中存在的巨大数据级并行性潜力,通过将其实现于提供了强大数据级并行性的GPU处理器之上而获取较高的加速比.同时,针对OpenCL不支持各工作组间的工作线程的同步问题,提出两种解决方法,一种是通过主机程序控制迭代过程,从而完全避免所有工作线程对于同步操作的需求;另一种是通过桶划分预处理技术将对于同步操作的需求控制在单个工作组,然后利用单个工作组提供的各工作线程间的同步机制以正确的处理同步操作.实验结果表明,按照本文方法实现的程序性能相对于C++STL库中的sort实现有着明显的提高.
张珂良李佳佳陈钢吴百锋
关键词:图形处理器OPENCL
共1页<1>
聚类工具0