唐滔
作品数: 82被引量:81H指数:5
  • 所属机构:国防科学技术大学
  • 所在地区:湖南省 长沙市
  • 研究方向:自动化与计算机技术
  • 发文基金:国家自然科学基金

相关作者

黄春
作品数:130被引量:83H指数:5
供职机构:国防科学技术大学
研究主题:OPENMP GPU 计算机设备 多核处理器 双精度
彭林
作品数:76被引量:29H指数:3
供职机构:国防科学技术大学
研究主题:多核处理器 计算机设备 线程 多线程 双精度
方建滨
作品数:54被引量:17H指数:2
供职机构:国防科学技术大学
研究主题:多核处理器 计算机设备 负载平衡 超结点 查表
姜浩
作品数:44被引量:38H指数:4
供职机构:国防科学技术大学
研究主题:处理器 遗传算法 浮点 浮点数 双精度
杨灿群
作品数:138被引量:112H指数:6
供职机构:国防科学技术大学
研究主题:GPU 处理器 计算机设备 结点 并行计算
基于缓存拓扑的多核处理器线程唤醒方法
本申请涉及一种基于缓存拓扑的多核处理器线程唤醒方法。所述方法包括:主线程构建缓存拓扑感知树,根据处理器缓存拓扑,确定感知树的拓扑结构,确定每个处理器核心所对应的树节点的子节点信息,主线程构建唤醒数组,各线程通过调用库函数...
方建滨高琬蓉黄春唐滔彭林张鹏崔英博
基于便签式存储的向量数据分散方法、装置及计算机设备
本申请涉及基于便签式存储的向量数据分散方法、装置及计算机设备。所述方法包括:向量寄存器通过执行单元执行写入指令搬运目标数据至便签式存储器,得到第一基地址。读取片外存储器中目标数据的索引,将索引写入便签式存储器,得到第一索...
方建滨张鹏黄春唐滔彭林崔英博姜浩沈洁范小康于恒彪苏醒易昕
一种面向共享内存式协处理器的堆内存管理方法和装置
本申请涉及一种面向共享内存式协处理器的堆内存管理方法和装置。所述方法包括:在执行协处理端程序前,通过第一接口函数申请一片较大的连续堆内存空间,将申请的堆内存空间的虚地址转换为物理地址,并将物理地址传递至协处理器端程序,并...
张昂廖湘科崔英博杨灿群黄春唐滔彭林夏泽宇郭逸飞
文献传递
面向多核处理器的核间通信带宽测量方法、系统及设备
本申请涉及一种面向多核处理器的核间通信带宽测量方法、系统及设备。所述方法包括:获取基准测试参数,并赋值全局数据结构体。基准测试参数包括:测试线程数量、测量数据集空间以及待测通信计算核心。通过系统文件获取缓存大小,根据缓存...
方建滨高琬蓉唐滔黄春张鹏彭林崔英博
一种基于关键路径分析的CPU-GPU异构系统综合能耗优化方法被引量:18
2012年
GPU强大的计算性能使得CPU-GPU异构体系结构成为高性能计算领域热点研究方向.虽然GPU的性能/功耗比较高,但在构建大规模计算系统时,功耗问题仍然是限制系统运行的关键因素之一.现在已有的针对GPU的功耗优化研究主要关注如何降低GPU本身的功耗,而没有将CPU和GPU作为一个整体进行综合考虑.文中深入分析了CUDA程序在CPU-GPU异构系统上的运行特点,归纳其中的任务依赖关系,给出了使用AOV网表示程序执行过程的方法,并在此基础上分析程序运行的关键路径,找出程序中可以进行能耗优化的部分,并求解相应的频率调节幅度,在保持程序性能不变的前提下最小化程序的整体能量消耗.
林一松杨学军唐滔王桂彬徐新海
关键词:异构系统GPU低功耗优化
面向众核处理器的片上锁变量全局编址存储方法及装置
本发明公开了一种面向众核处理器的片上锁变量全局编址存储方法及装置,方法步骤如下:1)预先建立全局编址片上锁存储器;构造应用程序时对锁变量进行标注,在编译和链接时将锁变量分配到独占的地址空间;2)加载应用程序时,将锁变量所...
李春江王永文杨灿群冯华高军唐滔
文献传递
面向存储层次设计优化的GPU程序性能分析被引量:2
2017年
图形处理器凭借着比传统CPU更高的峰值性能和能效,以及日渐成熟的软件环境,逐渐成为构建异构并行系统的最流行的加速器之一。虽然GPU依靠轻量级线程的灵活切换来隐藏访存延迟,但其超高的并发度仍然给存储系统带来了很大压力,其性能的有效发挥受访存效率的强烈影响。因此GPU程序的访存行为分析及优化一直是GPU相关领域的研究热点,但很少有工作从体系结构的角度分析存储层次的设计对性能的影响。为了更好地指导GPU存储层次的设计和访存优化,从实验的角度详细地分析了GPU各存储层次对程序性能的影响,并总结出若干指导性的优化策略,为未来类似体系结构的存储层次设计和程序优化提供建议。
唐滔彭林黄春杨灿群
关键词:异构系统图形处理器性能分析
一种多核处理器的直接卷积实现方法、装置及设备
本申请涉及一种多核处理器的直接卷积实现方法、装置及设备。所述方法包括:构建多核处理器的直接卷积循环重排模型。该模型根据多核处理器的架构参数重置直接卷积的循环顺序,得到微内核卷积循环机制。该机制包括七层卷积循环,每一层卷积...
方建滨董德尊王鹏宇杨维铃张鹏唐滔黄春
一种FP170高精度矩阵乘法的实现方法及装置
本发明公开了一种FP170高精度矩阵乘法的实现方法及装置,本发明方法包括将矩阵A、矩阵B和矩阵C中的FP170矩阵元素映射为64位双精度类型浮点数并存储在内存中;从内存空间取出代表矩阵A中元素a<Sub>ij</Sub>...
姜浩漆海俊苏醒黄春唐滔易昕鲁轻风陈磊
一种面向异构并行系统的最大功耗管理方法被引量:3
2013年
高功耗已成为制约高性能计算机发展的重要问题之一.近年来,大量研究关注于如何在满足系统功耗约束的条件下优化系统执行性能.然而,已有方法大都针对同构系统,未考虑异构处理器之间的功耗或速度差异,难以高效应用于基于加速器的异构系统.对当前异构并行系统执行模型进行了抽象,并提出了融合两级功耗控制机制的系统功耗管理框架,自顶向下依次为系统级功耗控制器和异构处理引擎功耗控制器.在异构处理引擎功耗控制中,针对类OpenMP并行循环,首先分析了异构多处理器在满足功耗约束条件下达到性能最优的条件.基于该结果,给出了功耗受限的并行循环划分算法,该方法通过协调并行循环调度和动态电压频率调节技术以优化异构并行处理.在系统级功耗控制中,建立了异构处理引擎效能评估方法,以此作为功耗划分的依据,在兼顾并发应用公平性的同时,提高系统整体执行效能.最后,基于典型CPU-GPU异构系统验证了方法的有效性.
王桂彬杜静唐滔
关键词:任务调度动态电压