武林平
- 作品数:34 被引量:43H指数:5
- 供职机构:北京应用物理与计算数学研究所更多>>
- 发文基金:国家高技术研究发展计划国家自然科学基金中国工程物理研究院科学技术发展基金更多>>
- 相关领域:自动化与计算机技术自然科学总论更多>>
- 基于预算的资源管理模型
- 针对现有批作业系统中的资源管理方式在资源使用公平性和合理性、作业服务质量(QoS)与实际需求存在较大差距的问题,提出一种基于经济学原理的资源管理模型——BB-RAM模型。模型通过预算机制来实现对计算资源管理和使用的宏观控...
- 罗红兵王伟张晓霞武林平
- 关键词:高性能计算机资源管理经济模型预算机制
- 面向大规模集群的并行I/O用户层配置优化策略被引量:5
- 2020年
- 影响应用I/O性能的关键因素主要有三个层次:包括应用的I/O接口实现、体系结构和文件系统组件的性能以及应用的I/O参数配置。从应用I/O配置优化的视角,分析了大规模集群并行I/O的配置调优空间,在此基础上,给出了一套大规模集群并行I/O性能特征测试分析方法。基于该方法,在某国产超级计算集群上开展了一系列I/O测试分析来刻画系统的I/O性能特征,进而指导并行应用程序的I/O配置优化。基于优化后的配置参数,在两类典型的并行I/O场景中,针对某类生产应用程序,8192进程下的重启动数据写操作时间下降了15%,4096核的程序作业加载时间从10 min缩短到了5 s。
- 田鸿运武林平董勇景翠萍罗红兵莫则尧
- 关键词:LUSTRE文件系统大规模集群
- MPI并行程序中通信等待问题的诊断方法及其应用被引量:1
- 2020年
- 随着并行规模的扩大,现有通信等待问题的诊断方法存在内存开销大、测量时间开销大等问题。通过对现有通信等待问题诊断方法的深入分析,同时考虑测量开销可控的实际需求,建立基于热点函数的通信等待问题诊断模型。基于上述模型,总结出一种更精简、更实用的通信等待问题诊断方法。将该诊断方法分别应用到二维LARED集成、LARED-S、LAP3D等大规模MPI并行程序的通信等待问题诊断过程,应用效果表明本诊断方法可精确定位导致通信等待问题的关键代码段,给出的优化方案及性能提升空间对于后续的程序改进具有参考价值,其中根据诊断结果优化后的LARED-S程序性能提升32%,通信等待时间减少44%。
- 武林平景翠萍刘旭田鸿运
- 关键词:MPI并行程序负载平衡
- 检查点系统中进程地址空间的优化存储策略被引量:1
- 2005年
- 机群系统的规模增大,部件增多,导致了机群的组合错误率也不断上升。节点失效使运行于机群节点上的作业面临中途失败,从而造成巨大的资源浪费,甚至导致大量的作业无法完成。检查点系统为节点提供了较好的容错性能,因此成为机群操作系统软件的重要组成部分。进程的地址空间是检查点系统需要记录的一部分重要内容,对它的存储效率直接影响检查点操作的性能。论文提出了两种检查点系统中进程地址空间的优化存储策略。其中组合式检查点文件写策略解决了并发写机制在应用内存接近物理内存时的性能突降问题,A-O(Access-Order)进程地址空间存储策略调整传统地址空间的存储顺序,使大内存应用的检查点操作性能得到了大幅度提升。在实验中,A-O进程地址空间存储策略最高可以将传统的存储策略的时间开销缩减至原来的50%。
- 李艳红孟丹周应超武林平
- 关键词:机群系统检查点系统存储策略
- 基于预算的资源管理模型
- 随着高性能计算机及应用的快速发展,如何合理地使用高性能计算机,提高系统产出率成为高性能计算机使用和管理中 需要关注的问题。然而,现有批作业系统中的资源管理方式无论在保证资源使用公平性和合理性,还是保证作业服务质量方面 都...
- 罗红兵王伟张晓霞武林平
- 关键词:高性能计算机资源管理经济模型服务质量
- 大规模计算系统故障特征及容错机制分析被引量:3
- 2009年
- 本文围绕国内外若干大规模计算系统的运行稳定性状况展开调研:首先根据若干典型系统的故障数据,从故障模式、故障特征方面对目前实际生产性系统的稳定性进行分析;然后,在总结目前系统级容错研究思路的基础上,分析了未来更大规模计算系统容错机制的挑战及可能的解决方案。
- 武林平罗红兵刘勇鹏
- 关键词:容错
- 科学计算应用程序单核指令级优化研究被引量:4
- 2014年
- 尽管高性能计算机性能提升越来越快,但科学计算应用程序获得同步的性能提升是很困难的.提高科学计算应用程序的执行性能,需要依照高性能计算机体系结构的特点进行针对性的优化,其中单核指令级优化是科学计算应用程序性能优化的重要方面之一.以基于JASMIN(J adaptive structured meshes applications infrastructure)框架实现的Euler程序为例,探讨了科学计算应用程序在Intel Xeon微处理器平台上的具体性能问题和指令级并行性能优化方法,并较大幅度地优化了Euler程序的单核性能.程序优化后,二维和三维两个物理模型计算的总运行时间比优化前减少了21%~34%,核心模块Gas1dapproxy的执行时间缩短了50%以上.性能优化实验表明:流水线效率已成为影响科学计算类实际应用程序计算效率的重要因素,需要通过降低计算语句的依赖度、减少长延迟计算数量等方法予以改进.
- 罗红兵张晓霞王伟武林平
- 关键词:性能分析XEON科学计算程序
- 基于JASMIN框架多物理耦合程序的性能优化及分析被引量:6
- 2015年
- 基于并行应用支撑软件框架JASMIN的辐射流体与粒子输运耦合程序RHSn2D,采用最小邦元固定处理器数目的并行策略,计算实际模型的并行规模扩展至8 192核,并行效率约为16%.集成程序时间分析,验证软件框架底层MPI并行环境聚合通信对于并行优化算法(尤其是辐射流体计算时间)的影响.
- 任健武林平申卫东
- 关键词:并行计算
- 基于作业记账日志的并行作业特征分析工具JobCAT
- 2022年
- 并行作业特征分析是负载分析的重要基础。作业记账日志是开展作业特征分析的重要数据源。由于作业记账日志中没有记录应用名称,现有工具无法按应用名称开展作业特征分析。提出基于关键字模糊匹配的作业记账日志标记方法,设计通用的作业数据模型和柔性可扩展软件架构,集成实现并行作业特征分析工具JobCAT。通过某超级计算机系统百万量级作业记账日志数据测试验证,JobCAT的作业记账日志标记率大于95%。JobCAT支持7个插件、29项统计报表,可一键生成应用的作业特征分析报告,对负载分析研究具有实用价值。
- 田鸿运刘旭武林平罗红兵莫则尧
- 关键词:超级计算机
- 基于数据库的海量文件管理系统与方法
- 本发明涉及机群系统的基于数据库的海量文件管理系统和方法,该系统包括:机群文件元数据收集装置、文件元数据存储和管理装置、客户端。方法涉及到下列内容:使用一种独立于机群节点文件系统的文件元数据管理办法;在文件元数据的管理中引...
- 武林平刘淘英孟丹
- 文献传递