王莉 作品数:8 被引量:13 H指数:2 供职机构: 中国科学技术大学计算机科学与技术学院 更多>> 发文基金: 国家自然科学基金 国家重点基础研究发展计划 国家高技术研究发展计划 更多>> 相关领域: 自动化与计算机技术 自然科学总论 更多>>
类数据流驱动的分片式处理器上的编译及优化技术 分片式处理器体系结构能够很好地应对纳米工艺代的功耗、线延迟、设计和验证复杂度等一系列问题,是一种具有良好性能扩展潜力的片上多处理器结构设计方案。如何在分片式处理器体系结构上支持通用目的程序设计是决定这种结构成败的关键。要... 王莉关键词:编译器设计 谓词执行 文献传递 针对子程序结构的线程级推测并行性分析 被引量:7 2009年 线程级推测技术为开发更多的线程级并行性,充分利用多核加速传统上难以手工或自动并行化的串行程序提供可行的技术途径.然而,这种技术的性能严重地依赖于线程划分方案.有研究表明,仅推测执行循环所产生的并行性是不够的,但推测执行子程序结构比循环结构要难.本文提出寻找适于推测并行执行的子程序结构的基本判定依据;通过运行由Simplescalar工具集改造得到的动态剖析工具ProRV、ProFun和SPEC CPU2000基准测试程序,我们对子程序结构线程化推测执行的适合性进行详细分析,给出具有指导意义的实验分析方法和实验数据.我们发现:1无返回值的子程序结构占据程序整体执行时间的大约40%;返回稀疏整型的子程序结构占据了程序整体执行时间的大约10%,对其返回值的预测成功率在70%左右.对于其他返回值类型的子程序结构,由于对其返回值的预测成功率过低,我们认为不适合作为线程划分的对象.2简单的last-value的值预测方案对于返回值的预测是简单而且足够有效的.3访存数据依赖普遍存在于子程序与其后继代码之间,显式同步机制对于针对子程序结构的线程级推测是必要的. 梁博 安虹 王莉 王耀彬利用连续两阶段在线剖析优化多线程推测执行 被引量:2 2009年 针对当前推测多线程优化中使用的离线剖析受到训练输入集限制的问题,提出一种根据在线剖析结果自动变换推测多线程程序的动态优化方法.该方法在程序运行时执行剖析和优化工作,不需要单独的剖析过程以及通用的训练输入集.该方法也适用于那些运行时行为特征呈阶段性变化的程序.实验表明,在指导事务划分和选择并行循环方面,动态优化方法能够达到和静态优化方法相似的效果,完全可以在离线剖析失效时被使用. 刘圆 安虹 汪芳 王莉 王耀彬关键词:推测多线程 事务存储 动态优化 谓词执行技术在类数据流体系结构中的实现和优化 2010年 谓词执行技术是克服程序中控制依赖的重要软件技术.利用类数据流体系结构的特点,设计了一种在类数据流体系结构中低开销、高效率地实现谓词执行技术的方法:仅占用指令编码中的1-bit;谓词的值通过片上网络在指令间直接传递,无需谓词寄存器.这种实现方法的主要开销是由类数据流指令集引入的软件输出树,本文进一步提出一种基于边剖析技术的优化方法.实验表明,这种优化能减少17.3%的软件输出树开销,同时将程序性能提高了15.5%. 王莉 安虹 王耀彬 任永青 从明 路璐基于剖析信息和关键路径长度的软件扇出树生成算法 被引量:1 2010年 开发利用ILP(Inst ruction-level Parallelism)是现代高性能处理器取得高性能的关键要素之一。宽发射的超标量处理器、超长指令字处理器和数据流处理器只有在并行执行多条相邻的指令时才能获得较高的性能。数据流处理器的一个关键问题是如何把指令的计算结果高效地播送给目标指令而不用读写集中式寄存器文件。对于每条目标数大于指令所能编码的目标数的指令,编译程序都要插入一棵由MOV指令构成的软件扇出树来把计算结果播送给多条目标指令。为了暴露更多的ILP给硬件执行基底,提出了一种改进的软件扇出树生成算法,本算法根据目标指令的执行概率大小以及目标指令到该指令所在块的出口的关键路径长度来计算目标指令的权值,然后对各个叶子的优先权值进行排序,再根据优先权值的顺序来构造一棵软件扇出树,以便把指令的计算结果播送给多条目标指令。实验结果发现,本算法相对于传统的软件扇出树生成算法其性能有较大的提高。 曾斌 安虹 王莉关键词:优先权 多线程多核处理器体系结构模拟器构造方法 本文深入剖析了威斯康辛大学Multifacet项目开发的一个多处理器存储系统模拟器GEMS,结合设计多线程多核处理器模拟器OpenSMT和OpenCMP的经验,探讨了多线程多核处理器体系结构模拟器构造方法。 安虹 郭锐 王莉 任永青 隋秀峰关键词:多核处理器 多线程 体系结构 文献传递 一种CMP结构上的事务存储编程模型设计 被引量:4 2007年 多核结构上采用由用户显式制导的并行程序设计模型,使用锁和同步变量来实现同步。事务存储模型能够解决由锁机制带来的一系列问题,提高程序的并发性。介绍了在文中提出的一种基于事务存储模型的多核结构(Transactional-Memory based Chip Multiple-Superscaler,TMCMS)上的并行编程模型,以及针对循环程序的执行模型;以FFT程序为例具体介绍了循环结构的并行化方法和编译转换过程。在初步的实验中,将处理单元从1增加到16个时,在所设计的编程模型的支持下,IPC(Instruction PerCycle)有接近线性的增长,说明该并行编程模型能够充分发掘程序中潜在的细粒度线程级并行性,同时保持并行程序设计的简单性。 陈嘉 安虹 刘圆 王莉关键词:并行程序设计模型 事务存储 基于加权路径的指令调度算法 2009年 随着线延迟的逐渐增加,指令调度技术作为一种可以有效减少处理器片上通信的技术日益重要。本文介绍一种分片式处理器结构上基于加权路径的指令调度算法,该算法利用已经放置好的指令——锚指令信息精确计算路径长度,再用指令所在路径长度作为权值对指令进行调度。实验结果表明,本算法实现的调度器IPC比已有的两种TRIPS调度算法的IPC分别提高了21%和3%。 路璐 安虹 王莉 王耀彬 曾斌关键词:指令调度