国家杰出青年科学基金(60325205) 作品数:11 被引量:53 H指数:3 相关作者: 章隆兵 胡伟武 张福新 黄琨 张戈 更多>> 相关机构: 中国科学院 中国科学技术大学 中国科学院研究生院 更多>> 发文基金: 国家杰出青年科学基金 国家自然科学基金 国家重点基础研究发展计划 更多>> 相关领域: 自动化与计算机技术 电子电信 更多>>
片上多处理器中的Cache压缩和接口压缩 2008年 提出一种简单的基于频繁值和频繁模式的压缩方法,给出结合Cache压缩技术和接口压缩技术的片上多处理器结构。全系统的模拟结果表明Cache压缩技术和接口压缩技术能提高片上多处理器中Cache的有效容量和pin的有效带宽,从而提高系统的性能。实验表明只采用Cache压缩技术平均能提高10%的性能,只采用接口压缩技术平均能提高5.5%的性能,同时采用Cache压缩技术和接口压缩技术平均能提高12%的性能。 肖俊华 冯子军 章隆兵关键词:片上多处理器 一种静态电路兼容的4GHz64位动态加法器设计 被引量:3 2008年 设计了一个与静态电路兼容的64位动态加法器,采用嵌入逻辑的动态触发器,以及多相位时钟技术,实现了与上、下级静态电路的接口.在加法器内部采用稀疏先行进位策略平衡逻辑路径长度以降低内部负载,提高性能.在STMicro90nmCMOS工艺下,该加法器可工作在4GHz时钟下,功耗45.9mW. 王志远 高茁关键词:加法器 动态电路 基于物理反标的处理器功耗建模与评估方法 被引量:3 2007年 将基于综合的处理器作为主要研究对象,通过参数化RTL和物理反标的方法对处理器中的基本单元块提取出功耗值并组成功耗模型库;将处理器各模块映射为基本单元块的组合,利用性能模拟器统计出的模块翻转信息,从而对处理器的功耗做出快速准确的评价.实验结果表明,该方法可以做到与门级网表的真实功耗值误差不到10%,且速度开销很小. 黄琨 张戈 王君 曾洪博关键词:功耗评估 高性能处理器 基于SimpleScalar的龙芯CPU模拟器Sim-Godson 被引量:31 2007年 现代高性能通用处理器的设计越来越复杂,模拟器在处理器设计中所起的作用越来越大.龙芯2号是中国科学院计算技术研究所研制的高性能通用处理器.最早开发的龙芯2号的模拟器ICT-Godson是信号级模拟器,它模拟了处理器的所有细节,十分准确,但速度和灵活性有较大限制.文章基于SimpleScalar工具集,设计并实现了龙芯2号的模拟器Sim-Godson.Sim-Godson具有高速度和高灵活性的优点,且准确性也很高.在3.0GHz的Pentium4微机上,Sim-Godson速度约为500K指令/s.大部份测试程序在Sim-Godson上的IPC(Instruction PerCycle)与ICT-Godson相差不到5%,达到了很高的准确性.Sim-Godson在龙芯2号的性能分析工作中发挥了重要作用. 张福新 章隆兵 胡伟武关键词:模拟器 龙芯2号处理器 SIMPLESCALAR 高性能处理器 一种基于龙芯CPU的结构级功耗评估新方法 被引量:5 2007年 如何有效地利用处理器消耗的能量而得到尽可能高的性能成为了目前体系结构研究的热点,在研究中,结构级的功耗评估工具无疑具有重要的作用.在现有的结构级功耗模拟器中,往往只考虑了动态电路以及全定制实现方法下的功耗刻画,而忽略了以静态电路和标准单元设计为主的ASIC设计方法对处理器功耗带来的影响.由此,结合一款高性能、低功耗通用处理器——龙芯2号的具体实现,对其设计特点和功耗特性进行分析,实现了以龙芯2号处理器为基本研究对象的结构级功耗评估方法.该评估方法充分考虑了CMOS静态电路的结构级功耗刻画方法,因此更加适合目前以ASIC设计方法为主的高性能处理器结构的功耗评估.该结构级功耗评估方法与RTL级的功耗评估方法相比,具有速度快和灵活性好的优点.在2.4GHz的IntelXeon上,该功耗评估方法的速度约为300K/s,是RTL级的评估方法的5000倍,而且误差很小. 黄琨 章隆兵 胡伟武 张戈关键词:功耗 ASIC设计 一种基于容量复用的异构CMP Cache 被引量:2 2008年 多核环境下的Cache设计技术受到线延时和应用等多方面因素影响,私有和共享方案都存在各自的不足.提出了一种异构的CMP Cache结构,采用两类具有不同Cache层次的结点组成多核芯片,设计了基于间接索引的Cache容量复用等技术,提供了容量有效且访问迅速的片上存储层次.在全系统环境下对SPEC CPU2000,SPLASH2等程序的评测结果表明,异构CMP Cache结构能够适应各类应用的需要,对单进程和多线程应用平均性能提高分别可达16%和9%.异构CMP Cache同时具有硬件设计简单的特点,具有较好的工程可实现性,其设计思想将应用在未来的龙芯多核处理器设计中. 高翔 章隆兵 胡伟武关键词:片上多核处理器 异构 高速缓存一致性 A 0.18μm Transmitter and Receiver with High Speed and Low Power 2008年 This paper describes the design of a low voltage differential signal (LVDS) transmitter and receiver with high speed and low power for CPU, LCD, FPGA, and other fast links. In the proposed transmitter, a stable reference and a common mode feedback circuit are integrated into the LVDS drivers, which enable the transmitter to tolerate variations of process, temperature, and supply voltage. The proposed receiver implements a rail-to-rail amplifier architecture that allows a 1.6Gb/s transmission. The transmitter and receiver are implemented in HJ TC 3.3V,0. 18μm CMOS technology. The experimental results demonstrate that the transmitter and receiver reach 1.6Gb/s. The transmitter and receiver pad cells exhibit a power consumption of 35 and 6mW,respectively. 张锋 冯伟 崔浩 杨袆 黄令仪 胡伟武关键词:LVDS 一种基于微基准程序和理想上限的处理器性能分析方法 2008年 随着现代高性能通用处理器结构的不断发展,处理器的性能分析已经变得越来越困难.基于大工作负载和单纯依靠模拟器的性能分析方法复杂度高,且难以直观地反映微体系结构特征.本文针对超标量处理器的特点,提出一种新的处理器性能分析方法,具体包括:设计一个微基准程序集Godson-Microbench,并提出相应的理想性能上限计算公式.这种方法扩充了过去基于约束的性能分析方法,可以更加完整地评估流水线性能并有效地发现性能瓶颈.本文使用这种方法分析比较了龙芯2号处理器和Alpha21264处理器,并依此改进了龙芯2号的结构,使得微基准程序的平均性能提高了13.8%,SPEC程序集的IPC提高了28.8%.本文提出的性能分析方法在龙芯2号的结构优化工作中发挥了重要作用. 马可 章隆兵关键词:性能分析 龙芯2号处理器 基于程序周期行为的快速模拟方法 被引量:1 2007年 提出了一种基于程序周期行为的快速模拟方法,通过对基本块执行次数和基本块跳转关系进行统计采样和分类,选择有代表性的程序片段来执行,能够在保证模拟精度的同时极大地缩短模拟时间。实验结果表明,在模拟了龙芯2号微体系结构的sim-godson模拟器上,采用这种方法SPEC2000测试程序可以在1h内运行完,误差率不超过5%。 汤彦 张福新 唐志敏关键词:性能评测 统计分类 Storus:一个二维片上网络拓扑结构 被引量:5 2008年 随着CMOS工艺集成度持续不断提高,单片多处理器正在成为高性能处理器结构的发展趋势,现有的片上总线结构已不足以满足片上系统设计的互连需求,近年来提出了片上网络这一新的互连结构,片上网络需要解决的问题有:选择合适的拓扑结构、路由算法、流控机制等等.文中为片上网络结构提供了一个新的拓扑结构Storus以及路由算法L2,并使用多种负载模式、多种流控机制对Storus与Torus结构进行模拟分析.模拟结果显示,Storus的平均路由延时约比Torus小2%~15%,使用热点负载模拟时,Storus的饱和吞吐量约为Torus结构的1.2~1.5倍. 朱晓静关键词:拓扑结构 路由算法 片上网络 性能分析