您的位置: 专家智库 > >

国家高技术研究发展计划(2007AA01Z114)

作品数:6 被引量:31H指数:3
相关作者:胡伟武李祖松王剑刘金刚蔡嵩松更多>>
相关机构:中国科学院中国科学院研究生院中国石油大学(华东)更多>>
发文基金:国家自然科学基金国家高技术研究发展计划国家重点基础研究发展计划更多>>
相关领域:自动化与计算机技术电子电信更多>>

文献类型

  • 6篇期刊文章
  • 1篇会议论文

领域

  • 6篇自动化与计算...
  • 1篇电子电信

主题

  • 4篇处理器
  • 2篇龙芯
  • 1篇堆栈
  • 1篇多处理器
  • 1篇多核
  • 1篇多核处理
  • 1篇多核处理器
  • 1篇多线程
  • 1篇多线程设计
  • 1篇性能分析
  • 1篇一致性
  • 1篇体系结构
  • 1篇同时多线程
  • 1篇片上多处理器
  • 1篇片上多核处理...
  • 1篇迁移
  • 1篇微体系结构
  • 1篇线程
  • 1篇龙芯2号处理...
  • 1篇龙芯处理器

机构

  • 6篇中国科学院
  • 2篇中国科学院研...
  • 1篇中国石油大学...
  • 1篇中国科学院大...

作者

  • 2篇胡伟武
  • 2篇李祖松
  • 1篇刘奇
  • 1篇杨丽琼
  • 1篇蔡嵩松
  • 1篇刘金刚
  • 1篇肖俊华
  • 1篇曹非
  • 1篇章隆兵
  • 1篇史岗
  • 1篇黄令仪
  • 1篇周国建
  • 1篇高茁
  • 1篇许先超
  • 1篇张锋
  • 1篇吴少刚
  • 1篇唐志敏
  • 1篇王剑
  • 1篇冯子军
  • 1篇杨祎

传媒

  • 2篇计算机工程
  • 1篇Journa...
  • 1篇计算机研究与...
  • 1篇计算机学报
  • 1篇Journa...

年份

  • 5篇2009
  • 2篇2008
6 条 记 录,以下是 1-7
排序方式:
基于四阶段人工优化的软件流水技术被引量:1
2009年
代码体积是优化存储资源有限的嵌入式系统的重要因素之一。针对该特点,使用oprofile性能分析工具,以EEMBC基准程序集作为工作负载,提出四阶段人工优化软件流水方法(FPMO)。电信类的自相关程序实验结果表明,FPMO以2.04%的代码增量为代价换来40.678%的性能提升,而单纯的编译器自动优化则以33.35%的体积膨胀换来38.33%的性能提升。
周国建吴少刚李祖松史岗
关键词:性能分析
A PVT Tolerant Sub-mA PLL for High Speed Links被引量:2
2008年
A sub-mA phase-locked loop fabricated in a 65nm standard digital CMOS process is presented. The impact of process variation is largely removed by a novel open-loop calibration that is performed only during start-up but is opened during normal operation. This method reduces calibration time significantly compared with its closed-loop counterpart. The dual-loop PLL architecture is adopted to achieve a process-independent damping factor and pole-zero separation. A new phase frequency detector embedded with a level shifter is introduced. Careful power partitioning is explored to minimize the noise coupling. The proposed PLL achieves 3. lps RMS jitter running at 1.6GHz while consuming only 0.94mA.
杨祎杨丽琼张锋高茁黄令仪胡伟武
关键词:PLLJITTER
Making Effective Decisions in Computer Architects' Real-World:Lessons and Experiences with Godson-2 Processor Designs
2008年
Although the design of many kinds of microprocessors has been under developing for several decades, the computer architecture R&D community lacks well documented lessons and experiences about design decisions in the research literature. In this paper, we systematically present the design decisions we made during the designing and prototyping of Godson-2 series processors. The 250MHz Godson-2B, 450MHz Godson-2C, and 1GHz Godson-2E processors that implement 64-bit, four-issue, out-of-order architecture were taped out in 2003, 2004, and 2005, respectively. Each processor triples its predecessor in the SPEC CPU2000 rates. Our first-hand experiences and lessons gained from these designs would provide unique perspectives and insights that are not available in any existing text books and/or published papers. We summarize 10 critical lessons and experiences based on hundreds of our attempts at architectural and design optimizations for performance improvement of Godson-2 series processors. The issues include silicon-simulation correlation, design balancing, performance optimizing, and pico-architecture tuning. We conclude that persistent improvement, attitude towards work-on-silicon design, and insightful understanding of software and fabrication process are the three most important factors for designing a high performance processor with low energy consumption.
胡伟武王剑
片上多处理器中延迟和容量权衡的cache结构被引量:4
2009年
片上多处理器中二级cache的设计面临着延迟和容量不能同时满足的矛盾,私有结构有较小的命中延迟但是减少了cache的有效容量,共享结构能增加cache的有效容量但是有较长的命中延迟.提出了一种适用于CMP的cache结构——延迟和容量权衡的cache结构(TCLC).该结构是一种混合私有结构和共享结构的设计,核心思想是动态识别cache块的共享类型,根据不同共享类型分别对其进行优化,对私有cache块采用迁移的优化策略,对共享只读cache块采用复制的优化策略,对共享读写cache块采用中心放置的优化策略,以期达到访问延迟接近私有结构,有效容量接近共享结构的目的,从而缓解线延迟的影响,减少平均内存访问延迟.全系统模拟的实验结果表明,采用TCLC结构,相对于私有结构性能平均提高13.7%,相对于共享结构性能平均提高12%.
肖俊华冯子军章隆兵
关键词:片上多处理器二级CACHE迁移
基于龙芯处理器的二进制翻译器优化被引量:14
2009年
二进制翻译是实现系统迁移的主要方法,但基于通用平台的仅靠软件实现的二进制翻译性能不高。该文以龙芯2F处理器为实现平台,提出一种QEMU二进制翻译器并进行优化,其中包括编译环境的优化以及二进制翻译器本身的优化2个方面,对后者的优化主要涉及寄存器直接映射和多媒体指令的改进。实验结果表明,通过寄存器映射优化后,系统能够获得1.45的加速比,通过多媒体优化后,多媒体程序的执行能达到本地机器执行的80%的性能。
蔡嵩松刘奇王剑刘金刚
关键词:寄存器堆栈
龙芯2号处理器的同时多线程设计被引量:10
2009年
提出了适合龙芯2号处理器的同时多线程处理器模型,并介绍了具体的微体系结构设计以及相应的Linux操作系统的实现方案.通过在设计的龙芯2号同时多线程处理器上启动Linux操作系统,并运行应用程序,例如SPEC CPU2000,进行性能评测.结果表明,龙芯2号同时多线程处理器通过挖掘线程级并行性,将龙芯2号处理器的性能提高了31.1%.
李祖松许先超胡伟武唐志敏
关键词:同时多线程微体系结构LINUX操作系统
环连接CMP的缓存一致性协议
片上多核处理器(CMP)已经成为处理器发展的方向,处理器设计的重点也转到了互连网络和存储层次结构方面,其中的一个关键问题是如何维护各处理器各级缓存(Cache)的一致性,该问题在传统的共享存储多处理器中使用Cache一致...
曹非刘志勇
关键词:片上多核处理器CACHE一致性协议
文献传递
共1页<1>
聚类工具0