国家高技术研究发展计划(2008AA010901)
- 作品数:9 被引量:21H指数:2
- 相关作者:汪文祥沈海华蒋毅飞高翔蔡嵩松更多>>
- 相关机构:中国科学院中国科学院研究生院北京龙芯中科技术服务中心有限公司更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家科技重大专项更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于2D Cache结构的H.264运动补偿访存带宽优化方法被引量:1
- 2012年
- H.264/AVC的运动补偿处理环节需要消耗大量的内存访问带宽,这成为制约其性能的关键因素.分析表明,如此巨大的带宽消耗具体来自5个方面:像素数据的重复读取、地址对齐、突发访问、SDRAM页切换和内存竞争冲突.提出一种基于2D Cache结构的运动补偿带宽优化方法,充分利用像素的重用以减少数据的重复读取.同时通过结合数据在SDRAM中映射方式的优化,将众多短而随机的访问整合为地址对齐的突发访问,并减少了访问过程中页切换的次数.此外还提出了访存的组突发访问模式,以解决SDRAM竞争冲突所引入的开销.实验结果表明采用上述优化设计后,运动补偿的访存带宽降低了82.9~87.6%,同现存优化效率较高的方法相比,带宽进一步减少了64%~87%.在达到相同带宽减少幅度的前提下,所提出的新方法比传统Cache结构电路面积减少91%.该方法目前已在一款多媒体SoC芯片设计中实际应用.
- 汪文祥张广飞沈海华
- 关键词:SDRAMH.264/AVC
- 场景前颜色缓冲区压缩被引量:1
- 2010年
- 内存带宽通常是计算机图形系统的瓶颈,文中总结了用于降低图形系统带宽开销的常见机制,在纹理压缩算法S3TC基础上,提出场景前颜色缓冲区压缩方法——YCoCg-R CBC.该方法定义了2种颜色缓冲区压缩数据格式,将像素转换到YCoCg-R颜色空间,对亮度和色度数据分别处理,并使亮度数据具有较高精度.实验结果表明,YCoCg-R CBC 2种数据格式的平均PSNR值各为41.71 dB和47.24 dB,较S3TC算法分别提高了7.87 dB和13.40 dB;解压图像质量得到显著改善,已经很难观察到它们与原始图像的差异.
- 蒋毅飞张戈
- 关键词:GPU
- 具有可变数据格式的透明度压缩
- 2011年
- 对纹理元素透明度alpha的压缩是纹理压缩的重要组成部分.通过分析透明度和颜色的本质差异,提出了具有可变数据格式的透明度压缩——龙芯透明度压缩(LAC)方法.该方法定义了3种alpha压缩数据格式,用聚类算法和线性插值方法将16个输入alpha数据压缩为64比特,并依据压缩数据格式采用灵活的解压方式;实现了LAC的压缩和解压过程,以及DXT5的alpha通道压缩.实验结果表明,与DXT5的alpha压缩相比,LAC方法可使测试图像的平均PSNR值提高0.25 dB,alpha数据的平均压缩时间缩短约18%,硬件实现的平均单元面积减小25%左右,解压功耗降低10%~30%.
- 蒋毅飞郇丹丹解鑫
- 关键词:GPU纹理压缩聚类算法
- 一种基于RAM的降低异构多核切换开销的方法
- 同一程序的不同执行阶段或者不同程序运行时行为特征不同.异构多核处理器包含多种类型处理器核,可以根据程序运行时的行为特征切换到性能、功耗合适的核.异构多核相对于同构多核处理器能够更好地满足性能和功耗要求,但是不同核间切换时...
- 刘奇郝守青沈海华章隆兵
- 关键词:寄存器重命名
- 文献传递
- 高性能多媒体SoC分组访存调度算法被引量:2
- 2011年
- 根据多媒体处理单元的访存特点,提出一种面向高性能多媒体SoC的分组访存调度算法.该算法将访存请求按照访存ID和页地址分组,以访存组为单位进行乱序调度,并通过维护相同ID访存请求之间的顺序保证访存的正确性:综合考虑访存单元的访存效率和服务质量要求,在每个访存单元独立的调度周期内提供最低带宽保障服务.将该分组访存调度算法应用于访存调度装置,实际应用仿真结果表明,与已有基于带宽分配的访存调度算法相比,文中算法在保障访存单元带宽需求的同时降低了访存延迟,并将平均带宽利用率提高了15%.
- 张广飞汪文祥蒋毅飞苏孟豪
- 关键词:多媒体片上系统SDRAM
- 一种基于RAM的降低异构多核切换开销的方法
- 2011年
- 同一程序的不同执行阶段或者不同程序运行时行为特征不同.异构多核处理器包含多种类型处理器核,可以根据程序运行时的行为特征切换到性能、功耗合适的核.异构多核相对于同构多核处理器能够更好地满足性能和功耗要求,但是不同核间切换时保存、恢复程序现场开销严重影响了异构多核处理器的性能.增加少量片上随机存储单元(RAM),并适当优化处理器核硬件结构是有效降低核间切换开销的方法.上述方法使得核间切换时不需要执行切换程序,通过发送RAM读写请求实现了程序现场的保存和恢复.基于龙芯异构多核处理器平台评估了软、硬件实现核间切换开销.实验结果表明上述硬件方法将核间切换开销下降到软件开销的11%,且仅带来了2.49%的面积增加和1.8%的功耗增加.
- 刘奇郝守青沈海华章隆兵
- 关键词:寄存器重命名
- 跨平台系统级虚拟机的访存优化被引量:2
- 2012年
- 跨平台系统级虚拟机软件模拟访存操作效率低,严重影响了虚拟机的性能.为提高跨平台虚拟机访存效率,提出了一种使用宿主系统TLB硬件、加速跨平台系统级虚拟机访存地址转换的软硬件协同优化方法.该方法相对于软件访存模拟方法,有效利用了宿主系统的硬件资源,提高了跨平台系统级虚拟机执行访存操作效率.实验结果表明该方法将虚拟机系统的整体性能提高了近15%.提出的方法已实际应用在龙芯系统级跨平台虚拟机中.
- 蔡嵩松刘奇沈海华章隆兵
- 关键词:页表TLB
- 龙芯3A多核处理器系统级性能优化与分析被引量:12
- 2012年
- 多核处理器的性能与系统软件有着密切的联系:操作系统是处理器与应用程序之间的接口,对于充分利用处理器特性和提高应用程序的性能起着极其重要的作用;编译器与处理器体系结构密切相关,一方面要产生处理器支持的二进制代码,另一方面还要结合处理器特性产生高效运行的代码,其性能好坏直接影响着系统的整体性能.为了提高龙芯3A系统的实际性能,从操作系统和编译器着手,结合龙芯3A微结构特征,进行了一系列有效的优化.这些措施包括CC-NUMA多核操作系统的实现、操作系统二级Cache锁机制、操作系统调度共享二级Cache分配、自动向量化编译和支持预取机制的编译等.实验结果表明,在系统软件中增加对处理器特性的支持,能够充分挖掘体系结构的优势,对系统性能有较大的好处.其性能优化技术对于其他处理器的优化也有一定的借鉴价值.
- 孟小甫高翔从明张爽爽
- 关键词:龙芯3A自动向量化性能分析
- 基于硬件cache锁机制的Java虚拟机即时编译器优化被引量:3
- 2012年
- Java虚拟机即时编译器以方法为单位进行编译,编译器将字节码方法编译成可执行代码,并经过数据cache存入内存中,当再次执行到该代码段时,处理器需要从包含该代码段的内存区域取指令执行,如果该内存区域在数据cache中已经建立映射,就可以直接从数据cache中读取数据,读数据的性能就会有大幅度的提高.但是编译生成的大量可执行代码在cache中频繁替换,当生成代码被替换出cache后,代码再次执行时处理器必须访问速度较慢的主存储器,成为编译器的性能瓶颈.设计并实现了硬件cache锁机制,提出了一种软硬件协同设计的即时编译方法.通过该方法,生成代码执行时的cache失效次数降低了6.9%,SPECjvm2008中程序最高获得了17.9%的性能提升,平均性能提升4.2%.
- 敖琪蔡嵩松王剑
- 关键词:JAVA虚拟机即时编译器
- 基于二进制插桩的ASIP处理器指令集混合仿真方法
- 2012年
- 指令集仿真器在ASIP处理器硅前软件开发中发挥着重要的作用,但使用传统仿真方法的指令集仿真器仿真速度较慢.基于二进制插桩,提出了ASIP处理器指令集混合仿真方法,以混合仿真的方式,使基础指令直接运行在宿主机上,仅对扩展指令仿真,从而降低仿真开销,提升仿真速度.实验表明,采用此方法对主流高清音视频解码软件进行仿真的平均速度达到了1058.5MIPS,是采用当前先进的动态二进制翻译仿真方法仿真器速度的34.7倍.
- 邱吉高翔彭飞汪文祥蒋毅飞
- 关键词:指令集仿真专用指令集处理器混合仿真