一种基于并行度分析模型的GPU功耗优化技术

来源：华佗小知识

第３４卷第４期　２０１１年４月　计　算　机　学　报　Ｖｏ１．３４　Ｎｏ．４　Ａｐｒ．２０１１　ＣＨＩＮＥＳＥ　ＪＯＵＲＮＡＬ　ＯＦ　ＣＯＭＰＵＴＥＲＳ　一种基于并行度分析模型的ＧＰＵ功耗优化技术　林一松　杨学军　唐　滔　王桂彬　徐新海　（国防科学技术大学并行与分布处理国家重点实验室　长沙４１００７３）　摘　要　随着硬件功能的不断丰富和软件开发环境的逐渐成熟，ＧＰＵ开始被应用于通用计算领域，协助ＣＰＵ加　速程序的运行．为了追求高性能，ＧＰＵ往往包含成百上千个核心运算单元．高密度的计算资源，使得其在性能远高　于ＣＰＵ的同时功耗也高于ＣＰＵ．功耗问题已经成为制约ＧＰＵ发展的重要问题之一．ＤＶＦＳ技术被广泛应用于处　理器的低功耗优化，而对ＧＰＵ进行相应研究的前提是对其程序运行过程进行分析和建模，从而可以根据应用程序　的特征来确定优化策略．此外，ＧＰＵ主要由图形处理器芯片和片外的ＤＲＡＭ组成，有研究指出针对这类系统的功　耗优化应当综合考虑处理器和存储器，使二者可以互相协调以达到更好的优化效果．文中在一个已有的基于程序　并行度分析的ＧＰＵ性能模型的基础上，综合考虑计算部件与存储部件的功耗，建立了性能约束条件下的ＧＰＵ功　耗优化模型．对于给定的程序，在满足性能约束的前提下，以功耗最优为目标分别给出处理器和存储器的ＤＶＦＳ优　化策略．作者选取Ｔ　９个测试用例在３种模拟平台上进行了实验验证，结果表明文中的方法可以在满足性能约束　条件１Ｏ　的误差范围内获得最优的ＧＰＵ能量消耗．　关键词　ＧＰＵ；并行度模型；功耗模型；功耗优化　中图法分类号ＴＰ３１１　ＤＯＩ号：１０．３７２４／ＳＰ．Ｊ．１０１６．２０１１．００７０５　Ａ　ＧＰＵ　Ｌｏｗ—Ｐｏｗｅｒ　Ｏｐｔｉｍｉｚａｔｉｏｎ　Ｂａｓｅｄ　ｏｎ　Ｐａｒａｌｌｅｌｉｓｍ　Ａｎａｌｙｓｉｓ　Ｍｏｄｅｌ　Ｉ　ＩＮ　Ｙｉ—Ｓｏｎｇ　ＹＡＮＧ　Ｘｕｅ—Ｊｕｎ　ＴＡＮＧ　Ｔａｏ　ＷＡＮＧ　Ｇｕｉ—Ｂｉｎ　ＸＵ　Ｘｉｎ—Ｈａｉ　ｆＮａｔｉｏｎａｌ　Ｌａｂｏｒａｔｏｒｙ　ｆｏｒ　Ｐａｒａｌｌｅｌ　ａｎｄ　Ｄｉｓｔｒｉｂｕｔｅｄ　Ｐｒｏｃｅｓｓｉｎｇ・Ｎａｔｉｏｎａｌ　Ｕｎｉｖｅｒｓｉｔｙ　ｏｆ　Ｄｅｆｅ　５ｅ　Ｔｅｃｈｎｏｌｏｇｙ，Ｃｈａｎｇｓｈａ　４１００７３）　Ａｂｓｔｒａｃｔ　Ｗｉｔｈ　ｔｈｅ　ｃｏｎｔｉｎｕｅｓ　ｄｅｖｅｌｏｐｍｅｎｔ　ｏｆ　ｈａｒｄｗａｒｅ　ａｎｄ　ｓｏｆｔｗａｒｅ，ＧＰＵ　ｈａｓ　ｂｅｅｎ　ｕｓｅｄ　ｉｎ　ｇｅｎ—　ｅｒａｌ　ｐｕｒｐｏｓｅ　ｃｏｍｐｕｔａｔｉｏｎ　ｆｉｅｌｄ，ａｃｃｅｌｅｒａｔｉｎｇ　ａｐｐｌｉｃａｔｉｏｎｓ　ｆｏｒ　ＣＰＵ．Ｔｏ　ａｃｈｉｅｖｅ　ｈｉｇｈ　ｃｏｍｐｕｔｉｎｇ　ｐｅｒｆｏｒｍａｎｃｅ，ＧＰＵ　ｔｙｐｉｃａｌｌｙ　ｉｎｃｌｕｄｅｓ　ｈｕｎｄｒｅｄｓ　ｏｆ　ｃｏｍｐｕｔｉｎｇ　ｕｎｉｔｓ．Ｔｈｅ　ｈｉｇｈ　ｄｅｎｓｉｔｙ　ｏｆ　ｃｏｍｐｕ—　ｔｉｎｇ　ｒｅｓｏｕｒｃｅ　ｏｎ　ｃｈｉｐ　ｂｒｉｎｇｓ　ｉｎ　ｈｉｇｈ　ｐｏｗｅｒ　ｃｏｎｓｕｍｐｔｉｏｎ　ａｓ　ｗｅｌｌ　ａｓ　ｈｉｇｈ　ｐｅｒｆｏｒｍａｎｃｅ．Ｔｈｅ　ｐｏｗｅｒ　ｃｏｎｓｕｍｐｔｉｏｎ　ｐｒｏｂｌｅｍ　ｈａｓ　ｂｅｃｏｍｅ　ｏｎｅ　ｏｆ　ｔｈｅ　ｍｏｓｔ　ｉｍｐｏｒｔａｎｔ　ｐｒｏｂｌｅｍｓ　ｆｏｒ　ｔｈｅ　ｄｅｖｅｌｏｐｍｅｎｔ　ｏｆ　ＧＰＵ．Ｔｈｅ　ＤＶＦＳ　ｔｅｃｈｎｉｑｕｅ　ｉｓ　ｗｉｄｅｌｙ　ｕｓｅｄ　ｔｏ　ｏｐｔｉｍｉｚｅ　ｐｏｗｅｒ　ｃｏｎｓｕｍｐｔｉｏｎ　ｆｏｒ　ｐｒｏｃｅｓｓｏｒｓ．Ｈｏｗ　ｅｖｅｒ，ａｐｐｌｙｉｎｇ　ｔｈｅ　ＤＶＦＳ　ｔｅｃｈｎｉｑｕｅ　ｔｏ　ＧＰＵ　ｄｅｐｅｎｄｓ　ｏｎ　ｔｈｅ　ａｎａｌｙｓｉｓ　ｏｆ　ｐｒｏｇｒａｍ　ｅｘｅｃｕｔｉｏｎ　ｏｎ　ＧＰＵ，ＳＯ　ｔｈａｔ　ｏｐｔｉｍｉｚａｔｉｏｎ　ｓｔｒａｔｅｇｙ　ｃａｎ　ｂｅ　ｃｈｏｓｅｎ　ａｃｃｏｒｄｉｎｇ　ｔｏ　ｔｈｅ　ｐｒｏｇｒａｍ　ｆｅａｔｕｒｅ．Ｂｅｓｉｄｅｓ，　ＧＰＵ　ｉｓ　ｃｏｍｐｒｉｓｅｄ　ｏｆ　ａ　ｐｒｏｃｅｓｓｏｒ　ｃｈｉｐ　ａｎｄ　ａｎ　ｏｆｆ—ｃｈｉｐ　ＤＲＡＭ　ｓｙｓｔｅｍ．Ｓｏｍｅ　ｐｒｅｖｉｏｕｓ　ｒｅｓｅａｒｃｈｅｓ　ｐｏｉｎｔ　ｏｕｔ　ｔｈａｔ　ｔｈｅ　ｐｏｗｅｒ　ｃｏｎｓｕｍｐｔｉｏｎ　ｏｐｔｉｍｉｚａｔｉｏｎ　ｆｏｒ　ｓｕｃｈ　ａ　ｓｙｓｔｅｍ　ｓｈｏｕｌｄ　ｉｎｖｏｌｖｅ　ｂｏｔｈ　ｔｈｅ　ｐｒｏ—　ｃｅｓｓｏｒ　ａｎｄ　ｔｈｅ　ＤＲＡＭ，ｔｏ　ａｃｈｉｅｖｅ　ｂｅｔｔｅｒ　ｏｐｔｉｍｉｚａｔｉｏｎ　ｅｆｆｅｃｔ．Ｂａｓｅｄ　ｏｎ　ａｎ　ｅｘｉｓｔｉｎｇ　ＧＰＵ　ａｎａｌｙｔｉｃａｌ　ｍｏｄｅｌ，ｔｈｉｓ　ｐａｐｅｒ　ｐｒｏｐｏｓｅｓ　ａ　ＧＰＵ　ｐｏｗｅｒ　ｏｐｔｉｍｉｚａｔｉｏｎ　ｍｏｄｅｌ　ｕｎｄｅｒ　ｐｅｒｆｏｒｍａｎｃｅ　ｒｅｓｔｒｉｃｔｉｏｎ，ｉｎ—　ｖｏｌｖｉｎｇ　ｂｏｔｈ　ｔｈｅ　ｐｒｏｃｅｓｓｏｒ　ａｎｄ　ｔｈｅ　ＤＲＡＭ　ｏｎ　ＧＰＵ．Ｆｏｒ　ａ　ｇｉｖｅｎ　ｐｒｏｇｒａｍ，ｔｈｅ　ｍｏｄｅｌ　ｇｉｖｅｓ　ｔｈｅ　ＤＶＦＳ　ｓｔｒａｔｅｇｉｅｓ　ｆｏｒ　ｔｈｅ　ｐｒｏｃｅｓｓｏｒ　ａｎｄ　ｔｈｅ　ＤＲＡＭ　ｒｅｓｐｅｃｔｉｖｅｌｙ　ｗｉｔｈ　ａｎ　ａｐｐｏｉｎｔｅｄ　ｐｅｒｆｏｒｍａｎｃｅ　ｒｅ一　收稿日期：２０１０　０９　２Ｏ；最终修改稿收到日期：２０１１－０３—０７．本课题得到国家自然科学基金（９０６２０１６２）资助．林一松，男，１９８３年生，博士，　研究方向为高性能计算和低功耗优化．Ｅ—ｍａｉｌ：ｌｉｎｙｉｓｏｎｇ＠ｌｉｖｅ．ｃｎ．杨学军，男，１９６３年生，博士，教授，博士生导师，研究领域为高性能计　算、并行体系结构、高性能编译及操作系统．唐滔，男，１９８４年生，博士研究生，研究方向为高性能计算和编译优化．王桂彬，男，１９８１年　生，博士研究生，主要研究方向为高性能计算和低功耗优化．徐新海，男，１９８４年生，博士研究生，研究方向为高性能计算和容错．　７０６　计　算　机　学　报　ｓｔｒｉｃｔｉｏｎ．Ｔｈｅ　ａｕｔｈｏｒｓ　ｃｈｏｏｓｅ　ｎｉｎｅ　ｔｅｓｔ　ｃａｓｅｓ　ｔｏ　ｅｖａｌｕａｔｅ　ｔｈｅ　ｍｏｄｅｌ　ｏｎ　ｔｈｒｅｅ　ｓｉｍｕｌａｔｅｄ　ＧＰＵ　ｐｌａｔ—　ｆｏｒｍｓ．Ｔｈｅ　ｅｘｐｅｒｉｍｅｎｔａｌ　ｒｅｓｕｌｔｓ　ｓｈｏｗ　ｔｈａｔ　ｔｈｅ　ｍｏｄｅｌ　ｃａｎ　ａｃｈｉｅｖｅ　ｏｐｔｉｍａｌ　ｅｎｅｒｇｙ　ｃｏｎｓｕｍｐｔｉｏｎ　ｗｈｉｌｅ　ｔｈｅ　ｐｅｒｆｏｒｍａｎｃｅ　ｄｅｖｉａｔｉｏｎ　ｆｒｏｍ　ｔｈｅ　ｒｅｓｔｒｉｃｔｉｏｎ　ｉｓ　ｌｅｓｓ　ｔｈａｎ　１０　．　Ｋｅｙｗｏｒｄｓ　ＧＰＵ；ｐａｒａｌｌｅｌｉｓｍ　ｍｏｄｅｌ；ｐｏｗｅｒ　ｍｏｄｅｌ；ｌｏｗ　ｐｏｗｅｒ　ｏｐｔｔｍｉｚａｔｉｏｎ　１　引　言　半导体工艺的发展使得处理器芯片上集成的晶　体管越来越多，目前已经达到１０亿的量级．图形处　理器（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ，ＧＰＵ）的性能也因　此得到了飞速的提升，并且远远超过了通用ＣＰＵ．　例如，ＡＭＤ公司推出的ＦｉｒｅＳｔｒｅａｍ　９２５０　ＧＰＵ＿１　拥　有８００个计算核心，超过１ＴＦｌｏｐ／ｓ的峰值计算性　能，而同时期Ｉｎｔｅｌ公司的Ｃｏｒｅ２　Ｑｕａｄ处理器仅能　达到１００ＧＦｌｏｐ／ｓ．随着硬件功能的逐渐丰富以及软　件环境的日臻成熟，ＧＰＵ被越来越多地应用到非图　形计算领域口］．　随着ＧＰＵ应用领域的拓展，其功耗问题引起　了人们越来越多的关注．虽然性能／功耗比相对较　高，但其远高于ＣＰＵ的绝对功耗也成为了ＧＰＵ参　与通用计算特别是大规模科学计算不可忽略的问　题．高功耗不仅使得计算的成本增加，也会导致芯片　的可靠性下降，这是科学计算不能容忍的．此外，　ＧＰＵ在移动设备、嵌入式设备上广泛的应用前景也　对其低功耗的研究提出了迫切的需求．因此ＧＰＵ　的低功耗优化是一个亟待解决的问题．　目前针对ＧＰＵ的低功耗研究还处于起步阶　段，主要原因是缺乏对ＧＰＵ上程序执行过程的准　确分析，因而难以根据程序的特征有针对性地对电　压／频率进行调节．现有的ＧＰＵ支持比较简单的功　耗优化，如驱动程序检测到ＧＰＵ轻负载时降低其　频率，而一旦有任务执行时则恢复工作频率，这种优　化方式获得的能效比显然没有程序指导下的优化方　法高．另一方面，传统的功耗优化技术大多针对处理　器，而忽略了存储器．有研究者指出，在一个包含处　理器和存储器的计算系统中，存储器消耗的能量不　可忽略，能量的优化应同时考虑处理器和存储器，其　效果优于只针对处理器或存储器的优化口Ｊ．现代高　性能ＧＰＵ中除了显示芯片外，往往还包含一个大　容量的存储器，这意味着必须将存储器的功耗纳入　ＧＰＵ的功耗优化范围才能取得较好的优化效果．　针对以上问题，本文对ＧＰＵ的功耗优化展开　研究，综合考虑ＧＰＵ上的处理器与存储器，研究在　性能模型指导下的ＧＰＵ功耗优化方法．为了分析　程序的行为特征，同时在优化功耗的同时对程序性　能进行一定的约束，我们的功耗优化方法的一个重　要的基础是对ＧＰＵ程序执行过程的分析和程序性　能的建模．Ｈｏｎｇ和Ｋｉｍ在２００９年国际体系结构年　会（ＩｓＣＡ’０９）上提出了一种ＧＰＵ性能解析模型［４］．　该模型以Ｎｖｉｄｉａ　ＧＰＵ为硬件平台，ＣＵＤＡＥ　为编　程模型，提出了计算并行度（Ｃｏｍｐｕｔａｔｉｏｎ　Ｗａｒｐ　Ｐａｒａｌｌｅｌｉｓｍ，ＣＷＰ）和存储并行度（Ｍｅｍｏｒｙ　Ｗａｒｐ　Ｐａｒａｌｌｅｌｉｓｍ，ＭＷＰ）的概念，并以此来分析ＧＰＵ程　序运行过程中处理器与存储器之间的关系，确定出　性能瓶颈，并预测程序执行的时间．其实验结果表　明，该模型可以比较准确地评估ＧＰＵ程序的运行　时问，因此本文以这个性能模型为基础来指导ＧＰＵ　低功耗研究．　本文的主要创新点在于：首先，基于文献［４］分　析了程序的计算并行度、访存并行度与处理器、存储　器频率之间的关系；其次，根据并行度与频率的关系　建立ＧＰＵ的功耗优化模型并对模型进行求解；最　后，对９个科学计算领域常用的核心函数进行了测　试，实验结果表明：理论分析给出的频率调节因子可　以在达到性能约束条件的１０　误差以内，最小化　ＧＰＵ的能量消耗，因此可以有效地指导应用程序在　ＧＰＵ上的低功耗优化．　本文第２节分析并建立功耗优化模型；第３节　对模型进行求解；第４节给出实验评测；第５节介绍　相关工作；最后总结全文．　２并行度分析指导下的　ＧＰＵ功耗优化模型　２．１基于并行度分析的性能模型　一般来说，对功耗进行优化的同时需要保证一　定的性能约束，即在性能损失不超过某个阈值的前　提下尽可能降低功耗，因此需要一个性能模型对程　序的运行时间进行分析和预测．文献［－４－１中提出的　ＧＰＵ性能模型通过定义ＣＷＰ和ＭＷＰ这两个参　４期　林一松等：一种基于并行度分析模型的ＧＰＵ功耗优化技术　７Ｏ７　数来分析ＧＰＵ程序的性能瓶颈，并据此预测程序　的执行时问．ＣＷＰ用于表示程序执行时计算操作　的并行度，主要依赖于程序特征；而ＭＷＰ则代表了　访存操作的并行度，更多地依赖于存储系统的性能．　该模型中讨论了ＣＷＰ和ＭＷＰ对程序执行时间的　影响：当计算并行度高于访存并行度时，访存操作成　为程序运行的瓶颈，程序的执行时间也主要由访存　时间决定；而当访存并行度高于计算并行度时，程序　的计算操作没有完全利用存储系统提供的访存带　宽，成为程序运行的瓶颈，因而程序的执行时间主要　由计算时间决定．最后，当ＧＰＵ上运行的计算任务　太少时，导致访存操作的延迟无法得到有效的隐藏，　程序的执行时间由访存和计算时问之和决定．我们　记该性能模型为　ｔ　．Ｐ—ｒ（ＣＷＰ，ＭＷＰ），　ｔ　表示程序ｋ在ＧＰＵ平台Ｐ下的执行时间．我们　的功耗优化方法中使用该性能模型作为性能约束的　条件，因此建立功耗优化模型时首先需要分析　ＣＷＰ、ＭＷＰ和功耗之间的关系．　２．２并行度与功耗优化　功耗优化通常通过动态电压／频率调节（Ｄｙｎａｍｉｃ　Ｖｏｌｔａｇｅ／Ｆｒｅｑｕｅｎｃｙ　Ｓｃａｌｉｎｇ，ＤＶＦＳ）［。　技术实现，它　通过在一定范围内降低轻负载的处理器的频率以及　电压，使得在损失部分性能甚至不影响性能的情况　下减少能量的消耗．电路的核心电压　和其工作频　率厂一般要同时调节才能保证电路正常工作，它们　，　厂——１厂、ｙ　之间满足ｆＯＣ　弋　，其中Ｖ　是阈值电压，ｙ为　Ｖ　一个工艺相关的参数．通常情况下Ｖ　远小于Ｖ且　ｙ∈［１，２］．本文假定），一２，此时频率＿厂和电压Ｖ近　似为线性关系．根据ＣＭＯＳ电路的能量消耗公式　Ｐ—ａＣＶ　ｆ（ａ是一个与工艺相关的系数），功耗Ｐ可　以看成和频率厂的立方成正比，即Ｐ—ｇｆ。．因此本　文的功耗优化模型仅关注频率的调节．　处理器和存储器的频率对其性能的影响方式　是不同的．对于处理器，频率直接决定其运行性　能，因此可以认为其运行速度和频率成正比；而存　储器的情形则比处理器要复杂一些．我们考察存　储器的３个性能参数Ｍｅｒｅ—Ｌ，Ｄｅｐａｒｔｕｒｅ—ｄｅｌａｙ和　ＭｅｒｅＢａｎｄｗｉｄｔｈ，其中Ｍｅｒｅ—Ｌ表示存储器服务一　次访存请求的时间，Ｄｅｐａｒｔｕｒｅ—ｄｅｌａｙ是指连续两　次访存请求之间的最小时间间隔，Ｍｅｒｅ—Ｂａｎｄｗｉｄｔｈ　则表示存储带宽．现代ＤＲＡＭ存储器一般由存储　阵列和存控组成，其中存储阵列用于存储数据，存控　则受时钟驱动，对外提供数据访问接口．存储阵列本　身的访问延迟（时间）以及相邻两次访问的间隔时间　一般是由工艺决定的，不受存控频率的影响．换言　之，不同的存控频率对应着不同的延迟周期数，但其　绝对时间是基本一致的．因此我们的模型中假定　Ｍｅｒｅ—Ｌ和Ｄｅｐａｒｔｕｒｅ—ｄｅｌａｙ不随着存储器的频率　变化而变化．Ｍｅｍ—Ｂａｎｄｗｉｄｔｈ的情形则有所不同．　带宽是指在理想状态下单位时间内存储器可以对外　提供的最大数据量，这受限于单位时间内存控的时　钟周期数，因此我们认为Ｍｅｒｅ—Ｂａｎｄｗｉｄｔｈ和存储　器的频率成正比．　假定处理器和存储器的原始频率分别为－厂ｆ和　－厂　，而调节后变为ｆ：一ａ　ｆ　，　一ａ　，其中ａ　和ａ　为调节系数．下面我们分别给出ｃｗＰ、ＭｗＰ和ａ　、　ａ　的关系．　（１）ＣＷＰ．ＣＷＰ的形式化定义为　ｃ　＝ｒａｉｎ（、　Ｌ，　口。　ｍ　ｃ　Ｖ　ｃ　ｔｅ　，Ｎ）㈩　其中Ｃｏｍｐ—ｃｙｃｌｅｓ指的是每个ｗａｒｐ的总计算周　期，而Ｍｅｒｅ—ｃｙｃｌｅｓ则表示每个ｗａｒｐ的总访存等待　周期，Ｎ表示ＳＭ内活跃的ｗａｒｐ个数．ＣＷＰ表示　在ｗａｒｐ的一次访存等待时间内处理器可以计算的　ｗａｒｐ的个数．当ＳＭ内活跃的ｗａｒｐ数不够时，处理　器无法发挥出计算并行性，ＣＷＰ由Ｎ决定．　式（１）中第１项（记为ＣＷＰ…）中的计算周期和　访存周期都是以处理器的频率　为参考计量的，因　此该式上下同除以　即可转化为以绝对时间的比　值，即　ＣｗＰｒ］］一—Ｃｏｍｐ＿ｔｉｍｅ＋Ｍｅｒｅｔ＿ｉｍｅ＝＿Ｕｏｍｐ＿ｔｚｍｅ　—＿．　根据上面的分析，调整频率后，计算时间变为Ｃｏｍｐ—　ｔｉｍｅ／ａ　，而访存时问不变，因此第１项变为　ＣＷＰ＇１］一—Ｃｏｍｐｔｉｍｅ／ａｃＭｅｅｒｔｉｍｅ　＿＿＝＿＿＿——＿————＿ｃｏｍｐ＿ｔｚｍｅ／ａ　一ｌ＋ｄ　Ｍｅｒｅｔ一１Ｔｄ　———＿ｉｍｅ＝＝＿一ｌ１＿ａｃ一１＋ａ　（ＣＷＰｉ　ｌｌ一１）．—ｌ　．　Ｃｏｍｐ一￡ｚｍｅ　式（１）中第２项为ＳＭ上活跃的ｗａｒｐ数，与频率无　关，因此有　ＣＷＰ　一ｍｉｎ（１＋ａ　（ＣＷＰｒ１］一１），』＼，）　（２）　（２）ＭＷＰ．ＭｗＰ的形式化定义为　Ｍｅｒｅ　Ｌ　Ｄｅｐａｒｔｕｒｅｄｅｌａｙ’　Ｆｒｅｑ　Ｌｏ×　Ｍ—ａｄｓｅｒｅ　＿ｂＢｙａｎｔｅｓｄｗ　ｐｅｉｄｔｒ　ｈ　ＸｗａｒＭ　ｐ￣ｅｍＬ＿×　￥Ａ—ｃｔｉｖｅＳＭ，Ｎ）／　一　一　一　　（３）　其中，Ｍｅｒｅ—Ｌ和Ｄｅｐａｒｔｕｒｅ—ｄｅｌａｙ分别指ｗａｒｐ的　７０８　一计　算　机　学　报　２０１１正　次访存等待周期的长度和连续两次访存请求之间　优化允许的性能损失因子为　（　三三＝１），基于并行度　分析的ＧＰＵ功耗优化问题可以归结为如下规划　问题：　的最小时间间隔；Ｍｅｒｅ—Ｂａｎｄｗｉｄｔｈ指存储器的带　宽；Ｌｏａｄｓ—ｂｙｔｅｓ—ｐｅｒ—ｗａｒｐ指ｗａｒｐ的每次访存包　含的字节数；Ｆｒｅｑ为处理器的频率；￣４ＡｃｔｉｖｅＳＭ则　是指ＧＰＵ内活跃的ＳＭ的个数，Ｎ表示ＳＭ内活　ｆｍｉｎ　Ｅ＝Ｋ　ｆ　。＋Ｋ　厂　１　ｓ．ｔ．－厂　＝＝ａ　，，　一ａ　厂　ＣＷＰ　一ｇ　（ＣＷＰ，Ｃｔｃ）　跃的ｗａｒｐ个数．注意到这里的访存延迟和时间间　隔都是以处理器频率为参考的时钟周期数而非绝对　时间．此外，和ＣＷＰ一样，ｗａｒｐ数不足时ＭＷＰ也　ｌ　ＭＷＰ　一ｇ　（ＭＷＰ，口　）　【　Ｉ＇（ＣＷＰ　，ＭＷＰ　）　（ｃ　，ＭＷＰ）　由Ｎ决定．　注意到前面分析存储器频率与其性能的关系　时，提到的Ｍｅｒｅ—Ｌ和Ｄｅｐａｒｔｕｒｅ—ｄｅｌａｙ是从存储　器角度看一次访存的时间和相邻两次访存的间隔，　属于硬件固有特征，而这里使用的Ａ／ｌｅｍ—Ｌ和　Ｄｅｐａｒｔｕｒｅ—ｄｅｌａｙ是指一个ｗａｒｐ（３２个线程）的一　次访存时间和相邻两个ｗａｒｐ访存之间的最小间　隔，这和ｗａｒｐ内线程的访存方式有关，由程序和硬　件共同决定．但是调整存储器频率并不改变程序的　行为，因此后者依然不随着频率变化而变化．即调整　存储器频率后，式（３）中的第１项（记为ＭＷＰ…）保　持不变．对于第２项（记为ＭＷＰＥ　］），由于Ｍｅｒｅ—Ｌ　是以处理器的频率Ｆｒｅｑ为参考计算的时钟周期数，　因此Ｍｅｍ～Ｌ／Ｆｒｅｑ即为存储器处理ｗａｒｐ的一次访　存请求的时间，根据上面的分析，该时间不随着频率　变化而变化．第２项中只有］ＶＩｅｍ—Ｂａｎｄｗｉｄｔｈ会随　着存储器的频率发生变化，即　Ｍ１一．２１　：堡垒翌　！　！　：　一　ａ　×Ｆｒｅｑ　Ｘ　Ｌｏａｄｓ—ｂｙｔｅｓ—ｐｅｒ＿ｗａｒｐ　Ｘ￣ＡｃｔｉｖｅＳＭ　ｆｍＭＷＰ　ｒ２］．　式（３）中第３项为ＳＭ上活跃的ｗａｒｐ数，与频　率无关，因此有　ＭＷＰ　一ｍｉｎ（ＭＷＰＥ１３，ｄ　ＭＷＰ　Ｅ２］，Ｎ）　（４）　２．３功耗优化模型　通过２．２节的分析，我们得出了调节处理器和　存储器频率对ＣＷＰ和ＭＷＰ产生的影响，为描述　方便，我们将这个关系记为　ＣＷＰ　一ｇ　（ＣＷＰ，ａ　），ＭＷＰ　一ｇ　（ＭＷＰ，ａ　），　其中ａ　和ａ　分别表示处理器和存储器的频率调节　系数．至此，我们可以在性能模型的基础上对功耗优　化问题进行建模．假定　和－厂　分别表示ＧＰＵ中处　理器和存储器的原始频率，ｗａｒｐ的一次计算周期给　处理器带来的能量消耗为Ｅ　一Ｋ　厂　，一次访存周期　给存储器带来的能量消耗为　—Ｋ　．厂　，其中Ｋ　和　Ｋ　分别为ＧＰＵ处理器和存储器相关的常数，功耗　３功耗优化模型求解　本节讨论上述功耗优化问题的求解．绝大部分　情况下，ＳＭ上活跃的ｗａｒｐ数都远大于ＣＷＰ和　ＭＷＰ，这也是ＧＰＵ可以发挥出高性能的基础，因　此我们的求解重点关注这种情况．ｗａｒｐ数不足的情　形最后进行单独讨论．此外，为了简化求解过程，我　们首先假定处理器和存储器的频率都是连续可调　的，然后再考虑解空间的离散化．　定理１．　满足性能约束，且能量最优时的　ＣＷＰ和ＭｗＰ满足关系ＣＷＰ—ＭＷＰ＋１．　证明．　用反证法．假定满足性能约束且能量最　优时ＣＷＰ≠ＭＷＰ＋１，分以下两种情况讨论：　（１）ＣｗＰ＜ＭＷＰ＋１．根据式（１）可知，ＣＷＰ一　１＋Ｍｅｍ—ｐ／Ｃｏｍｐ—Ｐ．其中Ｍｅｍ—Ｐ和Ｃｏｍｐ—Ｐ分别　表示ｗａｒｐ的一次访存和一次计算的周期．根据假　设条件有，Ｍｅｍ—ｐ／Ｃｏｍｐ—ｐ￣ＭＷＰ．ＭＷＰ表示在　Ｍｅｍ—Ｐ的时间内ＳＭ上最多可以同时访问存储器　的ｗａｒｐ个数，可以理解为存储器向ＳＭ提供的　“访存通道”的个数．而Ｍｅｍ—ｐ／Ｃｏｍｐ—Ｐ代表了在　Ｍｅｍ—Ｐ时间内ＳＭ流出的计算ｗａｒｐ的个数．如　图ｌ中所示，除了１号ｗａｒｐ的访存请求外，存储器　在Ｍｅｍ—Ｐ时间内最多还可以服务ＭＷＰ一１个访　存ｗａｒｐ，而在这段时间内，只有Ｍｅｍ—ｐ／Ｃｏｍｐ—Ｐ一１　个ｗａｒｐ需要使用这ＭＷＰ～１个“访存通道”，因为　最后一个计算ｗａｒｐ（ｎ号ｗａｒｐ）完成时，１号ｗａｒｐ　的存储访问已经完成，其空出的“访存通道”可以供　ｎ号ｗａｒｐ使用．因此Ｍｅｍ—ｐ／Ｃｏｍｐ—ｐ￣ＭＷＰ意　味着存储器提供的访存并行性没有被充分利用，此　时程序的性能瓶颈在于计算，程序运行的总时间也　就近似等于程序的总计算时间．文献Ｅ４２中给出在这　一情况下程序的总执行周期为　Ｅｘｅｃｃｙｃｌｅｓ—Ｍｅｍ——Ｐ＋Ｃｏｍｐ—ｃｙｃｌｅｓ×Ｎ（５）　其中，Ｍｅｍ—Ｐ表示ｗａｒｐ的一次访存等待周期（等　于Ｍｅｍ—Ｌ），Ｃｏｍｐ—ｃｙｃｌｅｓ则指每个ｗａｒｐ的总计算　４期　林一松等：一种基于并行度分析模型的ＧＰＵ功耗优化技术　７０９　周期．从该式也可以看出，程序的总执行时间主要取　决于计算时间．图１中给出了当ＭＷＰ一　一１而　ＣＷＰ￣ｎ时的情况，存储器在１号ｗａｒｐ的访存操　作结束后到　号ｗａｒｐ的计算操作结束之前存在一　段空隙．这种情况下，由式（４）可知，通过适当降低存　储器的频率以降低访存储并行性，从而更好地匹配　计算性能，可以在不影响性能约束条件的情况下减　少能耗，即此时能量不是最优的．　图１　ＭＷＰ—　一１，ＣＷＰ＜　时ｗａｒｐ运行时空　（２）ＣＷＰ＞ＭＷＰ＋１．和第１种情况类似，　Ｍｅｒｅ—ｐ／Ｃｏｍ　—ｐ　ＭＷＰ意味着存储器提供的访　存并行性不足以满足Ｍｅｒｅ—　的时间内ＳＭ内流出　的计算ｗａｒｐ的访存需求．此时程序的性能瓶颈在　于访存，程序总时间近似等于访存所占的时间．文　献［４］中给出在这一情况下的程序执行时间为　ｒ　Ｅｘｅｃ＿ｃｙ　一Ｍｅｍ—ｃＹｃｌｅｓ　Ｘ　ｊ　＋ｃ。　一户×ＭＷＰ　（６）　其中，Ｍｅｒｅ—Ｐ表示每个ｗａｒｐ的总访存等待周期，Ｎ　为ＳＭ内活跃的ｗａｒｐ的个数，Ｃｏｍｐ一夕则代表　ｗａｒｐ的一次计算周期．从该式也可以看出，当Ｎ足　够大时，总执行周期主要由访存周期决定．　因此由式（２）可知，通过适当降低处理器的频率　以降低计算并行性，更好地匹配存储性能，同样可以　在不影响性能约束条件的情况下减少能耗．　综上，能量最优时必然有ＣＷＰ—ＭＷＰ＋１，定　理１得证．此外，通过定理证明过程可知，ＣＷＰ—　ＭＷＰ＋１时程序的计算和访存时间完美重叠，计算　并行性和访存并行性都得到充分发挥，程序的总运　行时间也近似等于计算时间或访存时间．　证毕．　推论１．　满足性能约束丁且能量最优时，程序　运行的总时间一定是Ｔ．　证明．　用反证法．假设此时程序运行总时间　￡＜Ｔ．由定理１可知，此时ＣｗＰ—ＭＷＰ＋１，程序　运行的总时间近似等于ｗａｒｐ的计算总时问　，因　此　＜Ｔ．显然，此时可以通过降低处理器的频率使　得计算时间延长至Ｔ．降低处理器频率会导致　ＣＷＰ　％ＭＷＰ＋１，因此，可以进一步降低存储器的　频率以减小ＭＷＰ，使得ＣＷＰ　＝＝＝ＭＷＰ　＋１，而总运　行时间仍然为Ｔ．注意到我们的优化目标为Ｅ—　Ｅ　十Ｅ　，即Ｅ　Ｐ　ｔ　＋Ｐ…ｔ　其中Ｐ　和Ｐ　表示处理　器和存储器的功率，ｔ　和ｔ　则表示ｗａｒｐ的一个计算　周期和一个访存周期的时间长度．根据２．２节中的　分析，ｔ　。Ｃ　＿　，￡　则与，　无关，另外ｐｏｃｆ。，因此我　们有Ｅ＝＝＝ｋｃ＿厂；十忌　－厂　。这意味着我们同时降低了处　理器和存储器的频率一定可以减少能量的消耗，即　￡＜Ｔ时的能量不是最优的．　证毕．　由定理１，我们可知为达到功耗最优，必须有　ＣＷＰ　＝ＭＷＰ　＋１，代人式（２）和（４），有　１＋ａ　（ＣＷＰ：１３—１）一　ｍｉｎ（１＋ＭＷＰ［１２，１＋ａ　ＭＷＰ：２３）．　若ＭｗＰ＿ｒ　ａ　ＭｗＰ＿２＿，我们可以得出　ＭＷＰｕ￣　，，７、　—ＣＷＰＥ—１］－－１　否则，有　一　（８）　ｄｍ　ＣＷＰｕｎ——１　但不论哪种情况，此时访存和计算的时间都完　美重叠，程序运行的总时间近似等于计算时间或访　存时间．即　Ｆ（ｋ，ａ　ｆ　，ａ　ｆ　）－￣Ｃｏｍｐ—ｔｉｍｅ　×Ｎ，　其中Ｃｏｍｐ～ｔｉｍｅ　表示调节频率后一个ｗａｒｐ的总计　算时间．由推论１，可知　Ｃｏｍｐ—ｔｉｍｅ　×Ｎ—ｐｔ，　其中ｔ为初始条件下程序的运行时间．由定理１的　证明过程以及式（５）、（６）可知　ｆＣｏｍｐｊｉｍｅＸ　Ｎ，ｃｗＰ＜ＭｗＰ＋１　１Ｉ　Ｍｅｍ￣￣Ｎ，ＣＷＰ＞ＭＷＰ＋１‘　ｎ，』ｙｙｆ　因此，我们得到　Ｃｏｍｐ—ｔｉｍｅ　Ｘ　Ｎ—　Ｃｏｍｐ——ｔｉｍｅ　×Ｎ　ａ　×Ｃｏｍｐ—ｔｉｍｅ×Ｎ，　ＣＷＰ＜ＭｗＰ＋１　口×Ｍｅｒｅ—ｔｉｍ　×Ｎ　ＣＷＰ＞ＭＷＰ＋１’　ＭＷＰ　（９）　联立式（７）、（９）或式（８）、（９）就可以得到ａ　和　ａ　的解．　式（７）、（９）联立后，只有在极端特殊的条件下才　７１Ｏ　计　算　机　学　报　２０１１年　有解．因为调节后程序运行时间也近似等于访存时　间，即　慨　．　提供若干个离散的频率值以供调节，因此最后要进　行解空间的离散化．根据推论１，能量最优时，程序　的运行时间已经达到约束条件的上界，且运行时间　近似等于总计算时间或总访存时间．这意味着，此时　处理器和存储器的频率都达到了满足性能约束条件　Ｍｅｒｅ—ｔｉｍｅ　为调整频率后一个ｗａｒｐ的总访存时间，　根据２．２节的分析，Ｍｅｒｅ～ｔｉｍｅ　一Ｍｅｒｅ—ｔｉｍｅ．而此　时的下界．因此为了满足性能约束条件，只能在离散　的频率值中选择不小于理论解的最小频率值．　时由于ＭＷＰ…＜ａ　ＭＷＰ　，由式（４）知ＭＷＰ　一　Ｍ　Ｐ…．因此　Ｍｅｒｅ．ｔｉｍｅ×Ｎ　Ｍｅｒｅ　ｔｉｍｅ×Ｎ　一ＭＷＰ　ＭＷＰｌ＿一　一　，　’　即　Ｍｅｒｅ—ｔｉｍｅＸ～ＭＷＰ…　×Ｃｏｍｐ—ｔｉｍｅ×Ｎ，　ＣＷＰ＜ＭＷＰ＋１　口×Ｍｅｒｅ—ｔｉｍｅ×Ｎ　ＭＷＰ　ＣＷＰ三三＝ＭＷＰ十１　我们得到　ｆｌ　Ｃ—ＭＷＰ［ＷＰｍ　—１］－１，ｃｗＰ＜ＭＷＰ十１。　。　　。　【Ｉ　ＭＷＰ，　ｃＷＰ　Ｍ　＋１　＿１＿　当ＣＷＰ￣ＭＷＰ＋１时，有　＜１，而根据　ＭＷＰ的定义也有　１．注意到我们的问题　约束中卢　１．因此在式（７）、（９）联立时，只有当性能　约束条件改为　一１时才有解，并且此时原始程序必　须满足ＭＷＰ—ＭＷＰ［１］以及ＣＷＰ＞＿ＭＷＰ十１．此　时根据式（７）得到　ＭＷＰ　、ＭＷＰ：１］　Ｏｌｃ—Ｃ—ＷＰ—－－１’　＝Ｍ—Ｗ—ＰＥ２］’　为达到能量最优，ａ　取下确界．　式（８）、（９）联立时，我们可以直接求出ａ　的值．　（ＣＷＰ［１３—１）　‰一—　（ＣＷＰ：　Ｉ：－－１），ｃｗＰ＜ＭｗＰ州—Ｊ卢ｘＭ（　。）　，　７＞ＭＷ卧　不难发现，式（７）、（９）联立的解是式（８）、（９）联立解　在某些特殊条件下的一个特解．至此，式（９）和（１０）　给出在ｗａｒｐ数足够时，满足性能约束且达到最优　能量消耗时，处理器和存储器的频率调节系数．　以上的解是在处理器和存储器的频率连续可调　的前提下得出的，而在实际中，处理器和存储器都只　最后我们考虑ｗａｒｐ数不足时的情况．由于这　种情况出现很少，ＧＰＵ运行效率极低，使用ＧＰＵ对　应用进行加速没有实际意义，因此这里对模型进行　一定的简化．假定对于给定的程序ｋ，在处理器和存　储器允许的频率范围内都有ＣＷＰ—ＭＷＰ—Ｎ，即　在任意的频率下，ｗａｒｐ数始终不足，此时ＣＷＰ和　ＭｗＰ都受限于ｗａｒｐ数．文献Ｅ４－１给出的在这一情　况下程序的总执行周期为　Ｅｘｅｃ—ｃ．ｙｆＺＰｓ—Ｍｅｒｅ—ｃｙｃｌｅｓ十Ｃｏｍｐ—ｃｙｃｌｅｓ＋　Ｃｏｍｐ—Ｐ×（ＭＷＰ一１）　（儿）　从式（１１）可以看出，此时程序的总时间近似等于一　个ｗａｒｐ的总计算时间和总访存时间之和．根据２．２　节的分析可知，计算时间和处理器的频率成反比，而　访存时间不受存储器频率的影响．因此有　Ｐ（ｋ，Ｏｌｃｆ　，ａ　ｆ　）≈Ｃｏｍｐ—ｔｉｍｅ　＋Ｍｅｒｅ—ｔｉｍｅ　一　二Ｉ竺　＋　ｍ￡　．　一ａ　从推论１的证明过程中我们不难得出，即便ｗａｒｐ　数不足时，推论１仍然成立，即能量最优时程序运行　的总时间一定为性能约束的上限．因此有　＝！　！＋Ｍ　￡　：　１２＂　口×（Ｃｏｍｐ—ｔｉｍｅ＋Ｍｅｒｅ—ｔｉｍｅ）．　我们可以得到ｗａｒｐ数不足时处理器的频率调节　系数　Ｃｏｍｐ—ｔｉｍｅ　—一，ｌｆ—ＸＣｏｍｐｔｉｍｅ＋（ｌｆ—－－１）ＸＭｅｍ＿＿ｔｉｍｅ　：：———————————　——————一　（　一１）×ＣＷＰ［１２－４－１’　而此时为达到能量最优，存储器的频率应当降至硬　件允许的最低值．　４　实　验　为了验证本文提出的ＧＰＵ功耗优化模型的有　效性，我们基于课题组先前开发的一款ＧＰＵ功耗　模拟器进行了一系列测试．本文采用的９个测试用　例来自ＮＶＩＤＩＡ　ＣＵＤＡ　Ｓｏｆｔｗａｒｅ　Ｄｅｖｅｌｏｐｍｅｎｔ　Ｋｉｔ　４期　林一松等：一种基于并行度分析模型的ＧＰＵ功耗优化技术　７１１　（ＣＵＤＡ　ＳＤＫ）２．２．１，它们都是科学计算领域中常　见的核心函数．表１列出了各计算核心函数的相关　参数．其中＃ｔｈｒｅａｄ表示每个ｂｌｏｃｋ内包含的线程　数，＃Ｃｏｍｐ　ｉｎｓｔ和＃Ｍｅｒｅ　ｉｎｓｔ表示每个线程内的　计算指令和访存指令的数目，Ａｒｉｔｈ．Ｉｎｔ．表示计算　指令密度（￣Ｃｏｍｐ　ｉｎｓｔ／＃ＭＰ　ｉｎｓｔ）．　表１　Ｋｅｒｎｅｌ程序说明　核心函数　ｂｉｔｏｎｉｃ　数据规模　２５６　０　ｂｌｏｃｋ　１　＃ｔｈｒｅａｄ　２５６　＃Ｃｏｍｐｉｎｓｔ　６１Ｏ　２　３０５．０　ｂｌａｃｋｓｃｈｏｌｅｓ　ｆｗｔＢａｔｃｈ１　ｍａｔｒｉｘｍｕｌ　ＲａｎｄｏｍＧＰＵ　ｓｃａｌａｒＰｒｏｄ　２００００００　８Ｍ　１２８×８０　４０９６×５・８６０　２５６×４０９６　４８０　４Ｏ９６　４０　３２　ｌ２８　１２８　５１２　２５６　１２８　２５６　３３５Ｏ　３Ｏ２　２２８　２８７２６８　６５５　１６３　８　７　５８６４　６４　２Ｏ．６　３７．８　３２．６　４９．０　１０．２　ｓｃａｎ　ｂｅｓｔ　ｄｗｔＨａａｒｌＤ　ｔｒａｎｓｐｏｓｅ　５１２　４０９６　２５６×４０９６　ｌ　４　４Ｏ９６　５１２　５１２　２５６　２９５　ｌ４２　５２　４　４　２　７３．８　３５．５　２６．０　注：＊ｆｗｔＢａｔｃｈｌ来自ｆａｓｔｗａｌｓｈｔｒａｎｓｆｏｒｍ，ＲａｎｄｏｍＧＰＵ来自ＭｅｒｓｅｎｎｅＴｗｉｓｔｅｒ，ｓｃａｎ＿ｂｅｓｔ来自ｓｃａｎ．　４．１节将简要介绍实验使用的ＧＰＵ功耗模拟　器，４．２节给出实验结果和分析．　４．１实验平台　的活动情况来累计整个处理器的功耗．　我们在ＧＰＧＰＵ　Ｓｉｅ模拟器中加入了Ｗａｔｔｒｃｈ　功耗模型，对ＧＰＵ中的Ｓｈａｄｅｒ　Ｃｏｒｅｓ、Ｌ２　ｃａｃｈｅ以　及Ｍｅｍｏｒｙ　Ｃｏｎｔｒｏｌｌｅｒ等部件进行功耗建模；对于　由于现有的ＧＰＵ对电压／频率的动态调节支持　不够完善，可调的档位也很少，不利于进行ＧＰＵ低　Ｉｎｔｅｒｃｏｎｎｅｃｔｉｏｎ　Ｎｅｔｗｏｒｋ，我们借鉴了ＰｏｗｅｒＲｅｄ　］　功耗优化的理论研究和验证，因此本文采用ＧＰＵ功　耗模拟器进行实验验证．本文采用的ＧＰＵ功耗模　拟器是课题组在ＧＰＵ性能模拟器ＧＰＧＰＵ　ＳｉｅＥｒ　ｊ　中使用的功耗建模方法；对于ＤＲＡＭ，我们则借鉴　了文献［１０］中的方法进行建模．对于每个部件，我们　都在其所属的时钟域内统计各周期的活动情况并累　计功耗，最后求和得出ＧＰＵ的总功耗．需要说明的　的基础上，结合Ｗａｔｔｃｈｌ８　功耗模型进行开发的．　ＧＰＧＰＵ－Ｓｉｍ是由Ｂｒｉｔｉｓｈ　Ｃｏｌｕｍｂｉａ大学设计　是，由于现代ＧＰＵ所采用的半导体工艺较Ｗａｔｔｃｈ　模型中的设定更加成熟，特征系数更小，因而模拟器　的时钟精确的ＧＰＵ性能模拟器，它支持ＣＵＤＡ和　ＯｐｅｎＣＬ编程模型，主要模拟现代ＧＰＵ上非图形类　应用的运行．ＧＰＧＰＵ—Ｓｉｅ将ＧＰＵ戈Ｕ分为５个主要　ｒ模块：Ｓｈａｄｅｒ　Ｃｏｒｅｓ、Ｉｎｔｅｒｃｏｎｎｅｃｔｉｏｎ　Ｎｅｔｗｏｒｋ、Ｌ２　ｃａｃｈｅ、ＤＲＡＭ以及Ｍｅｍｏｒｙ　Ｃｏｎｔｒｏｌｌｅｒ．整个ＧＰＵ　给出的绝对功耗比模拟的目标ＧＰＵ稍高（一般误　差在１Ｏ　以内），但作为理论优化方法的研究，本文　重点关注的是降频优化后ＧＰＵ功耗的变化和性能　变化之间的关系，而非功耗的绝对值，因此其绝对功　耗的误差是可以接受的．　４．２结果与分析　被划分为４个的时钟域：Ｃｏｒｅ、片上互连网络、　Ｄｒａｍ和Ｌ２　ｃａｃｈｅ时钟域，每个域都按照时钟步进　的方式驱动模拟．　Ｗａｔｔｃｈ是低功耗研究领域广泛使用的功耗模　通过调整配置参数，我们模拟了ＮＶＩＤＩＡ公司的　三款高性能ＧＰＵ：Ｑｕａｄｒｏ　ＦＸ５６００、ＧｅＦｏｒｃｅ　８８００ＧＴ　拟器之一，它使用一组参数化的解析模型来计算处　理器中不同种类部件的功耗．它将部件分为４类：阵　列结构、全相联ＣＡＭ结构、组合逻辑、总线结构和　时钟，并分别给出它们的功耗模型．Ｗａｔｔｃｈ预先计　和ＧｅＦｏｒｃｅ　ＧＴＸ２８０．表２给出了部分功耗模拟相关的　配置参数．其中Ｍｅｒｅ—ＬＤ表示访存延迟，Ｄｅｐａｒｔｕｒｅ—　ｄｅｌ—ｕｎｃｏａｌ和Ｄｅｐａｒｔｕｒｅ—ｄｅｌ—ｃｏａ１分别表示ｗａｒｐ　内各线程访问非连续地址和连续地址时相邻两次访存　请求之间的最小间隔．表中未给出的其它参数均按照　算好处理器中各种部件的单位活动功耗，并在时钟　精确的性能模拟器中通过监视每个时钟周期内部件　各ＧＰＵ所对应的ＣＵＤＡ的计算能力＿ｌ５　规范设置．　表２　ＧＰＵ模拟器参数设置　计　算　机　学　报　表３给出各核心函数在不同模拟平台中单位　ＳＭ上的活动ｗａｒｐ数（以下记为Ｎ）以及频率设置　下的ＣＷＰ和ＭＷＰ．从整体上看，Ｎ在不同的平台　间变化不大，其中有６个测试用例在３种平台上的　达到ＧＰＵ的上限（８），因此Ｎ的大小仅取决于每个　ｂｌｏｃｋ内包含的ｗａｒｐ数，这是由程序决定的，因此　在不同的平台上没有变化；ｂｉｔｏｎｉｃ、ｓｃａｎ—ｂｅｓｔ和　ｄｗｔＨａａｒｌＤ的ｂｌｏｃｋ数太小，只有部分ＳＭ被使用，　且活跃的ＳＭ上最多只运行一个ｂｌｏｃｋ，因此Ｎ也仅　取决于ｂｌｏｃｋ内包含的ｗａｒｐ数．对于另外３个测试用　例，它们的Ｎ则随着ＧＰＵ上ＳＭ数的变化而变化．　Ｎ完全相同．它们可以进一步被划分成两类：ｂｌａｃｋ—　ｓｃｈｏｌｅｓ、ｆｗｔＢａｔｃｈｌ和ｔｒａｎｓｐｏｓｅ的ｂｌｏｃｋ数足够大，　使得各ＧＰＵ平台的单位ＳＭ上活动的ｂｌｏｃｋ数均　表３活动ｗａｒｐ数，ｃｗＰ和ＭＷＰ　对于ＣＷＰ，我们可以看出：　（１）ｂｉｔｏｎｉｃ、ｓｃａｎ＿ｂｅｓｔ和ｆｗｔＢａｔｃｈｌ的ＣＷＰ值　ｍａｔｒｉｘｍｕｌ、ＲａｎｄｏｍＧＰＵ、ｓｃａｌａｒＰｒｏｄ和ｄｗｔＨａａｒｌＤ　较小，这是由于它们的计算指令的密度很大（见表１），　因此根据式（１），其ＣＷＰ值较小；ｓｃａｌａｒＰｒｏｄ的　ＣＷＰ值明显高于其它核心函数，这是由于它的计　４个测试用例的ＣＷＰ要高于ＭＷＰ，这说明一般情　况下，核心函数的ＣＷＰ和ＭＷＰ值的相对大小主　要取决于其访存模式．对于ｗａｒｐ内各线程访问非　连续地址的访存模式，ＭＷＰ值很小，一般低于　算指令的密度很低．　（２）ＲａｎｄｏｍＧＰＵ的计算密度也相对较高，但其　ＣＷＰ明显高于ｂｉｔｏｎｉｃ、ｓｃａｎ—ｂｅｓｔ和ｆｗｔＢａｔｃｈｌ，这　是由于ＲａｎｄｏｍＧＰＵ的访存模式使得其ｗａｒｐ的访　存等待周期较长，因次虽然其访存指令数目比例较　ＣＷＰ，此时程序的瓶颈在于访存，应该降低处理器　的频率以匹配存储器的性能；反之对于ｗａｒｐ内各　线程访问连续地址的模式，程序对存储器的性能要　求大大降低，则程序的瓶颈在于计算，应该降低存储　器的频率以节约能量．　小，但Ｍｅｒｅ—ｃｙｃｌｅｓ在总周期中的比例较大，从而其　ＣＷＰ高于上述３个核心函数．　（３）ｍａｔｒｉｘｍｕｌ、ＲａｎｄｏｍＧＰＵ、ｓｃａｌａｒＰｒｏｄ和　获得各核心函数的ＣＷＰ和ＭＷＰ后，根据本　文提出的功耗优化模型，我们得出处理器和存储器　的频率调节因子ａ　和ａ　，如表４所示．这里我们假　ｄｗｔＨａａｒｌＤ在ＧＴＸ２８０平台下的ＣＷＰ明显高于其它　平台．这是由于它们的访存模式决定了它们的ＣＷＰ受　限于Ｄｅｐａｒｔｕｒｅ—ｄｅｌ—ｕｎｃｏａｌ参数，而由表２可知，　ＧＴＸ２８０的这项参数明显高于其它两种ＧＰＵ平台．　对于ＭＷＰ，我们可以看出：　定性能约束条件　：１．２．　表４频率调节因子　（１）ｂｉｔｏｎｉｃ和ｓｃａｎ—ｂｅｓｔ的ＭｗＰ值没有随着　平台变化而变化，这是由于它们都仅有１个ｂｌｏｃｋ，　单位ＳＭ上活动的ｗａｒｐ数Ｎ很小，其ＭＷ尸值受　限于Ｎ．　（２）ｍａｔｒｉｘ、ＲａｎｄｏｍＧＰＵ、ｓｃａｌａｒＰｒｏｄ和ｄｗｔＨａａｒｌＤ　的ＭＷＰ值较小，这是由于它们的访存模式使得它　们的Ｄｅｐａｒｔｕｒｅ—ｄｅｌａｙ的值远高于其它几个核函数　的值，因而式（３）中第１项的值很小，成为决定其　ＭｗＰ的因素．　从表４中可以看出，ｂｉｔｏｎｉｃ、ｂｌａｃｋｓｃｈｏｌｅｓ、ｆｗｔ—　Ｂａｔｃｈ１、ｓｃａｎｂｅｓｔ和ｔｒａｎｓｐｏｓｅ　５个核心函数的ａ　综合ＣＷＰ和ＭＷＰ的值可以看出，只有　值始终为０．８３，即ｌ／ｆｔ．此时程序运行受限于ＧＰＵ　４期　林一松等：一种基于并行度分析模型的ＧＰＵ功耗优化技术　７１３　中的处理器，主要的功耗优化空间在于降低存储器　我们分别调节ＧＰＵ处理器和存储器的频率调节因　的频率．另外，ｂｉｔｏｎｉｃ、ｓｃａｎ—ｂｅｓｔ和ｄｗｔＨａａｒｌＤ　３个　ｋｅｒｎｅｌ的ａ　值非常小，这是由于这３个函数的　ｂｌｏｃｋ数很小，程序运行时只启用了部分ＳＭ，按照　子ａ　和ａ　，寻找满足性能约束的最优功耗调节点．　我们在Ｑｕａｄｒｏ　ＦＸ５６００平台下选取ｍａｔｒｉｘｍｕｌ和　ｂｌａｃｋｓｃｈｏｌｅｓ两个核心函数进行验证，它们分别代　表了ＣＷＰ＞ＭＷＰ４－１和ＣｗＰ＜ＭＷＰ４－１两种类　型的测试用例．　图４给出ｍａｔｒｉｘｍｕｌ在不同的ａ　和　配置下的　理论模型计算，每个ｗａｒｐ所分配的存储带宽非常　高，即ＭＷＰｌ２的值很大，因此为了节约功耗需要大　幅降低存储器的频率以匹配处理器的运行速度．　按照表４进行调节频率后，我们得到如图２所示　性能加速比，其中虚线给出的是值为０．８３（１／ｆ１）的　参考线．从图中可以看出随着性能的下降，处理器频　的性能加速比．可以看出调节频率后，各核心函数的　性能有不同程度的下降，但其均值介于０．７５～０．８　之问，和预期的性能损失０．８３（１／ｆ１），相对误差在　１０　以内．　图２调节频率前后性能加速比　图３给出调节频率后的ＧＰＵ能耗占原始能耗　的比值，其均值介于０．６６～０．７２之间．注意到，根据　能量消耗公式Ｅ＝＝＝ＰＴ，而根据２．２节的分析，Ｐ。Ｃ　，。，而Ｔ大致满足ＴＯ（２ｆ　，因此一般有Ｅ　Ｃｘ：ｆ　．但　根据ＧＰＧＰＵＳｉｍ的模拟环境，我们的功耗模拟器　中的模块被划分为４个的时钟域，而本文进行　降频时仅调节了其中Ｓｈａｄｅｒ　Ｃｏｒｅ和Ｄｒａｍ时钟域，　因此片上互连网络和Ｃａｃｈｅ等消耗的能量在调节　前后保持不变．此外，在某些测试用例，如ｂｉｔｏｎｉｃ、　ｓｃａｌａｒＰｒｏｄ和ｓｃａｎ—ｂｅｓｔ中，这两个模块消耗的能量　相对较高．这是本文的模拟结果中，能耗加速比高于　性能加速比的平方的主要原因．　为了验证本文给出的频率调节策略的最优性，　图３调节频率前后能耗加速比　率的降低在ａ　等于０．３～０．４之间出现拐点，这是由　于ｍａｔｒｉｘｍｕｌ的ＣＷＰ＞ＭＷＰ４－１，当处理器频率较　高时，程序运行的瓶颈在于存储器，而当处理器频率　下降到一定程度时，程序运行的瓶颈由存储器变勺　处理器，即由ＣＷＰ＞ＭＷＰ４－１变为ＣＷＰ＜ＭｗＰ＋　１，因此继续降低处理器的频率会使得性能急剧下　降．图５给出到达０．８３的性能加速比边界时，各　１　Ｏ　０　Ｏ　０　曩　０　０　Ｏ　０　０　（ａ　，ａ　）配置下的能耗占原始能耗的比值．其中最低　点出现在（０．４３，０．２２）处，此时能耗占原始能耗的比　值为０．６５，而如图３所示，优化模型给出的配置　（Ｏ．３５，０．２７）所取得的能耗比值为０．６３，接近且低　于上图中最低点的值．　图４　Ｍａｔｒｉｘｍｕｌ在不同频率配置下的性能加速比　图５　Ｍａｔｒｉｘｍｕｌ在性能边界处各配置的能耗加速比　图６给出ｂｌａｃｋｓｃｈｏｌｅｓ在不同的ａ　和ａ　配置下　的性能加速比，图中虚线同样是值为０．８３（１／ｆ１）的　参考线．从图中可以看出，绝大部分　设置下性能　和处理器的频率基本呈线性关系，这是由于这些情　况下ＣＷＰ＜ＭＷＰ４－１，此时程序运行的瓶颈在于　７１４　舞锻异　掣　计　１　０　０　０　Ｏ　０　Ｏ　Ｏ　０　０　算　机　学　报　２０１１正　计算，降低处理器的频率必然导致性能的下降．当　ａ　给出了编译策略来识别电压调节机会，同时保证没　有很明显的性能损失．而后通过进一步研究ｎ　提出　足够低时，程序运行的瓶颈发生转化，此时小幅降　低处理器频率不会显著影响程序性能，直至ａ　减少　了编译指导的动态电压调节算法，一方面准确地预　到上述不等式再次成立．　图６　Ｂｌａｃｋｓｃｈｏｌｅｓ在不同频率配置下的性能加速比　和ｍａｔｒｉｘｍｕｌ一样，我们继续考察达到０．８３的　性能加速比边界时各（ａ　，ａ　）配置下的能耗占原始　能耗的比值，如图７所示．注意到ａ　一０．２时的性能　曲线与参考线没有交点，因此这里只有四组（诉，　）　配置下的能耗比值．其中最低点出现在（０．７９，０．６）　处，此时能耗占原始能耗的比值为０．６１．优化模型　给出的配置（ｏ．８３，０．３５）所取得的能耗比值为０．５９　（见图３），接近且低于上图中的最低值．　丑　曩　耀　避　图７　Ｂｌａｃｋｓｃｈｏｌｅｓ在性能边界处各配置的能耗加速比　从以上实验结果可以说明，本文提出的功耗优　化模型，可以比较精确地分析程序的行为，针对不同　的程序特征给出功耗优化策略，在性能达到约束条　件的１０　误差以内，获得最优的能量消耗，从而可　以有效地指导ＧＰＵ程序的低功耗优化．　５　相关工作　在传统的低功耗领域，ＤＶＦＳ在操作系统级和　编译级都早有研究．Ｗｅｉｓｅｒ等人口妇首先提出了通用　操作系统上基于时间间隔的动态电压调节算法．　Ｇｏｖｉｌ等人［】　和Ｌｏｒｃｈ等人＿１。。继续了这一工作并　考虑了大量不同的工作负载预测及速度选择策略．　Ｈｓｕ＿１　较早提出了编译指导的动态电压调节算法，　测了一个程序段在任意一个频率值时的性能，另一　方面有效地选择了合适的程序段进行电压降低的操　作．在目前ＧＰＵ低功耗研究尚处于起步阶段的时　候，这些研究对我们来说有极大的启发和借鉴意义．　在ＧＰＵ低功耗领域，目前的研究大多集中在　能耗评测分析阶段．Ｃｏｌｌａｎｇｅ等人［１明使用测量统计　的方式研究了在ＣｕＤＡ环境下不同计算程序运行　时ＧＰＵ是怎样耗能的．Ｈｕａｎｇ等人口　以一个典型　的生物计算应用为案例，详细对比了ＣＰＵ和ＧＰＵ　的执行性能和能量消耗，同时指出ＧＰＵ高效能的　发挥受程序特征和程序优化的影响较大．Ｒｏｆｏｕｅｉ　等人ｌ】。　将使用ＧＰＵ与只使用ＣＰＵ的系统能耗作　对比，通过实验发现使用ＧＰＵ时，当系统性能增益　超过某一边界值后就能实现节能，并对这个边界进　行了说明．同时，也出现了一些优化和建模的文章，　但是数量较少．Ｔａｋｉｚａｗａ等人［１　９］提出了一种编译　时程序动态选择能耗较低处理器运行的方法，来优　化系统的整体功耗．Ｍａ等人＿¨。。则对ＧＰＵ功耗通过　统计分析的方法建立模型，用来预测目标ＧＰＵ运　行所需功耗，为以后优化ＧＰＵ功耗提供帮助．该模　型由于是基于统计方法得到，因此其就存有很大局　限性，并不精确．　综上所述，ＧＰＵ功耗研究领域缺少精确的模型　与有针对性的优化方法，而这正是本文的研究的出　发点．本文基于一个ＧＰＵ性能解析模型建立ＧＰＵ　的功耗优化模型，可以对程序行为进行准确的分析，　从而获得较好的优化效果．　６　结束语　随着ＧＰＵ越来越多地被应用到通用计算领　域，人们也日益关注其性能以外其它方面的表现，如　可靠性、功耗等等．ＧＰＵ中处理芯片的计算资源密　度大，其功耗也高于通用ＣＰＵ．高功耗带来的散热　问题也影响了其可靠性和稳定性．本文针对ＧＰＵ　高功耗的问题，结合Ｓ．Ｈｏｎｇ等人在ＩＳＣＡ’０９上提　出的ＧＰＵ性能解析模型，提出了一个综合考虑　ＧＰＵ处理器和存储器的功耗优化方法．我们的方法　利用性能模型分析出程序运行的瓶颈，并由此计算　出处理器和存储器的频率调节因子，使得在满足性　能损失约束的情况下，ＧＰＵ整体的功耗最低．通过　模拟实验，我们对所提出的优化方法进行了验证．实　林一松等：一种基于并行度分析模型的ＧＰＵ功耗优化技术　７１５　验结果表明，理论分析给出的频率调节因子可以在　达到性能的约束条件的１Ｏ　９／５误差以内，最小化　ＧＰＵ的能量消耗，因此可以有效地指导应用程序在　ＧＰＵ上的低功耗优化．　参　考　文　献　［１］　ｈｔｔｐ：／／ａｔｉ．ａｍｄ．ｃｏｒｎ／ｔｅｃｈｎｏｌｏｇｙ／ｓｔｒｅａｍｃｏｍｐｕｔ　ｎｇ／ｐｒｏｄｕｃｔ—　ＦｉｒｅＳｔｒｅａｍ９２５０．ｈｔｍｌ　［２］　Ｌｕｅｂｋｅ　Ｄ，Ｈａｒｒｉｓ　Ｍ，Ｇｏｖｉｎｄａｒａｊｕ　Ｎ，Ｌｅｆｏｈｎ　Ａ，Ｈｏｕｓｔｏｎ　Ｍ，Ｏｗｅｎｓ　Ｊ，Ｓｅｇａｌ　Ｍ，Ｐａｐａｋｉｐｏｓ　Ｍ，Ｂｕｃｋ　Ｉ．ＧＰＧＰＵ：　Ｇｅｎｅｒａｌ—ｐｕｒｐｏｓｅ　ｃｏｍｐｕｔａｔｉｏｎ　ｏｎ　ｇｒａｐｈｉｃｓ　ｈａｒｄｗａｒｅ／／Ｐｒｏ　ｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　２００６　ＡＣＭ／ＩＥＥＥ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｓｕｐｅｒｃｏｍ　ｐｕｔｉｎｇ（ＳＣ’０６）．Ｔａｍｐａ，Ｆｌｏｒｉｄａ，２００６　［３］　Ｆａｎ　Ｘｉａｏｂｏ，Ｅｌｌｉｓ　Ｃａｒｌａ　Ｓ，Ｌｅｂｅｃｋ　Ａｌｖｉｎ　Ｒ．Ｔｈｅ　ｓｙｎｅｒｇｙ　ｂｅ—　ｔｗｅｅｎ　ｐｏｗｅｒ　ａｗａｒｅ　ｍｅｍｏｒｙ　ｓｙｓｔｅｍｓ　ａｎｄ　ｐｒｏｃｅｓｓｏｒ　ｖｏｌｔａｇｅ　ｓｃａ１ｉｎｇ／／Ｐｒ０ｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　Ｗｏｒｋｓｈｏｐ　ｏｎ　Ｐｏｗｅｒ—Ａｗａｒｅ　Ｃｏｍｐｕｔｅｒ　Ｓｙｓｔｅｍｓ（ＰＡＣＳ一０３）．Ｎｅｗ　Ｙｏｒｋ，ＮＹ，ＵＳＡ，　２００３：１６４　ｌ７９　［４］　Ｈｏｎｇ　Ｓ，Ｋｉｍ　Ｈ．Ａｎ　ａｎａｌｙｔｉｃａｌ　ｍｏｄｅｌ　ｆｏｒ　ａ　ＧＰＵ　ａｒｃｈｉｔｅｃｔｕｒｅ　ｗｉｔｈ　ｍｅｍｏｒｙ—－ｌｅｖｅｌ　ａｎｄ　ｔｈｒｅａｄ—ｒｌｅｖｅｌ　ｐａｒａｌｌｅｌｉｓｍ　ａｗａｒｅｎｅｓｓ／／　Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　３６ｔｈ　Ａｎｎｕａｌ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｓｙｍｐｏｓｉｕｍ　ｏｎ　Ｃｏｍｐｕｔｅｒ　Ａｒｃｈｉｔｅｃｔｕｒｅ（ＩＳＣＡ’０９）．Ａｕｓｔｉｎ，ＴＸ，ＵＳＡ，　２００９　１　１５２　１　６３　［５］　ＮＶＩＤＩＡ　Ｃｏｒｐｏｒａｔｉｏｎ．ＣＵＤＡ　Ｐｒｏｇｒａｍｍｉｎｇ　Ｇｕｉｄｅ，Ｖｅｒｓｉｏｎ　２．１．　［６］　Ｂｕｒｄ　Ｔ，Ｂｒｏｄｅｒｓｅｎ　Ｒ．Ｄｅｓｉｇｎ　ｉｓｓｕｅｓ　ｆｏｒ　ｄｙｎａｍｉｃ　ｖｏｌｔａｇｅ　ｓｃａＩｉｎｇ／／Ｐ　ｒ（）ｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　２０００　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｓｙｍｐｏｓｉｕｍ　ｏｎ　Ｌｏｗ　Ｐｏｗｅｒ　Ｅｌｅｃｔｒｏｎｉｃｓ　ａｎｄ　Ｄｅｓｉｇｎ（ＩＳＬＰＥＤ’００）．Ｒａｐａｌｌｏ，　Ｉｔａｌｙ，２０００：９－１４　［７］　Ｂａｋｈｏｄａ　Ａｌｉ，Ｙｕａｎ　Ｇｅｏｒｇｅ，ｒｕｎｇ　Ｗｉｌｓｏｎ　Ｗ　Ｉ　，Ｗｏｎｇ　Ｈｅｎｒｙ．Ａａｍｏｄｔ＂Ｆｏｒ　Ｍ．Ａｎａｌｙｚｉｎｇ　ＣＵＤＡ　ｗｏｒｋｌｏａｄｓ　ｕｓｉｎｇ　ａ　ｄｅｔａｉｌｅｄ　ＧＰＵ　ｓｉｍｕｌａｔｏｒ／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　ＩＥＥＥ　Ｉｎｔｅｒｎａ　ｔｉｏｎａｌ　Ｓｙｍｐｏｓｉｕｍ　ｏｎ　Ｐｅｒｆｏｒｍａｎｃｅ　Ａｎａｌｙｓｉｓ　ｏｆ　Ｓｙｓｔｅｍｓ　ａｎｄ　Ｓｏｆｔｗａｒｅ（ＩＳＰＡＳＳ）．Ｂｏｓｔｏｎ，ＭＡ，２００９：１６３　１　７４　［８］　Ｂｒｏｏｋｓ　Ｄ，Ｔｉｗａｒｉ　Ｖ，Ｍａｒｔｏｎｏｓｉ　Ｍ．Ｗａｔｔｃｈ：Ａ　ｆｒａｍｅｗｏｒｋ　ｆｏｒ　ａｒｃｈｉｔｅｃｔｕｒａｌ—－ｌｅｖｅｌ　ｐｏｗｅｒ　ａｎａｌｙｓｉｓ　ａｎｄ　ｏｐｔｉｍｉｚａｔｉｏｎｓ／／Ｐｒｏ——　ｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　２７ｔｈ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｓｙｍｐｏｓｉｕｍ　ｏｎ　Ｃｏｍｐｕｔｅｒ　Ａｒｃｈｉｔｅｃｔｕｒｅ（ＩＳＣＡ）．　Ｖａｎｃｏｕｖｅｒ，　Ｂｒｉｔｉｓｈ　Ｃｏｌｕｍｂｉａ，　Ｃａｎａｄａ．２０００：８３　９４　［９］　Ｒａｍａｎｉ　Ｋ，Ｉｂｒａｈｉｍ　Ａ，Ｓｈｉｍｉｚｕ　Ｄ．ＰｏｗｅｒＲｅｄ：Ａ　ｆｌｅｘｉｂｌｅ　ｍｏｄｅｌｉｎｇ　ｆｒａｍｅｗｏｒｋ　ｆｏｒ　ｐｏｗｅｒ　ｅｆｆｉｃｉｅｎｃｙ　ｅｘｐｌｏｒａｔｉｏｎ　ｉｎ　ＧＰＵｓ／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　Ｗｏｒｋｓｈｏｐ　ｏｎ　Ｇｅｎｅｒａｌ　Ｐｕｒｐｏｓｅ　Ｐｒｏｃｅｓｓｉｎｇ　ｏｎ　Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔｓ．Ｎｅｗ　Ｙｏｒｋ，ＮＹ，　ＵＳＡ，２０Ｏ７：ｌ８５　ｌ　９２　［ｉＯ］　Ｓｉｍｕｎｉｃ　Ｔ，Ｂｅｎｉｎｉ　Ｌ，Ｄｅ　Ｍｉｃｈｅｌｉ　Ｇ．Ｃｙｃｌｅ　ａｃｃｕｒａｔｅ　ｓｉｍｕｌａ　ｔｉｏｎ　ｏｆ　ｅｎｅｒｇｙ　ｃｏｎｓｕｍｐｔｉｏｎ　ｉｎ　ｅｍｂｅｄｄｅｄ　ｓｙｓｔｅｍｓ／／Ｐｒｏｃｅｅｄ—　ｉｎｇｓ　ｏｆ　ｔｈｅ　３６ｔｈ　Ａｎｎｕａｌ　ＡＣＭ／ＩＥＥＥ　Ｄｅｓｉｇｎ　Ａｕｔｏｍａｔｉｏｎ　Ｃｏｎ　ｆｅｒｅｎｃｅ（ＤＡＣ）．Ａｔｌａｎｔａ，Ｇｅｏｒｇｉａ，１９９９：８６７　８７２　［１１］　Ｗｅｉｓｅｒ　Ｍ．Ｗｅｌｃｈ　Ｂ．Ｄｅｍｅｒｓ　Ａ，Ｓｈｅｎｋｅｒ　Ｓ．Ｓｃｈｅｄｕｌｉｎｇ　ｆｏｒ　ｒｅｄｕｃｅｄ　ＣＰＵ　ｅｎｅｒｇｙ／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　ｌ　ｓｔ　Ｓｙｍｐｏｓｉｕｍ　ｏｎ　Ｏｐｅｒａｔｉｎｇ　Ｓｙｓｔｅｍｓ　Ｄｅｓｉｇｎ　ａｎｄ　Ｉｍｐｌｅｍｅｎｔａｔｉｏｎ（（）ＳＤＩ’９４）．　Ｍｏｎｔｅｒｅｙ，Ｃａｌｉｆｏｒｎｉａ，ＵＳＡ，１９９４：１３　２３　ｒ］２］　Ｇｏｖｉｌ　Ｋ，Ｃｈａｎ　Ｅ，Ｗａｓｓｅｒｍａｎ　Ｈ．Ｃｏｍｐａｒｉｎｇ　ａｌｇｏｒｉｔｈｍｓ　ｆｏｒ　ｄｙｎａｍｉｃ　ｓｐｅｅｄｓｅｔｔｉｎｇ　ｏｆ　ａ　ｌｏｗ—ｐｏｗｅｒ　ＣＰＵ／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　１　ｓｔ　ＡＣＭ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｍｏｂｉｌｅ　Ｃｏｍｐｕｔｉｎｇ　ａｎｄ　Ｎｅｔｗｏｒｋｉｎｇ（Ｍ０ＢＩＣｏＭ　９５）．Ｃｌａｒｅｍｏｎｔ　Ｈｏｔｅｌ，Ｂｅｒｋｅ—　ｌｅｙ，Ｃａｌｉｆｏｒｎｉａ，ＵＳＡ，１９９５：１３　２５　［１３］　Ｌｏｒｃｈ　Ｊ，Ｓｍｉｔｈ　Ａ．Ｉｍｐｒｏｖｉｎｇ　ｄｙｎａｍｉｃ　ｖｏｌｔａｇｅ　ａｌｇｏｒｉｔｈｍｓ　ｗｉｔｈ　ＰＡＣＥ／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｍｅａｓｕｒｅｍｅｎｔ　ａｎｄ　Ｍｏｄｅｌｉｎｇ　ｏｆ　Ｃｏｍｐｕｔｅｒ　Ｓｙｓｔｅｍｓ（ＳＩＧＭＥＴ—　ＲＩＣＳ　０１）．Ｃａｍｂｒｉｄｇｅ，Ｍａｓｓａｃｈｕｓｅｔｔｓ，ＵＳＡ，２００１：５０—６１　［１４］　Ｈｓｕ　Ｃ，Ｋｒｅｍｅｒ　Ｕ，Ｈｓｉａｏ　Ｍ．Ｃｏｍｐｉｌｅｒ　ｄｉｒｅｃｔｅｄ　ｄｙｎａｍｉｃ　ｖｏｌｔａｇｅ／ｆｒｅｑｕｅｎｃｙ　ｓｃｈｅｄｕｌｉｎｇ　ｆｏｒ　ｅｎｅｒｇｙ　ｒｅｄｕｃｔｉｏｎ　ｉｎ　ｍｉｃｒｏ—　ｐｒｏｃｅｓｓｏｒｓ／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｓｙｍｐｏｓｉｕｍ　ｏｎ　Ｌｏｗ　Ｐｏｗｅｒ　Ｅｌｅｃｔｒｏｎｉｃｓ　ａｎｄ　Ｄｅｓｉｇｎ（ＩＳＩ　ＰＥＤ一０１）．Ｈｕｎｔｉｎｇ—　ｔｏｎ　Ｂｅａｃｈ，ＣＡ，２００ｌ：２７５　２７８　［１５］　Ｈｓｕ　Ｃｈｕｎｇ—Ｈｓｉｎｇ，Ｋｒｅｍｅｒ　Ｕ．Ｔｈｅ　ｄｅｓｉｇｎ，ｉｍｐｌｅｍｅｎｔａｔｉｏｎ，　ａｎｄ　ｅｖａｌｕａｔｉｏｎ　ｏｆ　ａ　ｃｏｍｐｉｌｅｒ　ａｌｇｏｒｉｔｈｍ　ｆｏｒ　ＣＰＵ　ｅｎｅｒｇｙ　ｒｅｄｕｃｔｉｏｎ／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　ＡＣＭ　ＳＩＧＰＬＡＮ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｐｒｏｇｒａｍｍｉｎｇ　Ｌａｎｇｕａｇｅｓ，Ｄｅｓｉｇｎ，ａｎｄ　Ｉｍｐｌｅｍｅｎｔａｔｉｏｎ　（ＰＩ，ＤＩ’０３）．Ｓａｎ　Ｄｉｅｇｏ，ＣＡ，２００３：３８—４８　［１６］　Ｃｏｌｌａｎｇｅ　Ｓ，Ｄｅｆｏｕｒ　Ｄ，Ｔｉｓｓｅｒａｎｄ　Ａ．Ｐｏｗｅｒ　ｃｏｎｓｕｍｐｔｉｏｎ　ｏｆ　ＧＰＵｓ　ｆｒｏｍ　ａ　ｓｏｆｔｗａｒｅ　ｐｅｒｓｐｅｃｔｉｖｅ／／Ａｌｌｅｎ　Ｇ，Ｎａｂｒｚｙｓｋｉ　Ｊ，　Ｓｅｉｄｅ１　Ｅ，Ａｌｂａｄａ　Ｇ　Ｄ，Ｄｏｎｇａｒｒａ　Ｊ，Ｓｌｏｏｔ　Ｐ　Ｍ　ｅｄｓ．Ｐｒｏｃｅｅｄ—　ｉｎｇｓ　ｏｆ　ｔｈｅ　９ｔｈ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｃｏｍｐｕｔａｔｉｏｎａｌ　Ｓｃｉｅｎｃｅ：Ｐａｒｔ　Ｉ（Ｂａｔｏｎ　Ｒｏｕｇｅ，ＬＡ，２００９）．Ｌｅｃｔｕｒｅ　Ｎｏｔｅｓ　ｉｎ　Ｃｏｍｐｕｔｅｒ　Ｓｃｉｅｎｃｅ　５５４４．　Ｂｅｒｌｉｎ，Ｈｅｉｄｅｌｂｅｒｇ：Ｓｐｒｉｎｇｅｒ　Ｖｅｒｌａｇ，２００９：９１４－９２３　［１　７］　Ｈｕａｎｇ　Ｓ，Ｘｉａｏ　Ｓ，Ｆｅｎｇ　Ｗ．Ｏｎ　ｔｈｅ　ｅｎｅｒｇｙ　ｅｆｆｉｃｉｅｎｃｙ　ｏｆ　ｇｒａｐｈｉｃｓ　ｐｒｏｃｅｓｓｉｎｇ　ｕｎｉｔｓ　ｆｏｒ　ｓｃｉｅｎｔｉｆｉｃ　ｃｏｍｐｕｔｉｎｇ／／Ｐｒｏｃｅｅｄ　ｉｎｇｓ　ｏｆ　ｔｈｅ　２００９　ＩＥＥＥ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｓｙｍｐｏｓｉｕｍ　ｏｎ　Ｐａｒａｌｌｅｌ　ａｎｄ　Ｄｉｓｔｒｉｂｕｔｅｄ　Ｐｒｏｃｅｓｓｉｎｇ（ＩＰＤＰＳ）．Ｒｏｍｅ，Ｉｔａｌｙ，２００９：　１　８　［１８］　Ｒｏｆｏｕｅｉ　Ｍａｈｓａｎ，Ｓｔａｔｈｏｐｏｕｌｏｓ　Ｔｈａｎｏｓ，Ｒｙｆｆｅｌ　Ｓｅｂｉ，Ｋａｉｓｅｒ　Ｗｉ１１ｉａｍ，Ｓａｒｒａｆｚａｄｅｈ　Ｍａｊｉｄ．Ｅｎｅｒｇｙ—ａｗａｒｅ　ｈｉｇｈ　ｐｅｒｆｏｒｍａｎｃｅ　ｃｏｍｐｕｔｉｎｇ　ｗｉｔｈ　ｇｒａｐｈｉｃ　ｐｒｏｃｅｓｓｉｎｇ　ｕｎｉｔｓ／／Ｐ　ｒ（】ｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　Ｗｏｒｋｓｈｏｐ　ｏｎ　Ｐｏｗｅｒ　Ａｗａｒｅ　Ｃｏｍｐｕｔｉｎｇ　ａｎｄ　Ｓｙｓｔｅｍｓ（Ｈｏｔ　Ｐｏｗｅｒ　２００８）．Ｓａｎ　Ｄｉｅｇｏ，２００８：３４９—３５３　［１９］　Ｔａｋｉｚａｗａ　Ｈ，Ｓａｔｏｌ　Ｋ，Ｋｏｂａｙａｓｈｉ　Ｈ．ＳＰＲＡＴ：Ｒｕｎｔｉｍｅ　ｐｒｏｃｅｓｓｏｒ　ｓｅｌｅｃｔｉｏｎ　ｆｏｒ　ｅｎｅｒｇｙ—ａｗａｒｅ　ｃｏｍｐｕｔｉｎｇ／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　３ｒｄ　Ｉｎｔｅｒｎａｔｉｏｎａ１　Ｗｏｒｋｓｈｏｐ　ｏｎ　Ａｕｔｏｍａｔｉｃ　Ｐｅｒｆｏｒｍａｎｃｅ　Ｔｕｎｉｎｇ．Ｔｓｕｋｕｂａ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｇｒｅｓｓ　Ｃｅｎｔｅｒ，Ｅｐｏｃｈａｌ　Ｔｓｕｋｕｂａ，２００８：３８６　３９３　［２ｏ］　Ｍａ　Ｘｉａｏｈａｎ，Ｄｏｎｇ　Ｍｉａｎ，Ｚｈｏｎｇ　Ｌｉｎ，Ｄｅｎｇ　Ｚｈｉｇａｎｇ．Ｓｔａｔｉｓ　ｔｉｃａｌ　ｐｏｗｅｒ　ｃｏｎｓｕｍｐｔｉｏｎ　ａｎａｌｙｓｉｓ　ａｎｄ　ｍｏｄｅｌｉｎｇ　ｆｏｒ　ＧＰＵ　ｂａｓｅｄ　ｃｏｍｐｕｔｉｎｇ／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　ＡＣＭ　Ｗｏｒｋｓｈｏｐ　ｏｎ　Ｐｏｗｅｒ　Ａｗａｒｅ　Ｃｏｍｐｕｔｉｎｇ　ａｎｄ　Ｓｙｓｔｅｍｓ（ＨｏｔＰｏｗｅｒ），Ｃｏ—ｌｏｃａ—　ｔｅｄ　ｗｉｔｈ　ＳｏＳＰ．Ｂｉｇ　Ｓｋｙ　Ｒｅｓｏｒｔ　ｉｎ　Ｂｉｇ　Ｓｋｙ，Ｍｏｎｔａｎａ，２００９：　２６７　２７】　７１６　计　算　机　学　报　２０１１矩　ＬＩＮ　Ｙｉ—Ｓｏｎｇ，ｈｏｒｎ　ｉｎ　１９８３，Ｐｈ．ｎ　Ｈｉｓ　ｒｅｓｅａｒｃｈ　ｉｎｔｅｒｅｓｔｓ　ｉｎｃｌｕｄｅ　ｈｉｇｈ　ｐｅｒ　ｆｏｒｍａｎｃｅ　ｃｏｍｐｕｔｉｎｇ　ａｎｄ　ｌｏｗ　ｐｏｗｅｒ　ｏｐｔｉ　ｍｉｚａｔｉｏｎ．　ＹＡＮＧ　Ｘｕｅ—Ｊｕｎ，ｂｏｒｎ　ｉｎ　１９６３，Ｐｈ．Ｄ．，ｐｒｏｆｅｓｓｏｒ．Ｈｉｓ　ｒｅｓｅａｒｃｈ　ｉｎｔｅｒｅｓｔｓ　ｉｎｃｌｕｄｅ　ｈｉｇｈ　ｐｅｒｆｏｒｍａｎｃｅ　ｃｏｍｐｕｔｉｎｇ，ｐａｒ—　ａｌｌｅｌ　ｃｏｍｐｕｔｅｒ　ａｒｃｈｉｔｅｃｔｕｒｅ，ｈｉｇｈ　ｐｅｒｆｏｒｍａｎｃｅ　ｃｏｍｐｉｌｅｒ　ａｎｄ　Ｂａｃｋｇｒｏｕｎｄ　Ａｓ　ｔｈｅ　ＣＭ０Ｓ　ｔｅｃｈｎｏｌｏｇｙ　ｓｃａｌｅｓ　ａｓ　ｐｒｅｄｉｃｔｅｄ　ｂｙ　Ｍｏｏｒｅ’Ｓ　Ｌａｗ，ｍｏｒｅ　ａｎｄ　ｍｏｒｅ　ｔｒａｎｓｉｓｔｏｒｓ　ａｒｅ　ｐａｃｋｅｄ　ｏｎ　ｔｏ　ｔｈｅ　ｓａｍｅ　ｃｈｉｐ，ｔｈｅｒｅｆｏｒｅ　ｔｈｅ　ｃｏｍｐｕｔｉｎｇ　ｃａｐａｃｉｔｙ　ｏｆ　Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓ　ｉｎｇ　Ｕｎｉｔｓ（ＧＰＵｓ）ｉｓ　ｉｍｐｒｏｖｅｄ　ｄｒａｍａｔｉｃａｌｌｙ．Ｔｈｅｒｅ　ｈａｓ　ｂｅｅｎ　ａ　ｇｒｏｗｉｎｇ　ａｔｔｅｎｔｉｏｎ　ｉｎ　ｕｓｉｎｇ　ＧＰＵ　ｈａｒｄｗａｒｅ　ｔＯ　ａｃｃｅｌｅｒａｔｅ　ｎｏｎ－　ｇｒａｐｈｉｃｓ　ａｐｐｌｉｃａｔｉｏｎｓ，ｅｓｐｅｃｉａｌｌｙ　ｉｎ　ｓｃｉｅｎｔｉｆｉｃ　ｃｏｍｐｕｔｉｎｇ　ｐｒｏ—　ｇｒａｍｓ．ＧＰＵ　Ｓ　ｄｅｖｅｌｏｐｍｅｎｔ　ｄｒａｗｓ　ｍｏｒｅ　ａｔｔｅｎｔｉｏｎ　ｏｎ　ｉｔｓ　ｅｎ—　ｅｒｇｙ　ｃｏｎｓｕｍｐｔｉｏｎ．ＧＰＵ’Ｓ　ｈｉｇｈ　ｅｎｅｒｇｙ　ｃｏｎｓｕｍｐｔｉｏｎ　ｎｏｔ　ｏｎｌｙ　ｉｎｃｒｅａｓｅｓ　ｔｈｅ　ｃｏｍｐｕｔａｔｉｏｎａｌ　ｃｏｓｔ，ｂｕｔ　ａｌｓｏ　ｄｅｇｒａｄｅｓ　ｔｈｅ　ｃｈｉｐ’Ｓ　ｒｅｌｉａｂｉｌｉｔｙ，ｗｈｉｃｈ　ｉｓ　ｎｏｔ　ｔｏｌｅｒａｎｔ　ｆｏｒ　ｓｃｉｅｎｔｉｆｉｃ　ｃｏｍｐｕｔｉｎｇ．　Ｍｏｒｅｏｖｅｒ．ＧＰＵ’Ｓ　ｐｒｏｍｉｓｉｎｇ　ｐｅｒｓｐｅｃｔｉｖｅ　ｉｎ　ｍｏｂｉｌｅ　ｔｅｒｍｉｎａｌｓ　ａｎｄ　ｅｍｂｅｄｄｅｄ　ｄｅｖｉｃｅｓ　ｄｅｍａｎｄ　ｉｔｓ　ｌｏｗ　ｐｏｗｅｒ　ｓｔｕｄｙ　ｅａｇｅｒｌｙ．　ＧＰＵ’Ｓ　ｌＯＷ　ｐｏｗｅｒ　ｒｅｓｅａｒｃｈ　ｓｔｉｌ１　ｓｔａｎｄｓ　ｉｎ　ｉｔｓ　ｉｎｉｔｉａ１　ｓｔａｔｅ．Ｔｈｅ　ｍａｊｏｒ　ｒｅａｓｏｎ　ｉｓ　ｔｈｅ　ｌａｃｋ　ｏｆ　ｐｒｅｃｉｓｅ　ａｎａｌｙｓｉｓ　ｏｆ　ＧＰＵ　ｐｒｏｇｒａｍ’Ｓ　ｅｘｅｃｕｔｉｏｎ，ａｎｄ　ｔｈｕｓ　ｔｈｅ　ｆｒｅｑｕｅｎｃｙ／ｖｏ１ｔａｇｅ　ｃａｎｎｏｔ　ｂｅ　ｓｃａｌｅｄ　ａｃｃｏｒｄｉｎｇｌｙ．Ｏｎ　ｔｈｅ　ｏｔｈｅｒ　ｈａｎｄ，ｍｏｓｔ　ｔｒａｄｉ—　ｏｐｅｒａｔｉｎｇ　ｓｙｓｔｅｍ．　ＴＡＮＧ　Ｔａｏ。ｂｏｒｎ　ｉｎ　１　９８，ｉ，Ｐｈ．Ｄ．ｃａｎｄｉｄａｔｅ．Ｈｉｓ　ｒｅ－　ｓｅａｒｃｈ　ｉｎｔｅｒｅｓｔｓ　ｉｎｃｌｕｄｅ　ｈｉｇｈ　ｐｅｒｆｏｒｍａｎｃｅ　ｃｏｍｐｕｔｉｎｇ　ａｎｄ　ｌｏｗ　ｐｏｗｅｒ　ｏｐｔｉｍｉｚａｔｉｏｎ．　ＷＡＮＧ　Ｇｕｉ—Ｂｉｎ，ｂｏｒｎ　ｉｎ　１９８１。Ｐｈ．Ｄ．ｃａｎｄｉｄａｔｅ．Ｈｉｓ　ｒｅｓｅａｒｃｈ　ｉｎｔｅｒｅｓｔｓ　ｉｎｃｌｕｄｅ　ｈｉｇｈ　ｐｅｒｆｏｒｍａｎｃｅ　ｃｏｍｐｕｔｉｎｇ　ａｎｄ　ｌｏｗ　ｐｏｗｅｒ　ｏｐｔｉｍｉｚａｔｉｏｎ．　ＸＵ　Ｘｉｎ．Ｈａｉ，ｂｏｒｎ　ｉｎ　１９８４，Ｐｈ．Ｄ．ｃａｎｄｉｄａｔｅ．Ｈｉｓ　ｒｅ－　ｓｅａｒｃｈ　ｉｎｔｅｒｅｓｔｓ　ｉｎｃｌｕｄｅ　ｈｉｇｈ　ｐｅｒｆｏｒｍａｎｃｅ　ｃｏｍｐｕｔｉｎｇ　ａｎｄ　ｆａｕｌｔ　ｔｏｌｅｒａｎｃｅ　ｔｅｃｈｎｏｌｏｇｙ．　ｔｉｏｎａｌ　ｐｏｗｅｒ　ｏｐｔｉｍｉｚａｔｉｏｎ　ｔｅｃｈｎｏｌｏｇｉｅｓ　ｉｇｎｏｒｅ　ｔｈｅ　ｍｅｍｏｒｙ’Ｓ　ｅｎｅｒｇｙ　ｃｏｎｓｕｍｐｔｉｏｎ，ｗｈｉｃｈ　ｉｓ　ｎｏｔ　ｎｅｇｌｅｅｔａｂｌｅ　ｉｎ　ＧＰＵ　ｂｅ—　ｃａｕｓｅ　ｔｙｐｉｃａｌｌｙ　ａ　ｌａｒｇｅ　ＤＲＡＭ　ｉｓ　ｉｎｔｅｇｒａｔｅｄ　ｉｎｔｏ　ｔｈｅ　ｓｙｓｔｅｍ　ｗｉｔｈ　ｔｈｅ　ＧＰＵ　ｐｒｏｃｅｓｓｏｒ．　Ａｉｍｅｄ　ａｔ　ｔｈｉｓ　ｐｒｏｂｌｅｍ，ｔｈｉｓ　ｐａｐｅｒ　ｓｔｕｄｉｅｓ　ｔｈｅ　ＩＯＷ　ｐｏｗｅｒ　ｏｐｔｉｍｉｚａｔｉｏｎ　ｆｏｒ　ＧＰＵ．Ｔｈｅ　ａｕｔｈｏｒｓ　ｃｏｎｓｉｄｅｒ　ｔｈｅ　ｐｒｏｃｅｓｓｏｒ　ａｎｄ　ｔｈｅ　ｍｅｍｏｒｙ　ｓｙｎｔｈｅｔｉｃａｌｌｙ．Ｉｎ　ｏｒｄｅｒ　ｔｏ　ａｎａｌｙｚｅ　ｔｈｅ　ｐｒｏ—　ｇｒａｍ’Ｓ　ｂｅｈａｖｉｏｒ　ａｎｄ　ｒｅｓｔｒｉｃｔ　ｔｈｅ　ｐｅｒｆｏｒｍａｎｃｅ　ｗｈｅｎ　ｓｅａｌｉｎｇ　ｔｈｅ　ｆｒｅｑｕｅｎｃｙ／ｖｏ１ｔａｇｅ，ｏｕｒ　ｍｅｔｈｏｄ　ｉｓ　ｂａｓｅｄ　ｏｎ　ａｎ　ａｎａｌｙｔｉｃａｌ　ｐｅｒｆｏｒｍａｎｃｅ　ｍｏｄｅｌ　ｏｆ　ＧＰＵ　ｐｒｏｐｏｓｅｄ　ｂｙ　Ｓｕｎｐｙｏ　Ｈｏｎｇ　ａｎｄ　Ｈｙｅｓｏｏｎ　Ｋｉｍ　ｉｎ　ＩＳＣＡ　２００９．Ｔｈｅ　ｍｏｄｅｌ　ｅｖａｌｕａｔｅｓ　ｔｈｅ　ｐａｒａｌ—　ｌｅｌｉｓｍ　ｏｆ　ｃｏｍｐｕｔａｔｉｏｎ　ａｎｄ　ｍｅｍｏｒｙ　ａｃｃｅｓｓ，ａｎｄ　ａｎａｌｙｚｅｓ　ｔｈｅ　ｒｅｌａｔｉｏｎｓｈｉｐ　ｂｅｔｗｅｅｎ　ｔｈｅｓｅ　ｔＷＯ　ｐａｒｔｓ　ｏｆ　ｅｘｅｃｕｔｉｏｎ　ｔｉｍｅ．　Ｂａｓｅｄ　ｏｎ　ｔｈｅ　ａｎａｌｙｓｉｓ，ｏｕｒ　ｍｏｄｅｌ　ｓｃａｌｅｓ　ｔｈｅ　ｆｒｅｑｕｅｎｃｙ／ｖｏｌｔ—　ａｇｅ　ａｃｃｏｒｄｉｎｇ　ｔＯ　ｔｈｅ　ｐｒｏｇｒａｍ’Ｓ　ｂｅｈａｖｉｏｒ　ａｎｄ　ｃａｎ　ｒｅｄｕｃｅ　ｔｈｅ　ｅｎｅｒｇｙ　ｃｏｎｓｕｍｐｔｉｏｎ　ｅｆｆｉｃｉｅｎｔｌｙ．　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文