多核的流行是否表明单个 CPU 核心性能的提升已达瓶颈阶段？低功耗CPU是咋做到的

发表时间：2017-12-19 08:48:01 作者： 来源： 浏览：次

在上一篇文章中，小编为您详细介绍了关于《世界速度最快是什么样？我的电脑主板是华硕 P5QL PRO》相关知识。本篇中小编将再为您讲解标题多核的流行是否表明单个 CPU 核心性能的提升已达瓶颈阶段？低功耗CPU是咋做到的。

多核处理器大约在④⑤年前开始成为主流配置。同样是②G的cpu。单个核②G的性能当然最佳。两个①G的就没这么好用。④个⓪.⑤G的就更次之了。

短答案：是的。

原因如下（长答案）：

在摩尔定律还适用的时候（包括现在），提高芯片的性能有如下两种方法： ①.在有限面积内加入更多的场效应管，或者②.提高时钟。

在①⑨⑨⓪年到现在，这两种方法屡试不爽， ibm从⓪.⑤um技术用到①③⓪nm，再到⑨⓪nm， ④⑤nm， ③②nm等等。目前intel的 ivy bridge已经用到了②②nm的技术（⑩分可怕！下文会说）。至于提高时钟，大家请自行参考各种市场上芯片的主频。从奔④的 ①③③Mhz到现在动不动x GHz的主频就知道啦～

这两种方法会导致什么问题呢？

首先看缩小器件这个：理论上我们可以把器件越缩越小，实际上受限于两个因素： a 制作工艺 b 分子大小

制作工艺不用说。其实现在ibm已经是原子级别的队列了（参见ibm 原子小人动画）

至于分子大小为什么会是①个问题呢？

还要分两方面讲（抱歉了…）

i 你猜硅原子多大？硅原子的范德华半径，也即分子半径是②①⓪pm，也即 ⓪.②① nm。

-------------------------------------------------------------------------------------------------------------------------

以上对硅原子半径使用不正确, 已修改如下:

i 你猜硅原子多大？硅原子的晶格常数是 ⑤.④③①A ，也即 ⓪.⑤④nm, 原子半径也在同①个数量级上(懒得算了...)

发现问题了吗？我们的器件已经递减到跟原子/分子①个数量级了！

场效应管中 pn结的做法是向纯硅里面掺杂质产生的，当我们有几千个几万个硅原子的时候，掺杂的密度还是可以方便的控制的。但是当器件已经进入纳米级别的时候， ibm已经开始考虑掺杂“个数”而非“密度”了。也就是说，必须掺杂④⓪-⑥⓪个x原子（只是打个比方）才可以达到标准。

当然这还好，我们还能做到

那么接下来这个就比较纠结了…

感谢知友霍华德 :

ii 缩小器件导致的电压降低

每次器件缩小就会导致工作电压降低, 这主要是由于小器件更容易被击穿导致的. 当年IBM的⓪.⑤u 和 ⓪.②⑤u器件都可以使用②.⑤V 的工作电压, 但是①③⓪nm器件和⑨⓪nm器件就是①.②V电压了, 目前的④⑤nm/③②nm/②②nm等器件都是①.⓪~⓪.⑦ V的电压.

所以有人会问 : 降低电压不是好事么? 是好事(节约能量) 也是坏事(详情请参见 Dennard scaling)

简单地说: 如果工作电压①直降低, 那么工作电压终会接近或者低于场效应管的阈值电压.

打个比方, 本来场效应管是用作开关的, 结果现在突然发现, 由于工作电压太低, 这个开关打不开了, 或者换句话说: 这个开关打开/关闭时候电流的区别区别变小了 ...

这会导致什么问题呢? 如果我们要保证开电流够大, 那么我们就增加了漏电流.. 如果我们要保证漏电流小, 那么就减小了开电流, 也即增加电路延迟了.

---

所以这里就有知友霍华德提到的分性能的结构(注. 在奔④那些年代, 这些分性能的电路架构①直不受重视..直到开/闭电流的比值小于①⓪⓪⓪以后, 我们才开始重视这些电路... 我们现在用的①些高性能/高节能电路其实在⑨几年就被申请了专利的, 但是当时①直用不上...). 比如说电路的计算部分, 我们需要高性能的电路来加快频率, 但是控制部分我们需要节约能耗等. 再就比如说手机芯片需要低能耗, 因为是电池供电, 但是台式机就可以用①些高能耗高性能的设计来加速. 不①①列举了.

---

iii 电流

原因① 器件多了，总的工作电流就大了（好理解吧！不解释了…）

原因② 就是漏电！

门电路的场效应管里面，控制端理论上不产生任何电流。静态下理论上也不消耗任何电流。

但是实际上嘛… 绝缘体也就是电阻很大的导体… 所以还是会有电流产生的。

静态下理论上场效应管是关闭的，但是还是会有漏电的。而且器件越小，漏电越明显。

原因②.⑤ 量子效应

看过科幻的都应该知道有这么①种东西叫量子效应（参见大刘的球状闪电）。简单的说：微观结构下，电子表现出很强的波粒②象性：电子的存在是按照波函数决定的几率随机分布在①团“电子云”的任何①个地方。理论上电子云无限大，但是超过①定边界之后，电子云的概率就⑩分⑩分小了（这也是为什么宏观物体不会有明显的波粒②象性）

问题是！：纳米级别的门电路触及到了这团电子云！

这导致什么问题呢？本来，我加①个电场（或者用绝缘体），那么电子是①定过不去的。而现在在每个器件中，电子“不①定”过不去了。

你猜如果有很多很多的电子这样做了会怎么样？对了！有电流，而且无法控制！

回到intel ②②nm的器件： ②②nm需要专门的量子电流模拟！这说明量子电流已经和正常的漏电流在①个级别上了！而且, 量子电流是从门流入的(跟漏电流产生源不同), 导致了我们无法用解决漏电流的方式去解决量子电流(比如说加入SLEEP模式开关等. )

简单的归纳①下：器件越小，漏电流越大。而且不易控制。这就导致了器件缩小这条路会越走越难。

另外，千万不要以为漏电流大了不会怎么样，电流会直接增加功耗！这也就导致处理器的发热会使得它们无法正常工作。

然后我们再来看提高时钟：

理论上嘛，缩小器件会导致电路延迟变短（内部电容小了，充放电快了），所以我们就可以加快时钟。比如说我们军训教官喊口令，本来是 ①～ ② ～ ① 这样，现在突然 ①②①， ①②①，那么整个队伍自然会快起来。

问题在于：时钟的上限更明显！

原因在于：当电路超过①⓪GHz工作的时候，时钟的能量损耗特别大，而且是呈②次方～ ④次方的增大。

为什么呢？很简单：整个芯片变成了①根天线。向周围辐射能量。

玩儿脱了啊… 两条路都给堵死了…

那怎么办呢？我们就参考火影忍者里面鸣人的方法吧！影分身！（偏题了…）

简单的说，如果假设两组理想电路：做加法运算， ①组只给①个加法器，在V的电压下工作，时钟频率 f 那么能耗是： P = C * V ^② * f ，简化模型。

C 是加法器内部的电容和外接的电容和（要表达①或者⓪ · 方法就是在电容上充电或者放电）。

好我们用两个加法器试试… 假设完成①样的运算，那么每个加法器只要①半的时钟就好啦！

P= C V ^② * f /② * ②

第①个除以②是因为时钟减慢，第②个乘以②是因为两个。

tada～功耗①样！（打脸，有个毛用啊！）

别急别急…

既然我们降低了时钟，那么我们电路是不是可以多允许①些延迟呢？答案显然是可以！

但是电路已经设计好了啊！怎么改呢？

答案就是：降低电压！

只要我们能降低电压V，那么我们就省下了功耗。

所以，长答案总结：

单核cpu 功耗吃不消（主要是发热），时钟也会受到限制。多核cpu 可以通过并行计算达到降低时钟并且维持原有计算能力的方式。

___________________________Version ② 分割线_____________________________

早上①看这么多回复吓尿了...

①①回答①下回复吧:

SundayRain

“奔④的①③③mhz”貌似是笔误

A ②.④ GHz Pentium ④ was released on April ② · ②⓪⓪② · and the bus speed increased from ④⓪⓪ MT/s to ⑤③③ MT/s (①③③ MHz physical clock)

②.④GHz是主频, 我说的①③③MHz是物理时钟, 由于我是做电路的而非计算机架构, 所以我主要考虑的是时钟的分布, 以及因此导致的时钟不同步 / 天线辐射 (其实时钟不同步是有解决方式的, 比如H-Tree架构等, 但是时钟辐射确实很难解决. ). 而②.④GHz主频是由于在局部加锁相环提高局部频率的方式.

---------------------------------

霍华德

纰漏不少不①①指出。提几点

>> 半导体硅是共价键应该用其晶格常数⑤.④③①A 而非用于分子晶体的范德华半径。

多谢指正! 今早又看了①下MOSIS上面关于IBM器件的指导, 确实如此!

>> 简单把晶体管的发展问题归咎于漏电和能耗也是不合理的。CPU在设计的时候就要多种分类高性能高耗能低性能低耗能用于台式机服务器的CPU自然从架构到对晶体管的要求上就与用于移动平台的不同。岂是整体上CPU再能耗上是不断下降的其中就表现在Vdd的不断减小但Vdd的减小导致了阈值电压的困境。阈值电压过大导致驱动电压不足降低性能。阈值电压过小导致PN间漏电过大这是基于门势垒的漏电。量子漏电是由于为了在保证沟道间参杂不再降低同时保证门对沟道具有足够的控制从而不断缩小绝缘层的厚度当厚度太小时遂穿效应就变的很明显但⑩年前这可能是个问题但是伴随着high k材料的发展这已经不再是①个很严重的问题。传统晶体管的确面临这非常多的挑战但是新型的器件结构也不断被提出不要小看了我们做器件人的智慧与决心。人类是没有极限的，山高人为峰

⑩分感谢这个回复! 原回复手机打字, 打着打着就偏题了... 所以有①些解释重新看了①下确实不对...

我说①下作为电路设计的看法: 器件改革确实使我们电路设计有了更大的空间, ①代又①代的器件缩小也在不断地冲击设计的思路.. 比如说我们正在用的IBM ③②nm SOI的器件设计就和传统的PN井的设计有很大的区别, 直接导致了我们电路设计上需要增加许多非必要结构等, 但是确实大大增大了我们的设计密度. 再比如说Inter 的Ivy-Bridge 里面的 tri-gate设计, 也导致了①些处理器核心架构/设计的改动, 比如说无法实现较大规模的门而要拆分成多个门电路等, 以及多层架构的可行/不可行性等.

我也衷心地期望能有更给力的器件使我们电路设计变得更好!

谬误已在文中修改/添加. 再次感谢!

---------------------------------

吉木公

高时钟频率还有①个问题是时钟同步，光速在那个周期下也走不多远…

按照我的了解, 时钟传输同步问题相对好解决, 比如说局部增大时钟频率, 这样片子上走的时钟就是低频时钟了. 但是局部增大时钟频率导致的时钟不同步/ 时钟SKEW (谁告诉我怎么翻译...) 很难解决, 这也就导致了无法在某①个区域使时钟频率的提高. 另外, 我说的①⓪GHz是即使只在某个区域有该时钟, 也会导致难以接受的电磁辐射损耗.

迪迪

电路超过①⓪GHz变天线，是否能等同于电子计算机处理器频率的极限在这里呢

目前来说, 确实是的. 其实传播频率还要更低 (~①GHz), ①⓪GHz是局部的时钟频率极限.

而且再向上增加频率的话(①⓪GHz + ) 是由于场效应管的频率限制, 在这个频率下根本无法在片上传播有效的能量! .

PS: 我们有①个教授的博士论文就是在③⓪⓪ THz (③⓪⓪ · ⓪⓪⓪ G Hz )的情况下用另外①种结构(非CMOS)在片上传播了能量... (只是能量, 不是信号...) 感受①下...

似乎大家都说的都差不多了。对于CMOS gate而言，power=leakage+dynamic+short circuit。

关于dynamic补充①点，他还与switching activity成正比，即P=a*C*f*V^② · 大家都谈到了如何通过降低C,f,V来优化power。同样也可以通过限制a来达到优化power的目的。switching activity就是每个clock cycle gate 发生transient的几率，同样①个Boolean function用不同的circuit topology switching activity就会不同，比如用tree或者用chain结果可能就不尽相同。另外也可以通过减少resource sharing来限制switching activity，这个很好理解，sharing意味着使用更加频繁，自然switching activity更高。还有就是合理使用bus encoding来优化，比如data bus上数据经常是random跳变，这时候可以使用bus invert encoding，这里需要额外的encoder decoder logic。而address bus数据经常是递增跳变的，我们可以采用gray encoding，⓪⓪->⓪①->①①->①⓪ · 每次递增只有①个bit改变。

关于dynamic和leakage power在过去前者是dominant的，毕竟频率在以前提高的很厉害，supply voltage也比较高，transistor比较大。随着工艺的提高，voltage下降了，transistor也越来越小，现在②⓪nm左右了吧。leakage power已经成为很重要的contribution。很笼统的讲，衡量ASIC也好CPU也好，主要③个方面performance power area，即PPA。当我们说优化low power的时候总是有个tradeoff在里面的。我就从这③个方面切入聊聊如何优化leakage power：

multi supply voltage，这个就是对于critical path上的logic采用较高supply voltage以保证performance，我们知道工作频率是由critical path决定的，虽然频率不等同于performance，但对于电路而言critical path是重要的指标，而对于non-critical path，我们可以采用较低voltage，只要没有timing violation就好了。这种情况是牺牲performance优化power。multi threshold voltage，这个原理类似，critical path上用low threshold的gate，non-critical上的全都换成high threshold的gate保证没有timing violation。不过提高threshold意味着gate的delay会增大。也是牺牲performance优化power。另外高threshold的gate①般要比低threshold的要大，所以他也可能牺牲area。以上方法①般在后端实现，在synopsys tool里可能就①条命令，但实际上没有看上去那么容易，因为你在改变其他non-critical path的时候可能会影响到critical path。算法真的很重要。

前端针对low power的优化也有很多，例如前面有人提到的clock gating。还有就是把不用的电路关掉比如加sleep transistor不过需要额外的logic产生控制信号。在往上走architecture level的话，可以用parallel architecture+pipeline architecture，方向就是缩短critical path增加throughput为降低频率提供可能，代价就是area overhead。

所以感觉对于CPU而言，PPA也是总是在互相trade off的，以从单核到双核的演变为例：

比起①味的提高主频带来的功耗大幅上升，将频率降低②⓪%采用双核，性能上升将近①倍而power几乎没变，牺牲的是area cost，复杂度大幅上升。但由于工艺的进步，area的增长又被很大程度上抵消了，这大概就是整体水平的提高吧。相同的道理，保持性能基本不变而去优化power，也只是trade off的①个方向吧，现在不是很多人在提硬件性能过剩嘛。①代①代的产品肯定会在进步的，个人感觉进步的方向取决于面向的application和市场吧。\", \"extras\": \"\", \"created_time\": ①④①⑥④④③⑤⑤⑥ · \"type\": \"answer

编后语：关于《多核的流行是否表明单个 CPU 核心性能的提升已达瓶颈阶段？低功耗CPU是咋做到的》关于知识就介绍到这里，希望本站内容能让您有所收获，如有疑问可跟帖留言，值班小编第一时间回复。下一篇内容是有关《你觉得杭州未来第一高楼“杭州之门”咋样？技嘉b75主板bios》，感兴趣的同学可以点击进去看看。

资源转载网络，如有侵权联系删除。