【图片】转载：助力Nvidia Volta GV100的台积电“12nm”工艺制程介绍【amd吧】

助力Nvidia Volta GV100的台积电“12nm”工艺制程介绍
https://pc.watch.impress.co.jp/docs/column/kaigai/1092110.html
作为目前最强晶圆代工厂的台积电在10月24日到26日于美国苹果市举办的ARM 技术峰会2017（ARM Techcon 2017）中展示了自己极具前瞻性的工艺制程路线图。其中展示了台积电的一种特殊战略，即在传统的工艺节点之间插入中间节点作为过度。台积电的实际情况就是，在16nm和12nm之间插入10nm节点，在28nm和20/16nm之间插入22nm。虽然12nm和22nm来自不同类型，但都来派生于主要节点，比如12nm来自于16nm，22nm来自于28nm。

各家晶圆厂的线图

今年台积电的工艺制成技术展示，特意加上了12nm和22nm
台积电的12nm目前所知有三种规格：现在已经开始处于design in状态的12FFC，Nvidia定制版12FFN，以及低功率版的12ULP。采用12nm的12FFC相对于16nm的16FFC在核心面积上减少了20%。但在相同功耗条件下，性能却只有10%的提升，可以看作是能耗降低同时提高了频率此消彼长的结果。
台积电的12nm 12FFN制程用于Nvidia最新的GPU Volta的核心构架GV100上。GV100拥有210亿个晶体管，半精度浮点（FP16）的深度学习性能达到了210TFLOPS。而Volta的高性能源泉就是来自于台积电聚天地之精华的12nm工艺制程。
过去微型化的趋势变化
过去的工艺制程微缩化，是通过减少晶体管门电路之间的间隔（Gate Pitch，或称Contacted Poly Pitch）和减少最小金属布线间距（Minimum Metal Pitch），从而降低晶体管面积、或逻辑电路面积、或SRAM格栅面积（取决于用途）。但如今仅仅微缩CPP和MMP的规模逐渐难以获取足够的布线密度或SRAM密度。随着规模细微化的进步，虽然feature size进一步缩小，但实际上集成度并没有按照同等比例缩小。
所以，作为半导体必须寻找除了CPP或MMP这些所谓feature size以外的要素，进行优化从而提高集成度。其中的王牌就是被称为标准单元（standard cell）设计的革新，即Design-Technology Co-Optimization（DTCO）。

送TA礼物

IP属地:江苏

1楼2018-09-12 16:57回复

各厂工艺制程的feature size

标准单元于feature size的对照
在去年的ARM Techcon中在介绍DTCO的时候，也说了一些过去是笑话，如今也变成了选项之一的发想。比如，不能从激活的门电路上接触（contact）一个单元，所以必须配置没有有源器件（active device）的死区（dead space）。不过如今已经有了通过激活中的晶体管接触的方法，比如Intel采用了被称为“Contact Over Active Gate”的技术。通过该技术，减少了晶圆上的死区配置，虽说单元的尺寸进一步减少了，但制造的时候出现问题的可能性也高出了不少。
此外，通过缩小两个组件之间的间隔从而达到减少单元尺寸的技术也出现了，这是一种被称为Single Diffusion Break的技术，也是目前的焦点之一。所谓的Diffusion Break就是在相邻的源级（source gate）和漏级（drain gate）之间划出一道渠道用以分割晶体管。以往的技术是在两个dummy gate之间切出一条渠道，即“Double Diffusion Break”，而在三星更新的14nm工艺制程中，导入了一种叫做SDB（Single Diffusion Break）的技术，即在一个dummy gate中间切分分割渠道的技术。
以前在两个相邻的晶体管之间必须空出两个dummy gate的空间来，在应用了SDB的工艺制程中，只需要一个dummy gate就可以做到分离。SDB是在DRAM中广泛应用的掘渠技术，由这方面经验丰富的三星率先引入，其他厂商也很快就跟进了。
还有一些，比如以往只在标准单元的上下方配置电源布线（power lane），如今也出现了和标准单元重叠布线（overlap）的构架，如今也逐渐变成了主流。

IP属地:江苏

2楼2018-09-12 16:59

SDB技术示意图
标准单元规格缩小到6T（track）的12nm工艺制程
随着工艺制程技术的成熟，各晶圆厂也逐渐加大了更小单元高度库的开发，同时应用了更先进的电路设计，进一步微缩单元。单元库从9 track或7.5 track开始向6 track缩小，同时导入上文提到过的SDB技术，进一步缩小尺寸。

标准单元设计的单元高度变化

尺寸的变化
从这里开始因为市场战略等无聊的因素，接下来工艺节点的命名开始变成了数字游戏。结果就是本来只是以16nm工艺制程技术为基础，通过导入了较小的标准单元，就这样“完成”了自称12nm的工艺制程技术。当然这个“12nm”本身也对自身技术有所改进，多少提高了集成度，是一种可以容纳更多晶体管单元的构架。
具体的如上文已经阐述过的，台积电提供的16FF/16FF+采用的是9T和7.5T的标准单元库设计（晶圆厂提供技术指标，然后由芯片设计厂自己来设计），而16FFC采用的是7.5T标准单元库设计，在12FFC中，进化到了6T库设计。另外在16FF+中仅在GPU中采用的SDB，在12FFC中也成为了标准配置。
这种采用更低高度的标准单元之所以变成后来工艺制程技术的主流主要是随着工艺制程技术的改良单位鳍片（fin）的电流驱动强度。随着单位fin的电流驱动能力提升，相同fin数之下性能就会提升，这样可以在保持性能的前提下减少fin的数量。这样才能降低单元的高度，采用低高度标准单元的构架。

IP属地:江苏

3楼2018-09-12 17:01

目前16nm/14nm之下标准单元track于fin数量的关系
另一个方面SDB这样的技术也和工艺制程成熟度有关系。总的来，类似DTCO这种的技术说对于代工厂的宗旨“设计服务于制造”的理念相悖。等待工艺的成熟和安定，那么新的设计也更容易实现。
除了采用了微缩标准单元设计架构外，基本没什么长进的“12nm”技术
如上文所述，通过改良标准单元设计集的单元高度和采用新架构的方式，台积电缩小了标准单元设计集的平均高度，实质上提升了集成度。12FFC对比起16FFC还是有10%的面积缩小，同时当然还有能耗降低，性能上升这些老生常谈的废话了。不过这些提升基本上都是优化单元高度设计和构架的效果。
换句话说除了标准单元的设计变化外，16FFC和12FFC基本上没什么区别。“到底用什么基准来比较合适呢，我觉得如果以标准设计库中的单位track性能来比较的话，可以说两者基本没区别”Arm的Kelvin Low评论道。
台积电可能是觉得单纯在16nm中采用6T的标准单元库设计就可以提高集成度，换算成工艺制程节点差不多就12nm左右吧就你了，基于这种考虑，就直接冠名了12nm。顺着这种神奇的逻辑，16FFC换成14FFC也不错。那个时候，各厂的市场部门还未想到工艺节点的数字游戏玩法。
随着台积电这种采用6T库设计就直接宣称为12nm的行为，其他晶圆厂纷纷不甘示弱。GF：14nm=>12nm，三星：14nm=>11nm，10nm=>8nm，各厂市场部最强大的数字游戏战士在战场上呼风唤雨。不过台积电仍然是其中的佼佼者，直接将28nm的物联网向工艺制程明明为22nm拿出来卖。事到如今，工艺制程节点命名的混乱已经无法收拾了。

对GPU好处很多的6T “12nm”
当然，小型化标准单元是一种折中方案。单元高度较低，同时也代表性能没那么好。基于这一点，6T设计通常难以用于频率很高的CPU工艺制程，同时SDB技术也不能说对性能没影响。
晶圆厂的6T库设计听起来好像是又小又好，实际上有很多需要慎重考虑的地方。首当其初的自然是性能会降低，单元高度越低性能越差，这是理所当然的。Kelvin Low。
不过对于GPU这种并不追求频率，而追求ALU的密度来说，越小的标准单元越好。将单元体积压缩到极限，安装尽可能多的alu，可以获得巨大的并行性能。这也是为什么Nvidia Volta构架的GV100要采用台积电的12nm 12FFN制程了。顺便说下12FFN是Nvidia的专属定制制程，Nvidia以外的叫12FFC。
NV的Volta构架中继承了巨大数量的FP16运算单元Tensor core。其结果就是在深度学习常用的FP16性能达到了惊人的120TFLOPS。GV100的核心面积有惊人的815mm2。这个性能这个面积，采用以前的库设计是很难达到的。

IP属地:江苏

4楼2018-09-12 17:02

这么看来之所以Volta拥有如此惊人的深度学习性能，基本上就是受益于台积电的所谓“12nm”工艺制程的成果。能想到的不仅仅是nvidia，其相爱相杀的友商AMD也有同样的想法。这样一来AMD的好基友GF这么积极的推出12nm也是情理之中的事情。具体情况尚不明良，不过GF的12nm和台积电的12nm据推测也是差不多的东西。
AMD的情况有点复杂，因为它有CPU和GPU统合在一起的APU处理器，这个6T设计是否也能用于CPU上呢，我们持目以待，如果不适合CPU，可能在APU中同时应用两种制程也不是不可能，CPU接着用7.5T，GPU用6T。实际在以往的APU中，GPU的面积一直都比CPU大一些，那么采用6T单元获得的好处要多一些。