几家芯片制造商和无晶圆厂设计公司正在芯片工艺制程上互相竞争,开发 3nm 和 2nm 的下一个逻辑节点工艺与芯片,但将这些技术投入批量生产既昂贵又困难。
巨头之间的竞争提出新的问题,这些新节点投入量产究竟需要多长时间,为什么需要这些新的节点工艺。
迁移到下一个节点确实可以提升性能并减少功耗和面积(PPA),但这已不再是实现 PPA 的唯一方法。实际上,缩小特性对 PPA 的好处可能不如最小化系统间的数据移动多。由于设备是为特定应用而设计的,因此需要考虑的因素有许多,例如不同类型的高级封装、硬件和软件更紧密集成以及处理不同数据类型和功能的混合处理元件。
随着越来越多的设备连接在一起,越来越多可用程序的出现,我们看到数据呈指数级增长,还看到了完全不同的工作负载,随着数据和不同使用模型的不断发展,可以预计未来的工作负载会有更多变化。英特尔副总裁设计支持部总经理加里・巴顿(Gary Patton)在 SEMI 最近召开的先进半导体制造大会的一次主题演讲中表示:“这种数据演进正在推动硬件革命,对计算的需要也与以往不同。技术节点向前演进是绝对的,但这还不够,我们还需要解决系统级的异构集成,工艺技术设计的协同优化、软硬件之间的优化,更重要地,需要持续推动人工智能和新的计算技术。”
因此,尽管晶体管水平性能仍然是一个重要因素,但在从前沿来看,它只是众多因素中的一个,不过至少在可预见的未来里,这依然是最大的芯片制造商不愿意放弃或让步的竞争。三星最近披露了关于其即将推出 3nm 工艺的更多细节,该工艺基于下一代晶体管类型,称为全栅极(GAA)FET。本月,IBM 开发了一种基于 GAA-FET 的 2nm 芯片。另外,台积电正在开发 3nm 和 2nm,英特尔也在开发更先进的工艺,所有这些公司都在开发一种称之为纳米片 FET 的 GAA FET,其性能优于当今的 FinFET 晶体管,但也更难制造、更加昂贵。
图 1:平面晶体管与 FinFET 以及 GAA FET,来源:Lam Research
预计 3nm 的生产将于 2022 年中开始,2nm 的生产将在 2023 年或 2024 年之前完成,因此业界需要为这些技术做好准备。不过目前的情况令人疑惑,关于新节点和新功能的官方公告并不完全像它们看起来的那样。一方面,行业继续在不同的节点上使用传统的编号方案,但术语并没有真正反映出哪家公司领先,另一方面,芯片制造商在所谓的 3nm 节点上朝着不同的方向发展,并不是所有 3nm 技术都一样。
这样做的好处是每个新节点都是特定应用。在过去的几个工艺节点中,晶体管密度提升正在放缓,且性价比在不断下降,而且很少有公司能够负担得起仅基于最新节点的产品设计和制造能力。另一方面,开发这些工艺的成本飞涨,配备先进晶圆厂的成本也在飞速增长。如今,三星和台积电是仅有的两家能够制造 7nm 和 5nm 芯片的供应商。
此后,晶体管结构开始发生变化。三星和台积电正基于当今的 FinFET 生产 7nm 和 5nm 的芯片,三星将转向 3nm 的纳米片 FET,英特尔也在开发 GAA 技术,台积电计划将 FinFET 扩展到 3nm,然后在 2024 年左右迁移到 2nm 纳米片 FET。
IBM 也正在开发使用纳米片的芯片,但是该公司已经几年没有生产自己的芯片了,目前将其生产外包给三星。
逐渐混淆的工艺节点命名规则
近十年来集成电路行业一直试图跟上摩尔定律,力争每 18 到 24 个月芯片中的晶体管密度翻一番。晶体管就像芯片中的开关一样,由源极、漏极和栅极组成。在具体功能实现中,电子从源极流向漏极,并由栅极控制。有些芯片在同一个设备中有数十亿个晶体管。
尽管非常艰难,芯片制造商还是以 18 到 24 个月的周期推出了一种晶体管密度更高的新工艺技术,从而降低每个晶体管的成本。以这种节点节奏,芯片制造商将晶体管的规格扩展了 0.7 倍,从而使该行业在同等功率的情况下提供 40% 的性能提升和 50% 的面积缩减,这个公式催生了快而新且功能更丰富的芯片。
每一个节点都有一个数字标识。几年前,节点的命名基于一个关键晶体管指标,即栅极长度。“例如,基于 0.5 微米技术节点生产的晶体管,栅极长度就是 0.5 微米”,Lam Research 大学项目负责人 Nerissa Draeger 解释说。
随着时间的推进,栅极长度缩放速度变慢,并在某些时候,它与相应的节点名称并不匹配。Draeger 说:“多年来,技术节点的定义不断发展,现在被认为更像是一个世代的名字,而不是任何关键维度的衡量标准”,Draeger 说。
一段时间以来,节点名称已经成为纯粹的营销名称。例如,5nm 是当今最先进的工艺,但 5nm 的规格还没有达成一致,3nm、2nm 等也是如此,当供应商对节点使用不同的定义时,就更让人困惑了。英特尔正以 10nm 工艺生产芯片,这大致相当于台积电和三星的 7nm 工艺。
多年来,供应商或多或少地遵循国际半导体技术路线图(ITRS)定义晶体管微缩规格。2015 年,ITRS 的工作被叫停,业界只能自己定义规格。取而代之的是,IEEE 实施了设备和系统的国际路线图(IRDS),该路线图的重点是延续摩尔定律(More Moore)和超越摩尔定律(More Than Moore)。
Draeger 说:“不变的是,我们期望节点扩展能够带来更好设备性能,更高的电源效率和更少的制造成本。”
这并非易事,多年来,供应商一直使用传统的平面晶体管来开发芯片,但这一结构在 10 年前的 20nm 处就已经触礁。平面晶体管仍用于 28nm / 22nm 及以上的芯片制造,但业界需要一种新的解决方案,这也就是为什么英特尔在 2011 年推出了 22nm 的 FinFET,晶圆制造厂紧随其后推出了 16nm / 14nm 的 FinFET。在 FinFET 中,电流的控制是通过在 Fin 的三个边的每个边上实现一个栅极来完成的。
FinFET 使业界能够继续进行芯片微缩,但它们也更复杂、功能更小,导致设计成本不断攀升。根据 IBS 首席执行官汉德尔・琼斯(Handel Jones)的说法,设计一款“主流”7nm 芯片的成本为 2.17 亿美元,而设计一款 28nm 芯片的成本为 4000 万美元。在这种情况下,成本是在一项技术投产后的两年或两年以上后确定的。
7nm 及以下,静态泄漏再次成为问题,功率和性能效益也开始减少。现在,性能提升在 15%到 20%的范围内。
在制造方面,FinFET 需要更复杂的工艺、新材料和不同的设备。这反过来又会提高制造成本。”如果你把 45nm 和 5nm 进行比较,今天我们会看到晶圆成本增加了 5 倍。这是由于所需处理步骤增加所致”,TEL America 副总裁兼副总经理本・拉特萨克(Ben Rathsack)说。
随着时间的推移,拥有生产尖端芯片资源或能够看到其价值的公司越来越少。如今,GlobalFoundries、三星、中芯国际、台积电、UMC 和英特尔正在生产 16nm/14nm 的芯片 (英特尔称之为 22nm)。但只有三星和台积电有能力制造 7nm 和 5nm 的芯片。英特尔仍在开发 7nm 及更高版本,中芯国际也在开发 7nm。
从 FinFET 转向纳米片
在 3nm 及以下时,微缩变得更加困难。开发可靠且符合规范的低功耗芯片面临一些挑战。此外,IBS 的数据显示,开发主流 3nm 芯片设计的成本高达 5.9 亿美元,而 5nm 器件的成本为 4.16 亿美元。
在制造方面,代工厂的客户可以在 3nm 走两条不同的路,但同样要面临艰难的选择和各种权衡。
台积电计划通过缩小 5nm FinFET 的尺寸来将 FinFET 扩展到 3nm,尽可能实现无缝过渡。IBS 的琼斯说:“TSMC 计划在 2022 年第三季度为苹果公司提供 3nm FinFET 的量产,计划在 2023 年实现高性能计算。”
不过,这是一项短期策略。当鳍片宽度达到 5nm(等于 3nm 节点)时,FinFET 将接近实际极限。根据新的 IDRS 文件,3nm 节点相当于 16nm 至 18nm 的栅极长度,45nm 的栅极间距和 30nm 的金属间距。相比之下,5nm 节点相当于 18nm 至 20nm 的栅极长度,48nm 的栅极间距和 32nm 的金属间距。
一旦 FinFET 碰壁,芯片制造商将迁移到纳米片 FET。三星从一开始就采用 3nm 的纳米片 FET,根据 IBS 的数据,该产品定于 2022 年第四季度实现生产。
IBS 还称,台积电计划在 2024 年推出 2nm 的纳米片 FET。英特尔也在开发 GAA。多家无晶圆厂设计公司正在研究 3nm 和 2nm 器件,苹果等公司计划将该技术用于下一代器件。
纳米片 FET 是从 FinFET 进化而来的。在纳米片中,来自 FinFET 的鳍被放在其侧面,然后被分成单独的水平片。片与片之间形成通道。第一纳米片 FET 将可能具有 3 个左右的片,用一扇门包裹着所有的薄片或通道。
纳米片在结构的四个侧面上实现了栅极,比 FinFET 能够更好地控制电流。Leti 的高级集成工程师 Sylvain Barraud 说:“除了具有更好的栅极控制能力(与 FinFET 相比)以外,GAA 堆叠的纳米片 FET 还具有更高的有效沟道宽度,从而提供了更高的 DC 性能。”
相对于 FinFET,纳米片 FET 还具有其他优势。在 FinFET 中,器件的带宽被量化,这影响了设计的灵活性。在纳米片中,IC 供应商有能力改变晶体管中片的宽度。例如,具有更宽薄片的纳米片提供了更多的驱动电流和性能。窄的纳米片具有较小的驱动电流,但占用的面积较小。
“宽范围的可变纳米片宽度提供了更大的设计灵活性,对于 FinFET 来说由于鳍片数量不连续,更加灵活的设计性是不可能的。最后,由于使用不同的功函数金属,GAA 技术还提出了多种阈值电压特性”,Barraud 说。
首批 3nm 器件开始以早期测试芯片的形式出现,在最近的一次活动中,三星披露了基于 3nm 纳米片技术的 6T SRAM 的开发。这个设备解决了一个主要问题,SRAM 微缩了器件的面积,但同时也增加了位线(BL)电阻。作为响应,三星将自适应双 BL 和电池供电辅助电路集成到 SRAM 中。
三星研究员 Taejoong Song 在论文中说:“提出了一种全能的 SRAM 设计技术,该技术可以在功耗、性能和面积之外,更自由地提高 SRAM 容限。此外,提出了 SRAM 辅助方案来克服金属电阻,从而最大限度地提高了 GAA 器件的优势。”
同时,IBM 最近展示了一种处于测试阶段的 2nm 芯片。该器件基于纳米片 FET,可以集成多达 500 亿个晶体管,每个晶体管由三个纳米片组成,每个纳米片的宽度为 14nm,高度为 5nm。总的来说,该晶体管具有 44nm 的接触多晶硅间距和 12nm 的栅极长度。
IBM 仍在研发中,目标是在 2024 年推出该芯片。但在任何节点上,纳米片器件在投入生产之前都面临若干挑战。IBM 混合云研究副总裁 Mukesh Khare 说:“挑战的数量没有限制。我想说最大的挑战包括泄漏。如何降低功率?当薄板厚度为 5nm 且通道长度为 12nm 时,如何提高小尺寸的性能?如何在 2nm 内获得合理的 RC 效益?最后,芯片必须优于先前的节点。”
制造纳米片 FET 是困难的。“在全能门纳米片 / 纳米线中,我们必须在看不见的结构下进行处理,而在该结构下进行测量更具挑战性。这将是一个更加困难的过渡,”Lam Research 计算产品副总裁 David Fried 说。
在工艺流程中,纳米片 FET 首先在衬底上形成超晶格结构,外延工具在衬底上沉积硅锗(SiGe)和硅(Si)的交替层。
这需要极端的过程控制。“对每一对 Si / SiGe 的厚度和成分进行在线监测至关重要,这些参数是器件性能和量产良率的关键。”Bruker 产品营销总监 Lior Levin 说。“
下一步是在超晶格结构中开发微小的垂直鳍片。然后,形成内垫片,形成源极 / 漏极,接着进行沟道释放工艺。栅极被开发出来,形成纳米片 FET。
图 2:堆叠纳米片 FET 的工艺流程。资料来源:Leti / 半导体工程
晶体管微缩竞争之外,异构集成竞争同样激烈
晶体管微缩只是方程式的一部分。伴随晶体管未做竞争的持续,异构集成方面的竞争也同样激烈,许多最先进的架构不仅包含在单个制程节点上开发单片芯片,还包含许多处理元件,包括一些高度专用的元件和不同类型的存储器。
英特尔的巴顿说:“分布式计算正在推动另一个趋势,即越来越多特定领域的体系结构。我们看到的另一个趋势是从整体上分解出特定领域的体系结构,主要由人工智能驱动,并且为提高效率而量身定制。”
将复杂模块集成到一个封装中的先进封装方式正在发挥作用。“现在,封装创新开始在提高产品性能方面发挥更大的作用。”巴顿说。
“从一个节点到另一个节点的性能、功率和面积肯定涉及到更多因素,”Arm 公司技术副总裁兼专家 Peter Greenhalgh 说:“如果世界仅依靠晶圆厂来获得全部收益,您将非常失望。Arm 提供了一种 LEGO 设计。该乐高积木被添加到其他乐高积木中,以构建一个非常有趣的芯片。有许多昂贵的方法可以做到这一点,但也将在一定程度上实现商品化和协调化。”
向异构架构过渡的同时,还扩展了边缘范围,涵盖了从物联网设备到各种级别的服务器基础架构的所有方面,以及 Google、阿里巴巴、AWS 和 Apple 等系统公司将设计自己的硬件,以优化庞大数据中心内部特定数据流。这掀起了狂热的芯片设计活动,将定制和非定制硬件,非标准程序包以及各种方法(例如内存和近内存处理)结合在一起,这些方法过去从未获得过广泛的关注。它还着重于如何对处理进行分区,哪些组件和流程需要在微体系结构中确定优先级,以及基于特定异构设计的各种组件的最佳工艺节点是什么。
Greenhalgh 说:“视频加速就是一个很好的例子。如果您是一家云服务器公司,并且要进行大量的视频解码和编码,那么您就不想在 CPU 上这样做。您要在其中放置视频加速器。这是一个范式转变。”
因此,存有更多不同种类的处理器元件,还有一些扩展是现有处理器核心的开发。
Synopsys 的高级市场营销经理 Rich Collins 表示:“我们一直有能力通过添加自定义指令或连接自定义加速器扩展架构(用于 ARC 处理器)。现在的不同之处在于,越来越多的客户正在利用这一优势。人工智能是一个时髦的词,它意味着很多不同的东西,在这个术语后面,我们看到了很多变化,越来越多的公司在标准处理器上添加了神经网络引擎。”
这些变化不仅仅是技术上的,也需要芯片公司内部做成一些改变。从各种工程师团队的组成到公司本身的结构。
英飞凌汽车高级副总裁 Shawn Slusser 表示:“过去,你会发明一堆产品,将它们放在一堆数据手册中,然后人们会尝试找到它们。由于设备的复杂性和使用寿命,这种方法不再见效。现在,我们正在研究一种更像是半导体超级市场的模型。如果你想将现实世界与数字世界联系起来,那么一切都可以在同一个地方得到,包括产品、人员和专业知识。”
较大的公司一直在内部发展这种专业模式,这在苹果的 M1 芯片中很明显。M1 是使用台积电的 5nm 工艺开发的,它集成了 Arm V8 内核、GPU、自定义微体系结构、神经引擎和图像信号处理器,所有这些都集成在一个系统级封装中。尽管该设计的性能可能不如使用标准行业基准的其他芯片那样出色,但运行 Apple 应用程序的性能和功耗方面的改进显而易见。
根据行业估计,截至今天已有约 200 家公司正在开发或已经开发出加速器芯片,其中有多少能存活还不得而知,最终走向解体是不可避免的。在边缘,汽车、安全系统、机器人、AR / VR 甚至智能手机生成的数据太多,无法将所有数据发送到云端进行处理。它花费的时间太长,并且需要太多的功耗、内存和带宽。很多数据都需要进行预处理,硬件处理这些数据的优化程度越高,电池寿命就越长、功耗也就越低。
这就是为什么风险投资在过去几年中一直向硬件初创公司投入资金的原因。在接下来的 12 到 24 个月内,预计该领域投资将显著减少。
Flex Logix 首席执行官 Geoff Tate 表示:“合理推断,随着公司进入市场并与客户互动,这一窗口将开始关闭。在接下来的 12 个月中,投资者将开始获得真正的数据,看看哪种架构真正获胜。在过去的几年里,谁拥有最好的 PPT 是关键。客户将加速视为运行神经网络模型的必要条件,对于模型来说,它将运行多快,需要多少功率以及要花费多少成本? 他们将依据这些条件选出最适合自己比赛或符合条件的模型。”
设计也在云端发生变化。在云计算中,更快的处理以及准确确定处理地点的能力可能会对能效以及数据中心的容量产生重大影响。例如,不只是将 DRAM 连接到一颗芯片上,DRAM 还可以在许多服务器之间共享,从而使工作负载可以分布在更多计算机上。这不仅为负载平衡提供了更高的粒度,而且还提供了散热的方式,从而减少了对冷却的需求,并有助于延长服务器的使用寿命。
Rambus 资深研究员、发明家史蒂文・伍(Steven Woo)说:“其中一些数据中心中有成千上万台服务器,全球有数以万计的数据中心。现在,你得想办法将它们捆绑在一起。有一些新技术即将问世。一种是 DDR5,它具有更高的电源效率,更遥远一点的是 Compute Express Link(CXL)。长期以来,能够放入服务器的内存量是有限的,但现在由于能够在云中执行更多工作并租用虚拟机,工作负载的范围要大得多。CXL 使你能够在系统中拥有基本配置,还可以扩展可用的内存带宽和容量。因此,现在你可以突然支持比以前更大范围的工作负载。”
结论
争夺更加先进的几个制程节点的竞争仍在继续。剩下的问题是,当公司可以通过其他方式获得足够的收益时,哪些公司愿意花时间和金钱在这些节点上开发芯片。
不同市场的经济和动态正在迫使芯片制造商评估如何以最大的投资回报率来最好地应对市场机会,在某些情况下,这可能远远超出开发先进芯片的成本。实现不同目标有很多选择,到达同一目标的方法通常也不止一种。