先進封裝落后先進制程?這些場景更適合Chiplet
換道行駛,續(xù)命摩爾定律
一直以來,頭部廠商通過不斷提升制程工藝和擴大芯片面積推出算力更高的芯片產品。雖然GPU、CPU+FPGA等芯片已經對現有模型構成底層算力支撐,在應對生成式AI及大模型對算力基礎設施提出的新要求,都多少顯得有些捉襟見肘。
伴隨著摩爾定律逼近物理極限,制程升級和芯片面積擴大帶來的收益邊際遞減,架構創(chuàng)新或成為提升芯片算力另辟蹊徑的選擇。
Chiplet及先進封裝方案能夠彌補先進制程落后的劣勢,通過將來自不同生產廠商、不同制程工藝的芯片組件“混搭”,降低實現目標性能所需的成本。研究數據顯示,當5nm芯片的面積達到200㎜2以上,采用5Chiplet方案成本將低于單顆SoC,并將大幅降低因面積增加帶來的良率損失。
除了成本和良率端的優(yōu)勢,Chiplet技術帶來高速的Die to Die互連,使多顆計算芯粒得以集成在一顆芯片中,實現算力的大幅提升。
臺積電是Chiplet工藝的領軍者,目前其技術平臺下有CoWoS、InFO、SoIC三種封裝工藝。其中,早在2016年英偉達Tesla P100 AI數據中心GPU就已經應用CoWoS工藝,AMD的最新GPU、CPU也廣泛采用了該工藝。此外,三星、Intel等龍頭廠商亦推出了各自用于Chiplet的封裝技術,如三星I-Cube(2.5D封裝),X-Cube(3D封裝),英特爾EMIB(2.5D封裝),英特爾Foveros(3D封裝)。
不止在國際,近幾年Chiplet在中國大陸也非常火爆,特別是美國開始打壓中國半導體業(yè)以來。Chiplet既能減少先進制程用量,同時又能帶來先進制程的好處,這為國內芯片企業(yè)提供“換道行駛”的機會。
先進制程和先進封裝,孰更顯著?
在提升芯片性能方面,先進制程路線是通過縮小單個晶體管特征尺寸,在同等芯片面積(Die size)水平下,提升晶體管集成度(同等設計框架,芯片性能/算力與晶體管數目正相關);而先進封裝并不能改變單個晶體管尺寸,只能從系統(tǒng)效率提升的角度,一是讓CPU更靠近Memory,讓“算”更靠近“存”,提升每一次計算的算存效率。二是讓單個芯片封裝內集成更多的元件:信號傳輸速度排序,Wafer > IC substrate > PCB,元件在芯片內部的通訊效率比在板級上更高,從系統(tǒng)層面提升芯片性能。
在芯片輕薄化方面,在不犧牲芯片整體性能的前提下,先進制程能夠在算力和晶體管數目不變時,通過縮小單個晶體管特征尺寸,實現芯片面積(Die size)縮小;而先進封裝,因為封裝對晶體管尺寸無微縮的能力,只能通過更精細的材料、更致密的結構來實現輕薄化。比如,手機AP處理器的封裝多采用FCCSP的封裝形式,其結構包括一個CSP載板,而Fanout(TSMC與APPLE公司合作,APPLE公司的A系列芯片多采用InFO技術封裝,即Fannout)封裝,取消了CSP載板(CSP載板約0.3 mm厚度),封裝后的芯片更輕薄,對整機(手機)結構空間余量有重要提升。
在高性能和輕薄化兩個方向上,先進制程可以做到兼顧,而先進封裝則有取舍。比如,APPLE的A系列芯片,從A10升級到A11時,由16 nm工藝提升至10 nm工藝,芯片面積從125 mm2減小至88 mm2,而晶體管集成數則由33億顆增加至43億顆;A系列芯片從A13升級到A14時,晶圓工藝從7nm升級到5nm,芯片面積從98 mm2減小至88 mm2,而晶體管集成數則由85億顆增加至118億顆,做到了性能提升和輕薄化的兼顧。而先進封裝,要做到芯片性能提升,因為封裝對晶體管尺寸微縮沒有效果,提升性能一是增加芯片內部各元件的協(xié)作效率,二是往一個系統(tǒng)中堆疊更多的元件(本質上也是提升了系統(tǒng)內的晶體管數據),代價就是系統(tǒng)體積、面積更為龐大,即先進封裝提升性能的代價是犧牲輕薄,實現輕薄的代價是犧牲性能的提升。
在技術可獲得的前提下,提升芯片性能,先進制程升級是首選,先進封裝則錦上添花。通常我們可以見到的是,高性能、大算力的芯片,會考慮上先進封裝(2.5D、CoWoS等),但這些大算力芯片往往也同時采用的先進制程工藝,也就是說,先進封裝/Chiplet應用通常只出現在頂級的旗艦芯片的封裝方案選擇中,并不是一個普適性的大規(guī)模應用方案。
這些芯片都是在擁有先進制程的基礎上,為了進一步提升芯片性能,而采用了CoWoS這些2.5D先進封裝技術,說明了先進制程在工藝路線的選擇上是優(yōu)于先進封裝的,先進制程是升級芯片性能的首選,先進封裝則是錦上添花。
大功耗、高算力的場景,先進封裝/Chiplet有應用價值
在先進制程不可獲得的情況下,通過芯片堆疊(先進封轉/Chiplet)和計算架構重構,以維持產品性能。以APPLE的A系列芯片參數為例,A12、A10、A7芯片分別采用7 nm、14/16 nm(Samsung 14 nm、TSMC 16 nm)、28 nm制程。A系列的手機AP芯片,通常芯片面積(Die Size)在約100 mm2大小。在這100 mm2大小的芯片上, A12、A10、A7芯片分別集成了約69億、33億、10億顆晶體管。
下面,我們簡單進行算術換算,討論降制程如何維持芯片的算力。
如果芯片工藝從7 nm降至14 nm,A12芯片上7nm工藝集成69億顆晶體管,如果用14 nm工藝以試圖達到接近的算力,首先要保證晶體管數目與A12芯片一致,即~70億顆,且在未考慮制程提升對單個晶體管性能有顯著提升的背景下,14 nm工藝的芯片需要兩倍于7 nm工藝的面積,即~200 mm2;如果芯片工藝從7 nm降至28 nm,參考28 nm的A7芯片只集成了10億顆晶體管,如果要達到70億晶體管數目,則需要將芯片面積擴大至~700 mm2。
芯片面積越大,工藝良率越低,在實際制造中得到的單顆芯片的制造成本就越高,因此,在先進制程不可獲得的背景下,降制程而通過芯片堆疊的方式,的確可以一定程度減少算力劣勢,但是因為堆疊更多芯片,需要更大的IC載板、更多的Chiplet小芯片、更多的封裝材料,也導致因為制程落后帶來的功耗增大、體積/面積增加、成本的增加。
因此,比如,通過14 nm的兩顆芯片堆疊,去達到同樣晶體管數目的7 nm芯片性能;通過多顆28 nm的芯片堆疊,去達到14 nm芯片性能。此種堆疊方案在HPC(服務器、AI推理)、基站類大芯片領域可能有適用價值,但對于消費電子領域如手機AP芯片和可穿戴芯片,在其應用場景對空間體積有嚴苛約束的條件下,芯片堆疊則較難施展。
標準才是競賽的關鍵
去年3月,英特爾、AMD、ARM、微軟、谷歌、臺積電、三星、日月光等行業(yè)巨頭成立通用芯?;ミB(Universal Chiplet Interconnect Express,UCIe)產業(yè)聯盟,使Chiplet的標準化有力地向前邁進了一步。
然而,去年公布的UCIe 1.0標準仍不完善。從UCIe聯盟公布的白皮書來看,UCIe由三層協(xié)議構成,包括協(xié)議層、適配層和物理層。UCIe 1.0規(guī)范中選擇了成熟的PCIe和CXL互連總線標準,主要是針對協(xié)議層,但要使Chiplet做到真正實現互聯,不僅需要定義協(xié)議層,物理層的標準化同樣重要,這涉及到不同廠商在晶圓制造、先進封裝環(huán)節(jié)采用的技術工藝、技術路線,實現起來還需要一個過程,也需要相應標準的進一步推進與完善。
Chiplet技術的核心是生態(tài)之爭,競爭的焦點是標準。目前,Chiplet最大的局限在于整個生態(tài)系統(tǒng)還沒有建立完善,關鍵則要打通底層的技術標準。這些年隨著Chiplet概念的持續(xù)發(fā)酵,許多公司都產生了很多好的想法,但由于生態(tài)圈不成熟,尚無法落地。目前能落地多為邏輯芯片與內存的堆疊互聯,模擬芯片、MEMS、光電器件間的整合仍待探索。
不過,Chiplet從概念提出到產業(yè)推進,持續(xù)的時間還不久,很多技術標準需要完善,這也為中國企業(yè)切入Chiplet行業(yè),并發(fā)揮更大作用,提供了空間。目前不僅有越來越多中國企業(yè),如阿里巴巴、芯原股份、芯耀輝、芯動科技等,加入UCIe產業(yè)聯盟,中國的Chiplet技術標準也被制訂與發(fā)布出來。
去年12月,中國電子工業(yè)標準化技術協(xié)會發(fā)布國內首個《小芯片接口總線技術要求》團體標準(T/CESA 1248-2023),標準描述了CPU、GPU、人工智能芯片、網絡處理器和網絡交換芯片等應用場景的Chiplet技術要求。日前,中國Chiplet產業(yè)聯盟也發(fā)布了《芯粒互聯接口標準》,該標準為高速串口標準,基于國內封裝及基板供應鏈進行優(yōu)化。
從技術層面來看,國內企業(yè)在Chiplet上并不占優(yōu)勢。但中國是全球最大的電子信息產業(yè)制造基地,擁有廣闊的下游市場,能定義的應用場景極為豐富。以此為基礎,中國企業(yè)在Chiplet領域有著巨大的發(fā)展機會。而標準則是掌握住這個機會的關鍵一環(huán)。
