打通“最后七公里”,存算一體成為中國(guó)自動(dòng)駕駛芯片“成熟”的關(guān)鍵
關(guān)鍵詞: 人工智能 芯片 自動(dòng)駕駛
ChatGPT大熱,生成式大模型已無(wú)限趨向通用智能,這也就意味著AI應(yīng)用將會(huì)進(jìn)入到2.0時(shí)代。所謂AI 2.0時(shí)代,即由AI將由很多小模型提供的弱AI,演進(jìn)為由大模型提供的通用智能強(qiáng)AI,這勢(shì)必會(huì)帶來(lái)眾多應(yīng)用場(chǎng)景的集體爆發(fā)。
業(yè)內(nèi)人士認(rèn)為,爆發(fā)將主要來(lái)于:一是來(lái)自于替代,原先很多有小模型提供的弱AI的場(chǎng)景將會(huì)由通用智能來(lái)替代;二是將催生新的AI應(yīng)用場(chǎng)景,并產(chǎn)生新的服務(wù)和產(chǎn)品形態(tài)。
這些未來(lái)應(yīng)用場(chǎng)景的爆發(fā),對(duì)AI算力芯片是一個(gè)新挑戰(zhàn),要有更大的算力以及更高的能效比。由此,億鑄智能副總裁徐芳認(rèn)為:存算一體的大算力芯片將是中國(guó)AI芯片“換道”超車的機(jī)會(huì)。
存算一體AI芯片或?qū)⒊蔀樽詣?dòng)駕駛算力終極解決方案
ChatGPT的火爆預(yù)示了自動(dòng)駕駛的發(fā)展方向:大模型和高算力。Transformer這類神經(jīng)網(wǎng)絡(luò)大模型,模型運(yùn)算量平均每?jī)赡陼?huì)翻750倍;視頻、自然語(yǔ)言處理和語(yǔ)音模型,模型運(yùn)算量平均每?jī)赡攴?5倍。可以預(yù)見,摩爾定律將面臨失效,同時(shí) "存儲(chǔ)墻”和"功耗墻” 將成為AI芯片發(fā)展的關(guān)鍵制約因素。
目前,大部分傳統(tǒng)的計(jì)算架構(gòu)是馮諾依曼架構(gòu),優(yōu)點(diǎn)是非常靈活,但面對(duì)AI遇到的問題是出現(xiàn)算力瓶頸,同時(shí)存在大型數(shù)據(jù)搬運(yùn),所以帶來(lái)很大的功耗消耗。
存算一體技術(shù)有望解決大算力與低功耗的矛盾。存算一體,是指在存儲(chǔ)器中對(duì)數(shù)據(jù)進(jìn)行運(yùn)算,從而避免數(shù)據(jù)搬運(yùn)產(chǎn)生的"存儲(chǔ)墻”和"功耗墻”, 極大提高數(shù)據(jù)的并行度和能量效率。
在汽車領(lǐng)域,高等級(jí)自動(dòng)駕駛汽車某種意義上將成為行走的超算中心,車端算力正不斷拔高到1000TOPS以上。云端計(jì)算電力充足,并可以通過冷卻系統(tǒng)制冷,但是在汽車端是通過電池供電有限,同時(shí)面臨著液冷散熱、成本方面等問題。
存算一體 AI 芯片,將為車企提供一個(gè)全新的技術(shù)路徑選擇。
在自動(dòng)駕駛 SoC 領(lǐng)域,后摩智能是國(guó)內(nèi)首家存算一體自動(dòng)駕駛 AI 芯片廠商,其在2022年成功點(diǎn)亮了業(yè)內(nèi)第一款存算一體大算力AI芯片,并跑通智能駕駛算法模型。這款驗(yàn)證樣片采用22nm工藝制程,算力達(dá)20TOPS,可擴(kuò)展至200TOPS,尤其是計(jì)算單元能效比高達(dá)20TOPS/W。
當(dāng)前,國(guó)內(nèi)AI大算力芯片有兩個(gè)主要技術(shù)方向,一就是ASIC架構(gòu),采用該架構(gòu)的公司包括了寒武紀(jì)、華為、黑芝麻,地平線等;另一個(gè)就是GP GPU架構(gòu),就是英偉達(dá)所主導(dǎo)的GP GPU路線。這兩個(gè)架構(gòu),存與算是分離的。她從技術(shù)層面解釋說(shuō),“就技術(shù)本身而言,存算分離的架構(gòu)下,85~90%的芯片空間,是用于數(shù)據(jù)搬運(yùn),而不是用來(lái)進(jìn)行數(shù)據(jù)的計(jì)算。也就是先要把數(shù)據(jù)從存儲(chǔ)的結(jié)構(gòu)里面要搬到計(jì)算單元,而且是每計(jì)算一次就要搬運(yùn)一次,最后計(jì)算的結(jié)果,又送回至存儲(chǔ)的結(jié)構(gòu)中。如此往復(fù),這種架構(gòu),顯而易見,對(duì)能源的消耗和計(jì)算效率的影響非常大?!?/span>
當(dāng)然,徐芳副總裁也認(rèn)為,“并不能用零和博弈的方式看所有的技術(shù),每一種技術(shù)都有它的價(jià)值, ASIC、GP GPU以及存算一體的技術(shù),各有所長(zhǎng),如果能競(jìng)合得當(dāng),可實(shí)現(xiàn)相得益彰?!?/span>
但就面向未來(lái)而言,徐芳副總裁指出,從能效比、對(duì)先進(jìn)工藝制程的依賴、以及算力的發(fā)展空間這三方面來(lái)看,AI算力芯片中,存算一體的計(jì)算架構(gòu)無(wú)疑會(huì)有更大更好的機(jī)會(huì)。據(jù)了解,業(yè)內(nèi)頭部企業(yè)也提出了類似的方案,AMD在今年初,提出了存內(nèi)計(jì)算;三星也認(rèn)為,存儲(chǔ)器在人工智能服務(wù)器中的重要性將會(huì)超過英偉達(dá)的GPU。
她強(qiáng)調(diào),“AI算力芯片,除了有較高的能效比之外,還需要更好的性價(jià)比并兼顧通用性,此外,在中國(guó)AI大算力芯片發(fā)展,還要能夠解決先進(jìn)工藝依賴這一外部問題?!?/span>
徐芳副總裁進(jìn)而指出,“存算一體的技術(shù)架構(gòu),其優(yōu)勢(shì)在于既能夠用傳統(tǒng)的CMOS工藝,又能夠快速實(shí)現(xiàn)量產(chǎn),進(jìn)而突破AI芯片的算力困境?!币彩菑倪@里來(lái)觀察,存算一體的大算力芯片也將是中國(guó)在算力芯片領(lǐng)域換道超車的機(jī)會(huì)。
存算一體芯片“最后七公里”
盡管存算一體在技術(shù)層面能夠支撐芯片產(chǎn)業(yè)出現(xiàn)新機(jī)會(huì),但要真正創(chuàng)業(yè)做新業(yè)務(wù)卻沒有那么容易。在吳強(qiáng)看來(lái),存算一體還有“最后七公里”要走。
“學(xué)術(shù)上實(shí)現(xiàn)的是從無(wú)到有的過程,但要應(yīng)用在商業(yè),還需要先補(bǔ)齊技術(shù)的可實(shí)現(xiàn)性這兩公里,再補(bǔ)上應(yīng)用到具體場(chǎng)景的工程性問題這五公里?!?/span>
具體而言,在這款芯片的定義、設(shè)計(jì)過程中,也經(jīng)過了不少討論和取舍。
例如,存算一體技術(shù)依托的存儲(chǔ)類型非常豐富,包括以SRAM、DRAM為代表的易失性存儲(chǔ)器,以Flash為代表的非易失性存儲(chǔ)器,還有以MRAM和RRAM為代表的新型非易失性存儲(chǔ)器。后摩當(dāng)前選擇了制作工藝更為成熟的SRAM。
又如,從電路技術(shù)來(lái)看,存內(nèi)計(jì)算有數(shù)字計(jì)算和模擬計(jì)算兩種,后摩首先選擇了運(yùn)算精度更高、可靠性更好的數(shù)字存算。
但對(duì)吳強(qiáng)來(lái)說(shuō),這都是綜合市場(chǎng)需求和技術(shù)可行性之后的更優(yōu)選擇,后摩當(dāng)下戰(zhàn)略聚焦于智能駕駛芯片,更大的有效算力、更高的可靠性都是為目標(biāo)芯片服務(wù)的。
只不過,摸著石頭過河,確實(shí)要面臨比同行更多的挑戰(zhàn)。
比如在電路的仿真驗(yàn)證中,一般用EDA軟件進(jìn)行在線的設(shè)計(jì),而后用可編程的FPGA進(jìn)行電路設(shè)計(jì)的驗(yàn)證。但是,后摩智能的芯片設(shè)計(jì)規(guī)模已經(jīng)超過了市面上任何一個(gè)可以找到的FPGA,要怎么做芯片驗(yàn)證呢?
后摩智能想到把芯片的不同功能進(jìn)行切割,在不同的FPGA上進(jìn)行驗(yàn)證。關(guān)于如何把芯片做合理的剪裁以適應(yīng)部分的驗(yàn)證,后摩團(tuán)隊(duì)反復(fù)討論、多次嘗試,最終找到了最恰當(dāng)?shù)姆椒ā?/span>
最終,后摩智能交上了鴻途H30這份答卷,相比業(yè)界先進(jìn)的7nm工藝,后摩采用了更成熟的12nm工藝,但功耗比前者減少了50%,性能有兩倍以上的提升。
經(jīng)緯創(chuàng)投投資董事童倜認(rèn)為,除了存算一體技術(shù)上有巨大的優(yōu)勢(shì)之外,“后摩團(tuán)隊(duì)的優(yōu)勢(shì)還在于團(tuán)隊(duì)的人員構(gòu)成非常完善,在很早就擁有了存算一體相關(guān)領(lǐng)域的學(xué)術(shù)專家、曾經(jīng)量產(chǎn)過大算力AI芯片的人,和設(shè)計(jì)過車規(guī)芯片的人”。
在童倜看來(lái),尤為難得的是,在創(chuàng)立之初,后摩團(tuán)隊(duì)就已經(jīng)對(duì)所在的賽道、市場(chǎng)需求有了清醒的認(rèn)知,也對(duì)整個(gè)芯片研發(fā)及企業(yè)經(jīng)營(yíng)中可能會(huì)遇到的問題有了一定的預(yù)期和規(guī)劃。
這或許要?dú)w功于吳強(qiáng)及后摩團(tuán)隊(duì)過往在芯片行業(yè)豐富的從業(yè)經(jīng)驗(yàn),有十年以上芯片行業(yè)的工作經(jīng)驗(yàn)的研發(fā)人員占比很高,經(jīng)歷過車規(guī)芯片量產(chǎn)和導(dǎo)入的初創(chuàng)企業(yè)奮斗全過程的員工也不在少數(shù),他們能夠深刻理解研發(fā)組織、客戶溝通等的重要性。
未來(lái),芯片將成為大型主機(jī)廠重要投資方向
主機(jī)廠造芯這個(gè)問題爭(zhēng)議極大,業(yè)內(nèi)普遍認(rèn)為,一方面主機(jī)廠無(wú)法與專業(yè)IC設(shè)計(jì)公司比拼開發(fā)速度、效率、產(chǎn)品性能等,另一方面單顆芯片至少應(yīng)有百萬(wàn)量級(jí)的出貨量才能不斷攤薄開發(fā)成本,以具備性價(jià)比。
但實(shí)際上芯片對(duì)于智能網(wǎng)聯(lián)新能源汽車,無(wú)論是性能、成本、還是供應(yīng)鏈安全,都已占據(jù)了絕對(duì)的主導(dǎo)地位,傳統(tǒng)燃油車芯片需求量一般在700-800顆/輛,新能源車芯片需求量在1500-2000顆/輛,高級(jí)別自動(dòng)駕駛新能源車芯片需求量可高達(dá)3000顆/輛,且部分高價(jià)值芯片成本高昂、面臨缺貨甚至斷貨風(fēng)險(xiǎn)。
從大型主機(jī)廠的角度,顯然不想被某家芯片廠商綁定,甚至主機(jī)廠早已開始下場(chǎng)自主造芯。從吉利汽車來(lái)看, 吉利已實(shí)現(xiàn)7nm座艙SoC量產(chǎn)裝車,IGBT也已實(shí)現(xiàn)成功流片,億咖通和芯擎科技合作研發(fā)的自動(dòng)駕駛SoC芯片AD1000預(yù)計(jì)最快到2024年3月流片。
我們判斷,芯片將像動(dòng)力電池一樣,成為大型主機(jī)廠加強(qiáng)底層基礎(chǔ)能力建設(shè)的重要投資方向。2022年,三星宣布將為谷歌自動(dòng)駕駛部門Waymo制造芯片;通用Cruise也宣布將自主開發(fā)自動(dòng)駕駛芯片;大眾汽車則宣布將與中國(guó)自動(dòng)駕駛SoC廠商地平線成立合資公司。
在2022中國(guó)電動(dòng)汽車百人會(huì)論壇上,地平線在“芯片+算法+工具鏈+開發(fā)平臺(tái)”的商業(yè)模式基礎(chǔ)上,增加開放其高性能自動(dòng)駕駛處理器架構(gòu)BPU IP授權(quán),以此來(lái)滿足自研能力強(qiáng)的部分車企的需求,從而增加車企的差異化競(jìng)爭(zhēng)力和研發(fā)創(chuàng)新的速度。
作為IP供應(yīng)商支撐車企自研計(jì)算方案,BPU IP授權(quán)模式已確認(rèn)一家合作伙伴,還有一家車企正在推進(jìn)中。
造芯的技術(shù)門檻并不算特別高,主要門檻是擁有足夠資本實(shí)力和訂單量,現(xiàn)在芯片行業(yè)就是外購(gòu)IP搭積木的方式來(lái)搭芯片,包括CPU、GPU、NPU、存儲(chǔ)、NoC或總線、ISP、視頻編解碼等。未來(lái)隨著Chiplet生態(tài)圈、工藝水平不斷完善,自研自動(dòng)駕駛SoC芯片門檻會(huì)更低,無(wú)需買IP,直接買die(IP芯片化)然后再封裝即可,大幅度降低門檻。
以特斯拉HW 3.0芯片為例,其架構(gòu)設(shè)計(jì)基于三星Exynos-IP,CPU、GPU、ISP設(shè)計(jì)采用ARM IP,片上互聯(lián)(NOC)采用 Arteris IP,特斯拉僅自研 NNA AI加速器IP,最終由三星代工。
針對(duì)HW 4.0芯片,特斯拉進(jìn)一步與博通合作開發(fā),為了提高AI算力,最簡(jiǎn)單有效的辦法就是堆砌MAC單元和 SRAM存儲(chǔ)器, 對(duì)于AI操作來(lái)說(shuō),主要瓶頸是存儲(chǔ)。而缺陷在于,SRAM存儲(chǔ)器占用了大量的芯片面積,面積與芯片的成本成正比,同時(shí)SRAM難以通過先進(jìn)制程工藝來(lái)增加密度和減少面積。
因此,特斯拉第一代FSD HW 3.0裸芯片面積為260平方毫米,第二代FSD HW 4.0裸芯片面積預(yù)計(jì)為300平方毫米,總成本預(yù)計(jì)至少增加40-50%,按照我們的估算,HW3.0芯片成本已降至90-100美元,而HW 4.0成本應(yīng)在150-200美元,但即使如此,特斯拉自研芯片的性價(jià)比也要遠(yuǎn)遠(yuǎn)高于外購(gòu)。
長(zhǎng)期來(lái)看,百萬(wàn)以上銷量的主機(jī)廠自主“造芯”是可行的。
