打通“最后七公里”，存算一體成為中國(guó)自動(dòng)駕駛芯片“成熟”的關(guān)鍵

2023-06-08 來(lái)源：半導(dǎo)體芯聞

2583

ChatGPT大熱，生成式大模型已無(wú)限趨向通用智能，這也就意味著AI應(yīng)用將會(huì)進(jìn)入到2.0時(shí)代。所謂AI 2.0時(shí)代，即由AI將由很多小模型提供的弱AI，演進(jìn)為由大模型提供的通用智能強(qiáng)AI，這勢(shì)必會(huì)帶來(lái)眾多應(yīng)用場(chǎng)景的集體爆發(fā)。

業(yè)內(nèi)人士認(rèn)為，爆發(fā)將主要來(lái)于：一是來(lái)自于替代，原先很多有小模型提供的弱AI的場(chǎng)景將會(huì)由通用智能來(lái)替代；二是將催生新的AI應(yīng)用場(chǎng)景，并產(chǎn)生新的服務(wù)和產(chǎn)品形態(tài)。

這些未來(lái)應(yīng)用場(chǎng)景的爆發(fā)，對(duì)AI算力芯片是一個(gè)新挑戰(zhàn)，要有更大的算力以及更高的能效比。由此，億鑄智能副總裁徐芳認(rèn)為：存算一體的大算力芯片將是中國(guó)AI芯片“換道”超車的機(jī)會(huì)。

存算一體AI芯片或?qū)⒊蔀樽詣?dòng)駕駛算力終極解決方案

ChatGPT的火爆預(yù)示了自動(dòng)駕駛的發(fā)展方向：大模型和高算力。Transformer這類神經(jīng)網(wǎng)絡(luò)大模型，模型運(yùn)算量平均每?jī)赡陼?huì)翻750倍；視頻、自然語(yǔ)言處理和語(yǔ)音模型，模型運(yùn)算量平均每?jī)赡攴?5倍?？梢灶A(yù)見，摩爾定律將面臨失效，同時(shí) "存儲(chǔ)墻”和"功耗墻” 將成為AI芯片發(fā)展的關(guān)鍵制約因素。

目前，大部分傳統(tǒng)的計(jì)算架構(gòu)是馮諾依曼架構(gòu)，優(yōu)點(diǎn)是非常靈活，但面對(duì)AI遇到的問(wèn)題是出現(xiàn)算力瓶頸，同時(shí)存在大型數(shù)據(jù)搬運(yùn)，所以帶來(lái)很大的功耗消耗。

存算一體技術(shù)有望解決大算力與低功耗的矛盾。存算一體，是指在存儲(chǔ)器中對(duì)數(shù)據(jù)進(jìn)行運(yùn)算，從而避免數(shù)據(jù)搬運(yùn)產(chǎn)生的"存儲(chǔ)墻”和"功耗墻”, 極大提高數(shù)據(jù)的并行度和能量效率。

在汽車領(lǐng)域，高等級(jí)自動(dòng)駕駛汽車某種意義上將成為行走的超算中心，車端算力正不斷拔高到1000TOPS以上。云端計(jì)算電力充足，并可以通過(guò)冷卻系統(tǒng)制冷，但是在汽車端是通過(guò)電池供電有限，同時(shí)面臨著液冷散熱、成本方面等問(wèn)題。

存算一體 AI 芯片，將為車企提供一個(gè)全新的技術(shù)路徑選擇。

在自動(dòng)駕駛 SoC 領(lǐng)域，后摩智能是國(guó)內(nèi)首家存算一體自動(dòng)駕駛 AI 芯片廠商，其在2022年成功點(diǎn)亮了業(yè)內(nèi)第一款存算一體大算力AI芯片，并跑通智能駕駛算法模型。這款驗(yàn)證樣片采用22nm工藝制程，算力達(dá)20TOPS，可擴(kuò)展至200TOPS，尤其是計(jì)算單元能效比高達(dá)20TOPS/W。

當(dāng)前，國(guó)內(nèi)AI大算力芯片有兩個(gè)主要技術(shù)方向，一就是ASIC架構(gòu)，采用該架構(gòu)的公司包括了寒武紀(jì)、華為、黑芝麻，地平線等；另一個(gè)就是GP GPU架構(gòu)，就是英偉達(dá)所主導(dǎo)的GP GPU路線。這兩個(gè)架構(gòu)，存與算是分離的。她從技術(shù)層面解釋說(shuō)，“就技術(shù)本身而言，存算分離的架構(gòu)下，85~90%的芯片空間，是用于數(shù)據(jù)搬運(yùn)，而不是用來(lái)進(jìn)行數(shù)據(jù)的計(jì)算。也就是先要把數(shù)據(jù)從存儲(chǔ)的結(jié)構(gòu)里面要搬到計(jì)算單元，而且是每計(jì)算一次就要搬運(yùn)一次，最后計(jì)算的結(jié)果，又送回至存儲(chǔ)的結(jié)構(gòu)中。如此往復(fù)，這種架構(gòu)，顯而易見，對(duì)能源的消耗和計(jì)算效率的影響非常大?！?/span>

當(dāng)然，徐芳副總裁也認(rèn)為，“并不能用零和博弈的方式看所有的技術(shù)，每一種技術(shù)都有它的價(jià)值， ASIC、GP GPU以及存算一體的技術(shù)，各有所長(zhǎng)，如果能競(jìng)合得當(dāng)，可實(shí)現(xiàn)相得益彰?！?/span>

但就面向未來(lái)而言，徐芳副總裁指出，從能效比、對(duì)先進(jìn)工藝制程的依賴、以及算力的發(fā)展空間這三方面來(lái)看，AI算力芯片中，存算一體的計(jì)算架構(gòu)無(wú)疑會(huì)有更大更好的機(jī)會(huì)。據(jù)了解，業(yè)內(nèi)頭部企業(yè)也提出了類似的方案，AMD在今年初，提出了存內(nèi)計(jì)算；三星也認(rèn)為，存儲(chǔ)器在人工智能服務(wù)器中的重要性將會(huì)超過(guò)英偉達(dá)的GPU。

她強(qiáng)調(diào)，“AI算力芯片，除了有較高的能效比之外，還需要更好的性價(jià)比并兼顧通用性，此外，在中國(guó)AI大算力芯片發(fā)展，還要能夠解決先進(jìn)工藝依賴這一外部問(wèn)題?！?/span>

徐芳副總裁進(jìn)而指出，“存算一體的技術(shù)架構(gòu)，其優(yōu)勢(shì)在于既能夠用傳統(tǒng)的CMOS工藝，又能夠快速實(shí)現(xiàn)量產(chǎn)，進(jìn)而突破AI芯片的算力困境?！币彩菑倪@里來(lái)觀察，存算一體的大算力芯片也將是中國(guó)在算力芯片領(lǐng)域換道超車的機(jī)會(huì)。

存算一體芯片“最后七公里”

盡管存算一體在技術(shù)層面能夠支撐芯片產(chǎn)業(yè)出現(xiàn)新機(jī)會(huì)，但要真正創(chuàng)業(yè)做新業(yè)務(wù)卻沒有那么容易。在吳強(qiáng)看來(lái)，存算一體還有“最后七公里”要走。

“學(xué)術(shù)上實(shí)現(xiàn)的是從無(wú)到有的過(guò)程，但要應(yīng)用在商業(yè)，還需要先補(bǔ)齊技術(shù)的可實(shí)現(xiàn)性這兩公里，再補(bǔ)上應(yīng)用到具體場(chǎng)景的工程性問(wèn)題這五公里?！?/span>

具體而言，在這款芯片的定義、設(shè)計(jì)過(guò)程中，也經(jīng)過(guò)了不少討論和取舍。

例如，存算一體技術(shù)依托的存儲(chǔ)類型非常豐富，包括以SRAM、DRAM為代表的易失性存儲(chǔ)器，以Flash為代表的非易失性存儲(chǔ)器，還有以MRAM和RRAM為代表的新型非易失性存儲(chǔ)器。后摩當(dāng)前選擇了制作工藝更為成熟的SRAM。

又如，從電路技術(shù)來(lái)看，存內(nèi)計(jì)算有數(shù)字計(jì)算和模擬計(jì)算兩種，后摩首先選擇了運(yùn)算精度更高、可靠性更好的數(shù)字存算。

但對(duì)吳強(qiáng)來(lái)說(shuō)，這都是綜合市場(chǎng)需求和技術(shù)可行性之后的更優(yōu)選擇，后摩當(dāng)下戰(zhàn)略聚焦于智能駕駛芯片，更大的有效算力、更高的可靠性都是為目標(biāo)芯片服務(wù)的。

只不過(guò)，摸著石頭過(guò)河，確實(shí)要面臨比同行更多的挑戰(zhàn)。

比如在電路的仿真驗(yàn)證中，一般用EDA軟件進(jìn)行在線的設(shè)計(jì)，而后用可編程的FPGA進(jìn)行電路設(shè)計(jì)的驗(yàn)證。但是，后摩智能的芯片設(shè)計(jì)規(guī)模已經(jīng)超過(guò)了市面上任何一個(gè)可以找到的FPGA，要怎么做芯片驗(yàn)證呢？

后摩智能想到把芯片的不同功能進(jìn)行切割，在不同的FPGA上進(jìn)行驗(yàn)證。關(guān)于如何把芯片做合理的剪裁以適應(yīng)部分的驗(yàn)證，后摩團(tuán)隊(duì)反復(fù)討論、多次嘗試，最終找到了最恰當(dāng)?shù)姆椒ā?/span>

最終，后摩智能交上了鴻途H30這份答卷，相比業(yè)界先進(jìn)的7nm工藝，后摩采用了更成熟的12nm工藝，但功耗比前者減少了50%，性能有兩倍以上的提升。

經(jīng)緯創(chuàng)投投資董事童倜認(rèn)為，除了存算一體技術(shù)上有巨大的優(yōu)勢(shì)之外，“后摩團(tuán)隊(duì)的優(yōu)勢(shì)還在于團(tuán)隊(duì)的人員構(gòu)成非常完善，在很早就擁有了存算一體相關(guān)領(lǐng)域的學(xué)術(shù)專家、曾經(jīng)量產(chǎn)過(guò)大算力AI芯片的人，和設(shè)計(jì)過(guò)車規(guī)芯片的人”。

在童倜看來(lái)，尤為難得的是，在創(chuàng)立之初，后摩團(tuán)隊(duì)就已經(jīng)對(duì)所在的賽道、市場(chǎng)需求有了清醒的認(rèn)知，也對(duì)整個(gè)芯片研發(fā)及企業(yè)經(jīng)營(yíng)中可能會(huì)遇到的問(wèn)題有了一定的預(yù)期和規(guī)劃。

這或許要?dú)w功于吳強(qiáng)及后摩團(tuán)隊(duì)過(guò)往在芯片行業(yè)豐富的從業(yè)經(jīng)驗(yàn)，有十年以上芯片行業(yè)的工作經(jīng)驗(yàn)的研發(fā)人員占比很高，經(jīng)歷過(guò)車規(guī)芯片量產(chǎn)和導(dǎo)入的初創(chuàng)企業(yè)奮斗全過(guò)程的員工也不在少數(shù)，他們能夠深刻理解研發(fā)組織、客戶溝通等的重要性。

未來(lái)，芯片將成為大型主機(jī)廠重要投資方向

主機(jī)廠造芯這個(gè)問(wèn)題爭(zhēng)議極大，業(yè)內(nèi)普遍認(rèn)為，一方面主機(jī)廠無(wú)法與專業(yè)IC設(shè)計(jì)公司比拼開發(fā)速度、效率、產(chǎn)品性能等，另一方面單顆芯片至少應(yīng)有百萬(wàn)量級(jí)的出貨量才能不斷攤薄開發(fā)成本，以具備性價(jià)比。

但實(shí)際上芯片對(duì)于智能網(wǎng)聯(lián)新能源汽車，無(wú)論是性能、成本、還是供應(yīng)鏈安全，都已占據(jù)了絕對(duì)的主導(dǎo)地位，傳統(tǒng)燃油車芯片需求量一般在700-800顆/輛，新能源車芯片需求量在1500-2000顆/輛，高級(jí)別自動(dòng)駕駛新能源車芯片需求量可高達(dá)3000顆/輛，且部分高價(jià)值芯片成本高昂、面臨缺貨甚至斷貨風(fēng)險(xiǎn)。

從大型主機(jī)廠的角度，顯然不想被某家芯片廠商綁定，甚至主機(jī)廠早已開始下場(chǎng)自主造芯。從吉利汽車來(lái)看，吉利已實(shí)現(xiàn)7nm座艙SoC量產(chǎn)裝車，IGBT也已實(shí)現(xiàn)成功流片，億咖通和芯擎科技合作研發(fā)的自動(dòng)駕駛SoC芯片AD1000預(yù)計(jì)最快到2024年3月流片。

我們判斷，芯片將像動(dòng)力電池一樣，成為大型主機(jī)廠加強(qiáng)底層基礎(chǔ)能力建設(shè)的重要投資方向。2022年，三星宣布將為谷歌自動(dòng)駕駛部門Waymo制造芯片；通用Cruise也宣布將自主開發(fā)自動(dòng)駕駛芯片；大眾汽車則宣布將與中國(guó)自動(dòng)駕駛SoC廠商地平線成立合資公司。

在2022中國(guó)電動(dòng)汽車百人會(huì)論壇上，地平線在“芯片+算法+工具鏈+開發(fā)平臺(tái)”的商業(yè)模式基礎(chǔ)上，增加開放其高性能自動(dòng)駕駛處理器架構(gòu)BPU IP授權(quán)，以此來(lái)滿足自研能力強(qiáng)的部分車企的需求，從而增加車企的差異化競(jìng)爭(zhēng)力和研發(fā)創(chuàng)新的速度。

作為IP供應(yīng)商支撐車企自研計(jì)算方案，BPU IP授權(quán)模式已確認(rèn)一家合作伙伴，還有一家車企正在推進(jìn)中。

造芯的技術(shù)門檻并不算特別高，主要門檻是擁有足夠資本實(shí)力和訂單量，現(xiàn)在芯片行業(yè)就是外購(gòu)IP搭積木的方式來(lái)搭芯片，包括CPU、GPU、NPU、存儲(chǔ)、NoC或總線、ISP、視頻編解碼等。未來(lái)隨著Chiplet生態(tài)圈、工藝水平不斷完善，自研自動(dòng)駕駛SoC芯片門檻會(huì)更低，無(wú)需買IP，直接買die（IP芯片化）然后再封裝即可，大幅度降低門檻。

以特斯拉HW 3.0芯片為例，其架構(gòu)設(shè)計(jì)基于三星Exynos-IP，CPU、GPU、ISP設(shè)計(jì)采用ARM IP，片上互聯(lián)（NOC）采用 Arteris IP，特斯拉僅自研 NNA AI加速器IP，最終由三星代工。

針對(duì)HW 4.0芯片，特斯拉進(jìn)一步與博通合作開發(fā)，為了提高AI算力，最簡(jiǎn)單有效的辦法就是堆砌MAC單元和 SRAM存儲(chǔ)器，對(duì)于AI操作來(lái)說(shuō)，主要瓶頸是存儲(chǔ)。而缺陷在于，SRAM存儲(chǔ)器占用了大量的芯片面積，面積與芯片的成本成正比，同時(shí)SRAM難以通過(guò)先進(jìn)制程工藝來(lái)增加密度和減少面積。

因此，特斯拉第一代FSD HW 3.0裸芯片面積為260平方毫米，第二代FSD HW 4.0裸芯片面積預(yù)計(jì)為300平方毫米，總成本預(yù)計(jì)至少增加40-50%，按照我們的估算，HW3.0芯片成本已降至90-100美元，而HW 4.0成本應(yīng)在150-200美元，但即使如此，特斯拉自研芯片的性價(jià)比也要遠(yuǎn)遠(yuǎn)高于外購(gòu)。

長(zhǎng)期來(lái)看，百萬(wàn)以上銷量的主機(jī)廠自主“造芯”是可行的。