“群模共舞”的AI芯片怨念,千呼萬喚的“存算一體”能否成為新頂流?
2023是“群模共舞”的元年。先是ChatGPT的橫空出世給予眾人致命震撼,隨后國內(nèi)諸多AI、互聯(lián)網(wǎng)公司迅速加大資源投入“練?!?。
在這場“模型大戰(zhàn)”中,算力作為不可或缺的重武器,一度成為眾公司爭搶的關(guān)鍵要素。
作為人工智能的三駕馬車之一,算力是訓(xùn)練AI模型、推理任務(wù)的關(guān)鍵。倘若把訓(xùn)練模型當作是做一道精致的菜肴,算力就好比一套稱手的烹飪工具。
世人皆知巧婦難為無米之炊,但再好的廚子,沒有一口好鍋、一把好刀,面對鮮美的食材也只能望而興嘆。
“大模型動輒百億級的參數(shù),倉庫里沒有幾百張A100、H100,都談不上入圍?!?br style="white-space: normal; color: rgb(102, 102, 102); font-family: 宋體; font-size: 12px;"/>
所謂兵馬未動、糧草先行。為了練模,模型廠商們對算力芯片的購買達到了前所未有的水平。大模型這波風(fēng)潮下,最先受益的,既不是躬身入局的企業(yè),也非下游場景用戶,而是以Nvidia為代表的算力芯片廠商。
1、芯片發(fā)展面臨“三座大山”
當前AI技術(shù)的快速更新迭代對芯片提出了多個挑戰(zhàn),尤其繞不過“存儲墻”、“能耗墻”和“編譯墻”三座大山。
首先,在傳統(tǒng)馮·諾依曼架構(gòu)下,芯片在執(zhí)行計算密集型任務(wù)時面臨“存儲墻”問題,這導(dǎo)致計算芯片的功耗和性能都受限于處理器和存儲器之間的數(shù)據(jù)搬運,嚴重限制了AI芯片在計算規(guī)模、密度、效率等方面的提升。
其次,由于“存儲墻”的存在,數(shù)據(jù)需要頻繁搬運,在存儲、計算單元間來回轉(zhuǎn)移,導(dǎo)致嚴重的功耗損失,撞到“能耗墻”上。
英特爾的研究表明,當半導(dǎo)體工藝達到 7nm 時,數(shù)據(jù)搬運功耗高達 35pJ/bit,占總功耗的63.7%。另有統(tǒng)計表明,在大算力的AI應(yīng)用中,數(shù)據(jù)搬運操作消耗90%的時間和功耗,數(shù)據(jù)搬運的功耗是運算的650倍。
最后,“編譯墻”隱于二者之中,極短時間下的大量數(shù)據(jù)搬運使得編譯器無法在靜態(tài)可預(yù)測的情況下對算子、函數(shù)、程序或者網(wǎng)絡(luò)做整體的優(yōu)化,手動優(yōu)化又消耗了大量時間。
過去,憑借先進制程不斷突破,這三座“大山”的弊病還能通過快速提升的算力來彌補。
但一個殘酷的現(xiàn)實是,過去數(shù)十年間,通過工藝制程的提升改善芯片算力問題的“老辦法”正在逐步失效——
摩爾定律正在走向物理極限,HBM、3D DRAM、更好的互聯(lián)等傳統(tǒng)“解法”也“治標不治本”,晶體管微縮越來越難,提升算力性能兼具降低功耗這條路越走越艱辛。
隨著大模型時代來臨,激增的數(shù)據(jù)計算,無疑進一步放大了“三道墻”的影響。
2、大模型呼喚“存算一體”
大模型的出現(xiàn),促使AI對大規(guī)模芯片算力的需求更加強烈,按照傳統(tǒng)技術(shù)路線簡單堆砌芯片無法實現(xiàn)期待的算力規(guī)模增長。
同時,芯片能效問題變得更加突出。當前AI芯片能效依然低下,大模型每次訓(xùn)練和推斷的電費成本昂貴,導(dǎo)致當前大模型的應(yīng)用經(jīng)濟性較低。
雖然說現(xiàn)在很多大模型訓(xùn)練使用GPU,但GPU的架構(gòu)演進并未解決大算力和大模型的挑戰(zhàn)。
一方面,存儲在GPU中所占比例越來越大。從GPU架構(gòu)的演進趨勢,可以看到存儲在計算芯片中所占的比例越來越大。計算芯片從以計算單元為核心演變到以存儲/數(shù)據(jù)流為核心的架構(gòu)設(shè)計理念。
另一方面,數(shù)據(jù)傳輸功耗仍是提升算力和算力密度的瓶頸,本質(zhì)上就是馮·諾依曼計算機體系結(jié)構(gòu)計算與存儲的分離設(shè)計所致。
總體而言,大模型對于算力的需求呈現(xiàn)指數(shù)型增長,但GPU又貴功耗又高,GPU集群的線性度也隨規(guī)模增大而下降,探索非馮諾依曼架構(gòu)已經(jīng)非?;馃帷?/span>
AMD、特斯拉、三星、阿里巴巴等公司都曾在公開場合表示,下一代技術(shù)的儲備和演進的方向是在“存算一體”技術(shù)架構(gòu)中尋找新的發(fā)展動能。
例如,阿里達摩院就曾表示,相比傳統(tǒng)CPU計算系統(tǒng),存算一體芯片的性能可以提升10倍以上,能效提升超過300倍。
那么,“存算一體”技術(shù)到底有何優(yōu)勢?
存算一體與經(jīng)典的馮諾依曼架構(gòu)不同,它是在存儲器中嵌入計算能力,將存儲單元和計算單元合為一體,省去了計算過程中數(shù)據(jù)搬運環(huán)節(jié),消除了由于數(shù)據(jù)搬運帶來的功耗和延遲,從而進一步提升計算能效。
同時,由于計算編程模型被降低,編譯器也可以感知每一層的數(shù)據(jù)狀態(tài),編譯效率也將大幅度提升,“編譯墻”的問題也得到了解決,具體而言:
首先,運算的性能更高
存算一體芯片的計算能力取決于存儲器的容量規(guī)模。所有電子設(shè)備當中都會集成存儲器,存儲與計算相伴而行,有運算的地方就需要對數(shù)據(jù)進行存儲。
如果采用存算一體芯片,隨著存儲容量規(guī)模的提高,其運算能力也會隨之提高。
其次,功耗更低
由于數(shù)據(jù)傳輸路徑的優(yōu)化,存算一體技術(shù)在提高傳輸效率的同時,節(jié)省了數(shù)據(jù)傳輸?shù)膿p耗,帶來更好的能效比、低功耗。在相同算力下,AI部分能效比將有2-3個數(shù)量級的提升,更低散熱成本,更高可靠性。
最后,成本更低
單位算力成本遠低于傳統(tǒng)計算芯片。同時,存算一體可以采用更成熟的制造工藝,大算力芯片往往需要采用先進工藝,這使存算一體芯片的晶圓成本低得多。
再考慮到配套的外圍芯片、元器件等因素,整個系統(tǒng)成本將有5倍左右降低。
正是因為這些基于基礎(chǔ)架構(gòu)革新所帶來的性能提升,存算一體技術(shù)有望在很大程度上解決AI大模型面臨的算力挑戰(zhàn)。
特別是針對大模型的推理,存算一體保持權(quán)重的特點與大模型中大規(guī)模的參數(shù)部署需求相匹配,可能是存算一體技術(shù)最先服務(wù)大模型應(yīng)用的場景之一。
3、大模型「下半場」:邊緣計算成為重點
如果說大模型「上半場」是技術(shù)的較量,那么「下半場」則是商業(yè)化的比拼。
無可置疑,大模型將解決掣肘AI落地的碎片化難題,并極大地削減研發(fā)成本,給AI帶來質(zhì)的飛躍,使其具備更大的想象空間。但這只能算是階段性勝利,只有客戶乖乖掏出錢包里的金幣,并持續(xù)復(fù)購,產(chǎn)生價值,AI才算取得成功。
這個AI商業(yè)閉環(huán)中,還涉及到一個部署成本的問題。
AI不是消費電子,即買即用,盡管其常常被嵌入至各類電子設(shè)備中。但AI的消費大戶,仍是以降本增效為目的的B/G客戶。這類客戶對于AI的最后一公里交付尤為重視,他們并不愿意為AI方案的部署花費任何多余的金幣。
傳統(tǒng)AI部署常見于云端一體,主要通過云端進行計算,感知端僅有微弱算力,數(shù)據(jù)在端側(cè)采,算法在云上跑。這種模式存在幾個問題:
云計算固然有大算力的好處,但對于一些需要快速響應(yīng)、計算的場景,其存在的時滯現(xiàn)象非常致命;
云服務(wù)器費用高昂,許多企業(yè)并不需要大算力,盲目上云反而會造成算力浪費,性價比不高;
數(shù)據(jù)上云,存在一定安全風(fēng)險;
為此,AI公司們在云端一體之間,增加了邊緣計算,來解決云端算力浪費及端側(cè)算力不足的問題。
邊緣計算的靈感得益于章魚的八只觸手。作為云端計算的協(xié)同和補充,邊緣計算能夠在數(shù)據(jù)源頭附近的網(wǎng)關(guān)執(zhí)行數(shù)據(jù)處理、分析,這種獨特的優(yōu)勢可以實現(xiàn)各單元之間執(zhí)行不同的任務(wù)并實現(xiàn)多任務(wù)協(xié)同,既滿足碎片化場景的算力調(diào)度需求,又具備低延時、安全等特點。
并且,邊緣計算設(shè)備的部署成本相對較低,客戶不需要部署昂貴的云服務(wù)器就能用上AI,這一核心優(yōu)勢使得邊緣計算備受青睞,已然成為AI落地的重要途徑之一。
但要真正讓算法模型在邊緣計算設(shè)備上跑起來,仍有兩個比較重要的難點。
第一,邊緣設(shè)備的算力比云端服務(wù)器弱,而大部分的算法模型,是在服務(wù)器上訓(xùn)練的,算法模型要實現(xiàn)遷移,需要做大量的優(yōu)化工作。
第二,算法模型要在邊緣設(shè)備上部署、執(zhí)行推理任務(wù),需要一顆強大的AI算力芯片,并針對芯片做適配,才能保證算法模型的運行效率。也就是說,AI算力芯片的生態(tài)極其重要,但現(xiàn)階段比較尷尬的是,AI算力芯片廠商較為分散。
可以預(yù)見的是,在大模型時代,第一個問題較為容易解決,因為大模型自帶極強的泛化能力。至于第二個點,則要比想象中難得多,其涉及到底層芯片技術(shù)的研發(fā)和攻關(guān),以及對應(yīng)的生態(tài)協(xié)同。如何讓邊緣設(shè)備運行大模型,對于AI芯片廠商而言,這既是機遇,也是挑戰(zhàn)。
4、大模型時代下,AI芯片的國產(chǎn)替代潮
AI芯片功能上分兩類,分別是訓(xùn)練芯片和推理芯片。
訓(xùn)練芯片主要用于大模型的訓(xùn)練、學(xué)習(xí)和優(yōu)化,側(cè)重于計算性能,而推理芯片則主要為模型的推理運算提供算力。二者之間的區(qū)別在于,訓(xùn)練芯片重計算,推理芯片重效率(時延、功耗)。并且,從云邊端協(xié)同的角度看,訓(xùn)練芯片多用于服務(wù)器,推理芯片則主要部署在邊端設(shè)備之上。
當前,國內(nèi)大模型正處于“練模”階段,需要極強的算力支撐,因此AI公司們將目光更多放在了訓(xùn)練芯片上,即購買大量的GPU算力來訓(xùn)練算法模型。這也直接成就了Nvidia的萬億市值神話,其H100、H800等芯片一騎絕塵,國內(nèi)則有華為、寒武紀等廠商在努力追趕。
一旦大模型成熟,與之而來的便是落地應(yīng)用,這時必然要用到邊端設(shè)備,從而滋生出對推理芯片的龐大需求。
然而,由于不可抗力因素,現(xiàn)階段的訓(xùn)練芯片和推理芯片皆受到貿(mào)易管制,在此背景下,AI芯片的國產(chǎn)替代提上了日程。
作為深圳AI第一股,云天勵飛在邊緣側(cè)AI芯片的布局已經(jīng)成果初顯。2020年,云天勵飛第一代AI推理芯片DeepEye1000實現(xiàn)商用,并落地到AI相機、安全PC、商業(yè)機器人等邊緣計算場景。
云天勵飛副總裁、芯片產(chǎn)品線總經(jīng)理李愛軍告訴雷峰網(wǎng),大模型作為AI的進階態(tài),本質(zhì)上還是要落地到具體業(yè)務(wù)場景才能產(chǎn)生價值,而邊緣計算則是不可逆的趨勢,因此做好邊緣計算的推理芯片,對于未來大模型的應(yīng)用至關(guān)重要。
在過去三年多的時間中,DeepEye1000廣泛落地到各行各業(yè),但同時也帶來了諸多反饋:算力碎片化、算法長尾化、產(chǎn)品非標化、規(guī)模碎片化等痛點依舊存在,傳統(tǒng)以追求單一場景PPA的傳統(tǒng)芯片模式難以適應(yīng)AI邊緣計算場景下人工智能落地的需求。
基于此,云天勵飛打造了新一代的邊緣計算芯片平臺DeepEdge10。
DeepEdge10屬于主控級SoC,可以滿足絕大部分場景的控制需要,同時基于云天勵飛自研的新一代的處理器NNP400T,可以高效支持Transformer。在架構(gòu)方面,DeepEdge10采用了D2D Chiplet封裝結(jié)構(gòu),可以實現(xiàn)算力靈活擴展,并通過C2CMesh互聯(lián)擴展,可以支持千億級大模型部署。
相較于第一代DeepEye1000,DeepEdge10集成了2+8核通用算力CPU,整體算力提升了4倍以上,采用D2D Chiplet封裝,實現(xiàn)從12T到48T的算力覆蓋,總體性能比上一代芯片超過20倍。
在DeepEdge10的基礎(chǔ)上,云天勵飛還打造了Edge Server算力加速卡,最高支持1024Tops的NPU算力、1920GB/S的內(nèi)存帶寬,以及512GB統(tǒng)一內(nèi)存。目前,DeepEdge10已經(jīng)支持主流開源模型超過100種,模型支持的數(shù)量還在更新,同時支持客戶模型定制化的部署。
具體性能上,在Edge Device 端,DeepEdge10Max運行端側(cè)70億參數(shù)的大模型可以獲得每秒27Token/s,最高可兼容130億參數(shù)的大模型。而在Edge Server上,采用C2C Mesh互聯(lián),多卡協(xié)同,運行700億參數(shù)大模型可獲得42Token/s的生成速度,最高兼容千億級別參數(shù)的大模型。
據(jù)了解,DeepEdge10芯片平臺核心競爭力在于邊緣計算,可以針對不同的場景提供差異化算力,從而滿足碎片化、多樣化需求。目前,DeepEdge10已經(jīng)進入了大規(guī)模的應(yīng)用中,有近30家算法芯片化合作伙伴,所有使用云天芯片的產(chǎn)品合作伙伴,均可在線下載更新云天超過100多種算法。
李愛軍表示,大模型未來落地到機器人、無人駕駛汽車等場景,都需要用到推理芯片,而推理芯片正處于百家爭鳴的過程。而在國內(nèi),如何基于國產(chǎn)工藝實現(xiàn)推理芯片的研發(fā)、流片和商用至關(guān)重要。
現(xiàn)階段,國內(nèi)芯片的成熟工藝處于14nm的節(jié)點。對于千億級、萬億級別的大模型,其推理芯片不但需要極強的計算能力,還要保持超低的功耗和超低的成本,對芯片制程的工藝達到了5nm、2nm。顯然,國產(chǎn)芯片離最高端的芯片還有一段距離。
不過,結(jié)合當前國內(nèi)的生產(chǎn)工藝,云天勵飛與合作伙伴于2020年開始技術(shù)攻關(guān),在ChipletD2D的技術(shù)上定制了一系列IP,實現(xiàn)了可以在14nm芯片上運行千億大模型的功能。雖然成本、功耗會高一些,但這已經(jīng)是國產(chǎn)芯片的最優(yōu)水平。至于更高工藝的芯片,國內(nèi)芯片廠商既需要資源,也需要時間。
“我們志在打造國產(chǎn)工藝自主可控的AI芯片。”李愛軍告訴雷峰網(wǎng),這條路道阻且長,但云天勵飛會堅定地走下去。
