美國(guó)禁止高端GPU“外流”,卻也給了國(guó)產(chǎn)GPU又一次發(fā)展機(jī)遇
被美國(guó)商務(wù)部將其列入“實(shí)體清單”后,國(guó)產(chǎn)顯卡大廠摩爾線程表現(xiàn)的十分不爽。
11月6日,摩爾線程創(chuàng)始人兼首席執(zhí)行官?gòu)埥ㄖ薪o公司全體員工發(fā)出一封信,信中寫道:在這個(gè)挑戰(zhàn)與機(jī)遇并存的時(shí)間點(diǎn),我想說(shuō)的是,中國(guó)GPU不存在“至暗時(shí)刻”,只有星辰大海。
摩爾線程從始至終只有一項(xiàng)事業(yè):打造中國(guó)最好的全功能GPU,我們會(huì)將這項(xiàng)事業(yè)進(jìn)行到底,任何事情都不會(huì)影響我們堅(jiān)定走下去的決心。
按照摩爾的說(shuō)法,加快自主研發(fā)與創(chuàng)新。目前他們的已獲授權(quán)專利數(shù)量暫時(shí)實(shí)現(xiàn)了國(guó)內(nèi)領(lǐng)先,但是距離公司的目標(biāo)還需更努力。
張建中還表示,要打造高效團(tuán)隊(duì)。加強(qiáng)組織管理,聚焦全功能GPU核心技術(shù)研發(fā),保持團(tuán)隊(duì)高效和敏捷。
國(guó)產(chǎn)GPU的發(fā)展浪潮
要論國(guó)內(nèi)的芯片熱潮,主要是兩次發(fā)展。第一次是在智能算法和技術(shù)加持下的AI芯片,其中包括圖形處理器單元(GPU)、現(xiàn)場(chǎng)可編程門陣列(FPGA)以及專門用于人工智能的特定應(yīng)用集成電路(ASIC)。
不管是早期入門的寒武紀(jì),還是斥巨資入局的比特大陸、云知聲等企業(yè),都已經(jīng)獲得了數(shù)千萬(wàn)美元的投資,是指近日,有的已經(jīng)成長(zhǎng)為行業(yè)獨(dú)角獸,有的成功上市,還有的被成功并購(gòu)。
第二波浪潮是在2020年,芯片行業(yè)在GPU領(lǐng)域的創(chuàng)業(yè)熱潮。眾所周知,GPU主要被用作圖形計(jì)算領(lǐng)域,在人工智能技術(shù)的加持下,GPU也因?yàn)閾碛写笠?guī)模運(yùn)行并計(jì)算的能力而吸引了更多資本的入局,定義了GPU的英偉達(dá)就在2021年成為全球市值最高的芯片公司。
在芯片短缺的當(dāng)下,我國(guó)也越來(lái)越認(rèn)識(shí)到擁有國(guó)產(chǎn)芯片的重要性,于是推出了各種政策支持國(guó)產(chǎn)GPU的發(fā)展。同時(shí),GPU也比一般科技領(lǐng)域的探索更加燒錢,因此需要大量的資本扶持。目前已經(jīng)有很多早進(jìn)入、已有陳品的公司開始和客戶一起落地合作,不斷完善其軟件系統(tǒng),后成立的公司也在研發(fā)過(guò)程中積極尋找自己潛在的合作伙伴,在GPU芯片創(chuàng)業(yè)浪潮的推動(dòng)下,芯片的“落地”成為了重要需求。
我國(guó)的芯片黃金時(shí)代已經(jīng)來(lái)臨,國(guó)產(chǎn)GPU正在強(qiáng)勢(shì)崛起,不管是GPU芯片、AI芯片還是計(jì)算芯片“新貴”DPU賽道,都熱鬧非凡。但不管是在那個(gè)領(lǐng)域,只有擁有真獲贈(zèng)的技術(shù)和拿的出售的產(chǎn)品才能掌握市場(chǎng)的話語(yǔ)權(quán)。
CPU+GPU都要才不被卡脖子
2022 年 10 月 7 日美國(guó)商務(wù)部工業(yè)安全局(BIS)發(fā)布《美國(guó)商務(wù)部對(duì)中華人民共和國(guó)(PRC)關(guān)于先進(jìn)計(jì)算和半導(dǎo)體實(shí)施新的出口管制制造》細(xì)則中管制物項(xiàng)包含高性能 AI 芯片產(chǎn)品, Nvidia A100 和 H100 均在管制行列。在此背景下,Nvidia推出性能閹割的中國(guó)特供版芯片A800和H800天價(jià)向國(guó)內(nèi)出售,而隨著A800和H800的停產(chǎn),Nvidia將對(duì)中國(guó)提供進(jìn)一步閹割的A40和T40。未來(lái)在AI芯片,特別是 GPU上這種受制于人的狀態(tài)勢(shì)必會(huì)對(duì)中國(guó) AI 產(chǎn)業(yè)提出極大的挑戰(zhàn)。因此在國(guó)內(nèi)自主可控的大背景下,國(guó)內(nèi)AI產(chǎn)業(yè)對(duì)國(guó)產(chǎn)GPU芯片的需求也同樣迫切。
當(dāng)代人工智能建立在統(tǒng)計(jì)學(xué)基礎(chǔ)上,是數(shù)據(jù)驅(qū)動(dòng)型的表現(xiàn),本質(zhì)是在AI芯片上運(yùn)行算法計(jì)算海量數(shù)據(jù),訓(xùn)練AI模型,推理結(jié)論。在人工智能領(lǐng)域,AI芯片可以分為大概分為GPGPU、FPGA和ASIC。GPGPU芯片采用統(tǒng)一渲染架構(gòu),計(jì)算通用性最強(qiáng),可以適用于多種算法,在很多算法前言的領(lǐng)域,GPGPU是最佳選擇。 GPGPU服務(wù)器占據(jù)86%的市場(chǎng)份額,在人工智能的計(jì)算市場(chǎng)銷售額占比最大,其中Nvidia約占96.1%。FPGA是一種半定制芯片,對(duì)芯片硬件層可以靈活編譯,缺點(diǎn)是當(dāng)處理的任務(wù)重復(fù)性不強(qiáng)、邏輯較為復(fù)雜時(shí),效率會(huì)比較差。ASIC是一種為專門目的而設(shè)計(jì)的芯片(全定制),是根據(jù)特定算法定制的芯片架構(gòu),針對(duì)特性算法算力強(qiáng)大,但算法一旦改變,計(jì)算能力會(huì)大幅下降,如:基于神經(jīng)網(wǎng)絡(luò)算法與加速的 NPU。
根據(jù)參與運(yùn)算數(shù)據(jù)精度的不同,可把算力分為雙精度算力(64位,F(xiàn)P64)、單精度算力(32位,F(xiàn)P32)、半精度算力(16位,F(xiàn)P16)及整型算力(INT8、INT4)。數(shù)字位數(shù)越高,意味著精度越高,能夠支持的運(yùn)算復(fù)雜程度就越高,適配的應(yīng)用場(chǎng)景也就越廣。在需要處理的數(shù)字范圍大而且需要精確計(jì)算的科學(xué)計(jì)算、工程計(jì)算領(lǐng)域,都需要雙精度算力(FP64)的支持;在AI大模型、自動(dòng)駕駛、深度學(xué)習(xí)等人工智能模型的訓(xùn)練領(lǐng)域,一般需要單精度算力(FP32)的支持;而像數(shù)字孿生、人臉識(shí)別等利用訓(xùn)練完畢的模型進(jìn)行推理的業(yè)務(wù),適用于半精度算力(FP16)或者整型算力(INT8、INT4)。
我們國(guó)產(chǎn)的GPU廠商,包括GPGPU架構(gòu)的海光、天數(shù)智芯壁仞科技、摩爾線程等,其中海光是目前唯一一家大規(guī)模量產(chǎn)出貨且規(guī)模應(yīng)用的GPGPU芯片,能實(shí)現(xiàn)64位雙精度、32位單精度、16位半精度和8位整型算力的全面覆蓋;另外就是NPU架構(gòu)體系的華為、燧原、寒武紀(jì)等。而不同架構(gòu)體系對(duì)精度的實(shí)現(xiàn)也是不同的:
GPGPU芯片一般會(huì)布局大量的雙精度和單精度的計(jì)算區(qū)域,同時(shí)也覆蓋到半精和整形算力。GPGPU的算力精度涵蓋較廣,應(yīng)用的領(lǐng)域也更廣泛,整個(gè)產(chǎn)業(yè)的生態(tài)相對(duì)完整,但是芯片設(shè)計(jì)相對(duì)比較復(fù)雜,前一陣美國(guó)限制向中國(guó)出口的AI芯片也是高端的GPGPU芯片。
NPU的優(yōu)勢(shì)是大部分時(shí)間集中在低精度的算法,芯片算力一般以半精度算力(FP16)和整型算力(INT8、INT4)為主,擅長(zhǎng)處理視頻、圖像類的海量多媒體數(shù)據(jù),不涉及高精度算力應(yīng)用的領(lǐng)域。因此NPU芯片主要是覆蓋低精度,應(yīng)用領(lǐng)域比較受限,特別是很多NVIDIA的業(yè)務(wù)如果遷移到NPU環(huán)境下,在需要大量的遷移適配工作的同時(shí),也會(huì)面臨模型遷移后而遇到的算法和引擎識(shí)別精度下降的問(wèn)題。
值得注意的是,現(xiàn)階段AI應(yīng)用中,大量的算法、模型、庫(kù)、開發(fā)框架、軟件和應(yīng)用都基于通用加速卡架構(gòu)開發(fā)出來(lái),且具備較高的成熟度。在國(guó)產(chǎn)AI產(chǎn)業(yè)發(fā)展之路上,隨著超大規(guī)模預(yù)訓(xùn)練模型對(duì)算力需求的持續(xù)攀升,使用GPGPU的通用架構(gòu)對(duì)Nvidia進(jìn)行替換和業(yè)務(wù)模型的高效便捷移植,建設(shè)CPU+高精度通用GPGPU的算力中心,是自主可控發(fā)展的必由之路。
軟件是更高的壁壘
比起硬件性能上可接受的差異,軟件適配與兼容讓客戶接受更難。
當(dāng)大模型和應(yīng)用層面的競(jìng)爭(zhēng)拉響,從商業(yè)角度思考,采用國(guó)產(chǎn)AI芯片參戰(zhàn)并不是好的選擇。
從硬件性能上,使用國(guó)產(chǎn)AI芯片計(jì)算會(huì)比采用英偉達(dá)A100慢,在分秒必爭(zhēng)的當(dāng)下,“慢”是企業(yè)最不愿意看到的場(chǎng)景。
此外,哪怕能通過(guò)堆芯片的方式堆出一個(gè)算力相當(dāng)?shù)漠a(chǎn)品,從服務(wù)器運(yùn)營(yíng)的角度,它的主板開銷、電費(fèi)、運(yùn)營(yíng)費(fèi),以及需要考慮的功耗、散熱等問(wèn)題,都會(huì)大大增加數(shù)據(jù)中心的運(yùn)營(yíng)成本。
因?yàn)樗懔Y源常需要以池化的形式呈現(xiàn),數(shù)據(jù)中心通常更愿意采用同一種芯片,或者同一公司的不同芯片,來(lái)降低算力池化難度。
對(duì)客戶而言,把國(guó)產(chǎn)AI芯片用起來(lái)并不容易。
算力的釋放需要復(fù)雜的軟硬件配合,才能將芯片的理論算力變?yōu)橛行懔?。?guó)產(chǎn)AI芯片想要替換英偉達(dá)的GPU,需要突破CUDA生態(tài)和整個(gè)產(chǎn)業(yè)生態(tài)的壁壘。
摩爾線程有著自己的全功能GPU芯片,且推出了AIGC平臺(tái),李豐告訴36氪:“最難的是生態(tài)的建立,我們要兼顧很多的生態(tài)兼容性。
先說(shuō)CUDA,為了把GPU的算力能力進(jìn)一步發(fā)揮,英偉達(dá)花了10年時(shí)間,投入3000多人打造了一個(gè)CUDA框架。這套框架里集成了很多調(diào)用GPU算力所需的代碼,工程師可以直接使用這些代碼,無(wú)須一一編寫。
如果沒(méi)有這套編碼語(yǔ)言,軟件工程師發(fā)揮硬件價(jià)值的難度會(huì)變得極大。一位關(guān)注基礎(chǔ)軟件的投資人告訴36氪:“沒(méi)有CUDA ,調(diào)用GPU的代碼會(huì)寫到地老天荒,不可能所有的東西都自己寫?!?/span>
尚處于創(chuàng)業(yè)階段的芯片設(shè)計(jì)公司,很難在生態(tài)上投入如此大的人力財(cái)力。大多會(huì)選擇兼容CUDA架構(gòu),來(lái)降低客戶使用門檻。
也有部分公司會(huì)選擇自研加速器,如寒武紀(jì)就構(gòu)建了自己的加速平臺(tái);昆侖芯也面向開發(fā)者提供了類似英偉達(dá)CUDA的軟件棧,希望打造自己的生態(tài),也能擺脫硬件需受CUDA更新的困擾。
即使有了這個(gè)編程框架,整個(gè)產(chǎn)業(yè)生態(tài)上的人也很難把這個(gè)芯片用起來(lái)。
目前世界上主流的深度學(xué)習(xí)框架都有基于CUDA進(jìn)行加速的,整個(gè)產(chǎn)業(yè)中下游軟件、驅(qū)動(dòng)廠家等都基于此進(jìn)行適配。這構(gòu)成了一個(gè)極強(qiáng)大的生態(tài)壁壘,就像蘋果系統(tǒng)內(nèi)部的閉環(huán)生態(tài),和window操作系統(tǒng)+上層應(yīng)用軟件一樣。
對(duì)于企業(yè)來(lái)說(shuō),更換云端 AI 芯片要承擔(dān)一定的遷移成本和風(fēng)險(xiǎn),除非新產(chǎn)品存在性能優(yōu)勢(shì),或者能在某個(gè)維度上提供其他人解決不了的問(wèn)題,否客戶更換的意愿很低。
祥峰投資管理合伙人夏志進(jìn)也告訴36氪:“軟件生態(tài)是好用不好用的問(wèn)題,沒(méi)有CUDA會(huì)提高門檻,不是不可以用,只是需要花很多額外的功夫?!?/span>
芯片需要適配硬件系統(tǒng)、工具鏈、編譯器等多個(gè)層級(jí),需要很強(qiáng)的適配性,否則會(huì)出現(xiàn)這款芯片在某個(gè)場(chǎng)景能跑出90%的算力,在另一場(chǎng)景只能跑出80%效能的情景。
即使英偉達(dá),為了更好發(fā)揮硬件的功效,對(duì)于大客戶也會(huì)提供一些人力,幫忙做軟件適配調(diào)試,軟硬兩方仍需要針對(duì)客戶做部署、調(diào)試。
對(duì)性能要求較高的大廠,還會(huì)設(shè)置專門的軟件部署師對(duì)硬件進(jìn)行適配,來(lái)發(fā)揮硬件的最大性能。這也是很多手機(jī)廠商會(huì)自研芯片來(lái)更好適配產(chǎn)品的原因。
共建生態(tài),尋求解法
目前,國(guó)內(nèi)從業(yè)者已經(jīng)在構(gòu)建生態(tài)上做努力。
在一個(gè)AI生態(tài)中,支撐大模型訓(xùn)練需求,需要底層硬件、中間深度學(xué)習(xí)平臺(tái)、上層應(yīng)用軟件的整體適配,互相支持。
硬件對(duì)上層軟件的支持情況,必須代碼寫出后,有人一步步躺坑,才能知道問(wèn)題所在,改進(jìn)硬件對(duì)軟件的支持效果。
一家C輪應(yīng)用型軟件公司告訴36氪,自己需要對(duì)不同類型、不同版本的基礎(chǔ)軟硬件進(jìn)行適配,每年花在適配上的支出超出千萬(wàn)元。
百度飛槳已在推動(dòng)和國(guó)內(nèi)芯片適配。
2022年4月時(shí),百度飛槳已完成和包括百度昆侖芯、華為昇騰在內(nèi)的22家國(guó)內(nèi)外硬件廠商,31種芯片的適配和優(yōu)化,基本覆蓋國(guó)內(nèi)主流芯片。
目前,昆侖芯和飛槳完成3級(jí)兼容性適配,登臨科技和飛槳也完成2級(jí)適配,沐曦集成電路和飛槳完成1級(jí)兼容性測(cè)試。
近期,華為的MindSpore被報(bào)道和愛(ài)可生向量數(shù)據(jù)庫(kù)兼容。有信息顯示,沐曦之前也已加入昇思MindSpore社區(qū)。
另一個(gè)大模型領(lǐng)域重要玩家,智源研究院,其九鼎智算平臺(tái)也在和多家國(guó)內(nèi)AI芯片公司合作。
未來(lái),大模型訓(xùn)練對(duì)算力的需求會(huì)越來(lái)越大。比如,科研場(chǎng)景或訓(xùn)練視頻類信息,都需要更大的算力支持。
英偉達(dá)等廠商也會(huì)不斷追求研發(fā)更高性能的芯片,海外企業(yè)可以購(gòu)買英偉達(dá)算力更高的芯片,推動(dòng)大模型訓(xùn)練。比如,微軟已經(jīng)和宣布加強(qiáng)和英偉達(dá)和合作,將GPU 從此前的 A100 升級(jí)到 H100。
參戰(zhàn)大模型競(jìng)賽,算法、算力、數(shù)據(jù)環(huán)環(huán)相扣。在最卡脖子的環(huán)節(jié),如何縮小GAP,成為一個(gè)求共解的命題。
