AI將成就RISC-V,就像當(dāng)年手機(jī)成就了Arm
今年的滴水湖中國(guó)RISC-V產(chǎn)業(yè)論壇有一大半時(shí)間都在談AI,現(xiàn)場(chǎng)甚至還有基于RISC-V的AI PC處理器展示。AI對(duì)RISC-V而言意味著什么?
每年的滴水湖中國(guó)RISC-V產(chǎn)業(yè)論壇(以下簡(jiǎn)稱滴水湖論壇),都是觀察RISC-V生態(tài)發(fā)展情況的窗口。今年,除了戴偉民(中國(guó)RISC-V產(chǎn)業(yè)聯(lián)盟理事長(zhǎng);芯原股份創(chuàng)始人、董事長(zhǎng)兼總裁)照例宣布了去年參與論壇的10款芯片產(chǎn)品已經(jīng)有9款量產(chǎn)或大規(guī)模出貨以外,或許有兩個(gè)比較重要的依據(jù),可作為觀察RISC-V生態(tài)現(xiàn)狀的參考。
其一是林豪(重慶物奇微電子股份有限公司CTO)提到,作為全系產(chǎn)品基于RISC-V架構(gòu)的一家企業(yè),物奇微電子2017年首款芯片問(wèn)世,2019年達(dá)到千萬(wàn)級(jí)出貨量,今年則預(yù)計(jì)能夠讓出貨量上億。這家公司的產(chǎn)品當(dāng)前著眼于Wi-Fi、藍(lán)牙音頻、邊緣計(jì)算及PLC電力載波芯片。
在我們看來(lái)物奇微電子是代表了RISC-V在嵌入式市場(chǎng)典型應(yīng)用的一家企業(yè),出貨量表現(xiàn)的則是RISC-V芯片的快速上量。林豪甚至提到由于物奇當(dāng)前產(chǎn)品線越來(lái)越廣,其自研RISC-V架構(gòu)已經(jīng)不足以滿足不同產(chǎn)品線的不同需求,尋求與業(yè)界更多合作伙伴的合作。
其二是今年的滴水湖論壇有一大半時(shí)間都是在探討AI,乃至生成式AI。謝濤(北京大學(xué)講席教授;RISC-V國(guó)際基金會(huì)人工智能與機(jī)器學(xué)習(xí)專委會(huì)主席)甚至說(shuō),“PC成就了x86生態(tài),手機(jī)成就了Arm生態(tài),而AI成就了RISC-V生態(tài)”。并且他還提到今年RISC-V歐洲峰會(huì),AI也成為議程的一大組成部分。
去年的這個(gè)時(shí)候,我們?cè)谔接憽癛ISC-V為什么能快速入駐HPC應(yīng)用”。而在AI HPC火熱以來(lái),RISC-V在很多人看來(lái)似乎已經(jīng)成為AI未來(lái)發(fā)展的最佳選擇——比如Sameer Wasson(MIPS CEO)就將2020年代,作為技術(shù)奇點(diǎn)的生成式AI,及數(shù)據(jù)驅(qū)動(dòng)的資本投入,最終歸結(jié)到RISC-V時(shí)代的到來(lái)。今年4月,RISC-V國(guó)際基金會(huì)理事會(huì)在基金會(huì)社區(qū)官宣,2024年RISC-V國(guó)際基金會(huì)頂級(jí)關(guān)鍵戰(zhàn)略優(yōu)先級(jí)為:人工智能/機(jī)器學(xué)習(xí)、安全、車(chē)載。
所以今年的RISC-V新品陳列中,就能看到包含AI SoC、AI CPU在內(nèi)的RISC-V芯片。這在任何CPU指令集的發(fā)展歷程中都是相當(dāng)罕見(jiàn)的:短短四屆滴水湖論壇,我們見(jiàn)證了RISC-V在時(shí)代洗禮過(guò)程中的一路狂飆,AI又為RISC-V這輛跑車(chē)提供了一次氮?dú)饧铀俚臋C(jī)會(huì)。借著參會(huì)企業(yè)的RISC-V新品介紹,我們來(lái)看看走進(jìn)AI HPC的RISC-V芯片或技術(shù),現(xiàn)在發(fā)展成了什么樣。
緊耦合與松耦合的RISC-V AI芯片
謝濤將RISC-V AI芯片分成兩種不同的模式。其中RISC-V + AI為緊耦合模式,也就是通過(guò)指令集擴(kuò)展實(shí)現(xiàn)AI加速。理論上,Arm Neon, Helium都屬于此類緊耦合模式。還有一類AI + RISC-V,以松耦合模式,在RISC-V CPU的基礎(chǔ)上,再增加協(xié)處理器或加速器——Arm家族的代表應(yīng)該是Ethos NPU。
恰巧本屆滴水湖論壇上,有兩款推介的新品代表了這兩種模式。其一是可以代表松耦合、來(lái)自北京奕斯偉計(jì)算股份有限公司的EIC7702X/EIC7700X。
這兩顆芯片的CPU部分采用基于RISC-V的64位亂序執(zhí)行核心SiFive P550——這是個(gè)13級(jí)流水線、3發(fā)射、亂序管線的高性能RISC-V核;并且搭配奕斯偉自研的NPU——也就是專用的AI加速單元。NPU部分達(dá)成的Int8算力19.95 TOPS,Int16算力9.975 TOPS,F(xiàn)P16算力9.975 FLOPS。EIC7700X基礎(chǔ)款即為上述配置。
據(jù)說(shuō)這是EIC7702X的首次亮相
而EIC7702X,是將兩個(gè)7700X的die封裝到一起,基于die-to-die互聯(lián)(8-lane 112GBps SerDes);理論上也就實(shí)現(xiàn)了雙倍性能,典型的AI及浮點(diǎn)性能數(shù)字是在前述EIC7700X的基礎(chǔ)上翻番?!澳軌騽偃蜟V類大模型,及最新大模型的推理負(fù)載。”
路向峰(北京奕斯偉計(jì)算技術(shù)股份有限公司智能計(jì)算事業(yè)部交付中心中心長(zhǎng))介紹說(shuō),最高64GB LPDDR4/4X/5內(nèi)存的支持,集成視頻編解碼單元等配置,以及引入的諸多“指令優(yōu)化、數(shù)據(jù)流優(yōu)化”,這些“不僅提升了AI性能,計(jì)算單元利用率也得到了極大提升”。
以下是路向峰給出這兩顆芯片的AI性能數(shù)據(jù),在以往典型的CNN網(wǎng)絡(luò)之外,這張圖的右下角也給出了Llama 2-7b模型的推理成績(jī)。“芯片支持的深度學(xué)習(xí)框架包括TensorFlow, PyTorch等;大模型也在適配中,除了Llama2以外,不久以后還會(huì)做更多的適配和支持?!甭废蚍逶谘葜v中說(shuō)。
當(dāng)然這兩顆芯片還有3D高性能圖形加速、視頻編解碼及表現(xiàn)出低功耗的特性。尤其視頻解碼搭配CV類算法和模型應(yīng)用,令EIC77系列芯片適配較為廣泛的應(yīng)用方向——這些并非本文要闡述的重點(diǎn),此處不做贅述。奕斯偉定位EIC77系列的應(yīng)用方向包括邊緣計(jì)算(如機(jī)器視覺(jué)、機(jī)器人與自動(dòng)系統(tǒng)、生產(chǎn)安全等)、AI PC、AI加速器。
其中EIC7700X應(yīng)當(dāng)是已經(jīng)開(kāi)售的,展區(qū)有展示其開(kāi)發(fā)板及對(duì)應(yīng)的AI PC產(chǎn)品;AI加速卡則已經(jīng)在路上。而EIC7702X,作為基于chiplet或MCM的RISC-V芯片,在國(guó)產(chǎn)RISC-V芯片中,應(yīng)該說(shuō)是相當(dāng)少見(jiàn)的;而且這還是個(gè)RISC-V AI芯片,也就顯得更加難得。
另外一款可表現(xiàn)RISC-V AI芯片緊耦合模式的,是來(lái)自進(jìn)迭時(shí)空(杭州)科技有限公司的SpacemiT Key Stone K1,標(biāo)稱為“全球首款8核RISC-V AI CPU”。這顆芯片采用進(jìn)迭時(shí)空自研RISC-V智算核X60,8個(gè)核心,頻率最高2.0GHz;規(guī)格表中給出的性能數(shù)據(jù)是CPU算力 >50KDMIPS;AI算力則標(biāo)稱為2TOPS。
除了自研的X60核心單核算力比Cortex-A55高30%以上,段佳惠(進(jìn)迭時(shí)空(杭州)科技有限公司品牌營(yíng)銷與公眾關(guān)系總監(jiān))也在演講中強(qiáng)調(diào)了22nm的K1芯片,在功耗和效率方面相比競(jìng)品的優(yōu)勢(shì);比如同工藝下,比競(jìng)品8核A55芯片性能低28%,相比16nm的NXP i.mx93,能效領(lǐng)先1.16倍(KDMIPS/W)。
不過(guò)更重要的在于,作為“緊耦合”RISC-V AI CPU,X60核擴(kuò)展了16條AI指令。段佳惠還將其與Neon做了比較,“相同AI算法,X60指令僅為Arm Neon的~20%”。在開(kāi)發(fā)生態(tài)方面,進(jìn)迭時(shí)空的AI CPU自然也接入了全球主流AI推理生態(tài),故而其展位也特別展示了本地LLM(Llama2-7b)的部署和推理;標(biāo)稱為幾乎“支持所有AI模型”。
這顆K1芯片的應(yīng)用領(lǐng)域涵蓋NAS、AI PC筆記本、智能機(jī)器人、邊緣計(jì)算、工業(yè)控制等——其官網(wǎng)的產(chǎn)品中心也列出了MUSE系列筆記本、開(kāi)發(fā)板和盒子。在產(chǎn)品規(guī)劃圖中,這家公司的Key Stone系列似乎未來(lái)還有12核的K2,和更高性能的K3預(yù)備走向市場(chǎng)...
可見(jiàn)AI接下來(lái)要成就RISC-V生態(tài)還是有跡可循的。
AI為什么能推動(dòng)RISC-V生態(tài)發(fā)展?
梁中書(shū)(達(dá)摩院(上海)科技有限公司研發(fā)總監(jiān))在圓桌環(huán)節(jié)說(shuō):“毫無(wú)疑問(wèn),RISC-V現(xiàn)在最重要的發(fā)展方向就是AI?!彼f(shuō)國(guó)內(nèi)很多企業(yè)都推出了支持vector矢量擴(kuò)展的AI加速實(shí)現(xiàn),“matrix方面也有進(jìn)展,達(dá)摩院就在玄鐵CPU系列中加入了對(duì)matrix的支持,通過(guò)20多條擴(kuò)展指令實(shí)現(xiàn)了單核2TOPS算力”;“緊耦合模式,需要取長(zhǎng)補(bǔ)短,推進(jìn)matrix指令集社區(qū)的標(biāo)準(zhǔn)化。”
“而AI大算力的芯片形態(tài)應(yīng)當(dāng)是松耦合的,RISC-V + AI加速器的組合?!绷褐袝?shū)談到,“而開(kāi)發(fā)工具鏈、基本軟件庫(kù)的適配和支持,對(duì)實(shí)現(xiàn)松耦合AI大算力芯片形態(tài)都很重要。”
談AI繞不開(kāi)的話題就是英偉達(dá),即便英偉達(dá)的AI市場(chǎng)主要在數(shù)據(jù)中心和訓(xùn)練上。而拋開(kāi)芯片絕對(duì)算力差距不談,令大部分AI芯片企業(yè)感到汗顏的主要是以CUDA為基礎(chǔ)的NVIDIA AI軟件棧和解決方案。當(dāng)我們開(kāi)始探討基于RISC-V的AI大算力芯片時(shí),即便在推理場(chǎng)景乃至AI PC和更多端側(cè)應(yīng)用之上,這也是個(gè)重要議題。
論壇圓桌環(huán)節(jié)有個(gè)議題是相關(guān)AI平板的。彭建英(中國(guó)RISC-V產(chǎn)業(yè)聯(lián)盟秘書(shū)長(zhǎng);芯來(lái)智融半導(dǎo)體科技(上海)有限公司CEO)就提到芯來(lái)的超標(biāo)量亂序核IP具備性能方面的優(yōu)勢(shì),“RISC-V CPU,加上可擴(kuò)展性,性能上要(在智能數(shù)字教育領(lǐng)域)滿足需求不是問(wèn)題,關(guān)鍵是怎么去突破軟件,包括底層軟件、操作系統(tǒng)、上層應(yīng)用。”
謝濤給出的數(shù)據(jù)是,自CUDA誕生以來(lái),英偉達(dá)已經(jīng)為CUDA生態(tài)投入了120億美元;而且目前最新的數(shù)據(jù)是,CUDA開(kāi)發(fā)者數(shù)量已經(jīng)來(lái)到了450萬(wàn)——且基于歷史數(shù)據(jù),這個(gè)值還在快速增長(zhǎng)。
其他絕大部分AI芯片市場(chǎng)參與者的軟件棧各自為戰(zhàn),生態(tài)呈現(xiàn)出“小、散、弱”的局面。硬件架構(gòu)的分散,指令集的不統(tǒng)一,以及軟件生態(tài)的碎片化,也都導(dǎo)致開(kāi)發(fā)者在不同生態(tài)間的遷移成本很高。即便兼容CUDA是某些AI生態(tài)的解決方案,但這“只能解燃眉之急”,“長(zhǎng)期仍然受制于人”。
以英偉達(dá)CUDA生態(tài)相對(duì)封閉的特點(diǎn),謝濤提出歷史上能夠擊敗閉源霸主生態(tài)的往往是一個(gè)開(kāi)源的生態(tài),就好像Android對(duì)陣iOS,Linux對(duì)陣Windows一樣。而RISC-V指令集本身,恰好是開(kāi)源的,而且目前已經(jīng)有了相當(dāng)?shù)男酒鲐浟考伴_(kāi)發(fā)生態(tài)基礎(chǔ)。
芯原與谷歌攜手合作的開(kāi)源項(xiàng)目Open Se Cura,配備基于RISC-V的環(huán)境感知和傳感系統(tǒng),包括系統(tǒng)管理、機(jī)器學(xué)習(xí)與硬件信任根功能…
比較有趣的是,今年WAIC世界人工智能大會(huì)上,RISC-V國(guó)際基金會(huì)理事長(zhǎng)戴路說(shuō)RISC-V是最適合AI的指令集架構(gòu);去年我們采訪Tenstorrent首席CPU架構(gòu)師練維漢,他也說(shuō)RISC-V非常適合做AI計(jì)算。這次謝濤給出基于RISC-V構(gòu)建AI算力優(yōu)勢(shì)的解釋是這樣的:
RISC-V的開(kāi)放與靈活性必然是第一要素。AI工作負(fù)載變化快,梁中書(shū)也提到AI負(fù)載有其“個(gè)性化”,需要優(yōu)化才能達(dá)到最佳效率。而RISC-V的靈活性,決定了可以根據(jù)需求來(lái)定制AI加速器。練維漢也曾說(shuō)過(guò),Tenstorrent最早做CPU設(shè)計(jì)時(shí)考慮過(guò)Arm,但Arm“限制很多,經(jīng)常需要去問(wèn)Arm可不可以這樣、可不可以那樣”,還會(huì)得到否定的答案。
對(duì)應(yīng)的,高度可擴(kuò)展性也是論壇現(xiàn)場(chǎng)多位嘉賓提到RISC-V適用AI的關(guān)鍵。根據(jù)需要添加自定義指令集擴(kuò)展,增強(qiáng)AI計(jì)算性能與效率。前文提到松耦合、緊耦合的RISC-V AI芯片皆可反映上述這兩點(diǎn)。另外謝濤還提到了RISC-V的功耗、效率優(yōu)勢(shì),以及作為開(kāi)源指令集獲得全球生態(tài)系統(tǒng)和社區(qū)支持。
即便當(dāng)前RISC-V仍然面臨著生態(tài)碎片化、商業(yè)企業(yè)對(duì)RISC-V產(chǎn)品的資源投入不足、缺少組織統(tǒng)籌,及產(chǎn)學(xué)研協(xié)同不緊密、未形成有效合力等問(wèn)題;謝濤認(rèn)為,采用自下而上的思路,以RISC-V指令集擴(kuò)展+開(kāi)源系統(tǒng)軟件棧(并推成標(biāo)準(zhǔn))為“公共開(kāi)源根”,去利用國(guó)際開(kāi)放/開(kāi)源社區(qū)“長(zhǎng)葉”(基于開(kāi)源根的商業(yè)軟件/芯片),形成“根技術(shù)開(kāi)源”與“葉技術(shù)競(jìng)爭(zhēng)”的技術(shù)生態(tài)優(yōu)勢(shì);
加上先從端與邊緣AI起步,推動(dòng)軟件生態(tài)發(fā)展和應(yīng)用,帶動(dòng)云上軟件生態(tài),“農(nóng)村包圍城市”,與現(xiàn)有巨擘抗衡;并依托日益強(qiáng)大的RISC-V軟硬件生態(tài),聚焦全球開(kāi)源工具創(chuàng)新......最終是能夠達(dá)成Android→iOS或Linux→Windows的競(jìng)爭(zhēng)格局的。
格外值得一提的是,在謝濤看來(lái)Triton(開(kāi)源的GPU編程語(yǔ)言)和SYCL(和CUDA同層級(jí)的跨平臺(tái)抽象層)是RISC-V AI生態(tài)發(fā)展的關(guān)鍵——這一點(diǎn)電子工程專輯此前也撰文提過(guò)。Triton實(shí)現(xiàn)了硬件無(wú)關(guān)的中間層表示,生態(tài)兼容負(fù)擔(dān)小,編程難度相較CUDA更低,“仍能實(shí)現(xiàn)接近于CUDA極限生態(tài)的性能”;而SYCL被謝濤類比為“編程模型中的RISC-V”(相對(duì)的CUDA是編程模型中的x86)。
當(dāng)然,這就是更為長(zhǎng)遠(yuǎn)的RISC-V AI未來(lái)了。
半導(dǎo)體熱門(mén)技術(shù)的最佳輔助
滴水湖論壇現(xiàn)場(chǎng)的產(chǎn)品介紹實(shí)際并不單純集中在AI上,比如基于RISC-V的車(chē)規(guī)級(jí)MCU、工業(yè)以太網(wǎng)MCU,乃至FTTR光網(wǎng)絡(luò)芯片、面向AR/VR的高性能SoC這類相對(duì)新興的應(yīng)用。
有些類型的芯片還相當(dāng)顛覆我們的認(rèn)知,比如說(shuō)芯昇科技的超級(jí)SIM芯片,基于RISC-V的同時(shí),還進(jìn)行了指令擴(kuò)展——即便規(guī)模相對(duì)較小,但也在加速特定算子、形成專用指令、解決具體應(yīng)用場(chǎng)景的問(wèn)題上大幅提升了效率。還有珠海笛思科技有限公司的Wi-Fi 6芯片,基于通信+AI融合的思路,其自定義指令集基于RISC-V VLIW和SIMD對(duì)無(wú)線通信系帶領(lǐng)域和經(jīng)典AI領(lǐng)域算法做了重點(diǎn)優(yōu)化…
這些其實(shí)都能看出RISC-V的靈活性在不同應(yīng)用領(lǐng)域的呈現(xiàn),也是非開(kāi)源的競(jìng)品指令集完全不具備的。
去年我們?cè)谡刅entana的RISC-V核心時(shí),曾提到這家公司的獨(dú)特商業(yè)模式:面向AI芯片客戶提供基于RISC-V CPU的chiplet。當(dāng)時(shí)我們?cè)袛?,RISC-V的靈活和擴(kuò)展性,可能會(huì)一定程度顛覆IP供應(yīng)商的市場(chǎng)定位。它讓更多的IP供應(yīng)商不得不開(kāi)始去做更完整的chiplet方案。
Sameer Wasson在談當(dāng)下MIPS的IP業(yè)務(wù)時(shí),于“滿足生成式AI需求”,就演變?yōu)閺暮诵摹⒌郊?、再到chiplet。而chiplet作為摩爾定律停滯時(shí)代的算力擴(kuò)展解決方案之一,在未來(lái)將變得越來(lái)越不可或缺。芯原的下一代自動(dòng)駕駛平臺(tái)也有類似的思路。
考慮RISC-V的靈活和擴(kuò)展能力,我們始終認(rèn)為,在這個(gè)芯片設(shè)計(jì)需以應(yīng)用為導(dǎo)向的時(shí)代里,幾個(gè)關(guān)鍵要素是共同出現(xiàn)、相輔相成的:異構(gòu)架構(gòu)、chiplet、先進(jìn)封裝,以及RISC-V。
從RISC-V作為半導(dǎo)體領(lǐng)域其他幾項(xiàng)關(guān)鍵技術(shù)的最佳輔助這個(gè)角度來(lái)看,RISC-V也是摩爾定律停滯時(shí)代,持續(xù)推進(jìn)算力和系統(tǒng)性能向前的絕對(duì)主力。雖然這個(gè)說(shuō)法有些武斷,卻正逐漸成為AI時(shí)代越來(lái)越多人的共識(shí)。
即便現(xiàn)在的RISC-V及其生態(tài)還面臨各種各樣的問(wèn)題,比如陳康(珠海笛思科技有限公司CEO)提到的,PPA相比競(jìng)品的競(jìng)爭(zhēng)力不足、生態(tài)碎片化問(wèn)題令產(chǎn)品移植難度更大、類似三角函數(shù)這樣的基礎(chǔ)指令都尚未標(biāo)準(zhǔn)化——給編譯器、工具鏈和上層應(yīng)用的構(gòu)建造成巨大挑戰(zhàn)等...相信在RISC-V生態(tài)疾速發(fā)展的過(guò)程中,這些問(wèn)題都會(huì)得到解決。
不單是技術(shù)層面軟硬件生態(tài)的發(fā)展,還在于諸如2018年RISC-V產(chǎn)業(yè)聯(lián)盟成立,后續(xù)RISC-V專利聯(lián)盟啟動(dòng),民辦非企業(yè)單位“上海開(kāi)放處理器產(chǎn)業(yè)創(chuàng)新中心”籌建,及包括滴水湖中國(guó)RISC-V產(chǎn)業(yè)論壇、“芯原杯”全國(guó)嵌入式軟件開(kāi)發(fā)大賽等行業(yè)活動(dòng)的舉辦都會(huì)讓RISC-V生態(tài)在保持開(kāi)放的同時(shí),走向健全和完善——而且要知道,這個(gè)過(guò)程是在短短幾年內(nèi)走完的。
