行業(yè)巨頭都在打造靠異構算力,這種架構已經(jīng)“搶跑”
根據(jù)IDC的預測,到2023年,中國的人工智能芯片出貨量將達到133.5萬片,同比增長22.5%。這一預測得到了11月29日在北京舉行的2023人工智能計算大會的證實。
會上,與大模型和生成式人工智能的發(fā)展相關的智能算力市場的增長被強調(diào),智能算力規(guī)模增速快于通用算力,預計2022年至2027年中國智能算力規(guī)模年均復合增長率將達到33.9%,而同期通用算力規(guī)模年均復合增長率僅為16.6%。 業(yè)內(nèi)人士指出,打造異構算力、建立開放生態(tài)、突破高性能算力瓶頸已成為共識。目前,許多大模型企業(yè)都愿意主動適配國產(chǎn)芯片,這將為國產(chǎn)芯片帶來新的發(fā)展機遇。
“通用”與“專用”相向而行
從20世紀60年代的字符終端時代到如今的智能計算時代,數(shù)據(jù)的量和質(zhì)都發(fā)生了顯著的變化。以文本、圖表為主的結構化數(shù)據(jù)比例不斷下降,融媒體數(shù)據(jù)、實時處理的傳感級數(shù)據(jù)等非結構數(shù)據(jù),以及深度學習的元數(shù)據(jù)的持續(xù)激增,將越來越多種類、精度的數(shù)據(jù)以更快的速度進行傳輸和處理,并成為智能計算的剛需。
作為通用處理器的代表型廠商,英特爾已經(jīng)將異構計算作為應對AI時代算力挑戰(zhàn)的關鍵戰(zhàn)略。如果將數(shù)據(jù)看作食材,CPU就相當于“瑞士軍刀”,適用于一切食材,卻不一定能將所有食材處理得又快又好。GPU、FPGA、DSP等專用處理器的加入,讓計算架構能更有效地應對場景化數(shù)據(jù)。
“異構計算的產(chǎn)業(yè)的基礎是數(shù)據(jù)的爆炸式增長,這其實是我們發(fā)展異構計算的主要驅(qū)動力?!庇⑻貭柤軜?、圖形和軟件集團副總裁兼中國區(qū)總經(jīng)理謝曉清在接受《中國電子報》采訪時指出,“CPU提供的是通用型計算的能力,解決的問題很廣義。但是GPU、FPGA,或者AI加速芯片解決的是特定領域的問題?,F(xiàn)在很多數(shù)據(jù)的產(chǎn)生都有一定的特點,以至于在CPU上的運算效果不一定是最理想的,在GPU或者其他并行計算能力高的芯片上會跑得更好,這是異構計算的主要驅(qū)動力?!?/span>
作為專用處理器廠商,賽靈思從器件向異構平臺的轉(zhuǎn)變也已開始。賽靈思大中華區(qū)核心市場業(yè)務發(fā)展總監(jiān)酆毅向《中國電子報》記者指出,智能駕駛正在從ADAS逐漸向全面自動駕駛持續(xù)演進,傳感器數(shù)量的增多勢必會帶來爆炸式的數(shù)據(jù)增長,這就需要汽車具備強大的異構計算平臺。在工業(yè)視覺領域,機器人技術、工業(yè)PC、I/O的模塊、智能傳感器、人機界面等都在產(chǎn)生不同類型的數(shù)據(jù)。在專業(yè)音視頻和廣播領域,從內(nèi)容采集到內(nèi)容消費的全部過程也需要遠程管理不同的服務器和計算平臺。
“單獨的計算架構,無法滿足越來越多樣的開發(fā)需求,因此,異構計算是未來的發(fā)展之路?!臂阂阒赋?,“伴隨工藝的進步,F(xiàn)PGA也打破了傳統(tǒng)的應用邊界,進入到AI、數(shù)據(jù)中心、視頻處理、自動駕駛、5G等新興領域中。而FPGA也通過集成標量處理引擎、自適應硬件引擎和智能引擎,完成了從器件到異構平臺的轉(zhuǎn)變?!?/span>
三大廠商引領異構計算
現(xiàn)在隨著5G、AI、云計算等新興領域?qū)τ嬎懔康男枨?,已?jīng)超過了通用CPU的發(fā)展速度,僅通過提升CPU時鐘頻率和內(nèi)核數(shù)量而提高計算能力的傳統(tǒng)方式遇到了散熱和能耗瓶頸,所以需要GPU、FPGA、DSP,現(xiàn)在還多了DPU,這些計算單元去配合CPU進行并行計算,大家分工協(xié)作,“專人干專事”,以此來很好的滿足這些計算需求。
而英特爾、AMD、英偉達三大廠商最近的一些列集中的動作更是把異構計算推上了風口浪尖:
英特爾CPU+GPU新架構Falcon Shores
英特爾在最近的投資者會議中提出了一個新架構——Falcon Shores。這是一款將X86和Xe GPU 整合到一個Xeon插槽中的新架構。該架構將利用英特爾埃米時代工藝技術、下一代封裝、英特爾正在開發(fā)的新型超帶寬共享內(nèi)存以及領先的I/O技術。他們預計,相對于當前平臺,F(xiàn)alcon Shores將提供超過5倍的每瓦性能、超過5倍的計算密度增加以及超過5倍的內(nèi)存容量和帶寬提升。
英偉達Grace CPU
2021年4月,英偉達公布了其首款代號為Grace的CPU產(chǎn)品,這是專為人工智能和超算使用需求打造的。該產(chǎn)品采用下一代Arm Neoverse內(nèi)核,在NVIDIA放出的設計示圖中,Grace CPU是以MCM(Multi-Chip Module,多芯片模組)形式構成,包括CPU、GPU、DPU和帶有ECC的LPDDR5x的新型高帶寬內(nèi)存子系統(tǒng),輔以使用 NVLink 通道技術??梢哉f是專為連接英偉達GPU所設計。據(jù)悉,Grace預計在2023年發(fā)布。
對于英偉達來說,Grace CPU的研發(fā)將對其意義深遠,使其不必完全受制于AMD和英特爾在CPU上的的合作關系,可以說是自立自強的一個表現(xiàn)。因為即使GPU的并行能力不斷提高,但GPU終究在加速運算中扮演資料運算,仍需搭配CPU執(zhí)行基本的系統(tǒng),以及由CPU 發(fā)號運算的命令,所以GPU和CPU之間的溝通很重要。而x86架構的CPU又受限PCIe頻寬的影響,GPU與CPU之間溝通效率很低,無法滿足巨量數(shù)據(jù)傳輸處理效率需求,此前英偉達為了解決這個問題,研發(fā)了高速通道技術NVLink,但合作伙伴只有較冷門的IBM Power,而市場占有率較大的英特爾和AMD都有自身的加速器,自然也不會加入英偉達的支援陣列。
AMD收購賽靈思,補齊FPGA產(chǎn)品線
近日AMD完成了對賽靈思的收購,AMD的CPU和賽靈思的FPGA,未來也將走向CPU+FPGA的異構整合中。因為,這條路英特爾已經(jīng)趟過,收購了Altera之后,F(xiàn)PGA產(chǎn)品線在英特爾中發(fā)揮的不錯,2018 年,英特爾宣布將“Skylake”至強SP處理器 Arria 10 FPGA 混合在一個封裝中的產(chǎn)品。FPGA在現(xiàn)成CPU 上運行的編程語言和用于實現(xiàn)某些功能或軟件堆棧的定制ASIC之間的邊界仍然具有吸引力。
總之,收購賽靈思之后,AMD 設計的每個計算設備,無論是單芯片還是封裝中的Chiplet集合,都可以在 AMD 認為合適的時候添加一些可編程邏輯。
英特爾向GPU擴展的動作很大,英偉達研究CPU自立自強的決心也很大,氣勢正旺的AMD有了FPGA也如虎添翼。隨著三大廠商逐漸補齊產(chǎn)品線,異構計算或?qū)⑦M入全面爆發(fā)。未來,異構計算會越來越多的取代原來通用計算不擅長的部分。
國內(nèi)芯片廠商跟進
不同于國際大廠在各方面實力雄厚,國內(nèi)廠商難以在短時間內(nèi)形成如此全的產(chǎn)品線,但是國產(chǎn)芯片廠商現(xiàn)在已經(jīng)漸漸開始選擇通過投資和合作的方式埋下異構的種子。
2021年11月,GPU芯片企業(yè)壁仞科技,與IDG資本、字節(jié)跳動等共同參與了國產(chǎn)DPU初創(chuàng)企業(yè)云脈芯聯(lián)數(shù)億元的天使輪投資。據(jù)壁仞科技創(chuàng)始人、董事長、CEO張文透露,除了DPU之外,從布局整體計算產(chǎn)業(yè)出發(fā),壁仞科技正在密切關注國產(chǎn)CPU的最新發(fā)展,未來形成CPU+GPU+DPU的全國產(chǎn)系統(tǒng)級解決方案。
日前,DPU芯片廠商云豹智能與AI芯片廠商燧原科技達成了戰(zhàn)略合作,共同研發(fā)和提供大規(guī)模高性能AI算力平臺解決方案?;谠票悄茉葡鯠PU和燧原科技云燧T20率先推出了DataDirectPathStorage解決方案,為AI訓練儲存訪問提供更高效的解決方案。在傳統(tǒng)解決方案中,云燧T20訪問存儲時,需要將數(shù)據(jù)先搬移到系統(tǒng)內(nèi)存,再由系統(tǒng)內(nèi)存搬移到目標設備。而基于DataDirectPath Storage技術,云燧T20可通過DPU直接獲得數(shù)據(jù),從而繞過系統(tǒng)內(nèi)存和CPU,讓數(shù)據(jù)訪問速度更快,訪問延遲更短,系統(tǒng)開銷更小。
此外,國內(nèi)還有異構處理器IP提供商華夏芯,通過自主設計的Unity統(tǒng)一指令集架構和基于此架構的CPU、DSP、GPU、AI專用處理器系列IP與SoC,在提升性能價格比的同時,顯著降低計算芯片研發(fā)成本和研發(fā)復雜度,同時縮短研發(fā)周期,減少開發(fā)人員工作量和降低開發(fā)門檻。據(jù)悉,華夏芯的Unity和英特爾的OneAPI都是為了簡化編程環(huán)境,但不同的是,OneAPI是面向不同體系架構的統(tǒng)一編程環(huán)境,Unity是面向不同微架構的統(tǒng)一體系架構和統(tǒng)一編程環(huán)境。
RISC-V架構與異構計算相當適配
在異構計算的框架下,RISC-V可謂是如有得水,其提供了遠超x86架構和ARM架構的靈活性,并因為是后起架構,沒有歷史包袱,創(chuàng)新限制更少,因此RISC-V在異構計算時代擁有廣闊的應用前景。
RISC-V在異構計算領域的發(fā)展前景是極好的,當然所面對的挑戰(zhàn)也不小。我們都知道,對于RISC-V而言,其在異構計算方面的進展和在高性能方面的進展是同步,異構計算可以被看作是RISC-V沖擊高性能計算市場的重要抓手,那么面臨的挑戰(zhàn)其實和基于RISC-V實現(xiàn)高性能計算便較為一致,當然也會有一些挑戰(zhàn)是從異構計算理念出發(fā)的。
實際上,電子發(fā)燒友網(wǎng)此前的報道有過此方面的表述,相關言論來自中國科學院軟件研究所總工程師武延軍研究員。對于RISC-V在高性能領域的硬件發(fā)展,他表示,“當RISC-V生態(tài)發(fā)展到一定程度后,將不會再籠統(tǒng)地說一個處理器有多少個核,主頻多少,算力多少。而是講一個處理器中有多少種類型的核心,每一個核心有怎樣的定制能力。這些不同類型的核心集中在一個平臺上,能夠滿足豐富的應用場景需求?!?/span>
很顯然,RISC-V想要在異構計算領域有所作為,產(chǎn)品的豐富度和定制性要能夠完美展現(xiàn),比如目前異構計算延伸出了“XPU”的概念,RISC-V對此都要進行實現(xiàn)。并且,XPU理念現(xiàn)階段還是以ARM架構為主導,RISC-V需要先模仿后超越,全面釋放自己的模塊化和靈活性優(yōu)勢。在此過程中,基于RISC-V打造的計算芯片還需要滿足通用標準,未來也主導通用互聯(lián)標準。
武延軍研究員也在軟件層面講到了RISC-V后續(xù)需要強化的點,“往高性能去發(fā)展,對于上面的軟件生態(tài)是一個非常大的挑戰(zhàn)??梢钥吹侥壳斑€有很多核心的基礎軟件沒有很好地跑在RISC-V平臺上。這里可能會有指令集規(guī)范還不成熟的問題,但更多的是這些基礎軟件包之前都是在x86和ARM平臺上面跑,從維護者、社區(qū)的角度,還沒有把RISC-V當成Tier-1或者First-Class-Citizen去對待。這里面有理念問題,有投入問題,也有商業(yè)利益回報問題?!彼麑Υ酥v到。
因此,RISC-V做異構計算其實并不只是單純豐富芯片種類,提升芯片性能,也需要完善軟件生態(tài),這個難度可能比硬件更大。但無論前路如何充滿荊棘,異構計算都是RISC-V必須把握好的一個產(chǎn)業(yè)大趨勢,在處理器架構方面,RISC-V要想實現(xiàn)和x86架構以及ARM架構三分天下,不能一直靠模仿ARM,而異構計算有足夠的市場容量和市場廣度讓RISC-V走出自己的路,這是至關重要的。
