信息爆炸時代,CPU已經(jīng)不夠用了,更多“PU”正在路上
隨著技術(shù)的發(fā)展,數(shù)據(jù)量的爆炸性增長,到2025年,全球生成和消耗的數(shù)據(jù)總量預(yù)計將超過180ZB。而計算機的核心部件——中央處理器(CPU)分析數(shù)據(jù)的能力卻有點力不從心,導(dǎo)致數(shù)據(jù)處理緩慢且低效。傳統(tǒng)的CPU為了滿足多任務(wù)處理、高效能和節(jié)能要求,變得越來越復(fù)雜。在這個高速發(fā)展的時代,我們不能再依賴單一的CPU來完成所有的工作。為此,各種特定的處理單元(PU)如雨后春筍般涌現(xiàn),其目標就是“瓜分”CPU的任務(wù),人多力量大,各司其職,優(yōu)化計算效率。
GPU成就英偉達霸主之路
GPU成為AI計算的標配,其中最大的贏家非英偉達莫屬,在AI計算領(lǐng)域英偉達的GPU幾乎占到市場的絕大部分,英特爾和AMD等芯片巨頭也幾乎都錯過了這一波AI浪潮的紅利。
2006年英偉達推出CUDA,帶來了靈活便捷的GPU編程手段,這為使用GPU完成AI計算創(chuàng)造了良好的條件。2014年英偉達發(fā)布cuDNN V1.0深度神經(jīng)網(wǎng)絡(luò)加速庫,并集成進了Caffe等AI框架中,進一步為基于英偉達GPU的AI計算提升性能和易用性等,使得AI開發(fā)和研究人員可以更加專注于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計等。2016年英偉達推出的Pascal架構(gòu)GPU產(chǎn)品,已經(jīng)開始專門為AI計算場景,特別是推理計算場景,做了許多的定制和優(yōu)化,能更好的滿足AI計算的需求,此外推出NVlink單機多卡的互聯(lián)技術(shù),增加了GPU之間通信的帶寬,也加速了多卡并行計算的效率。2017年英偉達在Volta架構(gòu)系列GPU中引入TensorCore,使得英偉達GPU產(chǎn)品在AI計算的訓(xùn)練場景的性能繼續(xù)提升。2020年英偉達又推出新一代Ampere架構(gòu)的GPU產(chǎn)品,在算力和性能等又大幅提升。
目前在AI計算場景下,英偉達GPU已經(jīng)成為最主流的選擇,從整個發(fā)展過程中可以看到英偉達在軟硬件方面的所做的努力也密不可分,并且從2014年開始英偉達在AI方面每一次布局都剛好恰到好處。CUDA的推出可能為2011年前后發(fā)現(xiàn)GPU在AI計算中10-60倍的加速效果創(chuàng)造有利條件;2014年推出的cuDNN,并集成進Caffe等AI框架,在軟件層面進一步增加了英偉達GPU的易用性等;2016年開始直接在芯片層面全面支持AI計算場景需求,后續(xù)的產(chǎn)品在算力和性能等方面的提升正好又迎合了AI技術(shù)和產(chǎn)業(yè)發(fā)展的大趨勢。
再看另外兩家芯片巨頭英特爾和AMD,這兩家都有非常強大的實力,按理說應(yīng)該也能在這一波AI浪潮取得巨大紅利,但事實上卻并沒有。當(dāng)然因為AI的發(fā)展帶動CPU采購肯定也給英特爾和AMD帶來了不少收益。過去10年中,英特爾并沒有專門針對AI計算推出相應(yīng)的產(chǎn)品,不論學(xué)界還是業(yè)界有AI方面新的研究成果,英特爾可能都會跟進在CPU上進行一些優(yōu)化,聲稱在GPU上的性能只比在CPU上快2-3倍左右,并沒有像其他地方所說的幾十倍上百倍的效果。在AI計算效率等方面,英特爾在CPU上優(yōu)化后確實能夠縮小與GPU的差距,但這種優(yōu)化的思路在業(yè)界并沒有太多的跟隨者,主要是優(yōu)化工作本身的門檻相對較高。
AMD在過去十多年中CPU一直被英特爾壓著,無暇顧及GPU市場的更多需求,雖然AMD的GPU在游戲市場也不錯,但在AI計算方面始終沒有形成氣候。當(dāng)然2018年前后AMD新架構(gòu)的CPU產(chǎn)品面世之后,最近幾年大有反超英特爾的架勢,不久前AMD推出的Instinct MI100的GPU產(chǎn)品不知道是否會在AI計算領(lǐng)域挑戰(zhàn)英偉達的地位,讓我們拭目以待。
AI成就GPU,但GPU還不是AI的完美答案?
實際上,GPU并不是為AI所生的,它只是解決AI算力需求的一種方案,有沒有更好的?答案是肯定的,只是還不知道究竟誰是顛覆GPU的下一個芯片主角。
一位國產(chǎn)GPU廠商的GPU產(chǎn)品設(shè)計負責(zé)人告訴《中國經(jīng)濟周刊》 ,芯片是算力的基本構(gòu)成,核心的計算都運行在芯片上。整個硬件的邏輯是芯片以板卡或者其他算力卡的形態(tài),部署在服務(wù)器中,服務(wù)器安置在機柜中,大量機柜組成數(shù)據(jù)中心。大模型的崛起,毫無疑問給芯片產(chǎn)業(yè)帶來了一個巨大的潛在市場,也帶來了很多技術(shù)要求,特別是對于芯片的單卡算力性能、互連能力等關(guān)鍵性能指標都提出更高的要求,因此需要市場開發(fā)更強的芯片產(chǎn)品。
這位負責(zé)人認為,GPU成為主流是因為AI發(fā)展的初期,能夠獲取的最適合的芯片架構(gòu)就是GPU,因此有先發(fā)優(yōu)勢。但GPU的核心痛點在于芯片制造技術(shù)追不上算力需求的增加,也就是常說的摩爾定律走到了盡頭。目前GPU芯片所用的最先進制程是4nm~5nm制程,已經(jīng)非常逼近摩爾定律的物理極限了,未來幾乎無法再通過制程的升級來提升芯片性能。
此外,該負責(zé)人表示,傳統(tǒng)的GPU還保留了不少不需要的圖形運算功能,使得整個芯片的計算效率并不是最高,這也是GPU的劣勢。其他主流的AI芯片解決方案,也都還不完美,比如針對AI運算開發(fā)的專用芯片(ASIC)方案,雖然計算效率更高,但通用性較差。
“未來最有希望實現(xiàn)突破的還在于更新的封裝技術(shù) (比如3D封裝)、更新的材料等方式,嘗試突破摩爾定律?!痹撠撠?zé)人說。
汪波從芯片架構(gòu)原理的角度,做了進一步的解釋。他表示,受制于其架構(gòu)本身,用GPU解決AI算力并不完美,畢竟GPU最初并不是因AI而生的。此外,GPU的計算和存儲是分開的,需要在計算和存儲之間來來回回地調(diào)用數(shù)據(jù),這種搬運數(shù)據(jù)消耗的能量是計算的10倍。而且GPU很多時候是在等待數(shù)據(jù)過來再進行計算,因此,GPU的計算效率并不高,而且功耗非常大,GPU的強大算力是要付出巨大成本的。
“在芯片設(shè)計中,一直在尋求PPA折中,即性能(Performance)、功耗(Power) 和面積 (Area)的平衡點,因為三者不能同時達到最優(yōu)。性能和功耗一直是一對矛盾,而面積越大,芯片成本越高?!蓖舨ㄕf。
汪波還表示,實際上,學(xué)術(shù)界和科技公司的研究者們都在研究更適配人工智能的芯片,采用新的原理和新的材料。比如做存算一體的芯片,在存儲器內(nèi)部去完成計算,不用再搬運數(shù)據(jù),這樣就能實現(xiàn)功耗更低但算力更大?!澳壳埃m然還在探索階段,但好消息是在這個領(lǐng)域,中國和世界同步的。”他說。
還有一個思路就是改變芯片的馮諾依曼式架構(gòu),模擬人腦數(shù)據(jù)處理方式的神經(jīng)形態(tài)芯片?!吧窠?jīng)形態(tài)芯片已經(jīng)發(fā)展了幾十年,雖然目前算力還沒有辦法跟GPU去PK,但如果其算力能達到GPU的一半,就可能憑借能耗和成本優(yōu)勢異軍突起?!蓖舨ㄕf。
彭虎也分析稱,GPU具有強大的并行計算能力和高效的浮點運算能力,且屬于通用芯片,能夠較好地滿足各類AI算法要求,但也存在較高功耗和較低算力利用率的短板。除了GPU,AI芯片還包括FPGA和各類ASIC方案。FPGA屬于具備可編程硬件結(jié)構(gòu)的集成電路,其可編程性和靈活性可快速適應(yīng)不同AI算法要求,但也存在高功耗的問題。ASIC屬于專用芯片,通過算法固化實現(xiàn)更高的算法利用率和能耗比,但開發(fā)周期較長、靈活性較弱。
“我們認為,目前GPU仍是較好滿足AI大模型、支持多模態(tài)的成熟的一站式解決方案,ASIC以其高性價比、高能耗比等優(yōu)勢將在未來AI市場中占據(jù)一席之地。”彭虎說。
實際上,能耗問題已經(jīng)是算力發(fā)展乃至AI發(fā)展的重要瓶頸。北京智源人工智能研究院副院長兼總工程師林詠華告訴《中國經(jīng)濟周刊》 記者,一個百億級別大模型僅僅訓(xùn)練消耗的電費每天都要在10萬元以上。
“超過千億級別的大模型,訓(xùn)練需要1000~2000張A100的卡,硬件成本約5000萬美金,還需要投入人力、電力、網(wǎng)絡(luò)支出等,一年至少5000萬美金到1億美金成本?!崩鋈f維CEO方漢曾表示。
一家國內(nèi)頭部AI算力供應(yīng)商的負責(zé)人告訴 《中國經(jīng)濟周刊》 記者,一個傳統(tǒng)數(shù)據(jù)中心,電費要占運維總成本60%~70%。而每耗費一度電,卻只有一半用在了正事 (計算)上,其他則浪費在散熱上。因此,新型數(shù)據(jù)中心一般會采用液冷技術(shù),這樣可以比采用風(fēng)冷節(jié)省30%以上的電費。
全球大型互聯(lián)網(wǎng)公司都在想盡各種辦法解決散熱難題,為了降低能耗,他們把數(shù)據(jù)中心埋在山里(騰訊)、泡在湖里 (阿里)、扔進大海(微軟)、拉到北極(Meta)……
為數(shù)據(jù)處理而生的DPU
有了專門處理圖形的GPU之后,還不夠。在數(shù)字化時代,需要有針對數(shù)據(jù)處理而生的處理器,于是數(shù)據(jù)處理單元(DPU)應(yīng)運而生,DPU也被稱為是數(shù)據(jù)中心的第三大計算支柱。DPU 與 CPU 和 GPU 配合使用,可增強計算能力并處理日益復(fù)雜的現(xiàn)代數(shù)據(jù)工作負載。
DPU是專門設(shè)計用來處理大量的數(shù)據(jù)和信息。它可以有效地處理和分析數(shù)據(jù),提高數(shù)據(jù)中心和云計算平臺的性能。根據(jù)英偉達的說法,DPU應(yīng)該能完成以下三大項任務(wù):
卸載:從服務(wù)器CPU接管基礎(chǔ)設(shè)施任務(wù),以便更多的CPU能力可用于運行應(yīng)用程序。
加速:使用DPU芯片中的硬件加速,比CPU更快地運行基礎(chǔ)設(shè)施功能。
隔離:將關(guān)鍵數(shù)據(jù)平面和控制平面功能移至DPU上的單獨域,既可以減輕服務(wù)器CPU 的工作,又可以在CPU或其軟件受到損害時保護功能。
迄今為止,許多 DPU 開發(fā)都是針對超大規(guī)模的。展望未來,DPU 在數(shù)據(jù)中心和企業(yè)網(wǎng)絡(luò)其他地方的使用預(yù)計將會增長。一種可能實現(xiàn)的方式是將 DPU 技術(shù)與網(wǎng)絡(luò)交換機相融合——AMD Pensando 將這種技術(shù)組合稱為“智能交換機”?!拔覀冋J為智能交換機是企業(yè)吸收 DPU 技術(shù)的最簡單方法,因為它可以讓他們淘汰舊設(shè)備,并為他們的網(wǎng)絡(luò)帶來重要的技術(shù)和規(guī)模,” AMD Pensando 網(wǎng)絡(luò)技術(shù)和解決方案小組首席商務(wù)官 Soni Jiangdani 表示。
由于人工智能、機器學(xué)習(xí)、深度學(xué)習(xí)、物聯(lián)網(wǎng)、5G 和復(fù)雜云架構(gòu)需求的增長,DPU市場穩(wěn)步增長。隨著對數(shù)據(jù)密集型應(yīng)用程序的需求不斷增加,計算架構(gòu)將不斷發(fā)展,從而需要更快、更高效、更安全的數(shù)據(jù)處理。DPU市場市場上涌現(xiàn)了不少芯片玩家,主要供應(yīng)商包括國外的英偉達、Marvell、Fungible(被微軟收購)、Broadcom、Intel、Resnics和AMD Pensando,國內(nèi)還有中科馭數(shù)、芯啟源云豹智能、云脈芯連等等。
根據(jù)Allied Market Research 的一份報告,預(yù)計到 2031 年,全球數(shù)據(jù)處理單元市場將達到 55 億美元,2022 年至 2031 年的復(fù)合年增長率為 26.9%。因此,DPU 可能會從今天的可選組件轉(zhuǎn)變?yōu)橄乱淮嬎愕谋匾袠I(yè)標準。
爆炸性增長的視頻,需要VPU
隨著視頻內(nèi)容的普及和人工智能技術(shù)的飛速發(fā)展,視頻處理單元(VPU,Video Processing Unit)成為了當(dāng)前科技領(lǐng)域的一顆新星。多年來,英特爾的CPU+軟件的視頻解碼/編碼方案一直主導(dǎo)著流媒體市場,但是隨著視頻流媒體對高質(zhì)量視頻的需求不斷增長,CPU將不再具有經(jīng)濟價值,而且會消耗太多的能耗和空間。于是,VPU這種專門用來處理視頻的芯片開始興起,他們旨在釋放CPU的龐大勞動力。
VPU(視頻處理單元)是專門設(shè)計用來處理視頻任務(wù)的,它可以高效地處理視頻編碼和解碼、圖像處理和機器視覺等任務(wù)。通過將這些任務(wù)從CPU或GPU上卸載,VPU可以提高系統(tǒng)的總體效率和性能,同時也減輕了CPU或GPU的負擔(dān),使它們可以專注于其他任務(wù)。而且這樣的VPU通常還具有高性能、低功耗和低延時等多個優(yōu)勢,據(jù)SemiAnalysis對VPU芯片廠商镕銘微電子(NETINT)的分析,相比于CPU和GPU,VPU的密度和功耗是CPU和GPU無法比擬的,VPU的出現(xiàn)可以說是為視頻行業(yè)應(yīng)用帶來了前所未有的加速計算能力。
當(dāng)下4K、8K等高清視頻技術(shù)的廣泛應(yīng)用,使得視頻處理的計算負擔(dān)持續(xù)上升,這使得高效能的VPU成為行業(yè)發(fā)展的必備工具。目前包括谷歌、Meta、字節(jié)跳動和騰訊等互聯(lián)網(wǎng)巨頭均已經(jīng)瞄上這顆芯片。與此同時,AMD在今年4月,發(fā)布了一款用于數(shù)據(jù)中心的新型專用媒體加速器和視頻編碼卡——Alveo MA35D,英特爾則是將VPU集成到其14代酷睿Meteor lake處理器中。除了云和數(shù)據(jù)中心之外,終端也已成為視頻及游戲的主要載體,手機廠商愈發(fā)追求視頻或影像質(zhì)量。對此,vivo/小米以視頻芯片為自研切入點,如Pixelworks/逐點半導(dǎo)體這樣的第三方視頻芯片供應(yīng)商也開始迎來發(fā)展契機。
未來,視頻處理芯片市場預(yù)計將繼續(xù)增長,特別是在邊緣計算、物聯(lián)網(wǎng) (IoT) 和5G通信領(lǐng)域。高效和低功耗的視頻處理芯片將成為這些應(yīng)用領(lǐng)域的關(guān)鍵組件。
更多新的“PU”正在路上
一家成立于2018年的以色列的初創(chuàng)芯片企業(yè)NeuroBlade,開發(fā)了一種專用處理器架構(gòu),他們將之稱為是SPU(SQL處理單元)。該公司的目標是成為“數(shù)據(jù)分析領(lǐng)域的 Nvidia”。SPU主要是用來加速SQL指令處理,該公司CEO表示,通過使用專門設(shè)計的處理器加速SQL處理,可以實現(xiàn)端到端SQL分析加速。在部署方面,該芯片通過主機服務(wù)器的PCIe總線插入,能夠透明地接管SQL相關(guān)處理,而無需修改主機應(yīng)用程序軟件。
SPU支持常見的列式文件格式。當(dāng)一個查詢請求從查詢引擎發(fā)送時(也就是從數(shù)據(jù)庫管理系統(tǒng)中發(fā)出查詢請求),SPU可以直接訪問和處理存儲在本地存儲設(shè)備上的數(shù)據(jù)文件。在處理完數(shù)據(jù)文件后,SPU會將處理結(jié)果以原生查詢引擎布局的形式發(fā)送回查詢引擎。
NeuroBlade公司正在與多個大型超大規(guī)模提供商進行談判,并已與一家公司贏得了數(shù)千張SPU卡的合同。如NeuroBlade還與戴爾公司合作,在PowerEdge服務(wù)器中分銷SPU卡產(chǎn)品。據(jù)他們稱,超大規(guī)模企業(yè)使用這一SQL處理單元 (SPU) 來卸載運行分析工作負載的x86 CPU,可以獲得100倍或更多的工作加速,每年可以節(jié)省數(shù)百萬美元。在NeuroBlade的客戶中,還有存儲類客戶,鎧俠已經(jīng)在其CM7系列企業(yè)NVMe SSD中成功配置了其 NeuroBlade硬件增強型查詢系統(tǒng) (HEQS),據(jù)他們稱,可以使客戶能夠充分發(fā)揮高性能 SSD 吞吐量的潛力,從而將查詢性能提高高達100倍。
