明明為圖形處理而生,GPU為何能逆襲成為AI算力主力軍
在人工智能(AI)大模型時代下,算力扮演著越來越重要的角色,成為關(guān)鍵生產(chǎn)力。
艾瑞咨詢發(fā)布的《2023年中國智能算力行業(yè)發(fā)展白皮書》報告顯示,2023年大模型算力需求集中爆發(fā),AI 大模型相關(guān)行業(yè)占中國智能算力總需求的58.8%,接近60%,是智能算力的最大需求方;排名第二的是算法推薦,占比14.2%。
報告還顯示,2022年中國算力結(jié)構(gòu)中,智能算力規(guī)模占比達(dá)22.8%,但同期中國服務(wù)器結(jié)構(gòu)中,AI服務(wù)器出貨量占比僅6.8%。這意味著,智算資源存在稀缺性,而智算中心建設(shè)將有效改善中國智算資源供需結(jié)構(gòu)。
艾瑞咨詢產(chǎn)業(yè)數(shù)字化研究院負(fù)責(zé)人徐樊磊表示,未來,通用人工智能(AGI)技術(shù)將不斷發(fā)展,將推動整體智算需求提升,因此需要擁有足夠的高端智能算力和不斷優(yōu)化的軟硬件融合解決方案,以及可以構(gòu)建生態(tài)匯聚上下游、全鏈條、各領(lǐng)域的參與者,并使用門檻足夠低和便利。
事實(shí)上,過去一年多,以ChatGPT為代表的生成式 AI 技術(shù)風(fēng)靡全球。而作為以95%的市場占有率壟斷了全球 Al 訓(xùn)練芯片的英偉達(dá),成為了這輪 AI 混戰(zhàn)的最大贏家,其研發(fā)的A100/A800、H100/H800等多個 AI 芯片成為 AI 熱潮中的“爆品”。
正如英偉達(dá)自己所說:“GPU 已經(jīng)成為人工智能的稀有金屬,甚至是黃金,因?yàn)樗鼈兪钱?dāng)今生成式 AI 時代的基礎(chǔ)。”
從技術(shù)角度來說,GPU優(yōu)于CPU(通用處理器),特別是在并行計算能力、能耗效率和CUDA生態(tài)等方面,它的高算力和可擴(kuò)展性使英偉達(dá)GPU成為AI加速芯片市場的首選。
根據(jù)斯坦福大學(xué)最近發(fā)布的一項(xiàng)報告顯示,自2003年以來,過去20年GPU性能提高了約7000倍,單位性能價格也提高了5600倍。該報告還指出,GPU是推動 AI 技術(shù)進(jìn)步的關(guān)鍵動力。
如今,算力正加速向政務(wù)、工業(yè)、交通、醫(yī)療等各行業(yè)應(yīng)用加速演進(jìn),推動互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能等與實(shí)體經(jīng)濟(jì)深度融合,極大地激發(fā)了數(shù)據(jù)要素創(chuàng)新活力。
什么是GPU(圖形處理器)?
GPU是顯卡的核心部件,英文全名叫Graphics Processing Unit,圖形處理單元(圖形處理器)。GPU并不能和顯卡劃等號。顯卡除了GPU之外,還包括顯存、VRM穩(wěn)壓模塊、MRAM芯片、總線、風(fēng)扇、外圍設(shè)備接口等。
1999年,英偉達(dá)(NVIDIA)公司率先提出了GPU的概念。之所以要提出GPU,是因?yàn)?0年代游戲和多媒體業(yè)務(wù)高速發(fā)展。這些業(yè)務(wù)給計算機(jī)的3D圖形處理和渲染能力提出了更高的要求。傳統(tǒng)CPU搞不定,所以引入了GPU,分擔(dān)這方面的工作。
根據(jù)形態(tài),GPU可分為獨(dú)立GPU(dGPU,discrete/dedicated GPU)和集成GPU(iGPU,integrated GPU),也就是常說的獨(dú)顯、集顯。
GPU也是計算芯片。所以,它和CPU一樣,包括了運(yùn)算器、控制器和寄存器等組件。但是,因?yàn)镚PU主要負(fù)責(zé)圖形處理任務(wù),所以,它的內(nèi)部架構(gòu)和CPU存在很大的不同。
如上圖所示,CPU的內(nèi)核(包括了ALU)數(shù)量比較少,最多只有幾十個。但是,CPU有大量的緩存(Cache)和復(fù)雜的控制器(CU)。
這樣設(shè)計的原因,是因?yàn)镃PU是一個通用處理器。作為計算機(jī)的主核心,它的任務(wù)非常復(fù)雜,既要應(yīng)對不同類型的數(shù)據(jù)計算,還要響應(yīng)人機(jī)交互。
復(fù)雜的條件和分支,還有任務(wù)之間的同步協(xié)調(diào),會帶來大量的分支跳轉(zhuǎn)和中斷處理工作。它需要更大的緩存,保存各種任務(wù)狀態(tài),以降低任務(wù)切換時的時延。它也需要更復(fù)雜的控制器,進(jìn)行邏輯控制和調(diào)度。
CPU的強(qiáng)項(xiàng)是管理和調(diào)度。真正干活的功能,反而不強(qiáng)(ALU占比大約5%——20%)。
如果我們把處理器看成是一個餐廳的話,CPU就像一個擁有幾十名高級廚師的全能型餐廳。這個餐廳什么菜系都能做,但是,因?yàn)椴讼刀啵孕枰ㄙM(fèi)大量的時間協(xié)調(diào)、配菜,上菜的速度相對比較慢。
而GPU則完全不同。GPU為圖形處理而生,任務(wù)非常明確且單一。它要做的,就是圖形渲染。圖形是由海量像素點(diǎn)組成的,屬于類型高度統(tǒng)一、相互無依賴的大規(guī)模數(shù)據(jù)。所以,GPU的任務(wù),是在最短的時間里,完成大量同質(zhì)化數(shù)據(jù)的并行運(yùn)算。所謂調(diào)度和協(xié)調(diào)的“雜活”,反而很少。
并行計算,當(dāng)然需要更多的核啊,如前圖所示,GPU的內(nèi)核數(shù),遠(yuǎn)遠(yuǎn)超過CPU,可以達(dá)到幾千個甚至上萬個(也因此被稱為“眾核”)。
GPU的核,稱為流式多處理器(Stream Multi-processor,SM),是一個獨(dú)立的任務(wù)處理單元。
在整個GPU中,會劃分為多個流式處理區(qū)。每個處理區(qū),包含數(shù)百個內(nèi)核。每個內(nèi)核,相當(dāng)于一顆簡化版的CPU,具備整數(shù)運(yùn)算和浮點(diǎn)運(yùn)算的功能,以及排隊(duì)和結(jié)果收集功能。
GPU的控制器功能簡單,緩存也比較少。它的ALU占比,可以達(dá)到80%以上。
雖然GPU單核的處理能力弱于CPU,但是數(shù)量龐大,非常適合高強(qiáng)度并行計算。同等晶體管規(guī)模條件下,它的算力,反而比CPU更強(qiáng)。
還是以餐廳為例。GPU就像一個擁有成千上萬名初級廚師的單一型餐廳。它只適合做某種指定菜系。但是,因?yàn)閺N師多,配菜簡單,所以大家一起炒,上菜速度反而快。
GPU集群:人工智能計算的重型裝備
GPU群集,也稱為圖形處理單元群集,是一個并行計算系統(tǒng),它利用多個GPU來增強(qiáng)計算功能。這種方法可以通過大規(guī)模并行化來加速各種應(yīng)用和模擬。 GPU群集的組成由幾個關(guān)鍵組件組成。首先,GPU本身是集群的核心,是專門為并行計算任務(wù)設(shè)計的。與用于順序處理的傳統(tǒng)CPU不同,GPU同時執(zhí)行多個任務(wù),使其成為并行工作負(fù)載的理想選擇。此外,GPU群集通常合并多個節(jié)點(diǎn),每個節(jié)點(diǎn)包含一個或多個GPU,一個CPU,內(nèi)存,存儲和網(wǎng)絡(luò)功能。這些節(jié)點(diǎn)之間的有效溝通和協(xié)作對于集群的整體性能至關(guān)重要。
CPU充當(dāng)協(xié)調(diào)員,管理和協(xié)調(diào)集群中的任務(wù),尤其是那些不適合并行處理的任務(wù)。內(nèi)存在GPU群集中也起著至關(guān)重要的作用,每個GPU在計算過程中都有自己的高速內(nèi)存(VRAM)用于數(shù)據(jù)存儲。此外,節(jié)點(diǎn)還配備了GPU和CPU之間共享的系統(tǒng)內(nèi)存(RAM),以促進(jìn)有效的數(shù)據(jù)傳輸。為了容納數(shù)據(jù)集,應(yīng)用程序和結(jié)果的存儲,GPU群集需要大量的存儲空間。高性能存儲解決方案(例如SSD)通常用于最大程度地減少數(shù)據(jù)檢索時間并確保實(shí)現(xiàn)平穩(wěn)的工作流程。
互連是指節(jié)點(diǎn)之間的通信路徑,在GPU群集中也至關(guān)重要。高速互連技術(shù)(例如Infiniband或Nvidia Nvlink)通常用于最大程度地減少延遲并最大化數(shù)據(jù)傳輸速率。 GPU群集的利用率擴(kuò)展到各個字段。科學(xué)研究,特別是在物理,化學(xué)和生物學(xué)方面,從GPU群集的平行處理能力中受益匪淺,啟用了諸如分子動力學(xué)模擬,天氣預(yù)測和粒子物理模擬之類的任務(wù)。對人工智能和機(jī)器學(xué)習(xí)的需求激增也驅(qū)動了GPU群集的采用,因?yàn)樗鼈兎浅_m合培訓(xùn)深層神經(jīng)網(wǎng)絡(luò)并提高AI應(yīng)用的效率。在石油和天然氣行業(yè)中,GPU群集用于諸如需要密集計算的地震數(shù)據(jù)處理和收集模擬等任務(wù)。財務(wù)建模,計算機(jī)輔助設(shè)計和繪圖行業(yè)還采用GPU集群來加快復(fù)雜的數(shù)學(xué)建模,渲染高質(zhì)量的圖像和視頻,并促進(jìn)更好的決策過程。在醫(yī)學(xué)領(lǐng)域,GPU集群在醫(yī)學(xué)成像,藥物發(fā)現(xiàn)和基因組學(xué)等任務(wù)中起著至關(guān)重要的作用,加速了大型數(shù)據(jù)集的分析,并推進(jìn)了個性化醫(yī)學(xué)和基因組研究。
盡管GPU群集提供了重要的計算能力,但仍然存在諸如功耗,散熱和編程復(fù)雜性之類的挑戰(zhàn)。但是,預(yù)計硬件設(shè)計,互連技術(shù)和軟件優(yōu)化的進(jìn)步將解決這些挑戰(zhàn)并增強(qiáng)GPU群集的能力。最終,GPU群集代表了各種科學(xué),工業(yè)和技術(shù)領(lǐng)域的平行計算和驅(qū)動突破的最前沿,將GPU集成到群集系統(tǒng)中,塑造了高性能計算的前景。
GPU如何成為AI計算的主流?
早在2005年和2006年就有研究采用GPU進(jìn)行兩層的神經(jīng)網(wǎng)絡(luò)(NN/CNN)計算,并且對比了GPU和CPU上的性能差異,不過那時在GPU上的加速效果并沒有現(xiàn)在這樣明顯,通常在1-3倍左右,在CPU上采用特定的加速工具也能取得不錯的效果,可能正是因?yàn)镚PU上的加速效果有限,在那個時候GPU并沒有成為AI計算的主流,也就是在研究層面做些嘗試和探索。
2011年Dan等的研究采用英特爾Core i7-920的CPU,以及英偉達(dá)GTX 480和GTX 580的GPU,進(jìn)行CNN模型的計算,結(jié)果顯示GPU的加速效果達(dá)到了CPU的10-60倍,其中網(wǎng)絡(luò)規(guī)模小的模型加速效果10倍速左右,對于網(wǎng)絡(luò)規(guī)模大的模型加速效果達(dá)到60倍。GPU在AI計算中的加速效果已經(jīng)非常顯著,為進(jìn)一步擴(kuò)大GPU在AI計算領(lǐng)域應(yīng)用創(chuàng)造了有利條件。
2012年,Hinton和Alex Krizhevsky設(shè)計的AlexNet,使用了兩塊英偉達(dá)GTX 580訓(xùn)練了兩周的模型,將計算機(jī)圖像識別的正確率提升了一個數(shù)量級,并獲得了2012年ImageNet競賽冠軍,充分展示了GPU在AI計算中的巨大潛力。此前,在谷歌使用1000臺CPU服務(wù)器,完成了貓臉識別的任務(wù),2012年吳恩達(dá)等采用3臺GTX680-GPU服務(wù)器完成了同樣的任務(wù)。毋庸置疑,AlexNet和吳恩達(dá)等工作在業(yè)界和學(xué)界都產(chǎn)生了良好的示范效應(yīng)?;蛟S從這段時間開始,學(xué)術(shù)界關(guān)于AI相關(guān)的研究逐漸更多的采用了GPU,互聯(lián)網(wǎng)頭部廠商也陸續(xù)開始引入GPU到各自的生產(chǎn)研發(fā)環(huán)境。
2016年AlphaGo戰(zhàn)勝李世石,2017年AlphaGo又戰(zhàn)勝柯潔,標(biāo)志著新一波AI發(fā)展熱潮的開始,帶動了全球AI產(chǎn)業(yè)發(fā)展。也是在AlphaGo之后,以深度學(xué)習(xí)為核心的AI技術(shù)逐漸在越來越多的應(yīng)用場景落地,AI領(lǐng)域的創(chuàng)新創(chuàng)業(yè)也不斷涌現(xiàn),差不多從這時候開始,GPU基本開始成為AI計算的標(biāo)配。最近隨著AI技術(shù)的應(yīng)用領(lǐng)域不斷擴(kuò)大,對GPU算力需求也是不斷增加,目前還呈現(xiàn)出GPU供不應(yīng)求的局面。
從2005/2006年開始有人嘗試用GPU進(jìn)行AI計算,到2012/2013年GPU被更大范圍的接受,以及到2016/2017年GPU成本AI計算的標(biāo)配,具有一定的偶然性,發(fā)現(xiàn)深度學(xué)習(xí)網(wǎng)絡(luò)層次越深、網(wǎng)絡(luò)規(guī)模越大,GPU的加速效果越顯著。然而這又注定會是個必然的結(jié)果,AI經(jīng)歷三起三落的發(fā)展,每一次“落”的過程都為下一次“起”積蓄能量,第三“落”似乎算力不足是重要的因素,GPU的工作原理正好很大程度上契合了AI計算的需求,GPU算力的不斷提升,以及2016年英偉達(dá)新的GPU架構(gòu)專門針對AI計算場景進(jìn)行優(yōu)化和支持,對更多的AI計算場景采納GPU都有重要推動作用。
