明明為圖形處理而生，GPU為何能逆襲成為AI算力主力軍

2024-01-25 來源：賢集網(wǎng)

3208

在人工智能（AI）大模型時代下，算力扮演著越來越重要的角色，成為關鍵生產(chǎn)力。

艾瑞咨詢發(fā)布的《2023年中國智能算力行業(yè)發(fā)展白皮書》報告顯示，2023年大模型算力需求集中爆發(fā)，AI 大模型相關行業(yè)占中國智能算力總需求的58.8%，接近60%，是智能算力的最大需求方；排名第二的是算法推薦，占比14.2%。

報告還顯示，2022年中國算力結構中，智能算力規(guī)模占比達22.8%，但同期中國服務器結構中，AI服務器出貨量占比僅6.8%。這意味著，智算資源存在稀缺性，而智算中心建設將有效改善中國智算資源供需結構。

艾瑞咨詢產(chǎn)業(yè)數(shù)字化研究院負責人徐樊磊表示，未來，通用人工智能（AGI）技術將不斷發(fā)展，將推動整體智算需求提升，因此需要擁有足夠的高端智能算力和不斷優(yōu)化的軟硬件融合解決方案，以及可以構建生態(tài)匯聚上下游、全鏈條、各領域的參與者，并使用門檻足夠低和便利。

事實上，過去一年多，以ChatGPT為代表的生成式 AI 技術風靡全球。而作為以95%的市場占有率壟斷了全球 Al 訓練芯片的英偉達，成為了這輪 AI 混戰(zhàn)的最大贏家，其研發(fā)的A100/A800、H100/H800等多個 AI 芯片成為 AI 熱潮中的“爆品”。

正如英偉達自己所說：“GPU 已經(jīng)成為人工智能的稀有金屬，甚至是黃金，因為它們是當今生成式 AI 時代的基礎?！?/span>

從技術角度來說，GPU優(yōu)于CPU（通用處理器），特別是在并行計算能力、能耗效率和CUDA生態(tài)等方面，它的高算力和可擴展性使英偉達GPU成為AI加速芯片市場的首選。

根據(jù)斯坦福大學最近發(fā)布的一項報告顯示，自2003年以來，過去20年GPU性能提高了約7000倍，單位性能價格也提高了5600倍。該報告還指出，GPU是推動 AI 技術進步的關鍵動力。

如今，算力正加速向政務、工業(yè)、交通、醫(yī)療等各行業(yè)應用加速演進，推動互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能等與實體經(jīng)濟深度融合，極大地激發(fā)了數(shù)據(jù)要素創(chuàng)新活力。

什么是GPU（圖形處理器）？

GPU是顯卡的核心部件，英文全名叫Graphics Processing Unit，圖形處理單元（圖形處理器）。GPU并不能和顯卡劃等號。顯卡除了GPU之外，還包括顯存、VRM穩(wěn)壓模塊、MRAM芯片、總線、風扇、外圍設備接口等。

1999年，英偉達（NVIDIA）公司率先提出了GPU的概念。之所以要提出GPU，是因為90年代游戲和多媒體業(yè)務高速發(fā)展。這些業(yè)務給計算機的3D圖形處理和渲染能力提出了更高的要求。傳統(tǒng)CPU搞不定，所以引入了GPU，分擔這方面的工作。

根據(jù)形態(tài)，GPU可分為獨立GPU（dGPU，discrete/dedicated GPU）和集成GPU（iGPU，integrated GPU），也就是常說的獨顯、集顯。

GPU也是計算芯片。所以，它和CPU一樣，包括了運算器、控制器和寄存器等組件。但是，因為GPU主要負責圖形處理任務，所以，它的內部架構和CPU存在很大的不同。

如上圖所示，CPU的內核（包括了ALU）數(shù)量比較少，最多只有幾十個。但是，CPU有大量的緩存（Cache）和復雜的控制器（CU）。

這樣設計的原因，是因為CPU是一個通用處理器。作為計算機的主核心，它的任務非常復雜，既要應對不同類型的數(shù)據(jù)計算，還要響應人機交互。

復雜的條件和分支，還有任務之間的同步協(xié)調，會帶來大量的分支跳轉和中斷處理工作。它需要更大的緩存，保存各種任務狀態(tài)，以降低任務切換時的時延。它也需要更復雜的控制器，進行邏輯控制和調度。

CPU的強項是管理和調度。真正干活的功能，反而不強（ALU占比大約5%——20%）。

如果我們把處理器看成是一個餐廳的話，CPU就像一個擁有幾十名高級廚師的全能型餐廳。這個餐廳什么菜系都能做，但是，因為菜系多，所以需要花費大量的時間協(xié)調、配菜，上菜的速度相對比較慢。

而GPU則完全不同。GPU為圖形處理而生，任務非常明確且單一。它要做的，就是圖形渲染。圖形是由海量像素點組成的，屬于類型高度統(tǒng)一、相互無依賴的大規(guī)模數(shù)據(jù)。所以，GPU的任務，是在最短的時間里，完成大量同質化數(shù)據(jù)的并行運算。所謂調度和協(xié)調的“雜活”，反而很少。

并行計算，當然需要更多的核啊，如前圖所示，GPU的內核數(shù)，遠遠超過CPU，可以達到幾千個甚至上萬個（也因此被稱為“眾核”）。

GPU的核，稱為流式多處理器（Stream Multi-processor，SM），是一個獨立的任務處理單元。

在整個GPU中，會劃分為多個流式處理區(qū)。每個處理區(qū)，包含數(shù)百個內核。每個內核，相當于一顆簡化版的CPU，具備整數(shù)運算和浮點運算的功能，以及排隊和結果收集功能。

GPU的控制器功能簡單，緩存也比較少。它的ALU占比，可以達到80%以上。

雖然GPU單核的處理能力弱于CPU，但是數(shù)量龐大，非常適合高強度并行計算。同等晶體管規(guī)模條件下，它的算力，反而比CPU更強。

還是以餐廳為例。GPU就像一個擁有成千上萬名初級廚師的單一型餐廳。它只適合做某種指定菜系。但是，因為廚師多，配菜簡單，所以大家一起炒，上菜速度反而快。

GPU集群：人工智能計算的重型裝備

GPU群集，也稱為圖形處理單元群集，是一個并行計算系統(tǒng)，它利用多個GPU來增強計算功能。這種方法可以通過大規(guī)模并行化來加速各種應用和模擬。 GPU群集的組成由幾個關鍵組件組成。首先，GPU本身是集群的核心，是專門為并行計算任務設計的。與用于順序處理的傳統(tǒng)CPU不同，GPU同時執(zhí)行多個任務，使其成為并行工作負載的理想選擇。此外，GPU群集通常合并多個節(jié)點，每個節(jié)點包含一個或多個GPU，一個CPU，內存，存儲和網(wǎng)絡功能。這些節(jié)點之間的有效溝通和協(xié)作對于集群的整體性能至關重要。

CPU充當協(xié)調員，管理和協(xié)調集群中的任務，尤其是那些不適合并行處理的任務。內存在GPU群集中也起著至關重要的作用，每個GPU在計算過程中都有自己的高速內存（VRAM）用于數(shù)據(jù)存儲。此外，節(jié)點還配備了GPU和CPU之間共享的系統(tǒng)內存（RAM），以促進有效的數(shù)據(jù)傳輸。為了容納數(shù)據(jù)集，應用程序和結果的存儲，GPU群集需要大量的存儲空間。高性能存儲解決方案（例如SSD）通常用于最大程度地減少數(shù)據(jù)檢索時間并確保實現(xiàn)平穩(wěn)的工作流程。

互連是指節(jié)點之間的通信路徑，在GPU群集中也至關重要。高速互連技術（例如Infiniband或Nvidia Nvlink）通常用于最大程度地減少延遲并最大化數(shù)據(jù)傳輸速率。 GPU群集的利用率擴展到各個字段?？茖W研究，特別是在物理，化學和生物學方面，從GPU群集的平行處理能力中受益匪淺，啟用了諸如分子動力學模擬，天氣預測和粒子物理模擬之類的任務。對人工智能和機器學習的需求激增也驅動了GPU群集的采用，因為它們非常適合培訓深層神經(jīng)網(wǎng)絡并提高AI應用的效率。在石油和天然氣行業(yè)中，GPU群集用于諸如需要密集計算的地震數(shù)據(jù)處理和收集模擬等任務。財務建模，計算機輔助設計和繪圖行業(yè)還采用GPU集群來加快復雜的數(shù)學建模，渲染高質量的圖像和視頻，并促進更好的決策過程。在醫(yī)學領域，GPU集群在醫(yī)學成像，藥物發(fā)現(xiàn)和基因組學等任務中起著至關重要的作用，加速了大型數(shù)據(jù)集的分析，并推進了個性化醫(yī)學和基因組研究。

盡管GPU群集提供了重要的計算能力，但仍然存在諸如功耗，散熱和編程復雜性之類的挑戰(zhàn)。但是，預計硬件設計，互連技術和軟件優(yōu)化的進步將解決這些挑戰(zhàn)并增強GPU群集的能力。最終，GPU群集代表了各種科學，工業(yè)和技術領域的平行計算和驅動突破的最前沿，將GPU集成到群集系統(tǒng)中，塑造了高性能計算的前景。

GPU如何成為AI計算的主流？

早在2005年和2006年就有研究采用GPU進行兩層的神經(jīng)網(wǎng)絡（NN/CNN）計算，并且對比了GPU和CPU上的性能差異，不過那時在GPU上的加速效果并沒有現(xiàn)在這樣明顯，通常在1-3倍左右，在CPU上采用特定的加速工具也能取得不錯的效果，可能正是因為GPU上的加速效果有限，在那個時候GPU并沒有成為AI計算的主流，也就是在研究層面做些嘗試和探索。

2011年Dan等的研究采用英特爾Core i7-920的CPU，以及英偉達GTX 480和GTX 580的GPU，進行CNN模型的計算，結果顯示GPU的加速效果達到了CPU的10-60倍，其中網(wǎng)絡規(guī)模小的模型加速效果10倍速左右，對于網(wǎng)絡規(guī)模大的模型加速效果達到60倍。GPU在AI計算中的加速效果已經(jīng)非常顯著，為進一步擴大GPU在AI計算領域應用創(chuàng)造了有利條件。

2012年，Hinton和Alex Krizhevsky設計的AlexNet，使用了兩塊英偉達GTX 580訓練了兩周的模型，將計算機圖像識別的正確率提升了一個數(shù)量級，并獲得了2012年ImageNet競賽冠軍，充分展示了GPU在AI計算中的巨大潛力。此前，在谷歌使用1000臺CPU服務器，完成了貓臉識別的任務，2012年吳恩達等采用3臺GTX680-GPU服務器完成了同樣的任務。毋庸置疑，AlexNet和吳恩達等工作在業(yè)界和學界都產(chǎn)生了良好的示范效應?；蛟S從這段時間開始，學術界關于AI相關的研究逐漸更多的采用了GPU，互聯(lián)網(wǎng)頭部廠商也陸續(xù)開始引入GPU到各自的生產(chǎn)研發(fā)環(huán)境。

2016年AlphaGo戰(zhàn)勝李世石，2017年AlphaGo又戰(zhàn)勝柯潔，標志著新一波AI發(fā)展熱潮的開始，帶動了全球AI產(chǎn)業(yè)發(fā)展。也是在AlphaGo之后，以深度學習為核心的AI技術逐漸在越來越多的應用場景落地，AI領域的創(chuàng)新創(chuàng)業(yè)也不斷涌現(xiàn)，差不多從這時候開始，GPU基本開始成為AI計算的標配。最近隨著AI技術的應用領域不斷擴大，對GPU算力需求也是不斷增加，目前還呈現(xiàn)出GPU供不應求的局面。

從2005/2006年開始有人嘗試用GPU進行AI計算，到2012/2013年GPU被更大范圍的接受，以及到2016/2017年GPU成本AI計算的標配，具有一定的偶然性，發(fā)現(xiàn)深度學習網(wǎng)絡層次越深、網(wǎng)絡規(guī)模越大，GPU的加速效果越顯著。然而這又注定會是個必然的結果，AI經(jīng)歷三起三落的發(fā)展，每一次“落”的過程都為下一次“起”積蓄能量，第三“落”似乎算力不足是重要的因素，GPU的工作原理正好很大程度上契合了AI計算的需求，GPU算力的不斷提升，以及2016年英偉達新的GPU架構專門針對AI計算場景進行優(yōu)化和支持，對更多的AI計算場景采納GPU都有重要推動作用。

登入后，方可留言>>

行業(yè)動態(tài)

道氏技術：年產(chǎn)1000噸硅碳負極項目已和恩平當?shù)卣炗唴f(xié)議

聞泰科技重大資產(chǎn)出售進展：多家公司股權已完成交割

馬斯克腦機公司Neuralink：已為全球12人植入芯片

熱讀文章

苗圩出席統(tǒng)籌推進疫情防控和產(chǎn)業(yè)轉型升級促進制造業(yè)通信業(yè)穩(wěn)定發(fā)展發(fā)布會

一圖讀懂2020年《政府工作報告》

工業(yè)富聯(lián)：擬7763萬美元收購鴻海精密美國子公司相關資產(chǎn)

日日躁夜夜躁狠狠躁超碰97,无码国内精品久久综合88 ,热re99久久精品国99热,国产萌白酱喷水视频在线播放

明明為圖形處理而生，GPU為何能逆襲成為AI算力主力軍

明明為圖形處理而生，GPU為何能逆襲成為AI算力主力軍