GPU的發(fā)展竟是?由一副3D圖像推動，國產(chǎn)GPU下階段方向明確

2023-12-11 來源：賢集網(wǎng)

1886

3D圖像一直是芯片發(fā)展的推動力之一，從上世紀(jì)九十年代直到今天，以游戲、電影等為代表的高性能圖像渲染應(yīng)用的蓬勃發(fā)展直接讓GPU芯片成為了一個(gè)新的芯片品類，并且快速發(fā)展至今。從這個(gè)角度，我們認(rèn)為高性能3D圖像渲染以及3D圖像學(xué)的發(fā)展一直在驅(qū)動著GPU芯片品類的發(fā)展。

成長下的優(yōu)勢推動GPU市場

從單純的圖形控制功能發(fā)展而來，GPU已經(jīng)成為架構(gòu)復(fù)雜度最高的芯片之一。

據(jù)數(shù)據(jù)統(tǒng)計(jì)，2020年，GPU行業(yè)規(guī)模為200億美元，預(yù)計(jì)2021年將增長15%。從2015年到2025年，GPU行業(yè)預(yù)計(jì)平均每年增長13%，將從80億美元擴(kuò)展到350億美元的規(guī)模?？梢暬枰罅康膱D形、圖像計(jì)算能力，無論是云端還是邊緣側(cè)都需要大量的高性能圖像處理能力。因此最近這幾年GPU的增長速度非常快速。

從各個(gè)調(diào)研機(jī)構(gòu)的數(shù)據(jù)預(yù)測來看，GPU在AI推理市場、服務(wù)器市場、數(shù)據(jù)中心市場等都呈現(xiàn)出蓬勃增長的態(tài)勢。隨著GPU自身在并行處理和通用計(jì)算的優(yōu)勢，逐步拓展了其在服務(wù)器、汽車、礦機(jī)、人工智能、邊緣計(jì)算等領(lǐng)域的衍生需求。

GPU是AI訓(xùn)練階段較為適合的芯片，在AI時(shí)代的云端訓(xùn)練芯片中占據(jù)較大的份額，達(dá)到64%，2019-2021年年復(fù)合增長率達(dá)到40%。此外，推動GPU市場增長的其他因素還包括越來越多的對汽車、制造業(yè)、房地產(chǎn)和醫(yī)療保健等各個(gè)行業(yè)的圖形應(yīng)用程序和3D應(yīng)用的支持。在最近的5年里，英偉達(dá)股價(jià)飆升2268%，在今年7月8日收盤后，英偉達(dá)市值首次超過英特爾，一度成為美國市值最高的芯片企業(yè)。

AMD公司的市值也同樣一路飆升，在最近其市值也逼近了千億美元的大關(guān)。

微架構(gòu)設(shè)計(jì)是GPU性能提升的關(guān)鍵所在

GPU微架構(gòu)（Micro Architecture）是兼容特定指令集的物理電路構(gòu)成，由流處理器、紋理映射單元、光柵化處理單元、光線追蹤核心、張量核心、緩存等部件共同組成。圖形渲染過程中的圖形函數(shù)主要用于繪制各種圖形及像素、實(shí)現(xiàn)光影處理、3D坐標(biāo)變換等過程，期間涉及大量同類型數(shù)據(jù)（如圖像矩陣）的密集、獨(dú)立的數(shù)值計(jì)算，而GPU結(jié)構(gòu)中眾多重復(fù)的計(jì) 算單元就是為適應(yīng)于此類特點(diǎn)的數(shù)據(jù)運(yùn)算而設(shè)計(jì)的。

微架構(gòu)的設(shè)計(jì)對GPU性能的提升發(fā)揮著至關(guān)重要的作用，也是GPU研發(fā)過程中最關(guān)鍵的技術(shù)壁壘。微架構(gòu)設(shè)計(jì)影響到芯片的最高頻率、一定頻率下的運(yùn)算能力、一定工藝下的能耗水平，是芯片設(shè)計(jì)的靈魂所在。英偉達(dá)H100相比于A100，1.2倍的性能提升來自于核心數(shù)目的提升，5.2倍的性能提升來自于微架構(gòu)的設(shè)計(jì)。

GPU在數(shù)據(jù)中心的應(yīng)用蘊(yùn)藏巨大潛力

在數(shù)據(jù)中心，GPU被廣泛應(yīng)用于人工智能的訓(xùn)練、推理、高性能計(jì)算（HPC）等領(lǐng)域。預(yù)訓(xùn)練大模型帶來的算力需求驅(qū)動人工智能服務(wù)器市場快速增長。巨量化是人工智能近年來發(fā)展的重要趨勢，巨量化的核心特點(diǎn)是模型參數(shù)多，訓(xùn)練數(shù)據(jù)量大。

Transformer模型的提出開啟了預(yù)訓(xùn)練大模型的時(shí)代，大模型的算力需求提升速度顯著高于其他AI模型，為人工智能服務(wù)器的市場增長注入了強(qiáng)勁的驅(qū)動力。根據(jù)Omdia數(shù)據(jù)，人工智能服務(wù)器是服務(wù)器行業(yè)中增速最快的細(xì)分市場，CAGR為49%。戰(zhàn)略需求推動GPU在高性能計(jì)算領(lǐng)域穩(wěn)定增長。

高性能計(jì)算（HPC）提供了強(qiáng)大的超高浮點(diǎn)計(jì)算能力，可滿足計(jì)算密集型、海量數(shù)據(jù)處理等業(yè)務(wù)的計(jì)算需求，如科學(xué)研究、氣象預(yù)報(bào)、計(jì)算模擬、軍事研究、生物制藥、基因測序等，極大縮短了海量計(jì)算所用的時(shí)間，高性能計(jì)算已成為促進(jìn)科技創(chuàng)新和經(jīng)濟(jì)發(fā)展的重要手段。

人工智能圖像學(xué)對于GPU的需求

我們認(rèn)為，人工智能圖像學(xué)對于GPU提出了新的需求。

首先，在基本的NeRF或者3D GS的渲染中，傳統(tǒng)的GPU中的多邊形渲染流水線已經(jīng)無法高效支持，因?yàn)镹eRF和3D GS的渲染需要一些重要的新計(jì)算。對于NeRF來說，其場景建模信息都包含在訓(xùn)練過的神經(jīng)網(wǎng)絡(luò)中，神經(jīng)網(wǎng)絡(luò)的輸入就是用戶當(dāng)前的視角，輸出則是場景在視角下的2D圖像。因此，其渲染過程其實(shí)就是根據(jù)用戶的視角來完成神經(jīng)網(wǎng)絡(luò)的推理計(jì)算。而在3D GS中，具體的渲染過程則是把整個(gè)場景分成多個(gè)塊（tile），每個(gè)塊中根據(jù)當(dāng)前視角首先排序選出對于視覺影響最大的N個(gè)GS，之后再僅僅針對這些GS做渲染，從而可以實(shí)現(xiàn)高效率。我們可以看到這些都和當(dāng)前的多邊形渲染流水線有較大不同，為了能高效支持這些3D圖像學(xué)的新范式，GPU需要能高效支持這些新計(jì)算。

另外，在新的3D圖像學(xué)是由人工智能驅(qū)動的這一潮流下，我們勢必會看到3D圖像渲染和人工智能的進(jìn)一步結(jié)合，例如在NeRF和3D GS的場景建模中加入基于神經(jīng)網(wǎng)絡(luò)計(jì)算的動畫或者編輯（光影變化等），這些又進(jìn)一步說明目前的GPU上的多邊形渲染流水線對著這類新圖像渲染范式已經(jīng)無法高效支持。

GPU新架構(gòu)呼之欲出

我們認(rèn)為，這些新的超高精度3D圖像學(xué)會推動新的GPU架構(gòu)發(fā)展。

從桌面和服務(wù)器GPU芯片角度，我們認(rèn)為GPGPU架構(gòu)會得到進(jìn)一步的推廣。Nvidia主導(dǎo)的GPGPU在人工智能浪潮的前幾年（2012-2017）是Nvidia能夠占據(jù)人工智能霸主地位的核心，因?yàn)镚PGPU的開放接口可以讓GPU去做人工智能計(jì)算。在這之后，隨著人工智能應(yīng)用進(jìn)入主流地位，Nvidia開始給人工智能做專用優(yōu)化，引入了包括Tensor Core等重要新架構(gòu)，換句話說人工智能在Nvidia的GPU上已經(jīng)不再主要依賴其GPGPU思路，而是更多依賴Nvidia的人工智能架構(gòu)設(shè)計(jì)。然而，隨著新的3D圖形學(xué)的發(fā)展，GPGPU又會重新進(jìn)入聚光燈下。

從芯片架構(gòu)角度來說，從宏觀上這意味著GPGPU的進(jìn)一步進(jìn)化，以及和人工智能的融合。之前，GPGPU允許用戶去調(diào)用3D圖形計(jì)算的單元去做其他非圖形的計(jì)算；而隨著新的3D圖形學(xué)的發(fā)展，需要GPGPU能進(jìn)一步開放圖形渲染單元，讓圖形渲染單元更加靈活，從而能支持新的3D建模范式的高效渲染。我們認(rèn)為，芯片架構(gòu)層面，對于這樣新3D圖形學(xué)范式的支持，有三方面的需求。

第一個(gè)方面是打通渲染流水線和人工智能引擎由于神經(jīng)網(wǎng)絡(luò)的計(jì)算在新的3D圖形學(xué)中起了極其重要的角色，如何把圖形渲染單元和GPU中的人工智能引擎打通，將是支持這類新3D圖形學(xué)渲染的核心需求。例如，在芯片架構(gòu)設(shè)計(jì)中，需要能夠讓圖形渲染單元和人工智能引擎之間實(shí)現(xiàn)有效通信以及互相高效調(diào)用，從而能充分支持這樣的渲染需求——像NeRF這樣的建模方法中，每一幀計(jì)算都需要去運(yùn)行一次神經(jīng)網(wǎng)絡(luò)推理，在高分辨率的時(shí)候神經(jīng)網(wǎng)絡(luò)會非常復(fù)雜，而高幀率則需要神經(jīng)網(wǎng)絡(luò)延遲有很高的需求，在這種情況下需要圖像渲染和人工智能引擎充分打通。

第二個(gè)方面是對于這些新的范式，如何實(shí)現(xiàn)硬件優(yōu)化。對于基于多邊形傳統(tǒng)3D圖形學(xué)的渲染加速，GPU已經(jīng)有了數(shù)十年的積累，因此從硬件上幾乎已經(jīng)把優(yōu)化做到了極致，然而對于NeRF或者3D GS這樣的新范式，硬件優(yōu)化目前仍然不存在。第一步，我們可以把目前已有的針對多邊形渲染的優(yōu)化應(yīng)用到這類新3D圖形范式上，例如分塊（tile）渲染以實(shí)現(xiàn)并行處理，以及流水線計(jì)算以降低延遲，等等。更進(jìn)一步，未來會出現(xiàn)針對這些新3D圖形學(xué)范式的專門優(yōu)化，從而可以將渲染效率進(jìn)一步提高。

第三個(gè)方面是如何提供靈活的用戶接口。3D新圖形學(xué)方興未艾，在可預(yù)計(jì)的未來仍然會高速發(fā)展，因此如何能給用戶提供接口，從而可以讓用戶靈活利用和配置GPU上的計(jì)算單元，從而用戶可以根據(jù)自己獨(dú)特的設(shè)計(jì)來配置GPU上的渲染流水線以實(shí)現(xiàn)高效率。這樣的可配置性對于培養(yǎng)新3D圖形學(xué)的生態(tài)將會是至關(guān)重要，如果想要重復(fù)Nvidia在人工智能浪潮中的成功，那么就需要在新3D圖形學(xué)算法尚未最終塵埃落定的時(shí)候就提供足夠支持以培養(yǎng)用戶生態(tài)；如果想要等到算法技術(shù)已經(jīng)足夠成熟后再開始提供支持，那么生態(tài)角度就會站在非常不利的位置。

國產(chǎn)GPU下階段的發(fā)展方向

國產(chǎn)GPU的生產(chǎn)商包括兩種：自主研發(fā)系以及引進(jìn)系。

自主研發(fā)系包括：中船重工709所、中船重工716、景嘉微、航錦科技、龍芯、上海兆芯等機(jī)構(gòu)和公司；引進(jìn)系則有凱橋資本收購的Imagination。

目前，國產(chǎn)GPU中，較為知名的為中船重工701所的凌久GP101、中船重工716所的JARIG12、景嘉微的JM7200。

現(xiàn)在國內(nèi)做GPU的企業(yè)，比如芯動科技、景嘉微等都開始加速發(fā)展，芯動科技所推出的“風(fēng)華”系列GPU正在引起越來越多的關(guān)注。

芯動科技即將發(fā)布的兩款“風(fēng)華”系列智能渲染GPU圖形處理器，將逐步改變國內(nèi)桌面和服務(wù)器領(lǐng)域客戶定制高性能GPU芯片長期受制于人的局面。

這兩款GPU芯片針對國內(nèi)新基建客戶定制需求，填補(bǔ)國內(nèi)高性能數(shù)據(jù)中心顯卡空白，經(jīng)芯動團(tuán)隊(duì)多年研發(fā)積累，已完成設(shè)計(jì)，將實(shí)現(xiàn)年內(nèi)量產(chǎn)。

GPU的3個(gè)未來趨勢是：大規(guī)模擴(kuò)展計(jì)算能力的高性能計(jì)算（GPGPU）、人工智能計(jì)算（AIGPU）、更加逼真的圖形展現(xiàn)（光線追蹤 Ray Tracing GPU)。

此外，由于GPU越來越廣泛地應(yīng)用到手機(jī)、終端、邊緣計(jì)算節(jié)點(diǎn)等嵌入式設(shè)備，所以高效能也是一個(gè)永恒的追求。

據(jù)統(tǒng)計(jì)，2019年上半年中國GPU服務(wù)器市場規(guī)模為8.3億美金，同比增長53.7%，預(yù)計(jì)到2023年中國GPU服務(wù)器市場規(guī)模將達(dá)到44.5億美金，5年CAGR為27.8%。