日日躁夜夜躁狠狠躁超碰97,无码国内精品久久综合88 ,热re99久久精品国99热,国产萌白酱喷水视频在线播放

歡迎訪問深圳市中小企業(yè)公共服務(wù)平臺電子信息窗口

大模型由OpenAI引爆,算力則是英偉達的“拿手戲”

2024-04-08 來源:賢集網(wǎng)
2970

關(guān)鍵詞: 英偉達 AI芯片 晶體管

北京時間3月19日凌晨,全球芯片巨頭英偉達(NVIDIA)公司召開了一年一度的 GTC 大會,公司創(chuàng)始人兼首席執(zhí)行官黃仁勛發(fā)表演講,正式宣布將推出用于萬億參數(shù)級生成式AI的NVIDIA Blackwell架構(gòu)及搭載Blackwell技術(shù)的B200和GB200系列芯片,將人工智能的計算能力推向了前所未有的高度。

在規(guī)格和性能方面,英偉達的新一代超級AI芯片顯示出顯著的進步。據(jù)會上介紹,上一代H100/H200芯片有800億個晶體管,而B200擁有2080億個晶體管。晶體管是集成電路的基本組件,更多的晶體管可以處理更多的數(shù)據(jù),執(zhí)行更復(fù)雜的計算,從而提供更高的性能。B200采用允許更小的晶體管尺寸和更高的集成度的臺積電4NP工藝制程,可以支持多達10萬億個參數(shù)的AI大模型來進行更高級的自然語言處理、圖像識別和復(fù)雜的數(shù)據(jù)分析任務(wù)。GB200芯片將兩個B200 Blackwell GPU與一個基于Arm架構(gòu)的Grace CPU進行配對,兩塊芯片之間的互聯(lián)速度高達10TBps,這種設(shè)計結(jié)合了GPU的強大并行處理能力和CPU的高效序列處理能力。



在能效方面,Blackwell芯片架構(gòu)也有顯著改進,黃仁勛舉例如果要訓(xùn)練一個1.8萬億參數(shù)量的GPT模型,在沒有使用Blackwell技術(shù)的情況下,需要連續(xù)運行90天,使用8000張Hopper GPU,并消耗15兆瓦的電力。但如果使用了Blackwell GPU,只需要2000張芯片,而且只需消耗四分之一的電力,大約4兆瓦,就可以完成同樣的任務(wù)。Blackwell芯片架構(gòu)的能效改進意味著在處理大規(guī)模AI模型訓(xùn)練時,可以實現(xiàn)更高的性能和更低的能源消耗,這對于可持續(xù)發(fā)展具有重要意義。

在當(dāng)前人工智能快速發(fā)展的背景下,對于計算能力的需求也日益增長。從自動駕駛汽車到智能醫(yī)療診斷,再到大規(guī)模數(shù)據(jù)分析、數(shù)字孿生等,沒有哪一項不在渴求更高的處理速度和更低的能耗。


大語言模型助推 GPU 算力需求增長

市場對 3D 圖像處理和 AI 深度學(xué)習(xí)計算等需求不斷增加,GPU 市場保持高增 速。據(jù) Global Market Insights 的數(shù)據(jù),全球 GPU 市場預(yù)計將以 CAGR 25.9%持 續(xù)增長,至 2030 年達到 4000 億美元規(guī)模。在 GPU 市場中,NVIDIA 依靠在深 度學(xué)習(xí)、人工智能等領(lǐng)域布局的先發(fā)優(yōu)勢并憑借其優(yōu)異產(chǎn)品性能以及成熟的生態(tài) 平臺長期處于領(lǐng)導(dǎo)地位,根據(jù) JPR 數(shù)據(jù),2022 年 Q1,NVIDIA 的在獨顯市場份 額約為 78%。

大語言模型有望拉動 GPU 需求增量,我們測算 23/24/25 年大模型有望貢獻 GPU 市場增量 69.88/166.2/209.95 億美元。具體假設(shè)測算如下: 訓(xùn)練端,近年來各大廠商陸續(xù)發(fā)布大模型,我們假設(shè) 23/24/25 年新增 5/10/15 個 大模型,根據(jù) OpenAI 團隊于 2020 發(fā)表的論文《Scaling Laws for Neural Language Models》提出的計算方法,對于以 Transformer 為基礎(chǔ)的模型,假設(shè)模 型參數(shù)量為 N,單 Token 所需的訓(xùn)練算力約為 6N。參考 OpenAI 團隊 2020 同年 發(fā)表的論文《Language Models are Few-Shot Learners》,GPT-3 模型參數(shù)量約為 1750 億個,Token 數(shù)量約為 3000 億個,近年發(fā)布的模型均在千億級參數(shù)級別, 因此我們中性假設(shè) 23 年新增大模型平均參數(shù)量約為 2000 億個,Token 數(shù)量約為 3000 億個,兩者后續(xù)每年以 20%增速增加。另外假設(shè)單次訓(xùn)練耗時約 30 天,算 力效率為 30%,后續(xù)伴隨算法精進,算力效率預(yù)計逐漸提升。以目前主流的訓(xùn)練 端 GPU 英偉達 A100 測算,假設(shè) ASP 為 1 萬美元,23/24/25 年全球訓(xùn)練端 GPU 需求市場規(guī)模預(yù)計分別為 0.74/2.00/4.07 億美元。

推理端,基于訓(xùn)練端的假設(shè),根據(jù)論文《Scaling Laws for Neural Language Models》,單 Token 所需的推理算力開銷約為 2N。則對于 GPT-3 模型,其單 Token 所需的推理算力開銷為 3500 億 FLOPs-S。假設(shè)單次最大查詢 Tokens 數(shù)為 1000(對應(yīng)漢字約 300-500 字,英文約 750 詞),每人每天查詢 20 次。在并發(fā)用 戶數(shù)的估計上,我們參考國際主流社交媒體日活用戶數(shù)進行測算,根據(jù) Dustin Stout 統(tǒng)計,F(xiàn)acebook、WhatsApp、Instagram 全球日活用戶數(shù)分別為 16 億、10 億、6 億,考慮到目前(類) GPT 平臺仍處于發(fā)展早期,我們預(yù)計全球大模型日活 用戶數(shù)在 23/24/25 分別為 2/6/10 億,按照所有用戶平均分布于 24 小時,并以 10 倍計算峰值并發(fā)數(shù)量。以目前英偉達用于推理端計算的 A10 測算,假設(shè) ASP 為 2800 美元,23/24/25 年全球推理端 GPU 需求市場規(guī)模預(yù)計分別為 69.14/164.2/205.88 億美元。




英偉達GPU何以獨霸市場?

GPU成為AI計算的標(biāo)配,其中最大的贏家非英偉達莫屬,在AI計算領(lǐng)域英偉達的GPU幾乎占到市場的絕大部分,英特爾和AMD等芯片巨頭也幾乎都錯過了這一波AI浪潮的紅利。英偉達做對了什么?英特爾與AMD緣何錯過GPU需求爆發(fā)的市場機會?

2006年英偉達推出CUDA,帶來了靈活便捷的GPU編程手段,這為使用GPU完成AI計算創(chuàng)造了良好的條件。2014年英偉達發(fā)布cuDNN V1.0深度神經(jīng)網(wǎng)絡(luò)加速庫,并集成進了Caffe等AI框架中,進一步為基于英偉達GPU的AI計算提升性能和易用性等,使得AI開發(fā)和研究人員可以更加專注于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計等。2016年英偉達推出的Pascal架構(gòu)GPU產(chǎn)品,已經(jīng)開始專門為AI計算場景,特別是推理計算場景,做了許多的定制和優(yōu)化,能更好的滿足AI計算的需求,此外推出NVlink單機多卡的互聯(lián)技術(shù),增加了GPU之間通信的帶寬,也加速了多卡并行計算的效率。2017年英偉達在Volta架構(gòu)系列GPU中引入TensorCore,使得英偉達GPU產(chǎn)品在AI計算的訓(xùn)練場景的性能繼續(xù)提升。2020年英偉達又推出新一代Ampere架構(gòu)的GPU產(chǎn)品,在算力和性能等又大幅提升。

目前在AI計算場景下,英偉達GPU已經(jīng)成為最主流的選擇,從整個發(fā)展過程中可以看到英偉達在軟硬件方面的所做的努力也密不可分,并且從2014年開始英偉達在AI方面每一次布局都剛好恰到好處。CUDA的推出可能為2011年前后發(fā)現(xiàn)GPU在AI計算中10-60倍的加速效果創(chuàng)造有利條件;2014年推出的cuDNN,并集成進Caffe等AI框架,在軟件層面進一步增加了英偉達GPU的易用性等;2016年開始直接在芯片層面全面支持AI計算場景需求,后續(xù)的產(chǎn)品在算力和性能等方面的提升正好又迎合了AI技術(shù)和產(chǎn)業(yè)發(fā)展的大趨勢。

再看另外兩家芯片巨頭英特爾和AMD,這兩家都有非常強大的實力,按理說應(yīng)該也能在這一波AI浪潮取得巨大紅利,但事實上卻并沒有。當(dāng)然因為AI的發(fā)展帶動CPU采購肯定也給英特爾和AMD帶來了不少收益。過去10年中,英特爾并沒有專門針對AI計算推出相應(yīng)的產(chǎn)品,不論學(xué)界還是業(yè)界有AI方面新的研究成果,英特爾可能都會跟進在CPU上進行一些優(yōu)化,聲稱在GPU上的性能只比在CPU上快2-3倍左右,并沒有像其他地方所說的幾十倍上百倍的效果。在AI計算效率等方面,英特爾在CPU上優(yōu)化后確實能夠縮小與GPU的差距,但這種優(yōu)化的思路在業(yè)界并沒有太多的跟隨者,主要是優(yōu)化工作本身的門檻相對較高。

AMD在過去十多年中CPU一直被英特爾壓著,無暇顧及GPU市場的更多需求,雖然AMD的GPU在游戲市場也不錯,但在AI計算方面始終沒有形成氣候。當(dāng)然2018年前后AMD新架構(gòu)的CPU產(chǎn)品面世之后,最近幾年大有反超英特爾的架勢,不久前AMD推出的Instinct MI100的GPU產(chǎn)品不知道是否會在AI計算領(lǐng)域挑戰(zhàn)英偉達的地位,讓我們拭目以待。


國產(chǎn)GPU該如何破局?

國內(nèi)這一批GPU方面的創(chuàng)業(yè)公司主要都是在過去3年內(nèi)成立,如沐曦、壁仞、摩爾線程等等,并且不少已經(jīng)完成了幾十億元的融資,今年下半年或者明年這些家國產(chǎn)GPU廠商的產(chǎn)品估計也都差不多能推向市場。面對已經(jīng)占據(jù)市場絕對主導(dǎo)地位的英偉達,以及強勢入場的英特爾和AMD,國產(chǎn)GPU產(chǎn)品如何破局,才能在市場中占得一席之地?



中美貿(mào)易戰(zhàn)以及最近的俄烏戰(zhàn)爭中西方對俄羅斯的制裁,對于國有GPU產(chǎn)品的采納有重要的作用。回顧過去20年國產(chǎn)CPU產(chǎn)品的發(fā)展,由于英特爾和AMD的CPU產(chǎn)品的性價比較高,國產(chǎn)CPU產(chǎn)品此前一直未成氣候,中美貿(mào)易戰(zhàn)之后,信創(chuàng)產(chǎn)品的需求帶動了國產(chǎn)CPU產(chǎn)品的發(fā)展。在當(dāng)前的社會大背景下,國產(chǎn)GPU產(chǎn)品也有很大的用武之地,對于每一個國產(chǎn)GPU的廠商而言都是重大的機遇。

國產(chǎn)GPU產(chǎn)品短期內(nèi)要跟英偉達等巨頭抗衡估計難度比較大,因此在后續(xù)的發(fā)展路徑中,建議是先積極擁抱信創(chuàng)產(chǎn)品體系,積極開展與地方政府或者在關(guān)系國計民生的特定領(lǐng)域等部門等緊密合作,針對該具體領(lǐng)域與上下游服務(wù)商形成相應(yīng)解決方案,先保證能在市場中立足。只要在一個地方或一個領(lǐng)域占據(jù)優(yōu)勢位置,應(yīng)該足以在市場中立足,然后再圖更大的發(fā)展。

從英偉達GPU產(chǎn)品的成功案例中,國產(chǎn)GPU廠商也可以借鑒不少經(jīng)驗,在商用領(lǐng)域可能第一步需要實現(xiàn)對英偉達CUDA等軟件生態(tài)的兼容,使得開發(fā)人員在實際使用過程中遷移成本最低,后續(xù)需要進一步增加在軟件平臺方面投入,不斷提升自身GPU產(chǎn)品的易用性等,并聯(lián)合更多的軟件生態(tài)企業(yè)不斷完善GPU和AI計算的軟硬件生態(tài)體系。如果主要幾個國產(chǎn)GPU廠商能聯(lián)合制定和推出一套類CUDA的標(biāo)準(zhǔn)體系可能,或許能夠?qū)φ麄€國產(chǎn)GPU產(chǎn)品的推廣會有一定的意義。