日日躁夜夜躁狠狠躁超碰97,无码国内精品久久综合88 ,热re99久久精品国99热,国产萌白酱喷水视频在线播放

歡迎訪問深圳市中小企業(yè)公共服務(wù)平臺(tái)電子信息窗口

大模型由OpenAI引爆,算力則是英偉達(dá)的“拿手戲”

2024-04-08 來源:賢集網(wǎng)
3023

關(guān)鍵詞: 英偉達(dá) AI芯片 晶體管

北京時(shí)間3月19日凌晨,全球芯片巨頭英偉達(dá)(NVIDIA)公司召開了一年一度的 GTC 大會(huì),公司創(chuàng)始人兼首席執(zhí)行官黃仁勛發(fā)表演講,正式宣布將推出用于萬億參數(shù)級(jí)生成式AI的NVIDIA Blackwell架構(gòu)及搭載Blackwell技術(shù)的B200和GB200系列芯片,將人工智能的計(jì)算能力推向了前所未有的高度。

在規(guī)格和性能方面,英偉達(dá)的新一代超級(jí)AI芯片顯示出顯著的進(jìn)步。據(jù)會(huì)上介紹,上一代H100/H200芯片有800億個(gè)晶體管,而B200擁有2080億個(gè)晶體管。晶體管是集成電路的基本組件,更多的晶體管可以處理更多的數(shù)據(jù),執(zhí)行更復(fù)雜的計(jì)算,從而提供更高的性能。B200采用允許更小的晶體管尺寸和更高的集成度的臺(tái)積電4NP工藝制程,可以支持多達(dá)10萬億個(gè)參數(shù)的AI大模型來進(jìn)行更高級(jí)的自然語言處理、圖像識(shí)別和復(fù)雜的數(shù)據(jù)分析任務(wù)。GB200芯片將兩個(gè)B200 Blackwell GPU與一個(gè)基于Arm架構(gòu)的Grace CPU進(jìn)行配對(duì),兩塊芯片之間的互聯(lián)速度高達(dá)10TBps,這種設(shè)計(jì)結(jié)合了GPU的強(qiáng)大并行處理能力和CPU的高效序列處理能力。



在能效方面,Blackwell芯片架構(gòu)也有顯著改進(jìn),黃仁勛舉例如果要訓(xùn)練一個(gè)1.8萬億參數(shù)量的GPT模型,在沒有使用Blackwell技術(shù)的情況下,需要連續(xù)運(yùn)行90天,使用8000張Hopper GPU,并消耗15兆瓦的電力。但如果使用了Blackwell GPU,只需要2000張芯片,而且只需消耗四分之一的電力,大約4兆瓦,就可以完成同樣的任務(wù)。Blackwell芯片架構(gòu)的能效改進(jìn)意味著在處理大規(guī)模AI模型訓(xùn)練時(shí),可以實(shí)現(xiàn)更高的性能和更低的能源消耗,這對(duì)于可持續(xù)發(fā)展具有重要意義。

在當(dāng)前人工智能快速發(fā)展的背景下,對(duì)于計(jì)算能力的需求也日益增長(zhǎng)。從自動(dòng)駕駛汽車到智能醫(yī)療診斷,再到大規(guī)模數(shù)據(jù)分析、數(shù)字孿生等,沒有哪一項(xiàng)不在渴求更高的處理速度和更低的能耗。


大語言模型助推 GPU 算力需求增長(zhǎng)

市場(chǎng)對(duì) 3D 圖像處理和 AI 深度學(xué)習(xí)計(jì)算等需求不斷增加,GPU 市場(chǎng)保持高增 速。據(jù) Global Market Insights 的數(shù)據(jù),全球 GPU 市場(chǎng)預(yù)計(jì)將以 CAGR 25.9%持 續(xù)增長(zhǎng),至 2030 年達(dá)到 4000 億美元規(guī)模。在 GPU 市場(chǎng)中,NVIDIA 依靠在深 度學(xué)習(xí)、人工智能等領(lǐng)域布局的先發(fā)優(yōu)勢(shì)并憑借其優(yōu)異產(chǎn)品性能以及成熟的生態(tài) 平臺(tái)長(zhǎng)期處于領(lǐng)導(dǎo)地位,根據(jù) JPR 數(shù)據(jù),2022 年 Q1,NVIDIA 的在獨(dú)顯市場(chǎng)份 額約為 78%。

大語言模型有望拉動(dòng) GPU 需求增量,我們測(cè)算 23/24/25 年大模型有望貢獻(xiàn) GPU 市場(chǎng)增量 69.88/166.2/209.95 億美元。具體假設(shè)測(cè)算如下: 訓(xùn)練端,近年來各大廠商陸續(xù)發(fā)布大模型,我們假設(shè) 23/24/25 年新增 5/10/15 個(gè) 大模型,根據(jù) OpenAI 團(tuán)隊(duì)于 2020 發(fā)表的論文《Scaling Laws for Neural Language Models》提出的計(jì)算方法,對(duì)于以 Transformer 為基礎(chǔ)的模型,假設(shè)模 型參數(shù)量為 N,單 Token 所需的訓(xùn)練算力約為 6N。參考 OpenAI 團(tuán)隊(duì) 2020 同年 發(fā)表的論文《Language Models are Few-Shot Learners》,GPT-3 模型參數(shù)量約為 1750 億個(gè),Token 數(shù)量約為 3000 億個(gè),近年發(fā)布的模型均在千億級(jí)參數(shù)級(jí)別, 因此我們中性假設(shè) 23 年新增大模型平均參數(shù)量約為 2000 億個(gè),Token 數(shù)量約為 3000 億個(gè),兩者后續(xù)每年以 20%增速增加。另外假設(shè)單次訓(xùn)練耗時(shí)約 30 天,算 力效率為 30%,后續(xù)伴隨算法精進(jìn),算力效率預(yù)計(jì)逐漸提升。以目前主流的訓(xùn)練 端 GPU 英偉達(dá) A100 測(cè)算,假設(shè) ASP 為 1 萬美元,23/24/25 年全球訓(xùn)練端 GPU 需求市場(chǎng)規(guī)模預(yù)計(jì)分別為 0.74/2.00/4.07 億美元。

推理端,基于訓(xùn)練端的假設(shè),根據(jù)論文《Scaling Laws for Neural Language Models》,單 Token 所需的推理算力開銷約為 2N。則對(duì)于 GPT-3 模型,其單 Token 所需的推理算力開銷為 3500 億 FLOPs-S。假設(shè)單次最大查詢 Tokens 數(shù)為 1000(對(duì)應(yīng)漢字約 300-500 字,英文約 750 詞),每人每天查詢 20 次。在并發(fā)用 戶數(shù)的估計(jì)上,我們參考國(guó)際主流社交媒體日活用戶數(shù)進(jìn)行測(cè)算,根據(jù) Dustin Stout 統(tǒng)計(jì),F(xiàn)acebook、WhatsApp、Instagram 全球日活用戶數(shù)分別為 16 億、10 億、6 億,考慮到目前(類) GPT 平臺(tái)仍處于發(fā)展早期,我們預(yù)計(jì)全球大模型日活 用戶數(shù)在 23/24/25 分別為 2/6/10 億,按照所有用戶平均分布于 24 小時(shí),并以 10 倍計(jì)算峰值并發(fā)數(shù)量。以目前英偉達(dá)用于推理端計(jì)算的 A10 測(cè)算,假設(shè) ASP 為 2800 美元,23/24/25 年全球推理端 GPU 需求市場(chǎng)規(guī)模預(yù)計(jì)分別為 69.14/164.2/205.88 億美元。




英偉達(dá)GPU何以獨(dú)霸市場(chǎng)?

GPU成為AI計(jì)算的標(biāo)配,其中最大的贏家非英偉達(dá)莫屬,在AI計(jì)算領(lǐng)域英偉達(dá)的GPU幾乎占到市場(chǎng)的絕大部分,英特爾和AMD等芯片巨頭也幾乎都錯(cuò)過了這一波AI浪潮的紅利。英偉達(dá)做對(duì)了什么?英特爾與AMD緣何錯(cuò)過GPU需求爆發(fā)的市場(chǎng)機(jī)會(huì)?

2006年英偉達(dá)推出CUDA,帶來了靈活便捷的GPU編程手段,這為使用GPU完成AI計(jì)算創(chuàng)造了良好的條件。2014年英偉達(dá)發(fā)布cuDNN V1.0深度神經(jīng)網(wǎng)絡(luò)加速庫,并集成進(jìn)了Caffe等AI框架中,進(jìn)一步為基于英偉達(dá)GPU的AI計(jì)算提升性能和易用性等,使得AI開發(fā)和研究人員可以更加專注于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)等。2016年英偉達(dá)推出的Pascal架構(gòu)GPU產(chǎn)品,已經(jīng)開始專門為AI計(jì)算場(chǎng)景,特別是推理計(jì)算場(chǎng)景,做了許多的定制和優(yōu)化,能更好的滿足AI計(jì)算的需求,此外推出NVlink單機(jī)多卡的互聯(lián)技術(shù),增加了GPU之間通信的帶寬,也加速了多卡并行計(jì)算的效率。2017年英偉達(dá)在Volta架構(gòu)系列GPU中引入TensorCore,使得英偉達(dá)GPU產(chǎn)品在AI計(jì)算的訓(xùn)練場(chǎng)景的性能繼續(xù)提升。2020年英偉達(dá)又推出新一代Ampere架構(gòu)的GPU產(chǎn)品,在算力和性能等又大幅提升。

目前在AI計(jì)算場(chǎng)景下,英偉達(dá)GPU已經(jīng)成為最主流的選擇,從整個(gè)發(fā)展過程中可以看到英偉達(dá)在軟硬件方面的所做的努力也密不可分,并且從2014年開始英偉達(dá)在AI方面每一次布局都剛好恰到好處。CUDA的推出可能為2011年前后發(fā)現(xiàn)GPU在AI計(jì)算中10-60倍的加速效果創(chuàng)造有利條件;2014年推出的cuDNN,并集成進(jìn)Caffe等AI框架,在軟件層面進(jìn)一步增加了英偉達(dá)GPU的易用性等;2016年開始直接在芯片層面全面支持AI計(jì)算場(chǎng)景需求,后續(xù)的產(chǎn)品在算力和性能等方面的提升正好又迎合了AI技術(shù)和產(chǎn)業(yè)發(fā)展的大趨勢(shì)。

再看另外兩家芯片巨頭英特爾和AMD,這兩家都有非常強(qiáng)大的實(shí)力,按理說應(yīng)該也能在這一波AI浪潮取得巨大紅利,但事實(shí)上卻并沒有。當(dāng)然因?yàn)锳I的發(fā)展帶動(dòng)CPU采購(gòu)肯定也給英特爾和AMD帶來了不少收益。過去10年中,英特爾并沒有專門針對(duì)AI計(jì)算推出相應(yīng)的產(chǎn)品,不論學(xué)界還是業(yè)界有AI方面新的研究成果,英特爾可能都會(huì)跟進(jìn)在CPU上進(jìn)行一些優(yōu)化,聲稱在GPU上的性能只比在CPU上快2-3倍左右,并沒有像其他地方所說的幾十倍上百倍的效果。在AI計(jì)算效率等方面,英特爾在CPU上優(yōu)化后確實(shí)能夠縮小與GPU的差距,但這種優(yōu)化的思路在業(yè)界并沒有太多的跟隨者,主要是優(yōu)化工作本身的門檻相對(duì)較高。

AMD在過去十多年中CPU一直被英特爾壓著,無暇顧及GPU市場(chǎng)的更多需求,雖然AMD的GPU在游戲市場(chǎng)也不錯(cuò),但在AI計(jì)算方面始終沒有形成氣候。當(dāng)然2018年前后AMD新架構(gòu)的CPU產(chǎn)品面世之后,最近幾年大有反超英特爾的架勢(shì),不久前AMD推出的Instinct MI100的GPU產(chǎn)品不知道是否會(huì)在AI計(jì)算領(lǐng)域挑戰(zhàn)英偉達(dá)的地位,讓我們拭目以待。


國(guó)產(chǎn)GPU該如何破局?

國(guó)內(nèi)這一批GPU方面的創(chuàng)業(yè)公司主要都是在過去3年內(nèi)成立,如沐曦、壁仞、摩爾線程等等,并且不少已經(jīng)完成了幾十億元的融資,今年下半年或者明年這些家國(guó)產(chǎn)GPU廠商的產(chǎn)品估計(jì)也都差不多能推向市場(chǎng)。面對(duì)已經(jīng)占據(jù)市場(chǎng)絕對(duì)主導(dǎo)地位的英偉達(dá),以及強(qiáng)勢(shì)入場(chǎng)的英特爾和AMD,國(guó)產(chǎn)GPU產(chǎn)品如何破局,才能在市場(chǎng)中占得一席之地?



中美貿(mào)易戰(zhàn)以及最近的俄烏戰(zhàn)爭(zhēng)中西方對(duì)俄羅斯的制裁,對(duì)于國(guó)有GPU產(chǎn)品的采納有重要的作用?;仡欉^去20年國(guó)產(chǎn)CPU產(chǎn)品的發(fā)展,由于英特爾和AMD的CPU產(chǎn)品的性價(jià)比較高,國(guó)產(chǎn)CPU產(chǎn)品此前一直未成氣候,中美貿(mào)易戰(zhàn)之后,信創(chuàng)產(chǎn)品的需求帶動(dòng)了國(guó)產(chǎn)CPU產(chǎn)品的發(fā)展。在當(dāng)前的社會(huì)大背景下,國(guó)產(chǎn)GPU產(chǎn)品也有很大的用武之地,對(duì)于每一個(gè)國(guó)產(chǎn)GPU的廠商而言都是重大的機(jī)遇。

國(guó)產(chǎn)GPU產(chǎn)品短期內(nèi)要跟英偉達(dá)等巨頭抗衡估計(jì)難度比較大,因此在后續(xù)的發(fā)展路徑中,建議是先積極擁抱信創(chuàng)產(chǎn)品體系,積極開展與地方政府或者在關(guān)系國(guó)計(jì)民生的特定領(lǐng)域等部門等緊密合作,針對(duì)該具體領(lǐng)域與上下游服務(wù)商形成相應(yīng)解決方案,先保證能在市場(chǎng)中立足。只要在一個(gè)地方或一個(gè)領(lǐng)域占據(jù)優(yōu)勢(shì)位置,應(yīng)該足以在市場(chǎng)中立足,然后再圖更大的發(fā)展。

從英偉達(dá)GPU產(chǎn)品的成功案例中,國(guó)產(chǎn)GPU廠商也可以借鑒不少經(jīng)驗(yàn),在商用領(lǐng)域可能第一步需要實(shí)現(xiàn)對(duì)英偉達(dá)CUDA等軟件生態(tài)的兼容,使得開發(fā)人員在實(shí)際使用過程中遷移成本最低,后續(xù)需要進(jìn)一步增加在軟件平臺(tái)方面投入,不斷提升自身GPU產(chǎn)品的易用性等,并聯(lián)合更多的軟件生態(tài)企業(yè)不斷完善GPU和AI計(jì)算的軟硬件生態(tài)體系。如果主要幾個(gè)國(guó)產(chǎn)GPU廠商能聯(lián)合制定和推出一套類CUDA的標(biāo)準(zhǔn)體系可能,或許能夠?qū)φ麄€(gè)國(guó)產(chǎn)GPU產(chǎn)品的推廣會(huì)有一定的意義。