半導(dǎo)體營收之王三十年來或?qū)⑹状我字鞯谌耍徽蠫PU打敗天下!
關(guān)鍵詞: 英偉達(dá) 人工智能 半導(dǎo)體
在社會上快速滲透的生成式AI(人工智能)已開始改寫半導(dǎo)體行業(yè)的勢力格局。領(lǐng)先一步的美國英偉達(dá)的業(yè)績飛速增長,2023年在營業(yè)收入方面首次躍居世界首位的可能性正在增強(qiáng)。
有觀點預(yù)測稱,AI半導(dǎo)體的市場規(guī)模到2027年將達(dá)到60萬億日元,包括云計算巨頭在內(nèi)的競爭也在日益激烈。
英偉達(dá)將首次捧起半導(dǎo)體行業(yè)冠軍寶座
“AI是過去50年來最大的技術(shù)創(chuàng)新。與之相近的是互聯(lián)網(wǎng),但AI普及速度更快”,美國半導(dǎo)體巨頭AMD的首席執(zhí)行官(CEO)蘇姿豐(Lisa Su)12月6日在美國硅谷舉行的技術(shù)說明會的開頭這樣強(qiáng)調(diào)。
數(shù)據(jù)中心對高性能CPU(中央處理器)的需求很大,但在AI的開發(fā)和利用方面,則需要能夠高效并行處理大量數(shù)據(jù)的半導(dǎo)體。AMD此前預(yù)測這種AI半導(dǎo)體的市場規(guī)模到2027年將擴(kuò)大到1500億美元,后來提高到4000億美元。
英國調(diào)查公司Omdia的溫璟如(Claire Wen)指出,“市場正在超預(yù)期擴(kuò)大這一點是確定無疑的”。
首先受益的是在擅長并行處理的圖形處理器(GPU)領(lǐng)域擁有很高市場份額的英偉達(dá)。QUICK FactSet統(tǒng)計的市場預(yù)測顯示,英偉達(dá)2023財年(截至2024年1月)的營業(yè)收入將達(dá)到上財年的2.2倍,增至588億美元。另一方面,韓國三星電子2023財年(截至2023年12月)半導(dǎo)體部門的營業(yè)收入預(yù)計為490億美元,比上財年減少34%。預(yù)計美國英特爾也將減少14%,僅為539億美元。
美國調(diào)查公司高德納咨詢(Gartner)的統(tǒng)計顯示,在1992年開始的四分之一世紀(jì)里,英特爾長期位居半導(dǎo)體營收世界第一,2017年以后則維持著該公司和三星交替居首的局面。2022年三星位居榜首。如果英偉達(dá)在2023年躍居首位,將是時隔約30年由“新面孔”獲得業(yè)界盟主的寶座。
十年間投入百億構(gòu)筑生態(tài)護(hù)城河
GPU芯片在超級計算和全球巨頭大模型訓(xùn)練戰(zhàn)中地位舉足輕重,而掌握全球80%GPU市場份額的英偉達(dá)賺得盆滿缽滿。然而,這種壟斷式的市場占有率不是一夜砌成的“城墻”。
據(jù)Tractica數(shù)據(jù),預(yù)計到2025年全球AI硬件市場收入將達(dá)到2349億美元,其中GPU的收入占23.2%。
英偉達(dá)在GPU市場的構(gòu)筑的護(hù)城河,CUDA是其中至關(guān)重要的一環(huán)。
英偉達(dá)憑借CUDA幾乎壟斷了訓(xùn)練芯片市場,業(yè)界也幾乎沒有巨頭對CUDA生態(tài)造成顛覆性沖擊。
英偉達(dá)為CUDA生態(tài)鋪墊了十余年。
2007年,英偉達(dá)的GPU研發(fā)技術(shù)已占據(jù)強(qiáng)勢地位,次年英特爾的大客戶蘋果將MacBook除CPU外直接替換成英偉達(dá)Tesla架構(gòu)的GPU便印證了這一點。
據(jù)報道,經(jīng)年累計英偉達(dá)對CUDA總投入早已超過100億美元。
在黃仁勛商業(yè)化考慮之下,CUDA生態(tài)需要培養(yǎng)潛在開發(fā)者,成為受到程序員和企業(yè)歡迎的技術(shù)平臺。
在2006年推出CUDA后,英偉達(dá)的第一個戰(zhàn)略便瞄準(zhǔn)了“軟件開發(fā)人員”,投入巨資讓開發(fā)者習(xí)慣使用CUDA平臺。
初期,開發(fā)者社區(qū)有這樣一句話:CUDA在編程語言和共享存儲器兩個層次的并行都簡化了編程,使得本科生也能使用CUDA寫出大規(guī)模高性能計算程序。
為擴(kuò)大覆蓋率,英偉達(dá)將CUDA引入大學(xué)課堂,與伊利諾伊大學(xué)等高校合作完善函數(shù)庫。在2010年時,已有250所大學(xué)開放CUDA的教學(xué)課程,并有相關(guān)論文數(shù)千篇。以此為基礎(chǔ)完善生態(tài),英偉達(dá)建立研究中心、教學(xué)中心、認(rèn)證計劃,到2015年已有800所大學(xué)開發(fā)相關(guān)課程。
再從業(yè)界來看,英偉達(dá)投入資金做inception計劃(初創(chuàng)加速計劃),讓初創(chuàng)公司運用CUDA做項目鋪墊基礎(chǔ)。
至今,已有超過100家初創(chuàng)公司利用了CUDA。此外,英偉達(dá)開源了Cub、NCCL等通用場景下的開發(fā)庫,并優(yōu)化中間件性能的基礎(chǔ)庫給廠家使用,再次擴(kuò)大了生態(tài)系統(tǒng)。
因此,許多開發(fā)者依賴于CUDA,同時憑借強(qiáng)大的核心能力在消費市場上受到青睞。
2012年,在ImageNet競賽一舉奪冠的AlexNet面世后,CUDA已迭代至5.0版本,支持了動態(tài)庫和GPU指針。
2016年,OpenAI成立之時,CUDA8.0已經(jīng)支持半精度浮點數(shù)和張量核心,軟件生態(tài)已由學(xué)界和業(yè)界人士熟知、互相推薦。
2022年底,ChatGPT的發(fā)布將生成式AI送到人們眼前,CUDA12.0支持了新的NVIDIA Hopper 和 NVIDIA Ada Lovelace 架構(gòu)功能,并為所有GPU提供了額外的編程模型增強(qiáng)。
等到大模型熱度吹進(jìn)各家企業(yè)時,英偉達(dá)已經(jīng)深化了他們在行業(yè)中的差異化,成為市場玩家購物籃的第一選擇。
目前為止,基于CUDA的GPU銷量超過百萬。
而眾多GPU芯片廠家中,為什么是英偉達(dá)做出了唯一的CUDA開發(fā)環(huán)境?
從虧錢生意到利潤1000%
回顧世紀(jì)初期,英偉達(dá)與微軟、ATI、AMD、英特爾五家巨頭的混戰(zhàn),英偉達(dá)在圖形處理市場中逐漸占據(jù)優(yōu)勢。
2006年7月,AMD以54億美元溢價收購ATI,芯片市場重新洗牌。同年,英偉達(dá)的首席科學(xué)家David Kirk提出了“將GPU技術(shù)通用化”的思路,從主要做3D渲染的任務(wù)中脫離出來,探索通用計算任務(wù)。
這個思路就是CUDA。而當(dāng)時,愿意擔(dān)起這門費錢費力的技術(shù)活的也是英偉達(dá)。
幾大家芯片公司中,老對手AMD買下ATI后GPU研發(fā)進(jìn)入弱勢地位,英特爾取消了自研GPU計劃。英偉達(dá)則在GPU技術(shù)方面將巨頭們甩在了身后。
17年前,研發(fā)CUDA是一個超前的決定,英偉達(dá)的CUDA進(jìn)化并非一帆風(fēng)順,黃仁勛則堅持“加速計算”是未來。
英偉達(dá)和英特爾在2006年秋天共同開發(fā)了基于CUDA的新型GPU,即G80 GPU。而兩者的合作持續(xù)不長久,CUDA的研發(fā)決策需要英偉達(dá)長久地投入大量資金。
從產(chǎn)品特性上來說,CUDA邏輯電路在硬件產(chǎn)品中增加會導(dǎo)致芯片的散熱需求增高,由此也會帶來成本上升、故障增多的風(fēng)險。
從財報表現(xiàn)來看,CUDA也是一門虧錢生意,在2008年金融危機(jī)前后表現(xiàn)得更為明顯。
在最艱難的時候,黃仁勛也沒有中斷CUDA,直到2012年辛頓教授帶隊以GPU代替CPU訓(xùn)練AI模型做出了AlexNet。
2020年,黃仁勛在接受Barron周刊時強(qiáng)調(diào):“英偉達(dá)將推動下一個人工智能大爆炸?!?/span>
這5年,為了迎接人工智能,英偉達(dá)做了3件事。
第一,2019年3月,英偉達(dá)以69億美元收購了高性能計算互聯(lián)技術(shù)公司Mellanox 。這家公司的主要產(chǎn)品InfiniBand,被認(rèn)為速度更快、帶寬更高,是數(shù)據(jù)傳輸?shù)挠行Х绞剑鳰ellanox是唯一的InfiniBand規(guī)范提供商。
第二,英偉達(dá)于2022年9月發(fā)布新一代AI芯片“Drive Thor”,專為大規(guī)模GPU集群協(xié)調(diào)設(shè)計,是英偉達(dá)一款完全集成的解決方案。
第三,英偉達(dá)推出專為加速計算和生成式AI打造的Hopper架構(gòu),H100便是基于此架構(gòu)的GPU。市場消息稱,H100是英偉達(dá)利潤率高達(dá)1000%的產(chǎn)品,出貨量超過900噸。
隨著ChatGPT發(fā)布,帶動AI服務(wù)器出貨量和價格上漲,英偉達(dá)的GPU芯片價格水漲船高。英偉達(dá)的DGX H100售價總價為268495美元,包含8GPU+4NVSwitch基板等,每臺毛利率接近190000美元。
英偉達(dá)的財務(wù)收入令人矚目,據(jù)悉,過去3個財年的復(fù)合年增長率(CAGR)達(dá)到35.2%,預(yù)計2023年收入將飆升51.4%至408億美元。
GPU市場迎來更多競爭者
Google
谷歌報告稱,云計算收入增長了22%,達(dá)到84.1億美元,低于預(yù)計的86.4億美元。6月份,谷歌的云計算業(yè)務(wù)增長了28%。
2023年,谷歌發(fā)布了最新的自主研發(fā)芯片TPU V4,其性能比上一代芯片顯著提高了2.1倍。通過集成4096個這樣的芯片,超級計算性能大幅提升了10倍,令人印象深刻。
谷歌表示,在規(guī)模相當(dāng)?shù)南到y(tǒng)中,TPU V4的性能是英偉達(dá)A100的1.7倍,能效也提高了1.9倍。與前代產(chǎn)品TPU V3相似,每個TPU V4由兩個張量核 (TC) 單元組成。每個TC單元由四個128x128矩陣乘法單元(MXU)、一個配備128個通道(每個通道包含16個ALU)的矢量處理單元(“VPU”)和16 MiB的矢量存儲器(“VMEM”)組成。
除了下一代TPU,谷歌還在2023年底開始向開發(fā)人員全面提供英偉達(dá)的H100 GPU,作為其A3系列虛擬機(jī)的一部分。
亞馬遜AWS
在過去的六個季度里,亞馬遜網(wǎng)絡(luò)服務(wù)部的業(yè)績一直在下滑,但第三季度的業(yè)績卻趨于穩(wěn)定,保持了12%的同比增長。該部門的營業(yè)收入也同比激增29%,達(dá)到約70億美元。
今年5月,AWS推出了基于英偉達(dá) H100 GPU的EC2 P5虛擬機(jī)實例。該配置包括八個英偉達(dá) H100 Tensor Core GPU,每個都配備了640 GB的高帶寬GPU內(nèi)存。它還擁有第三代AMD EPYC處理器、2 TB系統(tǒng)內(nèi)存、30 TB本地NVMe存儲、令人印象深刻的3200 Gbps總網(wǎng)絡(luò)帶寬以及對GPUDirect RDMA的支持。后者可實現(xiàn)節(jié)點與節(jié)點之間的直接通信,無需使用CPU,從而降低了延遲,提高了橫向擴(kuò)展性能。
此外,亞馬遜EC2 P5實例可部署在第二代超大規(guī)模集群(稱為亞馬遜EC2 UltraClusters)中。這些集群包括高性能計算、網(wǎng)絡(luò)資源和云存儲。這些集群可容納多達(dá)20,000個H100 Tensor Core GPU,使用戶能夠部署參數(shù)高達(dá)數(shù)十億或數(shù)萬億的機(jī)器學(xué)習(xí)模型。
微軟公司
微軟的云計算收入增長了24%,9月份達(dá)到318億美元。在微軟的三大業(yè)務(wù)部門中,智能云的表現(xiàn)最為突出,收入增長了19%,達(dá)到243億美元。該部門包括服務(wù)器產(chǎn)品和云服務(wù),其中Azure實現(xiàn)了29%的強(qiáng)勁增長,超過了華爾街的預(yù)期的26%。
今年3月,微軟在一篇博客文章中宣布,計劃對Azure進(jìn)行重大升級。此次升級將采用數(shù)以萬計的英偉達(dá)尖端H100圖形卡,以及速度更快的InfiniBand網(wǎng)絡(luò)互連技術(shù)。
ND H100 v5實例還采用了英特爾公司最新的第四代英特爾至強(qiáng)可擴(kuò)展中央處理器,并通過英偉達(dá)的Quantum-2 CX7 InfiniBand技術(shù)實現(xiàn)低延遲聯(lián)網(wǎng)。它們還采用了PCIe Gen5,為每個GPU提供每秒64千兆字節(jié)的帶寬,以及可實現(xiàn)更快數(shù)據(jù)傳輸速度的DDR5內(nèi)存,以處理最大的人工智能訓(xùn)練數(shù)據(jù)集。
成功的初創(chuàng)企業(yè)
ChatGPT等應(yīng)用進(jìn)一步鞏固了英偉達(dá)在人工智能行業(yè)的地位。其GPU芯片已成為各種人工智能應(yīng)用的關(guān)鍵。因此,任何希望在這一領(lǐng)域挑戰(zhàn)英偉達(dá)的初創(chuàng)公司都面臨著巨大的壓力,因為英偉達(dá)已經(jīng)確立了自己的技術(shù)的主導(dǎo)地位和可靠性。
Cerebras
英偉達(dá)的A100 GPU已經(jīng)相當(dāng)可觀,芯片面積826平方毫米。相比之下,Cerebras的新WSE-2芯片則非常巨大,面積達(dá)45225平方毫米,基本上覆蓋了8英寸硅晶片的整個表面。自2016年成立以來,Cerebras已成功獲得7.3億美元的融資。根據(jù)CB Insights全球獨角獸俱樂部的數(shù)據(jù),該公司目前的估值為40億美元。
Cerebras與Abu Dhabi的G42合作,建造了九臺人工智能超級計算機(jī)中的第一臺,該項目耗資超過1億美元。此外,Cerebras還在生成式人工智能領(lǐng)域積極尋找機(jī)會。雖然它的CS-2模型在GPT環(huán)境下的訓(xùn)練速度令人印象深刻,但尚未獲得業(yè)內(nèi)主要制造商的采用。
SambaNova
SambaNova成立于2017年,是人工智能芯片行業(yè)中資金最雄厚的公司之一。它已成功融資10億美元之巨,其著名支持者包括軟銀和英特爾。這不僅使SambaNova成為融資最多的AI芯片初創(chuàng)公司,也使其成為英偉達(dá)最強(qiáng)大的新興競爭對手之一,估值高達(dá)50億美元。
SambaNova最近推出了最新的第四代SN40L處理器。這款尖端芯片采用臺積電先進(jìn)的5納米工藝制造,擁有超過1,020億個晶體管,計算速度高達(dá)638 teraflops。它采用獨特的三層內(nèi)存系統(tǒng),包括片上內(nèi)存、高帶寬內(nèi)存和大容量內(nèi)存,所有這些設(shè)計都是為了高效處理與人工智能工作負(fù)載相關(guān)的大量數(shù)據(jù)流。SambaNova聲稱,一個節(jié)點中僅有八個這樣的芯片就能支持多達(dá)50萬億個參數(shù)的模型,幾乎是OpenAI的GPT-4 LLM報告的三倍。
Tenstorrent
Tenstorrent是人工智能芯片行業(yè)的另一家著名初創(chuàng)公司,成立于2016年。迄今為止,該公司已獲得近3.35億美元的融資,最近還獲得了三星和現(xiàn)代汽車等大公司的投資,目前估值約為10億美元。
Tenstorrent正瞄準(zhǔn)挑戰(zhàn)英偉達(dá)在人工智能領(lǐng)域的主導(dǎo)地位,開發(fā)采用RISC-V和Chiplet技術(shù)的人工智能CPU。值得注意的是,該公司最近與三星達(dá)成了生產(chǎn)合作,打算利用三星先進(jìn)的4nm工藝制造芯片。這一合作彰顯了Tenstorrent致力于推動其技術(shù)發(fā)展并參與人工智能芯片市場競爭的承諾。
