即使對(duì)手不少,它們也不是英偉達(dá)!
在早前的臺(tái)灣computex上,英偉達(dá)創(chuàng)始人黃仁勛接受了媒體采訪。在被問到:“Meta、谷歌和微軟等云服務(wù)提供商正在制造自己的 AI 芯片。這會(huì)對(duì) NVIDIA 產(chǎn)生什么影響?NVIDIA 會(huì)進(jìn)入定制 ASIC 業(yè)務(wù)嗎?”這個(gè)問題時(shí)。
黃仁勛回應(yīng)道:是的,我們會(huì)這么做。但 NVIDIA 非常不同——NVIDIA 不是一家加速器公司,而是一家加速計(jì)算公司。NVIDIA 的加速計(jì)算非常通用,因此利用率更高,實(shí)用性更高,實(shí)際成本更低。人們認(rèn)為你的智能手機(jī)很貴,但想想它取代的所有東西——一臺(tái)設(shè)備的實(shí)際成本要取代那么多臺(tái)設(shè)備,NVIDIA 加速計(jì)算也是如此。
NVIDIA 架構(gòu)用途廣泛,無處不在 - 公共、私人、國家等。這是因?yàn)槲覀兊母采w范圍非常廣,所以我們是任何開發(fā)人員的首要目標(biāo)。如果你為 CUDA 編程,它可以在任何地方運(yùn)行,如果你為加速器編程,它只能在那里運(yùn)行,這是有道理的。當(dāng)云客戶使用 NVIDIA 時(shí),我們會(huì)將 CUDA 客戶帶到云端,我們對(duì)此感到高興。
在問到對(duì) UALink的看法時(shí),黃仁勛表示,世界已經(jīng)意識(shí)到了 NVLink 的重要性。NVLink 現(xiàn)已發(fā)展到第五代,并且 NVLink 的連接速度令人難以置信。NVLink 內(nèi)部包含許多軟件和復(fù)雜的東西,而不僅僅是 SERDES。它連接到我們的 GPU - 它們以 NVLink 開始和結(jié)束,因此軟件只能看到一個(gè) GPU。
“經(jīng)過 7 年,人們現(xiàn)在才意識(shí)到 NVLink 的重要性。今天他們有一個(gè)提案,但要過幾年他們才會(huì)有一個(gè)功能齊全的 NVLink 競爭對(duì)手。有些人更喜歡購買現(xiàn)成的產(chǎn)品 - 如果它存在并且足夠好,那為什么不呢?但我的感覺是‘我們得拭目以待’”。黃仁勛強(qiáng)調(diào)。
什么是CUDA?
CUDA(Compute Unified Device Architecture),統(tǒng)一計(jì)算設(shè)備架構(gòu),英偉達(dá)推出的基于其GPU的通用高性能計(jì)算平臺(tái)和編程模型。借助CUDA,開發(fā)者可以充分利用英偉達(dá)GPU的強(qiáng)大計(jì)算能力加速各種計(jì)算任務(wù)。
軟件生態(tài)的基石:CUDA構(gòu)成了英偉達(dá)軟件生態(tài)的基礎(chǔ),諸多前沿技術(shù)均基于CUDA構(gòu)建。例如,TensorRT、Triton和Deepstream等,這些技術(shù)解決方案都是基于CUDA平臺(tái)開發(fā)的,展示了CUDA在推動(dòng)軟件創(chuàng)新方面的強(qiáng)大能力。
軟硬件的橋梁:英偉達(dá)的硬件性能卓越,但要發(fā)揮其最大潛力,離不開與之相匹配的軟件支持。CUDA正是這樣一個(gè)橋梁,它提供了強(qiáng)大的接口,使得開發(fā)者能夠充分利用GPU硬件進(jìn)行高性能計(jì)算加速。就像駕駛一輛高性能汽車,CUDA就像是一位熟練的駕駛員,能夠確保硬件性能得到充分發(fā)揮。
深度學(xué)習(xí)框架的加速器:CUDA不僅在構(gòu)建英偉達(dá)自身的軟件生態(tài)中扮演關(guān)鍵角色,在推動(dòng)第三方軟件生態(tài)發(fā)展方面也功不可沒。特別是在深度學(xué)習(xí)領(lǐng)域,CUDA為眾多深度學(xué)習(xí)框架提供了強(qiáng)大的加速支持。例如,在Pytorch、TensorFlow等流行框架中,CUDA加速功能成為標(biāo)配。
開發(fā)者只需簡單設(shè)置,即可利用GPU進(jìn)行高效的訓(xùn)練和推理任務(wù),從而大幅提升計(jì)算性能。
華為也有自己的護(hù)城河
達(dá)芬奇架構(gòu),作為華為自研的AI計(jì)算架構(gòu),其起源與華為對(duì)AI未來應(yīng)用的深遠(yuǎn)洞察密切相關(guān)。早在幾年前,華為就預(yù)測到2025年,全球智能終端的數(shù)量將達(dá)到400億臺(tái),智能助理的普及率將達(dá)到90%,企業(yè)數(shù)據(jù)的使用率將達(dá)到86%?;谶@樣的預(yù)測,華為在2018年全聯(lián)接大會(huì)上提出全棧全場景AI戰(zhàn)略,并設(shè)計(jì)了達(dá)芬奇計(jì)算架構(gòu),以在不同體積和功耗條件下提供強(qiáng)勁的AI算力。
達(dá)芬奇架構(gòu)的發(fā)展可以追溯到2018年,華為推出的AI芯片Ascend 310(昇騰310)首次亮相,標(biāo)志著達(dá)芬奇架構(gòu)的正式應(yīng)用。緊接著,華為在2019年6月發(fā)布了全新8系列手機(jī)SoC芯片麒麟810,首次采用達(dá)芬奇架構(gòu)NPU,實(shí)現(xiàn)了業(yè)界領(lǐng)先的端側(cè)AI算力。麒麟810在AI Benchmark榜單中表現(xiàn)卓越,證明了達(dá)芬奇架構(gòu)的實(shí)力。
達(dá)芬奇架構(gòu)是專為AI計(jì)算特征而設(shè)計(jì)的全新計(jì)算架構(gòu),具備高算力、高能效、靈活可裁剪的特性。其核心優(yōu)勢(shì)在于采用3D Cube針對(duì)矩陣運(yùn)算做加速,每個(gè)AI Core可以在一個(gè)時(shí)鐘周期內(nèi)實(shí)現(xiàn)4096個(gè)MAC操作,相比傳統(tǒng)的CPU和GPU實(shí)現(xiàn)數(shù)量級(jí)的提升。此外,達(dá)芬奇架構(gòu)還集成了向量、標(biāo)量、硬件加速器等多種計(jì)算單元,并支持多種精度計(jì)算,支撐訓(xùn)練和推理兩種場景的數(shù)據(jù)精度要求。
達(dá)芬奇架構(gòu)的應(yīng)用領(lǐng)域廣泛,覆蓋了從端側(cè)到云端的全場景AI應(yīng)用。在端側(cè),麒麟810芯片的AI算力已經(jīng)在智能手機(jī)中得到應(yīng)用,為消費(fèi)者提供了豐富的AI應(yīng)用體驗(yàn)。在邊緣側(cè)和云端,Ascend系列AI處理器可以滿足從幾十毫瓦到幾百瓦的訓(xùn)練場景,提供最優(yōu)的AI算力。達(dá)芬奇架構(gòu)的靈活性和高效性,使其在智慧城市、自動(dòng)駕駛、工業(yè)制造等多個(gè)領(lǐng)域中發(fā)揮著重要作用。
誠然,達(dá)芬奇架構(gòu)在華為的AI市場布局中占據(jù)了核心的位置。它不僅是華為AI芯片的技術(shù)基礎(chǔ),也是華為實(shí)現(xiàn)全棧全場景AI戰(zhàn)略的重要支撐。通過達(dá)芬奇架構(gòu),華為能夠提供從硬件到軟件的全棧AI解決方案,加速AI技術(shù)的產(chǎn)業(yè)化和應(yīng)用落地。此外,達(dá)芬奇架構(gòu)的統(tǒng)一性也為開發(fā)者帶來了便利,降低了開發(fā)和遷移成本,促進(jìn)了AI應(yīng)用的創(chuàng)新和發(fā)展。
華為GPU快成了,但離構(gòu)建自己的CUDA還很遙遠(yuǎn)
目前看,華為GPU發(fā)展態(tài)勢(shì)較好。
根據(jù)公開信息,2023年華為算力GPU的出貨量大約為十萬片。隨著產(chǎn)能的增加,預(yù)計(jì)到2024年,這個(gè)數(shù)字將翻幾番,達(dá)到幾十萬片的規(guī)模。盡管產(chǎn)能有所提升,市場上的訂單需求依然非常旺盛,僅在2024年1月份的下單量就已經(jīng)達(dá)到了數(shù)十萬片。目前,下單需求已經(jīng)達(dá)到上百萬片,遠(yuǎn)超華為當(dāng)前的供應(yīng)能力。
在國內(nèi)購買情況方面,華為算力GPU受到了市場的熱烈追捧。華為算力GPU的客戶主要分為三個(gè)梯隊(duì):第一類是三大運(yùn)營商和政務(wù)類客戶,第二類是互聯(lián)網(wǎng)客戶,第三類是其他公司。由于算力GPU的緊缺,客戶為了盡快拿到產(chǎn)品,都在努力成為第一梯隊(duì)的客戶,甚至采取與地方政府合作等措施以確保優(yōu)先供應(yīng)。
價(jià)格方面,華為算力GPU自2023年8月上市以來,價(jià)格已經(jīng)經(jīng)歷了至少兩次提價(jià)。最初上市的價(jià)格約為7萬元人民幣,而目前市場價(jià)格已經(jīng)上漲至約12萬元人民幣。
總體來看,華為GPU的發(fā)展態(tài)勢(shì)良好,市場需求強(qiáng)勁,盡管供應(yīng)緊張,但這也反映出華為GPU在性能和國產(chǎn)化方面的優(yōu)勢(shì),使其成為市場中的熱門選擇。隨著技術(shù)的不斷進(jìn)步和產(chǎn)能的進(jìn)一步提升,預(yù)計(jì)華為GPU將在未來市場中占據(jù)更重要的位置。
在一次專訪中,黃仁勛表示:“華為是個(gè)好公司”。此外,英偉達(dá)在財(cái)報(bào)中將華為列為主要競爭對(duì)手,這反映了華為在GPU及相關(guān)技術(shù)領(lǐng)域的競爭力正在增強(qiáng)。
盡管華為GPU發(fā)展態(tài)勢(shì)良好,但CUDA作為GPU領(lǐng)域占主導(dǎo)地位的框架,其生態(tài)系統(tǒng)的成熟度和廣泛接受度遠(yuǎn)遠(yuǎn)超過了其他框架,包括AMD開發(fā)的框架。華為的AI計(jì)算框架在生態(tài)建設(shè)方面確實(shí)還有很長的路要走,需要持續(xù)的技術(shù)創(chuàng)新和市場推廣才能逐步構(gòu)建起與CUDA相匹敵的生態(tài)系統(tǒng)。
然而,英偉達(dá)不想給華為成長起來的時(shí)間了。
近期,英偉達(dá)對(duì)其CUDA平臺(tái)的兼容性政策進(jìn)行了調(diào)整,限制了CUDA軟件在非英偉達(dá)硬件平臺(tái)上的運(yùn)行行為,這一決策始于2021年,并在隨后的時(shí)間里逐步加強(qiáng)。具體來說,英偉達(dá)通過更新其最終用戶許可協(xié)議(EULA),明確禁止了使用轉(zhuǎn)換層或模擬層在非英偉達(dá)GPU上運(yùn)行CUDA代碼的行為。
這一政策變動(dòng)主要影響了那些試圖通過轉(zhuǎn)譯技術(shù)實(shí)現(xiàn)CUDA兼容性的第三方項(xiàng)目,例如ZLUDA等。ZLUDA是一個(gè)允許在非英偉達(dá)硬件上運(yùn)行CUDA程序的轉(zhuǎn)譯庫,它提供了一種相對(duì)簡單的方式,使得開發(fā)者能夠在性能略有損失的情況下,運(yùn)行CUDA程序。
英偉達(dá)此舉,被廣泛認(rèn)為是保護(hù)其市場份額和維護(hù)其技術(shù)控制權(quán)的戰(zhàn)略舉措。通過限制在其他芯片上使用CUDA軟件的方式,英偉達(dá)確保其GPU仍然是開發(fā)人員和依賴其并行計(jì)算平臺(tái)的企業(yè)的首選。
然而,這一決策在業(yè)界引起了不小的震動(dòng),并引發(fā)了廣泛的討論。不少人指責(zé)英偉達(dá)借助封鎖政策壟斷市場,壓制競爭對(duì)手的發(fā)展機(jī)會(huì)。
面對(duì)英偉達(dá)的限制政策,一些國內(nèi)GPU企業(yè)如摩爾線程選擇了遵守EULA規(guī)定,并表態(tài)采用重新編譯代碼的方式與EULA保持一致,以避免違反英偉達(dá)的限制條款。
此外,業(yè)界其他力量,包括AMD、英特爾等廠商,并未因英偉達(dá)的限制而止步,他們正在積極推動(dòng)開放、可移植的生態(tài)系統(tǒng)建設(shè),以試圖打破英偉達(dá)的市場壟斷。
面對(duì)英偉達(dá)的出牌,華為在發(fā)展自己的GPU技術(shù)時(shí),需要更多地依賴自主研發(fā)的軟件工具和開發(fā)環(huán)境,而不是依賴于CUDA這樣的成熟平臺(tái)。這意味著華為需要投入更多的資源來構(gòu)建自己的軟件生態(tài)系統(tǒng),包括開發(fā)與CUDA性能相匹敵的編程工具、庫和API。
可以預(yù)見,在未來較長一段時(shí)間內(nèi),由于CUDA的廣泛使用和對(duì)高性能計(jì)算、AI等領(lǐng)域的深遠(yuǎn)影響,英偉達(dá)的這一政策可能會(huì)限制華為GPU的市場接受度,特別是在那些已經(jīng)深度依賴于CUDA的領(lǐng)域。
這加強(qiáng)了華為構(gòu)建自身AI計(jì)算架構(gòu)和AI生態(tài)的緊迫性,就像當(dāng)初安卓斷供成就了鴻蒙一樣,CUDA的收緊會(huì)否成為華為達(dá)芬奇架構(gòu)的神助攻呢?現(xiàn)在還不好評(píng)判,讓子彈飛一會(huì)吧。
