英偉達放話沒有對手!這底氣來自于哪里?
英偉達 CEO 黃仁勛最近聲稱英偉達的 GPU“非常好,即使競爭對手的芯片是免費的,但它也不夠便宜”。
黃仁勛進一步解釋說,就 AI 數(shù)據(jù)中心的總擁有成本(TCO)而言,英偉達 GPU 的定價并不重要。
根據(jù)斯坦福經(jīng)濟政策研究所(SIEPR)放出的一段會議視頻,SIEPR 前 Trione 主任、斯坦福大學 Charles R. Schwab 經(jīng)濟學名譽教授 John Shoven 問道:“你們制造了完全先進的芯片,這是有可能的嗎?你將面臨足夠好而且便宜得多的競爭,這是威脅嗎?”
黃仁勛表示:“我們的競爭比地球上任何公司都激烈,在某些情況下,甚至英偉達的客戶也是競爭對手。此外,英偉達還積極幫助正在設計替代 AI 處理器的客戶,甚至向他們透露了即將推出的英偉達芯片路線圖?!?/span>
黃仁勛稱,英偉達以“完全開放的方式”運作,同時與業(yè)內幾乎所有其他人合作。買賣芯片的人會考慮芯片的價格,而運營數(shù)據(jù)中心的人會考慮運營成本。當然,公司會很清楚總體擁有成本,這基本上意味著英偉達的優(yōu)勢,如部署時間、性能、利用率和靈活性。即使競爭對手的芯片是免費的,它也不夠便宜。
黃仁勛在結束對 Shoven 的回答時強調,英偉達的目標是“以無與倫比的 TCO 保持領先地位”。
英偉達,憑什么遙遙領先?
和其它半導體企業(yè)相比,英偉達是“遙遙領先”的,起碼在市值上如此。
如今,在全球前十的半導體企業(yè)中,不算臺積電和阿斯麥這樣的純代工廠和光刻機廠商,英偉達的市值約等于剩下七家市值的總和,甚至還有富余。
撐起英偉達市值的,是其全球領先的AI計算芯片,包括A100、H100和即將上市的H200。根據(jù)富國銀行的統(tǒng)計,英偉達目前在全球數(shù)據(jù)中心AI加速市場擁有98%的份額,處于絕對的統(tǒng)治地位。
很多時候,這些芯片花錢也都很難買到。早在2023年8月的時候,就有媒體報道,英偉達的訂單排到了2024年。其芯片的交付周期,也曾一度高達8~11個月(如今已經(jīng)縮短為3~4個月)。產(chǎn)能不足,供不應求,這些需求應該自然溢出到其他廠商。從供應鏈安全的角度考慮,面對如此集中的市場,企業(yè)似乎也不應該只選擇英偉達這一家的產(chǎn)品。
但全球的企業(yè)排著隊將訂單送到英偉達手中,難道,除了英偉達的芯片之外,AMD、英特爾這些企業(yè)的芯片都辦法訓練大模型嗎?
答案當然不是,但使用英偉達的芯片,目前仍然是訓練和運行大模型的最優(yōu)選擇。這種優(yōu)勢體現(xiàn)在四個方面,包括硬件性能、軟件生態(tài)、適用范圍和整體性價比。
首先是硬件性能。
以英偉達在2020年5月發(fā)布的NVIDIA A100 GPU為例,這款芯片采用7nm制程和NVIDIA Ampere架構,擁有540億個晶體管和6912個CUDA核心,最高可以提供80GB的GPU顯存,以及2TB/s的全球超快顯存帶寬。在大模型訓練和推理常用的FP16(半精度浮點運算)Tensor Core峰值性能可以達到312TF,使用稀疏計算的情況下,可以達到624TF。
很多人對這些指標沒什么概念,我們來簡單解釋一下。
芯片的制程決定著同樣大小的芯片能夠放下的晶體管的數(shù)量,而晶體管的數(shù)量越多,芯片的計算能力越強,這也是5納米的芯片一定比7納米的芯片先進的原因。
至于CUDA核心,即CUDA線程,是英偉達CUDA平臺編程模型中的基本執(zhí)行單元。我們都知道,GPU最強的能力是并行計算,而CUDA核心越多,意味著芯片能同時并行計算的數(shù)量也就越多,芯片的性能更強,完成同樣任務的速度更快。
需要注意的是,芯片的計算能力強和計算效率高是兩個概念。制程和晶體管的數(shù)量代表著計算能力,而CUDA核心的數(shù)量,代表著計算效率。
至于顯存和帶寬,則決定了GPU在運行時的效率。其中顯存決定GPU同時能夠存儲的最大數(shù)據(jù),而顯存帶寬,則決定顯存和顯卡之間的數(shù)據(jù)傳輸速度。
舉一個簡單直白的例子,在一個流水線上,原材料需要從庫房運送到車間進行裝備,然后將成品再運回庫房。顯存決定了庫房能夠放多少原材料,而顯存帶寬,則決定每次從庫房送原材料的速度。如果庫房不夠大,或者材料傳輸速度不夠快,那車間的生產(chǎn)能力再強,也無法生產(chǎn)出成品。所以顯存和帶寬,其實決定芯片能夠參與訓練多大參數(shù)規(guī)模的大模型,以及訓練大模型的速度。
明白了這些基本概念,我們再用最有代表性的兩家企業(yè),進行對比。
首先是AMD,目前主打的芯片是MI250X,發(fā)布于2021年年底,采用7nm工藝,擁有582億個晶體管,顯存128G,顯存帶寬3.2768 TB/s,F(xiàn)P16峰值性能為369 TF,只有60個計算單元。
其次是英特爾,目前主打芯片Ponte Vecchio,同樣發(fā)布于2021年,采用7nm工藝,宣稱晶體管數(shù)量達到1020億,是全世界晶體管數(shù)量最多的芯片。這款芯片顯存128GB,顯存帶寬3.2TB/s,F(xiàn)P16峰值性能184TF,計算單元102個。
我們會發(fā)現(xiàn),即使從單純的數(shù)據(jù)上看,英特爾和AMD也沒有完全被英偉達甩開,甚至在某些領域,這兩家的芯片還領先英偉達的A100。
但是這里有兩個誤區(qū),第一個誤區(qū)是,英特爾和AMD這兩款芯片的發(fā)布時間比A100都要晚一年,他們真正對標的對手,其實應該是英偉達在2022年初發(fā)布的H100,而現(xiàn)在英偉達的芯片已經(jīng)更新到H200了。
第二個誤區(qū)在于,硬件指標并不完全等于芯片的整體能力,軟件生態(tài)是決定芯片性能和使用的第二個關鍵指標。
這就像手機和操作系統(tǒng)一樣,手機的硬件配置再好,沒有一個好的操作系統(tǒng),對于消費者來說仍然不是一款好的手機。而這里需要提到的,就包括英偉達的CUDA平臺、NVLink和Tensor Core等軟件生態(tài)。
比如CUDA平臺,我們前面提到的CUDA核心就是這個平臺的產(chǎn)物,它可以提高芯片的并行計算能力;它可以通過編程,提高GPU的能效比,讓同樣的工作耗費更少的能源。
此外,CUDA平臺還支持廣泛的應用程序,包括科學計算、深度學習、機器學習、圖像處理、視頻處理等等,它還允許技術人員通過C++等常用的編程語言來編寫GPU代碼。打一個不恰當?shù)谋确?,這相當于中國人不用學習英文,直接使用中文指揮外國人做事情,幫助技術人員節(jié)省了巨大成本。
但目前市面上大多數(shù)程序員已經(jīng)深度依賴CUDA平臺和開發(fā)工具,就像我們使用微信許多年了,你的朋友、聊天記錄、朋友圈都在這個微信上,即使現(xiàn)在出現(xiàn)一個更好用的社交軟件,你也很難遷移。
CUDA帶來的生態(tài)壁壘也類似這個道理,其他平臺雖然也有自己的軟件生態(tài),比如AMD有自己的GCN 架構,英特爾有Xe架構,甚至為開發(fā)者提供類似“一鍵換機”遷移功能,但都很難與英偉達競爭。
當然,這里面也有一些曲線救國的做法,比如以AMD為首,越來越多的芯片企業(yè)采用了“打不過就加入”的策略,選擇將自己的芯片兼容到CUDA平臺,早在2012年的時候,AMD就與Nvidia 達成了一項協(xié)議,允許AMD在其GCN架構GPU中使用 CUDA 技術,所以現(xiàn)在我們在AMD的芯片中,也會看到CUDA核心。
當然,對于英偉達來說,CUDA也只是護城河的一部分,其他的技術如NVLink也至關重要。
作為大模型訓練的GPU,沒有哪家企業(yè)會單獨使用一張GPU,每次都會使用至少幾百張卡,甚至上萬張卡一起建立計算集群。NVLink是一種鏈接技術,可以實現(xiàn)GPU之間的高速、低延遲的互聯(lián)。如果沒有這種技術,整個芯片算力的集群就無法實現(xiàn)1+1>3的效果,而且會增加GPU之間的通信延遲,執(zhí)行任務的效率會降低,芯片的功耗會增加,最終增加整個系統(tǒng)的運行成本。
大模型訓練實際上是一個非常消耗能源的事情,國盛證券做過一個計算,假設每天約有1300萬獨立訪客使用ChatGPT,那每天的電費就需要5萬美元。而如果沒有NVLink,這筆成本還會指數(shù)級上升。
芯片某種程度上就像購車一樣,購車只是第一次成本,之后的油費、保養(yǎng)、保險才是成本的大頭。所以黃仁勛才說,“AI系統(tǒng)最重要的不是硬件組成的成本,而是訓練和運用AI的費用?!?/span>
所以,雖然AMD、英特爾在某些芯片上把價格定得比英偉達更低,但是從長期成本來考慮,具有更優(yōu)軟件生態(tài)和協(xié)同、配套工具的英偉達芯片仍然是性價比最高的選擇。
當然,這里面還要考慮到使用場景的問題。
比如英偉達的大客戶,主要是以Meta、微軟、亞馬遜、Google為代表的云計算平臺。有媒體報道,頭部云計算廠商在英偉達H100 GPU整體市場份額中的占比達到50%。
而云廠商采購芯片的邏輯,主要是構建算力集群,然后通過云服務平臺將這些算力再賣出去。但這里就會存在一個問題,就是云廠商并不知道客戶會拿這些算力來做些什么,比如有的企業(yè)會用來做機器學習,有企業(yè)需要大模型訓練,也有企業(yè)需要做大模型推理。
不同的需求,背后對應的算力配置也不盡相同,它需要底層的芯片能夠支持多種編程模型,支持多種數(shù)據(jù)類型,有較好的可拓展性和良好的性能和功耗等等。而這些,恰恰是英偉達硬件能力加軟件生態(tài)帶來的優(yōu)勢。
綜合來看,無論是從硬件性能,還是軟件生態(tài);無論是從開發(fā)工具和部署工具,到長期使用的成本和可開發(fā)應用場景。對比同類競爭對手,英偉達都屬于最有性價比,且遙遙領先的存在。
這就是為什么明明需要排著長隊、忍受長時間等待,大家卻仍然執(zhí)著于英偉達芯片的原因。
AI芯片新貴,各出奇招
最近兩年的人工智能繁榮,讓英偉達憑借GPU登上了芯片之巔。于是包括AMD、Intel、Graphcore、Cerebras和Tenstorrent等在內的傳統(tǒng)和新貴芯片企業(yè)試圖在這個領域將英偉達拉下馬。
不過,雖然他們都非常努力,但似乎依然難動英偉達分毫。于是,市場上又冒出來了一群AI芯片新公司,他們希望用不同的架構和思路,以期將英偉達趕下神壇。
韓國AI芯片:功耗和尺寸大幅下降
來自韓國科學技術院 (KAIST) 的科學家團隊在最近的 2024 年國際固態(tài)電路會議 (ISSCC) 上詳細介紹了他們的“Complementary-Transformer”人工智能芯片。新型C-Transformer芯片據(jù)稱是全球首款能夠進行大語言模型(LLM)處理的超低功耗AI加速器芯片。
在一份新聞稿中,研究人員對瘋狂叫板Nvidia ,聲稱 C-Transformer 的功耗比綠色團隊的 A100 Tensor Core GPU 低 625 倍,尺寸小 41 倍。它還表明,三星晶圓代工芯片的成就很大程度上源于精細的神經(jīng)擬態(tài)計算技術。
盡管我們被告知 KAIST C-Transformer 芯片可以完成與 Nvidia 強大的A100 GPU之一相同的 LLM 處理任務,但我們在新聞或會議材料中都沒有提供任何直接的性能比較指標。這是一個重要的統(tǒng)計數(shù)據(jù),由于它的缺失而引人注目,憤世嫉俗的人可能會猜測性能比較不會給 C-Transformer 帶來任何好處。
上面的圖片有一張“芯片照片”和處理器規(guī)格的摘要。您可以看到,C-Transformer 目前采用三星 28nm 工藝制造,芯片面積為 20.25mm2。它的最高運行頻率為 200 MHz,功耗低于 500mW。最好的情況下,它可以達到 3.41 TOPS。從表面上看,這比 Nvidia A100 PCIe 卡聲稱的 624 TOPS 慢 183 倍(但 KAIST 芯片據(jù)稱使用的功率低 625 倍)。然而,我們更喜歡某種基準性能比較,而不是查看每個平臺聲稱的 TOPS。
C-Transformer 芯片的架構看起來很有趣,其特點是三個主要功能塊:首先,Homogeneous DNN-Transformer / Spiking-transformer Core (HDSC) 和混合乘法累加單元 (HMAU:Hybrid Multiplication-Accumulation Unit) 可以有效處理動態(tài)變化的分布能量。其次,我們有一個輸出尖峰推測單元(OSSU:Output Spike Speculation Unit)來減少尖峰域處理的延遲和計算量。第三,研究人員實施了帶有擴展符號壓縮(ESC:Extended Sign Compression)的隱式權重生成單元(IWGU:Implicit Weight Generation Unit),以減少外部存儲器訪問(EMA)能耗。
據(jù)解釋,C-Transformer 芯片不僅僅添加了一些現(xiàn)成的神經(jīng)擬態(tài)處理作為其壓縮 LLM 大參數(shù)的“special sauce”。韓國科學技術院的新聞稿稱,此前,神經(jīng)擬態(tài)計算技術對于法學碩士的使用不夠準確。然而,研究團隊表示,它“成功提高了該技術的準確性,以匹配[深度神經(jīng)網(wǎng)絡]DNN”。
盡管由于沒有與行業(yè)標準人工智能加速器進行直接比較,第一款 C-Transformer 芯片的性能存在不確定性,但毫無疑問,它將成為移動計算的一個有吸引力的選擇。同樣令人鼓舞的是,研究人員利用三星測試芯片和廣泛的 GPT-2 測試取得了如此大的進展。
徹底改變人工智能的芯片
最近,普林斯頓大學的先進人工智能芯片項目由DARPA和 EnCharge AI 支持,有望顯著提高能源效率和計算能力,旨在徹底改變人工智能的可及性和應用。
普林斯頓大學電氣和計算機工程教授納文·維爾馬 (Naveen Verma) 表示,新硬件針對現(xiàn)代工作負載重新設計了人工智能芯片,并且可以使用比當今最先進的半導體少得多的能源運行強大的人工智能系統(tǒng)。領導該項目的維爾馬表示,這些進步突破了阻礙人工智能芯片發(fā)展的關鍵障礙,包括尺寸、效率和可擴展性。
“最好的人工智能僅存在于數(shù)據(jù)中心,有一個非常重要的限制,”維爾馬說?!拔艺J為,你從中解鎖了它,我們從人工智能中獲取價值的方式將會爆炸。”
在普林斯頓大學領導的項目中,研究人員將與 Verma 的初創(chuàng)公司EnCharge AI合作。EnCharge AI 總部位于加利福尼亞州圣克拉拉,正在將基于 Verma 實驗室發(fā)現(xiàn)的技術商業(yè)化,其中包括他早在 2016 年與電氣工程研究生共同撰寫的幾篇重要論文。
根據(jù)項目提案,Encharge AI“在強大且可擴展的混合信號計算架構的開發(fā)和執(zhí)行方面處于領先地位”。Verma于 2022 年與前 IBM 院士 Kailash Gopalakrishnan 和半導體系統(tǒng)設計領域的領導者 Echere Iroaga 共同創(chuàng)立了該公司。
Gopalakrishnan 表示,當人工智能開始對計算能力和效率產(chǎn)生大量新需求時,現(xiàn)有計算架構的創(chuàng)新以及硅技術的改進開始放緩。即使是用于運行當今人工智能系統(tǒng)的最好的圖形處理單元 (GPU),也無法緩解行業(yè)面臨的內存和計算能源瓶頸。
“雖然 GPU 是當今最好的可用工具,”他說,“但我們得出的結論是,需要一種新型芯片來釋放人工智能的潛力。”
普林斯頓大學 凱勒工程教育創(chuàng)新中心主任 Verma 表示,從 2012 年到 2022 年,人工智能模型所需的計算能力實現(xiàn)了指數(shù)級增長。為了滿足需求,最新的芯片封裝了數(shù)百億個晶體管,每個晶體管之間的寬度只有一個小病毒的寬度。然而,這些芯片的計算能力仍然不足以滿足現(xiàn)代需求。
當今的領先模型將大型語言模型與計算機視覺和其他機器學習方法相結合,每個模型都使用超過一萬億個變量來開發(fā)。推動人工智能熱潮的英偉達設計的 GPU 變得非常有價值,據(jù)報道,各大公司都通過裝甲車運輸它們。購買或租賃這些芯片的積壓已經(jīng)達到了消失的程度。
為了創(chuàng)建能夠在緊湊或能源受限的環(huán)境中處理現(xiàn)代人工智能工作負載的芯片,研究人員必須完全重新構想計算的物理原理,同時設計和封裝可以使用現(xiàn)有制造技術制造并且可以與現(xiàn)有計算技術良好配合的硬件,例如中央處理單元。
“人工智能模型的規(guī)模呈爆炸式增長,”維爾馬說,“這意味著兩件事?!?人工智能芯片需要在數(shù)學計算方面變得更加高效,在管理和移動數(shù)據(jù)方面也需要更加高效。
他們的方法分為三個關鍵部分。
幾乎每臺數(shù)字計算機的核心架構都遵循 20 世紀 40 年代首次開發(fā)的看似簡單的模式:在一個地方存儲數(shù)據(jù),在另一個地方進行計算。這意味著在存儲單元和處理器之間傳輸信息。在過去的十年中,Verma 率先研究了一種更新方法,其中計算直接在內存單元中完成,稱為內存計算。這是第一部分。內存計算有望減少移動和處理大量數(shù)據(jù)所需的時間和能源成本。
但到目前為止,內存計算的數(shù)字方法還非常有限。維爾馬和他的團隊轉向了另一種方法:模擬計算。那是第二部分。
“在內存計算的特殊情況下,你不僅需要高效地進行計算,”Verma 說,“你還需要以非常高的密度進行計算,因為現(xiàn)在它需要適合這些非常小的內存單元。” 模擬計算機不是將信息編碼為一系列 0 和 1,然后使用傳統(tǒng)邏輯電路處理該信息,而是利用設備更豐富的物理特性。
數(shù)字信號在 20 世紀 40 年代開始取代模擬信號,主要是因為隨著計算的指數(shù)級增長,二進制代碼可以更好地擴展。但數(shù)字信號并沒有深入了解設備的物理原理,因此,它們可能需要更多的數(shù)據(jù)存儲和管理。這樣他們的效率就較低。模擬通過利用設備的固有物理特性處理更精細的信號來提高效率。但這可能會犧牲精度。
維爾馬說:“關鍵在于找到適合該工作的物理原理,使設備能夠被很好地控制并大規(guī)模制造。”
他的團隊找到了一種方法,使用專門設計用于精確開關的電容器生成的模擬信號來進行高精度計算。這是第三部分。與晶體管等半導體器件不同,通過電容器傳輸?shù)碾娔懿灰蕾囉诓牧现械臏囟群碗娮舆w移率等可變條件。
“它們只依賴于幾何形狀,”維爾馬說。“它們取決于一根金屬線和另一根金屬線之間的空間。” 幾何形狀是當今最先進的半導體制造技術可以控制得非常好的一件事。
光芯片,速度驚人
賓夕法尼亞大學的工程師開發(fā)了一種新芯片,它使用光波而不是電力來執(zhí)行訓練人工智能所必需的復雜數(shù)學。該芯片有可能從根本上加快計算機的處理速度,同時降低能耗。
該硅光子 (SiPh) 芯片的設計首次將本杰明·富蘭克林獎章獲得者和 H. Nedwill Ramsey 教授 Nader Engheta 在納米級操縱材料方面的開創(chuàng)性研究結合在一起,利用光(可能是最快的通信方式)進行數(shù)學計算SiPh 平臺使用硅,硅是一種廉價且豐富的元素,用于大規(guī)模生產(chǎn)計算機芯片。
光波與物質的相互作用代表了開發(fā)計算機的一種可能途徑,這種計算機可以取代當今芯片的局限性,這些芯片本質上與 20 世紀 60 年代計算革命初期的芯片相同的原理。
在《自然光子學》雜志上發(fā)表的一篇論文中,Engheta 的團隊與電氣和系統(tǒng)工程副教授 Firooz Aflatouni 的團隊一起描述了新芯片的開發(fā)過程。
“我們決定聯(lián)手,”Engheta 說道,他利用了 Aflatouni 的研究小組率先開發(fā)納米級硅器件的事實。
他們的目標是開發(fā)一個平臺來執(zhí)行所謂的向量矩陣乘法,這是神經(jīng)網(wǎng)絡開發(fā)和功能中的核心數(shù)學運算,神經(jīng)網(wǎng)絡是當今人工智能工具的計算機架構。
Engheta 解釋說,“你可以將硅做得更薄,比如 150 納米”,而不是使用高度均勻的硅晶片,但僅限于特定區(qū)域。這些高度的變化(無需添加任何其他材料)提供了一種控制光在芯片中傳播的方法,因為高度的變化可以分布以使光以特定的圖案散射,從而使芯片能夠執(zhí)行數(shù)學計算以光速。
Aflatouni 表示,由于生產(chǎn)芯片的商業(yè)代工廠施加的限制,該設計已經(jīng)為商業(yè)應用做好了準備,并且有可能適用于圖形處理單元 (GPU),隨著廣泛應用,圖形處理單元 (GPU) 的需求猛增。對開發(fā)新的人工智能系統(tǒng)的興趣。
“他們可以采用硅光子平臺作為附加組件,”Aflatouni 說,“然后就可以加快訓練和分類速度?!?/span>
除了更快的速度和更少的能耗之外,Engheta 和 Aflatouni 的芯片還具有隱私優(yōu)勢:由于許多計算可以同時進行,因此無需在計算機的工作內存中存儲敏感信息,使得采用此類技術的未來計算機幾乎無法被黑客攻擊。
