微軟緊跟英偉達發(fā)布AI芯片,直接對抗還是聯(lián)手合作?
英偉達(Nvidia)于當?shù)貢r間13日上午在 “Supercomputing 23”會議上正式發(fā)布了全新的H200 GPU,以及更新后的GH200 產(chǎn)品線。
其中,H200依然是建立在現(xiàn)有的 Hopper H100 架構(gòu)之上,但增加了更多高帶寬內(nèi)存(HBM3e),從而更好地處理開發(fā)和實施人工智能所需的大型數(shù)據(jù)集,使得運行大模型的綜合性能相比前代H100提升了60%到90%。而更新后的GH200,也將為下一代 AI 超級計算機提供動力。2024 年將會有超過 200 exaflops 的 AI 計算能力上線。
H200:HBM容量提升76%,大模型性能提升90%
具體來說,全新的H200提供了總共高達141GB 的 HBM3e 內(nèi)存,有效運行速度約為 6.25 Gbps,六個 HBM3e 堆棧中每個 GPU 的總帶寬為 4.8 TB/s。與上一代的H100(具有 80GB HBM3 和 3.35 TB/s 帶寬)相比,這是一個巨大的改進,HBM容量提升了超過76%。官方提供的數(shù)據(jù)顯示,在運行大模型時,H200相比H100將帶來60%(GPT3 175B)到90%(Llama 2 70B)的提升。
雖然H100 的某些配置確實提供了更多內(nèi)存,例如 H100 NVL 將兩塊板配對,并提供總計 188GB 內(nèi)存(每個 GPU 94GB),但即便是與 H100 SXM 變體相比,新的 H200 SXM 也提供了 76% 以上的內(nèi)存容量和 43 % 更多帶寬。
需要指出的是,H200原始計算性能似乎沒有太大變化。英偉達展示的唯一體現(xiàn)計算性能的幻燈片是基于使用了 8 個 GPU的HGX 200 配置,總性能為“32 PFLOPS FP8”。而最初的H100提供了3,958 teraflops 的 FP8算力,因此八個這樣的 GPU 也提供了大約32 PFLOPS 的 FP8算力。
那么更多的高帶寬內(nèi)存究竟帶來了哪些提升呢?這將取決于工作量。對于像 GPT-3 這樣的大模型(LLM)來說,將會大大受益于HBM內(nèi)存容量增加。英偉達表示,H200在運行GPT-3時的性能,將比原始 A100 高出 18 倍,同時也比H100快11倍左右。還有即將推出的 Blackwell B100 的預(yù)告片,不過目前它只包含一個逐漸變黑的更高條,大約達到了H200的兩倍最右。
不僅如此,H200和H100是互相兼容的。也就是說,使用H100訓練/推理模型的AI企業(yè),可以無縫更換成最新的H200芯片。云端服務(wù)商將H200新增到產(chǎn)品組合時也不需要進行任何修改。
11月15日,微軟董事長兼CEO薩提亞·納德拉(Satya Nadella)在微軟Ignite全球技術(shù)大會發(fā)表了將近一個小時的開幕演講。正如此前的預(yù)告,納德拉的演講幾乎完全圍繞AI展開,在硬件方面推出了由微軟設(shè)計的首款CPU(中央處理器)Azure Cobalt 100,以及首款專門用于云端訓練和推理的AI芯片Azure Maia 100。兩者都將優(yōu)先用于支持微軟自己的云服務(wù)。
當日,微軟股價波動不大,漲0.04%收于369.67美元,續(xù)創(chuàng)收盤新高。目前,微軟總市值已經(jīng)達到2.75萬億美元。
據(jù)納德拉介紹,Cobalt 100基于Arm架構(gòu),具有128個核心,被稱為“所有云計算供應(yīng)商中速度最快的CPU”,已經(jīng)在微軟的部分業(yè)務(wù)中得到了應(yīng)用并將于明年上市。備受期待的微軟自研AI芯片Azure Maia也在大會上進行了首秀,Maia 100采用5nm制程,晶體管數(shù)量達到1050億個。納德拉表示,Maia 100旨在運行大語言模型、幫助AI系統(tǒng)更快地處理大量數(shù)據(jù),將首先為微軟自己的AI應(yīng)用程序提供支持,之后再向合作伙伴和客戶開放。
據(jù)外媒分析,微軟的Maia 100和Cobalt 100將分別對英偉達和英特爾在AI芯片和CPU行業(yè)中的龍頭地位帶來挑戰(zhàn)。面對頂級AI芯片供應(yīng)不足的挑戰(zhàn),微軟也終于加入了其他互聯(lián)網(wǎng)巨頭的自研行列。此前,谷歌從2016年起開始推出自研AI張量處理單元(TPU),到今年9月已經(jīng)發(fā)展到第五代,而亞馬遜云科技(AWS)則在2020年宣布推出用于訓練AI模型的自研芯片Trainium。
微軟挑戰(zhàn)英偉達AI芯片地位
11月15日,微軟董事長兼CEO薩提亞·納德拉(Satya Nadella)在微軟Ignite全球技術(shù)大會發(fā)表了將近一個小時的開幕演講。正如此前的預(yù)告,納德拉的演講幾乎完全圍繞AI展開,在硬件方面推出了由微軟設(shè)計的首款CPU(中央處理器)Azure Cobalt 100,以及首款專門用于云端訓練和推理的AI芯片Azure Maia 100。兩者都將優(yōu)先用于支持微軟自己的云服務(wù)。
據(jù)納德拉介紹,Cobalt 100基于Arm架構(gòu),具有128個核心,被稱為“所有云計算供應(yīng)商中速度最快的CPU”,已經(jīng)在微軟的部分業(yè)務(wù)中得到了應(yīng)用并將于明年上市。備受期待的微軟自研AI芯片Azure Maia也在大會上進行了首秀,Maia 100采用5nm制程,晶體管數(shù)量達到1050億個。納德拉表示,Maia 100旨在運行大語言模型、幫助AI系統(tǒng)更快地處理大量數(shù)據(jù),將首先為微軟自己的AI應(yīng)用程序提供支持,之后再向合作伙伴和客戶開放。
據(jù)外媒分析,微軟的Maia 100和Cobalt 100將分別對英偉達和英特爾在AI芯片和CPU行業(yè)中的龍頭地位帶來挑戰(zhàn)。面對頂級AI芯片供應(yīng)不足的挑戰(zhàn),微軟也終于加入了其他互聯(lián)網(wǎng)巨頭的自研行列。此前,谷歌從2016年起開始推出自研AI張量處理單元(TPU),到今年9月已經(jīng)發(fā)展到第五代,而亞馬遜云科技(AWS)則在2020年宣布推出用于訓練AI模型的自研芯片Trainium。
自研芯片,微軟蓄謀已久
在微軟看來,芯片是云的主力。它們控制著數(shù)十億個晶體管,處理流經(jīng)數(shù)據(jù)中心的大量 1 和 0。這項工作最終允許您在屏幕上執(zhí)行幾乎所有操作,從發(fā)送電子郵件到用簡單的句子在 Bing 中生成圖像。
就像建造房屋可以讓你控制每一個設(shè)計選擇和細節(jié)一樣,微軟將添加自研芯片視為確保每個元素都是針對微軟云和人工智能工作負載量身定制的一種方式。這些芯片將安裝在定制服務(wù)器主板上,放置在定制的機架內(nèi),可以輕松安裝到現(xiàn)有的微軟數(shù)據(jù)中心內(nèi)。硬件將與軟件攜手合作,共同設(shè)計以釋放新的功能和機遇。
Azure 硬件系統(tǒng)和基礎(chǔ)設(shè)施 (AHSI) 公司副總裁 Rani Borkar 表示,公司的最終目標是 讓Azure 硬件系統(tǒng)能夠提供最大的靈活性,并且還可以針對功耗、性能、可持續(xù)性或成本進行優(yōu)化。
“軟件是我們的核心優(yōu)勢,但坦白說,我們是一家系統(tǒng)公司。在微軟,我們正在共同設(shè)計和優(yōu)化硬件和軟件,以便一加一大于二,”Borkar說。“我們可以看到整個堆棧,而硅只是其中的成分之一?!?/span>
領(lǐng)導(dǎo) Azure Maia 團隊的微軟技術(shù)研究員 Brian Harry 表示,Maia 100 AI 加速器是專為 Azure 硬件堆棧設(shè)計的。他表示,這種垂直整合——芯片設(shè)計與考慮到微軟工作負載而設(shè)計的更大的人工智能基礎(chǔ)設(shè)施的結(jié)合——可以在性能和效率方面帶來巨大的收益。
AHSI 團隊合作伙伴項目經(jīng)理 Pat Stemen 則表示,2016 年之前,微軟云的大部分層都是現(xiàn)成購買的。然后微軟開始定制自己的服務(wù)器和機架,降低成本并為客戶提供更一致的體驗。隨著時間的推移,硅成為主要的缺失部分。
在微軟看來,構(gòu)建自己的定制芯片的能力使微軟能夠瞄準某些品質(zhì)并確保芯片在其最重要的工作負載上發(fā)揮最佳性能。其測試過程包括確定每個芯片在不同頻率、溫度和功率條件下的性能以獲得最佳性能,更重要的是,在與現(xiàn)實世界的微軟數(shù)據(jù)中心相同的條件和配置下測試每個芯片。微軟強調(diào),公司今天推出的芯片架構(gòu)不僅可以提高冷卻效率,還可以優(yōu)化其當前數(shù)據(jù)中心資產(chǎn)的使用,并在現(xiàn)有占地面積內(nèi)最大限度地提高服務(wù)器容量。
未來核心技術(shù)與創(chuàng)新
芯片設(shè)計創(chuàng)新
在AI芯片的設(shè)計領(lǐng)域,創(chuàng)新主要體現(xiàn)在提高運算能力與減少能耗上。當前,市場上領(lǐng)先的AI芯片如英偉達的A100 Tensor Core GPU擁有19.5 TeraFLOPS的單精度計算能力,功耗為400瓦特。設(shè)計創(chuàng)新還體現(xiàn)在采用了新的架構(gòu),如使用張量核心專門針對AI計算進行優(yōu)化,相較于傳統(tǒng)的GPU,在相同的功耗下提高了6倍以上的AI計算效率。
制造工藝進步
在制造工藝上,先進的7納米和5納米制程技術(shù)已成為市場標配。比如,臺積電(TSMC)的5納米工藝相比上一代10納米工藝,在性能上提升了15%,功耗降低了30%,同時邏輯區(qū)域密度提高了80%。這意味著在同等面積的芯片上可以集成更多的功能單元,大大提高了芯片的整體性能。
材料科學的突破
材料科學的進展為AI芯片的性能提升提供了基礎(chǔ)。例如,碳納米管和石墨烯等新材料因其超常的導(dǎo)電性和強度,被研究用于下一代芯片,理論上可以極大地降低芯片的功耗并提升傳輸速度。盡管當前這些材料還未大規(guī)模商用,但已在實驗室中展現(xiàn)出相較于傳統(tǒng)硅材料數(shù)倍甚至數(shù)十倍的性能提升潛力。
能效優(yōu)化
能效是AI芯片領(lǐng)域一直在追求的關(guān)鍵指標。以谷歌的TPU(Tensor Processing Unit)為例,其第四代TPU在AI推理任務(wù)上的能效比達到了2倍每瓦特每秒的計算速度,這一數(shù)據(jù)是其第一代產(chǎn)品的近8倍提升。能效的優(yōu)化不僅減少了運營成本,同時也降低了數(shù)據(jù)中心的環(huán)境影響。
