花最少的錢辦最大的事！英偉達(dá)超級(jí)芯片要“以量博市”

2023-08-10 來(lái)源：賢集網(wǎng)

1097

作為生成式AI、圖形顯示和元宇宙基礎(chǔ)設(shè)施領(lǐng)域的“狠角色”，全球圖顯兼AI計(jì)算霸主NVIDIA（英偉達(dá)）接下來(lái)會(huì)放出哪些重磅“核彈”，已經(jīng)預(yù)定了科技圈的焦點(diǎn)。

北京時(shí)間昨夜，在計(jì)算機(jī)圖形年會(huì)SIGGRAPH上，NVIDIA創(chuàng)始人兼CEO黃仁勛一如既往穿著經(jīng)典的皮衣登場(chǎng)，并一連亮出多款硬件。

在黃仁勛眼中，生成式AI是AI的“iPhone時(shí)刻”。他談道，人類語(yǔ)言是新的編程語(yǔ)言，我們已經(jīng)使計(jì)算機(jī)科學(xué)民主化，現(xiàn)在每個(gè)人都可以成為程序員。

在隨后大約1小時(shí)20分鐘的演講中，黃仁勛宣布全球首發(fā)HBM3e內(nèi)存——推出下一代GH200 Grace Hopper超級(jí)芯片。黃仁勛將它稱作“加速計(jì)算和生成式AI時(shí)代的處理器”。

還有5款硬件新品同期重磅發(fā)布，分別是搭載全新L40S Ada GPU的新款OVX服務(wù)器、搭載RTX 6000 Ada GPU的全新RTX工作站，以及3款高端桌面工作站GPU。

配備全球最快內(nèi)存的超級(jí)芯片來(lái)了！

黃仁勛宣布推出面向加速計(jì)算和生成式AI的新一代NVIDIA GH200 Grace Hopper超級(jí)芯片。

GH200由72核Grace CPU和4PFLOPS Hopper GPU組成，在全球最快內(nèi)存HBM3e的“助攻”下，內(nèi)存容量高達(dá)141GB，提供每秒5TB的帶寬。其每個(gè)GPU的容量達(dá)到NVIDIA H100 GPU的1.7倍，帶寬達(dá)到H100的1.55倍。

該超級(jí)芯片可以用于任何大型語(yǔ)言模型，降低推理成本。

與當(dāng)前一代產(chǎn)品相比，新的雙GH200系統(tǒng)共有144個(gè)Grace CPU核心、8PFLOPS計(jì)算性能的GPU、282GB HBM3e內(nèi)存，內(nèi)存容量達(dá)3.5倍，帶寬達(dá)3倍。如果將連接到CPU的LPDDR內(nèi)存包括在內(nèi)，那么總共集成了1.2TB超快內(nèi)存。

GH200將在新的服務(wù)器設(shè)計(jì)中提供，黃仁勛還放出了一段動(dòng)畫(huà)視頻，展示組裝面向生成式AI時(shí)代的Grace Hopper AI超級(jí)計(jì)算機(jī)的完整過(guò)程。

首先是一塊Grace Hopper，用高速互連的CPU-GPU Link將CPU和GPU“粘”在一起，通信速率比PCIe Gen5快7倍。

一個(gè)Grace Hopper機(jī)架裝上NVIDIA BlueField-3和ConnectX-7網(wǎng)卡、8通道4.6TB高速內(nèi)存，用NVLink Switch實(shí)現(xiàn)GPU之間的高速通信，再加上NVLink Cable Cartridge，組成了NVIDA DGX GH200構(gòu)建塊。

NVIDA DGX GH200由16個(gè)Grace Hopper機(jī)架，通過(guò)NVLink Switch系統(tǒng)連成集群，能讓256塊GPU組成的系統(tǒng)像一塊巨型GPU一樣工作。由256塊GH200組成的NVIDIA DGX GH200 SuperPod，擁有高達(dá)1EFLOPS的算力和144TB高速內(nèi)存。

NVIDIA Quantum-2 InfiniBand Switch可用高速、低延時(shí)的網(wǎng)絡(luò)連接多個(gè)DGX SuperPod，進(jìn)而搭建出面向生成式AI時(shí)代的Grace Hopper AI超級(jí)計(jì)算機(jī)。

這帶來(lái)的主要優(yōu)勢(shì)是，實(shí)現(xiàn)同等算力的情況下，用更少卡、省更多電、花更少錢。

黃仁勛拋出一個(gè)問(wèn)題：花1億美元能買什么？

過(guò)去，1億美元能買8800塊x86 CPU組成的數(shù)據(jù)中心，功耗是5MW。

如今，1億美元能買2500塊GH200組成的Iso-Budget數(shù)據(jù)中心，功耗是3MW，AI推理性能達(dá)到上述CPU系統(tǒng)的12倍，能效達(dá)20倍。

如果達(dá)到跟x86 CPU數(shù)據(jù)中心相同的AI推理性能，Iso-Troughput數(shù)據(jù)中心只需用到210塊GH200，功耗是0.26MW，成本只有CPU數(shù)據(jù)中心的1/12，僅800萬(wàn)美元。

“買得越多，省得越多?！秉S仁勛再度用這句講過(guò)很多遍的“導(dǎo)購(gòu)金句”總結(jié)。

為方便GH200應(yīng)用，GH200與今年早些時(shí)候在COMPUTEX上推出的NVIDIA MGX服務(wù)器規(guī)范完全兼容。因此系統(tǒng)制造商可以快速且經(jīng)濟(jì)高效地將GH200添加到其服務(wù)器版本中。

新GH200預(yù)計(jì)將于明年第二季度投產(chǎn)。

數(shù)據(jù)中心迎來(lái)新變革

大模型浪潮來(lái)襲，催生各種AI原生應(yīng)用，帶動(dòng)算力需求激增，專為應(yīng)對(duì)數(shù)據(jù)密集型人工智能應(yīng)用的數(shù)據(jù)中心市場(chǎng)正迅速崛起。

分析師們指出，隨著老牌云計(jì)算供應(yīng)商競(jìng)相為數(shù)據(jù)中心改裝先進(jìn)芯片和進(jìn)行其他升級(jí)，以滿足人工智能軟件的需求，一些新興的建設(shè)者看到了從零開(kāi)發(fā)新設(shè)施的機(jī)會(huì)。

數(shù)據(jù)中心類似于一個(gè)大型倉(cāng)庫(kù)，配備了多架服務(wù)器、網(wǎng)絡(luò)和存儲(chǔ)設(shè)備，用于存儲(chǔ)和處理數(shù)據(jù)。與傳統(tǒng)數(shù)據(jù)中心相比，AI數(shù)據(jù)中心擁有更多使用高性能芯片的服務(wù)器，因此AI數(shù)據(jù)中心服務(wù)器每個(gè)機(jī)架的平均耗電量可達(dá)50千瓦或更多，而傳統(tǒng)數(shù)據(jù)中心每個(gè)機(jī)架的耗電量大約為7千瓦。

這意味著AI數(shù)據(jù)中心需要增建能夠提供更高功率的基礎(chǔ)設(shè)施，由于額外的用電量會(huì)產(chǎn)生更多的熱量，AI數(shù)據(jù)中心還需要其他冷卻方法，如液體冷卻系統(tǒng)，以防止設(shè)備過(guò)熱。

服務(wù)和咨詢公司Unisys高級(jí)副總裁Manju Naglapur指出：專門建造的人工智能數(shù)據(jù)中心可容納利用人工智能芯片（如英偉達(dá)的GPU）的服務(wù)器，在人工智能應(yīng)用篩選龐大的數(shù)據(jù)存儲(chǔ)時(shí)，可同時(shí)運(yùn)行多個(gè)計(jì)算。這些數(shù)據(jù)中心還配備了光纖網(wǎng)絡(luò)和更高效的存儲(chǔ)設(shè)備，以支持大規(guī)模的人工智能模型。

AI數(shù)據(jù)中心是高度專業(yè)化的建筑，需要投入大量的資金和時(shí)間。研究公司Data Bridge Market Research數(shù)據(jù)顯示，到2029年，全球人工智能基礎(chǔ)設(shè)施市場(chǎng)的支出預(yù)計(jì)將達(dá)到4225.5 億美元，未來(lái)六年的復(fù)合年增長(zhǎng)率將達(dá)到44%。

DataBank首席執(zhí)行官Raul Martynek表示，人工智能的部署速度很可能會(huì)導(dǎo)致數(shù)據(jù)中心容量在未來(lái)12到24個(gè)月內(nèi)出現(xiàn)短缺。

AMD也有應(yīng)對(duì)之法

在人工智能領(lǐng)域，英偉達(dá)一直是無(wú)可爭(zhēng)議的領(lǐng)導(dǎo)者，其 GPU 在深度學(xué)習(xí)、機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)等領(lǐng)域都有廣泛的應(yīng)用。然而，在 2023 年，AMD 用一款超級(jí) AI 芯片向英偉達(dá)發(fā)起了挑戰(zhàn)。

這款超級(jí) AI 芯片就是 AMD 在 6 月 14 日發(fā)布的最先進(jìn)的人工智能圖形處理器（GPU）MI300X，它采用了 AMD RDNA 3 架構(gòu)和小芯片設(shè)計(jì)，可以用于生成式對(duì)抗網(wǎng)絡(luò)（GAN）等復(fù)雜的 AI 應(yīng)用。AMD 稱之為「生成式 AI 加速器」，它可以實(shí)現(xiàn)高效的圖像、視頻、音頻、文本等多模態(tài)數(shù)據(jù)的生成、編輯、轉(zhuǎn)換、增強(qiáng)等功能。

AMD MI300X 的性能非常驚人，它擁有 256 個(gè)計(jì)算單元（CU），每個(gè) CU 包含 64 個(gè)流處理器（SP），共計(jì) 16384 個(gè) SP。它的峰值單精度浮點(diǎn)運(yùn)算性能達(dá)到了 66.56 TFLOPS，而英偉達(dá)最新的 Ampere A100 GPU 的峰值單精度浮點(diǎn)運(yùn)算性能只有 19.5 TFLOPS。它還支持 PCIe 5.0 和 CXL 2.0 協(xié)議，可以實(shí)現(xiàn)高速的數(shù)據(jù)傳輸和內(nèi)存共享。

AMD MI300X 的目標(biāo)市場(chǎng)是數(shù)據(jù)中心和云計(jì)算領(lǐng)域，它可以為各種行業(yè)和領(lǐng)域提供強(qiáng)大的 AI 解決方案，比如醫(yī)療、教育、娛樂(lè)、金融、安全等。AMD 已經(jīng)與多家合作伙伴和客戶建立了關(guān)系，比如谷歌、亞馬遜、微軟、Facebook、騰訊、阿里巴巴等。

最后

AI風(fēng)潮絲毫沒(méi)有減緩之勢(shì)，未來(lái)對(duì)算力的需求只會(huì)越來(lái)越多，AI芯片這片蛋糕將不再是英偉達(dá)一家獨(dú)有，國(guó)產(chǎn)企業(yè)也將加入搶蛋糕的行列，讓我們拭目以待吧！