為了搭建好的AI基礎(chǔ)設(shè)施，英偉達(dá)也是蠻拼的

2023-04-23 來源：網(wǎng)絡(luò)整理

2143

過去十年中，云計(jì)算以每年20%的增幅高速增長(zhǎng)，并迅速發(fā)展成為一個(gè)萬億美元的產(chǎn)業(yè)。IDC預(yù)測(cè)稱，到2025年，云將超過本地基礎(chǔ)設(shè)施，成為65%的企業(yè)組織存儲(chǔ)、管理和分析運(yùn)營數(shù)據(jù)的主要方式。但與之前相比，企業(yè)更關(guān)注云計(jì)算帶來的運(yùn)營成本效益，已經(jīng)遷移到云端的客戶開始關(guān)注平臺(tái)和軟件服務(wù)。

DGX Cloud：隨時(shí)隨地將AI帶給每家公司

NVIDIA在GTC 2023上描繪了為全球客戶構(gòu)建數(shù)據(jù)中心和AI基礎(chǔ)設(shè)施的藍(lán)圖，并推出了全新的DGX 計(jì)算機(jī), 搭載了8顆NVIDIA GPU。

其實(shí)早在2016年，NVIDIA創(chuàng)始人兼首席執(zhí)行官黃仁勛先生就親手向OpenAI交付了第一臺(tái)NVIDIA DGX超級(jí)計(jì)算機(jī)。此后數(shù)年里，NVIDIA DGX從最初被用作AI技術(shù)的研究設(shè)備，逐步被企業(yè)擴(kuò)展至數(shù)據(jù)優(yōu)化和AI處理，據(jù)稱財(cái)富前100強(qiáng)公司中約有半數(shù)采用了DGX。進(jìn)入2023年后，隨著ChatGPT的走紅，部署像ChatGPT這樣的大型語言模型(LLM)正在成為DGX越來越重要的一項(xiàng)工作。

而為了加快把DGX能力帶給初創(chuàng)企業(yè)和其他各類企業(yè)，以助力其快速打造新產(chǎn)品和制定AI戰(zhàn)略，NVIDIA最新發(fā)布了NVIDIA DGX Cloud。通過與微軟Azure、Google Cloud和Oracle Cloud Infrastructure合作，“從瀏覽器上”即可實(shí)現(xiàn)將NVIDIA DGX AI超級(jí)計(jì)算機(jī)“帶給每家公司”的愿景。這一模式也被稱之為Training-as-a-Service，或者M(jìn)odel Making-as-a-Service。

實(shí)際上，這并不是英偉達(dá)第一次公布DGX Cloud。此前在英偉達(dá)2022財(cái)年四季度財(cái)報(bào)發(fā)布時(shí)，黃仁勛先生就向外界透露說英偉達(dá)將與云服務(wù)廠商展開合作，讓客戶以使用網(wǎng)頁瀏覽器的方式，就能通過NVIDIA DGX Cloud來使用DGX計(jì)算機(jī)，從而訓(xùn)練和部署大型語言模型或完成其他AI工作負(fù)載。

簡(jiǎn)單而言，DGX Cloud可提供 NVIDIA DGX AI超級(jí)計(jì)算專用集群，并配以NVIDIA AI Enterprise軟件推動(dòng)AI端到端開發(fā)和部署。每個(gè)企業(yè)都可以通過一個(gè)簡(jiǎn)單的網(wǎng)絡(luò)瀏覽器訪問自己的AI超級(jí)計(jì)算機(jī)，免除了購置、部署和管理本地基礎(chǔ)設(shè)施的復(fù)雜性。同時(shí)，企業(yè)可按月租用DGX Cloud集群，以便能夠快速、輕松地?cái)U(kuò)展大型多節(jié)點(diǎn)訓(xùn)練工作負(fù)載的開發(fā)，而無須等待需求量通常很大的加速計(jì)算資源。

目前，NVIDIA正在與領(lǐng)先的云服務(wù)商聯(lián)合托管DGX Cloud基礎(chǔ)設(shè)施，Oracle Cloud Infrastructure(OCI)將首當(dāng)其沖，通過其OCI超級(jí)集群，提供專門構(gòu)建的RDMA網(wǎng)絡(luò)、裸金屬計(jì)算以及高性能本地塊存儲(chǔ)，可擴(kuò)展到超過32,000個(gè)GPU所組成的超級(jí)集群。微軟Azure預(yù)計(jì)將在下個(gè)季度開始托管DGX Cloud，該服務(wù)將很快擴(kuò)展到Google Cloud等。

賦能生成式AI

為了加速企業(yè)使用生成式AI的工作，NVIDIA發(fā)布的另一項(xiàng)重磅消息則是推出NVIDIA AI Foundations云服務(wù)系列，為需要構(gòu)建、完善和運(yùn)行自定義大型語言模型及生成式 AI的客戶提供服務(wù)，他們通常使用專有數(shù)據(jù)進(jìn)行訓(xùn)練并完成特定領(lǐng)域的任務(wù)。

AI Foundations服務(wù)包括三類：NVIDIA NeMo，用于構(gòu)建自定義語言文本-文本轉(zhuǎn)換生成模型；Picasso視覺語言模型制作服務(wù)，適用于想要構(gòu)建使用授權(quán)或?qū)Ｓ袃?nèi)容訓(xùn)練而成的自定義模型的客戶；以及BioNeMo，助力2萬億美元規(guī)模的藥物研發(fā)行業(yè)的研究人員。

NeMo和Picasso服務(wù)運(yùn)行在可通過瀏覽器訪問的NVIDIA DGX Cloud上。開發(fā)人員可以通過簡(jiǎn)單的應(yīng)用編程接口(API)使用每項(xiàng)服務(wù)上提供的模型。一旦模型可以部署，企業(yè)就能夠使用NVIDIA AI Foundations云服務(wù)大規(guī)模地運(yùn)行推理工作負(fù)載。

每項(xiàng)云服務(wù)都包含六個(gè)要素：預(yù)訓(xùn)練模型、數(shù)據(jù)處理框架、矢量數(shù)據(jù)庫和個(gè)性化服務(wù)、經(jīng)過優(yōu)化的推理引擎、各種API、以及NVIDIA專家提供的支持，可幫助企業(yè)針對(duì)其自定義用例調(diào)整模型。

從已公布的用戶案例來看：

Adobe正與NVIDIA共同開發(fā)新一代先進(jìn)的生成式AI模型，側(cè)重于將生成式AI深度集成到全球頂尖創(chuàng)作者和營銷人員所使用的應(yīng)用中。
Shutterstock正在與NVIDIA一起訓(xùn)練一個(gè)生成式文本-3D轉(zhuǎn)換基礎(chǔ)模型，創(chuàng)作時(shí)間可從數(shù)小時(shí)縮短至數(shù)分鐘。通過使用NVIDIA Picasso生成式AI云服務(wù)構(gòu)建自定義模型，Shutterstock將幫助3D藝術(shù)家創(chuàng)建物體形狀、幫助展開物體、生成紋理和材質(zhì)，甚至為非3D內(nèi)容創(chuàng)作者制作可直接用于各種應(yīng)用和平臺(tái)的完整3D模型。
Getty Images正在與NVIDIA一起訓(xùn)練負(fù)責(zé)任的生成式文本-圖像，以及文本-視頻轉(zhuǎn)換基礎(chǔ)模型。這些模型將使用簡(jiǎn)單的文本提示創(chuàng)建圖像和視頻，并將在Getty Images完全授權(quán)的資產(chǎn)上進(jìn)行訓(xùn)練。Getty Images將根據(jù)這些模型所產(chǎn)生的收入向藝術(shù)家支付版權(quán)費(fèi)。
生物技術(shù)公司安進(jìn)(Amgen)使用其專有的抗體專利數(shù)據(jù)對(duì)BioNeMo ESM模型架構(gòu)進(jìn)行了預(yù)訓(xùn)練和微調(diào)。該公司將在DGX Cloud上訓(xùn)練五個(gè)用于分子篩選和優(yōu)化的自定義模型，所需要的時(shí)間從三個(gè)月縮短到了幾周。

與此同時(shí)，加速生成式AI模型的快速部署也是NVIDIA關(guān)心的重點(diǎn)。為此，黃仁勛先生發(fā)布了用于AI視頻、圖像生成、大型語言模型部署和推薦器推理的推理平臺(tái)，這些平臺(tái)將NVIDIA的全套推理軟件與最新的NVIDIA Ada、Hopper和Grace Hopper處理器相結(jié)合，包括同時(shí)在最近推出的NVIDIA L4 Tensor Core GPU和NVIDIA NVL GPU。

用于AI視頻的NVIDIA L4可提供比CPU高出120倍的由AI支持的視頻性能，同時(shí)提高99%的能效。
用于圖像生成的NVIDIA L40針對(duì)圖形以及AI賦能的2D視頻和3D圖像生成進(jìn)行了優(yōu)化。
用于大型語言模型部署的NVIDIA NVL是規(guī)?；渴餋hatGPT等大型語言模型的理想選擇。
用于推薦模型的NVIDIA Grace Hopper是圖形推薦模型、矢量數(shù)據(jù)庫和圖形神經(jīng)網(wǎng)絡(luò)的理想選擇。

Google Cloud是首家支持L4 Tensor Core GPU的云服務(wù)提供商，該公司已推出新的G2虛擬機(jī)并在近日提供私人預(yù)覽版。此外，谷歌還將L4 GPU集成到其Vertex AI模型商店中。資料顯示，L4 GPU是一款適用于幾乎所有工作負(fù)載的通用GPU，具有更加強(qiáng)大的AI視頻功能，可提供比CPU高120倍的AI視頻性能，同時(shí)能效提高了99%。

BlueField-3 DPU提升數(shù)據(jù)中心的性能、效率和安全性

據(jù)IDC統(tǒng)計(jì)，全球算力的需求每3.5個(gè)月就會(huì)翻一倍，遠(yuǎn)遠(yuǎn)超過了當(dāng)前算力的增長(zhǎng)速度。在此驅(qū)動(dòng)下，全球計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)基礎(chǔ)設(shè)施也在發(fā)生根本轉(zhuǎn)變，一些復(fù)雜的工作負(fù)載，在通用的CPU上不能很好的處理，為減輕CPU/GPU內(nèi)核的負(fù)擔(dān)，很多一級(jí)云服務(wù)提供商開始考慮如何在單芯片DPU上就可實(shí)現(xiàn)網(wǎng)絡(luò)、存儲(chǔ)、安全等關(guān)鍵任務(wù)的加速工作。

2020年10月，英偉達(dá)將基于Mellanox的SmartNIC技術(shù)推出 BlueField DPU（數(shù)據(jù)處理器），并將CPU、GPU、DPU稱之為組成“未來計(jì)算的三大支柱”。作為面向數(shù)據(jù)中心的專用處理器，DPU新增了AI、安全、存儲(chǔ)和網(wǎng)絡(luò)等各種加速功能，能夠?qū)π阅苊舾星彝ㄓ玫幕A(chǔ)設(shè)施工作負(fù)載進(jìn)行加速，從而更好地支撐CPU、GPU的上層業(yè)務(wù)，成為整個(gè)網(wǎng)絡(luò)的中心節(jié)點(diǎn)。

有行業(yè)人士表示，未來，用于數(shù)據(jù)中心的DPU量級(jí)將達(dá)到和數(shù)據(jù)中心服務(wù)器等量的級(jí)別。“每臺(tái)服務(wù)器可能沒有GPU，但一定會(huì)有一塊或者幾塊DPU卡，這將是一個(gè)千億量級(jí)的市場(chǎng)。”

本屆GTC 2023上，NVIDIA宣布Oracle云基礎(chǔ)設(shè)施（OCI）已選擇 NVIDIA BlueField-3 DPU作為其網(wǎng)絡(luò)堆棧的最新部分，從而為其客戶提供一個(gè)強(qiáng)大的新選項(xiàng)，用于從CPU卸載數(shù)據(jù)中心基礎(chǔ)設(shè)施任務(wù)。

BlueField-3 DPU是NVIDIA第三代數(shù)據(jù)處理器，與上一代BlueField DPU相比，BlueField-3 DPU支持高達(dá)400Gbps的以太網(wǎng)和InfiniBand網(wǎng)絡(luò)連接，提供了4倍的計(jì)算能力、4倍的加密加速性能、2倍的存儲(chǔ)處理性能和4倍的內(nèi)存帶寬。測(cè)試顯示，與未使用DPU的服務(wù)器相比，使用NVIDIA BlueField DPU的服務(wù)器可降低高達(dá)24%的功耗。

通過NVIDIA DOCA軟件框架，BlueField DPU可完全向后兼容。NVIDIA DOCA為開發(fā)者提供先進(jìn)的零信任安全功能，使開發(fā)者能夠創(chuàng)建用于控制資源訪問的計(jì)量云服務(wù)、驗(yàn)證每個(gè)應(yīng)用程序和用戶、隔離可能被入侵的機(jī)器，并幫助保護(hù)數(shù)據(jù)免遭破壞和盜竊。

結(jié)語

在計(jì)算機(jī)科學(xué)界，沒有人會(huì)相信近十年間，與訓(xùn)練模型和數(shù)據(jù)(從AlexNet訓(xùn)練到現(xiàn)在)相關(guān)的計(jì)算量會(huì)擴(kuò)大100萬倍。而在生成式AI需求爆發(fā)式增長(zhǎng)的背景下，行業(yè)更需要進(jìn)行充分的供應(yīng)鏈準(zhǔn)備，以滿足全球?qū)I的需求。這也解釋了黃仁勛之所以多次強(qiáng)調(diào)加速計(jì)算的原因所在，畢竟，通過執(zhí)行這樣的全棧操作，不但可以將計(jì)算性能顯著提升，更可以有效節(jié)省計(jì)算時(shí)間，從而節(jié)約能源，助推可持續(xù)發(fā)展。