最新MLPerf 3.0測試結果出爐!國產(chǎn)AI芯片新勢力發(fā)起沖鋒
據(jù)福布斯報道,全球機器學習工程聯(lián)盟MLCommons基于權威AI基準評測MLPerf 3.0發(fā)布最新測試結果,美國人工智能訓練芯片巨頭英偉達又一次在性能對比中超越競爭對手。
英偉達及其合作伙伴在MLPerf 3.0中運行并提交了基準測試,包括圖像分類、對象檢測、推薦、語音識別、NLP(自然語言處理)和3D分割。英偉達指出,許多客戶需要一個多功能的AI(人工智能)平臺,該平臺主要適用于數(shù)據(jù)中心環(huán)境,許多像圖像分類或檢測的邊緣AI應用僅使用一種或兩種AI模型。
這一輪MLPerf的新測試成員分別是致力于邊緣圖像分類和數(shù)據(jù)中心的美國機器學習初創(chuàng)公司SiMa.ai和美國AI解決方案提供創(chuàng)企Neuchips。
MLCommons每6個月發(fā)布新一輪人工智能推理處理基準測試。
在最新一期的幫當中,有 25 個組織提交了測試,高于去年秋季的 21 個和去年春季的 19 個。英特爾展示了早期基于 Sapphire Rapids 的系統(tǒng),高通的 Cloud AI 100 表現(xiàn)出色,尤其是在功耗指標方面。新加入的參與者包括 CTuning、廣達云科技、SiMa 和 xFusion。
同樣值得注意的是在本周的新聞/分析師預簡報會上圍繞生成式 AI 的討論——是的,更多關于 ChatGPT 的議論紛紛。MLPerf 應該如何涉足生成式 AI 領域?BERT Large 是 LLM 的良好代理嗎?MLCommons執(zhí)行董事 David Kanter 表示,大型語言模型 (LLM) 將很快添加到 MLPerf 基準測試套件中。
目前,BERT(來自transformers的雙向編碼器表示)是 MLPerf 使用的 NLP 模型。生成式人工智能應用程序的預期激增——想想ChatGPT和DALL?E 2的目標版本 ——可能會導致對推理基礎設施的需求激增。
有趣的是,有一些共識認為 BERT 可以作為大型 LLM 的早期代理,即使它的規(guī)模要小得多(GPT3 有 1750 億個參數(shù),BERT large 有大約 3 億個參數(shù))。
Nvidia 仍然閃耀光芒
Nvidia 在廣泛的加速器市場仍然占據(jù)主導地位,并展示了其新的 H100 GPU 以及剛剛推出的 L4(T4 的替代品)的性能。
Nvidia 人工智能、基準測試和云主管 David Salvator 提供了一個很好的頂線總結,“我們在短短六個月內(nèi)看到了一些驚人的性能提升,與我們六個月前的第一次提交相比高達 54%。這證明了我們圍繞軟件創(chuàng)新正在進行的工作。通常,在我們在產(chǎn)品生命周期過程中構建的任何給定一代產(chǎn)品中,我們將從軟件優(yōu)化和我們的庫、我們的驅(qū)動程序的持續(xù)調(diào)整中獲得另外 2 倍的性能。
“我們剛剛在 GTC 上推出的 L4 產(chǎn)品首次出現(xiàn)在 MLPerf 中,與我們的上一代產(chǎn)品相比,其結果提高了 3 倍以上。第三個興趣點是我們的Jetson Orin平臺也有了長足的進步。這不是它第一次出現(xiàn)在 MLPerf 中,但通過在平臺級別結合軟件和一些功率調(diào)整,我們已經(jīng)能夠在效率方面將性能和效率提高多達 57%,”他說。
Salvator 將軟件改進歸功于 H100 Transformer Engine(使用混合精度格式的庫)。他還引用了非最大內(nèi)核在對象檢測推理中的使用。如下面的幻燈片所示,邊界框通常用于幫助識別對象。“為了徹底,這些邊界框通常以重疊的方式完成,但是 [如圖所示] 在幻燈片的右側(下圖),通過優(yōu)化這些內(nèi)核,我們能夠在 3D U-Net 和 ResNet-50 中看到一些不錯的性能提升,”他說。
英特爾Sapphire Rapids異軍突起
在上一次的 MLPerf Inference 練習中,英特爾在預覽類別中提交了預覽類別,這是針對預計在六個月內(nèi)推出的產(chǎn)品。這一輪,英特爾在單節(jié)點系統(tǒng) (1-node-2S-SPR-PyTorch-INT8) 的封閉數(shù)據(jù)中心提交了兩個 CPU(英特爾至強鉑金 8480+)。在過去的幾年中,圍繞通用 CPU 可能足以滿足某些推理工作負載的概念進行了大量討論,通常是在推理是偶爾需要而不是專用或主要需求的情況下。
最新的英特爾提交,雖然跟不上基于加速器的系統(tǒng),但能夠運行工作負載并顯示出比上一個 MLPerf 有所改進。
“借助第四代至強可擴展處理器,之前代號為 Sapphire Rapids,我們實際上在我們的產(chǎn)品中擁有一個名為AMX(高級矩陣指令)的新加速器。最后一次提交實際上是我們剛剛啟用了 Amex。因此,為了建立 Nvidia 的觀點(關于通過軟件實現(xiàn)性能改進),現(xiàn)在我們實際上正在調(diào)整它并改進軟件,”Plawner 說。
“我們看到所有型號的性能在短短幾個月內(nèi)全面提高了 1.2 倍到 1.4 倍。[我們] 從僅僅啟用 AMX(這對我們來說也是 CPU 內(nèi)核中的一種新加速器)到有機會調(diào)整軟件。與之前的評論類似,我們預計在當前這一代中可能會達到 2 倍左右,僅通過軟件和改進即可。在英特爾,我們都喜歡摩爾定律,但唯一比摩爾定律更好的是,隨著時間的推移,軟件可以在同一個芯片內(nèi)為您提供什么,”他說。
在這里值得一提的是,競爭供應商遵守 MLPerf 的規(guī)定,即在其整體媒體/分析師簡報會上發(fā)表評論不能直接將一種產(chǎn)品與競爭對手的產(chǎn)品進行比較。這令人耳目一新,也很有用。如前所述,確實有必要深入研究結果數(shù)據(jù)并將相似/相似的系統(tǒng)(硬件、軟件和新網(wǎng)絡測試沒有網(wǎng)絡)與類似系統(tǒng)進行比較。
許多供應商還發(fā)布博客宣傳他們的結果并進行競爭比較。
高通顯示穩(wěn)步增長
高通對 MLPerf 練習并不陌生,其 Cloud AI 100 加速器一直表現(xiàn)最佳,展示了低延遲和出色的能效。該公司報告稱,其 MLPerf v3.0 推理結果超過了之前所有類別的峰值離線性能、能效和更低延遲的所有記錄。
“配備 18 個 Qualcomm Cloud AI 100 Pro(75W TDP)加速器的 2U 數(shù)據(jù)中心服務器平臺實現(xiàn)了每秒 430K+ 推理的 ResNet-50 離線峰值性能,并實現(xiàn)了 241 推理/秒/瓦的能效。Qualcomm Cloud AI 100 RetinaNet Network 跨所有平臺的離線性能優(yōu)化了約 40-80%,服務器性能優(yōu)化了高達 110%,”Qualcomm 表示。
“自首次提交 MLPerf 1.0 以來,Qualcomm Cloud AI 100 性能提升高達 86%,能效提升高達 52%。這些改進是通過軟件優(yōu)化實現(xiàn)的,例如 AI 編譯器、DCVS 算法和內(nèi)存使用方面的改進。這凸顯了過去幾年的持續(xù)努力和投資,”該公司表示。
VMware 展示了其與戴爾和 Nvidia 合作虛擬化 Nvidia Hopper 系統(tǒng)的性能?!拔覀儗崿F(xiàn)了 205% 裸機性能的 94%。值得注意的是,在 128 個邏輯 CPU 內(nèi)核中,我們只使用了 16 個 CPU 內(nèi)核。所有剩余的 112 個 CPU 代碼應該在您的數(shù)據(jù)中心可用于其他工作負載,而不會影響運行推理工作負載的機器的性能。這就是虛擬化的力量,”VMware 高級工程師 Uday Kurkure 說。文末VMware的補充聲明中展示了幾個結果圖表。
英偉達江湖地位穩(wěn)固,國產(chǎn)AI芯片新勢力發(fā)起沖鋒
總的來看,英偉達繼續(xù)穩(wěn)定發(fā)揮,霸榜MLPerf推理基準測試,是毫無爭議的大贏家。雖說部分單點性能成績被其他競品趕超,但若論通用性,英偉達A100和H100依然是能將其他一眾AI芯片“按地摩擦”的存在。
目前英偉達還沒有提交H100的推理能效測試數(shù)據(jù),以及其在訓練方面的性能表現(xiàn),等這些成績出來,H100預計會風頭更盛。
國產(chǎn)AI芯片企業(yè)也嶄露鋒芒。繼阿里平頭哥自研云端AI芯片含光800的單卡算力在2019年登頂MLPerf ResNet-50模型推理測試后,壁仞科技、墨芯也分別通過第三方權威AI基準測試平臺展示出其AI芯片的實測性能實力。
從這次開放優(yōu)化類榜單展示的性能成績,我們看到稀疏性計算已經(jīng)成數(shù)據(jù)中心AI推理的一個熱門趨勢,我們期待接下來這類具有創(chuàng)新力的技術能進入固定任務榜單,通過更精細、更公平地比較系統(tǒng)實力,進一步驗證其落地價值。
隨著參評機構、系統(tǒng)規(guī)模、系統(tǒng)配置的增加和走向多元化,MLPerf基準測試正變得越來越復雜。這些歷屆的榜單結果,也能反映出全球AI芯片的技術及產(chǎn)業(yè)格局之變遷。
