英偉達對華“合規(guī)芭蕾”策略,國產算力加速“進化升級”
關鍵詞: 英偉達 芯片出口管制 合規(guī)經營 芯片較量 生態(tài)對決
7月16日,美國英偉達公司創(chuàng)始人兼首席執(zhí)行官黃仁勛在第三屆鏈博會開幕式上致辭表示,“中國的開源人工智能是全球進步的催化劑,使每個國家和行業(yè)都有機會參與AI變革”。不久前,其在接受央視新聞采訪時宣布兩個重要進展,美國已批準H20芯片銷往中國,并同步推出了一款全新的、完全合規(guī)的中國特供版專業(yè)級RTX PRO GPU。
英偉達對華“合規(guī)芭蕾”經營策略
英偉達H20是專為符合美國特定出口管制要求而設計的A100/H100替代品。其核心性能,特別是FP64/FP32相較于A100/H100有顯著降低,但通過配備高帶寬HBM3顯存并保留強大的NVLink互聯(lián)能力,旨在維持在特定AI場景的競爭力。
今年4月,美國政府曾暫停向英偉達發(fā)放H20的出口許可證,導致公司面臨超百億美元的潛在損失。根據(jù)英偉達最新財年報告(截至2024年1月26日),中國市場為其貢獻了170億美元的營收,占總銷售額的13%,是其實現(xiàn)增長的關鍵支柱。
據(jù)報道,英偉達已重新提交H20的銷售申請,并獲得了美國政府將發(fā)放許可證的保證,公司期望能盡快啟動交付。
與此同時,英偉達CEO黃仁勛宣布推出全新的RTX PRO GPU。他將其定位為“智能工廠和物流領域數(shù)字孿生人工智能應用的理想選擇”。據(jù)臺媒《電子時報》披露,這款名為RTX PRO 6000D Blackwell的GPU將采用臺積電4N定制工藝,搭載GDDR7顯存,內存帶寬高達1.1TB/s。這一規(guī)格使其在處理復雜數(shù)據(jù)和高負載任務時具備卓越性能,尤其適用于企業(yè)AI部署和AI工作站。
然而,英偉達在滿足美國不斷調整的出口限制方面仍面臨挑戰(zhàn)。有消息稱,H20的替代版B30預計將于9月發(fā)售,其性能參數(shù)在現(xiàn)有基礎上可能進一步受限。傳聞其FP16算力約為80 TFLOPS出頭,F(xiàn)P8接近200 TFLOPS出頭,互連帶寬約為1.5–1.6TB。從整體性能看,B30被認為基本不適合用于AI模型訓練。相比之下,H20雖性能受限,但仍能通過優(yōu)化內存方案、采用FP8精度及傳統(tǒng)方法勉強用于訓練。
事實上,英偉達的對華銷售策略已演變?yōu)橐粓鼍艿?“合規(guī)芭蕾”,通過分層產品線布局實現(xiàn)精準卡位。H20作為專注訓練及推理的定制芯片,憑借NVLink 4互聯(lián)與HBM3顯存支撐分布式計算;RTX PRO系列則聚焦專業(yè)可視化與輕量AI 設計,以GDDR7高帶寬適配數(shù)字孿生場景;即將推出的B30芯片則剝離訓練能力,純推理定位進一步收縮功能邊界。這種“功能切割術”既滿足美方不斷調整的出口限制條款,又通過差異化產品矩陣覆蓋中國市場從高端訓練到邊緣推理的全場景需求,牢牢守住13%的全球營收基本盤。
在技術綁定層面,英偉達即使硬件性能受限,仍可在軟件端通過CUDA工具鏈、NGC預訓練模型庫形成生態(tài)壁壘,僅PyTorch框架就包含超10萬款基于CUDA 優(yōu)化的模型,開發(fā)者遷移成本高達百萬級代碼量;硬件端則與浪潮、聯(lián)想等中國服務器廠商深度定制聯(lián)合方案,將單芯片銷售轉化為“芯片 + 整機 + 服務”的捆綁模式,既規(guī)避單賣芯片的政策風險,又通過系統(tǒng)級合作深化用戶依賴。
芯片較量之外的生態(tài)對決
從行業(yè)發(fā)展的深層次看,美國政府也逐漸意識到,盡管對高端芯片實施出口管制,但中國在AI芯片領域的巨額投入正推動其加速填補算力缺口,寒武紀、壁仞等企業(yè)流片節(jié)奏提速,華為昇騰910B已進入多地智算中心采購清單,部分國產芯片在性能和應用層面已展現(xiàn)出與H20競爭的能力。
國外的相關GPU各有特點,H20作為特定地緣政治環(huán)境下的產物,最大優(yōu)勢在于保留了NVLink 4的超高互聯(lián)帶寬和大容量HBM3顯存,這對于構建大規(guī)模AI集群進行分布式訓練和推理至關重要,能部分彌補其核心計算單元性能(FP64/FP32)被大幅削弱的劣勢,而CUDA 生態(tài)更是其護城河;AMD MI300X 紙面參數(shù)則非常亮眼,尤其是 192GB HBM3 顯存是巨大優(yōu)勢,對處理大模型極其關鍵,不過 ROCm 生態(tài)是主要瓶頸,好在其正持續(xù)快速改善,同時該芯片功耗較高。
國內競品方面,華為昇騰910B 目前國內綜合實力最強的替代方案,擁有較高的FP32/FP16算力和較成熟的CANN軟件棧(與MindSpore深度集成),以及華為的端到端解決方案能力,然而受制程限制,其HBM帶寬相對國際旗艦有差距;寒武紀MLU370-X8 通過多芯粒集成實現(xiàn)高算力和大容量HBM2,在推理場景有較好表現(xiàn)和優(yōu)化,但是MLU-Link互聯(lián)帶寬相對NVLink仍有較大差距;摩爾線程MTT S4000 / 百度昆侖芯 K200定位更偏向推理和中端訓練市場,性能參數(shù)上與H20/MI300X/910B等旗艦卡差距明顯,但在特定場景,如桌面級推理服務器、特定模型優(yōu)化可能有成本和部署優(yōu)勢,生態(tài)處于早期發(fā)展階段。
除了硬件參數(shù),全球AI產業(yè)也深刻意識到,算力軟件生態(tài)的成熟度遠比單芯片參數(shù)更能決定技術落地的廣度和深度,對于正加速追趕的中國算力產業(yè)而言,突破軟件生態(tài)壁壘仍需攻堅三大關鍵節(jié)點。
首先,當國產芯片F(xiàn)P16算力達到320TFLOPS超越H20時,業(yè)界卻發(fā)現(xiàn)大量開源AI框架仍默認調用CUDA內核。這種硬件領先卻生態(tài)滯后的困境,折射出兼容性戰(zhàn)役的核心價值,國產芯片要打破“能用但不好用”的魔咒,必須構建跨架構適配層。而兼容性攻堅的終極目標不是復刻CUDA,而是構建“一次開發(fā)、多端部署”的跨架構生態(tài)。目前中科院計算所研發(fā)的“異構計算中間件”已支持昇騰、寒武紀、AMD等8類芯片架構。
其次,CUDA的真正壁壘,在于全球200萬開發(fā)者形成的創(chuàng)新網絡。國產生態(tài)要實現(xiàn)從“技術可用”到“開發(fā)者擁護”的跨越,需要建立可持續(xù)的開發(fā)者激勵機制。
最后,當美國商務部提出“讓中國對美國技術上癮”的策略時,國產算力生態(tài)更需警惕“表面兼容實則被卡脖子”的陷阱,真正的自主可控,體現(xiàn)在底層指令集到上層應用框架的全鏈條可控。
算力軟件生態(tài)的攻堅戰(zhàn),本質是場沒有硝煙的標準制定權之爭。當國產芯片廠商不再糾結“如何兼容 CUDA”,而是思考“如何讓全球開發(fā)者主動適配國產生態(tài)”時,才算真正突破了算力產業(yè)的致命短板。這場戰(zhàn)役或許需要十年甚至更長時間,但每一行自主代碼的積累,都在為中國算力產業(yè)鋪設通往全球價值鏈頂端的階梯。
