阿里云為L(zhǎng)LM自研以太網(wǎng)網(wǎng)絡(luò)架構(gòu)，替換NVLink

2024-07-01 來(lái)源：電子工程專輯

33312

阿里云近期宣布了一項(xiàng)重大技術(shù)創(chuàng)新，展示了其為大型語(yǔ)言模型（LLM）訓(xùn)練設(shè)計(jì)的數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)，該架構(gòu)基于以太網(wǎng)技術(shù)，已在生產(chǎn)環(huán)境中穩(wěn)定運(yùn)行長(zhǎng)達(dá)8個(gè)月，標(biāo)志著AI基礎(chǔ)設(shè)施領(lǐng)域的一大突破。這一設(shè)計(jì)旨在優(yōu)化數(shù)據(jù)傳輸效率，解決傳統(tǒng)網(wǎng)絡(luò)在處理大規(guī)模AI模型訓(xùn)練時(shí)面臨的諸多挑戰(zhàn)，特別是針對(duì)突發(fā)流量處理和網(wǎng)絡(luò)負(fù)載均衡的問題。

專為GPU同步設(shè)計(jì)，應(yīng)對(duì)LLM訓(xùn)練流量挑戰(zhàn)

阿里云的高級(jí)工程師及網(wǎng)絡(luò)研究科學(xué)家翟恩南通過GitHub公布了題為《Alibaba HPN: A Data Center Network for Large Language Model Training》的研究論文，該論文將在8月舉辦的SIGCOMM會(huì)議上發(fā)表。（SIGCOMM是計(jì)算機(jī)協(xié)會(huì)數(shù)據(jù)通信特別興趣小組的年度聚會(huì)）

undefined

論文揭示，傳統(tǒng)云計(jì)算流量通常涉及數(shù)百萬(wàn)個(gè)小規(guī)模流（小于10Gbps），而LLM訓(xùn)練則會(huì)在每個(gè)主機(jī)上產(chǎn)生周期性的突發(fā)流，流量高達(dá)400Gbps。這種特性導(dǎo)致了等價(jià)多路徑路由（ECMP）技術(shù)中常見的哈希極化問題，影響了負(fù)載均衡和帶寬的有效利用。

因此，阿里云自主研發(fā)了“高性能網(wǎng)絡(luò)”（HPN），通過減少ECMP的使用，有效避免了哈希極化，同時(shí)精確選擇網(wǎng)絡(luò)路徑以適應(yīng)大規(guī)模流量需求。

考慮到GPU在LLM訓(xùn)練時(shí)需要高度同步工作，阿里云的網(wǎng)絡(luò)設(shè)計(jì)特別考慮到了單點(diǎn)故障問題，使用了一款51.2 Tb/sec的以太網(wǎng)單芯片ToR（Top of Rack，ToR）交換機(jī)。每個(gè)用于訓(xùn)練的主機(jī)配備了8個(gè)GPU和9個(gè)網(wǎng)絡(luò)接口卡（NIC），其中每個(gè)NIC有兩個(gè)200GB/s的端口，確保了即使在單個(gè)交換機(jī)故障的情況下也能維持通信。

undefined

通過“軌道”設(shè)計(jì)，每個(gè)NIC對(duì)應(yīng)一個(gè)GPU，實(shí)現(xiàn)了每個(gè)加速器享有400Gb/s的RDMA網(wǎng)絡(luò)吞吐量，整體帶寬達(dá)到了3.2Tb/s，最大化了GPU的PCIe Gen5 x16接口潛力。

以太網(wǎng)聯(lián)盟與開放標(biāo)準(zhǔn)的勝利

有媒體認(rèn)為，阿里云選擇以太網(wǎng)是為了避免過度依賴特定供應(yīng)商，并利用整個(gè)以太網(wǎng)聯(lián)盟的力量實(shí)現(xiàn)更快的發(fā)展。這一決策與越來(lái)越多廠商開始支持以太網(wǎng)，逃離英偉達(dá)（NVIDIA）NVlink在云端AI互聯(lián)上的壟斷趨勢(shì)相吻合。

盡管放棄了用于主機(jī)間通信的NVlink，阿里云仍然在主機(jī)內(nèi)網(wǎng)絡(luò)中使用了Nvidia的專有技術(shù)，因?yàn)橹鳈C(jī)內(nèi)GPU之間的通信需要更大的帶寬。然而，由于通道之間的通信速度較慢，每個(gè)主機(jī)提供的“專用400 Gbps RDMA網(wǎng)絡(luò)吞吐量，總帶寬達(dá)到3.2 Tbps”，足以最大化PCIe Gen5x16顯卡的帶寬。

undefined

阿里云選擇以太網(wǎng)作為基礎(chǔ)，還因?yàn)橐蕴W(wǎng)聯(lián)盟的支持和開放標(biāo)準(zhǔn)的長(zhǎng)期優(yōu)勢(shì)。這一決策得到了AMD、Broadcom、Cisco、Google、HPE、Intel、Meta和Microsoft等科技巨頭的廣泛歡迎，這些公司正通過Ultra Accelerator Link聯(lián)盟等倡議，共同推動(dòng)開放標(biāo)準(zhǔn)網(wǎng)絡(luò)技術(shù)的發(fā)展，以期對(duì)抗NVIDIA在AI網(wǎng)絡(luò)領(lǐng)域的主導(dǎo)地位。

數(shù)據(jù)中心的獨(dú)特設(shè)計(jì)

阿里云的數(shù)據(jù)中心采用“Pod”模式，每個(gè)Pod可容納15,000個(gè)GPU，與HPN結(jié)合，完美匹配了18MW建筑的功率限制。光纖長(zhǎng)度的優(yōu)化設(shè)計(jì)允許使用成本更低的多模光收發(fā)器。盡管HPN的引入增加了布線復(fù)雜度，但阿里云已經(jīng)在探索更高效的設(shè)計(jì)，如下一代網(wǎng)絡(luò)架構(gòu)，預(yù)計(jì)將配備更高容量的單芯片交換機(jī)。

undefined

此外，阿里云在數(shù)據(jù)中心還采用了51.2Tb/s的以太網(wǎng)單芯片交換機(jī)，顯著提升了網(wǎng)絡(luò)吞吐量和穩(wěn)定性，同時(shí)降低了能耗。然而，單芯片交換機(jī)在運(yùn)行過程中面臨高溫難題，市場(chǎng)上缺乏有效散熱解決方案。

undefined

為此，阿里云自主研發(fā)了以更多支柱為中心的均熱板散熱器，通過優(yōu)化結(jié)構(gòu)設(shè)計(jì)，有效控制了芯片溫度，確保了交換機(jī)的穩(wěn)定運(yùn)行。

然而，HPN仍存在一些缺點(diǎn)，最大的缺點(diǎn)是其復(fù)雜的布線結(jié)構(gòu)。每個(gè)主機(jī)有九個(gè)NIC，每個(gè)NIC連接到兩個(gè)不同的ToR交換機(jī)，這增加了插孔和端口混淆的可能性。盡管如此，這項(xiàng)技術(shù)據(jù)稱比NVlink更經(jīng)濟(jì)，從而使任何建立數(shù)據(jù)中心的機(jī)構(gòu)都能在設(shè)置成本上節(jié)省大量資金（甚至可能使其避免使用Nvidia技術(shù)，特別是在中美芯片戰(zhàn)中受到制裁的公司）。