IBM 發(fā)布新一代光電共封裝工藝,有望提高 AI 模型訓練速度
關鍵詞: IBM 光電共封裝 數據中心 生成式AI 聚合物光波導
近日,IBM發(fā)布了其在光學技術方面的最新進展,有望提升數據中心訓練和運行生成式 AI 模型的效率。IBM研究人員開發(fā)的新一代光電共封裝 (co-packaged optics,CPO) 工藝,通過光學技術實現數據中心內部的光速連接,為現有的短距離光纜提供補充。通過設計和組裝首個宣布成功的聚合物光波導 (PWG),IBM 研究人員展示了光電共封裝技術將如何重新定義計算行業(yè)在芯片、電路板和服務器之間的高帶寬數據傳輸。
如今,光纖技術已經被廣泛用于遠距離的高速數據傳輸,實現了“以光代電”來管理全球幾乎所有的商業(yè)和通信傳輸。雖然數據中心的外部通信網絡已經采用光纖,但其內部的機架仍然主要使用銅質電線進行通信。通過電線連接的 GPU 加速器可能有一半以上的時間處于閑置狀態(tài),在大型分布式訓練過程中需要等待來自其他設備的數據,導致高昂的成本和能源浪費。
IBM 研究人員發(fā)現了一種將光學的速度和容量引入數據中心的新方法。在其最新發(fā)表的一篇論文中,IBM 展示了其全球首發(fā)、可實現高速光學連接的光電共封裝原型。這項技術可大幅提高數據中心的通信帶寬,最大限度地減少 GPU 停機時間,同時大幅加快 AI 工作速度。
該創(chuàng)新將實現三方面的突破。
一是降低規(guī)?;瘧蒙墒?AI 的成本。與中距電氣互連裝置相比,能耗降低 5 倍以上,同時將數據中心互連電纜的長度從 1 米延長至數百米。
二是提高 AI 模型訓練速度。與傳統(tǒng)的電線相比,使用光電共封裝技術訓練大型語言模型的速度快近五倍,從而將標準大語言模型的訓練時間從三個月縮短到三周;用于更大的模型和更多的 GPU,性能將獲得更大提升。
三是提高數據中心能效。在最新光電共封裝技術的加持下,每訓練一個 AI 模型所節(jié)省的電量,相當于 5000 個美國家庭的年耗電量總和。
IBM 高級副總裁、IBM研究院院長 Dario Gil 表示:“生成式AI需要越來越多的能源和處理能力,數據中心必須隨之升級換代,而光電共封裝技術可以幫助數據中心從容面向未來。隨著光電共封裝技術取得突破,光纖電纜將大幅提升數據中心的數據傳輸效率,芯片之間的通信、AI工作負載的處理也會更高效,我們將進入一個更高速、更可持續(xù)的新通信時代?!?/p>
同時,光電共封裝技術能夠擴大加速器之間的互連密度,幫助芯片制造商在電子模組上添加連接芯片的光通路,從而超越現有電子通路的限制。IBM 的論文所述的新型高帶寬密度光學結構和其他創(chuàng)新成果,比如,通過每個光通道傳輸多個波長,有望將芯片間的通信帶寬提高至電線連接的 80 倍。
與目前最先進的光電共封裝技術相比,IBM 的創(chuàng)新成果可以使芯片制造商在硅光子芯片邊緣增加六倍數量的光纖,即所謂的“鬢發(fā)密度 (beachfront density)”。每根光纖的寬度約為頭發(fā)絲的三倍,長度從幾厘米到幾百米不等,可傳輸每秒萬億比特級別的數據。IBM 團隊采用標準封裝工藝,在 50 微米間距的光通道上封裝高密度的聚合物光波導 (PWG),并與硅光子波導絕熱耦合。
論文還指出,上述光電共封裝模塊采用50微米間距的聚合物光波導,首次通過了制造所需的所有壓力測試。這些模組需要經受高濕度環(huán)境、-40°C 至 125°C 的溫度以及機械耐久性測試,以確保光互連裝置即使彎曲,也不會斷裂或丟失數據。此外,研究人員還展示了 18 微米間距的聚合物光波導技術:將四個聚合物光波導設備堆疊在一起,可以實現多達 128 個通道的連接。
