信息爆炸時代，CPU已經不夠用了，更多“PU”正在路上

2023-10-09 來源：賢集網

1841

隨著技術的發(fā)展，數據量的爆炸性增長，到2025年，全球生成和消耗的數據總量預計將超過180ZB。而計算機的核心部件——中央處理器（CPU）分析數據的能力卻有點力不從心，導致數據處理緩慢且低效。傳統(tǒng)的CPU為了滿足多任務處理、高效能和節(jié)能要求，變得越來越復雜。在這個高速發(fā)展的時代，我們不能再依賴單一的CPU來完成所有的工作。為此，各種特定的處理單元（PU）如雨后春筍般涌現，其目標就是“瓜分”CPU的任務，人多力量大，各司其職，優(yōu)化計算效率。

GPU成就英偉達霸主之路

GPU成為AI計算的標配，其中最大的贏家非英偉達莫屬，在AI計算領域英偉達的GPU幾乎占到市場的絕大部分，英特爾和AMD等芯片巨頭也幾乎都錯過了這一波AI浪潮的紅利。

2006年英偉達推出CUDA，帶來了靈活便捷的GPU編程手段，這為使用GPU完成AI計算創(chuàng)造了良好的條件。2014年英偉達發(fā)布cuDNN V1.0深度神經網絡加速庫，并集成進了Caffe等AI框架中，進一步為基于英偉達GPU的AI計算提升性能和易用性等，使得AI開發(fā)和研究人員可以更加專注于神經網絡結構的設計等。2016年英偉達推出的Pascal架構GPU產品，已經開始專門為AI計算場景，特別是推理計算場景，做了許多的定制和優(yōu)化，能更好的滿足AI計算的需求，此外推出NVlink單機多卡的互聯技術，增加了GPU之間通信的帶寬，也加速了多卡并行計算的效率。2017年英偉達在Volta架構系列GPU中引入TensorCore，使得英偉達GPU產品在AI計算的訓練場景的性能繼續(xù)提升。2020年英偉達又推出新一代Ampere架構的GPU產品，在算力和性能等又大幅提升。

目前在AI計算場景下，英偉達GPU已經成為最主流的選擇，從整個發(fā)展過程中可以看到英偉達在軟硬件方面的所做的努力也密不可分，并且從2014年開始英偉達在AI方面每一次布局都剛好恰到好處。CUDA的推出可能為2011年前后發(fā)現GPU在AI計算中10-60倍的加速效果創(chuàng)造有利條件；2014年推出的cuDNN，并集成進Caffe等AI框架，在軟件層面進一步增加了英偉達GPU的易用性等；2016年開始直接在芯片層面全面支持AI計算場景需求，后續(xù)的產品在算力和性能等方面的提升正好又迎合了AI技術和產業(yè)發(fā)展的大趨勢。

再看另外兩家芯片巨頭英特爾和AMD，這兩家都有非常強大的實力，按理說應該也能在這一波AI浪潮取得巨大紅利，但事實上卻并沒有。當然因為AI的發(fā)展帶動CPU采購肯定也給英特爾和AMD帶來了不少收益。過去10年中，英特爾并沒有專門針對AI計算推出相應的產品，不論學界還是業(yè)界有AI方面新的研究成果，英特爾可能都會跟進在CPU上進行一些優(yōu)化，聲稱在GPU上的性能只比在CPU上快2-3倍左右，并沒有像其他地方所說的幾十倍上百倍的效果。在AI計算效率等方面，英特爾在CPU上優(yōu)化后確實能夠縮小與GPU的差距，但這種優(yōu)化的思路在業(yè)界并沒有太多的跟隨者，主要是優(yōu)化工作本身的門檻相對較高。

AMD在過去十多年中CPU一直被英特爾壓著，無暇顧及GPU市場的更多需求，雖然AMD的GPU在游戲市場也不錯，但在AI計算方面始終沒有形成氣候。當然2018年前后AMD新架構的CPU產品面世之后，最近幾年大有反超英特爾的架勢，不久前AMD推出的Instinct MI100的GPU產品不知道是否會在AI計算領域挑戰(zhàn)英偉達的地位，讓我們拭目以待。

AI成就GPU，但GPU還不是AI的完美答案？

實際上，GPU并不是為AI所生的，它只是解決AI算力需求的一種方案，有沒有更好的？答案是肯定的，只是還不知道究竟誰是顛覆GPU的下一個芯片主角。

一位國產GPU廠商的GPU產品設計負責人告訴《中國經濟周刊》，芯片是算力的基本構成，核心的計算都運行在芯片上。整個硬件的邏輯是芯片以板卡或者其他算力卡的形態(tài)，部署在服務器中，服務器安置在機柜中，大量機柜組成數據中心。大模型的崛起，毫無疑問給芯片產業(yè)帶來了一個巨大的潛在市場，也帶來了很多技術要求，特別是對于芯片的單卡算力性能、互連能力等關鍵性能指標都提出更高的要求，因此需要市場開發(fā)更強的芯片產品。

這位負責人認為，GPU成為主流是因為AI發(fā)展的初期，能夠獲取的最適合的芯片架構就是GPU，因此有先發(fā)優(yōu)勢。但GPU的核心痛點在于芯片制造技術追不上算力需求的增加，也就是常說的摩爾定律走到了盡頭。目前GPU芯片所用的最先進制程是4nm～5nm制程，已經非常逼近摩爾定律的物理極限了，未來幾乎無法再通過制程的升級來提升芯片性能。

此外，該負責人表示，傳統(tǒng)的GPU還保留了不少不需要的圖形運算功能，使得整個芯片的計算效率并不是最高，這也是GPU的劣勢。其他主流的AI芯片解決方案，也都還不完美，比如針對AI運算開發(fā)的專用芯片（ASIC）方案，雖然計算效率更高，但通用性較差。

“未來最有希望實現突破的還在于更新的封裝技術（比如3D封裝）、更新的材料等方式，嘗試突破摩爾定律?！痹撠撠熑苏f。

汪波從芯片架構原理的角度，做了進一步的解釋。他表示，受制于其架構本身，用GPU解決AI算力并不完美，畢竟GPU最初并不是因AI而生的。此外，GPU的計算和存儲是分開的，需要在計算和存儲之間來來回回地調用數據，這種搬運數據消耗的能量是計算的10倍。而且GPU很多時候是在等待數據過來再進行計算，因此，GPU的計算效率并不高，而且功耗非常大，GPU的強大算力是要付出巨大成本的。

“在芯片設計中，一直在尋求PPA折中，即性能（Performance）、功耗（Power）和面積（Area）的平衡點，因為三者不能同時達到最優(yōu)。性能和功耗一直是一對矛盾，而面積越大，芯片成本越高?！蓖舨ㄕf。

汪波還表示，實際上，學術界和科技公司的研究者們都在研究更適配人工智能的芯片，采用新的原理和新的材料。比如做存算一體的芯片，在存儲器內部去完成計算，不用再搬運數據，這樣就能實現功耗更低但算力更大?！澳壳?，雖然還在探索階段，但好消息是在這個領域，中國和世界同步的?！彼f。

還有一個思路就是改變芯片的馮諾依曼式架構，模擬人腦數據處理方式的神經形態(tài)芯片?！吧窠浶螒B(tài)芯片已經發(fā)展了幾十年，雖然目前算力還沒有辦法跟GPU去PK，但如果其算力能達到GPU的一半，就可能憑借能耗和成本優(yōu)勢異軍突起?！蓖舨ㄕf。

彭虎也分析稱，GPU具有強大的并行計算能力和高效的浮點運算能力，且屬于通用芯片，能夠較好地滿足各類AI算法要求，但也存在較高功耗和較低算力利用率的短板。除了GPU，AI芯片還包括FPGA和各類ASIC方案。FPGA屬于具備可編程硬件結構的集成電路，其可編程性和靈活性可快速適應不同AI算法要求，但也存在高功耗的問題。ASIC屬于專用芯片，通過算法固化實現更高的算法利用率和能耗比，但開發(fā)周期較長、靈活性較弱。

“我們認為，目前GPU仍是較好滿足AI大模型、支持多模態(tài)的成熟的一站式解決方案，ASIC以其高性價比、高能耗比等優(yōu)勢將在未來AI市場中占據一席之地?！迸砘⒄f。

實際上，能耗問題已經是算力發(fā)展乃至AI發(fā)展的重要瓶頸。北京智源人工智能研究院副院長兼總工程師林詠華告訴《中國經濟周刊》記者，一個百億級別大模型僅僅訓練消耗的電費每天都要在10萬元以上。

“超過千億級別的大模型，訓練需要1000～2000張A100的卡，硬件成本約5000萬美金，還需要投入人力、電力、網絡支出等，一年至少5000萬美金到1億美金成本。”昆侖萬維CEO方漢曾表示。

一家國內頭部AI算力供應商的負責人告訴《中國經濟周刊》記者，一個傳統(tǒng)數據中心，電費要占運維總成本60%～70%。而每耗費一度電，卻只有一半用在了正事（計算）上，其他則浪費在散熱上。因此，新型數據中心一般會采用液冷技術，這樣可以比采用風冷節(jié)省30%以上的電費。

全球大型互聯網公司都在想盡各種辦法解決散熱難題，為了降低能耗，他們把數據中心埋在山里（騰訊）、泡在湖里（阿里）、扔進大海（微軟）、拉到北極（Meta）……

為數據處理而生的DPU

有了專門處理圖形的GPU之后，還不夠。在數字化時代，需要有針對數據處理而生的處理器，于是數據處理單元（DPU）應運而生，DPU也被稱為是數據中心的第三大計算支柱。DPU 與 CPU 和 GPU 配合使用，可增強計算能力并處理日益復雜的現代數據工作負載。

DPU是專門設計用來處理大量的數據和信息。它可以有效地處理和分析數據，提高數據中心和云計算平臺的性能。根據英偉達的說法，DPU應該能完成以下三大項任務：

卸載：從服務器CPU接管基礎設施任務，以便更多的CPU能力可用于運行應用程序。

加速：使用DPU芯片中的硬件加速，比CPU更快地運行基礎設施功能。

隔離：將關鍵數據平面和控制平面功能移至DPU上的單獨域，既可以減輕服務器CPU 的工作，又可以在CPU或其軟件受到損害時保護功能。

迄今為止，許多 DPU 開發(fā)都是針對超大規(guī)模的。展望未來，DPU 在數據中心和企業(yè)網絡其他地方的使用預計將會增長。一種可能實現的方式是將 DPU 技術與網絡交換機相融合——AMD Pensando 將這種技術組合稱為“智能交換機”。“我們認為智能交換機是企業(yè)吸收 DPU 技術的最簡單方法，因為它可以讓他們淘汰舊設備，并為他們的網絡帶來重要的技術和規(guī)模，” AMD Pensando 網絡技術和解決方案小組首席商務官 Soni Jiangdani 表示。

由于人工智能、機器學習、深度學習、物聯網、5G 和復雜云架構需求的增長，DPU市場穩(wěn)步增長。隨著對數據密集型應用程序的需求不斷增加，計算架構將不斷發(fā)展，從而需要更快、更高效、更安全的數據處理。DPU市場市場上涌現了不少芯片玩家，主要供應商包括國外的英偉達、Marvell、Fungible（被微軟收購）、Broadcom、Intel、Resnics和AMD Pensando，國內還有中科馭數、芯啟源云豹智能、云脈芯連等等。

根據Allied Market Research 的一份報告，預計到 2031 年，全球數據處理單元市場將達到 55 億美元，2022 年至 2031 年的復合年增長率為 26.9%。因此，DPU 可能會從今天的可選組件轉變?yōu)橄乱淮嬎愕谋匾袠I(yè)標準。

爆炸性增長的視頻，需要VPU

隨著視頻內容的普及和人工智能技術的飛速發(fā)展，視頻處理單元（VPU，Video Processing Unit）成為了當前科技領域的一顆新星。多年來，英特爾的CPU+軟件的視頻解碼/編碼方案一直主導著流媒體市場，但是隨著視頻流媒體對高質量視頻的需求不斷增長，CPU將不再具有經濟價值，而且會消耗太多的能耗和空間。于是，VPU這種專門用來處理視頻的芯片開始興起，他們旨在釋放CPU的龐大勞動力。

VPU（視頻處理單元）是專門設計用來處理視頻任務的，它可以高效地處理視頻編碼和解碼、圖像處理和機器視覺等任務。通過將這些任務從CPU或GPU上卸載，VPU可以提高系統(tǒng)的總體效率和性能，同時也減輕了CPU或GPU的負擔，使它們可以專注于其他任務。而且這樣的VPU通常還具有高性能、低功耗和低延時等多個優(yōu)勢，據SemiAnalysis對VPU芯片廠商镕銘微電子（NETINT）的分析，相比于CPU和GPU，VPU的密度和功耗是CPU和GPU無法比擬的，VPU的出現可以說是為視頻行業(yè)應用帶來了前所未有的加速計算能力。

當下4K、8K等高清視頻技術的廣泛應用，使得視頻處理的計算負擔持續(xù)上升，這使得高效能的VPU成為行業(yè)發(fā)展的必備工具。目前包括谷歌、Meta、字節(jié)跳動和騰訊等互聯網巨頭均已經瞄上這顆芯片。與此同時，AMD在今年4月，發(fā)布了一款用于數據中心的新型專用媒體加速器和視頻編碼卡——Alveo MA35D，英特爾則是將VPU集成到其14代酷睿Meteor lake處理器中。除了云和數據中心之外，終端也已成為視頻及游戲的主要載體，手機廠商愈發(fā)追求視頻或影像質量。對此，vivo/小米以視頻芯片為自研切入點，如Pixelworks/逐點半導體這樣的第三方視頻芯片供應商也開始迎來發(fā)展契機。

未來，視頻處理芯片市場預計將繼續(xù)增長，特別是在邊緣計算、物聯網 (IoT) 和5G通信領域。高效和低功耗的視頻處理芯片將成為這些應用領域的關鍵組件。

更多新的“PU”正在路上

一家成立于2018年的以色列的初創(chuàng)芯片企業(yè)NeuroBlade，開發(fā)了一種專用處理器架構，他們將之稱為是SPU（SQL處理單元）。該公司的目標是成為“數據分析領域的 Nvidia”。SPU主要是用來加速SQL指令處理，該公司CEO表示，通過使用專門設計的處理器加速SQL處理，可以實現端到端SQL分析加速。在部署方面，該芯片通過主機服務器的PCIe總線插入，能夠透明地接管SQL相關處理，而無需修改主機應用程序軟件。

SPU支持常見的列式文件格式。當一個查詢請求從查詢引擎發(fā)送時（也就是從數據庫管理系統(tǒng)中發(fā)出查詢請求），SPU可以直接訪問和處理存儲在本地存儲設備上的數據文件。在處理完數據文件后，SPU會將處理結果以原生查詢引擎布局的形式發(fā)送回查詢引擎。

NeuroBlade公司正在與多個大型超大規(guī)模提供商進行談判，并已與一家公司贏得了數千張SPU卡的合同。如NeuroBlade還與戴爾公司合作，在PowerEdge服務器中分銷SPU卡產品。據他們稱，超大規(guī)模企業(yè)使用這一SQL處理單元 (SPU) 來卸載運行分析工作負載的x86 CPU，可以獲得100倍或更多的工作加速，每年可以節(jié)省數百萬美元。在NeuroBlade的客戶中，還有存儲類客戶，鎧俠已經在其CM7系列企業(yè)NVMe SSD中成功配置了其 NeuroBlade硬件增強型查詢系統(tǒng) (HEQS)，據他們稱，可以使客戶能夠充分發(fā)揮高性能 SSD 吞吐量的潛力，從而將查詢性能提高高達100倍。

登入后，方可留言>>

行業(yè)動態(tài)

道氏技術：年產1000噸硅碳負極項目已和恩平當地政府簽訂協議

聞泰科技重大資產出售進展：多家公司股權已完成交割

馬斯克腦機公司Neuralink：已為全球12人植入芯片

熱讀文章

苗圩出席統(tǒng)籌推進疫情防控和產業(yè)轉型升級促進制造業(yè)通信業(yè)穩(wěn)定發(fā)展發(fā)布會

一圖讀懂2020年《政府工作報告》

工業(yè)富聯：擬7763萬美元收購鴻海精密美國子公司相關資產

日日躁夜夜躁狠狠躁超碰97,无码国内精品久久综合88 ,热re99久久精品国99热,国产萌白酱喷水视频在线播放

信息爆炸時代，CPU已經不夠用了，更多“PU”正在路上

信息爆炸時代，CPU已經不夠用了，更多“PU”正在路上