日日躁夜夜躁狠狠躁超碰97,无码国内精品久久综合88 ,热re99久久精品国99热,国产萌白酱喷水视频在线播放

歡迎訪問深圳市中小企業(yè)公共服務(wù)平臺(tái)電子信息窗口

算力需求不是越高越好,先搞懂這些算力芯片才能做好選擇

2024-05-16 來源:賢集網(wǎng)
6904

關(guān)鍵詞: 人工智能 可穿戴設(shè)備 芯片

根據(jù)《中國算力發(fā)展指數(shù)白皮書》中的定義,算力是設(shè)備通過處理數(shù)據(jù),實(shí)現(xiàn)特定結(jié)果輸出的計(jì)算能力。

算力實(shí)現(xiàn)的核心是CPU、GPU等各類計(jì)算芯片,并由計(jì)算機(jī)、服務(wù)器和各類智能終端等承載,海量數(shù)據(jù)處理和各種數(shù)字化應(yīng)用都離不開算力的加工和計(jì)算。

那么,不同的算力芯片分別適用于何種應(yīng)用場景,不同的算力芯片又有哪些區(qū)別?

小至耳機(jī)、手機(jī)、PC,大到汽車、互聯(lián)網(wǎng)、人工智能、數(shù)據(jù)中心、超級計(jì)算機(jī)、航天火箭等,“算力”都在其中發(fā)揮著核心作用,而不同的算力場景,對芯片的要求也各不同。


不同終端對應(yīng)的算力要求不同

數(shù)據(jù)中心作為數(shù)字時(shí)代的核心基礎(chǔ)設(shè)施,承載著大量的數(shù)據(jù)處理、存儲(chǔ)和傳輸任務(wù)。因此,它們需要強(qiáng)大的算力來應(yīng)對各種復(fù)雜的計(jì)算需求。數(shù)據(jù)中心和超算需要高于1000TOPS的高算力芯片。當(dāng)前,超算中心算力已經(jīng)進(jìn)入E級算力(百億億次運(yùn)算每秒)時(shí)代,并正在向Z(千E)級算力發(fā)展。數(shù)據(jù)中心對于芯片的低功耗、低成本、可靠性以及通用性的要求都極高。

智能自動(dòng)駕駛涉及人機(jī)交互、視覺處理、智能決策等眾多方面,車載傳感器(激光雷達(dá)、攝像頭、毫米波雷達(dá)等)的不斷增加,數(shù)據(jù)處理的實(shí)時(shí)性、復(fù)雜性和準(zhǔn)確性要求不斷提高,都對車載算力提出了更高的要求。

通常,業(yè)內(nèi)認(rèn)為實(shí)現(xiàn)L2級自動(dòng)輔助駕駛需要的算力在10TOPS以下,L3級需要30~60TOPS,L4級需要超過300TOPS,L5級需要超過1000TOPS,甚至4000+TOPS。所以自動(dòng)駕駛領(lǐng)域的車載算力是遠(yuǎn)遠(yuǎn)大于生活中常見的手機(jī)、電腦的計(jì)算能力。在智能駕駛中,安全至關(guān)重要,因此該場景對算力芯片的可靠性有著極高的要求,對于芯片通用性的要求也較高,對于功耗和成本的要求就相對沒有那么苛刻。

為了應(yīng)對當(dāng)前視頻處理、人臉識(shí)別以及異常檢測等復(fù)雜任務(wù)的挑戰(zhàn),同時(shí)確保系統(tǒng)在未來技術(shù)升級和拓展時(shí)擁有充足的計(jì)算資源。智能安防系統(tǒng)需要大約4-20TOPS的算力,這一數(shù)值雖然相較數(shù)據(jù)中心要小得多,但是也足以保障智能安防系統(tǒng)的高效穩(wěn)定運(yùn)作。隨著AI安防進(jìn)入下半場,算力的重要性愈發(fā)凸顯,這一數(shù)值也在不斷上漲。智能安防對低成本和可靠性的需求比較高,功耗和通用性的要求則相對中等。

在智能移動(dòng)終端中,可穿戴設(shè)備等小型產(chǎn)品對算力的需求相對不高,但智能手機(jī)、筆記本電腦等產(chǎn)品對算力的需求正在大幅提升。智能移動(dòng)終端也是一個(gè)對低功耗和低成本有著高要求的應(yīng)用場景,對可靠性的要求相對較高,對通用性則沒有太多的限制。

當(dāng)下的基礎(chǔ)算力主要由基于CPU芯片的服務(wù)器提供,面向基礎(chǔ)通用計(jì)算。智能算力主要基于GPU、FPGA、ASIC等芯片的加速計(jì)算平臺(tái)提供,面向人工智能計(jì)算。高性能計(jì)算算力主要基于融合CPU芯片和GPU芯片打造的計(jì)算集群提供,主要面向科學(xué)工程計(jì)算等應(yīng)用場景。


GPU——高性能計(jì)算的引領(lǐng)者

GPU,英文為Graphics Processing Unit,又稱顯示核心、視覺處理器、顯示芯片。GPU核心技術(shù)包括雙重紋理四像素256位渲染引擎、立方環(huán)境材質(zhì)貼圖和頂點(diǎn)混合、硬件T&L(幾何轉(zhuǎn)換和光照處理)、紋理壓縮和凹凸映射貼圖。GPU是專門為處理圖形數(shù)據(jù)而創(chuàng)建和調(diào)整的處理器。

GPU除作為獨(dú)立顯卡的核心用于個(gè)人電腦,為高清視頻、大型游戲提供高質(zhì)量3D圖形渲染,基于GPU構(gòu)建的專業(yè)顯卡還配置在高端工作站上做復(fù)雜的三維設(shè)計(jì)和工程仿真。但當(dāng)前GPU最重要的應(yīng)用場景還是AI計(jì)算,支撐AI大模型的訓(xùn)練和推理。那為什么CPU不行,非GPU不可?

前面已經(jīng)講過,GPU的推出就是為了接手原本由CPU負(fù)責(zé)的圖形顯示處理工作。因而GPU架構(gòu)有其先天的計(jì)算特征,就是完全為3D圖形處理而設(shè)計(jì),就是在CPU的控制指令下,為大量的實(shí)時(shí)的圖形圖像顯示提供計(jì)算。由于是聽候CPU安排,因此GPU的控制單元比較少,計(jì)算單元卻非常多,CPU和GPU的架構(gòu)如下圖所示。如果CPU是孤膽英雄,能獨(dú)當(dāng)一面,那么GPU就是無數(shù)的小兵,靠規(guī)模致勝。



由于CPU指令相對復(fù)雜,它需要做好資源的調(diào)度和控制,支持操作系統(tǒng)的中斷處理、內(nèi)存管理、I/O處理等,運(yùn)算過程需要大量的邏輯控制,因此內(nèi)部的控制單元較多,極大擠壓了計(jì)算單元數(shù)量,使計(jì)算性能受到很大限制,還需要預(yù)留空間為數(shù)據(jù)建立多級緩存;GPU運(yùn)算就不需要考慮這些,也無需太多的控制單元,芯片上大部分空間都留給了計(jì)算單元,因此適合并行計(jì)算任務(wù)和大規(guī)模數(shù)據(jù)訪問,通常具有更高的帶寬和更低的延遲。

試想一下,有個(gè)計(jì)算任務(wù)需要進(jìn)行1000個(gè)加減運(yùn)算,你說是一個(gè)人做快呢,還是讓1000個(gè)人每個(gè)人算一個(gè)加減運(yùn)算快呢,結(jié)果很顯然。如何理解GPU所做的功?再舉個(gè)例子:

現(xiàn)在電腦顯示器的分辨率越來越高,以4K顯示器來說,分辨率就達(dá)到了3840*2160,就是829萬4400個(gè)像素點(diǎn),按照RGB三色顯示,單個(gè)像素的字節(jié)位就達(dá)到了24bit,也就是顯示器刷新一次就要處理高達(dá)1.99億個(gè)bit。如果再乘以顯示器刷新率,一般高端顯示器刷新率最低也在120Hz,一秒鐘僅GPU就得處理240億個(gè)bit。

可見,僅圖形顯示處理就對計(jì)算性能要求很高。如果全部依賴CPU來處理,即使性能再強(qiáng)也會(huì)不堪重負(fù),并嚴(yán)重拖慢正常軟件應(yīng)用的計(jì)算效率。當(dāng)然現(xiàn)在的CPU也發(fā)展出了多核心和多線程,英特爾最新發(fā)布的至強(qiáng)處理器就有64核心128線程,但比起英偉達(dá)H100的18432個(gè)CUDA核心,仍然是小巫見大巫。

隨著人工智能應(yīng)用的不斷深入,為AI大模型提供訓(xùn)練和推理運(yùn)算已成為當(dāng)前及未來一段時(shí)間高性能計(jì)算發(fā)展的主流。由于英偉達(dá)早在十多年前就開啟人工智能計(jì)算布局,GPU已成為各大AI應(yīng)用的首選。而CPU受限于架構(gòu)問題,在這場人工智能競爭中已經(jīng)成為協(xié)助角色,但盡管GPU風(fēng)光無限,卻仍然存在強(qiáng)大的競爭者,而它就是ASIC!


ASIC——GPU面臨最強(qiáng)競爭

去年12月,谷歌官宣了多模態(tài)大模型Gemini,包含了三個(gè)版本,其中Gemini Ultra版本甚至在大部分測試中完全擊敗了OpenAI的GPT-4。同時(shí)還丟出另一個(gè)重磅炸彈——TPU v5p,號稱是現(xiàn)在最強(qiáng)大的AI自研芯片。

TPU,全稱Tensor Processing Unit,即張量處理單元。所謂“張量(tensor)”,是一個(gè)包含多個(gè)數(shù)字(多維數(shù)組)的數(shù)學(xué)實(shí)體。目前,幾乎所有的機(jī)器學(xué)習(xí)系統(tǒng),都使用張量作為基本數(shù)據(jù)結(jié)構(gòu)。所以,張量處理單元,我們可以簡單理解為“AI處理單元”。

谷歌TPU就是基于ASIC專用芯片開發(fā),為了某種特定的需求而專門定制的芯片。ASIC芯片的計(jì)算能力和計(jì)算效率都可以根據(jù)算法需要進(jìn)行定制,所以ASIC與通用芯片相比,具有以下幾個(gè)方面的優(yōu)越性:體積小、功耗低、計(jì)算性能高、計(jì)算效率高、芯片出貨量越大成本越低。但ASIC芯片的算法是固定的,一旦算法變化就可能無法使用。

隨著人工智能算法不斷涌現(xiàn),ASIC專用芯片如何做到適應(yīng)各種算法是最個(gè)大問題,如果像GPU那樣,通過架構(gòu)來適應(yīng)各種算法,那ASIC專用芯片就變成了同CPU、GPU一樣的通用芯片,在性能和功耗上就沒有優(yōu)勢了。這意味著玩AISC芯片需要強(qiáng)大實(shí)力,包括雄厚的資金,強(qiáng)大的技術(shù)實(shí)力和豐富的應(yīng)用場景。

這里請注意,谷歌去年發(fā)布TPU v5p的時(shí)候,一同發(fā)布了多模態(tài)大模型Gemini,該模型在圖像、音頻、視頻和文本領(lǐng)域擁有強(qiáng)大的功能。與英偉達(dá)開放GPU購買策略不同,谷歌高端TPU主要供自家產(chǎn)品和服務(wù)運(yùn)用,這才是關(guān)鍵。換句話說,谷歌高端TPU是基于自家多模態(tài)大模型Gemini開發(fā)的專用AI芯片,在自家的產(chǎn)品和服務(wù)上做到最優(yōu),性能表現(xiàn)絲毫不輸GPU。



公開的信息顯示,TPU v5p每個(gè)模塊有8960顆芯片,較之上代v4的4096有所提升,且每塊架構(gòu)內(nèi)的總浮點(diǎn)運(yùn)算次數(shù)(FLOPs)增加至原來的四倍,吞吐能力達(dá)到驚人的4800Gbps。新型架構(gòu)在內(nèi)存及帶寬方面更為出色,高達(dá)95GB的高帶寬內(nèi)存(HBM)遠(yuǎn)超TPU v4的32GB。

根據(jù)官方數(shù)據(jù)顯示,谷歌的TPU v5p在訓(xùn)練大規(guī)模語言模型上性能表現(xiàn),達(dá)到了A100 GPU四倍,比起英偉達(dá)的頂配H100顯卡性能也絲毫不落下風(fēng)。當(dāng)然這只是谷歌基于自身的Gemini模型做的測試,肯定在研發(fā)階段就做了優(yōu)化和匹配。但足見TPU v5p性能之強(qiáng),同時(shí)也可以說明,ASIC芯片在AI大模型應(yīng)用方面有著絲毫不輸GPU的優(yōu)勢。

截至目前,谷歌、英特爾、英偉達(dá)都相繼發(fā)布TPU、DPU等ASIC芯片,國內(nèi)ICG、寒武紀(jì)、比特大陸、地平線、阿里巴巴等也都推出了深度神經(jīng)網(wǎng)絡(luò)加速的ASIC芯片。目前GPU應(yīng)用范圍廣,市場非常成熟,但并不意味著其他的芯片就沒有機(jī)會(huì),ASIC的發(fā)展勢頭依然很猛,正在成為GPU最強(qiáng)大的挑戰(zhàn)者。


FPGA——CPU智算的最佳伴侶

FPGA全稱是可編程邏輯門陣列,內(nèi)部結(jié)構(gòu)由大量的數(shù)字(或模擬)電路組成,可以實(shí)現(xiàn)各種功能。FPGA是ASIC的一種,只是ASIC是全定制電路芯片,F(xiàn)PGA是半定制電路芯片,它解決了定制電路的不足,又克服了原有可編程器件門電路數(shù)有限的缺點(diǎn)。

數(shù)據(jù)計(jì)算包括兩種方式:一種是利用CPU或GPU基于指令的架構(gòu)編寫計(jì)算所需的軟件,另一種是針對特定計(jì)算需求設(shè)計(jì)制造出一套專用的電路,比如ASIC、FPGA。但不同的是,對FPGA進(jìn)行編程要使用硬件描述語言,硬件描述語言描述的邏輯可以直接被編譯為晶體管電路的組合。所以FPGA實(shí)際上直接用晶體管電路實(shí)現(xiàn)用戶的算法,沒有通過指令系統(tǒng)的翻譯。

相比于CPU 和GPU數(shù)據(jù)處理需先讀取指令和完成指令譯碼,F(xiàn)PGA不采用指令和軟件,是軟硬件合一的器件。因而計(jì)算效率更高、功耗更低,且更接近IO。

舉個(gè)例子,假如拿一塊主頻 3GHz的CPU和一塊主頻 200MHz的FPGA做運(yùn)算,若做某個(gè)特定運(yùn)算,CPU需要30個(gè)時(shí)鐘周期,F(xiàn)PGA只需一個(gè),則耗時(shí)情況:CPU:30/3GHz =10ns;FPGA:1/200MHz =5ns。就是說,F(xiàn)PGA 做這個(gè)特定運(yùn)算速度比CPU塊,能幫助加速。

除了計(jì)算效率更高,有機(jī)構(gòu)對FPGA與CPU在執(zhí)行深度學(xué)習(xí)算法時(shí)的耗能進(jìn)行了對比。在執(zhí)行一次深度學(xué)習(xí)運(yùn)算,使用 CPU耗能 36 焦,而使用 FPGA只耗能10焦,取得了3.5 倍左右的節(jié)能比。通過用FPGA 加速與節(jié)能,讓深度學(xué)習(xí)實(shí)時(shí)計(jì)算更容易在移動(dòng)端運(yùn)行。

這就是為什么AMD和英特爾不惜重金收購FPGA廠商的原因所在。在智能計(jì)算路線布局上,AMD實(shí)際上比英特爾更完善。傳統(tǒng)CPU時(shí)代,AMD得到了英特爾X86架構(gòu)授權(quán),成為與英特爾并行而立CPU大商,而后通過收購顯卡廠商ATI入主GPU賽道,成為英偉達(dá)的最大競爭者,到2022年通過收購FPGA領(lǐng)域老大賽靈思,AMD最終完成“CPU+GPU+FPGA”的智能算力戰(zhàn)略布局。



而英特爾由于未能在GPU時(shí)競開發(fā)出能與英偉達(dá)同臺(tái)競爭的超算產(chǎn)品,只能選擇在2015年收購FPGA領(lǐng)域的老二Altera,最終形成“CPU+FPGA”的智能計(jì)算組合,雖非優(yōu)選,但的確開拓了一條新智算發(fā)展新路線。

相比CPU和GPU,F(xiàn)PGA 憑借比特級細(xì)粒度定制的結(jié)構(gòu)、流水線并行計(jì)算的能力和高效的能耗,在深度學(xué)習(xí)應(yīng)用中展現(xiàn)出獨(dú)特的優(yōu)勢,在大規(guī)模服務(wù)器部署或資源受限的嵌入式應(yīng)用方面有巨大潛力。

此外,F(xiàn)PGA 架構(gòu)靈活,使得研究者能夠在諸如GPU的固定架構(gòu)之外進(jìn)行模型優(yōu)化探究。特別是在采用FPGA后,即便芯片產(chǎn)品已經(jīng)制造出來,但依然可以對其重新編程或進(jìn)行功能升級。


中國高算力芯片發(fā)展仍落后于算力產(chǎn)業(yè)發(fā)展

根據(jù)2022年《中國算力白皮書》,2022年中國整體算力達(dá)到150 EOPS,占全球總算力的31%,在全世界僅落后于美國(36%),中國算力產(chǎn)業(yè)發(fā)展對高算力芯片需求強(qiáng)勁。一方面,高算力芯片作為底層算力池,賦能萬千行業(yè)和新興產(chǎn)業(yè),市場發(fā)展造成了對高算力芯片的強(qiáng)勁需求;另一方面,國家布局和政策引導(dǎo)也推動(dòng)了高算力芯片的需求。除了“東數(shù)西算”工程外,“十四五”規(guī)劃和2035年遠(yuǎn)景目標(biāo)綱要明確提出要“建設(shè)若干國家樞紐節(jié)點(diǎn)和大數(shù)據(jù)中心集群,建設(shè)E級和10E級超算計(jì)算中心”,國家發(fā)展和改革委員會(huì)也出臺(tái)了一系列政策文件,全國多個(gè)地區(qū)進(jìn)行數(shù)據(jù)中心建設(shè)和布局。市場發(fā)展和政策實(shí)施都對大力發(fā)展高算力芯片技術(shù)提出需求。

然而,中國高算力芯片的發(fā)展從知識(shí)產(chǎn)權(quán)、市場占有率與自主制造角度依然面臨嚴(yán)峻挑戰(zhàn)。浪潮、華為、新華三、聯(lián)想等國產(chǎn)服務(wù)器品牌位居中國服務(wù)器市場前5名,整體份額達(dá)到74%,然而底層的通用高算力芯片卻嚴(yán)重依賴進(jìn)口。在以中央處理器(CPU)為核心的通用數(shù)據(jù)中心產(chǎn)業(yè),仍以美國英特爾和AMD主導(dǎo)的x86架構(gòu)CPU主導(dǎo),市場占比超過96%。華為鯤鵬系列服務(wù)器芯片是中國自主研發(fā)的基于ARM指令集的高性能芯片,但是高度依賴先進(jìn)制造工藝。在智能芯片領(lǐng)域,GPU仍是智能數(shù)據(jù)中心的主流算力芯片,2020年中國智能數(shù)據(jù)中心約95%的市場份額由美國英偉達(dá)的芯片占據(jù)。近年來,中國涌現(xiàn)了壁仞、天數(shù)智芯、沐曦、摩爾線程等國產(chǎn)GPU產(chǎn)品以及華為昇騰、寒武紀(jì)思元、百度昆侖芯、燧原等自主人工智能(Artificial Intelligence, AI)芯片產(chǎn)品,但都過度依靠國內(nèi)尚無法自主可控的先進(jìn)制造工藝。

因此,亟須探索符合國情的高算力芯片的創(chuàng)新發(fā)展途徑,保障中國產(chǎn)業(yè)戰(zhàn)略布局實(shí)施,助推數(shù)字經(jīng)濟(jì)發(fā)展。