日日躁夜夜躁狠狠躁超碰97,无码国内精品久久综合88 ,热re99久久精品国99热,国产萌白酱喷水视频在线播放

歡迎訪(fǎng)問(wèn)深圳市中小企業(yè)公共服務(wù)平臺(tái)電子信息窗口

都說(shuō)算力才是大模型的基礎(chǔ),那什么樣的算力芯片才是“順應(yīng)”潮流?

2023-08-01 來(lái)源:賢集網(wǎng)
1565

關(guān)鍵詞: 半導(dǎo)體 芯片 人工智能

自去年年底大模型“熱潮”席卷而來(lái),半導(dǎo)體業(yè)內(nèi)對(duì)于大模型需要什么樣的硬件的問(wèn)題眾說(shuō)紛紜。當(dāng)前國(guó)內(nèi)外大模型的數(shù)量已發(fā)展到以百千計(jì),大模型參數(shù)量也發(fā)展到千億級(jí)。在這種趨勢(shì)下,算力芯片究竟該如何適應(yīng)大模型不斷增長(zhǎng)的算力需求?


從集群的角度看問(wèn)題:提高帶寬與存儲(chǔ)

“大模型時(shí)代,從單卡效率看問(wèn)題的視角已經(jīng)落伍了,對(duì)硬件設(shè)備的審視要更多地從集群的角度去看?!?燧原科技產(chǎn)品市場(chǎng)總經(jīng)理高平在接受《中國(guó)電子報(bào)》采訪(fǎng)時(shí)說(shuō)道。

在當(dāng)前計(jì)算機(jī)采用的馮·諾依曼的體系架構(gòu)下,計(jì)算和存儲(chǔ)是分離的。一項(xiàng)任務(wù)的完成,既需要高算力,又需要大存儲(chǔ)量和高效互聯(lián)作為支持。長(zhǎng)期以來(lái),廠(chǎng)商對(duì)于處理器效率提升的關(guān)注點(diǎn)都放在算力上。而大模型訓(xùn)練,動(dòng)輒需要上千張甚至上萬(wàn)張算力芯片組成的集群。這使得原本沒(méi)有特別受到重視的存儲(chǔ)量和帶寬一下子成為制約集群效率的瓶頸,也成為各廠(chǎng)商最為關(guān)注的技術(shù)指標(biāo)。

沐曦集成電路(上海)有限公司聯(lián)合創(chuàng)始人、CMO孫爾俊在接受《中國(guó)電子報(bào)》記者采訪(fǎng)時(shí)表示,大模型需要緩存上千億的參數(shù)量,單個(gè)芯片的存儲(chǔ)量越大,整個(gè)集群所需要的芯片數(shù)量就越少,片間花費(fèi)的傳輸時(shí)間就相應(yīng)地會(huì)更低,從而更有利于提高整個(gè)集群的計(jì)算效率。這意味著,如果單卡存儲(chǔ)容量不夠,原本用1000張卡就能完成加速的工作,需要擴(kuò)展到更多的芯片上完成,卡間互聯(lián)所需要的時(shí)間會(huì)被拉長(zhǎng),整個(gè)系統(tǒng)的效率也由此降低。



片間帶寬是另一個(gè)備受關(guān)注的指標(biāo)。芯片存儲(chǔ)量和片間互聯(lián)帶寬,就像是支撐大模型硬件基礎(chǔ)的一體兩面。如果把大模型訓(xùn)練比作貨物運(yùn)輸?shù)倪^(guò)程,存儲(chǔ)量就像是每輛卡車(chē)的裝載量,而帶寬就像是高速公路的并行車(chē)道數(shù)。二者共同決定了整個(gè)訓(xùn)練任務(wù)多久才能完成。

由此,如何提高算力芯片的單片存儲(chǔ)和片間帶寬,成為算力芯片廠(chǎng)商需要考慮的問(wèn)題。

在提高芯片存儲(chǔ)量方面,業(yè)界采取的依然是提升晶體管密度和加大存儲(chǔ)面積兩種思路。一方面采用更先進(jìn)的工藝,另一方面采用3D封裝,將存儲(chǔ)貼在芯片上。

相比之下,帶寬提升更困難一些。高平表示:“帶寬提升在很長(zhǎng)時(shí)間內(nèi)都是芯片設(shè)計(jì)領(lǐng)域的難點(diǎn)。相比于算力成倍數(shù)的提升,帶寬的提升一直不大。工藝功耗等因素限制了數(shù)據(jù)傳輸?shù)臅r(shí)鐘頻率,成本與芯片面積限制了傳輸?shù)耐ǖ罃?shù)量?!币虼耍瑯I(yè)界出現(xiàn)了許多另辟蹊徑的討論,例如通過(guò)使存儲(chǔ)與計(jì)算模塊靠得更近以縮短傳輸距離,或者采取改變計(jì)算與存儲(chǔ)排列方式的存算一體的架構(gòu)等。

天數(shù)智芯副總裁鄒翾分享了天數(shù)的經(jīng)驗(yàn)——通過(guò)優(yōu)化算法、片間通訊協(xié)議和通訊物理層來(lái)系統(tǒng)化的緩解帶寬瓶頸:“流行的大模型算法在硬件工程化中還有很多的調(diào)優(yōu)空間,框架層有多種拓?fù)浣Y(jié)構(gòu)可以平衡單點(diǎn)計(jì)算與傳輸速度,有效降低帶寬需求;互聯(lián)技術(shù)方面,我們?cè)趨f(xié)議層也采用了私有的協(xié)議,可以提高有效數(shù)據(jù)傳輸?shù)男?;在物理層未?lái)可供選擇的非電技術(shù)也有進(jìn)一步提升帶寬的空間?!彼€提到,未來(lái)應(yīng)用的性能需要在系統(tǒng)架構(gòu)上優(yōu)化。一來(lái)大模型的工作負(fù)載可以結(jié)合節(jié)點(diǎn)配置的情況和傳輸能力進(jìn)行調(diào)整,二來(lái)傳輸方式可以不僅限于電互聯(lián),還可以利用光互聯(lián)等其他技術(shù)。軟硬件系統(tǒng)級(jí)聯(lián)合調(diào)優(yōu)還有很大的空間,可以進(jìn)一步壓縮對(duì)于芯片硬件帶寬的需求。


提升“軟”實(shí)力:優(yōu)化工具與云服務(wù)

“對(duì)于很多客戶(hù)來(lái)說(shuō),硬件就是個(gè)黑盒子,他們并不關(guān)心芯片內(nèi)部的架構(gòu)是什么樣的。他們直接接觸的,是產(chǎn)品的軟件?!币晃凰懔π酒I(lǐng)域資深專(zhuān)家告訴《中國(guó)電子報(bào)》記者,“與全球算力芯片領(lǐng)軍企業(yè)相比,算力芯片的后起之秀們?cè)谟布蠈?shí)現(xiàn)趕超相對(duì)容易,軟件反而是短板?!?/span>

“好用”,是大模型對(duì)算力芯片軟件棧最基礎(chǔ)的要求。

這個(gè)要求在大模型出現(xiàn)之前便已經(jīng)存在。大模型的“遍地開(kāi)花”對(duì)于軟件的要求并沒(méi)有根本性的變化,仍需要相適配的軟件持續(xù)調(diào)優(yōu)。

軟件的優(yōu)化,最需要客戶(hù)與算力芯片企業(yè)的協(xié)同。作為算力芯片軟件配套方面的“老大哥”,英偉達(dá)CUDA的制勝秘訣,就是擁有相當(dāng)數(shù)量的客戶(hù)群體,并充分了解客戶(hù)需求。通過(guò)與客戶(hù)溝通,持續(xù)進(jìn)行軟件調(diào)優(yōu),使產(chǎn)品更好用、更易用。

而對(duì)于國(guó)內(nèi)算力芯片企業(yè)而言,不少企業(yè)接到的單個(gè)訂單量比較大,足夠維持企業(yè)的正常運(yùn)轉(zhuǎn),但客戶(hù)數(shù)量較少,這對(duì)于發(fā)展企業(yè)自己的軟件棧并不是一件好事。“從軟件的角度來(lái)說(shuō),一個(gè)客戶(hù)無(wú)論買(mǎi)100張卡還是買(mǎi)10張卡,能夠給我們帶來(lái)的反饋是一樣的。我們希望有更多的企業(yè)給我們具體的反饋,這樣軟件迭代優(yōu)化的速度也會(huì)更快。” 某算力芯片企業(yè)表示。

能不能做得像英偉達(dá)CUDA一樣?這是算力芯片企業(yè)最常被問(wèn)到的問(wèn)題。

對(duì)于獨(dú)立開(kāi)發(fā)軟件的企業(yè)而言,由于客戶(hù)已經(jīng)形成了使用CUDA的習(xí)慣,為了幫助客戶(hù)盡快適應(yīng)從CUDA軟件向新環(huán)境的遷移,在自研軟件的界面設(shè)計(jì)上,會(huì)主動(dòng)選擇貼合客戶(hù)使用習(xí)慣的設(shè)計(jì),從而幫助客戶(hù)更輕松地完成遷移。

“加大在軟件上的投入,已經(jīng)是一個(gè)共識(shí)。幾乎所有AI芯片公司軟件團(tuán)隊(duì)一定比硬件團(tuán)隊(duì)人更多、投入更大。芯片公司越來(lái)越像軟件公司,將研發(fā)的重點(diǎn)放在軟件棧上面。”業(yè)界專(zhuān)家表示。

此外,提供云服務(wù)也是算力芯片企業(yè)提升影響力、拓展客戶(hù)面的重要實(shí)現(xiàn)方式。成本低是云服務(wù)的核心優(yōu)勢(shì)。對(duì)于一些初創(chuàng)企業(yè)或者是規(guī)模較小的團(tuán)隊(duì)而言,購(gòu)買(mǎi)算力芯片需要的成本較高,而通過(guò)云租賃的方式獲得算力資源,可以以較低的成本緩解算力不足的問(wèn)題。當(dāng)前,谷歌、英偉達(dá)、阿里云、金山云等都已經(jīng)具備為大模型提供云端算力的能力。



大算力芯片的核心能力:通用、通用,還是通用


1、系統(tǒng)越來(lái)越大,對(duì)通用靈活性的要求遠(yuǎn)高于對(duì)性能的要求


在云和邊緣數(shù)據(jù)中心,都是清一色的服務(wù)器。這些服務(wù)器,可以服務(wù)各行各業(yè)、各種不同類(lèi)型的場(chǎng)景的服務(wù)端工作任務(wù)的處理。CSP每年投入數(shù)以?xún)|計(jì)資金,上架數(shù)以萬(wàn)計(jì)的各種型號(hào)、各種配置的服務(wù)器的時(shí)候,嚴(yán)格來(lái)說(shuō),它并不知道,具體的某臺(tái)服務(wù)器最終會(huì)售賣(mài)給哪個(gè)用戶(hù),這個(gè)用戶(hù)到底會(huì)在服務(wù)器上面跑什么應(yīng)用。并且,未來(lái),這個(gè)用戶(hù)的服務(wù)器資源回收之后再賣(mài)個(gè)下一個(gè)用戶(hù),下一個(gè)用戶(hù)又用來(lái)干什么,也是不知道的。因此,對(duì)CSP來(lái)說(shuō),最理想的狀態(tài)是,存在一種服務(wù)器,足夠通用,即不管是哪種用戶(hù)哪種應(yīng)用運(yùn)行其上,都足夠高效快捷并且低成本。只有這樣,系統(tǒng)才夠簡(jiǎn)單而穩(wěn)定,運(yùn)維才能簡(jiǎn)單并且高效。然后要做的,就是把這種服務(wù)器大規(guī)模復(fù)制(大規(guī)模復(fù)制意味著單服務(wù)器成本的更快速下降)。

云和邊緣服務(wù)器場(chǎng)景,對(duì)系統(tǒng)的靈活性的要求遠(yuǎn)高于對(duì)性能的要求,需要提供的是綜合性的通用解決方案。最直接的例子就是以CPU為核心的服務(wù)器:CPU通用靈活性是最好的,如果CPU的性能夠用,大家絕對(duì)不喜歡用各種加速;如今是CPU性能不夠,逼迫著大家不得不去使用各種硬件加速。

數(shù)據(jù)中心硬件加速最大的教訓(xùn)是:在提升性能的同時(shí),最好不要損失系統(tǒng)的靈活性。其言下之意就是:目前各類(lèi)加速芯片的優(yōu)化方案損失了靈活性,從而使得芯片的落地很困難。這是目前全行業(yè)的痛點(diǎn)所在。


2、集群計(jì)算,對(duì)芯片的彈性可擴(kuò)展能力提出了更高的要求

傳統(tǒng)的情況下,一個(gè)芯片對(duì)應(yīng)一個(gè)系統(tǒng)。我們關(guān)注業(yè)務(wù)常見(jiàn)的需求,并把它實(shí)現(xiàn)在芯片的功能和特征里。但在集群計(jì)算,特別是目前云網(wǎng)邊端不斷融合的超大集群計(jì)算形式下,則需要關(guān)注的是“以不變應(yīng)萬(wàn)變”,即足夠通用的、數(shù)以萬(wàn)計(jì)的計(jì)算設(shè)備組成的大規(guī)模計(jì)算集群,如何去覆蓋數(shù)以百萬(wàn)計(jì)的眾多計(jì)算場(chǎng)景的問(wèn)題。

這樣,對(duì)芯片內(nèi)的資源彈性和芯片的可擴(kuò)展性就提出了很高的要求,我們需要把數(shù)以萬(wàn)計(jì)的計(jì)算芯片的計(jì)算資源合并到一個(gè)計(jì)算資源池,然后還可以非常方便的快速切分和重組,供不同規(guī)格計(jì)算任務(wù)的使用。

3、芯片研發(fā)成本越來(lái)越高,需要芯片的大規(guī)模落地,來(lái)攤薄研發(fā)成本

摩爾定律預(yù)示了:芯片工藝的發(fā)展,會(huì)使得晶體管數(shù)量大約每?jī)赡晏嵘槐?。雖然工藝的進(jìn)步逐步進(jìn)入瓶頸,但Chiplet越來(lái)越成為行業(yè)發(fā)展的重點(diǎn),這使得芯片的晶體管數(shù)量可以再一次數(shù)量級(jí)的提升。



在先進(jìn)工藝的設(shè)計(jì)成本方面,知名半導(dǎo)體研究機(jī)構(gòu)Semiengingeering統(tǒng)計(jì)了不同工藝下芯片所需費(fèi)用(費(fèi)用包括了):

28nm節(jié)點(diǎn)開(kāi)發(fā)芯片只需要5130萬(wàn)美元;

16nm節(jié)點(diǎn)則需要1億美元;

7nm節(jié)點(diǎn)需要2.97億美元;

到了5nm節(jié)點(diǎn),費(fèi)用高達(dá)5.42億美元;

3nm節(jié)點(diǎn)的研發(fā)費(fèi)用,預(yù)計(jì)將接近10億美元。

就意味著,大芯片需要足夠通用,足夠大范圍落地,才能在商業(yè)邏輯上成立。做一個(gè)保守的估算:

終端場(chǎng)景,(大)芯片的銷(xiāo)售量至少需要達(dá)到數(shù)千萬(wàn)級(jí)才能有效攤薄一次性的研發(fā)成本;

在數(shù)據(jù)中心場(chǎng)景,則需要50萬(wàn)甚至100萬(wàn)以上的銷(xiāo)售量,才能有效攤薄研發(fā)成本。


最后

全新的AI時(shí)代正呼嘯而來(lái),海量數(shù)據(jù)洪流和大模型應(yīng)用需求爆發(fā)將繼續(xù)拉動(dòng)算力規(guī)模成倍增長(zhǎng)。

盡管目前主流的算力方案仍是英偉達(dá)一騎絕塵,但從長(zhǎng)遠(yuǎn)計(jì),我國(guó)通用GPU企業(yè)大有可為。對(duì)算力需求的激增提供了一個(gè)巨大市場(chǎng),此時(shí)國(guó)外計(jì)算芯片供應(yīng)緊張和出口限制,又將為國(guó)內(nèi)芯片公司提供更多的機(jī)會(huì)。

這對(duì)于國(guó)產(chǎn)芯努力構(gòu)建自主創(chuàng)新架構(gòu)、滿(mǎn)足市場(chǎng)對(duì)性?xún)r(jià)比和能效比的多元需求,無(wú)疑是一個(gè)極佳的時(shí)間窗口。誰(shuí)能率先拿出完善的國(guó)產(chǎn)化替代方案,誰(shuí)便能從龐大的AI算力市場(chǎng)分一杯羹。