國產(chǎn)最強AI加速卡發(fā)布,大模型系統(tǒng)運行不在話下
大模型端側部署正加速!AI PC等新物種熱度暴增,企業(yè)對于AI加速卡的關注度也水漲船高。
但是AI PC等端側設備中的AI加速卡如何做到可用、好用是一大難題,其需要兼顧體積小、性能強、功耗低才能使得端側設備承載大模型能力成為現(xiàn)實。
近日,清華系AI芯片創(chuàng)企芯動力科技面向大模型推出了一款新產(chǎn)品——AzureBlade L系列M.2加速卡。M.2加速卡是目前國內(nèi)最強的高性能體積小的加速卡,其強大的性能使其能夠順利運行大模型系統(tǒng)。
M.2加速卡的大小僅為80mm(長)x22mm(寬),并已經(jīng)實現(xiàn)與Llama 2、Stable Diffusion模型的適配。具備體積小、性能強,且有通用接口的M.2加速卡成為助推大模型在PC等端側設備上部署的加速器。
體積小、性能強、功耗低,端側跑大模型三大關鍵
AI PC已經(jīng)成為大模型落地端側設備的一個重要載體。
從去年年底至今,AI PC的熱潮正在涌起。前有英特爾啟動AI PC加速計劃、高通推出專為AI研發(fā)的PC芯片驍龍X Rlite、上周英偉達發(fā)布全新一代RTX 500和1000顯卡,支持筆記本電腦等端側設備上運行生成式AI應用……
根據(jù)市研機構IDC發(fā)布的最新報告,預估AI PC出貨量2024年逼近5000萬臺,到2027年將增長到1.67億臺,占全球PC總出貨量的60%左右。
AI PC這一新物種正在加速大模型的規(guī)?;涞?。與此同時,擁有龐大參數(shù)規(guī)模的大模型也對端側設備可承載的算力提出了更高的需求。
在端側往往只有一個獨立設備。以PC為例,作為人們?nèi)粘I?、工作的常用設備,其體積并不大且足夠輕便,因此需要AI加速卡足夠小且不會因體積犧牲性能上的優(yōu)勢。以M.2加速卡的形式進入AI PC的市場就是很有優(yōu)勢的產(chǎn)品形態(tài)。
可以看到,當下大模型的發(fā)展路線不再唯參數(shù)論,越來越多參數(shù)規(guī)模小性能強大的模型出現(xiàn),如開源的Llama 2模型系列參數(shù)在70億到700億不等,為大模型在端側的落地提供了機會。
即便如此,大模型想要成功部署在端側對于芯片玩家而言仍然具有挑戰(zhàn),需要其突破端側設備有限的計算和存儲能力,因此芯片玩家亟需找到芯片體積小與性能強大的平衡點。
李原談道,端側設備還有一大特點是,GPU是其最主要的元件。這背后的風險在于,企業(yè)全部圍繞GPU來做設備,就會造成一旦產(chǎn)品的開發(fā)周期變長,其未來的開發(fā)路線會受到一定限制。由于邊緣設備上接口的可選擇性不多,很多設備需要針對不同的芯片進行接口定制,企業(yè)就需要承擔接口受限的風險。
這些新的變化及需求為這家GPGPU創(chuàng)企帶來了新的機遇。
GPGPU:提高模型訓練效率的AI產(chǎn)業(yè)發(fā)展利器
算力的迅猛發(fā)展,離不開芯片、數(shù)據(jù)中心和云計算等產(chǎn)業(yè)鏈的完善,特別是GPU,作為三大算力芯片之一,已經(jīng)是國家、產(chǎn)業(yè)高度重視的戰(zhàn)略高地。其中,GPGPU架構憑借極強的通用計算能力,正在成為AI算力時代的最優(yōu)解。
GPU的技術路線有多種,比如GPGPU、FPGA、ASIC等等,其中GPGPU 是人工智能領域最主要的協(xié)處理器解決方案,占據(jù)人工智能90%以上的市場份額。
GPGPU比其他路線具有更好的通用性,因此應用領域非常廣泛,在科學計算、數(shù)據(jù)分析、機器學習、深度學習、密碼學、圖像處理等各種領域均起到重要作用。
通過利用GPU的并行處理能力,GPGPU可以加速這些領域中的計算任務,提高計算效率,縮短計算時間;尤其是在云端運行模型訓練算法時,使用GPGPU可以縮短海量訓練數(shù)據(jù)的訓練時長,減少能源消耗,從而進一步降低人工智能的應用成本,這對人工智能領域的發(fā)展是非常關鍵的。
當下,GPGPU芯片在火熱的AI市場中已經(jīng)供不應求。未來幾年內(nèi),中國人工智能芯片市場規(guī)模將保持年均40%至50%的增長速度,GPGPU通用性好和軟件生態(tài)系統(tǒng)完善的優(yōu)勢會進一步展現(xiàn)出來,擁有更加廣闊的市場前景。
技術著眼深度,走出自己的道路
我國芯片產(chǎn)業(yè)較其他國家起步較晚,在李原看來,國產(chǎn)替代的時代已經(jīng)過去了。
“國外企業(yè)已經(jīng)形成了技術壁壘,我們不應該去做一個純國產(chǎn)替代的產(chǎn)品,尤其在芯片這個競爭激烈的行業(yè),很多龍頭企業(yè)沉淀多年,靠追趕是很難的。”李原表示,“我們要在某一個方向上進行突破,走出一條自己的路子?!?/span>
就芯動力而言,目前雖然廣度不足以媲美行業(yè)龍頭,但在深度方面的積累,已經(jīng)超過當前技術領先的公司。李原舉例,芯動力產(chǎn)品從效率方面來說,比當前任何一款類似的芯片效率都要高,“我們的14納米的芯片甚至比某國際知名品牌的7納米A100的芯片效率更高,這讓我們在某些產(chǎn)品上具有了絕對競爭優(yōu)勢”。
“作為一家技術型初創(chuàng)公司,技術和創(chuàng)新是為商業(yè)服務的?!崩钤J為,“客戶的需求我們要仔細分析,找出真正的痛點并加以解決。”當前,芯動力的產(chǎn)品已經(jīng)在邊緣計算領域、銀行、通訊領域、醫(yī)療超聲波方向、AI方向的高性能計算等領域實現(xiàn)應用。
當前,芯動力研發(fā)團隊核心成員有平均年限超15年的資深半導體從業(yè)背景,且均來自英特爾、高通、德州儀器等知名半導體企業(yè),研發(fā)人員占比超過80%,每年的研發(fā)投入超過90%。
基于深厚的技術積累和完善的人才儲備,芯動力核心成員研究并提出了在并行計算的領域里的可重構并行處理器架構(Reconfigurable Parallel Processor)。該架構不去涉及通用計算領域,而是專注于并行計算領域??梢杂没贑UDA的高級語言進行原代碼編程,利用自有的指令集作為底層匯編,使得在高性能計算領域內(nèi)最廣泛使用的語言進行支持。
具體來看,RPP創(chuàng)新架構主要具備三大優(yōu)勢:一是更強的處理能力。RPP設計的計算中心用芯片可以達到目前最先進處理器10倍的處理能力。英偉達最新推出的GPGPU,GP100是目前芯片面積最大,計算能力最強的芯片。它已達到了600平方毫米芯片面積,300W功率。RPP的設計目標是10倍于GP100的計算能力,降低服務器的成本且提高服務器性能。
二是更短的處理遲延。RPP的計算方法和GPGPU的計算架構非常不同,這樣的架構使得計算的處理時延低,并使得計算平臺能夠應用在實時的處理計算之中。這在要求低遲延的系統(tǒng),比如通訊系統(tǒng)中可以得到良好的應用。
三是低功耗。在許多系統(tǒng)之中,低功耗成為了主要的性能指標,比如說手機,平板電腦等,電池的壽命往往非常有限,低功耗而高性能的計算,成為了必需。而在計算中心之中,服務器的功耗是散熱的主要部分。1/10的功耗,將意味著1/10的電費。這意味著大大降低運營成本。
總的來說,這款芯片可以幫助客戶加快Time to Market的步伐,降低他們的開發(fā)周期和產(chǎn)品成本,實現(xiàn)低成本及快速的遷移。
據(jù)悉,目前以RPP技術研發(fā)的第一代RPP-R8芯片已經(jīng)成功流片,基于全新自研架構,RPP-R8是一款為并行計算設計的高端通用異構芯片。
