不僅英偉達(dá)，不少初創(chuàng)企業(yè)也押寶這類芯片，定制化有什么魅力

2024-05-20 來源：賢集網(wǎng)

2122

一個(gè)季度賺了123億美元的英偉達(dá)，現(xiàn)在成了許多半導(dǎo)體企業(yè)艷羨的對象，大家頭一回發(fā)現(xiàn)，原來GPU利潤這么高，甚至能撐起2萬億美元的市值，但英偉達(dá)真的會(huì)滿足于此嗎？

英偉達(dá)CEO黃仁勛曾在2008年發(fā)表過感言，認(rèn)為公司應(yīng)該把研究客戶的需求，把解決客戶的問題放在第一位，而不是去關(guān)注對手，如果把精力放在如何從對手那里把客戶搶過來，就會(huì)錯(cuò)失開拓新客戶的機(jī)會(huì)。

16年之后，英偉達(dá)的CEO還是黃仁勛，雖然股價(jià)市值規(guī)模早已翻了十?dāng)?shù)倍乃至上百倍，但在他的掌舵下，英偉達(dá)依舊走在不斷尋找新客戶的道路上。

據(jù)路透社報(bào)道，英偉達(dá)正在建立一個(gè)新的業(yè)務(wù)部門，專注于為云計(jì)算公司和其他公司設(shè)計(jì)定制芯片，其中包括先進(jìn)的人工智能處理器。

據(jù)其爆料，英偉達(dá)高管已經(jīng)與亞馬遜、Meta、微軟、谷歌和OpenAI的代表會(huì)面，討論為他們生產(chǎn)定制芯片的事宜，除了數(shù)據(jù)中心芯片外，英偉達(dá)還在尋求電信、汽車和視頻游戲的客戶。

路透社的這份報(bào)道，意味著英偉達(dá)要以強(qiáng)勢姿態(tài)切入數(shù)據(jù)中心定制芯片市場，要在傳統(tǒng)的游戲，新興的人工智能等領(lǐng)域之后開拓一片新的戰(zhàn)場。

為什么英偉達(dá)選擇 ASIC？

英偉達(dá)選擇 ASIC 的原因，其實(shí)從其新部門面向客戶中可以窺見一二。新部門面向的主要是云計(jì)算公司，這和英偉達(dá)目前在主要的北美 CSP（云計(jì)算供應(yīng)商）企業(yè)重疊，包括 Google Cloud、AWS、Microsoft Azure 和 Meta 等企業(yè)。

這些企業(yè)都已經(jīng)開始進(jìn)行自家芯片的開發(fā)，例如 Google 的 TPU 和微軟的 AI 加速器 Maia 及專為 Azure 設(shè)計(jì)的 CPU "Cobalt"。

因此英偉達(dá)進(jìn)軍 ASIC 的原因有二：第一，占領(lǐng)新的市場。第二，保護(hù)自己免受替代。

先來看占領(lǐng)新的市場。數(shù)據(jù)中心定制芯片的蛋糕并不小，據(jù)研究公司 650 Group 估計(jì)，數(shù)據(jù)中心定制芯片市場今年將增長至 100 億美元，到 2025 年將翻一番。

Needham 分析師 Charles Shi 表示，2023 年更廣泛的定制芯片市場價(jià)值約為 300 億美元，約占全球芯片年銷售額的 5%。

數(shù)據(jù)中心的定制芯片的市場中有兩大巨頭：博通和 Marvell。在高端 ASIC 市場，博通以 35％的市占率，穩(wěn)坐龍頭寶座，Marvel 以 12％的市占率居次。博通和 Marvell 其實(shí)都認(rèn)為隨著數(shù)據(jù)中心處理器變的多樣，會(huì)讓定制芯片的模式重新煥發(fā)生機(jī)。

原因在于，AI 時(shí)代中，ASIC 芯片也能撐起一片天。

這就談回了一個(gè)老問題：ASIC、GPU，誰是最合適的 AI 芯片？其實(shí)這兩類芯片有各自的特點(diǎn)，但在滿足算力需求上是相互競爭的。簡單來說，GPU 有先發(fā)優(yōu)勢，技術(shù)發(fā)展時(shí)間長，使用成本較低，但是功耗高。ASIC 面向特定用戶需求設(shè)計(jì)的定制芯片，在吞吐量、功耗、算力水平等方面都有優(yōu)勢。

在 20 世紀(jì) 90 年代時(shí)，很多大型企業(yè)都渴望設(shè)計(jì)和提供針對特定應(yīng)用的定制 ASIC 設(shè)備，同時(shí)提供更好的性能。Sony、Toshiba 和 IBM 最初設(shè)計(jì)的用于 Sony Playstation 3 的 Cell Processor 就是一個(gè)例子。不過，由于 ASIC 的成本高，隨著為特定產(chǎn)品設(shè)計(jì) ASIC 變得越來越難以合理規(guī)模，ASIC 的歲月似乎過去。

ASIC 和 GPU 的分歧就在這：成本。

因?yàn)閺男阅軄砜?，針對特定場景或?yīng)用所設(shè)計(jì)的 ASIC 芯片，會(huì)比英偉達(dá)所賣的通用 GPU 更有優(yōu)勢。以前一直使用 GPU，也帶火了英偉達(dá)等廠商的業(yè)績和股價(jià)，但后來大家發(fā)現(xiàn)，隨著機(jī)器學(xué)習(xí)、邊緣計(jì)算發(fā)展，算法更加成熟和穩(wěn)定，自己完全有足夠的計(jì)算需求去分?jǐn)?ASIC 的成本。

尤其 ChatGPT 爆火以后，英偉達(dá) GPU 產(chǎn)品掉隊(duì)，很多企業(yè)都是靠著服務(wù)器 CPU+ASIC 的形式，來滿足用戶對于 AI 訓(xùn)練和推理的算力需求。

這就展示出 ASIC 在 AI 時(shí)代的作用。Marvell 的計(jì)算與定制集團(tuán)技術(shù)副總裁 Mark Kuemerle 觀察到：" 關(guān)于這些數(shù)據(jù)中心客戶的有趣事實(shí)是，如果他們的系統(tǒng)中出現(xiàn)輕微的瓶頸點(diǎn)，問題會(huì)被放大 1000 倍甚至更多（因?yàn)樗鼈儾渴鹪诔笠?guī)模中）。" 這樣的瓶頸點(diǎn)可能導(dǎo)致 NIC 卡住?，F(xiàn)成的機(jī)器學(xué)習(xí)設(shè)備可能無法匹配工作負(fù)載或滿足靈活性或可編程性的需求。

Kuemerle 說：" 這些超大規(guī)模數(shù)據(jù)中心真的必須將一切精確調(diào)整到他們的工作負(fù)載。那么，他們投資建設(shè)定制芯片絕對是值得的。"

ASIC 早已成為 GPU 面臨的強(qiáng)大競爭者。

雖說各大廠商購買英偉達(dá) GPU，花錢如流水，既然都是流水，為什么不定制更適合自家應(yīng)用場景的芯片呢？要定制就要花錢，英偉達(dá)同樣想把大廠定制芯片的錢，納入自己的錢包。

再來看 " 免受替代 " 是怎么回事。目前，谷歌、亞馬遜、特斯拉和 Meta 都推出了 ASIC 芯片。

谷歌 2015 年發(fā)布首款 ASIC 芯片 TPU v1，去年已經(jīng)迭代到了 v5。根據(jù)官方提供的數(shù)據(jù)，每個(gè) TPU v5p pod 在三維環(huán)形拓?fù)浣Y(jié)構(gòu)中，通過最高帶寬的芯片間互聯(lián)（ICI），以 4,800 Gbps/chip 的速度將 8,960 個(gè)芯片組合在一起，與 TPU v4 相比，TPU v5p 的 FLOPS 和高帶寬內(nèi)存（HBM）分別提高了 2 倍和 3 倍。

谷歌使用 TPU v5p 壘起一道抵御英偉達(dá) GPU 的高墻。

對于谷歌來說，要錢有錢，要技術(shù)有技術(shù)，要應(yīng)用場景有應(yīng)用場景，可以說是各大科技巨頭中在自研 AI 芯片這條路上走得最遠(yuǎn)的，其他廠商目前還在源源不斷地給英偉達(dá)賬戶打錢，但谷歌卻早已做好了兩手準(zhǔn)備。

微軟則也是打響了 " 逃離英偉達(dá) " 的信號槍。最新的消息，微軟正在開發(fā)一款新的網(wǎng)卡，可以提高其 Maia AI 服務(wù)器芯片的性能，并有可能減少該公司對芯片設(shè)計(jì)商 Nvidia 的依賴。

有知情人士表示，微軟首席執(zhí)行官薩蒂亞 · 納德拉 ( Satya Nadella ) 已任命網(wǎng)絡(luò)設(shè)備開發(fā)商瞻博網(wǎng)絡(luò) ( Juniper Networks ) 聯(lián)合創(chuàng)始人普拉迪普 · 辛杜 ( Pradeep Sindhu ) 來領(lǐng)導(dǎo)網(wǎng)卡工作。

看來出于成本和自主率考慮，大廠還是更愿意使用自家的 ASIC。買英偉達(dá)的 GPU 不但價(jià)格高昂，并且受制于人。不過，使用自家芯片多一些，那就用英偉達(dá) GPU 少一些。

為大模型量身打造芯片

想要訓(xùn)練一個(gè)大模型，代表算力的芯片就是最關(guān)鍵的一環(huán)，也是成本最高的一環(huán)。

這也導(dǎo)致了一個(gè)問題，如果AI照著現(xiàn)在這幅樣子發(fā)展下去，那么成本就會(huì)越來越高，高到絕大部分公司都難以承受的地步，根據(jù)外媒估計(jì)，如今正在開發(fā)的大模型，平均每個(gè)需要花費(fèi)約 10 億美元，而下一代大模型呢，平均每個(gè)需要花費(fèi) 100 億美元來訓(xùn)練，這個(gè)天文數(shù)字，在硅谷買下幾十家有潛力的初創(chuàng)公司都還有得找。

這也暴露出了目前行業(yè)最常用的英偉達(dá)顯卡的弊端，英偉達(dá)的GPU并非為了AI而生，它起初是為了處理各種各樣的圖形化計(jì)算而生產(chǎn)制造的，整體設(shè)計(jì)也沒有脫離傳統(tǒng)計(jì)算的范疇，面對人工智能蓬勃發(fā)展時(shí)，強(qiáng)大的算力有相當(dāng)一部分被浪費(fèi)了，也意味著白花花的銀子被浪費(fèi)了。

大公司可以一邊著手自研，一邊繼續(xù)購買英偉達(dá)的顯卡，但對于中小型公司來說，顯卡成為了他們最大的絆腳石，如此一來，AI在某種程度上就成為了一部分公司的專屬。

不過這種需求已被一部分人所注意到，在美國硅谷，邁克-岡特（Mike Gunter）和雷納-波普（Reiner Pope）這兩位從谷歌出走的工程師，他們成立了一家名為 MatX 的公司，而這家公司的目標(biāo)，就是設(shè)計(jì)專門用于LLM（大型語言模型）的，更便宜、更快速、更適合人工智能的芯片。

在谷歌任職時(shí)，Gunter主要負(fù)責(zé)設(shè)計(jì)運(yùn)行人工智能軟件的硬件（包括芯片），Pope則負(fù)責(zé)編寫人工智能軟件本身，這里不得不提到谷歌此前自研的TPU了，從2014年發(fā)展至今，已經(jīng)更迭了整整五代，但它們和英偉達(dá)H100一樣，都不是為了LLM所量身打造的，放在人工智能領(lǐng)域中，顯得過于通用了一些。

Pope在接受采訪時(shí)表示：“我們試圖讓LLM在谷歌運(yùn)行得更快，并取得了一些進(jìn)展，但這有點(diǎn)困難，”他說到，“在谷歌內(nèi)部，有很多人希望對芯片進(jìn)行各種改動(dòng)，因此很難只專注于 LLM。為此，我們選擇了離開?！?/span>

這兩位創(chuàng)始人都認(rèn)為，在人工智能時(shí)代到來之際，芯片上額外的空間增加了不必要的成本和復(fù)雜性，因此需要“一刀切”，去掉所有不必要的部分，只保留必要的部分，MatX公司的做法就是在硅片上設(shè)計(jì)一個(gè)大型處理內(nèi)核，目的只有一個(gè)，那就是盡可能快地將數(shù)字相乘——這是 LLM 的核心任務(wù)。

MatX表示，自己的芯片在訓(xùn)練 LLM 和提供其結(jié)果方面將比英偉達(dá)的 GPU 至少好 10 倍?！坝ミ_(dá)有非常強(qiáng)大的產(chǎn)品，顯然是大多數(shù)公司的理想選擇，” Pope說，“但我們認(rèn)為我們可以做得更好。

其預(yù)測，通過贏得包括OpenAI和Anthropic PBC在內(nèi)的多家主要人工智能企業(yè)的青睞，它的業(yè)務(wù)將蒸蒸日上?！斑@些公司的經(jīng)濟(jì)狀況與一般公司完全相反，"Gunter說，"他們把錢都花在了計(jì)算上，而不是工資上。如果情況不改變，他們就會(huì)沒錢?！?/span>

無獨(dú)有偶，隔壁總部位于多倫多的人工智能芯片初創(chuàng)公司 Taalas，同樣立志于改變由英偉達(dá)主導(dǎo)的AI世界，公司創(chuàng)始人包括Ljubisa Bajic、Lejla Bajic 和 Drago Ignjatovic，他們均來自傳奇架構(gòu)師Jim Keller所領(lǐng)導(dǎo)的Tenstorrent。

與前東家Tenstorrent不同的是，Taalas幾位創(chuàng)始人想開發(fā)一種自動(dòng)流程，能將任何人工智能模型快速轉(zhuǎn)化為定制芯片，其表示，由此產(chǎn)生的硬核模型的效率是軟件模型的 1000 倍。

“要實(shí)現(xiàn)人工智能的商品化，就必須將計(jì)算能力和效率提高 1000 倍，而目前的漸進(jìn)式方法是無法實(shí)現(xiàn)這一目標(biāo)的。我們不應(yīng)該在通用計(jì)算機(jī)上模擬智能，而應(yīng)該直接在芯片中打造智能，在芯片中實(shí)現(xiàn)深度學(xué)習(xí)模型是實(shí)現(xiàn)可持續(xù)人工智能的最直接途徑。”Taalas 首席執(zhí)行官Ljubisa Bajic說。

Taalas認(rèn)為，公司會(huì)解決了當(dāng)今人工智能硬件的兩大問題，即能效和成本。如果客戶需要在手機(jī)里使用特定參數(shù)Llama2模型，而且確定了產(chǎn)品生命周期中的全部需求，那么可能只需要為它提供一款最低功耗和最低成本的專用芯片，未來的AI在消費(fèi)者日常生活中的普及程度將像電力一樣無處不在，而Taalas認(rèn)為自己能夠推動(dòng)這一切的發(fā)展。

Taalas表示，它將在2024年第三季度推出首款大型語言模型芯片，并計(jì)劃在2025年第一季度向首批客戶提供芯片。

目前，這兩家打算顛覆目前AI芯片市場的公司都拿到了一筆數(shù)額不菲的投資，MatX獲得了2500萬美元的融資，而Taalas則獲得了5000萬美元的融資。

MatX的投資人提到，MatX這樣的公司象征著人工智能世界的一種新趨勢，因?yàn)樗麄冋诎岩恍┐蠊鹃_發(fā)出來的最好的創(chuàng)意（這些公司有點(diǎn)行動(dòng)太慢、太官僚化）獨(dú)立商業(yè)化，硅谷之所以能成為硅谷，正是因?yàn)橐慌峙錆M活力的初創(chuàng)公司，初創(chuàng)公司能改變目前芯片行業(yè)沉悶的情況。

但問題也隨之而來，設(shè)計(jì)芯片并不是吃飯喝水那么簡單，設(shè)計(jì)和制造一款新芯片需要三到五年的時(shí)間，中間還不能出現(xiàn)重大失誤，五年前的想法拿到現(xiàn)在來看，不少已然過時(shí)，這就要求這些初創(chuàng)公司對未來技術(shù)趨勢有一個(gè)更準(zhǔn)確的判斷。

定制化面臨不少挑戰(zhàn)

定制硬件始終是一把雙刃劍。它可以為芯片制造商提供競爭優(yōu)勢，但通常需要更多時(shí)間來設(shè)計(jì)、驗(yàn)證和制造芯片，這有時(shí)會(huì)浪費(fèi)市場窗口。此外，對于除了最具價(jià)格彈性的應(yīng)用程序之外的所有應(yīng)用程序來說，它通常都太昂貴。這是設(shè)計(jì)前沿的一個(gè)眾所周知的方程式，特別是在涉及生成式人工智能等新技術(shù)的情況下。

但隨著平面擴(kuò)展的結(jié)束，以及針對特定領(lǐng)域定制的更多功能，芯片行業(yè)正在努力弄清楚業(yè)務(wù)/技術(shù)等式是否正在經(jīng)歷根本性的、更持久的變化。目前，大約 30% 到 35% 的設(shè)計(jì)工具被出售給大型系統(tǒng)公司，用于生產(chǎn)永遠(yuǎn)不會(huì)進(jìn)行商業(yè)銷售的芯片，這一事實(shí)使情況變得更加混亂。在這些應(yīng)用中，提高每瓦性能所帶來的集體節(jié)省可能會(huì)使在大型數(shù)據(jù)中心設(shè)計(jì)、驗(yàn)證和制造高度優(yōu)化的多芯片/多小芯片封裝的成本相形見絀，從而引發(fā)關(guān)于定制與通用的爭論比以往任何時(shí)候都更加不確定。

“如果你在工程組織中走得足夠高，你就會(huì)發(fā)現(xiàn)人們真正想做的是軟件定義的東西，無論它是什么，”西門子 EDA高級綜合項(xiàng)目總監(jiān) Russell Klein 說?！八麄冋嬲胱龅氖琴徺I現(xiàn)成的硬件，在上面安裝一些軟件，使其增值，然后發(fā)貨。這種范式在許多領(lǐng)域都被打破了。當(dāng)我們需要極高的性能或極高的效率時(shí)，它就會(huì)崩潰。如果我們需要比現(xiàn)成系統(tǒng)更高的性能，或者我們需要更高的效率，我們需要電池持續(xù)更長時(shí)間，或者我們只是不能燃燒那么多的電力，那么我們就必須開始定制硬件?！?/span>

Quadric首席營銷官 Steve Roddy 對此表示同意?！霸谶^去二十年或更長時(shí)間里，SoC 中的異構(gòu)處理在絕大多數(shù)消費(fèi)應(yīng)用中已成為慣例。長期以來，手機(jī)、平板電腦、電視和汽車應(yīng)用的 SoC 一直需要滿足高性能和低成本的嚴(yán)格要求，這導(dǎo)致當(dāng)今這些系統(tǒng)中專用功能處理器的激增。即使如今的低成本手機(jī) SoC 也具有用于運(yùn)行 Android 的 CPU、用于繪制顯示屏的復(fù)雜 GPU、用于在低功耗模式下卸載音頻播放的音頻 DSP、與相機(jī)子系統(tǒng)中的 NPU 配合使用的視頻 DSP 來改進(jìn)圖像捕獲（穩(wěn)定、濾波器、增強(qiáng)）、基帶 DSP（通常帶有附加的 NPU）、用于 Wi-Fi 和 5G 子系統(tǒng)中的高速通信通道處理、傳感器集線器融合 DSP，甚至是可最大限度延長電池壽命的電源管理處理器?！?/span>

它有助于區(qū)分通用目的和特定于應(yīng)用程序的內(nèi)容。Ansys半導(dǎo)體部門產(chǎn)品營銷總監(jiān) Marc Swinnen 表示：“在專用硬件（我們稱之為定制芯片）上運(yùn)行軟件可以帶來很多好處，因?yàn)樗梢宰屇雀偁帉κ指邇?yōu)勢?！?“您的軟件運(yùn)行速度更快、功耗更低，并且專為運(yùn)行您想要運(yùn)行的軟件而設(shè)計(jì)。擁有現(xiàn)成硬件的競爭對手很難與您競爭。硅已經(jīng)成為許多公司的商業(yè)價(jià)值和商業(yè)模式的核心，因此對其進(jìn)行優(yōu)化變得非常重要?！?/span>

然而，還是有一個(gè)平衡點(diǎn)。Expedera首席科學(xué)家兼聯(lián)合創(chuàng)始人 Sharad Chole 表示：“如果在投資回報(bào)和部署成本、電力成本、熱成本、冷卻成本方面存在任何成本合理性，那么構(gòu)建定制 ASIC 總是有意義的。” ?！拔覀冊诩用茇泿胖锌吹搅诉@一點(diǎn)，現(xiàn)在在人工智能中也看到了這一點(diǎn)。我們在邊緣計(jì)算中看到了這一點(diǎn)，它需要極超低功耗的傳感器和超低功耗的流程。但通用計(jì)算硬件也得到了推動(dòng)，因?yàn)檫@樣你就可以輕松地使應(yīng)用程序更加抽象和可擴(kuò)展。”

過去，它更多地是由經(jīng)濟(jì)驅(qū)動(dòng)的。Expedera 營銷副總裁 Paul Karazuba 表示：“市場有潮起潮落?！?“將所有內(nèi)容放入處理器都有一個(gè)起起落落的過程。擁有協(xié)處理器、增強(qiáng)主處理器內(nèi)部的功能有起有落。這是幾乎所有事物的自然演變。設(shè)計(jì)自己的芯片不一定更便宜，但從長遠(yuǎn)來看，不設(shè)計(jì)自己的芯片可能會(huì)更昂貴。”