| AI訓(xùn)練和推理科普:AI芯片設(shè)計(jì)途徑、評(píng)估標(biāo)準(zhǔn)和測(cè)試基準(zhǔn) |
| 2022/11/25 10:08:01 |
|
|
|
|
| |
|
|
在過(guò)去十年中,機(jī)器學(xué)習(xí),特別是深度神經(jīng)網(wǎng)絡(luò),在商業(yè)人工智能(AI)應(yīng)用的出現(xiàn)中發(fā)揮了關(guān)鍵作用。由于現(xiàn)代計(jì)算硬件的計(jì)算能力增加,深度神經(jīng)網(wǎng)絡(luò)在2010年代初成功實(shí)現(xiàn)。AI硬件是為機(jī)器學(xué)習(xí)應(yīng)用定制的新一代硬件。 隨著AI及其應(yīng)用越來(lái)越廣泛,科技巨頭之間開(kāi)發(fā)更便宜、更快芯片的競(jìng)賽可能會(huì)加速。公司可以從亞馬遜AWS的Sagemaker服務(wù)等云服務(wù)提供商那里租用這些硬件,也可以購(gòu)買他們的硬件。如果能夠保持較高的利用率,自有硬件可以降低成本。否則,公司最好依賴云供應(yīng)商。 什么是AI芯片? AI芯片也稱為AI硬件或AI加速器,是專門(mén)為基于人工神經(jīng)網(wǎng)絡(luò)(ANN)的應(yīng)用程序設(shè)計(jì)的加速器。大多數(shù)商業(yè)人工神經(jīng)網(wǎng)絡(luò)應(yīng)用都是深度學(xué)習(xí)應(yīng)用。 人工神經(jīng)網(wǎng)絡(luò)是AI的一個(gè)分支。ANN是一種受人腦啟發(fā)的機(jī)器學(xué)習(xí)方法。它包括多層人工神經(jīng)元,這些神經(jīng)元是受人類神經(jīng)元工作方式啟發(fā)的數(shù)學(xué)函數(shù)。人工神經(jīng)網(wǎng)絡(luò)可以構(gòu)建成多層的深層網(wǎng)絡(luò)。使用這種網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)應(yīng)用程序被稱為深度學(xué)習(xí)。 深度學(xué)習(xí)有兩個(gè)主要用例: (1)訓(xùn)練:深度人工神經(jīng)網(wǎng)絡(luò)被輸入成千上萬(wàn)的標(biāo)記數(shù)據(jù),因此它可以識(shí)別模式。訓(xùn)練對(duì)于計(jì)算資源來(lái)說(shuō)是耗時(shí)且密集的。 (2)推斷:作為訓(xùn)練過(guò)程的結(jié)果,ANN能夠根據(jù)新的輸入做出預(yù)測(cè)。 雖然通用芯片也可以運(yùn)行ANN應(yīng)用程序,但它們不是這些軟件的最有效解決方案。有多種類型的AI芯片,因?yàn)樵诓煌愋偷娜斯ど窠?jīng)網(wǎng)絡(luò)應(yīng)用中定制是必要的。例如,在一些物聯(lián)網(wǎng)設(shè)備需要依靠電池運(yùn)行的物聯(lián)網(wǎng)應(yīng)用中,AI芯片需要體積小,并且能夠在低功耗下高效運(yùn)行。這導(dǎo)致芯片制造商在為不同的應(yīng)用設(shè)計(jì)芯片時(shí)做出不同的架構(gòu)選擇。 AI芯片的組成部分是什么? AI芯片的硬件基礎(chǔ)設(shè)施由三部分組成:計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)。雖然計(jì)算或處理速度近年來(lái)發(fā)展迅速,但存儲(chǔ)和網(wǎng)絡(luò)性能升級(jí)似乎還需要一些時(shí)間。像英特爾、IBM、Nvidia這樣的硬件巨頭正在競(jìng)相改進(jìn)硬件基礎(chǔ)設(shè)施的存儲(chǔ)和網(wǎng)絡(luò)模塊。 雖然通用芯片也可以運(yùn)行ANN應(yīng)用程序,但它們不是這些軟件的最有效解決方案。目前,一些主流AI芯片廠商有:AMD、Apple、Arm、Baidu、Google(Alphabet)、Graphcore、Huawei、IBM、Intel、Microsoft、Nvidia、Texas instruments、Qualcomm等。 什么AI芯片比通用芯片性能更高? 通用硬件使用算術(shù)塊進(jìn)行基本的內(nèi)存計(jì)算。串行處理不能為深度學(xué)習(xí)技術(shù)提供足夠的性能。這表現(xiàn)在: (1)神經(jīng)網(wǎng)絡(luò)需要許多并行/簡(jiǎn)單的算術(shù)運(yùn)算 (2)強(qiáng)大的通用芯片不能支持大量簡(jiǎn)單的同時(shí)操作 (3)AI優(yōu)化的硬件包括許多功能較弱的芯片,支持并行處理 與使用通用硬件相比,AI加速器具有以下優(yōu)勢(shì):. (1)更快的計(jì)算。AI應(yīng)用通常需要并行計(jì)算能力,以便運(yùn)行復(fù)雜的訓(xùn)練模型和算法。AI硬件提供更多并行處理能力?據(jù)估計(jì),在人工神經(jīng)網(wǎng)絡(luò)應(yīng)用中,與類似價(jià)位的傳統(tǒng)半導(dǎo)體器件相比,這種器件具有高達(dá)10倍的競(jìng)爭(zhēng)力。 (2)高帶寬內(nèi)存。專門(mén)的AI硬件估計(jì)比傳統(tǒng)芯片多分配4-5倍的帶寬。這是必要的,因?yàn)橛捎谛枰⑿刑幚恚珹I應(yīng)用程序需要處理器之間明顯更多的帶寬來(lái)實(shí)現(xiàn)高效的性能。 為什么現(xiàn)在很重要? 深度神經(jīng)網(wǎng)絡(luò)驅(qū)動(dòng)的解決方案構(gòu)成了大多數(shù)商業(yè)AI應(yīng)用。自2010年以來(lái),這些應(yīng)用程序的數(shù)量和重要性一直在強(qiáng)勁增長(zhǎng),預(yù)計(jì)將繼續(xù)以類似的速度增長(zhǎng)。例如,麥肯錫預(yù)測(cè)AI應(yīng)用每年將產(chǎn)生4-6萬(wàn)億美元的價(jià)值。 麥肯錫最近的另一項(xiàng)研究表明,AI相關(guān)的半導(dǎo)體將在未來(lái)幾年內(nèi)每年增長(zhǎng)約18%。這是非AI應(yīng)用中使用的半導(dǎo)體增長(zhǎng)的5倍以上。同一項(xiàng)研究表明,AI硬件預(yù)計(jì)將成為670億美元的收入市場(chǎng)。 AI芯片設(shè)計(jì)途徑有哪些? AI芯片使用新穎的架構(gòu)來(lái)提高性能。我們對(duì)這些方法進(jìn)行了排序,從最常見(jiàn)的到新興的方法: GPU:圖形處理單元最初是為通過(guò)并行計(jì)算加速圖形處理而設(shè)計(jì)的。同樣的方法在訓(xùn)練深度學(xué)習(xí)應(yīng)用程序方面也很有效,目前是深度學(xué)習(xí)軟件開(kāi)發(fā)人員最常用的硬件之一。 晶片芯片:例如,Cerebras正在通過(guò)生產(chǎn)一個(gè)46,225平方毫米(約72平方英寸)的硅片來(lái)制造晶片芯片,在一個(gè)芯片上包含1.2萬(wàn)億個(gè)晶體管。由于其高容量,芯片上有400,000個(gè)處理核心。這種大型芯片展現(xiàn)了規(guī)模經(jīng)濟(jì),但也帶來(lái)了新的材料科學(xué)和物理挑戰(zhàn)。 可重新配置的神經(jīng)處理單元(NPU):該架構(gòu)提供并行計(jì)算和池化來(lái)提高整體性能。它專注于卷積神經(jīng)網(wǎng)絡(luò)(CNN)應(yīng)用,這是圖像識(shí)別中人工神經(jīng)網(wǎng)絡(luò)(ANNs)的流行架構(gòu)?偛课挥谑サ貋喐绾团_(tái)北的低功耗邊緣AI初創(chuàng)公司耐能獲得了其芯片所基于的架構(gòu)的許可;一種可重構(gòu)的神經(jīng)處理單元(NPU)。這種架構(gòu)可以被重新配置以在模型之間實(shí)時(shí)切換的事實(shí)允許根據(jù)應(yīng)用的需要?jiǎng)?chuàng)建優(yōu)化的硬件。美國(guó)國(guó)家標(biāo)準(zhǔn)和技術(shù)研究所(NIST)將耐能的面部識(shí)別模型評(píng)為100 MB以下性能最佳的模型。 神經(jīng)形態(tài)芯片架構(gòu):這是一種利用材料科學(xué)和神經(jīng)科學(xué)等相鄰領(lǐng)域的新方法來(lái)模仿腦細(xì)胞的嘗試。這些芯片在訓(xùn)練神經(jīng)網(wǎng)絡(luò)的速度和效率方面具有優(yōu)勢(shì)。自2017年以來(lái),英特爾一直在以Loihi和Pohoiki的名義為研究界生產(chǎn)這種芯片。 基于模擬內(nèi)存的技術(shù):建立在0和1基礎(chǔ)上的數(shù)字系統(tǒng)主宰了當(dāng)今的計(jì)算世界。然而,模擬技術(shù)包含不斷變化且沒(méi)有特定范圍的信號(hào)。IBM研究團(tuán)隊(duì)展示了大型模擬存儲(chǔ)設(shè)備陣列在深度學(xué)習(xí)應(yīng)用中實(shí)現(xiàn)了與GPU相似的精度水平。 評(píng)估AI硬件的重要標(biāo)準(zhǔn)是什么? 團(tuán)隊(duì)的需求是最重要的標(biāo)準(zhǔn)。如果您的團(tuán)隊(duì)可以依賴云提供商,AWS Sagemaker等解決方案可以讓團(tuán)隊(duì)通過(guò)擴(kuò)展他們的軟件來(lái)在眾多GPU上運(yùn)行,從而快速試驗(yàn)?zāi)P陀?xùn)練。但是,與內(nèi)部部署模式相比,這帶來(lái)了更高的成本。因此,云可能是一個(gè)很好的初始測(cè)試平臺(tái),但可能不適合大型團(tuán)隊(duì)構(gòu)建成熟的應(yīng)用程序,為公司自己的AI硬件提供高利用率。 一旦你決定你的公司需要購(gòu)買自己的AI芯片,這些是在評(píng)估中使用的芯片的重要特征: 處理速度:AI硬件使用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)更快的訓(xùn)練和推理。更快的訓(xùn)練使機(jī)器學(xué)習(xí)工程師能夠嘗試不同的深度學(xué)習(xí)方法,或者優(yōu)化他們的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(超參數(shù)優(yōu)化)。 開(kāi)發(fā)平臺(tái):在獨(dú)立芯片上構(gòu)建應(yīng)用具有挑戰(zhàn)性,因?yàn)樾酒枰玫狡渌布蛙浖闹С郑员汩_(kāi)發(fā)人員使用高級(jí)編程語(yǔ)言在其上構(gòu)建應(yīng)用。缺少開(kāi)發(fā)板的AI加速器將使這種設(shè)備在開(kāi)始時(shí)難以使用,并且難以進(jìn)行基準(zhǔn)測(cè)試。 電源要求:依靠電池工作的芯片需要能夠在有限的功耗下工作,以最大限度地延長(zhǎng)設(shè)備壽命。 尺寸:在物聯(lián)網(wǎng)應(yīng)用中,設(shè)備尺寸在手機(jī)或小型設(shè)備等應(yīng)用中可能很重要。 成本:與往常一樣,設(shè)備的總擁有成本對(duì)于任何采購(gòu)決策都至關(guān)重要。 有AI硬件基準(zhǔn)測(cè)試嗎? AI硬件在深度學(xué)習(xí)應(yīng)用上的客觀性能基準(zhǔn)很難獲得。建議云和內(nèi)部AI硬件用戶首先用自己的應(yīng)用程序?qū)@些系統(tǒng)進(jìn)行基準(zhǔn)測(cè)試,以了解它們的性能。 雖然對(duì)云服務(wù)進(jìn)行基準(zhǔn)測(cè)試相對(duì)容易,但對(duì)自己的硬件進(jìn)行基準(zhǔn)測(cè)試可能更耗時(shí)。如果這是一個(gè)常見(jiàn)的AI硬件,公司可以在云服務(wù)上找到它,并對(duì)其性能進(jìn)行基準(zhǔn)測(cè)試,因?yàn)橐恍┰品⻊?wù)公開(kāi)共享底層硬件規(guī)格。如果這樣的測(cè)試不能在云上運(yùn)行,那么就需要從供應(yīng)商那里請(qǐng)求樣本硬件來(lái)進(jìn)行測(cè)試。 現(xiàn)有的基準(zhǔn)傾向于在速度和功耗方面比較兩種不同的AI硬件;鶞(zhǔn)測(cè)試使用簡(jiǎn)單的計(jì)算機(jī)和Macbook Pro等進(jìn)行比較,另外還要考慮價(jià)格因素。(Donna Zhang,張底剪報(bào))
|
|
| → 『關(guān)閉窗口』 |
|
| |
|
|
|
|
|
|