| 訓(xùn)練大型語(yǔ)言模型:模型驅(qū)動(dòng)內(nèi)容,內(nèi)容驅(qū)動(dòng)模型 |
| 2022/12/2 12:16:29 |
|
|
|
|
| |
|
|
訓(xùn)練大型語(yǔ)言模型和推薦系統(tǒng)的成本已經(jīng)變得越來(lái)越清楚,這可以說(shuō)是推動(dòng)人工智能(AI)進(jìn)入企業(yè)的兩個(gè)最重要的工作負(fù)載。但由于機(jī)器學(xué)習(xí)系統(tǒng)制造商Cerebras Systems和云計(jì)算合作伙伴Cirrascale提供了一種新的系統(tǒng)租賃服務(wù)來(lái)訓(xùn)練GPT模型,我們現(xiàn)在有了一些實(shí)際的定價(jià),可以顯示在什么規(guī)模下運(yùn)行什么GPT模型的成本。 這是我們第一次從剩余的人工智能培訓(xùn)新貴中看到這樣的公開(kāi)數(shù)據(jù),其中包括Cerebras,SambaNova Systems,Graphcore和英特爾的Habana Labs也許我們對(duì)后者很慷慨,英特爾希望削減產(chǎn)品線和人員,因?yàn)樗鼘で髲默F(xiàn)在到2025年期間從其賬面上減少80億至100億美元的成本。 Cerebras和Cirrascale透露的在CS-2超級(jí)計(jì)算機(jī)上進(jìn)行特定GPT AI訓(xùn)練的定價(jià)信息是與Jasper的合作伙伴關(guān)系一起宣布的,Jasper是眾多AI應(yīng)用程序提供商之一,他們正在幫助各種行業(yè)和規(guī)模的企業(yè)找出如何部署大型語(yǔ)言模型來(lái)驅(qū)動(dòng)他們的應(yīng)用程序。就像地球上的其他人一樣,Jasper一直在Nvidia GPUs上訓(xùn)練其AI模型,它正在尋找一種更簡(jiǎn)單、更快速的方法來(lái)訓(xùn)練模型,這就是它謀生的方式。 據(jù)該公司的聯(lián)合創(chuàng)始人兼首席執(zhí)行官Dave Rogenmoser稱,Jasper確實(shí)以此為生。該公司擁有近10萬(wàn)名付費(fèi)用戶,他們使用Jasper系統(tǒng)做各種事情,從寫(xiě)博客到創(chuàng)建內(nèi)容營(yíng)銷再到生成技術(shù)手冊(cè)。這些大型語(yǔ)言模型還不能生成完美的內(nèi)容,但是如果輸入正確,它們可以在相當(dāng)短的時(shí)間內(nèi)讓內(nèi)容達(dá)到需要的70%左右,這大大加快了許多公司的內(nèi)容創(chuàng)建過(guò)程。(信不信由你,大多數(shù)人不喜歡寫(xiě)作,他們也常常寫(xiě)得不是很快。) 總部位于奧斯汀的Jasper成立于2021年1月,在2021年6月籌集了600萬(wàn)美元的種子資金,并在Insight Partners推動(dòng)的1.25億美元首輪融資中獲得了最高估值,該公司的估值為15億美元。它是許多基于LLM提供服務(wù)的初創(chuàng)公司之一,現(xiàn)有的應(yīng)用軟件提供商也在想辦法以各種方式利用LLM來(lái)擴(kuò)充他們的模型。 “我們認(rèn)為大型語(yǔ)言模型不夠高端,我們剛剛開(kāi)始看到它們的影響,”Cerebras的聯(lián)合創(chuàng)始人兼首席執(zhí)行官安Andrew Feldman解釋道,該公司是晶圓級(jí)處理的先驅(qū),也是AI訓(xùn)練硬件的新貴!霸谏鷳B(tài)系統(tǒng)的這三個(gè)層次中,無(wú)論是硬件層、基礎(chǔ)設(shè)施層和基礎(chǔ)模型,還是應(yīng)用層,都會(huì)有贏家和新的出現(xiàn)。明年,你將看到大型語(yǔ)言模型在經(jīng)濟(jì)各個(gè)領(lǐng)域的廣泛崛起和影響! Cerebras一直以其“Andromeda”AI超級(jí)計(jì)算機(jī)做文章,這是一組16個(gè)CS-2晶圓級(jí)系統(tǒng)捆綁在一起的單個(gè)系統(tǒng),具有超過(guò)1350萬(wàn)個(gè)核心,在16位浮點(diǎn)精度下提供120 petaflops的性能,密集矩陣是稀疏矩陣(sparse matrice)的8倍。該系統(tǒng)的成本不到3000萬(wàn)美元,即使對(duì)于像Jasper這樣的硅谷獨(dú)角獸來(lái)說(shuō),這也是一大筆錢(qián)。 正如任何工作負(fù)載的情況一樣,在一定的規(guī)模和利用率水平下,購(gòu)買(mǎi)CS-2群集將比租賃一個(gè)更有經(jīng)濟(jì)意義,我們不會(huì)驚訝地看到像Jasper這樣的公司為此付出資金,原因很快就會(huì)顯而易見(jiàn)。 模型驅(qū)動(dòng)內(nèi)容,內(nèi)容驅(qū)動(dòng)模型 Jasper的業(yè)務(wù)有兩個(gè)驅(qū)動(dòng)因素,這是它遠(yuǎn)離分布式GPU AI訓(xùn)練的耦合模型并行和數(shù)據(jù)并行世界的原因,當(dāng)涉及到為跨越數(shù)千或數(shù)萬(wàn)個(gè)GPU運(yùn)行的AI訓(xùn)練分割數(shù)據(jù)和任務(wù)時(shí),會(huì)有一些痛苦的過(guò)程,并進(jìn)入僅支持?jǐn)?shù)據(jù)并行的大腦的可愛(ài)懷抱。 “首先,企業(yè)想要個(gè)性化的模型,而且非常想要,”Rogenmoser解釋道!八麄兿M米约旱恼Z(yǔ)言對(duì)他們進(jìn)行培訓(xùn),希望他們接受知識(shí)庫(kù)和產(chǎn)品目錄方面的培訓(xùn)。他們希望他們接受品牌聲音的培訓(xùn)——他們希望他們真正成為品牌的延伸。他們希望他們的銷售團(tuán)隊(duì)以同樣的方式說(shuō)話,并立即跟上新發(fā)布的產(chǎn)品信息,他們希望他們都以一致的方式說(shuō)話。當(dāng)人們進(jìn)入公司時(shí),他們希望他們立即跟上速度,公司里的每個(gè)人都用某些詞說(shuō)話,而不用某些詞。他們希望這種情況會(huì)越來(lái)越好。這是第二部分——他們希望這些模型變得更好,并希望它們根據(jù)過(guò)去的使用數(shù)據(jù)和性能進(jìn)行自我優(yōu)化。如果他們寫(xiě)了一個(gè)臉書(shū)廣告標(biāo)題,并最終成為贏家,他們希望模型能夠了解正在發(fā)生的事情,并能夠圍繞這些事情進(jìn)行自我優(yōu)化! Cerebras產(chǎn)品副總裁Andy Hock告訴Next Platform,情況甚至更復(fù)雜。 “我們?cè)贘asper以外的市場(chǎng)上觀察到的一個(gè)更廣泛的現(xiàn)象是,許多公司希望能夠快速研究和開(kāi)發(fā)這些用于特定商業(yè)應(yīng)用的大規(guī)模模型,”Hock說(shuō)!暗,傳統(tǒng)云中存在的基礎(chǔ)設(shè)施并不能讓這種大規(guī)模的研發(fā)變得容易。所以能夠問(wèn)這樣的問(wèn)題——我應(yīng)該從頭開(kāi)始訓(xùn)練嗎?還是應(yīng)該微調(diào)一個(gè)開(kāi)源的公共檢查點(diǎn)?最好的答案是什么?如何最有效地利用計(jì)算來(lái)降低商品成本,從而為我的客戶提供最佳服務(wù)?在許多情況下,使用傳統(tǒng)基礎(chǔ)架構(gòu)來(lái)詢問(wèn)這些問(wèn)題不僅成本高昂,而且不切實(shí)際。” 這就是為什么Cerebras和Cirrascale將Cerebras AI模型工作室租賃模型整合在一起,該模型基于CS-2 iron集群,在兩家公司擁有的基礎(chǔ)設(shè)施上運(yùn)行。也沒(méi)有說(shuō)他們部署了多少CS-2鐵,但從理論上講,Cerebras架構(gòu)允許它擴(kuò)展到相當(dāng)大的規(guī)模,正如我們過(guò)去在這里和那里討論過(guò)的那樣,到目前為止,單個(gè)系統(tǒng)映像中的192個(gè)CS-2節(jié)點(diǎn)總共有1.63億個(gè)內(nèi)核。 在一個(gè)主要的云上爭(zhēng)奪GPU的可用性是一回事,將模型和數(shù)據(jù)分解到數(shù)百、數(shù)千或數(shù)萬(wàn)個(gè)GPU上運(yùn)行是另一回事。付錢(qián)是另一回事。 因此,來(lái)自Cerebras和Cirrascale的AI模型工作室的中心主題是可預(yù)測(cè)性,而不僅僅是模糊地聲稱AI模型可以比在亞馬遜網(wǎng)絡(luò)服務(wù)上使用GPU快8倍,而且價(jià)格只有一半。 “我們有AI研究實(shí)驗(yàn)室和一些金融機(jī)構(gòu)作為客戶,他們都想訓(xùn)練自己的模型,并使用自己的數(shù)據(jù)來(lái)提高這些模型的準(zhǔn)確性,”Cirrascale聯(lián)合創(chuàng)始人兼首席執(zhí)行官PJ Go說(shuō)!八麄兿M院侠淼膬r(jià)格快速完成這項(xiàng)工作;蛟S最重要的是,他們想要一個(gè)可預(yù)測(cè)的價(jià)格。他們不想給云服務(wù)提供商開(kāi)一張無(wú)止境的空白支票來(lái)訓(xùn)練一個(gè)模型。” 因此,在一個(gè)完美的例子中,計(jì)算能力就是金錢(qián),這里是當(dāng)從頭開(kāi)始訓(xùn)練GPT-3運(yùn)行時(shí),在四節(jié)點(diǎn)CS-2集群上的AI Model Studio服務(wù)的定價(jià): “Chinchilla Point”是數(shù)據(jù)層,用記號(hào)來(lái)度量,它是有效訓(xùn)練模型和收斂到正確答案所需要的。(有了大的語(yǔ)言模型,看了或者聽(tīng)了就知道了。)通過(guò)一個(gè)模型推動(dòng)太多的數(shù)據(jù)會(huì)產(chǎn)生收益遞減,有時(shí)你可能會(huì)走得太遠(yuǎn),就像如果你太激進(jìn),你可能會(huì)過(guò)度擬合一條統(tǒng)計(jì)曲線。(你看到的時(shí)候也知道。) 模型越大,訓(xùn)練時(shí)間就越長(zhǎng) 顯然,模型在參數(shù)方面的大小和令牌的數(shù)量成比例,一般來(lái)說(shuō),我們可以說(shuō),模型越大,在設(shè)定的配置上訓(xùn)練所需的時(shí)間就越長(zhǎng)。同樣,這是有道理的,因?yàn)殡S著AI訓(xùn)練努力的擴(kuò)大,你只是加載和處理越來(lái)越多的數(shù)據(jù),以獲得越來(lái)越好的結(jié)果。 你知道我們,我們不能留下一個(gè)像Cerebras和Cirrascale單獨(dú)創(chuàng)建的表,所以我們對(duì)每個(gè)參數(shù)的成本以及每天處理的令牌和每天花費(fèi)的美元做了一點(diǎn)計(jì)算。我們還嘗試計(jì)算了三種最大型號(hào)的價(jià)格和性能——GPT NeoX、GPT 70B和GPT 175B——它們運(yùn)行在仙女座菌株級(jí)機(jī)器上,具有16個(gè)CS-2節(jié)點(diǎn),而不是原始表格中顯示的4個(gè)CS-2節(jié)點(diǎn)。 我們放入的這些跳躍因子需要解釋。最終,我們都想知道訓(xùn)練的天數(shù)和價(jià)格是如何隨著每一個(gè)GPT模型的擴(kuò)展而上漲的,然后我們想知道我們?nèi)绾螖U(kuò)展鐵,這樣我們就可以加快訓(xùn)練的時(shí)間。跳躍因子計(jì)算從一個(gè)GPT模型到下一個(gè)模型的增量,我們跳過(guò)T-5 11B模型expect,因?yàn)樗cGPT-3 6.7B的運(yùn)行相比。 在四節(jié)點(diǎn)CS-2集群上的GPT-3參數(shù)范圍的低端,增加一些參數(shù)會(huì)引入比您預(yù)期的長(zhǎng)得多的訓(xùn)練時(shí)間。從13億個(gè)參數(shù)移動(dòng)到60億個(gè)參數(shù),數(shù)據(jù)增加了4.6倍,但訓(xùn)練時(shí)間增加了20倍。從67億到130億個(gè)參數(shù)又增加了1.9倍,但訓(xùn)練時(shí)間增加了3.5倍。在GPT NeoX運(yùn)行中,參數(shù)增加了1.5倍,但訓(xùn)練時(shí)間僅增加了1.2倍。因此,隨著模型大小的增加,這并不是精確的線性關(guān)系。 正如我們?cè)诒驹略缧⿻r(shí)候討論的那樣,CS-2機(jī)器幾乎是線性擴(kuò)展的。4個(gè)節(jié)點(diǎn)幾乎是兩個(gè)節(jié)點(diǎn)的兩倍,8個(gè)節(jié)點(diǎn)幾乎是4個(gè)節(jié)點(diǎn)的兩倍,16個(gè)節(jié)點(diǎn)幾乎是8個(gè)節(jié)點(diǎn)的兩倍。當(dāng)我們問(wèn)價(jià)格是否也線性增長(zhǎng)時(shí),F(xiàn)eldman說(shuō)這似乎不公平,這對(duì)NUMA架構(gòu)來(lái)說(shuō)是正確的,隨著規(guī)模的擴(kuò)大,它們會(huì)變得更貴。Feldman建議“4倍的性能5倍的價(jià)格”是一個(gè)很好的方式來(lái)思考如何比較16個(gè)CS-2節(jié)點(diǎn)與4個(gè)節(jié)點(diǎn)。 我們不知道該算法是否會(huì)縮減到兩個(gè)或一個(gè)節(jié)點(diǎn)設(shè)置,從而在縮減CS-2集群規(guī)模時(shí)削減20%的成本。但很可能會(huì)。但話說(shuō)回來(lái),當(dāng)你可以在更短的時(shí)間內(nèi)使用更大的系統(tǒng)時(shí),你為什么要嘗試在更小的系統(tǒng)上訓(xùn)練更長(zhǎng)的時(shí)間呢?只有在預(yù)算緊張、時(shí)間不重要的情況下,你才會(huì)這么做。 因此,我們對(duì)上述成本的猜測(cè)。顯然,在一個(gè)四節(jié)點(diǎn)集群上,隨著模型變得越來(lái)越大,處理每組參數(shù)的成本也會(huì)增加。GPT-3XL型號(hào)的每100萬(wàn)個(gè)參數(shù)只有1.92美元,但按照Cerebras和Cirrascale的定價(jià),GPT 70B型號(hào)的價(jià)格是35.71美元。每100萬(wàn)個(gè)參數(shù)的價(jià)格上漲了18.6倍,因?yàn)閰?shù)數(shù)量增加了53.8倍。 我們的猜測(cè)是,在一個(gè)四節(jié)點(diǎn)CS-2集群上運(yùn)行一個(gè)5000億參數(shù)的GPT模型需要大約一年的時(shí)間,而在一個(gè)16節(jié)點(diǎn)集群上,您可能一年就能處理2萬(wàn)億個(gè)參數(shù);蛘撸鶕(jù)我們的估計(jì),這將讓你從零開(kāi)始訓(xùn)練GPT 175B超過(guò)13次——每個(gè)月調(diào)用一次,并有備用的。這就是你花3000萬(wàn)美元擁有自己的仙女座CS-2超級(jí)計(jì)算機(jī)的結(jié)果。但是,如果我們對(duì)AI模型工作室服務(wù)規(guī)模的定價(jià)和性能的估計(jì)是正確的,那么租用13次GPT 175B訓(xùn)練可能會(huì)花費(fèi)你1.42億美元。 因此,一些人會(huì)租用來(lái)訓(xùn)練,然后當(dāng)他們需要更多的訓(xùn)練和更大的模型時(shí),經(jīng)濟(jì)狀況會(huì)迫使他們購(gòu)買(mǎi)。查詢進(jìn)一步信息,請(qǐng)?jiān)L問(wèn)官方網(wǎng)站 http://www.nextplatform.com/2022/12/01/counting-the-cost-of-training-large-language-models/。(編譯:Donna Zhang,張底剪報(bào))
|
|
| → 『關(guān)閉窗口』 |
|
| |
|
|
|
|
|
|