青青青AV,福利视频日韩,亚洲天堂A√,在线观看性爱视频,亚洲日韩AV电影,精品人妇,一区二区三区四区五区麻豆视频,亚洲AV无码成人精品一区,中文字幕日韩视频,俺也去av,国产永久免费,99精品少妇,天天日天天干天天操天天射毛片 ,亚洲日韩精品乱码中文字幕,中文字幕在线观看成人,四个熟妇搡BBBB搡BBBB

<listing id="gzmot"><b id="gzmot"></b></listing>

<listing id="gzmot"></listing>

今天是：2026年3月17日星期二您現(xiàn)在位于：首頁(yè) → 技術(shù) → 辦公電子（技術(shù)聚焦）

訓(xùn)練大型語(yǔ)言模型：模型驅(qū)動(dòng)內(nèi)容，內(nèi)容驅(qū)動(dòng)模型

2022/12/2 12:16:29

訓(xùn)練大型語(yǔ)言模型和推薦系統(tǒng)的成本已經(jīng)變得越來(lái)越清楚，這可以說(shuō)是推動(dòng)人工智能（AI）進(jìn)入企業(yè)的兩個(gè)最重要的工作負(fù)載。但由于機(jī)器學(xué)習(xí)系統(tǒng)制造商Cerebras Systems和云計(jì)算合作伙伴Cirrascale提供了一種新的系統(tǒng)租賃服務(wù)來(lái)訓(xùn)練GPT模型，我們現(xiàn)在有了一些實(shí)際的定價(jià)，可以顯示在什么規(guī)模下運(yùn)行什么GPT模型的成本。

這是我們第一次從剩余的人工智能培訓(xùn)新貴中看到這樣的公開(kāi)數(shù)據(jù)，其中包括Cerebras，SambaNova Systems，Graphcore和英特爾的Habana Labs也許我們對(duì)后者很慷慨，英特爾希望削減產(chǎn)品線和人員，因?yàn)樗鼘で髲默F(xiàn)在到2025年期間從其賬面上減少80億至100億美元的成本。

Cerebras和Cirrascale透露的在CS-2超級(jí)計(jì)算機(jī)上進(jìn)行特定GPT AI訓(xùn)練的定價(jià)信息是與Jasper的合作伙伴關(guān)系一起宣布的，Jasper是眾多AI應(yīng)用程序提供商之一，他們正在幫助各種行業(yè)和規(guī)模的企業(yè)找出如何部署大型語(yǔ)言模型來(lái)驅(qū)動(dòng)他們的應(yīng)用程序。就像地球上的其他人一樣，Jasper一直在Nvidia GPUs上訓(xùn)練其AI模型，它正在尋找一種更簡(jiǎn)單、更快速的方法來(lái)訓(xùn)練模型，這就是它謀生的方式。

據(jù)該公司的聯(lián)合創(chuàng)始人兼首席執(zhí)行官Dave Rogenmoser稱，Jasper確實(shí)以此為生。該公司擁有近10萬(wàn)名付費(fèi)用戶，他們使用Jasper系統(tǒng)做各種事情，從寫(xiě)博客到創(chuàng)建內(nèi)容營(yíng)銷再到生成技術(shù)手冊(cè)。這些大型語(yǔ)言模型還不能生成完美的內(nèi)容，但是如果輸入正確，它們可以在相當(dāng)短的時(shí)間內(nèi)讓內(nèi)容達(dá)到需要的70%左右，這大大加快了許多公司的內(nèi)容創(chuàng)建過(guò)程。(信不信由你，大多數(shù)人不喜歡寫(xiě)作，他們也常常寫(xiě)得不是很快。)

總部位于奧斯汀的Jasper成立于2021年1月，在2021年6月籌集了600萬(wàn)美元的種子資金，并在Insight Partners推動(dòng)的1.25億美元首輪融資中獲得了最高估值，該公司的估值為15億美元。它是許多基于LLM提供服務(wù)的初創(chuàng)公司之一，現(xiàn)有的應(yīng)用軟件提供商也在想辦法以各種方式利用LLM來(lái)擴(kuò)充他們的模型。

“我們認(rèn)為大型語(yǔ)言模型不夠高端，我們剛剛開(kāi)始看到它們的影響，”Cerebras的聯(lián)合創(chuàng)始人兼首席執(zhí)行官安Andrew Feldman解釋道，該公司是晶圓級(jí)處理的先驅(qū)，也是AI訓(xùn)練硬件的新貴�！霸谏鷳B(tài)系統(tǒng)的這三個(gè)層次中，無(wú)論是硬件層、基礎(chǔ)設(shè)施層和基礎(chǔ)模型，還是應(yīng)用層，都會(huì)有贏家和新的出現(xiàn)。明年，你將看到大型語(yǔ)言模型在經(jīng)濟(jì)各個(gè)領(lǐng)域的廣泛崛起和影響�！�

Cerebras一直以其“Andromeda”AI超級(jí)計(jì)算機(jī)做文章，這是一組16個(gè)CS-2晶圓級(jí)系統(tǒng)捆綁在一起的單個(gè)系統(tǒng)，具有超過(guò)1350萬(wàn)個(gè)核心，在16位浮點(diǎn)精度下提供120 petaflops的性能，密集矩陣是稀疏矩陣（sparse matrice）的8倍。該系統(tǒng)的成本不到3000萬(wàn)美元，即使對(duì)于像Jasper這樣的硅谷獨(dú)角獸來(lái)說(shuō)，這也是一大筆錢(qián)。

正如任何工作負(fù)載的情況一樣，在一定的規(guī)模和利用率水平下，購(gòu)買(mǎi)CS-2群集將比租賃一個(gè)更有經(jīng)濟(jì)意義，我們不會(huì)驚訝地看到像Jasper這樣的公司為此付出資金，原因很快就會(huì)顯而易見(jiàn)。

模型驅(qū)動(dòng)內(nèi)容，內(nèi)容驅(qū)動(dòng)模型

Jasper的業(yè)務(wù)有兩個(gè)驅(qū)動(dòng)因素，這是它遠(yuǎn)離分布式GPU AI訓(xùn)練的耦合模型并行和數(shù)據(jù)并行世界的原因，當(dāng)涉及到為跨越數(shù)千或數(shù)萬(wàn)個(gè)GPU運(yùn)行的AI訓(xùn)練分割數(shù)據(jù)和任務(wù)時(shí)，會(huì)有一些痛苦的過(guò)程，并進(jìn)入僅支持?jǐn)?shù)據(jù)并行的大腦的可愛(ài)懷抱。

“首先，企業(yè)想要個(gè)性化的模型，而且非常想要，”Rogenmoser解釋道�！八麄兿Ｍ米约旱恼Z(yǔ)言對(duì)他們進(jìn)行培訓(xùn)，希望他們接受知識(shí)庫(kù)和產(chǎn)品目錄方面的培訓(xùn)。他們希望他們接受品牌聲音的培訓(xùn)——他們希望他們真正成為品牌的延伸。他們希望他們的銷售團(tuán)隊(duì)以同樣的方式說(shuō)話，并立即跟上新發(fā)布的產(chǎn)品信息，他們希望他們都以一致的方式說(shuō)話。當(dāng)人們進(jìn)入公司時(shí)，他們希望他們立即跟上速度，公司里的每個(gè)人都用某些詞說(shuō)話，而不用某些詞。他們希望這種情況會(huì)越來(lái)越好。這是第二部分——他們希望這些模型變得更好，并希望它們根據(jù)過(guò)去的使用數(shù)據(jù)和性能進(jìn)行自我優(yōu)化。如果他們寫(xiě)了一個(gè)臉書(shū)廣告標(biāo)題，并最終成為贏家，他們希望模型能夠了解正在發(fā)生的事情，并能夠圍繞這些事情進(jìn)行自我優(yōu)化�！�

Cerebras產(chǎn)品副總裁Andy Hock告訴Next Platform，情況甚至更復(fù)雜。

“我們?cè)贘asper以外的市場(chǎng)上觀察到的一個(gè)更廣泛的現(xiàn)象是，許多公司希望能夠快速研究和開(kāi)發(fā)這些用于特定商業(yè)應(yīng)用的大規(guī)模模型，”Hock說(shuō)�！暗�，傳統(tǒng)云中存在的基礎(chǔ)設(shè)施并不能讓這種大規(guī)模的研發(fā)變得容易。所以能夠問(wèn)這樣的問(wèn)題——我應(yīng)該從頭開(kāi)始訓(xùn)練嗎？還是應(yīng)該微調(diào)一個(gè)開(kāi)源的公共檢查點(diǎn)？最好的答案是什么？如何最有效地利用計(jì)算來(lái)降低商品成本，從而為我的客戶提供最佳服務(wù)？在許多情況下，使用傳統(tǒng)基礎(chǔ)架構(gòu)來(lái)詢問(wèn)這些問(wèn)題不僅成本高昂，而且不切實(shí)際。”

這就是為什么Cerebras和Cirrascale將Cerebras AI模型工作室租賃模型整合在一起，該模型基于CS-2 iron集群，在兩家公司擁有的基礎(chǔ)設(shè)施上運(yùn)行。也沒(méi)有說(shuō)他們部署了多少CS-2鐵，但從理論上講，Cerebras架構(gòu)允許它擴(kuò)展到相當(dāng)大的規(guī)模，正如我們過(guò)去在這里和那里討論過(guò)的那樣，到目前為止，單個(gè)系統(tǒng)映像中的192個(gè)CS-2節(jié)點(diǎn)總共有1.63億個(gè)內(nèi)核。

在一個(gè)主要的云上爭(zhēng)奪GPU的可用性是一回事，將模型和數(shù)據(jù)分解到數(shù)百、數(shù)千或數(shù)萬(wàn)個(gè)GPU上運(yùn)行是另一回事。付錢(qián)是另一回事。

因此，來(lái)自Cerebras和Cirrascale的AI模型工作室的中心主題是可預(yù)測(cè)性，而不僅僅是模糊地聲稱AI模型可以比在亞馬遜網(wǎng)絡(luò)服務(wù)上使用GPU快8倍，而且價(jià)格只有一半。

“我們有AI研究實(shí)驗(yàn)室和一些金融機(jī)構(gòu)作為客戶，他們都想訓(xùn)練自己的模型，并使用自己的數(shù)據(jù)來(lái)提高這些模型的準(zhǔn)確性，”Cirrascale聯(lián)合創(chuàng)始人兼首席執(zhí)行官PJ Go說(shuō)�！八麄兿Ｍ院侠淼膬r(jià)格快速完成這項(xiàng)工作�；蛟S最重要的是，他們想要一個(gè)可預(yù)測(cè)的價(jià)格。他們不想給云服務(wù)提供商開(kāi)一張無(wú)止境的空白支票來(lái)訓(xùn)練一個(gè)模型。”

因此，在一個(gè)完美的例子中，計(jì)算能力就是金錢(qián)，這里是當(dāng)從頭開(kāi)始訓(xùn)練GPT-3運(yùn)行時(shí)，在四節(jié)點(diǎn)CS-2集群上的AI Model Studio服務(wù)的定價(jià):

“Chinchilla Point”是數(shù)據(jù)層，用記號(hào)來(lái)度量，它是有效訓(xùn)練模型和收斂到正確答案所需要的。(有了大的語(yǔ)言模型，看了或者聽(tīng)了就知道了。)通過(guò)一個(gè)模型推動(dòng)太多的數(shù)據(jù)會(huì)產(chǎn)生收益遞減，有時(shí)你可能會(huì)走得太遠(yuǎn)，就像如果你太激進(jìn)，你可能會(huì)過(guò)度擬合一條統(tǒng)計(jì)曲線。(你看到的時(shí)候也知道。)

模型越大，訓(xùn)練時(shí)間就越長(zhǎng)

顯然，模型在參數(shù)方面的大小和令牌的數(shù)量成比例，一般來(lái)說(shuō)，我們可以說(shuō)，模型越大，在設(shè)定的配置上訓(xùn)練所需的時(shí)間就越長(zhǎng)。同樣，這是有道理的，因?yàn)殡S著AI訓(xùn)練努力的擴(kuò)大，你只是加載和處理越來(lái)越多的數(shù)據(jù)，以獲得越來(lái)越好的結(jié)果。

你知道我們，我們不能留下一個(gè)像Cerebras和Cirrascale單獨(dú)創(chuàng)建的表，所以我們對(duì)每個(gè)參數(shù)的成本以及每天處理的令牌和每天花費(fèi)的美元做了一點(diǎn)計(jì)算。我們還嘗試計(jì)算了三種最大型號(hào)的價(jià)格和性能——GPT NeoX、GPT 70B和GPT 175B——它們運(yùn)行在仙女座菌株級(jí)機(jī)器上，具有16個(gè)CS-2節(jié)點(diǎn)，而不是原始表格中顯示的4個(gè)CS-2節(jié)點(diǎn)。

我們放入的這些跳躍因子需要解釋。最終，我們都想知道訓(xùn)練的天數(shù)和價(jià)格是如何隨著每一個(gè)GPT模型的擴(kuò)展而上漲的，然后我們想知道我們?nèi)绾螖U(kuò)展鐵，這樣我們就可以加快訓(xùn)練的時(shí)間。跳躍因子計(jì)算從一個(gè)GPT模型到下一個(gè)模型的增量，我們跳過(guò)T-5 11B模型expect，因?yàn)樗cGPT-3 6.7B的運(yùn)行相比。

在四節(jié)點(diǎn)CS-2集群上的GPT-3參數(shù)范圍的低端，增加一些參數(shù)會(huì)引入比您預(yù)期的長(zhǎng)得多的訓(xùn)練時(shí)間。從13億個(gè)參數(shù)移動(dòng)到60億個(gè)參數(shù)，數(shù)據(jù)增加了4.6倍，但訓(xùn)練時(shí)間增加了20倍。從67億到130億個(gè)參數(shù)又增加了1.9倍，但訓(xùn)練時(shí)間增加了3.5倍。在GPT NeoX運(yùn)行中，參數(shù)增加了1.5倍，但訓(xùn)練時(shí)間僅增加了1.2倍。因此，隨著模型大小的增加，這并不是精確的線性關(guān)系。

正如我們?cè)诒驹略缧⿻r(shí)候討論的那樣，CS-2機(jī)器幾乎是線性擴(kuò)展的。4個(gè)節(jié)點(diǎn)幾乎是兩個(gè)節(jié)點(diǎn)的兩倍，8個(gè)節(jié)點(diǎn)幾乎是4個(gè)節(jié)點(diǎn)的兩倍，16個(gè)節(jié)點(diǎn)幾乎是8個(gè)節(jié)點(diǎn)的兩倍。當(dāng)我們問(wèn)價(jià)格是否也線性增長(zhǎng)時(shí)，F(xiàn)eldman說(shuō)這似乎不公平，這對(duì)NUMA架構(gòu)來(lái)說(shuō)是正確的，隨著規(guī)模的擴(kuò)大，它們會(huì)變得更貴。Feldman建議“4倍的性能5倍的價(jià)格”是一個(gè)很好的方式來(lái)思考如何比較16個(gè)CS-2節(jié)點(diǎn)與4個(gè)節(jié)點(diǎn)。

我們不知道該算法是否會(huì)縮減到兩個(gè)或一個(gè)節(jié)點(diǎn)設(shè)置，從而在縮減CS-2集群規(guī)模時(shí)削減20%的成本。但很可能會(huì)。但話說(shuō)回來(lái)，當(dāng)你可以在更短的時(shí)間內(nèi)使用更大的系統(tǒng)時(shí)，你為什么要嘗試在更小的系統(tǒng)上訓(xùn)練更長(zhǎng)的時(shí)間呢？只有在預(yù)算緊張、時(shí)間不重要的情況下，你才會(huì)這么做。

因此，我們對(duì)上述成本的猜測(cè)。顯然，在一個(gè)四節(jié)點(diǎn)集群上，隨著模型變得越來(lái)越大，處理每組參數(shù)的成本也會(huì)增加。GPT-3XL型號(hào)的每100萬(wàn)個(gè)參數(shù)只有1.92美元，但按照Cerebras和Cirrascale的定價(jià)，GPT 70B型號(hào)的價(jià)格是35.71美元。每100萬(wàn)個(gè)參數(shù)的價(jià)格上漲了18.6倍，因?yàn)閰?shù)數(shù)量增加了53.8倍。

我們的猜測(cè)是，在一個(gè)四節(jié)點(diǎn)CS-2集群上運(yùn)行一個(gè)5000億參數(shù)的GPT模型需要大約一年的時(shí)間，而在一個(gè)16節(jié)點(diǎn)集群上，您可能一年就能處理2萬(wàn)億個(gè)參數(shù)�；蛘撸鶕�(jù)我們的估計(jì)，這將讓你從零開(kāi)始訓(xùn)練GPT 175B超過(guò)13次——每個(gè)月調(diào)用一次，并有備用的。這就是你花3000萬(wàn)美元擁有自己的仙女座CS-2超級(jí)計(jì)算機(jī)的結(jié)果。但是，如果我們對(duì)AI模型工作室服務(wù)規(guī)模的定價(jià)和性能的估計(jì)是正確的，那么租用13次GPT 175B訓(xùn)練可能會(huì)花費(fèi)你1.42億美元。

因此，一些人會(huì)租用來(lái)訓(xùn)練，然后當(dāng)他們需要更多的訓(xùn)練和更大的模型時(shí)，經(jīng)濟(jì)狀況會(huì)迫使他們購(gòu)買(mǎi)。查詢進(jìn)一步信息，請(qǐng)?jiān)L問(wèn)官方網(wǎng)站