|
 【產(chǎn)通社,1月22日訊】d-Matrix公司官網(wǎng)消息,其聯(lián)合創(chuàng)始人蘇迪普·博賈和他的團(tuán)隊(duì)討論了一種針對生成推理優(yōu)化的grounds-up聯(lián)合設(shè)計(jì)的硬件和軟件架構(gòu)。 基于轉(zhuǎn)換器的大型語言模型(LLM)已經(jīng)成為現(xiàn)代自然語言處理的基礎(chǔ)架構(gòu)。今天,在最先進(jìn)的系統(tǒng)上部署LLM推理的高昂成本限制了生成式人工智能的大規(guī)模部署。此外,低延遲LLM推理在今天要么是不可能的,要么是昂貴的,它可以開啟新的用例,如思維鏈推理、結(jié)對編程、代理工作流等。 為了降低服務(wù)成本,同時(shí)提供可接受的延遲,行業(yè)已經(jīng)轉(zhuǎn)向更小的模型、稀疏模型(如混合專家)和替代注意力機(jī)制(如組查詢注意力(GQA))。然而,昂貴的部署成本和高推理延遲的關(guān)鍵問題仍然存在。 在加州大學(xué)伯克利分校機(jī)器學(xué)習(xí)硬件課程的客座演講中,d-Matrix的聯(lián)合創(chuàng)始人Bhoja和他的團(tuán)隊(duì)討論了一種針對生成推理優(yōu)化的grounds-up聯(lián)合設(shè)計(jì)的硬件和軟件架構(gòu)。Bhoja介紹了LLM推理工作負(fù)載的關(guān)鍵特征以及d-Matrix的一種新方法,解釋了他的團(tuán)隊(duì)如何設(shè)計(jì)一種模塊化的基于小芯片的CGRA式架構(gòu),這種架構(gòu)是為LLM推理量身定制的,并介紹了如何將架構(gòu)從小芯片橫向擴(kuò)展到多個(gè)節(jié)點(diǎn)。 除了硬件考慮之外,該團(tuán)隊(duì)還關(guān)注現(xiàn)代系統(tǒng)的相關(guān)軟件設(shè)計(jì),包括集體通信算法和分布式推理服務(wù)堆棧,重點(diǎn)關(guān)注它們?nèi)绾闻c模型架構(gòu)創(chuàng)新和全堆棧技術(shù)進(jìn)行互操作。通過這次檢查,d-Matrix團(tuán)隊(duì)展示了超低延遲、高吞吐量的LLM推理。 查詢進(jìn)一步信息,請?jiān)L問官方網(wǎng)站 http://www.d-matrix.ai/democratizing-ai-through-hardware-software-codesign-for-llm-inference。(鐠元素,產(chǎn)通數(shù)造) (完)
|