|
 【產(chǎn)通社,12月22日訊】摩爾線程(Moore Threads;股票代碼:688795)官網(wǎng)消息,其創(chuàng)新研究論文《TurboRAG: Accelerating Retrieval-Augmented Generation with Precomputed KV Caches for Chunked Text》近日被自然語言處理領(lǐng)域的頂級國際會議EMNLP 2025收錄。該論文提出了一種創(chuàng)新的“混合離線-在線”RAG推理架構(gòu),通過預(yù)計算與復(fù)用KV Cache(Key-value Cache),顯著提升生成式檢索增強系統(tǒng)的推理效率,為大模型在高頻交互與實時響應(yīng)場景中的應(yīng)用提供了全新的技術(shù)解決方案。 傳統(tǒng)Retrieval-Augmented Generation(RAG)系統(tǒng)在處理多文檔任務(wù)時面臨顯著瓶頸:頻繁檢索文檔需要重復(fù)編碼,帶來大量冗余計算;長上下文拼接注意力機制復(fù)雜度呈平方級增長,嚴重影響首令牌生成速度,導(dǎo)致延遲;同時,顯存占用過高也限制了批處理規(guī)模,影響系統(tǒng)整體吞吐,形成性能瓶頸。這些問題制約了RAG系統(tǒng)在實時交互場景中的廣泛應(yīng)用。 摩爾線程TurboRAG通過引入“分塊預(yù)計算KV Cache”與“位置重編碼”兩項核心技術(shù),在不改變模型架構(gòu)的前提下,實現(xiàn)了多文檔上下文的快速拼接與高效推理。實驗結(jié)果顯示,在LongBench等多文檔問答基準測試中,TurboRAG將首令牌生成速度最高加快9.4倍,平均提升8.6倍,同時在線推理計算量大幅降低98.5%。在大模型文檔問答的準確性基準RGB中,即使噪聲文檔比例高達80%,TurboRAG的答案準確率仍與GPT-4o相當,且模型通用能力保持穩(wěn)定。該技術(shù)已成功在Qwen2、LLaMA等主流開源模型上完成驗證,展現(xiàn)出優(yōu)秀的通用性與工程落地潛力。 作為專注于智能計算創(chuàng)新的科技企業(yè),摩爾線程持續(xù)深耕大模型推理加速與系統(tǒng)優(yōu)化領(lǐng)域。本次被EMNLP 2025收錄的TurboRAG研究成果,體現(xiàn)了公司在"算法-系統(tǒng)協(xié)同設(shè)計"方面的技術(shù)實力。查詢進一步信息,請訪問官方網(wǎng)站 http://developer.mthreads.com。(張怡,產(chǎn)通發(fā)布) (完)
|