2025精品视频中文字幕,中文字幕免费在线观看视频,欧美毛片视频,天堂AV在线免费观看,撸撸在线视频,一本久道综合在线,亚洲AV成人精品日韩一区,人人操人人操人人操,日韩综合第一区,最新亚洲人成无码网站,天天艹天天射,爱视频一区,国自产拍久久,国产精品AAA,91精品国产亚洲,国精产品一二四区黑人

【產(chǎn)通社，12月22日訊】摩爾線程（Moore Threads；股票代碼：688795）官網(wǎng)消息，其創(chuàng)新研究論文《TurboRAG: Accelerating Retrieval-Augmented Generation with Precomputed KV Caches for Chunked Text》近日被自然語言處理領(lǐng)域的頂級國際會議EMNLP 2025收錄。該論文提出了一種創(chuàng)新的“混合離線-在線”RAG推理架構(gòu)，通過預(yù)計算與復(fù)用KV Cache（Key-value Cache），顯著提升生成式檢索增強系統(tǒng)的推理效率，為大模型在高頻交互與實時響應(yīng)場景中的應(yīng)用提供了全新的技術(shù)解決方案。

傳統(tǒng)Retrieval-Augmented Generation（RAG）系統(tǒng)在處理多文檔任務(wù)時面臨顯著瓶頸：頻繁檢索文檔需要重復(fù)編碼，帶來大量冗余計算；長上下文拼接注意力機制復(fù)雜度呈平方級增長，嚴重影響首令牌生成速度，導(dǎo)致延遲；同時，顯存占用過高也限制了批處理規(guī)模，影響系統(tǒng)整體吞吐，形成性能瓶頸。這些問題制約了RAG系統(tǒng)在實時交互場景中的廣泛應(yīng)用。

摩爾線程TurboRAG通過引入“分塊預(yù)計算KV Cache”與“位置重編碼”兩項核心技術(shù)，在不改變模型架構(gòu)的前提下，實現(xiàn)了多文檔上下文的快速拼接與高效推理。實驗結(jié)果顯示，在LongBench等多文檔問答基準測試中，TurboRAG將首令牌生成速度最高加快9.4倍，平均提升8.6倍，同時在線推理計算量大幅降低98.5%。在大模型文檔問答的準確性基準RGB中，即使噪聲文檔比例高達80%，TurboRAG的答案準確率仍與GPT-4o相當，且模型通用能力保持穩(wěn)定。該技術(shù)已成功在Qwen2、LLaMA等主流開源模型上完成驗證，展現(xiàn)出優(yōu)秀的通用性與工程落地潛力。

作為專注于智能計算創(chuàng)新的科技企業(yè)，摩爾線程持續(xù)深耕大模型推理加速與系統(tǒng)優(yōu)化領(lǐng)域。本次被EMNLP 2025收錄的TurboRAG研究成果，體現(xiàn)了公司在"算法-系統(tǒng)協(xié)同設(shè)計"方面的技術(shù)實力。查詢進一步信息，請訪問官方網(wǎng)站

http://developer.mthreads.com。（張怡，產(chǎn)通發(fā)布）（完）