| 摩爾線(xiàn)程大模型對(duì)齊研究獲頂會(huì)認(rèn)可:URPO框架入選AAAI 2026 |
| 2025/12/5 11:11:35 |
|
|
|
|
| |
|
|
 【產(chǎn)通社,12月5日訊】摩爾線(xiàn)程(Moore Threads;股票代碼:688795)官網(wǎng)消息,其近日在人工智能前沿領(lǐng)域取得重要突破,其提出的新一代大語(yǔ)言模型對(duì)齊框架——URPO統(tǒng)一獎(jiǎng)勵(lì)與策略?xún)?yōu)化,相關(guān)研究論文已被人工智能領(lǐng)域的國(guó)際頂級(jí)學(xué)術(shù)會(huì)議AAAI 2026收錄。這一成果標(biāo)志著摩爾線(xiàn)程在大模型基礎(chǔ)技術(shù)探索上邁出了關(guān)鍵一步,為簡(jiǎn)化大模型訓(xùn)練流程、突破模型性能上限提供了全新的技術(shù)路徑。 在題為《URPO:A Unified Reward & Policy Optimization Framework for Large Language Models》的論文中,摩爾線(xiàn)程AI研究團(tuán)隊(duì)提出了URPO統(tǒng)一獎(jiǎng)勵(lì)與策略?xún)?yōu)化(Unified Reward & Policy Optimization,URPO)框架,創(chuàng)新地將“指令遵循”(選手)和“獎(jiǎng)勵(lì)評(píng)判”(裁判)兩大角色融合于單一模型中,并在統(tǒng)一訓(xùn)練階段實(shí)現(xiàn)同步優(yōu)化。URPO從以下三方面攻克技術(shù)挑戰(zhàn): ▼ 數(shù)據(jù)格式統(tǒng)一:將異構(gòu)的偏好數(shù)據(jù)、可驗(yàn)證推理數(shù)據(jù)和開(kāi)放式指令數(shù)據(jù),統(tǒng)一重構(gòu)為適用于GRPO訓(xùn)練的信號(hào)格式。 ▼ 自我獎(jiǎng)勵(lì)循環(huán):針對(duì)開(kāi)放式指令,模型生成多個(gè)候選回答后,自主調(diào)用其“裁判”角色進(jìn)行評(píng)分,并將結(jié)果作為GRPO訓(xùn)練的獎(jiǎng)勵(lì)信號(hào),形成一個(gè)高效的自我改進(jìn)循環(huán)。 ▼ 協(xié)同進(jìn)化機(jī)制:通過(guò)在同一批次中混合處理三類(lèi)數(shù)據(jù),模型的生成能力與評(píng)判能力得以協(xié)同進(jìn)化。生成能力提升帶動(dòng)評(píng)判更精準(zhǔn),而精準(zhǔn)評(píng)判進(jìn)一步引導(dǎo)生成質(zhì)量躍升,從而突破靜態(tài)獎(jiǎng)勵(lì)模型的性能瓶頸。  實(shí)驗(yàn)結(jié)果顯示,基于Qwen2.5-7B模型,URPO框架顯著超越依賴(lài)獨(dú)立獎(jiǎng)勵(lì)模型的傳統(tǒng)基線(xiàn):在AlpacaEval指令跟隨榜單上,得分從42.24提升至44.84;在綜合推理能力測(cè)試中,平均分從32.66提升至35.66。尤為突出的是,作為訓(xùn)練的“副產(chǎn)品”,該模型內(nèi)部自然涌現(xiàn)出卓越的評(píng)判能力,在RewardBench獎(jiǎng)勵(lì)模型評(píng)測(cè)中取得85.15的高分,表現(xiàn)甚至優(yōu)于其替代的專(zhuān)用獎(jiǎng)勵(lì)模型(83.55分)。  除了卓越的性能表現(xiàn),URPO框架在工程落地方面同樣展現(xiàn)出顯著優(yōu)勢(shì)。該技術(shù)基于GRPO算法進(jìn)行輕量化迭代實(shí)現(xiàn),在代碼層面僅需添加少量補(bǔ)丁即可完成部署,大幅降低了技術(shù)遷移與應(yīng)用門(mén)檻。目前,URPO已在摩爾線(xiàn)程自研計(jì)算卡上實(shí)現(xiàn)穩(wěn)定高效運(yùn)行,充分發(fā)揮軟硬件協(xié)同優(yōu)化的底層優(yōu)勢(shì);同時(shí),摩爾線(xiàn)程已完成VERL等主流強(qiáng)化學(xué)習(xí)框架的深度適配,讓這一簡(jiǎn)潔高效的對(duì)齊方案能快速融入現(xiàn)有研發(fā)體系,既保留了技術(shù)延續(xù)性,又為行業(yè)提供了兼具性能、效率與兼容性的一體化解決方案。  URPO框架的成功,是摩爾線(xiàn)程堅(jiān)持底層技術(shù)創(chuàng)新、攻堅(jiān)大模型核心挑戰(zhàn)的重要成果。該研究不僅提供了一種更簡(jiǎn)潔、高效、性能更強(qiáng)的對(duì)齊方案,更通過(guò)“選手-裁判”一體化的設(shè)計(jì),為大模型實(shí)現(xiàn)持續(xù)自我進(jìn)化開(kāi)辟了新路徑。未來(lái),摩爾線(xiàn)程將繼續(xù)深耕大模型等前沿技術(shù)領(lǐng)域,以堅(jiān)實(shí)的創(chuàng)新成果推動(dòng)人工智能產(chǎn)業(yè)實(shí)現(xiàn)跨越式發(fā)展。查詢(xún)進(jìn)一步信息,請(qǐng)?jiān)L問(wèn)官方網(wǎng)站 http://developer.mthreads.com。(張怡,產(chǎn)通發(fā)布) (完)
|
|
| → 『關(guān)閉窗口』 |
|
| |
|
|
|
|
|
|