99一区二区三区,国产不卡AV在线,精品呻吟A,人人操人人爱人人爽,亚洲AⅤ无码一区二区波多野按摩,精品国产91久久久久久一区黄无,亚洲日韩aa,国产一区二区三区九县,av在线精品,精品一区区,av天堂中文在线观看,国产精品一区二区色婷婷,亚洲精品国产精品乱码不99海的味道 ,精品蜜桃视频网,国产免费AV片在线观看,人人操人人干人人爽在线观看91护士站

【產(chǎn)通社，12月5日訊】摩爾線(xiàn)程（Moore Threads；股票代碼：688795）官網(wǎng)消息，其近日在人工智能前沿領(lǐng)域取得重要突破，其提出的新一代大語(yǔ)言模型對(duì)齊框架——URPO統(tǒng)一獎(jiǎng)勵(lì)與策略?xún)?yōu)化，相關(guān)研究論文已被人工智能領(lǐng)域的國(guó)際頂級(jí)學(xué)術(shù)會(huì)議AAAI 2026收錄。這一成果標(biāo)志著摩爾線(xiàn)程在大模型基礎(chǔ)技術(shù)探索上邁出了關(guān)鍵一步，為簡(jiǎn)化大模型訓(xùn)練流程、突破模型性能上限提供了全新的技術(shù)路徑。

在題為《URPO:A Unified Reward & Policy Optimization Framework for Large Language Models》的論文中，摩爾線(xiàn)程AI研究團(tuán)隊(duì)提出了URPO統(tǒng)一獎(jiǎng)勵(lì)與策略?xún)?yōu)化（Unified Reward & Policy Optimization，URPO）框架，創(chuàng)新地將“指令遵循”（選手）和“獎(jiǎng)勵(lì)評(píng)判”（裁判）兩大角色融合于單一模型中，并在統(tǒng)一訓(xùn)練階段實(shí)現(xiàn)同步優(yōu)化。URPO從以下三方面攻克技術(shù)挑戰(zhàn)：
▼ 數(shù)據(jù)格式統(tǒng)一：將異構(gòu)的偏好數(shù)據(jù)、可驗(yàn)證推理數(shù)據(jù)和開(kāi)放式指令數(shù)據(jù)，統(tǒng)一重構(gòu)為適用于GRPO訓(xùn)練的信號(hào)格式。
▼ 自我獎(jiǎng)勵(lì)循環(huán)：針對(duì)開(kāi)放式指令，模型生成多個(gè)候選回答后，自主調(diào)用其“裁判”角色進(jìn)行評(píng)分，并將結(jié)果作為GRPO訓(xùn)練的獎(jiǎng)勵(lì)信號(hào)，形成一個(gè)高效的自我改進(jìn)循環(huán)。
▼ 協(xié)同進(jìn)化機(jī)制：通過(guò)在同一批次中混合處理三類(lèi)數(shù)據(jù)，模型的生成能力與評(píng)判能力得以協(xié)同進(jìn)化。生成能力提升帶動(dòng)評(píng)判更精準(zhǔn)，而精準(zhǔn)評(píng)判進(jìn)一步引導(dǎo)生成質(zhì)量躍升，從而突破靜態(tài)獎(jiǎng)勵(lì)模型的性能瓶頸。

實(shí)驗(yàn)結(jié)果顯示，基于Qwen2.5-7B模型，URPO框架顯著超越依賴(lài)獨(dú)立獎(jiǎng)勵(lì)模型的傳統(tǒng)基線(xiàn)：在AlpacaEval指令跟隨榜單上，得分從42.24提升至44.84；在綜合推理能力測(cè)試中，平均分從32.66提升至35.66。尤為突出的是，作為訓(xùn)練的“副產(chǎn)品”，該模型內(nèi)部自然涌現(xiàn)出卓越的評(píng)判能力，在RewardBench獎(jiǎng)勵(lì)模型評(píng)測(cè)中取得85.15的高分，表現(xiàn)甚至優(yōu)于其替代的專(zhuān)用獎(jiǎng)勵(lì)模型（83.55分）。

除了卓越的性能表現(xiàn)，URPO框架在工程落地方面同樣展現(xiàn)出顯著優(yōu)勢(shì)。該技術(shù)基于GRPO算法進(jìn)行輕量化迭代實(shí)現(xiàn)，在代碼層面僅需添加少量補(bǔ)丁即可完成部署，大幅降低了技術(shù)遷移與應(yīng)用門(mén)檻。目前，URPO已在摩爾線(xiàn)程自研計(jì)算卡上實(shí)現(xiàn)穩(wěn)定高效運(yùn)行，充分發(fā)揮軟硬件協(xié)同優(yōu)化的底層優(yōu)勢(shì)；同時(shí)，摩爾線(xiàn)程已完成VERL等主流強(qiáng)化學(xué)習(xí)框架的深度適配，讓這一簡(jiǎn)潔高效的對(duì)齊方案能快速融入現(xiàn)有研發(fā)體系，既保留了技術(shù)延續(xù)性，又為行業(yè)提供了兼具性能、效率與兼容性的一體化解決方案。

URPO框架的成功，是摩爾線(xiàn)程堅(jiān)持底層技術(shù)創(chuàng)新、攻堅(jiān)大模型核心挑戰(zhàn)的重要成果。該研究不僅提供了一種更簡(jiǎn)潔、高效、性能更強(qiáng)的對(duì)齊方案，更通過(guò)“選手-裁判”一體化的設(shè)計(jì)，為大模型實(shí)現(xiàn)持續(xù)自我進(jìn)化開(kāi)辟了新路徑。未來(lái)，摩爾線(xiàn)程將繼續(xù)深耕大模型等前沿技術(shù)領(lǐng)域，以堅(jiān)實(shí)的創(chuàng)新成果推動(dòng)人工智能產(chǎn)業(yè)實(shí)現(xiàn)跨越式發(fā)展。查詢(xún)進(jìn)一步信息，請(qǐng)?jiān)L問(wèn)官方網(wǎng)站

http://developer.mthreads.com。（張怡，產(chǎn)通發(fā)布）（完）