加入收藏
 免費注冊
 用戶登陸
首頁 展示 供求 職場 技術(shù) 智造 職業(yè) 活動 視點 品牌 鐠社區(qū)
今天是:2026年3月17日 星期二   您現(xiàn)在位于: 首頁 →  產(chǎn)通直播 → STEAM(學(xué)術(shù)科研)
香港科大馮諾依曼(von-neumann)團(tuán)隊發(fā)布創(chuàng)新AI圖像生成和編輯器
2025/12/22 11:20:40     

按此在新窗口瀏覽圖片

【產(chǎn)通社,12月22日訊】香港科技大學(xué)(Hong Kong University of Science and Technology, HKUST)官網(wǎng)消息,其馮諾依曼研究院院長兼計算機(jī)科學(xué)及工程學(xué)系講座教授賈佳亞教授帶領(lǐng)的團(tuán)隊成功開發(fā)AI圖像生成和編輯器DreamOmni2,不僅在傳統(tǒng)指令編輯和實體對象生成上表現(xiàn)卓越,更在抽象概念的理解和生成方面有重大突破。
人工智能(AI)圖像編輯及生成模型獲廣泛應(yīng)用于圖像創(chuàng)作,然而其對抽象概念如感覺和氛圍等理解精準(zhǔn)度一直存在局限,且多依賴純文字指令,較難準(zhǔn)確表達(dá)復(fù)雜圖像意思,亦無法捕捉風(fēng)格、材質(zhì)或光影等效果。 由香港科技大學(xué)(科大)馮諾依曼研究院院長兼計算機(jī)科學(xué)及工程學(xué)系講座教授賈佳亞教授帶領(lǐng)的團(tuán)隊成功開發(fā)名為“DreamOmni2”的AI圖像生成和編輯器,不僅擁有卓越的多模態(tài)指令編輯和實體對象生成能力,更在抽象概念的理解和生成方面有重大突破,讓AI不僅能“看圖”,更能“理解圖意”,多方面表現(xiàn)優(yōu)于同類型開源和閉源模型,為AI創(chuàng)作開啟無限可能。

全面性能測試:超越現(xiàn)有開源與閉源模型

在多模態(tài)指令生成任務(wù)中,DreamOmni2能基于圖片中的實體進(jìn)行圖像生成,例如提取圖一的畫作掛在臥室墻上,將圖二盤子的材質(zhì)套用在圖三的水杯,并將水杯放置在桌子上,以生成符合用家要求的新圖像。 
在多模態(tài)指令編輯任務(wù)中,DreamOmni2的表現(xiàn)亦非常優(yōu)秀,例如將圖中帽子的顏色變成與另一張圖毛衣相同的配色。
在同類模型對比中,當(dāng)團(tuán)隊給予多模態(tài)指令,讓圖中人物手執(zhí)另一張圖的物品,以生成新圖像。 結(jié)果顯示,無論是參考對象的一致性,還是指令的遵循度,DreamOmni2的表現(xiàn)最佳。
整體而言,與SOTA開源模型相比,DreamOmni2在實體及抽象概念的多模態(tài)指令編輯表現(xiàn)更佳,在抽象概念指令編輯方面亦優(yōu)于商業(yè)模型Nano Banana,更解決了其他現(xiàn)有模型難以控制生成圖像泛黃或細(xì)節(jié)改變的問題。

新數(shù)據(jù)構(gòu)建 確保圖像質(zhì)量

DreamOmni2以創(chuàng)新的三階段數(shù)據(jù)構(gòu)建模式,提高模型的多模態(tài)指令生成和編輯能力。
第一階段:特征混合。利用基礎(chǔ)模型由文字到圖像生成的能力,構(gòu)建包含具體對象與抽象屬性的高質(zhì)量訓(xùn)練數(shù)據(jù)。
第二階段:訓(xùn)練多模態(tài)指令編輯能力。訓(xùn)練模型提取靶心圖表中的對象或?qū)傩,并根?jù)指令生成參考圖像,以及使用編輯模型修改靶心圖表,通過完整訓(xùn)練提升編輯能力。
第三階段:訓(xùn)練多模態(tài)指令生成能力。訓(xùn)練模型從源圖像中提取對象,以創(chuàng)建全新參考圖像的能力。

框架設(shè)計突破 克服多圖輸入難題

FLUX Kontext是全球首款基于指令的圖像編輯器,但不支持多圖輸入,而DreamOmni2是基于FLUX-Kontext訓(xùn)練的模型,除了延續(xù)原有指令編輯和文本生成能力外,更擁有多參考圖生成和編輯能力。 DreamOmni2采用的先進(jìn)技術(shù),包括:
索引編碼技術(shù):在位置通道中添加索引編碼,以有效區(qū)分不同參考圖像的身份,提升輸入的處理精準(zhǔn)度。
位置編碼偏移機(jī)制:能根據(jù)輸入的參考圖像大小,動態(tài)調(diào)整位置編碼,顯著減少圖像在復(fù)制和貼上時與參考圖混淆的問題。
視覺語言聯(lián)合訓(xùn)練:為解決用家指令不規(guī)則、邏輯復(fù)雜的挑戰(zhàn),團(tuán)隊以視覺語言模型(VLM)與生成模型進(jìn)行聯(lián)合訓(xùn)練,使VLM能更好地理解復(fù)雜指令并轉(zhuǎn)化為結(jié)構(gòu)化格式,大幅提升模型在真實場景的應(yīng)用表現(xiàn)。 

開放公眾使用 應(yīng)用前景無限

DreamOmni2已于著名國際開源社區(qū)Github開放予公眾使用,更獲得數(shù)字藝術(shù)創(chuàng)作者認(rèn)可支持,贊賞模型在理解氛圍感和抽象風(fēng)格方面表現(xiàn)卓越,大幅降低了創(chuàng)作復(fù)雜圖像的門檻。 
賈佳亞教授表示:“DreamOmni2標(biāo)志著多模態(tài)生成技術(shù)邁入全新階段,其不僅在性能上超越現(xiàn)有模型,更在技術(shù)架構(gòu)上為AI圖像生成和編輯模型的未來發(fā)展奠定堅實基礎(chǔ),為生成式人工智能產(chǎn)業(yè)注入新動能,同時為數(shù)字藝術(shù)設(shè)計、個性化媒體制作等領(lǐng)域帶來革命性改變,助力香港產(chǎn)學(xué)研和科研生態(tài)的蓬勃!辈樵冞M(jìn)一步信息,請訪問官方網(wǎng)站http://hkust.edu.hk/zh-hans/news。(鐠元素, 產(chǎn)通數(shù)造)    (完)
→ 『關(guān)閉窗口』
 365pr_net
 [ → 我要發(fā)表 ]
上篇文章:摩爾線程TurboRAG研究成果被自然語言處理頂會EMNL…
下篇文章:強(qiáng)力新材榮登“2025中國精細(xì)化工TOP100”榜單!
  → 評論內(nèi)容 (點擊查看)
您是否還沒有 注冊 或還沒有 登陸 本站?!
 分類瀏覽
官網(wǎng)評測>| 官網(wǎng)  社區(qū)  APP 
STEAM>| 學(xué)術(shù)科研  產(chǎn)品藝術(shù)  技術(shù)規(guī)范  前沿學(xué)者 
半導(dǎo)體器件>| 產(chǎn)品通報  企業(yè)動態(tài)  VIP追蹤 
電子元件>| 產(chǎn)品通報  企業(yè)動態(tài)  VIP追蹤 
消費電子>| 產(chǎn)品通報  企業(yè)動態(tài)  VIP追蹤 
商業(yè)設(shè)備>| 產(chǎn)品通報  企業(yè)動態(tài)  VIP追蹤 
電機(jī)電氣>| 產(chǎn)品通報  企業(yè)動態(tài)  VIP追蹤 
電子材料>| 產(chǎn)品通報  企業(yè)動態(tài)  VIP追蹤 
電子測量>| 產(chǎn)品通報  企業(yè)動態(tài)  VIP追蹤 
電子制造>| 產(chǎn)品通報  企業(yè)動態(tài)  VIP追蹤 
應(yīng)用案例>| 家庭電子  移動電子  辦公電子  通信網(wǎng)絡(luò)  交通工具  工業(yè)電子  安全電子  醫(yī)療電子  智能電網(wǎng)  固態(tài)照明 
工業(yè)控制>| 產(chǎn)品通報  企業(yè)動態(tài)  VIP追蹤 
通信電子>| 產(chǎn)品通報  企業(yè)動態(tài)  VIP追蹤 
交通工具>| 產(chǎn)品通報  企業(yè)動態(tài)  VIP追蹤 
基礎(chǔ)工業(yè)>| 產(chǎn)品通報  企業(yè)動態(tài)  VIP追蹤 
農(nóng)業(yè)科技>| 產(chǎn)品通報  企業(yè)動態(tài)  專家追蹤 
信息服務(wù)>| 企業(yè)動態(tài) 
光電子>| 企業(yè)動態(tài) 
關(guān)于我們 ┋ 免責(zé)聲明 ┋ 產(chǎn)品與服務(wù) ┋ 聯(lián)系我們 ┋ About 365PR ┋ Join 365PR
Copyright @ 2005-2008 365pr.net Ltd. All Rights Reserved. 深圳市產(chǎn)通互聯(lián)網(wǎng)有限公司 版權(quán)所有
E-mail:postmaster@365pr.net 不良信息舉報 備案號:粵ICP備06070889號