|
 【產(chǎn)通社,12月22日訊】香港科技大學(xué)(Hong Kong University of Science and Technology, HKUST)官網(wǎng)消息,其馮諾依曼研究院院長兼計算機(jī)科學(xué)及工程學(xué)系講座教授賈佳亞教授帶領(lǐng)的團(tuán)隊成功開發(fā)AI圖像生成和編輯器DreamOmni2,不僅在傳統(tǒng)指令編輯和實體對象生成上表現(xiàn)卓越,更在抽象概念的理解和生成方面有重大突破。 人工智能(AI)圖像編輯及生成模型獲廣泛應(yīng)用于圖像創(chuàng)作,然而其對抽象概念如感覺和氛圍等理解精準(zhǔn)度一直存在局限,且多依賴純文字指令,較難準(zhǔn)確表達(dá)復(fù)雜圖像意思,亦無法捕捉風(fēng)格、材質(zhì)或光影等效果。 由香港科技大學(xué)(科大)馮諾依曼研究院院長兼計算機(jī)科學(xué)及工程學(xué)系講座教授賈佳亞教授帶領(lǐng)的團(tuán)隊成功開發(fā)名為“DreamOmni2”的AI圖像生成和編輯器,不僅擁有卓越的多模態(tài)指令編輯和實體對象生成能力,更在抽象概念的理解和生成方面有重大突破,讓AI不僅能“看圖”,更能“理解圖意”,多方面表現(xiàn)優(yōu)于同類型開源和閉源模型,為AI創(chuàng)作開啟無限可能。 全面性能測試:超越現(xiàn)有開源與閉源模型 在多模態(tài)指令生成任務(wù)中,DreamOmni2能基于圖片中的實體進(jìn)行圖像生成,例如提取圖一的畫作掛在臥室墻上,將圖二盤子的材質(zhì)套用在圖三的水杯,并將水杯放置在桌子上,以生成符合用家要求的新圖像。  在多模態(tài)指令編輯任務(wù)中,DreamOmni2的表現(xiàn)亦非常優(yōu)秀,例如將圖中帽子的顏色變成與另一張圖毛衣相同的配色。 在同類模型對比中,當(dāng)團(tuán)隊給予多模態(tài)指令,讓圖中人物手執(zhí)另一張圖的物品,以生成新圖像。 結(jié)果顯示,無論是參考對象的一致性,還是指令的遵循度,DreamOmni2的表現(xiàn)最佳。 整體而言,與SOTA開源模型相比,DreamOmni2在實體及抽象概念的多模態(tài)指令編輯表現(xiàn)更佳,在抽象概念指令編輯方面亦優(yōu)于商業(yè)模型Nano Banana,更解決了其他現(xiàn)有模型難以控制生成圖像泛黃或細(xì)節(jié)改變的問題。 新數(shù)據(jù)構(gòu)建 確保圖像質(zhì)量 DreamOmni2以創(chuàng)新的三階段數(shù)據(jù)構(gòu)建模式,提高模型的多模態(tài)指令生成和編輯能力。 第一階段:特征混合。利用基礎(chǔ)模型由文字到圖像生成的能力,構(gòu)建包含具體對象與抽象屬性的高質(zhì)量訓(xùn)練數(shù)據(jù)。 第二階段:訓(xùn)練多模態(tài)指令編輯能力。訓(xùn)練模型提取靶心圖表中的對象或?qū)傩,并根?jù)指令生成參考圖像,以及使用編輯模型修改靶心圖表,通過完整訓(xùn)練提升編輯能力。 第三階段:訓(xùn)練多模態(tài)指令生成能力。訓(xùn)練模型從源圖像中提取對象,以創(chuàng)建全新參考圖像的能力。 框架設(shè)計突破 克服多圖輸入難題 FLUX Kontext是全球首款基于指令的圖像編輯器,但不支持多圖輸入,而DreamOmni2是基于FLUX-Kontext訓(xùn)練的模型,除了延續(xù)原有指令編輯和文本生成能力外,更擁有多參考圖生成和編輯能力。 DreamOmni2采用的先進(jìn)技術(shù),包括: 索引編碼技術(shù):在位置通道中添加索引編碼,以有效區(qū)分不同參考圖像的身份,提升輸入的處理精準(zhǔn)度。 位置編碼偏移機(jī)制:能根據(jù)輸入的參考圖像大小,動態(tài)調(diào)整位置編碼,顯著減少圖像在復(fù)制和貼上時與參考圖混淆的問題。 視覺語言聯(lián)合訓(xùn)練:為解決用家指令不規(guī)則、邏輯復(fù)雜的挑戰(zhàn),團(tuán)隊以視覺語言模型(VLM)與生成模型進(jìn)行聯(lián)合訓(xùn)練,使VLM能更好地理解復(fù)雜指令并轉(zhuǎn)化為結(jié)構(gòu)化格式,大幅提升模型在真實場景的應(yīng)用表現(xiàn)。  開放公眾使用 應(yīng)用前景無限 DreamOmni2已于著名國際開源社區(qū)Github開放予公眾使用,更獲得數(shù)字藝術(shù)創(chuàng)作者認(rèn)可支持,贊賞模型在理解氛圍感和抽象風(fēng)格方面表現(xiàn)卓越,大幅降低了創(chuàng)作復(fù)雜圖像的門檻。  賈佳亞教授表示:“DreamOmni2標(biāo)志著多模態(tài)生成技術(shù)邁入全新階段,其不僅在性能上超越現(xiàn)有模型,更在技術(shù)架構(gòu)上為AI圖像生成和編輯模型的未來發(fā)展奠定堅實基礎(chǔ),為生成式人工智能產(chǎn)業(yè)注入新動能,同時為數(shù)字藝術(shù)設(shè)計、個性化媒體制作等領(lǐng)域帶來革命性改變,助力香港產(chǎn)學(xué)研和科研生態(tài)的蓬勃!辈樵冞M(jìn)一步信息,請訪問官方網(wǎng)站 http://hkust.edu.hk/zh-hans/news。(鐠元素, 產(chǎn)通數(shù)造) (完)
|