比 Nano Banana 更擅長 P 細節的圖像編輯模型來了,還是更懂中文的那種。
就像這樣,要求 AI" 把中間白色衣服戴口罩女生的手勢改成 OK",原圖如下:



他們提出了一種名為 UniWorld-R1 的創新型圖像編輯后期訓練框架,該框架首次將強化學習(RL)策略優化應用于統一架構的圖像編輯模型,是第一個視覺強化學習框架。基于此,他們推出了新一代模型 UniWorld-V2。
UniWorld-V2 在 GEdit-Bench 和 ImgEdit 等行業權威基準測試中取得了 SOTA 成績,在綜合表現上超越了如 OpenAI 的 GPT-Image-1 等頂尖閉源模型。

強大的中文字體掌握與精細化可控
功能上,UniWorld-V2 在實際應用中展現了 SFT 模型難以企及的精細化控制力。
中文字體掌握
在論文的 " 海報編輯 " 示例中,模型能精準理解指令,并渲染出 " 月滿中秋 " 和 " 月圓人圓事事圓 " 等筆畫復雜的藝術中文字體,效果清晰、語義準確。


在 " 紅框控制 " 任務中,用戶可以通過畫框(如紅色矩形框)來指定編輯區域,模型能夠嚴格遵守該空間限制,實現 " 將鳥移出紅框 " 等高難度精細操作。

模型能深刻理解 " 給場景重新打光 " 等指令,使物體自然融入場景之中,讓畫面變得更統一和諧,并且光影融合度極高。

實現以上功能,研究團隊的核心創新是提出了 UniWorld-R1 框架。
傳統的圖像編輯模型依賴監督微調(SFT),普遍存在對訓練數據過擬合、泛化能力差的問題。此外,還存在面對編輯指令和任務的多樣性,缺乏通用獎勵模型的瓶頸。
UniWorld-R1 框架的核心優勢在于:
首個基于強化學習的統一架構:UniWorld-R1 是業內首個基于策略優化(RL)的圖像編輯后期訓練框架。它采用了 Diffusion Negative-aware Finetuning (擴散負向感知微調,DiffusionNFT)技術,這是一種無需似然估計的策略優化方法,訓練更高效,并且允許使用高階采樣器。
MLLM 作為免訓練獎勵模型:針對編輯任務多樣性導致缺乏通用獎勵模型的挑戰,UniWorld-R1 開創性地使用多模態大語言模型(MLLM,如 GPT-4V)作為統一的、免訓練的獎勵模型。通過利用 MLLM 的輸出 logits(而非單一評分)來提供精細化的隱式反饋,極大地提升了模型對人類意圖的對齊能力。
如下圖所示,UniWorld-R1 的 pipeline 主要包括三個部分:采樣、MLLM 評分和 DiffusionNFT,這三個部分逐步將模型與最優策略對齊。

實驗方面,研究團隊整理了一個包含 27572 個基于指令的編輯樣本的數據集。

研究團隊訓練 FLUX.1-Kontext [ Dev ] 、Qwen-Image-Edit [ 2509 ] 和 UniWorld-V2 作為基礎模型,并采用 ImgEdit 和 GEdit-Bench 作為測試基準。前者將多種專門任務統一為一個通用框架以進行全面模型比較,后者通過豐富的自然語言指令評估通用圖像編輯。
在 GEdit-Bench 基準測試中,UniWorld-V2(基于 UniWorld-R1 訓練)獲得了 7.83 的驚人高分,顯著優于 GPT-Image-1 [ High ] (7.53 分)和 Gemini 2.0(6.32 分)。在 ImgEdit 基準上,UniWorld-V2 同樣以 4.49 分領跑,超越了所有已知的開源和閉源模型。
更重要的是,UniWorld-R1 框架具有極強的通用性。當該框架被應用于 Qwen-Image-Edit 和 FLUX-Kontext 等其他基礎模型時,同樣帶來了顯著的性能提升,充分證明了其作為通用后期訓練框架的巨大價值。

除了總得分的提升之外,UniWorld-FLUX.1-Kontext 在 " 調整 "、" 提取 " 和 " 移除 " 維度上表現出顯著的性能提升,而 UniWorld-Qwen-Image-Edit 則在 " 提取 " 和 " 混合 " 維度上表現優異。此外,UniWorld-V2 達到了最佳性能。這一現象表明,該方法能夠解鎖和顯著提高基礎模型中之前未開發的潛力。

為了全面評估,研究人員還對 FLUX.1 和 Qwen 系列進行了人工偏好研究,參與者將本文的微調模型與其基礎模型和更強大的版本進行比較。他們被要求在兩個維度上選擇最佳結果:指令對齊和圖像質量。
用戶在所有標準中更傾向于選擇 UniWorld-FLUX.1-Kontext 而不是 FLUX.1-Kontext [ Dev ] 。此外,它在編輯能力上表現出較強的優勢,尤其是在與更強大的官方版本 FLUX.1-Kontext [ Pro ] 的比較中。總體而言,UniWorld-FLUX.1-Kontext 因其優越的指令遵循能力而獲得更多的喜歡,盡管官方模型在圖像質量上稍微勝出。這證實了該方法能夠有效地引導模型生成更符合人類偏好的輸出。

另外,UniWorld-R1 的論文、代碼和模型均已在 GitHub 和 Hugging Face 平臺公開發布,以支持后續研究。
論文地址:
https://arxiv.org/abs/2510.16888
GitHub 鏈接:
https://github.com/PKU-YuanGroup/UniWorld
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
點亮星標
科技前沿進展每日見