基于擴散模型的免訓(xùn)練圖像風(fēng)格遷移方法、裝置及介質(zhì)

文檔序號：40651638發(fā)布日期：2025-01-10 18:58閱讀：1來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于擴散模型的免訓(xùn)練圖像風(fēng)格遷移方法、裝置及介質(zhì)

本發(fā)明涉及擴散模型和圖像生成領(lǐng)域，尤其涉及一種基于擴散模型的圖像風(fēng)格遷移方法、裝置及介質(zhì)。

背景技術(shù)：

1、每一幅圖像都有其特定的內(nèi)容和獨特的風(fēng)格。當(dāng)我們對一種特定的風(fēng)格感興趣，想把自己的照片變成與這種風(fēng)格相結(jié)合的新圖像時，這被稱為風(fēng)格轉(zhuǎn)移，即一種將一幅圖像的風(fēng)格注入另一幅圖像內(nèi)容的技術(shù)。風(fēng)格轉(zhuǎn)移的主要目標(biāo)是在不破壞內(nèi)容本質(zhì)結(jié)構(gòu)的前提下，將風(fēng)格形象的藝術(shù)特征注入到內(nèi)容形象中，這不是一項簡單的任務(wù)，已經(jīng)被廣泛研究。如何在內(nèi)容保存和樣式注入之間找到平衡仍然是一個挑戰(zhàn)?，F(xiàn)有的方法無法產(chǎn)生平衡的風(fēng)格化圖像，表現(xiàn)為藝術(shù)特征過多，偏離了原始內(nèi)容；或內(nèi)容特征過于強勁，風(fēng)格特征不足。此外，目標(biāo)藝術(shù)風(fēng)格往往非常微妙，導(dǎo)致訓(xùn)練有素的網(wǎng)絡(luò)難以很好地掌握它們。這些限制嚴(yán)重影響了風(fēng)格化的質(zhì)量。

2、最近，具有文本與圖像特征交互能力的文本到圖像擴散模型為各種視覺任務(wù)提供了多模態(tài)能力。預(yù)訓(xùn)練的擴散模型被用于學(xué)習(xí)風(fēng)格圖像的文本嵌入，或者設(shè)計目標(biāo)函數(shù)來微調(diào)去噪的u-net。

3、本發(fā)明結(jié)合風(fēng)格圖像的文本特征和空間特征，以更準(zhǔn)確地引導(dǎo)風(fēng)格化過程。通過這種結(jié)合，本發(fā)明能夠更有效地控制風(fēng)格遷移的方向和程度，確保生成的圖像在內(nèi)容和風(fēng)格上都達到預(yù)期的效果。同時，為了適應(yīng)內(nèi)容和風(fēng)格不同性質(zhì)的需求，本發(fā)明設(shè)計了不同的注入模塊，這些模塊能夠確保風(fēng)格特征與內(nèi)容特征在目標(biāo)分支中實現(xiàn)有效融合。

技術(shù)實現(xiàn)思路

1、發(fā)明目的：本發(fā)明提供一種基于擴散模型的免訓(xùn)練圖像風(fēng)格遷移方法、裝置及介質(zhì)，使基于擴散模型的風(fēng)格化結(jié)果輸出既保留內(nèi)容圖像的結(jié)構(gòu)特征也保留風(fēng)格圖像的樣式特征，實現(xiàn)內(nèi)容保存和風(fēng)格注入之間的平衡，實現(xiàn)高質(zhì)量的風(fēng)格遷移。

2、技術(shù)方案：本發(fā)明所述的一種基于擴散模型的免訓(xùn)練圖像風(fēng)格遷移方法，包括以下步驟：

3、(1)基于blip-diffusion中的多模態(tài)blip-2編碼器生成與樣式圖像對應(yīng)的文本嵌入；

4、(2)基于u-net的殘差模塊和自注意模塊,通過去噪擴散隱式模型ddim反演技術(shù)，從內(nèi)容分支和樣式分支中提取關(guān)鍵的中間特征；所述中間特征被用作目標(biāo)分支中待替換的空間特征；

5、(3)根據(jù)內(nèi)容和風(fēng)格的不同需求，在內(nèi)容注入中有選擇性地替換殘差塊和自注意模塊的特定層，在風(fēng)格注入中替換自注意模塊的特定層，實現(xiàn)內(nèi)容和風(fēng)格的最優(yōu)融合；

6、(4)利用擴散模型的逐步特性，將目標(biāo)分支中的內(nèi)容注入和風(fēng)格注入分開進行。

7、進一步地，所述步驟(1)實現(xiàn)過程如下：

8、將預(yù)訓(xùn)練的blip-2編碼器表示為f，以將樣式圖像的視覺特征轉(zhuǎn)換為與文本對齊的表示；在擴散模型中保留clip文本編碼器ψ的文本嵌入，以增強內(nèi)容信息的表達；將上述兩種文本嵌入通過連接操作結(jié)合起來，以指導(dǎo)后續(xù)的風(fēng)格遷移過程：

9、

10、其中，pc是一個可選的指導(dǎo)文本，is是風(fēng)格圖像。

11、進一步地，步驟(2)所述中間特征的提取過程如下：

12、預(yù)訓(xùn)練擴散u-net的每一層由殘差塊、增強表征的自注意模塊和與文本條件交互的交叉注意模塊組成；對于u-net中第1層的步驟t，具有中間特征的殘差塊將輸出基于自注意模塊增強的圖像為：

13、

14、其中，是自注意力的最終輸出，是殘差塊的輸出的映射。

15、進一步地，步驟(3)所述不同的自注意模塊替換策略為：

16、在內(nèi)容注入中，將目標(biāo)分支中的殘差特征替換為內(nèi)容分支中的殘差特征自注意模塊中的查詢q、鍵k也被在步驟t中替換：

17、

18、其中，是內(nèi)容分支的投影出來的，是目標(biāo)分支的投影出來的；

19、在風(fēng)格注入中，與內(nèi)容注入類似，在步驟t將風(fēng)格空間特征注入目標(biāo)分支中，替換鍵k、值v元素：

20、

21、其中，風(fēng)格分支的投影出來的，是目標(biāo)分支的投影出來的。

22、進一步地，步驟(3)所述在內(nèi)容注入中有選擇性地替換殘差塊和自注意模塊的特定層為替換殘差塊中的第3至第8層以及自注意力模塊中的第4至第11層。

23、進一步地，步驟(3)所述在風(fēng)格注入中替換自注意模塊的特定層為替換自注意力模塊中的第4至第11層。

24、進一步地，步驟(4)所述在目標(biāo)分支實現(xiàn)分步注入如下：

25、在預(yù)訓(xùn)練擴散模型的逆向過程的早期階段執(zhí)行內(nèi)容注入，在后期階段執(zhí)行樣式注入；并引入一個超參數(shù)α，計算不同注入的時間分隔節(jié)點在目標(biāo)分支進行分開注入的公式如下：

26、

27、其中，t∈(0,t]；t是擴散模型總步數(shù)。

28、進一步地，根據(jù)權(quán)利要求7所述的基于擴散模型的免訓(xùn)練圖像風(fēng)格遷移方法，其特征在于，所述超參數(shù)α的取值為0.2。

29、本發(fā)明所述的一種裝置設(shè)備，包括存儲器和處理器，其中：

30、存儲器，用于存儲能夠在處理器上運行的計算機程序；

31、處理器，用于在運行所述計算機程序時，執(zhí)行如上所述的基于擴散模型的免訓(xùn)練圖像風(fēng)格遷移方法的步驟。

32、本發(fā)明所述的一種存儲介質(zhì)上存儲有計算機程序，所述計算機程序被至少一個處理器執(zhí)行時實現(xiàn)如上所述的基于擴散模型的免訓(xùn)練圖像風(fēng)格遷移方法的步驟。

33、有益效果：與現(xiàn)有技術(shù)相比，本發(fā)明的有益效果：本發(fā)明利用blip-2編碼器提取的文本特征與去噪擴散隱式模型ddim獲得的空間特征，共同作為樣式指導(dǎo)，從而顯著提高了風(fēng)格化過程中的風(fēng)格匹配程度；這種結(jié)合不僅增強了風(fēng)格遷移的準(zhǔn)確性，也提升了最終圖像的藝術(shù)表現(xiàn)力；本發(fā)明設(shè)計了兩種不同的自注意力替換策略，針對內(nèi)容和風(fēng)格的特征，通過替換查詢q、鍵k和值v來優(yōu)化結(jié)構(gòu)信息和高級信息的保留，這種差異化的處理方法使得風(fēng)格遷移結(jié)果更加符合預(yù)期；本發(fā)明注重內(nèi)容信息的保留，通過替換殘差特征來確保內(nèi)容圖像的基本結(jié)構(gòu)不被破壞；為了控制風(fēng)格化的程度，利用超參數(shù)來控制內(nèi)容和風(fēng)格空間注入的比例，從而實現(xiàn)對風(fēng)格化程度的精確控制；這種控制機制為用戶提供了更多的靈活性，以根據(jù)具體需求調(diào)整風(fēng)格遷移的效果；本發(fā)明采用免訓(xùn)練方式，避免了傳統(tǒng)訓(xùn)練過程中的資源消耗和時間成本；這種方法使得基于擴散模型的圖像生成模型能夠快速輸出符合風(fēng)格遷移要求的結(jié)果，實現(xiàn)了可控的、更高質(zhì)量的圖像風(fēng)格遷移。

技術(shù)特征：

1.一種基于擴散模型的免訓(xùn)練圖像風(fēng)格遷移方法，其特征在于，包括如下步驟：

2.根據(jù)權(quán)利要求1所述的基于擴散模型的免訓(xùn)練圖像風(fēng)格遷移方法，其特征在于，所述步驟(1)實現(xiàn)過程如下：

3.根據(jù)權(quán)利要求1所述的基于擴散模型的免訓(xùn)練圖像風(fēng)格遷移方法，其特征在于，步驟(2)所述中間特征的提取過程如下：

4.根據(jù)權(quán)利要求1所述的基于擴散模型的免訓(xùn)練圖像風(fēng)格遷移方法，其特征在于，步驟(3)所述不同的自注意模塊替換策略為：

5.根據(jù)權(quán)利要求1所述的基于擴散模型的免訓(xùn)練圖像風(fēng)格遷移方法，其特征在于，步驟(3)所述在內(nèi)容注入中有選擇性地替換殘差塊和自注意模塊的特定層為替換殘差塊中的第3至第8層以及自注意力模塊中的第4至第11層。

6.根據(jù)權(quán)利要求1所述的基于擴散模型的免訓(xùn)練圖像風(fēng)格遷移方法，其特征在于，步驟(3)所述在風(fēng)格注入中替換自注意模塊的特定層為替換自注意力模塊中的第4至第11層。

7.根據(jù)權(quán)利要求1所述的基于擴散模型的免訓(xùn)練圖像風(fēng)格遷移方法，其特征在于，步驟(4)所述在目標(biāo)分支實現(xiàn)分步注入如下：

8.根據(jù)權(quán)利要求7所述的基于擴散模型的免訓(xùn)練圖像風(fēng)格遷移方法，其特征在于，所述超參數(shù)α的取值為0.2。

9.一種裝置設(shè)備，其特征在于，包括存儲器和處理器，其中：

10.一種存儲介質(zhì)，其特征在于，所述存儲介質(zhì)上存儲有計算機程序，所述計算機程序被至少一個處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至8任一項所述的基于擴散模型的免訓(xùn)練圖像風(fēng)格遷移方法的步驟。

技術(shù)總結(jié)
本發(fā)明公開了一種基于擴散模型的免訓(xùn)練圖像風(fēng)格遷移方法、裝置及介質(zhì)，所述方法包括：基于BLIP?Diffusion中的多模態(tài)BLIP?2編碼器生成與樣式圖像對應(yīng)的文本嵌入；基于U?Net的殘差模塊和自注意模塊,通過去噪擴散隱式模型DDIM反演技術(shù)，從內(nèi)容分支和樣式分支中提取關(guān)鍵的中間特征；所述中間特征被用作目標(biāo)分支中待替換的空間特征；根據(jù)內(nèi)容和風(fēng)格的不同需求，在內(nèi)容注入中有選擇性地替換殘差塊和自注意模塊的特定層，在風(fēng)格注入中替換自注意模塊的特定層，實現(xiàn)內(nèi)容和風(fēng)格的最優(yōu)融合；利用擴散模型的逐步特性，將目標(biāo)分支中的內(nèi)容注入和風(fēng)格注入分開進行。本發(fā)明采用免訓(xùn)練方式，實現(xiàn)內(nèi)容保存和風(fēng)格注入之間的平衡，實現(xiàn)高質(zhì)量的圖像風(fēng)格遷移。

技術(shù)研發(fā)人員：高攀,胡穎,莊晨怡,秦杰
受保護的技術(shù)使用者：南京航空航天大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/9

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：高攀,胡穎,莊晨怡,秦杰
技術(shù)所有人：南京航空航天大學(xué)
我是此專利的發(fā)明人

上一篇：一種計算機硬件輔助限位結(jié)構(gòu)的制作方法
上一篇：一種具有調(diào)節(jié)定位功能的拉拔管機的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于擴散模型的免訓(xùn)練圖像風(fēng)格遷移方法、裝置及介質(zhì)

基于擴散模型的免訓(xùn)練圖像風(fēng)格遷移方法、裝置及介質(zhì)