本發(fā)明涉及擴散模型和圖像生成領(lǐng)域,尤其涉及一種基于擴散模型的圖像風(fēng)格遷移方法、裝置及介質(zhì)。
背景技術(shù):
1、每一幅圖像都有其特定的內(nèi)容和獨特的風(fēng)格。當(dāng)我們對一種特定的風(fēng)格感興趣,想把自己的照片變成與這種風(fēng)格相結(jié)合的新圖像時,這被稱為風(fēng)格轉(zhuǎn)移,即一種將一幅圖像的風(fēng)格注入另一幅圖像內(nèi)容的技術(shù)。風(fēng)格轉(zhuǎn)移的主要目標(biāo)是在不破壞內(nèi)容本質(zhì)結(jié)構(gòu)的前提下,將風(fēng)格形象的藝術(shù)特征注入到內(nèi)容形象中,這不是一項簡單的任務(wù),已經(jīng)被廣泛研究。如何在內(nèi)容保存和樣式注入之間找到平衡仍然是一個挑戰(zhàn)?,F(xiàn)有的方法無法產(chǎn)生平衡的風(fēng)格化圖像,表現(xiàn)為藝術(shù)特征過多,偏離了原始內(nèi)容;或內(nèi)容特征過于強勁,風(fēng)格特征不足。此外,目標(biāo)藝術(shù)風(fēng)格往往非常微妙,導(dǎo)致訓(xùn)練有素的網(wǎng)絡(luò)難以很好地掌握它們。這些限制嚴(yán)重影響了風(fēng)格化的質(zhì)量。
2、最近,具有文本與圖像特征交互能力的文本到圖像擴散模型為各種視覺任務(wù)提供了多模態(tài)能力。預(yù)訓(xùn)練的擴散模型被用于學(xué)習(xí)風(fēng)格圖像的文本嵌入,或者設(shè)計目標(biāo)函數(shù)來微調(diào)去噪的u-net。
3、本發(fā)明結(jié)合風(fēng)格圖像的文本特征和空間特征,以更準(zhǔn)確地引導(dǎo)風(fēng)格化過程。通過這種結(jié)合,本發(fā)明能夠更有效地控制風(fēng)格遷移的方向和程度,確保生成的圖像在內(nèi)容和風(fēng)格上都達到預(yù)期的效果。同時,為了適應(yīng)內(nèi)容和風(fēng)格不同性質(zhì)的需求,本發(fā)明設(shè)計了不同的注入模塊,這些模塊能夠確保風(fēng)格特征與內(nèi)容特征在目標(biāo)分支中實現(xiàn)有效融合。
技術(shù)實現(xiàn)思路
1、發(fā)明目的:本發(fā)明提供一種基于擴散模型的免訓(xùn)練圖像風(fēng)格遷移方法、裝置及介質(zhì),使基于擴散模型的風(fēng)格化結(jié)果輸出既保留內(nèi)容圖像的結(jié)構(gòu)特征也保留風(fēng)格圖像的樣式特征,實現(xiàn)內(nèi)容保存和風(fēng)格注入之間的平衡,實現(xiàn)高質(zhì)量的風(fēng)格遷移。
2、技術(shù)方案:本發(fā)明所述的一種基于擴散模型的免訓(xùn)練圖像風(fēng)格遷移方法,包括以下步驟:
3、(1)基于blip-diffusion中的多模態(tài)blip-2編碼器生成與樣式圖像對應(yīng)的文本嵌入;
4、(2)基于u-net的殘差模塊和自注意模塊,通過去噪擴散隱式模型ddim反演技術(shù),從內(nèi)容分支和樣式分支中提取關(guān)鍵的中間特征;所述中間特征被用作目標(biāo)分支中待替換的空間特征;
5、(3)根據(jù)內(nèi)容和風(fēng)格的不同需求,在內(nèi)容注入中有選擇性地替換殘差塊和自注意模塊的特定層,在風(fēng)格注入中替換自注意模塊的特定層,實現(xiàn)內(nèi)容和風(fēng)格的最優(yōu)融合;
6、(4)利用擴散模型的逐步特性,將目標(biāo)分支中的內(nèi)容注入和風(fēng)格注入分開進行。
7、進一步地,所述步驟(1)實現(xiàn)過程如下:
8、將預(yù)訓(xùn)練的blip-2編碼器表示為f,以將樣式圖像的視覺特征轉(zhuǎn)換為與文本對齊的表示;在擴散模型中保留clip文本編碼器ψ的文本嵌入,以增強內(nèi)容信息的表達;將上述兩種文本嵌入通過連接操作結(jié)合起來,以指導(dǎo)后續(xù)的風(fēng)格遷移過程:
9、
10、其中,pc是一個可選的指導(dǎo)文本,is是風(fēng)格圖像。
11、進一步地,步驟(2)所述中間特征的提取過程如下:
12、預(yù)訓(xùn)練擴散u-net的每一層由殘差塊、增強表征的自注意模塊和與文本條件交互的交叉注意模塊組成;對于u-net中第1層的步驟t,具有中間特征的殘差塊將輸出基于自注意模塊增強的圖像為:
13、
14、其中,是自注意力的最終輸出,是殘差塊的輸出的映射。
15、進一步地,步驟(3)所述不同的自注意模塊替換策略為:
16、在內(nèi)容注入中,將目標(biāo)分支中的殘差特征替換為內(nèi)容分支中的殘差特征自注意模塊中的查詢q、鍵k也被在步驟t中替換:
17、
18、其中,是內(nèi)容分支的投影出來的,是目標(biāo)分支的投影出來的;
19、在風(fēng)格注入中,與內(nèi)容注入類似,在步驟t將風(fēng)格空間特征注入目標(biāo)分支中,替換鍵k、值v元素:
20、
21、其中,風(fēng)格分支的投影出來的,是目標(biāo)分支的投影出來的。
22、進一步地,步驟(3)所述在內(nèi)容注入中有選擇性地替換殘差塊和自注意模塊的特定層為替換殘差塊中的第3至第8層以及自注意力模塊中的第4至第11層。
23、進一步地,步驟(3)所述在風(fēng)格注入中替換自注意模塊的特定層為替換自注意力模塊中的第4至第11層。
24、進一步地,步驟(4)所述在目標(biāo)分支實現(xiàn)分步注入如下:
25、在預(yù)訓(xùn)練擴散模型的逆向過程的早期階段執(zhí)行內(nèi)容注入,在后期階段執(zhí)行樣式注入;并引入一個超參數(shù)α,計算不同注入的時間分隔節(jié)點在目標(biāo)分支進行分開注入的公式如下:
26、
27、其中,t∈(0,t];t是擴散模型總步數(shù)。
28、進一步地,根據(jù)權(quán)利要求7所述的基于擴散模型的免訓(xùn)練圖像風(fēng)格遷移方法,其特征在于,所述超參數(shù)α的取值為0.2。
29、本發(fā)明所述的一種裝置設(shè)備,包括存儲器和處理器,其中:
30、存儲器,用于存儲能夠在處理器上運行的計算機程序;
31、處理器,用于在運行所述計算機程序時,執(zhí)行如上所述的基于擴散模型的免訓(xùn)練圖像風(fēng)格遷移方法的步驟。
32、本發(fā)明所述的一種存儲介質(zhì)上存儲有計算機程序,所述計算機程序被至少一個處理器執(zhí)行時實現(xiàn)如上所述的基于擴散模型的免訓(xùn)練圖像風(fēng)格遷移方法的步驟。
33、有益效果:與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果:本發(fā)明利用blip-2編碼器提取的文本特征與去噪擴散隱式模型ddim獲得的空間特征,共同作為樣式指導(dǎo),從而顯著提高了風(fēng)格化過程中的風(fēng)格匹配程度;這種結(jié)合不僅增強了風(fēng)格遷移的準(zhǔn)確性,也提升了最終圖像的藝術(shù)表現(xiàn)力;本發(fā)明設(shè)計了兩種不同的自注意力替換策略,針對內(nèi)容和風(fēng)格的特征,通過替換查詢q、鍵k和值v來優(yōu)化結(jié)構(gòu)信息和高級信息的保留,這種差異化的處理方法使得風(fēng)格遷移結(jié)果更加符合預(yù)期;本發(fā)明注重內(nèi)容信息的保留,通過替換殘差特征來確保內(nèi)容圖像的基本結(jié)構(gòu)不被破壞;為了控制風(fēng)格化的程度,利用超參數(shù)來控制內(nèi)容和風(fēng)格空間注入的比例,從而實現(xiàn)對風(fēng)格化程度的精確控制;這種控制機制為用戶提供了更多的靈活性,以根據(jù)具體需求調(diào)整風(fēng)格遷移的效果;本發(fā)明采用免訓(xùn)練方式,避免了傳統(tǒng)訓(xùn)練過程中的資源消耗和時間成本;這種方法使得基于擴散模型的圖像生成模型能夠快速輸出符合風(fēng)格遷移要求的結(jié)果,實現(xiàn)了可控的、更高質(zhì)量的圖像風(fēng)格遷移。
1.一種基于擴散模型的免訓(xùn)練圖像風(fēng)格遷移方法,其特征在于,包括如下步驟:
2.根據(jù)權(quán)利要求1所述的基于擴散模型的免訓(xùn)練圖像風(fēng)格遷移方法,其特征在于,所述步驟(1)實現(xiàn)過程如下:
3.根據(jù)權(quán)利要求1所述的基于擴散模型的免訓(xùn)練圖像風(fēng)格遷移方法,其特征在于,步驟(2)所述中間特征的提取過程如下:
4.根據(jù)權(quán)利要求1所述的基于擴散模型的免訓(xùn)練圖像風(fēng)格遷移方法,其特征在于,步驟(3)所述不同的自注意模塊替換策略為:
5.根據(jù)權(quán)利要求1所述的基于擴散模型的免訓(xùn)練圖像風(fēng)格遷移方法,其特征在于,步驟(3)所述在內(nèi)容注入中有選擇性地替換殘差塊和自注意模塊的特定層為替換殘差塊中的第3至第8層以及自注意力模塊中的第4至第11層。
6.根據(jù)權(quán)利要求1所述的基于擴散模型的免訓(xùn)練圖像風(fēng)格遷移方法,其特征在于,步驟(3)所述在風(fēng)格注入中替換自注意模塊的特定層為替換自注意力模塊中的第4至第11層。
7.根據(jù)權(quán)利要求1所述的基于擴散模型的免訓(xùn)練圖像風(fēng)格遷移方法,其特征在于,步驟(4)所述在目標(biāo)分支實現(xiàn)分步注入如下:
8.根據(jù)權(quán)利要求7所述的基于擴散模型的免訓(xùn)練圖像風(fēng)格遷移方法,其特征在于,所述超參數(shù)α的取值為0.2。
9.一種裝置設(shè)備,其特征在于,包括存儲器和處理器,其中:
10.一種存儲介質(zhì),其特征在于,所述存儲介質(zhì)上存儲有計算機程序,所述計算機程序被至少一個處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至8任一項所述的基于擴散模型的免訓(xùn)練圖像風(fēng)格遷移方法的步驟。