本發(fā)明涉及虛擬換發(fā)型,尤其涉及一種結合transformer架構的擴散模型虛擬換發(fā)型方法及系統(tǒng)。
背景技術:
1、合適的發(fā)型能很好地體現一個人的風格,發(fā)型對于整體的穿搭也起到了非常重要的作用。隨著對美的追求不斷深化,人們越來越注重自己的發(fā)型選擇。如果能夠在嘗試新發(fā)型之前預覽其效果,將極大地減少不滿意的理發(fā)體驗。
2、傳統(tǒng)的換發(fā)型技術通常借助修圖工具來完成,不僅需要找到新發(fā)型和本人照片角度相匹配的圖片,還需要花費一定時間來將圖修得真實自然。隨著人工智能技術的發(fā)展,虛擬換發(fā)型技術出現在大眾視野。虛擬換發(fā)型技術的重點在于將目標發(fā)型自然地轉換到用戶圖片上,同時保持發(fā)型的細節(jié)和用戶人臉的可識別度。近年來,大部分方法都是基于生成對抗網絡(gan)的,這種方法對于發(fā)型的細節(jié)不易恢復,容易產生偽影。
技術實現思路
1、由此,本發(fā)明提供了一種結合transformer架構的擴散模型虛擬換發(fā)型方法及系統(tǒng),用以解決現有方法對于生成虛擬發(fā)型不夠精準的問題。
2、根據本發(fā)明的一方面,提出一種結合transformer架構的擴散模型虛擬換發(fā)型方法,該方法包括:
3、獲取有頭發(fā)的源圖片;
4、利用禿頂生成器對源圖片進行處理,生成禿頂圖片;
5、根據發(fā)型參考圖片和禿頂圖片,利用發(fā)型生成模型生成換發(fā)型圖片。
6、進一步地,在獲取有頭發(fā)的源圖片后,對所述源圖片進行圖像處理,以獲取符合尺寸要求的源圖片。
7、進一步地,所述禿頂生成器包含vae編碼器、禿頂生成模型、禿頂controlnet、vae解碼器;其中,所述禿頂生成模型和所述禿頂controlnet均包含多個串聯的基于transformer架構的擴散模型,所述禿頂controlnet為所述禿頂生成模型的可訓練副本。
8、進一步地,所述利用禿頂生成器對源圖片進行處理,生成禿頂圖片包括:
9、將源圖片輸入到vae編碼器中,得到隱空間編碼;
10、將隱空間編碼輸入到禿頂controlnet中,經過分塊化處理、線性層處理后輸入到多個串聯的基于transformer架構的擴散模型中進行處理,獲得源圖片參考信息;將所述源圖片參考信息輸入到禿頂生成模型中;
11、隨機生成隱空間高斯噪聲,并將所述噪聲輸入到禿頂生成模型中,經過分塊化處理、線性層處理后,得到特征圖,將所述特征圖和禿頂controlnet輸出的源圖片參考信息一同輸入到多個串聯的基于transformer架構的擴散模型中進行處理,得到的輸出經過多層感知機處理后,再進行反分塊化處理;
12、將反分塊化處理后的結果輸入vae解碼器中,獲得源圖片對應的禿頂圖片。
13、進一步地,所述發(fā)型生成模型包含多個串聯的基于transformer架構的擴散模型;所述根據發(fā)型參考圖片和禿頂圖片,利用發(fā)型生成模型生成換發(fā)型圖片包括:
14、將發(fā)型參考圖片和禿頂生成器生成的禿頂圖片分別輸入預訓練的vae編碼器中,得到對應的隱空間編碼;
15、將發(fā)型參考圖片對應的隱空間編碼輸入發(fā)型參考網絡中進行處理,獲得發(fā)型細節(jié)特征;并將所述發(fā)型細節(jié)特征輸入到發(fā)型生成模型中;
16、隨機生成隱空間高斯噪聲,并將所述噪聲和禿頂圖片對應的隱空間編碼一同輸入到發(fā)型生成模型中,經過分塊化處理、線性層處理后,得到特征圖,將所述特征圖和發(fā)型參考網絡輸出的發(fā)型細節(jié)特征一同輸入到多個串聯的基于transformer架構的擴散模型中進行處理,得到的輸出經過多層感知機處理后,再進行反分塊化處理;
17、將反分塊化處理后的結果輸入vae解碼器中,獲得源圖片對應的換發(fā)型圖片。
18、進一步地,所述將發(fā)型參考圖片對應的隱空間編碼輸入發(fā)型參考網絡中進行處理,獲得發(fā)型細節(jié)特征包括:將發(fā)型參考圖片對應的隱空間編碼經過分塊化處理、線性層處理后輸入到多個串聯的基于transformer架構的擴散模型中,獲得發(fā)型細節(jié)特征。
19、進一步地,所述禿頂生成器和所述發(fā)型生成模型均是預先訓練好的模型,禿頂生成器單獨訓練,在發(fā)型生成模型的訓練過程中發(fā)型參考網絡參與訓練;其中,禿頂生成器訓練過程中的損失函數如下所示:
20、
21、其中,表示高斯噪聲;表示vae編碼器;表示禿頂生成器中基于transformer架構的擴散模型;表示禿頂controlnet;表示源圖片;表示隱空間編碼;t表示時間步;表示分布下期望;
22、發(fā)型生成模型訓練過程中的損失函數如下所示:
23、
24、其中,表示發(fā)型生成模型中基于transformer架構的擴散模型;表示發(fā)型參考網絡;分別表示發(fā)型參考圖片和禿頂圖片;表示隱空間編碼;t表示時間步;表示分布下期望。
25、進一步地,所述基于transformer架構的擴散模型分為編碼塊和解碼塊;其中,編碼塊用于對輸入圖片進行壓縮,以獲得圖片不同層次的特征,編碼塊包含自注意力模塊、交叉注意力模塊和前向傳播網絡;解碼塊用于還原圖片大小,解碼塊包含自注意力模塊、交叉注意力模塊、前向傳播網絡和跳躍模塊。
26、進一步地,所述禿頂controlnet在與所述禿頂生成模型的每個解碼塊的連接處額外添加零卷積層;并將每個禿頂controlnet的輸出添加到禿頂生成模型的解碼塊的跳躍連接中。
27、根據本發(fā)明的另一方面,提出一種結合transformer架構的擴散模型虛擬換發(fā)型系統(tǒng),該系統(tǒng)包括:源圖片獲取模塊,其配置成獲取有頭發(fā)的源圖片;
28、禿頂圖片生成模塊,其配置成利用禿頂生成器對源圖片進行處理,生成禿頂圖片;
29、換發(fā)型圖片生成模塊,其配置成根據發(fā)型參考圖片和禿頂圖片,利用發(fā)型生成模型生成換發(fā)型圖片。
30、本發(fā)明具有以下技術效果:
31、本發(fā)明提出了一種結合transformer架構的擴散模型虛擬換發(fā)型方法及系統(tǒng)。首先獲取有頭發(fā)的源圖片;然后利用禿頂生成器對源圖片進行處理,生成禿頂圖片;最后根據發(fā)型參考圖片和禿頂圖片,利用發(fā)型生成模型生成換發(fā)型圖片。其中,先生成禿頂圖片,再生成換發(fā)型圖片,避免生成過程中用戶原始圖片發(fā)型造成的影響;禿頂生成器和發(fā)型生成模型均采用基于transformer架構的擴散模型,同時引入發(fā)型參考網絡,通過發(fā)型交叉注意力模塊注入發(fā)型信息,使得生成發(fā)型更加精細。本發(fā)明可以為用戶提供一種高效便捷的虛擬換發(fā)型方案,同時也為美發(fā)行業(yè)帶來一種創(chuàng)新的服務模式;本發(fā)明能夠為更多人帶來全新的美發(fā)體驗,并推動個性化美發(fā)服務的發(fā)展。
1.一種結合transformer架構的擴散模型虛擬換發(fā)型方法,其特征在于,包括:
2.根據權利要求1所述的一種結合transformer架構的擴散模型虛擬換發(fā)型方法,其特征在于,所述利用禿頂生成器對源圖片進行處理,生成禿頂圖片包括:
3.根據權利要求1所述的一種結合transformer架構的擴散模型虛擬換發(fā)型方法,其特征在于,所述發(fā)型生成模型包含多個串聯的基于transformer架構的擴散模型;所述根據發(fā)型參考圖片和禿頂圖片,利用發(fā)型生成模型生成換發(fā)型圖片包括:
4.根據權利要求3所述的一種結合transformer架構的擴散模型虛擬換發(fā)型方法,其特征在于,所述將發(fā)型參考圖片對應的隱空間編碼輸入發(fā)型參考網絡中進行處理,獲得發(fā)型細節(jié)特征包括:將發(fā)型參考圖片對應的隱空間編碼經過分塊化處理、線性層處理后輸入到多個串聯的基于transformer架構的擴散模型中,獲得發(fā)型細節(jié)特征。
5.根據權利要求4所述的一種結合transformer架構的擴散模型虛擬換發(fā)型方法,其特征在于,所述禿頂生成器和所述發(fā)型生成模型均是預先訓練好的模型,禿頂生成器單獨訓練,在發(fā)型生成模型的訓練過程中發(fā)型參考網絡參與訓練;其中,禿頂生成器訓練過程中的損失函數如下所示:
6.根據權利要求1-5中任一項所述的一種結合transformer架構的擴散模型虛擬換發(fā)型方法,其特征在于,所述基于transformer架構的擴散模型分為編碼塊和解碼塊;其中,編碼塊用于對輸入圖片進行壓縮,以獲得圖片不同層次的特征,編碼塊包含自注意力模塊、交叉注意力模塊和前向傳播網絡;解碼塊用于還原圖片大小,解碼塊包含自注意力模塊、交叉注意力模塊、前向傳播網絡和跳躍模塊。
7.根據權利要求6所述的一種結合transformer架構的擴散模型虛擬換發(fā)型方法,其特征在于,所述禿頂controlnet在與所述禿頂生成模型的每個解碼塊的連接處額外添加零卷積層;并將每個禿頂controlnet的輸出添加到禿頂生成模型的解碼塊的跳躍連接中。
8.一種結合transformer架構的擴散模型虛擬換發(fā)型系統(tǒng),其特征在于,包括: