一種結合Transformer架構的擴散模型虛擬換發(fā)型方法及系統(tǒng)與流程

文檔序號：40597066發(fā)布日期：2025-01-07 20:37閱讀：8來源：國知局

本發(fā)明涉及虛擬換發(fā)型，尤其涉及一種結合transformer架構的擴散模型虛擬換發(fā)型方法及系統(tǒng)。

背景技術：

1、合適的發(fā)型能很好地體現一個人的風格，發(fā)型對于整體的穿搭也起到了非常重要的作用。隨著對美的追求不斷深化，人們越來越注重自己的發(fā)型選擇。如果能夠在嘗試新發(fā)型之前預覽其效果，將極大地減少不滿意的理發(fā)體驗。

2、傳統(tǒng)的換發(fā)型技術通常借助修圖工具來完成，不僅需要找到新發(fā)型和本人照片角度相匹配的圖片，還需要花費一定時間來將圖修得真實自然。隨著人工智能技術的發(fā)展，虛擬換發(fā)型技術出現在大眾視野。虛擬換發(fā)型技術的重點在于將目標發(fā)型自然地轉換到用戶圖片上，同時保持發(fā)型的細節(jié)和用戶人臉的可識別度。近年來，大部分方法都是基于生成對抗網絡(gan)的，這種方法對于發(fā)型的細節(jié)不易恢復，容易產生偽影。

技術實現思路

1、由此，本發(fā)明提供了一種結合transformer架構的擴散模型虛擬換發(fā)型方法及系統(tǒng)，用以解決現有方法對于生成虛擬發(fā)型不夠精準的問題。

2、根據本發(fā)明的一方面，提出一種結合transformer架構的擴散模型虛擬換發(fā)型方法，該方法包括：

3、獲取有頭發(fā)的源圖片；

4、利用禿頂生成器對源圖片進行處理，生成禿頂圖片；

5、根據發(fā)型參考圖片和禿頂圖片，利用發(fā)型生成模型生成換發(fā)型圖片。

6、進一步地，在獲取有頭發(fā)的源圖片后，對所述源圖片進行圖像處理，以獲取符合尺寸要求的源圖片。

7、進一步地，所述禿頂生成器包含vae編碼器、禿頂生成模型、禿頂controlnet、vae解碼器；其中，所述禿頂生成模型和所述禿頂controlnet均包含多個串聯的基于transformer架構的擴散模型，所述禿頂controlnet為所述禿頂生成模型的可訓練副本。

8、進一步地，所述利用禿頂生成器對源圖片進行處理，生成禿頂圖片包括：

9、將源圖片輸入到vae編碼器中，得到隱空間編碼；

10、將隱空間編碼輸入到禿頂controlnet中，經過分塊化處理、線性層處理后輸入到多個串聯的基于transformer架構的擴散模型中進行處理，獲得源圖片參考信息；將所述源圖片參考信息輸入到禿頂生成模型中；

11、隨機生成隱空間高斯噪聲，并將所述噪聲輸入到禿頂生成模型中，經過分塊化處理、線性層處理后，得到特征圖，將所述特征圖和禿頂controlnet輸出的源圖片參考信息一同輸入到多個串聯的基于transformer架構的擴散模型中進行處理，得到的輸出經過多層感知機處理后，再進行反分塊化處理；

12、將反分塊化處理后的結果輸入vae解碼器中，獲得源圖片對應的禿頂圖片。

13、進一步地，所述發(fā)型生成模型包含多個串聯的基于transformer架構的擴散模型；所述根據發(fā)型參考圖片和禿頂圖片，利用發(fā)型生成模型生成換發(fā)型圖片包括：

14、將發(fā)型參考圖片和禿頂生成器生成的禿頂圖片分別輸入預訓練的vae編碼器中，得到對應的隱空間編碼；

15、將發(fā)型參考圖片對應的隱空間編碼輸入發(fā)型參考網絡中進行處理，獲得發(fā)型細節(jié)特征；并將所述發(fā)型細節(jié)特征輸入到發(fā)型生成模型中；

16、隨機生成隱空間高斯噪聲，并將所述噪聲和禿頂圖片對應的隱空間編碼一同輸入到發(fā)型生成模型中，經過分塊化處理、線性層處理后，得到特征圖，將所述特征圖和發(fā)型參考網絡輸出的發(fā)型細節(jié)特征一同輸入到多個串聯的基于transformer架構的擴散模型中進行處理，得到的輸出經過多層感知機處理后，再進行反分塊化處理；

17、將反分塊化處理后的結果輸入vae解碼器中，獲得源圖片對應的換發(fā)型圖片。

18、進一步地，所述將發(fā)型參考圖片對應的隱空間編碼輸入發(fā)型參考網絡中進行處理，獲得發(fā)型細節(jié)特征包括：將發(fā)型參考圖片對應的隱空間編碼經過分塊化處理、線性層處理后輸入到多個串聯的基于transformer架構的擴散模型中，獲得發(fā)型細節(jié)特征。

19、進一步地，所述禿頂生成器和所述發(fā)型生成模型均是預先訓練好的模型，禿頂生成器單獨訓練，在發(fā)型生成模型的訓練過程中發(fā)型參考網絡參與訓練；其中，禿頂生成器訓練過程中的損失函數如下所示：

20、

21、其中，表示高斯噪聲；表示vae編碼器；表示禿頂生成器中基于transformer架構的擴散模型；表示禿頂controlnet；表示源圖片；表示隱空間編碼；t表示時間步；表示分布下期望；

22、發(fā)型生成模型訓練過程中的損失函數如下所示：

23、

24、其中，表示發(fā)型生成模型中基于transformer架構的擴散模型；表示發(fā)型參考網絡；分別表示發(fā)型參考圖片和禿頂圖片；表示隱空間編碼；t表示時間步；表示分布下期望。

25、進一步地，所述基于transformer架構的擴散模型分為編碼塊和解碼塊；其中，編碼塊用于對輸入圖片進行壓縮，以獲得圖片不同層次的特征，編碼塊包含自注意力模塊、交叉注意力模塊和前向傳播網絡；解碼塊用于還原圖片大小，解碼塊包含自注意力模塊、交叉注意力模塊、前向傳播網絡和跳躍模塊。

26、進一步地，所述禿頂controlnet在與所述禿頂生成模型的每個解碼塊的連接處額外添加零卷積層；并將每個禿頂controlnet的輸出添加到禿頂生成模型的解碼塊的跳躍連接中。

27、根據本發(fā)明的另一方面，提出一種結合transformer架構的擴散模型虛擬換發(fā)型系統(tǒng)，該系統(tǒng)包括：源圖片獲取模塊，其配置成獲取有頭發(fā)的源圖片；

28、禿頂圖片生成模塊，其配置成利用禿頂生成器對源圖片進行處理，生成禿頂圖片；

29、換發(fā)型圖片生成模塊，其配置成根據發(fā)型參考圖片和禿頂圖片，利用發(fā)型生成模型生成換發(fā)型圖片。

30、本發(fā)明具有以下技術效果：

31、本發(fā)明提出了一種結合transformer架構的擴散模型虛擬換發(fā)型方法及系統(tǒng)。首先獲取有頭發(fā)的源圖片；然后利用禿頂生成器對源圖片進行處理，生成禿頂圖片；最后根據發(fā)型參考圖片和禿頂圖片，利用發(fā)型生成模型生成換發(fā)型圖片。其中，先生成禿頂圖片，再生成換發(fā)型圖片，避免生成過程中用戶原始圖片發(fā)型造成的影響；禿頂生成器和發(fā)型生成模型均采用基于transformer架構的擴散模型，同時引入發(fā)型參考網絡，通過發(fā)型交叉注意力模塊注入發(fā)型信息，使得生成發(fā)型更加精細。本發(fā)明可以為用戶提供一種高效便捷的虛擬換發(fā)型方案，同時也為美發(fā)行業(yè)帶來一種創(chuàng)新的服務模式；本發(fā)明能夠為更多人帶來全新的美發(fā)體驗，并推動個性化美發(fā)服務的發(fā)展。

技術特征：

1.一種結合transformer架構的擴散模型虛擬換發(fā)型方法，其特征在于，包括：

2.根據權利要求1所述的一種結合transformer架構的擴散模型虛擬換發(fā)型方法，其特征在于，所述利用禿頂生成器對源圖片進行處理，生成禿頂圖片包括：

3.根據權利要求1所述的一種結合transformer架構的擴散模型虛擬換發(fā)型方法，其特征在于，所述發(fā)型生成模型包含多個串聯的基于transformer架構的擴散模型；所述根據發(fā)型參考圖片和禿頂圖片，利用發(fā)型生成模型生成換發(fā)型圖片包括：

4.根據權利要求3所述的一種結合transformer架構的擴散模型虛擬換發(fā)型方法，其特征在于，所述將發(fā)型參考圖片對應的隱空間編碼輸入發(fā)型參考網絡中進行處理，獲得發(fā)型細節(jié)特征包括：將發(fā)型參考圖片對應的隱空間編碼經過分塊化處理、線性層處理后輸入到多個串聯的基于transformer架構的擴散模型中，獲得發(fā)型細節(jié)特征。

5.根據權利要求4所述的一種結合transformer架構的擴散模型虛擬換發(fā)型方法，其特征在于，所述禿頂生成器和所述發(fā)型生成模型均是預先訓練好的模型，禿頂生成器單獨訓練，在發(fā)型生成模型的訓練過程中發(fā)型參考網絡參與訓練；其中，禿頂生成器訓練過程中的損失函數如下所示：

6.根據權利要求1-5中任一項所述的一種結合transformer架構的擴散模型虛擬換發(fā)型方法，其特征在于，所述基于transformer架構的擴散模型分為編碼塊和解碼塊；其中，編碼塊用于對輸入圖片進行壓縮，以獲得圖片不同層次的特征，編碼塊包含自注意力模塊、交叉注意力模塊和前向傳播網絡；解碼塊用于還原圖片大小，解碼塊包含自注意力模塊、交叉注意力模塊、前向傳播網絡和跳躍模塊。

7.根據權利要求6所述的一種結合transformer架構的擴散模型虛擬換發(fā)型方法，其特征在于，所述禿頂controlnet在與所述禿頂生成模型的每個解碼塊的連接處額外添加零卷積層；并將每個禿頂controlnet的輸出添加到禿頂生成模型的解碼塊的跳躍連接中。

8.一種結合transformer架構的擴散模型虛擬換發(fā)型系統(tǒng)，其特征在于，包括：

技術總結
本發(fā)明公開了一種結合Transformer架構的擴散模型虛擬換發(fā)型方法及系統(tǒng)，涉及虛擬換發(fā)型技術領域。本發(fā)明的技術要點包括：獲取有頭發(fā)的源圖片；利用禿頂生成器對源圖片進行處理，生成禿頂圖片；根據發(fā)型參考圖片和禿頂圖片，利用發(fā)型生成模型生成換發(fā)型圖片；其中，先生成禿頂圖片再生成換發(fā)型圖片，避免了生成過程中用戶原始圖片發(fā)型造成的影響；禿頂生成器和發(fā)型生成模型均采用基于Transformer架構的擴散模型，同時引入發(fā)型參考網絡，通過發(fā)型交叉注意力模塊注入發(fā)型信息，使得生成發(fā)型更加精細。本發(fā)明為用戶提供了一種高效便捷的虛擬換發(fā)型方案，同時也為美發(fā)行業(yè)帶來一種創(chuàng)新的服務模式。

技術研發(fā)人員：車宏圖
受保護的技術使用者：美眾（天津）科技有限公司
技術研發(fā)日：
技術公布日：2025/1/6

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯系技術所有人。
技術研發(fā)人員：車宏圖
技術所有人：美眾（天津）科技有限公司
我是此專利的發(fā)明人

上一篇：一種道路工程用道路標線涂刷裝置的制作方法
上一篇：一種醫(yī)院科室常用便攜式藥物展板的制作方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯網安全、大數據安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯系我們加入專家?guī)臁?/a>

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！