本申請涉及圖像處理,特別涉及一種圖像生成方法、電子設備及存儲介質。
背景技術:
1、定制化人物生成技術,是一種利用人工智能算法生成逼真的定制人像圖像的技術,目前,定制化人物生成技術的應用非常廣泛,例如,電子商務廣告、人工智能肖像、圖像動畫和虛擬試衣等領域,不僅可以提升用戶體驗,還能滿足個性化需求。然而,由于人類面部身份涉及更細微的語義,與一般風格或物體相比,需要更高的細節(jié)和保真度標準,因此如何生成能夠準確保留人臉復雜身份細節(jié)的定制圖像,變得至關重要。
2、相關技術中,主要是采用基于擴散算法的生成模型,用戶提供至少三張參考人臉圖像和一個獨特提示(special?token)作為該生成模型的輸入,對該生成模型進行微調,最終輸出定制圖像。然而,在實際使用場景下,如果用戶僅能提供單張參考人臉圖像,則無法生成定制圖像。
技術實現(xiàn)思路
1、本申請實施例提供一種圖像生成方法、電子設備及存儲介質,能夠基于用戶提供的單張參考人臉圖像,生成定制圖像。
2、根據(jù)本申請的第一方面,公開了一種圖像生成方法,所述方法包括:
3、獲取一張參考人臉圖像、文本提示詞和源帶噪數(shù)據(jù)zt;其中,所述文本提示詞用于描述所述參考人臉圖像對應的定制圖像的特征,所述zt是通過擴散模型的前向擴散算法對所述參考人臉圖像逐步添加t個時間步的高斯噪聲后得到的帶噪數(shù)據(jù),所述t為大于1的整數(shù);
4、基于所述參考人臉圖像和所述文本提示詞,生成詞元嵌入向量,并將所述詞元嵌入向量輸入至所述擴散模型的去噪器,得到以所述詞元嵌入向量為條件的去噪器;
5、將zi輸入以所述詞元嵌入向量為條件的所述去噪器進行噪聲估計,得到第一噪聲數(shù)據(jù)∈i;根據(jù)所述∈i、所述zi和所述參考人臉圖像,生成第二噪聲數(shù)據(jù)根據(jù)所述和所述zi,生成第i-1時間步的帶噪數(shù)據(jù)zi-1,i的初始值為t,i累計減1后循環(huán)執(zhí)行該步驟,直到i=0為止,得到無噪數(shù)據(jù)z0;
6、基于所述z0,生成所述參考人臉圖像對應的定制圖像。
7、根據(jù)本申請的第二方面,公開了一種圖像生成裝置,所述裝置包括:
8、獲取模塊,用于獲取一張參考人臉圖像、文本提示詞和源帶噪數(shù)據(jù)zt;其中,所述文本提示詞用于描述所述參考人臉圖像對應的定制圖像的特征,所述zt是通過擴散模型的前向擴散算法對所述參考人臉圖像逐步添加t個時間步的高斯噪聲后得到的帶噪數(shù)據(jù),所述t為大于1的整數(shù);
9、第一生成模塊,用于基于所述參考人臉圖像和所述文本提示詞,生成詞元嵌入向量;
10、第一處理模塊,用于將所述詞元嵌入向量輸入至所述擴散模型的去噪器,得到以所述詞元嵌入向量為條件的去噪器;
11、第二處理模塊,用于將zi輸入以所述詞元嵌入向量為條件的所述去噪器進行噪聲估計,得到第一噪聲數(shù)據(jù)∈i;根據(jù)所述∈i、所述zi和所述參考人臉圖像,生成第二噪聲數(shù)據(jù)根據(jù)所述和所述zi,生成第i-1時間步的帶噪數(shù)據(jù)zi-1,i的初始值為t,i累計減1后循環(huán)執(zhí)行該步驟,直到i=0為止,得到無噪數(shù)據(jù)z0;
12、第二生成模塊,用于基于所述z0,生成所述參考人臉圖像對應的定制圖像。
13、根據(jù)本申請的第三方面,公開了一種電子設備,包括:存儲器、處理器及存儲在存儲器上的計算機程序,所述處理器執(zhí)行所述計算機程序以實現(xiàn)如第一方面中的圖像生成方法。
14、根據(jù)本申請的第四方面,公開了一種計算機可讀存儲介質,其上存儲有計算機程序/指令,該計算機程序/指令被處理器執(zhí)行時實現(xiàn)如第一方面中的圖像生成方法。
15、根據(jù)本申請的第五方面,公開了一種計算機程序產品,包括計算機程序/指令,該計算機程序/指令被處理器執(zhí)行時實現(xiàn)如第一方面中的圖像生成方法。
16、本申請實施例中,獲取一張參考人臉圖像、文本提示詞和源帶噪數(shù)據(jù)zt;其中,文本提示詞用于描述參考人臉圖像對應的定制圖像的特征,zt是通過擴散模型的前向擴散算法對參考人臉圖像逐步添加t個時間步的高斯噪聲后得到的帶噪數(shù)據(jù),t為大于1的整數(shù);基于參考人臉圖像和文本提示詞,生成詞元嵌入向量,并將詞元嵌入向量輸入至擴散模型的去噪器,得到以詞元嵌入向量為條件的去噪器;將zi輸入以詞元嵌入向量為條件的去噪器進行噪聲估計,得到第一噪聲數(shù)據(jù)∈i;根據(jù)∈i、zi和參考人臉圖像,生成第二噪聲數(shù)據(jù)根據(jù)和zi,生成第i-1時間步的帶噪數(shù)據(jù)zi-1,i的初始值為t,i累計減1后循環(huán)執(zhí)行該步驟,直到i=0為止,得到無噪數(shù)據(jù)z0;基于z0,生成參考人臉圖像對應的定制圖像。
17、可見,本申請實施例中,在用戶僅能提供單張參考人臉圖像的情況下,基于該單張參考人臉圖像和文本提示詞生成詞元嵌入向量,以便將參考人臉圖像的人臉身份特征與文本提示詞的文本特征融合,用以指導擴散模型的去噪器對基于參考人臉圖像生成的源帶噪數(shù)據(jù)進行逐時間步的去噪,在去噪器對源帶噪數(shù)據(jù)進行逐時間步去噪的過程中,以參考人臉圖像作為引導,用以將參考人臉圖像的面部特征與逐時間步去噪后的圖像的面部特征進行顯式對齊,從而保證去噪后的圖像的身份和參考人臉圖像身份的一致性,實現(xiàn)了基于用戶提供的單張參考人臉圖像,生成精細面部細節(jié)和高保真度的定制圖像。
1.一種圖像生成方法,其特征在于,所述方法包括:
2.根據(jù)權利要求1所述的方法,其特征在于,所述根據(jù)所述∈i、所述zi和所述參考人臉圖像,生成第二噪聲數(shù)據(jù)包括:
3.根據(jù)權利要求1所述的方法,其特征在于,在所述將所述zi輸入以所述詞元嵌入向量為條件的所述去噪器進行噪聲估計的步驟之后,所述方法還包括:
4.根據(jù)權利要求1所述的方法,其特征在于,在所述將所述zi輸入以所述詞元嵌入向量為條件的所述去噪器進行噪聲估計的步驟之后,所述方法還包括:
5.根據(jù)權利要求4所述的方法,其特征在于,所述獲取所述去噪器的第n層網絡的輸出特征di,包括:
6.根據(jù)權利要求3-5任一項所述的方法,其特征在于,所述去噪器包括k層網絡,其中,k/2<n<k,所述k為大于1的整數(shù)。
7.根據(jù)權利要求1-5任一項所述的方法,其特征在于,所述基于所述參考人臉圖像和所述文本提示詞,生成詞元嵌入向量,包括:
8.根據(jù)權利要求7所述的方法,其特征在于,所述圖像編碼器的訓練過程包括以下步驟:
9.一種電子設備,包括:存儲器、處理器及存儲在存儲器上的計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序以實現(xiàn)權利要求1-8任一項所述的圖像生成方法。
10.一種計算機可讀存儲介質,其上存儲有計算機程序/指令,其特征在于,該計算機程序/指令被處理器執(zhí)行時實現(xiàn)權利要求1-8任一項所述的圖像生成方法。