本發(fā)明涉及人工智能,尤其涉及一種通過文字驅(qū)動的aigc視頻生成方法及裝置。
背景技術(shù):
1、近年來,隨著深度學習技術(shù)的發(fā)展,通過語音驅(qū)動三維數(shù)字人的臉部,生成說話視頻的技術(shù)得到了迅速發(fā)展,并且已經(jīng)在多個領(lǐng)域得到了應用。該說話視頻為aigc(artificial?intelligence?generated?content,人工智能生成內(nèi)容)視頻?,F(xiàn)有的數(shù)字人說話視頻通常以驅(qū)動語音音頻作為輸入,這增加了數(shù)字人說話視頻的成本。并且,通過驅(qū)動語音作為輸入的數(shù)字人說話視頻需要對語音音頻進行識別。在識別語音音頻的過程中,由于背景噪音、口音差異或快速說話等因素,對語音音頻產(chǎn)生識別錯誤。這樣導致數(shù)字人說話視頻的生成速度較慢、生成效果較差的問題。
技術(shù)實現(xiàn)思路
1、本申請實施例通過提供一種通過文字驅(qū)動的aigc視頻生成方法及裝置,解決了現(xiàn)有技術(shù)中數(shù)字人說話視頻的生成速度較慢、生成效果較差的技術(shù)問題,實現(xiàn)了以驅(qū)動文字作為輸入,使得數(shù)字人說話視頻的生成速度較快,還能通過文字挖掘出語義信息,使得數(shù)字人說話視頻生成效果優(yōu)異,數(shù)字人物逼真,數(shù)字人表情自然,提高用戶使用體驗度等技術(shù)效果。
2、第一方面,本發(fā)明實施例提供一種通過文字驅(qū)動的aigc視頻生成方法,包括:獲取驅(qū)動文字和人物圖像;
3、根據(jù)所述驅(qū)動文字,生成目標語音特征;
4、根據(jù)所述人物圖像,得到所述人物圖像的圖像特征和臉部特征;
5、將所述目標語音特征、所述圖像特征和所述臉部特征進行融合,得到多幀視頻圖像;
6、根據(jù)多幀所述視頻圖像,生成所述人物圖像對應的說話視頻,其中,所述說話視頻為aigc視頻,所述說話視頻的說話內(nèi)容為所述驅(qū)動文字的內(nèi)容。
7、優(yōu)選的,所述根據(jù)所述驅(qū)動文字,生成目標語音特征,包括:
8、根據(jù)所述驅(qū)動文字,得到所述驅(qū)動文字對應的語音和文字特征;
9、根據(jù)所述語音,得到語音特征,其中,所述語音特征為包含語義特征的特征向量;
10、根據(jù)所述語音特征和所述文字特征,得到所述目標語音特征。
11、優(yōu)選的,所述根據(jù)所述語音特征和所述文字特征,得到所述目標語音特征,包括:
12、通過lstm網(wǎng)絡(luò),從所述語音特征中提取出音頻特征,以及通過文本提取器,從所述文字特征中提取出文本特征;
13、通過方差適配器,將所述音頻特征和所述文本特征進行殘差連接,得到潛在屬性特征;
14、通過編碼器,將所述潛在屬性特征與所述語音特征進行拼接,得到所述目標語音特征。
15、優(yōu)選的,根據(jù)所述驅(qū)動文字,得到所述文字特征,包括:
16、通過clip編碼器對所述驅(qū)動文字進行編碼,得到所述文字特征。
17、優(yōu)選的,所述根據(jù)所述語音,得到語音特征,包括:
18、通過卷積網(wǎng)絡(luò),將所述語音映射到隱空間,得到所述隱空間中的所述語音的隱特征;
19、通過transformer網(wǎng)絡(luò),將所述隱特征進行編碼,得到所述語音特征。
20、優(yōu)選的,所述將所述目標語音特征、所述圖像特征和所述臉部特征進行融合,得到多幀視頻圖像,包括:
21、通過擴散模型,對所述目標語音特征、所述圖像特征和所述臉部特征進行融合,直到達到運動估計矩陣的姿態(tài)約束條件,得到一幀所述視頻圖像,進而得到多幀所述視頻圖像。
22、優(yōu)選的,所述運動估計矩陣為:
23、m?=?mt,t,e[||e?-?et(gt,t,c)||2];
24、其中,m為運動估計矩陣,t為時間步長,c為所述語音特征,e為多層感知機,gt為高斯噪聲,mt為在t時間步長下的運動空間矩陣,et為多層感知線性運算。
25、優(yōu)選的,所述運動估計矩陣的姿態(tài)約束條件為通過所述運動估計矩陣得到目標特征的目標姿態(tài),且所述目標特征從當前姿態(tài)調(diào)整至所述目標姿態(tài)的條件,其中,所述目標特征為所述圖像特征的指定特征和/或所述臉部特征的指定特征。
26、優(yōu)選的,根據(jù)多幀所述視頻圖像,生成所述人物圖像對應的說話視頻,包括:
27、通過人臉修復模型,對多幀所述視頻圖像進行修復,得到多幀修復后的視頻圖像;
28、將多幀所述修復后的視頻圖像按序進行視頻編碼,得到所述說話視頻。
29、基于同一發(fā)明構(gòu)思,第二方面,本發(fā)明還提供一種通過文字驅(qū)動的aigc視頻生成裝置,包括:存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時實現(xiàn)第一方面的通過文字驅(qū)動的aigc視頻生成方法的步驟。
30、本發(fā)明實施例中的一個或多個技術(shù)方案,至少具有如下技術(shù)效果或優(yōu)點:
31、在本發(fā)明實施例中,在獲取驅(qū)動文字和人物圖像之后,根據(jù)驅(qū)動文字得到目標語音特征,并根據(jù)人物圖像得到圖像特征和臉部特征。這里,以驅(qū)動文字作為數(shù)字人說話視頻的輸入,大大降低說話視頻的生成成本,提高生成效率和生成速度。并且,通過驅(qū)動文字得到的目標語音特征具有高層語義信息,便于說話視頻生成效果逼真。
32、再將目標語音特征、圖像特征和臉部特征進行融合,得到多幀視頻圖像。這里,將目標語音特征與圖像特征和臉部特征進行嵌入融合,逐幀生成視頻圖像?;诰哂姓Z音信息的目標語音特征,使得視頻圖像中的數(shù)字人逼真,數(shù)字人的說話表情和口型自然,進而使得視頻圖像能反映出說話時的情緒,還能制定個性化地視頻圖像和說話視頻。然后,根據(jù)多幀視頻圖像,生成人物圖像對應的說話視頻。如此,使得說話視頻生成效率高、生成效果優(yōu)異,增強用戶體驗度。
1.一種通過文字驅(qū)動的aigc視頻生成方法,其特征在于,包括:
2.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述驅(qū)動文字,生成目標語音特征,包括:
3.如權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述語音特征和所述文字特征,得到所述目標語音特征,包括:
4.如權(quán)利要求2所述的方法,其特征在于,根據(jù)所述驅(qū)動文字,得到所述文字特征,包括:
5.如權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述語音,得到語音特征,包括:
6.如權(quán)利要求1所述的方法,其特征在于,所述將所述目標語音特征、所述圖像特征和所述臉部特征進行融合,得到多幀視頻圖像,包括:
7.如權(quán)利要求6所述的方法,其特征在于,所述運動估計矩陣為:
8.如權(quán)利要求6所述的方法,其特征在于,所述運動估計矩陣的姿態(tài)約束條件為通過所述運動估計矩陣得到目標特征的目標姿態(tài),且所述目標特征從當前姿態(tài)調(diào)整至所述目標姿態(tài)的條件,其中,所述目標特征為所述圖像特征的指定特征和/或所述臉部特征的指定特征。
9.如權(quán)利要求1所述的方法,其特征在于,根據(jù)多幀所述視頻圖像,生成所述人物圖像對應的說話視頻,包括:
10.一種通過文字驅(qū)動的aigc視頻生成裝置,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述程序時實現(xiàn)如權(quán)利要求1-9中任一權(quán)利要求所述的通過文字驅(qū)動的aigc視頻生成方法步驟。