两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種通過文字驅(qū)動的AIGC視頻生成方法及裝置與流程

文檔序號:40613523發(fā)布日期:2025-01-07 21:00閱讀:10來源:國知局
一種通過文字驅(qū)動的AIGC視頻生成方法及裝置與流程

本發(fā)明涉及人工智能,尤其涉及一種通過文字驅(qū)動的aigc視頻生成方法及裝置。


背景技術(shù):

1、近年來,隨著深度學習技術(shù)的發(fā)展,通過語音驅(qū)動三維數(shù)字人的臉部,生成說話視頻的技術(shù)得到了迅速發(fā)展,并且已經(jīng)在多個領(lǐng)域得到了應用。該說話視頻為aigc(artificial?intelligence?generated?content,人工智能生成內(nèi)容)視頻?,F(xiàn)有的數(shù)字人說話視頻通常以驅(qū)動語音音頻作為輸入,這增加了數(shù)字人說話視頻的成本。并且,通過驅(qū)動語音作為輸入的數(shù)字人說話視頻需要對語音音頻進行識別。在識別語音音頻的過程中,由于背景噪音、口音差異或快速說話等因素,對語音音頻產(chǎn)生識別錯誤。這樣導致數(shù)字人說話視頻的生成速度較慢、生成效果較差的問題。


技術(shù)實現(xiàn)思路

1、本申請實施例通過提供一種通過文字驅(qū)動的aigc視頻生成方法及裝置,解決了現(xiàn)有技術(shù)中數(shù)字人說話視頻的生成速度較慢、生成效果較差的技術(shù)問題,實現(xiàn)了以驅(qū)動文字作為輸入,使得數(shù)字人說話視頻的生成速度較快,還能通過文字挖掘出語義信息,使得數(shù)字人說話視頻生成效果優(yōu)異,數(shù)字人物逼真,數(shù)字人表情自然,提高用戶使用體驗度等技術(shù)效果。

2、第一方面,本發(fā)明實施例提供一種通過文字驅(qū)動的aigc視頻生成方法,包括:獲取驅(qū)動文字和人物圖像;

3、根據(jù)所述驅(qū)動文字,生成目標語音特征;

4、根據(jù)所述人物圖像,得到所述人物圖像的圖像特征和臉部特征;

5、將所述目標語音特征、所述圖像特征和所述臉部特征進行融合,得到多幀視頻圖像;

6、根據(jù)多幀所述視頻圖像,生成所述人物圖像對應的說話視頻,其中,所述說話視頻為aigc視頻,所述說話視頻的說話內(nèi)容為所述驅(qū)動文字的內(nèi)容。

7、優(yōu)選的,所述根據(jù)所述驅(qū)動文字,生成目標語音特征,包括:

8、根據(jù)所述驅(qū)動文字,得到所述驅(qū)動文字對應的語音和文字特征;

9、根據(jù)所述語音,得到語音特征,其中,所述語音特征為包含語義特征的特征向量;

10、根據(jù)所述語音特征和所述文字特征,得到所述目標語音特征。

11、優(yōu)選的,所述根據(jù)所述語音特征和所述文字特征,得到所述目標語音特征,包括:

12、通過lstm網(wǎng)絡(luò),從所述語音特征中提取出音頻特征,以及通過文本提取器,從所述文字特征中提取出文本特征;

13、通過方差適配器,將所述音頻特征和所述文本特征進行殘差連接,得到潛在屬性特征;

14、通過編碼器,將所述潛在屬性特征與所述語音特征進行拼接,得到所述目標語音特征。

15、優(yōu)選的,根據(jù)所述驅(qū)動文字,得到所述文字特征,包括:

16、通過clip編碼器對所述驅(qū)動文字進行編碼,得到所述文字特征。

17、優(yōu)選的,所述根據(jù)所述語音,得到語音特征,包括:

18、通過卷積網(wǎng)絡(luò),將所述語音映射到隱空間,得到所述隱空間中的所述語音的隱特征;

19、通過transformer網(wǎng)絡(luò),將所述隱特征進行編碼,得到所述語音特征。

20、優(yōu)選的,所述將所述目標語音特征、所述圖像特征和所述臉部特征進行融合,得到多幀視頻圖像,包括:

21、通過擴散模型,對所述目標語音特征、所述圖像特征和所述臉部特征進行融合,直到達到運動估計矩陣的姿態(tài)約束條件,得到一幀所述視頻圖像,進而得到多幀所述視頻圖像。

22、優(yōu)選的,所述運動估計矩陣為:

23、m?=?mt,t,e[||e?-?et(gt,t,c)||2];

24、其中,m為運動估計矩陣,t為時間步長,c為所述語音特征,e為多層感知機,gt為高斯噪聲,mt為在t時間步長下的運動空間矩陣,et為多層感知線性運算。

25、優(yōu)選的,所述運動估計矩陣的姿態(tài)約束條件為通過所述運動估計矩陣得到目標特征的目標姿態(tài),且所述目標特征從當前姿態(tài)調(diào)整至所述目標姿態(tài)的條件,其中,所述目標特征為所述圖像特征的指定特征和/或所述臉部特征的指定特征。

26、優(yōu)選的,根據(jù)多幀所述視頻圖像,生成所述人物圖像對應的說話視頻,包括:

27、通過人臉修復模型,對多幀所述視頻圖像進行修復,得到多幀修復后的視頻圖像;

28、將多幀所述修復后的視頻圖像按序進行視頻編碼,得到所述說話視頻。

29、基于同一發(fā)明構(gòu)思,第二方面,本發(fā)明還提供一種通過文字驅(qū)動的aigc視頻生成裝置,包括:存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時實現(xiàn)第一方面的通過文字驅(qū)動的aigc視頻生成方法的步驟。

30、本發(fā)明實施例中的一個或多個技術(shù)方案,至少具有如下技術(shù)效果或優(yōu)點:

31、在本發(fā)明實施例中,在獲取驅(qū)動文字和人物圖像之后,根據(jù)驅(qū)動文字得到目標語音特征,并根據(jù)人物圖像得到圖像特征和臉部特征。這里,以驅(qū)動文字作為數(shù)字人說話視頻的輸入,大大降低說話視頻的生成成本,提高生成效率和生成速度。并且,通過驅(qū)動文字得到的目標語音特征具有高層語義信息,便于說話視頻生成效果逼真。

32、再將目標語音特征、圖像特征和臉部特征進行融合,得到多幀視頻圖像。這里,將目標語音特征與圖像特征和臉部特征進行嵌入融合,逐幀生成視頻圖像?;诰哂姓Z音信息的目標語音特征,使得視頻圖像中的數(shù)字人逼真,數(shù)字人的說話表情和口型自然,進而使得視頻圖像能反映出說話時的情緒,還能制定個性化地視頻圖像和說話視頻。然后,根據(jù)多幀視頻圖像,生成人物圖像對應的說話視頻。如此,使得說話視頻生成效率高、生成效果優(yōu)異,增強用戶體驗度。



技術(shù)特征:

1.一種通過文字驅(qū)動的aigc視頻生成方法,其特征在于,包括:

2.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述驅(qū)動文字,生成目標語音特征,包括:

3.如權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述語音特征和所述文字特征,得到所述目標語音特征,包括:

4.如權(quán)利要求2所述的方法,其特征在于,根據(jù)所述驅(qū)動文字,得到所述文字特征,包括:

5.如權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述語音,得到語音特征,包括:

6.如權(quán)利要求1所述的方法,其特征在于,所述將所述目標語音特征、所述圖像特征和所述臉部特征進行融合,得到多幀視頻圖像,包括:

7.如權(quán)利要求6所述的方法,其特征在于,所述運動估計矩陣為:

8.如權(quán)利要求6所述的方法,其特征在于,所述運動估計矩陣的姿態(tài)約束條件為通過所述運動估計矩陣得到目標特征的目標姿態(tài),且所述目標特征從當前姿態(tài)調(diào)整至所述目標姿態(tài)的條件,其中,所述目標特征為所述圖像特征的指定特征和/或所述臉部特征的指定特征。

9.如權(quán)利要求1所述的方法,其特征在于,根據(jù)多幀所述視頻圖像,生成所述人物圖像對應的說話視頻,包括:

10.一種通過文字驅(qū)動的aigc視頻生成裝置,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述程序時實現(xiàn)如權(quán)利要求1-9中任一權(quán)利要求所述的通過文字驅(qū)動的aigc視頻生成方法步驟。


技術(shù)總結(jié)
本發(fā)明涉及人工智能技術(shù)領(lǐng)域,尤其涉及一種通過文字驅(qū)動的AIGC視頻生成方法,該方法包括:獲取驅(qū)動文字和人物圖像;根據(jù)所述驅(qū)動文字,生成目標語音特征;根據(jù)所述人物圖像,得到所述人物圖像的圖像特征和臉部特征;將所述目標語音特征、所述圖像特征和所述臉部特征進行融合,得到多幀視頻圖像;根據(jù)多幀所述視頻圖像,生成所述人物圖像對應的說話視頻,其中,所述說話視頻為AIGC視頻,所述說話視頻的說話內(nèi)容為所述驅(qū)動文字的內(nèi)容。該方法以驅(qū)動文字作為輸入,使得數(shù)字人說話視頻的生成速度較快,還能通過文字挖掘出語義信息,使得數(shù)字人說話視頻生成效果優(yōu)異,數(shù)字人物逼真,數(shù)字人表情自然,提高用戶使用體驗度。

技術(shù)研發(fā)人員:楊恒,龍濤,李娟,吳永杰,韋健文
受保護的技術(shù)使用者:深圳愛莫科技有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/6
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
金门县| 沽源县| 应用必备| 华容县| 湄潭县| 威海市| 孟津县| 娱乐| 福建省| 益阳市| 苍溪县| 依安县| 康乐县| 越西县| 泸定县| 家居| 乌海市| 广东省| 阿尔山市| 武夷山市| 庐江县| 贺兰县| 红河县| 黄梅县| 淮滨县| 高邑县| 炉霍县| 兴仁县| 仁化县| 德惠市| 察雅县| 河南省| 饶河县| 钟祥市| 泰顺县| 武鸣县| 新沂市| 萨嘎县| 阳谷县| 桃园市| 柘荣县|