一種通過文字驅(qū)動的AIGC視頻生成方法及裝置與流程

文檔序號：40613523發(fā)布日期：2025-01-07 21:00閱讀：10來源：國知局

本發(fā)明涉及人工智能，尤其涉及一種通過文字驅(qū)動的aigc視頻生成方法及裝置。

背景技術(shù)：

1、近年來，隨著深度學習技術(shù)的發(fā)展，通過語音驅(qū)動三維數(shù)字人的臉部，生成說話視頻的技術(shù)得到了迅速發(fā)展，并且已經(jīng)在多個領(lǐng)域得到了應用。該說話視頻為aigc（artificial?intelligence?generated?content，人工智能生成內(nèi)容）視頻?，F(xiàn)有的數(shù)字人說話視頻通常以驅(qū)動語音音頻作為輸入，這增加了數(shù)字人說話視頻的成本。并且，通過驅(qū)動語音作為輸入的數(shù)字人說話視頻需要對語音音頻進行識別。在識別語音音頻的過程中，由于背景噪音、口音差異或快速說話等因素，對語音音頻產(chǎn)生識別錯誤。這樣導致數(shù)字人說話視頻的生成速度較慢、生成效果較差的問題。

技術(shù)實現(xiàn)思路

1、本申請實施例通過提供一種通過文字驅(qū)動的aigc視頻生成方法及裝置，解決了現(xiàn)有技術(shù)中數(shù)字人說話視頻的生成速度較慢、生成效果較差的技術(shù)問題，實現(xiàn)了以驅(qū)動文字作為輸入，使得數(shù)字人說話視頻的生成速度較快，還能通過文字挖掘出語義信息，使得數(shù)字人說話視頻生成效果優(yōu)異，數(shù)字人物逼真，數(shù)字人表情自然，提高用戶使用體驗度等技術(shù)效果。

2、第一方面，本發(fā)明實施例提供一種通過文字驅(qū)動的aigc視頻生成方法，包括：獲取驅(qū)動文字和人物圖像；

3、根據(jù)所述驅(qū)動文字，生成目標語音特征；

4、根據(jù)所述人物圖像，得到所述人物圖像的圖像特征和臉部特征；

5、將所述目標語音特征、所述圖像特征和所述臉部特征進行融合，得到多幀視頻圖像；

6、根據(jù)多幀所述視頻圖像，生成所述人物圖像對應的說話視頻，其中，所述說話視頻為aigc視頻，所述說話視頻的說話內(nèi)容為所述驅(qū)動文字的內(nèi)容。

7、優(yōu)選的，所述根據(jù)所述驅(qū)動文字，生成目標語音特征，包括：

8、根據(jù)所述驅(qū)動文字，得到所述驅(qū)動文字對應的語音和文字特征；

9、根據(jù)所述語音，得到語音特征，其中，所述語音特征為包含語義特征的特征向量；

10、根據(jù)所述語音特征和所述文字特征，得到所述目標語音特征。

11、優(yōu)選的，所述根據(jù)所述語音特征和所述文字特征，得到所述目標語音特征，包括：

12、通過lstm網(wǎng)絡(luò)，從所述語音特征中提取出音頻特征，以及通過文本提取器，從所述文字特征中提取出文本特征；

13、通過方差適配器，將所述音頻特征和所述文本特征進行殘差連接，得到潛在屬性特征；

14、通過編碼器，將所述潛在屬性特征與所述語音特征進行拼接，得到所述目標語音特征。

15、優(yōu)選的，根據(jù)所述驅(qū)動文字，得到所述文字特征，包括：

16、通過clip編碼器對所述驅(qū)動文字進行編碼，得到所述文字特征。

17、優(yōu)選的，所述根據(jù)所述語音，得到語音特征，包括：

18、通過卷積網(wǎng)絡(luò)，將所述語音映射到隱空間，得到所述隱空間中的所述語音的隱特征；

19、通過transformer網(wǎng)絡(luò)，將所述隱特征進行編碼，得到所述語音特征。

20、優(yōu)選的，所述將所述目標語音特征、所述圖像特征和所述臉部特征進行融合，得到多幀視頻圖像，包括：

21、通過擴散模型，對所述目標語音特征、所述圖像特征和所述臉部特征進行融合，直到達到運動估計矩陣的姿態(tài)約束條件，得到一幀所述視頻圖像，進而得到多幀所述視頻圖像。

22、優(yōu)選的，所述運動估計矩陣為：

23、m?=?mt,t,e[||e?-?et(gt,t,c)||2]；

24、其中，m為運動估計矩陣，t為時間步長，c為所述語音特征，e為多層感知機，gt為高斯噪聲，mt為在t時間步長下的運動空間矩陣，et為多層感知線性運算。

25、優(yōu)選的，所述運動估計矩陣的姿態(tài)約束條件為通過所述運動估計矩陣得到目標特征的目標姿態(tài)，且所述目標特征從當前姿態(tài)調(diào)整至所述目標姿態(tài)的條件，其中，所述目標特征為所述圖像特征的指定特征和/或所述臉部特征的指定特征。

26、優(yōu)選的，根據(jù)多幀所述視頻圖像，生成所述人物圖像對應的說話視頻，包括：

27、通過人臉修復模型，對多幀所述視頻圖像進行修復，得到多幀修復后的視頻圖像；

28、將多幀所述修復后的視頻圖像按序進行視頻編碼，得到所述說話視頻。

29、基于同一發(fā)明構(gòu)思，第二方面，本發(fā)明還提供一種通過文字驅(qū)動的aigc視頻生成裝置，包括：存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序，所述處理器執(zhí)行所述程序時實現(xiàn)第一方面的通過文字驅(qū)動的aigc視頻生成方法的步驟。

30、本發(fā)明實施例中的一個或多個技術(shù)方案，至少具有如下技術(shù)效果或優(yōu)點：

31、在本發(fā)明實施例中，在獲取驅(qū)動文字和人物圖像之后，根據(jù)驅(qū)動文字得到目標語音特征，并根據(jù)人物圖像得到圖像特征和臉部特征。這里，以驅(qū)動文字作為數(shù)字人說話視頻的輸入，大大降低說話視頻的生成成本，提高生成效率和生成速度。并且，通過驅(qū)動文字得到的目標語音特征具有高層語義信息，便于說話視頻生成效果逼真。

32、再將目標語音特征、圖像特征和臉部特征進行融合，得到多幀視頻圖像。這里，將目標語音特征與圖像特征和臉部特征進行嵌入融合，逐幀生成視頻圖像?；诰哂姓Z音信息的目標語音特征，使得視頻圖像中的數(shù)字人逼真，數(shù)字人的說話表情和口型自然，進而使得視頻圖像能反映出說話時的情緒，還能制定個性化地視頻圖像和說話視頻。然后，根據(jù)多幀視頻圖像，生成人物圖像對應的說話視頻。如此，使得說話視頻生成效率高、生成效果優(yōu)異，增強用戶體驗度。

技術(shù)特征：

1.一種通過文字驅(qū)動的aigc視頻生成方法，其特征在于，包括：

2.如權(quán)利要求1所述的方法，其特征在于，所述根據(jù)所述驅(qū)動文字，生成目標語音特征，包括：

3.如權(quán)利要求2所述的方法，其特征在于，所述根據(jù)所述語音特征和所述文字特征，得到所述目標語音特征，包括：

4.如權(quán)利要求2所述的方法，其特征在于，根據(jù)所述驅(qū)動文字，得到所述文字特征，包括：

5.如權(quán)利要求2所述的方法，其特征在于，所述根據(jù)所述語音，得到語音特征，包括：

6.如權(quán)利要求1所述的方法，其特征在于，所述將所述目標語音特征、所述圖像特征和所述臉部特征進行融合，得到多幀視頻圖像，包括：

7.如權(quán)利要求6所述的方法，其特征在于，所述運動估計矩陣為：

8.如權(quán)利要求6所述的方法，其特征在于，所述運動估計矩陣的姿態(tài)約束條件為通過所述運動估計矩陣得到目標特征的目標姿態(tài)，且所述目標特征從當前姿態(tài)調(diào)整至所述目標姿態(tài)的條件，其中，所述目標特征為所述圖像特征的指定特征和/或所述臉部特征的指定特征。

9.如權(quán)利要求1所述的方法，其特征在于，根據(jù)多幀所述視頻圖像，生成所述人物圖像對應的說話視頻，包括：

10.一種通過文字驅(qū)動的aigc視頻生成裝置，包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序，其特征在于，所述處理器執(zhí)行所述程序時實現(xiàn)如權(quán)利要求1-9中任一權(quán)利要求所述的通過文字驅(qū)動的aigc視頻生成方法步驟。

技術(shù)總結(jié)
本發(fā)明涉及人工智能技術(shù)領(lǐng)域，尤其涉及一種通過文字驅(qū)動的AIGC視頻生成方法，該方法包括：獲取驅(qū)動文字和人物圖像；根據(jù)所述驅(qū)動文字，生成目標語音特征；根據(jù)所述人物圖像，得到所述人物圖像的圖像特征和臉部特征；將所述目標語音特征、所述圖像特征和所述臉部特征進行融合，得到多幀視頻圖像；根據(jù)多幀所述視頻圖像，生成所述人物圖像對應的說話視頻，其中，所述說話視頻為AIGC視頻，所述說話視頻的說話內(nèi)容為所述驅(qū)動文字的內(nèi)容。該方法以驅(qū)動文字作為輸入，使得數(shù)字人說話視頻的生成速度較快，還能通過文字挖掘出語義信息，使得數(shù)字人說話視頻生成效果優(yōu)異，數(shù)字人物逼真，數(shù)字人表情自然，提高用戶使用體驗度。

技術(shù)研發(fā)人員：楊恒,龍濤,李娟,吳永杰,韋健文
受保護的技術(shù)使用者：深圳愛莫科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/6

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：楊恒,龍濤,李娟,吳永杰,韋健文
技術(shù)所有人：深圳愛莫科技有限公司
我是此專利的發(fā)明人

上一篇：類球形多孔碳及其制備方法和制備裝置、硅碳負極材料與流程
上一篇：一種防火墻日志數(shù)據(jù)解析方法與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
4、畢老師：機構(gòu)動力學與控制
5、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種通過文字驅(qū)動的AIGC視頻生成方法及裝置與流程