動(dòng)作視頻生成方法、相關(guān)裝置和介質(zhì)與流程

文檔序號(hào)：40574926發(fā)布日期：2025-01-03 11:39閱讀：24來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本公開(kāi)涉及人工智能領(lǐng)域，特別是涉及一種動(dòng)作視頻生成方法、相關(guān)裝置和介質(zhì)。

背景技術(shù)：

1、虛擬角色建模被廣泛應(yīng)用在游戲、視頻創(chuàng)作等場(chǎng)景，在這些場(chǎng)景下，往往需要虛擬角色根據(jù)所發(fā)出的音頻做出相應(yīng)動(dòng)作，以提高互動(dòng)性，而針對(duì)虛擬角色的動(dòng)作建模就顯得相對(duì)重要。隨著技術(shù)發(fā)展，相關(guān)技術(shù)中，可以使用人工智能技術(shù)進(jìn)行虛擬角色的動(dòng)作建模，然而，使用人工智能技術(shù)進(jìn)行虛擬角色的動(dòng)作建模時(shí)，往往是僅基于語(yǔ)音來(lái)生成虛擬角色的動(dòng)作數(shù)據(jù)的，由于語(yǔ)音所攜帶的信息量有限，使得所生成的虛擬角色的動(dòng)作數(shù)據(jù)的精細(xì)度和準(zhǔn)確度不足，降低了生成的動(dòng)作視頻的質(zhì)量。

技術(shù)實(shí)現(xiàn)思路

1、本公開(kāi)提供了一種動(dòng)作視頻生成方法、相關(guān)裝置和介質(zhì)，能夠提高所生成的動(dòng)作數(shù)據(jù)的準(zhǔn)確度和精細(xì)度，進(jìn)而提高生成的動(dòng)作視頻的質(zhì)量。

2、根據(jù)本公開(kāi)的一方面，提供了一種動(dòng)作視頻生成方法，包括：

3、獲取與目標(biāo)虛擬角色關(guān)聯(lián)的目標(biāo)音頻，將所述目標(biāo)音頻編碼為目標(biāo)音頻特征；

4、獲取與所述目標(biāo)虛擬角色關(guān)聯(lián)的目標(biāo)引導(dǎo)內(nèi)容，將所述目標(biāo)引導(dǎo)內(nèi)容和預(yù)設(shè)提示文本輸入到預(yù)設(shè)的大語(yǔ)言模型進(jìn)行文本預(yù)測(cè)，生成至少一個(gè)用于描述所述目標(biāo)虛擬角色的語(yǔ)義標(biāo)簽，將至少一個(gè)所述語(yǔ)義標(biāo)簽編碼為語(yǔ)義標(biāo)簽特征，所述預(yù)設(shè)提示文本用于提示所述大語(yǔ)言模型基于所述目標(biāo)引導(dǎo)內(nèi)容生成所述語(yǔ)義標(biāo)簽；

5、利用擴(kuò)散模型根據(jù)所述目標(biāo)音頻特征和所述語(yǔ)義標(biāo)簽特征對(duì)預(yù)設(shè)噪聲特征進(jìn)行去噪，得到目標(biāo)動(dòng)作序列，所述目標(biāo)動(dòng)作序列包括待生成的目標(biāo)動(dòng)作視頻中所述目標(biāo)虛擬角色各個(gè)動(dòng)作幀的動(dòng)作數(shù)據(jù)；

6、基于所述目標(biāo)動(dòng)作序列生成所述目標(biāo)虛擬角色的所述目標(biāo)動(dòng)作視頻。

7、根據(jù)本公開(kāi)的一方面，提供了一種動(dòng)作視頻生成裝置，包括：

8、音頻獲取模塊，用于獲取與目標(biāo)虛擬角色關(guān)聯(lián)的目標(biāo)音頻，將所述目標(biāo)音頻編碼為目標(biāo)音頻特征；

9、語(yǔ)義標(biāo)簽處理模塊，用于獲取與所述目標(biāo)虛擬角色關(guān)聯(lián)的目標(biāo)引導(dǎo)內(nèi)容，將所述目標(biāo)引導(dǎo)內(nèi)容和預(yù)設(shè)提示文本輸入到預(yù)設(shè)的大語(yǔ)言模型進(jìn)行文本預(yù)測(cè)，生成至少一個(gè)用于描述所述目標(biāo)虛擬角色的語(yǔ)義標(biāo)簽，將所述至少一個(gè)語(yǔ)義標(biāo)簽編碼為語(yǔ)義標(biāo)簽特征，所述預(yù)設(shè)提示文本用于提示所述大語(yǔ)言模型基于所述目標(biāo)引導(dǎo)內(nèi)容生成所述語(yǔ)義標(biāo)簽；

10、擴(kuò)散模塊，用于利用擴(kuò)散模型根據(jù)所述目標(biāo)音頻特征和所述語(yǔ)義標(biāo)簽特征對(duì)預(yù)設(shè)噪聲特征進(jìn)行去噪，得到目標(biāo)動(dòng)作序列，所述目標(biāo)動(dòng)作序列包括待生成的目標(biāo)動(dòng)作視頻中所述目標(biāo)虛擬角色各個(gè)動(dòng)作幀的動(dòng)作數(shù)據(jù)；

11、視頻生成模塊，用于基于所述目標(biāo)動(dòng)作序列生成所述目標(biāo)虛擬角色的所述目標(biāo)動(dòng)作視頻。

12、可選地，語(yǔ)義標(biāo)簽處理模塊用于：

13、獲取與所述目標(biāo)虛擬角色關(guān)聯(lián)的目標(biāo)文本，所述目標(biāo)文本包括與所述目標(biāo)虛擬角色的多個(gè)角色音頻對(duì)應(yīng)的文本，所述目標(biāo)音頻是多個(gè)所述角色音頻中的一個(gè)；

14、將所述目標(biāo)文本以及所述目標(biāo)音頻確定為與所述目標(biāo)音頻關(guān)聯(lián)的目標(biāo)引導(dǎo)內(nèi)容。

15、可選地，語(yǔ)義標(biāo)簽處理模塊用于：

16、對(duì)所述目標(biāo)虛擬角色的多個(gè)角色音頻進(jìn)行音頻識(shí)別，得到所述目標(biāo)文本；

17、或者，獲取通過(guò)輸入操作輸入的與所述目標(biāo)虛擬角色關(guān)聯(lián)的文本，作為所述目標(biāo)音頻的目標(biāo)文本。

18、可選地，擴(kuò)散模塊用于：

19、獲取預(yù)設(shè)的時(shí)間步最大值；

20、將所述時(shí)間步最大值確定為當(dāng)前時(shí)間步，將所述預(yù)設(shè)噪聲特征確定為待去噪序列；

21、利用擴(kuò)散模型根據(jù)所述當(dāng)前時(shí)間步、所述目標(biāo)音頻特征和所述語(yǔ)義標(biāo)簽特征對(duì)所述待去噪序列進(jìn)行去噪，得到中間去噪序列；

22、基于預(yù)設(shè)間隔對(duì)所述當(dāng)前時(shí)間步進(jìn)行遞減，將所述中間去噪序列確定為所述待去噪序列，再次利用擴(kuò)散模型根據(jù)遞減后的所述當(dāng)前時(shí)間步、所述目標(biāo)音頻特征和所述語(yǔ)義標(biāo)簽特征對(duì)所述待去噪序列進(jìn)行去噪，得到所述中間去噪序列，直至所述當(dāng)前時(shí)間步歸零，將所述當(dāng)前時(shí)間步歸零時(shí)的所述中間去噪序列確定為所述目標(biāo)動(dòng)作序列。

23、可選地，擴(kuò)散模塊用于：

24、獲取初始動(dòng)作數(shù)據(jù)，對(duì)所述初始動(dòng)作數(shù)據(jù)進(jìn)行卷積，得到初始動(dòng)作特征；

25、利用擴(kuò)散模型根據(jù)所述當(dāng)前時(shí)間步、所述初始動(dòng)作特征、所述目標(biāo)音頻特征和所述語(yǔ)義標(biāo)簽特征對(duì)所述待去噪序列進(jìn)行去噪，得到中間去噪序列。

26、可選地，擴(kuò)散模塊用于：

27、將所述當(dāng)前時(shí)間步、所述初始動(dòng)作特征、所述目標(biāo)音頻特征和所述語(yǔ)義標(biāo)簽特征輸入至擴(kuò)散模型；

28、將所述初始動(dòng)作特征、所述目標(biāo)音頻特征、所述待去噪序列和所述語(yǔ)義標(biāo)簽特征融合，得到第一融合特征；

29、根據(jù)預(yù)設(shè)的注意力窗口大小對(duì)所述第一融合特征進(jìn)行局部注意力運(yùn)算；

30、將所述初始動(dòng)作特征、所述語(yǔ)義標(biāo)簽特征與局部注意力運(yùn)算的結(jié)果融合，得到第二融合特征，對(duì)所述第二融合特征進(jìn)行自注意力運(yùn)算，對(duì)自注意力運(yùn)算的結(jié)果進(jìn)行線性映射，得到與所述當(dāng)前時(shí)間步對(duì)應(yīng)的待去除噪聲特征，其中，所述待去除噪聲特征是和所述待去噪序列的形狀相同的張量；

31、獲取所述當(dāng)前時(shí)間步對(duì)應(yīng)的第一噪聲系數(shù)，根據(jù)所述第一噪聲系數(shù)從所述待去噪序列中減去所述待去除噪聲特征，得到所述中間去噪序列。

32、可選地，擴(kuò)散模塊用于：

33、獲取小于所述當(dāng)前時(shí)間步的每個(gè)時(shí)間步對(duì)應(yīng)的第二噪聲系數(shù)，其中，所述時(shí)間步和對(duì)應(yīng)的所述第二噪聲系數(shù)負(fù)相關(guān)，所述第二噪聲系數(shù)大于所述第一噪聲系數(shù)；

34、根據(jù)所述第一噪聲系數(shù)與多個(gè)所述第二噪聲系數(shù)的乘積得到累積噪聲系數(shù)，確定基準(zhǔn)數(shù)值減去所述累積噪聲系數(shù)的第一差值，將所述第一差值的平方根確定為第一平方根值；

35、確定所述基準(zhǔn)數(shù)值減去所述第一噪聲系數(shù)的第二差值；

36、確定第二差值和所述第一平方根值的第一商值，根據(jù)所述第一商值和所述待去除噪聲特征的乘積得到縮放后待去除噪聲特征；

37、確定所述待去噪序列減去所述縮放后待去除噪聲特征的第三差值，確定所述第三差值與所述第一噪聲系數(shù)的平方根的倒數(shù)的第一乘積；

38、確定第一噪聲序列和所述第二差值的第二乘積，將所述第一乘積與所述第二乘積之和確定為所述中間去噪序列，其中，所述第一噪聲序列通過(guò)從標(biāo)準(zhǔn)正態(tài)分布中采樣得到，所述第一噪聲序列的形狀和所述待去噪序列的形狀相同。

39、可選地，動(dòng)作視頻生成裝置還包括訓(xùn)練模塊，訓(xùn)練模塊用于：

40、獲取樣本虛擬角色的樣本動(dòng)作序列、與所述樣本虛擬角色關(guān)聯(lián)的樣本音頻和與所述樣本音頻關(guān)聯(lián)的樣本引導(dǎo)內(nèi)容，所述樣本動(dòng)作序列包括所述樣本虛擬角色在多個(gè)動(dòng)作幀中的動(dòng)作數(shù)據(jù)；

41、將所述樣本音頻編碼為樣本音頻特征，將所述樣本引導(dǎo)內(nèi)容和預(yù)設(shè)提示詞輸入到大語(yǔ)言模型進(jìn)行文本預(yù)測(cè)，生成用于描述所述樣本虛擬角色的樣本標(biāo)簽；

42、依次在多個(gè)時(shí)間步中對(duì)所述樣本動(dòng)作序列進(jìn)行加噪，直至所述時(shí)間步達(dá)到所述時(shí)間步最大值，得到樣本噪聲序列，將在每個(gè)所述時(shí)間步中添加到所述樣本動(dòng)作序列的噪聲特征確定為所述時(shí)間步對(duì)應(yīng)的參考噪聲特征；

43、將所述樣本標(biāo)簽編碼為樣本標(biāo)簽特征，通過(guò)所述樣本音頻特征、所述樣本標(biāo)簽特征引導(dǎo)所述擴(kuò)散模型對(duì)每個(gè)所述時(shí)間步中的所述樣本噪聲序列進(jìn)行去噪，確定每個(gè)所述時(shí)間步中預(yù)測(cè)得到的預(yù)測(cè)噪聲特征，所述預(yù)測(cè)噪聲特征是在所述時(shí)間步的去噪過(guò)程中從所述樣本噪聲序列中去除的噪聲；

44、基于每個(gè)所述時(shí)間步對(duì)應(yīng)的所述參考噪聲特征和所述預(yù)測(cè)噪聲特征之間的差異，確定第一損失函數(shù)值，基于所述第一損失函數(shù)值進(jìn)行反向傳播，以優(yōu)化所述擴(kuò)散模型的參數(shù)。

45、可選地，訓(xùn)練模塊用于：

46、針對(duì)每個(gè)所述時(shí)間步，分別將所述樣本動(dòng)作序列中的前n個(gè)動(dòng)作幀的動(dòng)作數(shù)據(jù)編碼為樣本動(dòng)作特征，n隨著所述時(shí)間步的遞減而遞增，n為正整數(shù)；

47、通過(guò)所述樣本音頻特征、所述樣本動(dòng)作特征、所述樣本標(biāo)簽特征引導(dǎo)所述擴(kuò)散模型對(duì)每個(gè)所述時(shí)間步中的所述樣本噪聲序列進(jìn)行去噪。

48、可選地，訓(xùn)練模塊用于：

49、對(duì)所述樣本標(biāo)簽特征和所述樣本動(dòng)作特征進(jìn)行隨機(jī)掩碼；

50、通過(guò)所述樣本音頻特征、隨機(jī)掩碼后的所述樣本標(biāo)簽特征和隨機(jī)掩碼后的所述樣本動(dòng)作特征引導(dǎo)所述擴(kuò)散模型對(duì)每個(gè)所述時(shí)間步中的所述樣本噪聲序列進(jìn)行去噪。

51、可選地，訓(xùn)練模塊用于：

52、針對(duì)每個(gè)所述時(shí)間步，計(jì)算所述時(shí)間步對(duì)應(yīng)的預(yù)測(cè)噪聲特征和所述時(shí)間步對(duì)應(yīng)的參考噪聲特征的第四差值；

53、根據(jù)所述第四差值的l2范數(shù)確定所述第一損失函數(shù)值。

54、可選地，訓(xùn)練模塊用于：

55、將所述當(dāng)前時(shí)間步置零，將所述樣本動(dòng)作序列確定為待加噪序列；

56、獲取所述當(dāng)前時(shí)間步對(duì)應(yīng)的第一噪聲系數(shù)，從標(biāo)準(zhǔn)正態(tài)分布中采樣所述當(dāng)前時(shí)間步對(duì)應(yīng)的待添加噪聲特征，根據(jù)所述第一噪聲系數(shù)將所述待添加噪聲特征添加到所述待加噪序列中，得到所述當(dāng)前時(shí)間步對(duì)應(yīng)的中間加噪序列；

57、基于所述預(yù)設(shè)間隔對(duì)所述當(dāng)前時(shí)間步進(jìn)行遞增，將所述中間加噪序列確定為待加噪序列，更新所述第一噪聲系數(shù)，從標(biāo)準(zhǔn)正態(tài)分布中再次采樣所述當(dāng)前時(shí)間步對(duì)應(yīng)的所述待添加噪聲特征，根據(jù)更新后的所述第一噪聲系數(shù)將所述待添加噪聲特征添加到所述待加噪序列中，直至所述當(dāng)前時(shí)間步達(dá)到所述時(shí)間步最大值，得到所述樣本噪聲序列。

58、可選地，訓(xùn)練模塊用于：

59、根據(jù)所述第一噪聲系數(shù)的平方根對(duì)所述待加噪序列進(jìn)行加權(quán)；

60、根據(jù)基準(zhǔn)數(shù)值減去所述噪聲系數(shù)的差值的平方根，對(duì)所述待添加噪聲特征進(jìn)行加權(quán)；

61、將加權(quán)后的所述待加噪序列和加權(quán)后的所述待添加噪聲特征疊加，得到所述當(dāng)前時(shí)間步對(duì)應(yīng)的中間加噪序列。

62、根據(jù)本公開(kāi)的一方面，提供了一種電子設(shè)備，包括存儲(chǔ)器和處理器，所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上所述的動(dòng)作視頻生成方法。

63、根據(jù)本公開(kāi)的一方面，提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上所述的動(dòng)作視頻生成方法。

64、根據(jù)本公開(kāi)的一方面，提供了一種計(jì)算機(jī)程序產(chǎn)品，該計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被計(jì)算機(jī)設(shè)備的處理器讀取并執(zhí)行，使得該計(jì)算機(jī)設(shè)備執(zhí)行如上所述的動(dòng)作視頻生成方法。

65、本公開(kāi)提出的動(dòng)作視頻生成方法、裝置、電子設(shè)備和介質(zhì)，通過(guò)獲取與目標(biāo)虛擬角色關(guān)聯(lián)的目標(biāo)音頻以及與目標(biāo)音頻關(guān)聯(lián)的目標(biāo)引導(dǎo)內(nèi)容，然后把目標(biāo)引導(dǎo)內(nèi)容和預(yù)設(shè)提示文本一起輸入到大語(yǔ)言模型中，利用大語(yǔ)言模型的語(yǔ)義理解能力從目標(biāo)引導(dǎo)內(nèi)容中提取出可以用于描述目標(biāo)虛擬角色的語(yǔ)義標(biāo)簽，并將語(yǔ)義標(biāo)簽編碼成語(yǔ)義標(biāo)簽特征，這些語(yǔ)義標(biāo)簽特征可以表征目標(biāo)虛擬角色自身的角色屬性，在使用擴(kuò)散模型對(duì)預(yù)設(shè)噪聲特征進(jìn)行動(dòng)作生成時(shí)，不僅使用了對(duì)應(yīng)的目標(biāo)音頻，還進(jìn)一步結(jié)合這些可以表征目標(biāo)虛擬角色的角色屬性的語(yǔ)義標(biāo)簽特征對(duì)預(yù)設(shè)噪聲特征進(jìn)行去噪處理，因?yàn)樵诶脭U(kuò)散模型對(duì)預(yù)設(shè)噪聲特征進(jìn)行去噪的過(guò)程中額外注入了用于表征目標(biāo)虛擬角色的角色屬性的語(yǔ)義標(biāo)簽特征，擴(kuò)散模型的去噪過(guò)程不僅受目標(biāo)音頻特征影響，還受這些用于描述目標(biāo)虛擬角色的角色屬性的語(yǔ)義標(biāo)簽影響，這可以使得最終生成的目標(biāo)動(dòng)作序列能夠更為準(zhǔn)確地契合目標(biāo)虛擬角色的角色屬性，從而提高所生成的動(dòng)作數(shù)據(jù)的準(zhǔn)確度和精細(xì)度，進(jìn)而提高生成的動(dòng)作視頻的質(zhì)量。

66、本公開(kāi)的其他特征和優(yōu)點(diǎn)將在隨后的說(shuō)明書(shū)中闡述，并且，部分地從說(shuō)明書(shū)中變得顯而易見(jiàn)，或者通過(guò)實(shí)施本公開(kāi)而了解。本公開(kāi)的目的和其他優(yōu)點(diǎn)可通過(guò)在說(shuō)明書(shū)、權(quán)利要求書(shū)以及附圖中所特別指出的結(jié)構(gòu)來(lái)實(shí)現(xiàn)和獲得。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：唐梓軒,何琨,姜銜,謝經(jīng)緯,周敏,謝后齊,王朗,陳萬(wàn)順,安東岳,陳祺,杜楠,李小龍
技術(shù)所有人：騰訊科技（深圳）有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

動(dòng)作視頻生成方法、相關(guān)裝置和介質(zhì)與流程