本發(fā)明涉及人工智能,更具體地,涉及一種文字驅(qū)動(dòng)的唇音同步數(shù)字人生成方法、裝置、設(shè)備及介質(zhì)。
背景技術(shù):
1、隨著人工智能技術(shù)的飛速發(fā)展,數(shù)字人生成技術(shù)已成為連接虛擬與現(xiàn)實(shí)邊界的關(guān)鍵橋梁,在娛樂(lè)、教育、遠(yuǎn)程通信等多個(gè)領(lǐng)域展現(xiàn)出前所未有的應(yīng)用潛力。特別是在追求高度沉浸感的電影制作、互動(dòng)游戲以及日益成熟的虛擬現(xiàn)實(shí)體驗(yàn)中,唇音同步技術(shù)的重要性愈發(fā)凸顯。該技術(shù)通過(guò)精準(zhǔn)匹配虛擬角色的口型運(yùn)動(dòng)與音頻內(nèi)容,極大地增強(qiáng)了用戶體驗(yàn)的真實(shí)感和互動(dòng)性。
2、然而,當(dāng)前唇音同步數(shù)字人技術(shù)的發(fā)展仍面臨著顯著的挑戰(zhàn)。傳統(tǒng)方法高度依賴預(yù)先錄制的音頻素材及繁瑣的后期處理流程,不僅效率低下,還伴隨著高昂的制作成本和漫長(zhǎng)的項(xiàng)目周期,嚴(yán)重制約了技術(shù)的廣泛應(yīng)用。盡管近年來(lái),結(jié)合音色克隆技術(shù)的文字轉(zhuǎn)語(yǔ)音(tts,text?to?speech)系統(tǒng)被引入以簡(jiǎn)化生成數(shù)字人的流程并提高生成的靈活性,但該技術(shù)的非即時(shí)性缺陷仍是一大瓶頸,用戶需等待tts系統(tǒng)完成音頻生成后才能進(jìn)行后續(xù)處理,無(wú)法滿足實(shí)時(shí)交互場(chǎng)景對(duì)即時(shí)響應(yīng)的要求,從而限制了技術(shù)的應(yīng)用范圍和降低了用戶體驗(yàn)。
3、因此,如何實(shí)現(xiàn)更加高效、靈活且具備高度即時(shí)性的唇音同步數(shù)字人技術(shù),成為當(dāng)前研究的。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明旨在克服上述現(xiàn)有技術(shù)的至少一種缺陷(不足),提供一種文字驅(qū)動(dòng)的唇音同步數(shù)字人生成方法、裝置、設(shè)備及介質(zhì),用于解決現(xiàn)有技術(shù)中數(shù)字人生成及時(shí)性差無(wú)法滿足實(shí)時(shí)交互場(chǎng)景的問(wèn)題。
2、根據(jù)本技術(shù)的第一方面,提供了一種文字驅(qū)動(dòng)的唇音同步數(shù)字人生成方法,所述方法包括:
3、獲取輸入文本和單一對(duì)象視頻,對(duì)所述輸入文本進(jìn)行預(yù)處理,得到音素序列和語(yǔ)義特征;對(duì)所述單一對(duì)象視頻進(jìn)行預(yù)處理,得到可循環(huán)播放的視頻段落、遮罩臉部圖像和參考臉部圖像;
4、基于所述音素序列和所述語(yǔ)義特征生成語(yǔ)音特征;
5、基于所述語(yǔ)音特征生成音頻序列;
6、根據(jù)所述遮罩臉部圖像、所述參考臉部圖像和所述語(yǔ)音特征獲取臉部變形參數(shù),基于所述臉部變形參數(shù)對(duì)所述參考臉部圖像進(jìn)行變形,生成目標(biāo)臉部圖像;將所述目標(biāo)臉部圖像嵌入所述視頻段落的視頻幀中,生成視頻序列;
7、將所述視頻序列和所述音頻序列拼合,得到目標(biāo)數(shù)字人視頻。
8、基于文本驅(qū)動(dòng)生成數(shù)字人視頻,能夠即時(shí)生成與文本匹配的語(yǔ)音和唇形視頻,消除了等待文字換成語(yǔ)音處理的時(shí)間延遲,實(shí)現(xiàn)了從文本到視頻的端到端自動(dòng)化生成,極大地提高了數(shù)字人視頻制作的效率。
9、可選地,基于所述語(yǔ)音特征生成音頻序列,包括:
10、對(duì)所述語(yǔ)音特征進(jìn)行量化處理得到量化語(yǔ)音特征;
11、對(duì)所述量化語(yǔ)音特征進(jìn)行編碼,生成描述語(yǔ)音特征分布的均值與方差參數(shù);
12、利用所述語(yǔ)音特征分布的均值與方差參數(shù),從所述語(yǔ)音特征分布中進(jìn)行采樣獲得語(yǔ)音中間表示,根據(jù)所述語(yǔ)音中間表示生成音頻序列;
13、通過(guò)對(duì)語(yǔ)音特征進(jìn)行量化處理,可以有效減少數(shù)據(jù)冗余,降低后續(xù)處理的復(fù)雜度。同時(shí),編碼過(guò)程生成的均值與方差參數(shù)簡(jiǎn)潔地描述了語(yǔ)音特征的分布特性,使得采樣過(guò)程更加快速且精準(zhǔn),從而提高了音頻序列的生成效率。
14、可選地,所述根據(jù)所述遮罩臉部圖像、所述參考臉部圖像和所述語(yǔ)音特征獲取臉部變形參數(shù),包括:
15、對(duì)所述遮罩臉部圖像、所述參考臉部圖像和所述語(yǔ)音特征進(jìn)行編碼分別得到臉部特征、參考臉部特征和唇形特征;
16、將所述臉部特征與所述參考臉部特征拼合并壓縮為一維的圖像變換參數(shù),將所述圖像變換參數(shù)和所述唇形特征進(jìn)行拼合,得到臉部變形參數(shù)。
17、通過(guò)整合遮罩臉部圖像、參考臉部圖像和語(yǔ)音特征,實(shí)現(xiàn)了對(duì)臉部表情和唇形的精準(zhǔn)控制,從而提高了臉部變形的準(zhǔn)確性和自然度。
18、可選地,所述基于所述臉部變形參數(shù)對(duì)所述參考臉部圖像進(jìn)行變形,生成目標(biāo)臉部圖像,具體包括:
19、利用卷積神經(jīng)網(wǎng)絡(luò)的殘差卷積模塊對(duì)所述參考臉部特征進(jìn)行處理,獲得參考臉部深層語(yǔ)義特征;
20、對(duì)所述臉部變形參數(shù)進(jìn)行維度變換與特征嵌入,獲得嵌入臉部變形參數(shù);
21、利用卷積神經(jīng)網(wǎng)絡(luò)的全卷積層對(duì)所述嵌入臉部變形參數(shù)進(jìn)行處理,分別獲得縮放矩陣、旋轉(zhuǎn)矩陣與平移矩陣;
22、利用所述縮放矩陣、所述旋轉(zhuǎn)矩陣和所述平移矩陣對(duì)所述參考臉部深層語(yǔ)義特征進(jìn)行變形得到變形后的參考臉部特征;
23、將所述臉部特征與變形后的參考臉部特征拼合,得到拼合特征;
24、對(duì)所述拼合特征進(jìn)行逐步上采樣恢復(fù)并增強(qiáng)特征的空間分辨率,生成目標(biāo)臉部圖像。
25、通過(guò)卷積神經(jīng)網(wǎng)絡(luò)的殘差卷積模塊和全卷積層實(shí)現(xiàn)了對(duì)參考臉部特征的深度語(yǔ)義理解,根據(jù)語(yǔ)音驅(qū)動(dòng)的唇形變化進(jìn)行了自然流暢的變形調(diào)整,最終生成了高質(zhì)量、高逼真度的目標(biāo)臉部圖像,使得生成的數(shù)字人視頻更加真實(shí)生動(dòng)。
26、可選地,所述基于所述音素序列和所述語(yǔ)義特征生成語(yǔ)音特征,包括:
27、音素特征嵌入:將音素序列映射至高維連續(xù)向量空間,獲得音素特征;
28、語(yǔ)義特征維度變換融合:對(duì)所述語(yǔ)義特征進(jìn)行維度轉(zhuǎn)換,使所述語(yǔ)義特征與所述音素特征的維度相匹配,然后將維度轉(zhuǎn)換后的所述語(yǔ)義特征和所述音素特征拼合形成融合特征;
29、融合特征位置編碼:對(duì)融合特征施加位置編碼;
30、自回歸解碼:通過(guò)循環(huán)迭代方式對(duì)施加位置編碼后的所述融合特征執(zhí)行自回歸特征交互與解碼,生成語(yǔ)音特征。
31、通過(guò)音素特征嵌入、語(yǔ)義特征維度變換融合、融合特征位置編碼以及自回歸解碼,有效地將文本信息轉(zhuǎn)化為豐富的語(yǔ)音特征;通過(guò)位置編碼和自回歸解碼,能夠使語(yǔ)音特征保持時(shí)序性和連貫性,生成既符合文本內(nèi)容又具備自然語(yǔ)音特性的語(yǔ)音特征,為后續(xù)的數(shù)字人視頻生成提供了堅(jiān)實(shí)的基礎(chǔ),顯著提升了語(yǔ)音合成的真實(shí)感和表現(xiàn)力。
32、可選地,通過(guò)循環(huán)迭代方式對(duì)施加位置編碼后的所述融合特征執(zhí)行自回歸特征交互與解碼,生成語(yǔ)音特征,具體包括:
33、初始化:將預(yù)設(shè)的啟動(dòng)標(biāo)識(shí)符特征sta作為初始的語(yǔ)音特征y;
34、循環(huán)迭代:對(duì)于每一步迭代,執(zhí)行如下步驟:
35、對(duì)所述音頻特征y進(jìn)行嵌入與位置編碼;
36、將所述融合特征x與經(jīng)過(guò)嵌入與位置編碼的所述音頻特征y拼合,形成拼合特征xy;
37、根據(jù)融合特征x與所述音頻特征y的長(zhǎng)度構(gòu)建注意力掩碼;
38、使用解碼器對(duì)拼合特征xy進(jìn)行解碼,得到解碼輸出;
39、利用transformer模型的全連接層對(duì)所述解碼輸出進(jìn)行處理,得到當(dāng)前循環(huán)對(duì)應(yīng)的語(yǔ)音特征y_now;
40、將前循環(huán)對(duì)應(yīng)的語(yǔ)音特征y_now與所述語(yǔ)音特征y進(jìn)行拼合,將拼合后的結(jié)果更新所述語(yǔ)音特征y;
41、判斷當(dāng)前循環(huán)對(duì)應(yīng)的語(yǔ)音特征y_now是否為預(yù)設(shè)的停止特征eos,如果不是則繼續(xù)下一次迭代,如果是則結(jié)束循環(huán)并輸出所述語(yǔ)音特征y。
42、通過(guò)循環(huán)迭代的方式生成語(yǔ)音特征序列,循環(huán)中每一步都基于前序信息生成新的語(yǔ)音特征序列,不僅能體現(xiàn)了目標(biāo)文本的語(yǔ)音特性還融合了目標(biāo)文本的語(yǔ)義,使得生成的語(yǔ)音特征能夠更準(zhǔn)確地反映目標(biāo)文本的語(yǔ)音韻律和情感表達(dá),為后續(xù)的音視頻生成奠定了堅(jiān)實(shí)的基礎(chǔ)。
43、可選地,所述對(duì)所述單一對(duì)象視頻進(jìn)行預(yù)處理,得到可循環(huán)播放的視頻段落、遮罩臉部圖像和參考臉部圖像,具體包括:
44、獲取所述單一對(duì)象視頻的倒放視頻,將所述單一對(duì)象視頻與所述倒放視頻進(jìn)行拼接,形成可循環(huán)播放的視頻段落;
45、對(duì)視頻段落的每一幀圖像進(jìn)行臉部識(shí)別,并提取所述每一幀圖像的臉部關(guān)鍵點(diǎn);利用濾波器對(duì)所述臉部關(guān)鍵點(diǎn)進(jìn)行平滑處理,根據(jù)平滑處理后的臉部關(guān)鍵點(diǎn)對(duì)所述每一幀圖像進(jìn)行裁剪,得到臉部圖像、所述臉部關(guān)鍵點(diǎn)的坐標(biāo)及裁剪框位置。
46、從所有所述臉部圖像中,隨機(jī)選擇若干幀臉部圖像進(jìn)行拼接,形成參考臉部圖像;
47、基于所述臉部關(guān)鍵點(diǎn),對(duì)所述臉部圖像的嘴部區(qū)域進(jìn)行遮罩處理,得到僅顯示嘴部運(yùn)動(dòng)而背景透明化的遮罩臉部圖像。
48、通過(guò)視頻模板獲取與循環(huán)構(gòu)建,實(shí)現(xiàn)視頻內(nèi)容的平滑延續(xù),無(wú)論生成的視頻長(zhǎng)度如何,都能保證視覺(jué)上的連貫性,無(wú)需擔(dān)心視頻突然中斷或重復(fù)不自然。通過(guò)平滑處理有效減少了噪聲和抖動(dòng),為后續(xù)的臉部裁剪和遮罩處理奠定了堅(jiān)實(shí)基礎(chǔ)。通過(guò)隨機(jī)拼接參考臉部圖像,有助于在后續(xù)處理中更好地捕捉和模擬臉部的整體特征和變化,提升了處理結(jié)果的泛化能力。通過(guò)遮罩嘴部區(qū)域,實(shí)現(xiàn)了僅保留嘴部運(yùn)動(dòng)而背景透明化的效果,使得嘴部運(yùn)動(dòng)成為視覺(jué)焦點(diǎn),有助于更精確地分析和應(yīng)用嘴部信息。
49、根據(jù)本技術(shù)的第二方面,提供了一種文字驅(qū)動(dòng)的唇音同步數(shù)字人生成裝置,所述裝置包括:
50、預(yù)處理模塊,用于獲取輸入文本和單一對(duì)象視頻,對(duì)所述輸入文本進(jìn)行預(yù)處理,得到音素序列和語(yǔ)義特征;對(duì)所述單一對(duì)象視頻進(jìn)行預(yù)處理,得到可循環(huán)播放的視頻段落、遮罩臉部圖像和參考臉部圖像;
51、語(yǔ)音特征生成模塊,用于基于所述音素序列和所述語(yǔ)義特征生成語(yǔ)音特征;
52、音頻生成模塊,用于基于所述語(yǔ)音特征生成音頻序列;
53、視頻序列生成模塊,用于根據(jù)所述遮罩臉部圖像、所述參考臉部圖像和所述語(yǔ)音特征獲取臉部變形參數(shù),基于所述臉部變形參數(shù)對(duì)所述參考臉部圖像進(jìn)行變形,生成目標(biāo)臉部圖像;將所述目標(biāo)臉部圖像嵌入所述視頻段落的視頻幀中,生成視頻序列;
54、數(shù)字人視頻生成模塊:用于將所述視頻序列和所述音頻序列拼合,得到目標(biāo)數(shù)字人視頻。
55、根據(jù)本技術(shù)的第三方面,提供了一種電子設(shè)備,包括:
56、存儲(chǔ)器,用于存儲(chǔ)一個(gè)或多個(gè)計(jì)算機(jī)程序;
57、處理器,當(dāng)所述一個(gè)或多個(gè)計(jì)算機(jī)程序被所述處理器執(zhí)行時(shí),實(shí)現(xiàn)上述第一方面所述的文字驅(qū)動(dòng)的唇音同步數(shù)字人生成方法。
58、根據(jù)本技術(shù)的第四方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)指令,所述計(jì)算機(jī)指令用于使處理器執(zhí)行時(shí)實(shí)現(xiàn)上述第一方面所述的文字驅(qū)動(dòng)的唇音同步數(shù)字人生成方法。
59、基于上述任意一個(gè)方面,本技術(shù)實(shí)施例提供的文字驅(qū)動(dòng)的唇音同步數(shù)字人生成方法、裝置、電子設(shè)備及計(jì)算機(jī)存儲(chǔ)介質(zhì)具有如下有益效果:
60、1.通過(guò)直接從輸入文本出發(fā),能夠即時(shí)生成與之匹配的語(yǔ)音及唇形動(dòng)畫(huà),有效消除了傳統(tǒng)文字轉(zhuǎn)語(yǔ)音處理中的時(shí)間延遲問(wèn)題,提升了在快節(jié)奏即時(shí)互動(dòng)應(yīng)用場(chǎng)景中的交流流暢度與自然性,顯著增強(qiáng)了用戶體驗(yàn)的實(shí)時(shí)互動(dòng)質(zhì)量。
61、2.通過(guò)直接基于輸入文本的深層語(yǔ)義理解,同步生成聲音與畫(huà)面,提高了數(shù)字人視頻的聲音和唇形的同步精度。聲音特質(zhì)與唇形變化均根植于輸入文本的深層語(yǔ)義理解,利用豐富的音頻特征映射,提升了數(shù)字人表達(dá)的真實(shí)感聲音特質(zhì)與唇形變化的完美協(xié)調(diào)與自然表現(xiàn)。
62、3.本發(fā)明將輸入文本作為驅(qū)動(dòng)源,將音頻生成與數(shù)字人驅(qū)動(dòng)集成于同一高效網(wǎng)絡(luò)中,顯著降低了對(duì)計(jì)算資源的需求,使得該技術(shù)更加輕量化、高效,能夠高效運(yùn)行于資源受限的平臺(tái),極大地拓寬了數(shù)字人技術(shù)的應(yīng)用范圍。