一種提供數(shù)字人的方法、系統(tǒng)及計(jì)算設(shè)備集群與流程

文檔序號(hào)：40624819發(fā)布日期：2025-01-10 18:30閱讀：1來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

一種提供數(shù)字人的方法、系統(tǒng)及計(jì)算設(shè)備集群與流程

本技術(shù)涉及云計(jì)算，尤其涉及一種提供數(shù)字人的方法、系統(tǒng)及計(jì)算設(shè)備集群、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)、計(jì)算機(jī)程序產(chǎn)品。

背景技術(shù)：

1、數(shù)字人是指存在于非物理世界中，基于計(jì)算機(jī)圖形學(xué)、圖形渲染、動(dòng)作捕捉、深度學(xué)習(xí)、語音合成、人像建模等人工智能技術(shù)，創(chuàng)造出來的一個(gè)可供真人或計(jì)算機(jī)驅(qū)動(dòng)的形象實(shí)體，具有對物理世界的感知、認(rèn)知與表達(dá)能力，可以電子屏、vr、ar等設(shè)備為載體實(shí)現(xiàn)人機(jī)交互等功能。進(jìn)一步地，可以利用真人在現(xiàn)實(shí)世界中的聲音、表情、動(dòng)作等信息實(shí)時(shí)驅(qū)動(dòng)數(shù)字人完成相同的聲音、表情、動(dòng)作，使驅(qū)動(dòng)后的數(shù)字人能實(shí)時(shí)展現(xiàn)真人在現(xiàn)實(shí)世界的表現(xiàn)，這樣的數(shù)字人也可以稱為實(shí)時(shí)數(shù)字人。

2、隨著數(shù)字人應(yīng)用的發(fā)展，如何在在線會(huì)議、直播、在線課堂、實(shí)時(shí)音視頻通話等基于實(shí)時(shí)音視頻技術(shù)的媒體場景中為用戶提供清晰、流暢的實(shí)時(shí)數(shù)字人成為一個(gè)亟需解決的技術(shù)問題。

技術(shù)實(shí)現(xiàn)思路

1、本技術(shù)提出了一種提供數(shù)字人的方法，能夠在在線會(huì)議、直播、在線課堂、實(shí)時(shí)音視頻通話等基于實(shí)時(shí)音視頻技術(shù)的媒體場景中為用戶提供清晰、流暢的實(shí)時(shí)數(shù)字人形象，特別是即使在網(wǎng)絡(luò)狀態(tài)不穩(wěn)定、弱網(wǎng)、網(wǎng)絡(luò)帶寬受限等情況下也可以提供高畫質(zhì)、流暢的實(shí)時(shí)數(shù)字人。本技術(shù)還提供了對應(yīng)的系統(tǒng)、計(jì)算設(shè)備集群、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)以及計(jì)算機(jī)程序產(chǎn)品。

2、第一方面，本技術(shù)提出了一種提供數(shù)字人的方法。該方法包括：源終端獲取真人的媒體數(shù)據(jù)，所述真人的媒體數(shù)據(jù)包括所述真人的視頻和/或音頻；所述源終端從所述真人的媒體數(shù)據(jù)中提取用于描述所述真人的特征數(shù)據(jù)，所述特征數(shù)據(jù)包括所述真人的面部特征、形態(tài)特征、聲音特征中的一項(xiàng)或多項(xiàng)，所述真人的面部特征、形態(tài)特征是從所述真人的視頻中提取得到的，所述真人的聲音特征是從所述真人的音頻中提取得到的；所述源終端將所述特征數(shù)據(jù)發(fā)送給云端服務(wù)器；所述云端服務(wù)器根據(jù)所述特征數(shù)據(jù)和多模態(tài)的ai驅(qū)動(dòng)模型，生成數(shù)字人的媒體數(shù)據(jù)，所述數(shù)字人的媒體數(shù)據(jù)包括所述數(shù)字人的視頻和/或音頻；所述云端服務(wù)器將所述數(shù)字人的媒體數(shù)據(jù)發(fā)送給目的終端。

3、上述方法中，通過上行傳輸時(shí)用特征數(shù)據(jù)代替真人視頻減小了上行傳輸所需的帶寬，從而實(shí)現(xiàn)即使在上行網(wǎng)絡(luò)質(zhì)量差的情況下，特征數(shù)據(jù)依舊能快速無損地到達(dá)云端，進(jìn)而為用戶提供高清的實(shí)時(shí)數(shù)字人。

4、一種可能的實(shí)現(xiàn)方式中，所述源終端獲取所述真人的媒體數(shù)據(jù)，包括：所述源終端按照一定的周期獲取所述真人的視頻；所述源終端從所述真人的媒體數(shù)據(jù)中提取用于描述所述真人的特征數(shù)據(jù)，包括：所述源終端從所述真人的視頻中提取用于描述所述真人的特征數(shù)據(jù)，所述特征數(shù)據(jù)包括所述真人的面部特征的變化和所述真人的形態(tài)特征的變化中的一項(xiàng)或多項(xiàng)。

5、上述實(shí)現(xiàn)方式中，通過基于采集周期只提取真人視頻中包含特征的變化的特征數(shù)據(jù)，進(jìn)一步減小了特征數(shù)據(jù)上行傳輸所需的帶寬。

6、一種可能的實(shí)現(xiàn)方式中，在所述云端服務(wù)器根據(jù)所述特征數(shù)據(jù)和多模態(tài)的ai驅(qū)動(dòng)模型，生成數(shù)字人的媒體數(shù)據(jù)之前，所述方法還包括：所述云端服務(wù)器獲取所述目的終端上的輸入信息，所述輸入信息指示由所述云端服務(wù)器生成所述數(shù)字人的媒體數(shù)據(jù)。

7、一種可能的實(shí)現(xiàn)方式中，所述方法還包括：所述源終端接收第一輸入信息，所述第一輸入信息指示特征類型，所述特征類型包括面部特征、形態(tài)特征、聲音特征中的一種或多種；所述源終端從所述真人的媒體數(shù)據(jù)中提取用于描述所述真人的所述特征數(shù)據(jù)，包括：所述源終端從所述真人的媒體數(shù)據(jù)中提取目標(biāo)特征數(shù)據(jù)，所述目標(biāo)特征數(shù)據(jù)是用于描述所述真人的、與所述第一輸入信息所指示的特征類型相對應(yīng)的特征數(shù)據(jù)。

8、一種可能的實(shí)現(xiàn)方式中，所述方法還包括：所述云端服務(wù)器獲取所述源終端上的第二輸入信息，所述第二輸入信息指示所述數(shù)字人的風(fēng)格；所述云端服務(wù)器根據(jù)所述特征數(shù)據(jù)和多模態(tài)的ai驅(qū)動(dòng)模型，生成數(shù)字人的媒體數(shù)據(jù)，包括：所述云端服務(wù)器根據(jù)所述特征數(shù)據(jù)、所述多模態(tài)的ai驅(qū)動(dòng)模型和所述第二輸入信息，生成對應(yīng)風(fēng)格的數(shù)字人的媒體數(shù)據(jù)。

9、一種可能的實(shí)現(xiàn)方式中，所述云端服務(wù)器將所述數(shù)字人的視頻發(fā)送給目的終端，包括：所述云端服務(wù)器根據(jù)所述目的終端的網(wǎng)絡(luò)狀態(tài)，確定所述數(shù)字人的視頻的傳輸碼率；所述云端服務(wù)器根據(jù)所述數(shù)字人的視頻的傳輸碼率對所述數(shù)字人的視頻進(jìn)行編碼，其中，編碼后的所述數(shù)字人的視頻的畫面中第一區(qū)域的清晰度和第二區(qū)域的清晰度不同；所述云端服務(wù)器將編碼后的所述數(shù)字人的視頻發(fā)送給所述目的終端。

10、上述實(shí)現(xiàn)方式中，通過云端的生成式編碼能力，可以在下行傳輸網(wǎng)絡(luò)狀態(tài)差的情況下盡可能地保證數(shù)字人形象的清晰度，從而使用戶具有更好的數(shù)字人媒體業(yè)務(wù)體驗(yàn)。

11、第二方面，本技術(shù)提出了另一種提供數(shù)字人的方法。該方法包括：源終端獲取真人的媒體數(shù)據(jù)，所述真人的媒體數(shù)據(jù)包括所述真人的視頻和/或音頻；所述源終端從所述真人的媒體數(shù)據(jù)中提取用于描述所述真人的特征數(shù)據(jù)，所述特征數(shù)據(jù)包括所述真人的面部特征、形態(tài)特征、聲音特征中的一項(xiàng)或多項(xiàng)，所述真人的面部特征、形態(tài)特征是從所述真人的視頻中提取得到的，所述真人的聲音特征是從所述真人的音頻中提取得到的；所述源終端將所述特征數(shù)據(jù)發(fā)送給云端服務(wù)器；所述云端服務(wù)器將所述特征數(shù)據(jù)發(fā)送給目的終端；所述目的終端根據(jù)所述特征數(shù)據(jù)和多模態(tài)的ai驅(qū)動(dòng)模型，生成數(shù)字人的媒體數(shù)據(jù)，所述數(shù)字人的媒體數(shù)據(jù)包括所述數(shù)字人的視頻和/或音頻。

12、上述方法中，云端在接收到源終端傳來的特征數(shù)據(jù)后，直接將其透傳給目的終端，進(jìn)一步減小了下行傳輸所需的帶寬，之后由目的終端在本地驅(qū)動(dòng)數(shù)字人生成數(shù)字人的媒體數(shù)據(jù)，最終實(shí)現(xiàn)在上行傳輸網(wǎng)絡(luò)和下行傳輸網(wǎng)絡(luò)狀態(tài)都差的情況下，依舊可以為用戶提供高清的實(shí)時(shí)數(shù)字人。

13、一種可能的實(shí)現(xiàn)方式中，所述源終端獲取所述真人的媒體數(shù)據(jù)，包括：所述源終端按照一定的周期獲取所述真人的視頻；所述源終端從所述真人的媒體數(shù)據(jù)中提取用于描述所述真人的特征數(shù)據(jù)，包括：所述源終端從所述真人的視頻中提取用于描述所述真人的特征數(shù)據(jù)，所述特征數(shù)據(jù)包括所述真人的面部特征的變化和所述真人的形態(tài)特征的變化中的一項(xiàng)或多項(xiàng)。

14、一種可能的實(shí)現(xiàn)方式中，在所述云端服務(wù)器將所述特征數(shù)據(jù)發(fā)送給目的終端之前，所述方法還包括：所述云端服務(wù)器獲取所述目的終端上的輸入信息，所述輸入信息指示由所述目的終端生成所述數(shù)字人的媒體數(shù)據(jù)；所述云端服務(wù)器確定所述目的終端具備數(shù)字人生成能力。

15、一種可能的實(shí)現(xiàn)方式中，所述方法還包括：所述源終端接收第一輸入信息，所述第一輸入信息指示特征類型，所述特征類型包括面部特征、形態(tài)特征、聲音特征中的一種或多種；所述源終端從所述真人的媒體數(shù)據(jù)中提取用于描述所述真人的所述特征數(shù)據(jù)，包括：所述源終端從所述真人的媒體數(shù)據(jù)中提取目標(biāo)特征數(shù)據(jù)，所述目標(biāo)特征數(shù)據(jù)是用于描述所述真人的、與所述第一輸入信息所指示的特征類型相對應(yīng)的特征數(shù)據(jù)。

16、第三方面，本技術(shù)提出了一種提供數(shù)字人的系統(tǒng)，該系統(tǒng)包括源終端、云端服務(wù)器和目的終端，其中，所述源終端，用于獲取真人的媒體數(shù)據(jù)，所述真人的媒體數(shù)據(jù)包括所述真人的視頻和/或音頻；所述源終端，還用于從所述真人的媒體數(shù)據(jù)中提取用于描述所述真人的特征數(shù)據(jù)，所述特征數(shù)據(jù)包括所述真人的面部特征、形態(tài)特征、聲音特征中的一項(xiàng)或多項(xiàng)，所述真人的面部特征、形態(tài)特征是從所述真人的視頻中提取得到的，所述真人的聲音特征是從所述真人的音頻中提取得到的；所述源終端，還用于將所述特征數(shù)據(jù)發(fā)送給所述云端服務(wù)器；所述云端服務(wù)器，用于根據(jù)所述特征數(shù)據(jù)和多模態(tài)的ai驅(qū)動(dòng)模型，生成數(shù)字人的媒體數(shù)據(jù)，所述數(shù)字人的媒體數(shù)據(jù)包括所述數(shù)字人的視頻和/或音頻；所述云端服務(wù)器，還用于將所述數(shù)字人的媒體數(shù)據(jù)發(fā)送給所述目的終端。

17、一種可能的實(shí)現(xiàn)方式中，所述源終端具體用于：按照一定的周期獲取所述真人的視頻；從所述真人的視頻中提取用于描述所述真人的特征數(shù)據(jù)，所述特征數(shù)據(jù)包括所述真人的面部特征的變化和所述真人的形態(tài)特征的變化中的一項(xiàng)或多項(xiàng)。

18、一種可能的實(shí)現(xiàn)方式中，在所述云端服務(wù)器用于根據(jù)所述特征數(shù)據(jù)和多模態(tài)的ai驅(qū)動(dòng)模型，生成數(shù)字人的媒體數(shù)據(jù)之前，所述云端服務(wù)器還用于：獲取所述目的終端上的輸入信息，所述輸入信息指示由所述云端服務(wù)器生成所述數(shù)字人的媒體數(shù)據(jù)。

19、一種可能的實(shí)現(xiàn)方式中，所述源終端還用于：接收第一輸入信息，所述第一輸入信息指示特征類型，所述特征類型包括面部特征、形態(tài)特征、聲音特征中的一種或多種；所述源終端，用于從所述真人的媒體數(shù)據(jù)中提取用于描述所述真人的所述特征數(shù)據(jù)，具體包括：所述源終端，用于從所述真人的媒體數(shù)據(jù)中提取目標(biāo)特征數(shù)據(jù)，所述目標(biāo)特征數(shù)據(jù)是用于描述所述真人的、與所述第一輸入信息所指示的特征類型相對應(yīng)的特征數(shù)據(jù)。

20、一種可能的實(shí)現(xiàn)方式中，所述云端服務(wù)器還用于：獲取所述源終端上的第二輸入信息，所述第二輸入信息指示所述數(shù)字人的風(fēng)格；所述云端服務(wù)器，用于根據(jù)所述特征數(shù)據(jù)和多模態(tài)的ai驅(qū)動(dòng)模型，生成數(shù)字人的媒體數(shù)據(jù)，具體包括：所述云端服務(wù)器，用于根據(jù)所述特征數(shù)據(jù)、所述多模態(tài)的ai驅(qū)動(dòng)模型和所述第二輸入信息，生成對應(yīng)風(fēng)格的數(shù)字人的媒體數(shù)據(jù)。

21、一種可能的實(shí)現(xiàn)方式中，所述云端服務(wù)器具體用于：根據(jù)所述目的終端的網(wǎng)絡(luò)狀態(tài)，確定所述數(shù)字人的視頻的傳輸碼率；根據(jù)所述數(shù)字人的視頻的傳輸碼率對所述數(shù)字人的視頻進(jìn)行編碼，其中，編碼后的所述數(shù)字人的視頻的畫面中第一區(qū)域的清晰度和第二區(qū)域的清晰度不同；將編碼后的所述數(shù)字人的視頻發(fā)送給所述目的終端。

22、第四方面，本技術(shù)提出了另一種提供數(shù)字人的系統(tǒng)，該系統(tǒng)包括源終端、云端服務(wù)器和目的終端，其中，所述源終端，用于獲取真人的媒體數(shù)據(jù)，所述真人的媒體數(shù)據(jù)包括所述真人的視頻和/或音頻；所述源終端，還用于從所述真人的媒體數(shù)據(jù)中提取用于描述所述真人的特征數(shù)據(jù)，所述特征數(shù)據(jù)包括所述真人的面部特征、形態(tài)特征、聲音特征中的一項(xiàng)或多項(xiàng)，所述真人的面部特征、形態(tài)特征是從所述真人的視頻中提取得到的，所述真人的聲音特征是從所述真人的音頻中提取得到的；所述源終端，還用于將所述特征數(shù)據(jù)發(fā)送給所述云端服務(wù)器；所述云端服務(wù)器，用于將所述特征數(shù)據(jù)發(fā)送給所述目的終端；所述目的終端，用于根據(jù)所述特征數(shù)據(jù)和多模態(tài)的ai驅(qū)動(dòng)模型，生成數(shù)字人的媒體數(shù)據(jù)，所述數(shù)字人的媒體數(shù)據(jù)包括所述數(shù)字人的視頻和/或音頻。

23、一種可能的實(shí)現(xiàn)方式中，所述源終端具體用于：按照一定的周期獲取所述真人的視頻；從所述真人的視頻中提取用于描述所述真人的特征數(shù)據(jù)，所述特征數(shù)據(jù)包括所述真人的面部特征的變化和所述真人的形態(tài)特征的變化中的一項(xiàng)或多項(xiàng)。

24、一種可能的實(shí)現(xiàn)方式中，在所述云端服務(wù)器用于將所述特征數(shù)據(jù)發(fā)送給所述目的終端之前，所述云端服務(wù)器還用于：獲取所述目的終端上的輸入信息，所述輸入信息指示由所述目的終端生成所述數(shù)字人的媒體數(shù)據(jù)；確定所述目的終端具備數(shù)字人生成能力。

25、一種可能的實(shí)現(xiàn)方式中，所述源終端還用于：接收第一輸入信息，所述第一輸入信息指示特征類型，所述特征類型包括面部特征、形態(tài)特征、聲音特征中的一種或多種；所述源終端，用于從所述真人的媒體數(shù)據(jù)中提取用于描述所述真人的所述特征數(shù)據(jù)，具體包括：所述源終端，用于從所述真人的媒體數(shù)據(jù)中提取目標(biāo)特征數(shù)據(jù)，所述目標(biāo)特征數(shù)據(jù)是用于描述所述真人的、與所述第一輸入信息所指示的特征類型相對應(yīng)的特征數(shù)據(jù)。

26、第五方面，本技術(shù)提出了一種計(jì)算設(shè)備集群，包括至少一個(gè)計(jì)算設(shè)備，每個(gè)計(jì)算設(shè)備包括處理器和存儲(chǔ)器；該至少一個(gè)計(jì)算設(shè)備的處理器用于執(zhí)行該至少一個(gè)計(jì)算設(shè)備的存儲(chǔ)器中存儲(chǔ)的指令，以使得該計(jì)算設(shè)備集群執(zhí)行如上述第一方面或第一方面中任一種可能的實(shí)現(xiàn)方式所對應(yīng)的提供數(shù)字人的方法。

27、第六方面，本技術(shù)提出了另一種計(jì)算設(shè)備集群，包括至少一個(gè)計(jì)算設(shè)備，每個(gè)計(jì)算設(shè)備包括處理器和存儲(chǔ)器；該至少一個(gè)計(jì)算設(shè)備的處理器用于執(zhí)行該至少一個(gè)計(jì)算設(shè)備的存儲(chǔ)器中存儲(chǔ)的指令，以使得該計(jì)算設(shè)備集群執(zhí)行如上述第二方面或第二方面中任一種可能的實(shí)現(xiàn)方式所對應(yīng)的提供數(shù)字人的方法。

28、第七方面，本技術(shù)提出了一種包含指令的計(jì)算機(jī)程序產(chǎn)品，當(dāng)該指令被計(jì)算設(shè)備集群運(yùn)行時(shí)，使得該計(jì)算設(shè)備集群執(zhí)行如上述第一方面或第一方面中任一種可能的實(shí)現(xiàn)方式所對應(yīng)的提供數(shù)字人的方法。

29、第八方面，本技術(shù)提出了另一種包含指令的計(jì)算機(jī)程序產(chǎn)品，當(dāng)該指令被計(jì)算設(shè)備集群運(yùn)行時(shí)，使得該計(jì)算設(shè)備集群執(zhí)行如上述第二方面或第二方面中任一種可能的實(shí)現(xiàn)方式所對應(yīng)的提供數(shù)字人的方法。

30、第九方面，本技術(shù)提出了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，包括計(jì)算機(jī)程序指令，當(dāng)該計(jì)算機(jī)程序指令由計(jì)算設(shè)備集群執(zhí)行時(shí)，該計(jì)算設(shè)備集群執(zhí)行如上述第一方面或第一方面中任一種可能的實(shí)現(xiàn)方式所對應(yīng)的提供數(shù)字人的方法。

31、第十方面，本技術(shù)提出了另一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，包括計(jì)算機(jī)程序指令，當(dāng)該計(jì)算機(jī)程序指令由計(jì)算設(shè)備集群執(zhí)行時(shí)，該計(jì)算設(shè)備集群執(zhí)行如上述第二方面或第二方面中任一種可能的實(shí)現(xiàn)方式所對應(yīng)的提供數(shù)字人的方法。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：楊昌鵬,戴宗宏,黃璐真,李明磊
技術(shù)所有人：華為云計(jì)算技術(shù)有限公司
我是此專利的發(fā)明人

上一篇：一種封裝相變材料耐久性測試系統(tǒng)的制作方法
上一篇：一種風(fēng)冷儲(chǔ)能電池柜的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測試系統(tǒng)設(shè)計(jì) 2.汽車檢測系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種提供數(shù)字人的方法、系統(tǒng)及計(jì)算設(shè)備集群與流程

一種提供數(shù)字人的方法、系統(tǒng)及計(jì)算設(shè)備集群與流程