本技術(shù)涉及云計(jì)算,尤其涉及一種提供數(shù)字人的方法、系統(tǒng)及計(jì)算設(shè)備集群、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)、計(jì)算機(jī)程序產(chǎn)品。
背景技術(shù):
1、數(shù)字人是指存在于非物理世界中,基于計(jì)算機(jī)圖形學(xué)、圖形渲染、動(dòng)作捕捉、深度學(xué)習(xí)、語音合成、人像建模等人工智能技術(shù),創(chuàng)造出來的一個(gè)可供真人或計(jì)算機(jī)驅(qū)動(dòng)的形象實(shí)體,具有對物理世界的感知、認(rèn)知與表達(dá)能力,可以電子屏、vr、ar等設(shè)備為載體實(shí)現(xiàn)人機(jī)交互等功能。進(jìn)一步地,可以利用真人在現(xiàn)實(shí)世界中的聲音、表情、動(dòng)作等信息實(shí)時(shí)驅(qū)動(dòng)數(shù)字人完成相同的聲音、表情、動(dòng)作,使驅(qū)動(dòng)后的數(shù)字人能實(shí)時(shí)展現(xiàn)真人在現(xiàn)實(shí)世界的表現(xiàn),這樣的數(shù)字人也可以稱為實(shí)時(shí)數(shù)字人。
2、隨著數(shù)字人應(yīng)用的發(fā)展,如何在在線會(huì)議、直播、在線課堂、實(shí)時(shí)音視頻通話等基于實(shí)時(shí)音視頻技術(shù)的媒體場景中為用戶提供清晰、流暢的實(shí)時(shí)數(shù)字人成為一個(gè)亟需解決的技術(shù)問題。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)提出了一種提供數(shù)字人的方法,能夠在在線會(huì)議、直播、在線課堂、實(shí)時(shí)音視頻通話等基于實(shí)時(shí)音視頻技術(shù)的媒體場景中為用戶提供清晰、流暢的實(shí)時(shí)數(shù)字人形象,特別是即使在網(wǎng)絡(luò)狀態(tài)不穩(wěn)定、弱網(wǎng)、網(wǎng)絡(luò)帶寬受限等情況下也可以提供高畫質(zhì)、流暢的實(shí)時(shí)數(shù)字人。本技術(shù)還提供了對應(yīng)的系統(tǒng)、計(jì)算設(shè)備集群、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)以及計(jì)算機(jī)程序產(chǎn)品。
2、第一方面,本技術(shù)提出了一種提供數(shù)字人的方法。該方法包括:源終端獲取真人的媒體數(shù)據(jù),所述真人的媒體數(shù)據(jù)包括所述真人的視頻和/或音頻;所述源終端從所述真人的媒體數(shù)據(jù)中提取用于描述所述真人的特征數(shù)據(jù),所述特征數(shù)據(jù)包括所述真人的面部特征、形態(tài)特征、聲音特征中的一項(xiàng)或多項(xiàng),所述真人的面部特征、形態(tài)特征是從所述真人的視頻中提取得到的,所述真人的聲音特征是從所述真人的音頻中提取得到的;所述源終端將所述特征數(shù)據(jù)發(fā)送給云端服務(wù)器;所述云端服務(wù)器根據(jù)所述特征數(shù)據(jù)和多模態(tài)的ai驅(qū)動(dòng)模型,生成數(shù)字人的媒體數(shù)據(jù),所述數(shù)字人的媒體數(shù)據(jù)包括所述數(shù)字人的視頻和/或音頻;所述云端服務(wù)器將所述數(shù)字人的媒體數(shù)據(jù)發(fā)送給目的終端。
3、上述方法中,通過上行傳輸時(shí)用特征數(shù)據(jù)代替真人視頻減小了上行傳輸所需的帶寬,從而實(shí)現(xiàn)即使在上行網(wǎng)絡(luò)質(zhì)量差的情況下,特征數(shù)據(jù)依舊能快速無損地到達(dá)云端,進(jìn)而為用戶提供高清的實(shí)時(shí)數(shù)字人。
4、一種可能的實(shí)現(xiàn)方式中,所述源終端獲取所述真人的媒體數(shù)據(jù),包括:所述源終端按照一定的周期獲取所述真人的視頻;所述源終端從所述真人的媒體數(shù)據(jù)中提取用于描述所述真人的特征數(shù)據(jù),包括:所述源終端從所述真人的視頻中提取用于描述所述真人的特征數(shù)據(jù),所述特征數(shù)據(jù)包括所述真人的面部特征的變化和所述真人的形態(tài)特征的變化中的一項(xiàng)或多項(xiàng)。
5、上述實(shí)現(xiàn)方式中,通過基于采集周期只提取真人視頻中包含特征的變化的特征數(shù)據(jù),進(jìn)一步減小了特征數(shù)據(jù)上行傳輸所需的帶寬。
6、一種可能的實(shí)現(xiàn)方式中,在所述云端服務(wù)器根據(jù)所述特征數(shù)據(jù)和多模態(tài)的ai驅(qū)動(dòng)模型,生成數(shù)字人的媒體數(shù)據(jù)之前,所述方法還包括:所述云端服務(wù)器獲取所述目的終端上的輸入信息,所述輸入信息指示由所述云端服務(wù)器生成所述數(shù)字人的媒體數(shù)據(jù)。
7、一種可能的實(shí)現(xiàn)方式中,所述方法還包括:所述源終端接收第一輸入信息,所述第一輸入信息指示特征類型,所述特征類型包括面部特征、形態(tài)特征、聲音特征中的一種或多種;所述源終端從所述真人的媒體數(shù)據(jù)中提取用于描述所述真人的所述特征數(shù)據(jù),包括:所述源終端從所述真人的媒體數(shù)據(jù)中提取目標(biāo)特征數(shù)據(jù),所述目標(biāo)特征數(shù)據(jù)是用于描述所述真人的、與所述第一輸入信息所指示的特征類型相對應(yīng)的特征數(shù)據(jù)。
8、一種可能的實(shí)現(xiàn)方式中,所述方法還包括:所述云端服務(wù)器獲取所述源終端上的第二輸入信息,所述第二輸入信息指示所述數(shù)字人的風(fēng)格;所述云端服務(wù)器根據(jù)所述特征數(shù)據(jù)和多模態(tài)的ai驅(qū)動(dòng)模型,生成數(shù)字人的媒體數(shù)據(jù),包括:所述云端服務(wù)器根據(jù)所述特征數(shù)據(jù)、所述多模態(tài)的ai驅(qū)動(dòng)模型和所述第二輸入信息,生成對應(yīng)風(fēng)格的數(shù)字人的媒體數(shù)據(jù)。
9、一種可能的實(shí)現(xiàn)方式中,所述云端服務(wù)器將所述數(shù)字人的視頻發(fā)送給目的終端,包括:所述云端服務(wù)器根據(jù)所述目的終端的網(wǎng)絡(luò)狀態(tài),確定所述數(shù)字人的視頻的傳輸碼率;所述云端服務(wù)器根據(jù)所述數(shù)字人的視頻的傳輸碼率對所述數(shù)字人的視頻進(jìn)行編碼,其中,編碼后的所述數(shù)字人的視頻的畫面中第一區(qū)域的清晰度和第二區(qū)域的清晰度不同;所述云端服務(wù)器將編碼后的所述數(shù)字人的視頻發(fā)送給所述目的終端。
10、上述實(shí)現(xiàn)方式中,通過云端的生成式編碼能力,可以在下行傳輸網(wǎng)絡(luò)狀態(tài)差的情況下盡可能地保證數(shù)字人形象的清晰度,從而使用戶具有更好的數(shù)字人媒體業(yè)務(wù)體驗(yàn)。
11、第二方面,本技術(shù)提出了另一種提供數(shù)字人的方法。該方法包括:源終端獲取真人的媒體數(shù)據(jù),所述真人的媒體數(shù)據(jù)包括所述真人的視頻和/或音頻;所述源終端從所述真人的媒體數(shù)據(jù)中提取用于描述所述真人的特征數(shù)據(jù),所述特征數(shù)據(jù)包括所述真人的面部特征、形態(tài)特征、聲音特征中的一項(xiàng)或多項(xiàng),所述真人的面部特征、形態(tài)特征是從所述真人的視頻中提取得到的,所述真人的聲音特征是從所述真人的音頻中提取得到的;所述源終端將所述特征數(shù)據(jù)發(fā)送給云端服務(wù)器;所述云端服務(wù)器將所述特征數(shù)據(jù)發(fā)送給目的終端;所述目的終端根據(jù)所述特征數(shù)據(jù)和多模態(tài)的ai驅(qū)動(dòng)模型,生成數(shù)字人的媒體數(shù)據(jù),所述數(shù)字人的媒體數(shù)據(jù)包括所述數(shù)字人的視頻和/或音頻。
12、上述方法中,云端在接收到源終端傳來的特征數(shù)據(jù)后,直接將其透傳給目的終端,進(jìn)一步減小了下行傳輸所需的帶寬,之后由目的終端在本地驅(qū)動(dòng)數(shù)字人生成數(shù)字人的媒體數(shù)據(jù),最終實(shí)現(xiàn)在上行傳輸網(wǎng)絡(luò)和下行傳輸網(wǎng)絡(luò)狀態(tài)都差的情況下,依舊可以為用戶提供高清的實(shí)時(shí)數(shù)字人。
13、一種可能的實(shí)現(xiàn)方式中,所述源終端獲取所述真人的媒體數(shù)據(jù),包括:所述源終端按照一定的周期獲取所述真人的視頻;所述源終端從所述真人的媒體數(shù)據(jù)中提取用于描述所述真人的特征數(shù)據(jù),包括:所述源終端從所述真人的視頻中提取用于描述所述真人的特征數(shù)據(jù),所述特征數(shù)據(jù)包括所述真人的面部特征的變化和所述真人的形態(tài)特征的變化中的一項(xiàng)或多項(xiàng)。
14、一種可能的實(shí)現(xiàn)方式中,在所述云端服務(wù)器將所述特征數(shù)據(jù)發(fā)送給目的終端之前,所述方法還包括:所述云端服務(wù)器獲取所述目的終端上的輸入信息,所述輸入信息指示由所述目的終端生成所述數(shù)字人的媒體數(shù)據(jù);所述云端服務(wù)器確定所述目的終端具備數(shù)字人生成能力。
15、一種可能的實(shí)現(xiàn)方式中,所述方法還包括:所述源終端接收第一輸入信息,所述第一輸入信息指示特征類型,所述特征類型包括面部特征、形態(tài)特征、聲音特征中的一種或多種;所述源終端從所述真人的媒體數(shù)據(jù)中提取用于描述所述真人的所述特征數(shù)據(jù),包括:所述源終端從所述真人的媒體數(shù)據(jù)中提取目標(biāo)特征數(shù)據(jù),所述目標(biāo)特征數(shù)據(jù)是用于描述所述真人的、與所述第一輸入信息所指示的特征類型相對應(yīng)的特征數(shù)據(jù)。
16、第三方面,本技術(shù)提出了一種提供數(shù)字人的系統(tǒng),該系統(tǒng)包括源終端、云端服務(wù)器和目的終端,其中,所述源終端,用于獲取真人的媒體數(shù)據(jù),所述真人的媒體數(shù)據(jù)包括所述真人的視頻和/或音頻;所述源終端,還用于從所述真人的媒體數(shù)據(jù)中提取用于描述所述真人的特征數(shù)據(jù),所述特征數(shù)據(jù)包括所述真人的面部特征、形態(tài)特征、聲音特征中的一項(xiàng)或多項(xiàng),所述真人的面部特征、形態(tài)特征是從所述真人的視頻中提取得到的,所述真人的聲音特征是從所述真人的音頻中提取得到的;所述源終端,還用于將所述特征數(shù)據(jù)發(fā)送給所述云端服務(wù)器;所述云端服務(wù)器,用于根據(jù)所述特征數(shù)據(jù)和多模態(tài)的ai驅(qū)動(dòng)模型,生成數(shù)字人的媒體數(shù)據(jù),所述數(shù)字人的媒體數(shù)據(jù)包括所述數(shù)字人的視頻和/或音頻;所述云端服務(wù)器,還用于將所述數(shù)字人的媒體數(shù)據(jù)發(fā)送給所述目的終端。
17、一種可能的實(shí)現(xiàn)方式中,所述源終端具體用于:按照一定的周期獲取所述真人的視頻;從所述真人的視頻中提取用于描述所述真人的特征數(shù)據(jù),所述特征數(shù)據(jù)包括所述真人的面部特征的變化和所述真人的形態(tài)特征的變化中的一項(xiàng)或多項(xiàng)。
18、一種可能的實(shí)現(xiàn)方式中,在所述云端服務(wù)器用于根據(jù)所述特征數(shù)據(jù)和多模態(tài)的ai驅(qū)動(dòng)模型,生成數(shù)字人的媒體數(shù)據(jù)之前,所述云端服務(wù)器還用于:獲取所述目的終端上的輸入信息,所述輸入信息指示由所述云端服務(wù)器生成所述數(shù)字人的媒體數(shù)據(jù)。
19、一種可能的實(shí)現(xiàn)方式中,所述源終端還用于:接收第一輸入信息,所述第一輸入信息指示特征類型,所述特征類型包括面部特征、形態(tài)特征、聲音特征中的一種或多種;所述源終端,用于從所述真人的媒體數(shù)據(jù)中提取用于描述所述真人的所述特征數(shù)據(jù),具體包括:所述源終端,用于從所述真人的媒體數(shù)據(jù)中提取目標(biāo)特征數(shù)據(jù),所述目標(biāo)特征數(shù)據(jù)是用于描述所述真人的、與所述第一輸入信息所指示的特征類型相對應(yīng)的特征數(shù)據(jù)。
20、一種可能的實(shí)現(xiàn)方式中,所述云端服務(wù)器還用于:獲取所述源終端上的第二輸入信息,所述第二輸入信息指示所述數(shù)字人的風(fēng)格;所述云端服務(wù)器,用于根據(jù)所述特征數(shù)據(jù)和多模態(tài)的ai驅(qū)動(dòng)模型,生成數(shù)字人的媒體數(shù)據(jù),具體包括:所述云端服務(wù)器,用于根據(jù)所述特征數(shù)據(jù)、所述多模態(tài)的ai驅(qū)動(dòng)模型和所述第二輸入信息,生成對應(yīng)風(fēng)格的數(shù)字人的媒體數(shù)據(jù)。
21、一種可能的實(shí)現(xiàn)方式中,所述云端服務(wù)器具體用于:根據(jù)所述目的終端的網(wǎng)絡(luò)狀態(tài),確定所述數(shù)字人的視頻的傳輸碼率;根據(jù)所述數(shù)字人的視頻的傳輸碼率對所述數(shù)字人的視頻進(jìn)行編碼,其中,編碼后的所述數(shù)字人的視頻的畫面中第一區(qū)域的清晰度和第二區(qū)域的清晰度不同;將編碼后的所述數(shù)字人的視頻發(fā)送給所述目的終端。
22、第四方面,本技術(shù)提出了另一種提供數(shù)字人的系統(tǒng),該系統(tǒng)包括源終端、云端服務(wù)器和目的終端,其中,所述源終端,用于獲取真人的媒體數(shù)據(jù),所述真人的媒體數(shù)據(jù)包括所述真人的視頻和/或音頻;所述源終端,還用于從所述真人的媒體數(shù)據(jù)中提取用于描述所述真人的特征數(shù)據(jù),所述特征數(shù)據(jù)包括所述真人的面部特征、形態(tài)特征、聲音特征中的一項(xiàng)或多項(xiàng),所述真人的面部特征、形態(tài)特征是從所述真人的視頻中提取得到的,所述真人的聲音特征是從所述真人的音頻中提取得到的;所述源終端,還用于將所述特征數(shù)據(jù)發(fā)送給所述云端服務(wù)器;所述云端服務(wù)器,用于將所述特征數(shù)據(jù)發(fā)送給所述目的終端;所述目的終端,用于根據(jù)所述特征數(shù)據(jù)和多模態(tài)的ai驅(qū)動(dòng)模型,生成數(shù)字人的媒體數(shù)據(jù),所述數(shù)字人的媒體數(shù)據(jù)包括所述數(shù)字人的視頻和/或音頻。
23、一種可能的實(shí)現(xiàn)方式中,所述源終端具體用于:按照一定的周期獲取所述真人的視頻;從所述真人的視頻中提取用于描述所述真人的特征數(shù)據(jù),所述特征數(shù)據(jù)包括所述真人的面部特征的變化和所述真人的形態(tài)特征的變化中的一項(xiàng)或多項(xiàng)。
24、一種可能的實(shí)現(xiàn)方式中,在所述云端服務(wù)器用于將所述特征數(shù)據(jù)發(fā)送給所述目的終端之前,所述云端服務(wù)器還用于:獲取所述目的終端上的輸入信息,所述輸入信息指示由所述目的終端生成所述數(shù)字人的媒體數(shù)據(jù);確定所述目的終端具備數(shù)字人生成能力。
25、一種可能的實(shí)現(xiàn)方式中,所述源終端還用于:接收第一輸入信息,所述第一輸入信息指示特征類型,所述特征類型包括面部特征、形態(tài)特征、聲音特征中的一種或多種;所述源終端,用于從所述真人的媒體數(shù)據(jù)中提取用于描述所述真人的所述特征數(shù)據(jù),具體包括:所述源終端,用于從所述真人的媒體數(shù)據(jù)中提取目標(biāo)特征數(shù)據(jù),所述目標(biāo)特征數(shù)據(jù)是用于描述所述真人的、與所述第一輸入信息所指示的特征類型相對應(yīng)的特征數(shù)據(jù)。
26、第五方面,本技術(shù)提出了一種計(jì)算設(shè)備集群,包括至少一個(gè)計(jì)算設(shè)備,每個(gè)計(jì)算設(shè)備包括處理器和存儲(chǔ)器;該至少一個(gè)計(jì)算設(shè)備的處理器用于執(zhí)行該至少一個(gè)計(jì)算設(shè)備的存儲(chǔ)器中存儲(chǔ)的指令,以使得該計(jì)算設(shè)備集群執(zhí)行如上述第一方面或第一方面中任一種可能的實(shí)現(xiàn)方式所對應(yīng)的提供數(shù)字人的方法。
27、第六方面,本技術(shù)提出了另一種計(jì)算設(shè)備集群,包括至少一個(gè)計(jì)算設(shè)備,每個(gè)計(jì)算設(shè)備包括處理器和存儲(chǔ)器;該至少一個(gè)計(jì)算設(shè)備的處理器用于執(zhí)行該至少一個(gè)計(jì)算設(shè)備的存儲(chǔ)器中存儲(chǔ)的指令,以使得該計(jì)算設(shè)備集群執(zhí)行如上述第二方面或第二方面中任一種可能的實(shí)現(xiàn)方式所對應(yīng)的提供數(shù)字人的方法。
28、第七方面,本技術(shù)提出了一種包含指令的計(jì)算機(jī)程序產(chǎn)品,當(dāng)該指令被計(jì)算設(shè)備集群運(yùn)行時(shí),使得該計(jì)算設(shè)備集群執(zhí)行如上述第一方面或第一方面中任一種可能的實(shí)現(xiàn)方式所對應(yīng)的提供數(shù)字人的方法。
29、第八方面,本技術(shù)提出了另一種包含指令的計(jì)算機(jī)程序產(chǎn)品,當(dāng)該指令被計(jì)算設(shè)備集群運(yùn)行時(shí),使得該計(jì)算設(shè)備集群執(zhí)行如上述第二方面或第二方面中任一種可能的實(shí)現(xiàn)方式所對應(yīng)的提供數(shù)字人的方法。
30、第九方面,本技術(shù)提出了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),包括計(jì)算機(jī)程序指令,當(dāng)該計(jì)算機(jī)程序指令由計(jì)算設(shè)備集群執(zhí)行時(shí),該計(jì)算設(shè)備集群執(zhí)行如上述第一方面或第一方面中任一種可能的實(shí)現(xiàn)方式所對應(yīng)的提供數(shù)字人的方法。
31、第十方面,本技術(shù)提出了另一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),包括計(jì)算機(jī)程序指令,當(dāng)該計(jì)算機(jī)程序指令由計(jì)算設(shè)備集群執(zhí)行時(shí),該計(jì)算設(shè)備集群執(zhí)行如上述第二方面或第二方面中任一種可能的實(shí)現(xiàn)方式所對應(yīng)的提供數(shù)字人的方法。