本發(fā)明涉及人工智能領(lǐng)域,具體而言,涉及一種虛擬數(shù)字人的交互方法及裝置。
背景技術(shù):
1、隨著人工智能技術(shù)的迅速發(fā)展,虛擬數(shù)字人在客服、教育和娛樂等領(lǐng)域的應用逐漸增多。然而,現(xiàn)有虛擬數(shù)字人交互技術(shù)在響應用戶輸入時常面臨準確性不足的問題。這主要源于語音合成技術(shù)的局限性,使得生成的語音內(nèi)容缺乏個性化和真實感,以及輸入處理不足導致的響應文本與用戶意圖不符。因此,亟需一種新型的交互方法與裝置,以提升虛擬數(shù)字人與用戶的交互體驗,確保更準確的響應。
2、針對上述的問題,目前尚未提出有效的解決方案。
技術(shù)實現(xiàn)思路
1、本發(fā)明實施例提供了一種虛擬數(shù)字人的交互方法及裝置,以至少解決與虛擬數(shù)字人交互時響應不準確的技術(shù)問題。
2、根據(jù)本發(fā)明實施例的一個方面,提供了一種虛擬數(shù)字人的交互方法,包括:響應于接收到用戶輸入,對所述用戶輸入進行處理,生成響應文本,并將所述響應文本轉(zhuǎn)換為具有通用語音特征的第一語音內(nèi)容;獲取待模擬的目標對象的語音特征,將所述第一語音內(nèi)容轉(zhuǎn)換為具有所述目標對象的語音特征的第二語音內(nèi)容;通過所述虛擬數(shù)字人輸出所述第二語音內(nèi)容,以與用戶進行交互。
3、根據(jù)本發(fā)明實施例的另一方面,還提供了一種虛擬數(shù)字人的交互方法,包括:響應生成模塊,被配置為響應于接收到用戶輸入,對所述用戶輸入進行處理,生成響應文本,并將所述響應文本轉(zhuǎn)換為具有通用語音特征的第一語音內(nèi)容;轉(zhuǎn)換模塊,被配置為獲取待模擬的目標對象的語音特征,將所述第一語音內(nèi)容轉(zhuǎn)換為具有所述目標對象的語音特征的第二語音內(nèi)容;交互模塊,被配置為通過所述虛擬數(shù)字人輸出所述第二語音內(nèi)容,以與用戶進行交互。
4、在本發(fā)明實施例中,響應于接收到用戶輸入,對所述用戶輸入進行處理,生成響應文本,并將所述響應文本轉(zhuǎn)換為具有通用語音特征的第一語音內(nèi)容;獲取待模擬的目標對象的語音特征,將所述第一語音內(nèi)容轉(zhuǎn)換為具有所述目標對象的語音特征的第二語音內(nèi)容;通過所述虛擬數(shù)字人輸出所述第二語音內(nèi)容,以與用戶進行交互。通過上述方案,解決了現(xiàn)有技術(shù)中用戶與虛擬數(shù)字人交互時響應不準確技術(shù)問題。
1.一種虛擬數(shù)字人的交互方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,獲取待模擬的目標對象的語音特征,包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,將所述第一語音內(nèi)容轉(zhuǎn)換為具有所述目標對象的語音特征的第二語音內(nèi)容,包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,基于所述目標對象的語音特征利用深度學習模型對所述通用語音特征進行映射,包括:
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,在通過所述虛擬數(shù)字人輸出所述第二語音內(nèi)容的同時,所述方法還包括:
6.根據(jù)權(quán)利要求4所述的方法,其特征在于,在基于所提取的語氣詞從預先構(gòu)建的所述虛擬數(shù)字人的動作庫中提取動作信息之前,所述方法還包括:
7.一種虛擬數(shù)字人的交互裝置,其特征在于,包括:
8.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)包括存儲的程序,其中,在所述程序運行時控制所述計算機可讀存儲介質(zhì)所在設(shè)備執(zhí)行權(quán)利要求1至6中任意一項所述的方法。
9.一種計算機設(shè)備,其特征在于,包括:存儲器和處理器,
10.一種計算機程序產(chǎn)品,包括計算機程序,其特征在于,該計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至6中任一項所述的方法的步驟。