一種語音交互的方法和系統(tǒng)與流程

文檔序號：12609128閱讀：635來源：國知局

本發(fā)明涉及一種語音識別技術，更確切地說是一種語音交互的方法和系統(tǒng)。

背景技術：

如今智能設備使用較多，語音交互逐漸成為研究重點，人機之間的語音交互便是熱點之一，語音交互的相關智能應用也開始變成熱點，Siri等都是通過語音助手和人進行語音交互的。與智能設備行語音交互時，希望該智能設備的語音助手的語音習慣能像自己希望的某個人(如老婆，或者某心愛的人等等)，但目前的智能語音交互只能以一種固定的角色，不能根據人的愛好進行個性化定做。

本方法通過讓語音助手模仿指定用戶的語言特征和語音特征，在語音交互時，語音助手能像所述指定用戶一樣與用戶進行互動，使該語音助手更加符合用戶的興趣，提高了用戶體驗。

技術實現要素：

針對上述缺陷，本發(fā)明提供了一種語音交互的方法和系統(tǒng)。一種語音交互的方法，包括：從指定用戶的通話過程中獲取所述指定用戶的語言特征和語音特征；將所述語言特征和語音特征賦予語音助手，語音助手根據這些語言特征和語音特征進行訓練；語音助手模仿所述指定用戶的語言特征和語音特征與用戶進行語音交互。

可選地，所述語言特征包括語言習慣、語言風格和邏輯方式；所述語音特征包括音色、音調、韻律、節(jié)奏、口音。

可選地，所述指定用戶為手動指定的用戶或通話最多的用戶。

可選地，所述通話包括手機的語音通話、語音短信。

可選地，將所述語言特征和語音特征賦予語音助手，以使語音助手模仿所述指定用戶與用戶進行交互，包括：從后臺數據庫讀取交互內容，模仿所述語言特征和語音特征對交互內容進行處理，語音助手使用處理后的交互內容與用戶進行交互。

可選地，語音助手判斷用戶發(fā)出的語音是否與所述的語言特征和語音特征相符；如果相符，則與該用戶進行語音交互；如果不相符，則拒絕與該用戶進行語音交互。

另外本發(fā)明還提出一種語音交互的系統(tǒng)，包括：語言特征和語音特征獲取模塊：用于從指定用戶的通話過程中獲取所述指定用戶的語言特征和語音特征；語音訓練模塊：用于將所述語言特征和語音特征賦予語音助手，語音助手根據這些語言特征和語音特征進行訓練；語音交互模塊：用于語音助手模仿所述指定用戶的語言特征和語音特征與用戶進行語音交互。

可選地，所述系統(tǒng)還包括：用戶設定模塊：用于手動選擇一個用戶為所述指定用戶或把通話最多的用戶設定為所述指定用戶。

可選地，所述語音交互模塊，包括：讀取模塊：用于從后臺數據庫讀取交互內容；處理模塊：用于模仿所述語言特征和語音特征對交互內容進行處理；語音助手使用處理后的交互內容與用戶進行交互。

可選地，所述系統(tǒng)還包括：交互判斷模塊：用于判斷用戶發(fā)出的語音是否與所述的語言特征和語音特征相符；如果相符，則與該用戶進行語音交互；如果不相符，則拒絕與該用戶進行語音交互。

本發(fā)明的有益效果：本方法通過讓語音助手模仿指定用戶相應的語言特征和語音特征，使得人機進行語音交互時，語音助手能像所述指定用戶一樣與用戶進行互動，使該智能設備的語音助手更加符號用戶的興趣，提高了用戶體驗。

【附圖說明】

圖1為實現本發(fā)明各個實施例的移動終端的硬件結構示意圖。

圖2為如圖1所示的移動終端的無線通信系統(tǒng)示意圖。

圖3是本發(fā)明提供的語音交互的方法實施例一的方法流程圖。

圖4是本發(fā)明提供的語音交互的方法實施例二的方法流程圖。

圖5是本發(fā)明提供的語音交互的方法實施例三的方法流程圖。

圖6是本發(fā)明提供的語音交互的系統(tǒng)實施例四的功能模塊圖。

圖7是本發(fā)明提供的語音交互的系統(tǒng)實施例五的功能模塊圖。

圖8是本發(fā)明提供的語音交互的系統(tǒng)實施例六的功能模塊圖。

【具體實施方式】

應當理解，此處所描述的具體實施例僅用以解釋本發(fā)明，并不用于限定本發(fā)明。

現在將參考附圖描述實現本發(fā)明各個實施例的移動終端。在后續(xù)的描述中，使用用于表示元件的諸如“模塊”、“部件”或“單元”的后綴僅為了有利于本發(fā)明的說明，其本身并沒有特定的意義。因此，"模塊"與"部件"可以混合地使用。

移動終端可以以各種形式來實施。例如，本發(fā)明中描述的終端可以包括諸如移動電話、智能電話、筆記本電腦、數字廣播接收器、PDA(個人數字助理)、PAD(平板電腦)、PMP(便攜式多媒體播放器)、導航裝置等等的移動終端以及諸如數字TV、臺式計算機等等的固定終端。下面，假設終端是移動終端。然而，本領域技術人員將理解的是，除了特別用于移動目的的元件之外，根據本發(fā)明的實施方式的構造也能夠應用于固定類型的終端。

圖1為實現本發(fā)明各個實施例的移動終端的硬件結構示意。

移動終端100可以包括無線通信單元110、A/V(音頻/視頻)輸入單元120、用戶輸入單元130、輸出單元140、存儲器150、接口單元160、控制器170和電源單元180等等。圖1示出了具有各種組件的移動終端，但是應理解的是，并不要求實施所有示出的組件?？梢蕴娲貙嵤└嗷蚋俚慕M件。將在下面詳細描述移動終端的元件。

無線通信單元110通常包括一個或多個組件，其允許移動終端100與無線通信系統(tǒng)或網絡之間的無線電通信。例如，無線通信單元可以包括移動通信模塊111、無線互聯網模塊112、短程通信模塊113中的至少一個。

移動通信模塊111將無線電信號發(fā)送到基站(例如，接入點、節(jié)點B等等)、外部終端以及服務器中的至少一個和/或從其接收無線電信號。這樣的無線電信號可以包括語音通話信號、視頻通話信號、或者根據文本和/或多媒體消息發(fā)送和/或接收的各種類型的數據。

無線互聯網模塊112支持移動終端的無線互聯網接入。該模塊可以內部或外部地耦接到終端。該模塊所涉及的無線互聯網接入技術可以包括WLAN(無線LAN)(Wi-Fi)、Wibro(無線寬帶)、Wimax(全球微波互聯接入)、HSDPA(高速下行鏈路分組接入)等等。

短程通信模塊113是用于支持短程通信的模塊。短程通信技術的一些示例包括藍牙TM、射頻識別(RFID)、紅外數據協會(IrDA)、超寬帶(UWB)、紫蜂TM等等。

A/V輸入單元120用于接收音頻或視頻信號。A/V輸入單元120可以包括相機121和麥克風122，相機121對在視頻捕獲模式或圖像捕獲模式中由圖像捕獲裝置獲得的靜態(tài)圖片或視頻的圖像數據進行處理。處理后的圖像幀可以顯示在顯示單元141上。經相機121處理后的圖像幀可以存儲在存儲器150(或其它存儲介質)中或者經由無線通信單元110進行發(fā)送，可以根據移動終端的構造提供兩個或更多相機121。麥克風122可以在電話通話模式、記錄模式、語音識別模式等等運行模式中經由麥克風接收聲音(音頻數據)，并且能夠將這樣的聲音處理為音頻數據。處理后的音頻(語音)數據可以在電話通話模式的情況下轉換為可經由移動通信模塊111發(fā)送到移動通信基站的格式輸出。麥克風122可以實施各種類型的噪聲消除(或抑制)算法以消除(或抑制)在接收和發(fā)送音頻信號的過程中產生的噪聲或者干擾。

用戶輸入單元130可以根據用戶輸入的命令生成鍵輸入數據以控制移動終端的各種操作。用戶輸入單元130允許用戶輸入各種類型的信息，并且可以包括鍵盤、鍋仔片、觸摸板(例如，檢測由于被接觸而導致的電阻、壓力、電容等等的變化的觸敏組件)、滾輪、搖桿等等。特別地，當觸摸板以層的形式疊加在顯示單元141上時，可以形成觸摸屏。

接口單元160用作至少一個外部裝置與移動終端100連接可以通過的接口。例如，外部裝置可以包括有線或無線頭戴式耳機端口、外部電源(或電池充電器)端口、有線或無線數據端口、存儲卡端口、用于連接具有識別模塊的裝置的端口、音頻輸入/輸出(I/O)端口、視頻I/O端口、耳機端口等等。識別模塊可以是存儲用于驗證用戶使用移動終端100的各種信息并且可以包括用戶識別模塊(UIM)、客戶識別模塊(SIM)、通用客戶識別模塊(USIM)等等。另外，具有識別模塊的裝置(下面稱為"識別裝置")可以采取智能卡的形式，因此，識別裝置可以經由端口或其它連接裝置與移動終端100連接。接口單元170可以用于接收來自外部裝置的輸入(例如，數據信息、電力等等)并且將接收到的輸入傳輸到移動終端100內的一個或多個元件或者可以用于在移動終端和外部裝置之間傳輸數據。

另外，當移動終端100與外部底座連接時，接口單元160可以用作允許通過其將電力從底座提供到移動終端100的路徑或者可以用作允許從底座輸入的各種命令信號通過其傳輸到移動終端的路徑。從底座輸入的各種命令信號或電力可以用作用于識別移動終端是否準確地安裝在底座上的信號。輸出單元140被構造為以視覺、音頻和/或觸覺方式提供輸出信號(例如，音頻信號、視頻信號、警報信號、振動信號等等)。輸出單元140可以包括顯示單元141、音頻輸出模塊142等等。

顯示單元141可以顯示在移動終端100中處理的信息。例如，當移動終端100處于電話通話模式時，顯示單元141可以顯示與通話或其它通信(例如，文本消息收發(fā)、多媒體文件下載等等)相關的用戶界面(UI)或圖形用戶界面(GUI)。當移動終端100處于視頻通話模式或者圖像捕獲模式時，顯示單元141可以顯示捕獲的圖像和/或接收的圖像、示出視頻或圖像以及相關功能的UI或GUI等等。

同時，當顯示單元141和觸摸板以層的形式彼此疊加以形成觸摸屏時，顯示單元141可以用作輸入裝置和輸出裝置。顯示單元141可以包括液晶顯示器(LCD)、薄膜晶體管LCD(TFT-LCD)、有機發(fā)光二極管(OLED)顯示器、柔性顯示器、三維(3D)顯示器等等中的至少一種。這些顯示器中的一些可以被構造為透明狀以允許用戶從外部觀看，這可以稱為透明顯示器，典型的透明顯示器可以例如為TOLED(透明有機發(fā)光二極管)顯示器等等。根據特定想要的實施方式，移動終端100可以包括兩個或更多顯示單元(或其它顯示裝置)，例如，移動終端可以包括外部顯示單元(未示出)和內部顯示單元(未示出)。觸摸屏可用于檢測觸摸輸入壓力以及觸摸輸入位置和觸摸輸入面積。

音頻輸出模塊142可以在移動終端處于呼叫信號接收模式、通話模式、記錄模式、語音識別模式、廣播接收模式等等模式下時，將無線通信單元110接收的或者在存儲器150中存儲的音頻數據轉換音頻信號并且輸出為聲音。而且，音頻輸出模塊142可以提供與移動終端100執(zhí)行的特定功能相關的音頻輸出(例如，呼叫信號接收聲音、消息接收聲音等等)。音頻輸出模塊142可以包括揚聲器、蜂鳴器等等。

存儲器150可以存儲由控制器170執(zhí)行的處理和控制操作的軟件程序等等，或者可以暫時地存儲己經輸出或將要輸出的數據(例如，電話簿、消息、靜態(tài)圖像、視頻等等)。而且，存儲器150可以存儲關于當觸摸施加到觸摸屏時輸出的各種方式的振動和音頻信號的數據。

存儲器150可以包括至少一種類型的存儲介質，所述存儲介質包括閃存、硬盤、多媒體卡、卡型存儲器(例如，SD或DX存儲器等等)、隨機訪問存儲器(RAM)、靜態(tài)隨機訪問存儲器(SRAM)、只讀存儲器(ROM)、電可擦除可編程只讀存儲器(EEPROM)、可編程只讀存儲器(PROM)、磁性存儲器、磁盤、光盤等等。而且，移動終端100可以與通過網絡連接執(zhí)行存儲器160的存儲功能的網絡存儲裝置協作。

控制器170通常控制移動終端的總體操作。例如，控制器170執(zhí)行與語音通話、數據通信、視頻通話等等相關的控制和處理。另外，控制器170可以包括用于再現(或回放)多媒體數據的多媒體模塊171，多媒體模塊171可以構造在控制器170內，或者可以構造為與控制器170分離。控制器170可以執(zhí)行模式識別處理，以將在觸摸屏上執(zhí)行的手寫輸入或者圖片繪制輸入識別為字符或圖像。

電源單元180在控制器170的控制下接收外部電力或內部電力并且提供操作各元件和組件所需的適當的電力。

這里描述的各種實施方式可以以使用例如計算機軟件、硬件或其任何組合的計算機可讀介質來實施。對于硬件實施，這里描述的實施方式可以通過使用特定用途集成電路(ASIC)、數字信號處理器(DSP)、數字信號處理裝置(DSPD)、可編程邏輯裝置(PLD)、現場可編程門陣列(FPGA)、處理器、控制器、微控制器、微處理器、被設計為執(zhí)行這里描述的功能的電子單元中的至少一種來實施，在一些情況下，這樣的實施方式可以在控制器180中實施。對于軟件實施，諸如過程或功能的實施方式可以與允許執(zhí)行至少一種功能或操作的單獨的軟件模塊來實施。軟件代碼可以由以任何適當的編程語言編寫的軟件應用程序(或程序)來實施，軟件代碼可以存儲在存儲器150中并且由控制器170執(zhí)行。

至此，己經按照其功能描述了移動終端。下面，為了簡要起見，將描述諸如折疊型、直板型、擺動型、滑動型移動終端等等的各種類型的移動終端中的滑動型移動終端作為示例。因此，本發(fā)明能夠應用于任何類型的移動終端，并且不限于滑動型移動終端。

如圖1中所示的移動終端100可以被構造為利用經由幀或分組發(fā)送數據的諸如有線和無線通信系統(tǒng)以及基于衛(wèi)星的通信系統(tǒng)來操作。

現在將參考圖2描述其中根據本發(fā)明的移動終端能夠操作的通信系統(tǒng)。

這樣的通信系統(tǒng)可以使用不同的空中接口和/或物理層。例如，由通信系統(tǒng)使用的空中接口包括例如頻分多址(FDMA)、時分多址(TDMA)、碼分多址(CDMA)和通用移動通信系統(tǒng)(UMTS)(特別地，長期演進(LTE))、全球移動通信系統(tǒng)(GSM)等等。作為非限制性示例，下面的描述涉及CDMA通信系統(tǒng)，但是這樣的教導同樣適用于其它類型的系統(tǒng)。

參考圖2，無線通信系統(tǒng)可以包括多個移動終端100、多個基站(BS)270、基站控制器(BSC)275和移動交換中心(MSC)280。MSC280被構造為與公共電話交換網絡(PSTN)290形成接口。MSC280還被構造為與可以經由回程線路耦接到基站270的BSC275形成接口。回程線路可以根據若干己知的接口中的任一種來構造，所述接口包括例如E1/T1、ATM，IP、PPP、幀中繼、HDSL、ADSL或xDSL。將理解的是，如圖2中所示的系統(tǒng)可以包括多個BSC2750。

每個BS270可以服務一個或多個分區(qū)(或區(qū)域)，由多向天線或指向特定方向的天線覆蓋的每個分區(qū)放射狀地遠離BS270?；蛘?，每個分區(qū)可以由用于分集接收的兩個或更多天線覆蓋。每個BS270可以被構造為支持多個頻率分配，并且每個頻率分配具有特定頻譜(例如，1.25MHz,5MHz等等)。

分區(qū)與頻率分配的交叉可以被稱為CDMA信道。BS270也可以被稱為基站收發(fā)器子系統(tǒng)(BTS)或者其它等效術語。在這樣的情況下，術語"基站"可以用于籠統(tǒng)地表示單個BSC275和至少一個BS270?；疽部梢员环Q為"蜂窩站"?；蛘?，特定BS270的各分區(qū)可以被稱為多個蜂窩站。

如圖2中所示，廣播發(fā)射器(BT)295將廣播信號發(fā)送給在系統(tǒng)內操作的移動終端100。如圖1中所示的廣播接收模塊111被設置在移動終端100處以接收由BT295發(fā)送的廣播信號。在圖2中，示出了幾個全球定位系統(tǒng)(GPS)衛(wèi)星300。衛(wèi)星300幫助定位多個移動終端100中的至少一個。

在圖2中，描繪了多個衛(wèi)星300，但是理解的是，可以利用任何數目的衛(wèi)星獲得有用的定位信息。如圖1中所示的GPS模塊115通常被構造為與衛(wèi)星300配合以獲得想要的定位信息。替代GPS跟蹤技術或者在GPS跟蹤技術之外，可以使用可以跟蹤移動終端的位置的其它技術。另外，至少一個GPS衛(wèi)星300可以選擇性地或者額外地處理衛(wèi)星DMB傳輸。

作為無線通信系統(tǒng)的一個典型操作，BS270接收來自各種移動終端100的反向鏈路信號。移動終端100通常參與通話、消息收發(fā)和其它類型的通信。特定基站270接收的每個反向鏈路信號被在特定BS270內進行處理。獲得的數據被轉發(fā)給相關的BSC275。BSC提供通話資源分配和包括BS270之間的軟切換過程的協調的移動管理功能。BSC275還將接收到的數據路由到MSC280，其提供用于與PSTN290形成接口的額外的路由服務。類似地，PSTN290與MSC280形成接口，MSC與BSC275形成接口，并且BSC275相應地控制BS270以將正向鏈路信號發(fā)送到移動終端100。

基于上述移動終端硬件結構以及通信系統(tǒng)，提出本發(fā)明方法各個實施例。

實施例一

參考圖3，一種語音交互的方法，包括：

S101、從指定用戶的通話過程中獲取所述指定用戶的語言特征和語音特征。

S102、將所述語言特征和語音特征賦予語音助手，語音助手根據這些語言特征和語音特征進行訓練。

S103、語音助手模仿所述指定用戶的語言特征和語音特征與用戶進行語音交互。

指定用戶的語言特征包括語言習慣、語言風格和邏輯方式；語音特征包括音色、音調、韻律、節(jié)奏、口音。

獲取指定用戶的語言特征和語音特征，包括：獲取所述指定用戶與用戶溝通的語音短信和通話語音。當用戶確定好指定用戶，就會從智能設備上獲取該指定用戶與用戶溝通的語音短信和語音，對這些交流語音進行分析，得到該指定用戶的語言特征和語音特征。該指定用戶為現實中的人物，例如用戶的朋友家人、爸爸媽媽、自己的伴侶等。

將所述語言特征和語音特征賦予語音助手，以使語音助手模仿所述指定用戶與用戶進行交互，然后從后臺數據庫讀取語音助手和用戶之間的交互內容，模仿所述語言特征和語音特征對交互內容進行處理，語音助手使用處理后的交互內容與用戶進行語音交互。當用戶與語音助手進行對話，或用戶設置讓語音助手進行某些任務提醒時，對話內容即為交互內容，模仿指定用戶的語言特征和語音特征對交互內容進行處理，則在對話中語音助手使用具有該指定用戶的語言特征和語音特征與用戶進行語音交互，或用該指定用戶的語言特征和語音特征對用戶進行任務提醒。

例如當用戶將自己的某位好友設定為指定用戶，則從智能設備上獲取該好友與用戶溝通的語音短信和通話語音，對這些交流語音進行分析，得到該好友的語言特征和語音特征；當用戶通過語音交互進行了去參加該朋友的生日paty出發(fā)提醒的設定，則根據該好友的語言特征和語音特征對去參加朋友生日paty出發(fā)提醒的內容進行處理，語音助手使用處理后的內容發(fā)出提醒，就像是該好友在對用戶做出去參加生日paty出發(fā)的提醒一樣；或是用戶與語音助手聊天時，根據該好友的語言特征和語音特征對聊天內容進行處理，語音助手就會使用處理后的聊天內容與用戶聊天，讓用戶覺得是在與自己的好友進行聊天一樣。

本實施例通過讓語音助手模仿指定用戶相應的語言特征和語音特征，使得人機進行語音交互時，語音助手能像所述指定用戶一樣與用戶進行語音互動，使該智能語音助手更加符號用戶的興趣，提高了用戶體驗。

實施例二

參考圖4，本實施例提供了另一種語音交互的方法，包括：

S201、獲取所述指定用戶與用戶通話的語音內容。

當用戶確定好指定用戶，就會從智能設備上獲取該指定用戶與用戶通話的語音內容。

例如，當用戶將自己的媽媽作為指定用戶，則從該用戶媽媽與用戶通話中獲取該用戶媽媽的語音。

S202、對所述指定用戶與用戶通話的語音內容進行分析。

對所述指定用戶與用戶溝通的語音進行語言特征和語音特征分析，即是從所述指定用戶與用戶溝通的語音中提取出指定用戶的語言特征和語音特征，語言特征包括語言習慣、語言風格和邏輯方式；所述語音特征包括音色、音調、韻律、節(jié)奏、口音。

S203、獲取指定用戶的語言特征和語音特征。

通過上一步驟的分析，可以得到該指定用戶說話時的聲音、音調、音色、說話的節(jié)奏快慢以及說話時帶有的地方口音，甚至是指定用戶的一些獨特口音；同時也能夠獲得指定用戶的語言特征，即指定用戶的語言習慣、語言風格以及邏輯方式。指定用戶的語言習慣和語言風格可以得知指定用戶說話的習慣，例如其說話時是不是帶有習慣性的語氣詞，說話的慵懶還是比較急，比較溫柔還是比較強硬等，這些都是指定人物的語言特征和語音特征。

例如，當用戶將自己的媽媽作為指定用戶，分析得到的是用戶媽媽的語言特征和語音特征，包括用戶媽媽說話時的聲音、音調、音色、說話的節(jié)奏快慢以及說話時帶有的地方口音，以及用戶媽媽的語言習慣、語言風格以及邏輯方式。

S204、從后臺數據庫讀取交互內容。

該步驟是通過后臺的知識庫得到與用戶的原始交互內容，即用戶做出提問時，應該回答是什么；例如用戶對智能設備提出去“今天天氣怎樣？”對這一提問的回答是通過智能設備應用相關天氣的數據庫進行查找，從而得知今天的天氣情況即為交互內容，在語音交互中還需要對這些交互內容進行處理。

S205、模仿所述語言特征和語音特征對交互內容進行處理，語音助手使用處理后的交互內容與用戶進行交互。

對上一步驟中得到的交互內容根據指定用戶的語言特征和語音特征進行處理，語音助手則使用經過語言特征和語音特征處理后的內容與用戶交互。例如上一步驟中的交互內容是針對用戶提問的回答，回答內容為今天的天氣情況，則在該步驟中利用獲得的上一步驟中獲得指定用戶的語言特征和語音特征對這個回答內容進行處理，語音助手使用處理后的回答內容與用戶進行交互，當用戶將自己的媽媽作為指定用戶，則在上個步驟中獲得的是用戶媽媽的語言特征和語音特征，利用獲得的上一步驟中獲得用戶媽媽的語言特征和語音特征對這個回答內容進行處理，語音助手使用處理后的回答內容與用戶進行交互。

例如，當用戶將自己的某位好友定位指定用戶，則從智能設備上獲取該好友與用戶溝通的語音，對這些交流信息進行分析，得到該好友的語言特征和語音特征；當用戶通過語音交互進行了去機場坐飛機出發(fā)提醒的設定，則根據該好友的語言特征和語音特征對去機場坐飛機出發(fā)提醒的內容進行處理，語音助手使用處理后的內容發(fā)出提醒，就像是該好友在對用戶做出去機場坐飛機出發(fā)的提醒一樣；或是用戶與語音助手聊天時，根據該好友的語言特征和語音特征對聊天內容進行處理，語音助手就會使用處理后的聊天內容與用戶聊天，讓用戶覺得是在與自己的好友進行聊天一樣。

本實施例讓語音助手模仿指定用戶相應的語言特征和語音特征，使得人機進行語音交互時，語音助手能像所述指定用戶一樣與用戶進行語音互動，使該智能語音助手更加符號用戶的興趣，使語音交互更加人性化，提高了用戶體驗。

實施例三

參考圖5，本實施例提供了另一種語音交互的方法，包括：

S201、獲取所述指定用戶與用戶通話的語音內容。

當用戶確定好指定用戶，就會從智能設備上獲取該指定用戶與用戶通話的語音內容。

例如，當用戶將自己作為指定用戶，則從自己的通話中獲取該用戶自己的語音。

S202、對所述指定用戶與用戶通話的語音內容進行分析。

S203、獲取指定用戶的語言特征和語音特征。

例如，當用戶將自己作為指定用戶，分析得到的是用戶自己的語言特征和語音特征，包括用戶自己說話時的聲音、音調、音色、說話的節(jié)奏快慢以及說話時帶有的地方口音，以及用戶自己的語言習慣、語言風格以及邏輯方式。

S206、判斷語音交互輸入的語言特征和語音特征。

用戶和智能設備的語音助手進行語音交互時，語音助手判斷用戶輸入的語音是否與所述的語言特征和語音特征相符；如果相符，則與該用戶進行語音交互；如果不相符，則拒絕與該用戶進行語音交互。

例如，當用戶和智能設備的語音助手進行交互時，語音助手通過判斷當前進行語音交互的用戶的語言特征和語音特征和之前記錄的語言特征和語音特征是否相符，如果相符，則進行語音交互；否則拒絕該語音交互。通過該功能，可以確保語音助手只和自己的主人進行語音交互，非主人發(fā)起的語音交互不進行應答，從而保護了語音交互的隱私。

實施例四

參考圖6，本實施例提供了一種語音交互的系統(tǒng)，包括：

P101語言特征和語音特征獲取模塊：用于獲取指定用戶的語言特征和語音特征。

P102語音訓練模塊：用于將所述語言特征和語音特征賦予語音助手，語音助手根據這些語言特征和語音特征進行訓練。

P103語音交互模塊：用于語音助手模仿所述指定用戶的語言特征和語音特征與用戶進行語音交互。

其中，語言特征包括語言習慣、語言風格和邏輯方式；語音特征包括音色、音調、韻律、節(jié)奏、口音。

獲取指定用戶的語言特征和語音特征，包括：獲取所述指定用戶與用戶溝通的語言，然后提取指定用戶的語言特征和語音特征。當用戶確定好指定用戶，就會從智能設備上獲取該指定用戶與用戶溝通的語音，對這些交流信息進行分析，得到該指定用戶的語言特征和語音特征。該指定用戶為現實中的人物，例如用戶的朋友家人、爸爸媽媽、自己的伴侶等。

將所述語言特征和語音特征賦予語音助手，以使語音助手模仿所述指定用戶與用戶進行交互，則為，從后臺數據庫讀取語音助手和用戶之間的交互內容，模仿所述語言特征和語音特征對交互內容進行處理，語音助手使用處理后的交互內容與用戶進行語音交互。當用戶與語音助手進行對話，或用戶設置讓語音助手進行某些任務提醒時，對話內容即為交互內容，模仿指定用戶的語言特征和語音特征對交互內容進行處理，則在對話中語音助手使用具有該指定用戶的語言特征和語音特征與用戶進行語音交互，或用該指定用戶的語言特征和語音特征對用戶進行任務提醒。

例如當用戶將自己的某位好友定位指定用戶，則從智能設備上獲取該好友與用戶溝通的語音，對這些交流信息進行分析，得到該好友的語言特征和語音特征；當用戶通過語音交互進行了去機場坐飛機出發(fā)提醒的設定，則根據該好友的語言特征和語音特征對去機場坐飛機出發(fā)提醒的內容進行處理，語音助手使用處理后的內容發(fā)出提醒，就像是該好友在對用戶做出去機場坐飛機出發(fā)的提醒一樣；或是用戶與語音助手聊天時，根據該好友的語言特征和語音特征對聊天內容進行處理，語音助手就會使用處理后的聊天內容與用戶聊天，讓用戶覺得是在與自己的好友進行聊天一樣。

本實施例通過讓語音助手模仿指定用戶相應的語言特征和語音特征，使得人機進行語音交互時，語音助手能像所述指定用戶一樣與用戶進行互動，使該智能語音助手更加符號用戶的興趣，使語音交互更加人性化，提高了用戶體驗。

實施例五

參考圖7，本實施例提供了另一種語音交互的系統(tǒng)，包括：

P201 用戶設定模塊：用于手動選擇一個用戶為所述指定用戶或把通話最多的用戶設定為所述指定用戶。

用戶通過手動選擇一個語音助手需要模擬他語言特征和語音特征的用戶作為指定用戶，也可以有智能設備自動把當前通話最多的用戶設為語音助手需要模擬他語言特征和語音特征的用戶。

P202 語音獲取模塊：用于獲取所述指定用戶與用戶溝通的語音。

當用戶確定好指定用戶，就會從智能設備上獲取該指定用戶與用戶溝通的語音。

例如當用戶將自己的媽媽作為指定用戶，則智能設備上獲取該用戶媽媽與用戶溝通的語音。

P203 語音分析模塊：用于分析所述指定用戶與用戶溝通的語音。

對所述指定用戶與用戶溝通的語音進行分析，即是從所述指定用戶與用戶溝通的語音中提取出指定用戶的語言特征和語音特征，語言特征包括語言習慣、語言風格和邏輯方式；所述語音特征包括音色、音調、韻律、節(jié)奏、口音。

P204 語言特征和語音特征獲取模塊：用于獲取指定用戶的語言特征和語音特征。

通過上一模塊的分析，可以得到該指定用戶說話時的聲音、音調、音色、說話的節(jié)奏快慢以及說話時帶有的地方口音，甚至是指定用戶的一些獨特口音；同時也能夠獲得指定用戶的語言特征，即指定用戶的語言習慣、語言風格以及邏輯方式。指定用戶的語言習慣和語言風格可以得知指定用戶說話的習慣，例如其說話時是不是帶有習慣性的語氣詞，說話的慵懶還是比較急，比較溫柔還是比較強硬等，這些都是指定人物的語言特征和語音特征。

例如當用戶將自己的媽媽作為指定用戶，分析得到的是用戶媽媽的語言特征和語音特征，包括用戶媽媽說話時的聲音、音調、音色、說話的節(jié)奏快慢以及說話時帶有的地方口音，以及用戶媽媽的語言習慣、語言風格以及邏輯方式。

P205 語音交互模塊：用于將所述語言特征和語音特征賦予語音助手，以使語音助手模仿所述指定用戶與用戶進行交互。

其中，P205語音交互模塊包括：

P2051 讀取模塊：用于從后臺數據庫讀取交互內容.

P2052 處理模塊：用于模仿所述語言特征和語音特征對交互內容進行處理；語音助手使用處理后的交互內容與用戶進行交互。

該步驟是通過后臺的知識庫得到與用戶的原始交互內容，即用戶做出提問時，應該回答是什么；例如用戶對智能設備提出去“今天天氣如何？”對這一提問的回答是通過智能設備應用相關天氣的數據庫進行查找，從而得知該今天的天氣情況，此時今天的天氣情況即為交互內容，在語音交互中還需要對這些交互內容進行處理。

對上一步驟中得到的交互內容根據對象的語言特征和語音特征進行處理，語音助手則使用經過語言特征和語音特征處理后的內容與用戶交互。例如上一步驟中的交互內容是針對用戶提問的回答，回答內容為某一酒店的地址及去該酒店的交通方式，則在該步驟中利用獲得的上一步驟中獲得指定用戶的語言特征和語音特征對這個回答內容進行處理，語音助手使用處理后的回答內容與用戶進行交互，當用戶將自己的媽媽作為指定用戶，則在上個步驟中獲得的是用戶媽媽的語言特征和語音特征，利用獲得的上一步驟中獲得用戶媽媽的語言特征和語音特征對這個回答內容進行處理，語音助手使用處理后的回答內容與用戶進行交互。

例如，當用戶將自己的某位好友定位指定用戶，則從該好友在相關社交平臺上公開的信息中獲取相應的社交平臺交流信息，同時從社交平臺或智能設備上獲取該好友與用戶溝通的短信和語音，對這些交流信息進行分析，得到該好友的語言特征和語音特征；當用戶通過語音交互進行了去機場坐飛機出發(fā)提醒的設定，則根據該好友的語言特征和語音特征對去機場坐飛機出發(fā)提醒的內容進行處理，語音助手使用處理后的內容發(fā)出提醒，就像是該好友在對用戶做出去機場坐飛機出發(fā)的提醒一樣；或是用戶與語音助手聊天時，根據該好友的語言特征和語音特征對聊天內容進行處理，語音助手就會使用處理后的聊天內容與用戶聊天，讓用戶覺得是在與自己的好友進行聊天一樣。

實施例六

參考圖8，本實施例提供了另一種語音交互的系統(tǒng)，包括：

P201 用戶設定模塊：用于手動選擇一個用戶為所述指定用戶或把通話最多的用戶設定為所述指定用戶。

P202 語音獲取模塊：用于獲取所述指定用戶與用戶溝通的語音。

當用戶確定好指定用戶，就會從智能設備上獲取該指定用戶與用戶溝通的語音。

例如當用戶將自己作為指定用戶，則智能設備上獲取自己所有通話中的語音。

P203 語音分析模塊：用于分析所述指定用戶與用戶溝通的語音。

P204 語言特征和語音特征獲取模塊：用于獲取指定用戶的語言特征和語音特征。

例如當用戶將自己作為指定用戶，分析得到的是自己的語言特征和語音特征，包括用戶自己說話時的聲音、音調、音色、說話的節(jié)奏快慢以及說話時帶有的地方口音，以及用戶自己的語言習慣、語言風格以及邏輯方式。

P206 語音交互判斷模塊：用于判斷用戶輸入的語音是否與所述的語言特征和語音特征相符；如果相符，則與該用戶進行語音交互；如果不相符，則拒絕與該用戶進行語音交互。

例如，當用戶和智能設備的語音助手進行交互時，語音助手通過交互判斷模塊判斷當前進行語音交互的用戶的語言特征和語音特征和之前記錄的相符，則進行語音交互；否則拒絕該語音交互。通過該功能，可以確保語音助手只和自己的主人進行語音交互，非主人發(fā)起的語音交互不進行應答。從而保護了語音交互的隱私。

以上結合具體實施例描述了本發(fā)明實施例的技術原理，這些描述只是為了解釋本發(fā)明實施例的原理，而不能以任何方式解釋為對本發(fā)明實施例保護范圍的限制，本領域的技術人員不需要付出創(chuàng)造性的勞動即可聯想到本發(fā)明實施例的其它具體實施方式，這些方式都將落入本發(fā)明實施例的保護范圍之內。

需要說明的是，在本文中，術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過程、方法、物品或者裝置不僅包括那些要素，而且還包括沒有明確列出的其他要素，或者是還包括為這種過程、方法、物品或者裝置所固有的要素。在沒有更多限制的情況下，由語句“包括一個……”限定的要素，并不排除在包括該要素的過程、方法、物品或者裝置中還存在另外的相同要素。

上述本發(fā)明實施例序號僅僅為了描述，不代表實施例的優(yōu)劣。

通過以上的實施方式的描述，本領域的技術人員可以清楚地了解到上述實施例方法可借助軟件加必需的通用硬件平臺的方式來實現，當然也可以通過硬件，但很多情況下前者是更佳的實施方式?；谶@樣的理解，本發(fā)明的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟件產品的形式體現出來，該計算機軟件產品存儲在一個存儲介質(如ROM/RAM、磁碟、光盤)中，包括若干指令用以使得一臺終端設備(可以是手機，計算機，服務器，空調器，或者網絡設備等)執(zhí)行本發(fā)明各個實施例所述的方法。

以上僅為本發(fā)明的優(yōu)選實施例，并非因此限制本發(fā)明的專利范圍，凡是利用本發(fā)明說明書及附圖內容所作的等效結構或等效流程變換，或直接或間接運用在其他相關的技術領域，均同理包括在本發(fā)明的專利保護范圍內。

完整全部詳細技術資料下載

當前第1頁1 2 3