專利名稱:根據用于語音識別的呼叫語境動態(tài)地和自適應地選擇詞匯和聲學模型的制作方法
保留版權本專利文件包含受版權保護的信息。版權所有人不反對將出現在美國專利和商標局文件或記錄中的專利文件或專利傳真,但保留其它所有版權。
背景本發(fā)明的一些方面涉及自動語音處理。本發(fā)明的其它方面涉及自適應的自動語音識別。
在越來越面向服務的社會中,產品的選擇經常是根據與產品同時提供的附加服務決定的。公司為了吸引顧客在提供這些服務中投入了大量資金。例如為向制造商購買計算機的顧客提供免費電話號碼,使顧客能通過電話請求任何技術支持或提出服務問題。為了促進提供的顧客服務,制造商可以建立一個配備了呼叫選擇路由能力(例如將呼叫路由至可用的代理人)、管理相關信息(例如顧客簡介)的后置數據庫系統(tǒng)和可以處理不同類型的問題工作人員的呼叫中心。除了呼叫中心之外還可以配置其它可能的系統(tǒng)配置來促進顧客服務。
維持呼叫中心的成本很高。為了在市場中有效地競爭,必須保持顧客服務的低成本。開發(fā)了各種節(jié)省成本的策略。一種策略是引入自動呼叫路由能力,這樣就不必雇傭將呼叫轉接到合適代理人的接線員了。該自動呼叫路由幫助自動翻譯與呼叫顧客有關的需求(例如顧客會有付款問題),然后將顧客的呼叫自動路由至專攻特定領域的代理人(例如負責處理與付款有關的問題的代理人)。
主要有兩種技術用來實現自動呼叫路由。一個是提醒呼叫顧客輸入編碼的選擇。例如呼叫中心會提醒顧客“訂貨輸入1;付款問題輸入2;支持輸入3”。有了這一實施,顧客可以用諸如電話之類帶按鍵的設備來輸入與希望的服務相應的代碼。因為此類解決方案需要呼叫用戶的努力,所以它可能會使一些顧客感到麻煩,特別是當選擇的數量大到顧客在聽完提醒之后難以記住每條服務選擇的代碼時。
另一種技術是通過聲音自動呼叫路由。在此情況下,呼叫中心可提醒呼叫顧客說出請求的服務的種類。因為在此情況下顧客不需要記住每個選擇的代碼,常常會更方便。為了實現這種解決方案,呼叫中心常常配置從呼叫顧客的語音識別出所語單詞的自動語音識別系統(tǒng)。然后將識別出的口語單詞用于路由呼叫。由于呼叫中心常常處理可能來自許多不同顧客的呼叫,它常常配置不依賴于說話人的自動語音識別系統(tǒng)(與依賴于說話人的系統(tǒng)相反)。不依賴于說話人的自動語音識別系統(tǒng)雖然比依賴于說話人的語音識別更靈活,但準確度較低。
為了讓使用不依賴于說話人的系統(tǒng)的識別失誤率最小化,可以使用少于標準的詞匯。用這種技術,如果呼叫中心在呼叫的特定階段提醒呼叫顧客指示三種給出的服務選擇中的一個,以識別該顧客將會說什么,可以選擇僅三個詞的一個詞匯集用于識別。例如如果將“信息”、“接線員”和“付款”提供給顧客選擇,可以選擇僅僅由這三個詞組成的詞匯集用于識別用戶的選擇(與含成千上萬單詞的自然語詞匯集成對照)。使用較少的詞匯可以縮小識別的范圍,從而提高識別的準確度。用此技術在不同呼叫階段,可以根據基本應用的要求選擇不同的詞匯集。
在許多真實系統(tǒng)中,即使在呼叫的不同階段靈活地選擇詞匯集,識別的準確度常常不夠好。特別是在基本詞匯集不夠少的時候。不依賴于說話人進行自動語音識別是很困難的。即使是較少的詞匯,不同的顧客會用非常不同的語音特征說出同一選擇。例如美國本地人和日本人對“接線員”一詞的發(fā)音就非常不同。
附圖的簡要說明以下將參照附圖,根據實施例對本發(fā)明進行描述。這些實施例都是非限定性實施例,其中同樣的標號在整個附圖中的幾幅圖中代表類似的部分,其中
圖1示出根據本發(fā)明的一實施例的使用根據呼叫語境自適應地選擇的詞匯集和聲學模型識別呼叫者的語音的架構;圖2示出根據本發(fā)明的一實施例的能使其詞匯和聲學模型適用于呼叫語境的語音識別機制的內部高等級功能塊的框圖;圖3示出根據本發(fā)明的一實施例的可影響詞匯和相關聲學模型的適應性選擇的呼叫語境的示例性相關信息;圖4示出根據本發(fā)明的一實施例的詞匯和聲學模型之間的示例關系;圖5示出根據本發(fā)明的一實施例的使用根據呼叫語境自適應地選擇的詞匯和聲學模型識別呼叫者的語音的過程的流程圖6為根據本發(fā)明的一實施例的詞匯自適應機構在呼叫語境的基礎上動態(tài)地選擇合適詞匯的過程的示例流程圖;圖7為根據本發(fā)明的一實施例的聲學模型自適應機構在呼叫語境的基礎上相對于一詞匯集動態(tài)地選擇合適的聲學模型的過程的示例流程圖;圖8為根據本發(fā)明的一實施例按照語音識別性能自適應地調節(jié)語音識別的聲學模型的過程的示例流程圖。
詳細說明下述過程由合適地編程的通用計算機單獨執(zhí)行或與專用計算機一起執(zhí)行??捎蓡蝹€平臺或由分布式處理平臺實施此過程。另外,可以以專用硬件的形式或以由通用計算機運行的軟件的形式實施此過程和功能性。任何在該過程中處理的或因該過程建立的數據都可以存儲在任何已有技術中的傳統(tǒng)存儲器中。作為示例,可以將該數據存儲到臨時存儲器中,例如給定計算機系統(tǒng)或子系統(tǒng)的RAM中。另外,另選地,可以將該數據存儲到較長期的存儲設備中,例如磁盤、可重寫的光盤等等。為了這里本發(fā)明的目的,計算機可讀媒體可包括任何形式的數據存儲機構,包括已有各種存儲器技術以及代表這些數據的這些結構的硬件或電路。
在圖1所示的架構100示出根據本發(fā)明的一實施例的使用根據呼叫語境自適應地選擇的詞匯和聲學模型來識別呼叫者的語音的架構。架構100包括多個呼叫者(呼叫者1 110a、呼叫者2 110b、...、呼叫者n 110c)、話頻響應系統(tǒng)130和語音識別機構140。呼叫者通過網絡120與話頻響應系統(tǒng)130通信。在通過網絡120接收到來自呼叫者的呼叫時,話頻響應系統(tǒng)130識別與呼叫相關的信息并將其發(fā)送至語音識別機構140。語音識別機構140根據該信息自適應地選擇一個或多個對呼叫信息和呼叫者合適的詞匯和聲學模型,然后將它們用于識別呼叫者在呼叫期間說出的口語單詞。
呼叫者可以通過有線或無線設備(可以是電話、蜂窩電話或任何諸如個人數字助理(PDA)或個人電腦之類能傳送語音(聲音)數據或傳送從語音數據轉換的特征的通信設備)發(fā)出呼叫。網絡120代表普通網絡,該網絡可以對應于,但不限于,局域網(LAN)、廣域網(WAN)、因特網、無線網絡、或專用網。網絡120不僅能傳送數據還能將與傳送相關的有用信息與傳送的數據一起中繼至話頻響應系統(tǒng)130。例如網絡120可包括開關、路由器和能提取與呼叫者相關的信息并將這些信息附在傳送的數據上的PBX。
話頻響應系統(tǒng)130代表一聲音激活系統(tǒng),它通過根據呼叫者在呼叫期間說的話采取合適的動作來響應來自呼叫者的話。例如話頻響應系統(tǒng)130可以響應設在呼叫中心的交互式話頻響應(IVR)系統(tǒng)。當呼叫者向呼叫中心發(fā)出呼叫時,該IVR系統(tǒng)可以根據呼叫者說的話自動將呼叫轉向在呼叫中心的合適代理人。例如如果呼叫者詢問付款問題,IVR系統(tǒng)應將呼叫接到經過培訓的回答付款問題的代理人。如果呼叫者請求查號輔助,IVR系統(tǒng)就將呼叫接至負責幫助呼叫者找到的所要求的電話號碼的代理人。
為了按呼叫者的聲音請求作出合適的動作,話頻響應系統(tǒng)130依靠語音識別機構140識別呼叫者的講話中正在說什么。為了提高識別準確度,話頻響應系統(tǒng)130會主動提醒呼叫者回答某些問題。例如當接聽一個呼叫時,話頻響應系統(tǒng)130會要求呼叫者說出給出的幾種幫助類型中他/她要尋求的一種(例如“預訂”、“查號輔助”和“付款”)。
來自呼叫者的回答不僅可以用于指導話頻響應系統(tǒng)130作出反應還可以用于為語音識別選擇合適的詞匯。例如得知呼叫者請求付款服務,話頻響應系統(tǒng)130可以進一步提醒呼叫者提供帳號。得到此語境,語音識別機構140會利用數字詞匯(僅由數字組成的詞匯,如果已知帳號僅由數字組成)來識別呼叫者的回答中將會說什么??梢愿鶕緫脕磉x擇特定的詞匯。例如如果已知帳戶由數字和字母組成,語音識別機構140會利用數字詞匯和字母詞匯(僅由字母組成)來形成組合的詞匯。詞匯的選擇還會依賴于語言。例如如果呼叫者只說西班牙語,則必須使用西班牙語詞匯。
可以將語音識別中的特定詞匯的使用縮小至需要識別的范圍,這樣既提高了效率又增加了語音識別機構140的準確度。影響語音識別器的性能的另一個方面包括是否知道呼叫者語音的特征。例如,法國人說英語可能帶法法語口音。在此情況下,即使選擇了合適的詞匯,例如用英語數字詞匯識別法國人說的英語數字會導致識別準確度差。在語音識別中,聲音模式捕捉在語境中與口語單詞相應的音素的聲學實現。不同語言中的詞匯可對應于非常不同的聲學模型。同樣,用不同的口音說出特定語言中的詞匯(例如用法國口音說英語數字)也會產生截然不同的聲學模型。
語音識別機構140自適應地選擇詞匯和相關聯的聲學模型用于識別。它包括詞匯自適應機構150、聲學模型自適應機構170和自動語音識別器160。詞匯自適應機構150根據與特定呼叫及基本應用相關的信息確定合適的詞匯。例如可以根據已知說話人是說英語的(例如根據有關顧客的已知信息或自動識別結果)以及呼叫者請求與付款問題有關的服務來選擇英語數字詞匯。在此情況下,選擇英語數字詞匯用于識別呼叫者回答問題時將說什么,例如有關他/她的帳號。因此,可以根據應用需要(例如回答付款問題需要帳號)和有關特定呼叫者的信息(說帶有法語口音的英語)來選擇合適的詞匯。
聲學模型自適應機構170根據選擇的詞匯(由詞匯自適應機構150選擇的)和與基本呼叫相關的信息自適應地選擇聲學模型。例如假設呼入的電話詢問與付款有關的問題且已知呼叫者(例如與呼叫者ID相關聯的顧客簡介會揭示)是帶法語口音的講英語的人。在此情況下,詞匯自適應機構150選擇英語數字詞匯。根據詞匯選擇和已知呼叫語境(例如有關呼叫者的信息),聲學模型自適應機構170可以選擇描述用法語口音說出的英語數字的語音特性的特征的聲學模型。
如果預先不知道呼叫者的語音特征(例如口音),聲學模型適應機構170可以在傳輸過程中確定適于特定呼叫者的最佳聲學模型。例如聲學模型自適應機構170可以在語音識別期間根據自動語音識別器160的識別性能動態(tài)地與合適的聲學模型相適應。它可以連續(xù)地監(jiān)控語音識別性能并相應地調節(jié)要采用的聲學模型。然后存儲更新的信息并將其與呼叫信息相關聯備用。
當合適地選擇了詞匯和相應的聲學模型后,自動語音識別器160用選擇的詞匯和聲學模型對輸入的語音(來自呼叫者)進行語音識別。然后將識別結果發(fā)送至話頻響應系統(tǒng)130,使其能合適地對呼叫者的聲音請求作出反應。例如如果識別出呼叫者的帳號,話頻響應系統(tǒng)130可以停止帳戶信息并提示呼叫者指示呼叫者請求的付款信息類型。
話頻響應系統(tǒng)130的反應會進一步使語音識別機構140適于選擇不同詞匯和聲學模型以備識別。例如為了幫助自動語音識別器160識別有關付款問題(來自呼叫者)的類型的將來的答案,詞匯自適應機構150可以選擇由三個與三類付款問題(例如“余額”、“銀行存款”和“最后付款”)相對應的單詞組成的詞匯。然后聲學模型機構170可以相應地選擇三單詞詞匯中與,例如法語口音,相對應的聲學模型。因此,詞匯自適應機構150和聲學自適應機構170都適于改變呼叫的語境并在給出呼叫語境的情況下,動態(tài)地選擇最合適的詞匯集聲學模型。
圖2示出根據本發(fā)明的一實施例的語音識別機構140的內部高等級功能方框圖。詞匯自適應機構150包括應用控制器210、呼叫語境檢測機構240、詞匯選擇機構220和多個可用的詞匯230。詞匯選擇機構220根據由呼叫語境檢測機構240檢測到的呼叫語境和由應用控制器210確定的應用要求選擇合適的詞匯。
應用控制器210可根據應用的要求指示詞匯類型的選擇。例如如果在一特定應用中的帳號僅由數字組成(由應用控制器210確定),則需要數字詞匯來識別說出的帳號。如果在一不同應用中的帳號由數字和字母組成,則需要數字詞匯和字母詞匯來識別說出的帳號。
與呼叫相關聯的呼叫語境(與可與呼叫過程中不同的時間點相關聯)可根據語言要求指示詞匯的選擇。例如如果應用需要數字詞匯,則可以選擇需要哪種特定語言的數字詞匯。這可以根據呼叫語境來確定。例如如果呼叫者是說法語的人,則需要法語數字詞匯。
呼叫語境檢測機構240接收從話頻響應系統(tǒng)130發(fā)送的或從與呼叫者相關聯的顧客簡介或網絡檢索到的信息。例如話頻響應系統(tǒng)130可以發(fā)送諸如呼叫者標識碼(呼叫者ID)或代表呼叫發(fā)出區(qū)域的區(qū)域代碼之類的與呼叫相關的信息。呼叫者ID可以用于檢索可提供諸如呼叫者的語言偏好之類的進一步信息的相應的顧客簡介。呼叫語境檢測機構240用這些信息構造出可與合適的詞匯或聲學模型選擇相關的基本呼叫語境。
圖3示出根據本發(fā)明的一實施例在呼叫語境中可影響詞匯和相關聲學模型的選擇的示例性相關類型的信息。從話頻響應系統(tǒng)130發(fā)送的信息可對應于包括,例如,區(qū)域代碼320、交換碼330、或呼叫者ID340在內的地理信息310??梢詫⑦@些信息與發(fā)出呼叫的物理位置相關聯,該位置可從區(qū)域代碼320、交換碼330、或可能最準確地從呼叫者ID 340中識別。當發(fā)出呼叫,然后通過網絡120將呼叫路由至話頻響應系統(tǒng)130時最初可以在本地載波上收集地理信息。
從顧客簡介檢索到的顧客信息可包括例如,一個或多個相應的呼叫者ID340、帳號360、...、和語言偏好370。用接收到的呼叫者ID(來自話頻響應機構130)可以檢索到包含在相關聯的顧客簡介中的信息。例如有了呼叫者ID,可以從相關的顧客簡介中檢索語言偏好370??梢酝ㄟ^不同的方式指示語言偏好370。例如它可以在建立基本帳戶時輸入或在與顧客打交道的過程中建立。
不同的呼叫者可以使用同一呼叫者ID。顧客簡介可以記錄各個可能的呼叫者及他們的語言偏好(圖3中未示出)。另選地,顧客簡介可以區(qū)分女性呼叫者380和男性呼叫者390(例如在一家庭中)及他們相應的語言偏好,因為女性和男性通常呈現出實質上不同的語音特征,從而可以用截然不同的聲學模型來識別他們的講話。
可以將與呼叫相關的地理信息用于獲取更多與詞匯和聲學模型的選擇相關的信息。例如可以將從話頻響應系統(tǒng)130發(fā)出的呼叫者ID用于檢索提供諸如語言偏好之類的進一步的相關信息的相應的顧客簡介??梢杂脵z索到的語言偏好370(與根據應用需要所要求的詞匯類型相結合)確定合適的詞匯(例如英語數字詞匯)和聲學模型(法語口音的英語數字的聲學模型)。
當沒有呼叫者ID時,不可能直接訪問顧客簡介。因此,不會知道偏好的語言。在這種情況下,可以用區(qū)域代碼320或交換碼330來推斷語言偏好。例如如果區(qū)域代碼320對應于德克薩斯州的某一地理區(qū)域,則可以推斷出與德克薩斯人相應的聲學模型可能是合適的。如另一例子,在如果交換碼330對應的區(qū)域(例如紐約市的唐人街)中大部分人說帶特定口音的英語(即,住在紐約市的唐人街的中國人說帶中文口音的英語),則可以認為與推斷口音相對應的特定聲學模型是適合的。
如上所述,聲學模型的選擇不僅取決于呼叫者的語音特征還取決于詞匯的選擇。圖4示出根據本發(fā)明的一實施例的詞匯和聲學模型之間的示例關系。詞匯集230包括多個詞匯集(詞匯集1 410、詞匯集2 420、...、詞匯集n 430)。各詞匯在不同的語言中實現。例如數字詞匯集420可包括西班牙語數字詞匯集440、英語數字詞匯集450、...、和日文數字詞匯集460。另外,對于給定語言中的各詞匯集,可使用多個與不同口音相對應的聲學模型。例如對于英語數字詞匯集450,可以將對應于西班口音(470)、英語口音480和法語口音49的聲學模型選擇成與呼叫者的語音特征相一致。
為了選擇合適的聲學模型,聲學模型自適應機構170可以根據諸如詞匯集的選擇(由詞匯自適應機構150做出的)和包含在呼叫語境中的信息之類的給定信息、或在傳輸過程中收集到的信息(例如從呼叫者的語音中檢測到的語音特征)作出選擇。參見圖2,聲學模型自適應機構170包括聲學模型選擇機構260、自適應機構280和一組可用聲學模型270。聲音選擇機構260從呼叫語境檢測機構240接收呼叫語境。可以將包含在呼叫語境中的信息用于確定選擇合適的聲學模型(見圖3)。
當接收到的呼叫語境不提供作出選擇所需的信息時,自適應機構280會在呼叫過程中從呼叫者的語音中檢測可能與選擇相關的語音特征(例如呼叫者是女性還是男性說話人)。還可以將檢測到的語音特征用于與可用于選擇的顧客簡介相關聯的信息。例如如果檢測到女性的聲音,話頻模式選擇機構260可使用該信息來看在顧客簡介(用例如呼叫語境中的呼叫者ID訪問)中是否有與女性說話人相關聯的語言偏好。在這種情況下,選擇是根據呼叫者的語音特征在傳輸過程中動態(tài)地確定的。
當沒有可用于幫助選擇聲學模型的信息時,達到在傳輸過程中自適應的不同的示例性另選的例子是首先根據一些標準選擇一組聲學模型,然后根據語音識別的在線性能精選。例如給出了英語數字詞匯集,聲學模型選擇機構260可首先根據英語口音、西班牙口音和法語口音選擇聲學模型。然后將所有初選的聲學模型饋送至自動語音識別器160用于語音識別(例如對不同口音作平行語音識別)。在識別期間產生性能測量值(例如識別的得分)并將其發(fā)送至自適應機構280以估計初選聲學模型的適合度。不再考慮導致較差識別性能的聲學模型用于此呼叫的語境中的進一步識別。這種在線適應可以持續(xù)到識別出最合適的聲學模型為止。
可以將最終的在線適應結果(選擇調整達到最佳語音識別性能的聲學模型)用于更新基本顧客簡介。例如可以用在線適應結果以及相關聯的語音特征來更新原來的沒有指示任何語言偏好和口音的基本顧客簡介。例如家庭(對應于呼叫者ID)中的女性說話人(語音特征)具有法語口音。可以在將來將這些顧客簡介中的更新過的信息用作與特定類型的說話人相對的默認選擇。
圖5示出根據本發(fā)明的一實施例的使用根據呼叫語境自適應地選擇的詞匯集和聲學模型識別呼叫者的語音的過程的流程圖。首先在動作510接收呼叫。然后在動作520將與呼叫相關的信息從話頻響應系統(tǒng)130發(fā)送至語音識別機構140。在動作530檢測呼叫語境并將其用于在動作540選擇合適的詞匯。根據選擇的詞匯和檢測到的呼叫語境,在動作550識別合適的聲學模型。在動作560,自動語音識別器160用這些選擇的詞匯的聲學模型對呼叫者的語音進行語音識別。
圖6為詞匯自適應機構160根據本發(fā)明的一實施例在呼叫語境的基礎上動態(tài)地選擇合適詞匯的過程的示例流程圖。在動作610接收與呼叫相關的信息。根據呼叫信息,可以在動作620檢索顧客簡介。在動作630從呼叫信息和顧客簡介中檢測到呼叫語境并相應地在動作640選擇合適的詞匯。然后在步驟650將選擇的詞匯與呼叫語境一起發(fā)送至聲學模型自適應機構170。
圖7為根據本發(fā)明的實施例聲學模型自適應機構在呼叫語境的基礎上相對于一詞匯集動態(tài)地選擇合適的聲學模型的過程的示例流程圖。首先在動作710接收呼叫語境和選擇的詞匯。在動作720使用呼叫語境分析相關的顧客信息。必要時,在動作730確定呼叫者的語音特征。在步驟740選擇適于給定詞匯和呼叫語境(包括在傳輸過程中檢測到的語音特征)的聲學模型。
圖8為根據本發(fā)明的一實施例按照語音識別性能在傳輸過程中自適應地調節(jié)詞匯集和語音識別的聲學模型的過程的示例流程圖。首先在步驟810檢索自適應地選擇的詞匯集和聲學模型,然后在動作820將其用于識別來自呼叫者的語音。在識別過程中生成性能測量值,并在步驟830將其用于評估識別性能。如果評估指示在動作840確定的識別期間達到高置信度,則繼續(xù)將當前的詞匯集和聲學模型用于正在進行的講話。否則,在動作850重新選擇可提高識別性能的詞匯和聲學模型。將與重新選擇相關的信息(例如新選擇的詞匯和聲學模型)用于更新基本的顧客簡介。該模型自適應過程可以持續(xù)到通話結束。
當參照某些所示實施例描述本發(fā)明時,所用的詞語是描述的詞語而非限定的詞語。在此方面不偏離本發(fā)明的范圍和精神的情況下,可以在所附權利要求的范圍內作出修改。雖然本發(fā)明是參照特定結構、動作和材料進行描述的,本發(fā)明不限于所揭示的細節(jié),而是可以以各種形式得以體現,其中一些可與揭示的實施例中的那些非常不同,并擴展到所附權利要求范圍內的所有等同的結構、動作和材料。
權利要求
1.一種方法,其特征在于,包括從與顧客相關聯的呼叫者接收呼叫;發(fā)送與該呼叫相關聯的呼叫信息;根據所述呼叫信息檢測與呼叫相關聯的呼叫語境;根據所述呼叫語境選擇至少一個詞匯集;為基于呼叫語境的至少一個詞匯集中的各個詞匯識別至少一個聲學模型;及用至少一個詞匯集和至少一個聲學模型識別呼叫的語音內容。
2.如權利要求1所述的方法,其特征在于,所述至少一個詞匯集至少包括下列中的一些特定語言的數字詞匯,特定語言的字母詞匯,特定語言的單詞詞匯,和特定語言的一般詞匯;和表示相對特定詞匯集的特定口音的至少一個聲學模型。
3.如權利要求2所述的方法,其特征在于,所述呼叫語境至少包括下列中的一些與呼叫相關聯的地理信息包括表示呼叫發(fā)出的地理區(qū)域的區(qū)域代碼,表示呼叫發(fā)出的地理區(qū)域的交換碼,或表示呼叫者發(fā)出呼叫的電話的呼叫者標識碼;與顧客相關聯的顧客信息,包括表示顧客發(fā)出呼叫所用帳戶的帳號,與該帳戶相關聯的呼叫者標識碼;顧客特征;或用于評估聲音特征的在傳輸過程中的聲音采樣。
4.如權利要求3所述的方法,其特征在于,所述與顧客相關聯的顧客特征至少包括下列中的一些至少一個與顧客相關聯的呼叫者的性別;至少一個呼叫者偏好的零種或多種通信語言;或相對于至少一個呼叫者的偏好語言的講話口音。
5.如權利要求4所述的方法,其特征在于,所述檢測呼叫語境至少包括下列中的一些從與呼叫相關聯的相關呼叫信息中提取呼叫的地理信息;從與顧客發(fā)出呼叫所用的帳號相對應的顧客簡介中標識顧客信息;或根據顧客的語音識別顧客的特征。
6.如權利要求1所述的方法,其特征在于,還包括評估所述識別的性能;根據所述評估重新選擇與所述識別的較佳性能相應的詞匯和聲學模型中的至少一些。
7.一種用于選擇合適詞匯的方法,其特征在于,包括接收有關由與顧客相關聯的呼叫者發(fā)出的呼叫的呼叫信息;如果呼叫信息提供合適的標識,則檢索用合適的標識訪問的顧客簡介以獲取顧客信息;根據呼叫信息和顧客信息檢測與呼叫相關聯的呼叫語境;以及根據呼叫語境選擇合適的詞匯。
8.如權利要求7所述的方法,其特征在于,所述檢測包括從呼叫信息中提取地理或顧客信息;從顧客簡介中獲取顧客信息;或根據呼叫者的語音檢測呼叫者的特征。
9.一種用于選擇合適的聲學模型的方法,其特征在于,包括接收有關由與顧客相關聯的呼叫者發(fā)出的呼叫的呼叫語境和詞匯;并根據呼叫語境選擇關于詞匯的至少的一個聲學模型。
10.如權利要求9所述的方法,其特征在于,所述選擇至少包括下列中的一些分析包含在呼叫境中的相關顧客信息;并確定來自呼叫者的講話的呼叫者的語音特征。
11.一種用于自適應地調節(jié)詞匯和聲學模型選擇的方法,其特征在于,包括用至少一個詞匯集和至少一個相關聯的根據與呼叫者的呼叫相關的呼叫語境選擇的聲學模型對呼叫者的語音進行語音識別;對至少一個詞匯集及與其相關聯的每一個聲學模型的語音識別的性能進行評估;和根據評估的語音識別性能重新選擇更新的詞匯或更新的聲學模型,以使用更新的詞匯和更新的聲學模型進行語音識別。
12.如權利要求11所述的方法,其特征在于,還包括根據更新的聲學模型更新與呼叫者相關聯的顧客簡介。
13.一種系統(tǒng),其特征在于,包括發(fā)出呼叫的呼叫者;和語音識別機構,用于根據與呼叫及呼叫者相關聯的呼叫語境用至少一個詞匯集和至少一個自適應地選擇的聲學模型識別呼叫者的語音。
14.如權利要求13所述的系統(tǒng),其特征在于,所述語音識別機構包括詞匯自適應機構,用于檢測呼叫語境并根據檢測到的呼叫語境自適應地選擇至少一個詞匯集;聲學模型自適應機構,用于動態(tài)地選擇至少一個適應所述呼叫語境的聲學模型和呼叫者,從而優(yōu)化語音識別機構的性能;自動語音識別器,用于用至少一個詞匯集和至少一個聲學模型對呼叫者的語音進行語音識別。
15.一種詞匯選擇機構,其特征在于,包括呼叫語境檢測機構,用于根據與來自呼叫者的呼叫相關聯的相關信息檢測呼叫語境;以及詞匯選擇機構,用于根據呼叫語境選擇合適的詞匯。
16.如權利要求15所述的機構,其特征在于,所述呼叫語境檢測機構根據至少下列之一檢測呼叫語境與呼叫相關聯的地理信息;來自與呼叫者相關聯的顧客簡介的顧客信息;以及從呼叫者的語音中識別出的與呼叫者相關的聲音特征。
17.一種聲學模型自適應機構,其特征在于,包括聲學模型選擇機構,用于根據呼叫者發(fā)出的呼叫的呼叫語境自適應地選擇至少一個聲學模型;以及自適應機構,用于根據自動語音識別器的性能動態(tài)地更新由聲學模型選擇機構作出的聲學模型選擇,以生成更新的聲學模型。
18.如權利要求17所述的機構,其特征在于,所述自適應機構根據更新的聲學模型更新與呼叫者相關聯的顧客簡介。
19.一種用數據編碼的機器可訪問媒體,其特征在于,當訪問所述數據時,會引起接收來自與顧客相關聯的呼叫者的呼叫;發(fā)送與所述呼相關聯的相關呼叫信息;根據所述呼叫信息檢測與呼叫相關的呼叫語境;根據所述呼叫語境選擇至少一個詞匯集;根據所述呼叫語境為至少一個詞匯集中的每一個標識至少一個聲學模型;以及用所述至少一個詞匯集和至少一個聲學模型識別呼叫的語音內容。
20.如權利要求19所述的媒體,其特征在于,所述至少一個詞匯集包括下列中的至少一些特定語言的數字詞匯,特定語言的字母詞匯,特定語言的單詞詞匯,以及特定語言的一般詞匯;以及至少一個表示相對特定詞匯集的特定口音的至少一個聲學模型。
21.如權利要求20所述的方法,其特征在于,所述呼叫語境至少包括下列中的一些與呼叫相關聯的地理信息,包括表示呼叫發(fā)出的地理區(qū)域的區(qū)域代碼,表示呼叫發(fā)出的地理區(qū)域的交換碼,或表示呼叫者發(fā)出呼叫的電話的呼叫者標識碼;與顧客相關聯的顧客信息,包括表示顧客發(fā)出呼叫所用帳戶的帳號,與該帳戶相關聯的呼叫者標識碼;或顧客特征。
22.如權利要求21所述的方法,其特征在于,所述與顧客相關聯的顧客特征至少包括下列中的一些至少一個與顧客相關聯的呼叫者的性別;至少一個呼叫者偏好的零種或多種通信語言;或相對于至少一個呼叫者的偏好語言的講話口音。
23.如權利要求22所述的方法,其特征在于,所述檢測呼叫語境至少包括下列中的一些從與呼叫相關聯的相關呼叫信息中提取呼叫的地理信息;從與顧客發(fā)出呼叫所用的帳號相對應的顧客簡介中標識顧客信息;或根據顧客的語音識別顧客的特征。
24.如權利要求19所述的方法,其特征在于,還包括評估所述識別的性能;根據所述評估重新選擇與所述識別的較佳性能相應的詞匯和聲學模型中的至少一些。
25.一種用于選擇合適詞匯的用數據編碼的機器可訪問媒體,其特征在于,當訪問所述數據時,會引起接收有關由與顧客相關聯的呼叫者發(fā)出的呼叫的呼叫信息;如果呼叫信息提供合適的標識,則檢索用合適的標識評估的顧客簡介以獲取顧客信息;根據呼叫信息和顧客信息檢測與呼叫相關聯的呼叫語境;以及根據呼叫語境選擇合適的詞匯。
26.如權利要求25所述的媒體,其特征在于,所述檢測包括從呼叫信息中提取地理或顧客信息;從顧客簡介中獲取顧客信息;或根據呼叫者的語音檢測呼叫者的特征。
27.一種用于選擇合適聲學模型的用數據編碼的機器可訪問媒體,其特征在于,當訪問所述數據時,會引起接收有關由與顧客相關聯的呼叫者發(fā)出的呼叫的呼叫語境和詞匯;并根據呼叫語境選擇關于詞匯的至少的一個聲學模型。
28.如權利要求27所述的媒體,其特征在于,所述選擇至少包括下列中的一些分析包含在呼叫語境中的相關顧客信息;并確定來自呼叫者的講話的呼叫者的語音特征。
29.一種用于自適應地調整詞匯和聲學模型選擇的用數據編碼的機器可訪問媒體,其特征在于,當訪問所述數據時,會引起用至少一個詞匯集和至少一個相關聯的根據與呼叫者的呼叫相關的呼叫語境選擇的聲學模型對呼叫者的語音進行語音識別;對至少一個詞匯集及與其相關聯的每一個聲學模型的語音識別的性能進行評估;以及根據評估的語音識別性能重新選擇更新的詞匯或更新的聲學模型,以使用更新的詞匯和更新的聲學模型進行語音識別。
30.如權利要求29所述的媒體系統(tǒng),其特征在于,當訪問所述數據時,還會引起根據更新的聲學模型更新與呼叫者相關聯的顧客簡介。
全文摘要
根據用于語音識別的呼叫語境為詞匯和聲學模型的動態(tài)的和適應性的選擇提供的一種安排。當接收到來自與顧客相關聯的呼叫者的呼叫時,發(fā)送與呼叫相關聯的相關呼叫信息并將其用為檢測呼叫語境。根據該呼叫語境選擇至少一個詞匯集(230)。根據呼叫語境識別與各選擇的詞匯相關的聲學模型(270)。然后將詞匯和聲學模型用于(150,170)識別來自呼叫者的呼叫的講話內容。
文檔編號G10L15/26GK1659624SQ03812763
公開日2005年8月24日 申請日期2003年3月26日 優(yōu)先權日2002年4月5日
發(fā)明者S·馬扎 申請人:英特爾公司