本公開(kāi)涉及用于語(yǔ)音識(shí)別的基于聲學(xué)和域的方法。
背景技術(shù):
語(yǔ)音識(shí)別系統(tǒng)可以將可聽(tīng)見(jiàn)的聲音解釋成從車(chē)輛乘客發(fā)起的命令、指令或信息。當(dāng)環(huán)境噪聲覆蓋掉語(yǔ)音時(shí),可能難以辨別語(yǔ)音。車(chē)輛狀態(tài)信息可用于改善語(yǔ)音的識(shí)別。然而,在特定情況下車(chē)輛狀態(tài)信息可能妨礙準(zhǔn)確的語(yǔ)音識(shí)別。
技術(shù)實(shí)現(xiàn)要素:
一種用于車(chē)輛的語(yǔ)音識(shí)別系統(tǒng)包括:處理器,被配置為經(jīng)由特定域語(yǔ)言模型和聲學(xué)模型識(shí)別語(yǔ)音,并被配置為:響應(yīng)于所述聲學(xué)模型具有的針對(duì)識(shí)別的語(yǔ)音的置信度落入相對(duì)于所述特定域語(yǔ)言模型的置信度而定義的預(yù)定范圍內(nèi),僅經(jīng)由所述聲學(xué)模型識(shí)別語(yǔ)音。
一種語(yǔ)音識(shí)別系統(tǒng)包括:處理器,被配置為具有特定域語(yǔ)言模型和聲學(xué)模型,并被配置為:響應(yīng)于接收到包含語(yǔ)音的信號(hào),使用被饋入車(chē)輛狀態(tài)輸入的機(jī)器學(xué)習(xí)算法產(chǎn)生特定域置信度,并基于特定域置信度與聲學(xué)模型置信度的合成而選擇與特定域語(yǔ)言模型和聲學(xué)模型的潛在結(jié)果關(guān)聯(lián)的多個(gè)語(yǔ)音識(shí)別路徑中的一個(gè)。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,被饋入車(chē)輛狀態(tài)輸入的機(jī)器學(xué)習(xí)算法是人工神經(jīng)網(wǎng)絡(luò)。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,用于被饋入車(chē)輛狀態(tài)輸入的機(jī)器學(xué)習(xí)算法的車(chē)輛狀態(tài)輸入包括天氣狀況或交通狀況。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,用于被饋入車(chē)輛狀態(tài)輸入的機(jī)器學(xué)習(xí)算法的車(chē)輛狀態(tài)輸入包括在車(chē)輛接近度內(nèi)的移動(dòng)裝置。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,用于被饋入車(chē)輛狀態(tài)輸入的機(jī)器學(xué)習(xí)算法的車(chē)輛狀態(tài)輸入包括會(huì)話(huà)歷史。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,處理器還被配置為具有解碼器算法以確定聲學(xué)模型置信度。
一種語(yǔ)音識(shí)別方法包括:通過(guò)處理器,執(zhí)行根據(jù)從多個(gè)識(shí)別假設(shè)中選擇的識(shí)別假設(shè)而從包含語(yǔ)音的信號(hào)中識(shí)別的車(chē)輛命令,其中,每個(gè)識(shí)別假設(shè)是基于包括多個(gè)特定域語(yǔ)言模型置信度中的一個(gè)和多個(gè)聲學(xué)模型置信度中的一個(gè)的共同的語(yǔ)音域?qū)Φ某朔e的,所述多個(gè)特定域語(yǔ)言模型置信度是根據(jù)將機(jī)器學(xué)習(xí)算法應(yīng)用于車(chē)輛狀態(tài)輸入而被推導(dǎo)出的。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,機(jī)器學(xué)習(xí)算法是人工神經(jīng)網(wǎng)絡(luò)。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,人工神經(jīng)網(wǎng)絡(luò)具有與車(chē)輛命令相關(guān)的輸出。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述方法還包括:基于所述多個(gè)聲學(xué)模型置信度中的所述一個(gè)落入相對(duì)于所述多個(gè)特定域語(yǔ)言模型置信度中的所述一個(gè)而定義的預(yù)定范圍內(nèi),在產(chǎn)生所述乘積之前按比例減小所述多個(gè)特定域語(yǔ)言模型置信度中的所述一個(gè)。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述車(chē)輛狀態(tài)輸入包括天氣或交通。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述車(chē)輛狀態(tài)輸入包括在車(chē)輛接近度內(nèi)的移動(dòng)裝置。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述車(chē)輛狀態(tài)輸入包括會(huì)話(huà)歷史。
附圖說(shuō)明
圖1是描繪具有自動(dòng)語(yǔ)音識(shí)別系統(tǒng)的車(chē)輛的示例的示意圖;
圖2是描繪自動(dòng)語(yǔ)音識(shí)別系統(tǒng)的示例的示意圖;
圖3是自動(dòng)語(yǔ)音識(shí)別系統(tǒng)的流程圖;
圖4是具有一種以上的聲學(xué)模型假設(shè)的自動(dòng)語(yǔ)音識(shí)別系統(tǒng)的流程圖;
圖5是具有針對(duì)聲學(xué)模型和特定域語(yǔ)言模型的置信度(confidencescore)的示例值的示圖;
圖6是用于確定特定域語(yǔ)言模型的置信度的機(jī)器學(xué)習(xí)算法。
具體實(shí)施方式
在此描述了本公開(kāi)的實(shí)施例。然而,應(yīng)該理解的是,所公開(kāi)的實(shí)施例僅僅是示例,并且其它實(shí)施例可采用各種替代形式。附圖不必按比例繪制;可夸大或最小化一些特征以示出特定組件的細(xì)節(jié)。因此,在此公開(kāi)的具體結(jié)構(gòu)和功能細(xì)節(jié)不應(yīng)被解釋為具有限制性,而僅僅作為用于教導(dǎo)本領(lǐng)域技術(shù)人員以多種方式利用本發(fā)明的代表性基礎(chǔ)。本領(lǐng)域普通技術(shù)人員將理解的是,參照任一附圖示出并描述的各種特征可與在一個(gè)或更多個(gè)其它附圖中示出的特征相結(jié)合,以產(chǎn)生未被明確示出或描述的實(shí)施例。示出的特征的組合提供用于典型應(yīng)用的代表性實(shí)施例。然而,針對(duì)特定應(yīng)用或?qū)嵤┓绞?,可期望與本公開(kāi)的教導(dǎo)一致的特征的各種組合和修改。
自動(dòng)或手動(dòng)的語(yǔ)音識(shí)別已經(jīng)成為現(xiàn)代車(chē)輛中的重要的附件功能。語(yǔ)音識(shí)別可在車(chē)輛和乘客之間提供免提輸入和交互。各種類(lèi)型的車(chē)輛可利用語(yǔ)音識(shí)別。例如,飛行器、水運(yùn)工具、航天器或陸基車(chē)輛可受益于識(shí)別來(lái)自乘客的語(yǔ)音指令。這些車(chē)輛可包括可使用人機(jī)界面訪問(wèn)或調(diào)用的多個(gè)功能。人機(jī)界面可包括自動(dòng)語(yǔ)音識(shí)別系統(tǒng),自動(dòng)語(yǔ)音識(shí)別系統(tǒng)將人類(lèi)語(yǔ)音解碼或翻譯成車(chē)輛或輔助系統(tǒng)能夠理解的指令。來(lái)自車(chē)輛系統(tǒng)或環(huán)境的環(huán)境噪聲可降低利用聲學(xué)模型的自動(dòng)語(yǔ)音識(shí)別系統(tǒng)的準(zhǔn)確度。
一個(gè)麥克風(fēng)或多個(gè)麥克風(fēng)可用于將來(lái)自乘客的聲音轉(zhuǎn)換成電信號(hào)。麥克風(fēng)可位于乘客的移動(dòng)裝置中或者遍布于車(chē)輛中。麥克風(fēng)可將接收到的聲音信號(hào)轉(zhuǎn)換成數(shù)字語(yǔ)音數(shù)據(jù),并在通信總線上發(fā)送該數(shù)據(jù),或者移動(dòng)裝置可將數(shù)字語(yǔ)音數(shù)據(jù)發(fā)送給車(chē)輛的通信總線。移動(dòng)裝置可經(jīng)由有線連接或無(wú)線連接(例如,藍(lán)牙、wi-fi、zigbee、以太網(wǎng)等)連接到車(chē)輛數(shù)據(jù)總線。語(yǔ)音識(shí)別服務(wù)器、處理器、控制器或系統(tǒng)可位于本地、位于車(chē)輛中或者位于遠(yuǎn)處的數(shù)據(jù)中心。本地語(yǔ)音識(shí)別服務(wù)器可連接到通信總線以接收數(shù)字語(yǔ)音數(shù)據(jù)。對(duì)于遠(yuǎn)程的服務(wù)器,車(chē)輛遠(yuǎn)程信息處理單元可用作車(chē)輛與語(yǔ)音識(shí)別服務(wù)器之間的接口。語(yǔ)音識(shí)別系統(tǒng)可將從車(chē)輛附近或內(nèi)部的乘客接收的語(yǔ)音發(fā)送到本地識(shí)別服務(wù)器或遠(yuǎn)程識(shí)別服務(wù)器。然后服務(wù)器可將識(shí)別后的語(yǔ)音發(fā)送回車(chē)輛。
服務(wù)器可被配置為向任意數(shù)量的客戶(hù)端發(fā)送數(shù)據(jù)和接收來(lái)自任意數(shù)量的客戶(hù)端的數(shù)據(jù)。服務(wù)器可連接到作為服務(wù)器數(shù)據(jù)的存儲(chǔ)庫(kù)的數(shù)據(jù)集市(datamart)、數(shù)據(jù)存儲(chǔ)區(qū)或數(shù)據(jù)倉(cāng)庫(kù)。任意數(shù)量的客戶(hù)端都可將信息輸入到數(shù)據(jù)存儲(chǔ)區(qū)中,以便提供增強(qiáng)且準(zhǔn)確的語(yǔ)音識(shí)別。語(yǔ)音識(shí)別處理可位于經(jīng)由互聯(lián)網(wǎng)可訪問(wèn)的服務(wù)器上或位于車(chē)輛自身內(nèi)。
語(yǔ)音識(shí)別系統(tǒng)可被配置為將識(shí)別的語(yǔ)音自動(dòng)轉(zhuǎn)換成可讀文本或機(jī)器代碼。現(xiàn)代的語(yǔ)音識(shí)別系統(tǒng)可使用多個(gè)識(shí)別模型的組合來(lái)識(shí)別語(yǔ)音。一種類(lèi)型的模型可源于具有可識(shí)別的詞語(yǔ)或短語(yǔ)的列表的詞庫(kù)。另一種類(lèi)型的模型可源于對(duì)包含在音頻信號(hào)中的聲學(xué)性質(zhì)的統(tǒng)計(jì)分析。這些語(yǔ)音識(shí)別系統(tǒng)可被實(shí)現(xiàn)在車(chē)輛中以通過(guò)使用本領(lǐng)域已知的解碼器算法來(lái)識(shí)別乘客指令或通信。
車(chē)輛可使用語(yǔ)音識(shí)別來(lái)向乘客確定期望的車(chē)輛行為。例如,語(yǔ)音識(shí)別可指示車(chē)輛使車(chē)輛車(chē)廂冷卻下來(lái)或者呼叫親近的朋友。語(yǔ)音識(shí)別可在不需要用戶(hù)輸入的情況下提供期望目的地的指示或關(guān)于期望路線的指令。
車(chē)輛可包括能夠匯集相關(guān)狀態(tài)輸入以改善語(yǔ)音識(shí)別的特定域語(yǔ)言模型。自動(dòng)語(yǔ)音識(shí)別系統(tǒng)可使用先前學(xué)習(xí)的統(tǒng)計(jì)模型或?qū)崟r(shí)學(xué)習(xí)的統(tǒng)計(jì)模型來(lái)預(yù)測(cè)更準(zhǔn)確地確定乘客的語(yǔ)音的特定域語(yǔ)音識(shí)別模型。對(duì)相關(guān)狀態(tài)輸入的統(tǒng)計(jì)分析可使得自動(dòng)語(yǔ)音識(shí)別系統(tǒng)能夠縮小聲學(xué)模型的搜索范圍或詞庫(kù)模型的搜索范圍。
狀態(tài)輸入可包括發(fā)動(dòng)機(jī)狀態(tài)信息、加熱、通風(fēng)或冷卻的狀態(tài)、車(chē)輛運(yùn)動(dòng)狀態(tài)、外部或內(nèi)部的指示符狀態(tài)、車(chē)窗雨刷器狀態(tài)、環(huán)境狀況信息、車(chē)窗位置或車(chē)門(mén)位置、車(chē)廂聲音、座椅位置或由車(chē)輛計(jì)算機(jī)接收的其它車(chē)輛信息。狀態(tài)輸入還可包括信息娛樂(lè)系統(tǒng)狀態(tài)、會(huì)話(huà)歷史、天氣、位置、交通、便攜式裝置或可用于改善語(yǔ)音識(shí)別的任何其它信息。狀態(tài)輸入可包括在車(chē)輛接附近的漫游裝置或移動(dòng)裝置。這些狀態(tài)輸入可與車(chē)輛命令或車(chē)輛系統(tǒng)相關(guān)。
可通過(guò)由車(chē)輛的處理器或控制器或者遠(yuǎn)程服務(wù)器執(zhí)行的多個(gè)統(tǒng)計(jì)處理、機(jī)器學(xué)習(xí)算法(mla)或人工神經(jīng)網(wǎng)絡(luò)(ann)來(lái)獲得特定域的置信度。例如,控制器可將指示特定域的相關(guān)狀態(tài)輸入的數(shù)量相加,并將得到的和除以可用狀態(tài)輸入的總數(shù)以返回特定域的置信度。作為統(tǒng)計(jì)處理的另一示例,控制器可對(duì)被確定為對(duì)縮小預(yù)期的特定域模型特別有用的特定的相關(guān)狀態(tài)輸入進(jìn)行加權(quán)。可被加權(quán)的相關(guān)狀態(tài)輸入可以是車(chē)輛速度。由于處于交通堵塞中的人可能對(duì)尋找方向感興趣,因此,與低的車(chē)輛速度相關(guān)的狀態(tài)輸入可被賦予比其它的與較高的車(chē)輛速度相關(guān)的狀態(tài)輸入更高的優(yōu)先級(jí)。gps也可以是交通堵塞或其它基于云的數(shù)據(jù)的指示符。被賦予高優(yōu)先級(jí)的第二狀態(tài)輸入可以是極限溫度指示符。暴露在極限溫度下的車(chē)輛可能需要與內(nèi)部氣候控制相關(guān)的高置信度。系統(tǒng)可能會(huì)給極限溫度狀態(tài)輸入分配高置信度??梢允褂帽绢I(lǐng)域技術(shù)人員已知的用于確定特定域的置信度的任何其它方法。可通過(guò)相當(dāng)多的本領(lǐng)域已知的多種方法來(lái)獲得聲學(xué)置信度。mla可應(yīng)用于基于反饋或者在工廠中執(zhí)行的或在道路上更新的一系列算法來(lái)調(diào)節(jié)特定域的置信度和輸出。ann可應(yīng)用于基于輸入層、隱藏層和輸出層來(lái)調(diào)節(jié)特定域的置信度和輸出。所述多個(gè)層可被配置為將狀態(tài)輸入映射到相關(guān)的特定域語(yǔ)言模型。
置信度或置信測(cè)度通過(guò)數(shù)值方法或統(tǒng)計(jì)方法來(lái)指示語(yǔ)音或參數(shù)的準(zhǔn)確識(shí)別或精確識(shí)別的概率或可能性。例如,置信度可指示聲學(xué)模型已識(shí)別語(yǔ)音的準(zhǔn)確度的水平。這些方法是本領(lǐng)域所公知的并且在不斷演進(jìn)。置信度可指示針對(duì)給定語(yǔ)音識(shí)別的最相關(guān)的域。
但是,特定域模型可以為語(yǔ)音識(shí)別提供提高的準(zhǔn)確度。特定域模型通常在噪聲環(huán)境中提供增強(qiáng)的語(yǔ)音識(shí)別,原因在于,聲學(xué)模型識(shí)別或詞庫(kù)模型識(shí)別可能由于環(huán)境噪聲而具有低的置信度。特定域模型通過(guò)經(jīng)由分析車(chē)輛的相關(guān)狀態(tài)輸入來(lái)針對(duì)特定域定制識(shí)別,降低了識(shí)別效果差的概率。特定域模型可攔截、取代在其它方面具有高準(zhǔn)確度水平的聲學(xué)模型識(shí)別或詞庫(kù)模型識(shí)別或侵占在其它方面具有高準(zhǔn)確度水平的聲學(xué)模型識(shí)別或詞庫(kù)模型識(shí)別的位置。特定域模型的絕對(duì)應(yīng)用可能導(dǎo)致在其它方面能滿(mǎn)足需要的聲學(xué)模型或詞庫(kù)模型的位置被特定域模型侵占。語(yǔ)音識(shí)別系統(tǒng)可使用置信度來(lái)防止特定域模型的過(guò)度使用。
參照?qǐng)D1,車(chē)輛102可包括遠(yuǎn)程信息處理控制單元108、動(dòng)力傳動(dòng)系統(tǒng)控制模塊104-a、車(chē)身控制模塊104-b、無(wú)線電收發(fā)器模塊104-c、通信與娛樂(lè)單元104-d、氣候控制管理模塊104-e、gps模塊104-f和用戶(hù)界面模塊104-g。車(chē)輛102可通過(guò)網(wǎng)絡(luò)116以通信方式連接到語(yǔ)音識(shí)別服務(wù)器118,語(yǔ)音識(shí)別服務(wù)器118具有用于保持評(píng)級(jí)數(shù)據(jù)的數(shù)據(jù)存儲(chǔ)區(qū)120。網(wǎng)絡(luò)116可以是本地控制器局域網(wǎng)、蜂窩網(wǎng)絡(luò)或互聯(lián)網(wǎng)。數(shù)據(jù)可利用無(wú)線協(xié)議(802.11、藍(lán)牙、gsm或cdma)或有線協(xié)議通過(guò)任何物理介質(zhì)來(lái)傳輸。數(shù)據(jù)可形成為數(shù)據(jù)包并具有得到保證的傳遞(tcp)。數(shù)據(jù)可利用sql數(shù)據(jù)庫(kù)或其它類(lèi)似的關(guān)系數(shù)據(jù)庫(kù)架構(gòu)被存儲(chǔ)在數(shù)據(jù)存儲(chǔ)區(qū)120中。遠(yuǎn)程信息處理控制單元108可包括處理器110和調(diào)制解調(diào)器114,以識(shí)別語(yǔ)音。所述處理器可用于打包數(shù)據(jù)以傳輸?shù)椒?wù)器118或者獨(dú)自識(shí)別語(yǔ)音。麥克風(fēng)122可用于將聲學(xué)信號(hào)轉(zhuǎn)換成數(shù)字電信號(hào)或模擬電信號(hào)。麥克風(fēng)可連接到模塊104或遠(yuǎn)程信息處理控制單元108中的一個(gè),以允許對(duì)信號(hào)進(jìn)行自動(dòng)語(yǔ)音識(shí)別。揚(yáng)聲器124可用于向車(chē)輛的乘客提供指示。
參照?qǐng)D2,描繪了自動(dòng)語(yǔ)音識(shí)別系統(tǒng)200的示意性示例。音頻信號(hào)202是從車(chē)輛的麥克風(fēng)122或移動(dòng)裝置接收的。音頻信號(hào)202可包括環(huán)境噪聲。聲學(xué)特征被提取以形成聲學(xué)模型204。一前一后或按順序地,特定域的統(tǒng)計(jì)模型206可應(yīng)用于相關(guān)狀態(tài)輸入208以執(zhí)行域預(yù)測(cè)和重排序210。特定域語(yǔ)言模型212可使用識(shí)別的特定域212a至212e來(lái)形成。識(shí)別假設(shè)214可通過(guò)利用特定域語(yǔ)言模型212、聲學(xué)模型204和詞庫(kù)模型216來(lái)被確定。
參照?qǐng)D3,流程圖300描繪了用于語(yǔ)音識(shí)別的算法。步驟可被同時(shí)執(zhí)行或依次執(zhí)行。在步驟302,監(jiān)測(cè)狀態(tài)輸入。狀態(tài)輸入可被分配真/假指示符或開(kāi)/關(guān)指示符。在步驟304,可使用狀態(tài)輸入來(lái)確定域預(yù)測(cè)和排序。在步驟306,利用域預(yù)測(cè)和排序算法來(lái)確定特定域置信度。在步驟308,處理器可從車(chē)輛接收音頻信號(hào)。在步驟310,處理器可確定聲學(xué)模型的語(yǔ)音假設(shè)。在步驟312,聲學(xué)模型的置信度根據(jù)聲學(xué)模型的語(yǔ)音假設(shè)被推導(dǎo)出來(lái)或者被獨(dú)立地確定。在步驟314,處理器可確定聲學(xué)置信度是否大于特定域置信度。如果確定聲學(xué)置信度大于特定域置信度,則如步驟316所示,將利用聲學(xué)模型產(chǎn)生語(yǔ)音假設(shè)。如果確定聲學(xué)置信度小于特定域置信度,則如步驟318所示,將利用特定域模型和聲學(xué)模型兩者產(chǎn)生語(yǔ)音假設(shè)。與步驟314所示的比較置信度的大小不同,在步驟314,當(dāng)聲學(xué)模型的置信度落入相對(duì)于特定域模型的預(yù)定范圍或預(yù)定值內(nèi)時(shí),處理器可替換特定域區(qū)域。例如,如果聲學(xué)置信度是60%并且特定域模型具有40%的置信度,則系統(tǒng)可選擇使用聲學(xué)模型和特定域模型兩者來(lái)產(chǎn)生語(yǔ)音假設(shè)。這是因?yàn)椋鲱A(yù)定范圍或預(yù)定值可等于特定域置信度和聲學(xué)置信度之間的20%的差。如果預(yù)定范圍是20%,聲學(xué)置信度是80%并且特定域置信度是60%,則在步驟314,處理器可做出相同的決定。然而,如果特定域置信度是59%并且聲學(xué)置信度(acousticconfidencescore、acs)是80%,則由于聲學(xué)模型的置信度未落入相對(duì)于特定域置信度的預(yù)定范圍內(nèi)而使得系統(tǒng)可不使用特定域置信度。如果學(xué)習(xí)算法基于用戶(hù)反饋確定了語(yǔ)音識(shí)別算法的大量錯(cuò)誤迭代,則服務(wù)器或車(chē)輛可調(diào)整所述預(yù)定范圍。這意味著預(yù)定范圍可以是acs的函數(shù)、特定域置信度(domain-specificconfidencescore、dscs)的函數(shù)或acs和dscs的函數(shù)。例如,預(yù)定范圍可以是相對(duì)于特定域置信度(dscs)的不同的標(biāo)量聲學(xué)置信度(例如,10%、15%或30%)。預(yù)定范圍(predeterminedrange、pr)還可被計(jì)算為特定域置信度的函數(shù)。例如,預(yù)定范圍可按照等式1表示的等式。
pr=(acs×2)-dscs等式1
參照?qǐng)D4,描繪了用于語(yǔ)音識(shí)別的算法400。在步驟402,語(yǔ)音識(shí)別系統(tǒng)從車(chē)輛接收音頻信號(hào)或數(shù)據(jù)。在步驟404,針對(duì)第一詞語(yǔ)、短語(yǔ)、句子或一系列句子確定第一聲學(xué)模型語(yǔ)音假設(shè)。在步驟406,確定聲學(xué)置信度。在步驟408,監(jiān)測(cè)狀態(tài)輸入以確定域預(yù)測(cè)和排序。在步驟410,確定域預(yù)測(cè)和排序。在步驟412,確定特定域置信度。在步驟414,可通過(guò)第一聲學(xué)模型預(yù)測(cè)和特定域模型預(yù)測(cè)來(lái)確定第二聲學(xué)假設(shè)??赏ㄟ^(guò)使用與以上公開(kāi)的方法相似的方法來(lái)確定第二聲學(xué)假設(shè)的使用。為了確定將被使用的最佳的特定域模型,與特定域模型和第一聲學(xué)模型兩者關(guān)聯(lián)的置信度可以相乘。具有最大的合成置信度的群組可被使用。
參照?qǐng)D5,描繪了具有與潛在結(jié)果關(guān)聯(lián)的多個(gè)潛在識(shí)別路徑的算法500的至少一個(gè)實(shí)施例的示例。每個(gè)識(shí)別路徑都具有第一聲學(xué)模型語(yǔ)音識(shí)別假設(shè)502,第一聲學(xué)模型語(yǔ)音識(shí)別假設(shè)502根據(jù)第一潛在詞語(yǔ)、短語(yǔ)、句子或一系列句子被確定。針對(duì)每個(gè)聲學(xué)模型語(yǔ)音假設(shè)確定置信度。與每個(gè)聲學(xué)假設(shè)相關(guān)的是具有置信度504的特定域語(yǔ)言模型路徑。語(yǔ)音識(shí)別假設(shè)502和特定域語(yǔ)言模型置信度504形成共同的語(yǔ)音域?qū)?。共同的語(yǔ)音域?qū)赏ㄟ^(guò)將聲學(xué)假設(shè)與每個(gè)域的詞庫(kù)相關(guān)聯(lián)來(lái)被識(shí)別。例如,術(shù)語(yǔ)“呼叫”將落入電話(huà)域內(nèi),或者術(shù)語(yǔ)“改變”可落入氣候控制域內(nèi)。為了確定適當(dāng)?shù)恼Z(yǔ)音識(shí)別路徑,在506,第一聲學(xué)模型語(yǔ)音假設(shè)乘以特定域置信度以產(chǎn)生乘積。在508,處理器可選擇排名最高的路徑并使用聲學(xué)模型語(yǔ)音識(shí)別來(lái)對(duì)剩余的音頻樣本執(zhí)行語(yǔ)音識(shí)別。算法500可對(duì)每個(gè)詞語(yǔ)、短語(yǔ)或句子重復(fù)執(zhí)行相似處理以提供改善的語(yǔ)音識(shí)別。算法500可確定特定的車(chē)輛命令或請(qǐng)求動(dòng)作。這些語(yǔ)音識(shí)別迭代可根據(jù)對(duì)特定域模型是否應(yīng)被使用進(jìn)行持續(xù)評(píng)估來(lái)提供增強(qiáng)的語(yǔ)音識(shí)別。
參照?qǐng)D6,描繪了機(jī)器學(xué)習(xí)算法600。機(jī)器學(xué)習(xí)算法600可以是人工神經(jīng)網(wǎng)絡(luò)。機(jī)器學(xué)習(xí)算法600可具有兩個(gè)車(chē)輛狀態(tài)輸入602和604。在一些實(shí)例中,機(jī)器學(xué)習(xí)算法600可匯集車(chē)輛狀態(tài)輸入。機(jī)器學(xué)習(xí)算法600可被饋入(fed)車(chē)輛狀態(tài)輸入。例如,位置狀態(tài)輸入602的值可以是零以表示特定位置。值為零的位置狀態(tài)輸入602可指示車(chē)輛位于擁有者的家中。溫度狀態(tài)輸入604的值可以是負(fù)一以表示車(chē)輛車(chē)廂中的特定溫度狀況。值為負(fù)一的溫度狀態(tài)輸入604可表示溫度小于閾值。額外的車(chē)輛狀態(tài)輸入可被添加。車(chē)輛狀態(tài)輸入602和604可利用不同的特定域語(yǔ)言模型606a至606e中的每個(gè)的加權(quán)因子來(lái)合并。每個(gè)加權(quán)因子在圖6中被指示為從狀態(tài)輸入602和604至特定域語(yǔ)音模型606a至606e中的每個(gè)的傳輸路徑。加權(quán)因子可與狀態(tài)輸入602和604中的每個(gè)相關(guān)聯(lián),并按照等式2所示地被施加給狀態(tài)輸入602和604中的每個(gè),以獲得每個(gè)特定域語(yǔ)言模型的第二層值(secondlayervalue,slv)。
現(xiàn)在描述等式2,通過(guò)狀態(tài)輸入602與特定域語(yǔ)言模型606a箭頭連接來(lái)指示狀態(tài)輸入602si1乘以加權(quán)因子w11。通過(guò)狀態(tài)輸入604與特定域語(yǔ)言模型606a箭頭連接來(lái)指示另一狀態(tài)輸入604si2乘以加權(quán)因子w21。
si1×w11+si2×w21=slv等式2
可以以相似的方式將等式2應(yīng)用于其它的特定域語(yǔ)言模型606b至606e中的每個(gè)。這些加權(quán)值可被調(diào)整以針對(duì)其它域提高系統(tǒng)的準(zhǔn)確度。加權(quán)值可在工廠被設(shè)置或在車(chē)輛使用過(guò)程中被調(diào)整。softmax函數(shù)608被用于使數(shù)據(jù)值進(jìn)行邏輯回歸以針對(duì)特定域模型置信度610a至610e中的每個(gè)確定生成的概率。
在此公開(kāi)的處理、方法或算法可以交付給處理裝置、控制器或計(jì)算機(jī),或者通過(guò)處理裝置、控制器或計(jì)算機(jī)來(lái)實(shí)現(xiàn),其中,所述處理裝置、控制器或計(jì)算機(jī)可包括任何現(xiàn)有的可編程電子控制單元或?qū)S玫碾娮涌刂茊卧?。?lèi)似地,所述處理、方法或算法可以以多種形式被存儲(chǔ)為由控制器或計(jì)算機(jī)可執(zhí)行的數(shù)據(jù)和指令,其中,所述多種形式包括但不限于永久地存儲(chǔ)在非可寫(xiě)存儲(chǔ)介質(zhì)(諸如,rom裝置)上的信息以及可變地存儲(chǔ)在可寫(xiě)存儲(chǔ)介質(zhì)(諸如,軟盤(pán)、磁帶、cd、ram裝置和其它磁介質(zhì)和光學(xué)介質(zhì))上的信息。所述處理、方法或算法也可在軟件可執(zhí)行對(duì)象中被實(shí)現(xiàn)??蛇x地,可使用合適的硬件組件(諸如,專(zhuān)用集成電路(asic)、現(xiàn)場(chǎng)可編程門(mén)陣列(fpga)、狀態(tài)機(jī)、控制器或者其它硬件組件或裝置)或硬件、軟件和固件組件的組合來(lái)整體或部分地實(shí)現(xiàn)所述處理、方法或算法。
說(shuō)明書(shū)中所使用的詞語(yǔ)是描述性詞語(yǔ)而非限制性詞語(yǔ),并且應(yīng)理解的是,可在不脫離本公開(kāi)的精神和范圍的情況下做出各種改變。如前所述,可將各種實(shí)施例的特征進(jìn)行組合以形成本發(fā)明的可能未被明確地描述或示出的進(jìn)一步的實(shí)施例。盡管針對(duì)一個(gè)或更多個(gè)期望特性,各種實(shí)施例已經(jīng)被描述為提供優(yōu)點(diǎn)或優(yōu)于其它實(shí)施例或現(xiàn)有技術(shù)實(shí)施方式,但是本領(lǐng)域的普通技術(shù)人員應(yīng)認(rèn)識(shí)到,根據(jù)特定的應(yīng)用和實(shí)施方式,一個(gè)或更多個(gè)特征或特性可被折衷以實(shí)現(xiàn)期望的整體系統(tǒng)屬性。這些屬性可包括但不限于成本、強(qiáng)度、耐用性、生命周期成本、市場(chǎng)性、外觀、包裝、尺寸、可維護(hù)性、重量、可制造性、裝配的容易性等。因此,被描述為在一個(gè)或更多個(gè)特性方面不如其它實(shí)施例或現(xiàn)有技術(shù)實(shí)施方式滿(mǎn)足期望的實(shí)施例并非在本公開(kāi)的范圍之外,并可被期望用于特定的應(yīng)用。