用于穩(wěn)健語(yǔ)音識(shí)別的變量組件深度神經(jīng)網(wǎng)絡(luò)的制作方法
【專利摘要】提供了用于結(jié)合環(huán)境變量的語(yǔ)音識(shí)別的系統(tǒng)和方法。該系統(tǒng)包括:語(yǔ)音捕捉設(shè)備(202);特征提取模塊(204);環(huán)境變量模塊(206),其中所述環(huán)境變量模塊確定環(huán)境變量的值;以及語(yǔ)音識(shí)別解碼器(208),其中所述語(yǔ)音識(shí)別譯碼器利用深度神經(jīng)網(wǎng)絡(luò)(DNN)來(lái)識(shí)別由所述語(yǔ)音捕捉裝置捕捉的語(yǔ)音,其中所述DNN的一個(gè)或多個(gè)組件被建模為環(huán)境變量的一組函數(shù)。
【專利說(shuō)明】用于穩(wěn)健語(yǔ)音識(shí)別的變量組件深度神經(jīng)網(wǎng)絡(luò)
[0001 ] 背景
[0002] 語(yǔ)音識(shí)別和利用語(yǔ)音識(shí)別技術(shù)的應(yīng)用已變得常見并且越來(lái)越流行。許多這些應(yīng)用 也被納入到個(gè)人計(jì)算機(jī)、膝上型計(jì)算機(jī)、移動(dòng)設(shè)備、以及其它類似類型的裝置中。這些設(shè)備 通常位于不同的地方,或從一個(gè)地方移動(dòng)到另一個(gè)地方。如此,背景噪聲和其它環(huán)境因素將 取決于位置而不同。這些環(huán)境因素中的一些對(duì)語(yǔ)音識(shí)別的質(zhì)量和一致性具有影響。如此,當(dāng) 用戶在不同的位置使用語(yǔ)音識(shí)別應(yīng)用,所識(shí)別語(yǔ)音的質(zhì)量往往較差或不一致。
[0003] 各實(shí)施例正是對(duì)于這些和其它一般考慮事項(xiàng)而做出的。而且,盡管討論了相對(duì)具 體的問題,但是應(yīng)當(dāng)理解,各實(shí)施例不應(yīng)被限于解決本【背景技術(shù)】中所標(biāo)識(shí)的具體問題。
[0004] 概述
[0005] 該技術(shù)涉及用于結(jié)合環(huán)境變量的語(yǔ)音識(shí)別的系統(tǒng)和方法。所述系統(tǒng)和方法捕捉諸 如來(lái)自用戶的語(yǔ)音用于識(shí)別。然后,利用深度神經(jīng)網(wǎng)絡(luò)(DNN)(更具體地是變量組件DNN (VCDNN))來(lái)識(shí)別所述語(yǔ)音。VCDNN通過結(jié)合環(huán)境變量來(lái)處理并識(shí)別所捕捉的語(yǔ)音。環(huán)境變量 可以是取決于環(huán)境條件或用戶、客戶端設(shè)備、以及環(huán)境的關(guān)系的任何變量。例如,所述環(huán)境 變量可以基于環(huán)境噪聲。一種這樣的環(huán)境變量可以是信噪比。其它環(huán)境變量還可包括語(yǔ)音 捕捉設(shè)備離用戶的距離、用戶的語(yǔ)速,講話者的聲道長(zhǎng)度、以何角度接收來(lái)自用戶的語(yǔ)音、 用戶的年齡、或其它類似的變量。環(huán)境變量可利用用戶講話被同時(shí)測(cè)量。
[0006] VCDNN可以不同的方式結(jié)合環(huán)境變量,并且?guī)缀鮀NN的任何組件可被建模作為諸如 環(huán)境變量的多項(xiàng)式函數(shù)之類的一組功能。例如,可利用變量參數(shù)DNN(VPNN),其中加權(quán)矩陣 組件與偏置組件是環(huán)境變量相關(guān)的。在另一個(gè)例子中,可利用變量輸出DNN(VODNN),其中每 個(gè)隱藏層的輸出是環(huán)境變量相關(guān)的。在又一示例中,可利用變量激活DNN(VADNN),其中在 DNN節(jié)點(diǎn)的激活函數(shù)的參數(shù)被建模為環(huán)境變量相關(guān)。在每個(gè)示例中,可計(jì)算變量相關(guān)組件用 于在測(cè)試中被檢測(cè)的環(huán)境條件或在識(shí)別期間使用與它們相關(guān)聯(lián)的多項(xiàng)式函數(shù)來(lái)測(cè)量數(shù)據(jù)。 通過以這樣的方式將環(huán)境變量結(jié)合于DNN,可跨多個(gè)不同的環(huán)境實(shí)現(xiàn)高質(zhì)量語(yǔ)音識(shí)別結(jié)果。
[0007] 提供本概述以便以簡(jiǎn)化的形式介紹將在以下的詳細(xì)描述中進(jìn)一步描述的一些概 念。本
【發(fā)明內(nèi)容】
并不旨在標(biāo)識(shí)出所要求保護(hù)的主題的關(guān)鍵特征或必要特征,也不旨在用于 限定所要求保護(hù)的主題的范圍。
[0008] 附圖簡(jiǎn)述
[0009] 參考以下附圖描述非限制性和非窮盡的實(shí)施例。
[0010] 圖1描繪了用于語(yǔ)音識(shí)別的環(huán)境。
[0011] 圖2描繪了用于語(yǔ)音識(shí)別的系統(tǒng)。
[0012] 圖3示出VPDNN中一層的流程圖。
[0013] 圖4示出V0DNN中一層的框架。
[0014]圖5描繪了 VADNN中一層的流程圖。
[0015] 圖6描繪了用于基于VCDNN的語(yǔ)音識(shí)別的方法。
[0016] 圖7是示出可用來(lái)實(shí)施本公開的各實(shí)施例的計(jì)算設(shè)備的示例物理組件的框圖。
[0017] 圖8A和8B是可用來(lái)實(shí)施本公開的各實(shí)施例的移動(dòng)計(jì)算設(shè)備的簡(jiǎn)化框圖。
[0018] 圖9是可在其中實(shí)施本公開的各實(shí)施例的分布式計(jì)算系統(tǒng)的簡(jiǎn)化框圖。
[0019] 圖10示出用于執(zhí)行本公開的一個(gè)或多個(gè)實(shí)施例的平板計(jì)算設(shè)備。
[0020] 詳細(xì)描述
[0021] 在下面的詳細(xì)描述中,參考構(gòu)成其一部分的附圖,在附圖中,通過例圖,示出了具 體的實(shí)施例或示例??蓪⑦@些方面組合起來(lái),也可利用其它方面,并且可作出結(jié)構(gòu)上的改變 而不背離本公開的精神或范圍。因此,下面的【具體實(shí)施方式】不應(yīng)以限制性的意義來(lái)理解,而 是本公開的范圍是由所附權(quán)利要求及其等效方案來(lái)定義的。
[0022] 本公開一般涉及改進(jìn)語(yǔ)音識(shí)別的穩(wěn)健性。在某種程度上,本公開涉及跨多種環(huán)境 改進(jìn)語(yǔ)音識(shí)別。例如,語(yǔ)音識(shí)別結(jié)果的質(zhì)量通常在安靜環(huán)境和有噪聲的環(huán)境之間變化。本公 開提供通過將環(huán)境變量納入深度神經(jīng)網(wǎng)絡(luò)(DNN)的組件以供語(yǔ)音識(shí)別系統(tǒng)中使用來(lái)提供跨 多個(gè)環(huán)境的較高質(zhì)量結(jié)果的系統(tǒng)和方法。這樣的語(yǔ)音識(shí)別系統(tǒng)和方法可在本文中被稱為 "噪聲穩(wěn)健"語(yǔ)音識(shí)別系統(tǒng)和方法。
[0023] 先前對(duì)于創(chuàng)建噪聲穩(wěn)健的語(yǔ)音識(shí)別系統(tǒng)的嘗試(盡管不斷地比它們的前代產(chǎn)品更 好)仍然留有改進(jìn)的余地。例如,利用上下文相關(guān)的深度神經(jīng)網(wǎng)絡(luò)隱式馬爾可夫模型(CD-DNN-HMM)的系統(tǒng)已在自動(dòng)語(yǔ)音識(shí)別上顯示出對(duì)傳統(tǒng)高斯混合模型(GMM-HMM)的優(yōu)越性。對(duì) 于這兩種DNN-HMM和GMM-HMM系統(tǒng),基于模型的噪聲穩(wěn)健的方法是包括用于訓(xùn)練數(shù)據(jù)的在各 種條件下的噪聲語(yǔ)音,這被稱作多條件訓(xùn)練。然而,利用過去GMM-HMM和DNN-HMM的多條件訓(xùn) 練會(huì)遭受一些限制。例如,利用固定參數(shù)組建模各種訓(xùn)練環(huán)境導(dǎo)致"扁平"分布,這在區(qū)分環(huán) 境中較不有用。如此,針對(duì)在特定環(huán)境中的識(shí)別語(yǔ)音,"扁平"模式不是最優(yōu)匹配模型。而且, 通常難以收集訓(xùn)練數(shù)據(jù)以覆蓋所有可能類型的環(huán)境,這導(dǎo)致在未見的噪聲環(huán)境中的性能不 可預(yù)測(cè)。
[0024] 變量參數(shù)HMM(VPHMM)系統(tǒng)尋求解決這些限制,但仍有其自身的限制。在基于VPHMM 的語(yǔ)音識(shí)別中,諸如狀態(tài)發(fā)射參數(shù)(GMM均值和方差)或適配矩陣的HMM參數(shù),被建模為連續(xù) 環(huán)境相關(guān)變量的多項(xiàng)式函數(shù)。在識(shí)別的時(shí)候,特定于給定環(huán)境變量值的一組GMM均值和方差 (或適配矩陣)被實(shí)例化并用于識(shí)別。即使沒在訓(xùn)練中看出測(cè)試環(huán)境,由于環(huán)境變量方面的 均值和方差的改變可通過多項(xiàng)式來(lái)預(yù)測(cè),因此所估計(jì)的GMM參數(shù)可仍然有效。
[0025] 然而,對(duì)這些現(xiàn)有方法的改進(jìn)是可能的,并在本公開中討論。更具體地,本公開涉 及被稱為基于變量組件DNN(VCDNN)的語(yǔ)音識(shí)別系統(tǒng)的基于模型的噪聲穩(wěn)健語(yǔ)音識(shí)別系統(tǒng)。 利用基于VCDNN的語(yǔ)音識(shí)別,DNN中的幾乎任何組件可被建模作為一組環(huán)境變量的多項(xiàng)式函 數(shù)。作為一個(gè)示例,可利用變量參數(shù)DNN(VPNN),其中加權(quán)矩陣組件與偏置組件是環(huán)境變量 相關(guān)的。在另一個(gè)例子中,可利用變量輸出DNN(VODNN),其中每個(gè)隱藏層的輸出是環(huán)境變量 相關(guān)的。在又一示例中,可利用變量激活DNN(VADNN),其中在DNN節(jié)點(diǎn)的激活函數(shù)的參數(shù)被 建模為環(huán)境變量相關(guān)。在每個(gè)示例中,可計(jì)算變量相關(guān)組件用于在測(cè)試中被檢測(cè)的環(huán)境條 件或在識(shí)別期間使用與它們相關(guān)聯(lián)的多項(xiàng)式函數(shù)來(lái)測(cè)量數(shù)據(jù)。
[0026] 轉(zhuǎn)向圖1,圖1描繪了包括用戶102和客戶端設(shè)備104的環(huán)境100。環(huán)境100中的用戶 102向客戶端設(shè)備104說(shuō)話。在接收到來(lái)自用戶102的語(yǔ)音之際,客戶端設(shè)備104利用基于 VCDNN的語(yǔ)音識(shí)別來(lái)完成語(yǔ)音識(shí)別,如以下更加詳細(xì)描述的。此外,如以下澄清的,使用 VCDNN的語(yǔ)音識(shí)別可至少部分地采用附加的設(shè)備或應(yīng)用(諸如服務(wù)器或基于云的應(yīng)用)來(lái)執(zhí) 行。
[0027] 環(huán)境100可隨著用戶102訪問分開的客戶端設(shè)備(諸如膝上型計(jì)算機(jī)或個(gè)人計(jì)算 機(jī))來(lái)改變。環(huán)境1〇〇還可隨著用戶102改變位置或隨著環(huán)境100在用戶102周圍改變來(lái)改變。 例如,客戶端設(shè)備104可以是諸如智能電話的移動(dòng)設(shè)備。用戶102可希望使得客戶端設(shè)備104 上的語(yǔ)音識(shí)別功能能在多個(gè)環(huán)境中被執(zhí)行。例如,用戶可在噪雜的街道上來(lái)嘗試使得語(yǔ)音 識(shí)別功能被執(zhí)行在客戶端設(shè)備104上。稍后,用戶可在安靜的辦公室中來(lái)嘗試使得語(yǔ)音識(shí)別 功能被執(zhí)行在客戶端設(shè)備上。由于語(yǔ)音識(shí)別過程中對(duì)VCDNN的利用,用戶102將在兩種環(huán)境 上都接收到較高質(zhì)量的結(jié)果。
[0028] 圖2描繪了用于噪聲穩(wěn)健語(yǔ)音識(shí)別的系統(tǒng)200。圖2示出客戶端設(shè)備104、語(yǔ)音識(shí)別 解碼器208、以及應(yīng)用212的更詳細(xì)示圖??蛻舳嗽O(shè)備104可包括語(yǔ)音捕捉設(shè)備202、特征提取 模塊204、和環(huán)境變量模塊206。語(yǔ)音捕捉設(shè)備202捕捉由用戶102所講的語(yǔ)音。語(yǔ)音捕捉設(shè)備 202可以是硬件和軟件組件的組合,諸如話筒和數(shù)字化軟件,以及其它公知的語(yǔ)音捕捉設(shè) 備。在各實(shí)施例中,也可通過特征提取模塊204提取特征向量。特征向量可以是表示語(yǔ)音輸 入的數(shù)字特征的n維向量集。用于提取特征向量的多種可接受方法對(duì)本領(lǐng)域技術(shù)人員而言 是公知的,包括對(duì)數(shù)Mel過濾器組、Mel-頻率倒譜技術(shù)(Me 1-frequency cepstral technique)、線性預(yù)測(cè)、以及感知線性預(yù)測(cè)等等。在這些實(shí)施例中,特征向量被從語(yǔ)音捕捉 設(shè)備202捕捉的語(yǔ)音輸入中提取。然后,特征向量被發(fā)送到語(yǔ)音識(shí)別解碼器208。
[0029] 環(huán)境變量模塊206確定在VCDNN中將使用的環(huán)境變量和環(huán)境變量值。環(huán)境變量可以 是取決于環(huán)境條件或用戶、客戶端設(shè)備、以及環(huán)境的關(guān)系的任何變量。例如,所述環(huán)境變量 可基于環(huán)境噪聲。一種這樣的環(huán)境變量是信噪比。其它環(huán)境變量包括語(yǔ)速或離語(yǔ)音捕捉設(shè) 備202的距離。VCDNN利用SNR作為環(huán)境變量,該環(huán)境變量模塊206在語(yǔ)音捕捉期間計(jì)算、測(cè)量 和/或確定信噪比??赏ㄟ^測(cè)量每個(gè)語(yǔ)音幀的噪聲來(lái)確定SNR??杀容^或從所捕捉的語(yǔ)音中 減去所測(cè)量的噪聲來(lái)確定信噪比。然后,所確定的信噪比可被VCDNN利用。在語(yǔ)速被用作環(huán) 境變量的示例中,語(yǔ)度可被計(jì)算或從所捕捉的語(yǔ)音中直接確定。在利用離話筒的距離的示 例中,該距離可通過視頻分析或其它距離測(cè)量工具(諸如激光或基于光測(cè)量)來(lái)確定。另一 個(gè)環(huán)境變量可以是以何角度接收來(lái)自用戶的語(yǔ)音??梢杂脩舻木嚯x類似的方式來(lái)確定該角 度。關(guān)于用戶的特征還可作為環(huán)境變量被利用。例如,環(huán)境變量可以是講話者的年齡。其它 環(huán)境變量還可包括講話者的聲道長(zhǎng)度。在實(shí)施例中,環(huán)境變量是可能對(duì)語(yǔ)音識(shí)別結(jié)果具有 潛在影響的可在運(yùn)行時(shí)被測(cè)量的任何標(biāo)量值。
[0030] 每個(gè)環(huán)境變量可被連續(xù)地或基本上連續(xù)地測(cè)量。當(dāng)前的環(huán)境變量可作為標(biāo)量值被 測(cè)量。例如,當(dāng)被測(cè)量時(shí),信噪比的值是標(biāo)量值。如此,環(huán)境變量適于近似以及結(jié)合于其它函 數(shù)中的多項(xiàng)式函數(shù)。本領(lǐng)域的技術(shù)人員將理解,存在用于測(cè)量或確定上述環(huán)境變量的其它 方法。
[0031] 語(yǔ)音識(shí)別解碼器208識(shí)別由用戶102所講的語(yǔ)音。語(yǔ)音識(shí)別解碼器利用VCDNN模塊 210來(lái)完成識(shí)別。在一些示例中,VCDNN模塊210可被結(jié)合或使用于語(yǔ)音識(shí)別解碼器208的聲 學(xué)模型。VCDNN模塊接收所捕捉的語(yǔ)音或特征向量以及利用相應(yīng)的VCDNN處理語(yǔ)音或向量, 諸如VPDNN、V0DNN、或VADNN。VCDNN還納入環(huán)境變量的值。一個(gè)或多個(gè)VCDNN部件可以被參數(shù) 化作為標(biāo)量值的函數(shù)。相應(yīng)的VCDNN的操作將在下面進(jìn)一步詳細(xì)討論。
[0032] 可通過語(yǔ)音識(shí)別解碼器208進(jìn)一步處理所述VCDNN模塊的輸出。例如,語(yǔ)音識(shí)別解 碼器可進(jìn)一步包括在其它模型或自動(dòng)語(yǔ)音識(shí)別組件之間的語(yǔ)言模型、語(yǔ)音模型、和/或詞 法。這些模塊中的每一個(gè)可被進(jìn)一步利用于識(shí)別用戶102所講的語(yǔ)音。所講的語(yǔ)音的識(shí)別之 際,語(yǔ)音識(shí)別解碼器208輸出所識(shí)別的語(yǔ)音。所識(shí)別的語(yǔ)音輸出可被發(fā)送給應(yīng)用212以使用。 應(yīng)用212可以是任何能夠以經(jīng)識(shí)別的語(yǔ)音的形式接收輸入的應(yīng)用。例如,應(yīng)用212可以是語(yǔ) 音到文本應(yīng)用,諸如消息應(yīng)用或其組件。應(yīng)用212還可以是智能個(gè)人助理的一部分,諸如來(lái) 自華盛頓州雷蒙德市的微軟公司的CORTANA智能個(gè)人助理。
[0033] 雖然被描繪為跨多個(gè)設(shè)備發(fā)生,但可在諸如客戶端和服務(wù)器的單個(gè)設(shè)備或跨多個(gè) 設(shè)備上執(zhí)行系統(tǒng)200的功能。例如,當(dāng)使用多個(gè)設(shè)備時(shí),語(yǔ)音捕捉設(shè)備202可以在客戶端設(shè)備 104上,且特征提取模塊204也可由客戶端設(shè)備104執(zhí)行。在這樣的示例中,語(yǔ)音識(shí)別解碼器 208可在服務(wù)器或其它網(wǎng)絡(luò)或基于云的組件上操作。應(yīng)用212還可駐留在客戶端或服務(wù)器 中。通過使語(yǔ)音識(shí)別解碼器208在服務(wù)器上操作,更多資源可在解碼和識(shí)別過程中使用。在 其它示例中,除了捕捉語(yǔ)音輸入之外的所有功能可均由服務(wù)器或其它網(wǎng)絡(luò)或基于云的組件 實(shí)現(xiàn)。替換地,所有特征可由一個(gè)設(shè)備(諸如客戶端設(shè)備104)執(zhí)行。本領(lǐng)域技術(shù)人員還將意 識(shí)到適于與此處公開的方法和系統(tǒng)一起使用的用于自動(dòng)語(yǔ)音識(shí)別的其它架構(gòu)。
[0034] 圖3示出基于VTONN語(yǔ)音識(shí)別中被利用的VTONN中一層的流程圖。在討論圖3中示出 的流程圖之前,CD-DNN-HMM和VPHMM的一般背景可有助于理解本公開。在CD-DNN-HMM的框架 中,經(jīng)綁定的上下文相關(guān)的HMM狀態(tài)的對(duì)數(shù)似然(在此被稱為"senone" ")在傳統(tǒng)的GMM-HMM 系統(tǒng)中使用DNN而非GMM計(jì)算。DNN可被視為多層感知器(MLP),包括一個(gè)輸入層、一個(gè)輸出層 以及許多隱藏層。輸出層的每個(gè)節(jié)點(diǎn)代表一個(gè)senone。
[0035] 雙曲函數(shù)可被選為用于DNN的隱藏層,并且第1隱藏層o1的輸出的激活函數(shù)可如下 給出:
[0036] O^fsigmCu1) (1)
[0037] u^d1)^1^1 (2)
[0038] 其中是第1層的輸入,W1和b1相應(yīng)的是加權(quán)矩陣和第1層的偏移,其中fsigm(x) = 1/(l+ex)〇
[OO39 ]輸出層(層L)的激活函數(shù)是sof tmax函數(shù):
a)
[0041 ] 因此,senone后驗(yàn)概率p(sk|x)是:
(4)
[0043] 其中x是DNN的輸入特征向量,sk是響應(yīng)于頂層的單元k的senone,以及S是senone 的總數(shù)量。第一層的輸入o*3 = x。然后根據(jù)下式計(jì)算HMM p (x | s)的senone發(fā)射似然性
[0044] p(x | s) =P(s | x) ? p(x)/P(s) (5)
[0045] P(s)是senone s的先驗(yàn)概率。p(x)可獨(dú)立于s,并且在HMM解碼期間可被忽略。
[0046] 在DNN訓(xùn)練中,可被使用的一個(gè)優(yōu)化準(zhǔn)則是由參考標(biāo)記表示的后驗(yàn)分布與 預(yù)測(cè)分布P(s |x)之間的交叉熵。目標(biāo)函數(shù)為:
[0047] Fcb ^ - UA
[0048] 通常基于強(qiáng)制對(duì)齊結(jié)果來(lái)決定參考標(biāo)記: , 、 (1 if x is aligned to seone Si ~
[0049] |.)(融()叫 〇 也e {1}
[0050] 然后等式(6)可被簡(jiǎn)化為:
[0051] FcE = -log(p(s/ | x)) (8)
[0052] 其中s'是語(yǔ)音輸入x的參考senone。
[0053] 利用上述目標(biāo)函數(shù),可用D. Yu、L. Deng和G. Dah 1在Pro c中的"在用于現(xiàn)實(shí)世界語(yǔ)音 識(shí)別的上下文相關(guān)DBN-HMM中預(yù)訓(xùn)練和微調(diào)的角色"中介紹的方法來(lái)訓(xùn)練DNN。關(guān)于深度學(xué) 習(xí)和無(wú)監(jiān)督特征學(xué)習(xí)的NIPS研討會(huì)(2010),其包括無(wú)監(jiān)督的預(yù)訓(xùn)練以及受監(jiān)督的微調(diào)。還 可利用其它訓(xùn)練方法。在微調(diào)階段使用的算法可以是誤差后向傳播的,其中加權(quán)矩陣W和層 1的偏移b被更新為:
[0054] W1 =: (9)
[0055] Sl = bl + ael (10)
[0056] a表示學(xué)習(xí)速率。和e1相應(yīng)的是層1的輸入和誤差向量??赏ㄟ^傳播來(lái)自其上層 的誤差來(lái)計(jì)算e1。
[0057] e} - (["
[0058] 是層1+1的第i行第k列中的加權(quán)矩陣W1+1中的元素,而ef是層1+1的誤差向量 e1+1中的第k元素。N1+1是層1+1的單元號(hào)。頂層(例如輸出層)的錯(cuò)誤可以是在等式(8)中定義 的目標(biāo)函數(shù)的導(dǎo)數(shù)。
(12)
[0060] 5SS'是 Kronecker 增量函數(shù)。
[0061] 在傳統(tǒng)的GMM-HMM系統(tǒng)中,在不同環(huán)境下的語(yǔ)音分布由相同的參數(shù)集(高斯均值和 方差)建模。因此,傳統(tǒng)的GMM-HMM不完美,因?yàn)樗唤VT如SNR的任何聲學(xué)環(huán)境變化。 VPHMM嘗試將GMM參數(shù)建模為SNR函數(shù),例如高斯組件m被建模為 v)和E(m,v)是環(huán)境變量v的多項(xiàng)式函數(shù)。例如,ii(m,v)可被表示為
[0062] ~ (13)
[0063]其中Cj(m)是具有與輸入特征向量一樣維度的向量,并且對(duì)應(yīng)于第j階環(huán)境變量。 多項(xiàng)式函數(shù)的選擇是基于其用于連續(xù)函數(shù)的良好近似屬性,其簡(jiǎn)單的求導(dǎo)操作,以及在環(huán) 境方面的均值和方差平滑變化,并且可由低階多項(xiàng)式建模的事實(shí)。還可利用附加函數(shù)類型。 [0064]在VPHMM的訓(xùn)練中,可基于具有EM算法的最大似然準(zhǔn)則估計(jì)cj (m)(以及其它參 數(shù))。在測(cè)試階段,用所確定的SNR值來(lái)計(jì)算高斯均值和方差。即使沒有在訓(xùn)練中看出所確定 的SNR,多項(xiàng)式函數(shù)可幫助計(jì)算適當(dāng)?shù)哪P蛥?shù),所以基于VPHMM的語(yǔ)音識(shí)別能夠在未見環(huán) 境中比它的前代產(chǎn)品工作得更好。
[0065] 回到圖3和V⑶NN,基于V⑶NN的語(yǔ)音識(shí)別代表了通過針對(duì)環(huán)境建模它們變化的DNN 組件,其沒有被標(biāo)準(zhǔn)DNN考慮。在基于VPDNN的語(yǔ)音識(shí)別中,如圖3中的流程圖所示的,加權(quán)矩 陣W以及層1的偏移b被建模為環(huán)境變量v的函數(shù):
[0066] fi(v) , hl = fl(v) 0<1<L (14)
[0067] 此處,可使用含有義,和欠兩者的多項(xiàng)式函數(shù)。SNR可被選為環(huán)境變量,位于上述所 討論的其它環(huán)境變量中。因此導(dǎo)致下列等式:
[0068] 0<!<£ (15)
[0069] hl ^ 〇 < / < L {U\)
[0070] J是多項(xiàng)式函數(shù)階。/<是具有與W1相同維度的矩陣,而g是具有與b1相同維度的向 量。
[0071 ]在圖3中示出VPDNN的一層的流程圖。輸入向量302由加權(quán)函數(shù)接收,分別由加權(quán)函 數(shù)指示符304A-C表示。雖然只描繪了三個(gè)加權(quán)函數(shù),在這樣描繪中的加權(quán)函數(shù)的數(shù)量取決 于所選的多項(xiàng)式階,如在加權(quán)函數(shù)指示符304C中指示的J。每個(gè)表示加權(quán)函數(shù)指示符的 304A-C,分別表示在等式(15)和(16)中表示的從j = 0到j(luò) = J的特定j值評(píng)估的總和。在加權(quán) 函數(shù)之后,如乘法指示符306A-C指示的,加權(quán)函數(shù)的結(jié)果與相應(yīng)環(huán)境變量v(例如W)的第j 次冪(power)(如環(huán)境變量指示符308A-C指示的)相乘。然后如求和指示符310指示的,將來(lái) 自從j = 〇到j(luò) = J的每一級(jí)的結(jié)果相加。由激活函數(shù)指示符312表示的激活函數(shù)接收求和結(jié) 果。繼激活函數(shù)的評(píng)估之后,產(chǎn)生輸出向量314。本領(lǐng)域技術(shù)人員將理解,圖3只示出VPDNN中 的一層,并且在各實(shí)施例中,利用了許多附加層。
[0072] 在基于VPDNN的語(yǔ)音識(shí)別系統(tǒng)的訓(xùn)練中,確定< 和g而非標(biāo)準(zhǔn)DNN中的W1和b1。從 等式(15)和(16)可以看出,如果J被設(shè)置為零(J = 0),VPDNN等同于標(biāo)準(zhǔn)DNN,所以沒有必要 從頭開始確定和4。和M可基于微調(diào)階段中的標(biāo)準(zhǔn)DNN用以下的初始值更新:
[0073] H[} - |:4 - (i./.)
[0074] Hj = 0 pj = 0 / > 1 (18)
[0075] 和匕是標(biāo)準(zhǔn)DNN中層1的加權(quán)矩陣和偏移。
[0076] 將上述的等式(15)和(16)以及誤差后向傳播算法合并,可確定更新公式和乂:
[0077] 沒/ = W/. (.19)
[0078] I?) ^ -i- (20)
[0079] 在識(shí)別階段中,根據(jù)諸如SNR的具有估計(jì)、計(jì)算或經(jīng)測(cè)量的環(huán)境變量的等式(15)和 (16)來(lái)實(shí)例化加權(quán)矩陣W以及每層的偏移b??梢耘c標(biāo)準(zhǔn)DNN相同的方式計(jì)算后驗(yàn)senone。
[0080] 圖4示出V0DNN中一層的框架。在基于V0DNN的語(yǔ)音識(shí)別中,由函數(shù)描述每個(gè)隱藏層 的輸出,諸如環(huán)境變量v的多項(xiàng)式函數(shù)。
[0081 ] ? 0 < / < l (21)
[0082] 其中
[0083] uj ^ Q < l < L (22)
[0084]如在基于VPDNN的語(yǔ)音識(shí)別中,基于具有與等式(17)和(18)給定的相同初始值的 標(biāo)準(zhǔn)DNN來(lái)更新和/^。類似地,可通過合并等式(21)和(22)以及誤差后向傳播算法獲得 更新公式:
[0085] il/ ? 4- ao1'^ (ej f i?1
[0086] ? 4- aeh} i'34)
[0087] 其中
[0088] ei'(〇 l£'L:〇£^iV 〇>
[0089] e;&)是層1的誤差向量4的第i個(gè)元素,并且私;,,是層1 + 1的矩陣//;,/行k列的元 素。
[0090] 在基于V0DNN的語(yǔ)音識(shí)別的識(shí)別階段中,根據(jù)諸如SNR的具有估計(jì)、測(cè)量或經(jīng)計(jì)算 的環(huán)境變量的等式(21)來(lái)計(jì)算每個(gè)隱藏層的輸出。根據(jù)具有環(huán)境獨(dú)立參數(shù)W 1和bl的等式(4) 和(2)來(lái)計(jì)算例如后驗(yàn)s enone的頂層輸出。
[0091]如圖4所示,表示V0DNN中一層的框架,輸入向量40 2被加權(quán)函數(shù)接收,分別由加權(quán) 函數(shù)指示符404A-C表示。雖然只描繪了三個(gè)加權(quán)函數(shù),在這樣描繪中的加權(quán)函數(shù)的數(shù)量取 決于所選的多項(xiàng)式階,如在加權(quán)函數(shù)指示符404C中指示的J。每個(gè)表示加權(quán)函數(shù)指示器的 404A-C,分別表示從j = 0到j(luò) = J的特定j值的評(píng)估。在加權(quán)函數(shù)之后,激活函數(shù)評(píng)估加權(quán)函 數(shù)的結(jié)果,分別由激活函數(shù)指示符406A-C表示。如乘法指示符408A-C指示的,激活函數(shù)的評(píng) 估結(jié)果與相應(yīng)環(huán)境變量v(例如的第j次冪(power)(如環(huán)境變量指示符410A-C指示)相 乘。然后如求和指示符412指示的,將來(lái)自從j = 0到j(luò)=J的每一級(jí)的結(jié)果相加。利用求和結(jié) 果來(lái)產(chǎn)生輸出向量414。本領(lǐng)域技術(shù)人員將理解,圖4只示出V0DNN中的一層,并且在各實(shí)施 例中,利用了許多附加層。
[0092]圖5描繪了VADNN中一層的流程圖,其中DNN節(jié)點(diǎn)的激活函數(shù)具有環(huán)境變量相關(guān)的 參數(shù)。例如,隱藏層每個(gè)節(jié)點(diǎn)都使用雙曲函數(shù):
[0093] fsigm(x) = l/(l+ex) (26)
[0094] 利用基于VADNN的語(yǔ)音識(shí)別,雙曲函數(shù)具有通用形式
[0095] fsigm(x) = l/(l+eax+m) (27)
[0096] 對(duì)于層1中的每個(gè)節(jié)點(diǎn)n,<和m(兩者都是環(huán)境變量相關(guān)的:
[0097] (28)
[0098] m卜珠 (
[0099] 《和^丨可利用以下的誤差后向傳播算法來(lái)獲得
[moo] cj ~ cj + a(ei ° ul )i:!; (30)
[0101] ~ + aelp? (31)
[0102]如圖5所示,由加權(quán)函數(shù)指示符504表示的加權(quán)函數(shù)接收輸入向量502。逐元素線性 變換(例如ax+m)的系數(shù),被確定為j = 0到j(luò) = J級(jí)。然后,如乘法指示符508A-C指示,所確定 的系數(shù)與相應(yīng)環(huán)境變量v(例如V3)的第j次冪(power)(如環(huán)境變量指示符510A-C指示的)相 乘。然后如求和指示符512指示的,將來(lái)自從j = 0到j(luò)=J的每一級(jí)的結(jié)果相加。由激活函數(shù) 指示符514表示的激活函數(shù)接收求和結(jié)果。繼激活函數(shù)的評(píng)估之后,產(chǎn)生輸出向量516。本領(lǐng) 域技術(shù)人員將理解,圖5只示出VADNN中的一層,并且在各實(shí)施例中,利用了許多附加層。 [0103] 在實(shí)施例中,可歸一化諸如SNR的環(huán)境變量v用于VPDNN、V0DNN、以及VADNN,因?yàn)榕c 相應(yīng)的DNN組件相比,環(huán)境變量的數(shù)值范圍往往過大。例如,雙曲函數(shù)可被用于環(huán)境變量歸 一化的目的。雙曲函數(shù)不僅縮小的數(shù)值范圍內(nèi),而且在相似環(huán)境中造成很高SNR的影響。這 將是合理的,因?yàn)?,例如?0dB和60dB的SNR不會(huì)在語(yǔ)音識(shí)別中造成明顯的差異。同樣的邏輯 還適用于非常低SNR的情況。
[0104] 圖6描繪了利用基于VCDNN的語(yǔ)音識(shí)別的方法。盡管該方法被示出且被描述為順序 地執(zhí)行的一系列動(dòng)作,但可以理解并意識(shí)到,該方法不受該順序的次序的限制。例如,一些 動(dòng)作可按與本文描述的次序不同的次序進(jìn)行,如本領(lǐng)域技術(shù)人員所領(lǐng)會(huì)的。另外,一些動(dòng)作 可以與另一動(dòng)作同時(shí)發(fā)生。例如,統(tǒng)計(jì)權(quán)重的調(diào)整可與該應(yīng)用對(duì)所識(shí)別單詞的處理同時(shí)進(jìn) 行。此外,在一些實(shí)例中,實(shí)現(xiàn)本文描述的方法并不需要所有動(dòng)作。
[0105] 此外,本文描述的動(dòng)作可以是可由一個(gè)或多個(gè)處理器實(shí)現(xiàn)的和/或存儲(chǔ)在一個(gè)或 多個(gè)計(jì)算機(jī)可讀介質(zhì)上的計(jì)算機(jī)可執(zhí)行指令。計(jì)算機(jī)可執(zhí)行指令可包括例程、子例程、程 序、執(zhí)行的線程等。另外,該方法的動(dòng)作的結(jié)果可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)中,顯示在顯示 設(shè)備上,等等。
[0106] 如圖6中描繪的,語(yǔ)音在操作602處捕捉。語(yǔ)音可由語(yǔ)音捕捉設(shè)備202捕捉。在操作 604,特征向量可被從所捕捉的語(yǔ)音提取。特征向量可通過特征提取模塊204被提取。在可選 操作606,可接收環(huán)境變量的選擇。例如,用戶可選被用于基于VCDNN的語(yǔ)音識(shí)別的環(huán)境變 量。作為另一示例,計(jì)算機(jī)應(yīng)用還可指示將被利用的環(huán)境變量。在其它實(shí)施例中選擇是不必 要的,并且利用默認(rèn)環(huán)境變量(諸如SNR)。在操作608,確定針對(duì)環(huán)境變量的值或多個(gè)值。環(huán) 境變量的確定可由環(huán)境變量模塊206執(zhí)行。在各實(shí)施例中,環(huán)境變量被連續(xù)地測(cè)量,或環(huán)境 變量的組件被連續(xù)地測(cè)量。例如,其中環(huán)境變量是SNR,可連續(xù)地對(duì)每個(gè)語(yǔ)音幀測(cè)定背景噪 聲。
[0107] 在操作610,利用VCDNN來(lái)識(shí)別用戶所講的語(yǔ)音。在各實(shí)施例中,只有一種類型的 VCDNN的被用于識(shí)別語(yǔ)音,如操作612、操作614、以及操作616的單獨(dú)路徑所指示的。如此,在 那些實(shí)施例中只采取一個(gè)示出的路徑。例如,在操作612,利用基于VPDNN的語(yǔ)音識(shí)別來(lái)識(shí)別 語(yǔ)音。在另一個(gè)示例中,在操作614,利用基于V0DNN的語(yǔ)音識(shí)別來(lái)識(shí)別語(yǔ)音。在又一個(gè)示例 中,在操作616,利用基于VADNN的語(yǔ)音識(shí)別來(lái)識(shí)別語(yǔ)音。在這樣的實(shí)施例中,只利用VPDNN、 V0DNN、以及VADNN中的一個(gè)來(lái)識(shí)別語(yǔ)音。
[0108] 在識(shí)別語(yǔ)音之際,在操作618產(chǎn)生所識(shí)別的語(yǔ)音。所識(shí)別的語(yǔ)音輸出可由諸如應(yīng)用 212的應(yīng)用接收。然后,應(yīng)用處理以取決于應(yīng)用類型的方式處理所識(shí)別的語(yǔ)音。例如,當(dāng)應(yīng)用 確定所識(shí)別的語(yǔ)音是命令,則該應(yīng)用將響應(yīng)于該命令。在另一個(gè)示例中,其中應(yīng)用是語(yǔ)音到 文本的應(yīng)用,該應(yīng)用可以文本形式顯示所識(shí)別的語(yǔ)音。
[0109]本文中所公開的方法和系統(tǒng)也示出了令人滿意的結(jié)果。所提出的方法已用Aurora 4評(píng)估,(如2002年,密西西比州立大學(xué)的信號(hào)與信息處理研究所,N. Par ihar和J. Pi cone在 技術(shù)報(bào)告"Aurora工作組:DSR前端LVCSR評(píng)估AU/384/02"中所討論的),Aurora 4是一項(xiàng)基 于華爾街日?qǐng)?bào)語(yǔ)料庫(kù)(WSJ0)的噪聲穩(wěn)健的中等詞匯表的任務(wù)。Aurora 4具有兩個(gè)訓(xùn)練集: 干凈的以及多條件的。.它們每個(gè)都包括7138條話語(yǔ)(約14小時(shí)的語(yǔ)音數(shù)據(jù))。對(duì)于多條件訓(xùn) 練集,一半數(shù)據(jù)是用森海塞爾(Sennheiser)話筒記錄的,而其它的是用次要話筒。此外,加 入了具有從10到20dB SNR的6種類型的噪聲(汽車、胡言亂語(yǔ)、餐館、街道、機(jī)場(chǎng)以及火車)。 用森海塞爾話筒記錄的子集被稱為信道wvl數(shù)據(jù),而其它部分為信道wv2數(shù)據(jù)。
[0110] 測(cè)試集包含14個(gè)子集。其中的兩個(gè)是干凈的,而其它12個(gè)是嘈雜的。如在多條件測(cè) 試集中,使用相同類型的話筒來(lái)記錄嘈雜測(cè)試集。此外,往多條件測(cè)試集中相同的6種類型 的噪聲加入5到15dB之間的SNR。
[0111] 基線⑶-DNN-HMM系統(tǒng)的聲學(xué)特征是24維對(duì)數(shù)Mel過濾器組特征,再加上它們的一 階和二階導(dǎo)數(shù)特征,總共72維。DNN輸入層的維數(shù)為792,從11幀的上下文窗口形成。它的輸 出層包含1209個(gè)單位,這意味著在HMM系統(tǒng)中有1209個(gè)senone ANN具有5個(gè)隱藏層,每層有 2048個(gè)單元。
[0112] 在實(shí)驗(yàn)中,按照多項(xiàng)式的階檢查基于V⑶NN的語(yǔ)音識(shí)別的性能。標(biāo)準(zhǔn)DNN和VCDNN兩 者都用來(lái)自多條件訓(xùn)練集的wvl數(shù)據(jù)訓(xùn)練。測(cè)試數(shù)據(jù)是干凈的和嘈雜wvl的子集。結(jié)果再現(xiàn) 于下表1,其示出一階VPDNN和基于V0DNN的語(yǔ)音識(shí)別在標(biāo)準(zhǔn)DNN中相對(duì)單詞錯(cuò)誤率減少 (WERR)分別達(dá)到6.53%和5.92%。然而與一階比較,二階和三階VCDNN沒有顯示出顯著增 益。這結(jié)果指示,用于對(duì)由DNN框架內(nèi)的SNR改變而引起的變化進(jìn)行建模,尤其是當(dāng)計(jì)算資源 可能受限時(shí),一階多項(xiàng)式可以是好的選擇。如此,一階多項(xiàng)式被利用于下述實(shí)驗(yàn)鑒于在測(cè)試 條件下基于VPDNN的語(yǔ)音識(shí)別比基于V0DNN的語(yǔ)音識(shí)別執(zhí)行得稍好,下述結(jié)果集中于基于 VPDNN的語(yǔ)音識(shí)別。
[0113] 下面的表2,示出不同噪聲條件和SNR的一階基于VPDNN的語(yǔ)音識(shí)別的分解結(jié)果???以看出,在除汽車噪聲的所有噪聲種類中,基于VPDNN的語(yǔ)音識(shí)別基本上優(yōu)于標(biāo)準(zhǔn)基于DNN 的語(yǔ)音識(shí)別。此外,相比于可見條件(>10dB),在未見SNR條件(從5dB到10dB)下基于VPDNN的 語(yǔ)音識(shí)別接收更好的效果(8.47%的相應(yīng)WERR)。該結(jié)果指示,標(biāo)準(zhǔn)的基于DNN的語(yǔ)音識(shí)別能 夠?qū)λ梢姷母鞣N環(huán)境建模,但對(duì)于未見的環(huán)境,基于VPDNN的語(yǔ)音識(shí)別執(zhí)行得更好。還在 基于V0DNN的語(yǔ)音識(shí)別中觀察到類似的結(jié)果(5dB〈SNR〈 10dB條件下7.08 %的相應(yīng)WERR,SNR> 10dB條件下4.26%的相應(yīng)WERR)。
[0114] 表1.在多項(xiàng)式的階數(shù)方面的V⑶NN性能
[0116] 表2.-階VPDNN的分解結(jié)果
[0118] 表3.具有不同大小的標(biāo)準(zhǔn)DNN與一階VPDNN的比較
[0120]最后,基于DNN的語(yǔ)音識(shí)別性能與使用基于DNN的語(yǔ)音識(shí)別更少的參數(shù)檢查。每個(gè) 隱藏層具有1024個(gè)單位的VPDNN被評(píng)估比較于每個(gè)隱藏層具有2048個(gè)單位的標(biāo)準(zhǔn)DNN。結(jié)果 在上表3中給出。用wvl數(shù)據(jù)評(píng)估所有的測(cè)試集,相比于每個(gè)隱藏層具有2048個(gè)單位的標(biāo)準(zhǔn) DNN,每個(gè)隱藏層具有1024個(gè)單位的一階VPDNN相應(yīng)的WERR達(dá)到3.22%,但是而計(jì)算和存儲(chǔ) 器成本降低了一半。
[0121]圖7是示出可用來(lái)實(shí)施本公開的各實(shí)施例的計(jì)算設(shè)備700的物理組件(即硬件)的 框圖。以下描述的計(jì)算設(shè)備組件可具有可被執(zhí)行來(lái)采用在此描述的方法的用于例如客戶端 的語(yǔ)音識(shí)別應(yīng)用713的計(jì)算機(jī)可執(zhí)行指令和/或用于例如客戶端的VCDNN模塊711的計(jì)算機(jī) 可執(zhí)行指令。在基本配置中,計(jì)算設(shè)備700可包括至少一個(gè)處理單元702以及系統(tǒng)存儲(chǔ)器 704。取決于計(jì)算設(shè)備的配置和類型,系統(tǒng)存儲(chǔ)器704可包括但不限于易失性存儲(chǔ)(例如,隨 機(jī)存取存儲(chǔ)器)、非易失性存儲(chǔ)(例如,只讀存儲(chǔ)器)、閃存、或者此類存儲(chǔ)器的任何組合。系 統(tǒng)存儲(chǔ)器704可包括操作系統(tǒng)705和適合于運(yùn)行諸如關(guān)于圖1-6討論的VCDNN語(yǔ)音識(shí)別的軟 件應(yīng)用720(尤其是參考語(yǔ)音識(shí)別應(yīng)用713或VCDNN模塊711)的一個(gè)或多個(gè)程序模塊706。語(yǔ) 音識(shí)別應(yīng)用713可包括諸如應(yīng)用212等應(yīng)用。V⑶NN模塊711和語(yǔ)音識(shí)別應(yīng)用713可包括圖1中 描繪的特征中的多個(gè)。例如,操作系統(tǒng)705可適合于控制計(jì)算設(shè)備700的操作。此外,本發(fā)明 的各實(shí)施例可以結(jié)合圖形庫(kù)、音頻庫(kù)、語(yǔ)音數(shù)據(jù)庫(kù)、語(yǔ)音合成應(yīng)用、其它操作系統(tǒng)、或任何其 它應(yīng)用程序來(lái)實(shí)踐,且不限于任何特定應(yīng)用程序或系統(tǒng)。該基本配置在圖7中用虛線708內(nèi) 的那些組件示出。計(jì)算設(shè)備700可具有附加特征或功能。例如,計(jì)算設(shè)備700也可以包括附加 的數(shù)據(jù)存儲(chǔ)設(shè)備(可移動(dòng)和/或不可移動(dòng)),諸如磁盤、光盤或帶。這種附加存儲(chǔ)器在圖7中用 可移動(dòng)存儲(chǔ)設(shè)備709和不可移動(dòng)存儲(chǔ)設(shè)備710示出。
[0122] 如上所聲明的,大量程序模塊和數(shù)據(jù)文件可被存儲(chǔ)在系統(tǒng)存儲(chǔ)器704中。盡管在處 理單元702上執(zhí)行,程序模塊706 (例如,VCDNN模塊711或語(yǔ)音識(shí)別應(yīng)用713)可執(zhí)行包括但不 限于在此描述的各實(shí)施例的過程。根據(jù)本發(fā)明的實(shí)施例可使用的、尤其用于生成屏幕內(nèi)容 和音頻內(nèi)容的其它程序模塊可包括電子郵件和聯(lián)系人應(yīng)用、字處理應(yīng)用、電子表格應(yīng)用、數(shù) 據(jù)庫(kù)應(yīng)用、幻燈片演示應(yīng)用、繪圖、消息收發(fā)應(yīng)用、地圖應(yīng)用、語(yǔ)音到文本應(yīng)用、文本到語(yǔ)音 應(yīng)用和/或計(jì)算機(jī)輔助應(yīng)用程序、智能個(gè)人助理應(yīng)用等。
[0123] 此外,本公開的各實(shí)施例可在包括分立電子元件的電路、包含邏輯門的封裝或集 成電子芯片、利用微處理器的電路、或在包含電子元件或微處理器的單個(gè)芯片上實(shí)現(xiàn)。例 如,可以通過片上系統(tǒng)(S0C)來(lái)實(shí)踐本公開的各實(shí)施例,其中,可以將圖7中示出的每個(gè)或許 多組件集成到單個(gè)集成電路上。此類S0C設(shè)備可包括一個(gè)或多個(gè)處理單元、圖形單元、通信 單元、系統(tǒng)虛擬化單元、以及各種應(yīng)用功能,所有這些單元被集成(或燒制)到芯片基板上, 作為單個(gè)集成電路。當(dāng)通過S0C操作時(shí),在此所述的關(guān)于客戶端切換協(xié)議的能力的功能可以 通過在單個(gè)集成電路(芯片)上集成有計(jì)算設(shè)備700的其它組件的專用邏輯來(lái)操作。本發(fā)明 的實(shí)施例還可使用能夠執(zhí)行諸如例如,AND(與)、0R(或)和NOT(非)的邏輯運(yùn)算的其它技術(shù) 來(lái)實(shí)踐,包括但不限于,機(jī)械、光學(xué)、流體和量子技術(shù)。另外,本發(fā)明的各實(shí)施例可以在通用 計(jì)算機(jī)或任何其它電路或系統(tǒng)中實(shí)現(xiàn)。
[0124] 計(jì)算設(shè)備700還可具有一個(gè)或多個(gè)輸入設(shè)備712,諸如鍵盤、鼠標(biāo)、筆、聲音或語(yǔ)音 輸入設(shè)備、觸摸或滑動(dòng)輸入設(shè)備等。這些輸入設(shè)備可結(jié)合或取代語(yǔ)音捕捉設(shè)備202使用。還 可包括輸出設(shè)備714,諸如顯示器、揚(yáng)聲器、打印機(jī)等。前述設(shè)備是示例,并且可使用其它設(shè) 備。計(jì)算設(shè)備700可包括允許與其它計(jì)算設(shè)備718通信的一個(gè)或多個(gè)通信連接716。合適的通 信連接716的示例包括但不限于RF發(fā)射機(jī)、接收機(jī)、和/或收發(fā)機(jī)電路系統(tǒng)、通用串行總線 (USB)、并行和/或串行端口。
[0125] 如本文中所使用的術(shù)語(yǔ)計(jì)算機(jī)可讀介質(zhì)可包括計(jì)算機(jī)存儲(chǔ)介質(zhì)。計(jì)算機(jī)存儲(chǔ)介質(zhì) 可包括以用于存儲(chǔ)信息(諸如計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、或者程序模塊)的任何方法和技 術(shù)實(shí)現(xiàn)的易失性和非易失性、可移除和不可移除介質(zhì)。系統(tǒng)存儲(chǔ)器704、可移動(dòng)存儲(chǔ)設(shè)備709 和不可移動(dòng)存儲(chǔ)設(shè)備710都是計(jì)算機(jī)存儲(chǔ)介質(zhì)(例如,存儲(chǔ)器存儲(chǔ))的示例。計(jì)算機(jī)存儲(chǔ)介質(zhì) 可包括RAM、ROM、電可擦除只讀存儲(chǔ)器(EEPR0M )、閃存或其它存儲(chǔ)器技術(shù)、CD-ROM、數(shù)字多功 能盤(DVD)或其它光學(xué)存儲(chǔ)、磁帶盒、磁帶、磁盤存儲(chǔ)或其它磁存儲(chǔ)設(shè)備、或者可用于存儲(chǔ)信 息且可由計(jì)算設(shè)備700訪問的任何其它制品。任何此類計(jì)算機(jī)存儲(chǔ)介質(zhì)可以是計(jì)算設(shè)備700 的一部分。計(jì)算機(jī)存儲(chǔ)介質(zhì)不包括載波或者其它經(jīng)傳播或經(jīng)調(diào)制的數(shù)據(jù)信號(hào)。計(jì)算機(jī)存儲(chǔ) 介質(zhì)可被存儲(chǔ)、合并到或與計(jì)算機(jī)存儲(chǔ)設(shè)備結(jié)合地使用。
[0126] 通信介質(zhì)可通過計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊、或者經(jīng)調(diào)制的數(shù)據(jù)信號(hào) (諸如載波或者其他傳送機(jī)制)中的其他數(shù)據(jù)體現(xiàn),并且包括任何信息傳遞介質(zhì)。術(shù)語(yǔ)"已調(diào) 制數(shù)據(jù)信號(hào)"可以描述以對(duì)信號(hào)中的信息進(jìn)行編碼的方式來(lái)設(shè)置或改變其一個(gè)或多個(gè)特征 的信號(hào)。通過示例而非限制,通信介質(zhì)可包括諸如有線網(wǎng)絡(luò)或直接有線連接之類的有線介 質(zhì)、以及諸如聲、射頻(RF)、紅外和其它無(wú)線介質(zhì)之類的無(wú)線介質(zhì)。
[0127] 圖8A和8B示出可用來(lái)實(shí)施本公開的各實(shí)施例的移動(dòng)計(jì)算設(shè)備800,例如移動(dòng)電話、 智能電話、可穿戴計(jì)算機(jī)(諸如智能手表)、平板計(jì)算機(jī)、膝上型計(jì)算機(jī)等。在一些實(shí)施例中, 客戶端可以是移動(dòng)計(jì)算設(shè)備。參照?qǐng)D8A,解說(shuō)用于實(shí)現(xiàn)各實(shí)施例的移動(dòng)計(jì)算設(shè)備800的一個(gè) 實(shí)施例。在基本配置中,移動(dòng)計(jì)算設(shè)備800是具有輸入元件和輸出元件兩者的手持計(jì)算機(jī)。 移動(dòng)計(jì)算設(shè)備800通常包括顯示器805以及允許用戶將信息輸入移動(dòng)計(jì)算設(shè)備800的一個(gè)或 多個(gè)輸入按鈕810。移動(dòng)計(jì)算設(shè)備800的顯示器805還可用作輸入設(shè)備(例如,觸摸屏顯示 器)。如果被包括在內(nèi),任選的側(cè)輸入元件815允許進(jìn)一步的用戶輸入。側(cè)輸入元件815可以 是旋轉(zhuǎn)開關(guān)、按鈕、或者任何其它類型的手動(dòng)輸入元件。在替換實(shí)施例中,移動(dòng)計(jì)算設(shè)備800 可合并或多或少的輸入元件。例如,在一些實(shí)施例中,顯示器805可以不是觸摸屏。在又一替 換實(shí)施例中,移動(dòng)計(jì)算設(shè)備800是便攜式電話系統(tǒng),諸如蜂窩電話。移動(dòng)計(jì)算設(shè)備800還可包 括任選的小鍵盤835。可選的小鍵盤835可以是物理小鍵盤或者在觸摸屏顯示器上生成的 "軟"鍵區(qū)。在各個(gè)實(shí)施例中,輸出元件包括用于示出圖形用戶界面(GUI)的顯示器805、視覺 指示器820(例如,發(fā)光二極管)、和/或音頻換能器825(例如,揚(yáng)聲器)。在一些實(shí)施例中,移 動(dòng)計(jì)算設(shè)備800合并用于向用戶提供觸覺反饋的振動(dòng)換能器。在又一實(shí)施例中,移動(dòng)計(jì)算設(shè) 備800合并輸入和/或輸出端口,諸如音頻輸入(例如,話筒插孔)、音頻輸出(例如,頭戴式耳 機(jī)插孔)、以及用于發(fā)送信號(hào)或接收來(lái)自外部設(shè)備的信號(hào)的視頻輸出(例如,HDMI端口)。
[0128] 圖8B是解說(shuō)移動(dòng)計(jì)算設(shè)備的一個(gè)實(shí)施例的體系結(jié)構(gòu)的框圖。即,移動(dòng)計(jì)算設(shè)備800 可結(jié)合系統(tǒng)(例如,架構(gòu))802以實(shí)現(xiàn)某些實(shí)施例。在一個(gè)實(shí)施例中,系統(tǒng)802被實(shí)現(xiàn)為能夠運(yùn) 行一個(gè)或多個(gè)應(yīng)用(如瀏覽器、電子郵件、日歷、聯(lián)系人管理器、消息收發(fā)客戶端、游戲、文本 到語(yǔ)音應(yīng)用以及媒體客戶端/播放器)的"智能電話"。在一些實(shí)施例中,系統(tǒng)802被集成為計(jì) 算設(shè)備,諸如集成個(gè)人數(shù)字助理(PDA)和無(wú)線電話。
[0129] 一個(gè)或多個(gè)應(yīng)用程序866可被加載到存儲(chǔ)器862中,并且在操作系統(tǒng)864上或者與 其相關(guān)聯(lián)地運(yùn)行。應(yīng)用程序的示例包括電話撥號(hào)程序、電子郵件程序、個(gè)人信息管理(PIM) 程序、文字處理程序、電子表格程序、因特網(wǎng)瀏覽器程序、消息通信程序、文本到語(yǔ)音應(yīng)用等 等。系統(tǒng)802還包括存儲(chǔ)器862內(nèi)的非易失性存儲(chǔ)區(qū)域868。非易失性存儲(chǔ)區(qū)域868可用于存 儲(chǔ)持久性信息,如果系統(tǒng)802斷電,該持久性信息則不會(huì)丟失。應(yīng)用程序866可使用和存儲(chǔ)非 易失性存儲(chǔ)區(qū)域868中的信息,諸如電子郵件應(yīng)用所使用的電子郵件或其它消息等。同步應(yīng) 用(未示出)還駐留在系統(tǒng)802上,并且被編程為與駐留在主機(jī)計(jì)算機(jī)上的相應(yīng)同步應(yīng)用交 互以使存儲(chǔ)在非易失性存儲(chǔ)區(qū)域868中的信息保持與存儲(chǔ)在主機(jī)計(jì)算機(jī)的相應(yīng)信息同步。 應(yīng)當(dāng)理解,其它應(yīng)用可被加載到存儲(chǔ)器862中并在移動(dòng)計(jì)算設(shè)備800上運(yùn)行,包括如在此描 述的用于使用基于VCDNN的語(yǔ)音識(shí)別來(lái)識(shí)別語(yǔ)音的指令(例如,和/或任選地VCDNN模塊 711)。
[0130]系統(tǒng)802具有可被實(shí)現(xiàn)為一個(gè)或多個(gè)電池的電源870。電源870可能進(jìn)一步包括外 部電源,諸如補(bǔ)充電池或?qū)﹄姵卦俪潆姷腁C適配器或供電底座(powered docking cradle)〇
[0131] 系統(tǒng)802還可包括執(zhí)行發(fā)射和接收射頻通信的功能的無(wú)線電872。經(jīng)由通信載體或 服務(wù)供應(yīng)者,無(wú)線電872促進(jìn)系統(tǒng)802和"外部世界"之間的無(wú)線連接。在操作系統(tǒng)864的控制 下進(jìn)行與無(wú)線電872之間的傳輸。換句話說(shuō),可經(jīng)由操作系統(tǒng)864將無(wú)線電872接收到的通信 散布到應(yīng)用程序866反之亦然。
[0132] 視覺指示器820可用于提供視覺通知,和/或音頻接口 874可用于經(jīng)由音頻換能器 825生成聽得見的通知。在所解說(shuō)的實(shí)施例中,視覺指示器820是發(fā)光二極管(LED)而音頻換 能器825是揚(yáng)聲器。這些設(shè)備可直接耦合到電源870以使它們?cè)诩せ顣r(shí)保持開啟達(dá)通知機(jī)制 所陳述的持續(xù)時(shí)間,即使處理器860以及其它組件可能關(guān)閉以節(jié)約電池電量。LED可被編程 為無(wú)限地保持開啟,直至用戶采取措施來(lái)指示該設(shè)備的開啟狀態(tài)。音頻接口874用于向用戶 提供聽得見的信號(hào)且接收來(lái)自用戶的聽得見的信號(hào)。例如,除了被耦合到音頻換能器825之 外,音頻接口 874還可被耦合到話筒來(lái)接收可聽輸入,例如促成電話通話或捕捉語(yǔ)音以供語(yǔ) 音識(shí)別。根據(jù)本發(fā)明的實(shí)施例,話筒還可用作音頻傳感器以促進(jìn)對(duì)通知的控制。系統(tǒng)802可 進(jìn)一步包括允許板載相機(jī)830的操作來(lái)記錄靜止圖像、視頻流等的視頻接口 876。
[0133] 實(shí)現(xiàn)系統(tǒng)802的移動(dòng)計(jì)算設(shè)備800可具有附加特征或功能。例如,移動(dòng)計(jì)算設(shè)備800 還可包括附加數(shù)據(jù)存儲(chǔ)設(shè)備(可移除和/或不可移除),諸如磁盤、光盤或帶。這種附加存儲(chǔ) 設(shè)備在圖8B中用非易失性存儲(chǔ)區(qū)868示出。
[0134] 如上所述,通過移動(dòng)計(jì)算設(shè)備800生成或捕捉且經(jīng)由系統(tǒng)802存儲(chǔ)的數(shù)據(jù)/信息可 在本地被存儲(chǔ)在移動(dòng)計(jì)算設(shè)備800上,或者該數(shù)據(jù)可被存儲(chǔ)在可由該設(shè)備經(jīng)由無(wú)線電872或 者經(jīng)由移動(dòng)計(jì)算設(shè)備800與關(guān)聯(lián)于移動(dòng)計(jì)算設(shè)備800的單獨(dú)計(jì)算設(shè)備(例如,分布式計(jì)算網(wǎng) 絡(luò)中的服務(wù)器計(jì)算機(jī)(諸如因特網(wǎng)))之間的有線連接訪問的任意數(shù)量的存儲(chǔ)介質(zhì)上。如應(yīng) 當(dāng)領(lǐng)會(huì)的,可經(jīng)由移動(dòng)計(jì)算設(shè)備800、經(jīng)由無(wú)線電872、或者經(jīng)由分布式計(jì)算網(wǎng)絡(luò)訪問此類數(shù) 據(jù)/信息。類似地,可以在根據(jù)熟知的數(shù)據(jù)/信息轉(zhuǎn)移和存儲(chǔ)裝置(包括電子郵件和協(xié)同數(shù) 據(jù)/信息共享系統(tǒng))的用于存儲(chǔ)和使用的計(jì)算設(shè)備之間容易地轉(zhuǎn)移此類數(shù)據(jù)/信息。
[0135] 圖9示出了用于處理如以上描述的在計(jì)算系統(tǒng)處從遠(yuǎn)程源(諸如計(jì)算設(shè)備904、平 板906或移動(dòng)設(shè)備908)接收的數(shù)據(jù)的系統(tǒng)的架構(gòu)的一個(gè)實(shí)施例。在服務(wù)器設(shè)備902處顯示的 內(nèi)容可按不同的通信信道或其它存儲(chǔ)類型來(lái)被存儲(chǔ)。例如,可使用目錄服務(wù)922、web門戶 924、郵箱服務(wù)926、即時(shí)消息存儲(chǔ)928、或者社交網(wǎng)站930來(lái)存儲(chǔ)各種文檔。語(yǔ)音識(shí)別應(yīng)用713 可被與服務(wù)器902進(jìn)行通信的客戶端使用。服務(wù)器902可通過網(wǎng)絡(luò)915向諸如個(gè)人計(jì)算機(jī) 904、平板計(jì)算設(shè)備906和/或移動(dòng)計(jì)算設(shè)備908(例如,智能電話)的客戶端計(jì)算設(shè)備提供數(shù) 據(jù)并接收來(lái)自該客戶端計(jì)算設(shè)備的數(shù)據(jù)。作為示例,以上描述的計(jì)算機(jī)系統(tǒng)可被具體化在 個(gè)人計(jì)算機(jī)904、平板計(jì)算設(shè)備906和/或移動(dòng)計(jì)算設(shè)備908(例如,智能電話)中。除了接收被 用于要在圖形始發(fā)系統(tǒng)處預(yù)處理或在接收計(jì)算系統(tǒng)處后處理的圖形數(shù)據(jù)之外,計(jì)算設(shè)備的 這些實(shí)施例中的任意可獲得來(lái)自存儲(chǔ)916的內(nèi)容。
[0136] 圖10示出可執(zhí)行在此公開的一個(gè)或多個(gè)實(shí)施例的示例性平板計(jì)算設(shè)備1000。另 外,本文中所描述的實(shí)施例和功能可在分布式系統(tǒng)(例如,基于云的計(jì)算系統(tǒng))上操作,其中 應(yīng)用功能、存儲(chǔ)器、數(shù)據(jù)存儲(chǔ)和檢索、以及各種處理功能可在分布式計(jì)算網(wǎng)絡(luò)(諸如因特網(wǎng) 或內(nèi)聯(lián)網(wǎng))上彼此遠(yuǎn)程地操作。各種類型的用戶界面和信息可經(jīng)由板上計(jì)算設(shè)備顯示器或 者經(jīng)由與一個(gè)或多個(gè)計(jì)算設(shè)備相關(guān)聯(lián)的遠(yuǎn)程顯示單元顯示。例如,各種類型的用戶界面和 信息可顯示并且在各種類型的用戶界面和信息在其上投影的墻面上交互。與通過其可實(shí)踐 本發(fā)明的實(shí)施例的多個(gè)計(jì)算系統(tǒng)的交互包括按鍵輸入、觸摸屏輸入、語(yǔ)音或其它音頻輸入、 其中相關(guān)聯(lián)的計(jì)算設(shè)備配備有用于捕捉和解釋用戶手勢(shì)以控制計(jì)算設(shè)備的功能的檢測(cè)(例 如,相機(jī))功能的手勢(shì)輸入等等。
[0137] 以上參考例如根據(jù)本發(fā)明的各實(shí)施例的方法、系統(tǒng)和計(jì)算機(jī)程序產(chǎn)品的框圖和/ 或操作圖示描述了本發(fā)明的各實(shí)施例。框圖中所注釋的功能/動(dòng)作可以不按照如任一流程 圖中所示的次序發(fā)生。例如,連續(xù)示出的兩個(gè)框?qū)嶋H上可基本并發(fā)地執(zhí)行,或者取決于所涉 及的功能/動(dòng)作,這些框有時(shí)可以相反的次序執(zhí)行。
[0138] 此外,為了保護(hù)用戶的隱私,用戶的、或來(lái)自用戶的、或從用戶的輸入得到的可能 私密的數(shù)據(jù)的任何聚集可在此處公開的系統(tǒng)或方法中使用之前首先被匿名化。這種匿名化 可包括移除可將要利用的結(jié)果聯(lián)系到個(gè)體用戶的部分或全部元數(shù)據(jù)或其它數(shù)據(jù)。所期望匿 名化程度可由用戶選擇或定制。
[0139] 本申請(qǐng)中提供的一個(gè)或多個(gè)實(shí)施例的描述和說(shuō)明不旨在以任何方式限制或約束 如權(quán)利要求所要求保護(hù)的發(fā)明范圍。本申請(qǐng)中提供的實(shí)施例、示例和細(xì)節(jié)被認(rèn)為是足以傳 達(dá)所有權(quán),且使得他人能夠制作并使用所要求保護(hù)的發(fā)明的最佳模式。而且,術(shù)語(yǔ)示例性的 '°'以及"解說(shuō)性的"僅意在指示示例,而不是指定一個(gè)示例必然相對(duì)于任何其它示例更有用 或有益。所要求保護(hù)的發(fā)明不應(yīng)被理解為限制于本申請(qǐng)中所提供的任何實(shí)施例、示例或細(xì) 節(jié)。不管是組合還是單獨(dú)地示出和描述,各個(gè)(結(jié)構(gòu)和方法)特征旨在選擇性地包括或省略 以產(chǎn)生具有一組特定特征的實(shí)施例。在被提供本申請(qǐng)的描述和說(shuō)明的情況下,本領(lǐng)域的技 術(shù)人員能夠想象到落在所要求保護(hù)的發(fā)明的更寬泛方面以及本申請(qǐng)中所具體化的一般發(fā) 明概念的精神內(nèi)的變體、修改和替換實(shí)施例并不背離該更寬泛的范圍。
【主權(quán)項(xiàng)】
1. 一種用于識(shí)別語(yǔ)音的方法,所述方法包括: 捕捉語(yǔ)音輸入; 為環(huán)境變量確定數(shù)值; 利用深度神經(jīng)網(wǎng)絡(luò)(DNN)來(lái)識(shí)別所捕捉的語(yǔ)音輸入,其中DNN的一個(gè)或多個(gè)組件被建模 為一組環(huán)境變量的函數(shù);以及 產(chǎn)生經(jīng)識(shí)別語(yǔ)音的輸出。2. 如權(quán)利要求1所述的方法,其特征在于,所述DNN的一個(gè)或多個(gè)組件至少包括一個(gè)或 多個(gè)加權(quán)矩陣和一個(gè)或多個(gè)DNN偏移中的一組。3. 如權(quán)利要求1所述的方法,其中所述DNN的一個(gè)或多個(gè)組件是所述DNN隱藏層的一個(gè) 或多個(gè)輸出。4. 如權(quán)利要求1所述的方法,其中所述DNN的一個(gè)或多個(gè)組件是所述DNN中一個(gè)或多個(gè) 節(jié)點(diǎn)的一個(gè)或多個(gè)激活函數(shù)。5. 如權(quán)利要求1所述的方法,其中所述環(huán)境變量基于環(huán)境的噪聲。6. 如權(quán)利要求5所述的方法,其特征在于,所述環(huán)境變量是信噪比。7. -種用于識(shí)別語(yǔ)音的系統(tǒng),所述系統(tǒng)包括: 語(yǔ)首捕捉設(shè)備; 特征提取模塊; 環(huán)境變量模塊,其中所述環(huán)境變量模塊確定環(huán)境變量的值;以及 語(yǔ)音識(shí)別解碼器,其中所述語(yǔ)音識(shí)別譯碼器利用深度神經(jīng)網(wǎng)絡(luò)(DNN)來(lái)識(shí)別由所述語(yǔ) 音捕捉裝置捕捉的語(yǔ)音,其中所述DNN的一個(gè)或多個(gè)組件被建模為環(huán)境變量的一組函數(shù)。8. 如權(quán)利要求7所述的系統(tǒng),其特征在于,所述DNN的一個(gè)或多個(gè)組件至少包括一個(gè)或 多個(gè)加權(quán)矩陣和一個(gè)或多個(gè)DNN偏移中的一組。9. 如權(quán)利要求7所述的系統(tǒng),其中所述DNN的一個(gè)或多個(gè)組件是所述DNN隱藏層的一個(gè) 或多個(gè)輸出。10. 如權(quán)利要求7所述的系統(tǒng),其中所述DNN的一個(gè)或多個(gè)組件是所述DNN中一個(gè)或多個(gè) 節(jié)點(diǎn)的一個(gè)或多個(gè)激活函數(shù)。11. 如權(quán)利要求7所述的系統(tǒng),其中所述環(huán)境變量基于環(huán)境的噪聲。12. 如權(quán)利要求11所述的系統(tǒng),其特征在于,所述環(huán)境變量是信噪比。
【文檔編號(hào)】G10L15/16GK105960672SQ201480075008
【公開日】2016年9月21日
【申請(qǐng)日】2014年9月9日
【發(fā)明人】J·李, R·趙, Y·宮
【申請(qǐng)人】微軟技術(shù)許可有限責(zé)任公司