一種語音識別方法及裝置的制造方法
【專利摘要】本發(fā)明的實(shí)施例提供一種語音識別方法及裝置,涉及計(jì)算機(jī)技術(shù)領(lǐng)域,用以解決現(xiàn)有的語音識別技術(shù)對語音進(jìn)行語音分類時(shí),所導(dǎo)致的語音分類區(qū)分度不高的問題。該方法包括:提取待識別語音的至少兩個(gè)語音特征;基于多層受限玻爾茲曼機(jī)RBM對至少兩個(gè)語音特征中的每個(gè)語音特征分別進(jìn)行訓(xùn)練,得到每個(gè)語音特征對應(yīng)的深度語音特征;將每個(gè)語音特征對應(yīng)的深度語音特征進(jìn)行特征融合,得到待識別語音的深度語音特征;將待識別語音的深度語音特征輸入分類器進(jìn)行分類,得到待識別語音的語音類別。本發(fā)明應(yīng)用于語音識別。
【專利說明】
一種語音識別方法及裝置
技術(shù)領(lǐng)域
[0001 ]本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種語音識別方法及裝置。
【背景技術(shù)】
[0002]目前,隨著語音識別技術(shù)在人機(jī)交互領(lǐng)域的不斷發(fā)展,在人機(jī)交互的過程中,具有像人一樣的情感能力是機(jī)器智能的必要基礎(chǔ)。在已有技術(shù)中,計(jì)算機(jī)在進(jìn)行語音情感識別或語音鄉(xiāng)音識別時(shí),通常是基于直接提取的語音特征參數(shù)(例如,短時(shí)能量、共振峰以及基音頻率等能夠表征說話人情緒的韻律特征以及音質(zhì)特征的特征參數(shù))以及淺層結(jié)構(gòu)算法(例如、支持向量機(jī)(英文:Support Vector Machine,簡稱:SVM))得到的分類器對語音進(jìn)行分類的。
[0003]但是,由于直接提取的語音特征參數(shù)中本身包含的信息量比較少,且語音特征間的區(qū)分度不高,從而導(dǎo)致分類器無法對這些語音特征進(jìn)行精細(xì)化的區(qū)分,對于復(fù)雜的語音分類問題存在一定制約,無法正確及精細(xì)的對語音實(shí)現(xiàn)分類。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的實(shí)施例提供一種語音識別方法及裝置,用以解決現(xiàn)有的語音識別技術(shù)對語音進(jìn)行語音識別時(shí)所導(dǎo)致的語音分類區(qū)分度不高的問題。
[0005]第一方面,提供一種語音識別方法,包括:
[0006]提取待識別語音的至少兩個(gè)語音特征;
[0007]基于多層受限玻爾茲曼機(jī)RBM對所述至少兩個(gè)語音特征中的每個(gè)語音特征分別進(jìn)行訓(xùn)練,得到所述每個(gè)語音特征對應(yīng)的深度語音特征;
[0008]將所述每個(gè)語音特征對應(yīng)的深度語音特征進(jìn)行特征融合,得到所述待識別語音的深度語音特征;
[0009]將所述待識別語音的深度語音特征輸入分類器進(jìn)行分類,得到所述待識別語音的語音類別。
[0010]第二方面,提供一種語音識別裝置,包括:
[0011 ]提取模塊,用于提取待識別語音的至少兩個(gè)語音特征;
[0012]訓(xùn)練模塊,用于基于多層受限玻爾茲曼機(jī)RBM對所述提取模塊提取出的所述至少兩個(gè)語音特征中的每個(gè)語音特征分別進(jìn)行訓(xùn)練,得到所述每個(gè)語音特征對應(yīng)的深度語音特征;
[0013]融合模塊,用于將所述訓(xùn)練模塊得到的所述每個(gè)語音特征對應(yīng)的深度語音特征進(jìn)行特征融合,得到所述待識別語音的深度語音特征;
[0014]分類模塊,用于將所述同和模塊得到的所述待識別語音的深度語音特征輸入分類器進(jìn)行分類,得到所述待識別語音的語音類別。
[0015]本發(fā)明的實(shí)施例提供的語音識別方法及裝置,基于多層RBM對待識別語音的至少兩個(gè)語音特征中的每個(gè)語音特征分別進(jìn)行訓(xùn)練,得到上述的每個(gè)語音特征對應(yīng)的深度語音特征,然后將每個(gè)語音特征對應(yīng)的深度語音特征進(jìn)行特征融合,得到該待識別語音的深度語音特征,最后將該待識別語音的深度語音特征輸入分類器進(jìn)行分類,得到該待識別語音的語音類別。相比于現(xiàn)有技術(shù)通過直接提取的語音特征對語音進(jìn)行分類,本申請通過對待識別語音的多個(gè)不同語音特征分別進(jìn)行多層RBM訓(xùn)練,由于多層RBM網(wǎng)絡(luò)具有多層分線性映射的深層結(jié)構(gòu),會對待訓(xùn)練的語音特征實(shí)現(xiàn)逐層訓(xùn)練,每層提取出的深度特征會作為下一層的待訓(xùn)練特征進(jìn)行進(jìn)一步的深度挖掘,從而使得提取出的每個(gè)語音特征的深度語音特征保留了其關(guān)鍵信息,提高了語音特征的敏感度,使得語音特征間的區(qū)分度變大,然后將提取出的不同語音特征的深度語音特征進(jìn)行信息融合組合成新的語音特征,從而最大限度的保留了待識別語音的不同特征以及關(guān)鍵信息,這樣將該新的語音特征作為分類器的輸入分類器進(jìn)行分類,從而有效的提高語音識別的準(zhǔn)確度,提升了各種語音類別間的區(qū)分度。
【附圖說明】
[0016]為了更清楚地說明本發(fā)明實(shí)施例的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0017]圖1為本發(fā)明實(shí)施例提供的一種RBM的典型結(jié)構(gòu)不意圖;
[0018]圖2為本發(fā)明實(shí)施例提供的一種多層RBM的級聯(lián)構(gòu)成的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖;
[0019]圖3為本發(fā)明實(shí)施例提供的一種語音識別方法的流程示意圖;
[0020]圖4為本發(fā)明實(shí)施例提供的一種基于RBM的語音識別過程的流程示意圖;
[0021 ]圖5為本發(fā)明實(shí)施例提供的一種語音識別系統(tǒng)框圖;
[0022]圖6為本發(fā)明實(shí)施例提供的一種語音識別裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0023]下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0024]本發(fā)明實(shí)施例提供的語音識別方法的執(zhí)行主體可以為語音識別裝置,或者用于執(zhí)行上述語音識別方法的終端設(shè)備。具體的,該移動終端可以為智能電視、智能手機(jī)、平板電腦、筆記本電腦、超級移動個(gè)人計(jì)算機(jī)(英文:Ultra_mobile Personal Computer,簡稱:UMPC)、上網(wǎng)本、個(gè)人數(shù)字助理(英文:Personal Digital Assistant,簡稱:PDA)等終端設(shè)備。其中,語音識別裝置可以為上述終端設(shè)備中的中央處理器(英文:Central ProcessingUnit,簡稱CPU)或者可以為上述終端設(shè)備的中的控制單元或者功能模塊。
[0025]深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究。含多隱層的多層感知器就是一種深度學(xué)習(xí)結(jié)構(gòu)。深度學(xué)習(xí)通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。深度學(xué)習(xí)動機(jī)在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),它模仿人腦的機(jī)制來解釋數(shù)據(jù),例如圖像,聲音和文本。而深度學(xué)習(xí)區(qū)別于淺層學(xué)習(xí),主要表現(xiàn)為:I)強(qiáng)調(diào)了模型結(jié)構(gòu)的深度,通常有5層,6層,甚至十幾層的隱層節(jié)點(diǎn);2)明確突出了特征學(xué)習(xí)的重要性,即通過逐層特征變換,將樣本在原空間的特征表示變換到一個(gè)新特征空間,從而使得分類和預(yù)測更加容易。較人工規(guī)則構(gòu)造特征的方法相比,利用大數(shù)據(jù)來學(xué)習(xí)特征,更能夠表達(dá)數(shù)據(jù)的豐富內(nèi)在信息。
[0026]本發(fā)明實(shí)施例中的多層受限玻爾茲曼機(jī)(英文-Restricted Boltzmann Machine,簡稱:RBM)是深度學(xué)習(xí)的一個(gè)常用模型,也是目前使用較為廣泛的深度學(xué)習(xí)模型。其中,上述的多層RBM是一個(gè)包含多層隱藏變量的概率生成模型,這些網(wǎng)絡(luò)被“限制”為一個(gè)可視層和一個(gè)隱藏層,層間存在連接,但層內(nèi)的單元間不存在連接,其中隱層單元被訓(xùn)練去捕捉在可視層表現(xiàn)出來的一個(gè)高階相關(guān)過程。而多層RBM網(wǎng)絡(luò)的連接是通過自頂向下的生成權(quán)值來指導(dǎo)確定的。
[0027]具體的,參照圖1所示的RBM的典型結(jié)構(gòu)圖可知,典型RBM模型是兩層結(jié)構(gòu),一層為可視層,一層為隱藏層,該可見層的m個(gè)節(jié)點(diǎn)單元(如圖1中的節(jié)點(diǎn)a)相互獨(dú)立,該隱藏層的η個(gè)節(jié)點(diǎn)單元(如圖2中的節(jié)點(diǎn)b)相互獨(dú)立,上述的可見層的m個(gè)節(jié)點(diǎn)單元與上述的隱藏層的η個(gè)節(jié)點(diǎn)單元之間的連接權(quán)重值為W。
[0028]本文中術(shù)語“和/或”,僅僅是一種描述關(guān)聯(lián)對象的關(guān)聯(lián)關(guān)系,表示可以存在三種關(guān)系,例如,六和/或B,可以表示:單獨(dú)存在A,同時(shí)存在A和B,單獨(dú)存在B這三種情況。另外,本文中字符,一般表示前后關(guān)聯(lián)對象是一種“或”的關(guān)系。
[0029]本發(fā)明的實(shí)施例提供一種語音識別方法,如圖3所示,該方法包括如下步驟:
[0030]101、語音識別裝置提取待識別語音的至少兩個(gè)語音特征。
[0031]本實(shí)施例語音特征包括用于表征語音情感的語音情感特征和/或用于表征語音鄉(xiāng)音的語音鄉(xiāng)音特征。具體的,本實(shí)施例中的語音特征包括短時(shí)能量、持續(xù)時(shí)間、短時(shí)過零率、共振峰、基音頻率、線性預(yù)測倒譜系數(shù)(英文:Linear Predict1n CepstrumCoefficient,,簡稱:LPCC)、Mel 頻率倒譜系數(shù)(英文:Mel Frequency CepstrumCoeff icient,,簡稱MFCC)、Mel頻帶能量及其衍生參數(shù)中的至少兩個(gè)。
[0032]當(dāng)語音特征為語音情感特征時(shí),對應(yīng)的,語音特征類別為語音情感類別。示例性的,用戶的語音情感通常情況下可以分為六類:“高興”、“憤怒”、“悲傷”、“驚訝”、“恐懼”、“平靜”,這樣語音識別裝置在識別出待識別語音所反映的用戶情感類型后,該語音識別裝置便可針對用戶不同的情緒進(jìn)行相應(yīng)的語音合成應(yīng)答,電視主題類型設(shè)置及電視服務(wù)類型推薦。例如,終端設(shè)備可以根據(jù)用戶當(dāng)前的語音所反饋的語音情感,為用戶推薦不同的節(jié)目,如,在“憤怒”的情況下,溫馨、勵(lì)志、文藝等類型的影片比較有利于情緒的放松,當(dāng)用戶“悲傷”時(shí),觀看喜劇片、娛樂綜藝等幽默搞笑的節(jié)目有助于排解情緒;無明顯情緒變化(“平靜”)時(shí),用戶觀看的節(jié)目類型一般與日常觀影習(xí)慣相似。此外,由于終端的主題界面的設(shè)置對用戶的心理有著正面和積極的影響,而根據(jù)UI設(shè)計(jì)的色彩心理學(xué)知識,不同色彩會引起不同的情緒和情感的波動,因此,終端設(shè)備也可根據(jù)用戶當(dāng)前語音所反饋的語音情感對終端設(shè)備的主題進(jìn)行人性化設(shè)置。
[0033]當(dāng)語音特征為語音鄉(xiāng)音特征時(shí),對應(yīng)的,語音特征類別為語音鄉(xiāng)音類別。示例性的,我國是個(gè)多方言地區(qū)的國家,不同區(qū)域的人語音特性及說話方式具有一定的差異,除了標(biāo)準(zhǔn)的普通話,還有七種主要的方言一一官話方言、吳方言、客家方言、粵方言、閩方言、贛方言、湘方言,以上幾種方言下還可細(xì)分為更多的方言支系,此外,語音特性因人而異,同一個(gè)人的語音數(shù)據(jù)受很多外部因素的影響,如說話人的性別、年齡、語速、教育程度,語音采集設(shè)備的質(zhì)量以及環(huán)境噪聲等。因此,本發(fā)明實(shí)施例中的語音識別裝置在識別出待識別語音所反映的語音鄉(xiāng)音類別后,該語音識別裝置便可針對用戶不同的鄉(xiāng)音類型進(jìn)行相應(yīng)的語音合成應(yīng)答,電視主題類型設(shè)置及電視服務(wù)類型推薦。
[0034]示例性的,語音識別裝置在提取待識別語音的語音情感特征時(shí),可以將訓(xùn)練語音樣本中可以表征語音情感的韻律特征和音質(zhì)特性作為語音情感特征,例如:短時(shí)能量、持續(xù)時(shí)間、短時(shí)過零率、共振峰、基音頻率、LPCC、MFCC、Mel頻帶能量及其衍生參數(shù)。而語音識別裝置在提取待識別語音的語音鄉(xiāng)音特征時(shí),可以將訓(xùn)練語音樣本中可以表征地方口音特性的特征參數(shù)作為語音鄉(xiāng)音特征,例如:MFCC、能量以及共振峰頻率等。需要說明的是,由于以上各種語音特征參數(shù)的提取過程均為現(xiàn)有算法,此處不再就各特征參數(shù)的計(jì)算過程進(jìn)行介紹。
[0035]此外,為了方便獲取提取待識別語音的語音特征,本發(fā)明實(shí)施例在提取待識別語音的語音特征之前,還可以對待識別語音進(jìn)行預(yù)處理,即對待識別語音進(jìn)行預(yù)加重、分幀加窗以及端點(diǎn)檢測處理,其中幀長取16ms,S卩256個(gè)采樣點(diǎn),幀移為128個(gè)采樣點(diǎn),對每一語音幀加上漢明窗,利用短時(shí)能量和過零率的雙閾值法,來判斷語音的起始點(diǎn)。
[0036]102、語音識別裝置基于多層RBM對至少兩個(gè)語音特征中的每個(gè)語音特征分別進(jìn)行訓(xùn)練,得到每個(gè)語音特征對應(yīng)的深度語音特征。
[0037]示例性的,語音識別裝置對待識別語音的多個(gè)語音特征中的每個(gè)語音特征分別進(jìn)行多層RBM訓(xùn)練時(shí),可以針對每種語音特征分別構(gòu)建多層RBM網(wǎng)絡(luò),然后基于構(gòu)建的多層RBM網(wǎng)絡(luò),得到對應(yīng)的語音特征的深度語音特征。
[0038]具體的,參照圖3所示的多層RBM網(wǎng)絡(luò)的結(jié)構(gòu)圖可知,若本實(shí)施例中的多層RBM網(wǎng)絡(luò)的層數(shù)以3層為例時(shí),語音識別裝置對任一語音特征構(gòu)建三層RBM網(wǎng)絡(luò)進(jìn)行深度語音特征提取的過程,可以參照下述過程來實(shí)現(xiàn):
[0039]I)構(gòu)建二層RBM網(wǎng)絡(luò)(可以參照圖1);
[0040]若一個(gè)二層RBM網(wǎng)絡(luò)的可視層包括M個(gè)節(jié)點(diǎn),隱藏層包括η個(gè)節(jié)點(diǎn),對于一個(gè)待訓(xùn)練的語音特征向量X= (XI ,XI,......,Xm)來說,X向量中的每個(gè)分量對應(yīng)著可視層的一個(gè)節(jié)點(diǎn),通過可視層輸入經(jīng)過一些列語音得到一個(gè)向量Y = (yi,yi,......,yn),Y向量中的每個(gè)分量對應(yīng)著隱藏層的一個(gè)節(jié)點(diǎn),上述的X向量與Y向量的分量都對應(yīng)著每個(gè)節(jié)點(diǎn)單獨(dú)偏置量?;谏鲜鰞?nèi)容,我們可以理解,RBM模型就是將一個(gè)維度為m的語音特征向量映射到一個(gè)維度為η的語音特征向量。
[0041 ] 2)對構(gòu)建的二層RBM網(wǎng)絡(luò)進(jìn)行訓(xùn)練;
[0042]具體的,RBM網(wǎng)絡(luò)的訓(xùn)練過程包括:a、初始化該構(gòu)建的二層RBM網(wǎng)絡(luò)的相關(guān)參數(shù),其中,該相關(guān)參數(shù)Θ = {Wij,ai,bj},Wij為可視層的節(jié)點(diǎn)單元i和隱藏層的節(jié)點(diǎn)單元j之間的權(quán)重系數(shù),Wlj是服從均值為0,標(biāo)準(zhǔn)差為I的正態(tài)分布,ai為可見層的節(jié)點(diǎn)單元的偏置量,h為隱藏層的節(jié)點(diǎn)單元的偏置量,ai,bj初始值均為O ;ie 1,2,......,m;j,vei,2,......,n; b、將待識別語音的任一語音特征賦給該二層RBM網(wǎng)絡(luò)的可視層進(jìn)行RBM訓(xùn)練,得到該第一語音特征對應(yīng)的深度語音特征。
[0043]3)將訓(xùn)練好的二層RBM網(wǎng)絡(luò)的二層隱藏層作為可視層,即可以認(rèn)為隱藏層是可視層的另一種表達(dá)形式,因此隱藏層可以作為可視層輸入數(shù)據(jù)的特征,繼續(xù)構(gòu)造二層RBM網(wǎng)絡(luò),重復(fù)上述步驟(I) (2),直到完成三層RBM網(wǎng)絡(luò)的構(gòu)建,并將該三層RBM網(wǎng)絡(luò)的輸出特征作為該待識別語音的任一語音特征的深度語音特征。
[0044]103、語音識別裝置將每個(gè)語音特征對應(yīng)的深度語音特征進(jìn)行特征融合,得到待識別語音的深度語音特征。
[0045]示例性的,參照圖4所示基于RBM的語音識別過程的流程示意圖。語音識別裝置在該待識別語音的多個(gè)語音特征中的每個(gè)語音特征的深度語音特征數(shù)據(jù)進(jìn)行融合時(shí)所使用的融合方法可以參照下述方法:例如,加權(quán)特征融合、基于核空間的投影特征融合、基于相關(guān)分析的特征融合等等,這里不做限制。
[0046]具體的,加權(quán)特征融合的具體過程包括:語音識別裝置獲取預(yù)設(shè)的語音特征權(quán)重閾值,根據(jù)所述語音特征權(quán)重閾值與所述語音的每個(gè)語音特征對應(yīng)的深度語音特征,得到該語音的深度語音特征,從而保留了語音的所有語音特征的關(guān)鍵信息及特征信息。例如,可以將所有需要融合的語音特征的權(quán)重設(shè)為I,然后將所有語音特征的深度語音特征進(jìn)行簡單的串聯(lián)累加。
[0047]104、語音識別裝置將待識別語音的深度語音特征輸入分類器進(jìn)行分類,得到待識別語首的語首類別。
[0048]此外,語音是被裝置在對分類器訓(xùn)練后,可以對訓(xùn)練后的分類器進(jìn)行微調(diào),利用最頂層的輸出標(biāo)簽,通過反向傳播網(wǎng)絡(luò)將錯(cuò)誤信息自頂向下傳播至每一層深度神經(jīng)網(wǎng)絡(luò),從而微調(diào)整個(gè)深度神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò),進(jìn)而對整體的分類器參數(shù)實(shí)現(xiàn)了微調(diào)。
[0049]本發(fā)明的實(shí)施例提供的語音識別方法,基于多層RBM對待識別語音的至少兩個(gè)語音特征中的每個(gè)語音特征分別進(jìn)行訓(xùn)練,得到上述的每個(gè)語音特征對應(yīng)的深度語音特征,然后將每個(gè)語音特征對應(yīng)的深度語音特征進(jìn)行特征融合,得到該待識別語音的深度語音特征,最后將該待識別語音的深度語音特征輸入分類器進(jìn)行分類,得到該待識別語音的語音類別。相比于現(xiàn)有技術(shù)通過直接提取的語音特征對語音進(jìn)行分類,本申請通過對待識別語音的多個(gè)不同語音特征分別進(jìn)行多層RBM訓(xùn)練,由于多層RBM網(wǎng)絡(luò)具有多層分線性映射的深層結(jié)構(gòu),會對待訓(xùn)練的語音特征實(shí)現(xiàn)逐層訓(xùn)練,每層提取出的深度特征會作為下一層的待訓(xùn)練特征進(jìn)行進(jìn)一步的深度挖掘,從而使得提取出的每個(gè)語音特征的深度語音特征保留了其關(guān)鍵信息,提高了語音特征的敏感度,使得語音特征間的區(qū)分度變大,然后將提取出的不同語音特征的深度語音特征進(jìn)行信息融合組合成新的語音特征,從而最大限度的保留了待識別語音的不同特征以及關(guān)鍵信息,這樣將該新的語音特征作為分類器的輸入分類器進(jìn)行分類,從而有效的提高語音識別的準(zhǔn)確度,提升了各種語音類別間的區(qū)分度。
[0050]示例性的,如圖5所示的語音識別系統(tǒng)框圖可知,當(dāng)步驟104中的分類器為訓(xùn)練后的分類器時(shí),在步驟104之前,該方法還包括:
[0051]104a、語音識別裝置提取所述訓(xùn)練語音樣本的至少兩個(gè)語音特征及語音類別。
[0052]示例性的,本發(fā)明實(shí)施例中的訓(xùn)練語音樣本集中包含了所有語音類別對應(yīng)的訓(xùn)練語音樣本。
[0053]104b、語音識別裝置基于多層RBM對訓(xùn)練語音樣本的至少兩個(gè)語音特征中的每個(gè)語音特征分別進(jìn)行訓(xùn)練,得到訓(xùn)練語音樣本的每個(gè)語音特征對應(yīng)的深度語音特征。
[0054]104c、語音識別裝置將訓(xùn)練語音樣本的每個(gè)語音特征對應(yīng)的深度語音特征進(jìn)行特征融合,得到訓(xùn)練語音樣本的深度語音特征。
[0055]104d、語音識別裝置將訓(xùn)練語音樣本的深度語音特征作為分類器輸入特征,并將訓(xùn)練語音樣本的語音類別作為分類器的輸出特征,對分類器進(jìn)行訓(xùn)練,得到經(jīng)過訓(xùn)練的分類器。
[0056]這樣通過上述的步驟104a_104d,便可得到經(jīng)過訓(xùn)練的分類器,由于該分類器的訓(xùn)練樣本均經(jīng)過多層RBM網(wǎng)絡(luò)進(jìn)行深度學(xué)習(xí)訓(xùn)練,這樣將經(jīng)過深度學(xué)習(xí)訓(xùn)練的訓(xùn)練語音樣本的深度語音特征作為分類器的輸入特征,使得所得到的分類器中的語音類別與深度語音特征間存在更精細(xì)的對應(yīng)關(guān)系,從而能夠?qū)^(qū)分度低的語音類別進(jìn)行精確區(qū)分,有效的提高語音識別的準(zhǔn)確度,
[0057]需要說明的是,步驟104a_104c中提取訓(xùn)練語音樣本的語音特征的提取過程、對訓(xùn)練語音樣本的語音特征進(jìn)行多層RBM訓(xùn)練過程以及對多個(gè)語音特征的深度語音特征進(jìn)行特征融合的過程可以參照步驟101-步驟103的描述,這里不再贅述。
[0058]此外,語音識別裝置在經(jīng)過上述過程識別出語音的情感類別或鄉(xiāng)音類別后,便可將所得的情感識別結(jié)果或鄉(xiāng)音識別結(jié)果結(jié)合視頻推薦系統(tǒng)為用戶推薦多媒體文件。
[0059]以情感類別為例,終端根據(jù)用戶的情感狀態(tài)對電視主題界面進(jìn)行調(diào)整,從視覺角度對用戶產(chǎn)生積極的正面影響。同時(shí)對語音合成進(jìn)行調(diào)整,并推薦相應(yīng)的節(jié)目類型,例如:當(dāng)用戶情感狀態(tài)為“平靜”時(shí),語音合成保持正常的語速和語氣,推薦的節(jié)目類型主要根據(jù)用戶日常習(xí)慣進(jìn)行推薦;“高興”時(shí),語音合成應(yīng)答的語速稍快,語氣也較為歡快,此時(shí)可以向用戶推薦最新、最熱的影視劇集和歌曲;當(dāng)情緒為“憤怒”時(shí),語音合成的語速降低,語氣也較為舒緩,可以起到一定的安撫作用,此時(shí)會向該用戶推薦溫馨、勵(lì)志、文藝等類型的影片以利于情緒的放松;當(dāng)用戶“悲傷”時(shí),語音合成的語速稍低,語氣低緩,而此時(shí)喜劇片、娛樂綜藝等幽默搞笑的節(jié)目有助于用戶排解消極的情緒;“驚訝”時(shí)采用語速稍快,疑問的語氣進(jìn)行語音合成,推薦的節(jié)目類型以新、熱為主;“恐懼”狀態(tài)下,語音播報(bào)應(yīng)較為舒緩,節(jié)目應(yīng)以歡快、輕松為主,排除恐怖驚悚類節(jié)目的推送。這樣終端根據(jù)用戶在不同情緒下的需求差異,從而為用戶進(jìn)行個(gè)性化主題設(shè)置、應(yīng)答及電視服務(wù)推薦。當(dāng)用戶根據(jù)個(gè)人的需求愛好使用助手查找用戶所喜愛的電視節(jié)目、廣告或影片等,系統(tǒng)會自動記錄下用戶的觀影記錄并進(jìn)行影視數(shù)據(jù)分析,如高興時(shí)觀看節(jié)目,憤怒時(shí)觀看記錄等,將分類后的觀影信息反饋到不同的情緒推薦列表,實(shí)時(shí)更新推薦列表中的熱門節(jié)目。
[0060]以鄉(xiāng)音類別為例,終端可以根據(jù)用戶的鄉(xiāng)音類別為用戶推薦或使用戶進(jìn)入至同鄉(xiāng)社交網(wǎng)絡(luò)中,從而可以結(jié)合用戶所屬的區(qū)域進(jìn)入電視的同鄉(xiāng)社交網(wǎng)絡(luò),即根據(jù)用戶的鄉(xiāng)音判斷用戶可能的家鄉(xiāng)信息,即可建立用戶特有的老鄉(xiāng)圈。由于電視具備社交的特征屬性,無論在現(xiàn)實(shí)生活還是網(wǎng)絡(luò)中,人們習(xí)慣對各類電視節(jié)目評頭論足,老鄉(xiāng)之間具有一定的文化和觀念認(rèn)同感。結(jié)合用戶的IP信息將處于同一城市且來自同一地區(qū)的正在觀看相同節(jié)目的用戶聯(lián)系起來,用戶可通過該社交網(wǎng)絡(luò)利用家鄉(xiāng)話進(jìn)行實(shí)時(shí)的交流和討論,并分享各自的觀影感受;基于這一特性,也可對有相同興趣愛好并具有同鄉(xiāng)屬性的用戶的觀影記錄進(jìn)行分析,為影視推薦提供相關(guān)依據(jù)。
[0061]本發(fā)明的實(shí)施例提供一種語音識別裝置,如圖6所示,該裝置包括:提取模塊21、訓(xùn)練模塊22、融合模塊23和分類模塊24,其中:
[0062]提取模塊21,用于提取待識別語音的至少兩個(gè)語音特征。
[0063]訓(xùn)練模塊22,用于基于多層受限玻爾茲曼機(jī)RBM對所述提取模塊21提取出的所述至少兩個(gè)語音特征中的每個(gè)語音特征分別進(jìn)行訓(xùn)練,得到所述每個(gè)語音特征對應(yīng)的深度語首特征。
[0064]融合模塊23,用于將所述訓(xùn)練模塊22得到的所述每個(gè)語音特征對應(yīng)的深度語音特征進(jìn)行特征融合,得到所述待識別語音的深度語音特征;
[0065]分類模塊24,用于將所述融合模塊23得到的所述待識別語音的深度語音特征輸入分類器進(jìn)行分類,得到所述待識別語音的語音類別。
[0066]可選的,提取模塊21,還用于提取訓(xùn)練語音樣本的至少兩個(gè)語音特征及語音類別。
[0067]訓(xùn)練模塊22,用于基于多層RBM對提取模塊21提取出的訓(xùn)練語音樣本的至少兩個(gè)語音特征中的每個(gè)語音特征分別進(jìn)行訓(xùn)練,得到訓(xùn)練語音樣本的每個(gè)語音特征對應(yīng)的深度語音特征。
[0068]融合模塊23,用于將訓(xùn)練模塊22得到的訓(xùn)練語音樣本的每個(gè)語音特征對應(yīng)的深度語音特征進(jìn)行特征融合,得到訓(xùn)練語音樣本的深度語音特征。
[0069]訓(xùn)練模塊22,還用于將融合模塊23得到的訓(xùn)練語音樣本的深度語音特征作為分類器輸入特征,并將訓(xùn)練語音樣本的語音類別作為分類器的輸出特征,對分類器進(jìn)行訓(xùn)練,得到經(jīng)過訓(xùn)練的分類器。
[0070]可選的,上述融合模塊23具體用于:獲取預(yù)設(shè)的語音特征權(quán)重閾值,根據(jù)語音特征權(quán)重閾值與語音的每個(gè)語音特征對應(yīng)的深度語音特征,得到語音的深度語音特征。
[0071 ]示例性的,上述的語音特征包括:短時(shí)能量、持續(xù)時(shí)間、短時(shí)過零率、共振峰、基音頻率、LPCC、MFCC、Mel頻帶能量中的至少兩個(gè)。
[0072]示例性的,上述的語音特征包括用于表征語音情感的語音情感特征或用于表征語音鄉(xiāng)音的語音鄉(xiāng)音特征中的至少一種;當(dāng)語音特征為語音情感特征時(shí),對應(yīng)的,語音類別為語音情感類別;當(dāng)語音特征為語音鄉(xiāng)音特征時(shí),對應(yīng)的,語音類別為語音鄉(xiāng)音類別。
[0073]本發(fā)明的實(shí)施例提供的語音識別裝置,基于多層RBM對待識別語音的至少兩個(gè)語音特征中的每個(gè)語音特征分別進(jìn)行訓(xùn)練,得到上述的每個(gè)語音特征對應(yīng)的深度語音特征,然后將每個(gè)語音特征對應(yīng)的深度語音特征進(jìn)行特征融合,得到該待識別語音的深度語音特征,最后將該待識別語音的深度語音特征輸入分類器進(jìn)行分類,得到該待識別語音的語音類別。相比于現(xiàn)有技術(shù)通過直接提取的語音特征對語音進(jìn)行分類,本申請通過對待識別語音的多個(gè)不同語音特征分別進(jìn)行多層RBM訓(xùn)練,由于多層RBM網(wǎng)絡(luò)具有多層分線性映射的深層結(jié)構(gòu),會對待訓(xùn)練的語音特征實(shí)現(xiàn)逐層訓(xùn)練,每層提取出的深度特征會作為下一層的待訓(xùn)練特征進(jìn)行進(jìn)一步的深度挖掘,從而使得提取出的每個(gè)語音特征的深度語音特征保留了其關(guān)鍵信息,提高了語音特征的敏感度,使得語音特征間的區(qū)分度變大,然后將提取出的不同語音特征的深度語音特征進(jìn)行信息融合組合成新的語音特征,從而最大限度的保留了待識別語音的不同特征以及關(guān)鍵信息,這樣將該新的語音特征作為分類器的輸入分類器進(jìn)行分類,從而有效的提高語音識別的準(zhǔn)確度,提升了各種語音類別間的區(qū)分度。
[0074]本申請所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的終端和方法,可以通過其它的方式實(shí)現(xiàn)。例如,以上所描述的裝置實(shí)施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,裝置或單元的間接耦合或通信連接,可以是電性,機(jī)械或其它的形式。
[0075]所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部單元來實(shí)現(xiàn)本實(shí)施例方案的目的。
[0076]另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理包括,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用硬件加軟件功能單元的形式實(shí)現(xiàn)。
[0077]上述以軟件功能單元的形式實(shí)現(xiàn)的集成的單元,可以存儲在一個(gè)計(jì)算機(jī)可讀取存儲介質(zhì)中。上述軟件功能單元存儲在一個(gè)存儲介質(zhì)中,包括若干指令用以使得一臺計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的部分步驟。而前述的存儲介質(zhì)包括:U盤、移動硬盤、只讀存儲器(Read-Only Memory,簡稱ROM)、隨機(jī)存取存儲器(Random Access Memory,簡稱RAM)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
[0078]最后應(yīng)說明的是:以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述實(shí)施例對本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對其中部分技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的精神和范圍。
【主權(quán)項(xiàng)】
1.一種語音識別方法,其特征在于,包括: 提取待識別語音的至少兩個(gè)語音特征; 基于多層受限玻爾茲曼機(jī)RBM對所述至少兩個(gè)語音特征中的每個(gè)語音特征分別進(jìn)行訓(xùn)練,得到所述每個(gè)語音特征對應(yīng)的深度語音特征; 將所述每個(gè)語音特征對應(yīng)的深度語音特征進(jìn)行特征融合,得到所述待識別語音的深度語音特征; 將所述待識別語音的深度語音特征輸入分類器進(jìn)行分類,得到所述待識別語音的語音類別。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述分類器為經(jīng)過訓(xùn)練的分類器;所述將所述待識別語音的深度語音特征輸入分類器進(jìn)行分類,得到所述待識別語音的語音類別之前,所述方法還包括: 提取所述訓(xùn)練語音樣本的至少兩個(gè)語音特征及語音類別; 基于所述多層RBM對所述訓(xùn)練語音樣本的至少兩個(gè)語音特征中的每個(gè)語音特征分別進(jìn)行訓(xùn)練,得到所述訓(xùn)練語音樣本的每個(gè)語音特征對應(yīng)的深度語音特征; 將所述訓(xùn)練語音樣本的每個(gè)語音特征對應(yīng)的深度語音特征進(jìn)行特征融合,得到所述訓(xùn)練語音樣本的深度語音特征; 將所述訓(xùn)練語音樣本的深度語音特征作為所述分類器輸入特征,并將所述訓(xùn)練語音樣本的語音類別作為所述分類器的輸出特征,對所述分類器進(jìn)行訓(xùn)練,得到所述經(jīng)過訓(xùn)練的分類器。3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,將語音的每個(gè)語音特征對應(yīng)的深度語音特征進(jìn)行特征融合,得到所述語音的深度語音特征具體包括: 獲取預(yù)設(shè)的語音特征權(quán)重閾值,根據(jù)所述語音特征權(quán)重閾值與語音的每個(gè)語音特征對應(yīng)的深度語音特征,得到所述語音的深度語音特征。4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述語音特征包括:短時(shí)能量、持續(xù)時(shí)間、短時(shí)過零率、共振峰、基音頻率、線性預(yù)測倒譜系數(shù)LPCC、Mel頻率倒譜系數(shù)(MFCC)、Mel頻帶能量中的至少兩個(gè)。5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述語音特征包括用于表征語音情感的語音情感特征或用于表征語音鄉(xiāng)音的語音鄉(xiāng)音特征中;當(dāng)所述語音特征為語音情感特征時(shí),對應(yīng)的,所述語音類別為語音情感類別;當(dāng)所述語音特征為語音鄉(xiāng)音特征時(shí),對應(yīng)的,所述語音類別為語音鄉(xiāng)音類別。6.一種語音識別裝置,其特征在于,包括: 提取模塊,用于提取待識別語音的至少兩個(gè)語音特征; 訓(xùn)練模塊,用于基于多層受限玻爾茲曼機(jī)RBM對所述提取模塊提取出的所述至少兩個(gè)語音特征中的每個(gè)語音特征分別進(jìn)行訓(xùn)練,得到所述每個(gè)語音特征對應(yīng)的深度語音特征; 融合模塊,用于將所述訓(xùn)練模塊得到的所述每個(gè)語音特征對應(yīng)的深度語音特征進(jìn)行特征融合,得到所述待識別語音的深度語音特征; 分類模塊,用于將所述融合模塊得到的所述待識別語音的深度語音特征輸入分類器進(jìn)行分類,得到所述待識別語音的語音類別。7.根據(jù)權(quán)利要求6所述的裝置,其特征在于: 提取模塊,還用于提取所述訓(xùn)練語音樣本的至少兩個(gè)語音特征及語音類別; 訓(xùn)練模塊,用于基于所述多層RBM對所述提取模塊提取出的所述訓(xùn)練語音樣本的至少兩個(gè)語音特征中的每個(gè)語音特征分別進(jìn)行訓(xùn)練,得到所述訓(xùn)練語音樣本的每個(gè)語音特征對應(yīng)的深度語音特征; 融合模塊,用于將所述訓(xùn)練模塊得到的所述訓(xùn)練語音樣本的每個(gè)語音特征對應(yīng)的深度語音特征進(jìn)行特征融合,得到所述訓(xùn)練語音樣本的深度語音特征; 所述訓(xùn)練模塊,還用于將所述融合模塊得到的所述訓(xùn)練語音樣本的深度語音特征作為所述分類器輸入特征,并將所述訓(xùn)練語音樣本的語音類別作為所述分類器的輸出特征,對所述分類器進(jìn)行訓(xùn)練,得到所述經(jīng)過訓(xùn)練的分類器。8.根據(jù)權(quán)利要求6或7所述的裝置,其特征在于,所述融合模塊具體用于: 獲取預(yù)設(shè)的語音特征權(quán)重閾值,根據(jù)所述語音特征權(quán)重閾值與語音的每個(gè)語音特征對應(yīng)的深度語音特征,得到所述語音的深度語音特征。9.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述語音特征包括:短時(shí)能量、持續(xù)時(shí)間、短時(shí)過零率、共振峰、基音頻率、線性預(yù)測倒譜系數(shù)LPCC、Mel頻率倒譜系數(shù)(MFCC)、Mel頻帶能量中的至少兩個(gè)。10.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述語音特征包括用于表征語音情感的語音情感特征或用于表征語音鄉(xiāng)音的語音鄉(xiāng)音特征;當(dāng)所述語音特征為語音情感特征時(shí),對應(yīng)的,所述語音類別為語音情感類別;當(dāng)所述語音特征為語音鄉(xiāng)音特征時(shí),對應(yīng)的,所述語音類別為語音鄉(xiāng)音類別。
【文檔編號】G10L15/06GK105895087SQ201610172175
【公開日】2016年8月24日
【申請日】2016年3月24日
【發(fā)明人】高偉杰, 任曉楠, 王峰
【申請人】海信集團(tuán)有限公司