两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種語音識別方法及裝置制造方法

文檔序號:2826548閱讀:203來源:國知局
一種語音識別方法及裝置制造方法
【專利摘要】本發(fā)明涉及信息處理【技術(shù)領(lǐng)域】,尤其涉及一種語音識別方法及裝置;其中,所述方法包括:獲取語音數(shù)據(jù);根據(jù)所述語音數(shù)據(jù)的屬性信息自動確定所述語音數(shù)據(jù)的類型;選擇與所述語音數(shù)據(jù)的類型相匹配的聲學(xué)模型進(jìn)行語音識別。通過本發(fā)明技術(shù)方案,根據(jù)語音數(shù)據(jù)類型建立相應(yīng)的聲學(xué)模型,使得聲學(xué)模型的建立更具準(zhǔn)確性;進(jìn)而根據(jù)相應(yīng)的語音數(shù)據(jù)類型選擇相應(yīng)類型的聲學(xué)模型進(jìn)行語音識別,使得語音的識別更具準(zhǔn)確性。
【專利說明】一種語音識別方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息處理【技術(shù)領(lǐng)域】,尤其涉及一種語音識別方法及裝置。
【背景技術(shù)】
[0002]語音識別(Speech Recognition)是新近興起的一門新興學(xué)科。語音識別技術(shù)的應(yīng)用使得機器等相關(guān)設(shè)備“聽懂”人的自然語音,實現(xiàn)了由語音到信號的轉(zhuǎn)換。語音識別通過將語音轉(zhuǎn)換成數(shù)字或模擬信號,進(jìn)而由模擬或數(shù)字信號作為控制信號實現(xiàn)相應(yīng)的控制及其他相關(guān)功能,提升了控制及其他相關(guān)功能實現(xiàn)的便利及靈活性。因此,語音識別在工業(yè)、軍事、交通、醫(yī)學(xué)、生活等各個方面有著廣闊的前景。
[0003]聲學(xué)模型是語音識別的基礎(chǔ),通過對語音數(shù)據(jù)的特征量提取等實現(xiàn)語音的識別。現(xiàn)有技術(shù)中語音識別往往采用單個聲學(xué)模型進(jìn)行語音識別,通過訓(xùn)練建立一個聲學(xué)模型,建立模型后根據(jù)接收的語音數(shù)據(jù),在所建立聲學(xué)模型的基礎(chǔ)上,實現(xiàn)語音的識別;進(jìn)而根據(jù)識別結(jié)果獲取語音包含信息的數(shù)據(jù)信號,實現(xiàn)控制等相關(guān)功能。
[0004]現(xiàn)有技術(shù)中,通過單個聲學(xué)模型進(jìn)行語音識別,因不同語音類型有各自的聲學(xué)特點,以單個聲學(xué)模型作為語音識別的基礎(chǔ)會使得訓(xùn)練的聲學(xué)模型準(zhǔn)確度較差,并進(jìn)而造成語音識別結(jié)果的準(zhǔn)確度較低。

【發(fā)明內(nèi)容】

[0005]本發(fā)明提供了 一種語音識別方法及裝置,以提高語音識別的準(zhǔn)確性。
[0006]第一方面,本發(fā)明實施例提供了一種語音識別的方法,包括:
[0007]獲取語音數(shù)據(jù);
[0008]根據(jù)所述語音數(shù)據(jù)的屬性信息自動確定所述語音數(shù)據(jù)的類型;
[0009]選擇與所述語音數(shù)據(jù)的類型相匹配的聲學(xué)模型進(jìn)行語音識別。
[0010]本發(fā)明實施例提供的語音識別方法,根據(jù)不同語音的特點劃分語音數(shù)據(jù)的類型,進(jìn)而根據(jù)劃分的語音數(shù)據(jù)的類型,建立與相應(yīng)語音數(shù)據(jù)類型相匹配的聲學(xué)模型。當(dāng)進(jìn)行語音識別時,相關(guān)設(shè)備根據(jù)語音數(shù)據(jù)的屬性信息確定語音數(shù)據(jù)的類型后,根據(jù)確定的語音數(shù)據(jù)類型選擇與語音數(shù)據(jù)類型相匹配的聲學(xué)模型進(jìn)行語音的識別。通過本發(fā)明技術(shù)方案,根據(jù)語音類型建立相應(yīng)的聲學(xué)模型,使得聲學(xué)模型的建立更具準(zhǔn)確性;進(jìn)而根據(jù)相應(yīng)的語音數(shù)據(jù)類型選擇相應(yīng)類型的聲學(xué)模型進(jìn)行語音識別,使得語音的識別更具準(zhǔn)確性。
[0011]第二方面,本發(fā)明實施例提供了一種語音識別的裝置,包括:
[0012]獲取模塊,用于獲取語音數(shù)據(jù);
[0013]確定模塊,用于根據(jù)所述語音數(shù)據(jù)的屬性信息自動確定所述語音數(shù)據(jù)的類型;
[0014]選擇模塊,用于選擇與所述語音數(shù)據(jù)的類型相匹配的聲學(xué)模型進(jìn)行語音識別。
[0015]本發(fā)明實施例提供的語音識別裝置,根據(jù)不同語音的特點劃分語音數(shù)據(jù)的類型,進(jìn)而根據(jù)劃分的語音數(shù)據(jù)的類型,建立與相應(yīng)語音數(shù)據(jù)類型相匹配的聲學(xué)模型。當(dāng)進(jìn)行語音識別時,相關(guān)設(shè)備根據(jù)語音數(shù)據(jù)的屬性信息確定語音數(shù)據(jù)的類型后,根據(jù)確定的語音數(shù)據(jù)類型選擇與語音數(shù)據(jù)類型相匹配的聲學(xué)模型進(jìn)行語音的識別。通過本發(fā)明技術(shù)方案,根據(jù)語音數(shù)據(jù)類型建立相應(yīng)的聲學(xué)模型,使得聲學(xué)模型的建立更具準(zhǔn)確性;進(jìn)而根據(jù)相應(yīng)的語音數(shù)據(jù)類型選擇相應(yīng)類型的聲學(xué)模型進(jìn)行語音識別,使得語音的識別更具準(zhǔn)確性。
【專利附圖】

【附圖說明】
[0016]此處所說明的附圖用來提供對本發(fā)明的進(jìn)一步理解,構(gòu)成本發(fā)明的一部分,并不構(gòu)成對本發(fā)明的限定。在附圖中:
[0017]圖1是本發(fā)明實施例一中語音識別方法流程示意圖;
[0018]圖2是本發(fā)明實施例二中語音識別方法流程示意圖;
[0019]圖3是本發(fā)明實施例二中語音數(shù)據(jù)獲取流程示意圖;
[0020]圖4是本發(fā)明實施例二中語音識別方法數(shù)據(jù)在客戶端和服務(wù)器端交互示意圖;
[0021]圖5是本發(fā)明實施例三中語音識別方法流程示意圖;
[0022]圖6是本發(fā)明實施例三中從語音數(shù)據(jù)包中提取語音數(shù)據(jù)的基頻分量流程示意圖;
[0023]圖7是本發(fā)明實施例四中語音識別方法流程示意圖;
[0024]圖8是本發(fā)明實施例五中語音識別裝置結(jié)構(gòu)模塊示意圖。
【具體實施方式】
[0025]下面結(jié)合附圖及具體實施例對本發(fā)明進(jìn)行更加詳細(xì)與完整的說明??梢岳斫獾氖牵颂幩枋龅木唧w實施例僅用于解釋本發(fā)明,而非對本發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部內(nèi)容。
[0026]聲學(xué)模型是語音識別技術(shù)的基礎(chǔ),描述了語音特征到發(fā)音單元的統(tǒng)計對應(yīng)關(guān)系,本發(fā)明語音識別方法具體實現(xiàn)是在聲學(xué)模型改動的基礎(chǔ)上而進(jìn)行的??梢岳斫獾氖?,不同類別的說話人語音特性也不同,以此可以根據(jù)不同類別的語音特性建立相應(yīng)的聲學(xué)模型。目前,聲學(xué)模型采用高斯混合模型一隱馬模型(G MM — HMM)或者深層神經(jīng)網(wǎng)絡(luò)一隱馬模型(D N N — H M M),通過采用自適應(yīng)或者在原有模型基礎(chǔ)上采用相關(guān)類別的數(shù)據(jù)進(jìn)一步迭代,生成相關(guān)類別的聲學(xué)模型,并在構(gòu)建多種聲學(xué)模型集合而成的聲學(xué)模型庫。本發(fā)明技術(shù)方案的實現(xiàn)是基于上述或本領(lǐng)域技術(shù)人員應(yīng)該知曉的任何其他方法建立的與語音數(shù)據(jù)特性類型相匹配的多種聲學(xué)模型的基礎(chǔ)上進(jìn)行的,下述結(jié)合具體實施例詳細(xì)說明本發(fā)明。
[0027]圖1是本發(fā)明實施例一中語音識別方法流程示意圖;作為一種優(yōu)選方式,本實施例可適用于在線語音的自動識別,并且本實施例方法應(yīng)用于客戶端設(shè)備或服務(wù)器端設(shè)備,或者客戶端設(shè)備和服務(wù)器端設(shè)備的結(jié)合等,進(jìn)而實現(xiàn)本發(fā)明方法。如圖1所示,所述方法包括:
[0028]步驟101、獲取語音數(shù)據(jù)。
[0029]語音數(shù)據(jù)是指由語音信息組成的客戶端電子設(shè)備等獲取,相關(guān)設(shè)備能夠識別并能進(jìn)行處理的數(shù)據(jù)信息。本實施例中獲取語音數(shù)據(jù)是智能手機、IPAD、個人計算機、平板電腦、筆記本電腦等客戶端設(shè)備或終端設(shè)備接收語音信息后,客戶端或終端設(shè)備獲取的語音數(shù)據(jù)。
[0030]步驟102、根據(jù)所述語音數(shù)據(jù)的屬性信息自動確定語音數(shù)據(jù)的類型。[0031]語音數(shù)據(jù)的類型是指根據(jù)一定的方式劃分語音形成的種類不同的語音數(shù)據(jù),可以根據(jù)語音數(shù)據(jù)的屬性信息自動識別其類型;其中語音數(shù)據(jù)的屬性信息包括語音數(shù)據(jù)聲學(xué)特性信息,例如語音中的基頻分量等、語音數(shù)據(jù)相結(jié)合的因素的信息等,例如語音數(shù)據(jù)結(jié)合的背景音樂特點等。根據(jù)具體的方式可以根據(jù)不同的語音數(shù)據(jù)的屬性信息有多種多樣的劃分,例如,因語音數(shù)據(jù)中基頻分量的存在,可以根據(jù)基頻分量劃分語音數(shù)據(jù)的類型?;l是濁音發(fā)音過程中聲帶振動的頻率,語音分辨的一個主要特征是激勵的類型,根據(jù)激勵類型不同,可以將語音信號分為濁音和清音兩大類。語音中只有濁音才有基頻,濁音的激勵是周期性的脈沖串,脈沖串的頻率就是基音頻率,也即是基頻分量,簡稱基頻。由于發(fā)聲器官生理方面的差異,男性和女性的基頻分量范圍不同,一般地,男性的基頻分量范圍大約為50Hz-250Hz ;女性的基頻分量范圍大約為120Hz-500Hz ;兒童的基頻分量范圍大約為250Hz-800Hz。因此,可以根據(jù)語音中基頻分量的范圍確定語音數(shù)據(jù)的類型。
[0032]進(jìn)一步的,需要說明的是,當(dāng)獲取語音數(shù)據(jù)后對語音數(shù)據(jù)類型的確定可以在服務(wù)器端進(jìn)行,也可以在客戶端或終端進(jìn)行。具體方式的選擇根據(jù)應(yīng)用而進(jìn)行相應(yīng)設(shè)定,例如,可以在客戶端中確定語音數(shù)據(jù)的類型,進(jìn)而將確定語音數(shù)據(jù)類型的信息和語音數(shù)據(jù)發(fā)送至服務(wù)器端實現(xiàn)語音的識別。
[0033]步驟103、選擇與語音數(shù)據(jù)的類型相匹配的聲學(xué)模型進(jìn)行語音識別。
[0034]根據(jù)語音數(shù)據(jù)類型所對應(yīng)的語音類型訓(xùn)練有相應(yīng)類型的聲學(xué)模型。當(dāng)確定語音的類型后,根據(jù)語音的類型相應(yīng)的確定語音數(shù)的據(jù)類型,進(jìn)而確定與語音數(shù)據(jù)類型相匹配的聲學(xué)模型,進(jìn)而根據(jù)確定的聲學(xué)模型進(jìn)行語音的識別。本發(fā)明實施例中與語音數(shù)據(jù)類型相匹配的聲學(xué)模型可以通過多種方式進(jìn)行建立。例如,可以根據(jù)語音的聲學(xué)特性,不同年齡段或者不同性別的人的語音的不同特點,進(jìn)而建立各種不同的聲學(xué)模型;并進(jìn)一步確立語音數(shù)據(jù)類型與聲學(xué)模型的匹配關(guān)系;進(jìn)而當(dāng)確定相應(yīng)語音數(shù)據(jù)的類型后,選擇與相應(yīng)語音數(shù)據(jù)類型相匹配的聲學(xué)模型進(jìn)行語音識別。
[0035]本發(fā)明實施例提供的語音識別方法,根據(jù)不同語音的特點劃分語音數(shù)據(jù)的類型,進(jìn)而根據(jù)劃分的語音數(shù)據(jù)的類型,建立與相應(yīng)語音數(shù)據(jù)類型相匹配的相應(yīng)的聲學(xué)模型。當(dāng)進(jìn)行語音識別時,相關(guān)設(shè)備可基于語音數(shù)據(jù)的屬性信息自動確定語音數(shù)據(jù)的類型后,根據(jù)確定的語音數(shù)據(jù)類型選擇與語音數(shù)據(jù)類型相匹配的聲學(xué)模型進(jìn)行語音的識別。根據(jù)本發(fā)明技術(shù)方案,本實施例中對本發(fā)明的具體實施,根據(jù)語音數(shù)據(jù)類型建立相應(yīng)的聲學(xué)模型,因?qū)Σ煌恼Z音數(shù)據(jù)的類型建立了與其更匹配的聲學(xué)模型,使得聲學(xué)模型的建立更具準(zhǔn)確性;進(jìn)而根據(jù)相應(yīng)的語音數(shù)據(jù)類型選擇相應(yīng)類型的聲學(xué)模型進(jìn)行語音的識別,使得語音的識別更具準(zhǔn)確性。并且,此過程中無需人為干預(yù),能夠基于語音數(shù)據(jù)的屬性自動完成類型確認(rèn)的操作。
[0036]圖2是本發(fā)明實施例二中語音識別方法流程示意圖。
[0037]本實施例以上述實施例為基礎(chǔ),優(yōu)選根據(jù)語音數(shù)據(jù)中語音的基頻分量對語音數(shù)據(jù)類型進(jìn)行劃分,具體劃分基頻分量范圍為基頻分量小于200Hz的第一范圍、基頻分量在200Hz-300Hz之間的第二范圍,基頻分量在300Hz-400Hz之間的第三范圍;其中,第一范圍為男性范圍、第二范圍為女性范圍、第三范圍為兒童范圍;與此相對應(yīng)建立的聲學(xué)模型有男性聲學(xué)模型、女性聲學(xué)模型和兒童聲學(xué)模型。以此,本發(fā)明在本實施例中具體的實施是根據(jù)以上三種聲學(xué)模型為基礎(chǔ)構(gòu)建的聲學(xué)模型庫為基礎(chǔ)的。作為一種優(yōu)選實施方式,本發(fā)明適用于智能手機語音的在線識別,本發(fā)明方法通過智能手機和服務(wù)器端相結(jié)合實現(xiàn),如圖2所示,所述方法包括:
[0038]步驟201、獲取語音數(shù)據(jù)。
[0039]具體的,本實施例中可以由智能手機獲取語音數(shù)據(jù)。
[0040]圖3是本發(fā)明實施例二中語音數(shù)據(jù)獲取流程示意圖;具體的,如圖3所示,獲取語音數(shù)據(jù)的方法包括:
[0041]步驟2011、開啟語音采集功能,對采集到的數(shù)據(jù)進(jìn)行端點檢測。
[0042]端點檢測(VAD, Voice Activity Detection)是指在噪聲環(huán)境中檢測語音的存在與否,通常用于語音編碼、語音增強等語音處理系統(tǒng)中,起到降低語音編碼速率、節(jié)省通信帶寬、減少移動設(shè)備能耗、提高識別率等作用。當(dāng)客戶端或終端設(shè)備開啟語音采集功能后,客戶端或終端設(shè)備對獲取的環(huán)境中的各種聲音進(jìn)行端點檢測,在混合的聲音中檢測出人的語音。具體的,本實施例中智能手機開啟語音采集功能后,進(jìn)行端點檢測,進(jìn)而在混合的語音中檢測出人的語音。
[0043]步驟2012、在檢測到初始端點后,將采集到的數(shù)據(jù)作為語音數(shù)據(jù)。
[0044]當(dāng)終端設(shè)備或客戶端設(shè)備檢測到人的語音后,開始采集語音,形成語音數(shù)據(jù)。終端設(shè)備或客戶端設(shè)備進(jìn)行端點檢測后,對環(huán)境中各種聲音進(jìn)行識別,當(dāng)檢測到存在有語音后,并進(jìn)一步確定語音的起始點,進(jìn)而采集環(huán)境中的語音,形成語音數(shù)據(jù)。具體的,本實施例中,當(dāng)智能手機檢測到聲音中有語音的存在,則采集語音,形成語音數(shù)據(jù)。
[0045]步驟202、提取語音數(shù)據(jù)的基頻分量。
[0046]基頻提取是根據(jù)一定方式提取語音中的基頻分量;基頻提取的方法包括時域的自相關(guān)、頻域的倒譜法等。具體的,本實施例中為獲取語音數(shù)據(jù)中的基頻分量,可以采取時序的自相關(guān)法,也可以采取頻域的倒譜法,以及其它本領(lǐng)域技術(shù)人員應(yīng)該知曉的方法獲取語音數(shù)據(jù)中的基頻分量。
[0047]具體的,本實施例中,當(dāng)智能手機獲取語音數(shù)據(jù)后,提取語音數(shù)據(jù)的基頻分量是在服務(wù)器端進(jìn)行。終端設(shè)備或客戶端設(shè)備采集語音數(shù)據(jù)后,發(fā)送語音數(shù)據(jù)至服務(wù)器端,服務(wù)器端進(jìn)行對語音數(shù)據(jù)中基頻分量進(jìn)行提取??梢岳斫獾氖牵緦嵤├性诜?wù)器端提取基頻分量只是本實施例的【具體實施方式】,根據(jù)具體應(yīng)用可以有不同的設(shè)定,例如在智能手機中進(jìn)行語音數(shù)據(jù)基頻分量的提取。
[0048]步驟203、根據(jù)基頻分量確定語音數(shù)據(jù)的類型。
[0049]在步驟202中服務(wù)器端提取獲取了語音數(shù)據(jù)的基頻分量,本步驟中是根據(jù)已獲取的語音數(shù)據(jù)的基頻分量確定語音數(shù)據(jù)的類型。根據(jù)已知的基頻分量范圍的劃分及相應(yīng)范圍所對應(yīng)的語音數(shù)據(jù)類型:基頻分量小于200Hz的第一范圍、基頻分量在200Hz-300Hz之間的第二范圍,基頻分量在300Hz-400Hz之間的第三范圍;其中,第一范圍為男性范圍、第二范圍為女性范圍、第三范圍為兒童范圍。以此,當(dāng)確定語音數(shù)據(jù)的基頻分量范圍后,可以獲取語音數(shù)據(jù)的類型;例如,當(dāng)提取的基頻分量為266Hz時,則根據(jù)劃分的范圍可以確定此語音數(shù)據(jù)為女性語音數(shù)據(jù)。
[0050]進(jìn)一步的,為了實現(xiàn)對語音數(shù)據(jù)類型更準(zhǔn)確的劃分,在此種范圍方式劃分的基礎(chǔ)上,可以進(jìn)行進(jìn)一步的范圍劃分。例如,對于基頻分量在300Hz-400Hz之間的第三范圍,在此范圍內(nèi)可以進(jìn)一步劃分為男孩范圍和女孩范圍。以此,通過對范圍的進(jìn)一步劃分實現(xiàn)了更準(zhǔn)確的聲學(xué)模型的建立,實現(xiàn)更準(zhǔn)確的語音的識別。
[0051]步驟204、選擇與語音數(shù)據(jù)類型相匹配的聲學(xué)模型進(jìn)行語音識別。
[0052]根據(jù)語音數(shù)據(jù)類型所對應(yīng)的語音類型訓(xùn)練有相應(yīng)類型的聲學(xué)模型。當(dāng)確定語音數(shù)據(jù)的類型后,根據(jù)語音數(shù)據(jù)的類型相應(yīng)的確定與語音數(shù)據(jù)類型相匹配的聲學(xué)模型,進(jìn)而根據(jù)確定的聲學(xué)模型進(jìn)行語音的識別。本發(fā)明實施例中與語音數(shù)據(jù)類型相匹配的聲學(xué)模型可以通過多種方式進(jìn)行建立。例如,可以根據(jù)語音的聲學(xué)特性,不同年齡段或者不同性別的人的語音的不同特點,進(jìn)而建立各種不同的聲學(xué)模型;并進(jìn)一步建立語音數(shù)據(jù)類型與聲學(xué)模型的匹配關(guān)系,進(jìn)而當(dāng)確定相應(yīng)語音數(shù)據(jù)的類型后,選擇與相應(yīng)語音數(shù)據(jù)類型相匹配的聲學(xué)模型進(jìn)行語音識別。
[0053]具體的,本實施例中以語音數(shù)據(jù)中基頻分量作為確定語音數(shù)據(jù)類型的依據(jù)。本實施例中在步驟203中確定了語音數(shù)據(jù)的類型。本步驟計算根據(jù)已確定的語音數(shù)據(jù)的類型,選擇與語音數(shù)據(jù)類型相匹配的聲學(xué)模型進(jìn)行語音識別。根據(jù)已知語音類型和聲學(xué)模型的對應(yīng)關(guān)系,建立的聲學(xué)模型包括:男性聲學(xué)模型、女性聲學(xué)模型和兒童聲學(xué)模型;以此當(dāng)確定語音數(shù)據(jù)類型后,并可以選擇相應(yīng)聲學(xué)模型進(jìn)行語音的識別。例如,當(dāng)確定語音數(shù)據(jù)為女性時,則選擇相應(yīng)的女性聲學(xué)模型進(jìn)行語音的識別。
[0054]圖4是本發(fā)明實施例二中語音識別方法數(shù)據(jù)在客戶端和服務(wù)器端之間交互示意圖。
[0055]客戶端的智能手機對環(huán)境中聲音進(jìn)端點檢測,當(dāng)在環(huán)境聲音中檢測到語音后,獲取語音數(shù)據(jù),并通過一定方式將數(shù)據(jù)發(fā)送至服務(wù)器端。
[0056]服務(wù)器端對獲取的語音數(shù)據(jù)進(jìn)行基頻分量提取,根據(jù)提取的基頻分量確定語音數(shù)據(jù)的類型,進(jìn)而根據(jù)語音數(shù)據(jù)的類型在聲學(xué)模型庫中選擇與語音數(shù)據(jù)類型相匹配的聲學(xué)模型進(jìn)行語音的識別。
[0057]本實施例中,當(dāng)智能手機獲取語音數(shù)據(jù)后,根據(jù)在客戶端智能手機和服務(wù)器端對語音數(shù)據(jù)的一系列步驟流程的實施自動實現(xiàn)了語音的識別。本實施例中語音識別的具體實現(xiàn),不需要采用人工手動通過設(shè)備中的相應(yīng)按鍵選擇與語音數(shù)據(jù)類型相匹配的聲學(xué)模型等方式進(jìn)行,客戶端智能手機獲取語音數(shù)據(jù)后自動進(jìn)行識別,使得語音的識別更具靈活性。
[0058]以此,本發(fā)明實施例提供的語音識別方法,根據(jù)不同類型語音中包含基頻分量的特點劃分語音數(shù)據(jù)的類型,進(jìn)而根據(jù)劃分的語音數(shù)據(jù)的類型選擇相應(yīng)語音類型的聲學(xué)模型,本實施例,也即是選擇男性聲學(xué)模塊、女性聲學(xué)模型、兒童聲學(xué)模型等。當(dāng)進(jìn)行語音識別時,相關(guān)設(shè)備確定語音數(shù)據(jù)的類型后,根據(jù)確定的語音數(shù)據(jù)類型選擇與語音數(shù)據(jù)類型相匹配的聲學(xué)模型進(jìn)行語音的識別。通過本發(fā)明技術(shù)方案,根據(jù)基頻分量劃分的語音數(shù)據(jù)類型建立相應(yīng)的聲學(xué)模型,使得聲學(xué)模型的建立更具準(zhǔn)確性;進(jìn)而根據(jù)相應(yīng)的語音數(shù)據(jù)類型選擇相應(yīng)類型的聲學(xué)模型進(jìn)行語音識別更具精度與準(zhǔn)確性,并同時實現(xiàn)了語音識別的靈活性。
[0059]圖5是本發(fā)明實施例三中語音識別方法流程示意圖。
[0060]本實施例中也是以根據(jù)語音數(shù)據(jù)中語音的基頻分量對語音數(shù)據(jù)類型進(jìn)行劃分的,具體劃分基頻分量范圍為基頻分量小于200Hz的第一范圍、基頻分量在200Hz-300Hz之間的第二范圍,基頻分量在300Hz-400Hz之間的第三范圍;其中,第一范圍為男性范圍、第二范圍為女性范圍、第三范圍為兒童范圍;與此相對應(yīng)建立的聲學(xué)模型有男性聲學(xué)模型、女性聲學(xué)模型和兒童聲學(xué)模型。以此,本發(fā)明在本實施例中具體的實施是根據(jù)以上三種聲學(xué)模型為基礎(chǔ)構(gòu)建的聲學(xué)模型庫為基礎(chǔ)的。作為一種優(yōu)選實施方式,本發(fā)明適用于智能筆記本電腦的在線識別,本發(fā)明方法通過筆記本電腦和服務(wù)器端相結(jié)合實現(xiàn),如圖5所示,所述方法包括:
[0061]步驟301、獲取語音數(shù)據(jù)。
[0062]具體的,本實施例中可由筆記本電腦獲取語音數(shù)據(jù)。
[0063]步驟302、將語音數(shù)據(jù)按預(yù)定時間長度分包,以形成至少一個語音數(shù)據(jù)包。
[0064]客戶端獲取語音數(shù)據(jù),服務(wù)器端進(jìn)行語音識別,因此客戶端和服務(wù)器端之間需要進(jìn)行語音數(shù)據(jù)傳輸。客戶端與服務(wù)器端是通過超文本傳輸協(xié)議(HTTP, Hypertext transferprotocol)進(jìn)行通訊,為了實現(xiàn)客戶端和服務(wù)器端語音數(shù)據(jù)更準(zhǔn)確有效的傳輸,對語音數(shù)據(jù)以數(shù)據(jù)包的方式進(jìn)行傳輸。客戶端將采集的語音數(shù)據(jù)進(jìn)行分包,在采集的過程中將形成的語音數(shù)據(jù)按造預(yù)定的時間長度進(jìn)行分包,預(yù)定時間是根據(jù)傳輸語音數(shù)據(jù)的實際需要而設(shè)定的劃分語音數(shù)據(jù)的參考標(biāo)準(zhǔn),也即是將語音數(shù)據(jù)按照一定的時間長度進(jìn)行分包。具體的,本實施例中筆記本電腦將采集的語音數(shù)據(jù)進(jìn)行分包。
[0065]優(yōu)選的,本實施例中按照500ms的時間長度劃分語音數(shù)據(jù),形成語音數(shù)據(jù)包,進(jìn)而筆記本電腦傳輸語音數(shù)據(jù)包,實現(xiàn)語音數(shù)據(jù)的傳輸。其中,采用格式為P CM。
[0066]步驟303、從全部或設(shè)定數(shù)量的語音數(shù)據(jù)包中提取語音數(shù)據(jù)的基頻分量。
[0067]本實施例中對語音數(shù)據(jù)的基頻提取是在客戶端進(jìn)行的,具體的也即是在筆記本電腦中進(jìn)行的。筆記本電腦從全部或設(shè)定數(shù)量的語音數(shù)據(jù)包中提取語音數(shù)據(jù)的基頻分量。為了實現(xiàn)對語音數(shù)據(jù)類型的判定必須提取語音數(shù)據(jù)的類型,當(dāng)語音數(shù)據(jù)形成語音數(shù)據(jù)包后,可以提取全部的語音數(shù)據(jù)包進(jìn)行語音數(shù)據(jù)類型的判定,也可以選擇設(shè)定數(shù)據(jù)的語音數(shù)據(jù)包進(jìn)行類型的判定。
[0068]圖6是本發(fā)明實施例三中從語音數(shù)據(jù)包中提取語音數(shù)據(jù)的基頻分量流程示意圖;
[0069]步驟3031、選擇全部或設(shè)定數(shù)量的語音數(shù)據(jù)包。
[0070]本實施例中,選擇設(shè)定數(shù)量的數(shù)據(jù)包可以選擇采集形成的第一個數(shù)據(jù)包,還可以選擇采集形成的前N個數(shù)據(jù)數(shù)據(jù)包。其中,數(shù)據(jù)N根據(jù)實際應(yīng)用的需要可以進(jìn)行相應(yīng)的設(shè)定。
[0071]步驟3032、對選擇的每個語音數(shù)據(jù)包分別進(jìn)行分幀。
[0072]對選擇設(shè)定數(shù)量的語音數(shù)據(jù)包分別進(jìn)行分幀,如25 m s —幀。
[0073]步驟3033、確定語音數(shù)據(jù)包中各幀語音數(shù)據(jù)的基頻分量。
[0074]通過一定的方式提取確定語音數(shù)據(jù)包中語音數(shù)據(jù)的基頻分量,可以為時域自相關(guān)法或者頻域倒譜法。具體的,本實施例中采用時域自相關(guān)法確定語音數(shù)據(jù)包中各幀語音數(shù)據(jù)的基頻分量。
[0075]步驟3034、根據(jù)語音數(shù)據(jù)包分幀的幀數(shù)及各幀語音數(shù)據(jù)的基頻分量,確定數(shù)據(jù)包中語音數(shù)據(jù)的基頻分量。
[0076]當(dāng)確定語音數(shù)據(jù)包中各幀語音數(shù)據(jù)的基頻分量及語音數(shù)據(jù)包分幀的幀數(shù)后,采用動態(tài)規(guī)劃來進(jìn)一步確定得到各幀的基頻分量以及提取到基頻的幀數(shù),然后計算得到該語音數(shù)據(jù)包的平均基頻分量,也即是語音數(shù)據(jù)包的基頻分量。
[0077]步驟3035、根據(jù)各語音數(shù)據(jù)包確定的基頻分量確定語音數(shù)據(jù)的基頻分量。[0078]當(dāng)各個語音數(shù)據(jù)包的基頻分量確定后,通過一定的算法確定語音數(shù)據(jù)的基頻分量。例如,可以通過求平均值的方法獲取各個語音數(shù)據(jù)包的平均基頻分量,進(jìn)而根據(jù)平均基頻分量確定語音數(shù)據(jù)的基頻分量。
[0079]步驟304、根據(jù)基頻分量確定語音數(shù)據(jù)類型。
[0080]在步驟303中提取獲取了語音數(shù)據(jù)的基頻分量,本步驟中是根據(jù)已獲取的語音數(shù)據(jù)的基頻分量確定語音數(shù)據(jù)的類型。根據(jù)已知的基頻分量范圍的劃分及相應(yīng)范圍所對應(yīng)的語音數(shù)據(jù)類型:基頻分量小于200Hz的第一范圍、基頻分量在200Hz-300Hz之間的第二范圍,基頻分量在300Hz-400Hz之間的第三范圍;其中,第一范圍為男性范圍、第二范圍為女性范圍、第三范圍為兒童范圍。以此,當(dāng)確定語音數(shù)據(jù)的基頻分量范圍后,可以獲取語音數(shù)據(jù)的類型;例如,當(dāng)提取的基頻分量為266Hz時,則根據(jù)劃分的范圍可以確定此語音數(shù)據(jù)為女性語音數(shù)據(jù)。
[0081]步驟305、選擇與語音數(shù)據(jù)類型相匹配的聲學(xué)模型進(jìn)行語音識別。
[0082]根據(jù)語音數(shù)據(jù)類型所對應(yīng)的語音類型訓(xùn)練有相應(yīng)類型的聲學(xué)模型。當(dāng)確定語音數(shù)據(jù)的類型后,根據(jù)語音數(shù)據(jù)的類型,確定與語音數(shù)據(jù)類型相匹配的聲學(xué)模型,進(jìn)而根據(jù)確定的聲學(xué)模型進(jìn)行語音的識別。
[0083]具體的,本實施例中以語音數(shù)據(jù)中基頻分量作為確定語音數(shù)據(jù)類型的依據(jù)。本實施例中在步驟304中確定了語音數(shù)據(jù)的類型。本步驟計算根據(jù)已確定的語音數(shù)據(jù)的類型,選擇與語音數(shù)據(jù)類型相匹配的聲學(xué)模型進(jìn)行語音識別。根據(jù)已知語音類型和聲學(xué)模型的對應(yīng)關(guān)系,建立的聲學(xué)模型包括:男性聲學(xué)模型、女性聲學(xué)模型和兒童聲學(xué)模型;以此當(dāng)確定語音數(shù)據(jù)類型后,并可以選擇相應(yīng)聲學(xué)模型進(jìn)行語音的識別。例如,當(dāng)確定語音數(shù)據(jù)為女性時,則選擇相應(yīng)的女性聲學(xué)模型進(jìn)行語音的識別。
[0084]以此,本發(fā)明實施例提供的語音識別方法,根據(jù)不同語音中包含基頻分量的特點劃分語音的類型,進(jìn)而根據(jù)劃分的語音數(shù)據(jù)的類型選擇相應(yīng)語音類型的聲學(xué)模型,本實施例,也即是選擇男性聲學(xué)模塊、女性聲學(xué)模型、兒童聲學(xué)模型等。當(dāng)進(jìn)行語音識別時,相關(guān)設(shè)備確定語音數(shù)據(jù)的類型后,根據(jù)確定的語音數(shù)據(jù)類型選擇與語音數(shù)據(jù)類型相匹配的聲學(xué)模型進(jìn)行語音的識別。通過本發(fā)明技術(shù)方案,根據(jù)基頻分量劃分的語音數(shù)據(jù)類型建立相應(yīng)的聲學(xué)模型,使得聲學(xué)模型的建立更具準(zhǔn)確性;進(jìn)而根據(jù)相應(yīng)的語音數(shù)據(jù)類型選擇相應(yīng)類型的聲學(xué)模型進(jìn)行語音識別更具精度與準(zhǔn)確性,并同時實現(xiàn)了語音識別的靈活性。并且,本實施例中,在筆記本電腦中對語音數(shù)據(jù)進(jìn)行分包后,相應(yīng)數(shù)據(jù)的數(shù)據(jù)包進(jìn)行語音的識別,簡化了語音數(shù)據(jù)類型判定的流程,并進(jìn)一步使得語音數(shù)據(jù)的識別更快速與靈活。
[0085]圖7是本發(fā)明實施例四中語音識別方法流程示意圖;本實施例中也是以根據(jù)語音數(shù)據(jù)中語音的基頻分量對語音數(shù)據(jù)類型進(jìn)行劃分的,在此不再贅述。作為一種優(yōu)選實施方式,本發(fā)明適用于平板電腦的語音在線識別,本發(fā)明方法通過筆記本電腦和服務(wù)器端相結(jié)合實現(xiàn),如圖5所示,所述方法包括:
[0086]步驟401、獲取語音數(shù)據(jù)。
[0087]具體的,本實施例中可由平板電腦獲取語音數(shù)據(jù)。
[0088]步驟402、提取語音數(shù)據(jù)的基頻分量。
[0089]基頻提取是根據(jù)一定方式提取語音中的基頻分量;基頻提取的方法包括時域的自相關(guān)、頻域的倒譜法等。具體的本實施例中為獲取語音數(shù)據(jù)中的基頻分量,可以采取時序自相關(guān)法,也可以采取頻域的倒譜法,以及其他本領(lǐng)域技術(shù)人員應(yīng)該知曉的方法獲取語音數(shù)據(jù)中的基頻分量。具體的,本實施例中在服務(wù)器端進(jìn)行基頻分量的提取。
[0090]步驟403、確定基頻分量所屬的基頻分量范圍。
[0091]根據(jù)已知的基頻分量范圍的劃分及相應(yīng)范圍所對應(yīng)的語音數(shù)據(jù)類型:基頻分量小于200Hz的第一范圍、基頻分量在200Hz-300Hz之間的第二范圍,基頻分量在300Hz_400Hz之間的第三范圍;其中,第一范圍為男性范圍、第二范圍為女性范圍、第三范圍為兒童范圍。以此,當(dāng)確定語音數(shù)據(jù)的基頻分量范圍后,可以獲取語音數(shù)據(jù)的類型。例如,當(dāng)提取的基頻分量為266Hz時,則根據(jù)劃分的范圍可以確定此基頻分量屬于200Hz-300Hz的女性之間的第二范圍,也即是女性范圍。
[0092]步驟404、根據(jù)基頻分量范圍所對應(yīng)的語音類型,確定語音數(shù)據(jù)的類型。
[0093]根據(jù)已知相應(yīng)范圍所對應(yīng)的語音數(shù)據(jù)類型:第一范圍為男性范圍、第二范圍為女性范圍、第三范圍為兒童范圍。以此,當(dāng)確定語音數(shù)據(jù)的基頻分量范圍后,可以獲取語音數(shù)據(jù)的類型。例如,當(dāng)提取的基頻分量為266Hz時,可以確定此基頻分量屬于200Hz-300Hz的女性之間的第二范圍,也即是女性范圍;進(jìn)而可以確定此基頻分量所對應(yīng)的數(shù)據(jù)類型為女性。
[0094]步驟405、選擇與語音數(shù)據(jù)類型相匹配的聲學(xué)模型進(jìn)行語音識別。
[0095]根據(jù)語音數(shù)據(jù)類型所對應(yīng)的語音類型訓(xùn)練有相應(yīng)類型的聲學(xué)模型。當(dāng)確定語音數(shù)據(jù)的類型后,根據(jù)語音數(shù)據(jù)的類型,確定與語音數(shù)據(jù)類型相匹配的聲學(xué)模型,進(jìn)而根據(jù)確定的聲學(xué)模型進(jìn)行語音的識別。
[0096]具體的,本實施例中以語音數(shù)據(jù)中基頻分量作為確定語音數(shù)據(jù)類型的依據(jù)。本實施例中在步驟404中確定了語音數(shù)據(jù)的類型。本步驟計算根據(jù)已確定的語音數(shù)據(jù)的類型,選擇與語音數(shù)據(jù)類型相匹配的聲學(xué)模型進(jìn)行語音識別。根據(jù)已知語音類型和聲學(xué)模型的對應(yīng)關(guān)系,建立的聲學(xué)模型包括:男性聲學(xué)模型、女性聲學(xué)模型和兒童聲學(xué)模型;以此當(dāng)確定語音數(shù)據(jù)類型后,并可以選擇相應(yīng)聲學(xué)模型進(jìn)行語音的識別。例如,當(dāng)確定語音數(shù)據(jù)為女性時,則選擇相應(yīng)的女性聲學(xué)模型進(jìn)行語音的識別。
[0097]以此,本發(fā)明實施例提供的語音識別方法,根據(jù)不同語音中包含基頻分量的特點劃分語音數(shù)據(jù)的類型,進(jìn)而根據(jù)劃分的語音數(shù)據(jù)的類型選擇相應(yīng)語音數(shù)據(jù)類型所對應(yīng)的聲學(xué)模型,本實施例,也即是選擇男性聲學(xué)模塊、女性聲學(xué)模型、兒童聲學(xué)模型等。當(dāng)進(jìn)行語音識別時,相關(guān)設(shè)備確定語音數(shù)據(jù)的類型后,根據(jù)確定的語音數(shù)據(jù)類型選擇與語音數(shù)據(jù)類型相匹配的聲學(xué)模型進(jìn)行語音的識別。通過本發(fā)明技術(shù)方案,根據(jù)基頻分量劃分的語音數(shù)據(jù)類型建立相應(yīng)的聲學(xué)模型,使得聲學(xué)模型的建立更具準(zhǔn)確性;進(jìn)而根據(jù)相應(yīng)的語音數(shù)據(jù)類型選擇相應(yīng)類型的聲學(xué)模型進(jìn)行語音識別更具精度與準(zhǔn)確性。
[0098]圖8是本發(fā)明實施例五中語音識別裝置結(jié)構(gòu)模塊示意圖。如圖8所示,所述語音識別裝置包括:獲取模塊501,確定模塊502,選擇模塊503。
[0099]獲取模塊501,用于獲取語音數(shù)據(jù)。
[0100]確定模塊502,用于根據(jù)所述語音數(shù)據(jù)的屬性信息自動確定所述語音數(shù)據(jù)的類型。
[0101]選擇模塊503,用于選擇與所述語音數(shù)據(jù)的類型相匹配的聲學(xué)模型進(jìn)行語音識別。
[0102]本發(fā)明實施例提供的語音識別裝置,根據(jù)不同語音的特點劃分語音數(shù)據(jù)的類型,進(jìn)而根據(jù)劃分的語音數(shù)據(jù)的類型,建立與相應(yīng)語音數(shù)據(jù)類型相匹配的聲學(xué)模型。當(dāng)進(jìn)行語音識別時,相關(guān)設(shè)備確定語音數(shù)據(jù)的類型后,根據(jù)確定的語音數(shù)據(jù)類型選擇與語音數(shù)據(jù)類型相匹配的聲學(xué)模型進(jìn)行語音的識別。通過本發(fā)明技術(shù)方案,根據(jù)語音數(shù)據(jù)類型建立相應(yīng)的聲學(xué)模型,使得聲學(xué)模型的建立更具準(zhǔn)確性;進(jìn)而根據(jù)相應(yīng)的語音數(shù)據(jù)類型選擇相應(yīng)類型的聲學(xué)模型進(jìn)行語音識別,使得語音的識別更具準(zhǔn)確性。
[0103]進(jìn)一步的,獲取模塊501包括:端點檢測子模塊1011,用于開啟語音采集功能,對采集到的數(shù)據(jù)進(jìn)行端點檢測。
[0104]語音采集子模塊5012,用于在檢測到初始端點后,將采集到的數(shù)據(jù)作為語音數(shù)據(jù)。
[0105]進(jìn)一步的,確定模塊包括5021:基頻提取子模塊,用于提取所述語音數(shù)據(jù)的基頻分量。
[0106]基頻提取子模塊5021包括:形成數(shù)據(jù)包單元2021a,用于將所述語音數(shù)據(jù)按預(yù)定時間長度分包,以形成至少一個語音數(shù)據(jù)包;其中,本實施例中優(yōu)選的預(yù)定時間長度為500ms ο
[0107]提取單元5021b,用于從全部或設(shè)定數(shù)量的所述語音數(shù)據(jù)包中提取語音數(shù)據(jù)的基頻分量。
[0108]提取單元5021b包括:數(shù)據(jù)包選擇子單元,用于選擇全部或設(shè)定數(shù)量的語音數(shù)據(jù)包;其中,本實施例中優(yōu)選的設(shè)定數(shù)量為第一個或前N個。
[0109]分幀子單元,用于對選擇的每個語音數(shù)據(jù)包分別進(jìn)行分幀。
[0110]幀基頻確定子單元,用于確定所述語音數(shù)據(jù)包中各幀語音數(shù)據(jù)的基頻分量。
[0111]包基頻確定子單元,用于根據(jù)所述語音數(shù)據(jù)包分幀的幀數(shù)及各幀語音數(shù)據(jù)的基頻分量,確定所述數(shù)據(jù)包中語音數(shù)據(jù)的基頻分量。
[0112]數(shù)據(jù)基頻確定子單元,用于根據(jù)各語音數(shù)據(jù)包確定的基頻分量確定所述語音數(shù)據(jù)的基頻分量。
[0113]類型確定子模塊5022,用于根據(jù)所述基頻分量確定所述語音數(shù)據(jù)的類型。
[0114]類型確定子模塊5022包括:確定基頻分量范圍單元5022c,用于確定所述基頻分量所屬的基頻分量范圍;其中,本實施例中優(yōu)選的基頻分量范圍包括:基頻分量小于200Hz的第一范圍、基頻分量在200Hz-300Hz之間的第二范圍,基頻分量在300Hz_400Hz之間的第
二范圍。
[0115]確定語音數(shù)據(jù)類型單元5022d,用于根據(jù)所述基頻分量范圍所對應(yīng)的語音類型,確定語音數(shù)據(jù)的類型。
[0116]其中,優(yōu)選的,本實施例中語音數(shù)據(jù)類型包括:男性語音數(shù)據(jù)、女性語音數(shù)據(jù)和兒童語音數(shù)據(jù);以及與所述語音數(shù)據(jù)類型相匹配的聲學(xué)模型包括:男性聲學(xué)模型、女性聲學(xué)模型和兒童聲學(xué)模型。
[0117]以此,本發(fā)明實施例提供的語音識別裝置,根據(jù)不同語音中包含基頻分量的特點劃分語音的類型,進(jìn)而根據(jù)劃分的語音數(shù)據(jù)的類型選擇相應(yīng)語音類型的聲學(xué)模型,本實施例,也即是選擇男性聲學(xué)模塊、女性聲學(xué)模型、兒童聲學(xué)模型等。當(dāng)進(jìn)行語音識別時,相關(guān)設(shè)備確定語音數(shù)據(jù)的類型后,根據(jù)確定的語音數(shù)據(jù)類型選擇與語音數(shù)據(jù)類型相匹配的聲學(xué)模型進(jìn)行語音的識別。通過本發(fā)明技術(shù)方案,根據(jù)基頻分量劃分的語音數(shù)據(jù)類型建立相應(yīng)的聲學(xué)模型,使得聲學(xué)模型的建立更具準(zhǔn)確性;進(jìn)而根據(jù)相應(yīng)的語音數(shù)據(jù)類型選擇相應(yīng)類型的聲學(xué)模型進(jìn)行語音識別更具精度與準(zhǔn)確性,并同時實現(xiàn)了語音識別的靈活性。[0118]顯然,本領(lǐng)域技術(shù)人員應(yīng)該明白,上述的本發(fā)明的各模塊或各步驟可以用通用的計算裝置來實現(xiàn),它們可以集中在單個計算裝置上,或者分布在多個計算裝置所組成的網(wǎng)絡(luò)上,可選地,他們可以用計算機裝置可執(zhí)行的程序代碼來實現(xiàn),從而可以將它們存儲在存儲裝置中由計算裝置來執(zhí)行,或者將它們分別制作成各個集成電路模塊,或者將它們中的多個模塊或步驟制作成單個集成電路模塊來實現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件的結(jié)合。
[0119]以上所述僅為本發(fā)明的優(yōu)選實施例,并不用于限制本發(fā)明,對于本領(lǐng)域技術(shù)人員而言,本發(fā)明可以有各種改動和變化。凡在本發(fā)明的精神和原理之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
【權(quán)利要求】
1.一種語音識別方法,其特征在于,包括: 獲取語音數(shù)據(jù); 根據(jù)所述語音數(shù)據(jù)的屬性信息自動確定所述語音數(shù)據(jù)的類型; 選擇與所述語音數(shù)據(jù)的類型相匹配的聲學(xué)模型進(jìn)行語音識別。
2.如權(quán)利要求1所述的語音識別方法,其特征在于,所述獲取語音數(shù)據(jù),包括: 開啟語音采集功能,對采集到的數(shù)據(jù)進(jìn)行端點檢測; 在檢測到初始端點后,將采集到的數(shù)據(jù)作為語音數(shù)據(jù)。
3.如權(quán)利要求1所述的語音識別方法,其特征在于,所述根據(jù)所述語音數(shù)據(jù)的屬性信息自動確定所述語音數(shù)據(jù)的類型,包括: 提取所述語音數(shù)據(jù)的基頻分量; 根據(jù)所述基頻分量確定所述語音數(shù)據(jù)的類型。
4.如權(quán)利要求3所 述的語音識別方法,其特征在于,所述提取所述語音數(shù)據(jù)的基頻分量包括: 將所述語音數(shù)據(jù)按預(yù)定時間長度分包,以形成至少一個語音數(shù)據(jù)包; 從全部或設(shè)定數(shù)量的所述語音數(shù)據(jù)包中提取語音數(shù)據(jù)的基頻分量。
5.如權(quán)利要求4所述的語音識別方法,其特征在于,所述從全部或設(shè)定數(shù)量的所述語音數(shù)據(jù)包中提取語音數(shù)據(jù)的基頻分量,包括: 選擇全部或設(shè)定數(shù)量的語音數(shù)據(jù)包; 對選擇的每個語音數(shù)據(jù)包分別進(jìn)行分幀; 確定所述語音數(shù)據(jù)包中各幀語音數(shù)據(jù)的基頻分量; 根據(jù)所述語音數(shù)據(jù)包分幀的幀數(shù)及各幀語音數(shù)據(jù)的基頻分量,確定所述數(shù)據(jù)包中語音數(shù)據(jù)的基頻分量; 根據(jù)各語音數(shù)據(jù)包確定的基頻分量確定所述語音數(shù)據(jù)的基頻分量。
6.如權(quán)利要求5所述的語音識別方法,其特征在于,所述設(shè)定數(shù)量為第一個或前N個。
7.如權(quán)利要求4所述的語音識別方法,其特征在于,所述預(yù)定時間長度為500ms。
8.如權(quán)利要求3所述的語音識別方法,其特征在于,所述根據(jù)所述基頻分量確定所述語音數(shù)據(jù)包中語音數(shù)據(jù)的類型,包括: 確定所述基頻分量所屬的基頻分量范圍; 根據(jù)所述基頻分量范圍所對應(yīng)的語音類型,確定語音數(shù)據(jù)的類型。
9.如權(quán)利要求8所述的語音識別方法,其特征在于,所述基頻分量范圍包括:基頻分量小于200Hz的第一范圍、基頻分量在200Hz-300Hz之間的第二范圍,基頻分量在300Hz-400Hz之間的第三范圍。
10.如權(quán)利要求1所述的語音識別方法,其特征在于,所述語音數(shù)據(jù)類型包括:男性語音數(shù)據(jù)、女性語音數(shù)據(jù)和兒童語音數(shù)據(jù);以及與所述語音數(shù)據(jù)類型相匹配的聲學(xué)模型包括:男性聲學(xué)模型、女性聲學(xué)模型和兒童聲學(xué)模型。
11.一種語音識別裝置,其特征在于,包括: 獲取模塊,用于獲取語音數(shù)據(jù); 確定模塊,用于根據(jù)所述語音數(shù)據(jù)的屬性信息自動確定所述語音數(shù)據(jù)的類型; 選擇模塊,用于選擇與所述語音數(shù)據(jù)的類型相匹配的聲學(xué)模型進(jìn)行語音識別。
12.如權(quán)利要求11所述的語音識別裝置,其特征在于,所述獲取模塊包括: 端點檢測子模塊,用于開啟語音采集功能,對采集到的數(shù)據(jù)進(jìn)行端點檢測; 語音采集子模塊,用于在檢測到初始端點后,將采集到的數(shù)據(jù)作為語音數(shù)據(jù)。
13.如權(quán)利要求11所述的語音識別裝置,其特征在于,所述確定模塊包括: 基頻提取子模塊,用于提取所述語音數(shù)據(jù)的基頻分量; 類型確定子模塊,用于根據(jù)所述基頻分量確定所述語音數(shù)據(jù)的類型。
14.如權(quán)利要求13所述的語音識別裝置,其特征在于,所述基頻提取子模塊包括: 形成數(shù)據(jù)包單元,用于將所述語音數(shù)據(jù)按預(yù)定時間長度分包,以形成至少一個語音數(shù)據(jù)包; 提取單元,用于從全部或設(shè)定數(shù)量的所述語音數(shù)據(jù)包中提取語音數(shù)據(jù)的基頻分量。
15.如權(quán)利要求14所述的語音識別裝置,其特征在于,所述提取單元包括: 數(shù)據(jù)包選擇子單元,用于選擇全部或設(shè)定數(shù)量的語音數(shù)據(jù)包; 分幀子單元,用于對選擇的每個語音數(shù)據(jù)包分別進(jìn)行分幀; 幀基頻確定子單元,用于確定所述語音數(shù)據(jù)包中各幀語音數(shù)據(jù)的基頻分量; 包基頻確定子單元,用于根據(jù)所述語音數(shù)據(jù)包分幀的幀數(shù)及各幀語音數(shù)據(jù)的基頻分量,確定所述數(shù)據(jù)包中語音數(shù)據(jù)的基頻分量;` 數(shù)據(jù)基頻確定子單元,用于根據(jù)各語音數(shù)據(jù)包確定的基頻分量確定所述語音數(shù)據(jù)的基頻分量。
16.如權(quán)利要求15所述的語音識別裝置,其特征在于,所述設(shè)定數(shù)量為第一個或前N個。
17.如權(quán)利要求14所述的語音識別裝置,其特征在于,所述預(yù)定時間長度為500ms。
18.如權(quán)利要求13所述的語音識別裝置,其特征在于,所述類型確定子模塊包括: 確定基頻分量范圍單元,用于確定所述基頻分量所屬的基頻分量范圍; 確定語音數(shù)據(jù)類型單元,用于根據(jù)所述基頻分量范圍所對應(yīng)的語音類型,確定語音數(shù)據(jù)的類型。
19.如權(quán)利要求18所述的語音識別裝置,其特征在于,所述基頻分量范圍包括:基頻分量小于200Hz的第一范圍、基頻分量在200Hz-300Hz之間的第二范圍,基頻分量在300Hz-400Hz之間的第三范圍。
20.如權(quán)利要求11所述的語音識別裝置,其特征在于,所述語音數(shù)據(jù)類型包括:男性語音數(shù)據(jù)、女性語音數(shù)據(jù)和兒童語音數(shù)據(jù);以及與所述語音數(shù)據(jù)類型相匹配的聲學(xué)模型包括:男性聲學(xué)模型、女性聲學(xué)模型和兒童聲學(xué)模型。
【文檔編號】G10L15/26GK103714812SQ201310717335
【公開日】2014年4月9日 申請日期:2013年12月23日 優(yōu)先權(quán)日:2013年12月23日
【發(fā)明者】蘇丹 申請人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
遂溪县| 玉山县| 成都市| 西宁市| 石狮市| 开封县| 峨眉山市| 南和县| 尖扎县| 道真| 云南省| 徐汇区| 石狮市| 勐海县| 沙雅县| 若羌县| 隆化县| 孟村| 蓝田县| 施秉县| 桂平市| 肥东县| 新沂市| 兰溪市| 哈尔滨市| 外汇| 万州区| 齐齐哈尔市| 黄山市| 珲春市| 红原县| 桦南县| 浪卡子县| 汕头市| 高清| 阳春市| 高平市| 博罗县| 丹凤县| 凉城县| 原阳县|