两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

說話人自適應(yīng)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)與流程

文檔序號(hào):11213899閱讀:1177來源:國知局
說話人自適應(yīng)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)與流程

本發(fā)明實(shí)施例涉及語音識(shí)別技術(shù)領(lǐng)域,尤其涉及一種說話人自適應(yīng)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。



背景技術(shù):

說話人自適應(yīng)技術(shù)在近年來得到越來越多的重視,這項(xiàng)技術(shù)利用特定說話人數(shù)據(jù)對(duì)說話人無關(guān)(speakerindependent,以下簡(jiǎn)稱si)碼本進(jìn)行改造,其目的是得到說話人自適應(yīng)(speakeradapted,以下簡(jiǎn)稱sa)碼本以提升識(shí)別性能。

在某個(gè)說話人訓(xùn)練數(shù)據(jù)足夠多的情況下,針對(duì)當(dāng)前說話人數(shù)據(jù)采用傳統(tǒng)的訓(xùn)練方法可以得到說話人相關(guān)(speakerdependent,以下簡(jiǎn)稱sd)碼本,由于sd碼本很好地反映了當(dāng)前說話人的特征,因此通常有很好的性能表現(xiàn);可是在某些情況下,說話人的數(shù)據(jù)不足以訓(xùn)練一個(gè)穩(wěn)健的sd模型,此時(shí)就需要利用自適應(yīng)以避免欠訓(xùn)練的情況出現(xiàn),相比sd碼本需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練,說話人自適應(yīng)只需要很少的數(shù)據(jù)量就得到比較大的性能提高。

說話人自適應(yīng)的實(shí)質(zhì)是利用自適應(yīng)數(shù)據(jù)調(diào)整si碼本以符合當(dāng)前說話人特性,由于傳統(tǒng)訓(xùn)練方法得到的si碼本不可避免地受訓(xùn)練集特性的影響,在訓(xùn)練集和自適應(yīng)數(shù)據(jù)失配時(shí)這會(huì)導(dǎo)致自適應(yīng)效果變得不明顯,原始碼本越具有說話人無關(guān)性,在自適應(yīng)時(shí)就越能迅速地趨近當(dāng)前說話人的特征。與自適應(yīng)相結(jié)合的碼本訓(xùn)練對(duì)si碼本、訓(xùn)練集內(nèi)每個(gè)說話人特性分別建立模型,因此可以得到更具說話人無關(guān)性的si碼本。

目前主要有以下兩種方式進(jìn)行說話人自適應(yīng):第一種是基于特征層的說話人自適應(yīng),其主要思路是利用語音信號(hào)的特征參數(shù)構(gòu)造變換方法,將說話人相關(guān)的特征變換為說話人無關(guān)的特征,然后將其送入說話人無關(guān)模型進(jìn)行識(shí)別,從而實(shí)現(xiàn)說話人自適應(yīng)。第二種是基于模型層的說話人自適應(yīng),利用說話人的語音數(shù)據(jù)對(duì)說話人無關(guān)模型進(jìn)行調(diào)整,對(duì)不同的說話人自適應(yīng)出不同的聲學(xué)模型,然后用自適應(yīng)后的模型進(jìn)行識(shí)別,從而實(shí)現(xiàn)說話人自適應(yīng)。

但是,上述自適應(yīng)過程較為繁瑣,在自適應(yīng)過程中通常需要二遍解碼,所以自適應(yīng)過程需要較多時(shí)間,效率較低。并且,由于說話人的語音數(shù)據(jù)有限,而需要自適應(yīng)的參數(shù)較多,兩者之間的矛盾使得自適應(yīng)性能不好。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明實(shí)施例提供一種說話人自適應(yīng)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),可以簡(jiǎn)化說話人自適應(yīng)過程,降低自適應(yīng)復(fù)雜度,提高自適應(yīng)性能。

第一方面,本發(fā)明實(shí)施例提供了一種說話人自適應(yīng)方法,該方法包括:

獲取目標(biāo)說話人的第一語音數(shù)據(jù);

將所述第一語音數(shù)據(jù)輸入預(yù)先訓(xùn)練得到的批規(guī)范化bn網(wǎng)絡(luò)中進(jìn)行自適應(yīng)訓(xùn)練,得到包含所述目標(biāo)說話人語音參數(shù)的語音識(shí)別模型。

第二方面,本發(fā)明實(shí)施例還提供了一種說話人自適應(yīng)裝置,該裝置包括:

語音數(shù)據(jù)獲取模塊,用于獲取目標(biāo)說話人的第一語音數(shù)據(jù);

模型訓(xùn)練模塊,用于將所述第一語音數(shù)據(jù)輸入預(yù)先訓(xùn)練得到的批規(guī)范化bn網(wǎng)絡(luò)中進(jìn)行自適應(yīng)訓(xùn)練,得到包含所述目標(biāo)說話人語音參數(shù)的語音識(shí)別模型。

第三方面,本發(fā)明實(shí)施例還提供了一種設(shè)備,包括:

一個(gè)或多個(gè)處理器;

存儲(chǔ)裝置,用于存儲(chǔ)一個(gè)或多個(gè)程序,

當(dāng)所述一個(gè)或多個(gè)程序被所述一個(gè)或多個(gè)處理器執(zhí)行,使得所述一個(gè)或多個(gè)處理器實(shí)現(xiàn)本發(fā)明實(shí)施例任一所述的說話人自適應(yīng)方法。

第四方面,本發(fā)明實(shí)施例還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)本發(fā)明實(shí)施例任一所述的說話人自適應(yīng)方法。

本發(fā)明實(shí)施例通過將目標(biāo)說話人的第一語音數(shù)據(jù)輸入預(yù)先訓(xùn)練得到的批規(guī)范化bn網(wǎng)絡(luò)中進(jìn)行自適應(yīng)訓(xùn)練,得到包含所述目標(biāo)說話人語音參數(shù)的語音識(shí)別模型,可以簡(jiǎn)化說話人自適應(yīng)過程,降低自適應(yīng)復(fù)雜度,提高自適應(yīng)性能。

附圖說明

圖1是本發(fā)明實(shí)施例一提供的一種說話人自適應(yīng)方法的流程圖;

圖2是本發(fā)明實(shí)施例二提供的一種說話人自適應(yīng)方法的流程圖;

圖3是本發(fā)明實(shí)施例三提供的一種說話人自適應(yīng)方法的流程圖;

圖4是本發(fā)明實(shí)施例四提供的一種說話人自適應(yīng)裝置的結(jié)構(gòu)圖;

圖5是本發(fā)明實(shí)施例五提供的一種計(jì)算機(jī)設(shè)備的結(jié)構(gòu)示意圖。

具體實(shí)施方式

為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖對(duì)本發(fā)明具體實(shí)施例作進(jìn)一步的詳細(xì)描述。可以理解的是,此處所描述的具體實(shí)施例僅僅用于解釋本發(fā)明,而非對(duì)本發(fā)明的限定。

另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部?jī)?nèi)容。在更加詳細(xì)地討論示例性實(shí)施例之前應(yīng)當(dāng)提到的是,一些示例性實(shí)施例被描述成作為流程圖描繪的處理或方法。雖然流程圖將各項(xiàng)操作(或步驟)描述成順序的處理,但是其中的許多操作可以被并行地、并發(fā)地或者同時(shí)實(shí)施。此外,各項(xiàng)操作的順序可以被重新安排。當(dāng)其操作完成時(shí)所述處理可以被終止,但是還可以具有未包括在附圖中的附加步驟。所述處理可以對(duì)應(yīng)于方法、函數(shù)、規(guī)程、子例程、子程序等等。

實(shí)施例一

圖1為本發(fā)明實(shí)施例一提供的一種說話人自適應(yīng)方法的流程圖,本實(shí)施例可適用于說話人自適應(yīng)的情況,該方法可以由本發(fā)明實(shí)施例提供的說話人自適應(yīng)裝置來執(zhí)行,該裝置可采用軟件和/或硬件的方式實(shí)現(xiàn),該裝置可集成在終端設(shè)備中或終端設(shè)備的應(yīng)用端中。其中,終端設(shè)備可以為但不限于為移動(dòng)終端(平板電腦或智能手機(jī))。

其中,應(yīng)用端可以為內(nèi)嵌于終端設(shè)備中的某個(gè)客戶端的插件,或者為所述終端設(shè)備的操作系統(tǒng)的插件,與內(nèi)嵌于終端設(shè)備中的說話人自適應(yīng)客戶端或者終端設(shè)備的操作系統(tǒng)中的說話人自適應(yīng)應(yīng)用程序配合使用;應(yīng)用端也可以為所述終端設(shè)備中一個(gè)獨(dú)立的可提供說話人自適應(yīng)的客戶端,本實(shí)施例對(duì)此不進(jìn)行限制。

如圖1所述,本實(shí)施例的方法具體包括:

s101、獲取目標(biāo)說話人的第一語音數(shù)據(jù)。

其中,語音數(shù)據(jù)可以為原始語音信號(hào),也可以為對(duì)原始語音信號(hào)經(jīng)過處理得到的語音特征數(shù)據(jù)。

具體的,可通過終端設(shè)備的語音輸入裝置回好的或錄音裝置獲取語音數(shù)據(jù)。

s102、將第一語音數(shù)據(jù)輸入預(yù)先訓(xùn)練得到的批規(guī)范化(batchnormalization,bn)網(wǎng)絡(luò)中進(jìn)行自適應(yīng)訓(xùn)練,得到包含目標(biāo)說話人語音參數(shù)的語音識(shí)別模型。

其中,語音參數(shù)為方差和/或均值,可通過將第一語音數(shù)據(jù)bn網(wǎng)絡(luò)訓(xùn)練得到。

具體的,將語音數(shù)據(jù)分成m幀,將m幀語音數(shù)據(jù)輸入bn網(wǎng)絡(luò)中,通過bn網(wǎng)絡(luò)中bn變換公式得到方差和均值,及包含方差和均值語音識(shí)別模型:

其中,m為語音數(shù)據(jù)幀數(shù),xi為第i幀語音數(shù)據(jù),μb為均值,為方差。

由于bn網(wǎng)絡(luò)自適應(yīng)不需要添加額外的層,使自適應(yīng)過程更加簡(jiǎn)單,且通過bn網(wǎng)絡(luò)得到的均值和方差均為一維向量,所以自適應(yīng)時(shí)需要調(diào)整的參數(shù)量較少,且本實(shí)施例語音參數(shù)(即均值和方差)由預(yù)先訓(xùn)練得到的bn網(wǎng)絡(luò)進(jìn)行自適應(yīng)訓(xùn)練得到,不需要二遍解碼。

因此,本實(shí)施例通過將目標(biāo)說話人的第一語音數(shù)據(jù)輸入預(yù)先訓(xùn)練得到的批規(guī)范化bn網(wǎng)絡(luò)中進(jìn)行自適應(yīng)訓(xùn)練,得到包含目標(biāo)說話人語音參數(shù)的語音識(shí)別模型,可以簡(jiǎn)化說話人自適應(yīng)過程,降低自適應(yīng)復(fù)雜度,提高自適應(yīng)性能。

實(shí)施例二

圖2是本發(fā)明實(shí)施例二提供的一種說話人自適應(yīng)方法的流程圖。本實(shí)施例以上述實(shí)施例為基礎(chǔ)進(jìn)行優(yōu)化,在本實(shí)施例中,進(jìn)一步包括如下步驟獲取參考說話人的語音數(shù)據(jù);根據(jù)參考說話人的語音數(shù)據(jù)訓(xùn)練得到bn網(wǎng)絡(luò),bn網(wǎng)絡(luò)中包含全局語音參數(shù),及包含全局語音參數(shù)的語音識(shí)別模型。

相應(yīng)的,本實(shí)施例的方法具體包括:

s201、獲取參考說話人的語音數(shù)據(jù)。

其中,參考說話人的數(shù)量為一個(gè)或多個(gè)。

s202、根據(jù)參考說話人的語音數(shù)據(jù)訓(xùn)練得到bn網(wǎng)絡(luò),bn網(wǎng)絡(luò)中包含全局語音參數(shù),及包含全局語音參數(shù)的語音識(shí)別模型。

其中,全局語音參數(shù)為方差和/或均值。具體的,可通過上述bn變換公式得到每個(gè)參考說話人的全局語音參數(shù),然后求取平均得到一個(gè)全局語音參數(shù),作為bn網(wǎng)絡(luò)中的全局語音參數(shù),并訓(xùn)練得到包含該全局語音參數(shù)的語音識(shí)別模型。

s203、獲取目標(biāo)說話人的第一語音數(shù)據(jù)。

s204、將第一語音數(shù)據(jù)輸入bn網(wǎng)絡(luò)中進(jìn)行自適應(yīng)訓(xùn)練,得到包含目標(biāo)說話人語音參數(shù)的語音識(shí)別模型。

具體的,將第一語音數(shù)據(jù)輸入bn網(wǎng)絡(luò)中,得到目標(biāo)說話人的語音參數(shù),使用目標(biāo)說話人的語音參數(shù)替換語音識(shí)別模型中的全局語音參數(shù),得到包含目標(biāo)說話人的語音參數(shù)的語音識(shí)別模型。或者,為提高語音識(shí)別性能,還可將目標(biāo)說話人的語音參數(shù)與全局語音參數(shù)的加權(quán)作為該目標(biāo)說話人最終的語音參數(shù),并使用該語音參數(shù)替換語音識(shí)別模型中的全局語音參數(shù),得到包含目標(biāo)說話人的語音參數(shù)的語音識(shí)別模型。

或者,當(dāng)目標(biāo)說話人為多個(gè)時(shí),通過上述自適應(yīng)過程,可得到屬于每個(gè)目標(biāo)說話人專有的語音識(shí)別模型,每個(gè)目標(biāo)說話人語音識(shí)別模型之間除了語音參數(shù)(即均值和方差)不同,其他參數(shù)都相同。

本實(shí)施例通過根據(jù)參考說話人的語音數(shù)據(jù)訓(xùn)練得到bn網(wǎng)絡(luò),bn網(wǎng)絡(luò)中包含全局語音參數(shù),及包含全局語音參數(shù)的語音識(shí)別模型,然后將將目標(biāo)說話人的第一語音數(shù)據(jù)輸入bn網(wǎng)絡(luò)中進(jìn)行自適應(yīng)訓(xùn)練,得到包含目標(biāo)說話人語音參數(shù)的語音識(shí)別模型,可以簡(jiǎn)化說話人自適應(yīng)過程,降低自適應(yīng)復(fù)雜度,提高自適應(yīng)性能。

實(shí)施例三

圖3是本發(fā)明實(shí)施例三提供的一種說話人自適應(yīng)方法的流程圖。本實(shí)施例以上述實(shí)施例為基礎(chǔ)進(jìn)行優(yōu)化,在本實(shí)施例中,進(jìn)一步包括如下步驟:根據(jù)目標(biāo)說話人的第二語音數(shù)據(jù),得到目標(biāo)說話人的語音參數(shù);將目標(biāo)說話人的語音參數(shù)輸入語音識(shí)別模型進(jìn)行識(shí)別,得到對(duì)應(yīng)的文本信息。

相應(yīng)的,本實(shí)施例的方法具體包括:

s301、獲取目標(biāo)說話人的第一語音數(shù)據(jù)。

s302、將第一語音數(shù)據(jù)輸入預(yù)先訓(xùn)練得到的bn網(wǎng)絡(luò)中進(jìn)行自適應(yīng)訓(xùn)練,得到包含目標(biāo)說話人語音參數(shù)的語音識(shí)別模型。

s303、根據(jù)目標(biāo)說話人的第二語音數(shù)據(jù),得到目標(biāo)說話人的語音參數(shù)。

其中,第一語音數(shù)據(jù)和第二語音數(shù)據(jù)可以為相同數(shù)據(jù),也可以為不同的數(shù)據(jù)。

具體的,將目標(biāo)說話人的第二語音數(shù)據(jù)輸入bn網(wǎng)絡(luò)中進(jìn)行自適應(yīng)訓(xùn)練,得到目標(biāo)說話人的語音參數(shù)。其中,語音參數(shù)可以為均值和方差。

s304、將目標(biāo)說話人的語音參數(shù)輸入包含目標(biāo)說話人語音參數(shù)的語音識(shí)別模型進(jìn)行識(shí)別,得到對(duì)應(yīng)的文本信息。

具體的,可以將目標(biāo)說話人的語音參數(shù)直接輸入語音識(shí)別模型進(jìn)行識(shí)別,得到對(duì)應(yīng)的文本信息。也可以,計(jì)算目標(biāo)說話人的語音參數(shù)和全局語音參數(shù)的加權(quán);將加權(quán)輸入語音識(shí)別模型進(jìn)行識(shí)別,得到對(duì)應(yīng)的文本信息。例如,目標(biāo)說話人的語音參數(shù)對(duì)應(yīng)的權(quán)重為w1,全局語音參數(shù)的對(duì)應(yīng)的權(quán)重為w2,目標(biāo)說話人的語音參數(shù)為x1,全局語音參數(shù)為x2,則對(duì)應(yīng)的加權(quán)為x1*w1+x2*w2。

由于本實(shí)施例的語音識(shí)別模型通過將目標(biāo)說話人的第一語音數(shù)據(jù)輸入預(yù)先訓(xùn)練得到的bn網(wǎng)絡(luò)中進(jìn)行自適應(yīng)訓(xùn)練得到,且bn網(wǎng)絡(luò)的自適應(yīng)性能較高,本實(shí)施例通過將目標(biāo)說話人的第二語音參數(shù)輸入包含目標(biāo)說話人語音參數(shù)的語音識(shí)別模型進(jìn)行識(shí)別,得到對(duì)應(yīng)的文本信息,可以提高語音識(shí)別效率。

實(shí)施例四

圖4是本發(fā)明實(shí)施例四提供的一種說話人自適應(yīng)裝置的結(jié)構(gòu)圖。本實(shí)施例可適用于說話人自適應(yīng)的情況,該裝置可采用軟件和/或硬件的方式實(shí)現(xiàn),該裝置可集成在終端設(shè)備中或終端設(shè)備的應(yīng)用端中。其中,終端設(shè)備可以為但不限于為移動(dòng)終端(平板電腦或智能手機(jī))。

其中,應(yīng)用端可以為內(nèi)嵌于終端設(shè)備中的某個(gè)客戶端的插件,或者為終端設(shè)備的操作系統(tǒng)的插件,與內(nèi)嵌于終端設(shè)備中的說話人自適應(yīng)客戶端或者終端設(shè)備的操作系統(tǒng)中的說話人自適應(yīng)應(yīng)用程序配合使用;應(yīng)用端也可以為終端設(shè)備中一個(gè)獨(dú)立的可提供說話人自適應(yīng)的客戶端,本實(shí)施例對(duì)此不進(jìn)行限制。

如圖4所示,所述裝置包括:語音數(shù)據(jù)獲取模塊401和模型訓(xùn)練模塊402,其中:

語音數(shù)據(jù)獲取模塊401用于獲取目標(biāo)說話人的第一語音數(shù)據(jù);

模型訓(xùn)練模塊402用于將第一語音數(shù)據(jù)輸入預(yù)先訓(xùn)練得到的批規(guī)范化bn網(wǎng)絡(luò)中進(jìn)行自適應(yīng)訓(xùn)練,得到包含目標(biāo)說話人語音參數(shù)的語音識(shí)別模型。

本實(shí)施例的說話人自適應(yīng)裝置用于執(zhí)行上述各實(shí)施例的說話人自適應(yīng)方法,其技術(shù)原理和產(chǎn)生的技術(shù)效果類似,這里不再贅述。

在上述各實(shí)施例的基礎(chǔ)上,所述裝置還包括:語音識(shí)別模塊403;

語音識(shí)別模塊403用于根據(jù)目標(biāo)說話人的第二語音數(shù)據(jù),得到目標(biāo)說話人的語音參數(shù);將目標(biāo)說話人的語音參數(shù)輸入語音識(shí)別模型進(jìn)行識(shí)別,得到對(duì)應(yīng)的文本信息。

在上述各實(shí)施例的基礎(chǔ)上,語音數(shù)據(jù)獲取模塊401還用于:獲取參考說話人的語音數(shù)據(jù);

模型訓(xùn)練模塊402還用于:根據(jù)參考說話人的語音數(shù)據(jù)訓(xùn)練得到bn網(wǎng)絡(luò),bn網(wǎng)絡(luò)中包含全局語音參數(shù),及包含全局語音參數(shù)的語音識(shí)別模型。

在上述各實(shí)施例的基礎(chǔ)上,模型訓(xùn)練模塊402具體用于:將第一語音數(shù)據(jù)輸入bn網(wǎng)絡(luò)中,得到目標(biāo)說話人的語音參數(shù),使用目標(biāo)說話人的語音參數(shù)替換語音識(shí)別模型中的全局語音參數(shù),得到包含目標(biāo)說話人的語音參數(shù)的語音識(shí)別模型。

在上述各實(shí)施例的基礎(chǔ)上,語音識(shí)別模塊403具體用于:計(jì)算目標(biāo)說話人的語音參數(shù)和全局語音參數(shù)的加權(quán);將加權(quán)輸入語音識(shí)別模型進(jìn)行識(shí)別,得到對(duì)應(yīng)的文本信息。

在上述各實(shí)施例的基礎(chǔ)上,語音參數(shù)為方差和/或均值。

上述各實(shí)施例所提供的說話人自適應(yīng)裝置可執(zhí)行本發(fā)明任意實(shí)施例所提供的說話人自適應(yīng)方法,具備執(zhí)行說話人自適應(yīng)方法相應(yīng)的功能模塊和有益效果。

實(shí)施例五

圖5為本發(fā)明實(shí)施例五提供的一種設(shè)備的結(jié)構(gòu)示意圖。圖5示出了適于用來實(shí)現(xiàn)本發(fā)明實(shí)施方式的示例性計(jì)算機(jī)設(shè)備12的框圖。圖5顯示的計(jì)算機(jī)設(shè)備12僅僅是一個(gè)示例,不應(yīng)對(duì)本發(fā)明實(shí)施例的功能和使用范圍帶來任何限制。

如圖5所示,計(jì)算機(jī)設(shè)備12以通用計(jì)算設(shè)備的形式表現(xiàn)。計(jì)算機(jī)設(shè)備12的組件可以包括但不限于:一個(gè)或者多個(gè)處理器或者處理單元16,系統(tǒng)存儲(chǔ)器28,連接不同系統(tǒng)組件(包括系統(tǒng)存儲(chǔ)器28和處理單元16)的總線18。

總線18表示幾類總線結(jié)構(gòu)中的一種或多種,包括存儲(chǔ)器總線或者存儲(chǔ)器控制器,外圍總線,圖形加速端口,處理器或者使用多種總線結(jié)構(gòu)中的任意總線結(jié)構(gòu)的局域總線。舉例來說,這些體系結(jié)構(gòu)包括但不限于工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(isa)總線,微通道體系結(jié)構(gòu)(mac)總線,增強(qiáng)型isa總線、視頻電子標(biāo)準(zhǔn)協(xié)會(huì)(vesa)局域總線以及外圍組件互連(pci)總線。

計(jì)算機(jī)設(shè)備12典型地包括多種計(jì)算機(jī)系統(tǒng)可讀介質(zhì)。這些介質(zhì)可以是任何能夠被計(jì)算機(jī)設(shè)備12訪問的可用介質(zhì),包括易失性和非易失性介質(zhì),可移動(dòng)的和不可移動(dòng)的介質(zhì)。

系統(tǒng)存儲(chǔ)器28可以包括易失性存儲(chǔ)器形式的計(jì)算機(jī)系統(tǒng)可讀介質(zhì),例如隨機(jī)存取存儲(chǔ)器(ram)30和/或高速緩存存儲(chǔ)器32。計(jì)算機(jī)設(shè)備12可以進(jìn)一步包括其它可移動(dòng)/不可移動(dòng)的、易失性/非易失性計(jì)算機(jī)系統(tǒng)存儲(chǔ)介質(zhì)。僅作為舉例,存儲(chǔ)系統(tǒng)34可以用于讀寫不可移動(dòng)的、非易失性磁介質(zhì)(圖5未顯示,通常稱為“硬盤驅(qū)動(dòng)器”)。盡管圖5中未示出,可以提供用于對(duì)可移動(dòng)非易失性磁盤(例如“軟盤”)讀寫的磁盤驅(qū)動(dòng)器,以及對(duì)可移動(dòng)非易失性光盤(例如cd-rom,dvd-rom或者其它光介質(zhì))讀寫的光盤驅(qū)動(dòng)器。在這些情況下,每個(gè)驅(qū)動(dòng)器可以通過一個(gè)或者多個(gè)數(shù)據(jù)介質(zhì)接口與總線18相連。存儲(chǔ)器28可以包括至少一個(gè)程序產(chǎn)品,該程序產(chǎn)品具有一組(例如至少一個(gè))程序模塊,這些程序模塊被配置以執(zhí)行本發(fā)明各實(shí)施例的功能。

具有一組(至少一個(gè))程序模塊42的程序/實(shí)用工具40,可以存儲(chǔ)在例如存儲(chǔ)器28中,這樣的程序模塊42包括——但不限于——操作系統(tǒng)、一個(gè)或者多個(gè)應(yīng)用程序、其它程序模塊以及程序數(shù)據(jù),這些示例中的每一個(gè)或某種組合中可能包括網(wǎng)絡(luò)環(huán)境的實(shí)現(xiàn)。程序模塊42通常執(zhí)行本發(fā)明所描述的實(shí)施例中的功能和/或方法。

計(jì)算機(jī)設(shè)備12也可以與一個(gè)或多個(gè)外部設(shè)備14(例如鍵盤、指向設(shè)備、顯示器24等)通信,還可與一個(gè)或者多個(gè)使得用戶能與該計(jì)算機(jī)設(shè)備12交互的設(shè)備通信,和/或與使得該計(jì)算機(jī)設(shè)備12能與一個(gè)或多個(gè)其它計(jì)算設(shè)備進(jìn)行通信的任何設(shè)備(例如網(wǎng)卡,調(diào)制解調(diào)器等等)通信。這種通信可以通過輸入/輸出(i/o)接口22進(jìn)行。并且,計(jì)算機(jī)設(shè)備12還可以通過網(wǎng)絡(luò)適配器20與一個(gè)或者多個(gè)網(wǎng)絡(luò)(例如局域網(wǎng)(lan),廣域網(wǎng)(wan)和/或公共網(wǎng)絡(luò),例如因特網(wǎng))通信。如圖5所示,網(wǎng)絡(luò)適配器20通過總線18與計(jì)算機(jī)設(shè)備12的其它模塊通信。應(yīng)當(dāng)明白,盡管圖中未示出,可以結(jié)合計(jì)算機(jī)設(shè)備12使用其它硬件和/或軟件模塊,包括但不限于:微代碼、設(shè)備驅(qū)動(dòng)器、冗余處理單元、外部磁盤驅(qū)動(dòng)陣列、raid系統(tǒng)、磁帶驅(qū)動(dòng)器以及數(shù)據(jù)備份存儲(chǔ)系統(tǒng)等。

處理單元16通過運(yùn)行存儲(chǔ)在系統(tǒng)存儲(chǔ)器28中的程序,從而執(zhí)行各種功能應(yīng)用以及數(shù)據(jù)處理,例如實(shí)現(xiàn)本發(fā)明實(shí)施例所提供的說話人自適應(yīng)方法:

獲取目標(biāo)說話人的第一語音數(shù)據(jù);

將所述第一語音數(shù)據(jù)輸入預(yù)先訓(xùn)練得到的批規(guī)范化bn網(wǎng)絡(luò)中進(jìn)行自適應(yīng)訓(xùn)練,得到包含所述目標(biāo)說話人語音參數(shù)的語音識(shí)別模型。

進(jìn)一步的,所述方法還包括:

根據(jù)所述目標(biāo)說話人的第二語音數(shù)據(jù),得到所述目標(biāo)說話人的語音參數(shù);

將所述目標(biāo)說話人的語音參數(shù)輸入所述語音識(shí)別模型進(jìn)行識(shí)別,得到對(duì)應(yīng)的文本信息。

進(jìn)一步的,所方法還包括:

獲取參考說話人的語音數(shù)據(jù);

根據(jù)所述參考說話人的語音數(shù)據(jù)訓(xùn)練得到所述bn網(wǎng)絡(luò),所述bn網(wǎng)絡(luò)中包含所述全局語音參數(shù),及包含所述全局語音參數(shù)的語音識(shí)別模型。

進(jìn)一步的,所述將所述第一語音數(shù)據(jù)輸入預(yù)先訓(xùn)練得到的批規(guī)范化bn網(wǎng)絡(luò)中進(jìn)行自適應(yīng)訓(xùn)練,得到包含所述目標(biāo)說話人語音參數(shù)的語音識(shí)別模型包括:

將所述第一語音數(shù)據(jù)輸入所述bn網(wǎng)絡(luò)中,得到所述目標(biāo)說話人的語音參數(shù),使用所述目標(biāo)說話人的語音參數(shù)替換所述語音識(shí)別模型中的全局語音參數(shù),得到包含所述目標(biāo)說話人的語音參數(shù)的語音識(shí)別模型。

進(jìn)一步的,所述將所述目標(biāo)說話人的語音參數(shù)輸入所述語音識(shí)別模型進(jìn)行識(shí)別,得到對(duì)應(yīng)的文本信息包括:

計(jì)算所述目標(biāo)說話人的語音參數(shù)和所述全局語音參數(shù)的加權(quán);

將所述加權(quán)輸入所述語音識(shí)別模型進(jìn)行識(shí)別,得到對(duì)應(yīng)的文本信息。

進(jìn)一步的,所述語音參數(shù)為方差和/或均值。

實(shí)施例六

本發(fā)明實(shí)施例6還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如本申請(qǐng)所有發(fā)明實(shí)施例提供的說話人自適應(yīng)方法:

獲取目標(biāo)說話人的第一語音數(shù)據(jù);

將所述第一語音數(shù)據(jù)輸入預(yù)先訓(xùn)練得到的批規(guī)范化bn網(wǎng)絡(luò)中進(jìn)行自適應(yīng)訓(xùn)練,得到包含所述目標(biāo)說話人語音參數(shù)的語音識(shí)別模型。

進(jìn)一步的,所述方法還包括:

根據(jù)所述目標(biāo)說話人的第二語音數(shù)據(jù),得到所述目標(biāo)說話人的語音參數(shù);

將所述目標(biāo)說話人的語音參數(shù)輸入所述語音識(shí)別模型進(jìn)行識(shí)別,得到對(duì)應(yīng)的文本信息。

進(jìn)一步的,所方法還包括:

獲取參考說話人的語音數(shù)據(jù);

根據(jù)所述參考說話人的語音數(shù)據(jù)訓(xùn)練得到所述bn網(wǎng)絡(luò),所述bn網(wǎng)絡(luò)中包含所述全局語音參數(shù),及包含所述全局語音參數(shù)的語音識(shí)別模型。

進(jìn)一步的,所述將所述第一語音數(shù)據(jù)輸入預(yù)先訓(xùn)練得到的批規(guī)范化bn網(wǎng)絡(luò)中進(jìn)行自適應(yīng)訓(xùn)練,得到包含所述目標(biāo)說話人語音參數(shù)的語音識(shí)別模型包括:

將所述第一語音數(shù)據(jù)輸入所述bn網(wǎng)絡(luò)中,得到所述目標(biāo)說話人的語音參數(shù),使用所述目標(biāo)說話人的語音參數(shù)替換所述語音識(shí)別模型中的全局語音參數(shù),得到包含所述目標(biāo)說話人的語音參數(shù)的語音識(shí)別模型。

進(jìn)一步的,所述將所述目標(biāo)說話人的語音參數(shù)輸入所述語音識(shí)別模型進(jìn)行識(shí)別,得到對(duì)應(yīng)的文本信息包括:

計(jì)算所述目標(biāo)說話人的語音參數(shù)和所述全局語音參數(shù)的加權(quán);

將所述加權(quán)輸入所述語音識(shí)別模型進(jìn)行識(shí)別,得到對(duì)應(yīng)的文本信息。

進(jìn)一步的,所述語音參數(shù)為方差和/或均值。

本發(fā)明實(shí)施例的計(jì)算機(jī)存儲(chǔ)介質(zhì),可以采用一個(gè)或多個(gè)計(jì)算機(jī)可讀的介質(zhì)的任意組合。計(jì)算機(jī)可讀介質(zhì)可以是計(jì)算機(jī)可讀信號(hào)介質(zhì)或者計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)例如可以是——但不限于——電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的更具體的例子(非窮舉的列表)包括:具有一個(gè)或多個(gè)導(dǎo)線的電連接、便攜式計(jì)算機(jī)磁盤、硬盤、隨機(jī)存取存儲(chǔ)器(ram)、只讀存儲(chǔ)器(rom)、可擦式可編程只讀存儲(chǔ)器(eprom或閃存)、光纖、便攜式緊湊磁盤只讀存儲(chǔ)器(cd-rom)、光存儲(chǔ)器件、磁存儲(chǔ)器件、或者上述的任意合適的組合。在本文件中,計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以是任何包含或存儲(chǔ)程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。

計(jì)算機(jī)可讀的信號(hào)介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號(hào),其中承載了計(jì)算機(jī)可讀的程序代碼。這種傳播的數(shù)據(jù)信號(hào)可以采用多種形式,包括但不限于電磁信號(hào)、光信號(hào)或上述的任意合適的組合。計(jì)算機(jī)可讀的信號(hào)介質(zhì)還可以是計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)以外的任何計(jì)算機(jī)可讀介質(zhì),該計(jì)算機(jī)可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。

計(jì)算機(jī)可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括——但不限于無線、電線、光纜、rf等等,或者上述的任意合適的組合。

可以以一種或多種程序設(shè)計(jì)語言或其組合來編寫用于執(zhí)行本發(fā)明操作的計(jì)算機(jī)程序代碼,所述程序設(shè)計(jì)語言包括面向?qū)ο蟮某绦蛟O(shè)計(jì)語言—諸如java、smalltalk、c++,還包括常規(guī)的過程式程序設(shè)計(jì)語言—諸如“c”語言或類似的程序設(shè)計(jì)語言。程序代碼可以完全地在用戶計(jì)算機(jī)上執(zhí)行、部分地在用戶計(jì)算機(jī)上執(zhí)行、作為一個(gè)獨(dú)立的軟件包執(zhí)行、部分在用戶計(jì)算機(jī)上部分在遠(yuǎn)程計(jì)算機(jī)上執(zhí)行、或者完全在遠(yuǎn)程計(jì)算機(jī)或服務(wù)器上執(zhí)行。在涉及遠(yuǎn)程計(jì)算機(jī)的情形中,遠(yuǎn)程計(jì)算機(jī)可以通過任意種類的網(wǎng)絡(luò)——包括局域網(wǎng)(lan)或廣域網(wǎng)(wan)—連接到用戶計(jì)算機(jī),或者,可以連接到外部計(jì)算機(jī)(例如利用因特網(wǎng)服務(wù)提供商來通過因特網(wǎng)連接)。

注意,上述僅為本發(fā)明的較佳實(shí)施例及所運(yùn)用技術(shù)原理。本領(lǐng)域技術(shù)人員會(huì)理解,本發(fā)明不限于這里所述的特定實(shí)施例,對(duì)本領(lǐng)域技術(shù)人員來說能夠進(jìn)行各種明顯的變化、重新調(diào)整和替代而不會(huì)脫離本發(fā)明的保護(hù)范圍。因此,雖然通過以上實(shí)施例對(duì)本發(fā)明進(jìn)行了較為詳細(xì)的說明,但是本發(fā)明不僅僅限于以上實(shí)施例,在不脫離本發(fā)明構(gòu)思的情況下,還可以包括更多其他等效實(shí)施例,而本發(fā)明的范圍由所附的權(quán)利要求范圍決定。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
屏山县| 扎赉特旗| 德惠市| 西宁市| 营山县| 遵义市| 璧山县| 武义县| 峨边| 徐州市| 沂源县| 鄂州市| 大同市| 根河市| 平阳县| 瑞丽市| 铜鼓县| 泊头市| 黑水县| 通海县| 紫金县| 沐川县| 关岭| 托克托县| 宁南县| 长海县| 安达市| 陇西县| 蒙城县| 江津市| 博罗县| 安乡县| 徐闻县| 贡嘎县| 山丹县| 鹿泉市| 华阴市| 安龙县| 屯昌县| 定安县| 石渠县|