分詞訓(xùn)練集的生成方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語音處理技術(shù)領(lǐng)域,尤其涉及一種分詞訓(xùn)練集的生成方法和裝置。
【背景技術(shù)】
[0002]語音合成,又稱文語轉(zhuǎn)換(Text to Speech,TTS),能將文字信息實時轉(zhuǎn)換為語音朗讀出來,相當(dāng)于給機器裝上了人工嘴巴。對于語音合成系統(tǒng),首先需要對輸入的文本進行處理,其中包括分詞處理。分詞算法主要有兩類,一種是基于詞典匹配的算法,另一種是基于訓(xùn)練語料的學(xué)習(xí)算法。
[0003]現(xiàn)有技術(shù)中,條件隨機場(Condit1nal Random Field,CRF)模型是一種主流的基于訓(xùn)練語料的學(xué)習(xí)算法。但是,CRF模型是一種有監(jiān)督的機器學(xué)習(xí)算法,需要大量的人工標(biāo)注數(shù)據(jù)作為支撐。使用人力做數(shù)據(jù)標(biāo)注的工作無論從經(jīng)濟上還是時間花費的角度都是非常昂貴的。
【發(fā)明內(nèi)容】
[0004]本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
[0005]為此,本發(fā)明的一個目的在于提出一種分詞訓(xùn)練集的生成方法,該方法可以降低分詞訓(xùn)練集生成的時間和花費,實現(xiàn)成本降低及效果提高。
[0006]本發(fā)明的另一個目的在于提出一種分詞訓(xùn)練集的生成裝置。
[0007]為達到上述目的,本發(fā)明第一方面實施例提出的分詞訓(xùn)練集的生成方法,包括:獲取訓(xùn)練語料,并采用不同的分詞器分別對相同的訓(xùn)練語料進行分詞,得到對應(yīng)不同分詞器的分詞結(jié)果;將所述分詞結(jié)果劃分為精確匹配的分詞結(jié)果和非精確匹配的分詞結(jié)果;根據(jù)所述分詞結(jié)果,對所述非精確匹配的分詞結(jié)果進行降噪處理,得到分詞訓(xùn)練集。
[0008]本發(fā)明第一方面實施例提出的分詞訓(xùn)練集的生成方法,通過對訓(xùn)練語料進行分詞,并根據(jù)分詞結(jié)果得到分詞訓(xùn)練集,可以實現(xiàn)分詞訓(xùn)練集的自動生成,避免人工標(biāo)注,降低分詞訓(xùn)練集生成的時間和花費,實現(xiàn)成本降低及效果提高。
[0009]為達到上述目的,本發(fā)明第二方面實施例提出的分詞訓(xùn)練集的生成裝置,包括:分詞模塊,用于獲取訓(xùn)練語料,并采用不同的分詞器分別對相同的訓(xùn)練語料進行分詞,得到對應(yīng)不同分詞器的分詞結(jié)果;劃分模塊,用于將所述分詞結(jié)果劃分為精確匹配的分詞結(jié)果和非精確匹配的分詞結(jié)果;生成模塊,用于根據(jù)所述分詞結(jié)果,對所述非精確匹配的分詞結(jié)果進行降噪處理,得到分詞訓(xùn)練集。
[0010]本發(fā)明第二方面實施例提出的分詞訓(xùn)練集的生成裝置,通過對訓(xùn)練語料進行分詞,并根據(jù)分詞結(jié)果得到分詞訓(xùn)練集,可以實現(xiàn)分詞訓(xùn)練集的自動生成,避免人工標(biāo)注,降低分詞訓(xùn)練集生成的時間和花費,實現(xiàn)成本降低及效果提高。
[0011]本發(fā)明附加的方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。
【附圖說明】
[0012]本發(fā)明上述的和/或附加的方面和優(yōu)點從下面結(jié)合附圖對實施例的描述中將變得明顯和容易理解,其中:
[0013]圖1是本發(fā)明一實施例提出的分詞訓(xùn)練集的生成方法的流程示意圖;
[0014]圖2是本發(fā)明實施例中S13的具體實現(xiàn)流程示意圖;
[0015]圖3是本發(fā)明實施例中S23的具體實現(xiàn)流程示意圖;
[0016]圖4是本發(fā)明另一實施例提出的分詞訓(xùn)練集的生成裝置的結(jié)構(gòu)示意圖;
[0017]圖5是本發(fā)明另一實施例提出的分詞訓(xùn)練集的生成裝置的結(jié)構(gòu)示意圖;
[0018]圖6是本發(fā)明另一實施例提出的分詞訓(xùn)練集的生成裝置的結(jié)構(gòu)示意圖。
【具體實施方式】
[0019]下面詳細描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號表示相同或類似的模塊或具有相同或類似功能的模塊。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。相反,本發(fā)明的實施例包括落入所附加權(quán)利要求書的精神和內(nèi)涵范圍內(nèi)的所有變化、修正和等同物。
[0020]圖1是本發(fā)明一實施例提出的分詞訓(xùn)練集的生成方法的流程示意圖,該方法包括:
[0021]Sll:獲取訓(xùn)練語料,并采用不同的分詞器分別對相同的訓(xùn)練語料進行分詞,得到對應(yīng)不同分詞器的分詞結(jié)果。
[0022]其中,可以對已有的文本數(shù)據(jù)(如新聞文本數(shù)據(jù))進行收集,得到訓(xùn)練語料。訓(xùn)練語料是指未分詞前的數(shù)據(jù),通常是一句話,例如,你好北京,北京大學(xué),人生命中的對比。
[0023]在得到訓(xùn)練語料后,可以采用分詞器進行分詞。分詞器是已有的分詞器,不限定具體的分詞算法,例如,分詞器可以包括基于詞典匹配算法的分詞器,或者,基于學(xué)習(xí)算法的分詞器等。另外,在每種算法中,也可以采用不同的分詞器,例如,基于詞典匹配算法的分詞器,可以采用基于不同詞典的分詞器。
[0024]由于分詞器不同,對同一個訓(xùn)練語料進行分詞后,可能得到相同或不同的分詞結(jié)果O
[0025]S12:將所述分詞結(jié)果劃分為精確匹配的分詞結(jié)果和非精確匹配的分詞結(jié)果。
[0026]可以通過比較不同分詞器得到的分詞結(jié)果,實現(xiàn)對分詞結(jié)果的劃分。
[0027]根據(jù)分詞結(jié)果的相同或者不同,不同分詞器的分詞結(jié)果可以存在如下關(guān)系:
[0028]第一種關(guān)系:精確匹配。
[0029]例如,對于同一個訓(xùn)練語料“你好北京”,兩個分詞器的分詞結(jié)果分別是:
[0030]你好北京
[0031]你好北京
[0032]由于兩個分詞器得到的分詞結(jié)果是相同的,因此,這類分詞結(jié)果可以稱為精確匹配的分詞結(jié)果。
[0033]當(dāng)分詞結(jié)果不是精確匹配的分詞結(jié)果時,可以統(tǒng)稱為非精確匹配的分詞結(jié)果。并且,非精確匹配的分詞結(jié)果可以進一步分為:
[0034]第二種關(guān)系:粒度不同。
[0035]例如,對于同一個訓(xùn)練語料“北京大學(xué)”,兩個分詞器的分詞結(jié)果分別是:
[0036]北京大學(xué)
[0037]北京大學(xué)
[0038]由于兩個分詞結(jié)果中,總的邊界相同但單個詞條的長度不同,因此,這類分詞結(jié)果可以稱為粒度不同的分詞結(jié)果。
[0039]第三種關(guān)系:歧義錯誤。
[0040]例如,對于同一個訓(xùn)練語料“人生命中的對比”,兩個分詞器的分詞結(jié)果分別是:
[0041]人生命中的對比
[0042]人生命中的對比
[0043]由于兩個分詞器得到的分詞結(jié)果中存在邊界不一致的詞條,因此,這類分詞結(jié)果可以稱為歧義錯誤的分詞結(jié)果。
[0044]S13:根據(jù)所述分詞結(jié)果,對所述非精確匹配的分詞結(jié)果進行降噪處理,得到分詞訓(xùn)練集。
[0045]如果分詞訓(xùn)練集和真正符合語言現(xiàn)象的正確答案相比較,存在很多錯誤,那么用這樣的分詞訓(xùn)練集訓(xùn)練的分詞模型的效果就會很差,從而影響分詞效果以及語音合成效果。為了提高分詞訓(xùn)練集的準(zhǔn)確性,需要在分詞訓(xùn)練集中盡量避免非精確匹配的分詞結(jié)果。
[0046]由于非精確匹配的分詞結(jié)果可以分為:歧義錯誤的分詞結(jié)果和粒度不同的分詞結(jié)果,因此,可以分別對歧義錯誤的分詞結(jié)果進行降噪處理,以及對粒度不同的分詞結(jié)果進行降噪處理。
[0047]可選的,參見圖2,所述根據(jù)所述分詞結(jié)果,對所述非精確匹配的分詞結(jié)果進行降噪處理,得到分詞訓(xùn)練集,包括:
[0048]S21:在獲取的訓(xùn)練語料中,刪除歧義錯誤的分詞結(jié)果對應(yīng)的訓(xùn)練語料,得到保留的訓(xùn)練語料,并獲取所述保留的訓(xùn)練語料對應(yīng)的分詞結(jié)果。
[0049]例如,獲取的訓(xùn)練語料包括:你好北京,北京大學(xué),人生命中的對比,由于“人生命中的對比”被兩個分詞器分詞后得到的分詞結(jié)果屬于歧義錯誤的分詞結(jié)果,因此,在獲取的訓(xùn)練語料中刪除“人生命中的對比”,從而得到的保留的訓(xùn)練語料包括:你好北京,北京大學(xué)。
[0050]在確定出保留的訓(xùn)練語料后,可以獲取相應(yīng)的分詞結(jié)果,例如,你好,北京,北京大學(xué),北京,大學(xué)。
[0051]針對歧義錯誤的分詞結(jié)果:由于采用的分詞器是基于不同算法或基于不同訓(xùn)練數(shù)據(jù)得到的,不容易出現(xiàn)完全一樣的歧義錯誤。因此,通過比較不同的分詞器得到的分詞結(jié)果,可以容易地查找到歧義錯誤的分詞結(jié)果。
[0052]具體的查找歧義錯誤的方法如下:
[0053]分詞結(jié)果1:人生命中的對比
[0054]分詞結(jié)果2:人生命中的對比
[0055]以第一個分詞結(jié)果為基準(zhǔn),當(dāng)遍歷到第二個詞塊“生命中”時,與第二個分詞結(jié)果進行比較發(fā)現(xiàn),“生”屬于第二個分詞結(jié)果的第一個詞,而“命中”屬于第二個分詞結(jié)果的第二個詞,并且“生”和“命中”組合起來在第二個分詞結(jié)果中不是兩個單獨的詞塊,這樣的情況一定是發(fā)生了歧義錯誤。通過這樣的相互校驗,就可以把訓(xùn)