基于統(tǒng)計(jì)詞典模型的未登錄詞發(fā)現(xiàn)和分詞系統(tǒng)及方法
【專利摘要】本發(fā)明提供一種基于統(tǒng)計(jì)詞典模型的未登錄詞發(fā)現(xiàn)和分詞方法,應(yīng)用于計(jì)算裝置中,該方法包括:接收步驟,接收用戶輸入的文本;構(gòu)建步驟一,構(gòu)建初始詞典;構(gòu)建步驟二,利用EM算法和模型選擇技術(shù)對(duì)初始詞典進(jìn)行篩選以得到最終詞典;計(jì)算步驟,利用對(duì)數(shù)似然比統(tǒng)計(jì)量來(lái)計(jì)算最終詞典中詞匯的統(tǒng)計(jì)顯著性以得到最終詞典中詞匯的重要性得分,并根據(jù)最終詞典中詞匯的重要性得分對(duì)輸入文本中所有識(shí)別出來(lái)的未登錄詞由高到低進(jìn)行排序;分析步驟,根據(jù)最終詞典,通過(guò)計(jì)算和分析輸入文本的每種分詞方式的條件概率來(lái)實(shí)現(xiàn)對(duì)輸入文本的分詞。
【專利說(shuō)明】基于統(tǒng)計(jì)詞典模型的未登錄詞發(fā)現(xiàn)和分詞系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及文本的計(jì)算機(jī)自動(dòng)處理領(lǐng)域,尤其涉及一種基于統(tǒng)計(jì)詞典模型的未登 錄詞發(fā)現(xiàn)和分詞系統(tǒng)及方法。
【背景技術(shù)】
[0002] 自然語(yǔ)言文本是由基本語(yǔ)言單位構(gòu)成有限序列。對(duì)于漢語(yǔ)而言,基本語(yǔ)言單位是 所有漢字字符的集合;對(duì)于以英語(yǔ)為代表的西方語(yǔ)言而言,基本語(yǔ)言單位是所有單詞的集 合。盡管自然語(yǔ)言文本是由基本語(yǔ)言單位構(gòu)成的,但是想要準(zhǔn)確理解文本的內(nèi)容,我們常常 需要識(shí)別出基本語(yǔ)言單位之上的高級(jí)語(yǔ)言結(jié)構(gòu)。對(duì)于漢語(yǔ)而言,這里所考慮的高級(jí)語(yǔ)言結(jié) 構(gòu)是指所有漢語(yǔ)詞的全集(一個(gè)漢語(yǔ)詞可以是僅包含一個(gè)漢字字符的單字詞,也可以是包 含多個(gè)漢字字符的多字詞);對(duì)于以英語(yǔ)為代表的西方語(yǔ)言而言,這里所考慮的高級(jí)語(yǔ)言 結(jié)構(gòu)是指由多個(gè)單詞構(gòu)成的單詞短語(yǔ)(比如,像"People's Republic of China"這樣的復(fù) 雜名詞短語(yǔ))。
[0003] 在自然語(yǔ)言文本中,構(gòu)成文本的基本語(yǔ)言單位是明確可見(jiàn)的,但是其中所包含的 高級(jí)語(yǔ)言結(jié)構(gòu)卻并非是直接可觀測(cè)的。這就為自然語(yǔ)言文本的計(jì)算機(jī)自動(dòng)分析帶來(lái)了兩 大核心問(wèn)題:(A)分詞,即將由基本語(yǔ)言單位序列構(gòu)成的文本分解成高級(jí)語(yǔ)言結(jié)構(gòu)(詞或 短語(yǔ))的序列;(B)未登錄詞識(shí)別,即從文本中自動(dòng)識(shí)別未被現(xiàn)有詞庫(kù)包含的高級(jí)語(yǔ)言結(jié) 構(gòu)(詞或短語(yǔ))。這兩個(gè)問(wèn)題是漢語(yǔ)文本分析中的核心問(wèn)題,并在其他語(yǔ)言的文本分析中 廣泛存在。例如,在英語(yǔ)中,盡管英語(yǔ)單詞之間有空格分開(kāi),但是我們?nèi)匀粫r(shí)常需要識(shí)別像 "People,s Republic of China"這樣的復(fù)雜名詞短語(yǔ)。
[0004] 現(xiàn)有的分詞技術(shù)可以歸結(jié)為以下幾類:(A1)假定存在一個(gè)已知詞庫(kù)D,設(shè)計(jì)算法 進(jìn)行分詞。例如,機(jī)械分詞法和基于正則表達(dá)式的分詞法。(A2)利用語(yǔ)言學(xué)家通過(guò)人工分 詞和語(yǔ)法標(biāo)注生成的語(yǔ)料庫(kù)作為訓(xùn)練文本進(jìn)行模型訓(xùn)練,并利用訓(xùn)練所得的模型來(lái)實(shí)現(xiàn)分 詞。例如,基于條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)、隱馬氏模型(Hidden Markov Model,HMM)或者層次隱馬氏模型(Hierarchical Hidden Markov Model)的分詞法。
[0005] 方法(Al)的主要缺陷是:如果實(shí)際使用的詞庫(kù)顯著大于已知詞庫(kù)D,則分詞準(zhǔn)確 度會(huì)大幅下降。方法(A2)的主要缺陷是:需要大規(guī)模、高質(zhì)量的語(yǔ)料庫(kù)作為訓(xùn)練文本;如果 目標(biāo)文本和訓(xùn)練文本的特點(diǎn)差異較大,則分詞準(zhǔn)確度會(huì)大幅下降。
[0006] 現(xiàn)有的未登錄詞識(shí)別技術(shù)可以歸結(jié)為以下幾類:(B1)人工識(shí)別。(B2)通過(guò)對(duì)大量 用戶使用特定漢字輸入法時(shí)的行為規(guī)律來(lái)識(shí)別。(B3)通過(guò)對(duì)兩個(gè)或多個(gè)基本語(yǔ)言單位相 鄰出現(xiàn)的統(tǒng)計(jì)規(guī)律進(jìn)行分析來(lái)識(shí)別。方法(B1)的主要缺陷是:速度慢;實(shí)時(shí)性差;難以有 效處理大規(guī)模數(shù)據(jù)。方法(B2)的主要缺陷是:只有輸入法的設(shè)計(jì)者或管理者才能使用;難 以識(shí)別未被用戶群有效覆蓋的未登錄詞,如專業(yè)性較強(qiáng)的專有詞匯。方法(B3)的主要缺陷 是:基于啟發(fā)式算法;只能利用目標(biāo)文本中的局部信息;準(zhǔn)確度較低。
[0007] 現(xiàn)有的文本分析技術(shù)基本上都將(A)和(B)這兩個(gè)問(wèn)題分別處理。但是,實(shí)際上 (A)和(B)這兩個(gè)問(wèn)題是相互纏繞,互為因果的。未登錄詞的存在會(huì)顯著影響分詞的效果; 而反過(guò)來(lái),分詞又是未登錄詞識(shí)別的前提。將(A)和(B)這兩個(gè)問(wèn)題整合在一起同時(shí)處理 是克服上述困境的最佳途徑。但是現(xiàn)有的文本分析技術(shù)都無(wú)法有效地實(shí)現(xiàn)這一點(diǎn)。
【發(fā)明內(nèi)容】
[0008] 鑒于以上內(nèi)容,有必要提供一種基于統(tǒng)計(jì)詞典模型的未登錄詞發(fā)現(xiàn)和分詞系統(tǒng)及 方法,其能將對(duì)輸入文本的分詞和未登錄詞識(shí)別這兩個(gè)問(wèn)題有機(jī)地結(jié)合在一起同時(shí)處理, 并且基于嚴(yán)格的統(tǒng)計(jì)推斷,假設(shè)清晰,理論基礎(chǔ)堅(jiān)實(shí);自適應(yīng)性強(qiáng),可以在沒(méi)有任何訓(xùn)練文 本或者訓(xùn)練樣本和目標(biāo)文本差異較大的情況下正常工作。
[0009] 一種基于統(tǒng)計(jì)詞典模型的未登錄詞發(fā)現(xiàn)和分詞系統(tǒng),運(yùn)行于計(jì)算裝置中,該系統(tǒng) 包括:接收模塊,用于接收輸入文本;構(gòu)建模塊,用于構(gòu)建初始詞典;所述構(gòu)建模塊,還用于 利用EM算法和模型選擇技術(shù)對(duì)初始詞典進(jìn)行篩選以得到最終詞典;計(jì)算模塊,用于利用對(duì) 數(shù)似然比統(tǒng)計(jì)量來(lái)計(jì)算最終詞典中詞匯的統(tǒng)計(jì)顯著性以得到最終詞典中詞匯的重要性得 分,并根據(jù)最終詞典中詞匯的重要性得分對(duì)輸入文本中所有識(shí)別出來(lái)的未登錄詞由高到低 進(jìn)行排序;分析模塊,用于根據(jù)最終詞典,通過(guò)計(jì)算和分析輸入文本的每種分詞方式的條件 概率來(lái)實(shí)現(xiàn)對(duì)輸入文本的分詞。
[0010] 一種基于統(tǒng)計(jì)詞典模型的未登錄詞發(fā)現(xiàn)和分詞方法,應(yīng)用于計(jì)算裝置中,該方法 包括:接收步驟,接收輸入文本;構(gòu)建步驟一,構(gòu)建初始詞典;構(gòu)建步驟二,利用EM算法和模 型選擇技術(shù)對(duì)初始詞典進(jìn)行篩選以得到最終詞典;計(jì)算步驟,利用對(duì)數(shù)似然比統(tǒng)計(jì)量來(lái)計(jì) 算最終詞典中詞匯的統(tǒng)計(jì)顯著性以得到最終詞典中詞匯的重要性得分,并根據(jù)最終詞典中 詞匯的重要性得分對(duì)輸入文本中所有識(shí)別出來(lái)的未登錄詞由高到低進(jìn)行排序;分析步驟, 根據(jù)最終詞典,通過(guò)計(jì)算和分析輸入文本的每種分詞方式的條件概率來(lái)實(shí)現(xiàn)對(duì)輸入文本的 分詞。
[0011] 相較于現(xiàn)有技術(shù),本發(fā)明從一個(gè)簡(jiǎn)化的語(yǔ)言模型,即統(tǒng)計(jì)詞典模型出發(fā),將漢語(yǔ)未 登錄詞識(shí)別和分詞問(wèn)題轉(zhuǎn)化為統(tǒng)計(jì)推斷問(wèn)題加以解決,可以同步完成未登錄詞識(shí)別和分 詞,并對(duì)識(shí)別出的未登錄詞按照統(tǒng)計(jì)顯著性從強(qiáng)到弱進(jìn)行排序;從一個(gè)明確的統(tǒng)計(jì)模型出 發(fā),將對(duì)輸入文本的分詞和未登錄詞識(shí)別這兩個(gè)問(wèn)題有機(jī)地結(jié)合在一起同時(shí)處理;整個(gè)方 法基于嚴(yán)格的統(tǒng)計(jì)推斷,假設(shè)清晰,理論基礎(chǔ)堅(jiān)實(shí);自適應(yīng)性強(qiáng),可以在沒(méi)有任何訓(xùn)練文本 或者訓(xùn)練樣本和目標(biāo)文本差異較大的情況下正常工作。
【專利附圖】
【附圖說(shuō)明】
[0012] 圖1是本發(fā)明基于統(tǒng)計(jì)詞典模型的未登錄詞發(fā)現(xiàn)和分詞系統(tǒng)的應(yīng)用環(huán)境圖。
[0013] 圖2是本發(fā)明基于組合模式的失效服務(wù)替代推薦方法的較佳實(shí)施例的流程圖。
[0014] 主要元件符號(hào)說(shuō)明
[0015]
【權(quán)利要求】
1. 一種基于統(tǒng)計(jì)詞典模型的未登錄詞發(fā)現(xiàn)和分詞方法,應(yīng)用于計(jì)算裝置中,其特征在 于,該方法包括: 接收步驟,接收用戶輸入的文本; 構(gòu)建步驟一,構(gòu)建初始詞典; 構(gòu)建步驟二,利用EM算法和模型選擇技術(shù)對(duì)初始詞典進(jìn)行篩選以得到最終詞典; 計(jì)算步驟,利用對(duì)數(shù)似然比統(tǒng)計(jì)量來(lái)計(jì)算最終詞典中詞匯的統(tǒng)計(jì)顯著性以得到最終詞 典中詞匯的重要性得分,并根據(jù)最終詞典中詞匯的重要性得分對(duì)輸入文本中所有識(shí)別出來(lái) 的未登錄詞由高到低進(jìn)行排序; 分析步驟,根據(jù)最終詞典,通過(guò)計(jì)算和分析輸入文本的每種分詞方式的條件概率來(lái)實(shí) 現(xiàn)對(duì)輸入文本的分詞。
2. 如權(quán)利要求1所述的統(tǒng)計(jì)詞典模型的未登錄詞發(fā)現(xiàn)和分詞方法,其特征在于,初始 詞典中的候選詞匯的來(lái)源包括:計(jì)算裝置的存儲(chǔ)器中所存儲(chǔ)的已知詞庫(kù);從用戶輸入的文 本中提取。
3. 如權(quán)利要求2所述的統(tǒng)計(jì)詞典模型的未登錄詞發(fā)現(xiàn)和分詞方法,其特征在于,利用 枚舉正則字符串的方法從輸入文本中提取候選詞匯;即窮舉輸入文本中所有長(zhǎng)度小于或等 于L且出現(xiàn)頻數(shù)大于或等于F的字符串,一個(gè)字符串稱為正則字符串,并將每一個(gè)正則字符 串作為一個(gè)候選詞匯加入到初始詞典中。
4. 如權(quán)利要求1所述的統(tǒng)計(jì)詞典模型的未登錄詞發(fā)現(xiàn)和分詞方法,其特征在于,通過(guò) EM算法和模型選擇技術(shù)構(gòu)建最終詞典是在統(tǒng)計(jì)詞典模型的框架下實(shí)現(xiàn)的,統(tǒng)計(jì)詞典模型的 基本要素如下: 字符集A = {Ai,A2,…Ap}為目標(biāo)語(yǔ)言所有基本語(yǔ)言單位的全體; 詞匯
是A中1個(gè)元素的序列; 詞典D= {WpWs,…,WN,τ}是N個(gè)詞匯的集合外加一個(gè)特殊終止符號(hào)τ ; 參數(shù)θ = {θ1; θ2,…ΘΝ,θ τ}給出了 D中每個(gè)元素的使用概率,其中0彡Θ'Ι對(duì) 于i = 1,2,...,10〈1〈1,并且
句子
是k個(gè)詞匯的序列,其中符號(hào)" | "表示詞間分割符; 未分詞文本
是k個(gè)詞匯的串聯(lián),未分詞文本不包含詞間分割符; 輸入文本T = {1\,T2,…,TJ是η條未分詞文本的全體; 統(tǒng)計(jì)詞典模型的基本假定是:句子
是通過(guò)對(duì)D中元素進(jìn)行k次獨(dú)立 的有放回抽取產(chǎn)生的,每次抽取時(shí)抽到詞匯1的概率是,直至抽到終止符號(hào)τ時(shí)停止, 在統(tǒng)計(jì)詞典模型下,生成句子
的似然函數(shù)為:
生成未分詞文本L的似然函數(shù)為:
其中,記號(hào)\表不在詞典D下,未分詞文本Tj的所有可能分詞方式。
5. 如權(quán)利要求4所述的統(tǒng)計(jì)詞典模型的未登錄詞發(fā)現(xiàn)和分詞方法,其特征在于,運(yùn)用 EM算法估計(jì)統(tǒng)計(jì)詞典模型中的參數(shù)Θ,一個(gè)完整的EM算法包括四個(gè)步驟: (a) 初值的選取,對(duì)于初始詞典中的元素 I,其參數(shù)Θ i的初值設(shè)定為
其中,
I ( ·)是示性函數(shù), 在上述公式中,1^是1的長(zhǎng)度,匕是1的長(zhǎng)度,Tj[a,b]是1中從位置a起始到位置 b終止的子字符串,Tj[a,b]包含位置a和位置b上的字符,整數(shù)值
的直觀含義是字符串 Tj中子字符串I出現(xiàn)的次數(shù); (b) E步,令θ ?為在EM算法第r輪迭代中得到的參數(shù)估計(jì),E步將計(jì)算如下統(tǒng)計(jì)量
其中,記號(hào)P(S|T」;D,Θ)定義為
表示在詞典模型(D,Θ)下,L由分詞方式S產(chǎn)生的條件概率,記號(hào)ni(S)表示在句子 S中詞匯I出現(xiàn)的次數(shù); (c) M步,將按照如下公式來(lái)更新對(duì)參數(shù)Θ的估計(jì)
(d) 停止準(zhǔn)則,在E步和Μ步之間反復(fù)迭代,直到θω和0(rt)之間的歐氏距離 d(0 ω,Θ fr+1))小于預(yù)先給定的閥值δ時(shí),算法停止。
6. 如權(quán)利要求4所述的統(tǒng)計(jì)詞典模型的未登錄詞發(fā)現(xiàn)和分詞方法,其特征在于,衡量 詞匯I的統(tǒng)計(jì)顯著性的對(duì)數(shù)似然比統(tǒng)計(jì)量定義如下:
其中,
公式中的P(T|D,Θ)代表詞典(D,Θ)擬合輸入文本T的似然函數(shù)。
7. 如權(quán)利要求4所述的統(tǒng)計(jì)詞典模型的未登錄詞發(fā)現(xiàn)和分詞方法,其特征在于,給定 詞典D及其參數(shù)Θ,對(duì)于給定的一條未分詞文本T e T,通過(guò)計(jì)算和分析T的不同分詞方式 的條件概率來(lái)實(shí)現(xiàn)分詞;假定§ =體,···,^}是T在詞典D下的所有可能分詞方式,根據(jù)統(tǒng)計(jì) 詞典模型的假設(shè),在給定T的條件下,分詞方式*S eS的條件概率為:
按照極大似然原則,未知分詞方式的極大似然估計(jì)為使P(S|T;D,Θ)取到最大值的分 詞方式,即
8. 如權(quán)利要求4所述的統(tǒng)計(jì)詞典模型的未登錄詞發(fā)現(xiàn)和分詞方法,其特征在于,計(jì)算 未分詞文本T的每個(gè)字符后出現(xiàn)詞間分割符的條件概率,并依據(jù)所述條件概率進(jìn)行分詞; 如果分詞方式S在T的第t個(gè)字符之后有詞間分割符,則令示性函數(shù)I t (S) = 1,否則,令示 It(S) = 0 ;那么,在位置t出現(xiàn)切分符的條件概率為
9. 一種基于統(tǒng)計(jì)詞典模型的未登錄詞發(fā)現(xiàn)和分詞系統(tǒng),運(yùn)行于計(jì)算裝置中,其特征在 于,該系統(tǒng)包括: 接收模塊,用于接收輸入文本; 構(gòu)建模塊,用于構(gòu)建初始詞典; 所述構(gòu)建模塊,還用于利用EM算法和模型選擇技術(shù)對(duì)初始詞典進(jìn)行篩選以得到最終 詞典; 計(jì)算模塊,用于利用對(duì)數(shù)似然比統(tǒng)計(jì)量來(lái)計(jì)算最終詞典中詞匯的統(tǒng)計(jì)顯著性以得到最 終詞典中詞匯的重要性得分,并根據(jù)最終詞典中詞匯的重要性得分對(duì)輸入文本中所有識(shí)別 出來(lái)的未登錄詞由高到低進(jìn)行排序; 分析模塊,用于根據(jù)最終詞典,通過(guò)計(jì)算和分析輸入文本的每種分詞方式的條件概率 來(lái)實(shí)現(xiàn)對(duì)輸入文本的分詞。
10. 如權(quán)利要求9所述的統(tǒng)計(jì)詞典模型的未登錄詞發(fā)現(xiàn)和分詞系統(tǒng),其特征在于,所述 初始詞典中的候選詞匯的來(lái)源包括:計(jì)算裝置的存儲(chǔ)器中所存儲(chǔ)的已知詞庫(kù)及輸入文本。
11. 如權(quán)利要求10所述的統(tǒng)計(jì)詞典模型的未登錄詞發(fā)現(xiàn)和分詞系統(tǒng),其特征在于,在 構(gòu)建模塊中利用枚舉正則字符串的方法從輸入文本中提取候選詞匯;即窮舉輸入文本中所 有長(zhǎng)度小于或等于L且出現(xiàn)頻數(shù)大于或等于F的字符串,一個(gè)字符串稱為正則字符串,并將 每一個(gè)正則字符串作為一個(gè)候選詞匯加入到初始詞典中。
12. 如權(quán)利要求10所述的統(tǒng)計(jì)詞典模型的未登錄詞發(fā)現(xiàn)和分詞系統(tǒng),其特征在于,在 所述構(gòu)建模塊中,通過(guò)EM算法和模型選擇技術(shù)構(gòu)建最終詞典是在統(tǒng)計(jì)詞典模型的框架下 實(shí)現(xiàn)的,統(tǒng)計(jì)詞典模型的基本要素如下: 字符集A = {Ai,A2,…Ap}為目標(biāo)語(yǔ)言所有基本語(yǔ)言單位的全體; 詞匯
是A中1個(gè)元素的序列; 詞典D= {WpWs,…,WN,τ}是N個(gè)詞匯的集合外加一個(gè)特殊終止符號(hào)τ ; 參數(shù)θ = {θ1; θ2,…ΘΝ,θ τ}給出了 D中每個(gè)元素的使用概率,其中0彡Θ'Ι對(duì) 于i = 1,2,...,10〈1〈1,并且
句子
是k個(gè)詞匯的序列,其中符號(hào)" I "表示詞間分割符; 未分詞文本
是k個(gè)詞匯的串聯(lián),未分詞文本不包含詞間分割符; 輸入文本T = {1\,T2,…,TJ是η條未分詞文本的全體; 統(tǒng)計(jì)詞典模型的基本假定是:句子
是通過(guò)對(duì)D中元素進(jìn)行k次獨(dú)立 的有放回抽取產(chǎn)生的,每次抽取時(shí)抽到詞匯1的概率是,直至抽到終止符號(hào)τ時(shí)停止, 在統(tǒng)計(jì)詞典模型下,生成句子
的似然函數(shù)為:
生成未分詞文本L的似然函數(shù)為:
其中,記號(hào)表不在詞典D下,未分詞文本Tj的所有可能分詞方式。
13.如權(quán)利要求12所述的統(tǒng)計(jì)詞典模型的未登錄詞發(fā)現(xiàn)和分詞系統(tǒng),其特征在于,運(yùn) 用EM算法估計(jì)統(tǒng)計(jì)詞典模型中的參數(shù)Θ,一個(gè)完整的EM算法包括四個(gè)步驟: (a) 初值的選取,對(duì)于初始詞典中的元素 A,其參數(shù)Θ i的初值設(shè)定為
其中,
I ( ·)是示性函數(shù), 在上述公式中,1^是1的長(zhǎng)度,匕是1的長(zhǎng)度,Tj[a,b]是1中從位置a起始到位置 b終止的子字符串,Tj[a,b]包含位置a和位置b上的字符,整數(shù)值
的直觀含義是字符串 Tj中子字符串I出現(xiàn)的次數(shù); (b) E步,令θ ?為在EM算法第r輪迭代中得到的參數(shù)估計(jì),E步將計(jì)算如下統(tǒng)計(jì)量
其中,記號(hào)P(S|T」;D,Θ)定義為
表示在詞典模型(D,Θ)下,L由分詞方式S產(chǎn)生的條件概率,記號(hào)ni(S)表示在句子 S中詞匯I出現(xiàn)的次數(shù); (c) M步,將按照如下公式來(lái)更新對(duì)參數(shù)Θ的估計(jì)
(d) 停止準(zhǔn)則,在E步和Μ步之間反復(fù)迭代,直到θω和0(rt)之間的歐氏距離 d(0ω,Θfr+1))小于預(yù)先給定的閥值δ時(shí),算法停止。
14. 如權(quán)利要求12所述的統(tǒng)計(jì)詞典模型的未登錄詞發(fā)現(xiàn)和分詞系統(tǒng),其特征在于,在 計(jì)算模塊中,衡量詞匯Α的統(tǒng)計(jì)顯著性的對(duì)數(shù)似然比統(tǒng)計(jì)量定義如下 :
其中,
公式中的P(T|D,Θ)代表詞典(D,Θ)擬合輸入文本T的似然函數(shù)。
15. 如權(quán)利要求12所述的統(tǒng)計(jì)詞典模型的未登錄詞發(fā)現(xiàn)和分詞系統(tǒng),其特征在于,在 所述分析模塊中,給定詞典D及其參數(shù)Θ,對(duì)于給定的一條未分詞文本T e T,通過(guò)計(jì)算和 分析T的不同分詞方式的條件概率來(lái)實(shí)現(xiàn)分詞;假定
是T在詞典D下的所 有可能分詞方式,根據(jù)統(tǒng)計(jì)詞典模型的假設(shè),在給定T的條件下,分詞方式
的條件概率 為:
按照極大似然原則,未知分詞方式的極大似然估計(jì)為使P(S|T;D,Θ)取到最大值的分 詞方式,即
16. 如權(quán)利要求12所述的統(tǒng)計(jì)詞典模型的未登錄詞發(fā)現(xiàn)和分詞系統(tǒng),其特征在于,在 所述分析模塊中,計(jì)算未分詞文本T的每個(gè)字符后出現(xiàn)詞間分割符的條件概率,并依據(jù)所 述條件概率進(jìn)行分詞;如果分詞方式S在T的第t個(gè)字符之后有詞間分割符,則令示性函數(shù) It(S) = 1,否貝1J,令示It(S) = 0 ;那么在位置t出現(xiàn)切分符的條件概率為
【文檔編號(hào)】G06F17/30GK104156349SQ201410299453
【公開(kāi)日】2014年11月19日 申請(qǐng)日期:2014年6月27日 優(yōu)先權(quán)日:2014年3月19日
【發(fā)明者】鄧柯, 劉軍 申請(qǐng)人:鄧柯