一種基于短語結(jié)構(gòu)句法樹的英文詞義消歧方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及到一種英文詞義消歧方法,特別涉及一種基于短語結(jié)構(gòu)句法樹的英文 詞義消歧方法,屬于自然語言處理技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 詞義消歧是指根據(jù)歧義詞所處的上下文環(huán)境判斷其正確的詞義。詞義是構(gòu)成一個(gè) 句子含義的基本單位,是理解一個(gè)句子的前提。詞義消歧屬于自然語言處理領(lǐng)域的基礎(chǔ)性 任務(wù),在機(jī)器翻譯、信息檢索、文本分類、問答系統(tǒng)等領(lǐng)域具有廣泛的應(yīng)用需求。
[0003] 歧義詞的詞義由其所處的上下文環(huán)境而確定。能否準(zhǔn)確地選擇上下文詞義相關(guān) 詞,將直接影響詞義消歧系統(tǒng)的性能。現(xiàn)有的詞義消歧方法通常利用上下文滑動(dòng)窗口來選 擇上下文相關(guān)詞,即以歧義詞為中心選擇左右一定距離以內(nèi)的詞語。這種方法只考慮了詞 語在句子中的直接距離,而未考慮詞語的語法、語義關(guān)系。這種方法無法濾除近距離的噪聲 詞,也容易遺漏遠(yuǎn)距離的相關(guān)詞。
[0004] 歧義詞的詞義通常通過比較各詞義與上下文詞義相關(guān)詞的密切程度而確定。能否 準(zhǔn)確地計(jì)算密切程度,對(duì)詞義消歧系統(tǒng)的性能具有決定性影響。不同距離的相關(guān)詞對(duì)歧義 詞詞義的影響程度并不相同,需要賦予適當(dāng)?shù)南鐧?quán)重?,F(xiàn)有的詞義消歧方法通常將上下 文詞義相關(guān)詞的權(quán)重視為同等的,這無法體現(xiàn)不同距離詞語的權(quán)重差異,難以準(zhǔn)確評(píng)估詞 義與上下文詞義相關(guān)詞的密切程度。
[0005] 鑒于上述問題,本申請(qǐng)?zhí)岢鲆环N基于短語結(jié)構(gòu)句法樹的英文詞義消歧方法,該方 法可以充分利用短語結(jié)構(gòu)句法樹來進(jìn)行詞義相關(guān)詞的篩選并為其賦予消歧權(quán)重,根據(jù)詞義 與上下文詞義相關(guān)詞的密切程度而判斷正確詞義。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的目的是為了克服現(xiàn)有詞義消歧技術(shù)的不足,主要解決上下文詞義相關(guān)詞 的篩選及賦權(quán)和詞義相關(guān)度的計(jì)算問題,提出了一種新的基于短語結(jié)構(gòu)句法樹的英文詞義 消歧方法。
[0007] 本發(fā)明的目的是通過如下技術(shù)方案實(shí)現(xiàn)的。
[0008] -種基于短語結(jié)構(gòu)句法樹的英文詞義消歧方法,其具體操作步驟如下。
[0009] 步驟一、通過對(duì)句子進(jìn)行短語結(jié)構(gòu)句法分析,生成其短語結(jié)構(gòu)句法樹;具體如下。
[0010] 步驟1.1:用符號(hào)S表示待處理的句子。
[0011] 步驟1.2:對(duì)句子S進(jìn)行預(yù)處理,主要包括去除亂碼字符、特殊符號(hào)、英文斷詞 (Tokenization)等,獲得預(yù)處理后的句子S'。
[0012] 步驟1.3:使用短語結(jié)構(gòu)句法分析器,對(duì)句子S'進(jìn)行短語結(jié)構(gòu)句法分析,生成短語 結(jié)構(gòu)句法樹T。
[0013] 步驟1.4:對(duì)短語結(jié)構(gòu)句法樹T中的詞語進(jìn)行詞形還原。
[0014] 步驟二、以短語結(jié)構(gòu)句法樹為依據(jù),計(jì)算歧義詞與句子中其它詞語的層次距離和 路徑距離,篩選出詞義相關(guān)詞;具體如下。
[0015] 步驟2.1:用符號(hào)wt表示待消歧的歧義詞,用符號(hào)w表示句子中的其它詞語,用符號(hào) W表示句子中除歧義詞wt之外的全部實(shí)詞的集合。
[0016] 步驟2.2:由短語結(jié)構(gòu)句法樹T,統(tǒng)計(jì)歧義詞Wt與其它詞語w的層次距離cU,將cU記入 w,并保存到W中。
[0017] 步驟2.3:由短語結(jié)構(gòu)句法樹T,統(tǒng)計(jì)歧義詞Wt與其它詞語w的路徑距離dP,將心記入 w,并保存到W中。
[0018] 步驟2.4:指定層次距離參數(shù)d_layer和路徑距離參數(shù)d_path,從W中篩選cU不大于 d_layer并且dP不大于d_path的詞語,構(gòu)建歧義詞的詞義相關(guān)詞集合R。
[0019]步驟三、構(gòu)建詞義消歧模型,通過評(píng)估歧義詞的各個(gè)詞義與詞義相關(guān)詞的密切程 度而判定正確詞義;具體如下。
[0020] 步驟3.1:對(duì)于詞義相關(guān)詞集合R中的每個(gè)詞語w,根據(jù)其層次距離cU和路徑距離dP, 由公式(1)計(jì)算其消歧權(quán)重。
[0021]
其中,α和β為層次距離cU和路徑距離dP的調(diào)節(jié)參數(shù)。
[0022] 步驟3.2:對(duì)于歧義詞wt的每個(gè)詞義Sl,由公式(2)計(jì)算其與詞義相關(guān)詞集R的密切
程度。
[0023] 其中,Si表示歧義詞wt的第i個(gè)詞義,sense (wt)表示歧義詞wt的全部詞義的集合,Si e sense(wt),wj表示第j個(gè)詞義相關(guān)詞,R表示歧義詞wt的全部詞義相關(guān)詞的集合,WjER, weight (Wj)表示由公式⑴計(jì)算而得的Wj的消歧權(quán)重,wnss( Si, Wj)表示詞義Si與詞義相關(guān)詞 Wj的詞義相關(guān)度。
[0024] 步驟3.3:根據(jù)由步驟3.2所得的各個(gè)詞義81與詞義相關(guān)詞集R的密切程度,選擇密 切程度最高的詞義作為歧義詞的正確詞義。
[0025] 步驟四、由詞義標(biāo)注語料庫,利用遺傳算法,對(duì)步驟三中的詞義消歧模型的參數(shù)進(jìn) 行優(yōu)化,獲得優(yōu)化的詞義消歧模型;具體如下。
[0026] 步驟4.1:選擇適當(dāng)?shù)脑~義標(biāo)注語料庫Corpus。
[0027] 步驟4.2:收集語料庫Corpus中的每個(gè)歧義詞、所在的句子及正確詞義標(biāo)注,構(gòu)建 詞義消歧模型訓(xùn)練數(shù)據(jù)集Ctrain。
[0028] 步驟4.3:將步驟2.4和3.1中的層次距離參數(shù)cLlayer、路徑距離參數(shù)d_path及其 調(diào)節(jié)參數(shù)α、β作為遺傳算法的輸入向量,將公式⑶作為遺傳算法的目標(biāo)函數(shù),在C train上進(jìn) 行優(yōu)化訓(xùn)練,獲得最優(yōu)的d_lay er、d_path、α、β參數(shù)。
[0029]
其中,precision為消歧正確率,其值為正確消歧的歧義詞的數(shù)量與歧義詞總數(shù)的比 值。
[0030] 步驟4 · 4:將步驟4 · 3所獲得的(1_]^5^1·、d_path代入步驟2 · 4,將α、β代入公式(1), 完成詞義消歧模型的參數(shù)優(yōu)化。
[0031] 步驟五、對(duì)于待消歧詞,重復(fù)步驟一和二,利用步驟四所獲得的優(yōu)化的詞義消歧模 型,判定歧義詞的正確詞義;具體如下。
[0032] 步驟5.1:根據(jù)步驟一,生成待消歧詞wt所在句子的短語結(jié)構(gòu)句法樹T。
[0033] 步驟5.2:根據(jù)步驟二,獲得待消歧詞wt與句子中其它詞語的層次距離和路徑距 離,并根據(jù)步驟四所獲得的d_layer、d_path篩選詞義相關(guān)詞,構(gòu)建詞義相關(guān)詞集合R。
[0034]步驟5.3:根據(jù)步驟四所獲得的α、β參數(shù),由步驟3.1,計(jì)算詞義相關(guān)詞集合R中的每 個(gè)詞義相關(guān)詞的消歧權(quán)重。
[0035] 步驟5.4:由步驟3.2,確定歧義詞wt的每個(gè)詞義Si與詞義相關(guān)詞集R的密切程度。 [0036] 步驟5.5:由步驟3.3,確定歧義詞wt的正確詞義。
[0037]經(jīng)過以上步驟的操作,即可判定英文歧義語的詞義,完成詞義消歧任務(wù)。
[0038] 有益效果 本發(fā)明提出基于短語結(jié)構(gòu)句法樹的英文詞義消歧方法,使用短語結(jié)構(gòu)句法樹作為歧義 詞的上下文詞義相關(guān)詞的篩選依據(jù);根據(jù)詞義相關(guān)詞與歧義詞在短語結(jié)構(gòu)句法樹上的層次 距離和路徑距離,賦予詞義相關(guān)詞消歧權(quán)重;根據(jù)歧義詞的各個(gè)詞義與上下文詞義相關(guān)詞 的關(guān)聯(lián)密切程度而判斷正確詞義。本發(fā)明提出的基于短語結(jié)構(gòu)句法樹的英文詞義消歧方法 與現(xiàn)有的英文詞義消歧方法相比,其能夠更準(zhǔn)確地篩選上下文詞義相關(guān)詞,并為詞義相關(guān) 詞賦予適當(dāng)?shù)南鐧?quán)重,對(duì)歧義詞詞義與上下文詞義相關(guān)詞的密切程度的計(jì)算更為精確。 本方法能夠有效避免傳統(tǒng)方法存在的詞義相關(guān)詞篩選及賦權(quán)不準(zhǔn)確的問題,改善詞義相關(guān) 度的計(jì)算精度,提高英文詞義消歧的正確率。
【附圖說明】
[0039] 圖1為本發(fā)明具體實(shí)施中的句子的短語結(jié)構(gòu)句法樹。
【具體實(shí)施方式】
[0040] 下面結(jié)合具體實(shí)施例,對(duì)本發(fā)明做進(jìn)一步的詳細(xì)描述。
[0041] 以句子" θ The coaches ' teaching football are standing on the bus@ ·" 為 例,對(duì)其中的歧義詞coach進(jìn)行消歧處理。
[0042] 根據(jù)WordNet 3.0詞典,歧義詞coach的詞義如表1所示。
[0043] 表1 coach#n的詞義表
其中,#n表示詞性為名詞;#1,#2,#3,#4,#5表示在WordNet 3.0中的詞義序號(hào)。
[0044] 步驟一、通過對(duì)句子進(jìn)行短語結(jié)構(gòu)句法分析,生成其短語結(jié)構(gòu)句法樹;具體如下。
[0045] 步驟1 . 1:用符號(hào)S表示待處理的句子,此例中S為" θ The c