两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于短語結(jié)構(gòu)句法樹的英文詞義消歧方法_3

文檔序號(hào):9911006閱讀:來源:國知局
將改寫為公式(4):
其中,公式(1)中的α、β已分別優(yōu)化為0.5、1.2。
[0076] 步驟五、對(duì)于待消歧詞,重復(fù)步驟一和二,利用步驟四所獲得的優(yōu)化的詞義消歧模 型,判定歧義詞的正確詞義;具體如下。
[0077] 在此實(shí)施例中,仍以句子" θ The coaches'teaching football are standing on the bus@."為例,對(duì)其中的歧義詞coach進(jìn)行消歧處理。
[0078] 步驟5.1:根據(jù)步驟一,生成待消歧詞wt所在句子的短語結(jié)構(gòu)句法樹T。此例中,短 語結(jié)構(gòu)句法樹如圖1所示。
[0079] 步驟5.2:根據(jù)步驟二,獲得待消歧詞wt與句子中其它詞語的層次距離和路徑距 離,并根據(jù)步驟四所獲得的d_laye r、d_path篩選詞義相關(guān)詞,構(gòu)建詞義相關(guān)詞集合R。此例 中,由圖1的短語結(jié)構(gòu)句法樹,coach與teach, football, stand, bus的層次距離依次為: 1,1,2,2;coach與teach, football, stand, bus的路徑距離依次為:4,4,7,9。經(jīng)步 驟四優(yōu)化后的 d_layer、d_path 分別為 3、10 46&(:11,;1^〇〇1^&11,8七&11(1,13118與(3〇&(311的層次 距離及路徑距離均滿足條件,故構(gòu)建的詞義相關(guān)詞集合R={teach#n, football#n, stand# v, bus#n }〇
[0080] 步驟5.3:根據(jù)步驟四所獲得的最優(yōu)參數(shù),由步驟3.1,計(jì)算詞義相關(guān)詞集合R中的 每個(gè)詞義相關(guān)詞的權(quán)重。此例中,由公式(4),根據(jù)其層次距離和路徑距離,teach#n, football#n, stand#v, bus#n的消歧權(quán)重weight分別為:0· 2902804823653377、 0.2902804823653377、0.12412383171664482、0.11654517159405858。
[0081] 步驟5.4:由步驟3.2,確定歧義詞wt的每個(gè)詞義Si與詞義相關(guān)詞集R的密切程度。此 例中,對(duì)于詞義 coach#n#l,由公式(2),relatedness(coach#n#l) =

=0.03823363657834851+0.1565264349167673+0.0177929411579594+ 0.006597265862157682 =0.2191502785152329。
[0082] 同理,可得, relatedness (coach#n#2)=0·11378754409746956; relatedness(coach#n#3)=0.13571081450099737; relatedness(coach#n#4)=0.1421077906515997; relatedness(coach#n#5)=0.21047354027607934。
[0083] 步驟5.5 :由步驟3.3,確定歧義詞wt的正確詞義。此例中,比較步驟5.4中獲得的 coach的各個(gè)詞義的詞義相關(guān)度(relatedness值)大小;選擇相關(guān)度最大的coach#n#l作為 正確的詞義。
[0084] 經(jīng)過以上步驟的操作,即可判定英文歧義語的詞義,完成詞義消歧任務(wù)。
【主權(quán)項(xiàng)】
1. 一種基于短語結(jié)構(gòu)句法樹的英文詞義消歧方法,其特征在于:其具體操作步驟為: 步驟一、通過對(duì)句子進(jìn)行短語結(jié)構(gòu)句法分析,生成其短語結(jié)構(gòu)句法樹;具體為: 步驟1.1:用符號(hào)S表示待處理的句子; 步驟1 .2:對(duì)句子S進(jìn)行預(yù)處理,主要包括去除亂碼字符、特殊符號(hào)、英文斷詞 (Tokenization)等,獲得預(yù)處理后的句子S' ; 步驟1.3:使用短語結(jié)構(gòu)句法分析器,對(duì)句子S'進(jìn)行短語結(jié)構(gòu)句法分析,生成短語結(jié)構(gòu) 句法樹T; 步驟1.4:對(duì)短語結(jié)構(gòu)句法樹T中的詞語進(jìn)行詞形還原; 步驟二、以短語結(jié)構(gòu)句法樹為依據(jù),計(jì)算歧義詞與句子中其它詞語的層次距離和路徑 距離,篩選出詞義相關(guān)詞;具體為: 步驟2.1:用符號(hào)wt表示待消歧的歧義詞,用符號(hào)w表示句子中的其它詞語,用符號(hào)W表示 句子中除歧義詞wt之外的全部實(shí)詞的集合; 步驟2.2:由短語結(jié)構(gòu)句法樹T,統(tǒng)計(jì)歧義詞wt與其它詞語w的層次距離cU,將cU記入w,并 保存到W中; 步驟2.3:由短語結(jié)構(gòu)句法樹T,統(tǒng)計(jì)歧義詞wt與其它詞語w的路徑距離dP,將dP記入w,并 保存到W中; 步驟2.4:指定層次距離參數(shù)d_layer和路徑距離參數(shù)d_path,從W中篩選cU不大于d_ layer并且dP不大于d_path的詞語,構(gòu)建歧義詞的詞義相關(guān)詞集合R; 步驟三、構(gòu)建詞義消歧模型,通過評(píng)估歧義詞的各個(gè)詞義與詞義相關(guān)詞的密切程度而 判定正確詞義;具體為: 步驟3.1:對(duì)于詞義相關(guān)詞集合R中的每個(gè)詞語w,根據(jù)其層次距離cU和路徑距離dP,由公 式(1)計(jì)算其消歧權(quán)重;其中,α和β為層次距離cU和路徑距離dP的調(diào)節(jié)參數(shù); 步驟3.2:對(duì)于歧義詞wt的每個(gè)詞義Sl,由公式(2)計(jì)算其與詞義相關(guān)詞集R的密切程度;其中,Si表示歧義詞wt的第i個(gè)詞義,sense(wt)表示歧義詞wt的全部詞義的集合,Sie sense(wt),wj表示第j個(gè)詞義相關(guān)詞,R表示歧義詞wt的全部詞義相關(guān)詞的集合,WjER, weight (Wj)表示由公式⑴計(jì)算而得的Wj的消歧權(quán)重,wnss( Si, Wj)表示詞義Si與詞義相關(guān)詞 Wj的詞義相關(guān)度; 步驟3.3:根據(jù)由步驟3.2所得的各個(gè)詞義81與詞義相關(guān)詞集R的密切程度,選擇密切程 度最高的詞義作為歧義詞的正確詞義; 步驟四、由詞義標(biāo)注語料庫,利用遺傳算法,對(duì)步驟三中的詞義消歧模型的參數(shù)進(jìn)行優(yōu) 化,獲得優(yōu)化的詞義消歧模型;具體為: 步驟4.1:選擇適當(dāng)?shù)脑~義標(biāo)注語料庫Corpus; 步驟4.2:收集語料庫Corpus中的每個(gè)歧義詞、所在的句子及正確詞義標(biāo)注,構(gòu)建詞義 消歧模型訓(xùn)練數(shù)據(jù)集Ctrain; 步驟4.3:將步驟2.4和3.1中的層次距離參數(shù)d_layer、路徑距離參數(shù)d_path及其調(diào)節(jié) 參數(shù)α、β作為遺傳算法的輸入向量,將公式⑶作為遺傳算法的目標(biāo)函數(shù),在Ctrain上進(jìn)行優(yōu) 化訓(xùn)練,獲得最優(yōu)的d_layer、d_path、a、0參數(shù);其中,precision為消歧正確率,其值為正確消歧的歧義詞的數(shù)量與歧義詞總數(shù)的比 值; 步驟4.4:將步驟4.3所獲得的(1_]^761·、d_path代入步驟2.4,將α、β代入公式(1),完成 詞義消歧模型的參數(shù)優(yōu)化; 步驟五、對(duì)于待消歧詞,重復(fù)步驟一和二,利用步驟四所獲得的優(yōu)化的詞義消歧模型, 判定歧義詞的正確詞義;具體為: 步驟5.1:根據(jù)步驟一,生成待消歧詞wt所在句子的短語結(jié)構(gòu)句法樹Τ; 步驟5.2:根據(jù)步驟二,獲得待消歧詞wt與句子中其它詞語的層次距離和路徑距離,根據(jù) 步驟四所獲得的d_layer、d_path參數(shù),篩選詞義相關(guān)詞,構(gòu)建詞義相關(guān)詞集合R; 步驟5.3:根據(jù)步驟四所獲得的α、β參數(shù),由步驟3.1,計(jì)算詞義相關(guān)詞集合R中的每個(gè)詞 義相關(guān)詞的消歧權(quán)重; 步驟5.4:由步驟3.2,確定歧義詞wt的每個(gè)詞義81與詞義相關(guān)詞集R的密切程度; 步驟5.5:由步驟3.3,確定歧義詞wt的正確詞義; 經(jīng)過以上步驟的操作,即可判定英文歧義語的詞義,完成詞義消歧任務(wù)。
【專利摘要】本發(fā)明涉及到一種基于短語結(jié)構(gòu)句法樹的英文詞義消歧方法,屬于自然語言處理領(lǐng)域。其步驟為:1.通過對(duì)句子進(jìn)行短語結(jié)構(gòu)句法分析,生成其短語結(jié)構(gòu)句法樹;2.以短語結(jié)構(gòu)句法樹為依據(jù),篩選詞義相關(guān)詞;3.構(gòu)建詞義消歧模型,通過評(píng)估歧義詞的詞義與詞義相關(guān)詞的密切程度而判定正確詞義;4.由詞義標(biāo)注語料庫,利用遺傳算法,對(duì)步驟3中的詞義消歧模型的參數(shù)進(jìn)行優(yōu)化;5.對(duì)于待消歧詞,重復(fù)步驟1和2,利用步驟4所獲得的優(yōu)化詞義消歧模型,判定歧義詞的正確詞義。本發(fā)明提出的基于短語結(jié)構(gòu)句法樹的英文詞義消歧方法,利用短語結(jié)構(gòu)句法樹篩選詞義相關(guān)詞并為其賦予消歧權(quán)重,能夠減少噪聲詞的干擾,改善詞義相關(guān)度的計(jì)算精度,提高英文詞義消歧的正確率。
【IPC分類】G06F17/27
【公開號(hào)】CN105677639
【申請(qǐng)?zhí)枴緾N201610011045
【發(fā)明人】鹿文鵬, 成金勇, 張維玉
【申請(qǐng)人】齊魯工業(yè)大學(xué)
【公開日】2016年6月15日
【申請(qǐng)日】2016年1月10日
當(dāng)前第3頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
新野县| 新河县| 洞头县| 西平县| 大英县| 蒙阴县| 博爱县| 宜州市| 新乡市| 安徽省| 皋兰县| 尉氏县| 牡丹江市| 小金县| 信宜市| 伊通| 环江| 台东市| 南昌县| 绥宁县| 武定县| 和硕县| 镶黄旗| 治县。| 台山市| 微博| 克东县| 蕲春县| 宜州市| 德清县| 泰州市| 镇平县| 内黄县| 伊宁县| 大理市| 邵东县| 利辛县| 平顺县| 澎湖县| 高淳县| 南涧|