本發(fā)明涉及語(yǔ)義網(wǎng)絡(luò)技術(shù)領(lǐng)域,具體涉及一種新的語(yǔ)義相關(guān)度求解方法。
背景技術(shù):
21世紀(jì)以來(lái),全球互聯(lián)網(wǎng)進(jìn)入了一個(gè)高速發(fā)展的新時(shí)期,各種新技術(shù)不斷涌現(xiàn)。作為聯(lián)系計(jì)算機(jī)與人之間重要的自然語(yǔ)言處理技術(shù)也快速發(fā)展中。傳統(tǒng)的語(yǔ)義相關(guān)度計(jì)算方法大致分為兩類(lèi):基于語(yǔ)義詞典的語(yǔ)義相關(guān)度計(jì)算方法以及基于語(yǔ)料庫(kù)的語(yǔ)義相關(guān)度計(jì)算方法;語(yǔ)義相關(guān)度計(jì)算是自然語(yǔ)言處理領(lǐng)域非常重要的一項(xiàng)技術(shù),它的用途很廣泛,是自然語(yǔ)言處理領(lǐng)域一項(xiàng)基礎(chǔ)性的研究工作。例如要識(shí)別“這個(gè)蘋(píng)果很好吃”,通過(guò)語(yǔ)料庫(kù)檢索得到相似的翻譯有“這個(gè)梨子很好吃”、“這個(gè)人很好吃”。這里涉及一個(gè)歧義問(wèn)題,前一個(gè)“好”的意思是很好,讀音為三聲,后一個(gè)“好”為四聲,所以第一個(gè)翻譯更合適。為了消除詞語(yǔ)歧義問(wèn)題,本發(fā)明提出了智造行業(yè)中一種新的語(yǔ)義相似度求解方法。
技術(shù)實(shí)現(xiàn)要素:
針對(duì)于詞語(yǔ)中的歧義問(wèn)題,本發(fā)明提出了智造行業(yè)中一種新的語(yǔ)義相似度求解方法。
為了解決上述問(wèn)題,本發(fā)明是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的:
步驟1:根據(jù)權(quán)重比重,構(gòu)建智造中相關(guān)行業(yè)的網(wǎng)狀模型。權(quán)重大,則深度淺,反之,亦然。
步驟2:此網(wǎng)狀模型中有相關(guān)屬性類(lèi),相關(guān)屬性類(lèi)對(duì)應(yīng)的義原層次結(jié)構(gòu)以及解釋義原,根據(jù)輸入對(duì)比網(wǎng)狀模型中詞源。
步驟3:根據(jù)義原深度距離,確定詞語(yǔ)的相似度。
步驟4:根據(jù)義原的區(qū)域面積,確定詞語(yǔ)的相似度。
步驟5:綜合考慮義原深度距離、義原區(qū)域面積,來(lái)更準(zhǔn)確判斷詞語(yǔ)間的相似度。
步驟6:正確檢索到用戶需要的信息。
本發(fā)明的有益效果是:
1、比較傳統(tǒng)的語(yǔ)義分析方法,此計(jì)算得出的精確度更高。
2、在消除歧義方面有更好的效果。
3、更符合用戶需求。
附圖說(shuō)明
圖1智造行業(yè)中一種新的語(yǔ)義相似度求解方法的結(jié)構(gòu)流程圖。
具體實(shí)施方式
為解決詞語(yǔ)歧義問(wèn)題,結(jié)合圖1對(duì)本發(fā)明進(jìn)行了詳細(xì)說(shuō)明,其具體實(shí)施步驟如下:
步驟1:根據(jù)權(quán)重比重,構(gòu)建智造中相關(guān)行業(yè)的網(wǎng)狀模型。權(quán)重大,則深度淺,反之,亦然。
本網(wǎng)狀模型設(shè)計(jì)由智造行業(yè)專(zhuān)家進(jìn)行數(shù)據(jù)收集來(lái)確定。
步驟2:此網(wǎng)狀模型中有相關(guān)屬性類(lèi),相關(guān)屬性類(lèi)對(duì)應(yīng)的義原層次結(jié)構(gòu)以及解釋義原,根據(jù)輸入對(duì)比網(wǎng)狀模型中詞源。
步驟3:根據(jù)義原深度距離,確定詞語(yǔ)的相似度。其具體計(jì)算過(guò)程如下:
根據(jù)此網(wǎng)狀模型,選出符合輸入的屬性類(lèi),即義原層次結(jié)構(gòu)。根據(jù)輸入詞匯在義原層次結(jié)構(gòu)中出現(xiàn)的概率P,確定輸入的義原S1在層次結(jié)構(gòu)中的深度為為
P=max(P1,P2,…,Pn)
P1,P2,…,Pn分別為每個(gè)義原中輸入詞匯出現(xiàn)的概率,類(lèi)中義原的個(gè)數(shù)為n個(gè)。
Nj為在第j個(gè)義原中出現(xiàn)的次數(shù),V為第j個(gè)義原中根據(jù)輸入詞語(yǔ)劃分模塊的總個(gè)數(shù)。
由Pj值來(lái)確定輸入詞匯在此網(wǎng)狀模型中的深度值DJ。dj與相似度成反比,這里給定一個(gè)調(diào)節(jié)因子α。
即dj=αH(Pj)
步驟4:根據(jù)義原的區(qū)域面積,確定詞語(yǔ)的相似度。其具體計(jì)算過(guò)程如下:
根據(jù)步驟3中的深度dj對(duì)應(yīng)的第j個(gè)義原,可以知道此義原的區(qū)域面積S。
S=n(解釋義原)/β
上式n(解釋義原)為第j義原對(duì)應(yīng)的解釋義原個(gè)數(shù),β為相關(guān)區(qū)域面積的一個(gè)調(diào)節(jié)因子。
步驟5:綜合考慮義原深度距離、義原區(qū)域面積,來(lái)更準(zhǔn)確判斷詞語(yǔ)間的相似度。其具體計(jì)算過(guò)程如下:
為了滿足其在智造行業(yè)中的搜索需求,專(zhuān)家制定了一個(gè)具體閾值,相似度必須順序滿足下式兩條件,即找到了最佳理解含義,即
(1)dj=αH(Pj)<dC
(2)S>C
上式dc為用戶自定義的一個(gè)層狀網(wǎng)狀模型深度,C為用戶自定義的一個(gè)相關(guān)區(qū)域度面積。
當(dāng)深度越小,權(quán)重就越大,說(shuō)明越符合本智造行業(yè)領(lǐng)域。同時(shí)相關(guān)度面積越大,所含信息量就越大。
注明α+β=1,α、β分別對(duì)義原深度距離、義原區(qū)域面積進(jìn)行權(quán)重劃分。
步驟6:正確檢索到用戶需要的信息。