基于新統(tǒng)計的詞匯語義相似度求解算法的制作方法

文檔序號：11063458閱讀：463來源：國知局

本發(fā)明涉及語義網絡技術領域，具體涉及基于新統(tǒng)計的詞匯語義相似度求解算法。

背景技術：

21世紀以來，全球互聯(lián)網進入了一個高速發(fā)展的新時期，各種新技術不斷涌現(xiàn)。作為聯(lián)系計算機與人之間重要的自然語言處理技術也快速發(fā)展中。傳統(tǒng)的語義相關度計算方法大致分為兩類：基于語義詞典的語義相關度計算方法以及基于語料庫的語義相關度計算方法；語義相關度計算是自然語言處理領域非常重要的一項技術，它的用途很廣泛，是自然語言處理領域一項基礎性的研究工作。例如要識別“這個蘋果很好吃”，通過語料庫檢索得到相似的翻譯有“這個梨子很好吃”、“這個人很好吃”。這里涉及一個歧義問題，前一個“好”的意思是很好，讀音為三聲，后一個“好”為四聲，所以第一個翻譯更合適。為了處理未登錄詞的語義相似度問題，同時鑒于詞匯語義相似度計算在自然語言處理中的重要作用，本發(fā)明提出了一種基于新統(tǒng)計的詞匯語義相似度求解算法。

技術實現(xiàn)要素：

針對于詞語中的相似度問題，本發(fā)明提出了基于新統(tǒng)計的詞匯語義相似度求解算法。

為了解決上述問題，本發(fā)明是通過以下技術方案實現(xiàn)的：

步驟1：初始化統(tǒng)計方法模塊，這里可以是《詞語字典》、《詞林》、知網、《百度百科》等等語料庫。

步驟2：將待比較詞(c₁，c₂)輸入初始化統(tǒng)計方法模塊中。

步驟3：在統(tǒng)計模塊中判斷其(c₁，c₂)是否為登錄詞。

步驟4：如果為登錄詞，運用特定算法g₁(c₁，c₂)實現(xiàn)詞匯之間相似度的求解。

步驟5：如果為未登錄詞，運用相關特定算法g₂(c₁，c₂)實現(xiàn)詞匯之間相似度的求解。

本發(fā)明的有益效果是：

1、比較傳統(tǒng)的語義分析方法，此計算得出的精確度更高。

2、在消除歧義方面有更好的效果。

3、更符合用戶需求。

4、對未登錄詞具有更好的識別和判定效果。

附圖說明

圖1為基于新統(tǒng)計的詞匯語義相似度求解算法的結構流程圖。

具體實施方式

為解決詞語(c₁，c₂)之間語義相似度問題，將結合圖1對本發(fā)明進行了詳細說明，其具體實施步驟如下：

步驟1：初始化統(tǒng)計方法模塊，這里可以是《詞語字典》、《詞林》、《知網》、《百度百科》等等語料庫。

步驟2：將待比較詞(c₁，c₂)輸入初始化統(tǒng)計方法模塊中。

步驟3：在統(tǒng)計模塊中判斷其是否為登錄詞。其具體判定過程如下：

步驟3.1)先計算出(c₁，c₂)在選定的語料庫中的權重值w(c₁)、w(c₂)，這里我們根據(jù)其上下文詞分別與目標詞c₁、c₂共現(xiàn)的頻數(shù)nf(c₁)、nf(c₂)，上下文詞的根據(jù)約束條件查找，例如，在漢語中，具有比較強的上下文約束關系的詞性對有：形容詞-名詞、動詞-名詞、名詞-動詞、形容詞-動詞等等。當滿足下列條件即為登錄詞：

(1)nf(c₁)＞α

(2)nf(c₂)＞α

α為領域專家給定的一個權重閾值，當頻數(shù)nf(c₁)、nf(c₂)都滿足用戶給定的條件，即兩詞語(c₁，c₂)都為登錄詞，當條件1成立條件2不成立時，則詞語c₁為登錄詞，依此，同理可知其他情況。

步驟4：如果(c₁，c₂)為登錄詞，運用特定算法g₁(c₁，c₂)實現(xiàn)詞匯之間相似度的求解，需先求解(c₁，c₂)與上下文詞的共現(xiàn)向量、上下文詞分別與目標詞(c₁，c₂)共現(xiàn)的概率f(c₁)、f(c₂)以及分別找到(c₁，c₂)與上下文詞的最大共現(xiàn)向量，步驟4的具體求解過程如下：