本發(fā)明涉及語義網絡技術領域,具體涉及基于新統(tǒng)計的詞匯語義相似度求解算法。
背景技術:
21世紀以來,全球互聯(lián)網進入了一個高速發(fā)展的新時期,各種新技術不斷涌現(xiàn)。作為聯(lián)系計算機與人之間重要的自然語言處理技術也快速發(fā)展中。傳統(tǒng)的語義相關度計算方法大致分為兩類:基于語義詞典的語義相關度計算方法以及基于語料庫的語義相關度計算方法;語義相關度計算是自然語言處理領域非常重要的一項技術,它的用途很廣泛,是自然語言處理領域一項基礎性的研究工作。例如要識別“這個蘋果很好吃”,通過語料庫檢索得到相似的翻譯有“這個梨子很好吃”、“這個人很好吃”。這里涉及一個歧義問題,前一個“好”的意思是很好,讀音為三聲,后一個“好”為四聲,所以第一個翻譯更合適。為了處理未登錄詞的語義相似度問題,同時鑒于詞匯語義相似度計算在自然語言處理中的重要作用,本發(fā)明提出了一種基于新統(tǒng)計的詞匯語義相似度求解算法。
技術實現(xiàn)要素:
針對于詞語中的相似度問題,本發(fā)明提出了基于新統(tǒng)計的詞匯語義相似度求解算法。
為了解決上述問題,本發(fā)明是通過以下技術方案實現(xiàn)的:
步驟1:初始化統(tǒng)計方法模塊,這里可以是《詞語字典》、《詞林》、知網、《百度百科》等等語料庫。
步驟2:將待比較詞(c1,c2)輸入初始化統(tǒng)計方法模塊中。
步驟3:在統(tǒng)計模塊中判斷其(c1,c2)是否為登錄詞。
步驟4:如果為登錄詞,運用特定算法g1(c1,c2)實現(xiàn)詞匯之間相似度的求解。
步驟5:如果為未登錄詞,運用相關特定算法g2(c1,c2)實現(xiàn)詞匯之間相似度的求解。
本發(fā)明的有益效果是:
1、比較傳統(tǒng)的語義分析方法,此計算得出的精確度更高。
2、在消除歧義方面有更好的效果。
3、更符合用戶需求。
4、對未登錄詞具有更好的識別和判定效果。
附圖說明
圖1為基于新統(tǒng)計的詞匯語義相似度求解算法的結構流程圖。
具體實施方式
為解決詞語(c1,c2)之間語義相似度問題,將結合圖1對本發(fā)明進行了詳細說明,其具體實施步驟如下:
步驟1:初始化統(tǒng)計方法模塊,這里可以是《詞語字典》、《詞林》、《知網》、《百度百科》等等語料庫。
步驟2:將待比較詞(c1,c2)輸入初始化統(tǒng)計方法模塊中。
步驟3:在統(tǒng)計模塊中判斷其是否為登錄詞。其具體判定過程如下:
步驟3.1)先計算出(c1,c2)在選定的語料庫中的權重值w(c1)、w(c2),這里我們根據(jù)其上下文詞分別與目標詞c1、c2共現(xiàn)的頻數(shù)nf(c1)、nf(c2),上下文詞的根據(jù)約束條件查找,例如,在漢語中,具有比較強的上下文約束關系的詞性對有:形容詞-名詞、動詞-名詞、名詞-動詞、形容詞-動詞等等。當滿足下列條件即為登錄詞:
(1)nf(c1)>α
(2)nf(c2)>α
α為領域專家給定的一個權重閾值,當頻數(shù)nf(c1)、nf(c2)都滿足用戶給定的條件,即兩詞語(c1,c2)都為登錄詞,當條件1成立條件2不成立時,則詞語c1為登錄詞,依此,同理可知其他情況。
步驟4:如果(c1,c2)為登錄詞,運用特定算法g1(c1,c2)實現(xiàn)詞匯之間相似度的求解,需先求解(c1,c2)與上下文詞的共現(xiàn)向量、上下文詞分別與目標詞(c1,c2)共現(xiàn)的概率f(c1)、f(c2)以及分別找到(c1,c2)與上下文詞的最大共現(xiàn)向量,步驟4的具體求解過程如下:
步驟4.1)先計算(c1,c2)與上下文詞的共現(xiàn)向量如下:
上式(x1,x2,…,xn)分別為與目標詞c1共現(xiàn)的上下文詞,(y1,y2,…,yn)分別為與目標詞c2共現(xiàn)的上下文詞,fi(c1)為xi與c1在上下文中共現(xiàn)的概率,同理fi(c2)為yi與c2在上下文中共現(xiàn)的概率。
步驟4.2)其上下文詞分別與目標詞(c1,c2)共現(xiàn)的概率f(c1)、f(c2)。
根據(jù)上述步驟4.1,可推出如下:
f(c1)=max[(f1(c1)),(f2(c1)),…,(fn(c1))]
f(c2)=max[(f1(c2)),(f2(c2)),…,(fn(c2))]
步驟4.3)最后分別找到目標詞(c1,c2)最匹配的上下文詞最大向量如下:
上式最大向量是分別根據(jù)概率f(c1)、f(c2)的值得來的。
步驟4.4)兩詞語g1(c1,c2)相似度計算,根據(jù)上述步驟4.3可推出下列表達式:
步驟5:如果為未登錄詞,運用相關特定算法g2(c1,c2)實現(xiàn)詞匯之間相似度的求解。
這里可以應用上下文詞的停用詞表來確定兩詞匯間的相似度,由于停用詞的分布與語義無關,根據(jù)上下文停用詞找到兩相似度最大的兩個向量。
分別查找上下文中與目標詞(c1,c2)搭配的停用詞,找到共有停用詞數(shù)最多的兩個向量根據(jù)這兩個向量在語料庫中的權重值可分別知道兩個向量的值,再根據(jù)下式求目標詞(c1,c2)的相似度g2(c1,c2):
基于新統(tǒng)計的詞匯語義相似度求解算法,其偽代碼計算過程:
輸入:待比較詞(c1,c2),語料庫,領域專家給定閾值α以及停用詞表。
輸出:待比較詞(c1,c2)之間的語義相似度。