一種用于短文本語(yǔ)義相似度計(jì)算的方法
【專利摘要】本發(fā)明提供了一種用于短文本語(yǔ)義相似度計(jì)算的方法,該用于短文本語(yǔ)義相似度計(jì)算的方法包括以下步驟:1)提取短文本的特征;2)將提取的短文本的特征進(jìn)行匹配,計(jì)算出短文本語(yǔ)義相似度。本發(fā)明的有益效果為:本發(fā)明提供的方法充分考慮了語(yǔ)義模糊性問(wèn)題以及文本中詞語(yǔ)的權(quán)重,能夠準(zhǔn)確的把握文本關(guān)鍵詞的效果。
【專利說(shuō)明】-種用于短文本語(yǔ)義相似度計(jì)算的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及文本挖掘【技術(shù)領(lǐng)域】,尤其是涉及一種用于短文本語(yǔ)義相似度計(jì)算的方 法。
【背景技術(shù)】
[0002] 不同年齡段、不同職業(yè)背景的人們,每天在微博上就國(guó)內(nèi)外新聞、影視娛樂(lè)和個(gè)人 生活等等話題進(jìn)行評(píng)論或分享。目前,對(duì)于微博話題的歸類,完全依賴于用戶手工在微博內(nèi) 容中使用" # "符號(hào)添加話題標(biāo)簽,對(duì)于共同話題的歸類使用的是最簡(jiǎn)單的字符串匹配方法。 在這種場(chǎng)景下,任何兩個(gè)不能完全匹配的字符串都會(huì)被當(dāng)作是不同的話題。例如,"去旅游" 和"去旅行"這兩個(gè)具有相同語(yǔ)義的話題標(biāo)簽,就會(huì)因?yàn)樽址疅o(wú)法匹配而被當(dāng)作是不同的 話題。再或者,假如用戶沒(méi)有為微博內(nèi)容添加話題標(biāo)簽,那么這條微博就成了孤立內(nèi)容,除 了被粉絲評(píng)論和轉(zhuǎn)發(fā),用戶得不到任何其它關(guān)于所發(fā)表內(nèi)容的話題的反饋。
[0003] 基于相似詞語(yǔ)的文本相似度計(jì)算方法則利用WordNet、知網(wǎng)等本體論或語(yǔ)義詞典, 完成對(duì)兩個(gè)文本中詞語(yǔ)之間的相似度計(jì)算,在此基礎(chǔ)上再通過(guò)某種計(jì)算公式得到文本之間 的相似度。這種方法充分考慮了語(yǔ)義模糊性問(wèn)題,但是卻忽略了文本中詞語(yǔ)的權(quán)重,對(duì)文本 關(guān)鍵詞的把握效果不好。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的是為了克服現(xiàn)有技術(shù)的不足,提供了一種高精度環(huán)保用于短文本語(yǔ) 義相似度計(jì)算的方法筆頭。
[0005] 本發(fā)明是通過(guò)以上技術(shù)方案實(shí)現(xiàn):
[0006] 本發(fā)明提供了一種用于短文本語(yǔ)義相似度計(jì)算的方法,該用于短文本語(yǔ)義相似度 計(jì)算的方法包括以下步驟:
[0007] 1)提取短文本的特征;
[0008] 2)將提取的短文本的特征進(jìn)行匹配,計(jì)算出短文本語(yǔ)義相似度。
[0009] 優(yōu)選的,所述提取短文本的特征具體包括以下步驟:
[0010] 將短文本中的中文分詞;
[0011] 在中文分詞后的短文本中選擇文本特征;
[0012] 對(duì)選擇的文本特征進(jìn)行權(quán)值計(jì)算。
[0013] 優(yōu)選的,所述將短文本中的中文分詞具體為:通過(guò)分詞算法對(duì)短文本進(jìn)行分詞。
[0014] 優(yōu)選的,所述在中文分詞后的短文本中選擇文本特征具體為:根據(jù)設(shè)定的規(guī)則從 特征集中選擇部分最有效的特征,形成文本特征向量。
[0015] 優(yōu)選的,所述對(duì)選擇的文本特征進(jìn)行權(quán)值計(jì)算具體為:將文本特征向量轉(zhuǎn)化成數(shù) 學(xué)模型。
[0016] 優(yōu)選的,所述將文本特征向量轉(zhuǎn)化成數(shù)學(xué)模型具體為:
[0017] 首先使用TF-IDF加權(quán)方法,利用統(tǒng)計(jì)的方法評(píng)估某個(gè)字詞對(duì)于文本數(shù)據(jù)集中某 份特定文件的重要程度,步驟如下:
[0018] a)計(jì)算詞在該文件中出現(xiàn)的頻次、詞頻TF,具體公式如下:
[0019]
【權(quán)利要求】
1. 一種用于短文本語(yǔ)義相似度計(jì)算的方法,其特征在于,包括以下步驟: 1) 提取短文本的特征; 2) 將提取的短文本的特征進(jìn)行匹配,計(jì)算出短文本語(yǔ)義相似度。
2. 根據(jù)權(quán)利要求1所述的用于短文本語(yǔ)義相似度計(jì)算的方法,其特征在于,所述提取 短文本的特征具體包括以下步驟: 將短文本中的中文分詞; 在中文分詞后的短文本中選擇文本特征; 對(duì)選擇的文本特征進(jìn)行權(quán)值計(jì)算。
3. 根據(jù)權(quán)利要求2所述的用于短文本語(yǔ)義相似度計(jì)算的方法,其特征在于,所述將短 文本中的中文分詞具體為:通過(guò)分詞算法對(duì)短文本進(jìn)行分詞。
4. 根據(jù)權(quán)利要求3所述的用于短文本語(yǔ)義相似度計(jì)算的方法,其特征在于,所述在中 文分詞后的短文本中選擇文本特征具體為:根據(jù)設(shè)定的規(guī)則從特征集中選擇部分最有效的 特征,形成文本特征向量。
5. 根據(jù)權(quán)利要求4所述的用于短文本語(yǔ)義相似度計(jì)算的方法,其特征在于,所述對(duì)選 擇的文本特征進(jìn)行權(quán)值計(jì)算具體為:將文本特征向量轉(zhuǎn)化成數(shù)學(xué)模型。
6. 根據(jù)權(quán)利要求5所述的用于短文本語(yǔ)義相似度計(jì)算的方法,其特征在于,所述將文 本特征向量轉(zhuǎn)化成數(shù)學(xué)模型具體為: 首先使用TF-IDF加權(quán)方法,利用統(tǒng)計(jì)的方法評(píng)估某個(gè)字詞對(duì)于文本數(shù)據(jù)集中某份特 定文件的重要程度,步驟如下: a) 計(jì)算詞在該文件中出現(xiàn)的頻次、詞頻TF,具體公式如下:
其中,nt,d表示詞t在文件d中的出現(xiàn)次數(shù),分母表示該文件中所 有詞的出現(xiàn)次數(shù)的總和; b) 計(jì)算逆向文件頻率IDF,具體公式如下:
其中,N為文檔庫(kù)D中的文件數(shù)量,分母表示文檔 庫(kù)D中包含有詞t的文件的數(shù)量; c) 計(jì)算詞語(yǔ)t對(duì)于文檔庫(kù)D中特定文件d的重要性TF-IDF,公式如下: w = tfidf (t, d, D) = tf (t, d) X idf (t, D); 對(duì)于一個(gè)輸入的短文本,經(jīng)過(guò)上述步驟處理后,將得到一個(gè)文本向量T及其對(duì)應(yīng)的權(quán) 重向量W,其中, T = {tp t2, · · · , tj ff = {Wj, w2? . . . ? wm} 〇
7. 根據(jù)權(quán)利要求1?6任一項(xiàng)所述的用于短文本語(yǔ)義相似度計(jì)算的方法,其特征在于, 所述將提取的短文本的特征進(jìn)行匹配,計(jì)算出短文本語(yǔ)義相似度具體以下步驟: 1) 詞匯語(yǔ)義相似度計(jì)算; 2) 詞匯相似度矩陣; 3) 短文本高相似詞向量; 4) 文本向量相似度計(jì)算。
8. 根據(jù)權(quán)利要求7所述的用于短文本語(yǔ)義相似度計(jì)算的方法,其特征在于,所述詞匯 語(yǔ)義相似度計(jì)算具體為:利用相似度計(jì)算方法計(jì)算兩個(gè)關(guān)鍵詞之間的相似度,然后,把兩個(gè) 關(guān)鍵詞之間的相似度問(wèn)題歸結(jié)為兩個(gè)概念語(yǔ)義表達(dá)式之間的相似度問(wèn)題,最后得到兩個(gè)詞 匯的語(yǔ)義相似度。
9. 根據(jù)權(quán)利要求8所述的用于短文本語(yǔ)義相似度計(jì)算的方法,其特征在于,所述步驟 2) 中詞匯相似度矩陣,具體方法為對(duì)兩個(gè)文本向量中的每個(gè)詞分別計(jì)算它們之間的語(yǔ)義相 似度,得到相似度矩陣。
10. 根據(jù)權(quán)利要求9所述的用于短文本語(yǔ)義相似度計(jì)算的方法,其特征在于,其中步驟 3) 短文本高相似詞向量,基于步驟2)中得到的相似度矩陣,獲取高相似詞向量;具體步驟 如下: 首先遍歷矩陣,取出相似度最大的詞語(yǔ)組合,然后將其所屬行和列從矩陣中刪除,依次 取余下矩陣中相似度最大的組合,直到矩陣為空,最后得到由k對(duì)相似度最高的詞語(yǔ)組合 構(gòu)成的向量,其中,k為自然數(shù); 其中步驟4)文本向量相似度計(jì)算,結(jié)合了向量空間模型和詞匯語(yǔ)義相似度模型來(lái)計(jì) 算文本的相似度,具體步驟如下: 首先,對(duì)于原文本向量中的部分詞進(jìn)行了重新排序,并找到了另一向量中與之最相似 的對(duì)應(yīng)詞; 然后,結(jié)合傳統(tǒng)通過(guò)測(cè)量?jī)蓚€(gè)向量?jī)?nèi)積空間的夾角余弦值來(lái)度量的相似性方法。
【文檔編號(hào)】G06F17/27GK104102626SQ201410319852
【公開(kāi)日】2014年10月15日 申請(qǐng)日期:2014年7月7日 優(yōu)先權(quán)日:2014年7月7日
【發(fā)明者】洪志令, 吳梅紅 申請(qǐng)人:廈門推特信息科技有限公司