基于Word2Vec和Query log抽取關(guān)鍵詞方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息處理領(lǐng)域,尤其涉及一種基于Word2Vec和Query log抽取關(guān)鍵詞 方法。
【背景技術(shù)】
[0002] 通過文檔關(guān)鍵詞,人們可以迅速地了解文本內(nèi)容,把握文檔主題。關(guān)鍵詞廣泛應(yīng)用 于新聞報道、科技論文等領(lǐng)域,以方便人們高效地管理和檢索文檔。除了幫助人們快速篩選 感興趣的內(nèi)容之外,文檔關(guān)鍵詞還可以用于搜索結(jié)果排序、文本摘要、文檔分類、文檔聚類、 用戶建模等上層應(yīng)用領(lǐng)域。
[0003] 傳統(tǒng)的關(guān)鍵詞抽取方法分為兩種,分別為無監(jiān)督方法和有監(jiān)督方法。其中無監(jiān)督 方法包括TFIDF、Chi-squared、Text Rank、LDA等方法,而有監(jiān)督方法將關(guān)鍵詞抽取問題 轉(zhuǎn)換為判斷每個詞是否為關(guān)鍵詞的二分類問題,在之前曾有人通過Naive Bayes和決策樹 C4. 5等有監(jiān)督方法進行關(guān)鍵詞抽取。無監(jiān)督方法和有監(jiān)督方法各有其優(yōu)勢和劣勢:無監(jiān)督 方法不需要人工標注訓練集合,因此更加快捷,但由于無法綜合利用多種信息對候選詞排 序,所以效果上可能不如有監(jiān)督方法;而有監(jiān)督方法可以通過訓練學習調(diào)節(jié)多種信息對于 判斷關(guān)鍵詞的影響程度,因此效果更好,但是在現(xiàn)今的數(shù)據(jù)時代,標注訓練集合非常耗時耗 力。
[0004] 現(xiàn)有TFIDF是一種用于信息檢索和文本挖掘的常用加權(quán)技術(shù)。TFIDF是一種統(tǒng) 計方法,用以評估一個字詞對于文檔集合中的其中一份文件的重要程度。字詞的重要性隨 著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在文檔集合中出現(xiàn)的頻率成反比下 降。TFIDF的主要思想是:如果某個詞或短語在一份文件中出現(xiàn)的頻率TF高,并且在其他文 章中很少出現(xiàn)(IDF值很大),則認為這個詞或者短語具有很好的類別區(qū)分能力,那么我們 就給予在此文檔中的這個詞或者短語一個較大的權(quán)重,代表這個詞或者短語對此文檔內(nèi)容 的表征能力。利用TFIDF可以進行關(guān)鍵詞抽取工作,對文檔中每個不同的詞計算其TFIDF 值,并且按照數(shù)值從大到小的順序進行排序,從而選取排名靠前的若干個詞作為此篇文檔 的關(guān)鍵詞。
[0005] 但是在實際工作中,一般用TFIDF作為baseline。在特定領(lǐng)域的關(guān)鍵詞抽取工作 中,因為大量口語化詞匯在文檔及文檔集合中的分布與特定領(lǐng)域詞匯極為相似以及TFIDF 算法本身基于統(tǒng)計的局限性,所以按照TFIDF算法抽取出來的關(guān)鍵詞會含有大量口語化詞 匯和不是那么重要的詞匯,從而導致關(guān)鍵詞抽取的效果不佳。
[0006] 受到PageRank算法在IR領(lǐng)域中的廣泛應(yīng)用和巨大成功的啟發(fā),Mihalcea和 Tarau提出了 一種與PageRank類似基于圖排序的算法TextRank,用于進行關(guān)鍵詞抽取。 TextRank的算法思想是構(gòu)建一個網(wǎng)絡(luò),網(wǎng)絡(luò)中的頂點代表文本中不同的詞,邊代表共現(xiàn)的 詞之間的鏈接。兩個詞之間相隔的詞的個數(shù)如果在事先規(guī)定的范圍之內(nèi),那么TextRank就 認為這兩個詞滿足共現(xiàn)關(guān)系。網(wǎng)絡(luò)中的邊具有權(quán)重,利用PageRank算法對其進行賦值。與 PageRank算法類似,TextRank認為一個詞的重要程度由鏈向它的其他詞的重要程度來決 定,利用PageRank算法迭代地計算網(wǎng)絡(luò)中每個詞的重要程度,然后根據(jù)詞的PageRank值進 行排序,從而選取排名靠前的若干個詞作為此篇文檔的關(guān)鍵詞。
[0007] 但是TextRank關(guān)鍵詞提取算法需要迭代計算每個詞的PageRank值,通常迭代次 數(shù)在20到30次之間。因為計算復(fù)雜度較高,所以這種算法很少使用在大規(guī)模文本關(guān)鍵詞 抽取工作中。
[0008] 綜上,傳統(tǒng)的關(guān)鍵詞抽取方法存在關(guān)鍵詞抽取的效果不佳、關(guān)鍵詞抽取效率低和 適用范圍受限的問題。
【發(fā)明內(nèi)容】
[0009] 本發(fā)明的目的在于提供一種基于Word2Vec和Query log抽取關(guān)鍵詞方法,從而解 決現(xiàn)有技術(shù)中存在的前述問題。
[0010] 為了實現(xiàn)上述目的,本發(fā)明所述基于Word2Vec和Query log抽取關(guān)鍵詞方法,該 方法包括以下步驟:
[0011] S1,利用query log數(shù)據(jù),構(gòu)建目標領(lǐng)域的特定詞表;
[0012] S2,在文檔集合和特定詞表的基礎(chǔ)上,獲取文檔集合中每個文檔的候選關(guān)鍵詞;
[0013] S3,訓練得到目標領(lǐng)域的W〇rd2VeC模型,將每個文檔中的候選關(guān)鍵詞代入所述模 型,得到每個所述候選關(guān)鍵詞的若干維的詞向量;
[0014] S4,計算任意一個文檔A中任意一個候選關(guān)鍵詞L對應(yīng)的詞向量與所述文檔A的 中心向量的余弦相似度,判斷候選關(guān)鍵詞L是否出現(xiàn)在特定詞表中,如果出現(xiàn),則直接進入 55 ;如果不出現(xiàn),則進入S6 ;
[0015] S5,將所述候選關(guān)鍵詞L的余弦相似度乘以加權(quán)因子i,得到新余弦相似度,進入 56 ;
[0016] S6,將得到的余弦相似度的數(shù)值按照從大到小的順序排序,然后按照預(yù)先設(shè)定的 關(guān)鍵詞數(shù)量m,從所述排序中余弦相似度數(shù)值最大開始輸出m個余弦相似度的數(shù)值,m個余 弦相似度的數(shù)值所對應(yīng)的候選關(guān)鍵詞即為最終關(guān)鍵詞。
[0017] 優(yōu)選地,步驟Sl,具體按照下述步驟實現(xiàn):
[0018] A1,獲取p天共q條用戶在目標領(lǐng)域的查詢記錄;所述p大于等于50,所述q大于 等于10000 ;
[0019] A2,將所述q條查詢記錄進行分組,并統(tǒng)計每查詢記錄組出現(xiàn)的次數(shù),去除出現(xiàn)次 數(shù)小于閾值A(chǔ)的查詢記錄組,得到目標查詢記錄組;
[0020] A3,對目標查詢記錄組中的查詢記錄進行分詞,統(tǒng)計任意一個查詢詞在所有目標 查詢記錄組中重復(fù)出現(xiàn)的次數(shù),去除出現(xiàn)次數(shù)小于閾值B的查詢詞,得到熱門搜索詞;
[0021] A4,將所述熱門搜索詞與已有所述目標領(lǐng)域的詞進行合并去重,得到目標領(lǐng)域的 特定詞表。
[0022] 優(yōu)選地,步驟S2中,所述文本是字節(jié)長度大于等于字節(jié)長度閾值C。
[0023] 更優(yōu)選地,步驟S2,具體按照下述步驟實現(xiàn):
[0024] B1,獲取目標領(lǐng)域的文檔集合,從中篩選并獲得字節(jié)長度大于等于字節(jié)長度閾值C 的文本;
[0025] B2,采用TF-IDF算法提取候選關(guān)鍵詞,在此過程中,對出現(xiàn)在所述文本的Title或 目標領(lǐng)域的特定詞表的詞進行加權(quán),得到每個詞出現(xiàn)的次數(shù);
[0026] 步驟B2中,所述Title中詞的加權(quán)因子為X,所述目標領(lǐng)域的特定詞表中詞的加權(quán) 因子為y ;
[0027] B3,去除出現(xiàn)次數(shù)小于0.00003Xj的詞,最終得到每個文檔的候選關(guān)鍵詞;所述j 表示文本總數(shù)。
[0028] 更優(yōu)選地,在步驟B2中還存在以下步驟:利用停用詞表去除文本中存在的停用 O
[0029] 優(yōu)選地,步驟S3,具體按照下述步驟實現(xiàn):
[0030] Cl,對所述文檔集合中的每個文檔進行分詞;
[0031] C2,利用分詞后的文檔訓練Word2Vec模型,得到所述目標領(lǐng)域的Word2Vec模型;
[0032] C3,將每個文檔中每個所述候選關(guān)鍵詞代入所述目標領(lǐng)域的W〇rd2Ve C模型,得到 每個文檔中所述候選關(guān)鍵詞的若干維的詞向量。
[0033] 更優(yōu)選地,步驟C3中,所述每個所述候選關(guān)鍵詞的詞向量維數(shù)預(yù)先設(shè)定。
[0034] 優(yōu)選地,步驟S4,具體按照下述步驟實現(xiàn):
[0035] Dl,獲取任意一個文檔A中候選關(guān)鍵詞的總數(shù)a ;
[0036] D2,將文檔A中所有候選關(guān)鍵詞的詞向量相加,得到b ;
[0037] D3,將b除以a,得到所述文檔A的中心向量c ;
[0038] D4,計算文檔A每個所述候選關(guān)鍵詞的詞向量與文檔A的中心向量的余弦相似度 d ;
[0039] D5,候選關(guān)鍵詞L是否出現(xiàn)在特定詞表中,如果出現(xiàn),則直接進入S5 ;如果不出現(xiàn), 則進入S6。
[0040] 本發(fā)明的有益效果是:
[0041] 本發(fā)明所述方法,可以針對特定領(lǐng)域文本迅速高效地提取出質(zhì)量較為理想的關(guān)鍵 詞,避免引入口語化詞匯。且在不需要人工標注關(guān)鍵詞訓練模型和對文本進行詞性標記的 前提下,不僅可以迅速高效地抽取出質(zhì)量較為理想、可以滿足業(yè)務(wù)需求的特定領(lǐng)域關(guān)鍵詞, 而且可以方便快捷地被移植到其他特定領(lǐng)域。
[0042] 通過本發(fā)明提取出的關(guān)鍵詞質(zhì)量高,這些關(guān)鍵詞不僅可以通過精煉冗長query或 者輔助建立索引的方式提升搜索效果,而且還可以用于文本標記、文本分類、文本聚類、用 戶建模、廣告投放等多種上層應(yīng)用領(lǐng)域。
【附圖說明】
[0043] 圖1是實施例中所述基于Word2Vec和Query log抽取關(guān)鍵詞方法的結(jié)構(gòu)流程示 意圖;
[0044] 圖2是實施例中步驟Sl的流程示意圖;
[0045] 圖3是實施例中步驟S2的流程示意圖;
[0046] 圖4是實施例中步驟S3的流程示意圖;
[0047] 圖5是實施例中步驟S4的流程示意圖。
【具體實施方式】
[0048] 為了使本發(fā)明的目的