專利名稱:用于搜索引擎的色情用戶查詢識別方法及設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息檢索和搜索引擎,尤其涉及搜索引擎中色情用戶查詢的識別方法。
背景技術(shù):
隨著互聯(lián)網(wǎng)規(guī)模不斷增加,搜索引擎成為互聯(lián)網(wǎng)上的重要應(yīng)用系統(tǒng)之一。如何準(zhǔn)確的理解用戶提交到搜索引擎的查詢意圖是一個重要的技術(shù)問題。準(zhǔn)確理解用戶的查詢意圖有助于搜索引擎返回更好的結(jié)果或者調(diào)用相應(yīng)的垂直搜索引擎,從而提高搜索引擎的用戶體驗。然而,互聯(lián)網(wǎng)中的信息紛繁復(fù)雜,糟柏與精華并存,搜索引擎的返回結(jié)果中往往包含一些不良結(jié)果,例如色情頁面。正確識別用戶查詢中是否包含色情意圖能夠幫助搜索引擎針對色情用戶查詢采取特殊措施,避免返回色情頁面。這對于保護(hù)未成年人和構(gòu)建和諧的互聯(lián)網(wǎng)都十分重要。
搜索引擎中用戶查詢意圖最初主要分為三類,分別是導(dǎo)航類,信息類,實務(wù)類。導(dǎo)航類是指用戶期望找到某個網(wǎng)站的首頁。信息類是指用戶期望找到一些滿足需求的網(wǎng)頁,這些網(wǎng)頁往往是內(nèi)容型的,例如新聞,百科類的網(wǎng)頁。通過閱讀這些頁面,用戶可以得到滿意的信息。事務(wù)類是指用戶期望找到某個網(wǎng)頁能夠完成某項事務(wù)。例如銀行轉(zhuǎn)賬,購買商品,查詢機票信息等。隨著互聯(lián)網(wǎng)的快速發(fā)展,近期的研究工作對用戶查詢意圖進(jìn)行了進(jìn)一步的細(xì)分,例如用戶查詢是否涉及找工作,是否搜索餐廳,是否下載音樂等等。正確識別這些細(xì)粒度的用戶查詢意圖,能夠幫助搜索引擎觸發(fā)正確的垂直搜索引擎。
由于搜索引擎的用戶查詢較短,文本特征稀疏,且用戶查詢往往具有歧義性,因此如何準(zhǔn)確的識別用戶的查詢意圖具有挑戰(zhàn)性。針對這些問題,現(xiàn)有的技術(shù)中主要采用下面兩類方法進(jìn)行解決。一類方法利用用戶搜索引擎的點擊日志來識別用戶的查詢意圖。這類方法利用用戶在查詢結(jié)果頁中所點擊的網(wǎng)站或頁面來識別查詢意圖,這類方法假設(shè)用戶點擊的頁面滿足其查詢意圖,但是當(dāng)用戶點擊頁面后快速離開卻往往意味著查詢意圖并沒有得到滿足,這種行為模式在用戶點擊日志中并沒有得到體現(xiàn)。另一類方法通過使用用戶查詢的搜索結(jié)果反向判斷用戶查詢的意圖,這類方法利用搜索結(jié)果頁的主題分布特征來識別用戶查詢意圖的分布,其對在查詢?nèi)罩局谐霈F(xiàn)頻率較低的意圖識別不夠準(zhǔn)確。而且這種基于搜索結(jié)果反向判斷用戶查詢意圖的方法識別查詢意圖的時間復(fù)雜度高,給搜索引擎造成較大的負(fù)荷。發(fā)明內(nèi)容
因此,本發(fā)明的目的在于克服上述現(xiàn)有技術(shù)的缺陷,提供一種融合命名實體和語言模型的色情用戶查詢識別方法,能快速有效地識別色情用戶查詢。
本發(fā)明的目的是通過以下技術(shù)方案實現(xiàn)的:
一方面,本發(fā)明提供了一種用于搜索引擎的色情用戶查詢意圖識別方法,包括:步驟I)利用訓(xùn)練好的用于識別色情用戶查詢的分類模型判斷待識別的用戶查詢是否為色請用戶查詢;其中,用于訓(xùn)練所述分類模型的用戶查詢特征包括用戶查詢的命名實體和實體上下文主題特征。上述方法中,用于訓(xùn)練所述分類模型的用戶查詢特征還包括用戶屬于色情查詢和非色情查詢的概率。上述方法中,所述分類模型可以是基于已標(biāo)注的用戶查詢集合通過以下步驟進(jìn)行訓(xùn)練:步驟21)基于用戶查詢?nèi)罩緛碛?xùn)練主題模型;步驟23)利用訓(xùn)練好的主題模型來提取已標(biāo)注的用戶查詢集合中每個用戶查詢的命名實體和實體上下文主題特征,并以用戶查詢的命名實體和實體上下文主題特征來訓(xùn)練所述分類模型。上述方法中,所述分類模型是基于已標(biāo)注的用戶查詢集合通過以下步驟進(jìn)行訓(xùn)練:步驟21)基于用戶查詢?nèi)罩緛碛?xùn)練主題模型;步驟22)基于色情語料和非色情語料分別訓(xùn)練基于統(tǒng)計的語言模型;步驟23)利用訓(xùn)練好的主題模型來提取已標(biāo)注的用戶查詢集合中每個用戶查詢的命名實體和實體上下文主題特征,利用訓(xùn)練好的語言模型來判斷已標(biāo)注的用戶查詢集合中每個用戶查詢屬于色情查詢和非色情查詢的概率,并以用戶查詢的命名實體和實體上下文主題特征以及用戶查詢屬于色情查詢和非色情查詢的概率來訓(xùn)練所述分類模型。上述方法中,所述步驟I)可包括:通過已收集的色情類型的命名實體集合將待識別的用戶查詢切分為命名實體和實體上下文兩部分,并利用訓(xùn)練好的主題模型提取該用戶查詢的命名實體和實體上下文主題特征;基于該用戶查詢的命名實體和實體上下文主題特征,利用訓(xùn)練好的分類模型判斷該用戶查詢是否為色請用戶查詢。上述方法中,所述步驟I)可包括:通過已收集的色情類型的命名實體集合將待識別的用戶查詢切分為命名實體和實體上下文兩部分,并利用訓(xùn)練好的主題模型提取該用戶查詢的命名實體和實體上下文主題特征;利用訓(xùn)練好的語言模型來判斷該用戶查詢屬于色情查詢和非色情查詢的概率,基于該用戶查詢的命名實體和實體上下文主題特征以及該用戶查詢屬于色情查詢和非色情查詢的概率,利用訓(xùn)練好的分類模型判斷該用戶查詢是否為色請用戶查詢。上述方法中,所述步驟21)可包括:通過已收集的色情類型的命名實體集合將用戶查詢?nèi)罩局械拿總€查詢切分為命名實體和實體上下文兩部分;將每一個命名實體在用戶查詢?nèi)罩局械膶嶓w上下文聚合為一篇關(guān)于該命名實體的文檔,并構(gòu)造該文檔的詞頻特征向量;基于從用戶查詢?nèi)罩局刑崛〉拿麑嶓w和關(guān)于命名實體的文檔及其詞頻特征向量來對主題模型進(jìn)行訓(xùn)練,以得到實體上下文的主題分布特征和每個命名實體的主題分布特征。
另一方面,本發(fā)明提供了一種用于搜索引擎的色情用戶查詢意圖識別設(shè)備,包括:識別裝置,用于利用訓(xùn)練好的用于識別色情用戶查詢的分類模型判斷待識別的用戶查詢是否為色請用戶查詢;其中,用于訓(xùn)練所述分類模型的用戶查詢特征包括用戶查詢的命名實體和實體上下文主題特征。上述設(shè)備中,用于訓(xùn)練所述分類模型的用戶查詢特征還包括用戶屬于色情查詢和非色情查詢的概率。上述設(shè)備中,還可包括訓(xùn)練裝置,用于基于已標(biāo)注的用戶查詢集合,訓(xùn)練所述分類模型。與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點在于:不需要基于搜索引擎的查詢結(jié)果來識別色情查詢,而是通過利用用戶查詢中包含的命名實體特征和語言模型特征實現(xiàn)了快速、有效的色情查詢識別。
以下參照附圖對本發(fā)明實施例作進(jìn)一步說明,其中:圖1為根據(jù)本發(fā)明一個實施例的用于搜索引擎的色情用戶查詢意圖識別方法的流程示意圖。
具體實施例方式為了使本發(fā)明的目的,技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖通過具體實施例對本發(fā)明進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。在本發(fā)明的一個實施例中,提供了一種用于搜索引擎的色情用戶查詢意圖識別的方法。該方法包括離線訓(xùn)練和在線識別兩個階段,在離線訓(xùn)練階段,可以基于已標(biāo)注的用戶查詢集合來訓(xùn)練用于識別色情查詢意圖的分類模型;在在線識別階段,可以利用該訓(xùn)練好的分類模型來判斷待識別的用戶查詢是否為色情用戶查詢。圖1給出了根據(jù)本發(fā)明實施例的色情用戶查詢識別方法的流程示意圖。該方法包括步驟I)基于已標(biāo)注的用戶查詢集合,訓(xùn)練用于識別色情用戶查詢的分類模型;步驟2)根據(jù)待識別的用戶查詢的特征和該訓(xùn)練好的分類模型來判斷該用戶查詢是否為色請用戶查詢?,F(xiàn)參考圖1,更具體地,在步驟I)基于已標(biāo)注的用戶查詢集合,訓(xùn)練用于識別色情用戶查詢的分類模型(即離線訓(xùn)練階段)。其中,已標(biāo)注的用戶查詢集合包括被標(biāo)注為色情或非色情的用戶查詢。例如,通過將用戶查詢輸入通用的搜索引擎,查看其查詢結(jié)果就可以判斷該用戶查詢是否是色情查詢,從而可以對該用戶查詢進(jìn)行標(biāo)注。而分類模型可以采用邏輯回歸模型、決策樹、支持向量機(Support Vector Machine, SVM)模型等典型的分類模型。在訓(xùn)練分類模型時,最關(guān)鍵的是以哪些特征來選擇樣本并訓(xùn)練模型,所謂訓(xùn)練分類模型就是利用樣本數(shù)據(jù)和從樣本數(shù)據(jù)中提取的特征通過訓(xùn)練來學(xué)習(xí)出分類模型中的參數(shù)。在本發(fā)明的一個優(yōu)選實施例中,可以以用戶查詢中的命名實體的主題分布特征、實體上下文的主題分布特征以及該用戶查詢屬于色情查詢和非色情查詢的概率這四個特征來訓(xùn)練該分類模型。在該實施例中,可使用訓(xùn)練好的主題模型來發(fā)現(xiàn)用戶查詢中的命名實體及實體上下文的主題分布特征,并且可采用基于統(tǒng)計的語言模型來估計的對于該用戶查詢屬于色情查詢和非色情查詢的概率。下面將分別介紹如何從已標(biāo)注的用戶查詢集合中的每個用戶查詢中提取上述四個特征。(I)對于命名實體及實體上下文的主題分布特征,首先基于用戶查詢?nèi)罩緛碛?xùn)練主題模型,然后使用訓(xùn)練好的主題模型來發(fā)現(xiàn)已標(biāo)注的用戶查詢集合中每個用戶查詢的命名實體及實體上下文的主題分布特征。其中,主題模型通常用來發(fā)現(xiàn)文檔中隱含的主題分布特征,PLSA(ProbabilisticLatent Semantic Analysis,基于概率的隱含語義分析),LDA (Latent DirichletAllocation,隱含狄利克雷分配)等都是常用的主題模型。在一個實施例中,可以采用LDA作為主題模型。LDA是一種先進(jìn)的主題模型,與PLSA相比需要學(xué)習(xí)更少的參數(shù),因此LDA模型的泛化能力也更強。LDA模型基于詞袋(bag of world)假設(shè),適合用來處理用戶查詢并不構(gòu)成完整句子的問題。LDA的建模過程是逆向通過文本集合建立生成模型。假設(shè)一個語料庫中有若干個主題;在生成某個文檔時,首先隨機選擇某一主題;然后選擇單詞,選擇到那些和主題相關(guān)的詞的概率更高。這樣就完成了一個單詞的選擇。不斷選擇N個單詞,這樣就組成了一篇關(guān)于多個主題的文檔。具體來說,生成一篇文檔按照如下步驟:1.選擇N,N服從Poisson(I)分布,這里N代表文檔的長度,ξ表示泊松分布的參數(shù)。2.選擇θ,Θ服從Dirichlet(a )分布,這里Θ是k維列向量,該列向量中每個元素表示每個主題在該文檔發(fā)生的概率,a是Dirichlet分布的參數(shù),k表示訓(xùn)練主題模型過程中所設(shè)定的主題數(shù)量,可根據(jù)經(jīng)驗設(shè)定,例如可設(shè)為10、20等。3.對N個單詞中的每一個:
a)選擇主題zn, Zn服從Multinomial ( Θ )多項分布。Zn代表當(dāng)前選擇的主題;
b)選擇Wn,根據(jù)P (wn I ζη; β ):在ζη條件下的多項分布,p(wn|zn; β )表示了對于第η個單詞Wn,在選擇了主題Zn的情況下生成Wn的概率;β記錄了某個主題條件下生成某個單詞的概率,實際上β相當(dāng)于一個矩陣,行為主題(共k行),列為單詞,該矩陣中每個元素表示在某個主題下某個單詞發(fā)生的概率。就本發(fā)明的實施例而言,Θ表示命名實體的主題分布特征,β表示實體上下文的主題分布特征。所建立的LDA模型例如為:
權(quán)利要求
1.一種用于搜索引擎的色情用戶查詢識別方法,該方法包括: 步驟I)利用訓(xùn)練好的用于識別色情用戶查詢的分類模型判斷待識別的用戶查詢是否為色請用戶查詢; 其中,用于訓(xùn)練所述分類模型的用戶查詢特征包括用戶查詢的命名實體和實體上下文主題特征。
2.根據(jù)權(quán)利要求1所述的方法,其中用于訓(xùn)練所述分類模型的用戶查詢特征還包括用戶屬于色情查詢和非色情查詢的概率。
3.根據(jù)權(quán)利要求1所述的方法,其中,所述分類模型是基于已標(biāo)注的用戶查詢集合通過以下步驟進(jìn)行訓(xùn)練: 步驟21)基于用戶查詢?nèi)罩緛碛?xùn)練主題模型; 步驟23)利用訓(xùn)練好的主題模型來提取已標(biāo)注的用戶查詢集合中每個用戶查詢的命名實體和實體上下文主題特征,并以用戶查詢的命名實體和實體上下文主題特征來訓(xùn)練所述分類模型。
4.根據(jù)權(quán)利要求2所述的方法,其中,所述分類模型是基于已標(biāo)注的用戶查詢集合通過以下步驟進(jìn)行訓(xùn)練: 步驟21)基于用戶查詢?nèi)罩緛碛?xùn)練主題模型; 步驟22)基于色情語料和非色情語料分別訓(xùn)練基于統(tǒng)計的語言模型; 步驟23)利用訓(xùn)練好的主題模型來提取已標(biāo)注的用戶查詢集合中每個用戶查詢的命名實體和實體上下文主題特征,利用訓(xùn)練好的語言模型來判斷已標(biāo)注的用戶查詢集合中每個用戶查詢屬于色情查詢和非色情查詢的概率,并以用戶查詢的命名實體和實體上下文主題特征以及用戶查詢屬于色情查詢和非色情查詢的概率來訓(xùn)練所述分類模型。
5.根據(jù)權(quán)利要求3所述的方法,所述步驟I)包括: 通過已收集的色情類型的命名實體集合將待識別的用戶查詢切分為命名實體和實體上下文兩部分,并利用訓(xùn)練好的主題模型提取該用戶查詢的命名實體和實體上下文主題特征; 基于該用戶查詢的命名實體和實體上下文主題特征,利用訓(xùn)練好的分類模型判斷該用戶查詢是否為色請用戶查詢。
6.根據(jù)權(quán)利要求4所述的方法,所述步驟I)包括: 通過已收集的色情 類型的命名實體集合將待識別的用戶查詢切分為命名實體和實體上下文兩部分,并利用訓(xùn)練好的主題模型提取該用戶查詢的命名實體和實體上下文主題特征; 利用訓(xùn)練好的語言模型來判斷該用戶查詢屬于色情查詢和非色情查詢的概率, 基于該用戶查詢的命名實體和實體上下文主題特征以及該用戶查詢屬于色情查詢和非色情查詢的概率,利用訓(xùn)練好的分類模型判斷該用戶查詢是否為色請用戶查詢。
7.根據(jù)權(quán)利要求3至6之一所述的方法,所述步驟21)包括: 通過已收集的色情類型的命名實體集合將用戶查詢?nèi)罩局械拿總€查詢切分為命名實體和實體上下文兩部分; 將每一個命名實體在用戶查詢?nèi)罩局械膶嶓w上下文聚合為一篇關(guān)于該命名實體的文檔,并構(gòu)造該文檔的詞頻特征向量;基于從用戶查詢?nèi)罩局刑崛〉拿麑嶓w和關(guān)于命名實體的文檔及其詞頻特征向量來對主題模型進(jìn)行訓(xùn)練,以得到實體上下文的主題分布特征和每個命名實體的主題分布特征。
8.一種用于搜索引擎的色情用戶查詢識別設(shè)備,該設(shè)備包括: 識別裝置,用于利用訓(xùn)練好的用于識別色情用戶查詢的分類模型判斷待識別的用戶查詢是否為色請用戶查詢;其中,用于訓(xùn)練所述分類模型的用戶查詢特征包括用戶查詢的命名實體和實體上下文主題特征。
9.根據(jù)權(quán)利要求8所述的設(shè)備,其中,用于訓(xùn)練所述分類模型的用戶查詢特征還包括用戶屬于色情查詢和非色情查詢的概率。
10.根據(jù)權(quán)利要求8或9所述的設(shè)備,還包括訓(xùn)練裝置,用于基于已標(biāo)注的用戶查詢集合,訓(xùn)練所述分類模型。
11.根據(jù)權(quán)利要求10所述的設(shè)備,所述訓(xùn)練裝置被配置為執(zhí)行: 基于用戶查詢?nèi)罩緛碛?xùn)練主題模型;以及 利用訓(xùn)練好的主題模型來提取已標(biāo)注的用戶查詢集合中每個用戶查詢的命名實體和實體上下文主題特征,并以用戶查詢的命名實體和實體上下文主題特征來訓(xùn)練所述分類模型。
12.根據(jù)權(quán)利要求10所述的設(shè)備,所述訓(xùn)練裝置被配置為執(zhí)行: 基于用戶查詢?nèi)罩緛碛?xùn)練主題模型; 基于色情語料和非色情語料分別訓(xùn)練基于統(tǒng)計的語言模型;以及利用訓(xùn)練好的主題模型來提取已標(biāo)注的用戶查詢集合中每個用戶查詢的命名實體和實體上下文主題特征,利用訓(xùn)練好的語言模型來判斷已標(biāo)注的用戶查詢集合中每個用戶查詢屬于色情查詢和非色情查詢的概率,并以用戶查詢的命名實體和實體上下文主題特征以及用戶查詢屬于色情查詢和非色情查詢的概率來訓(xùn)練所述分類模型。
全文摘要
本發(fā)明提供一種用于搜索引擎的色情用戶查詢識別方法,該方法包括基于已標(biāo)注的用戶查詢集合,訓(xùn)練用于識別色情用戶查詢的分類模型,以及利用該訓(xùn)練好的分類模型判斷待識別的用戶查詢是否為色請用戶查詢。其中,用于訓(xùn)練所述分類模型的用戶查詢特征包括用戶查詢的命名實體和實體上下文主題特征以及用戶屬于色情查詢和非色情查詢的概率。該方法不需要基于搜索引擎的查詢結(jié)果來識別色情查詢,而是通過利用用戶查詢中包含的命名實體特征和語言模型特征實現(xiàn)了快速、有效的色情查詢識別。
文檔編號G06F17/30GK103177126SQ20131013493
公開日2013年6月26日 申請日期2013年4月18日 優(yōu)先權(quán)日2013年4月18日
發(fā)明者程學(xué)旗, 熊錦華, 公帥, 張 成, 廖華明, 王元卓 申請人:中國科學(xué)院計算技術(shù)研究所