專利名稱:一種識別用戶檢索意圖的搜索方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息檢索領(lǐng)域,尤其涉及一種基于識別用戶檢索意圖的搜索方法和系統(tǒng)。
背景技術(shù):
搜索引擎的出現(xiàn),讓用戶有了可以從海量數(shù)據(jù)中查找信息的工具。但是并非每個用戶都了解搜索引擎的原理,所以用戶在使用搜索引擎的過程一般是自己組織檢索關(guān)鍵字來搜索,結(jié)果不滿意時再變換一下檢索關(guān)鍵字來重新獲得搜索結(jié)果。如何能讓用戶更少的輸入,使用搜索引擎來更快的獲取自己需要的信息,那就有一項非常重要的工作一如何根據(jù)用戶輸入的檢索請求來挖掘、識別用戶的潛在檢索意圖。一旦搜索引擎能夠把握住用 戶檢索的意圖,就可以利用更少的資源來滿足用戶更大的需求。截止目前為止,有關(guān)搜索引擎中用戶檢索意圖識別的方法,可歸納不外乎以下幾種1、基于用戶對搜索結(jié)果的點擊信息;2、基于檢索關(guān)鍵字的語義分析;3、基于檢索關(guān)鍵字含有的特有的語義特征。中國專利CN101782909A的專利(基于用戶操作意圖的搜索引擎)公開了一種基于用戶對網(wǎng)頁搜索和操作網(wǎng)頁的記錄來計算用戶后續(xù)需求意向的方法。通過記錄用戶對網(wǎng)頁的點擊數(shù)、點擊速率、網(wǎng)頁速度、瀏覽時長、瀏覽次數(shù)和鏈接文字的操作,計算出用戶對搜索結(jié)果的喜好分值和后續(xù)需求意向。當(dāng)用戶點擊一個超鏈接時,搜索引擎要實時的計算一個喜好分值,并將鏈接上的文字和檢索請求相聯(lián)系起來,可認(rèn)為是相關(guān)聯(lián)。其不足之處在于首先對搜索引擎要求高,要求搜索引擎實時的計算每個點擊的分值,線上承載負(fù)荷會高;其次要求搜索引擎性能、效果穩(wěn)定,搜索結(jié)果基本能滿足用戶的需求,否則記錄的對結(jié)果的點擊反饋將與用戶實際需求相差太遠(yuǎn);再次用戶在搜索過程中的點擊是多變的,多數(shù)時候是隨意的,看到某個話題的鏈接,某個廣告鏈接,可能都會點擊進去查看,這樣的點擊信息其實是一種噪聲,與檢索請求關(guān)系不大,但是依然會被記錄下來。最后也是很重要的一點,這樣得到的結(jié)果作為一種意圖,只是在后續(xù)有相同的檢索請求時,才會將這類結(jié)果展現(xiàn)出來,使得召回較低。中國專利CN102246164A的專利(基于用戶意圖的信息搜索以及信息提供方法)提供了一種基于對檢索關(guān)鍵字分析結(jié)果來檢測搜索者的意圖的方法。該方法的實施是將關(guān)鍵字(可為單詞單元、短語單元以及句子單元)按詞性分離為語意單詞,對分離后的關(guān)鍵字參考語法文法規(guī)則字典,執(zhí)行語法分析,通過分析句子內(nèi)分離后的單詞是否具有任何文法關(guān)系以及語義關(guān)聯(lián),來獲取所述語法表達(dá)式(邏輯表達(dá)式、修飾-被修飾以及語法列表表達(dá)式)進而來檢測搜索者的意圖。該方法不依賴于用戶的搜索結(jié)果信息,是一種事前處理的方法,但不足之處是如何根據(jù)不同類型的檢索意圖做不同的分析,沒有明確的方法。只能將檢索關(guān)鍵字按每種詞性全部處理一遍,得到的分析結(jié)果也會有多種形式,哪個最優(yōu)不得而知?;谑潞笏阉鞯臋z索意圖識別,過分依賴于搜索結(jié)果和用戶的反應(yīng),容易引入一些不必要的噪音(如廣告、其它信息等),而且對搜索引擎有較高要求,在系統(tǒng)性能穩(wěn)定,效果比較好的情況下才能支持。且在獲取的用戶檢索意圖的應(yīng)用上,只能在后續(xù)用戶輸入相同的檢索時起到借鑒作用,從而召回率較低。基于事前檢索意圖識別,利用的信息較少,僅局限于檢索的局部詞匯的完全匹配,對明顯檢索意圖的檢索有一定的效果,但也容易造成局部最優(yōu)問題,且對更多的無明顯檢索意圖字眼的檢索,無法給出意圖結(jié)果。雖然可以對檢索關(guān)鍵字做語義分析,但不同類別的檢索,含有的詞性分布不同,如果按每個詞性分離造成的分析結(jié)果會有多樣性,不容易進一步擇優(yōu)。
發(fā)明內(nèi)容
針對上述技術(shù)問題,本發(fā)明提出一種識別用戶檢索意圖的搜索方法和系統(tǒng),從局部和整體上對檢索關(guān)鍵字做意圖識別的基礎(chǔ)上進行搜索。根據(jù)本發(fā)明的一方面,本發(fā)明提供的一種識別用戶檢索意圖的搜索方法包括以下步驟接收用戶的檢索請求;計算檢索請求的意圖特征相似度、實體詞關(guān)聯(lián)度、以及句法格式相似度三種度量;綜合上述三種度量的計算結(jié)果確定用戶檢索意圖;根據(jù)確定的用戶檢索意圖進行搜索并輸出搜索結(jié)果。根據(jù)本發(fā)明的另一方面,本發(fā)明提供的一種識別用戶檢索意圖的搜索系統(tǒng)包括接收模塊、計算模塊、確定模塊和搜索模塊,其中接收模塊用于接收用戶的檢索請求;計算模塊用于計算檢索請求的意圖特征相似度、實體詞關(guān)聯(lián)度、以及句法格式相似度三種度量;識別模塊用于根據(jù)計算模塊的計算的三種度量的權(quán)重確定用戶檢索意圖;搜索模塊用于根據(jù)識別模塊確定的用戶檢索意圖進行搜索并輸出搜索結(jié)果。通過本發(fā)明實施例的方法和系統(tǒng),從用戶檢索內(nèi)容著手,建立檢索意圖打分模型,通過計算意圖特征相似度、實體詞關(guān)聯(lián)度、句法格式相似度三種度量綜合給檢索意圖打分來挖掘、識別檢索的潛在意圖,既考慮到檢索詞匯與意圖特征庫的相似度,又考慮到實體詞的特殊作用以及整體的檢索句法結(jié)構(gòu),避免了僅依靠檢索詞匯做完全匹配造成的局部最優(yōu)問題,從局部和整體上對檢索關(guān)鍵字做意圖識別,為搜索引擎提供盡可能多的信息支持。同時不完全依賴于線上搜索引擎的結(jié)果信息,更易于實現(xiàn)。
此處所說明的附圖用來提供對本發(fā)明的進一步理解,構(gòu)成本發(fā)明的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中圖I為本發(fā)明實施例提供的一種識別用戶檢索意圖的搜索方法流程圖;圖2為本發(fā)明優(yōu)選實施例提供的一種意圖空間相似度計算的方法流程圖;圖3為本發(fā)明優(yōu)選實施例提供的一種實體詞關(guān)聯(lián)度計算的方法流程圖4為本發(fā)明實施例提供的一種識別用戶檢索意圖的搜索系統(tǒng)的模塊結(jié)構(gòu)圖。
具體實施例方式為了使本發(fā)明所要解決的技術(shù)問題、技術(shù)方案及有益效果更加清楚、明白,以下結(jié)合附圖和實施例,對本發(fā)明進行進一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。需要說明地是,在使用本發(fā)明實施例之前,要先建立意圖特征空間,具體包括建立意圖特征庫(Intension Feature Database,簡稱IFD),其中,意圖特征庫中包括每類檢索意圖的意圖特征;意圖特征包括與檢索意圖相關(guān)的詞匯、短語、和/或規(guī)則;將所述意圖特征庫中的意圖特征轉(zhuǎn)換為向量數(shù)據(jù)格式的意圖特征空間。所謂意圖特征空間,是將意圖特征庫中的每類意圖的特征轉(zhuǎn)換為向量數(shù)據(jù)格式。意圖特征空間可由m*n的矩陣IM來表示,其中m為意圖類數(shù)目,η為意圖特征庫的特征的總數(shù)目,IM(k, j)表示第j個意圖特征匕是否在意圖Ik中,其中k為I到m的整數(shù),j為I到η的整數(shù)。
·
關(guān)于檢索意圖的分類,早期的研究將其分為三類導(dǎo)航類、信息類和事務(wù)類。導(dǎo)航類是訪問某一特定網(wǎng)站,事務(wù)類是進行一些活動(比如購物、下載等),而信息類是獲取某一話題的相關(guān)信息。用戶輸入的信息類檢索類,其實是很復(fù)雜多樣的,也是搜索引擎檢索的弱項。本發(fā)明在用戶實際檢索分析基礎(chǔ)上,將檢索意圖分為五大類導(dǎo)航類(訪問某個網(wǎng)址)、下載類(下載某項資源)、信息查找類(關(guān)于某話題的相關(guān)信息,可具有類別屬性)、信息問答類(相關(guān)問題的直接答案、具有唯一性)、信息建議類(想得到建議,不唯一)。其中下載類又可細(xì)分為限制性下載(對具體某類資源的下載)和一般性下載,信息查找類又可細(xì)分為限制性信息查找(對具體某類資源的信息查找)和一般性信息查找。舉例來說,導(dǎo)航類的意圖特征包括了一系列的網(wǎng)站相關(guān)特征,如“網(wǎng)址”、“網(wǎng)站”、“URL”、“主頁”以及實體詞網(wǎng)站名稱等;信息查找類的意圖特征包括但不限于“檢索”、“查找”、“列舉”等;信息建議類的意圖特征包括但不限于“怎么”、“怎樣”、“如何”等;下載類的意圖特征包含的特征詞就比較直接,如“下載”、“軟件”、“歌曲”、“小說”、“電影”等一系列與下載或資源頻道有關(guān)的詞。意圖特征庫挖掘?qū)儆诰€下的挖掘工作,挖掘同類型的詞匯和短語,可以采用詞聚類等方法,通過一部分明顯的特征詞匯,來得到更多的同類詞匯。意圖特征識別庫是各類意圖特征的并集合,且有一個逐步更新完善的機制,定期的利用各類信息更新。其中,針對上述資源頻道,需要建立一套擁有當(dāng)前各類資源名稱,如小說名、軟件名、電影名等的資源頻道庫,這可以從檢索日志中挖掘或從各垂直網(wǎng)站抓取、提取所需信息,盡可能保證資源庫的資源信息完備。實施例一如圖I所示是本發(fā)明實施例提供的一種識別用戶檢索意圖的搜索方法流程圖,圖中S102、接收用戶的檢索請求;S104、計算檢索請求的意圖特征相似度、實體詞關(guān)聯(lián)度、以及句法格式相似度三種
度量;
優(yōu)選地,本步驟中計算檢索請求的意圖特征相似度可以為對檢索請求的檢索關(guān)鍵字進行分詞處理,得到檢索特征向量;計算檢索特征向量與每類意圖的意圖特征向量的相似度。其中,計算檢索特征向量與每類意圖的意圖特征向量的相似度的方法包括但不限于經(jīng)典余弦距離相似度、歐氏相似度、指數(shù)相似度、相關(guān)相似度、海明相似度或格相似度。優(yōu)選地,本步驟中計算實體詞關(guān)聯(lián)度包括將檢索關(guān)鍵字中含有的實體詞E轉(zhuǎn)換成針對資源頻道的向量;計算意圖與資源頻道的關(guān)聯(lián)矩陣;計算實體詞向量與意圖的關(guān)聯(lián)度意圖特征相似度和實體詞關(guān)聯(lián)度是從詞匯的角度來看檢索與意圖的關(guān)系,為了避免局部最優(yōu)問題,本發(fā)明實施例還提出了句法格式相似度計算,即判斷檢索是否滿足檢索意圖的某些特定的句法格式,當(dāng)不滿足時結(jié)果為0,滿足時結(jié)果為I。如信息查找的句法格式 PTk 包括“$adress. *$adress 怎么 | 如何”($address 為地址)、“怎樣· *$verb” ($verb 為動詞)等。檢索與意圖Ik的句法相似度為
權(quán)利要求
1.一種識別用戶檢索意圖的搜索方法,其特征在于,該方法包括以下步驟 接收用戶的檢索請求; 計算所述檢索請求的意圖特征相似度、實體詞關(guān)聯(lián)度、以及句法格式相似度三種度量; 根據(jù)所述計算的三種度量確定用戶檢索意圖; 根據(jù)所述確定的用戶檢索意圖進行搜索并輸出搜索結(jié)果。
2.根據(jù)權(quán)利要求I所述的搜索方法,其特征在于,所述方法之前還包括建立意圖特征空間的步驟,該步驟具體包括 建立意圖特征庫;其中,所述意圖特征庫中包括每類檢索意圖的意圖特征;所述意圖特征包括與檢索意圖相關(guān)的詞匯、短語、和/或規(guī)則; 將所述意圖特征庫中的意圖特征轉(zhuǎn)換為向量數(shù)據(jù)格式的意圖特征空間。
3.根據(jù)權(quán)利要求2所述的搜索方法,其特征在于,所述計算所述檢索請求的意圖特征相似度包括以下步驟 對所述檢索請求的檢索關(guān)鍵字進行分詞處理,得到檢索特征向量; 計算所述檢索特征向量與每類意圖的意圖特征向量的相似度。
4.根據(jù)權(quán)利要求3所述的搜索方法,其特征在于,所述計算所述檢索特征向量與每類意圖的意圖特征向量的相似度包括根據(jù)經(jīng)典余弦距離相似度、歐氏相似度、指數(shù)相似度、相關(guān)相似度、海明相似度或格相似度進行計算。
5.根據(jù)權(quán)利要求I所述的搜索方法,其特征在于,所述計算實體詞關(guān)聯(lián)度包括以下步驟 將檢索關(guān)鍵字中含有的實體詞轉(zhuǎn)換成針對資源頻道的向量; 計算意圖與資源頻道的關(guān)聯(lián)矩陣; 計算實體詞向量與意圖的關(guān)聯(lián)度。
6.根據(jù)權(quán)利要求5所述的搜索方法,其特征在于,所述將檢索關(guān)鍵字中含有的實體詞轉(zhuǎn)換成針對資源頻道的向量按下述公式進行 Γ /·; e Pi Epi = <,J = i,2...q .3 [O I; e Pj 其中,E表示檢索關(guān)鍵字中的實體詞,Epj表示實體詞E針對資源頻道P」的向量,Pj表示第j個資源頻道,q為資源頻道總數(shù)目; 所述計算意圖與資源頻道的關(guān)聯(lián)矩陣包括RM (k,j)表示意圖Ik是否與資源頻道Pj有關(guān)聯(lián); 所述計算實體詞向量與意圖Ik的關(guān)聯(lián)度按下述公式
7.根據(jù)權(quán)利要求I所述的搜索方法,其特征在于,所述計算所述檢索請求的句法格式相似度具體為判斷檢索是否滿足每類檢索意圖的句法格式,當(dāng)不滿足時結(jié)果為O,滿足時結(jié)果為I。
8.根據(jù)權(quán)利要求I所述的搜索方法,其特征在于,所述根據(jù)所述三種度量確定用戶檢索意圖包括以下步驟 按所述三種度量權(quán)重的線性組合計算該檢索對每類意圖的權(quán)重分?jǐn)?shù); 將權(quán)重分?jǐn)?shù)最高的檢索意圖確定為用戶檢索意圖。
9.一種識別用戶檢索意圖的搜索系統(tǒng),其特征在于,該系統(tǒng)包括接收模塊、計算模塊、確定模塊和搜索模塊,其中 所述接收模塊用于接收用戶的檢索請求; 所述計算模塊用于計算所述檢索請求的意圖特征相似度、實體詞關(guān)聯(lián)度、以及句法格式相似度三種度量; 所述識別模塊用于根據(jù)所述計算模塊的計算的三種度量確定用戶檢索意圖; 所述搜索模塊用于根據(jù)所述識別模塊確定的用戶檢索意圖進行搜索并輸出搜索結(jié)果。
10.根據(jù)權(quán)利要求9所述的搜索系統(tǒng),其特征在于,所述計算模塊包括意圖特征相似計算單元、實體詞關(guān)聯(lián)度計算單元、句法格式相似度計算單元,其中 所述意圖特征相似計算單元具體用于對所述檢索請求的檢索關(guān)鍵字進行分詞處理,得到檢索特征向量;計算所述檢索特征向量與每類意圖的意圖特征向量的相似度; 所述實體詞關(guān)聯(lián)度計算單元具體用于將檢索關(guān)鍵字中含有的實體詞轉(zhuǎn)換成針對資源頻道的向量,計算意圖與資源頻道的關(guān)聯(lián)矩陣,計算實體詞向量與意圖的關(guān)聯(lián)度; 所述句法格式相似度計算單元具體用于判斷檢索是否滿足每類檢索意圖的句法格式。
11.根據(jù)權(quán)利要求9所述的搜索系統(tǒng),其特征在于,所述識別模塊進一步包括意圖權(quán)重計算單元和意圖確定單元,其中 所述意圖權(quán)重計算單元用于按所述三種度量權(quán)重的線性組合計算該檢索對每類意圖的權(quán)重分?jǐn)?shù); 所述意圖確定單元用于將權(quán)重分?jǐn)?shù)最高的檢索意圖確定為用戶檢索意圖。
全文摘要
本發(fā)明公開了一種識別用戶檢索意圖的搜索方法和系統(tǒng),應(yīng)用于信息檢索領(lǐng)域,該方法包括以下步驟接收用戶的檢索請求;計算檢索請求的意圖特征相似度、實體詞關(guān)聯(lián)度、以及句法格式相似度三種度量;根據(jù)上述計算的三種度量確定用戶檢索意圖;根據(jù)確定的用戶檢索意圖進行搜索并輸出搜索結(jié)果。通過本發(fā)明實施例,既考慮到檢索詞匯與意圖特征庫的相似度,又考慮到實體詞的特殊作用以及整體的檢索句法結(jié)構(gòu),從局部和整體上對檢索關(guān)鍵字做意圖識別,為搜索引擎提供盡可能多的信息支持,同時不完全依賴于線上搜索引擎的結(jié)果信息,更易于實現(xiàn)。
文檔編號G06F17/30GK102880723SQ20121040412
公開日2013年1月16日 申請日期2012年10月22日 優(yōu)先權(quán)日2012年10月22日
發(fā)明者車天文, 雷大偉, 石志偉, 周步戀, 楊振東, 王更生, 王喜民, 何宏靖, 徐憶蘇 申請人:深圳市宜搜科技發(fā)展有限公司