專利名稱:一種基于用戶行為信息的搜索引擎檢索結(jié)果重排序方法
技術(shù)領(lǐng)域:
本發(fā)明屬于互聯(lián)網(wǎng)信息處理領(lǐng)域,特別是涉及信息檢索系統(tǒng),具體說是利用群體用戶行為信息,對搜索引擎檢索結(jié)果進行重排序,提高檢索排序性能的處理方法。
背景技術(shù):
搜索引擎是以一定的策略收集互聯(lián)網(wǎng)上的信息,對信息進行組織和處理后為用戶提供網(wǎng)絡(luò)信息服務(wù)的計算機系統(tǒng),它包括計算機網(wǎng)絡(luò)、計算機硬件系統(tǒng)以及在硬件系統(tǒng)上運行的軟件程序三個部分。它的主要作用是幫助用戶快捷、高效的獲取存在于互聯(lián)網(wǎng)信息環(huán)境中的能夠滿足用戶需求的高質(zhì)量信息。
目前,通用網(wǎng)絡(luò)搜索引擎主要包含信息收集、信息處理和用戶查詢服務(wù)三部分。搜索引擎通過被稱為網(wǎng)絡(luò)蜘蛛(Spider)的工具根據(jù)站點或頁面的URL信息和網(wǎng)頁之間的鏈接關(guān)系進行信息收集,用鏈接信息分析器、文本分析器以及索引器對抓取的頁面信息進行整理,進而通過查詢服務(wù)器負責(zé)與用戶交交互,根據(jù)用戶提交的查詢關(guān)鍵詞進行檢索,并返回相關(guān)結(jié)果列表,提供相關(guān)信息以滿足用戶的查詢需求。
從使用者的角度看,搜索引擎提供一個包含搜索框的頁面,用戶在搜索框輸入能反映自己需求的查詢關(guān)鍵詞,通過瀏覽器提交給搜索引擎后,搜索引擎返回和用戶輸入的內(nèi)容相關(guān)的搜索結(jié)果信息列表,用戶進行點擊相關(guān)結(jié)果頁面,查找所需要的信息。
查詢服務(wù)器中的一個關(guān)鍵技術(shù)是對相關(guān)的文檔進行有效排序,使得用戶想要的頁面排在返回結(jié)果的前列位置,相關(guān)信息更容易被訪問到。從20世紀60年代中期以來,人們提出了大量的文本相似度模型。90年代后,隨著Web頁面的大規(guī)模出現(xiàn),部分相似度模型應(yīng)用到了網(wǎng)絡(luò)信息搜索引擎上,其主要的思想就是“TF*IDF”。當(dāng)前應(yīng)用廣泛的模型主要有布爾模型(Boolean Model),統(tǒng)計模型(Statistical Model)和語言知識模型(Linguistic andKnowledge-based Model)。由于這類相似度模型基本上都是基于普通文本檢索提出的,和真實網(wǎng)絡(luò)環(huán)境上的Web文本信息有一定的區(qū)別。另外,各Web站點為提高搜索結(jié)果排名,利用相關(guān)Spam技術(shù),如在各自的頁面中添加各種關(guān)鍵詞,欺騙搜索引擎,提升搜索結(jié)果排名,提高站點知名度。
由于網(wǎng)絡(luò)檢索的特殊性,用戶提交關(guān)鍵詞進行搜索時,其目標(biāo)頁面并不一定完全是和查詢關(guān)鍵詞相關(guān)的內(nèi)容,用戶一般也難于用簡單的幾個關(guān)鍵詞對其想要的目標(biāo)頁面進行合理描述,很多實際檢索任務(wù)往往轉(zhuǎn)化為查找相關(guān)的關(guān)鍵資源頁面。關(guān)鍵資源頁面通常是指一系列相關(guān)信息頁面的入口頁面,即用戶能通過該頁面很容易找到自己想要的信息,和傳統(tǒng)的文本信息檢索有很大的不同。
90年代中后期,針對已有的網(wǎng)絡(luò)環(huán)境和網(wǎng)絡(luò)用戶的需求特點,人們開始對Web頁面的質(zhì)量問題進行相關(guān)研究和考察,其中最主要的依據(jù)是網(wǎng)絡(luò)頁面上的超鏈接結(jié)構(gòu)。超鏈接結(jié)構(gòu)是網(wǎng)絡(luò)信息環(huán)境與傳統(tǒng)的信息媒介的最大區(qū)別之一,是指兩個頁面或頁面的兩個不同部分之間的一種指向關(guān)系,包含源頁面和目標(biāo)頁面,基于鏈接結(jié)構(gòu)提出的技術(shù)主要有Pagerank和Hits等算法。Pagerank算法是Google公司的Brin等人根據(jù)因特網(wǎng)用戶瀏覽模型建立的超鏈接分析算法,其主要利用超鏈接關(guān)系對不同頁面進行一定的質(zhì)量評級,用頁面對應(yīng)的評級結(jié)果對搜索引擎的搜索結(jié)果進行改進,把頁面質(zhì)量高且相關(guān)性好的頁面排在結(jié)果前列返回給用戶,能很大程度的提高了實際用戶檢索的滿意度。Pagerank算法的基本架構(gòu)和實現(xiàn)思路因此也在實際商用搜索引擎的應(yīng)用中取得了巨大成功。
事實上,盡管各種新模型新技術(shù)在搜索引擎中被使用,但還是沒法很好的滿足檢索用戶對信息查詢的滿意度。為盡量提高搜索引擎的搜索性能,很多實際的搜索引擎站點使用一些人工挑選的手段的來提高部分查詢詞的檢索性能,挑選那些用戶經(jīng)常使用且目標(biāo)唯一的查詢詞(通常為導(dǎo)航類查詢詞,如“搜狐www.sohu.com”,)。當(dāng)用戶檢索時,把人工挑選的相關(guān)檢索目標(biāo)頁面融合在自動檢索的頁面中,通常如放在返回結(jié)果頁面前幾位。但由于人工挑選帶來的投入代價太大,而且很難對更大規(guī)模的查詢進行人工挑選。
在實際商用搜索引擎中,用戶對查詢返回結(jié)果會按照自己的理解和滿意程度進行點擊,很容易對用戶的該點擊行為進行記錄,該記錄通常也被稱為搜索引擎日志。查詢記錄點擊信息不但體現(xiàn)了用戶的查詢興趣,也包含了用戶對查詢結(jié)果判斷和挑選,蘊含了大量的群體用戶的知識和信息,從用戶的查詢點擊信息中篩選相關(guān)的查詢和結(jié)果頁面是可行的。已有統(tǒng)計研究表明,在日常的用戶搜索中,查詢最頻繁的1%的查詢詞占了70%以上的查詢次數(shù),因此只要對用戶點擊信息進行統(tǒng)計,找出那些常用的用戶查詢,則能代表大多數(shù)用戶查詢需求,分析其相關(guān)用戶點擊行為信息,并融合到搜索引擎結(jié)果中去,則能自動利用群體用戶的知識提高檢索性能。
發(fā)明內(nèi)容
本發(fā)明針對現(xiàn)有各種檢索排序算法存在的不足以及人工挑選所需要的大量勞動力和時效性的不足,提出了基于用戶行為信息的搜索引擎檢索結(jié)果重排序方法。該方法利用已有的在一家或多家搜索引擎上的用戶查詢及其點擊行為信息,對其進行宏觀統(tǒng)計分析,對那些用戶近期常用的查詢挑選用戶最關(guān)注的幾個目標(biāo)頁面,融合到搜索引擎返回的原始結(jié)果之中對其結(jié)果頁面改進,作為最終查詢結(jié)果返回給用戶。利用多家搜索引擎的用戶查詢點擊行為信息能很好的避免因單個搜索引擎索引數(shù)據(jù)規(guī)模和檢索排序策略給用戶點擊帶來的偏向性和不足,但收集多家搜索引擎用戶日志信息有一定的難度;利用近期的信息能很好的保持一定的時效性;利用用戶點擊的信息返回的結(jié)果頁面有一定的用戶認同感,把其作為結(jié)果頁面的一部分,能提高結(jié)果的準確度和用戶的滿意度。上述處理過程都是由計算機自動完成,因此,在提高性能的基礎(chǔ)上大量的減少了人工輔助檢索勞動,并能及時、準確、有效、客觀的返回結(jié)果頁面和滿足用戶需求。
該方法的具體內(nèi)容如下1.利用查詢的用戶數(shù)等信息,自動篩選出具有時效性,能包含大部分用戶查詢需求,且能夠較準確標(biāo)注的查詢;2.根據(jù)用戶行為信息,計算各查詢對應(yīng)的用戶點擊頁面的點擊率,若利用多搜索引擎的用戶行為日志,則進行相關(guān)合并,得到合并后各查詢的用戶點擊率;3.根據(jù)各查詢對應(yīng)頁面的用戶點擊率,篩選出該查詢的結(jié)果頁面;4.當(dāng)用戶查詢時,將標(biāo)出的查詢結(jié)果融合到搜索引擎返回的結(jié)果中去,并最終顯示給用戶。
本發(fā)明的特征在于它是在計算機上自動完成的,依次含有如下步驟步驟1用戶常用查詢集篩選步驟1.1數(shù)據(jù)預(yù)處理用于利用用戶行為信息的搜索引擎檢索結(jié)果重排序所使用的查詢集、查詢對應(yīng)的結(jié)果頁面以及頁面篩選過程中所使用的相關(guān)信息來源于一個或多個搜索引擎的用戶日志,對于這些搜索引擎用戶日志,它至少需要包含以下內(nèi)容信息才能用于搜索引擎結(jié)果重排序的方法中表1 供基于用戶行為信息的搜索引擎檢索結(jié)果重排序所使用的用戶日志需包含的內(nèi)容
一般搜索引擎服務(wù)提供商都可以很容易的通過搜索引擎網(wǎng)絡(luò)服務(wù)器得到以上信息,從而保證了本方法的可行性。由于各個搜索引擎對其用戶日志存儲格式和表現(xiàn)形式上有所不同,具體處理過程略有差別,但基本上都需要如下步驟對用戶日志進行預(yù)處理步驟1.1.1進行用戶日志編碼轉(zhuǎn)換,將服務(wù)器記錄的編碼格式轉(zhuǎn)換成國家標(biāo)準漢字編碼的GBK格式。
步驟1.1.2利用表1中列出的內(nèi)容項對用戶日志進行整理,去除表1內(nèi)容項之外的信息,并將日志整理成以上內(nèi)容項字符串的形式。
步驟1.1.3利用字符串匹配技術(shù)(如KMP算法)過濾用戶查詢中的噪聲信息,包括違禁查詢詞、某些在線商品推廣使用的查詢詞等,僅保留直接反映搜索引擎普通用戶查詢需求與行為的內(nèi)容項。
經(jīng)過數(shù)據(jù)預(yù)處理過程,可以從中提取表1中列舉的內(nèi)容,并應(yīng)用于方法的以下步驟。
步驟1.2查詢用戶數(shù)信息提取按以下規(guī)則統(tǒng)計各個查詢的用戶數(shù)信息對于日志中用戶提交的某查詢Q,對提交過該查詢Q的用戶數(shù)進行計數(shù)得到。
對于每一個提交的查詢,其用戶數(shù)都是一個大于等于1的值。查詢的用戶數(shù)信息包含了人們對該查詢的關(guān)注度。由于查詢的用戶數(shù)和日志記錄的時間有很大關(guān)系,為保持一定的時效性,選擇最近一個月或半個月的日志作為數(shù)據(jù)源。
步驟1.3常用查詢集篩選按照以下規(guī)則挑選常用查詢集合S若某查詢Q在搜索引擎日志中其查詢用戶數(shù)小于20,則排除在S之外;否則把該查詢Q放入常用查詢集合S中。
用查詢的用戶數(shù)對查詢主題進行一定的篩選,挑選那些用戶數(shù)較多的查詢是因為這些查詢占據(jù)了大量的用戶查詢,用少量的用戶查詢詞集合滿足大部分用戶的查詢需求,并能保證所選擇的查詢反應(yīng)當(dāng)前用戶的關(guān)注趨勢和熱點,保證時效性和關(guān)注度,有一定的代表性。另外,挑選那些用戶數(shù)較多的查詢,能提高步驟2中計算用戶點擊率信息的可靠性和穩(wěn)定性,減少因個別用戶的點擊行為帶來較大的波動。
步驟2用戶點擊率信息提取步驟2.1用戶點擊率信息提取對于查詢集合S中的每個查詢Q,都有一系列被點擊的結(jié)果頁面,通過表1提供的用戶查詢和點擊信息,可以得到這一系列被點擊頁面的地址URL,并針對該查詢計算每個頁面URL的“用戶點擊率”,即頁面被點擊的概率。查詢Q的某一結(jié)果頁面URL的“用戶點擊率”計算公式是 其中,“查詢Q用戶點擊查詢結(jié)果URL的次數(shù)”可以通過對查詢Q中點擊結(jié)果URL的用戶行為計數(shù)得到,而“查詢Q用戶的點擊總次數(shù)”可以通過對查詢Q的所有用戶點擊行為計數(shù)得到。
按照其定義,由于“查詢Q用戶點擊查詢結(jié)果URL的次數(shù)”必然小于等于“查詢Q用戶的點擊總次數(shù)”,因此“用戶點擊率”的取值范圍在0和1之間。對查詢Q,所有被點擊的結(jié)果頁面URL的“用戶點擊率”之和為1。
“用戶點擊率”描述對于查詢Q,該結(jié)果頁面URL的認可度,其值越大,表示更多用戶對該頁面URL和查詢Q關(guān)系認可,可作為該查詢和URL相關(guān)度的一個有效度量。
步驟2.2多搜索引擎用戶點擊率信息合并使用單搜索引擎日志信息在日志數(shù)據(jù)獲取上相對比較容易,但其存在著檢索數(shù)據(jù)有限和搜索引擎排序引導(dǎo)偏向的不足,如果能使用多搜索引擎的用戶日志,其性能提高將更加理想。
用概率表達式P(URL|查詢Q)表示合并后對查詢Q結(jié)果頁面URL的“用戶點擊率”信息,使用條件分布的全概率公式得到其計算公式如下 由概率的相關(guān)概念可以知道P(URL|查詢Q)的取值范圍必然在0至1之間。其中,P(URL|SEi,查詢Q)表示在搜索引擎日志SEi中,對于查詢Q,點擊結(jié)果頁面URL的點擊率,用(1)式計算該結(jié)果頁面URL在搜索引擎SEi上的“用戶點擊率”得到。P(SEi|查詢Q)表示對于查詢Q,搜索引擎用戶日志SEi給出的支持度,用如下(3)式計算的“SEi查詢可信度”得到 由(3)可知該“查詢可信度”是一取值范圍在0至1之間,且該查詢的各搜索引擎“查詢可信度”之和為1,該值是各搜索引擎日志關(guān)于該查詢用戶點擊率的合并權(quán)重。
合并后查詢的“用戶點擊率”排除了單個搜索引擎日志上得到的“用戶點擊率”存在的不足,對于檢索排序性能提高效果更好(見相關(guān)驗證實驗)。
步驟3利用用戶行為信息進行搜索引擎檢索結(jié)果改進步驟3.1查詢結(jié)果頁面篩選對于某一查詢Q對應(yīng)的結(jié)果頁面集,按以下兩種方法之一確定相關(guān)結(jié)果頁面固定點擊率和法對于查詢Q,其“用戶點擊率”最大的連續(xù)前M個頁面即是其查詢Q對應(yīng)的從搜索引擎用戶日志中得到的結(jié)果頁面,其中M滿足從融合后“用戶點擊率”最大的頁面開始,連續(xù)前M個頁面的融合后“用戶點擊點擊率”之和大于0.8,但連續(xù)前M-1個頁面的融合后“用戶點擊率”之和小于0.8,且該M個頁面的“用戶點擊率”都大于0.1。
該方法確定的各個查詢對應(yīng)的結(jié)果數(shù)可能有所不同,對于用戶點擊率集中度高的查詢,一般只返回極少個別的頁面;對于用戶點擊率相對比較分散的查詢,可能返回較多的頁面。
固定結(jié)果頁面數(shù)法對于查詢Q,其“用戶點擊率”最大的連續(xù)前n個頁面是其對應(yīng)的所需結(jié)果頁面,其中n滿足該n個頁面對應(yīng)的“用戶點擊率”都大于0.1,且n為小于等于N的最大整數(shù),N為一常數(shù),通常為3。
該方法確定結(jié)果的頁面?zhèn)€數(shù),對所有的查詢其結(jié)果頁面數(shù)都不超過N個,且每一個查詢結(jié)果都有一定的可信度。
實際中,對于導(dǎo)航類查詢,其結(jié)果頁面比較唯一且確定,因此使用固定結(jié)果頁面數(shù)法比較合適;對于信息類查詢,其結(jié)果頁面多樣化,數(shù)目不確定,因此使用固定點擊率和法比較合適。
通過上述步驟確定了能夠融合用戶行為信息檢索排序的查詢,以及其對應(yīng)的從日志中獲得的結(jié)果頁面,將其以一定形式存儲起來(如數(shù)據(jù)庫)。
步驟3.2指定搜索引擎原始檢索結(jié)果的獲取當(dāng)用戶向指定搜索引擎提交相關(guān)查詢關(guān)鍵詞進行查詢時,把該查詢提交給指定的搜索引擎,搜索引擎將返回查詢相關(guān)的排好序的結(jié)果頁面集,并有計算得到的頁面相關(guān)度信息。
若沒有獨立的搜索引擎,可抓取特定的搜索引擎結(jié)果頁面(實驗中使用了該方法),抓取方法如下首先選用一種互聯(lián)網(wǎng)網(wǎng)頁抓取程序,如wget,F(xiàn)lashGet等,以便利用這個工具對相應(yīng)的URL的網(wǎng)頁進行抓取。其次根據(jù)查詢Q的不同,利用模式替換的方式生成對應(yīng)Q的搜索引擎結(jié)果頁面的URL。不同搜索引擎結(jié)果頁面URL記錄Q的方式不同。但搜索引擎都需要在URL中記錄Q以便向服務(wù)器傳遞Q的信息。如使用Baidu搜索引擎,其對應(yīng)Q的結(jié)果頁面URL是http//www.baidu.com/baidu?wd=Q。最后,調(diào)用網(wǎng)頁抓取程序,自動抓取該URL對應(yīng)的頁面,并獲取查詢Q對應(yīng)的查詢結(jié)果頁面。
步驟3.3基于用戶行為信息的檢索結(jié)果合并當(dāng)用戶提交查詢Q進行查詢時,將其分別提交給搜索引擎(步驟3.2)和從步驟3.1篩選得到的查詢結(jié)果集數(shù)據(jù)庫中,返回得到該查詢的兩個結(jié)果頁面序列,分別命名為序列SEQ和序列LOG。若從用戶日志得到的查詢集數(shù)據(jù)庫中不包含該查詢Q,則不進行如下處理,直接返回搜索引擎查詢結(jié)果序列SE。否則,按如下方法融合上述兩個序列的結(jié)果頁面,并作為最終返回結(jié)果頁面集返回給用戶首先,按“用戶點擊率”的大小依次取序列LOG中的每一個結(jié)果頁面,放入最終返回結(jié)果頁面集中,至取完為止;其次,按SEQ序列中已有的順序,依次取其中的每一個結(jié)果頁面,至取完為止,如果該頁面已經(jīng)出現(xiàn)在最終返回結(jié)果頁面集中,則不再取該頁面。
經(jīng)過上述步驟,完成了將用戶的點擊行為信息融合到搜索引擎返回的結(jié)果中去,包含了大量用戶的知識和信息,通過實驗可以看到其能提高搜索引擎的檢索排序性能。
為了驗證本發(fā)明的有效性、可靠性和應(yīng)用性,我們設(shè)計和測試了相關(guān)的驗證實驗。
從數(shù)據(jù)源上,我們使用了4個常用搜索引擎的用戶查詢?nèi)罩?。另外,選擇了約320個用戶查詢,并使用結(jié)果池過濾技術(shù)(Pooling,由美國國家技術(shù)研究所NIST組織的文本檢索會議TREC提出),對這些查詢進行了人工答案集標(biāo)注,作為測試答案。Pooling池包括國內(nèi)搜狗,百度,Google,中搜,雅虎,新浪等各大著名搜索引擎,每個搜索引擎返回前20個結(jié)果作為池中的備選答案。在驗證實驗中使用信息檢索中常用的平均檢索精度(MAP)進行性能的評價。
搜索引擎很容易記錄其自身用戶訪問的情況,進而可以得到關(guān)于該單個搜索引擎的用戶行為信息,進行相關(guān)檢索結(jié)果重排序。利用獲取的2007年3月1日至4月8日的搜索引擎用戶日志,利用對搜狗搜索引擎結(jié)果頁面抓取的方式驗證本方法的性能。表2列出了使用固定結(jié)果頁面數(shù)法篩選查詢結(jié)果頁面時,使用不同N值融合后的性能提高情況,可以看到其基本上有5%以上的提高。
表2 融合單搜索引擎用戶行為信息的檢索性能提高情況
另外,利用多家搜索用戶日志,對融合多搜索引擎用戶行為信息查詢排序進行驗證。考察了其對6家常用搜索引擎結(jié)果重排序后性能改進情況,使用了固定結(jié)果頁面數(shù)法篩選查詢結(jié)果頁面,取N為3。表3顯示各搜索引擎性能提高情況,可以看到該方法能平均提高15%的評價性能,尤其對原有性能較差的搜索引擎,其提高幅度非常明顯,如新浪和中搜。同樣比較搜狗搜索引擎的情況,使用單搜索引擎用戶行為信息時,其提高了6.9%(見表2),使用多搜索引擎用戶行為信息后其提高了13.6%(見表3),提高效果更加明顯。
表3 融合多搜索引擎用戶行為信息的檢索性能提高情況
本發(fā)明能夠自動的從單個或多個搜索引擎日志中篩選出用戶關(guān)注的查詢以及這些查詢對應(yīng)的可信度高的結(jié)果頁面,進而當(dāng)用戶進行查詢時,把相關(guān)結(jié)果融合在搜索引擎返回的結(jié)果中,提供給用戶。該方法處理簡單,算法復(fù)雜度低,能有效的利用已有的搜索引擎用戶行為信息,使用群體用戶的智慧來改進搜索引擎的檢索結(jié)果,提高性能。在測試數(shù)據(jù)上取得了很好的結(jié)果,提高了搜索引擎的檢索性能。這說明本發(fā)明具有較好的推廣性和適應(yīng)性,能對搜索引擎的搜索結(jié)果有效改進,具有良好的應(yīng)用前景。
圖1.搜索引擎基本流程架構(gòu);圖2.基于用戶行為信息的搜索引擎檢索結(jié)果重排序方法的流程;圖3.多搜索引擎用戶點擊率合并算法;圖4.結(jié)果頁面篩選的兩種方法流程;圖5.用戶行為信息結(jié)構(gòu)。
具體實施例方式
附圖2描述了本方法的流程。本發(fā)明對于搜索引擎性能的提高,具有廣泛的適應(yīng)性和應(yīng)用性。下面利用四個常用搜索引擎的日志進行融合多搜索引擎用戶行為信息的檢索結(jié)果重排序,就以上方法進行詳細的流程說明1.數(shù)據(jù)預(yù)處理所使用的日志包括在2007年3月18號至2007年4月23號的37天時間內(nèi)收集到的四個常用搜索引擎的用戶查詢點擊信息記錄,共有非空查詢點擊信息58,092,696條(四個搜索引擎分別有32,983,339條,11,159,594條,3,450,045條,10,499,718條)。記錄中的包括的信息有表4搜狗搜索引擎提供的4個常用搜索引擎用戶日志包含信息項
FromUrl信息中包含了該日志所屬的搜索引擎。通常,該地址的變量中包含了相關(guān)的查詢關(guān)鍵詞。ToUrl即用戶點擊結(jié)果頁面。因此,這些日志包含了表1所對應(yīng)的數(shù)據(jù)信息項,可以提供融合排序中所需的用戶行為信息。
日志的預(yù)處理包括過濾非搜索引擎日志記錄(如搜索引擎的站內(nèi)互相跳轉(zhuǎn)等);對搜索引擎日志按搜索引擎進行分類,得到四個常用搜索引擎各自的用戶查詢點擊信息記錄;從FromUrl的變量中提取相關(guān)的查詢關(guān)鍵詞部分,進行URL轉(zhuǎn)碼,并最終統(tǒng)一轉(zhuǎn)碼成GBK編碼;過濾記錄中非表1所需要的無用信息以及相關(guān)噪音信息;對相同查詢的用戶點擊信息進行組織,計算各查詢的用戶數(shù),查詢對應(yīng)的各點擊頁面的用戶點擊數(shù)等信息。
2.常用查詢集篩選搜索引擎的用戶查詢有一定的重復(fù)性和密集性,對于用戶關(guān)心的查詢,會經(jīng)常被查詢用戶提交。查詢的密集性和重復(fù)性也是我們利用已有的用戶行為信息提高檢索性能的依據(jù)和保障。
以下為查詢集合的篩選過程,如果使用多家搜索引擎日志,則在各個日志上獨立進行考察和篩選。
單搜索引擎日志上的常用查詢篩選流程每個搜索引擎日志經(jīng)過預(yù)處理后,對于每個查詢Q根據(jù)其查詢用戶數(shù)進行篩選,如果總查詢次數(shù)少于20,則認為這個查詢沒有足夠的宏觀用戶點擊行為信息,無法進行有效的分析,同時該查詢也缺少足夠的代表性來描述用戶所關(guān)心的話題,剔除該查詢。否則,將該查詢進行保留。根據(jù)以前對搜狗日志進行分析后發(fā)現(xiàn),用戶查詢次數(shù)大于100的查詢超過3萬個,而用戶在這部分查詢上的總點擊次數(shù)占到全部點擊次數(shù)的70%左右。這與前人的一些研究結(jié)果相同,即較少數(shù)量的查詢被用戶反復(fù)查詢,占據(jù)了大部分的搜索引擎服務(wù)。
3.用戶點擊率信息獲取對于每一個查詢的用戶點擊率,其表示了在同一查詢下,用戶對各個結(jié)果頁面的偏好度。對于單搜索引擎日志,直接利用(1)式計算得到每個查詢下的各個頁面的用戶點擊率大小。如果利用多搜索引擎日志,則根據(jù)單搜索引擎的用戶點擊率,通過(2)式進行合并計算。圖3描述了合并算法,可以得到合并后的用戶點擊率大小。
用戶點擊率包含了宏觀用戶群對于特定查詢各個結(jié)果頁面的判斷信息?;趩嗡阉饕娴挠脩酎c擊率信息其存在著檢索結(jié)果排序引導(dǎo)的偏向和單搜索引擎因資源有限而帶來的數(shù)據(jù)集的偏向,但其用戶日志收集相對比較簡單,易于實現(xiàn)?;诙嗨阉饕娴挠脩酎c擊率信息則能很好的避免存在的偏向問題,但相對來說由于各商用搜索引擎存在這競爭關(guān)系,獲取日志信息相對較難。
4.用戶日志結(jié)果篩選和搜索引擎檢索結(jié)果重排序有了每個查詢及其對應(yīng)結(jié)果頁面的用戶點擊率后,需要對用戶點擊頁面進行篩選。圖4描述了兩種利用已有的用戶點擊率信息對用戶點擊頁面進行篩選的方法,即固定點擊率和法和固定結(jié)果頁面數(shù)法。經(jīng)過篩選后把常用查詢及其對應(yīng)的標(biāo)出來的結(jié)果頁面進行數(shù)據(jù)庫保存,并提供查詢服務(wù)。當(dāng)用戶提交某查詢Q時,將其提交給保存的常用查詢集和對應(yīng)結(jié)果頁面的數(shù)據(jù)庫,如果包含該查詢Q,則返回相關(guān)的結(jié)果頁面,否則,返回為空。同時將該查詢提交給搜索引擎,得到搜索引擎返回的結(jié)果,按照先挑選由用戶行為信息得到的結(jié)果頁面,再挑選搜索引擎返回的頁面的順序生成最終的查詢Q的查詢結(jié)果,返回給用戶。
按照以上步驟,就可以利用宏觀群體搜索引擎用戶的查詢行為信息和智慧,改進搜索引擎檢索結(jié)果,提高搜索引擎檢索性能。
權(quán)利要求
1.一種基于用戶行為信息的搜索引擎檢索結(jié)果重排序方法,其特征在于該方法是在搜索引擎的計算機上依次按以下步驟實現(xiàn)的步驟(1).用戶常用查詢集的篩選步驟(1.1).數(shù)據(jù)預(yù)處理通過搜索引擎網(wǎng)絡(luò)服務(wù)器從至少一個搜索引擎的用戶日志中提取供基于用戶行為進行搜索結(jié)果重排序的用戶信息,形成的用戶信息至少包含以下內(nèi)容Query用戶提交的查詢;URL該查詢對應(yīng)的用戶點擊的結(jié)果頁面地址;Id系統(tǒng)自動分配給每個用戶每次使用搜索引擎時的標(biāo)識號;所述步驟(1.1)依次含有以下各子步驟步驟(1.1.1).把搜索引擎網(wǎng)絡(luò)服務(wù)器記錄的編碼格式轉(zhuǎn)換成國家標(biāo)準漢字編碼的GBK格式;步驟(1.1.2).去除所述Query、URL、Id以外的信息,并把日志信息整理成所述用戶日志的三個內(nèi)容項字符串的形式;步驟(1.1.3).在步驟(1.1.2)的范圍內(nèi),再利用如KMP的字符串匹配算法過濾用戶查詢中的噪聲信息,僅保留直接反映搜索引擎普通用戶查詢需求行為的內(nèi)容項;步驟(1.2).提取查詢用戶數(shù)信息對于在設(shè)定的最近時間段內(nèi)用戶日志中的用戶提交的每一個查詢Q,統(tǒng)計提交過該查詢Q的用戶數(shù),該數(shù)值表示了用戶對該查詢的關(guān)注度;步驟(1.3).常用查詢集的篩選若某查詢Q在搜索引擎用戶日志中其查詢用戶數(shù)小于設(shè)定值,則排除在常用查詢集合之外;否則,把該查詢Q放在所述常用查詢集合S中;步驟(2).用戶點擊率信息的提取步驟(2.1).單搜索引擎用戶點擊率的提取 步驟(2.2).多搜索引擎下用戶點擊率信息合并,用一個概率表達式P(URL|查詢Q)來表示在合并后對查詢Q的用戶點擊率的結(jié)果頁面地址URL的用戶點擊率 其中,P(SEi|查詢Q)表示在第i個搜索引擎SEi中查詢Q的概率,用SEi查詢可信度表示 P(URL|SEi,查詢Q)表示在搜索引擎日志SEi中,對于查詢Q,用戶點擊結(jié)果頁面地址URL的點擊率,用步驟(2.1)中所述的方法求出,i=1,2,...,I,因而P(URL|SEi,查詢Q)取值范圍在0~1之間;步驟(3).利用用戶行為信息進行搜索引擎結(jié)果改進步驟(3.1).用以下兩種方法之一對用戶點擊的結(jié)果頁面進行篩選,再把結(jié)果頁面集保存;固定點擊率和法對于查詢Q,尋找根據(jù)搜索引擎用戶行為信息的用戶點擊率最大的前M個頁面,該M個頁面滿足以下條件連續(xù)前M個頁面合并后的用戶點擊率之和大于0.8,但連續(xù)前M-1個頁面的合并后的用戶點擊率之和小于0.8,而且該M個頁面的用戶點擊率都大于0.1;固定結(jié)果頁面數(shù)法對于查詢Q,尋找用戶點擊率最大的連續(xù)前n個頁面該n個頁面對應(yīng)的用戶點擊率都大于0.1,且n≤3;步驟(3.2).搜索引擎原始檢索結(jié)果的獲取對于查詢Q,將其提交給指定的搜索引擎得到該搜索引擎的檢索結(jié)果序列;步驟(3.3).基于用戶行為信息的檢索結(jié)果合并當(dāng)用戶向指定搜索引擎提交查詢Q進行查詢時,根據(jù)步驟(3.2)得到搜索引擎原始結(jié)果序列SEQ,同時提交給步驟(3.1)根據(jù)用戶日志信息確定的結(jié)果頁面集合中查詢得到結(jié)果頁面序列LOG,按如下方法合并該兩個序列,將最終結(jié)果返回給用戶按用戶點擊率大小依次取序列LOG中的每一個結(jié)果頁面,放入最終返回結(jié)果頁面集,至取完為止;再取序列SEQ中的每一個結(jié)果頁面,放入最終返回結(jié)果頁面集,至取完為止,若最終返回結(jié)果頁面集中已經(jīng)存在該結(jié)果頁面,則放棄該頁面。
全文摘要
本發(fā)明屬于互聯(lián)網(wǎng)信息處理領(lǐng)域,其特征在于它根據(jù)單個或多個搜索引擎日志,首先利用查詢對應(yīng)的用戶數(shù)信息,從中篩選出用戶關(guān)注的常用查詢集合;隨后計算常用查詢集中各查詢對應(yīng)的用戶點擊頁面對應(yīng)的用戶點擊率,若利用多搜索引擎日志信息,則對用戶點擊率進行合并;根據(jù)用戶點擊率對用戶點擊頁面進行有效篩選,并把相關(guān)查詢和對應(yīng)的結(jié)果頁面地址保存到相關(guān)數(shù)據(jù)庫;最后,當(dāng)用戶提交查詢需求時,把從用戶信息得到的結(jié)果和搜索引擎搜索得到的結(jié)果進行有效融合,重新排序后返回給用戶。該方法具有計算機自動完成,實時有效客觀地提交搜索引擎性能的優(yōu)點。
文檔編號G06F17/30GK101055587SQ20071009959
公開日2007年10月17日 申請日期2007年5月25日 優(yōu)先權(quán)日2007年5月25日
發(fā)明者岑榮偉, 劉奕群, 張敏, 金奕江, 馬少平 申請人:清華大學(xué)