两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

信息檢索方法和系統(tǒng)的制作方法

文檔序號:6461256閱讀:190來源:國知局
專利名稱:信息檢索方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及信息檢索,更具體地,涉及自適應(yīng)的個性化信息檢索。

背景技術(shù)
隨著因特網(wǎng)和大容量存儲設(shè)備等的迅速發(fā)展,世界進(jìn)入了信息過剩的時代。如何從海量的信息中獲取有用的信息,成為人們關(guān)心的問題。
目前,解決這一問題最常見的方法是搜索引擎。通過目前商用的以Google、百度為代表的搜索引擎,可以得到基本上令人滿意的搜索結(jié)果。
然而,與人們對于有效信息獲取的需求相比,目前的搜索引擎提供的結(jié)果還遠(yuǎn)遠(yuǎn)不能滿足要求。這首先體現(xiàn)在,現(xiàn)有的搜索引擎獲取用戶信息的手段比較單一,主要采用基于關(guān)鍵詞的布爾表達(dá)式作為輸入。因此,搜索引擎很難準(zhǔn)確理解隱含在這些關(guān)鍵詞之后的用戶真實信息需求。更重要的是,現(xiàn)有的搜索引擎采用與用戶無關(guān)的通用搜索算法,不論用戶是誰,不論用戶來自何方,只要輸入的查詢語句相同,返回的結(jié)果都是相同的。而事實上,用戶的需求非常個性化。例如一個旅游者和一個程序員在輸入“Java”時,前者想搜索與爪哇島相關(guān)的旅游資訊,而后者想要找與Java編程語言相關(guān)的信息。但目前常見的搜索引擎都對這種情況不加區(qū)分。因此,對于那些與用戶的個性化需求密切相關(guān)的信息需求,目前的搜索引擎就不太適用了。此外,對于用戶的某個長期感興趣的話題,如果要用搜索引擎來查找信息,那么就要反復(fù)地到搜索引擎上輸入相同的關(guān)鍵詞,然后每次都從大量的網(wǎng)頁中去查找其中新出現(xiàn)的相關(guān)信息,這顯然大大加重了用戶的使用負(fù)擔(dān)。此外,雖然用戶的個性化信息需求在一段時間內(nèi)是穩(wěn)定的,但長期來看,這種信息需求還是會有所改變的。顯然,采用上述方法無法捕捉這種變化。
自適應(yīng)的個性化信息檢索研究,目標(biāo)是滿足用戶個性化和持續(xù)關(guān)注型的信息需求。該項研究根據(jù)用戶的興趣和關(guān)注點的不同,通過對無關(guān)信息的過濾,向用戶提供最有價值的信息。它能夠滿足用戶的個性化信息需求,通過長期觀察用戶的搜索行為,從中識別用戶的信息需求偏好,并且能夠根據(jù)用戶對搜索結(jié)果的評價,自動調(diào)整搜索策略,使得對于同一檢索請求,不同用戶能夠得到最貼近自已需求的信息。
在目前個性化信息檢索的研究中,比較流行的上下文檢索,相對于傳統(tǒng)的信息檢索方法,能夠針對不同的用戶提供更加個性化的結(jié)果??傮w而言,這些方法的思想大多可以概括如下要求用戶輸入比關(guān)鍵詞更復(fù)雜的查詢語句,把每一個查詢輸入視為一個興趣,利用這些輸入構(gòu)造用戶興趣模型,基于查詢語句中的關(guān)鍵詞,使用傳統(tǒng)的信息檢索算法得到初始網(wǎng)頁列表,然后利用用戶興趣模型對此列表進(jìn)行過濾。如果用戶對結(jié)果進(jìn)行直接反饋,則根據(jù)這些反饋對用戶模興趣型進(jìn)行調(diào)整,并基于新的用戶興趣模型對網(wǎng)頁列表進(jìn)行過濾。
例如,在非專利文獻(xiàn)1中,采用經(jīng)典的向量空間模型來對上下文進(jìn)行建模,但這種方法基本上借用的都是文本信息,而其他非文本信息基本上無法納入這個框架。
在非專利文獻(xiàn)2中,將上下文檢索任務(wù)看作一個決策問題,把用戶查看的文檔、以往的查詢歷史等上下文信息與查詢和文檔綜合在一起來優(yōu)化對檢索結(jié)果的判定,但這項工作只考慮了幾種易于表示的特征,而且把這些特征在分類算法的框架里固定了下來,難以擴展,也沒有提及當(dāng)用戶興趣發(fā)生改變時如何捕捉這種變化。
在非專利文獻(xiàn)3中,則采用基于Ontology的方法,將用戶上下文表示成Ontology上的一個向量,并把上下文預(yù)測的結(jié)果與傳統(tǒng)的信息檢索算法所得的結(jié)果用一個線性函數(shù)組合起來,從而得到最終的個性化的結(jié)果,但Ontology的構(gòu)造需要較為專業(yè)的知識,而且還需要大量人力物力,即便如此,所能覆蓋的知識體系也是很有限的。
在專利文獻(xiàn)1中,提出了一種采用用戶模型根據(jù)與相應(yīng)用戶特征相關(guān)的信息來個性化一般查詢和/或搜索結(jié)果的系統(tǒng)和方法,該專利同樣列舉了目前可能與個性化檢索相關(guān)的特征,這些特征是預(yù)先劃定的一個范圍,而不是一個可以考慮任何特征的完全泛化的框架。
在專利文獻(xiàn)2中,提出了一種利用用戶概況排序搜索引擎返回的搜索結(jié)果中的放置內(nèi)容的系統(tǒng)和方法,但這種方法同樣設(shè)定了可能有作用的個性化特征的范圍,而且沒有使用機器學(xué)習(xí)方法來確定各種特征對最終結(jié)果的影響,此外,也沒有考慮用戶對結(jié)果的反饋的處理。
綜上,目前現(xiàn)有的個性化信息檢索技術(shù)存在以下不足之處 1.所利用的用戶信息本質(zhì)上都是內(nèi)容相關(guān)的,即所有的用戶特征最終都表現(xiàn)為文本特征。在考慮某些非文本特征時,現(xiàn)有方法也往往是按照一定的比例或系數(shù)將其映射為文本特征。這種做法主觀性較強,缺少理論基礎(chǔ)。
2.用戶興趣模型基于用戶先后輸入的查詢請求生成,這樣產(chǎn)生的各個興趣之間相互獨立,缺少關(guān)聯(lián),很難用一體化的模型來表示,而通常人們認(rèn)為,用戶的興趣是有一定關(guān)聯(lián)性和延續(xù)性的。
3.模型中的關(guān)鍵參數(shù)基本都是設(shè)計者根據(jù)經(jīng)驗設(shè)定,對于所有用戶都有效,存在很大的局限性,缺少理論基礎(chǔ)。
非專利文獻(xiàn)1Massimo Melucci,2005,Contextmodeling anddiscovery using vector space bases,Proceedings of the 14th Conference onInformation and Knowledge Management(CIKM),pages 808--815,Bremen,Germany,October 31-November 5,2005. 非專利文獻(xiàn)2Xuehua Shen,Bin Tan,Cheng Xiang Zhai,2005,UCAIRCapturing and Exploiting Context for Personalized Search,Proceedings of2005 ACM Conference on Research and Development on InformationRetrieval--Information Retrieval in Context Workshop(IRiX′2005) 非專利文獻(xiàn)3David Vallet,Miriam Fernández,Pablo Castells,PhivosMylonas,and Yannis Avrithis,2006,Personalized Information Retrieval inContext,21st National Conference on Artificial Intelligence-3rdInternational Workshop on Modeling and Retrieval of Context,Boston,USA,16-17 July 2006 專利文獻(xiàn)1中國專利申請公開CN1758248,申請人為微軟公司,名稱為“用于提供個性化搜索和信息訪問的系統(tǒng)、方法和接口” 專利文獻(xiàn)2中國專利申請公開CN101019118,申請人為谷歌公司,名稱為“搜索結(jié)果中放置內(nèi)容排序的個性化”

發(fā)明內(nèi)容
本發(fā)明的目的在于,克服現(xiàn)有搜索引擎不能滿足用戶個性化信息需求的缺陷,以及以往的個性化信息檢索方法存在的只適合使用文本特征,模型中用戶興趣正交化及參數(shù)的設(shè)置依賴于經(jīng)驗值的缺陷,從而為滿足用戶的長期關(guān)注型的個性化信息需求提供一種自適應(yīng)的一體化個性化信息檢索方法與框架。
在本發(fā)明中,從所有可能影響到用戶對檢索結(jié)果做出個性化決策的用戶上下文中選取多個因素,每一個因素視為一個特征,針對每個特征建立檢索模型,通過這多個檢索模型構(gòu)建用戶興趣模型。每個檢索模型根據(jù)用戶的檢索請求,從不同的角度進(jìn)行檢索。通過用戶興趣模型計算各個檢索模型所檢索到的信息與用戶的檢索請求之間的相關(guān)度,從而輸出最終的個性化檢索結(jié)果。
在本發(fā)明的一個方面,提供了一種信息檢索方法,根據(jù)用戶輸入的查詢請求從大量信息構(gòu)成的信息集合中搜索所希望的信息,該方法包括以下步驟確定影響用戶對信息與查詢請求間的相關(guān)性判斷的多個因素,作為個性化特征;對于各個個性化特征設(shè)定相關(guān)的權(quán)重,且分別基于各個所述個性化特征建立反映用戶的查詢請求與信息集合中的信息之間的相關(guān)性的檢索模型,通過所述的權(quán)重將所述檢索模型組合成用戶興趣模型;接受用戶的查詢請求,分別通過各個所述的檢索模型對所述信息集合進(jìn)行檢索,分別生成一個有序信息列表;通過所述的用戶興趣模型,計算每個所述檢索模型得到的有序信息列表中的每一條信息與所述查詢請求的相關(guān)度;根據(jù)所述用戶興趣模型輸出的相關(guān)度,輸出最終檢索結(jié)果。
根據(jù)本發(fā)明,基于用戶的個性化特征從不同的角度分別進(jìn)行檢索,并組合基于個性化特征得到的檢索結(jié)果而輸出最終檢索結(jié)果。由此,能夠得到與用戶相應(yīng)的個性化檢索結(jié)果。
在本發(fā)明中,所述的信息集合包括,但不限于,互聯(lián)網(wǎng)上的信息的集合、內(nèi)部網(wǎng)上的信息的集合、用戶的本地機器中存儲的信息的結(jié)合。
本發(fā)明的信息檢索方法可以進(jìn)一步包括以下步驟步驟2.1把所述權(quán)重設(shè)定為預(yù)定的值;步驟2.2對于用戶提交的多個查詢請求,得到多個所述的最終檢索結(jié)果;步驟2.3記錄用戶對于這多個最終檢索結(jié)果的反饋,構(gòu)造由正確匹配的信息構(gòu)成的訓(xùn)練集;步驟2.4基于所述訓(xùn)練集,通過機器學(xué)習(xí)確定所述的權(quán)重。
所述正確匹配的信息可以是通過用戶的顯式或隱式評價而確定為與檢索請求匹配的信息。顯式評價例如可以是用戶直接給出的“相關(guān)”或“不相關(guān)”的評價,而隱式評價例如可以是通過記錄用戶對檢索結(jié)果進(jìn)行的操作而得到的評價。
由此,無需對用戶興趣模型進(jìn)行人工調(diào)節(jié),只需通過用戶日常的檢索操作,即可自動地對用戶興趣模型進(jìn)行訓(xùn)練,使得檢索結(jié)果最終貼近用戶的真正需求。
本發(fā)明的信息檢索方法可以進(jìn)一步包括以下步驟根據(jù)預(yù)定的條件,反復(fù)地執(zhí)行所述步驟2.2至步驟2.4,從而更新所述的權(quán)重。
由此,能夠自動更新用戶興趣模型,追隨用戶的興趣漂移,使得檢索結(jié)果能夠適應(yīng)用戶的興趣變化。
本發(fā)明的信息檢索方法還可以進(jìn)一步包括以下步驟檢測用戶的個性化特征的改變或接受用戶對個性化特征的修改;接收用戶對所述最終檢索結(jié)果的反饋,構(gòu)造由正確匹配的信息構(gòu)成的訓(xùn)練集;計算所述最終檢索結(jié)果與所述訓(xùn)練集之間的差異,調(diào)整所述權(quán)重,使得所述最終檢索結(jié)果與所述訓(xùn)練集之間的差異最小。
由此,在用戶的個人特征發(fā)生改變的情況下,能夠適應(yīng)這個改變,使檢索結(jié)果保持與用戶的預(yù)期一致。
根據(jù)本發(fā)明,可以針對不同的用戶分別建立用戶興趣模型。
在本發(fā)明的另一個方面,提供了一種信息檢索系統(tǒng),其根據(jù)用戶輸入的查詢請求從大量信息構(gòu)成的信息集合中搜索所希望的信息,該系統(tǒng)包括輸入單元,其輸入用戶的查詢請求;多個檢索單元,該多個檢索單元分別針對預(yù)先確定的影響用戶對信息與查詢請求相關(guān)性判斷的多個個性化特征,根據(jù)不同的準(zhǔn)則計算所述查詢請求與信息集合中的信息之間的相關(guān)度,根據(jù)所計算的相關(guān)度輸出一個有序信息列表;用戶興趣單元,其通過規(guī)定的權(quán)重組合所述多個個性化特征,計算每個所述檢索單元得到的有序信息列表中的每一條信息與所述查詢請求的相關(guān)度;輸出單元,其根據(jù)所述用戶興趣單元計算的相關(guān)度,輸出最終的檢索結(jié)果。
本發(fā)明的信息檢索系統(tǒng)可以進(jìn)一步包括訓(xùn)練集構(gòu)建單元,其對于用戶提交的多個查詢請求,得到多個所述的最終檢索結(jié)果,并記錄用戶對于這多個最終檢索結(jié)果的反饋,構(gòu)造由正確匹配的信息構(gòu)成的訓(xùn)練集;訓(xùn)練單元,其基于所述訓(xùn)練集,通過機器學(xué)習(xí)確定所述的權(quán)重。
本發(fā)明的信息檢索系統(tǒng)可以根據(jù)預(yù)定的條件,反復(fù)地通過所述訓(xùn)練集構(gòu)建單元和所述訓(xùn)練單元更新所述的權(quán)重。
在本發(fā)明的信息檢索系統(tǒng)中,可以在檢測到用戶個性化特征的改變或接收到用戶對于個性化特征的修改時,所述訓(xùn)練集構(gòu)建單元接收用戶對所述最終檢索結(jié)果的反饋,構(gòu)造由正確匹配的信息構(gòu)成的訓(xùn)練集;所述訓(xùn)練單元計算所述最終檢索結(jié)果與所述訓(xùn)練集之間的差異,調(diào)整所述權(quán)重,使得所述最終檢索結(jié)果與所述訓(xùn)練集之間的差異最小。
根據(jù)本發(fā)明的信息檢索系統(tǒng),可以得到與上述本發(fā)明的信息檢索方法同樣的優(yōu)點。



所包含的附圖用于提供對本發(fā)明的進(jìn)一步理解,其被并入說明書并構(gòu)成其一部分,

了本發(fā)明的實施例,并與說明書一起用于解釋本發(fā)明的原理。其中 圖1示出了本發(fā)明的實施例1的信息檢索系統(tǒng)的示意性功能框圖; 圖2示出了實施例1的信息檢索系統(tǒng)所進(jìn)行的檢索處理的概略流程圖; 圖3示出了本發(fā)明的實施例2的信息檢索系統(tǒng)的示意性功能框圖; 圖4示出了實施例2中的訓(xùn)練單元執(zhí)行的訓(xùn)練處理的概略流程圖; 圖5示出了實施例2的訓(xùn)練單元在用戶的個性化特征發(fā)生改變時執(zhí)行的重訓(xùn)練處理的概略流程圖。

具體實施例方式 下面以互聯(lián)網(wǎng)上的網(wǎng)頁信息檢索為例,對本發(fā)明的信息檢索系統(tǒng)和信息檢索方法的實施例進(jìn)行詳細(xì)說明。
實施例1
圖1示出了本實施例的信息檢索系統(tǒng)的示意框圖,圖2示出了本實施例的信息檢索系統(tǒng)所進(jìn)行的檢索處理的概略流程。
如圖1所示,本實施例的信息檢索系統(tǒng)包括索引建立單元10,輸入單元20,4個檢索單元30-1~30-4,用戶興趣單元40,以及輸出單元50。
索引建立單元10執(zhí)行網(wǎng)頁采集和數(shù)據(jù)標(biāo)引。具體而言,索引建立單元10通過網(wǎng)頁采集器(例如,可以使用開源的網(wǎng)頁采集器larbin),按順序?qū)ヂ?lián)網(wǎng)上的指定地址或全部地址的網(wǎng)頁進(jìn)行采集,按照網(wǎng)頁結(jié)構(gòu)存儲所采集的頁面,同時生成日志文件。在日志文件中存儲每個網(wǎng)頁的采集時間、URL、文件大小等信息。關(guān)于網(wǎng)頁采集器沒有任何限制,只要能夠?qū)χ付ㄕ军c或整個互聯(lián)網(wǎng)進(jìn)行網(wǎng)頁采集即可。
在進(jìn)行了網(wǎng)頁采集之后,進(jìn)行數(shù)據(jù)標(biāo)引。在此,可以按照如下步驟進(jìn)行數(shù)據(jù)標(biāo)引(1)網(wǎng)頁預(yù)處理,把網(wǎng)頁轉(zhuǎn)換成統(tǒng)一編碼(例如Unicode)、統(tǒng)一格式(例如XML)的文件,并提取網(wǎng)頁的標(biāo)題和時間;(2)對于中文網(wǎng)頁,通過詞法分析工具(例如中國科學(xué)院計算機技術(shù)研究所開發(fā)的詞法分析系統(tǒng)ICTCLAS)進(jìn)行分詞,對于英文網(wǎng)頁,則進(jìn)行詞根還原(例如,可以利用開源工具snowball);(3)將經(jīng)過以上處理的結(jié)果存儲為XML文件;(4)對所得到的XML文件建立索引(例如,可以利用開源工具Lemur),得到索引庫。另外,索引建立單元10可以定期地、或者根據(jù)預(yù)定的條件重新建立索引庫或者對索引庫進(jìn)行更新。
用戶通過輸入單元20輸入檢索請求(query),所輸入的檢索請求同時傳送至檢索單元30-1~30-4。各個檢索單元的輸出連接至用戶興趣單元40。另外,如本實施例的情況那樣,若檢索單元30-1~30-4之間存在依賴關(guān)系,即某個檢索單元除了需要輸入檢索請求之外,還需要以其他檢索單元的輸出結(jié)果作為輸入,則該檢索單元還輸入其他檢索單元的輸出結(jié)果。輸入單元20是用戶與本實施例的信息檢索系統(tǒng)之間的接口,例如,可以由鼠標(biāo)、鍵盤、觸摸屏等實現(xiàn)。所述的檢索請求是指用戶通過輸入單元20輸入的對信息需求的描述,包括但不限于以下方面以關(guān)鍵詞、語句描述和示例文本等方式輸入的對目標(biāo)網(wǎng)頁的內(nèi)容描述,以時間區(qū)間方式輸入的對目標(biāo)網(wǎng)頁的時間描述。
檢索單元30-1~30-4是分別基于不同的用戶個性化特征而建立的。在此,個性化特征是指任何可能影響用戶對網(wǎng)頁與查詢請求之間相關(guān)性判斷的因素,這種個性化特征與用戶相關(guān),但是對用戶而言是透明的。這里,“透明”是指這種個性化特征只在系統(tǒng)內(nèi)部存在,對用戶是不可見的,即用戶意識不到它的存在。例如,如果用戶喜歡看最近的信息,那么他在檢索時會傾向于選擇距當(dāng)前時間較近的文本,但用戶自己可能并未意識到這一點,而在系統(tǒng)中用于表示“新穎性”的個性化特征就會把更新的文本排在前面,“新穎性”特征對用戶而言就是透明的。
具體而言,在檢索單元30-1~30-4中,分別基于不同的個性化特征建立了檢索模型。檢索模型是指把用戶的查詢請求與網(wǎng)頁集合中的網(wǎng)頁之間的相關(guān)性映射到
區(qū)間一個實數(shù)值的函數(shù),如下式所示 Ffi(fi(q),fi(dk))=α α∈
其中,q是用戶的查詢請求,dk是網(wǎng)頁集中的第k個網(wǎng)頁,F(xiàn)fi是對應(yīng)于第i個個性化特征的檢索函數(shù),fi(q)是對應(yīng)于第i個特征的用戶查詢的形式化表示函數(shù),fi(dk)是對應(yīng)于第i個特征的文檔dk的形式化表示函數(shù)。例如,如果第i個特征是基于命名實體的特征,即該特征特別關(guān)注人名、地名、機構(gòu)名、品牌、產(chǎn)品型號等,那么fi(q)與fi(dk)就要分別把用戶查詢q和文檔dk中表示命名實體的詞抽取出來表示成一個向量。α是
區(qū)間上的一個實數(shù),這個值用于表示用戶查詢q和文檔dk的相關(guān)性的高低,α越高表示越相關(guān),否則表示越不相關(guān)。
這些檢索模型根據(jù)不同的準(zhǔn)則計算用戶輸入的查詢請求與索引庫中的網(wǎng)頁之間的相關(guān)度,按照所計算的相關(guān)度的大小順序輸出一個有序網(wǎng)頁列表。
在用戶興趣單元40中,通過對上述的多個檢索模型進(jìn)行組合而構(gòu)建了用戶興趣模型。用戶興趣單元40遍歷檢索單元30-1~30-4輸出的有序網(wǎng)頁列表中的每一個網(wǎng)頁,通過用戶興趣模型計算其與用戶的檢索請求之間的相關(guān)度。按照相關(guān)度的大小順序,輸出最終的檢索結(jié)果(有序網(wǎng)頁列表)。通過輸出單元50,將該作為最終檢索結(jié)果的有序網(wǎng)頁列表呈現(xiàn)給用戶。
下面對檢索單元30-1~30-4進(jìn)行詳細(xì)的說明。
在進(jìn)行詳細(xì)說明之前,先闡述對用戶的檢索相關(guān)性判斷產(chǎn)生影響的因素。這些因素包括用戶自身的屬性,以及用戶所處周邊環(huán)境的屬性。這些都可能會對用戶對當(dāng)前檢索結(jié)果正確性的判斷產(chǎn)生直接或間接的影響。其中用戶自身的屬性包括用戶的年齡、性別、所從事的職業(yè)、當(dāng)前的工作任務(wù)、信仰等,用戶周邊環(huán)境的屬性包括用戶所在國家的文化、當(dāng)前的經(jīng)濟環(huán)境、當(dāng)前的社會熱點話題等。其中很多因素對用戶檢索的行為沒有影響,有些則有著直接或間接的影響,我們可以把這些因素看作隱藏在用戶背后以某種方式對檢索結(jié)果產(chǎn)生影響的隱含變量。
很多影響用戶判斷檢索結(jié)果的因素是難以直接衡量的,但可以通過其他方式間接獲得。例如,很難直接獲得用戶所處的文化環(huán)境,但可以通過跟蹤用戶的查詢歷史來間接猜測。又例如用戶的職業(yè),由于在真實使用環(huán)境中,用戶通常不愿提供詳細(xì)個人信息,而且職業(yè)的種類千差萬別,變化也很頻繁,很難對職業(yè)建立一個可計算的模型,但用戶在進(jìn)行檢索時,職業(yè)因素可能會作為一種隱含的背景對用戶最終的判斷產(chǎn)生影響,因此可以尋找一些比較容易實現(xiàn)的特征,例如很多時候由于職業(yè)關(guān)系,用戶常常特別關(guān)注文本中的命名實體信息,例如影評人特別留意文章中的電影名稱、演員名等,因此可以假定命名實體與職業(yè)特征有間接的聯(lián)系,由于命名實體的提取相對而言較為容易,可以給其賦予一個權(quán)重來間接表示職業(yè)對最終結(jié)果的影響。
如上,考慮到可能會對用戶的相關(guān)性判斷產(chǎn)生影響的因素,在本實施例中,設(shè)置了4個檢索單元30-1~30-4。這4個檢索單元分別地對索引庫進(jìn)行檢索。
(1)檢索單元30-1 檢索單元30-1完全基于查詢語句和網(wǎng)頁的純文本特征進(jìn)行檢索。即,在檢索單元30-1中只對用戶輸入的查詢語句和網(wǎng)頁建模,并計算兩者的相關(guān)性,不考慮其他因素。
在本實施例中,檢索單元30-1中的檢索模型是基于KL距離的一元語言模型。這里,KL距離(Kullback-Leibler divergence)是衡量兩個隨機分布之間差異程度的一種方法。具體來說,假設(shè)用戶輸入的查詢q的分布函數(shù)為p(q),而文本集合中某個文本d的分布函數(shù)為p(d),兩者之間的KL距離用D(p(q)‖p(d))來表示,則。KL距離值越大,表明兩者分布越不相似。
在檢索單元30-1的檢索模型中,根據(jù)網(wǎng)頁語言模型與查詢語言模型之間的KL距離對網(wǎng)頁進(jìn)行排序。
令θQ表示查詢Q的語言模型,θD表示網(wǎng)頁D的語言模型,網(wǎng)頁按照-D(θQ‖θD)從大到小的順序排列,其中 假定p(w|θD)具有如下形式 同時假定 則由此可以推出網(wǎng)頁按照下面的公式來排序 其中的αD是網(wǎng)頁相關(guān)常數(shù),即對Q中那些沒有出現(xiàn)在D中的詞分配一個概率。
具體的做法是 給定一個查詢Q=(q1,q2...,qN)和一個網(wǎng)頁D=(d1,d2...,dN),其中q1,……,qN和d1,……,dN都是查詢詞,則相關(guān)度分值score為 score(Q,D)=g(w(q1,d1,Q,D)+...+w(qN,dN,Q,D),Q,D) 即,一個網(wǎng)頁相對于一個查詢的分值,是所有相匹配的查詢詞的權(quán)重的和函數(shù),將這個函數(shù)表示為g,則最終的分值取決于函數(shù)g與函數(shù)w。其中函數(shù)w給出了匹配的查詢詞相對于網(wǎng)頁的一個權(quán)重,函數(shù)g的作用在于,在求得所有匹配查詢詞的權(quán)重的和之后,可以在利用查詢和網(wǎng)頁的某些總體信息,來對這個原始分值作某些轉(zhuǎn)換,最終得到更為合理的分值。
之后,依據(jù)negative KL-divergence調(diào)整策略對這一結(jié)果進(jìn)行調(diào)整,它的計算過程為 首先計算該查詢與整個網(wǎng)頁集合的KL距離。令表示某個項ti在查詢query中的先驗概率,其中N為整個query中的項數(shù),freqti為query中ti的出現(xiàn)次數(shù);Pr(ti|C)表示ti在整個集合中的出現(xiàn)的先驗概率,則該query與集合的KL距離為 則最終的相關(guān)度分值score1為 其中score1(Q,D)是查詢Q和某個文檔D在檢索單元30-1中的最終相關(guān)度分值,score(Q,D)是前述的相關(guān)度分值,NQ是查詢Q中的查詢詞的數(shù)目,unseenCoeff(D)是為查詢Q中沒有出現(xiàn)在文檔D中的詞分配的一個系數(shù)。
由于數(shù)據(jù)稀疏問題,在計算score1(Q,D)時采用Dirichlet插值法對結(jié)果進(jìn)行平滑。
由此,按照相關(guān)度分值score1的從大到小的順序,向用戶興趣單元40輸出一個有序網(wǎng)頁列表以及與該列表中各個網(wǎng)頁相關(guān)聯(lián)的相關(guān)度值。此外,還將該有序網(wǎng)頁列表以及與該列表中各個網(wǎng)頁相關(guān)聯(lián)的相關(guān)度值輸出給檢索單元30-2和30-3。
(2)檢索單元30-2 檢索單元30-2在純文本特征的基礎(chǔ)上考慮時間因素?;谌藗儾殚喚W(wǎng)頁的一般心理,假定日期越新的網(wǎng)頁,其相關(guān)性越強,即在內(nèi)容相似的網(wǎng)頁中,距離用戶查看日期越近就越相關(guān)。顯然,在對網(wǎng)頁結(jié)果進(jìn)行排序時只考慮時間因素是不合理的,應(yīng)該把內(nèi)容和時間綜合考慮。
檢索單元30-2提取檢索單元30-1輸出的有序網(wǎng)頁列表,對于其中的每個網(wǎng)頁設(shè)定一個時間戳(網(wǎng)頁自身的時間或者采集時間)。時間戳是一個很大的整數(shù),為便于計算,將其進(jìn)行歸一化。然后如下式所示,與檢索單元30-1得到的相關(guān)度分值集成在一起,得到本特征下的查詢Q與網(wǎng)頁D之間的相關(guān)度分值score2 其中,score2(Q,D)是檢索單元30-2輸出的查詢Q與網(wǎng)頁D之間的相關(guān)度分值,timestamp(D)是網(wǎng)頁D的時間戳,current_time是當(dāng)前時間,而score1(Q,d)是檢索單元30-1輸出的查詢Q與網(wǎng)頁D之間的相關(guān)度分值。
然后把所得結(jié)果按照score2從大到小排列,按照score2的從大到小的順序,向用戶興趣單元40輸出一個有序網(wǎng)頁列表以及與該列表中每個網(wǎng)頁相關(guān)聯(lián)的相關(guān)度值。
(3)檢索單元30-3 檢索單元30-3利用命名實體識別獲得的信息,采用基于向量空間模型的方法,結(jié)合查詢,對原始的網(wǎng)頁序列中每個網(wǎng)頁的次序進(jìn)行適量調(diào)整。
在本實施例中,將可能的命名實體短語分為品牌類(BRA)、型號類(TYP)、和其他類(OTH)三部分,分別表示為三個向量VBRA、VTYP和VOTH。具體而言,在檢索單元30-3中,對于任意一個文本d,首先通過命名實體識別工具識別出三種類型的命名實體,包括品牌名稱,如長虹、諾基亞,型號名稱,如凱越、捷達(dá),以及其他類型的名稱,如人名、地名等。然后把每一類命名實體都分別表示成一個向量T={(w1,a1),...(wN,aN)},其中(w1,a1)是向量T中的各維,wi是具體的詞,如果i≠j,則wi≠wj,ai是wi的權(quán)重,可以用TF-IDF公式計算得到,即ai=tf(wi)/df(wi),其中tf(wi)表示wi在某一個文本d中出現(xiàn)的次數(shù),而df(wi)表示在整個文本集合中包含wi的文本的數(shù)量。然后分別計算三個向量VBRA、VTYP和VOTH與查詢向量VQ的相似度sim(Q,D) sim(Q,D)=αcos(VQ,VBRA)+βcos(VQ,VTYP)+γcos(VQ,VOTH) 其中α,β,γ是預(yù)設(shè)的常系數(shù),cos是三角余弦函數(shù),用于表示兩個向量之間的夾角。例如,對于任意兩個向量



,其中

是矩陣乘法,

表示向量

的長度,如果則



必須維數(shù)相同,如果不一樣,則用0把較短的向量補齊。
之后,按照下式通過sim(Q,D)對檢索單元30-1得到的相關(guān)度分值score1進(jìn)行調(diào)整,得到檢索單元30-3的查詢Q與網(wǎng)頁D間的相關(guān)度分值score3(Q,D) score3(Q,D)=scorel(Q,D)·(1+Δ·sim(Q,D)) 其中,Δ為調(diào)整系數(shù),即允許調(diào)整的最大幅度。
由此,按照score3的從大到小的順序,向用戶興趣單元40輸出一個有序網(wǎng)頁列表以及與該列表中每個網(wǎng)頁相關(guān)聯(lián)的相關(guān)度值。
(4)檢索單元30-4 檢索單元30-4考慮局部擴展的特征。在此,擴展是指基于自然語言理解技術(shù)對用戶輸入的查詢進(jìn)行替換或擴充。例如,當(dāng)用戶輸入的查詢是“電腦”時,系統(tǒng)通過對語料的預(yù)先處理,把與“電腦”相關(guān)的詞、如“計算機”、“PC”、“CPU”等,都添加到查詢中。因為雖然有些文本中沒有出現(xiàn)“電腦”,但包含了“計算機”、“CPU”、“內(nèi)存”等詞,同樣可以認(rèn)為這個文本與用戶的查詢相關(guān)度很高。
為了體現(xiàn)用戶的個性化需求,應(yīng)該針對每一個用戶分別進(jìn)行查詢擴展。如果某個用戶定制了若干興趣,這些興趣包含一些網(wǎng)頁集合,那么系統(tǒng)就可以在這些網(wǎng)頁上進(jìn)行查詢詞的擴展訓(xùn)練。因為訓(xùn)練數(shù)據(jù)集是每個用戶依據(jù)興趣挑選出來的網(wǎng)頁,因此擴展是局部的。
在進(jìn)行訓(xùn)練時,統(tǒng)計兩個詞wi,wj之間的共現(xiàn)概率 P(wi,wj)=Count(wi,wj)/Count(wi) 其中,P(wi,wj)是詞wi與wj的共現(xiàn)概率,即wi與wj在某一特定范圍內(nèi)(如相鄰位置、句子或篇章)的條件概率。Count(wi,wj)是wi,wj在訓(xùn)練數(shù)據(jù)集的各個網(wǎng)頁范圍內(nèi)共現(xiàn)的次數(shù),Count(wi)是wi在訓(xùn)練數(shù)據(jù)集上出現(xiàn)的總次數(shù)。由于 P(wj,wi)=Count(wj,wi)/Count(wj), 因此P(wi,wj)≠P(wj,wi)。
對于某個詞wi,如果P(wi,wj)≥閾值,則把wj添加到wi的擴展詞表中。
在進(jìn)行統(tǒng)計時,需要按照以下規(guī)則進(jìn)行過濾 a)如果詞w出現(xiàn)在停用詞表中,則濾掉; b)如果P(wi,wj)<閾值,則濾掉。
利用以上所得的局部擴展矩陣,對用戶輸入的查詢語句進(jìn)行擴展。把擴展結(jié)果和用戶輸入的原始查詢合并組成新的查詢語句,然后用語言模型進(jìn)行檢索,得到檢索單元30-4中查詢Q與網(wǎng)頁D間的相關(guān)度分值score4(Q,D) 其中Q’是通過對原始的查詢Q進(jìn)行查詢擴展之后得到的一個新的查詢。
最后,按照相關(guān)度score4從大到小的順序,向用戶興趣單元40輸出一個有序網(wǎng)頁列表以及與該列表中每個網(wǎng)頁相關(guān)聯(lián)的相關(guān)度值。
下面對用戶興趣單元40進(jìn)行詳細(xì)說明。
用戶興趣單元40對檢索單元30-1~30-4的檢索結(jié)果進(jìn)行組合而得到最終的檢索結(jié)果。具體而言,在本實施例中,對每個個性化特征(也即每個檢索單元)賦予一個權(quán)重,通過式1所示的對數(shù)線性(loglinear)函數(shù)而構(gòu)建用戶興趣模型,通過該用戶興趣模型來計算檢索單元30-1~4輸出的網(wǎng)頁列表中的每個網(wǎng)頁與用戶查詢語句之間存在相關(guān)性的概率。
其中hi(R,Q,D)=scorei,其中i=1,2,3,4. 其中,權(quán)重是一組實數(shù)值,對應(yīng)于每一個特征有一個權(quán)重,該權(quán)重用以表示對應(yīng)的特征在判斷網(wǎng)頁與查詢相關(guān)性時所起的作用大小。在本實施例中,各個權(quán)重是預(yù)先確定的值。例如,可以由用戶根據(jù)需要設(shè)定,或者可以在系統(tǒng)設(shè)置時設(shè)定。作為一個特例,在基于內(nèi)容(即檢索單元30-1)的特征權(quán)重為1,其他特征為0的情況下,本實施例的信息檢索系統(tǒng)與現(xiàn)有的僅基于文本內(nèi)容進(jìn)行檢索的檢索系統(tǒng)等同。
Q是用戶查詢請求,D是網(wǎng)頁,hi(R,Q,D)是特征值,λi是特征權(quán)重,N是總的特征個數(shù),在本實施例中為4,R’是Q與D相關(guān)性的所有可能取值,這里定義R’的值域為{‘相關(guān)’,‘不相關(guān)’}。由于大部分檢索函數(shù)均以有序信息列表的形式生成結(jié)果,理論上任何網(wǎng)頁都以一定概率或相關(guān)性與用戶查詢請求相關(guān),因此這里定義在有序信息列表中的位置在第M個之前的結(jié)果為相關(guān)結(jié)果,M為預(yù)設(shè)值。一般地,搜索引擎的結(jié)果按多頁組織,每頁10個網(wǎng)頁,用戶通常只查看前2頁結(jié)果,為保證覆蓋面,M一般取50。
用戶興趣單元40遍歷檢索單元30-1~30-4所得到的4個有序網(wǎng)頁列表中的每一個網(wǎng)頁,將其代入式(1),計算P(R|Q,D)的值,按照P(R|Q,D)從大到小的排序,P(R|Q,D)≤0.5則認(rèn)為不相關(guān),從結(jié)果中過濾掉。最后,生成最終的有序結(jié)果列表,通過輸出單元50呈現(xiàn)給用戶。
作為向用戶輸出的檢索結(jié)果,例如,每一項可以包括網(wǎng)頁的標(biāo)題、摘要、URL、P(R|Q,D)值,“相關(guān)”和“不相關(guān)”鏈接。
根據(jù)本發(fā)明的上述實施例,可以實現(xiàn)以下優(yōu)點 可以實現(xiàn)非常靈活的個性化檢索框架,在這個框架中,每一個影響用戶對結(jié)果進(jìn)行判斷的上下文特征,都可以作為一個特征添加進(jìn)來。理論上,只要為這個特征設(shè)計一個合理的檢索方法和過程,就可以把這個特征融入當(dāng)前的用戶興趣模型中,從而為用戶以后定制的興趣提供更加準(zhǔn)確合理的結(jié)果; 突破了原有的圍繞文本特征來判斷用戶查詢請求與網(wǎng)頁之間相關(guān)性的窠臼,其他特征對結(jié)果的作用可以不借助文本特征直接得以體現(xiàn)。
實施例2
實施例2的信息檢索系統(tǒng)的結(jié)構(gòu)與上述的實施例1大致相同,不同之處在于,在上述實施例1中,各個個性化特征的權(quán)重是固定的,而在實施例2中,通過機器學(xué)習(xí)而自動地對用戶興趣模型進(jìn)行訓(xùn)練、確定各個權(quán)重,并且在使用中可以根據(jù)情況再次對用戶興趣模型進(jìn)行訓(xùn)練,更改各個權(quán)重的值。在以下的說明中,重點對實施例2與實施例1間的不同之處進(jìn)行說明,而省略相同之處的重復(fù)說明。并且,對于與實施例1中系統(tǒng)或相應(yīng)的要素,在附圖中賦予相同的標(biāo)號。
圖3示出了本發(fā)明的實施例2的信息檢索系統(tǒng)的示意框圖。與上述實施例1一樣,本實施例的信息檢索系統(tǒng)包括索引建立單元10,輸入單元20,4個檢索單元30-1~30-4,用戶興趣單元40,以及輸出單元50。此外,本實施例的信息檢索系統(tǒng)還包括訓(xùn)練集構(gòu)建單元60和訓(xùn)練單元70。下面即主要對訓(xùn)練集構(gòu)建單元60和訓(xùn)練單元70進(jìn)行說明。
訓(xùn)練集構(gòu)建單元60的作用是通過用戶對輸出單元50所輸出的檢索結(jié)構(gòu)的反饋而構(gòu)建用于用戶興趣模型的訓(xùn)練的訓(xùn)練集。所述的訓(xùn)練集是一個數(shù)據(jù)庫表,該表結(jié)構(gòu)描述如下 1.每一個記錄對應(yīng)于一個用戶查詢請求,以該請求的ID作為主鍵; 2.每一個記錄包含一個“系統(tǒng)結(jié)果”域,存放基于個性化檢索模型生成的有序列表; 3.每一個記錄包含N個“特征結(jié)果”域,存放特征函數(shù)i(i=1,...,N)生成的有序列表; 4.每一個記錄包含一個“用戶反饋”域,存放通過用戶反饋得到的正確答案。
所述的用戶反饋是用戶對檢索結(jié)果的顯式或隱式評價。為了獲得用戶對結(jié)果的顯式評價,例如可以在每個網(wǎng)頁之后都添加一組評價鏈接,包括“相關(guān)”、“不相關(guān)”兩項,但顯式評價增加了用戶使用負(fù)擔(dān)。為了在不增加用戶負(fù)擔(dān)的同時獲得用戶評價,這里考慮以下用戶行為為隱式反饋 對于用戶U的查詢請求Q,按照如下方法構(gòu)造答案集A(Q,U) 1.出現(xiàn)在檢索結(jié)果中的每一個網(wǎng)頁,都帶有兩個評價鏈接“相關(guān)”、 “不相關(guān)”,如果用戶點擊“相關(guān)”鏈接,則將此網(wǎng)頁放入答案集; 2.用戶直接評價的網(wǎng)頁按照評價的先后次序放到答案集中最前面的位置; 3.對于檢索結(jié)果中的每個網(wǎng)頁,如果用戶點擊查看此網(wǎng)頁,則將其放入答案集; 4.如果用戶先點擊查看了網(wǎng)頁a,后查看了網(wǎng)頁b,則a在答案集中的位置在b之前; 5.如果用戶多次查看了網(wǎng)頁a,則第i次查看,a在答案集中的位置都會前進(jìn)i位。
通過用戶反饋得到的有序列表即作為正確答案。
在訓(xùn)練集構(gòu)建單元60構(gòu)建了訓(xùn)練集之后,訓(xùn)練單元70即可進(jìn)行用戶興趣模型的訓(xùn)練。
在本實施例中,采用判別式機器學(xué)習(xí)算法進(jìn)行用戶興趣模型的訓(xùn)練。以用戶興趣模型的初始訓(xùn)練為例,定義A是一組特征權(quán)重,A=(a1,a2,...aN),ai是特征fi的權(quán)重,i=1,...,N。定義目標(biāo)優(yōu)化函數(shù)M(p(R|Q,D))是基于P@N指標(biāo)的函數(shù),概括地說,就是對于特征i,計算特征函數(shù)的有序列表中前N個網(wǎng)頁與正確答案中這些網(wǎng)頁位置的差值,差值越小表明結(jié)果越接近正確答案。基于最大熵的機器學(xué)習(xí)過程采用IIS算法,從特征權(quán)重的預(yù)設(shè)值開始,通過多次迭代找到使M(p(R|Q,D))最小的一組A,并將這組權(quán)重作為用戶興趣模型中各個特征的權(quán)重。
具體而言,設(shè)定初始條件f1,f2,f3,f4是檢索單元30-1~30-4對應(yīng)的4個個性化特征,a1,a2,a3,a4分別是f1,f2,f3,f4的權(quán)重,初始值均設(shè)為0,目標(biāo)函數(shù)是M(p(R|Q,D)),訓(xùn)練的目標(biāo)是找到這樣一組a1,a2,a3,a4,使得對于某個特定的測試數(shù)據(jù),M(p(R|Q,D))最小。M(p(R|Q,D))的選擇可以根據(jù)實際應(yīng)用而定,這里將其定義為一個基于P@N的函數(shù),也就是說,對于某個查詢Q,用戶通過直接或間接的方式確定了一組有序網(wǎng)頁列表L=(p1,p2,...,pM)作為用戶認(rèn)可的最終檢索結(jié)果,而系統(tǒng)基于特征fi(1≤i≤4)得到的一組有序網(wǎng)頁列表L’=(p’1,p’2,...,P’M)作為對應(yīng)于特征fi的檢索結(jié)果,由于L是多個特征的結(jié)果最后綜合的結(jié)果,與L’可能不同,這就涉及到對(p1,p2,...,PM)的調(diào)序操作,那么對于某個網(wǎng)頁pj∈L(1≤j≤M),表示它在L中是第j個結(jié)果,它在L’中的位置是k,如果j≠k,則它在特征fi的結(jié)果結(jié)果和最終的檢索結(jié)果之間就存在位置差,這個位置差用PDi(pk)表示,可定義PDi(pk)=|j-k|,|j-k|表示j-k的絕對值??紤]到用戶通常只關(guān)心總的結(jié)果中前N個結(jié)果,如果分頁顯示,通常用戶只關(guān)心前1~2頁結(jié)果,則可只比較各個結(jié)果列表中的前N個結(jié)果。如果pk在列表L’中不存在,則取j=N+1。總的目標(biāo)函數(shù)就是 基于以上條件,訓(xùn)練處理的具體步驟可描述如下 1.分別用30-1~30-4四個檢索單元生成四組檢索文檔列表; 2.通過收集用戶的顯式或隱式反饋得到最終檢索結(jié)果列表; 3.對于最終檢索結(jié)果列表中的前N個文檔,分別依次計算每一個文檔與四組檢索文檔列表的位置差,最后得到一個4×N的矩陣,每一行代表一個文檔,第i列代表該文檔在最終檢索結(jié)果與特征i的位置差; 4.利用最大熵的IIS算法計算得到a1,a2,a3,a4的值。這里,關(guān)于IIS算法,可以參考Della Pietra el a1,1997,Inducing Features of RandomFields,PAMI(19),No.4,April 1997,pp.380-393. 5.通過個性化特征f1,f2,f3,f4及其權(quán)重a1,a2,a3,a4構(gòu)成用戶興趣模型。
從一個較長時期來看,用戶的興趣往往會發(fā)生變化,即使輸入相同的查詢請求,用戶期望得到的檢索結(jié)果可能也會不同,這就是“興趣漂移”現(xiàn)象。為了應(yīng)對這種現(xiàn)象,在本實施例中,從上一次訓(xùn)練完成之后,當(dāng)前用戶新增提交查詢請求數(shù)>P,而且這些對應(yīng)查詢請求的用戶反饋網(wǎng)頁數(shù)>Q時,再次進(jìn)行訓(xùn)練。在此,例如可以設(shè)為P=10,Q=100。
在進(jìn)行重訓(xùn)練時,可以采用與前述相同的算法,但當(dāng)特征數(shù)量很大時,運算效率不高,為了節(jié)約系統(tǒng)資源,可以基于現(xiàn)有的系統(tǒng)參數(shù),采用不同的機器學(xué)習(xí)方法,如基于感知機的機器學(xué)習(xí)算法。
另外,如果用戶上下文特征發(fā)生了變化,那么就需要調(diào)整以上用戶個性化模型以反映這種變化,從而使得系統(tǒng)得到的結(jié)果更準(zhǔn)確地反映用戶當(dāng)前的信息需求。例如,如果“職業(yè)”是一個用戶特征,那么修改職業(yè)就會對特征的權(quán)重產(chǎn)生影響。為了降低參數(shù)調(diào)整的復(fù)雜度,可以采用基于感知機的算法來重新訓(xùn)練用戶興趣模型的參數(shù)。圖5示出了在本實施例中采用基于感知機的算法來重新訓(xùn)練用戶興趣模型的示意流程圖。
具體計算按照如下步驟進(jìn)行 輸入訓(xùn)練樣本,{(di,dj)q;di,dj∈C,q∈Q},當(dāng)前的參數(shù)設(shè)置參數(shù)λi對應(yīng)于個性化特征函數(shù)fi,i=1,...,N。
輸出最佳參數(shù)設(shè)置 i預(yù)設(shè)一個最大的迭代步數(shù)T,并輸入初始的參數(shù)λti(i=1,...,N) ii在每一步的迭代過程中,對每一個訓(xùn)練樣本dk,如下調(diào)整參數(shù) iii對每一個特征,計算該訓(xùn)練樣本dk在該特征下的排序和答案中排序的差異。使用該差異以及一個預(yù)設(shè)的調(diào)整系數(shù)對該特征的參數(shù)進(jìn)行調(diào)整。
iv如果達(dá)到最大的迭代步數(shù)。則停止。
用機器語言表示如下 i For t=1 to T iiFor each training sample dk in final result of user’s query q, iii For each λti(i=1,...,N) ivIf fi(dk)=m thenλt+1i=λti+α|m-k| 其中dk表示出現(xiàn)在最終結(jié)果中第k個位置的文檔,fi(dk)=m表示特征函數(shù)的結(jié)果列表中dk被排在第m位,T代表預(yù)設(shè)的最大迭代步數(shù),N代表個性化特征數(shù),α是預(yù)設(shè)的系數(shù),表示每次改變的速率。
根據(jù)本發(fā)明的上述實施例2,除了上述實施例1的優(yōu)點之外,還可以得到以下優(yōu)點 提供了自學(xué)習(xí)的機制,系統(tǒng)的開發(fā)者不需要人工去調(diào)節(jié)系統(tǒng)的參數(shù),只需要定義認(rèn)為有用的特征即可,而這些特征是否有用、作用的大小都通過機器學(xué)習(xí)自動得到。
另外,因為在檢索系統(tǒng)的使用過程中不斷地對用戶興趣模型進(jìn)行重新訓(xùn)練,因此可以跟蹤用戶的興趣漂移,總是得到符合用戶預(yù)期的檢索結(jié)果。
以上通過實施例對本發(fā)明進(jìn)行了說明,但可以理解,本發(fā)明不限于以上說明的各種細(xì)節(jié)。
例如,雖然以上是以互聯(lián)網(wǎng)上的網(wǎng)頁信息檢索為例對本發(fā)明進(jìn)行說明,但本領(lǐng)域的技術(shù)人員可以理解,本發(fā)明可以同樣地應(yīng)用于例如內(nèi)部網(wǎng)上的信息檢索、本地機器中的文件信息檢索等。
另外,在上述的實施例中,針對影響用戶的相關(guān)性判斷的4個因素建立了4個檢索單元。但是,本發(fā)明不限于此,可以根據(jù)情況和應(yīng)用場合確定任意的個性化特征并相應(yīng)地設(shè)置檢索單元。所引入的個性化特征可以多于或少于4個。
權(quán)利要求
1、一種信息檢索方法,根據(jù)用戶輸入的查詢請求從大量信息構(gòu)成的信息集合中搜索所希望的信息,該方法包括以下步驟
確定影響用戶對信息與查詢請求間的相關(guān)性判斷的多個因素,作為個性化特征;
對于各個個性化特征設(shè)定相關(guān)的權(quán)重,且分別基于各個所述個性化特征建立反映用戶的查詢請求與信息集合中的信息之間的相關(guān)性的檢索模型,通過所述的權(quán)重將所述檢索模型組合成用戶興趣模型;
接受用戶的查詢請求,分別通過各個所述的檢索模型對所述信息集合進(jìn)行檢索,分別生成一個有序信息列表;
通過所述的用戶興趣模型,計算每個所述檢索模型得到的有序信息列表中的每一條信息與所述查詢請求的相關(guān)度;
根據(jù)所述用戶興趣模型輸出的相關(guān)度,輸出最終檢索結(jié)果。
2、根據(jù)權(quán)利要求1所述的信息檢索方法,其特征在于,該方法進(jìn)一步包括以下步驟
步驟2.1把所述權(quán)重設(shè)定為預(yù)定的值;
步驟2.2對于用戶提交的多個查詢請求,得到多個所述的最終檢索結(jié)果;
步驟2.3記錄用戶對于這多個最終檢索結(jié)果的反饋,構(gòu)造由正確匹配的信息構(gòu)成的訓(xùn)練集;
步驟2.4基于所述訓(xùn)練集,通過機器學(xué)習(xí)確定所述的權(quán)重。
3、根據(jù)權(quán)利要求2所述的信息檢索方法,其特征在于,該方法進(jìn)一步包括以下步驟
根據(jù)預(yù)定的條件,反復(fù)地執(zhí)行所述步驟2.2至步驟2.4,從而更新所述的權(quán)重。
4、根據(jù)權(quán)利要求1所述的信息檢索方法,其特征在于,該方法進(jìn)一步包括以下步驟
檢測用戶的個性化特征的改變或接受用戶對個性化特征的修改;
接收用戶對所述最終檢索結(jié)果的反饋,構(gòu)造由正確匹配的信息構(gòu)成的訓(xùn)練集;
計算所述最終檢索結(jié)果與所述訓(xùn)練集之間的差異,調(diào)整所述權(quán)重,使得所述最終檢索結(jié)果與所述訓(xùn)練集之間的差異最小。
5、一種信息檢索系統(tǒng),其根據(jù)用戶輸入的查詢請求從大量信息構(gòu)成的信息集合中搜索所希望的信息,該系統(tǒng)包括
輸入單元,其輸入用戶的查詢請求;
多個檢索單元,該多個檢索單元分別針對預(yù)先確定的影響用戶對信息與查詢請求相關(guān)性判斷的多個個性化特征,根據(jù)不同的準(zhǔn)則計算所述查詢請求與信息集合中的信息之間的相關(guān)度,根據(jù)所計算的相關(guān)度輸出一個有序信息列表;
用戶興趣單元,其通過規(guī)定的權(quán)重組合所述多個個性化特征,計算每個所述檢索單元得到的有序信息列表中的每一條信息與所述查詢請求的相關(guān)度;
輸出單元,其根據(jù)所述用戶興趣單元計算的相關(guān)度,輸出最終的檢索結(jié)果。
6、根據(jù)權(quán)利要求5所述的信息檢索系統(tǒng),其特征在于,該系統(tǒng)進(jìn)一步包括
訓(xùn)練集構(gòu)建單元,其對于用戶提交的多個查詢請求,得到多個所述的最終檢索結(jié)果,并記錄用戶對于這多個最終檢索結(jié)果的反饋,構(gòu)造由正確匹配的信息構(gòu)成的訓(xùn)練集;
訓(xùn)練單元,其基于所述訓(xùn)練集,通過機器學(xué)習(xí)確定所述的權(quán)重。
7、根據(jù)權(quán)利要求6所述的信息檢索系統(tǒng),其特征在于,
該信息檢索系統(tǒng)根據(jù)預(yù)定的條件,反復(fù)地通過所述訓(xùn)練集構(gòu)建單元和所述訓(xùn)練單元更新所述的權(quán)重。
8、根據(jù)權(quán)利要求6所述的信息檢索系統(tǒng),其特征在于,在該信息檢索系統(tǒng)檢測到用戶個性化特征的改變或接收到用戶對于個性化特征的修改時,
所述訓(xùn)練集構(gòu)建單元接收用戶對所述最終檢索結(jié)果的反饋,構(gòu)造由正確匹配的信息構(gòu)成的訓(xùn)練集;
所述訓(xùn)練單元計算所述最終檢索結(jié)果與所述訓(xùn)練集之間的差異,調(diào)整所述權(quán)重,使得所述最終檢索結(jié)果與所述訓(xùn)練集之間的差異最小。
全文摘要
本發(fā)明提供了信息檢索方法和系統(tǒng),根據(jù)用戶輸入的查詢請求從大量信息構(gòu)成的信息集合中搜索所希望的信息,其中,確定影響用戶對網(wǎng)頁與查詢請求相關(guān)性判斷的多個因素,作為個性化特征;對于各個個性化特征設(shè)定相關(guān)的權(quán)重,且分別基于各個所述個性化特征建立反映用戶的查詢請求與信息集合中的信息之間的相關(guān)性的檢索模型,通過所述的權(quán)重將所述檢索模型組合成用戶興趣模型;接受用戶的查詢請求,分別通過各個所述的檢索模型對所述信息集合中的信息進(jìn)行檢索,分別生成一個有序網(wǎng)頁列表;通過所述的用戶興趣模型,計算每個所述檢索模型得到的有序信息列表中的每一條信息與所述查詢請求的相關(guān)度;根據(jù)所述用戶興趣模型輸出的相關(guān)度,輸出最終的檢索結(jié)果。
文檔編號G06F17/30GK101520785SQ20081008155
公開日2009年9月2日 申請日期2008年2月29日 優(yōu)先權(quán)日2008年2月29日
發(fā)明者浩 于, 夏迎炬, 駱衛(wèi)華, 群 劉 申請人:富士通株式會社
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
张家界市| 长汀县| 渭源县| 中西区| 桦甸市| 手游| 呼伦贝尔市| 红安县| 阳江市| 五指山市| 双牌县| 鹤岗市| 巴林左旗| 新津县| 潜山县| 滨海县| 象山县| 海伦市| 建平县| 岳普湖县| 屯门区| 巢湖市| 伊金霍洛旗| 科技| 广饶县| 博客| 莲花县| 溧阳市| 保亭| 顺平县| 大石桥市| 库伦旗| 古浪县| 三亚市| 尉氏县| 宜章县| 青铜峡市| 和林格尔县| 张北县| 景洪市| 玉环县|