两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于上下文對搜索結(jié)果重新排序的方法和系統(tǒng)的制作方法

文檔序號:6463479閱讀:154來源:國知局
專利名稱:基于上下文對搜索結(jié)果重新排序的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及計算機搜索領(lǐng)域,尤其涉及基于上下文對搜索査詢進行 差異化處理的方法和系統(tǒng)。
背景技術(shù)
當(dāng)用戶正在瀏覽一篇文檔,該文檔關(guān)于如何將家里的電器聯(lián)結(jié)成一
個網(wǎng)絡(luò)時,用戶對"home network"這個詞條很感興趣。于是在搜索系 統(tǒng)中對"home network",但由于這個詞條在不同的領(lǐng)域中有不同的意義, 導(dǎo)致獲得結(jié)果中有大量是關(guān)于蜂窩通信的。原因是,該詞條在蜂窩通信 領(lǐng)域也有,意思是"歸屬網(wǎng)絡(luò)"。
也就是說,現(xiàn)有的搜索技術(shù)都是直接對搜索查詢進行處理,而不會 考慮相同的搜索査詢在不同的上下文語境中有不同的意思。
所以,需要一種技術(shù),對搜索査詢進行處理時,能夠根據(jù)用戶當(dāng)前 關(guān)注的內(nèi)容來對搜索査詢進行重排序處理。

發(fā)明內(nèi)容
本發(fā)明的目的是提供 一種基于上下文對搜索結(jié)果重新排序的方法, 包括在正在瀏覽的文檔中選擇需要搜索的部分作為搜索因子;根據(jù)搜 索因子對數(shù)據(jù)源進行搜索并獲得搜索結(jié)果;將所選擇的搜索因子的上下 文確定為重排序因子;根據(jù)獲得的重排序因子,計算所述搜索結(jié)果中的 文檔與重排序因子的語義相關(guān)性,根據(jù)所述語義相關(guān)性,對搜索結(jié)果進 行排序;以所述重排序來顯示搜索結(jié)果。
本發(fā)明更進一步的目的是提供 一種計算機程序產(chǎn)品,存儲在計算 機可讀的介質(zhì)上,該計算機程序產(chǎn)品具體地包括可讀的程序方法,從而 觸發(fā)計算機執(zhí)行上述的方法。
本發(fā)明更進一步的目的是提供 一種計算機程序,由計算機執(zhí)行而
實現(xiàn)上述方法。
本發(fā)明還有一個目的是提供 一種對搜索結(jié)果重新排序的系統(tǒng),包 括數(shù)據(jù)存儲裝置,用于存儲待搜索的數(shù)據(jù)源;搜索因子選擇裝置,用于
在正在瀏覽的文檔中選擇需要搜索的部分作為搜索因子;搜索裝置,根 據(jù)搜索因子對數(shù)據(jù)源進行搜索并獲得搜索結(jié)果;重排序因子確定裝置,用 于將所選擇的搜索因子的上下文確定為重排序因子;重排序裝置,用于 根據(jù)獲得的重排序因子,計算所述搜索結(jié)果中的文檔與重排序因子的相 關(guān)性,根據(jù)所述相關(guān)性,對搜索結(jié)果進行排序;顯示裝置,用于以所述排序來顯示搜索結(jié)果。 附圖描述
上述內(nèi)容和其它方面的內(nèi)容,以及本發(fā)明特定優(yōu)選實施例的特征和 優(yōu)勢將通過結(jié)合相應(yīng)附圖的詳細說明更加清楚。其中-


圖1是關(guān)于詞條的表現(xiàn)方法和組合方式;
圖2是詞條-文檔(term-document)矩陣;
圖3是髙維(r維)詞條空間投影到低維(k維)詞條空間的公式;
圖4是詞條向量表;
圖5是描述了詞條i卩文檔在二維空間上的投影關(guān)系;
圖6如何獲得査詢請求的向量;
圖7是可以實現(xiàn)本發(fā)明的網(wǎng)絡(luò)系統(tǒng)10;
圖8是可以實現(xiàn)本發(fā)明的通用計算機20;
圖9是執(zhí)行根據(jù)本發(fā)明實施例的搜索過程的流程圖10是圖9中的步驟34的一個具體實施例;
圖11是根據(jù)本發(fā)明的一個具體應(yīng)用實例。
所有附圖中,同一附圖標記理解為同一單元、特征和結(jié)構(gòu)。
優(yōu)選實施例描述
說明書中定義的內(nèi)容如具體的結(jié)構(gòu)和單元,是用于輔助全面理解本 發(fā)明的優(yōu)選實施例的。因此,根據(jù)本領(lǐng)域的普通技術(shù)對本申請描述的實 施例進行的各種改變和修改都被認為沒有脫離本發(fā)明的精神范圍。同 時,為了清楚和簡要,省略了對公知的功能和結(jié)構(gòu)的說明。
在現(xiàn)有技術(shù)中有大量關(guān)于基于語義搜索的技術(shù),本領(lǐng)域技術(shù)人員可 以利用這些技術(shù)很容易的構(gòu)建詞條向量,以及文檔向量。其中有代表性 的是潛在語義索引模型等技術(shù)。下面介紹潛在語義索引的原理,但不代 表本發(fā)明一定要構(gòu)建在潛在語義索引之上,本發(fā)明可以應(yīng)用在所有的基 于語義的搜索技術(shù)上。
潛在語義索引的原理
為了能夠更加容易的解釋LSI原理,下面通過一個具體例子來描述。 設(shè)文檔由17本書的標題組成。
圖1中,有下劃線的詞表示詞條。當(dāng)然,對于本領(lǐng)域技術(shù)人員,存 在很多其他選擇詞條的規(guī)則,可以增加或減少詞條的數(shù)量,也可以改變 詞條的組合方式等。
圖2是16x17詞條-文檔(term-document)矩陣,被稱作A。行代表詞條(term),列代表文檔(document)。矩陣的值代表該詞條在該文檔中出現(xiàn) 的次數(shù)。
奇異值分解把詞條-文檔矩陣A分解為三個矩陣的乘積形式,即
A=urvT 公式1
其中,Z是奇異值的對角矩陣。
圖3是潛在語義索引方法通過降維,將高維(r維)詞條空間投影到低 維(k維)詞條空間。
為方便圖示表示,在本例中選擇k為2,即表示將原詞條空間降維 到二維詞條空間上。矩陣U的前兩列表示了詞條在二維空間中的向量。 獲得的向量組即詞條向量表如附圖中圖4所示。
利用這些基本的詞條向量,可以根據(jù) v-qTUkPk 公式2 來合成新的向量。例如文檔向量Bp用戶輸入的査詢請求,都可通過分 析所引用的詞條按公式2相合成。本領(lǐng)域技術(shù)人員很容易明了,在合成 向量時可以考慮詞條向量的權(quán)重。
圖5描述了詞條和文檔在二維空間上的投影關(guān)系。詞條向量之間的 夾角越小或夾角的余弦值越大,代表詞條和和該文檔的相關(guān)性越大。例 如,以詞條"oscillation"為例,在所有詞條中"delay"與其夾角最小, 即"delay"與其最相關(guān)。
當(dāng)用戶輸入一個査詢請求時,如"application theory",系統(tǒng)通過分 析該請求中包含的關(guān)鍵詞"application"、 "theory",將該兩關(guān)鍵詞相關(guān) 的詞條向量按公式2合成如圖6,從而獲得査詢請求的向量。
通過計算文檔向量與該査詢請求向量的夾角的余弦值,其值越大, 表示該文檔與査詢請求越相關(guān)。
詞條與文檔的相關(guān)度是計算詞條向量與文檔向量之間的夾角的余弦 值,其值越大,表示該文檔與査詢請求越相關(guān)。例如,"nonlinear"這個 詞條與B9的文檔向量間的夾角的余弦值最大,所以與"nonlinear"最 相關(guān)的文檔是B9。
本領(lǐng)域技術(shù)人員已知的實際應(yīng)用中,通過上述原理,對現(xiàn)有的足夠 數(shù)量的文獻進行上述處理,即可獲得全面的詞條向量表。計算文檔向量 的方法是抽取文檔中的詞條,比對詞條向量表獲得相關(guān)詞條的向量,將 這些向量合成為文檔向量如公式2。為了簡化的目的,本申請不再詳細 描述如何獲得詞條向量表,因為本領(lǐng)域技術(shù)人員可以根據(jù)現(xiàn)有技術(shù)能夠 很容易地獲得詞條向量表。本發(fā)明是在現(xiàn)有的詞條向量表的基礎(chǔ)上描述 的。相關(guān)的參考文獻如下
1. M.W.Berry.S.T.Dumaiis&(iW.O,Brien. Using Linear Algebra Intelligent Information Retrieval. Computer Science l3epartment CS-94-270 1994-12。
2. 居斌.潛在語義標引在中文信息檢索中的研究與實現(xiàn).計算機工程 2007-03。
3. 陳越郭力.隱含語義檢索及其應(yīng)用.信息檢索技術(shù)2001年第6期。
4. Michael W. Berry ,Paul G. Young. Using latent semantic indexing for multilanguage information retrieval. Volume 29, Number 6 / 1995年12月
圖7是可以實現(xiàn)本發(fā)明的網(wǎng)絡(luò)系統(tǒng)10。至少一個客戶機12通過網(wǎng) 絡(luò)13,例如因特網(wǎng)與搜索引擎系統(tǒng)14相連。搜索引擎系統(tǒng)14包括至少 一個搜索引擎15。搜索引擎負責(zé)處理客戶機12的搜索因子,按照搜索 因子生成搜索結(jié)果,和將結(jié)果返回給客戶機。搜索引擎系統(tǒng)14還包括 至少一個內(nèi)容服務(wù)器16、至少一個重排序服務(wù)器17。內(nèi)容服務(wù)器16存 儲從不同網(wǎng)站上搜索地大量帶索引的文檔??商娲?,或另外,內(nèi)容服 務(wù)器16存儲在各種網(wǎng)站上存儲的文檔的索引。搜索引擎15與至少一個 內(nèi)容服務(wù)器16通信,響應(yīng)特定搜索因子選擇多個文檔。
重排序服務(wù)器17根據(jù)重排序因子對上述選定的文檔進行重新排序, 并按照新的排序?qū)⒔Y(jié)果發(fā)送給相關(guān)客戶機。該重排序因子是根據(jù)某個規(guī) 則來設(shè)置的,該規(guī)則可以由用戶實時輸入,也可以事先設(shè)置,也可以由 系統(tǒng)設(shè)置為默認規(guī)則。
圖8是可以實現(xiàn)本發(fā)明的通用計算機20。該通用計算機20運行了 一個操作系統(tǒng)21,在該操作系統(tǒng)21上運行有一個數(shù)據(jù)庫或文件系統(tǒng)22 和一個重排序處理單元23。操作系統(tǒng)21用于從通用計算機20的輸入單 元(未示出)接收用戶的搜索因子,并將該搜索因子發(fā)送給數(shù)據(jù)庫或文 件系統(tǒng)22。數(shù)據(jù)庫或文件系統(tǒng)22可以是現(xiàn)有的任何合適的數(shù)據(jù)庫,例 如DB2、 ACCESS、 MSSQL、 MYSQL、 ORCLE、 VF等。數(shù)據(jù)庫或文 件系統(tǒng)22也可以是任何合適的文件系統(tǒng),例如FAT32或NTFS。數(shù)據(jù) 庫或文件系統(tǒng)22從操作系統(tǒng)21接收到用戶的搜索因子后,進行相應(yīng)的 査詢操作,并將査詢結(jié)果發(fā)送給重排序處理單元23。
重排序處理單元23根據(jù)接收到重排序因子對上述的搜索結(jié)果進行處 理。該重排序因子是根據(jù)某個規(guī)則來設(shè)置的,該規(guī)則可以由用戶實時輸 入,也可以事先設(shè)置,也可以由系統(tǒng)設(shè)置為默認規(guī)則。比較搜索結(jié)果和 重排序因子的相關(guān)度。根據(jù)相關(guān)度的高低在顯示單元(未示出)顯示搜 索結(jié)果。
圖9是執(zhí)行根據(jù)本發(fā)明實施例的重排序搜索結(jié)果的流程圖。流程開
7始于步驟30,用戶正在關(guān)注某個文檔,并對該文檔中的某個部分非常感 興趣,希望能夠有進一步的了解,所以在文檔中選擇了該部分,希望進 行搜索,該部分被稱為搜索因子,搜索因子可以是系統(tǒng)給出的關(guān)鍵詞; 也可以是用戶選擇的一段文字,例如一個詞, 一個詞組或一個句子。在 步驟31,搜索裝置(例如是圖7中的搜索引擎,或者圖8中的數(shù)據(jù)庫或 文件系統(tǒng))接收某用戶提交的搜索因子。搜索設(shè)備可以根據(jù)搜索査詢可 選的生成査詢策略(例如,將搜索查詢標準化成用戶進一步處理的適當(dāng) 形式,和/或可以按照預(yù)定準則修正搜索査詢,以便自動擴大或縮小搜索 查詢的范圍)。在步驟31,搜索設(shè)備根據(jù)搜索查詢(或查詢策略,如果 生成的話)進行搜索,搜索設(shè)備獲得與搜索查詢匹配的一系列文檔,并 將搜索結(jié)果發(fā)送給重排序設(shè)備(例如圖7中的重排序服務(wù)器,圖8中的 重排序單元)。如果用戶輸入的搜索因子屬于布爾搜索,則搜索結(jié)果是 符合搜索條件的全部文檔。如果用戶輸入的搜索因子屬于智能語義搜 索,則搜索結(jié)果是與搜索因子最相關(guān)的N個文檔。眾所周知,相關(guān)度可 以是根據(jù)搜索因子的合成向量與被搜索文檔的文檔向量之間的余弦值來 確定的。
在步驟32,系統(tǒng)獲得重排序因子的設(shè)定規(guī)則,重排序因子是搜索因 子的上下文,設(shè)定規(guī)則是對上下文范圍的規(guī)定,例如如果搜索因子是單 詞或詞組,則可以將上下文定義為該搜索因子所在的句子或段落。在步 驟33,根據(jù)獲得的重排序因子,計算所述搜索結(jié)果中的文檔與重排序因 子的相關(guān)性,根據(jù)所述相關(guān)性,對搜索結(jié)果進行排序。在步驟34,以所 述排序來顯示搜索結(jié)果,即將在步驟31中獲得的搜索結(jié)果全部顯示, 但是按照與重排序因子的相關(guān)度進行排序。同樣的,此處的相關(guān)度也是 根據(jù)重排序因子的合成向量與被搜索文檔的文檔向量之間的余弦值來確 定的。
圖10是圖9中的步驟34的一個具體實施例,描述了用語義相關(guān)來 重排序的例子。開始于步驟41,根據(jù)詞條向量庫來處理重排序因子,獲 得所述重排序因子的向量。重排序因子可以是被選擇的搜索因子所在 的。即將重排序內(nèi)容中的所有詞條在詞條向量庫中找到對應(yīng)的向量,將 這些詞條的向量相加,從而獲得重排序內(nèi)容的向量。而詞條向量庫可以 根據(jù)本領(lǐng)域技術(shù)人員公知的智能語義搜索技術(shù)獲得,例如潛在語義索引 模型。在步驟42中,逐一計算搜索結(jié)果中每一個文檔的向量與重排序 內(nèi)容向量間的余弦值。在步驟43,根據(jù)所述余弦值的大小,對所述搜索 結(jié)果中的所有文檔進行排序。相關(guān)值越大的文檔表示與重排序內(nèi)容越相 關(guān),也是用戶最期望看到的文檔。
圖11是根據(jù)本發(fā)明的一個具體應(yīng)用實例。其中有兩篇文檔,第一篇 文檔A的主題是"水田作業(yè)機",第二篇文檔B的主題是"起重機的臂架收放展開裝置",在這兩篇文檔中同時出現(xiàn)了 "作業(yè)姿勢"這個關(guān)鍵 詞,如果用戶對"作業(yè)姿勢"特別感興趣,希望能夠進一步檢索進行了 解,此時,"作業(yè)姿勢"就是搜索因子。那么,當(dāng)用戶將鼠標移動到第 一篇文檔的"作業(yè)姿勢"上時,系統(tǒng)首先將搜索因子"作業(yè)姿勢"輸入 到搜索系統(tǒng)進行搜索處理,獲得搜索結(jié)果。例如,但不限于搜索結(jié)果可 以是所有包含"作業(yè)姿勢"的文檔。如果采用現(xiàn)有技術(shù),即現(xiàn)有搜索引 擎技術(shù),用戶將在上述兩例搜索中獲得相同的搜索結(jié)果,用戶分別感興 趣的文檔將被淹沒在大量文檔中。在本實施例中,系統(tǒng)將基于上下文語 境對搜索結(jié)果重新排序。系統(tǒng)首先根據(jù)重排序因子的設(shè)定規(guī)則,例如, 但不限于是搜索因子所在的段落來獲取重排序因子,并利用詞條向量庫 計算重排序因子的合成向量,然后計算該合成向量與搜索結(jié)果中獲得的 文檔的文檔向量的余弦值。最后,根據(jù)計算結(jié)果從大到小排列并顯示搜
索結(jié)果。雖然,在文檔A和B中需要搜索的都是"作業(yè)姿勢",通過該 搜索因子獲得的搜索結(jié)果是相同的。但是,由于搜索因子"作業(yè)姿勢" 在文檔A和B中的上下文語境是不同的,即重排序因子是不同的,通 過該包含上下文語境信息的重排序因子對搜索結(jié)果進行重新排序的搜索 結(jié)果是不同,分別與文檔A和B相關(guān)聯(lián)。例如文檔A的排序在前的結(jié) 果都是有關(guān)水田作業(yè)的,而文檔B的排序在前的結(jié)果都是關(guān)于起重機 的。
盡管本發(fā)明通過一些特定的優(yōu)選實施例加以表述,但是本領(lǐng)域的技 術(shù)人員都應(yīng)知道,可能的形式上的各種變化和具體化都沒有脫離本發(fā)明 的精神以及權(quán)利要求及其等價內(nèi)容所定義的范圍。
權(quán)利要求
1.一種基于上下文對搜索結(jié)果重新排序的方法,包括步驟一在正在瀏覽的文檔中選擇需要搜索的部分作為搜索因子;步驟二根據(jù)搜索因子對數(shù)據(jù)源進行搜索并獲得搜索結(jié)果;步驟三將所選擇的搜索因子的上下文確定為重排序因子;步驟四根據(jù)獲得的重排序因子,計算所述搜索結(jié)果中的文檔與重排序因子的語義相關(guān)性,根據(jù)所述語義相關(guān)性,對搜索結(jié)果進行排序;步驟五以所述重排序來顯示搜索結(jié)果。
2. 權(quán)利要求1的方法,其中所述上下文是搜索因子所在的句子,所在的 段落或者全文。
3. 權(quán)利要求1-2中任意一個權(quán)利要求的方法,其中所述的計算所述搜索 結(jié)果中的文檔與重排序因子的相關(guān)性包括根據(jù)詞條向量庫來合成重排序因子,獲得所述重排序因子的向量; 逐一計算搜索結(jié)果中每一個文檔的向量與重排序因子向量的相關(guān)值; 根據(jù)所述相關(guān)值的大小,對所述搜索結(jié)果中的所有文檔進行排序。
4. 權(quán)利要求1-3中任意一個權(quán)利要求的方法,其中詞條向量庫是由基于 語義搜索方式獲得的。
5. 權(quán)利要求1-4中任意一個權(quán)利要求的方法,其中搜索表達式是布爾搜 牽0
6. 權(quán)利要求1-4中任意一個權(quán)利要求的方法,其中搜索表達式是基于語 義搜索。
7. —種對搜索結(jié)果重新排序的系統(tǒng),包括 數(shù)據(jù)存儲裝置,用于存儲待搜索的數(shù)據(jù)源;搜索因子選擇裝置,用于在正在瀏覽的文檔中選擇需要搜索的部分作為搜牽因子.i索裝i,根據(jù)搜索因子對數(shù)據(jù)源進行搜索并獲得搜索結(jié)果;重排序因子確定裝置,用于將所選擇的搜索因子的上下文確定為重排序因子;重排序裝置,用于根據(jù)獲得的重排序因子,計算所述搜索結(jié)果中的文檔 與重排序因子的語義相關(guān)性,根據(jù)所述語義相關(guān)性,對搜索結(jié)果進行排 序;顯示裝置,用于以所述排序來顯示搜索結(jié)果。
8. 權(quán)利要求7的系統(tǒng),其中所述上下文是搜索因子所在的句子,所在的 段落或者全文。
9. 權(quán)利要求7-8中任意一個權(quán)利要求的系統(tǒng),其中所述的計算所述搜索結(jié)果中的文檔與重排序因子的相關(guān)性包括根據(jù)詞條向量庫來合成重排序因子,獲得所述重排序因子的向量的裝 置;逐一計算搜索結(jié)果中每一個文檔的向量與重排序因子向量的相關(guān)值的裝 置;根據(jù)所述相關(guān)值的大小,對所述搜索結(jié)果中的所有文檔進行排序的裝 置。
10. 權(quán)利要求7-9中任意一個權(quán)利要求的系統(tǒng),其中詞條向量庫是由基于 語義搜索方式獲得的。
11. 權(quán)利要求7-10中任意一個權(quán)利要求的系統(tǒng),其中搜索表達式是布爾 搜牽。
12.木又利要求7-10中任意一個權(quán)利要求的系統(tǒng),其中搜索表達式是基于語義搜索。
13. —種;^算機程序產(chǎn)品,存儲在計算機可讀的介質(zhì)上,該計算機程序產(chǎn) 品具體地包括可讀的程序方法,從而觸發(fā)計算機執(zhí)行根據(jù)權(quán)利要求1到 7任意之一的方法。
14. 一種計算機程序,由計算機執(zhí)行而實現(xiàn)根據(jù)權(quán)利要求1到7任意之一 的方法。
全文摘要
一種基于上下文對搜索結(jié)果重新排序的方法,包括在正在瀏覽的文檔中選擇需要搜索的部分作為搜索因子;根據(jù)搜索因子對數(shù)據(jù)源進行搜索并獲得搜索結(jié)果;將所選擇的搜索因子的上下文確定為重排序因子;根據(jù)獲得的重排序因子,計算所述搜索結(jié)果中的文檔與重排序因子的語義相關(guān)性,根據(jù)所述語義相關(guān)性,對搜索結(jié)果進行排序;以所述重排序來顯示搜索結(jié)果。
文檔編號G06F17/30GK101320382SQ20081010600
公開日2008年12月10日 申請日期2008年5月7日 優(yōu)先權(quán)日2008年5月7日
發(fā)明者鋼 裘 申請人:索意互動(北京)信息技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
关岭| 安泽县| 教育| 麟游县| 射阳县| 安远县| 新河县| 德昌县| 海盐县| 海南省| 丹东市| 泾川县| 敖汉旗| 济南市| 丰都县| SHOW| 嘉荫县| 毕节市| 工布江达县| 鸡泽县| 阿克苏市| 涿鹿县| 乌拉特中旗| 长沙县| 五华县| 项城市| 新巴尔虎右旗| 二连浩特市| 南澳县| 湾仔区| 沂南县| 五台县| 楚雄市| 茂名市| 山阴县| 会宁县| 宁波市| 娄烦县| 方正县| 田东县| 察隅县|