两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

檢索裝置、終端和檢索方法

文檔序號:6492059閱讀:150來源:國知局
檢索裝置、終端和檢索方法
【專利摘要】本發(fā)明提供了一種檢索裝置,包括:獲取單元,用于在接收到輸入的檢索項之后,獲取包含所述檢索項的文檔;篩選單元,用于統(tǒng)計每一所述文檔的預(yù)判權(quán)重值,根據(jù)所述預(yù)判權(quán)重值從包含所述檢索項的文檔中篩選出預(yù)設(shè)數(shù)量的初選文檔;檢索結(jié)果確定單元,用于讀取所述檢索項在每一所述初選文檔中的位置數(shù)據(jù),根據(jù)所述位置數(shù)據(jù)計算位置相關(guān)度,將所述位置相關(guān)度滿足預(yù)設(shè)條件的初選文檔作為檢索結(jié)果。本發(fā)明還提出了一種終端和一種檢索方法。本發(fā)明的技術(shù)方案根據(jù)文檔特性對檢索中間結(jié)果進行預(yù)判,從而只對其中預(yù)判結(jié)果較好的部分進行后續(xù)的位置數(shù)據(jù)讀取和位置相關(guān)性計算,減少了大量的位置數(shù)據(jù)讀取量和計算量,加快檢索速度。
【專利說明】檢索裝置、終端和檢索方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及檢索【技術(shù)領(lǐng)域】,具體而言,涉及一種檢索裝置、具有該檢索裝置的終端和一種檢索方法。
【背景技術(shù)】
[0002]在全文檢索系統(tǒng)中,索引程序通過掃描原始文檔,將文檔內(nèi)容劃分為一個個詞,對每一個詞項(Term)建立一個索引項,指明該詞項在文檔中出現(xiàn)的次數(shù)和位置,創(chuàng)建倒排索引文件,之后就可以借助倒排索引提供快捷的全文檢索。
[0003]在檢索過程中,用戶提交的檢索請求可能是索引庫中的一個詞項(Term),此時只需要在倒排索引中根據(jù)檢索詞找到該詞項,進而讀取包含該詞項的文檔列表,以及列表中的每個文檔中該詞項的出現(xiàn)位置(如果需要的話)。這樣的檢索不需要過多的計算,能夠比較快速地返回結(jié)果。
[0004]而大多數(shù)情況下,用戶提交的檢索請求是以詞組、短句等方式,這種由多個詞項組成的檢索請求被稱為短語檢索。這種檢索方式要求命中的文檔中,要同時包含所有這些詞項,同時這些詞項在文檔中的出現(xiàn)位置要滿足一定要求,按照檢索請求中的順序彼此相鄰,或是允許彼此之間存在一定的距離,由檢索系統(tǒng)的設(shè)計而定。
[0005]在短語檢索過程中,需要先找到同時包含所有檢索詞的文檔,稱為初步命中,然后讀取初步命中的文檔中這些檢索詞的出現(xiàn)位置,比較這些檢索詞的位置,只有滿足一定位置關(guān)系的才算是命中。其中,詞項之間的位置計算是個非常耗時的操作,特別在文檔比較大、短語中詞項數(shù)量比較多的情況下:一方面需要讀取大量的位置數(shù)據(jù),引發(fā)大量的IO操作,另一方面需要比較多個詞項的位置關(guān)系,存在大量的計算。
[0006]為了改善短語檢索的性能,在索引數(shù)據(jù)中增加了數(shù)據(jù)指針以加速檢索的過程。數(shù)據(jù)指針相當于索引數(shù)據(jù)的索引:在每個Term對應(yīng)的文檔列表中,每隔SkipInterval個文檔項創(chuàng)建一個數(shù)據(jù)指針,包含指向文檔列表中對應(yīng)項的指針,該對應(yīng)項的位置數(shù)據(jù)的指針。從而在短語的檢索的過程中,可以借助數(shù)據(jù)指針跳過初步不命中的文檔項,從而減少對不必要的數(shù)據(jù)的讀取,提高檢索性能。
[0007]相關(guān)技術(shù)雖然采用了數(shù)據(jù)指針來提高檢索性能,但在短語檢索過程中,仍需要進行大量的計算。

【發(fā)明內(nèi)容】

[0008]考慮到相關(guān)技術(shù)中出現(xiàn)的技術(shù)問題,本發(fā)明所要解決的技術(shù)問題在于,提供一種檢索技術(shù),在短語檢索過程中,能夠在保證結(jié)果準確性的前提下,提升檢索性能。
[0009]有鑒于此,根據(jù)本發(fā)明的一個方面,提供了一種檢索裝置,包括:獲取單元,用于在接收到輸入的檢索項之后,獲取包含所述檢索項的文檔;篩選單元,用于統(tǒng)計每一所述文檔的預(yù)判權(quán)重值,根據(jù)所述預(yù)判權(quán)重值從包含所述檢索項的文檔中篩選出預(yù)設(shè)數(shù)量的初選文檔;檢索結(jié)果確定單元,用于讀取所述檢索項在每一所述初選文檔中的位置數(shù)據(jù),根據(jù)所述位置數(shù)據(jù)計算位置相關(guān)度,將所述位置相關(guān)度滿足預(yù)設(shè)條件的初選文檔作為檢索結(jié)果。
[0010]為了提高檢索效率,在初步命中的文檔即包含所有檢索項的文檔中繼續(xù)挑選出預(yù)判結(jié)果較好的文檔,從而只對預(yù)判結(jié)果較好的部分進行后續(xù)的位置數(shù)據(jù)讀取和位置相關(guān)性計算,減少了位置數(shù)據(jù)的讀取量和計算量,從而加快檢索速度。
[0011]在上述技術(shù)方案中,優(yōu)選的,所述篩選單元包括:屬性確定子單元,用于獲取所述包含所述檢索項的文檔中每一文檔的屬性;預(yù)判權(quán)重值確定子單元,用于對所述屬性進行計算,得到所述預(yù)判權(quán)重值。
[0012]在該技術(shù)方案中,以文檔屬性為依據(jù)進行預(yù)判,根據(jù)預(yù)判權(quán)重值的大小在初步命中的文檔中挑選出預(yù)判結(jié)果較好的文檔,預(yù)判權(quán)重值表明該文檔在初步命中的文檔中排在前面的概率,概率越大,預(yù)判結(jié)果越好。
[0013]在上述技術(shù)方案中,優(yōu)選的,所述預(yù)判權(quán)重值確定子單元用于基于所述檢索項在相應(yīng)文檔中的出現(xiàn)頻率和/或所述檢索項在所有文檔中的逆向文件頻率和/或所述相應(yīng)文檔的權(quán)重,確定所述相應(yīng)文檔的預(yù)判權(quán)重。
[0014]在上述技術(shù)方案中,優(yōu)選的,所述預(yù)判權(quán)重值確定子單元用于按照預(yù)判函數(shù)
【權(quán)利要求】
1.一種檢索裝置,其特征在于,包括: 獲取單元,用于在接收到輸入的檢索項之后,獲取包含所述檢索項的文檔; 篩選單元,用于統(tǒng)計每一所述文檔的預(yù)判權(quán)重值,根據(jù)所述預(yù)判權(quán)重值從包含所述檢索項的文檔中篩選出預(yù)設(shè)數(shù)量的初選文檔; 檢索結(jié)果確定單元,用于讀取所述檢索項在每一所述初選文檔中的位置數(shù)據(jù),根據(jù)所述位置數(shù)據(jù)計算位置相關(guān)度,將所述位置相關(guān)度滿足預(yù)設(shè)條件的初選文檔作為檢索結(jié)果。
2.根據(jù)權(quán)利要求1所述的檢索裝置,其特征在于,所述篩選單元包括: 屬性確定子單元,用于獲取所述包含所述檢索項的文檔中每一文檔的屬性; 預(yù)判權(quán)重值確定子單元,用于對所述屬性進行計算,得到所述預(yù)判權(quán)重值。
3.根據(jù)權(quán)利要求2所述的檢索裝置,其特征在于,所述預(yù)判權(quán)重值確定子單元用于基于所述檢索項在相應(yīng)文檔中的出現(xiàn)頻率和/或所述檢索項在所有文檔中的逆向文件頻率和/或所述相應(yīng)文檔的權(quán)重,確定所述相應(yīng)文檔的預(yù)判權(quán)重值。
4.根據(jù)權(quán)利要求3所述的檢索裝置,其特征在于,所述預(yù)判權(quán)重值確定子單元用于按

照預(yù)判函數(shù)
5.根據(jù)權(quán)利要求3所述的檢索裝置,其特征在于,所述預(yù)判權(quán)重值確定子單元用于按

照預(yù)判函數(shù)
6.根據(jù)權(quán)利要求1至5中任一項所述的檢索裝置,其特征在于,所述檢索裝置還包括:設(shè)置單元,設(shè)置應(yīng)統(tǒng)計所述預(yù)判權(quán)重值的文檔數(shù)量; 所述篩選單元還用于從已統(tǒng)計過所述預(yù)判權(quán)重值的文檔中篩選出所述初選文檔,根據(jù)所述預(yù)判權(quán)重值的大小對所述已統(tǒng)計過所述預(yù)判權(quán)重值的文檔進行排序,從排序結(jié)果中按照預(yù)設(shè)比例選取出所述初選文檔。
7.根據(jù)權(quán)利要求6所述的檢索裝置,其特征在于,所述檢索結(jié)果確定單元還用于按照文檔的標識序號對所述初選文檔進行排序,并采用數(shù)據(jù)指針方式讀取所述位置數(shù)據(jù)。
8.—種終端,其特征在于,包括如權(quán)利要求1至7中任一項所述的檢索裝置。
9.一種檢索方法,其特征在于,包括: 在接收到輸入的檢索項之后,獲取包含所述檢索項的文檔; 統(tǒng)計每一所述文檔的預(yù)判權(quán)重值,根據(jù)所述預(yù)判權(quán)重值從包含所述檢索項的文檔中篩選出預(yù)設(shè)數(shù)量的初選文檔; 讀取所述檢索項在每一所述初選文檔中的位置數(shù)據(jù),根據(jù)所述位置數(shù)據(jù)計算位置相關(guān)度,將所述位置相關(guān)度滿足預(yù)設(shè)條件的初選文檔作為檢索結(jié)果。
10.根據(jù)權(quán)利要求9所述的檢索方法,其特征在于,所述預(yù)判權(quán)重值的統(tǒng)計過程包括: 確定所述包含所述檢索項的文檔中每一文檔的屬性; 對所述屬性進行計算,得到所述預(yù)判權(quán)重值。
11.根據(jù)權(quán)利要求10所述的檢索方法,其特征在于,基于所述檢索項在相應(yīng)文檔中的出現(xiàn)頻率和/或所述檢索項在所有文檔中的逆向文件頻率和/或所述相應(yīng)文檔的權(quán)重進行計算,確定所述相應(yīng)文檔的預(yù)判權(quán)重值。
12.根據(jù)權(quán)利要求11所述的檢索方法,其特征在于,按照預(yù)判函數(shù)
13.根據(jù)權(quán)利要求11所述的檢索方法,其特征在于,按照預(yù)判函數(shù)
14.根據(jù)權(quán)利要求9至13中任一項所述的檢索方法,其特征在于,還包括:設(shè)置應(yīng)統(tǒng)計所述預(yù)判權(quán)重值的文檔數(shù)量; 從已統(tǒng)計過所述預(yù)判權(quán)重值的文檔中篩選出所述初選文檔; 所述初選文檔的 篩選過程包括:根據(jù)所述預(yù)判權(quán)重值的大小對所述已統(tǒng)計過所述預(yù)判權(quán)重值的文檔進行排序,從排序結(jié)果中按照預(yù)設(shè)比例選取出所述初選文檔。
15.根據(jù)權(quán)利要求14所述的檢索方法,其特征在于,按照文檔的標識序號對所述初選文檔進行排序,并采用數(shù)據(jù)指針方式讀取所述位置數(shù)據(jù)。
【文檔編號】G06F17/30GK103853742SQ201210501917
【公開日】2014年6月11日 申請日期:2012年11月29日 優(yōu)先權(quán)日:2012年11月29日
【發(fā)明者】童征宇, 殷宇翔 申請人:北大方正集團有限公司, 北京方正阿帕比技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
兴海县| 临沧市| 泰州市| 犍为县| 丰镇市| 永胜县| 稻城县| 内江市| 林甸县| 泽州县| 永安市| 朝阳县| 永顺县| 靖宇县| 临江市| 万载县| 灵山县| 金乡县| 伊川县| 光山县| 弥勒县| 大余县| 清水县| 保亭| 台南市| 芒康县| 郁南县| 黑水县| 扶风县| 太白县| 增城市| 余江县| 包头市| 江油市| 库伦旗| 共和县| 宜兰县| 同仁县| 临颍县| 龙陵县| 阳西县|