两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

信息檢索系統(tǒng)的排序方法及裝置的制造方法_3

文檔序號:9750801閱讀:來源:國知局
有設(shè)置每個 排序規(guī)則的優(yōu)先級,則在獲取排序規(guī)則集合中各個排序規(guī)則的優(yōu)先級別之前,可以基于檢 索業(yè)務(wù)的需求事先確定每個排序規(guī)則的優(yōu)先級別。規(guī)則間的優(yōu)先關(guān)系可以通過權(quán)重表示。
[0060] 例如:需要了解一位多產(chǎn)作家的思想變化,該作家的作品包括不同時期的小說、散 文、詩歌等,在查詢到該作家所有的作品之后,如果確定的排序規(guī)則優(yōu)先級是:時間順序的 優(yōu)先級大于不同作品的優(yōu)先級,則后排序的結(jié)果是按照該作家發(fā)表作品的先后順序排列, 如,越是新發(fā)表的作品越是排在前面,如果確定的排序規(guī)則優(yōu)先級是:不同作品的優(yōu)先級大 于時間順序的優(yōu)先級,即首先考慮散文的優(yōu)先級大于詩歌的優(yōu)先級,詩歌的優(yōu)先級大于小 說,然后考慮在同一種類作品中按照時間順序排列,如,散文排在前面,小說排在最后面,其 中,屬于同一種類的散文中,越是新發(fā)表的散文越是排在前面,屬于同一種類的小說中,越 是新發(fā)表的散文越是排在前面。
[0061] 上面只是一個簡單的例子,在實際應(yīng)用中,排序規(guī)則很多,即最終排序的結(jié)果需要 滿足很多方面的需求,針對不同的用戶、或者不同的需求,對排序規(guī)則集合中各個規(guī)則的考 慮的優(yōu)先級別是不一樣的,由于本實施方式將各個排序規(guī)則的優(yōu)先級也以參數(shù)形式加入該 優(yōu)化的目標函數(shù)中,從而能夠靈活而有效控制不同優(yōu)先級的排序規(guī)則對最終排序的影響。
[0062] 下面以一個具體的例子來說明本發(fā)明信息檢索系統(tǒng)的排序方法,例如:在通過融 合初始排序的文檔集合、排序規(guī)則集合中各個排序規(guī)則以及各個排序規(guī)則的優(yōu)先級別,構(gòu) 造優(yōu)化目標函數(shù),可以是:
[0063] 根據(jù)Bradley-Terry模型,通過融合初始排序的文檔集合、排序規(guī)則集合中各個 排序規(guī)則以及各個排序規(guī)則的優(yōu)先級別,構(gòu)造優(yōu)化目標函數(shù),優(yōu)化目標函數(shù)是:
[0064]
[0065] 其中,C是排序規(guī)則集合,c是排序規(guī)則集合C中的各個排序規(guī)則,σ⑴,σ (j) 是初始排序的文檔集合中N個文檔各自的初始排序得分,Θ是優(yōu)化向量,且Θ = (Θ . . .,θ Ν),Θ . . .,θ N分別表示初始排序的文檔集合中N個文檔各自的最終排序得 分,θ = ( Θ . . .,θ N)表示將初始排序的文檔集合中N個文檔按照得分排序后生成的最 終排序的文檔集合,P是排序規(guī)則集合C中各個排序規(guī)則的優(yōu)先級別,P表示排序規(guī)則集合 導出的所有文檔間的偏序關(guān)系的集合,1彡i彡N,1彡j彡N。
[0066] Bradley-Terry模型是一個參數(shù)化的概率模型,用來刻畫N個文檔在排序上的 概率分布。設(shè)初始排序的文檔集合中N個文檔按照得分排序后生成的最終排序為Θ = Ν' (θη···,ΘΝ),且滿足 = 1,···,Ν,且 £身=1,則在 Bradley-Terry模型中,一個 iM 偏序?qū)Γ╥,j)(表示文檔i排在文檔j之前)的概率定義為:
[0067]
[0068] 對于N個文檔上的全排序〇,Bradley-Terry模型定義整個全排序的概率正比于 該全排序誘導出的所有偏序關(guān)系(或者偏序?qū)Γ┑母怕实某朔e,即:
[0069]
[0070] 對于某個排序規(guī)則c,它誘導(或者說規(guī)定)了文檔集合上的一組偏序關(guān)系,由此 構(gòu)成一個偏序關(guān)系的集合(記為Ρ?,這時根據(jù)Bredley-Terry模型,也能推出其概率為:
[0071]
[0072] 不難看出,優(yōu)化目標函數(shù)就是在Bradley-Terry模型的基礎(chǔ)上構(gòu)建的,它其實從 初始排序σ和排序規(guī)則集合C的角度兩次用到Bradley-Terry模型的原始形式,并通過對 概率取log的方式將乘積轉(zhuǎn)化為加和。
[0073]
[0074] 該優(yōu)化函數(shù)中表示某個排序規(guī)則c所對應(yīng)的優(yōu)先級。對于每個排序規(guī)則c, 它誘導(或者說規(guī)定)了文檔集合上的一組偏序關(guān)系,由此構(gòu)成一個偏序關(guān)系的集合(記 為Ρ ε)。對于其中每個偏序關(guān)系(或者說偏序?qū)ζ湓趦?yōu)化目標函數(shù)的貢獻即為其 log-概率,即1〇g i
J
[0075] 求解上述目標函數(shù)的最優(yōu)解的過程如下:
[0076] 初始輸入:初始排序的文檔集合〇,排序規(guī)則集合C,學習率0〈 α〈1 ;
[0077] 1:SW,隨機初始化
[0078] 2 :t - 1
[0079] 3 :循環(huán)
[0082] 5 : Y - 1,用回溯法搜索最優(yōu)步長
[0080]
[0081]
[0083] 6 :當.
[0084] 7 : Υ ^ α y
[0085] 8 :S(t 1} - S(t)_ Υ ▽ S
[0086] 9 :t - t+1
[0087] 10 :直到收斂
[0088] 11 :返[f
[0089] 通過上述方式,能夠獲得該優(yōu)化目標函數(shù)唯一的最優(yōu)解,從而獲得最終排序的文 檔集合。
[0090] 其中,本發(fā)明信息檢索系統(tǒng)的排序方法還可以包括:在用戶界面,展示最終排序的 文檔集合。通過這種方式,可以最大程度使用戶獲得滿足自己需求的文檔集合。
[0091] 參閱圖5,圖5是本發(fā)明信息檢索系統(tǒng)的排序裝置100 -實施方式的結(jié)構(gòu)示意圖, 該裝置100包括:接收模塊101、初始文檔集合獲取模塊102、排序規(guī)則集合獲取模塊103以 及最終文檔集合生成模塊104。
[0092] 需要說明的是,本實施方式的裝置可以執(zhí)行上述方法實施方式中的相應(yīng)步驟。
[0093] 接收模塊101用于接收查詢信息。
[0094] 查詢信息是指用戶為了某種需求進行查詢時輸入的信息,例如:關(guān)鍵詞、關(guān)鍵詞組 合等等。
[0095] 初始文檔集合獲取模塊102用于根據(jù)接收模塊101接收的查詢信息進行檢索得到 初始排序的文檔集合,初始排序的文檔集合是按照檢索結(jié)果文檔與查詢信息的相關(guān)性的大 小,將檢索結(jié)果文檔進行排序后的文檔集合。
[0096] 信息檢索系統(tǒng)接收查詢信息后,根據(jù)該查詢信息進行檢索,獲得候選的檢索結(jié)果 文檔,同時根據(jù)候選的檢索結(jié)果文檔與查詢信息的相關(guān)性的大小,對檢索結(jié)果文檔進行排 序,例如,檢查結(jié)果文檔與查詢信息的相關(guān)性越大,該檢查結(jié)果文檔在排序時越靠前,據(jù)此 獲得的排序后的文檔集合即為初始排序的文檔集合。需要說明的是,此處的信息檢索系統(tǒng) 包括但不限于互聯(lián)網(wǎng)搜索、垂直領(lǐng)域搜索、企業(yè)知識搜索等,以及任何以信息檢索為組件的 系統(tǒng),包括但不限于自動問答系統(tǒng)、移動應(yīng)用商店等。另外,如果檢索結(jié)果小于等于一個,則 無所謂排序問題,因此本方案不考慮該集合中子集為空或者為1情況。
[0097] 排序規(guī)則集合獲取模塊103用于在排序規(guī)則庫中,獲取與接收模塊101接收的查 詢信息、初始文檔集合獲取模塊102得到的初始排序的文檔集合相關(guān)聯(lián)的排序規(guī)則集合。 [0098] 排序規(guī)則庫是指為滿足各種需求所需要考慮的有關(guān)規(guī)則和知識的數(shù)據(jù)庫,它是根 據(jù)不同的信息檢索的業(yè)務(wù)需要,由人工或者數(shù)據(jù)挖掘的方法產(chǎn)生的。比如,在網(wǎng)頁搜索反作 弊的業(yè)務(wù)中,排序規(guī)則庫可能保存的是一些不同程度的作弊或有安全隱患的網(wǎng)頁的統(tǒng)一資 源定位符(Uniform Resource Locator,URL),以及將它們的排序位置置后的位置說明(比 如,置于第5位以后、或第10位以后等)。又比如,在網(wǎng)頁搜索多樣性的業(yè)務(wù)中,排序規(guī)則庫 中保留一系列具有多樣性的查詢詞,以及這些查詢詞對應(yīng)的前10位置必須覆蓋的主題:t匕 如,對于"蘋果"這個查詢詞,排在前10結(jié)果中必須包含"蘋果"作為IT品牌的網(wǎng)頁,也必 須包括"蘋果"作為水果的網(wǎng)頁。在實際系統(tǒng)中,排序規(guī)則庫通常包括多個業(yè)務(wù)維度上的規(guī) 貝1J。因此,該排序規(guī)則庫能夠滿足實際應(yīng)用中復雜多變且動態(tài)變化的需求。另外,由于排序 規(guī)則庫能夠獨立存在,因此排序規(guī)則庫在建立后,可以單獨對排序規(guī)則庫進行自動化的管 理和維護,可以根據(jù)實際應(yīng)用情況進行動態(tài)調(diào)整的,例如,可以新增有關(guān)的規(guī)則和知識,可 以修改有關(guān)的規(guī)則和知識,可以刪除有關(guān)的規(guī)則和知識等。
[0099] 輸入查詢信息和初始排序的文檔集合,根據(jù)相關(guān)性分析,即可在排序規(guī)則庫中查 詢到與該查詢信息,初始排序的文檔集合相關(guān)聯(lián)的排序規(guī)則集合。排序規(guī)則集合中的各個 規(guī)則之間沒有任何順序要求,只要與查詢信息、初始排序的文檔集合相關(guān)聯(lián),該規(guī)則即可選 擇進入排序規(guī)則集合中。
[0100] 最終文檔集合生成模塊104用于根據(jù)初始文檔集合獲取模塊102得到的初始排序 的文檔集合和排序規(guī)則集合獲取模塊103獲取的排序規(guī)則集合進行后排序,生成最終排序 的文檔集合。
[0101] 后排序是指在經(jīng)過初始相關(guān)性排序獲得初始排序的文檔集合之后,根據(jù)知識和規(guī) 則對初始排序的文檔集合進行的后處理。與初始相關(guān)性排序不同,后排序能夠考慮到如多 樣性、安全、運營、商業(yè)等諸多方面的需求。
[0102] 根據(jù)初始排序的文檔集合和排序規(guī)則集合進行后排序,生成最終排序的文檔集 合,該最終排序的文檔集合是在綜合考慮排序規(guī)則集合中的各個規(guī)則后,對初始排序的文 檔集合進行后處理,即進行第二次排序后的結(jié)果。因此最
當前第3頁1 2 3 4 5 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
措勤县| 克东县| 类乌齐县| 南城县| 邯郸市| 芮城县| 甘孜| 天津市| 七台河市| 贺兰县| 咸阳市| 土默特左旗| 云霄县| 五河县| 息烽县| 屏南县| 湛江市| 澳门| 绥江县| 临西县| 广平县| 眉山市| 黄龙县| 康马县| 高安市| 长岛县| 印江| 华容县| 丰台区| 绥化市| 永州市| 晋宁县| 霍州市| 乌拉特中旗| 建昌县| 邳州市| 彭水| 汨罗市| 磐石市| 山阴县| 鄂伦春自治旗|