两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

網(wǎng)頁搜索結(jié)果排序方法及裝置的制作方法

文檔序號(hào):6366674閱讀:191來源:國知局
專利名稱:網(wǎng)頁搜索結(jié)果排序方法及裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種網(wǎng)頁搜索結(jié)果排序方法及裝置,屬于互聯(lián)網(wǎng)搜索技術(shù)領(lǐng)域。
背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡(luò)信息量呈現(xiàn)爆炸式增長(zhǎng),因此出現(xiàn)了搜索引擎服務(wù),如百度、谷歌等。這種服務(wù)由索引擎服務(wù)器根據(jù)用戶提供的查詢?cè)~進(jìn)行網(wǎng)頁搜索,并將搜索出的相關(guān)網(wǎng)頁的鏈接作為搜索結(jié)果呈現(xiàn)給用戶。由于搜索出的相關(guān)網(wǎng)頁數(shù)量通常不只一個(gè),因此需要對(duì)這些網(wǎng)頁搜索結(jié)果進(jìn)行排序,現(xiàn)有技術(shù)中對(duì)網(wǎng)頁搜索結(jié)果進(jìn)行排序時(shí)通常采用如下的方法方法1,頁面排序法(pageRank)
該方法根據(jù)網(wǎng)頁之間相互的超鏈接關(guān)系計(jì)算頁面等級(jí),以作為網(wǎng)頁排名的依據(jù),具體地,該方法把從A頁面到B頁面的鏈接解釋為A頁面給B頁面投票,從而根據(jù)投票來源和投票目標(biāo)的等級(jí)來決定新的等級(jí)。方法2,學(xué)習(xí)排序法(learning to rank)該方法是一類機(jī)器學(xué)習(xí)排序方法的總稱,主要是將待排序的網(wǎng)頁與查詢?cè)~進(jìn)行配對(duì),進(jìn)行特征提取,這些特征包括文本相似度、用戶點(diǎn)擊率等信息;針對(duì)提取出的特征,以相關(guān)性或點(diǎn)擊率為目標(biāo)進(jìn)行機(jī)器學(xué)習(xí);根據(jù)機(jī)器學(xué)習(xí)結(jié)果計(jì)算每個(gè)網(wǎng)頁與查詢?cè)~之間的靜態(tài)分?jǐn)?shù),以此分?jǐn)?shù)為排序的依據(jù)?,F(xiàn)有技術(shù)的主要缺陷在于在對(duì)網(wǎng)頁搜索結(jié)果進(jìn)行排序均只考慮了網(wǎng)頁本身的特征而沒有考慮人作為信息發(fā)布者的因素,實(shí)際上,由不同人發(fā)布相同內(nèi)容的網(wǎng)頁的可信度是不同的,因此,現(xiàn)有方法不能將真正具有高可信度的網(wǎng)頁排在前列,因此其排序可信性較差。

發(fā)明內(nèi)容
本發(fā)明提供一種網(wǎng)頁搜索結(jié)果排序方法及裝置,用以提高排序的可信性。本發(fā)明一方面提供一種網(wǎng)頁搜索結(jié)果排序方法,其中包括搜索引擎根據(jù)用戶輸入的查詢?cè)~搜索出多個(gè)相關(guān)的網(wǎng)頁;獲取所述網(wǎng)頁的發(fā)布者的全網(wǎng)統(tǒng)一的用戶標(biāo)識(shí)P及所述網(wǎng)頁的網(wǎng)頁信息I ;計(jì)算所述P及所述I的信息量和相關(guān)度;根據(jù)所述信息量和相關(guān)度計(jì)算得到所述I的信息質(zhì)量得分;按照所述信息質(zhì)量得分從大到小的順序排列相應(yīng)的網(wǎng)頁。本發(fā)明另一方面提供一種網(wǎng)頁搜索結(jié)果排序裝置,其中包括搜索引擎,用于根據(jù)用戶輸入的查詢?cè)~搜索出多個(gè)相關(guān)的網(wǎng)頁;獲取模塊,用于獲取由搜索引擎搜索出的所述網(wǎng)頁的發(fā)布者的全網(wǎng)統(tǒng)一的用戶標(biāo)識(shí)P及所述網(wǎng)頁的網(wǎng)頁信息I ;第一計(jì)算模塊,用于計(jì)算由獲取模塊得到的所述P及所述I的信息量和相關(guān)度;
第二計(jì)算模塊,用于根據(jù)由第一計(jì)算模塊得到的所述信息量和相關(guān)度計(jì)算得到所述I的信息質(zhì)量得分;排序模塊,用于按照由第二計(jì)算模塊得到的所述信息質(zhì)量得分從大到小的順序排列相應(yīng)的網(wǎng)頁。本發(fā)明通過計(jì)算用戶標(biāo)識(shí)與網(wǎng)頁信息的信息量和相關(guān)度,進(jìn)而計(jì)算得到各個(gè)網(wǎng)頁的信息質(zhì)量得分用于進(jìn)行網(wǎng)頁排序,因此在進(jìn)行網(wǎng)頁排序時(shí)不僅考慮了網(wǎng)頁自身的因素,而且還考慮了人作為信息發(fā)布者的因素,使得真正具有高可信度的網(wǎng)頁能夠排在前列,因此提高了網(wǎng)頁排序的可信性。


圖I為本發(fā)明所述網(wǎng)頁搜索結(jié)果排序方法實(shí)施例的流程圖;
圖2為用于說明圖I所不方法的舉例關(guān)系圖;圖3為本發(fā)明所述網(wǎng)頁搜索結(jié)果排序裝置實(shí)施例的結(jié)構(gòu)示意圖。
具體實(shí)施例方式圖I為本發(fā)明所述網(wǎng)頁搜索結(jié)果排序方法實(shí)施例的流程圖,如圖所示,包括如下步驟步驟110,搜索引擎根據(jù)用戶輸入的查詢?cè)~搜索出多個(gè)相關(guān)的網(wǎng)頁。其中,所述查詢?cè)~是用戶想要搜索的關(guān)鍵信息,具體的搜索過程與現(xiàn)有技術(shù)相同,所述網(wǎng)頁為搜索結(jié)果。步驟120,獲取所述網(wǎng)頁的發(fā)布者的全網(wǎng)統(tǒng)一的用戶標(biāo)識(shí)P及所述網(wǎng)頁的信息I。其中,所述全網(wǎng)統(tǒng)一的用戶標(biāo)識(shí)P用于把一個(gè)自然人與其在互聯(lián)網(wǎng)的行為聯(lián)系起來。該用戶標(biāo)識(shí)可以有多種實(shí)現(xiàn)方案,具體可以具有的特征為ID的編號(hào)、注冊(cè)郵箱、注冊(cè)時(shí)間、真實(shí)姓名、對(duì)應(yīng)的公用賬號(hào)、微博、QQ等。當(dāng)兩個(gè)用戶標(biāo)識(shí)的相似程度到達(dá)一定閾值時(shí),認(rèn)為這兩個(gè)用戶標(biāo)識(shí)屬于同一個(gè)自然人所有。具體地,在本實(shí)施例中,將全網(wǎng)的信息按照信息發(fā)布者做一個(gè)統(tǒng)一的鏡像,在這個(gè)網(wǎng)絡(luò)里面,本實(shí)施例只關(guān)心表I中的P和I。表I
權(quán)利要求
1.一種網(wǎng)頁搜索結(jié)果排序方法,其特征在于,包括 搜索引擎根據(jù)用戶輸入的查詢?cè)~搜索出多個(gè)相關(guān)的網(wǎng)頁; 獲取所述網(wǎng)頁的發(fā)布者的全網(wǎng)統(tǒng)一的用戶標(biāo)識(shí)P及所述網(wǎng)頁的網(wǎng)頁信息I; 計(jì)算所述P及所述I的信息量和相關(guān)度; 根據(jù)所述信息量和相關(guān)度計(jì)算得到所述I的信息質(zhì)量得分; 按照所述信息質(zhì)量得分從大到小的順序排列相應(yīng)的網(wǎng)頁。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,計(jì)算所述P及所述I的信息量包括 第i個(gè)用戶標(biāo)識(shí)Pi的信息量E (Pi) = O ; 第i個(gè)網(wǎng)頁信息Ii的信息量E(Ii) = Iogdi的字節(jié)數(shù))。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,計(jì)算所述P及所述I的相關(guān)度包括 計(jì)算每?jī)蓚€(gè)網(wǎng)頁信息I之間的互相關(guān)信息量
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,根據(jù)所述信息量和相關(guān)度計(jì)算得到所述I的信息質(zhì)量得分包括根據(jù)所述信息量和相關(guān)度構(gòu)建以所述P的標(biāo)識(shí)質(zhì)量得分HPi)為元素的標(biāo)識(shí)質(zhì)量得分向量rp = (1-a )PP rp+(l-a ) IP ri以及以所述I的信息質(zhì)量得分Hli)為元素的信息質(zhì)量得分;ri = a ri0+(l- a )PI rp+(l- a ) II ri 求解由所述第一表達(dá)式和第二表達(dá)式聯(lián)立而成的向量方程組得到所述標(biāo)識(shí)質(zhì)量得分; 其中,Titl表示初始信息量,PP表示P與P之間的相關(guān)度矩陣;IP表示I與P之間的相關(guān)度矩陣;PI表示P與I之間的相關(guān)度矩陣表示I與I之間的相關(guān)度矩陣;a為比例參數(shù)。
5.一種網(wǎng)頁搜索結(jié)果排序裝置,其特征在于,包括 搜索引擎,用于根據(jù)用戶輸入的查詢?cè)~搜索出多個(gè)相關(guān)的網(wǎng)頁; 獲取模塊,用于獲取由搜索引擎搜索出的所述網(wǎng)頁的發(fā)布者的全網(wǎng)統(tǒng)一的用戶標(biāo)識(shí)P及所述網(wǎng)頁的網(wǎng)頁信息I ; 第一計(jì)算模塊,用于計(jì)算由獲取模塊得到的所述P及所述I的信息量和相關(guān)度;第二計(jì)算模塊,用于根據(jù)由第一計(jì)算模塊得到的所述信息量和相關(guān)度計(jì)算得到所述I的信息質(zhì)量得分; 排序模塊,用于按照由第二計(jì)算模塊得到的所述信息質(zhì)量得分從大到小的順序排列相應(yīng)的網(wǎng)頁。
全文摘要
本發(fā)明提供一種網(wǎng)頁搜索結(jié)果排序方法及裝置。其中方法包括搜索引擎根據(jù)用戶輸入的查詢?cè)~搜索出多個(gè)相關(guān)的網(wǎng)頁;獲取所述網(wǎng)頁的發(fā)布者的全網(wǎng)統(tǒng)一的用戶標(biāo)識(shí)P及所述網(wǎng)頁的網(wǎng)頁信息I;計(jì)算所述P及所述I的信息量和相關(guān)度;根據(jù)所述信息量和相關(guān)度計(jì)算得到所述I的信息質(zhì)量得分;按照所述信息質(zhì)量得分從大到小的順序排列相應(yīng)的網(wǎng)頁。本發(fā)明在進(jìn)行網(wǎng)頁排序時(shí)不僅考慮了網(wǎng)頁自身的因素,而且還考慮了人作為信息發(fā)布者的因素,使得真正具有高可信度的網(wǎng)頁能夠排在前列,因此提高了網(wǎng)頁排序的可信性。
文檔編號(hào)G06F17/30GK102737090SQ201210075938
公開日2012年10月17日 申請(qǐng)日期2012年3月21日 優(yōu)先權(quán)日2012年3月21日
發(fā)明者袁行遠(yuǎn), 龔穎坤 申請(qǐng)人:袁行遠(yuǎn)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
奈曼旗| 东源县| 江孜县| 射洪县| 武冈市| 金秀| 济南市| 肥乡县| 梁山县| 汤原县| 桃源县| 正定县| 天气| 寻乌县| 固镇县| 石首市| 长垣县| 渝北区| 深泽县| 临高县| 宣化县| 康定县| 长子县| 长治县| 千阳县| 平阴县| 武城县| 双流县| 英德市| 连山| 临沭县| 武邑县| 东乡县| 广河县| 牟定县| 桑植县| 昌乐县| 嵊州市| 乌兰浩特市| 高唐县| 安新县|