網(wǎng)頁推送方法及系統(tǒng)的制作方法
【專利摘要】一種網(wǎng)頁推送方法,包括:收集用戶訪問過的網(wǎng)頁;根據(jù)所述用戶訪問過的網(wǎng)頁獲得所述用戶的興趣所在的類別;推送所述用戶的興趣所在的類別的網(wǎng)頁給所述用戶。上述網(wǎng)頁推送方法結合用戶問過的網(wǎng)頁確定用戶的興趣所在的類別,再將該類別的網(wǎng)頁推送給用戶,能夠根據(jù)用戶的情況進行信息的推送,所推送的信息往往也是用戶所需要的,提高了推送信息的有效性,有利于信息量的擴充和信息的有效傳播。此外,還提供一種網(wǎng)頁推送系統(tǒng)。
【專利說明】網(wǎng)頁推送方法及系統(tǒng)
【技術領域】
[0001]本發(fā)明涉及計算機技術,特別是涉及一種網(wǎng)頁推送方法及系統(tǒng)。
【背景技術】
[0002]瀏覽器作為瀏覽互聯(lián)網(wǎng)億級網(wǎng)頁的入口,已經(jīng)成為用戶訪問網(wǎng)絡常用工具。用戶在使用瀏覽器的過程中,通常需要獲取特定內容或者感興趣的網(wǎng)頁。傳統(tǒng)的瀏覽器通常采用通過輸入網(wǎng)址進入指定網(wǎng)頁,或者直接在搜索欄輸入關鍵詞來搜尋特定內容的網(wǎng)頁。
[0003]這種傳統(tǒng)的通過瀏覽器輸入網(wǎng)址、輸入關鍵詞訪問網(wǎng)頁的方式由于主要靠用戶的輸入動作,導致用戶訪問的網(wǎng)頁受限,網(wǎng)頁的傳播效率不高。對此,部分瀏覽器提出了一些主動向用戶推送網(wǎng)頁的方法:其中一種為記錄用戶輸入或訪問過的網(wǎng)頁的關鍵詞,在瀏覽器的部分區(qū)域主動顯示一些與這些關鍵詞相關的網(wǎng)頁,從而擴充信息量;另外一種為向用戶提供使用相同瀏覽器的其他用戶訪問過的網(wǎng)頁并按照訪問量進行排序。
[0004]然而,第一種推送網(wǎng)頁的方法存在重復性,用戶可能已經(jīng)通過之前的關鍵詞了解到了足夠的信息,推送的網(wǎng)頁對用戶已經(jīng)沒有作用;第二種方式推送給用戶的網(wǎng)頁按照其他用戶的訪問量排序,不能夠體現(xiàn)用戶的個性化需求,而且只能針對其他用戶訪問過的網(wǎng)站或網(wǎng)頁,不能為用戶發(fā)現(xiàn)更多的網(wǎng)頁。也就是說,傳統(tǒng)的推送網(wǎng)頁的方法不能夠根據(jù)用戶的情況進行信息的有效推送,不利于信息量的擴充和信息的傳播效率。
【發(fā)明內容】
[0005]基于此,有必要針對傳統(tǒng)的推送網(wǎng)頁的方法不能夠根據(jù)用戶的情況進行信息的有效推送,不利于信息量的擴充和信息的傳播效率的問題,提供一種網(wǎng)頁推送方法。
[0006]一種網(wǎng)頁推送方法,包括:
[0007]收集用戶訪問過的網(wǎng)頁;
[0008]根據(jù)所述用戶訪問過的網(wǎng)頁獲得所述用戶的興趣所在的類別;
[0009]推送所述用戶的興趣所在的類別的網(wǎng)頁給所述用戶。
[0010]一種網(wǎng)頁推送系統(tǒng),包括:
[0011]網(wǎng)頁收集模塊,收集用戶訪問過的網(wǎng)頁;
[0012]興趣分類模塊,根據(jù)所述用戶訪問過的網(wǎng)頁獲得所述用戶的興趣所在的類別;
[0013]分類推送模塊,推送所述用戶的興趣所在的類別的網(wǎng)頁給所述用戶。
[0014]上述網(wǎng)頁推送方法及系統(tǒng)結合用戶問過的網(wǎng)頁確定用戶的興趣所在的類別,再將該類別的網(wǎng)頁推送給用戶,能夠根據(jù)用戶的情況進行信息的推送,所推送的信息往往也是用戶所需要的,提高了推送信息的有效性,有利于信息量的擴充和信息的有效傳播。
【專利附圖】
【附圖說明】
[0015]圖1為第一實施方式的網(wǎng)頁推送方法的流程圖;
[0016]圖2為第二實施方式的網(wǎng)頁推送方法的流程圖;[0017]圖3為根據(jù)分類體系將網(wǎng)頁分類到相應的類別的具體流程圖;
[0018]圖4為根據(jù)已分類網(wǎng)頁及分類體系對需要分類的網(wǎng)頁進行分類的具體流程圖;
[0019]圖5為網(wǎng)頁分類過程中采用置亂配對的方式進行匹配的具體流程圖;
[0020]圖6為根據(jù)用戶訪問過的網(wǎng)頁獲得用戶的興趣所在的類別的具體流程圖;
[0021]圖7為用戶興趣分類過程中采用置亂配對的方式進行匹配的具體流程圖;
[0022]圖8為傳統(tǒng)的相似度計算公式示意圖;
[0023]圖9為采用集合的方式推送網(wǎng)頁的具體流程圖;
[0024]圖10為第一實施方式的網(wǎng)頁推送系統(tǒng)的模塊圖;
[0025]圖11為第二實施方式的網(wǎng)頁推送系統(tǒng)的模塊圖;
[0026]圖12為網(wǎng)頁分類模塊的示意圖;
[0027]圖13為網(wǎng)頁分類單元的示意圖;
[0028]圖14為第一匹配單元的示意圖;
[0029]圖15為興趣分類模塊的示意圖;
[0030]圖16為第二匹配單元的示意圖;
[0031]圖17為集合推送模塊的示意圖。
【具體實施方式】
[0032]如圖1所示,一實施例中的網(wǎng)頁推送方法,包括如下步驟:
[0033]步驟S110,收集用戶訪問過的網(wǎng)頁。由于用戶的興趣隨時間變化,不同時間段訪問的網(wǎng)頁不同,需要不斷收集用戶訪問的網(wǎng)頁。通過瀏覽器收集用戶訪問過的網(wǎng)頁的網(wǎng)址發(fā)送到服務器進行處理。這里的瀏覽器可以是專用于瀏覽網(wǎng)頁的瀏覽器,也可以是兼具瀏覽器功能的其他工具,例如下載工具、視頻播放工具等。收集用戶訪問過的網(wǎng)頁除了通過收集網(wǎng)頁的網(wǎng)址外,還可以對該網(wǎng)址進行處理后進行收集,例如處理成具有統(tǒng)一格式的標識信息等,只要能再次獲得該網(wǎng)頁即可;另外,只要存儲量和計算量允許,還可以將網(wǎng)頁所包含的具體內容也一并收集。
[0034]步驟S120,根據(jù)用戶訪問過的網(wǎng)頁獲得用戶的興趣所在的類別。通過步驟SllO收集用戶訪問過的網(wǎng)頁后,可以對這些網(wǎng)頁進行處理獲得用戶的興趣所在的類別。類別的具體名稱及上下層的母類別和子類別對應關系可以預先設定,再根據(jù)用戶訪問過的網(wǎng)頁進行分類,將用戶的興趣依據(jù)訪問過的網(wǎng)頁分類到相應類別上。例如用戶訪問過的網(wǎng)頁包含大量體育類關鍵詞,可以將用戶的興趣定位為體育類別,進一步的如果這些體育類關鍵詞中足球和籃球較多,可以將用戶的興趣定位為體育母類別中的足球子類別和籃球子類別;又如用戶訪問過的網(wǎng)頁包含大量財經(jīng)類、娛樂類關鍵詞,可以將用戶的興趣定位為財經(jīng)類、娛樂類兩個類別。關鍵詞的獲得可以通過訪問過的網(wǎng)頁中的導航信息中獲得,這種方式能夠簡單快捷的獲得網(wǎng)頁中最有效的關鍵詞。另外,關鍵詞也可以通過對網(wǎng)頁內容進行統(tǒng)計提取數(shù)量最多的詞作為關鍵詞。在具體的處理過程中,可以將關鍵詞處理成標識代碼,方便運算,而不用處理文字本身。
[0035]步驟S130,推送用戶的興趣所在的類別的網(wǎng)頁給所述用戶。通過步驟S120獲得用戶的興趣所在的類別后,可以將該類別對應的網(wǎng)頁推送給用戶,該類別對應的網(wǎng)頁可以是通過人工預先設定的一些網(wǎng)頁,也可以是計算機自動分類到該類別的網(wǎng)頁,還可以是人工預先設定的一些網(wǎng)頁和計算機自動分類的結合。當然,由于互聯(lián)網(wǎng)中網(wǎng)頁的數(shù)量級非常龐大,絕大多數(shù)網(wǎng)頁是通過計算機自動分類到相應類別的。與根據(jù)用戶訪問過的網(wǎng)頁獲得用戶的興趣所在的類別的方法類似,同樣可以將需要分類的網(wǎng)頁根據(jù)關鍵詞進行匹配,只是在根據(jù)用戶訪問過的網(wǎng)頁獲得用戶的興趣所在的類別的過程中,用戶訪問過的網(wǎng)頁是若干個網(wǎng)頁,將若干個網(wǎng)頁的關鍵詞的集合來進行分類,可以根據(jù)需要分類到一個或幾個類別中;而將需要分類的網(wǎng)頁自動分類到相應類別的過程中,網(wǎng)頁是逐個分類的,只依據(jù)該單個網(wǎng)頁的關鍵詞來進行分類,一般也只分類到一個類別中。在推送的過程中,某個類別下的網(wǎng)頁量通常比較龐大,可以采取隨機推送的方式,也可以根據(jù)訪問量排名將排名靠前的網(wǎng)頁推送給用戶。當然,為了避免重復推送,對用戶已經(jīng)訪問的網(wǎng)頁和已經(jīng)推送但用戶沒有訪問的網(wǎng)頁不再推送。
[0036]上述網(wǎng)頁推送方法結合用戶問過的網(wǎng)頁確定用戶的興趣所在的類別,再將該類別的網(wǎng)頁推送給用戶,能夠根據(jù)用戶的情況進行信息的推送,所推送的信息往往也是用戶所需要的,提高了推送信息的有效性,有利于信息量的擴充和信息的有效傳播。
[0037]如圖2所示,一實施例中的網(wǎng)頁推送方法,還包括根據(jù)分類體系將網(wǎng)頁分類到相應的類別的步驟S200。分類體系確定后,通過下述幾種方式可以將網(wǎng)頁分類到相應的類別中,如通過人工預先設定網(wǎng)頁到上述分類體系的類別中,也可以是計算機自動分類到上述分類體系的類別中,還可以是人工預先設定的一些網(wǎng)頁和計算機自動分類的結合。當然,如上所述,由于互聯(lián)網(wǎng)中網(wǎng)頁的數(shù)量級非常龐大,因此本步驟S200是通過計算機自動分類到相應類別的。分類體系可以采用已有的網(wǎng)址分類大全的分類體系,也可以根據(jù)瀏覽器用戶的具體需求,建立合適范圍、大小、細分程度的分類體系。分類體系中每個母類別可以再分出一些子類別,每個母類別或子類別可以包含一些網(wǎng)頁的網(wǎng)址,比如藝術類別包含一些藝術相關的網(wǎng)頁,同時有電影、電視、攝影等子類別。子類別也可以包含一些網(wǎng)頁的網(wǎng)址,如電影子類別中有電影相關的網(wǎng)頁的網(wǎng)址等。
[0038]由于步驟S200可以預先完成,因此在網(wǎng)頁推送方法運行的過程中可以不執(zhí)行步驟S200。另外,步驟S200可以完全由人工預設完成,而不作為計算機自動運行的網(wǎng)頁推送方法的一部分。步驟S200之后依次為步驟S210、步驟S220及步驟S230,步驟S210、步驟S220及步驟S230分別與步驟S110、步驟S120及步驟S 130相同,在此不再贅述。
[0039]具體來說,如圖3所示,步驟S200采用人工預先設定的一些網(wǎng)頁和計算機自動分類的結合的方式進行分類可以具體包括如下步驟:
[0040]步驟S310,讀取網(wǎng)頁分類體系。如上所述,分類體系可以采用已有的網(wǎng)址分類大全的分類體系,也可以根據(jù)瀏覽器用戶的具體需求,建立合適范圍、大小、細分程度的分類體系。分類體系通常為樹形。
[0041]步驟S320,讀取已經(jīng)分類到所述分類體系的已分類網(wǎng)頁。這些已分類網(wǎng)頁為通過人工預先設定好類別的網(wǎng)頁,作為計算機自動分類的基礎,建立計算機自動分類的訓練模型。
[0042]步驟S330,根據(jù)已分類網(wǎng)頁及分類體系對需要分類的網(wǎng)頁進行分類。本步驟中,通過網(wǎng)頁爬蟲抓取的需要分類的網(wǎng)頁根據(jù)已分類網(wǎng)頁及分類體系進行分類,分類的依據(jù)可以抽取需要分類的網(wǎng)頁中的關鍵詞與已分類網(wǎng)頁中的關鍵詞的集合進行相似度計算,符合要求的分到相應類別中;分類的依據(jù)還可以是抽取需要分類的網(wǎng)頁中的關鍵詞與已分類網(wǎng)頁中的關鍵詞的進行匹配,符合要求的分到相應類別中。
[0043]采用人工預先設定的一些網(wǎng)頁和計算機自動分類的結合的方式進行分類,既能減少人工分類的工作量(因為無窮盡的互聯(lián)網(wǎng)網(wǎng)頁資源使得不可能通過人工將所有網(wǎng)頁分類完),以人工分類的網(wǎng)頁作為基礎,又能保證分類的準確度。
[0044]如圖4所示,通過關鍵詞匹配的方式實現(xiàn)步驟S330的方式具體包括如下步驟:
[0045]步驟S410,抽取已分類網(wǎng)頁的關鍵詞。因為大型網(wǎng)站通常都有自己對網(wǎng)頁的分類信息,這些分類信息通常都有固定的展現(xiàn)形式,利用這些分類信息能夠高效的實現(xiàn)網(wǎng)頁分類。例如,利用網(wǎng)頁中的導航信息來幫助網(wǎng)頁分類,通過針對固定的大型網(wǎng)站預先配置的導航信息位置,解析網(wǎng)頁的DOM (Document Object Model,文檔對象模型)樹,獲得導航信息的內容作為關鍵詞。另外,關鍵詞也可以通過對網(wǎng)頁內容進行統(tǒng)計提取數(shù)量最多的詞作為關鍵詞。
[0046]步驟S420,建立已分類網(wǎng)頁的關鍵詞的集合。通常一個網(wǎng)頁中的關鍵詞不止一個,而已分類網(wǎng)頁通常也有多個,對各個已分類網(wǎng)頁的關鍵詞進行組合可以得到相應類別的已分類網(wǎng)頁的關鍵詞的集合。當然只有一個關鍵詞也可以作只有一個關鍵詞的集合。進一步地,為了減小集合中關鍵詞的數(shù)量,可以將已分類網(wǎng)頁的關鍵詞的集合中出現(xiàn)頻率低于要求的關鍵詞刪除。
[0047]步驟S430,抽取需要分類的網(wǎng)頁的關鍵詞。本步驟的抽取方式與步驟S410類似,只是抽取的是需要分類的網(wǎng)頁的關鍵詞。
[0048]步驟S440,建立需要分類的網(wǎng)頁的關鍵詞的集合。通常一個網(wǎng)頁中的關鍵詞不止一個,將這些關鍵詞進行組合可以得到需要分類的網(wǎng)頁的關鍵詞的集合。如果采用導航信息的內容作為關鍵詞,由于關鍵詞的概括性已經(jīng)非常強,可以不刪除出現(xiàn)頻率低的關鍵詞;當然,在關鍵詞的量較大的情況下,也可以刪除出現(xiàn)頻率低于要求的關鍵詞。
[0049]步驟S450,將需要分類的網(wǎng)頁分類到與需要分類的網(wǎng)頁的關鍵詞的集合匹配的已分類網(wǎng)頁的關鍵詞的集合對應的類別中。本步驟中的匹配可以是已分類網(wǎng)頁的關鍵詞的集合包括需要分類的網(wǎng)頁的關鍵詞的集合,還可以是置亂配對的方式。置亂配對的方式將在下文進行更詳細的描述。
[0050]通過關鍵詞匹配的方式實現(xiàn)需要分類的網(wǎng)頁的分類,可以減少計算的復雜度,t匕如相似度的計算比較耗費計算資源,而關鍵詞的匹配則可以減少對計算資源的依賴,在大量網(wǎng)頁需要分類的情況下,可以顯著提高分類的效率。
[0051]如圖5所示,步驟S450采用置亂配對的方式進行匹配的方式包括如下步驟:
[0052]步驟S510,對已分類網(wǎng)頁的關鍵詞的集合進行η次置亂操作,獲得每次置亂操作排在預定位置的關鍵詞的集合作為該類別的已分類網(wǎng)頁的置亂集合。例如,已分類網(wǎng)頁的關鍵詞的集合為=Ci=IKpK2A3,...,KJ,進行第一次隨機打亂次序的置亂操作后,排在第一位的預定位置的關鍵詞為K3;進行第二次隨機打亂次序的置亂操作后,排在第一位的預定位置的關鍵詞為K5;進行第三次隨機打亂次序的置亂操作后,排在第一位的預定位置的關鍵詞為κ2。則已分類網(wǎng)頁的置亂集合為Cix={K2,K3,KJ。
[0053]步驟S520,對需要分類的網(wǎng)頁的關鍵詞的集合進行η次置亂操作,獲得每次置亂操作排在預定位置的關鍵詞的集合作為需要分類的網(wǎng)頁的置亂集合。例如,需要分類的網(wǎng)頁的關鍵詞的集合為=Wi=IKpK2A3,...,KJ,進行第一次隨機打亂次序的置亂操作后,排在第一位的預定位置的關鍵詞為K3;進行第二次隨機打亂次序的置亂操作后,排在第一位的預定位置的關鍵詞為K5;進行第三次隨機打亂次序的置亂操作后,排在第一位的預定位置的關鍵詞為κ2。則已分類網(wǎng)頁的置亂集合為Wix={K2,K3,KJ。
[0054]步驟S530,將需要分類的網(wǎng)頁分類到與需要分類的網(wǎng)頁的置亂集合相同的已分類網(wǎng)頁的置亂集合對應的類別中。例如,上面的例子中,Cix與Wix相同,將關鍵詞的集合為:Wi=IK1, K2, K3, , KJ的需要分類的網(wǎng)頁分類到已分類網(wǎng)頁的置亂集合為Cix={K2,K3, KJ對應的類別中。當然,上面是以一個例子進行說明,實際處理過程中,由于類別較多,因此已分類網(wǎng)頁的置亂集合也較多;置亂操作的次數(shù)η也可以根據(jù)需要進行設定,例如只置亂I次,則置亂集合只有一個關鍵詞,雖然分類的精度不高,但是可以大量減少計算量,對于推送要求不高場合非常適用;如果推送要求較高,可以根據(jù)需要設定置亂的次數(shù)η,因此有極高的靈活性。
[0055]如圖6所示,步驟S200的分類方法同樣可以用到步驟S120中,即根據(jù)用戶訪問過的網(wǎng)頁獲得用戶的興趣所在的類別的步驟具體包括步驟S610至S670。
[0056]步驟S610,讀取網(wǎng)頁分類體系。如上所述,分類體系可以采用已有的網(wǎng)址分類大全的分類體系,也可以根據(jù)瀏覽器用戶的具體需求,建立合適范圍、大小、細分程度的分類體系。分類體系通常為樹形。本步驟也可以直接使用步驟S310的結果。
[0057]步驟S620,讀取已經(jīng)分類到所述分類體系的已分類網(wǎng)頁。這些已分類網(wǎng)頁為通過人工預先設定好類別的網(wǎng)頁,作為計算機自動分類的基礎,建立計算機自動分類的訓練模型。本步驟也可以直接使用步驟S320的結果。
[0058]步驟S630,抽取已分類網(wǎng)頁的關鍵詞。因為大型網(wǎng)站通常都有自己對網(wǎng)頁的分類信息,這些分類信息通常都有固定的展現(xiàn)形式,利用這些分類信息能夠高效的實現(xiàn)網(wǎng)頁分類。例如,利用網(wǎng)頁中的導航信息來幫助網(wǎng)頁分類,通過針對固定的大型網(wǎng)站預先配置的導航信息位置,解析網(wǎng)頁的DOM樹,獲得導航信息的內容作為關鍵詞。另外,關鍵詞也可以通過對網(wǎng)頁內容進行統(tǒng)計提取數(shù)量最多的詞作為關鍵詞。本步驟也可以直接使用步驟S410的結果。
[0059]步驟S640,建立已分類網(wǎng)頁的關鍵詞的集合。通常一個網(wǎng)頁中的關鍵詞不止一個,而已分類網(wǎng)頁通常也有多個,對各個已分類網(wǎng)頁的關鍵詞進行組合可以得到相應類別的已分類網(wǎng)頁的關鍵詞的集合。進一步地,為了減小集合中關鍵詞的數(shù)量,可以將已分類網(wǎng)頁的關鍵詞的集合中出現(xiàn)頻率低于要求的關鍵詞刪除。本步驟也可以直接使用步驟S420的結果O
[0060]步驟S650,抽取用戶訪問過的網(wǎng)頁的關鍵詞。本步驟的抽取方式與步驟S630類似,只是抽取的是用戶訪問過的網(wǎng)頁的關鍵詞。
[0061]步驟S660,建立用戶訪問過的網(wǎng)頁的關鍵詞的集合。通常一個網(wǎng)頁中的關鍵詞不止一個,而用戶訪問過的網(wǎng)頁通常也有多個,對各個用戶訪問過的網(wǎng)頁的關鍵詞進行組合可以得到用戶訪問過的網(wǎng)頁的關鍵詞的集合。進一步地,為了減小集合中關鍵詞的數(shù)量,可以將用戶訪問過的網(wǎng)頁的關鍵詞的集合中出現(xiàn)頻率低于要求的關鍵詞刪除。
[0062]步驟S670,將所述用戶分類到與所述用戶訪問過的網(wǎng)頁的關鍵詞的集合匹配的所述已分類網(wǎng)頁的關鍵詞的集合對應的類別中。本步驟中的匹配可以是已分類網(wǎng)頁的關鍵詞的集合包括用戶訪問過的網(wǎng)頁的關鍵詞的集合,還可以是置亂配對的方式。通過關鍵詞匹配的方式實現(xiàn)用戶訪問過的網(wǎng)頁的分類,可以減少計算的復雜度,比如相似度的計算比較耗費計算資源,而關鍵詞的匹配則可以減少對計算資源的依賴。
[0063]如圖7所示,步驟S670采用置亂配對的方式進行匹配的方式包括如下步驟:
[0064]步驟S710,對已分類網(wǎng)頁的關鍵詞的集合進行m次置亂操作,獲得每次置亂操作排在預定位置的關鍵詞的集合作為該類別的已分類網(wǎng)頁的置亂集合。例如,已分類網(wǎng)頁的關鍵詞的集合為=Ci=IKpK2A3,...,KJ,進行第一次隨機打亂次序的置亂操作后,排在第一位的預定位置的關鍵詞為K3;進行第二次隨機打亂次序的置亂操作后,排在第一位的預定位置的關鍵詞為K5;進行第三次隨機打亂次序的置亂操作后,排在第一位的預定位置的關鍵詞為κ2。則已分類網(wǎng)頁的置亂集合為Cix={K2,K3,KJ。
[0065]步驟S720,對用戶訪問過的網(wǎng)頁的關鍵詞的集合進行m次置亂操作,獲得每次置亂操作排在預定位置的關鍵詞的集合作為用戶訪問過的網(wǎng)頁的置亂集合。例如,用戶訪問過的網(wǎng)頁的關鍵詞的集合為=Ui=IKpK2A3,...,KJ,進行第一次隨機打亂次序的置亂操作后,排在第一位的預定位置的關鍵詞為K3;進行第二次隨機打亂次序的置亂操作后,排在第一位的預定位置的關鍵詞為K5;進行第三次隨機打亂次序的置亂操作后,排在第一位的預定位置的關鍵詞為κ2。則已分類網(wǎng)頁的置亂集合為Uix={K2,K3, KJ。
[0066]步驟S730,將用戶的興趣分類到與用戶訪問過的網(wǎng)頁的置亂集合相同的已分類網(wǎng)頁的置亂集合對應的類別中。例如,上面的例子中,Cix與Uix相同,將用戶的興趣分類到已分類網(wǎng)頁的置亂集合為Cix= {Κ2,Κ3,Κ5}對應的類別中。當然,上面是以一個例子進行說明,實際處理過程中,由于類別較多,因此已分類網(wǎng)頁的置亂集合也較多;置亂操作的次數(shù)η也可以根據(jù)需要進行設定。這里由于用戶訪問過的網(wǎng)頁較多,并且已分類網(wǎng)頁也通常較多,為了較準確的確定用戶的興趣分類,置亂的次數(shù)可以設置得稍高。
[0067]上述網(wǎng)頁推送方法采用置亂的方式進行分類,可以顯著降低計算量,具體分析如下:
[0068]傳統(tǒng)的相似度計算分類方法,需要每個網(wǎng)頁關鍵詞集合與每個分類關鍵詞集合分別計算相似度(similarity),計算公式如圖8所示,對于所有網(wǎng)頁的時間復雜度為0(N*M*L),N為網(wǎng)頁個數(shù),M為分類個數(shù),L為關鍵詞的平均個數(shù)。相似度計算的復雜度極高,對于大規(guī)模的網(wǎng)頁,在現(xiàn)實情況下通常無法實際進行處理。
[0069]而采用置亂的方式,時間復雜度近似為0(N*n*L) ,N為網(wǎng)頁的個數(shù),η為置亂次數(shù),L為關鍵詞的平均個數(shù)。各分類的已分類網(wǎng)頁的置亂集合可以預先算好,不必針對每個網(wǎng)頁進行計算。置亂集合的計算復雜度為0(n*L),在進行需要分類的網(wǎng)頁進行分類時,η通??梢允?,效率上遠優(yōu)于傳統(tǒng)的相似度算法。由于通過網(wǎng)頁中的導航信息抽取關鍵詞,能夠很大程度上描述網(wǎng)頁的分類信息,且網(wǎng)頁推送對于分類的精確程度不高,因此這里的置亂的方式能夠提高運算速度,且能夠滿足向用戶推送所需網(wǎng)頁的需求。
[0070]如圖9所示,作為上述網(wǎng)頁推送方法的補充,上述網(wǎng)頁推送方法還包括采用集合的方式推送網(wǎng)頁的步驟,具體包括:
[0071]步驟S910,獲取訪問過所述網(wǎng)頁的其他用戶作為第一用戶集。這里的所述網(wǎng)頁是指步驟SllO中用戶訪問過的網(wǎng)頁,可以表示為=Ui= (W1jW2iW31-Wl)0 Ui是某個瀏覽器用戶,W1, W2, W3,...Wl是該用戶訪問過的網(wǎng)址集合。建立倒排表,即訪問過網(wǎng)頁Wi的用戶集合記為:Wi= (U1, U2, U3,...UL}。獲取訪問過 W1, W2, W3,...Wl 的用戶的集合(U1, U2, U3,...%}作為第一用戶集。
[0072]步驟S920,去除第一用戶集中訪問所述網(wǎng)頁的數(shù)量低于第一閾值的用戶作為第二用戶集。由于第一用戶集中的用戶數(shù)可能較大,在實際計算中,可以按訪問網(wǎng)址的頻率進行過濾,取頻率高的用戶,即取第一閾值Y (%>Y),這里的uN表示用戶uN訪問(W11W21W3,...wj中網(wǎng)頁的數(shù)量,數(shù)量大于第一閾值Y則表示訪問網(wǎng)址的頻率高。去除第一用戶集中訪問所述網(wǎng)頁的數(shù)量低于第一閾值的用戶后,剩下的用戶作為第二用戶集。
[0073]步驟S930,獲取第二用戶集中的用戶訪問過的網(wǎng)頁的集合作為第一網(wǎng)頁集。獲得第二用戶集后,將第二用戶集中的用戶訪問過的網(wǎng)頁集合{Pl,P2,P3,...Pj作為第一網(wǎng)頁集。
[0074]步驟S940,去除所述第一網(wǎng)頁集中訪問量低于第二閾值的網(wǎng)頁作為第二網(wǎng)頁集。即第一網(wǎng)頁集中如果有的網(wǎng)頁的訪問量低,說明這些網(wǎng)頁受歡迎程度不高,可以去除這些低訪問量的網(wǎng)頁后作為第二網(wǎng)頁集。
[0075]步驟S950,將第二網(wǎng)頁集中所述用戶訪問過的網(wǎng)頁去除后推送給所述用戶。由于第二網(wǎng)頁集中,可能存在用戶已經(jīng)訪問過的網(wǎng)頁,通過去重操作,避免推送給用戶已經(jīng)訪問過的網(wǎng)頁。
[0076]采用集合的方式推送網(wǎng)頁的步驟,通過截取高頻的網(wǎng)頁和用戶,這種方式的推送的網(wǎng)頁通常是一些熱門的網(wǎng)頁,作為上述網(wǎng)頁推送方法的補充可以使得推送的網(wǎng)頁更加全面。并且對于沒有導航信息的網(wǎng)頁,如果通過上述網(wǎng)頁推送方法進行網(wǎng)頁全文關鍵詞的提取較為消耗計算量,可以用這種補充的步驟來推送沒有導航信息的網(wǎng)頁。
[0077]此外,還提供了一種網(wǎng)頁推送系統(tǒng),如圖10所示,網(wǎng)頁推送系統(tǒng)包括網(wǎng)頁收集模塊110、興趣分類模塊120及分類推送模塊130。
[0078]網(wǎng)頁收集模塊110用于收集用戶訪問過的網(wǎng)頁。由于用戶的興趣隨時間變化,不同時間段訪問的網(wǎng)頁不同,需要不斷收集用戶訪問的網(wǎng)頁。網(wǎng)頁收集模塊110通過瀏覽器收集用戶訪問過的網(wǎng)頁的網(wǎng)址發(fā)送到服務器進行處理。這里的瀏覽器可以是專用于瀏覽網(wǎng)頁的瀏覽器,也可以是兼具瀏覽器功能的其他工具,例如下載工具、視頻播放工具等。收集用戶訪問過的網(wǎng)頁除了通過收集網(wǎng)頁的網(wǎng)址外,還可以對該網(wǎng)址進行處理后進行收集,例如處理成具有統(tǒng)一格式的標識信息等,只要能再次獲得該網(wǎng)頁即可;另外,只要存儲量和計算量允許,還可以將網(wǎng)頁所包含的具體內容也一并收集。
[0079]興趣分類模塊120根據(jù)用戶訪問過的網(wǎng)頁獲得用戶的興趣所在的類別。通過網(wǎng)頁收集模塊110收集用戶訪問過的網(wǎng)頁后,可以對這些網(wǎng)頁進行處理獲得用戶的興趣所在的類別。類別的具體名稱及上下層的母類別和子類別對應關系可以預先設定,再根據(jù)用戶訪問過的網(wǎng)頁進行分類,將用戶的興趣依據(jù)訪問過的網(wǎng)頁分類到相應類別上。例如用戶訪問過的網(wǎng)頁包含大量體育類關鍵詞,可以將用戶的興趣定位為體育類別,進一步的如果這些體育類關鍵詞中足球和籃球較多,可以將用戶的興趣定位為體育母類別中的足球子類別和籃球子類別;又如用戶訪問過的網(wǎng)頁包含大量財經(jīng)類、娛樂類關鍵詞,可以將用戶的興趣定位為財經(jīng)類、娛樂類兩個類別。關鍵詞的獲得可以通過訪問過的網(wǎng)頁中的導航信息中獲得,這種方式能夠簡單快捷的獲得網(wǎng)頁中最有效的關鍵詞。另外,關鍵詞也可以通過對網(wǎng)頁內容進行統(tǒng)計提取數(shù)量最多的詞作為關鍵詞。在具體的處理過程中,可以將關鍵詞處理成標識代碼,方便運算,而不用處理文字本身。[0080]分類推送模塊130推送用戶的興趣所在的類別的網(wǎng)頁給用戶。通過興趣分類模塊120獲得用戶的興趣所在的類別后,可以將該類別對應的網(wǎng)頁推送給用戶,該類別對應的網(wǎng)頁可以是通過人工預先設定的一些網(wǎng)頁,也可以是計算機自動分類到該類別的網(wǎng)頁,還可以是人工預先設定的一些網(wǎng)頁和計算機自動分類的結合。當然,由于互聯(lián)網(wǎng)中網(wǎng)頁的數(shù)量級非常龐大,絕大多數(shù)網(wǎng)頁是通過計算機自動分類到相應類別的。與根據(jù)用戶訪問過的網(wǎng)頁獲得用戶的興趣所在的類別的方法類似,同樣可以將需要分類的網(wǎng)頁根據(jù)關鍵詞進行匹配,只是在根據(jù)用戶訪問過的網(wǎng)頁獲得用戶的興趣所在的類別的過程中,用戶訪問過的網(wǎng)頁是若干個網(wǎng)頁,將若干個網(wǎng)頁的關鍵詞的集合來進行分類,可以根據(jù)需要分類到一個或幾個類別中;而將需要分類的網(wǎng)頁自動分類到相應類別的過程中,網(wǎng)頁是逐個分類的,只依據(jù)該單個網(wǎng)頁的關鍵詞來進行分類,一般也只分類到一個類別中。在推送的過程中,某個類別下的網(wǎng)頁量通常比較龐大,可以采取隨機推送的方式,也可以根據(jù)訪問量排名將排名靠前的網(wǎng)頁推送給用戶。當然,為了避免重復推送,對用戶已經(jīng)訪問的網(wǎng)頁和已經(jīng)推送但用戶沒有訪問的網(wǎng)頁不再推送。
[0081]上述網(wǎng)頁推送系統(tǒng)結合用戶問過的網(wǎng)頁確定用戶的興趣所在的類別,再將該類別的網(wǎng)頁推送給用戶,能夠根據(jù)用戶的情況進行信息的推送,所推送的信息往往也是用戶所需要的,提高了推送信息的有效性,有利于信息量的擴充和信息的有效傳播。
[0082]如圖11所示,一實施例中的網(wǎng)頁推送系統(tǒng),還包括根據(jù)分類體系將網(wǎng)頁分類到相應的類別的網(wǎng)頁分類模塊200。分類體系確定后,通過下述幾種方式可以將網(wǎng)頁分類到相應的類別中,如通過人工預先設定網(wǎng)頁到上述分類體系的類別中,也可以是計算機自動分類到上述分類體系的類別中,還可以是人工預先設定的一些網(wǎng)頁和計算機自動分類的結合。當然,如上所述,由于互聯(lián)網(wǎng)中網(wǎng)頁的數(shù)量級非常龐大,因此網(wǎng)頁分類模塊200是通過計算機自動分類到相應類別的。分類體系可以采用已有的網(wǎng)址分類大全的分類體系,也可以根據(jù)瀏覽器用戶的具體需求,建立合適范圍、大小、細分程度的分類體系。分類體系中每個母類別可以再分出一些子類別,每個母類別或子類別可以包含一些網(wǎng)頁的網(wǎng)址,比如藝術類別包含一些藝術相關的網(wǎng)頁,同時有電影、電視、攝影等子類別。子類別也可以包含一些網(wǎng)頁的網(wǎng)址,如電影子類別中有電影相關的網(wǎng)頁的網(wǎng)址等。
[0083]由于網(wǎng)頁分類模塊200可以預先完成分類,并且,可以完全由人工預設完成將網(wǎng)頁分類到相應的類別,網(wǎng)頁分類模塊200可以不作為計算機自動運行的網(wǎng)頁推送系統(tǒng)的一部分。網(wǎng)頁推送系統(tǒng)包括網(wǎng)頁收集模塊210、興趣分類模塊220及分類推送模塊230分別與網(wǎng)頁推送系統(tǒng)包括網(wǎng)頁收集模塊110、興趣分類模塊120及分類推送模塊130相同,在此不再贅述。
[0084]具體來說,如圖12所示,網(wǎng)頁分類模塊200包括分類體系讀取單元310、已分類網(wǎng)頁讀取單元320及網(wǎng)頁分類單元330。
[0085]分類體系讀取單元310用于讀取網(wǎng)頁分類體系。如上所述,分類體系可以采用已有的網(wǎng)址分類大全的分類體系,也可以根據(jù)瀏覽器用戶的具體需求,建立合適范圍、大小、細分程度的分類體系。分類體系通常為樹形。
[0086]已分類網(wǎng)頁讀取單元320用于讀取已經(jīng)分類到所述分類體系的已分類網(wǎng)頁。這些已分類網(wǎng)頁為通過人工預先設定好類別的網(wǎng)頁,作為計算機自動分類的基礎,建立計算機自動分類的訓練模型。[0087]網(wǎng)頁分類單元330用于根據(jù)已分類網(wǎng)頁及分類體系對需要分類的網(wǎng)頁進行分類。通過網(wǎng)頁爬蟲抓取的需要分類的網(wǎng)頁根據(jù)已分類網(wǎng)頁及分類體系進行分類,分類的依據(jù)可以抽取需要分類的網(wǎng)頁中的關鍵詞與已分類網(wǎng)頁中的關鍵詞的集合進行相似度計算,符合要求的分到相應類別中;分類的依據(jù)還可以是抽取需要分類的網(wǎng)頁中的關鍵詞與已分類網(wǎng)頁中的關鍵詞的進行匹配,符合要求的分到相應類別中。
[0088]采用人工預先設定的一些網(wǎng)頁和計算機自動分類的結合的方式進行分類,既能減少人工分類的工作量(因為無窮盡的互聯(lián)網(wǎng)網(wǎng)頁資源使得不可能通過人工將所有網(wǎng)頁分類完),以人工分類的網(wǎng)頁作為基礎,又能保證分類的準確度。
[0089]如圖13所示,網(wǎng)頁分類單元330包括第一關鍵詞抽取單元410、第一集合建立單元420、第二關鍵詞抽取單元430、第二集合建立單元440及第一匹配單元450。
[0090]第一關鍵詞抽取單元410用于抽取已分類網(wǎng)頁的關鍵詞。因為大型網(wǎng)站通常都有自己對網(wǎng)頁的分類信息,這些分類信息通常都有固定的展現(xiàn)形式,利用這些分類信息能夠高效的實現(xiàn)網(wǎng)頁分類。例如,利用網(wǎng)頁中的導航信息來幫助網(wǎng)頁分類,通過針對固定的大型網(wǎng)站預先配置的導航信息位置,解析網(wǎng)頁的DOM (Document Object Model,文檔對象模型)樹,獲得導航信息的內容作為關鍵詞。另外,關鍵詞也可以通過對網(wǎng)頁內容進行統(tǒng)計提取數(shù)量最多的詞作為關鍵詞。
[0091]第一集合建立單元420建立已分類網(wǎng)頁的關鍵詞的集合。通常一個網(wǎng)頁中的關鍵詞不止一個,而已分類網(wǎng)頁通常也有多個,對各個已分類網(wǎng)頁的關鍵詞進行組合可以得到相應類別的已分類網(wǎng)頁的關鍵詞的集合。進一步地,為了減小集合中關鍵詞的數(shù)量,可以將已分類網(wǎng)頁的關鍵詞的集合中出現(xiàn)頻率低于要求的關鍵詞刪除。
[0092]第二關鍵詞抽取單元430用于抽取需要分類的網(wǎng)頁的關鍵詞。第二關鍵詞抽取單元430抽取方式與第一關鍵詞抽取單元410類似,只是抽取的是需要分類的網(wǎng)頁的關鍵詞。第二關鍵詞抽取單元430與第一關鍵詞抽取單元410可以是同一個單元,只是在不同的階段起的作用不同,也可以是不同的單元。
[0093]第二集合建立單元440用于建立需要分類的網(wǎng)頁的關鍵詞的集合。通常一個網(wǎng)頁中的關鍵詞不止一個,將這些關鍵詞進行組合可以得到需要分類的網(wǎng)頁的關鍵詞的集合。如果采用導航信息的內容作為關鍵詞,由于關鍵詞的概括性已經(jīng)非常強,可以不刪除出現(xiàn)頻率低的關鍵詞;當然,在關鍵詞的量較大的情況下,也可以刪除出現(xiàn)頻率低于要求的關鍵詞。第一集合建立單元420與第二集合建立單元440可以是同一個單元在不同的階段起的作用不同,也可以是不同的單元。
[0094]第一匹配單元450用于將需要分類的網(wǎng)頁分類到與需要分類的網(wǎng)頁的關鍵詞的集合匹配的已分類網(wǎng)頁的關鍵詞的集合對應的類別中。第一匹配單元450進行的匹配可以是已分類網(wǎng)頁的關鍵詞的集合包括需要分類的網(wǎng)頁的關鍵詞的集合,還可以是置亂配對的方式。置亂配對的方式將在下文進行更詳細的描述。
[0095]通過關鍵詞匹配的方式實現(xiàn)需要分類的網(wǎng)頁的分類,可以減少計算的復雜度,t匕如相似度的計算比較耗費計算資源,而關鍵詞的匹配則可以減少對計算資源的依賴,在大量網(wǎng)頁需要分類的情況下,可以顯著提高分類的效率。
[0096]如圖14所示,第一匹配單元450包括第一置亂單元510、第二置亂單元520及第一配對單元530。[0097]第一置亂單元510用于對已分類網(wǎng)頁的關鍵詞的集合進行η次置亂操作,獲得每次置亂操作排在預定位置的關鍵詞的集合作為該類別的已分類網(wǎng)頁的置亂集合。例如,已分類網(wǎng)頁的關鍵詞的集合為=Ci=IK1, K2, K3, , KJ,進行第一次隨機打亂次序的置亂操作后,排在第一位的預定位置的關鍵詞為K3 ;進行第二次隨機打亂次序的置亂操作后,排在第一位的預定位置的關鍵詞為K5 ;進行第三次隨機打亂次序的置亂操作后,排在第一位的預定位置的關鍵詞為Κ2。則已分類網(wǎng)頁的置亂集合為Cix={K2,K3, KJ。
[0098]第二置亂單元520用于對需要分類的網(wǎng)頁的關鍵詞的集合進行η次置亂操作,獲得每次置亂操作排在預定位置的關鍵詞的集合作為需要分類的網(wǎng)頁的置亂集合。例如,需要分類的網(wǎng)頁的關鍵詞的集合為=Wi=IKpK2J3,...,KJ,進行第一次隨機打亂次序的置亂操作后,排在第一位的預定位置的關鍵詞為K3 ;進行第二次隨機打亂次序的置亂操作后,排在第一位的預定位置的關鍵詞為K5;進行第三次隨機打亂次序的置亂操作后,排在第一位的預定位置的關鍵詞為κ2。則已分類網(wǎng)頁的置亂集合為Wix=IK2, Κ3,K5K第一置亂單元510與第二置亂單元520可以是同一個單元在不同的階段起的作用不同,也可以是不同的單元。
[0099]第一配對單元530用于將需要分類的網(wǎng)頁分類到與需要分類的網(wǎng)頁的置亂集合相同的已分類網(wǎng)頁的置亂集合對應的類別中。例如,上面的例子中,Cix與Wix相同,將關鍵詞的集合為=Wi=IKpK2J3,...,KJ的需要分類的網(wǎng)頁分類到已分類網(wǎng)頁的置亂集合為CiX=IK2, K3, KJ對應的類別中。當然,上面是以一個例子進行說明,實際處理過程中,由于類別較多,因此已分類網(wǎng)頁的置亂集合也較多;置亂操作的次數(shù)η也可以根據(jù)需要進行設定,例如只置亂I次,則置亂集合只有一個關鍵詞,雖然分類的精度不高,但是可以大量減少計算量,對于推送要求不高場合非常適用;如果推送要求較高,可以根據(jù)需要設定置亂的次數(shù)η,因此有極高的靈活性。
[0100]如圖15所示,興趣分類模塊120可以采用與網(wǎng)頁分類模塊200相似的分類方式,具體來說,興趣分類模塊120包括分類體系讀取單元610、已分類網(wǎng)頁讀取單元620、第一關鍵詞抽取單元630、第一集合建立單元640、第三關鍵詞抽取單元650、第三集合建立單元660及第二匹配單元670。
[0101]分類體系讀取單元610用于讀取網(wǎng)頁分類體系。如上所述,分類體系可以采用已有的網(wǎng)址分類大全的分類體系,也可以根據(jù)瀏覽器用戶的具體需求,建立合適范圍、大小、細分程度的分類體系。分類體系通常為樹形。
[0102]已分類網(wǎng)頁讀取單元620用于讀取已經(jīng)分類到所述分類體系的已分類網(wǎng)頁。這些已分類網(wǎng)頁為通過人工預先設定好類別的網(wǎng)頁,作為計算機自動分類的基礎,建立計算機自動分類的訓練模型。興趣分類模塊120的分類體系讀取單元610、已分類網(wǎng)頁讀取單元620可以與網(wǎng)頁分類模塊200共用,也可以單獨設置。
[0103]第一關鍵詞抽取單元630用于抽取已分類網(wǎng)頁的關鍵詞。因為大型網(wǎng)站通常都有自己對網(wǎng)頁的分類信息,這些分類信息通常都有固定的展現(xiàn)形式,利用這些分類信息能夠高效的實現(xiàn)網(wǎng)頁分類。例如,利用網(wǎng)頁中的導航信息來幫助網(wǎng)頁分類,通過針對固定的大型網(wǎng)站預先配置的導航信息位置,解析網(wǎng)頁的DOM樹,獲得導航信息的內容作為關鍵詞。另夕卜,關鍵詞也可以通過對網(wǎng)頁內容進行統(tǒng)計提取數(shù)量最多的詞作為關鍵詞。興趣分類模塊120的第一關鍵詞抽取單元630可以與網(wǎng)頁分類單元330的第一關鍵詞抽取單元410為同一單元,也可以為分別設置的不同單元。
[0104]第一集合建立單元640用于建立已分類網(wǎng)頁的關鍵詞的集合。通常一個網(wǎng)頁中的關鍵詞不止一個,而已分類網(wǎng)頁通常也有多個,對各個已分類網(wǎng)頁的關鍵詞進行組合可以得到相應類別的已分類網(wǎng)頁的關鍵詞的集合。當進一步地,為了減小集合中關鍵詞的數(shù)量,可以將已分類網(wǎng)頁的關鍵詞的集合中出現(xiàn)頻率低于要求的關鍵詞刪除。興趣分類模塊120的第一集合建立單元640可以與網(wǎng)頁分類單元330的第一集合建立單元420為同一單元,也可以為分別設置的不同單元。
[0105]第三關鍵詞抽取單元650用于抽取所述用戶訪問過的網(wǎng)頁的關鍵詞。第三關鍵詞抽取單元650的抽取方式與第一關鍵詞抽取單元630類似,只是抽取的是用戶訪問過的網(wǎng)頁的關鍵詞。
[0106]第三集合建立單元660用于建立用戶訪問過的網(wǎng)頁的關鍵詞的集合。通常一個網(wǎng)頁中的關鍵詞不止一個,而用戶訪問過的網(wǎng)頁通常也有多個,對各個用戶訪問過的網(wǎng)頁的關鍵詞進行組合可以得到用戶訪問過的網(wǎng)頁的關鍵詞的集合。進一步地,為了減小集合中關鍵詞的數(shù)量,可以將用戶訪問過的網(wǎng)頁的關鍵詞的集合中出現(xiàn)頻率低于要求的關鍵詞刪除。
[0107]第二匹配單元670用于將所述用戶分類到與所述用戶訪問過的網(wǎng)頁的關鍵詞的集合匹配的所述已分類網(wǎng)頁的關鍵詞的集合對應的類別中。第二匹配單元670進行的匹配可以是已分類網(wǎng)頁的關鍵詞的集合包括用戶訪問過的網(wǎng)頁的關鍵詞的集合,還可以是置亂配對的方式。通過關鍵詞匹配的方式實現(xiàn)用戶訪問過的網(wǎng)頁的分類,可以減少計算的復雜度,比如相似度的計算比較耗費計算資源,而關鍵詞的匹配則可以減少對計算資源的依賴。
[0108]如圖16所示,具體來說,第二匹配單元670包括第三置亂單元710、第四置亂單元720及第二配對單元730。
[0109]第三置亂單元710用于對已分類網(wǎng)頁的關鍵詞的集合進行m次置亂操作,獲得每次置亂操作排在預定位置的關鍵詞的集合作為該類別的已分類網(wǎng)頁的置亂集合。例如,已分類網(wǎng)頁的關鍵詞的集合為=Ci=IK1,K2,K3, ,KJ,進行第一次隨機打亂次序的置亂操作后,排在第一位的預定位置的關鍵詞為K3;進行第二次隨機打亂次序的置亂操作后,排在第一位的預定位置的關鍵詞為K5;進行第三次隨機打亂次序的置亂操作后,排在第一位的預定位置的關鍵詞為κ2。則已分類網(wǎng)頁的置亂集合為Cix={K2,K3, KJ。
[0110]第四置亂單元720用于對用戶訪問過的網(wǎng)頁的關鍵詞的集合進行m次置亂操作,獲得每次置亂操作排在預定位置的關鍵詞的集合作為用戶訪問過的網(wǎng)頁的置亂集合。例如,用戶訪問過的網(wǎng)頁的關鍵詞的集合為=Ui=IK1, K2,K3,...,KJ,進行第一次隨機打亂次序的置亂操作后,排在第一位的預定位置的關鍵詞為K3;進行第二次隨機打亂次序的置亂操作后,排在第一位的預定位置的關鍵詞為K5 ;進行第三次隨機打亂次序的置亂操作后,排在第一位的預定位置的關鍵詞為κ2。則已分類網(wǎng)頁的置亂集合為Uix={K2,K3,KJ。
[0111]第二配對單元730用于將用戶的興趣分類到與用戶訪問過的網(wǎng)頁的置亂集合相同的已分類網(wǎng)頁的置亂集合對應的類別中。例如,上面的例子中,Cix與Uix相同,將用戶的興趣分類到已分類網(wǎng)頁的置亂集合為Cix=IK2, Κ3,Κ5}對應的類別中。當然,上面是以一個例子進行說明,實際處理過程中,由于類別較多,因此已分類網(wǎng)頁的置亂集合也較多;置亂操作的次數(shù)η也可以根據(jù)需要進行設定。這里由于用戶訪問過的網(wǎng)頁較多,并且已分類網(wǎng)頁也通常較多,為了較準確的確定用戶的興趣分類,置亂的次數(shù)可以設置得稍高。
[0112]上述網(wǎng)頁推送系統(tǒng)采用置亂的方式進行分類,可以顯著降低計算量,具體分析如下:
[0113]傳統(tǒng)的相似度計算分類方法,需要每個網(wǎng)頁關鍵詞集合與每個分類關鍵詞集合分別計算相似度(similarity),計算公式如圖8所示,對于所有網(wǎng)頁的時間復雜度為0(N*M*L),N為網(wǎng)頁個數(shù),M為分類個數(shù),L為關鍵詞的平均個數(shù)。相似度計算的復雜度極高,對于大規(guī)模的網(wǎng)頁,在現(xiàn)實情況下通常無法實際進行處理。
[0114]而采用置亂的方式,時間復雜度近似為0(N*n*L) ,N為網(wǎng)頁的個數(shù),η為置亂次數(shù),L為關鍵詞的平均個數(shù)。各分類的已分類網(wǎng)頁的置亂集合可以預先算好,不必針對每個網(wǎng)頁進行計算。置亂集合的計算復雜度為0(n*L),在進行需要分類的網(wǎng)頁進行分類時,η通??梢允?,效率上遠優(yōu)于傳統(tǒng)的相似度算法。由于通過網(wǎng)頁中的導航信息抽取關鍵詞,能夠很大程度上描述網(wǎng)頁的分類信息,且網(wǎng)頁推送對于分類的精確程度不高,因此這里的置亂的方式能夠提高運算速度,且能夠滿足向用戶推送所需網(wǎng)頁的需求。
[0115]如圖17所示,作為上述網(wǎng)頁推送系統(tǒng)的補充,上述網(wǎng)頁推送系統(tǒng)還包括集合推送模塊,所述集合推送模塊包括第一用戶集單元910、第二用戶集單元920、第一網(wǎng)頁集單元930、第二網(wǎng)頁集單元940及集合推送單元950。
[0116]第一用戶集單元910用于獲取訪問過所述網(wǎng)頁的其他用戶作為第一用戶集。這里的所述網(wǎng)頁是指網(wǎng)頁收集模塊110收集的用戶訪問過的網(wǎng)頁,可以表示為=Ui=(W11W21W3,...WL}o Ui是某個瀏覽器用戶,W1, W2, W3,...Wli是該用戶訪問過的網(wǎng)址集合。建立倒排表,即訪問過網(wǎng)頁Wi的用戶集合記為U2, U3,...UL}o獲取訪問過W1, W2, W3,...Wl的用戶的集合(U1, U2, U3,...%}作為第一用戶集。
[0117]第二用戶集單元920用于去除第一`用戶集中訪問所述網(wǎng)頁的數(shù)量低于第一閾值的用戶作為第二用戶集。由于第一用戶集中的用戶數(shù)可能較大,在實際計算中,可以按訪問網(wǎng)址的頻率進行過濾,取頻率高的用戶,即取第一閾值Y (!!々^^這里的叫表示用戶叫訪問(W1, W2, W3,...Wj中網(wǎng)頁的數(shù)量,數(shù)量大于第一閾值Y則表示訪問網(wǎng)址的頻率高。去除第一用戶集中訪問所述網(wǎng)頁的數(shù)量低于第一閾值的用戶后,剩下的用戶作為第二用戶集。
[0118]第一網(wǎng)頁集單元930用于獲取第二用戶集中的用戶訪問過的網(wǎng)頁的集合作為第一網(wǎng)頁集。獲得第二用戶集后,將第二用戶集中的用戶訪問過的網(wǎng)頁集合{Pl,P2,P3,…Pj作為第一網(wǎng)頁集。
[0119]第二網(wǎng)頁集單元940用于去除第一網(wǎng)頁集中訪問量低于第二閾值的網(wǎng)頁作為第二網(wǎng)頁集。即第一網(wǎng)頁集中如果有的網(wǎng)頁的訪問量低,說明這些網(wǎng)頁受歡迎程度不高,可以去除這些低訪問量的網(wǎng)頁后作為第二網(wǎng)頁集。
[0120]集合推送單元950用于將第二網(wǎng)頁集中所述用戶訪問過的網(wǎng)頁去除后推送給所述用戶。由于第二網(wǎng)頁集中,可能存在用戶已經(jīng)訪問過的網(wǎng)頁,通過去重操作,避免推送給用戶已經(jīng)訪問過的網(wǎng)頁。
[0121]集合推送模塊通過集合的方式推送網(wǎng)頁的步驟,通過截取高頻的網(wǎng)頁和用戶,這種方式的推送的網(wǎng)頁通常是一些熱門的網(wǎng)頁,作為上述網(wǎng)頁推送方法的補充可以使得推送的網(wǎng)頁更加全面。并且對于沒有導航信息的網(wǎng)頁,如果通過上述網(wǎng)頁推送方法進行網(wǎng)頁全文關鍵詞的提取較為消耗計算量,可以用這種補充的步驟來推送沒有導航信息的網(wǎng)頁。[0122]采用上述網(wǎng)頁推送方法或系統(tǒng)將網(wǎng)頁推送到用戶所在的瀏覽器后,可以直接在首頁展示推送的網(wǎng)頁、也可以將若干個推送的網(wǎng)頁以縮略圖的形式顯示在首頁、或者在地址欄顯示推送的網(wǎng)頁的網(wǎng)址、也可以在工具欄顯示被推送網(wǎng)頁的圖標等。瀏覽器的首頁或地址欄網(wǎng)址推薦是向用戶推送網(wǎng)頁的最佳入口,用戶在瀏覽網(wǎng)頁的過程中向用戶推送,能夠更有效的促進網(wǎng)絡信息傳送。
[0123]上述實施方式中,用戶的區(qū)分和識別可以用瀏覽器來實現(xiàn)。瀏覽器能夠針對用戶進行網(wǎng)址收集,相對于網(wǎng)頁應用、或其他桌面軟件,瀏覽器既能夠收集用戶的明確標識,如機器號組成的⑶ID (Globally Unique Identif ier,全球唯一標識符,具有唯一性,而網(wǎng)頁應用通常只能記錄用戶一段時間的標記),也可以收集用戶訪問過的完整網(wǎng)頁地址。
[0124]以上所述實施例僅表達了本發(fā)明的幾種實施方式,其描述較為具體和詳細,但并不能因此而理解為對本發(fā)明專利范圍的限制。應當指出的是,對于本領域的普通技術人員來說,在不脫離本發(fā)明構思的前提下,還可以做出若干變形和改進,這些都屬于本發(fā)明的保護范圍。因此,本發(fā)明專利的保護范圍應以所附權利要求為準。
【權利要求】
1.一種網(wǎng)頁推送方法,其特征在于,包括: 收集用戶訪問過的網(wǎng)頁; 根據(jù)所述用戶訪問過的網(wǎng)頁獲得所述用戶的興趣所在的類別; 推送所述用戶的興趣所在的類別的網(wǎng)頁給所述用戶。
2.根據(jù)權利要求1所述的網(wǎng)頁推送方法,其特征在于,還包括根據(jù)分類體系將網(wǎng)頁分類到相應的類別的步驟。
3.根據(jù)權利要求2所述的網(wǎng)頁推送方法,其特征在于,所述根據(jù)分類體系將網(wǎng)頁分類到相應的類別的步驟包括: 讀取網(wǎng)頁分類體系; 讀取已經(jīng)分類到所述分類體系的已分類網(wǎng)頁; 根據(jù)所述已分類網(wǎng)頁及分類體系對需要分類的網(wǎng)頁進行分類。
4.根據(jù)權利要求3所述的網(wǎng)頁推送方法,其特征在于,所述根據(jù)所述已分類網(wǎng)頁及分類體系對需要分類的網(wǎng)頁進行分類的步驟包括: 抽取所述已分類網(wǎng)頁的關鍵詞; 建立所述已分類網(wǎng)頁的關鍵詞的集合; 抽取所述需要分類的網(wǎng)頁的關鍵詞; 建立所述需要分類的網(wǎng)頁的關鍵詞的集合; 將所述需要分類的網(wǎng)頁分類到與所述需要分類的網(wǎng)頁的關鍵詞的集合匹配的所述已分類網(wǎng)頁的關鍵詞的集合對應的類別中。
5.根據(jù)權利要求4所述的網(wǎng)頁推送方法,其特征在于,所述將所述需要分類的網(wǎng)頁分類到與所述需要分類的網(wǎng)頁的關鍵詞的集合匹配的所述已分類網(wǎng)頁的關鍵詞的集合對應的類別中的步驟包括: 對已分類網(wǎng)頁的關鍵詞的集合進行η次置亂操作,獲得每次置亂操作排在預定位置的關鍵詞的集合作為該類別的已分類網(wǎng)頁的置亂集合; 對需要分類的網(wǎng)頁的關鍵詞的集合進行η次置亂操作,獲得每次置亂操作排在預定位置的關鍵詞的集合作為需要分類的網(wǎng)頁的置亂集合; 將需要分類的網(wǎng)頁分類到與需要分類的網(wǎng)頁的置亂集合相同的已分類網(wǎng)頁的置亂集合對應的類別中。
6.根據(jù)權利要求1所述的網(wǎng)頁推送方法,其特征在于,所述根據(jù)所述用戶訪問過的網(wǎng)頁獲得所述用戶的興趣所在的類別的步驟包括: 讀取網(wǎng)頁分類體系; 讀取已經(jīng)分類到所述分類體系的已分類網(wǎng)頁; 抽取所述已分類網(wǎng)頁的關鍵詞; 建立所述已分類網(wǎng)頁的關鍵詞的集合; 抽取所述用戶訪問過的網(wǎng)頁的關鍵詞; 建立所述用戶訪問過的網(wǎng)頁的關鍵詞的集合; 將所述用戶分類到與所述用戶訪問過的網(wǎng)頁的關鍵詞的集合匹配的所述已分類網(wǎng)頁的關鍵詞的集合對應的類別中。
7.根據(jù)權利要求6所述的網(wǎng)頁推送方法,其特征在于,所述將所述用戶分類到與所述用戶訪問過的網(wǎng)頁的關鍵詞的集合匹配的所述已分類網(wǎng)頁的關鍵詞的集合對應的類別中的步驟包括: 對已分類網(wǎng)頁的關鍵詞的集合進行m次置亂操作,獲得每次置亂操作排在預定位置的關鍵詞的集合作為該類別的已分類網(wǎng)頁的置亂集合; 對用戶訪問過的網(wǎng)頁的關鍵詞的集合進行m次置亂操作,獲得每次置亂操作排在預定位置的關鍵詞的集合作為用戶訪問過的網(wǎng)頁的置亂集合; 將用戶的興趣分類到與用戶訪問過的網(wǎng)頁的置亂集合相同的已分類網(wǎng)頁的置亂集合對應的類別中。
8.根據(jù)權利要求1所述的網(wǎng)頁推送方法,其特征在于,還包括采用集合的方式推送網(wǎng)頁的步驟,具體包括: 獲取訪問過所述網(wǎng)頁的其他用戶作為第一用戶集; 去除所述第一用戶集中訪問所述網(wǎng)頁的數(shù)量低于第一閾值的用戶作為第二用戶集; 獲取所述第二用戶集中的用戶訪問過的網(wǎng)頁的集合作為第一網(wǎng)頁集; 去除所述第一網(wǎng)頁集中訪問量低于第二閾值的網(wǎng)頁作為第二網(wǎng)頁集; 將所述第二網(wǎng)頁集中所述用戶訪問過的網(wǎng)頁去除后推送給所述用戶。
9.一種網(wǎng)頁推送系統(tǒng),其特征在于,包括: 網(wǎng)頁收集模塊,收集用戶訪問過的網(wǎng)頁; 興趣分類模塊,根據(jù)所述用戶訪問過的網(wǎng)頁獲得所述用戶的興趣所在的類別; 分類推送模塊,推送所述用戶的興趣所在的類別的網(wǎng)頁給所述用戶。
10.根據(jù)權利要求9所述的網(wǎng)頁推送系統(tǒng),其特征在于,還包括根據(jù)分類體系將網(wǎng)頁分類到相應的類別的網(wǎng)頁分類模塊。
11.根據(jù)權利要求10所述的網(wǎng)頁推送系統(tǒng),其特征在于,所述網(wǎng)頁分類模塊包括: 分類體系讀取單元,讀取網(wǎng)頁分類體系; 已分類網(wǎng)頁讀取單元,讀取已經(jīng)分類到所述分類體系的已分類網(wǎng)頁; 網(wǎng)頁分類單元,根據(jù)所述已分類網(wǎng)頁及分類體系對需要分類的網(wǎng)頁進行分類。
12.根據(jù)權利要求11所述的網(wǎng)頁推送系統(tǒng),其特征在于,所述網(wǎng)頁分類單元包括: 第一關鍵詞抽取單元,抽取所述已分類網(wǎng)頁的關鍵詞; 第一集合建立單元,建立所述已分類網(wǎng)頁的關鍵詞的集合; 第二關鍵詞抽取單元,抽取所述需要分類的網(wǎng)頁的關鍵詞; 第二集合建立單元,建立所述需要分類的網(wǎng)頁的關鍵詞的集合; 第一匹配單元,將所述需要分類的網(wǎng)頁分類到與所述需要分類的網(wǎng)頁的關鍵詞的集合匹配的所述已分類網(wǎng)頁的關鍵詞的集合對應的類別中。
13.根據(jù)權利要求12所述的網(wǎng)頁推送系統(tǒng),其特征在于,所述第一匹配單元包括: 第一置亂單元,對已分類網(wǎng)頁的關鍵詞的集合進行η次置亂操作,獲得每次置亂操作排在預定位置的關鍵詞的集合作為該類別的已分類網(wǎng)頁的置亂集合; 第二置亂單元,對需要分類的網(wǎng)頁的關鍵詞的集合進行η次置亂操作,獲得每次置亂操作排在預定位置的關鍵詞的集合作為需要分類的網(wǎng)頁的置亂集合; 第一配對單元,將需要分類的網(wǎng)頁分類到與需要分類的網(wǎng)頁的置亂集合相同的已分類網(wǎng)頁的置亂集合對應的類別中。
14.根據(jù)權利要求9所述的網(wǎng)頁推送系統(tǒng),其特征在于,所述興趣分類模塊包括: 分類體系讀取單元,讀取網(wǎng)頁分類體系; 已分類網(wǎng)頁讀取單元,讀取已經(jīng)分類到所述分類體系的已分類網(wǎng)頁; 第一關鍵詞抽取單元,抽取所述已分類網(wǎng)頁的關鍵詞; 第一集合建立單元,建立所述已分類網(wǎng)頁的關鍵詞的集合; 第三關鍵詞抽取單元,抽取所述用戶訪問過的網(wǎng)頁的關鍵詞; 第三集合建立單元,建立所述用戶訪問過的網(wǎng)頁的關鍵詞的集合; 第二匹配單元,將所述用戶分類到與所述用戶訪問過的網(wǎng)頁的關鍵詞的集合匹配的所述已分類網(wǎng)頁的關鍵詞的集合對應的類別中。
15.根據(jù)權利要求14所述的網(wǎng)頁推送系統(tǒng),其特征在于,所述第二匹配單元包括: 第三置亂單元,對已分類網(wǎng)頁的關鍵詞的集合進行m次置亂操作,獲得每次置亂操作排在預定位置的關鍵詞的集合作為該類別的已分類網(wǎng)頁的置亂集合; 第四置亂單元,對用戶訪問過的網(wǎng)頁的關鍵詞的集合進行m次置亂操作,獲得每次置亂操作排在預定位置的關鍵詞的集合作為用戶訪問過的網(wǎng)頁的置亂集合; 第二配對單元,將用戶的興趣分類到與用戶訪問過的網(wǎng)頁的置亂集合相同的已分類網(wǎng)頁的置亂集合對應的類別中。
16.根據(jù)權利要求9所述的網(wǎng)頁推送系統(tǒng),其特征在于,還包括集合推送模塊,所述集合推送模塊包括: 第一用戶集單元,獲取訪問過所述網(wǎng)頁的其他用戶作為第一用戶集; 第二用戶集單元,去除所述第一用戶集中訪問所述網(wǎng)頁的數(shù)量低于第一閾值的用戶作為第二用戶集; 第一網(wǎng)頁集單元,獲取所述第二用戶集中的用戶訪問過的網(wǎng)頁的集合作為第一網(wǎng)頁集; 第二網(wǎng)頁集單元,去除所述第一網(wǎng)頁集中訪問量低于第二閾值的網(wǎng)頁作為第二網(wǎng)頁集; 集合推送單元,將所述第二網(wǎng)頁集中所述用戶訪問過的網(wǎng)頁去除后推送給所述用戶。
【文檔編號】G06F17/30GK103577478SQ201210277243
【公開日】2014年2月12日 申請日期:2012年8月6日 優(yōu)先權日:2012年8月6日
【發(fā)明者】童洋, 張衛(wèi), 王超 申請人:騰訊科技(深圳)有限公司