一種基于用戶瀏覽行為的網(wǎng)頁推薦方法
【專利摘要】本發(fā)明涉及一種基于用戶瀏覽行為的網(wǎng)頁推薦方法,其特征在于:步驟1:利用瀏覽器收集每個(gè)頁面的停留時(shí)間以及頁面內(nèi)容信息;步驟2:對(duì)頁面內(nèi)容進(jìn)行文本分析,獲得頁面的特征項(xiàng);步驟3:根據(jù)頁面停留時(shí)間和特征項(xiàng),分析出用戶對(duì)每個(gè)特征項(xiàng)的興趣程度,得到用戶興趣類權(quán)值;步驟4:將權(quán)值較高的興趣類作為關(guān)鍵詞,利用爬蟲程序,將Web上與用戶興趣有關(guān)的網(wǎng)頁按照類別全部抓取下來;步驟5:利用余弦夾角函數(shù)計(jì)算抓取的網(wǎng)頁與用戶已瀏覽的網(wǎng)頁的相似度,將相似度較高的網(wǎng)頁推送給用戶。
【專利說明】一種基于用戶瀏覽行為的網(wǎng)頁推薦方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種基于用戶瀏覽行為的網(wǎng)頁推薦方法。
【背景技術(shù)】
[0002]在網(wǎng)絡(luò)技術(shù)飛速發(fā)展的今天,信息和資源也隨之迅猛增長。在網(wǎng)絡(luò)方面這種趨勢顯得尤為突出。面對(duì)Web上如此龐大的信息資源,Web上的“信息迷航”和“信息過載”等問題也在加劇。為了防止此類問題的愈演愈烈,有必要提供一種基于用戶瀏覽行為的網(wǎng)頁推薦方法,在Web上尋找更相關(guān)的信息以滿足不同用戶的個(gè)性化需求。
【發(fā)明內(nèi)容】
[0003]本發(fā)明目的在于提供一種基于用戶瀏覽行為的網(wǎng)頁推薦方法,通過獲取并分析用戶的瀏覽行為數(shù)據(jù),向用戶推薦他可能感興趣的網(wǎng)頁,滿足用戶的個(gè)性化需求。
[0004]實(shí)現(xiàn)本發(fā)明目的技術(shù)方案:
[0005]一種基于用戶瀏覽行為的網(wǎng)頁推薦方法,其特征在于:
[0006]步驟1:利用瀏覽器收集每個(gè)頁面的停留時(shí)間以及頁面內(nèi)容信息;
[0007]步驟2:對(duì)頁面內(nèi)容進(jìn)行文本分析,獲得頁面的特征項(xiàng);
[0008]步驟3:根據(jù)頁面停留時(shí)間和特征項(xiàng),分析出用戶對(duì)每個(gè)特征項(xiàng)的興趣程度,得到用戶興趣類權(quán)值;
[0009]步驟4:將權(quán)值較高的興趣類作為關(guān)鍵詞,利用爬蟲程序,將Web上與用戶興趣有關(guān)的網(wǎng)頁按照類別全部抓取下來;
[0010]步驟5:利用余弦夾角函數(shù)計(jì)算抓取的網(wǎng)頁與用戶已瀏覽的網(wǎng)頁的相似度,將相似度較高的網(wǎng)頁推送給用戶。
[0011]步驟I中,利用瀏覽器監(jiān)聽頁面的創(chuàng)建和消亡、鼠標(biāo)滾輪的滑動(dòng),統(tǒng)計(jì)頁面的停留時(shí)間;利用在瀏覽器中得到所有頁面url,對(duì)頁面源代碼即頁面內(nèi)容進(jìn)行獲取。
[0012]步驟2中,首先對(duì)網(wǎng)頁中的干擾信息進(jìn)行清理,所說的干擾信息為HTML頁面的框架結(jié)構(gòu)信息、超鏈接信息或者腳本信息。
[0013]步驟2中,文本分析時(shí),首先,對(duì)處理過的頁面文檔集進(jìn)行分詞處理,然后,對(duì)文本中所有特征項(xiàng)進(jìn)行權(quán)值計(jì)算,并抽取權(quán)值最高的N個(gè)詞語作為頁面的主題內(nèi)容,N值由用戶設(shè)定。
[0014]步驟3中,興趣類權(quán)值計(jì)算公式如下所示:
[0015]InterestDegree (Ij) = KeywordDegree (Ij) XViewtimeDegree (Ij)
[0016]興趣等級(jí)InterestDegree(Ij),表示用戶興趣類權(quán)值;
[0017]頁面停留時(shí)間等級(jí)ViewtimeDegree(Ij),表示用戶在每一關(guān)鍵詞中花費(fèi)的時(shí)間時(shí)間占總瀏覽時(shí)間的比值,Ij e T,T表示特征集合;
[0018]關(guān)鍵詞興趣等級(jí)KeywordDegree (Ij),表示每一關(guān)鍵詞在主題詞集合T中出現(xiàn)的次數(shù)占關(guān)鍵詞的總數(shù)的比值,Ij e T,T表示特征集合。
[0019]本發(fā)明具有的有益效果:
[0020]本發(fā)明在用戶進(jìn)行瀏覽網(wǎng)頁時(shí),利用瀏覽器將每個(gè)頁面的停留時(shí)間以及頁面內(nèi)容收集起來;在數(shù)據(jù)預(yù)處理階段,對(duì)頁面內(nèi)容進(jìn)行文本分析,獲得頁面的特征項(xiàng);根據(jù)頁面停留時(shí)間和特征項(xiàng)出現(xiàn)頻率分析出用戶對(duì)每個(gè)特征項(xiàng)的興趣程度,得到用戶的當(dāng)前興趣模型;最后根據(jù)頁面停留時(shí)間和特征項(xiàng)對(duì)用戶興趣的影響分析出用戶對(duì)每個(gè)特征項(xiàng)的興趣程度,得到用戶的當(dāng)前興趣,將相關(guān)網(wǎng)頁推送給用戶。本發(fā)明不僅能夠自動(dòng)記錄用戶行為,實(shí)時(shí)分析,挖掘用戶當(dāng)前的興趣偏好,還可以掌握用戶對(duì)所有興趣的喜愛程度,可以利用此信息進(jìn)行實(shí)時(shí)的個(gè)性化推薦服務(wù)。
[0021]本發(fā)明在數(shù)據(jù)預(yù)處理階段即步驟2中,首先對(duì)網(wǎng)頁中的干擾信息進(jìn)行清理,在文本分析時(shí),首先,對(duì)處理過的頁面文檔集進(jìn)行分詞處理,然后,對(duì)文本中所有特征項(xiàng)進(jìn)行權(quán)值計(jì)算,并抽取權(quán)值最高的N個(gè)詞語作為頁面的主題內(nèi)容,能夠有效提高獲得頁面特征項(xiàng)的速度和準(zhǔn)確率。本發(fā)明在步驟3中通過興趣類權(quán)值計(jì)算公式,能夠充分體現(xiàn)出用戶對(duì)瀏覽網(wǎng)頁的興趣。
【具體實(shí)施方式】
[0022]步驟1:利用瀏覽器收集每個(gè)頁面的停留時(shí)間以及頁面內(nèi)容信息;
[0023]利用瀏覽器監(jiān)聽頁面的創(chuàng)建和消亡、鼠標(biāo)滾輪的滑動(dòng),統(tǒng)計(jì)頁面的停留時(shí)間;每當(dāng)一個(gè)頁面(PageA)加載完成時(shí),瀏覽器會(huì)將此時(shí)的系統(tǒng)時(shí)間記錄下來,作為頁面停留時(shí)間的開始時(shí)刻T(StartA)。當(dāng)這個(gè)頁面進(jìn)入非活躍狀態(tài)時(shí),也就是用戶進(jìn)行了關(guān)閉頁面的操作或進(jìn)行了新的網(wǎng)頁瀏覽,瀏覽器就會(huì)再次記錄系統(tǒng)時(shí)間,作為頁面停留時(shí)間的結(jié)束時(shí)刻T(endA)。那么用戶在此頁面的頁面停留時(shí)間StayTime (pageA)就等于結(jié)束時(shí)刻與開始時(shí)刻的時(shí)間差。頁面停留時(shí)間計(jì)算公式如下:
[0024]StayTime(pageA) = T(endA)-T(startA)
[0025]利用在瀏覽器中得到所有頁面url,對(duì)頁面源代碼,即頁面內(nèi)容,進(jìn)行獲取。
[0026]步驟2:對(duì)頁面內(nèi)容進(jìn)行文本分析,獲得頁面的特征項(xiàng);
[0027]首先對(duì)網(wǎng)頁中的干擾信息進(jìn)行清理,所說的干擾信息為HTML頁面的框架結(jié)構(gòu)信息、超鏈接信息或者腳本信息。
[0028]文本分析時(shí),首先,對(duì)處理過的頁面文檔集進(jìn)行分詞處理,然后,對(duì)文本中所有特征項(xiàng)進(jìn)行權(quán)值計(jì)算,并抽取權(quán)值最高的N個(gè)詞語作為頁面的主題內(nèi)容,N值由用戶設(shè)定,本實(shí)施例中,N取7。
[0029]步驟3:根據(jù)頁面停留時(shí)間和特征項(xiàng),分析出用戶對(duì)每個(gè)特征項(xiàng)的興趣程度,得到用戶興趣類權(quán)值;
[0030]在用戶興趣挖掘階段,考慮到頁面停留時(shí)間和特征項(xiàng)對(duì)用戶興趣的影響,對(duì)用戶每一興趣類進(jìn)行興趣強(qiáng)度計(jì)算,即計(jì)算用戶興趣類權(quán)值。
[0031]興趣等級(jí)InterestDegree (I」):表示用戶興趣類權(quán)值。
[0032]頁面停留時(shí)間等級(jí)ViewtimeDegree (I」)(I」e Τ) (T表示特征集合)::表示用戶在每一關(guān)鍵詞中花費(fèi)的時(shí)間時(shí)間占總瀏覽時(shí)間的比值。
[0033]關(guān)鍵詞興趣等級(jí)KeywordDegree (Ij) (Ij e T):表示每一關(guān)鍵詞在主題詞集合T中出現(xiàn)的次數(shù)占關(guān)鍵詞的總數(shù)的比值。
[0034]興趣權(quán)值計(jì)算公式如下所示:
[0035]InterestDegree (Ij) = KeywordDegree (Ij) XViewtimeDegree (Ij)
[0036]通過計(jì)算頁面停留時(shí)間等級(jí)和關(guān)鍵詞興趣等級(jí),就可計(jì)算出用戶對(duì)每個(gè)興趣類的興趣強(qiáng)度,從而得到用戶興趣表示。
[0037]用戶興趣表示為:((I1,InterestDegree (I1)), (I2, InterestDegree (I2)),...,(In, InterestDegree (In))。
[0038]其中,In表示用戶的興趣類,InterestDegree(In)表示In對(duì)應(yīng)的用戶興趣類權(quán)值。
[0039]經(jīng)過文本分析后,就可以利用特征項(xiàng)表示頁面內(nèi)容,構(gòu)建向量空間模型。對(duì)于頁面集合 P = (P1, Pa,, pn}中的任意頁面 Pi (1< = i〈 = η),表示成 Pi = {(tn, wn),(ti2, wi2),...,(tin, win)} (n> = I)。其中 tik(l〈 = k〈 = n)表示頁面的特征項(xiàng),wik(l< = k〈 = η)表示特征項(xiàng)對(duì)應(yīng)的權(quán)值。在向量空間模型下,使用特征項(xiàng)的權(quán)重集合表示頁面向量,頁面Pi和Pj的頁面向量分別為Pi (Wil, wi2,...,win), Pj (Wj1, Wj2,...,wJn)。兩個(gè)頁面之間的相似度Sim(PpPj)的公式為:
【權(quán)利要求】
1.一種基于用戶瀏覽行為的網(wǎng)頁推薦方法,其特征在于: 步驟1:利用瀏覽器收集每個(gè)頁面的停留時(shí)間以及頁面內(nèi)容信息; 步驟2:對(duì)頁面內(nèi)容進(jìn)行文本分析,獲得頁面的特征項(xiàng); 步驟3:根據(jù)頁面停留時(shí)間和特征項(xiàng),分析出用戶對(duì)每個(gè)特征項(xiàng)的興趣程度,得到用戶興趣類權(quán)值; 步驟4:將權(quán)值較高的興趣類作為關(guān)鍵詞,利用爬蟲程序,將Web上與用戶興趣有關(guān)的網(wǎng)頁按照類別全部抓取下來; 步驟5:利用余弦夾角函數(shù)計(jì)算抓取的網(wǎng)頁與用戶已瀏覽的網(wǎng)頁的相似度,將相似度較高的網(wǎng)頁推送給用戶。
2.根據(jù)權(quán)利要求1所述的基于用戶瀏覽行為的網(wǎng)頁推薦方法,其特征在于:步驟I中,利用瀏覽器監(jiān)聽頁面的創(chuàng)建和消亡、鼠標(biāo)滾輪的滑動(dòng),統(tǒng)計(jì)頁面的停留時(shí)間;利用在瀏覽器中得到所有頁面url,對(duì)頁面源代碼即頁面內(nèi)容進(jìn)行獲取。
3.根據(jù)權(quán)利要求2所述的基于用戶瀏覽行為的網(wǎng)頁推薦方法,其特征在于:步驟2中,首先對(duì)網(wǎng)頁中的干擾信息進(jìn)行清理,所說的干擾信息為HTML頁面的框架結(jié)構(gòu)信息、超鏈接信息或者腳本信息。
4.根據(jù)權(quán)利要求3所述的基于用戶瀏覽行為的網(wǎng)頁推薦方法,其特征在于:步驟2中,文本分析時(shí),首先,對(duì)處理過的頁面文檔集進(jìn)行分詞處理,然后,對(duì)文本中所有特征項(xiàng)進(jìn)行權(quán)值計(jì)算,并抽取權(quán)值最高的N個(gè)詞語作為頁面的主題內(nèi)容,N值由用戶設(shè)定。
5.根據(jù)權(quán)利要求4所述的基于用戶瀏覽行為的網(wǎng)頁推薦方法,其特征在于:步驟3中, 興趣類權(quán)值計(jì)算公式如下所示:
InterestDegree (Ij) = KeywordDegree (Ij) XViewtimeDegree (Ij) 興趣等級(jí)InterestDegree(Ij),表示用戶興趣類權(quán)值; 頁面停留時(shí)間等級(jí)ViewtimeDegree (Ij),表示用戶在每一關(guān)鍵詞中花費(fèi)的時(shí)間時(shí)間占總瀏覽時(shí)間的比值,Ij e T,T表示特征集合; 關(guān)鍵詞興趣等級(jí)KeywordDegree (Ij),表示每一關(guān)鍵詞在主題詞集合T中出現(xiàn)的次數(shù)占關(guān)鍵詞的總數(shù)的比值,Ij e T,T表示特征集合。
【文檔編號(hào)】G06F17/30GK104199874SQ201410412077
【公開日】2014年12月10日 申請(qǐng)日期:2014年8月20日 優(yōu)先權(quán)日:2014年8月20日
【發(fā)明者】姚念民, 張薇 申請(qǐng)人:哈爾濱工程大學(xué)