瀏覽器日志信息的分析方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種瀏覽器日志信息的分析方法和裝置。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,越來越多的用戶使用瀏覽器訪問互聯(lián)網(wǎng)。了解用戶 對于訪問互聯(lián)網(wǎng)的興趣將有助于企業(yè)向用戶推送更準(zhǔn)確的產(chǎn)品信息以及展開市場活動。現(xiàn) 有的用戶興趣計算方法通常利用用戶的瀏覽記錄,通過獲得用戶訪問的網(wǎng)頁來確定用戶的 興趣。通過一定時間內(nèi)例如單日哪種類型的網(wǎng)頁被訪問的次數(shù)最多,來確定該類型為用戶 的興趣所在,即簡單的由網(wǎng)頁訪問數(shù)量多少來確定用戶的訪問興趣。
[0003] 然而,簡單的通過某種類型網(wǎng)頁被訪問次數(shù)的多少并不一定能準(zhǔn)確反映出用戶訪 問網(wǎng)頁的真實興趣。例如用戶某日因為特定工作或任務(wù)僅僅在某日訪問了某特定網(wǎng)站,并 且訪問次數(shù)數(shù)量巨大,然而卻并未在其它日期內(nèi)訪問該網(wǎng)站,通過簡單的計算被訪問網(wǎng)頁 的次數(shù),可能得出結(jié)論為該用戶對該特定網(wǎng)站具有較大興趣,然而事實切并非如此。可見, 簡單通過計算訪問網(wǎng)頁次數(shù)并不能反映用戶使用互聯(lián)網(wǎng)的真實興趣。
[0004] 為了更準(zhǔn)確的反映出用戶訪問互聯(lián)網(wǎng)的真實興趣,需要一種用戶興趣模型及興趣 模型的更新機(jī)制來實現(xiàn)上述目的。
【發(fā)明內(nèi)容】
[0005] 本申請?zhí)峁┝艘环N瀏覽器日志信息的分析方法和裝置,以提供一種更加準(zhǔn)確獲取 和描述用戶訪問互聯(lián)網(wǎng)興趣的技術(shù)方案。
[0006] 根據(jù)本申請的一個方面,提供來一種瀏覽器日志信息的分析方法。該瀏覽器日志 信息的分析方法,包括:
[0007] 根據(jù)預(yù)定周期內(nèi)用戶訪問網(wǎng)頁的日志信息,獲得預(yù)定周期內(nèi)每一天的當(dāng)日興趣多 元組,當(dāng)日興趣多元組包括一個或多個當(dāng)日興趣元組,每個當(dāng)日興趣元組包括興趣標(biāo)簽和 當(dāng)日興趣比重,該興趣標(biāo)簽表示用戶當(dāng)日訪問的網(wǎng)頁各自的類別,當(dāng)日興趣比重表示被訪 問的該類別的網(wǎng)頁數(shù)量占當(dāng)日被訪問的全部網(wǎng)頁數(shù)量的比例;
[0008] 基于預(yù)定周期內(nèi)每一天的當(dāng)日興趣多元組,獲得一個或多個基準(zhǔn)興趣元組,每個 基準(zhǔn)興趣元組包括興趣標(biāo)簽和累計興趣權(quán)重,其中,累加預(yù)定周期內(nèi)每一天的當(dāng)日興趣多 元組中具有相同興趣標(biāo)簽的當(dāng)日興趣元組中的當(dāng)日興趣比重,作為具有該興趣標(biāo)簽的基準(zhǔn) 興趣元組中對應(yīng)的累計興趣權(quán)重。
[0009] 通過本發(fā)明的上述實施例,基于用戶訪問網(wǎng)頁的日志信息,為建立用戶的興趣多 元組提供了真實可靠的數(shù)據(jù)基礎(chǔ)。對預(yù)定周期內(nèi)當(dāng)日興趣多元組進(jìn)行合并操作體現(xiàn)了預(yù)定 周期內(nèi)持續(xù)跟蹤用戶的瀏覽行為,所獲得的累計興趣權(quán)重則體現(xiàn)了該預(yù)定周期內(nèi)用戶訪問 網(wǎng)頁的興趣的累加結(jié)果,從而減少了偶然網(wǎng)頁訪問帶來干擾,能掌握更為穩(wěn)定和準(zhǔn)確的用 戶訪問網(wǎng)頁的興趣所在。
[0010] 在一種方法實施例中,累加預(yù)定周期內(nèi)每一天的當(dāng)日興趣多元組中具有相同興趣 標(biāo)簽的當(dāng)日興趣元組中的當(dāng)日興趣比重的步驟包括:
[0011] 對于每個興趣標(biāo)簽,以該預(yù)定周期內(nèi)存在日志信息的第一天的當(dāng)日興趣比重作為 初始累計興趣權(quán)重,按時間順序逐日將下一天的當(dāng)日興趣多元組中對應(yīng)的當(dāng)日興趣比重累 加到對應(yīng)的累計興趣權(quán)重,
[0012] 其中,將下一天的當(dāng)日興趣多元組中對應(yīng)的當(dāng)日興趣比重累加到對應(yīng)的累計興趣 權(quán)重的步驟包括:
[0013] 根據(jù)該興趣標(biāo)簽在下一天的當(dāng)日興趣多元組中是否出現(xiàn),增大或減小原累計興趣 權(quán)重,得到調(diào)整后的累計興趣權(quán)重;以及
[0014] 將該興趣標(biāo)簽在下一天的當(dāng)日興趣多元組中對應(yīng)的當(dāng)日興趣比重與調(diào)整后的累 計興趣權(quán)重相加,得到新累計興趣權(quán)重。
[0015] 在上述實施例中,按照時間順序逐日累加當(dāng)日興趣多元組中對應(yīng)的當(dāng)日興趣比 重,同時根據(jù)興趣在后續(xù)日期中是否出現(xiàn),在累加之前對原累計興趣權(quán)重進(jìn)行增大或減小 調(diào)整,從而減少早起數(shù)據(jù)的影響,體現(xiàn)了用戶訪問興趣按照日期的動態(tài)變化,使得調(diào)整后的 累計興趣權(quán)重包含訪問興趣的動態(tài)因素,更準(zhǔn)確地反映用戶的訪問興趣情況。
[0016] 同時,在本實施例中,對于每個興趣標(biāo)簽,在預(yù)定周期內(nèi)按時間順序逐日將下一天 的當(dāng)日興趣比重累加到基準(zhǔn)興趣元組中對應(yīng)的累計興趣權(quán)重,由于按照順序進(jìn)行累加,因 此對于獲得最新的累計興趣權(quán)重,只需要將之前的累計興趣權(quán)重和下一天的當(dāng)日興趣比重 進(jìn)行累加,即只需要進(jìn)行一次計算即可,而不需要每次從預(yù)定周期內(nèi)第一日開始計算,大大 減少了計算量。
[0017] 在一種方法實施例中,基準(zhǔn)興趣元組還包括其興趣標(biāo)簽對應(yīng)的活躍度信息,活躍 度信息表示該興趣標(biāo)簽在預(yù)定周期內(nèi)每一天出現(xiàn)或不出現(xiàn)的情況,其中,將下一天的當(dāng)日 興趣多元組中對應(yīng)的當(dāng)日興趣比重累加到累計興趣權(quán)重的步驟還包括:查詢興趣標(biāo)簽的活 躍度信息,以確定該興趣標(biāo)簽在下一天的當(dāng)日興趣多元組中是否出現(xiàn)。
[0018] 在上述方法實施例中,通過在基準(zhǔn)興趣元組中包含活躍度信息可以方便地查詢基 準(zhǔn)興趣元組中各個興趣標(biāo)簽的活躍度,從而便于確定該興趣標(biāo)簽在下一天的當(dāng)日興趣多元 組中是否出現(xiàn),以進(jìn)行相應(yīng)的增強(qiáng)或減弱調(diào)整。
[0019] 在一種方法實施例中,活躍度信息由二進(jìn)制數(shù)表示,二進(jìn)制數(shù)的位數(shù)與預(yù)定周期 的天數(shù)相對應(yīng),二進(jìn)制數(shù)每一個位的取值分別表示該興趣標(biāo)簽在預(yù)定周期內(nèi)對應(yīng)的那一天 是否出現(xiàn)。
[0020] 在上述方法實施例中,通過將二進(jìn)制數(shù)的位數(shù)與預(yù)定周期的天數(shù)相對應(yīng)可以獲得 預(yù)定周期內(nèi)某種興趣活躍度的比特位圖,方便表示和查詢該興趣在某日是否出現(xiàn),并且二 進(jìn)制的比特位圖占用存儲空間小。
[0021] 在一種方法實施例中,該方法還包括基于預(yù)定周期之后新的一天的日志信息來更 新一個或多個基準(zhǔn)興趣元組,其中,更新一個或多個基準(zhǔn)興趣元組的步驟包括:根據(jù)新的一 天的日志信息,建立新當(dāng)日興趣多元組;對于每個興趣標(biāo)簽,將新當(dāng)日興趣多元組中對應(yīng)的 當(dāng)日興趣比重累加到對應(yīng)的累計興趣權(quán)重。
[0022] 在上述實施例中,在完成初次建模之后即完成預(yù)定周期內(nèi)對用戶興趣的計算之 后,可以繼續(xù)基于更多的日志信息對預(yù)定周期之后用戶的興趣進(jìn)行分析,從而獲得更多的 用戶訪問網(wǎng)頁的興趣,并且計算量小。
[0023] 在一種方法實施例中,將新當(dāng)日興趣多元組中對應(yīng)的當(dāng)日興趣比重累加到對應(yīng)的 累計興趣權(quán)重的步驟包括:
[0024] 根據(jù)該興趣標(biāo)簽在新當(dāng)日興趣多元組中是否出現(xiàn),增大或減小原累計興趣權(quán)重, 得到調(diào)整后的累計興趣權(quán)重;以及將該興趣標(biāo)簽在新當(dāng)日興趣多元組中對應(yīng)的當(dāng)日興趣比 重與調(diào)整后的累計興趣權(quán)重相加,得到新累計興趣權(quán)重。
[0025] 在該實施例中,可以在后續(xù)基于日志信息對預(yù)定周期之后用戶的興趣繼續(xù)進(jìn)行分 析中,體現(xiàn)用戶興趣的動態(tài)變化因素,從而獲得更準(zhǔn)確的用戶興趣信息。
[0026] 在一種方法實施例中,增大累計興趣權(quán)重的步驟包括:按照預(yù)定的比例或數(shù)值增 大興趣標(biāo)簽對應(yīng)的累計興趣權(quán)重;
[0027] 減小累計興趣權(quán)重的步驟包括:按照預(yù)定的比例或數(shù)值減小興趣標(biāo)簽對應(yīng)的累計 興趣權(quán)重。
[0028] 通過預(yù)定的比例或數(shù)值作為興趣增強(qiáng)因子或興趣衰減因子,進(jìn)行增加或這減小累 計興趣權(quán)重的計算,能夠方便地表示用戶各類興趣的更新情況。
[0029] 通過預(yù)定的比例或數(shù)值作為興趣增強(qiáng)因子或興趣衰減因子,進(jìn)行增加或這減小累 計興趣權(quán)重的計算,能夠方便地表示用戶各類興趣的動態(tài)變化情況,減少早期數(shù)據(jù)的干擾。
[0030] 在一種方法實施例中,基準(zhǔn)興趣元組還包括其興趣標(biāo)簽對應(yīng)的活躍度信息,活躍 度信息表示該興趣標(biāo)簽在預(yù)定周期內(nèi)每一天出現(xiàn)或不出現(xiàn)的情況,活躍度信息由二進(jìn)制數(shù) 表示,二進(jìn)制數(shù)的位數(shù)與預(yù)定周期的天數(shù)相對應(yīng),二進(jìn)制數(shù)每一個位的取值分別表示該興 趣標(biāo)簽在預(yù)定周期內(nèi)對應(yīng)的那一天是否出現(xiàn),
[0031] 更新一個或多個基準(zhǔn)興趣元組的步驟還包括:
[0032] 對于每個基準(zhǔn)興趣元組,對表示興趣標(biāo)簽對應(yīng)的活躍度信息的二進(jìn)制數(shù)進(jìn)行移 位,使其中對應(yīng)于最早一天的位溢出,并以表示新當(dāng)日興趣多元組中是否出現(xiàn)該興趣標(biāo)簽 的取值作為二進(jìn)制數(shù)中對應(yīng)于最后一天的位。
[0033] 通過上述實施例,在完成初次建模之后,可以通過二進(jìn)制移位,更新新基準(zhǔn)興趣元 組中所記錄的興趣的活躍度信息,從而方便更急活躍度信息進(jìn)行調(diào)整計算。
[0034] 在一種方法實施例中,還包括:根據(jù)二進(jìn)制數(shù)中"0"和" 1"的分布,對該二進(jìn)制數(shù) 所對應(yīng)的興趣標(biāo)簽進(jìn)行分類。
[0035] 在一些實施例中,通過興趣標(biāo)簽對應(yīng)的二進(jìn)制數(shù)的1"個數(shù)和分布情況,能夠 方便地將用戶的興趣進(jìn)行分類。
[0036] 在一種方法實施例中,根據(jù)預(yù)定周期內(nèi)用戶訪問網(wǎng)頁的日志信息獲得預(yù)定周期內(nèi) 每一天的當(dāng)日興趣多元組的步驟包括:
[0037] 通過分別分析用戶每一天訪問過的網(wǎng)頁,確定每一天涉及的興趣標(biāo)簽和對應(yīng)的當(dāng) 日興趣權(quán)重;將每一天的所有興趣標(biāo)簽對應(yīng)的興趣權(quán)重按比例統(tǒng)一化,得到每個興趣標(biāo)簽 對應(yīng)的興趣比重,使得每一天的所有興趣標(biāo)簽對應(yīng)的興趣比重之和為預(yù)定的常數(shù)。
[0038] 在上述實施例中,通過將每一天的所有興趣標(biāo)簽對應(yīng)的興趣權(quán)重按比例統(tǒng)一化, 而非簡單地統(tǒng)計訪問網(wǎng)頁的數(shù)量,從而更能夠體現(xiàn)不同興趣的相對重要程度。
[0039] 根據(jù)本申請的另一個方面,還提供了一種瀏覽器日志信息的分析裝置,包括:
[0040] 當(dāng)日興趣獲取單元,用于根據(jù)預(yù)定周期內(nèi)用戶訪問網(wǎng)頁的日志信息,獲得預(yù)定周 期內(nèi)每一天的當(dāng)日興趣多元組,當(dāng)日興趣多元組包括一個或多個當(dāng)日興趣元組,每個當(dāng)日 興趣元組包括興趣標(biāo)簽和當(dāng)日興趣比重,興趣標(biāo)簽表示用戶當(dāng)日訪問的網(wǎng)頁各自的類別, 當(dāng)日興趣比重表示被訪問的該類別的網(wǎng)頁數(shù)量占當(dāng)日被訪問的全部網(wǎng)頁數(shù)量的比例;
[0041] 興趣多元組合并單元,用于基于預(yù)定周期內(nèi)每一天的當(dāng)日興趣多元組,獲得一個 或多個基準(zhǔn)興趣元組,每個基準(zhǔn)興趣元組包括興趣標(biāo)簽和累計興趣權(quán)重,其中,累加預(yù)定周 期內(nèi)每一天的當(dāng)日興趣多元組中具有相同興趣標(biāo)簽的當(dāng)日興趣元組中的當(dāng)日興趣比重,作 為具有該興趣標(biāo)簽的基準(zhǔn)興趣元組中對應(yīng)的累計興趣權(quán)重。
[0042] 通過本發(fā)明的上述實施例,基于用戶訪問網(wǎng)頁的日志信息,為建立用戶的興趣多 元組提供了真實可靠的數(shù)據(jù)基礎(chǔ)。對預(yù)定周期內(nèi)當(dāng)日興趣多元組進(jìn)行合并操作體現(xiàn)了預(yù)定 周期內(nèi)持續(xù)跟蹤用戶的瀏覽行為,所獲得的累計興趣權(quán)重則體現(xiàn)了該預(yù)定周期內(nèi)用戶訪問 網(wǎng)頁的興趣的累加結(jié)果,從而減少了偶然網(wǎng)頁訪問帶來干擾,能掌握更為穩(wěn)定和準(zhǔn)確的用 戶訪問網(wǎng)頁的興趣所在。
[0043] 在一種裝置實施例中,興趣多元組合并單元,用于對于每個興趣標(biāo)簽,以預(yù)定周期 內(nèi)存在日志信息的第一天的當(dāng)日興趣比重作為初始累計興趣權(quán)重,按時間順序逐日將下一 天的當(dāng)日興趣多元組中對應(yīng)的當(dāng)日興趣比重累加到對應(yīng)的累計興趣