一種isp間互聯(lián)口url活躍度的統(tǒng)計(jì)方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域。更具體的,本發(fā)明涉及一種利用互聯(lián)互通口URL日志 來(lái)統(tǒng)計(jì)ISP間URL域名活躍度的方法。
【背景技術(shù)】
[0002] 近年來(lái),隨著光纖普及以及互聯(lián)網(wǎng)帶寬的迅猛發(fā)展,國(guó)內(nèi)互聯(lián)網(wǎng)各個(gè)ISP廠商之間 的市場(chǎng)競(jìng)爭(zhēng)愈發(fā)激烈,各個(gè)運(yùn)營(yíng)商的競(jìng)爭(zhēng)已經(jīng)逐步轉(zhuǎn)移到服務(wù)的競(jìng)爭(zhēng),都在力爭(zhēng)打造自己 的生態(tài)圈爭(zhēng)取更多的用戶使用自己的入口,國(guó)內(nèi)各個(gè)運(yùn)營(yíng)商逐步向以客戶為中心的思維運(yùn) 營(yíng)模式做轉(zhuǎn)變,新的商業(yè)模式和日趨激烈的競(jìng)爭(zhēng)對(duì)各個(gè)運(yùn)營(yíng)商的管理提出了新的要求和挑 戰(zhàn)。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明主要目的是通過(guò)對(duì)互聯(lián)互通口的URL進(jìn)行分析,深入分析URL活躍情況,進(jìn) 一步了解用戶的上網(wǎng)行為,以便于及時(shí)把握上網(wǎng)用戶的情況。
[0004] 根據(jù)本發(fā)明一方面,提供了一種ISP間互聯(lián)口 URL活躍度統(tǒng)計(jì)方法,包括
[0005 ]步驟1、收集預(yù)定時(shí)間周期內(nèi)被訪問(wèn)的URL網(wǎng)頁(yè)數(shù)據(jù),對(duì)預(yù)定時(shí)間周期內(nèi)點(diǎn)擊訪問(wèn) 的URL網(wǎng)頁(yè)的被訪問(wèn)次數(shù)進(jìn)行統(tǒng)計(jì),獲得訪問(wèn)次數(shù)排名靠前的預(yù)定數(shù)量的高活躍度URL及訪 問(wèn)時(shí)間長(zhǎng)度;
[0006] 步驟2、對(duì)所述預(yù)定數(shù)量的URL中新出現(xiàn)的URL網(wǎng)頁(yè)的內(nèi)容進(jìn)行內(nèi)容特征詞的查找, 與預(yù)先建立的特征詞數(shù)據(jù)庫(kù)中的特征詞進(jìn)行比對(duì),劃分該URL網(wǎng)頁(yè)的內(nèi)容特征方向以及內(nèi) 容權(quán)重并存儲(chǔ);
[0007] 步驟3、對(duì)所述高活躍度URL,依據(jù)其訪問(wèn)次數(shù)、內(nèi)容特征方向和訪問(wèn)時(shí)間長(zhǎng)度進(jìn)行 加權(quán)平均分析,得到每個(gè)URL的活躍度指數(shù)UAI;
[0008] 步驟4、利用所述活躍度指數(shù)UAI對(duì)所述URL的活躍度進(jìn)行排名。
[0009] 根據(jù)本發(fā)明另一方面,提供了一種ISP間互聯(lián)口 URL活躍度統(tǒng)計(jì)裝置,包括
[0010] 收集模塊,用于收集預(yù)定時(shí)間周期內(nèi)被訪問(wèn)的URL網(wǎng)頁(yè)數(shù)據(jù),對(duì)預(yù)定時(shí)間周期內(nèi)點(diǎn) 擊訪問(wèn)的URL網(wǎng)頁(yè)的被訪問(wèn)次數(shù)進(jìn)行統(tǒng)計(jì),獲得訪問(wèn)次數(shù)排名靠前的預(yù)定數(shù)量的高活躍度 URL及訪問(wèn)時(shí)間長(zhǎng)度;
[0011]歸類模塊,用于對(duì)所述預(yù)定數(shù)量的URL中新出現(xiàn)的URL網(wǎng)頁(yè)的內(nèi)容進(jìn)行內(nèi)容特征詞 的查找,與預(yù)先建立的特征詞數(shù)據(jù)庫(kù)中的特征詞進(jìn)行比對(duì),劃分該URL網(wǎng)頁(yè)的內(nèi)容特征方向 以及內(nèi)容權(quán)重并存儲(chǔ);
[0012] 分析模塊,用于對(duì)所述高活躍度URL,依據(jù)其訪問(wèn)次數(shù)、內(nèi)容特征方向和訪問(wèn)時(shí)間 長(zhǎng)度進(jìn)行加權(quán)平均分析,得到每個(gè)URL的活躍度指數(shù)UAI;
[0013] 排名模塊,用于利用所述活躍度指數(shù)UAI對(duì)所述URL的活躍度進(jìn)行排名。
【附圖說(shuō)明】
[0014] 圖1是本發(fā)明中一種ISP間互聯(lián)口 URL活躍度的統(tǒng)計(jì)方法流程圖;
[0015] 圖2是本發(fā)明中新出現(xiàn)的URL的特征詞分析及網(wǎng)頁(yè)內(nèi)容分類以及計(jì)算URL內(nèi)容特征 指數(shù)的整體流程圖;
[0016] 圖3是本發(fā)明中基于字典分詞方法流程圖;
[0017] 圖4是傳統(tǒng)的實(shí)現(xiàn)網(wǎng)頁(yè)文本分類的無(wú)環(huán)圖標(biāo)準(zhǔn)算法流程圖;
[0018] 圖5是本發(fā)明中實(shí)現(xiàn)網(wǎng)頁(yè)文本分類的無(wú)環(huán)圖優(yōu)化算法流程圖;
[0019]圖6是本發(fā)明中URL內(nèi)容特征指數(shù)算法流程圖;
[0020] 圖7是本發(fā)明中URL活躍度整個(gè)算法流程圖。
【具體實(shí)施方式】
[0021] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,并參照 附圖,對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說(shuō)明。
[0022] 為此,本發(fā)明提出了一種基于ISP互聯(lián)互通口采集到的URL來(lái)分析URL分類活躍情 況,以便于了解用戶的流量趨勢(shì)和熱點(diǎn)趨勢(shì)。
[0023]圖1示出了本發(fā)明提出的一種ISP間互聯(lián)口URL活躍度的統(tǒng)計(jì)方法流程圖。本發(fā)明 涉及2部分,一部分是URL網(wǎng)頁(yè)的文本分詞,提取特征詞,針對(duì)特征詞進(jìn)行分類,按照特征詞 對(duì)比熱證詞庫(kù)來(lái)對(duì)URL進(jìn)行標(biāo)識(shí),按照標(biāo)識(shí)維度及權(quán)重來(lái)確定URL的活躍度。
[0024]另外一部分是URL根據(jù)其各種指標(biāo),包括URL每天出現(xiàn)的次數(shù),URL網(wǎng)頁(yè)內(nèi)容特征 詞,用戶的訪問(wèn)時(shí)長(zhǎng)等,利用加權(quán)平均指定出URL活躍度指數(shù),進(jìn)一步確定URL活躍度排名。 [0025]通過(guò)以上對(duì)URL活躍度的統(tǒng)計(jì)分析,能看到用戶的訪問(wèn)熱點(diǎn)區(qū)域和熱點(diǎn)趨勢(shì)。
[0026]如圖1所示,本發(fā)明提出的ISP間URL活躍度的統(tǒng)計(jì)方法包括:
[0027]收集預(yù)定時(shí)間周期內(nèi)被訪問(wèn)的URL網(wǎng)頁(yè)數(shù)據(jù),對(duì)預(yù)定時(shí)間周期內(nèi)點(diǎn)擊訪問(wèn)的URL網(wǎng) 頁(yè)的被訪問(wèn)次數(shù)進(jìn)行統(tǒng)計(jì),獲得訪問(wèn)次數(shù)排名靠前的預(yù)定數(shù)量的URL,將所述排名靠前的 URL網(wǎng)頁(yè)存儲(chǔ)為新的高活躍度URL網(wǎng)頁(yè),同時(shí)對(duì)已經(jīng)存儲(chǔ)的高活躍度URL網(wǎng)頁(yè)也進(jìn)行當(dāng)天點(diǎn) 擊訪問(wèn)次數(shù)的統(tǒng)計(jì);
[0028]對(duì)新的高活躍度URL網(wǎng)頁(yè)的內(nèi)容進(jìn)行內(nèi)容特征詞的查找,與預(yù)先建立的特征詞數(shù) 據(jù)庫(kù)中的特征詞進(jìn)行比對(duì),劃分該URL網(wǎng)頁(yè)的內(nèi)容特征方向以及內(nèi)容權(quán)重;
[0029]對(duì)所述高活躍度URL網(wǎng)頁(yè),依據(jù)訪問(wèn)次數(shù)、內(nèi)容特征方向和用于對(duì)該URL網(wǎng)頁(yè)訪問(wèn) 的時(shí)長(zhǎng)進(jìn)行加權(quán)平均分析,得到每個(gè)URL網(wǎng)頁(yè)的活躍度指數(shù)UAI。
[0030] 本發(fā)明提出的上述方法還可以根據(jù)業(yè)務(wù)研究URL內(nèi)容的方向,調(diào)整特征詞數(shù)據(jù)庫(kù) 中特征詞的權(quán)重,來(lái)獲得傾向于研究方向的URL網(wǎng)頁(yè)活躍度排名。
[0031] 下面通過(guò)示意性的實(shí)施例來(lái)對(duì)本發(fā)明的上述方法進(jìn)行詳細(xì)說(shuō)明。本發(fā)明第一實(shí)施 例基于CERNET教育網(wǎng)IPv4基于北京武漢廣州等5個(gè)互聯(lián)口采集的URL數(shù)據(jù)進(jìn)行分析。
[0032]本發(fā)明第一實(shí)施例中的ISP間URL活躍度的統(tǒng)計(jì)方法包括:
[0033] 步驟1 :URL新舊識(shí)別和出現(xiàn)次數(shù)匯總
[0034]步驟101:收集預(yù)定時(shí)間周期內(nèi)被點(diǎn)擊訪問(wèn)的URL網(wǎng)頁(yè)數(shù)據(jù);
[0035]步驟102:提取出目前已有的URL活躍度數(shù)據(jù)庫(kù)中活躍度指數(shù)UAI大于90的已有高 活躍度URL,利用所述已有高活躍度URL對(duì)所述提取的URL網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行排查。該步驟中,針 對(duì)每個(gè)已有高活躍度URL,按照URL地址字符串在當(dāng)天的URL記錄中做全文件按順序搜索,當(dāng) 出現(xiàn)URL整字符串一致時(shí),從所述URL網(wǎng)頁(yè)數(shù)據(jù)中提取該條數(shù)據(jù)并記錄下該記錄的時(shí)間長(zhǎng) 度。最后累計(jì)出各個(gè)已有高活躍度URL在所述預(yù)定時(shí)間周期內(nèi)被點(diǎn)擊訪問(wèn)的次數(shù)以及用戶 訪問(wèn)其的總的時(shí)間長(zhǎng)度。
[0036]步驟103:從所提取的URL網(wǎng)頁(yè)數(shù)據(jù)中提取不在所述已有URL活躍度數(shù)據(jù)庫(kù)中的新 URL,利用所述URL網(wǎng)頁(yè)數(shù)據(jù),對(duì)所述新URL在所述預(yù)定時(shí)間周期內(nèi)被點(diǎn)擊訪問(wèn)的次數(shù)進(jìn)行統(tǒng) 計(jì),最后提取訪問(wèn)次數(shù)排名靠前的預(yù)定數(shù)量T0P100個(gè)新URL,同時(shí)提取所述預(yù)定數(shù)量T0P100 個(gè)新URL的被訪問(wèn)次數(shù)和被訪問(wèn)的總體時(shí)間長(zhǎng)度。
[0037]步驟2:新URL的特征詞分析及網(wǎng)頁(yè)內(nèi)容分類;
[0038] 該步驟是針對(duì)上述步驟103中新出現(xiàn)的T0P100 URL,分析其網(wǎng)頁(yè)中的特征詞,為步 驟3中的【UAI(C)URL內(nèi)容特征指數(shù)】作為URL活躍度統(tǒng)計(jì)中很重要的一項(xiàng)統(tǒng)計(jì)指標(biāo)做數(shù)據(jù)準(zhǔn) 備。
[0039] 通過(guò)對(duì)上述步驟103中排名靠前的預(yù)定數(shù)量T0P100的新URL的網(wǎng)頁(yè)內(nèi)容進(jìn)行文本 分詞,提取網(wǎng)頁(yè)內(nèi)容中的關(guān)鍵字進(jìn)行特征選擇,根據(jù)特征向量對(duì)提取的關(guān)鍵詞與已有的關(guān) 鍵詞分類維度表進(jìn)行匹配,將所述新URL的網(wǎng)頁(yè)內(nèi)容和URL地址歸并到指定的分類中。
[0040] 本發(fā)明中內(nèi)容分類遵循統(tǒng)一的分類模式,具體可以按業(yè)務(wù)大類和業(yè)務(wù)小類方式進(jìn) 行劃分,業(yè)務(wù)大類如應(yīng)用,新聞,教育等,將應(yīng)用可進(jìn)一步劃分為小類,如手機(jī)app,音樂(lè),視 頻等。從而將內(nèi)容分到對(duì)應(yīng)的業(yè)務(wù)大類和業(yè)務(wù)小類中。每個(gè)分類都對(duì)應(yīng)相應(yīng)的數(shù)值和權(quán)重, URL特征詞匹配所有能對(duì)應(yīng)上的分類,按分類匯總得到URL內(nèi)容特征指數(shù)。
[0041] 該步驟整體流程見(jiàn)圖2。
[0042]所述步驟2進(jìn)一步包括:
[0043] 步驟201:文本分詞
[0044] 文本分詞依據(jù)分詞算法將提取后的網(wǎng)頁(yè)內(nèi)容漢字序列分成一個(gè)個(gè)單獨(dú)的詞,最終 實(shí)現(xiàn)識(shí)別語(yǔ)句含義的目的。
[0045] 本方法是基于字符串匹配(字典)的分詞,即按照一定策略將待切分的漢字序列與 數(shù)據(jù)庫(kù)字典中的詞條進(jìn)行匹配,按照匹配方向不同采用正向匹配,逆向匹配以及雙向匹配, 按照不同長(zhǎng)度優(yōu)先匹配的情況分為最長(zhǎng)匹配和最短匹配。單純正常最長(zhǎng)匹配錯(cuò)誤率1/169, 單純逆向最長(zhǎng)匹配錯(cuò)誤率為1/245;
[0046] 如圖3所示,本發(fā)明中基于字典分詞方法,具體包括:
[0047] 從網(wǎng)頁(yè)內(nèi)容的文本語(yǔ)句中剔除英文、特殊符號(hào)等,提取出中文漢字;
[0048] 基于字典分詞方法,對(duì)所述中文漢字進(jìn)行分詞得到多個(gè)詞條。
[0049] 對(duì)于每個(gè)詞條進(jìn)行下一步的分詞特征向量分析。
[0050]步驟202:分詞的特征向量分析
[0051 ]分詞經(jīng)過(guò)特征向量計(jì)算,能區(qū)分出獨(dú)立詞的獨(dú)立性,同時(shí)TFIDF算出的特征向量體 現(xiàn)出分詞后的獨(dú)立詞出現(xiàn)的頻率,對(duì)高頻率的獨(dú)立詞進(jìn)行步驟203的文本分類。
[0052] 分詞處理輸出的結(jié)果,通過(guò)構(gòu)建正則表達(dá)式方式,去掉常用感嘆詞,副詞等,余下 的則用來(lái)表征網(wǎng)頁(yè)文本特征向量,如下公式所示
[0053] d〇Cj - {〈tjl,Wjl〉〈tj2,Wj2〉,· · ·,〈tjn,Wjn〉}
[0054]其中tji是網(wǎng)頁(yè)沖出現(xiàn)的第i個(gè)詞,Wji是詞tji在網(wǎng)頁(yè)中的權(quán)值,一般定義為tji在網(wǎng) 頁(yè)中出現(xiàn)的頻率函數(shù)。由于高維文本向量應(yīng)用文本自動(dòng)分類幾乎難實(shí)現(xiàn),所以必須先進(jìn)行 降維處理,也就是特征選擇。
[0055]經(jīng)特征選擇降維后的文本特征集中包含2個(gè)特點(diǎn),完全性和區(qū)分性,完全性就是體 現(xiàn)文本內(nèi)容和主題,區(qū)分性是能有效區(qū)分文本之間。
[0056]本發(fā)明使用TFIDF算法,TF即詞頻,就是詞在文本中出現(xiàn)的次數(shù),IDF即反文檔頻 率,表示詞在整體詞數(shù)據(jù)庫(kù)文本集中普遍重要性的度量。反文檔頻率為IDF(t) = lg(N/n),N 為網(wǎng)頁(yè)文本詞庫(kù)全部文本數(shù)量,η為包含詞t的文本數(shù)量。TFIDF = TF*IDF。
[0057] 步驟203:文本分類
[0058] 文本分類環(huán)節(jié)主要是基于網(wǎng)頁(yè)文本的特征向量將每個(gè)網(wǎng)頁(yè)文本歸入到預(yù)先定義 好的URL類別中。本發(fā)明采用有向無(wú)環(huán)圖算法,來(lái)實(shí)現(xiàn)網(wǎng)頁(yè)文本分類。如圖4所示,以5個(gè)類別 的左向無(wú)環(huán)算法為例,第一個(gè)分類首先區(qū)分1類對(duì)