專(zhuān)利名稱(chēng):互聯(lián)網(wǎng)行為分析系統(tǒng)及其工作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)分析處理領(lǐng)域,特別涉及一種互聯(lián)網(wǎng)行為分析系統(tǒng)及其工作方法。
背景技術(shù):
當(dāng)前移動(dòng)互聯(lián)網(wǎng)發(fā)展迅猛,3G迎來(lái)井噴式發(fā)展,移動(dòng)業(yè)務(wù)發(fā)展市場(chǎng)競(jìng)爭(zhēng)激烈,3G地位爭(zhēng)奪戰(zhàn)愈加白熱化,流量經(jīng)營(yíng)將成為移動(dòng)互聯(lián)網(wǎng)3G發(fā)展的重中之重。通信運(yùn)營(yíng)商在進(jìn)行流量經(jīng)營(yíng)時(shí),常常面臨以下問(wèn)題和困惑:I)不知道用戶的流量去向,用戶每個(gè)月的流量主要干了什么,用在哪些方面,目前都不清楚,從而也不能真正了解用戶的需求,不知道用戶上網(wǎng)喜歡干什么,也不能真正進(jìn)行針對(duì)性的引導(dǎo)和推薦,盲目推薦有時(shí)會(huì)引起用戶反感,導(dǎo)致用戶投訴,反而起到不好的效果;2)不清楚用戶的使用場(chǎng)景,不知道用戶通常在哪些場(chǎng)景下會(huì)使用手機(jī)上網(wǎng),沒(méi)有準(zhǔn)確的把握營(yíng)銷(xiāo)時(shí)機(jī),用戶反饋率不高,導(dǎo)致很多時(shí)候用戶對(duì)運(yùn)營(yíng)商推薦的內(nèi)容在沒(méi)看的情況下就直接刪除了;3)不能很好的將用戶的寬帶上網(wǎng)偏好移植到手機(jī)上,如果搞清楚用戶的寬帶上網(wǎng)偏好,就可以推薦相應(yīng)的移動(dòng)客戶端 ,將寬帶上網(wǎng)偏好移植到手機(jī)上。
發(fā)明內(nèi)容
因此,本發(fā)明的目的在于提供一種互聯(lián)網(wǎng)行為分析系統(tǒng),能對(duì)海量數(shù)據(jù)進(jìn)行處理和加工,實(shí)現(xiàn)對(duì)用戶上網(wǎng)行為的識(shí)別。本發(fā)明的又一目的在于提供一種互聯(lián)網(wǎng)行為分析系統(tǒng)的工作方法,能對(duì)海量數(shù)據(jù)進(jìn)行處理和加工,實(shí)現(xiàn)對(duì)用戶上網(wǎng)行為的識(shí)別。為實(shí)現(xiàn)上述目的,本發(fā)明提供了一種互聯(lián)網(wǎng)行為分析系統(tǒng),其包括基于Hadoop架構(gòu)搭建的分布式云計(jì)算處理平臺(tái)、通信運(yùn)營(yíng)商數(shù)據(jù)通信網(wǎng)絡(luò)以及接口服務(wù)器,該分布式云計(jì)算處理平臺(tái)經(jīng)由交換機(jī)以及防火墻通訊連接該通信運(yùn)營(yíng)商數(shù)據(jù)通信網(wǎng)絡(luò),該接口服務(wù)器負(fù)責(zé)下載通信運(yùn)營(yíng)商的用戶上網(wǎng)日志并且通訊連接該通信運(yùn)營(yíng)商數(shù)據(jù)通信網(wǎng)絡(luò);該分布式云計(jì)算處理平臺(tái)包括以分布式并行方式通訊連接的主處理服務(wù)器、多個(gè)節(jié)點(diǎn)服務(wù)器以及操作終端,該主處理服務(wù)器負(fù)責(zé)接口數(shù)據(jù)存儲(chǔ),所有節(jié)點(diǎn)服務(wù)器對(duì)接口數(shù)據(jù)同時(shí)并行處理,操作終端向操作者提供操作該分布式云計(jì)算處理平臺(tái)的界面,該分布式云計(jì)算處理平臺(tái)將所述用戶上網(wǎng)日志分成APP清單和URL清單分別進(jìn)行處理,將該APP清單與客戶端應(yīng)用庫(kù)進(jìn)行匹配進(jìn)行APP興趣點(diǎn)匯總,將該URL清單與關(guān)鍵詞庫(kù)和網(wǎng)址分類(lèi)庫(kù)進(jìn)行匹配進(jìn)行URL興趣點(diǎn)匯總,綜合所述APP興趣點(diǎn)匯總和URL興趣點(diǎn)匯總得出反映用戶互聯(lián)網(wǎng)行為的表。其中,所述反映用戶互聯(lián)網(wǎng)行為的表包括分別對(duì)應(yīng)于用戶訪問(wèn)網(wǎng)址、使用APP、在網(wǎng)頁(yè)上進(jìn)行搜索、上網(wǎng)時(shí)段及使用終端的字段。其中,所述客戶端應(yīng)用庫(kù)包括分別對(duì)應(yīng)于IP及端口、域名以及網(wǎng)址的字段。
其中,所述關(guān)鍵詞庫(kù)包括對(duì)應(yīng)于關(guān)鍵詞的字段。其中,所述網(wǎng)址分類(lèi)庫(kù)包括對(duì)應(yīng)于網(wǎng)址的字段。其中,所述分布式云計(jì)算處理平臺(tái)根據(jù)APP興趣點(diǎn)匯總結(jié)果生成用戶APP清單和用戶APP興趣點(diǎn)匯總表。其中,所述分布式云計(jì)算處理平臺(tái)根據(jù)URL興趣點(diǎn)匯總結(jié)果生成用戶URL清單和用戶URL興趣點(diǎn)匯總表。為實(shí)現(xiàn)上述目的,本發(fā)明還提供了一種互聯(lián)網(wǎng)行為分析系統(tǒng)的工作方法,其包括:步驟1、利用接口服務(wù)器下載通信運(yùn)營(yíng)商的用戶上網(wǎng)日志;步驟2、將所述用戶上網(wǎng)日志交由Hadoop架構(gòu)的分布式云計(jì)算處理平臺(tái)進(jìn)行處理并區(qū)分為APP清單和URL清單;步驟3、將所述APP清單與客戶端應(yīng)用庫(kù)進(jìn)行匹配,對(duì)APP興趣點(diǎn)打標(biāo)簽,進(jìn)而對(duì)APP興趣點(diǎn)匯總;步驟4、將所述URL清單與關(guān)鍵詞庫(kù)和網(wǎng)址分類(lèi)庫(kù)進(jìn)行匹配,對(duì)URL興趣點(diǎn)打標(biāo)簽,進(jìn)而對(duì)URL興趣點(diǎn)匯總;步驟5、根據(jù)APP興趣點(diǎn)匯總結(jié)果生成用戶APP清單和用戶APP興趣點(diǎn)匯總表;步驟6、根據(jù)URL興趣點(diǎn)匯總結(jié)果生成用戶URL清單和用戶URL興趣點(diǎn)匯總表;步驟7、根 據(jù)用戶APP興趣點(diǎn)匯總表和用戶URL興趣點(diǎn)匯總表得出反映用戶互聯(lián)網(wǎng)行為的表。其中,所述反映用戶互聯(lián)網(wǎng)行為的表包括分別對(duì)應(yīng)于用戶訪問(wèn)網(wǎng)址、使用APP、在網(wǎng)頁(yè)上進(jìn)行搜索、上網(wǎng)時(shí)段及使用終端的字段。其中,將所述URL清單與關(guān)鍵詞庫(kù)和網(wǎng)址分類(lèi)庫(kù)進(jìn)行匹配的過(guò)程包括:步驟41、通過(guò)網(wǎng)絡(luò)爬蟲(chóng)爬取對(duì)應(yīng)URL的網(wǎng)頁(yè)內(nèi)容,保留文本內(nèi)容作為待分類(lèi)文本;步驟42、通過(guò)分詞技術(shù)對(duì)網(wǎng)頁(yè)內(nèi)容分詞;步驟43、計(jì)算關(guān)鍵詞在關(guān)鍵詞庫(kù)中的分布矩陣;步驟44、計(jì)算關(guān)鍵詞在關(guān)鍵詞庫(kù)中的分布系數(shù);步驟45、計(jì)算關(guān)鍵詞對(duì)關(guān)鍵詞庫(kù)中各類(lèi)的覆蓋度、支持度、置信度;步驟46、準(zhǔn)備多個(gè)預(yù)先已確定分類(lèi)的待分類(lèi)文本作為樣本,用枚舉的方法得到判斷文本分類(lèi)的擬合公式;步驟47、對(duì)于待分類(lèi)的文本用步驟46得到的擬合公式計(jì)算各類(lèi)的得分,實(shí)現(xiàn)對(duì)待分類(lèi)文本的分類(lèi)。綜上所述,本發(fā)明的互聯(lián)網(wǎng)行為分析系統(tǒng)構(gòu)建一個(gè)基于分布式云計(jì)算的大數(shù)據(jù)處理平臺(tái),能對(duì)海量數(shù)據(jù)進(jìn)行處理和加工,實(shí)現(xiàn)對(duì)用戶上網(wǎng)行為的識(shí)別。本發(fā)明的互聯(lián)網(wǎng)行為分析系統(tǒng)的工作方法能對(duì)海量數(shù)據(jù)進(jìn)行處理和加工,可以實(shí)現(xiàn)對(duì)用戶上網(wǎng)行為的識(shí)別,針對(duì)客戶的互聯(lián)網(wǎng)行為打上相應(yīng)的標(biāo)簽。
下面結(jié)合附圖,通過(guò)對(duì)本發(fā)明的具體實(shí)施方式
詳細(xì)描述,將使本發(fā)明的技術(shù)方案及其他有益效果顯而易見(jiàn)。
附圖中,圖1為本發(fā)明互聯(lián)網(wǎng)行為分析系統(tǒng)一較佳實(shí)施例的結(jié)構(gòu)示意圖;圖2為本發(fā)明互聯(lián)網(wǎng)行為分析系統(tǒng)的工作方法一較佳實(shí)施例的流程圖。
具體實(shí)施例方式本發(fā)明技術(shù)方案中所涉及名詞的解釋:URL:統(tǒng)一資源定位符(URL,英語(yǔ)Uniform Resource Locator的縮寫(xiě))也被稱(chēng)為網(wǎng)頁(yè)地址,是因特網(wǎng)上標(biāo)準(zhǔn)的資源的地址。APP:是Application的縮寫(xiě),指運(yùn)行于手機(jī)終端上的應(yīng)用客戶端。Hadoop: 一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu),由Apache基金會(huì)開(kāi)發(fā)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開(kāi)發(fā)分布式程序。充分利用集群的威力高速運(yùn)算和存儲(chǔ)。網(wǎng)絡(luò)爬蟲(chóng):被稱(chēng)為網(wǎng)頁(yè)蜘蛛、網(wǎng)絡(luò)機(jī)器人,是一種按照一定的規(guī)則,自動(dòng)的抓取萬(wàn)維網(wǎng)信息的程序或者 腳本。分詞:中文分詞(Chinese Word Segmentation)指的是將一個(gè)漢字序列切分成一個(gè)一個(gè)單獨(dú)的詞。參見(jiàn)圖1,其為本發(fā)明互聯(lián)網(wǎng)行為分析系統(tǒng)一較佳實(shí)施例的結(jié)構(gòu)示意圖。本發(fā)明的互聯(lián)網(wǎng)行為分析系統(tǒng)主要包括基于Hadoop架構(gòu)搭建的分布式云計(jì)算處理平臺(tái)1、通信運(yùn)營(yíng)商數(shù)據(jù)通信網(wǎng)絡(luò)(DCN)2以及接口服務(wù)器3,該分布式云計(jì)算處理平臺(tái)I經(jīng)由交換機(jī)4以及防火墻5通訊連接該通信運(yùn)營(yíng)商數(shù)據(jù)通信網(wǎng)絡(luò)2,該接口服務(wù)器3負(fù)責(zé)下載通信運(yùn)營(yíng)商的用戶上網(wǎng)日志并且通訊連接該通信運(yùn)營(yíng)商數(shù)據(jù)通信網(wǎng)絡(luò)2 ;該分布式云計(jì)算處理平臺(tái)I主要包括以分布式并行方式通訊連接的主處理服務(wù)器11、多個(gè)節(jié)點(diǎn)服務(wù)器12以及操作終端13,該主處理服務(wù)器11負(fù)責(zé)接口數(shù)據(jù)存儲(chǔ),所有節(jié)點(diǎn)服務(wù)器12對(duì)接口數(shù)據(jù)同時(shí)并行處理,操作終端13通過(guò)路由器14接入分布式云計(jì)算處理平臺(tái)1,向操作者提供操作該分布式云計(jì)算處理平臺(tái)I的界面,該分布式云計(jì)算處理平臺(tái)I將所述用戶上網(wǎng)日志分成APP清單和URL清單分別進(jìn)行處理,將該APP清單與客戶端應(yīng)用庫(kù)進(jìn)行匹配進(jìn)行APP興趣點(diǎn)匯總,將該URL清單與關(guān)鍵詞庫(kù)和網(wǎng)址分類(lèi)庫(kù)進(jìn)行匹配進(jìn)行URL興趣點(diǎn)匯總,綜合所述APP興趣點(diǎn)匯總和URL興趣點(diǎn)匯總得出反映用戶互聯(lián)網(wǎng)行為的表。圖1中通過(guò)交換機(jī)4以及防火墻5進(jìn)行網(wǎng)絡(luò)隔離,保證安全,保留一部分節(jié)點(diǎn)服務(wù)器12作為預(yù)留擴(kuò)展,另外也可以根據(jù)需要再增加節(jié)點(diǎn)服務(wù)器12的數(shù)量。本發(fā)明基于Hadoop架構(gòu),搭建一個(gè)分布式云計(jì)算的大數(shù)據(jù)處理平臺(tái),易于擴(kuò)展,可靈活增加節(jié)點(diǎn)服務(wù)器,增加節(jié)點(diǎn)服務(wù)器可實(shí)現(xiàn)線性擴(kuò)展,線性增加存儲(chǔ)、查詢和加載性能;能進(jìn)行自動(dòng)化的并行處理,無(wú)需人工分區(qū)或優(yōu)化,加載或訪問(wèn)方式與一般數(shù)據(jù)庫(kù)相同,易于操作;最優(yōu)化的I/o處理,所有節(jié)點(diǎn)服務(wù)器同時(shí)并行處理,節(jié)點(diǎn)之間完全無(wú)共享,無(wú)I/O沖突;海量數(shù)據(jù)分布在所有的多個(gè)節(jié)點(diǎn)上,每個(gè)節(jié)點(diǎn)服務(wù)器只處理其中一部分?jǐn)?shù)據(jù),支持TB級(jí)乃至PB級(jí)數(shù)據(jù)處理?;诜植际皆朴?jì)算的大數(shù)據(jù)處理平臺(tái)構(gòu)建方法:通過(guò)云計(jì)算平臺(tái),實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的存儲(chǔ)和處理,易擴(kuò)展,易維護(hù)。參見(jiàn)圖2,其為本發(fā)明互聯(lián)網(wǎng)行為分析系統(tǒng)的工作方法一較佳實(shí)施例的流程圖,如圖1所示的互聯(lián)網(wǎng)行為分析系統(tǒng)可以參照?qǐng)D2所示的流程圖進(jìn)行工作。參見(jiàn)圖2,本發(fā)明互聯(lián)網(wǎng)行為分析系統(tǒng)的工作方法主要包括源數(shù)據(jù)接口層、數(shù)據(jù)處理層(Hadoop)及匯總層,圖2是以中國(guó)電信為例來(lái)說(shuō)明互聯(lián)網(wǎng)行為分析的具體處理流程,包括:步驟1、利用接口服務(wù)器通過(guò)FTP方式下載C網(wǎng)上網(wǎng)日志;步驟2、C網(wǎng)上網(wǎng)日志交由Hadoop架構(gòu)的分布式云計(jì)算處理平臺(tái)進(jìn)行處理,區(qū)分為APP清單和URL清單,并進(jìn)行清單去冗;步驟3、將APP清單與客戶端應(yīng)用庫(kù)進(jìn)行匹配,對(duì)APP興趣點(diǎn)打標(biāo)簽,進(jìn)而對(duì)APP興趣點(diǎn)匯總,客戶端應(yīng)用庫(kù)可以包括分別對(duì)應(yīng)于IP及端口、域名以及網(wǎng)址的字段;步驟4、將URL清單與關(guān)鍵詞庫(kù)和網(wǎng)址分類(lèi)庫(kù)進(jìn)行匹配,對(duì)URL興趣點(diǎn)打標(biāo)簽,進(jìn)而對(duì)URL興趣點(diǎn)匯總,關(guān)鍵詞庫(kù)可以包括對(duì)應(yīng)于關(guān)鍵詞的字段,網(wǎng)址分類(lèi)庫(kù)可以包括對(duì)應(yīng)于網(wǎng)址的字段;步驟5、根據(jù)APP興趣點(diǎn)匯總結(jié)果生成C網(wǎng)用戶APP清單和C網(wǎng)用戶APP興趣點(diǎn)匯總表;步驟6、根據(jù)URL興趣點(diǎn)匯總結(jié)果生成C網(wǎng)用戶URL清單和C網(wǎng)用戶URL興趣點(diǎn)匯總表;步驟7、根據(jù)用戶APP興趣點(diǎn)匯總表和用戶URL興趣點(diǎn)匯總表得出C網(wǎng)用戶上網(wǎng)偏好表,該C網(wǎng)用戶上網(wǎng)偏好表可以包括分別對(duì)應(yīng)于用戶訪問(wèn)網(wǎng)址、使用APP、在網(wǎng)頁(yè)上進(jìn)行搜索、上網(wǎng)時(shí)段及使用終端的字段。實(shí)現(xiàn)了對(duì)互聯(lián)網(wǎng)行為標(biāo)簽體系設(shè)計(jì):通過(guò)對(duì)用戶訪問(wèn)網(wǎng)址、使用APP、在網(wǎng)頁(yè)上進(jìn)行搜索、上網(wǎng)時(shí)段、使用終端等方面,構(gòu)建用戶互聯(lián)網(wǎng)行為標(biāo)簽庫(kù)。其中,步驟4中將所述URL清單與關(guān)鍵詞庫(kù)和網(wǎng)址分類(lèi)庫(kù)進(jìn)行匹配的過(guò)程基于網(wǎng)頁(yè)內(nèi)容分類(lèi)的文本挖掘技術(shù)和算法:基于對(duì)網(wǎng)頁(yè)文本內(nèi)容的解析,根據(jù)文本中出現(xiàn)的關(guān)鍵詞的詞義,基于特定的算法,識(shí)別該網(wǎng)頁(yè)所屬的分類(lèi);包括:步驟41、通過(guò)網(wǎng)絡(luò)爬蟲(chóng)爬取對(duì)應(yīng)URL的網(wǎng)頁(yè)內(nèi)容,保留文本內(nèi)容作為待分類(lèi)文本;通過(guò)網(wǎng)絡(luò)爬蟲(chóng),爬取網(wǎng)頁(yè)內(nèi)容,剔除圖片、視頻等無(wú)效資源,保留文本內(nèi)容;步驟42、通過(guò)分詞技術(shù)對(duì)網(wǎng)頁(yè)內(nèi)容分詞;步驟43、計(jì)算關(guān)鍵詞在關(guān)鍵詞庫(kù)中的分布矩陣(屬于某類(lèi)則填1,否則填O或留空,
各類(lèi)都要進(jìn)行一一判 別),例如下表:
權(quán)利要求
1.一種互聯(lián)網(wǎng)行為分析系統(tǒng),其特征在于,包括基于Hadoop架構(gòu)搭建的分布式云計(jì)算處理平臺(tái)、通信運(yùn)營(yíng)商數(shù)據(jù)通信網(wǎng)絡(luò)以及接口服務(wù)器,該分布式云計(jì)算處理平臺(tái)經(jīng)由交換機(jī)以及防火墻通訊連接該通信運(yùn)營(yíng)商數(shù)據(jù)通信網(wǎng)絡(luò),該接口服務(wù)器負(fù)責(zé)下載通信運(yùn)營(yíng)商的用戶上網(wǎng)日志并且通訊連接該通信運(yùn)營(yíng)商數(shù)據(jù)通信網(wǎng)絡(luò);該分布式云計(jì)算處理平臺(tái)包括以分布式并行方式通訊連接的主處理服務(wù)器、多個(gè)節(jié)點(diǎn)服務(wù)器以及操作終端,該主處理服務(wù)器負(fù)責(zé)接口數(shù)據(jù)存儲(chǔ),所有節(jié)點(diǎn)服務(wù)器對(duì)接口數(shù)據(jù)同時(shí)并行處理,操作終端向操作者提供操作該分布式云計(jì)算處理平臺(tái)的界面,該分布式云計(jì)算處理平臺(tái)將所述用戶上網(wǎng)日志分成APP清單和URL清單分別進(jìn)行處理,將該APP清單與客戶端應(yīng)用庫(kù)進(jìn)行匹配進(jìn)行APP興趣點(diǎn)匯總,將該URL清單與關(guān)鍵詞庫(kù)和網(wǎng)址分類(lèi)庫(kù)進(jìn)行匹配進(jìn)行URL興趣點(diǎn)匯總,綜合所述APP興趣點(diǎn)匯總和URL興趣點(diǎn)匯總得出反映用戶互聯(lián)網(wǎng)行為的表。
2.如權(quán)利要求1所述的互聯(lián)網(wǎng)行為分析系統(tǒng),其特征在于,所述反映用戶互聯(lián)網(wǎng)行為的表包括分別對(duì)應(yīng)于用戶訪問(wèn)網(wǎng)址、使用APP、在網(wǎng)頁(yè)上進(jìn)行搜索、上網(wǎng)時(shí)段及使用終端的字段。
3.如權(quán)利要求1所述的互聯(lián)網(wǎng)行為分析系統(tǒng),其特征在于,所述客戶端應(yīng)用庫(kù)包括分別對(duì)應(yīng)于IP及端口、域名以及網(wǎng)址的字段。
4.如權(quán)利要求1所述的互聯(lián)網(wǎng)行為分析系統(tǒng),其特征在于,所述關(guān)鍵詞庫(kù)包括對(duì)應(yīng)于關(guān)鍵詞的字段。
5.如權(quán)利要求1所述的 互聯(lián)網(wǎng)行為分析系統(tǒng),其特征在于,所述網(wǎng)址分類(lèi)庫(kù)包括對(duì)應(yīng)于網(wǎng)址的字段。
6.如權(quán)利要求1所述的互聯(lián)網(wǎng)行為分析系統(tǒng),其特征在于,所述分布式云計(jì)算處理平臺(tái)根據(jù)APP興趣點(diǎn)匯總結(jié)果生成用戶APP清單和用戶APP興趣點(diǎn)匯總表。
7.如權(quán)利要求1所述的互聯(lián)網(wǎng)行為分析系統(tǒng),其特征在于,所述分布式云計(jì)算處理平臺(tái)根據(jù)URL興趣點(diǎn)匯總結(jié)果生成用戶URL清單和用戶URL興趣點(diǎn)匯總表。
8.—種如權(quán)利要求1所述的互聯(lián)網(wǎng)行為分析系統(tǒng)的工作方法,其特征在于,包括: 步驟1、利用接口服務(wù)器下載通信運(yùn)營(yíng)商的用戶上網(wǎng)日志; 步驟2、將所述用戶上網(wǎng)日志交由Hadoop架構(gòu)的分布式云計(jì)算處理平臺(tái)進(jìn)行處理并區(qū)分為APP清單和URL清單; 步驟3、將所述APP清單與客戶端應(yīng)用庫(kù)進(jìn)行匹配,對(duì)APP興趣點(diǎn)打標(biāo)簽,進(jìn)而對(duì)APP興趣點(diǎn)匯總; 步驟4、將所述URL清單與關(guān)鍵詞庫(kù)和網(wǎng)址分類(lèi)庫(kù)進(jìn)行匹配,對(duì)URL興趣點(diǎn)打標(biāo)簽,進(jìn)而對(duì)URL興趣點(diǎn)匯總; 步驟5、根據(jù)APP興趣點(diǎn)匯總結(jié)果生成用戶APP清單和用戶APP興趣點(diǎn)匯總表; 步驟6、根據(jù)URL興趣點(diǎn)匯總結(jié)果生成用戶URL清單和用戶URL興趣點(diǎn)匯總表; 步驟7、根據(jù)用戶APP興趣點(diǎn)匯總表和用戶URL興趣點(diǎn)匯總表得出反映用戶互聯(lián)網(wǎng)行為的表。
9.如權(quán)利要求8所述的互聯(lián)網(wǎng)行為分析系統(tǒng)的工作方法,其特征在于,所述反映用戶互聯(lián)網(wǎng)行為的表包括分別對(duì)應(yīng)于用戶訪問(wèn)網(wǎng)址、使用APP、在網(wǎng)頁(yè)上進(jìn)行搜索、上網(wǎng)時(shí)段及使用終端的字段。
10.如權(quán)利要求8所述的互聯(lián)網(wǎng)行為分析系統(tǒng)的工作方法,其特征在于,將所述URL清單與關(guān)鍵詞庫(kù)和網(wǎng)址分類(lèi)庫(kù)進(jìn)行匹配的過(guò)程包括: 步驟41、通過(guò)網(wǎng)絡(luò)爬蟲(chóng)爬取對(duì)應(yīng)URL的網(wǎng)頁(yè)內(nèi)容,保留文本內(nèi)容作為待分類(lèi)文本; 步驟42、通過(guò)分詞技術(shù)對(duì)網(wǎng)頁(yè)內(nèi)容分詞; 步驟43、計(jì)算關(guān)鍵詞在關(guān)鍵詞庫(kù)中的分布矩陣; 步驟44、計(jì)算關(guān)鍵詞在關(guān)鍵詞庫(kù)中的分布系數(shù); 步驟45、計(jì)算關(guān)鍵詞對(duì)關(guān)鍵詞庫(kù)中各類(lèi)的覆蓋度、支持度、置信度; 步驟46、準(zhǔn)備多個(gè)預(yù)先已確定分類(lèi)的待分類(lèi)文本作為樣本,用枚舉的方法得到判斷文本分類(lèi)的擬合公式; 步驟47、對(duì)于待分類(lèi)的文本用步驟46得到的擬合公式計(jì)算各類(lèi)的得分,實(shí)現(xiàn)對(duì)待分類(lèi)文本的分 類(lèi)。
全文摘要
本發(fā)明涉及一種互聯(lián)網(wǎng)行為分析系統(tǒng)及其工作方法。該互聯(lián)網(wǎng)行為分析系統(tǒng)包括分布式云計(jì)算處理平臺(tái)、通信運(yùn)營(yíng)商數(shù)據(jù)通信網(wǎng)絡(luò)以及接口服務(wù)器,該分布式云計(jì)算處理平臺(tái)經(jīng)由交換機(jī)以及防火墻通訊連接該通信運(yùn)營(yíng)商數(shù)據(jù)通信網(wǎng)絡(luò),該接口服務(wù)器負(fù)責(zé)下載通信運(yùn)營(yíng)商的用戶上網(wǎng)日志并且通訊連接該通信運(yùn)營(yíng)商數(shù)據(jù)通信網(wǎng)絡(luò);該分布式云計(jì)算處理平臺(tái)包括以分布式并行方式通訊連接的主處理服務(wù)器、多個(gè)節(jié)點(diǎn)服務(wù)器以及操作終端。本發(fā)明還提供了該互聯(lián)網(wǎng)行為分析系統(tǒng)的工作方法。本發(fā)明的互聯(lián)網(wǎng)行為分析系統(tǒng)及其工作方法能對(duì)海量數(shù)據(jù)進(jìn)行處理和加工,實(shí)現(xiàn)對(duì)用戶上網(wǎng)行為的識(shí)別,針對(duì)客戶的互聯(lián)網(wǎng)行為打上相應(yīng)的標(biāo)簽。
文檔編號(hào)G06F17/30GK103248677SQ20131014493
公開(kāi)日2013年8月14日 申請(qǐng)日期2013年4月24日 優(yōu)先權(quán)日2013年4月24日
發(fā)明者陳起, 羅贊, 朱孟祥, 王正, 張利民 申請(qǐng)人:深圳天源迪科信息技術(shù)股份有限公司