两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

媒體技術(shù)平臺系統(tǒng)、數(shù)據(jù)采集系統(tǒng)和網(wǎng)絡(luò)內(nèi)容提供方法

文檔序號:7708579閱讀:170來源:國知局

專利名稱::媒體技術(shù)平臺系統(tǒng)、數(shù)據(jù)采集系統(tǒng)和網(wǎng)絡(luò)內(nèi)容提供方法
技術(shù)領(lǐng)域
:本發(fā)明涉及網(wǎng)絡(luò)數(shù)據(jù)技術(shù),尤其涉及一種媒體技術(shù)平臺系統(tǒng)、數(shù)據(jù)采集系統(tǒng)和網(wǎng)絡(luò)內(nèi)容提供方法。
背景技術(shù)
:隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展,互聯(lián)網(wǎng)上信息資源的數(shù)量急劇增長,上網(wǎng)用戶群體不斷擴(kuò)大。以互聯(lián)網(wǎng)為代表的信息技術(shù)日益深入到人們的日常生活中,為人們生活各個方面提供全方位的信息服務(wù)。在互聯(lián)網(wǎng)環(huán)境中,終端用戶希望獲取自己感興趣的信息或內(nèi)容,內(nèi)容服務(wù)提供商希望通過其網(wǎng)站為終端用戶提供投其所好的產(chǎn)品和服務(wù),以實(shí)現(xiàn)其商業(yè)價值。由于不同的用戶有著不同的目的和不同的喜好,網(wǎng)站面對的是數(shù)目眾多差異巨大的用戶群體。為這樣的群體提供滿意的產(chǎn)品和服務(wù),無論從內(nèi)容產(chǎn)品上還是從技術(shù)手段上都是一個巨大的挑戰(zhàn)。為了讓用戶方便地獲得所需信息,并提升用戶體驗(yàn)和黏性,現(xiàn)有技術(shù)的解決方案多是各個網(wǎng)站根據(jù)用戶在該網(wǎng)站上的賬戶信息和瀏覽記錄為用戶提供了定制化的內(nèi)容服務(wù)。但是,現(xiàn)有技術(shù)以網(wǎng)站為基礎(chǔ)的解決方案存在如下問題用戶行為數(shù)據(jù)被網(wǎng)站分割為孤島,對用戶特征偏好的刻畫因網(wǎng)站而異,標(biāo)準(zhǔn)和內(nèi)容各不相同,無法形成對用戶網(wǎng)上活動的統(tǒng)一描述;各個網(wǎng)站提供的服務(wù)僅僅基于用戶在該網(wǎng)站上的行為活動,而無法包括該網(wǎng)站以外的用戶所訪問的其它信息資源,因而無法反映出用戶全方位多樣化的真實(shí)需求;各異的刻畫標(biāo)準(zhǔn)和局限的活動數(shù)據(jù)導(dǎo)致了無法形成對用戶在其整個網(wǎng)上活動的生命周期中以內(nèi)容偏好、時間地點(diǎn)、相互關(guān)聯(lián)等方面為特征的完整描述。而在接入網(wǎng)絡(luò)范圍內(nèi)采集用戶數(shù)據(jù),并由此提供基于用戶的定制化6內(nèi)容和服務(wù),存在很多技術(shù)的難題和挑戰(zhàn)。
發(fā)明內(nèi)容本發(fā)明要解決的一個技術(shù)問題提供一種媒體技術(shù)平臺系統(tǒng),能夠基于接入網(wǎng)絡(luò)范圍內(nèi)的用戶網(wǎng)絡(luò)行為來提供基于用戶偏好的定制化內(nèi)容服務(wù)。本發(fā)明的一個方面提供一種媒體技術(shù)平臺系統(tǒng),包括數(shù)據(jù)采集子系統(tǒng),用于根據(jù)終端用戶的統(tǒng)一個人標(biāo)識采集所述終端用戶的網(wǎng)上行為數(shù)據(jù),發(fā)送所述終端用戶的網(wǎng)上行為數(shù)據(jù);數(shù)據(jù)存儲子系統(tǒng),用于接收來自所述數(shù)據(jù)采集子系統(tǒng)的所述終端用戶的網(wǎng)上行為數(shù)據(jù),存儲根據(jù)所述終端用戶的網(wǎng)上行為數(shù)據(jù)獲得的所述終端用戶的偏好信息;數(shù)據(jù)驅(qū)動子系統(tǒng),用于從所述數(shù)據(jù)存儲子系統(tǒng)獲得所述終端用戶的偏好信息,根據(jù)所述終端用戶的偏好信息為所述終端用戶提供個性化內(nèi)容信息。進(jìn)一步,數(shù)據(jù)采集子系統(tǒng)包括多個位于電信網(wǎng)絡(luò)接入位置的數(shù)據(jù)采集節(jié)點(diǎn),數(shù)據(jù)采集節(jié)點(diǎn)才艮據(jù)終端用戶的統(tǒng)一個人標(biāo)識采集終端用戶的網(wǎng)上行為數(shù)據(jù);其中,終端用戶的統(tǒng)一個人標(biāo)識為終端用戶的上網(wǎng)設(shè)備特征標(biāo)識。數(shù)據(jù)采集節(jié)點(diǎn)設(shè)備的網(wǎng)卡驅(qū)動程序的工作方式為輪詢模式。根據(jù)本發(fā)明的媒體技術(shù)平臺系統(tǒng)的一個實(shí)施例,數(shù)據(jù)采集子系統(tǒng)包括IP數(shù)據(jù)包捕獲模塊,用于根據(jù)至少所述終端用戶的MAC地址篩選出需要捕獲的數(shù)據(jù)鏈路層數(shù)據(jù)幀,從所述需要捕獲的數(shù)據(jù)幀中提取IP數(shù)據(jù)包,發(fā)送所述IP數(shù)據(jù)包;TCP數(shù)據(jù)流重組模塊,用于接收來自所述IP數(shù)據(jù)包捕獲模塊的IP數(shù)據(jù)包,根據(jù)傳輸層TCP協(xié)議將所述IP數(shù)據(jù)包重組成TCP會話數(shù)據(jù)流,發(fā)送所述TCPM數(shù)據(jù)流;HTTP數(shù)據(jù)篩選模塊,用于接收來自所述TCP數(shù)據(jù)流重組模塊的TCP會話數(shù)據(jù)流,從所述TCP會話數(shù)據(jù)流中篩選出HTTP會話數(shù)據(jù),發(fā)送所述HTTP^^舌數(shù)據(jù);內(nèi)^:^^莫塊,用于接收來自所述HTTP數(shù)據(jù)篩選模塊的HTTP會話數(shù)據(jù),根據(jù)HTML協(xié)"R解析出用戶瀏覽過的頁面數(shù)據(jù)。其中,IP數(shù)據(jù)包捕獲模塊通過預(yù)覽技術(shù)直接掃描數(shù)據(jù)幀的特征字節(jié)位置,提取包括MAC地址、IP地址、TCP/UDP端口、表示層數(shù)據(jù)協(xié)議類型的信息,當(dāng)所述提取的信息滿足預(yù)先設(shè)定的采集條件時,所述數(shù)據(jù)幀是需要捕獲的數(shù)據(jù)幀,否則,所述數(shù)據(jù)幀被過濾。根據(jù)本發(fā)明的媒體技術(shù)平臺系統(tǒng)的一個實(shí)施例,還包括數(shù)據(jù)分析子系統(tǒng),用于接收來自所述數(shù)據(jù)采集子系統(tǒng)的所述終端用戶的網(wǎng)上行為數(shù)將所述終端用^的偏好信息發(fā)送到所述數(shù)據(jù)存儲子系統(tǒng);、所述數(shù)據(jù)^儲子系統(tǒng),用于接收來自所述數(shù)據(jù)采集子系統(tǒng)的所述終端用戶的網(wǎng)絡(luò)活動數(shù)據(jù),存儲所述終端用戶的網(wǎng)上行為數(shù)據(jù);接收來自所述數(shù)據(jù)分析子系統(tǒng)的所述終端用戶的偏好信息,存儲所述終端用戶的偏好信息。根據(jù)本發(fā)明的媒體技術(shù)平臺系統(tǒng)的一個實(shí)施例,數(shù)據(jù)驅(qū)動子系統(tǒng)采用基于WebService的網(wǎng)站互連和數(shù)據(jù)交換技術(shù)為網(wǎng)站提供了根據(jù)終端用戶的偏好信息進(jìn)行實(shí)時定制的動態(tài)網(wǎng)站頁面,頁面中包含了為單個終端用戶進(jìn)行精確匹配的廣告產(chǎn)品內(nèi)容。本發(fā)明要解決的另一個技術(shù)問題是提供一種數(shù)據(jù)采集系統(tǒng),可以適用于大的網(wǎng)絡(luò)范圍的數(shù)據(jù)采集。本發(fā)明提供一種數(shù)據(jù)采集系統(tǒng),包括IP數(shù)據(jù)包捕獲模塊,用于根據(jù)至少M(fèi)AC地址篩選出需要捕獲的數(shù)據(jù)鏈路層數(shù)據(jù)幀,從所述需要捕獲的數(shù)據(jù)幀中提取IP數(shù)據(jù)包,發(fā)送所述IP數(shù)據(jù)包;數(shù)據(jù)流重組模塊,用于接收來自所述IP數(shù)據(jù)包捕獲模塊的IP數(shù)據(jù)包,根據(jù)傳輸層TCP協(xié)議將所述IP數(shù)據(jù)包重組成TCP^數(shù)據(jù)流,發(fā)送所述TCP會話數(shù)據(jù)流;HTTP數(shù)據(jù)篩選模塊,用于接收來自所述數(shù)據(jù)流重組模塊的傳輸層TCP會話數(shù)據(jù)流,從所述TCP^"數(shù)據(jù)流中篩選出HTTP會話數(shù)據(jù),發(fā)送所述HTTP會話數(shù)據(jù);內(nèi)容提取模塊,用于接收來自所述HTTP數(shù)據(jù)篩選模塊的HTTP會話數(shù)據(jù),根據(jù)HTML協(xié)議解析出用戶瀏覽過的頁面數(shù)據(jù)。進(jìn)一步,IP數(shù)據(jù)包捕獲模塊通過預(yù)覽技術(shù)直接掃描數(shù)據(jù)幀的特征字節(jié)位置,提取包括MAC地址、IP地址、TCP/UDP端口、表示層數(shù)據(jù)協(xié)議類型的信息,當(dāng)所述提取的信息滿足預(yù)先設(shè)定的采集條件時,所述數(shù)據(jù)幀是需要捕獲的數(shù)據(jù)幀,否則,所述數(shù)據(jù)幀被過濾。本發(fā)明要解決的一個技術(shù)問題提供一種網(wǎng)絡(luò)內(nèi)容提供方法,能夠基于接入網(wǎng)絡(luò)范圍內(nèi)用戶網(wǎng)絡(luò)行為提供基于用戶的定制化內(nèi)容服務(wù)。根據(jù)本發(fā)明的一個方面,提供一種網(wǎng)絡(luò)內(nèi),供方法,包括通過電信網(wǎng)絡(luò)環(huán)境根據(jù)各個終端用戶的統(tǒng)一個人標(biāo)識采集所述終端用戶的網(wǎng)上行為數(shù)據(jù);根據(jù)所述終端用戶的網(wǎng)上行為數(shù)據(jù)獲得的所述終端用戶的偏好信息;根據(jù)所述終端用戶的偏好信息為所述終端用戶提供個性化內(nèi)容信息。進(jìn)一步,通過電信網(wǎng)絡(luò)環(huán)境根據(jù)終端用戶的統(tǒng)一個人標(biāo)識采集所述終端用戶的網(wǎng)上行為數(shù)據(jù)步驟包括在電信網(wǎng)洛接入位置根據(jù)所述終端用戶的MAC地址從數(shù)據(jù)鏈路層捕獲IP數(shù)據(jù)包;根據(jù)捕獲的IP數(shù)據(jù)包內(nèi)的IP和端口信息將數(shù)據(jù)包重組為TCP會話數(shù)據(jù)流;根據(jù)HTTP協(xié)議從TCP^"數(shù)據(jù)流中篩選出HTTP協(xié)議會話數(shù)據(jù);根據(jù)HTML協(xié)議從HTTP協(xié)議M數(shù)據(jù)中篩選出所述終端用戶的網(wǎng)上行為數(shù)據(jù)。進(jìn)一步,根據(jù)所述終端用戶的MAC地址從數(shù)據(jù)鏈路層捕獲IP數(shù)據(jù)包的步驟包括通過預(yù)覽技術(shù)直接掃描數(shù)據(jù)鏈路層中數(shù)據(jù)幀的特征字節(jié)位置,提取包括MAC地址、IP地址、TCP/UDP端口、表示層數(shù)據(jù)協(xié)議類型的信息,當(dāng)所述提取的信息滿足預(yù)先設(shè)定的采集條件時,所述數(shù)據(jù)幀是需要捕獲的數(shù)據(jù)幀,否則,所述數(shù)據(jù)幀被過濾;從需要捕獲的數(shù)據(jù)幀中提取IP數(shù)據(jù)包。本發(fā)明的媒體技術(shù)平臺系統(tǒng)、數(shù)據(jù)采集系統(tǒng)和網(wǎng)絡(luò)內(nèi)容提供方法,全方位地采集和分析終端用戶的網(wǎng)上行為數(shù)據(jù),并推斷其個人偏好特征,為網(wǎng)站提供了與用戶偏好匹配的廣告產(chǎn)品服務(wù)或信息內(nèi)容服務(wù)。本發(fā)明的系統(tǒng)和方法基于電信互聯(lián)網(wǎng)環(huán)境的對個人用戶的網(wǎng)上活動數(shù)據(jù)采集與行為分析,得到了對單個終端用戶的行為特征和需求偏好的完整刻畫,為網(wǎng)站提供了智能化的廣告產(chǎn)品服務(wù)和個性化的信息內(nèi)容服務(wù)。圖l是本發(fā)明的媒體技術(shù)平臺系統(tǒng)的一個實(shí)施例的框圖2是本發(fā)明的媒體技術(shù)平臺系統(tǒng)的另一個實(shí)施例的框圖3是本發(fā)明的媒體技術(shù)平臺系統(tǒng)的一個實(shí)施例的分布式系統(tǒng)示意圖4是本發(fā)明的數(shù)據(jù)采集子系統(tǒng)的一個實(shí)施例的框圖;圖5是本發(fā)明的數(shù)據(jù)采集子系統(tǒng)的一個實(shí)施例的數(shù)據(jù)流示意圖;圖6是本發(fā)明的數(shù)據(jù)分析子系統(tǒng)的一個實(shí)施例的數(shù)據(jù)流示意圖;圖7是本發(fā)明的網(wǎng)絡(luò)內(nèi)容提供方法的一個實(shí)施例的流程圖;圖8是本發(fā)明的網(wǎng)絡(luò)內(nèi)^:供方法的數(shù)據(jù)采集子系統(tǒng)流程圖;圖9是本發(fā)明的數(shù)據(jù)采集子系統(tǒng)的一個實(shí)施例的IP數(shù)據(jù)包捕獲和TCP數(shù)據(jù)流重組的流程示意圖IO是本發(fā)明的網(wǎng)絡(luò)內(nèi)容提供方法的一個應(yīng)用例的流程圖。具體實(shí)施例方式下面參照附圖對本發(fā)明進(jìn)行更全面的描述,其中說明本發(fā)明的示例性實(shí)施例。在附圖中,相同的標(biāo)號表示相同或者相似的組件或者元素。圖l是本發(fā)明的媒體技術(shù)平臺系統(tǒng)的一個實(shí)施例的框圖。如圖l所示,媒體技術(shù)平臺系統(tǒng)100包括數(shù)據(jù)采集子系統(tǒng)11、數(shù)據(jù)存儲子系統(tǒng)12和數(shù)據(jù)驅(qū)動子系統(tǒng)13。其中,數(shù)據(jù)采集子系統(tǒng)ll才艮據(jù)終端用戶的統(tǒng)一個人標(biāo)識采集各個終端用戶的網(wǎng)上行為數(shù)據(jù),將采集的終端用戶的網(wǎng)上行為數(shù)據(jù)發(fā)送到數(shù)據(jù)存儲子系統(tǒng)12。例如,數(shù)據(jù)釆集子系統(tǒng)11通過電信網(wǎng)絡(luò)環(huán)境根據(jù)終端用戶的統(tǒng)一個人標(biāo)識采集各個終端用戶的網(wǎng)上行為數(shù)據(jù),終端用戶的統(tǒng)一個人標(biāo)識可以是終端用戶所使用的上網(wǎng)設(shè)備特征標(biāo)識,例如計算機(jī)用戶的計算機(jī)以太網(wǎng)卡的介質(zhì)訪問控制(MediaAccessControl,MAC)地址、手機(jī)用戶的手積3殳備的國際移動設(shè)備標(biāo)識(InternationalMobileEquipmentIdentity,IMEI)序列號等。終端用戶的網(wǎng)上行為數(shù)據(jù)例如是用戶瀏覽的網(wǎng)頁中包括的文本、圖像、音頻、視頻等內(nèi)容。數(shù)據(jù)存儲子系統(tǒng)12,用于接收來自數(shù)據(jù)采集子系統(tǒng)11的終端用戶的網(wǎng)上行為數(shù)據(jù),存儲根據(jù)終端用戶的網(wǎng)上行為數(shù)據(jù)獲得10的終端用戶的偏好信息。數(shù)據(jù)存儲子系統(tǒng)12也可以存儲接收的終端用戶的網(wǎng)上行為數(shù)據(jù)的歷史記錄。數(shù)據(jù)驅(qū)動子系統(tǒng)13,用于從數(shù)據(jù)存儲子系統(tǒng)12獲得終端用戶的偏好信息,根據(jù)終端用戶的偏好信息為終端用戶生成個性化內(nèi)容信息。例如,為不同的終端用戶提供不同的網(wǎng)頁,該網(wǎng)頁中包括與終端用戶的偏好信息相對應(yīng)的廣告內(nèi)容。終端用戶的偏好信息是對終端用戶在各個需求偏好方面的量化描述,需求偏好的具體類別可以根據(jù)業(yè)務(wù)的應(yīng)用領(lǐng)域而確定。例如,為了考察個人用戶在旅游方面的個人偏好,可以按照旅游的休閑性質(zhì)分為度假游、觀光游、和探險游。設(shè)想有如下兩個用戶A和B,他們的個人偏好如下表l所示<table>tableseeoriginaldocumentpage11</column></row><table>表lMl中的數(shù)據(jù)可以看出用戶A喜歡觀光游,其次是探險游;而用戶B最喜歡度假游,其次是觀光游,而對探險游基本不感興趣。另外,在其它條件都相同的情況下,不同用戶的個人偏好分值可以進(jìn)行直接比較,不同用戶在同一偏好類型上的不同分值反映了用戶在這一類型上的個人差異,因此個人偏好的量化程度在這樣的條件下具有絕對意義。比如說用戶A比用戶B在旅游選擇上更富冒險性,同時用戶A對旅游的整體偏好(18分)也比用戶B要高(15分)。這樣,在為用戶A提供網(wǎng)頁時,可以在網(wǎng)頁中定制與觀光游相關(guān)的內(nèi)容或者廣告,而為用戶B提供網(wǎng)頁時,可以在網(wǎng)頁中定制與度假游相關(guān)的內(nèi)容或者廣告。根據(jù)本發(fā)明的媒體技術(shù)平臺系統(tǒng)的一個實(shí)施例,數(shù)據(jù)采集子系統(tǒng)包括多個位于電信網(wǎng)絡(luò)接入位置的數(shù)據(jù)采集節(jié)點(diǎn),數(shù)據(jù)采集節(jié)點(diǎn)根據(jù)終端用戶的統(tǒng)一個人標(biāo)識采集各個終端用戶的網(wǎng)上行為數(shù)據(jù),其中,終端用戶的統(tǒng)一個人標(biāo)識為終端用戶的上網(wǎng)設(shè)備特征標(biāo)識。根據(jù)本發(fā)明的數(shù)據(jù)采集子系統(tǒng)的一個實(shí)施例,將數(shù)據(jù)采集設(shè)備的網(wǎng)卡驅(qū)動程序的工作方式設(shè)置為輪詢模式。在電信網(wǎng)絡(luò)核心層接入節(jié)點(diǎn)上進(jìn)行數(shù)據(jù)采集給采集系統(tǒng)運(yùn)行帶來的一個重要影響是CPU頻繁地被網(wǎng)卡驅(qū)動程序中斷,以讀取網(wǎng)絡(luò)數(shù)據(jù)。因?yàn)镚bps數(shù)量級的數(shù)據(jù)帶寬與GHz的CPU時鐘頻率處在同一數(shù)量級上,這種以中斷方式工作的驅(qū)動程序在電信網(wǎng)絡(luò)核心層的數(shù)據(jù)流量情況下將耗費(fèi)大量CPU處理能力。將數(shù)據(jù)采集設(shè)備的網(wǎng)卡驅(qū)動程序的工作方式設(shè)置為輪詢,可以提高數(shù)據(jù)采集效率并降低丟包率,并最大化CPU利用效率。本發(fā)明的媒體技術(shù)平臺系統(tǒng)可以基于電信運(yùn)營商的網(wǎng)絡(luò)環(huán)境實(shí)施,以在電信運(yùn)營商的網(wǎng)絡(luò)環(huán)境中采集到的終端用戶所使用的上網(wǎng)設(shè)備特征標(biāo)識來區(qū)別各個終端用戶,這樣的統(tǒng)一個人標(biāo)識可以從電信運(yùn)營商的網(wǎng)絡(luò)環(huán)境中獲取,對終端用戶的標(biāo)識不受網(wǎng)絡(luò)接入點(diǎn)和所訪問網(wǎng)絡(luò)資源的限制,在有效標(biāo)識終端用戶方面具有很大的優(yōu)勢。所選標(biāo)識信息僅代表了終端用戶所使用的上網(wǎng)設(shè)備,可以不包含用戶隱私信息,保護(hù)了用戶隱私。圖2是本發(fā)明的媒體技術(shù)平臺系統(tǒng)的另一個實(shí)施例的系統(tǒng)示意圖。如圖2所示,該實(shí)施例的媒體技術(shù)平臺系統(tǒng)200包括數(shù)據(jù)釆集21、數(shù)據(jù)存儲22、數(shù)據(jù)分析24、和數(shù)據(jù)驅(qū)動23四個子系統(tǒng)。其中,數(shù)據(jù)采集子系統(tǒng)21從電信網(wǎng)絡(luò)25采集終端用戶在互聯(lián)網(wǎng)上的瀏覽活動數(shù)據(jù),對瀏覽獲得數(shù)據(jù)進(jìn)行處理后將數(shù)據(jù)傳輸至遠(yuǎn)程的數(shù)據(jù)存儲子系統(tǒng)22,其網(wǎng)絡(luò)引擎21a將電信網(wǎng)絡(luò)中的原始網(wǎng)絡(luò)數(shù)據(jù)流進(jìn)行IP(InternetProtocol,網(wǎng)間協(xié)i義)捕獲、TCP(TransmissionControlProtocol,傳輸控制協(xié)議)重組、HTTP(HyperTextTransferProtocol,超文本傳輸協(xié)議)解析、HTML(HypertextMarkupLanguage,超文本標(biāo)記語言)提取等一系列操作處理,最后得到反映終端用戶網(wǎng)上瀏覽ff為活動的終端用戶的網(wǎng)上行為數(shù)據(jù)。數(shù)據(jù)存儲子系統(tǒng)22采用數(shù)據(jù)庫集群存儲從電信網(wǎng)絡(luò)25采集到的用戶網(wǎng)上行為數(shù)據(jù)。數(shù)據(jù)存儲子系統(tǒng)22還可以用于存儲對用戶的網(wǎng)上行為數(shù)據(jù)進(jìn)行數(shù)據(jù)分析過程中產(chǎn)生的中間數(shù)據(jù)、最終分析結(jié)果、以及終端用戶的偏好信息,為數(shù)據(jù)驅(qū)動子系統(tǒng)23提供結(jié)果查詢服務(wù)。數(shù)據(jù)存儲子系統(tǒng)22的數(shù)據(jù)庫引擎22a用于構(gòu)建存儲各種用戶網(wǎng)上行為數(shù)據(jù)以及提供各種數(shù)據(jù)應(yīng)用服務(wù)的數(shù)據(jù)倉庫系統(tǒng),它包括網(wǎng)關(guān)交換機(jī)、數(shù)據(jù)庫服務(wù)器、存儲設(shè)備網(wǎng)絡(luò)等組成部分,它的功能包括終端用戶的網(wǎng)上行為數(shù)據(jù)的存儲、數(shù)據(jù)挖掘的ETL過程、數(shù)據(jù)分析臨時結(jié)果的存儲、最終分析結(jié)果的存儲、數(shù)據(jù)驅(qū)動服務(wù)支持等。數(shù)據(jù)分析子系統(tǒng)24采用商業(yè)智能方法對終端用戶的網(wǎng)上行為數(shù)據(jù)進(jìn)行量化分析,得到由用戶網(wǎng)上行為反映出的個人偏好以及與之匹配廣告產(chǎn)品,其計算引擎24a采用商業(yè)智能數(shù)據(jù)挖掘算法模型對終端用戶在互聯(lián)網(wǎng)上的網(wǎng)上行為數(shù)據(jù)進(jìn)行深入分析,得到每個網(wǎng)上用戶的各種行為模式、變化規(guī)律、影響因素等量化指標(biāo),進(jìn)而推斷出其個人偏好特征,并找出與之匹配的廣告或者產(chǎn)品內(nèi)容。數(shù)據(jù)驅(qū)動子系統(tǒng)23為互聯(lián)網(wǎng)網(wǎng)站提供為終端用戶定制化的廣告產(chǎn)品實(shí)時數(shù)據(jù)服務(wù),其展現(xiàn)引擎23a采用基于WebService概念進(jìn)行實(shí)時定制的動態(tài)網(wǎng)站頁面,頁面中包含了為單個用戶進(jìn)行精確匹配的廣告或者產(chǎn)品內(nèi)容。在本發(fā)明的上述MTP的實(shí)施例中,MTP的數(shù)據(jù)采集、存儲、分析、和驅(qū)動四個子系統(tǒng)以終端用戶網(wǎng)上行為數(shù)據(jù)為紐帶連接形成一條數(shù)據(jù)處理的流水線,將終端用戶網(wǎng)上活動原始數(shù)據(jù)轉(zhuǎn)化成與每個終端用戶相匹配的產(chǎn)品內(nèi)容信息服務(wù)本分明的MTP的一個實(shí)施例,采用分布式高互連的系統(tǒng)架構(gòu)來支持其功能,以便支持從電信網(wǎng)絡(luò)中實(shí)時獲取數(shù)量巨大的用戶上網(wǎng)行為數(shù)據(jù)、即時處理這些數(shù)據(jù)、實(shí)現(xiàn)為互聯(lián)網(wǎng)網(wǎng)站提供實(shí)時的用戶偏好內(nèi)容查詢服務(wù)。圖3是本發(fā)明的媒體技術(shù)平臺系統(tǒng)的一個實(shí)施例的分布式系統(tǒng)示意圖。如圖3所示,數(shù)據(jù)釆集子系統(tǒng)實(shí)時地采集和預(yù)處理用戶的上網(wǎng)行為數(shù)據(jù),它包括數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、和數(shù)據(jù)緩存模塊。每個數(shù)據(jù)采集子系統(tǒng)作為MTP的一個數(shù)據(jù)采集節(jié)點(diǎn)部署在電信網(wǎng)絡(luò)接入位置;需求偏好結(jié)果,部署在MTP的數(shù)據(jù)中心;數(shù)據(jù)驅(qū)動子系統(tǒng)實(shí)時地響應(yīng)網(wǎng)站的查詢請求并返回用戶偏好內(nèi)容結(jié)果,它以webservice的方式部署在MTP數(shù)據(jù)中心和網(wǎng)站服務(wù)器上。數(shù)據(jù)采集子系統(tǒng)包括分布于電信網(wǎng)絡(luò)中不同接入位置上的大量數(shù)據(jù)采集服務(wù)器,以處理數(shù)目龐大的互聯(lián)網(wǎng)用戶以及他們產(chǎn)生的流量巨大的網(wǎng)上活動原始數(shù)據(jù)。各個MTP子系統(tǒng)緊密配合以共同完成設(shè)計功能,快速高效地處理這些原始數(shù)據(jù),為數(shù)眾多的互聯(lián)網(wǎng)網(wǎng)站提供實(shí)時可靠數(shù)據(jù)服務(wù)。區(qū)別于現(xiàn)有技術(shù)中常用的數(shù)據(jù)包采集方法,本發(fā)明的MTP在電信運(yùn)營商的網(wǎng)絡(luò)環(huán)境中不僅要實(shí)時地采集數(shù)據(jù)鏈路層和網(wǎng)絡(luò)層的原始數(shù)據(jù)包,還要實(shí)時地還原傳輸層和表示層的數(shù)據(jù)內(nèi)容,進(jìn)而實(shí)現(xiàn)根據(jù)表示層協(xié)議對數(shù)據(jù)內(nèi)容進(jìn)行實(shí)時的內(nèi)容解析。下面結(jié)合附圖和實(shí)施例對本發(fā)明的數(shù)據(jù)采集子系統(tǒng)進(jìn)行詳細(xì)的描述。圖4是本發(fā)明的數(shù)據(jù)采集子系統(tǒng)的一個實(shí)施例的框圖。如圖4所示,該數(shù)據(jù)采集子系統(tǒng)400包括IP數(shù)據(jù)包捕獲才莫塊41、數(shù)據(jù)流重組模塊42、HTTP數(shù)據(jù)篩選模塊43和內(nèi)MW^塊44。其中,IP數(shù)據(jù)包捕獲模塊41用于捕獲數(shù)據(jù)鏈路層中的數(shù)據(jù)幀,例如以太幀、點(diǎn)對點(diǎn)以太幀、光纖幀等,提取數(shù)據(jù)鏈路層數(shù)據(jù)幀中位于介質(zhì)訪問控制子層信息中與用戶的網(wǎng)絡(luò)接入有關(guān)的參數(shù),例如上網(wǎng)設(shè)備特征標(biāo)識、地理位置等,根據(jù)至少M(fèi)AC地址篩選出需要捕獲的數(shù)據(jù)鏈路層數(shù)據(jù)幀,從需要捕獲的數(shù)據(jù)幀中提取IP數(shù)據(jù)包,將提取的IP數(shù)據(jù)包發(fā)送給數(shù)據(jù)流重組模塊42。數(shù)據(jù)流重組模塊42,用于接收來自IP數(shù)據(jù)包捕獲模塊41的IP數(shù)據(jù)包,根據(jù)傳輸層協(xié)i義(例如TCP、UDP(UserDatagramProtocol,用戶數(shù)據(jù)才艮協(xié)i義)、SCTP(StreamControlTransmissionProtocol,流控制傳輸協(xié)議)等)將各個終端用戶的IP數(shù)據(jù)包重組成傳輸層會話數(shù)據(jù)流,將傳輸層M數(shù)據(jù)流發(fā)送到HTTP數(shù)據(jù)篩選模塊43。HTTP數(shù)據(jù)篩選^f莫塊43,用于接收來自數(shù)據(jù)流重組才莫塊42的終端用戶的傳輸層會話數(shù)據(jù)流,從傳輸層會話數(shù)據(jù)流中篩選出HTTP會話數(shù)據(jù),發(fā)送HTTP會話數(shù)據(jù)到內(nèi)容提^^莫塊44。內(nèi),^Uf莫塊44,用于接收來自所述HTTP數(shù)據(jù)篩選模塊的HTTP會話數(shù)據(jù),根據(jù)HTML協(xié)議解析出用戶網(wǎng)上行為數(shù)據(jù)。用戶網(wǎng)上行為數(shù)據(jù)可以包括文字、圖像、音頻、視頻等數(shù)據(jù)信息。例如,內(nèi)^a^f莫塊44按照HTML協(xié)議提取出HTTP會話數(shù)據(jù)中的超鏈接文字標(biāo)題,并存放在共享的超鏈接文本緩沖區(qū)14(HyperlinkedTextBuffer)里。MTP的數(shù)據(jù)采集子系統(tǒng)將這些超鏈接文字及時地傳回數(shù)據(jù)存儲子系統(tǒng),并按照終端用戶的統(tǒng)一標(biāo)識信息分別存放,這些數(shù)據(jù)代表了終端用戶的真實(shí)的上網(wǎng)行為活動情況。本發(fā)明的MTP實(shí)時地從電信運(yùn)營商的網(wǎng)絡(luò)環(huán)境中捕獲終端用戶的網(wǎng)上活動所產(chǎn)生的海量原始數(shù)據(jù),才艮據(jù)各個層次上的網(wǎng)絡(luò)協(xié)議逐層解析各層數(shù)據(jù)包,最終獲得重建反映用戶上網(wǎng)行為的內(nèi)容數(shù)據(jù)。本發(fā)明的MTP的一個實(shí)施例采用共享內(nèi)存的多線程方式并行地來捕獲和解析數(shù)據(jù)。圖5是本發(fā)明的數(shù)據(jù)采集子系統(tǒng)的一個實(shí)施例的數(shù)據(jù)流示意圖。如圖5所示,在步驟51,從數(shù)據(jù)鏈路層捕獲IP數(shù)據(jù)包。根據(jù)指定的MAC地址、采樣頻率、以及其它網(wǎng)M入?yún)?shù)來過濾篩選出需要捕獲的原始數(shù)據(jù)鏈路層數(shù)據(jù)包并提取出包含的IP數(shù)據(jù)包。MTP能夠識別多種數(shù)據(jù)鏈路層的數(shù)據(jù)幀格式,包括以太幀、撥號上網(wǎng)的點(diǎn)對點(diǎn)以太幀、無線局域網(wǎng)幀、虛擬局域網(wǎng)幀、光纖幀等。在電信網(wǎng)絡(luò)核心層接入節(jié)點(diǎn)上的數(shù)據(jù)流量很大,其帶寬數(shù)量級約為100Gbps,數(shù)據(jù)通過多條網(wǎng)絡(luò)連接通道接入數(shù)據(jù)采集設(shè)備的多個例如lOGpbs以太網(wǎng)絡(luò)(10GigabitEthernet,10GE)接口上,MTP同時從多個網(wǎng)絡(luò)接口上捕獲數(shù)據(jù)鏈路幀,提取出數(shù)據(jù)幀中包含的IP數(shù)據(jù)包,并方"共享的IP數(shù)據(jù)包緩沖區(qū)(IPPacketBuffer)里。在步驟52,根據(jù)IP數(shù)據(jù)包內(nèi)的IP和端口信息將數(shù)據(jù)包重組為TCP會話數(shù)據(jù)流。MTP的TCP數(shù)據(jù)流重組一方面遵循TCP標(biāo)準(zhǔn)協(xié)議規(guī)定的重組過程,另一方面MTP被設(shè)計有高效的算法來完成大量的TCP會話數(shù)據(jù)流的重組工作,以處理在電信網(wǎng)絡(luò)核心層接入節(jié)點(diǎn)上數(shù)量巨大的TCP會話。否則可能造成已有TCP會話不能及時重組,而且不能及時在IP數(shù)據(jù)包緩沖區(qū)中騰出地方存放新捕獲的數(shù)據(jù)包,造成丟包。本發(fā)明的MTP的一個實(shí)施例4艮據(jù)指定的IP地址、TCP/UDP端口、表示層數(shù)據(jù)協(xié)議格式經(jīng)驗(yàn)規(guī)則來確定需要重組的TCP/UDP數(shù)據(jù)流;然后MTP并行地完成為數(shù)眾多的TCP/UDP數(shù)據(jù)流重組。在電信網(wǎng)絡(luò)環(huán)境中存在屬于眾多終端用戶的大量TCP/UDP數(shù)據(jù)流,而且同一數(shù)據(jù)流所包含的IP數(shù)據(jù)包可能會經(jīng)不同的網(wǎng)絡(luò)連接線路經(jīng)過多個網(wǎng)絡(luò)接口進(jìn)入數(shù)據(jù)采集設(shè)備,因此本發(fā)明的MTP共享的IP數(shù)據(jù)包存緩沖區(qū)里按照MAC地址、IP地址、和TCP/UDP通訊端口將TCP/UDP數(shù)據(jù)流分組,同組的IP數(shù)據(jù)包被交給同一個處理器核心,多條TCP/UDP數(shù)據(jù)流被均勻分配到不同處理器核心上進(jìn)行TCP/UDP重組。生成的TCP/UDP數(shù)據(jù)流被放入共享的TCP/UDP數(shù)據(jù)流緩沖區(qū)(TCP/UDPStreamBuffer)內(nèi)。在步驟53,從TCP會話數(shù)據(jù)流中篩選出HTTP協(xié)議會話數(shù)據(jù)。由于HTTP的1.1版協(xié)議支持多個HTTP會話數(shù)據(jù)共用同一個TCP會話過程,所以每條TCP會話數(shù)據(jù)流包含多個HTTP^"數(shù)據(jù)。本發(fā)明的MTP的一個實(shí)施例從TCPM數(shù)據(jù)流中把每個HTTP^"數(shù)據(jù)各自分離開來。按照最大并行化原則,MTP將多條TCP會話數(shù)據(jù)流的分離工作均勻地分配到不同處理器核心上,生成的HTTP會話數(shù)據(jù)^i文入共享的HTTP數(shù)據(jù)M緩沖區(qū)(HTTPSessionBuffer)內(nèi)。同時只有內(nèi)容為TEXT/HTML類型的HTTP數(shù)據(jù)才會被提取出來放在緩沖區(qū)中。在步驟54,從HTTP協(xié)議數(shù)據(jù)中篩選出HTML文本并提取超鏈接文字。MTP將HTTP數(shù)據(jù)會話緩沖區(qū)存放的HTTP會話數(shù)據(jù)并行地分配給不同的處理器核心按照HTML協(xié)議提取出會話數(shù)據(jù)中的超鏈接文字標(biāo)題,并存放在共享的超鏈接文本緩沖區(qū)(HyperlinkedTextBuffer)里。MTP的數(shù)據(jù)采集子系統(tǒng)會將這些超鏈接文字及時地傳回數(shù)據(jù)存儲子系統(tǒng)中按照用戶的個人標(biāo)識信息分別存放,這些數(shù)據(jù)代表了個人用戶的真實(shí)上網(wǎng)行為活動情況。戶的偏好信息。圖6是本發(fā)明的數(shù)據(jù)分析子系統(tǒng)的一個實(shí)施例的數(shù)據(jù)流示意圖。如圖6所示,在時刻1來自區(qū)域1和區(qū)域2的各個用戶(用戶1、用戶2.....用戶m)的數(shù)據(jù)記錄被分配到不同的處理器1、2.....m+l、m+2分別進(jìn)行分析處理,分析獲得數(shù)據(jù)和用戶偏好信息被存儲在數(shù)據(jù)存儲子系統(tǒng)中。根據(jù)本發(fā)明的MTP的一個實(shí)施例,數(shù)據(jù)分析子系統(tǒng)采用模式匹配和識別的方法分析終端用戶的網(wǎng)上行為數(shù)據(jù),對文字、圖像、音頻、和/或視頻數(shù)據(jù)進(jìn)行分析,計算出量化的個人偏好,獲得量化的終端用戶偏好特征。模式匹配和識別是根據(jù)業(yè)務(wù)知識或者統(tǒng)計規(guī)律對各種文字、圖像、音頻、視頻等類型的數(shù)據(jù)信息進(jìn)行按照設(shè)定的標(biāo)準(zhǔn)進(jìn)行匹配和識別的分類方法。模式匹配是根據(jù)已知的模式對數(shù)據(jù)進(jìn)行歸類以得到數(shù)據(jù)的模式類別,而模式識別則是根據(jù)原始數(shù)據(jù)的特征和一定的規(guī)則方法從原始數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)所蘊(yùn)含的模式,然后將數(shù)據(jù)按照所獲得的模式進(jìn)行歸類。下面詳細(xì)介紹如何根據(jù)文字信息和圖像信息獲得終端用戶的偏好的一種具體實(shí)現(xiàn)。對于從文字信息計算個人偏好,本發(fā)明的MTP的一個實(shí)施例采用關(guān)鍵詞匹配的方法從個人用戶瀏覽過的文字信息中計算用戶在各種個人偏好類別上的量化程度。具體步驟包括(1)按照業(yè)務(wù)應(yīng)用定義一組用戶偏好類型,并為每個類別定義一組關(guān)鍵詞;(2)在統(tǒng)計用戶瀏覽內(nèi)容中尋找與匹配的偏好類別的關(guān)鍵詞,如果發(fā)現(xiàn)匹配,則將該用戶在匹配的關(guān)鍵詞所對應(yīng)的偏好類別的匹配次數(shù)加1;(3)對所有偏好類別和所有用戶重復(fù)上一步過程,得到所有用戶在所有偏好類型上的匹配次數(shù),然后將這個次數(shù)除以總匹配次數(shù)就得到一個對用戶個人偏好程度的量化描述,該偏好程度介于0和1之間。例如一個用戶在一段時間的瀏覽中包含了150個屬于度假游的關(guān)鍵詞、70個屬于觀光游的關(guān)鍵詞、以及10個屬于探險游的關(guān)鍵詞,那么這個用戶在旅游方面的個人偏好就可以用相應(yīng)類別的關(guān)鍵詞出現(xiàn)的次數(shù)表示為(0.65,0.30,0.04)。需要指出,上述文字?jǐn)?shù)據(jù)處理過程中提到的關(guān)鍵詞實(shí)際上是為不同偏好類別預(yù)先定義的特征文字,用于對用戶瀏覽內(nèi)容進(jìn)^^匹配和分類。對于從圖像信息計算個人偏好,本發(fā)明的MTP的一個實(shí)施例采用統(tǒng)計學(xué)方法來分析圖像數(shù)據(jù)中所包含的個人偏好程度。具體步驟包括(1)按照業(yè)務(wù)應(yīng)用定義一組用戶偏好類型,并為每個類別定義選擇一組能夠反映這個個人偏好類別的參考圖像;(2)采用統(tǒng)計學(xué)中的主成分分析方法計算每個參考圖像的一組本征向量,確定每個偏好類型的所有本征向量組,并規(guī)定所有本征向量組含有的本征向量個數(shù)相同;(3)計算用戶瀏覽圖像的一組;Mi向量;(4)計算用戶瀏覽圖像的本征向量組與每個用戶偏好類型中所有參考圖像的本征向量組之間的距離,規(guī)定兩個本征向量組之間的距離是兩組中每對對應(yīng)本征向量的距離之和,并取其中的最短距離flUn為該用戶到每個用戶偏好類型的距離;(5)用戶對每個類型的偏好程度可以用1/(4^+1)表示,偏好程度介于0和1之間。需要注意,雖然在上面單獨(dú)介紹了根據(jù)文字信息和圖傳f言息獲得用戶的偏好信息的實(shí)施例,本領(lǐng)域的技術(shù)人員可以理解,也可以根據(jù)視頻、音頻等其他信息來獲得終端用戶的偏好信息,或者根據(jù)多個信息的組合來獲得終端用戶的偏好信息。下面舉例說明數(shù)據(jù)驅(qū)動子系統(tǒng)根據(jù)終端用戶的偏好信息為終端用戶提供個性化內(nèi)容或者產(chǎn)品服務(wù)。本發(fā)明的MTP能夠根據(jù)終端用戶的偏好信息為互聯(lián)網(wǎng)網(wǎng)站提供定制化和個性化的頁面內(nèi)容驅(qū)動服務(wù),使得網(wǎng)站能夠?yàn)榻K端用戶動態(tài)實(shí)時地呈現(xiàn)與其個人偏好相匹配的產(chǎn)品和內(nèi)容,既使得訪問網(wǎng)站的個人用戶能夠獲得與其行為習(xí)慣和需求偏好相匹配的頁面內(nèi)容從而提升用戶體驗(yàn),又能夠讓網(wǎng)站為不同用戶提供定制化和個性化的信息產(chǎn)品和服務(wù)從而為網(wǎng)站帶來商業(yè)價值。例如,網(wǎng)站可以根據(jù)MTP提供的終端用戶的偏好信息推出用戶感興趣的廣告產(chǎn)品,以提高廣告產(chǎn)品點(diǎn)擊率;網(wǎng)站可以根據(jù)個人用戶的歷史記錄、行為意圖、需求偏好、并結(jié)合當(dāng)前場景信息(比如時間、地點(diǎn)、聯(lián)網(wǎng)方式、周邊環(huán)境)提供最可能滿足用戶當(dāng)前需求或者潛在意圖的產(chǎn)品選擇,幫助和引導(dǎo)用戶進(jìn)行購買決策;網(wǎng)站還題和呈現(xiàn)形式,以提升用戶體驗(yàn)和加強(qiáng)用戶教性;不同網(wǎng)站還可以使用不同查詢條件參數(shù)來從MTP得到符合各個網(wǎng)站自身需求的特色化的內(nèi)容服務(wù)技術(shù),以最大化網(wǎng)站的內(nèi)容服務(wù)效果。根據(jù)本發(fā)明的MTP的一個實(shí)施例,其具體步驟包括(1)數(shù)據(jù)驅(qū)18動子系統(tǒng)實(shí)時獲取終端用戶的上網(wǎng)信息,即用戶與MTP的客戶網(wǎng)站進(jìn)行直接通信的cookie數(shù)據(jù);(2)根據(jù)cookie數(shù)據(jù)中的字段值查詢數(shù)據(jù)存儲子系統(tǒng),得到與相應(yīng)cookie對應(yīng)的用戶的個人標(biāo)識;(3)從數(shù)據(jù)存儲子系統(tǒng)中獲取用戶個人標(biāo)識所對應(yīng)的用戶偏好特征數(shù)據(jù),并根據(jù)從電信網(wǎng)絡(luò)中得到的用戶上網(wǎng)場景信息(比如時間、區(qū)域等)實(shí)時調(diào)整偏好程度以反映用戶的實(shí)時需求偏好;(4)為網(wǎng)站提供用戶的量化的需求偏好數(shù)據(jù),并由網(wǎng)站根據(jù)此數(shù)據(jù)實(shí)時定制其頁面內(nèi)容和廣告產(chǎn)品。其中,MTP可以根據(jù)具體業(yè)務(wù)應(yīng)用確立的經(jīng)驗(yàn)規(guī)則來決定如何根據(jù)用戶上網(wǎng)的場景信息調(diào)整用戶偏好,例如在工作日早晨上網(wǎng)的用戶可能需要交通天氣方面的即時信息,在居民區(qū)晚上上網(wǎng)的用戶可能需要娛樂休閑方面的信息。為了使網(wǎng)站能夠根據(jù)用戶偏好特點(diǎn)為個人用戶提供及時的、定制化、和個性化的內(nèi)容服務(wù)技術(shù),本發(fā)明的MTP的一個實(shí)施例提供根據(jù)對用戶上網(wǎng)行為的分析結(jié)果并結(jié)合網(wǎng)站特點(diǎn)和需求構(gòu)建一套實(shí)時的、動態(tài)的、和高效的頁面內(nèi)容驅(qū)動方案。具體實(shí)現(xiàn)方法包括實(shí)時獲取終端用戶的統(tǒng)一個人標(biāo)識和對網(wǎng)站的連接訪問數(shù)據(jù);獲得網(wǎng)站對指定用戶所感興趣的內(nèi)容和產(chǎn)品的查詢請求;快速響應(yīng)網(wǎng)站請求為網(wǎng)站提供指定用戶所感興趣的內(nèi)容和產(chǎn)品資料;支持以不同的查詢條件參數(shù)來獲得不同的個人用戶與頁面內(nèi)容的匹配結(jié)果。圖7是本發(fā)明的網(wǎng)絡(luò)內(nèi)容提供方法的一個實(shí)施例的流程圖。如圖7所示,在步驟702,通過電信網(wǎng)絡(luò)環(huán)境才艮據(jù)終端用戶的統(tǒng)一個人標(biāo)識采集終端用戶的網(wǎng)上行為數(shù)據(jù)。終端用戶的統(tǒng)一個人標(biāo)識可以是終端用戶所使用的上網(wǎng)設(shè)備特征標(biāo)識,例如計算機(jī)用戶的計算機(jī)以太網(wǎng)卡的MAC地址、手機(jī)用戶的手機(jī)設(shè)備的IMEI序列號等。終端用戶的網(wǎng)上行為數(shù)據(jù)例如是文本、圖像、音頻、視頻等內(nèi)容。在步驟704,4艮據(jù)終端用戶的網(wǎng)上行為數(shù)據(jù)獲得的終端用戶的偏好信息。采用模式匹配和識別的方法分析終端用戶的網(wǎng)上行為數(shù)據(jù),獲得終端用戶的偏好信息。在步驟706,才艮據(jù)終端用戶的偏好信息為終端用戶生成個性化內(nèi)容19信息。例如,網(wǎng)站根據(jù)MTP提供的終端用戶的偏好信息推出用戶感興趣的廣告產(chǎn)品,根據(jù)個人用戶的歷史記錄、行為意圖、需求偏好、并結(jié)合當(dāng)前場景信息提供最可能滿足用戶當(dāng)前需求或者潛在意圖的產(chǎn)品選擇,或者根據(jù)個人用戶的行為習(xí)慣和需求偏好為用戶定制頁面本身的內(nèi)容主題和呈現(xiàn)形式,以提升用戶體驗(yàn)和加強(qiáng)用戶翁性等。圖8是本發(fā)明的網(wǎng)絡(luò)內(nèi)皿供方法的數(shù)據(jù)采集子流程圖。如圖8所示,在步驟802,在電信網(wǎng)絡(luò)接入位置根據(jù)終端用戶的MAC地址從數(shù)據(jù)鏈路層捕獲IP數(shù)據(jù)包;在步驟804,根據(jù)IP數(shù)據(jù)包內(nèi)的IP和端口信息將數(shù)據(jù)包重組為TCP會話數(shù)據(jù)流;在步驟806,根據(jù)HTTP協(xié)議從TCP會話數(shù)據(jù)流中篩選出HTTP協(xié)議會話數(shù)據(jù);在步驟808,從HTTP協(xié)議會話數(shù)據(jù)中篩選出終端用戶的網(wǎng)上新聞數(shù)據(jù),例如HTML文本等。圖9示出本發(fā)明MTP的數(shù)據(jù)采集子系統(tǒng)的一個實(shí)施例的IP數(shù)據(jù)包捕獲和TCP數(shù)據(jù)流重組的流程示意圖。如圖9所示,在步驟902,通過三個數(shù)據(jù)鏈路幀捕獲線程來從三個相應(yīng)的網(wǎng)絡(luò)接口捕獲IP數(shù)據(jù)包,存放到IP數(shù)據(jù)包緩沖區(qū)內(nèi)。如果MTP只需要分析HTTP協(xié)議數(shù)據(jù),則只需要采集攜帶HTTP協(xié)議數(shù)據(jù)的數(shù)據(jù)幀,因此MTP采用預(yù)覽技術(shù)直接掃描數(shù)據(jù)幀的各個特征字節(jié)位置,提取包括MAC地址、IP地址、TCP/UDP端口、表示層數(shù)據(jù)協(xié)議類型,只有滿足預(yù)先設(shè)定的采集條件的數(shù)據(jù)幀才被捕獲,其它數(shù)據(jù)都被過濾掉了。比如如果只需要捕獲與服務(wù)器80端口通訊的HTTP協(xié)議數(shù)據(jù)的標(biāo)準(zhǔn)以太網(wǎng)數(shù)據(jù)幀,那么可以檢查每個數(shù)據(jù)幀的第36-37字節(jié)位置的TCP目的端口(即跳過14字節(jié)的以太數(shù)據(jù)幀頭字段、20字節(jié)的IP包頭字段、和2個字節(jié)的TCP源端口)的值是否為80。通常情況下HTTP協(xié)議數(shù)據(jù)占整個數(shù)據(jù)流量的10%左右,因此捕獲到的含有HTTP協(xié)議數(shù)據(jù)的數(shù)據(jù)包帶寬在20Gbps左右。在步驟904,通過三個TCP會話定位線程對所有IP數(shù)據(jù)包進(jìn)行確定其屬于四個TCP會話池分組中的哪一個并放入相應(yīng)會話池。每個TCP會話是由源IP地址和端口地址以及目的IP地址和端口地址這四個參數(shù)唯一確定,MTP的TCP會話池采用映射(map)類型的數(shù)據(jù)結(jié)構(gòu)容器來存放屬于每個TCP會話的數(shù)據(jù)內(nèi)容,這樣映射類型的TCP會話池將按照TCP會話的四個參數(shù)的取值大小順序存放每個TCP會話。這樣,每當(dāng)需要將新的IP數(shù)據(jù)包所攜帶的數(shù)據(jù)內(nèi)容放入對應(yīng)TCP會話中的時候,TCP會話池都可以根據(jù)數(shù)據(jù)包的四個參數(shù)快速地定位所屬的TCP會話在會話池中的位置,并將數(shù)據(jù)包中的數(shù)據(jù)內(nèi)容添加到所對應(yīng)的TCP會話數(shù)據(jù)流中。在步驟906,在確定每個IP數(shù)據(jù)包所屬的TCP會話之后,MTP將TCP會話的重組任務(wù)均勻地分配給運(yùn)行在不同處理器引擎上的獨(dú)立的會話重組線程,每個會話重組線程負(fù)責(zé)完成一組TCP會話的重組工作,相應(yīng)的TCP會話池也被劃分為同等數(shù)量的分組。每個TCP會話池將所收到的IP數(shù)據(jù)包按照TCP協(xié)議的滑動窗口原理進(jìn)行會話重組形成最終的TCPM數(shù)據(jù)流,并將重組好的會話數(shù)據(jù)流放入TCP數(shù)據(jù)流緩沖區(qū)中。每當(dāng)一個處理器引擎完成一個TCP會話重組時,該TCP會話所包含的數(shù)據(jù)就被輸出到一個共享的TCP數(shù)據(jù)流緩沖區(qū)(TCPStreamBuffer)中存放,下一步的HTPP協(xié)議解析器將會從這個緩沖區(qū)獲得HTTP數(shù)據(jù)進(jìn)行處理。需要指出,在圖9的實(shí)施例中以舉例的方式示出三個數(shù)據(jù)鏈路幀捕獲線程、三個TCP會話定位線程和四個TCP會話池分組,本領(lǐng)域的技術(shù)人員可以理解,在實(shí)際應(yīng)用中可以根據(jù)需要確定數(shù)據(jù)鏈路幀捕獲線程、TCP會話定位線程和TCP會話池分組的數(shù)量。MTP采用與IP數(shù)據(jù)包捕獲線程同等數(shù)量的TCP會話定位線程完成IP數(shù)據(jù)包的TCP會話定位工作,以最大P艮度地提高重組效率同時避免因IP數(shù)據(jù)包緩沖區(qū)變滿造成丟包。由于TCP會話池已根據(jù)處理器引擎數(shù)目劃分為多個分組以同時進(jìn)行會話重組,這樣多個TCP會話定位線程就能夠查詢多個TCP會話池分組以便快速定位每個IP數(shù)據(jù)包所屬的TCP會話分組和TCP會話,同時實(shí)現(xiàn)最大限度的并行化。在本發(fā)明的數(shù)據(jù)采集過程中,僅捕獲需要解析的數(shù)據(jù)鏈路層數(shù)據(jù)包,僅重組需要解析的傳輸層數(shù)據(jù)流,僅解析能夠反映用戶行為的表示層內(nèi)容數(shù)據(jù),并行地捕獲、重組、和解析各個層次上的數(shù)據(jù)內(nèi)容。經(jīng)過上述處理,MTP可以過濾掉絕大部分?jǐn)?shù)據(jù)量,而只保留對分析用戶行為偏好有用的原始數(shù)據(jù)。通過這樣的方式,可以處理電信網(wǎng)絡(luò)中的海量數(shù)據(jù)流量,對需要采集的數(shù)據(jù)進(jìn)行實(shí)時篩選,動態(tài)且高效地過濾掉不需要的數(shù)據(jù)(比如流媒體數(shù)據(jù)、下載數(shù)據(jù)),而只處理必需的內(nèi)容。圖10是本發(fā)明的網(wǎng)絡(luò)內(nèi)^l:供方法的一個應(yīng)用例的流程圖。如圖10所示,在步驟1002,MTP從部署在電信網(wǎng)絡(luò)中的采集節(jié)點(diǎn)上采集到經(jīng)過預(yù)處理的用戶上網(wǎng)行為數(shù)據(jù);在步驟1004,預(yù)處理數(shù)據(jù)結(jié)果通過電信高速網(wǎng)絡(luò)非實(shí)時地傳回MTP數(shù)據(jù)中心;在步驟1006,位于數(shù)據(jù)中心的MTP數(shù)據(jù)分析子系統(tǒng)非實(shí)時地對用戶上網(wǎng)行為數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘分析,得到個人用戶的偏好內(nèi)容結(jié)果;在步驟1008,MTP數(shù)據(jù)驅(qū)動子系統(tǒng)實(shí)時地接收來自網(wǎng)站對上網(wǎng)用戶偏好內(nèi)容的查詢請求并及時地為網(wǎng)站提供查詢結(jié)果;在步驟1010,網(wǎng)站根據(jù)從MTP系統(tǒng)獲得的結(jié)果為正在瀏覽其頁面的用戶實(shí)時地定制頁面內(nèi)容,為用戶提供與其偏好相匹配的個性化的產(chǎn)品和內(nèi)容服務(wù)。本發(fā)明的媒體技術(shù)平臺系統(tǒng)、數(shù)據(jù)采集系統(tǒng)和網(wǎng)絡(luò)內(nèi),供方法,全方位地采集和分析個人用戶的網(wǎng)上活動數(shù)據(jù)并推斷其個人偏好特征,為互聯(lián)網(wǎng)網(wǎng)站提供了與用戶偏好和上網(wǎng)場景全面匹配的廣告產(chǎn)品服務(wù)和信息內(nèi)容服務(wù),為其帶來收益;使用MTP智能信息服務(wù)的互聯(lián)網(wǎng)網(wǎng)站能夠?yàn)閭€人用戶揭_供充分定制化的網(wǎng)站頁面和完全個性化的瀏覽內(nèi)容,為用戶提高了網(wǎng)上活動效率,同時提升了上網(wǎng)體驗(yàn)。本發(fā)明的描述是為了示例和描述起見而給出的,而并不是無遺漏的或者將本發(fā)明限于所公開的形式。很多修改和變化對于本領(lǐng)域的普通技術(shù)人員而言是顯然的。選擇和描迷實(shí)施例是為了更好說明本發(fā)明的原理和實(shí)際應(yīng)用,并且使本領(lǐng)域的普通技術(shù)人員能夠理解本發(fā)明從而設(shè)計適于特定用途的帶有各種修改的各種實(shí)施例。權(quán)利要求1.一種媒體技術(shù)平臺系統(tǒng),其特征在于,包括數(shù)據(jù)采集子系統(tǒng),用于根據(jù)終端用戶的統(tǒng)一個人標(biāo)識采集所述終端用戶的網(wǎng)上行為數(shù)據(jù),發(fā)送所述終端用戶的網(wǎng)上行為數(shù)據(jù);數(shù)據(jù)存儲子系統(tǒng),用于接收來自所述數(shù)據(jù)采集子系統(tǒng)的所述終端用戶的網(wǎng)上行為數(shù)據(jù),存儲根據(jù)所述終端用戶的網(wǎng)上行為數(shù)據(jù)獲得的所述終端用戶的偏好信息;數(shù)據(jù)驅(qū)動子系統(tǒng),用于從所述數(shù)據(jù)存儲子系統(tǒng)獲得所述終端用戶的偏好信息,根據(jù)所述終端用戶的偏好信息為所述終端用戶提供個性化內(nèi)容信息。2.根據(jù)權(quán)利要求1所述的媒體技術(shù)平臺系統(tǒng),其特征在于,所述數(shù)據(jù)采集子系統(tǒng)包括多個位于電信網(wǎng)絡(luò)接入位置的數(shù)據(jù)采集設(shè)備,所述數(shù)據(jù)采集設(shè)備根據(jù)所述終端用戶的統(tǒng)一個人標(biāo)識采集所述終端用戶的網(wǎng)上行為數(shù)據(jù);其中,所述終端用戶的統(tǒng)一個人標(biāo)識為所述終端用戶的上網(wǎng)i殳備特征標(biāo)識。3.根據(jù)權(quán)利要求2所述的媒體技術(shù)平臺系統(tǒng),其特征在于,所述數(shù)據(jù)采集設(shè)備的網(wǎng)卡驅(qū)動程序的工作方式為輪詢模式。4.根據(jù)權(quán)利要求1所述的媒體技術(shù)平臺系統(tǒng),其特征在于,所述數(shù)據(jù)采集子系統(tǒng)包括IP數(shù)據(jù)包捕獲模塊,用于根據(jù)至少所述終端用戶的介質(zhì)訪問控制MAC地址篩選出需要捕獲的數(shù)據(jù)鏈路層數(shù)據(jù)幀,從所述需要捕獲的數(shù)據(jù)幀中提取IP數(shù)據(jù)包,發(fā)送所述IP數(shù)據(jù)包;數(shù)據(jù)流重組模塊,用于接收來自所述IP數(shù)據(jù)包捕獲模塊的IP數(shù)據(jù)包,根據(jù)傳輸層協(xié)議將所述IP數(shù)據(jù)包重組成傳輸層^t數(shù)據(jù)流,發(fā)送所述傳輸層會話數(shù)據(jù)流;超文本傳輸協(xié)議HTTP數(shù)據(jù)篩選模塊,用于接收來自所述數(shù)據(jù)流重組模塊的傳輸層會話數(shù)據(jù)流,從所述傳輸層會話數(shù)據(jù)流中篩選出HTTP會話數(shù)據(jù),發(fā)送所述HTTP會話數(shù)據(jù);內(nèi)容提取模塊,用于接收來自所述HTTP數(shù)據(jù)篩選模塊的HTTP會話數(shù)據(jù),根據(jù)超文本標(biāo)記語言HTML協(xié)議解析出用戶網(wǎng)上行為數(shù)據(jù)。5.根據(jù)權(quán)利要求4所述的媒體技術(shù)平臺系統(tǒng),其特征在于,所述IP數(shù)據(jù)包捕獲模塊通過預(yù)覽技術(shù)直接掃描數(shù)據(jù)幀的特征字節(jié)位置,提取包括MAC地址、IP地址、傳輸控制協(xié)議/用戶數(shù)據(jù)報協(xié)議TCP/UDP端口、表示層數(shù)據(jù)協(xié)議類型的信息,當(dāng)所述提取的信息滿足預(yù)先設(shè)定的釆集條件時,所述數(shù)據(jù)幀是需要捕獲的數(shù)據(jù)幀,否則,所述數(shù)據(jù)幀被過濾。6.根據(jù)權(quán)利要求1至5中任意一項(xiàng)所述的媒體技術(shù)平臺系統(tǒng),其特征在于,還包括數(shù)據(jù)分析子系統(tǒng),用于接收來自所述數(shù)據(jù)采集子系統(tǒng)的所述終端用戶的網(wǎng)上行為數(shù)據(jù),根據(jù)所述終端用戶的網(wǎng)上行為數(shù)據(jù)生成所述終端用戶的偏好信息,將所述終端用戶的偏好信息發(fā)送到所述數(shù)據(jù)存儲子系統(tǒng);所述數(shù)據(jù)存儲子系統(tǒng),用于接收來自所述數(shù)據(jù)采集子系統(tǒng)的所述終端用戶的網(wǎng)絡(luò)活動數(shù)據(jù),存儲所述終端用戶的網(wǎng)上行為數(shù)據(jù);接收來自所述數(shù)據(jù)分析子系統(tǒng)的所述終端用戶的偏好信息,存儲所述終端用戶的偏好^f言息。7.根據(jù)權(quán)利要求6所述的媒體平臺技術(shù)系統(tǒng),其特征在于,所述數(shù)據(jù)分析子系統(tǒng)通過^=莫式匹配和識別的方法分析所述終端用戶的網(wǎng)上行為數(shù)據(jù),生成所述終端用戶的偏好信息。8.根據(jù)權(quán)利要求1至5中任意一項(xiàng)所述的媒體技術(shù)平臺系統(tǒng),其特征在于,所述數(shù)據(jù)驅(qū)動子系統(tǒng)采用基于WebService的網(wǎng)站互連和數(shù)據(jù)交換技術(shù)為網(wǎng)站提供了根據(jù)終端用戶的偏好信息進(jìn)行實(shí)時定制的動態(tài)網(wǎng)站頁面,所述頁面中包含了和所述終端用戶的偏好信息匹配的廣告產(chǎn)品內(nèi)容。9.一種數(shù)據(jù)采集系統(tǒng),其特征在于,包括IP數(shù)據(jù)包捕獲模塊,用于根據(jù)至少M(fèi)AC地址篩選出需要捕獲的數(shù)據(jù)鏈路層數(shù)據(jù)幀,從所述需要捕獲的數(shù)據(jù)幀中提取IP數(shù)據(jù)包,發(fā)送所述IP數(shù)據(jù)包;數(shù)據(jù)流重組模塊,用于接收來自所述IP數(shù)據(jù)包捕獲模塊的IP數(shù)據(jù)包,根據(jù)傳輸層協(xié)議將所述IP數(shù)據(jù)包重組成傳輸層會話數(shù)據(jù)流,發(fā)送所述傳輸層M數(shù)據(jù)流;HTTP數(shù)據(jù)篩選模塊,用于接收來自所述數(shù)據(jù)流重組模塊的傳輸層會話數(shù)據(jù)流,從所述傳輸層^數(shù)據(jù)流中篩選出HTTP會話數(shù)據(jù),發(fā)送所述HTTP會話數(shù)據(jù);內(nèi)容提^uf莫塊,用于接收來自所述HTTP數(shù)據(jù)篩選模塊的HTTP會話數(shù)據(jù),根據(jù)HTML協(xié)議解析出用戶網(wǎng)上行為數(shù)據(jù)。10.根據(jù)權(quán)利要求9所述的數(shù)據(jù)采集系統(tǒng),其特征在于,所述IP數(shù)據(jù)包捕獲模塊通過預(yù)覽技術(shù)直接掃描數(shù)據(jù)幀的特征字節(jié)位置,提取包括MAC地址、IP地址、TCP/UDP端口、表示層數(shù)據(jù)協(xié)i義類型的信息,當(dāng)所述提取的信息滿足預(yù)先設(shè)定的采集條件時,所述數(shù)據(jù)幀是需要捕獲的數(shù)據(jù)幀,否則,所述數(shù)據(jù)幀被過濾。11.根據(jù)權(quán)利要求9或10所述的數(shù)據(jù)采集系統(tǒng),其特征在于,所述IP數(shù)據(jù)包捕獲模塊的網(wǎng)卡驅(qū)動程序的工作方式為輪詢模式。12,一種網(wǎng)絡(luò)內(nèi)M供方法,其特征在于,包括通過電信網(wǎng)絡(luò)環(huán)境根據(jù)各個終端用戶的統(tǒng)一個人標(biāo)識采集所述終端用戶的網(wǎng)上行為數(shù)據(jù);根據(jù)所述終端用戶的網(wǎng)上行為數(shù)據(jù)獲得的所述終端用戶的偏好信息;根據(jù)所述終端用戶的偏好信息為所述終端用戶提供個性化內(nèi)容信每13.根據(jù)權(quán)利要求12所述的網(wǎng)絡(luò)內(nèi)容提供方法,其特征在于,所述通過電信網(wǎng)絡(luò)環(huán)境4艮據(jù)終端用戶的統(tǒng)一個人標(biāo)識采集所述終端用戶的網(wǎng)上行為數(shù)據(jù)步驟包括在電信網(wǎng)絡(luò)接入位置根據(jù)所述終端用戶的MAC地址從數(shù)據(jù)鏈路層捕獲IP數(shù)據(jù)包;根據(jù)捕獲的IP數(shù)據(jù)包內(nèi)的IP和端口信息將數(shù)據(jù)包重組為TCP會話數(shù)據(jù)流;根據(jù)HTTP協(xié)議從TCP會話數(shù)據(jù)流中篩選出HTTP協(xié)議會話數(shù)據(jù);根據(jù)HTML協(xié)議從HTTP協(xié)議M數(shù)據(jù)中篩選出所述終端用戶的網(wǎng)上行為數(shù)據(jù)。14,根據(jù)權(quán)利要求13所述的網(wǎng)絡(luò)內(nèi)容提供方法,其特征在于,所述才艮據(jù)所述終端用戶的MAC地址從數(shù)據(jù)鏈路層捕獲IP數(shù)據(jù)包的步驟包括通過預(yù)覽技術(shù)直接掃描數(shù)據(jù)鏈路層中數(shù)據(jù)幀的特征字節(jié)位置,提取包括MAC地址、IP地址、TCP/UDP端口、表示層數(shù)據(jù)協(xié)議類型的信息,當(dāng)所述提取的信息滿足預(yù)先設(shè)定的采集條件時,所述數(shù)據(jù)幀是需要捕獲的數(shù)據(jù)幀,否則,所述數(shù)據(jù)幀被過濾;從所述需要捕獲的數(shù)據(jù)幀中提取IP數(shù)據(jù)包。15.根據(jù)權(quán)利要求12所述的網(wǎng)絡(luò)內(nèi)容提供方法,其特征在于,所述才艮據(jù)所述終端用戶的偏好信息為所述終端用戶提供個性化內(nèi)容信息的步驟包括采用基于WebService的網(wǎng)站互連和數(shù)據(jù)交換技術(shù)為網(wǎng)站提供了根據(jù)終端用戶的偏好信息進(jìn)行實(shí)時定制的動態(tài)網(wǎng)站頁面,所述頁面中包含了與所述終端用戶的偏好信息匹配的廣告產(chǎn)品內(nèi)容。全文摘要本發(fā)明提供了一種媒體技術(shù)平臺系統(tǒng)、數(shù)據(jù)采集系統(tǒng)和網(wǎng)絡(luò)內(nèi)容提供方法。該媒體技術(shù)平臺系統(tǒng)包括數(shù)據(jù)采集子系統(tǒng),用于根據(jù)終端用戶的統(tǒng)一個人標(biāo)識采集終端用戶的網(wǎng)上行為數(shù)據(jù);數(shù)據(jù)存儲子系統(tǒng),用于接收來終端用戶的網(wǎng)上行為數(shù)據(jù),存儲根據(jù)終端用戶的網(wǎng)上行為數(shù)據(jù)獲得的終端用戶的偏好信息;數(shù)據(jù)驅(qū)動子系統(tǒng),用于根據(jù)終端用戶的偏好信息為終端用戶提供個性化內(nèi)容信息。本發(fā)明媒體技術(shù)平臺系統(tǒng)、數(shù)據(jù)采集系統(tǒng)和網(wǎng)絡(luò)內(nèi)容提供方法提出并實(shí)現(xiàn)了基于電信互聯(lián)網(wǎng)環(huán)境的對個人用戶的網(wǎng)上活動數(shù)據(jù)采集與行為分析,得到了對單個用戶的行為特征和需求偏好的完整刻畫,并為互聯(lián)網(wǎng)網(wǎng)站提供了智能化的廣告產(chǎn)品服務(wù)和個性化的信息內(nèi)容服務(wù)。文檔編號H04L29/08GK101561825SQ20091014389公開日2009年10月21日申請日期2009年6月2日優(yōu)先權(quán)日2009年6月2日發(fā)明者熊宇光,強(qiáng)王申請人:北京邁朗世訊科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
海宁市| 昌宁县| 永春县| 抚松县| 德保县| 梅河口市| 日土县| 林周县| 大余县| 宕昌县| 克拉玛依市| 咸阳市| 井研县| 攀枝花市| 大田县| 弥勒县| 开化县| 崇仁县| 宁国市| 巴彦县| 丁青县| 辽宁省| 亚东县| 南溪县| 庆元县| 成武县| 绥德县| 贵德县| 灌云县| 肥西县| 阆中市| 新疆| 从化市| 定日县| 依安县| 松溪县| 横峰县| 和顺县| 泸西县| 黔西| 安塞县|