本專利屬于互聯(lián)網(wǎng)領域,涉及一種識別上網(wǎng)用戶的系統(tǒng)與方法。
背景技術:
當前,互聯(lián)網(wǎng)與人們的工作生活、社會上的各行各業(yè)緊密融合。每個用戶在使用互聯(lián)網(wǎng)上時都留有或多或少的“痕跡”,例如用戶在不同的時間、使用不同的設備,通過互聯(lián)網(wǎng)訪問不同的應用與網(wǎng)站都會留下類似的“痕跡”。
如果我們能夠基于這些“痕跡”,從每條痕跡中提取不同的特征來標識這個用戶,為該用戶建立特征識別庫,這將在精準用戶畫像、跨網(wǎng)站和應用的精準營銷、市場研究、以及網(wǎng)絡風控等領域擁有很高的價值。
在互聯(lián)網(wǎng)中,現(xiàn)有技術中已經(jīng)存在標識唯一用戶的技術手段,例如:在pc端使用cookiemapping來進行用戶標識,即通過cookiemapping方法對pc端上網(wǎng)的用戶進標識;在移動端使用mac地址、iosidfa、androidid和imei等來標識用戶。
雖然上述方法在一定程度和范圍內解決了用戶標識的問題,但是現(xiàn)有技術中的技術方案仍然存在如下缺點:
首先,現(xiàn)有技術中的方法覆蓋度不足:如果依賴于ssp、dsp、adexchange和媒體網(wǎng)站進行廣告業(yè)務時的信息交換來建立cookiemapping,考慮到廣告投放的渠道,媒體覆蓋率等,該方案很難進行用戶全域互聯(lián)網(wǎng)訪問的cookiemapping暨跨網(wǎng)站打通。另一方面,第三方統(tǒng)計公司也無法覆蓋所有的網(wǎng)站并植入代碼,從而進行全域cookiemapping。其次,用來標識用戶的id種類不足:除了cookie和移動設備唯一標識(imei,idfa,androidid,mac),還有很多強屬性id可以用來標識用戶,例如,用戶在媒體網(wǎng)站,社交網(wǎng)站,電商網(wǎng)站的注冊賬號,用戶的手機號,電子郵箱賬號,寬帶上網(wǎng)賬號等,將來隨著終端形式的增加,還會有更多的強屬性id用來標識用戶。很多強屬性id基于現(xiàn)有技術的方案都無法完全識別。第三,未實現(xiàn)跨設備打通現(xiàn)有技術中的方案都只能分別基于pc端和移動端對用戶進行標識,而實際情況中互聯(lián)網(wǎng)用戶可能使用多種設備。此外,現(xiàn)有技術技術的技術方案也無法保證用戶特征標識庫的及時更新,對于一個媒體網(wǎng)站,它在用戶端的cookie是有一個生命周期的,如果某媒體網(wǎng)站的cookie規(guī)則改變了,現(xiàn)有技術的方案必須依賴于再次給該用戶在該媒體投放廣告,才能相應的更新特征識別庫,這必將影響相關業(yè)務的開展。
技術實現(xiàn)要素:
本專利正是基于現(xiàn)有技術中的上述需求而提出的,本專利要解決的技術問題是提供一種一種識別上網(wǎng)用戶的系統(tǒng)與方法,以便于能夠提高識別用戶的準確性和擴大適用的范圍。
為了解決上述問題,本專利提供的技術方案包括:
一種識別上網(wǎng)用戶的方法,所述方法包括:獲取網(wǎng)絡鏈路設備中采集的用戶流量數(shù)據(jù);對獲取的用戶流量數(shù)據(jù)進行處理,清洗與用戶特征無關的數(shù)據(jù)得到處理后的用戶流量數(shù)據(jù);分析所述處理后的用戶流量數(shù)據(jù),提取其中的用戶特征;關聯(lián)單個用戶的所有用戶特征,形成單個用戶的用戶關系鏈。
優(yōu)選地,該方法還包括,基于用戶特征更新上述用戶關系鏈。
優(yōu)選地,所述方法包括:所述用戶流量數(shù)據(jù)包括通過設置流量分光器或者采用端口鏡像的方式從交換機上采集到的用戶流量數(shù)據(jù)。
優(yōu)選地,所述用戶特征包括:cookie特征標識、設備標識、用戶賬號標識、統(tǒng)計引擎標識、ssp廣告引擎標識和地理位置標識;分析所述處理后的用戶流量數(shù)據(jù),提取其中的用戶特征包括,對處理后的所述用戶流量數(shù)據(jù)進行分析,識別出其中的cookie特征標識、設備標識、用戶賬號標識、統(tǒng)計引擎標識、ssp廣告引擎標識和地理位置標識,并將其提取出來。
優(yōu)選地,關聯(lián)單個用戶的所有用戶特征包括,根據(jù)所述用戶流量中的各個用戶特征的關聯(lián)性以及各個用戶特征內容上的關聯(lián)性關聯(lián)所述用戶特征。
根據(jù)本專利的另一個方面還提供了一種識別上網(wǎng)用戶的裝置,所述裝置包括:數(shù)據(jù)獲取模塊,獲取網(wǎng)絡鏈路設備中采集的用戶流量數(shù)據(jù);數(shù)據(jù)處理模塊,對獲取的用戶流量數(shù)據(jù)進行處理,清洗與用戶特征無關的數(shù)據(jù)得到處理后的用戶流量數(shù)據(jù);用戶特征提取模塊,分析所述處理后的用戶流量數(shù)據(jù),提取其中的用戶特征;用戶特征關聯(lián)模塊,關聯(lián)單個用戶的所有用戶特征,形成單個用戶的用戶關系鏈。
根據(jù)本專利的另一個方面,提供了又一種識別上網(wǎng)用戶的方法,所述方法包括:在網(wǎng)絡鏈路中采集用戶流量數(shù)據(jù);對采集的用戶流量數(shù)據(jù)進行處理,包括對采集到的用戶流量數(shù)據(jù)進行預處理和清洗,所述預處理去掉錯誤和無效的數(shù)據(jù),所述預處理剔除掉與用戶特征無關的數(shù)據(jù);從而得到處理后的用戶流量數(shù)據(jù);分析所述處理后的用戶流量數(shù)據(jù),提取其中的用戶特征;關聯(lián)單個用戶的所有用戶特征,形成單個用戶的用戶關系鏈。
根據(jù)本專利的另一個方面,還提供了一種網(wǎng)絡信息控制方法,所述方法包括:步驟一、獲取用戶特征,所述用戶特征中包括識別上網(wǎng)用戶的特征信息;步驟二、基于所述用戶特征和如權利要求1-11中任一項所述的用戶關系鏈識別上網(wǎng)用戶;步驟三、根據(jù)該上網(wǎng)用戶的用戶關系鏈中的用戶特征,控制所述上網(wǎng)用戶的相關信息。
本專利通過采集網(wǎng)絡鏈路上的用戶流量信息,并對上述信息進行處理和分析擴大了對于用戶特征的標識范圍,并且對于基于上述流量信息中的用戶特征進行分析,提高了對于用戶識別的準確性,并且打破了現(xiàn)有技術中對于用戶識別的局限性。
附圖說明
圖1是本專利具體實施方式中一種識別上網(wǎng)用戶的方法的流程圖
圖2是本專利具體實施方式中用戶關系鏈的結構示意圖。
具體實施方式
下面結合附圖對本專利的具體實施方式進行詳細闡述。需要說明的是,該具體實施方式僅僅是對本專利優(yōu)選技術方案的舉例,并不能理解為對本專利保護范圍的限制。
實施例一
本實施例提供了一種識別上網(wǎng)用戶的方法,所述方法實現(xiàn)的場景包括但不限于一種設備,例如,服務器、個人電腦或者移動設備;或者是上述設備之間的配合。其中每一種設備中可以包括多個個體,各個個體之間協(xié)助工作以實現(xiàn)該方法。
如圖1所示,所述方法包括如下步驟:
步驟一、獲取網(wǎng)絡鏈路設備中采集的用戶流量數(shù)據(jù)
在本步驟中,獲取的數(shù)據(jù)是在網(wǎng)絡鏈路中采集而來的,例如,在交換機上設置流量分光器或者采用端口鏡像的方式采集到了互聯(lián)網(wǎng)上的數(shù)據(jù)。可以通過直接傳輸?shù)姆绞絹慝@取上述數(shù)據(jù);也可以通過間接的方式,例如將在網(wǎng)絡鏈路中采集到的數(shù)據(jù)進行存儲再獲取得到的數(shù)據(jù)。
進一步優(yōu)選地,本實施例中可以在多個交換機上采集上述流量數(shù)據(jù),然后將上述數(shù)據(jù)進行匯集,進而擴大數(shù)據(jù)采集的范圍。
所述網(wǎng)絡鏈路中的數(shù)據(jù)并不同于在用戶端采集到的數(shù)據(jù),其來自于網(wǎng)絡鏈路設備,當同一個用戶使用不同的終端設備上網(wǎng)時,雖然每個終端設備所產(chǎn)生信息有一定的區(qū)別,但是每個終端設備上的數(shù)據(jù)都會傳遞到所述網(wǎng)絡鏈路設備中,因而在網(wǎng)絡鏈路設備中采集到的用戶流量數(shù)據(jù)能夠全面地反映用戶在各個設備或者各個環(huán)境下的上網(wǎng)信息,從而成為全面分析的基礎。
在本實施例中,來自于所述網(wǎng)絡鏈路設備的數(shù)據(jù)可以是經(jīng)過預先處理的,當然也可以是未經(jīng)過預先處理的原始數(shù)據(jù)。這并不能夠影響本實施例的實施。
步驟二、對獲取的用戶流量數(shù)據(jù)進行處理
網(wǎng)絡鏈路設備所采集到的數(shù)據(jù)包含了大量的與識別上網(wǎng)用戶無關的信息,例如,與運營商相關的信息、與網(wǎng)絡環(huán)境相關的信息等等,上述信息通常與用戶無關或者是與用戶的關聯(lián)度較小,因而需要對于網(wǎng)絡鏈路設備中獲取的信息中的上述內容進行清洗。清洗之后縮小相關的數(shù)據(jù)量,從而便于利用有效的數(shù)據(jù)進行用戶的識別。
因此,在本步驟中對獲取的用戶流量數(shù)據(jù)進行處理包括數(shù)據(jù)清洗,數(shù)據(jù)清洗可以通過基于規(guī)則的方式來實現(xiàn),例如,預先設置相應的清洗規(guī)則,將不符合該規(guī)則的數(shù)據(jù)剔除,而保留符合該規(guī)則的數(shù)據(jù)。由于與用戶相關的信息都具有較為明顯的內容上的特征,并且與用戶無關的信息也具有明顯的內容上的特征;因而本領域技術人員可以根據(jù)具體的情況設置相應規(guī)則的內容,因此在本具體實施方式中不對該清洗規(guī)則進行詳細的展開。
此外,在該步驟中,對獲取的用戶流量數(shù)據(jù)進行處理還可以包括除了清洗之外的其它便于分析的操作,例如特征化,或者是壓縮等處理。
對獲取的用戶流量數(shù)據(jù)進行處理之后即得到處理后的用戶流量數(shù)據(jù)。
步驟三、基于識別用戶的策略及規(guī)則庫進行用戶特征識別
處理后的用戶流量數(shù)據(jù)中包括了大量的用戶特征信息,對于處理后的用戶流量數(shù)據(jù)中的各個用戶特征進行識別成為識別單個用戶的基礎。
在本步驟中對于所述用戶特征的識別是基于識別用戶的策略及規(guī)則庫來實現(xiàn)的。所述策略和規(guī)則庫是指預先確定的與用戶相關的特征的類型庫以及識別該特征類型的策略。例如,這些特征類型包括但不限于:cookie特征標識、設備標識、用戶賬號標識、統(tǒng)計引擎標識和地理位置標識,等。這些特征類型都具有各自的數(shù)據(jù)特點,通過對于所述數(shù)據(jù)特點的分析從而確定識別這些用戶特征的策略,以便于從海量的網(wǎng)絡鏈路數(shù)據(jù)中提取與用戶特征識別相關的用戶特征。
具體而言,例如:
所述cookie是由服務器端生成反饋給用戶端(一般是瀏覽器)的數(shù)據(jù),用戶端會將cookie的數(shù)據(jù)保存到某個目錄下的文本文件內,下次請求同一網(wǎng)站時就發(fā)送該cookie給服務器。通過cookie能夠標識某一個用戶的特征,因而提取網(wǎng)絡鏈路設備采集到的cookie數(shù)據(jù)并對其進行標識,對于識別用戶是有意義的。
所述設備標識包括但不限于移動設備,通常在不同的設備上具有不同的設備標識號碼,例如,某一手機上具有唯一的識別該手機的編碼,因而對于設備標識的提取與識別也與識別用戶相關。而設備標識往往具有特定的數(shù)據(jù)格式,因而可以通過數(shù)據(jù)格式的分析將上述設備標識識別出來。
所述統(tǒng)計引擎標識、ssp廣告引擎標識是指一個用戶在統(tǒng)計引擎或ssp廣告引擎中所對應的數(shù)據(jù),由于統(tǒng)計殷勤和ssp廣告引擎針對一個用戶在某一范圍的網(wǎng)站或者是應用上進行了信息的識別與推送。由于統(tǒng)計引擎標識和ssp廣告引擎標識的來源具有顯著的特征,因而能夠將其從網(wǎng)絡鏈路設備采集到的流量數(shù)據(jù)中識別出來,并且基于統(tǒng)計引擎數(shù)據(jù)和ssp廣告引擎數(shù)據(jù)進行識別對于識別用戶也是有意義的。
所述用戶賬號標識,是指將所述用戶的賬號信息識別出來,并用于標識用戶。由于用戶在某一個網(wǎng)站或者是應用中的賬號往往是確定的,因而識別出該賬號能夠標識出該用戶。用戶的賬號在不同的網(wǎng)站和不同應用中具有各自具體的特點,可以根據(jù)具體環(huán)境下用戶賬號的設置規(guī)則提取流量中的用戶賬號信息。
所述地理位置標識,是指用戶在不同的網(wǎng)站或者應用中所產(chǎn)生地理位置信息,這些信息可以是地理坐標信息也可以是經(jīng)過選擇后的地理位置信息(例如城市選擇)等等。這些地理位置信息對于識別用戶具有參考意義。
此外,所述用戶特征還可以包括寬帶賬號、手機號、mac地址等等,這些信息都可以作為識別用戶的特征信息從網(wǎng)絡鏈路上獲取的流量分析得到,從而作為識別用戶的特征。
由于能夠統(tǒng)計網(wǎng)絡上所有的信息,因而通過從網(wǎng)絡鏈路上獲取的流量數(shù)據(jù)進行上述特征識別,能夠實現(xiàn)全域范圍內的用戶關聯(lián)在全域范圍內識別用戶。并且還能夠統(tǒng)計到用戶在媒體網(wǎng)站、社交網(wǎng)站、電商網(wǎng)站的注冊賬號、用戶的手機號、電子郵箱賬號和寬帶上網(wǎng)賬號等強屬性id,對于識別用戶準確度的提高具有顯著的意義。此外,用戶使用不同設備時(例如使用pc和手機)在某些識別特征上(例如電子郵件賬號\qq號)具有相同的內容,因而通過分析網(wǎng)絡鏈路中的流量數(shù)據(jù)能夠識別利用不同設備上網(wǎng)的用戶。
步驟四、關聯(lián)相關的用戶特征建立用戶關系鏈
提取了相關的用戶特征之后,即可以根據(jù)用戶特征所反映的信息描述某一用戶,將代表該用用的各種用戶特征關聯(lián)起來,從而建立用戶關系鏈。所述用戶關系鏈即是對所述用戶的精準畫像,從而完成了對該用戶的識別。
其中,關聯(lián)相關的用戶特征是指,將代表同一用戶的多種用戶特征關聯(lián)起來。關聯(lián)上述特征可以通過預定的規(guī)則來確定,例如基于對用戶特征的挖掘可知,在某一時間段內,同一個ip中數(shù)據(jù)流量中包括的用戶特征,通過分析各個用戶特征中的內容將相關的用戶特征關聯(lián)起來描述一個用戶。還可以在某一設備中的流量數(shù)據(jù)所包括的用戶特征,通過分析各個用戶特征中的內容將相關的用戶特征關聯(lián)起來描述一個用戶。此外還可以通過賬號等強屬性的id的對應關系,來關聯(lián)流量數(shù)據(jù)中多個用戶特征從而描述一個用戶。
通過建立用戶特征的關聯(lián),既可以實現(xiàn)對于用戶的標識。所述用戶特征的關聯(lián)示例性地,如圖2所示。在分析流量數(shù)據(jù)之后,可以得到如下的用戶關系鏈,以用戶mike為例,在mike的網(wǎng)絡數(shù)據(jù)下,將mike的pc,mike的手機關聯(lián)起來打通設備之間的界限,同時將mike的微博賬號、qq賬號,百度、搜狐等網(wǎng)站的cookie等關聯(lián)起來,形成用戶mike的關系鏈。
步驟五、基于用戶特征更新用戶關系鏈
由于各種因素的變化,用戶特征在不同時期會產(chǎn)生變化,例如用戶會更換手機、更換號碼等。這些用戶特征的變化需要對于用戶關系鏈進行更新,以便于提高用戶識別的準確程度。
在本步驟中,可以通過對于用戶特征內容的分析來確定需要更新的用戶關系鏈中的內容,這些內容的分析可以根據(jù)具體的用戶特征中的數(shù)據(jù)特點而確定。例如當用戶特征中設備標識發(fā)生變化時,可以通過分析與設備標識相關的電話號碼、賬號等強id標識從而確定該變化是由于用戶更換了移動設備所致,從而更新用戶關系鏈中的設備標識等相關的用戶特征。當然本實施例中更新用戶關系鏈的方式并不僅限于此,當用戶特征發(fā)生變化時還可以根據(jù)其他的規(guī)則來替換、增加或者刪除用戶關系鏈中的相關用戶特征。
實施例二
本實施例中提供了一種識別上網(wǎng)用戶的方法,在該方法可以借助于網(wǎng)絡鏈路中的多個設備來實現(xiàn),或者是在部分步驟中使用該網(wǎng)絡鏈路中的多個設備來實現(xiàn)。所述網(wǎng)絡鏈路中的設備包括分光機、服務器等。
本實施例中的方法包括如下步驟:
步驟一、在網(wǎng)絡鏈路中采集用戶流量數(shù)據(jù)
所述用戶流量數(shù)據(jù)是在網(wǎng)絡鏈路中采集而來的,例如,在網(wǎng)絡鏈路中的交換機上設置流量分光器或者采用端口鏡像的方式采集到了互聯(lián)網(wǎng)上的數(shù)據(jù)。優(yōu)選地,本實施例中可以在多個交換機上采集上述流量數(shù)據(jù),然后將上述數(shù)據(jù)進行匯集,進而擴大數(shù)據(jù)采集的范圍。所述網(wǎng)絡鏈路中的數(shù)據(jù)并不同于在用戶端采集到的數(shù)據(jù),其來自于網(wǎng)絡鏈路設備,當同一個用戶使用不同的終端設備上網(wǎng)時,雖然每個終端設備所產(chǎn)生信息有一定的區(qū)別,但是每個終端設備上的數(shù)據(jù)都會傳遞到所述網(wǎng)絡鏈路設備中,因而在網(wǎng)絡鏈路設備中采集到的用戶流量數(shù)據(jù)能夠全面地反映用戶在各個設備或者各個環(huán)境下的上網(wǎng)信息,從而成為全面分析的基礎。
步驟二、對于所述用戶流量數(shù)據(jù)進行處理
在本步驟中,對用戶流量數(shù)據(jù)進行處理包括對于數(shù)據(jù)進行預處理,即剔除錯誤數(shù)據(jù),無效數(shù)據(jù)等明顯帶來噪音的數(shù)據(jù),或者是屏蔽掉明顯涉及個人隱私或者保密數(shù)據(jù),從而便于后續(xù)的分析和處理。
此外,對所述用戶流量數(shù)據(jù)進行處理還包括從預處理后的數(shù)據(jù)中篩選出與識別上網(wǎng)用戶相關的數(shù)據(jù)。例如預處理后的數(shù)據(jù)包含了與運營商相關的信息、與網(wǎng)絡環(huán)境相關的信息等等,上述信息通常與用戶無關或者是與用戶的關聯(lián)度較小,因而需要對于網(wǎng)絡鏈路設備中獲取的信息中的上述內容進行清洗。清洗之后縮小相關的數(shù)據(jù)量,從而便于利用有效的數(shù)據(jù)進行用戶的識別。
步驟三、基于識別用戶的策略及規(guī)則庫識別用戶特征
處理后的用戶流量數(shù)據(jù)中包括了大量的用戶特征信息,對于處理后的用戶流量數(shù)據(jù)中的各個用戶特征進行識別成為識別單個用戶的基礎。
在本步驟中對于所述用戶特征的識別是基于識別用戶的策略及規(guī)則庫來實現(xiàn)的。所述策略和規(guī)則庫是指預先確定的與用戶相關的特征的類型庫以及識別該特征類型的策略。例如,這些特征類型包括但不限于:cookie特征標識、設備標識、用戶賬號標識、統(tǒng)計引擎標識、ssp廣告引擎標識和地理位置標識,等。這些特征類型都具有各自的數(shù)據(jù)特點,通過對于所述數(shù)據(jù)特點的分析從而確定識別這些用戶特征的策略,以便于從海量的網(wǎng)絡鏈路數(shù)據(jù)中提取與用戶特征識別相關的用戶特征。
具體而言,例如:
所述cookie是由服務器端生成反饋給用戶端(一般是瀏覽器)的數(shù)據(jù),用戶端會將cookie的數(shù)據(jù)保存到某個目錄下的文本文件內,下次請求同一網(wǎng)站時就發(fā)送該cookie給服務器。通過cookie能夠標識某一個用戶的特征,因而提取網(wǎng)絡鏈路設備采集到的cookie數(shù)據(jù)并對其進行標識,對于識別用戶是有意義的。
所述設備標識包括但不限于移動設備,通常在不同的設備上具有不同的設備標識號碼,例如,某一手機上具有唯一的識別該手機的編碼,因而對于設備標識的提取與識別也與識別用戶相關。而設備標識往往具有特定的數(shù)據(jù)格式,因而可以通過數(shù)據(jù)格式的分析將上述設備標識識別出來。
所述統(tǒng)計引擎標識、ssp廣告引擎標識是指一個用戶在統(tǒng)計引擎或ssp廣告引擎中所對應的數(shù)據(jù),由于統(tǒng)計殷勤和ssp廣告引擎針對一個用戶在某一范圍的網(wǎng)站或者是應用上進行了信息的識別與推送。由于統(tǒng)計引擎標識和ssp廣告引擎標識的來源具有顯著的特征,因而能夠將其從網(wǎng)絡鏈路設備采集到的流量數(shù)據(jù)中識別出來,并且基于統(tǒng)計引擎數(shù)據(jù)和ssp廣告引擎數(shù)據(jù)進行識別對于識別用戶也是有意義的。
所述用戶賬號標識,是指將所述用戶的賬號信息識別出來,并用于標識用戶。由于用戶在某一個網(wǎng)站或者是應用中的賬號往往是確定的,因而識別出該賬號能夠標識出該用戶。用戶的賬號在不同的網(wǎng)站和不同應用中具有各自具體的特點,可以根據(jù)具體環(huán)境下用戶賬號的設置規(guī)則提取流量中的用戶賬號信息。
所述地理位置標識,是指用戶在不同的網(wǎng)站或者應用中所產(chǎn)生地理位置信息,這些信息可以是地理坐標信息也可以是經(jīng)過選擇后的地理位置信息(例如城市選擇)等等。這些地理位置信息對于識別用戶具有參考意義。
此外,所述用戶特征還可以包括寬帶賬號、手機號、mac地址等等,這些信息都可以作為識別用戶的特征信息從網(wǎng)絡鏈路上獲取的流量分析得到,從而作為識別用戶的特征。
由于能夠統(tǒng)計網(wǎng)絡上所有的信息,因而通過從網(wǎng)絡鏈路上獲取的流量數(shù)據(jù)進行上述特征識別,能夠實現(xiàn)全域范圍內的用戶關聯(lián)在全域范圍內識別用戶。并且還能夠統(tǒng)計到用戶在媒體網(wǎng)站、社交網(wǎng)站、電商網(wǎng)站的注冊賬號、用戶的手機號、電子郵箱賬號和寬帶上網(wǎng)賬號等強屬性id,對于識別用戶準確度的提高具有顯著的意義。此外,用戶使用不同設備時(例如使用pc和手機)在某些識別特征上(例如電子郵件賬號\qq號)具有相同的內容,因而通過分析網(wǎng)絡鏈路中的流量數(shù)據(jù)能夠識別利用不同設備上網(wǎng)的用戶。
步驟四、關聯(lián)相關的用戶特征建立用戶關系鏈
提取了相關的用戶特征之后,即可以根據(jù)用戶特征所反映的信息描述某一用戶,將代表該用用的各種用戶特征關聯(lián)起來,從而建立用戶關系鏈。所述用戶關系鏈即是對所述用戶的精準畫像,從而完成了對該用戶的識別。
其中,關聯(lián)相關的用戶特征是指,將代表同一用戶的多種用戶特征關聯(lián)起來。關聯(lián)上述特征可以通過預定的規(guī)則來確定,例如基于對用戶特征的挖掘可知,在某一時間段內,同一個ip中數(shù)據(jù)流量中包括的用戶特征,通過分析各個用戶特征中的內容將相關的用戶特征關聯(lián)起來描述一個用戶。還可以在某一設備中的流量數(shù)據(jù)所包括的用戶特征,通過分析各個用戶特征中的內容將相關的用戶特征關聯(lián)起來描述一個用戶。此外還可以通過賬號等強屬性的id的對應關系,來關聯(lián)流量數(shù)據(jù)中多個用戶特征從而描述一個用戶。
通過建立用戶特征的關聯(lián),既可以實現(xiàn)對于用戶的標識。所述用戶特征的關聯(lián)示例性地,如圖2所示。在分析流量數(shù)據(jù)之后,可以得到如下的用戶關系鏈,以用戶mike為例,在mike的網(wǎng)絡數(shù)據(jù)下,將mike的pc,mike的手機關聯(lián)起來打通設備之間的界限,同時將mike的微博賬號、qq賬號,百度、搜狐等網(wǎng)站的cookie等關聯(lián)起來,形成用戶mike的關系鏈。
步驟五、基于用戶特征更新用戶關系鏈
由于各種因素的變化,用戶特征在不同時期會產(chǎn)生變化,例如用戶會更換手機、更換號碼等。這些用戶特征的變化需要對于用戶關系鏈進行更新,以便于提高用戶識別的準確程度。
在本步驟中,可以通過對于用戶特征內容的分析來確定需要更新的用戶關系鏈中的內容,這些內容的分析可以根據(jù)具體的用戶特征中的數(shù)據(jù)特點而確定。例如當用戶特征中設備標識發(fā)生變化時,可以通過分析與設備標識相關的電話號碼、賬號等強id標識從而確定該變化是由于用戶更換了移動設備所致,從而更新用戶關系鏈中的設備標識等相關的用戶特征。當然本實施例中更新用戶關系鏈的方式并不僅限于此,當用戶特征發(fā)生變化時還可以根據(jù)其他的規(guī)則來替換、增加或者刪除用戶關系鏈中的相關用戶特征。
實施例三
本實施例涉及一種網(wǎng)絡信息控制方法,該方法基于對于上網(wǎng)用戶的識別從而對該用戶的相關信息進行控制。所述方法包括如下步驟:
步驟一、獲取用戶特征
當用戶上網(wǎng)時,可以通過各種方式獲取用戶特征,例如網(wǎng)站可以通過賬號或者是cookie獲取用戶特征,應用可以通過賬號等信息獲取用戶特征。而在其它網(wǎng)絡設備上還可以通過分析用戶流量數(shù)據(jù)來獲取用戶特征。
步驟二、基于所述用戶特征和用戶關系鏈識別上網(wǎng)用戶
當獲取到用戶特征之后,即可以通過用戶關系鏈來識別上網(wǎng)用戶,所述用戶關系鏈即為實施例一、實施例二中的方法所建立的用戶關系鏈。識別出上網(wǎng)用戶后既可以得到該上網(wǎng)用戶在所述用戶關系鏈中的部分或全部特征。
步驟三、根據(jù)該用戶關系鏈中的用戶特征,控制所述上網(wǎng)用戶的相關信息
所述控制包括信息推送,信息統(tǒng)計,或者是信息安全保護等相關的控制措施,例如當識別出該用戶為未成年人時,對該用戶所瀏覽的網(wǎng)站內容或者是瀏覽網(wǎng)站的范圍進行控制。又例如,當識別出該上網(wǎng)用戶的購物偏好時,對于推送給該用戶的廣告內容進行控制。所述相關信息包括所有與該網(wǎng)絡用戶有關的能夠控制的信息,本領域技術人員出于在具體環(huán)境下的具體目的,可以確定該控制的方式和相關相關信息的內容。
以上僅僅是本專利優(yōu)選的具體實施方式而已,本專利的保護范圍應當不限于此。凡是在本專利發(fā)明構思下對于本專利應用環(huán)境的轉換,以及對于其中具體技術手段的替代、增加和省略都應當納入到本專利的保護范圍之內。