多賬號關(guān)聯(lián)方法、裝置及電子設(shè)備的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,尤其涉及一種多賬號關(guān)聯(lián)方法、裝置及電子設(shè)備。
【背景技術(shù)】
[0002] 隨著大數(shù)據(jù)領(lǐng)域的不斷擴張,互聯(lián)網(wǎng)用戶數(shù)據(jù)日益劇增。互聯(lián)網(wǎng)用戶的數(shù)據(jù)包括 用戶的年齡、性別、職業(yè)等用戶信息,這些信息滲透在社交網(wǎng)絡(luò)、電子商務(wù)等各大互聯(lián)網(wǎng)領(lǐng) 域,具備極大的經(jīng)濟價值,對定向精準地發(fā)布信息和資訊、預(yù)測用戶行為、構(gòu)建用戶畫像等, 起著決定性的作用。
[0003] 獲取用戶數(shù)據(jù)的前置條件,就是用戶的挖掘與識別,現(xiàn)有技術(shù)通?;谕粋€ IP (Internet Protocol)或者IP和用戶代理(User Agent)等粗粒度的關(guān)聯(lián)規(guī)則,對網(wǎng)站儲 存在用戶本地終端上的Cookie數(shù)據(jù)的身份信息(Identity,ID)和應(yīng)用程序賬號信息進行 強制關(guān)耳關(guān)。
[0004] 但是,由于網(wǎng)絡(luò)互聯(lián)的復(fù)雜多樣性,同一用戶往往具有多個網(wǎng)站的賬號或者應(yīng)用 程序(Application, App)賬號;且所述Cookie數(shù)據(jù)的ID信息和應(yīng)用程序賬號信息存在大 量的臟數(shù)據(jù);而且同一個IP或者IP和User Agent可能會被不同的上網(wǎng)用戶所使用,造成 關(guān)聯(lián)規(guī)則不準確,進而無法精確的將同一用戶的所有賬號信息數(shù)據(jù)進行關(guān)聯(lián)分類。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明解決的技術(shù)問題是如何提高用戶賬號信息分類的準確性。
[0006] 為解決上述技術(shù)問題,本發(fā)明實施例提供一種多賬號關(guān)聯(lián)方法,包括:
[0007] 獲取用戶網(wǎng)絡(luò)行為的統(tǒng)一資源定位符URL信息;
[0008] 按照網(wǎng)絡(luò)入口規(guī)則從所述URL信息中規(guī)則挖掘賬號信息;
[0009] 過濾所述賬號信息,剔除臟數(shù)據(jù);
[0010] 對過濾后的所述賬號信息基于所述URL信息和Refferer消息在設(shè)定的時間間隔 生成 Session ;
[0011] 提取同一所述Session下的所述賬號信息,生成具備關(guān)聯(lián)關(guān)系的賬號信息組;
[0012] 根據(jù)所述關(guān)聯(lián)關(guān)系計算所述每個賬號信息組的支持度和置信度;
[0013] 基于所述支持度和所述置信度對所述賬號信息組進行圖運算,生成所述關(guān)聯(lián)關(guān)系 的圖像。
[0014] 可選的,所述賬號信息包括應(yīng)用程序賬號和cookie ID信息。
[0015] 可選的,所述過濾所述賬號信息,剔除臟數(shù)據(jù)包括:
[0016] 統(tǒng)計所述賬號信息的數(shù)量、分布及比例并按照時間順序進行序列化顯示;
[0017] 所述賬號信息的數(shù)量大于設(shè)定閾值時,過濾所述賬號信息。
[0018] 可選的,所述對過濾后的所述賬號信息基于所述URL信息和Refferer消息在設(shè)定 的時間間隔生成Session,包括:
[0019] 提取所述URL信息、所述賬號信息和所述Refferer消息,并根據(jù)時間順序進行排 序;
[0020] 在設(shè)定的時間閾值內(nèi),根據(jù)所述Refferer消息,將具備跳轉(zhuǎn)關(guān)系的所述URL信息 串聯(lián),形成所述Session。
[0021] 可選的,所述賬號信息組包括主賬號和從賬號;所述賬號信息組的關(guān)聯(lián)關(guān)系采用 權(quán)重值表示,所述賬號信息組出現(xiàn)一次,對應(yīng)的所述權(quán)重值加一。
[0022] 可選的,所述每個賬號信息組的支持度為所述每個賬號信息組的所述權(quán)重值與所 述賬號信息組的所述權(quán)重值的總和之比;
[0023] 所述每個賬號信息組的置信度為所述每個賬號信息組的所述權(quán)重值與包含所述 主賬號的所述賬號信息組的所述權(quán)重值的總和之比;
[0024] 可選的,所述網(wǎng)絡(luò)入口規(guī)則包括IP、所述IP和瀏覽器的User Agent、上網(wǎng)賬號以 及所述上網(wǎng)賬號和所述瀏覽器的User Agent。
[0025] 為解決上述技術(shù)問題,本發(fā)明實施例還公開了一種多賬號關(guān)聯(lián)裝置,所述多賬號 關(guān)聯(lián)裝置包括:
[0026] 采集模塊,用于獲取用戶網(wǎng)絡(luò)行為的統(tǒng)一資源定位符URL信息;
[0027] 賬號挖掘模塊,耦接所述采集模塊,用于按照網(wǎng)絡(luò)入口規(guī)則從所述URL信息中規(guī) 則挖掘賬號信息;
[0028] 清洗模塊,耦接所述賬號挖掘模塊,用于過濾所述賬號信息,剔除臟數(shù)據(jù);
[0029] Session生成模塊,耦接所述清洗模塊,用于對過濾后的所述賬號信息基于所述 URL信息和Refferer消息在設(shè)定的時間間隔生成Session ;
[0030] 賬號信息組生成模塊,親接所述Session生成模塊,提取同一所述Session下的所 述賬號信息,生成具備關(guān)聯(lián)關(guān)系的賬號信息組;
[0031] 參數(shù)計算模塊,耦接所述賬號信息組生成模塊,用于根據(jù)所述關(guān)聯(lián)關(guān)系計算所述 每個賬號信息組的支持度和置信度;
[0032] 圖像生成模塊,耦接所述參數(shù)計算模塊,用于基于所述支持度和所述置信度對所 述賬號信息組進行圖運算,生成所述關(guān)聯(lián)關(guān)系的圖像。
[0033] 可選的,所述清洗模塊包括:
[0034] 統(tǒng)計所述賬號信息的數(shù)量、分布及比例并按照時間順序進行序列化顯示;
[0035] 所述賬號信息的數(shù)量大于設(shè)定閾值時,過濾所述賬號信息。
[0036] 可選的,Session生成模塊包括:提取所述URL信息、所述賬號信息和所述 Refferer消息,并根據(jù)時間順序進行排序;
[0037] 在設(shè)定的時間閾值內(nèi),根據(jù)所述Refferer消息,將具備跳轉(zhuǎn)關(guān)系的所述URL信息 串聯(lián),形成所述Session。
[0038] 可選的,所述賬號信息組生成模塊包括:生成的所述賬號信息組包括主賬號和從 賬號;所述賬號信息組的關(guān)聯(lián)關(guān)系采用權(quán)重值表示,所述賬號信息組出現(xiàn)一次,對應(yīng)的所述 權(quán)重值加一。
[0039] 本發(fā)明實施例還公開了一種電子設(shè)備,所述電子設(shè)備配置有所述多賬號關(guān)聯(lián)裝 置。
[0040] 與現(xiàn)有技術(shù)相比,本發(fā)明實施例的技術(shù)方案具有以下有益效果:
[0041] 本發(fā)明實施例通過將挖掘到的賬號信息進行過濾,剔除了大量的網(wǎng)絡(luò)臟數(shù)據(jù);結(jié) 合URL信息和Refferer消息生成Session,提取同一 Session下的賬號信息,生成具備關(guān)聯(lián) 關(guān)系的賬號信息組,并通過計算每個賬號信息組的支持度和置信度,將同一用戶的多類型 賬號進行關(guān)聯(lián),提高了用戶賬號信息分類的準確性、完整性。
[0042] 進一步,本發(fā)明實施例通過采用IP和瀏覽器的User Agent、上網(wǎng)賬號以及上網(wǎng)賬 號和瀏覽器的User Agent的多類型網(wǎng)絡(luò)入口規(guī)則挖掘賬號信息,充分的挖掘了用戶的互聯(lián) 網(wǎng)訪問行為信息,提高了用戶賬號信息的豐富性。
【附圖說明】
[0043] 圖1是本發(fā)明實施例一種多賬號關(guān)聯(lián)方法流程圖;
[0044] 圖2是本發(fā)明實施例一種過濾賬號信息方法流程圖;
[0045] 圖3是本發(fā)明實施例一種Session生成方法流程圖;
[0046] 圖4是本發(fā)明實施例一種多賬號關(guān)聯(lián)方法生成的關(guān)聯(lián)關(guān)系的圖像示意圖;
[0047] 圖5是本發(fā)明實施例一種多賬號關(guān)聯(lián)裝置示意圖。
【具體實施方式】
[0048] 如【背景技術(shù)】中所述,由于網(wǎng)絡(luò)互聯(lián)的復(fù)雜多樣性,同一用戶往往具有多個網(wǎng)站的 賬號或者應(yīng)用程序(Application, App)賬號;且所述cookie數(shù)據(jù)的ID信息和應(yīng)用程序賬 號信息存在大量的臟數(shù)據(jù),同一個IP或者IP和User Agent很可能會被不同的上網(wǎng)用戶所 使用,造成關(guān)聯(lián)規(guī)則不準確,進而無法精確的將同一用戶的所有賬號信息數(shù)據(jù)進行關(guān)聯(lián)分 類。
[0049] 本發(fā)明實施例通過將挖掘到的賬號信息進行過濾,剔除了大量的網(wǎng)絡(luò)臟數(shù)據(jù);結(jié) 合URL信息和Ref ferer消息生成Session,提取同一 Session下的賬號信息,生成具備關(guān)聯(lián) 關(guān)系的賬號信息組,并通過計算每個賬號信息組的支持度和置信度,將同一用戶的多類型 賬號進行關(guān)聯(lián),提高了用戶賬號信息分類的準確性、完整性。
[0050] 為使本發(fā)明的上述目的、特征和優(yōu)點能夠更為明顯易懂,下面結(jié)合附圖對本發(fā)明 的具體實施例做詳細的說明。
[0051] 圖1是本發(fā)明實施例一種多賬號關(guān)聯(lián)方法流程圖。
[0052] 請參照圖1,本發(fā)明實施例的多賬號關(guān)聯(lián)方法包括:步驟S101,獲取用戶網(wǎng)絡(luò)行為 的統(tǒng)一資源定位符URL信息。
[0053] 本實施例中,統(tǒng)一資源定位