一種識別用戶身份標識的方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本申請涉及互聯(lián)網(wǎng)領(lǐng)域,更具體地涉及一種識別用戶身份標識的方法和裝置。
【背景技術(shù)】
[0002] 用戶身份標識是用于識別用戶身份的名字。例如,每個網(wǎng)站有各自的用戶體系的 用戶名、瀏覽器中有記錄用戶足跡的cookie (小型文本文件),無線終端設(shè)備上有手機imei (國際移動設(shè)備身份碼),每個手機用戶有各自的手機號碼等。目前對人群的身份識別通常 限于單系統(tǒng)內(nèi)的識別,具體來說,通常只能對單系統(tǒng)內(nèi)具有直接關(guān)系的用戶身份標識進行 識別。例如,通過解析A網(wǎng)站的網(wǎng)站訪問記錄和登錄日志,識別瀏覽器中cookie和A網(wǎng)站 用戶身份標識之間的直接關(guān)系。
[0003] 但是,目前的用戶身份標識識別體系主要存在以下缺陷:首先,由于不同系統(tǒng)的用 戶身份標識的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)格式都不同,所以只能進行單系統(tǒng)內(nèi)的數(shù)據(jù)收集和分析,很 難對不同系統(tǒng)的用戶身份標識做數(shù)據(jù)集成和整合分析;其次,由于只能識別用戶身份標識 之間的直接關(guān)系,更深層的間接關(guān)系無法打通,所以只能對用戶身份標識形成單邊關(guān)系,無 法形成網(wǎng)狀關(guān)系圖。以上缺陷導(dǎo)致現(xiàn)有技術(shù)無法識別不同系統(tǒng)的用戶身份標識,并且同一 系統(tǒng)的同一個自然人或同一類人群的用戶標身份標識的識別程度不高。
[0004] 因此,由于不同系統(tǒng)的用戶身份標識在各系統(tǒng)中都自成體系,沒有連通性,無法判 斷在不同系統(tǒng)中這些用戶身份標識是否屬于同一類人群或者同一個自然人。在本領(lǐng)域中, 需要一種識別用戶身份標識的方法,其能夠識別不同系統(tǒng)的用戶身份標識,從而解決無法 將各類用戶身份標識映射為同一類人群或者同一個自然人的問題。
【發(fā)明內(nèi)容】
[0005] 本申請的主要目的在于提供一種識別用戶身份標識的技術(shù),以解決現(xiàn)有技術(shù)中無 法將各類用戶身份標識映射為同一類人群或者同一個自然人的問題。
[0006] 根據(jù)本申請的第一方面,提供了一種識別用戶身份標識的方法,包括:基于收集的 各類用戶身份標識以及用戶身份標識之間的關(guān)聯(lián)關(guān)系,獲取各類用戶身份標識之間的關(guān)聯(lián) 關(guān)系權(quán)重;以及根據(jù)獲取的用戶身份標識之間的關(guān)聯(lián)關(guān)系權(quán)重,確定各用戶身份標識的用 戶統(tǒng)一身份標識。
[0007] 根據(jù)本申請的第二方面,提供了一種用于識別用戶身份標識的裝置,包括:獲取模 塊,用于基于收集的各類用戶身份標識以及用戶身份標識之間的關(guān)聯(lián)關(guān)系,獲取各類用戶 身份標識之間的關(guān)聯(lián)關(guān)系權(quán)重;以及確定模塊,用于根據(jù)獲取的用戶身份標識之間的關(guān)聯(lián) 關(guān)系權(quán)重,確定各用戶身份標識的用戶統(tǒng)一身份標識。
[0008] 與現(xiàn)有技術(shù)相比,根據(jù)本申請的技術(shù)方案,能夠基于收集的各類用戶身份標識以 及用戶身份標識之間的關(guān)聯(lián)關(guān)系,獲取各類用戶身份標識之間的關(guān)聯(lián)關(guān)系權(quán)重,并且根據(jù) 獲取的用戶身份標識之間的關(guān)聯(lián)關(guān)系權(quán)重,可以確定各用戶身份標識的用戶統(tǒng)一身份標識 (也稱,UnilD),從而解決現(xiàn)有技術(shù)中無法將各類用戶身份標識映射為同一對象(同一類人 群或者同一個自然人)的問題。
【附圖說明】
[0009] 此處所說明的附圖用來提供對本申請的進一步理解,構(gòu)成本申請的一部分,本申 請的示意性實施例及其說明用于解釋本申請,并不構(gòu)成對本申請的不當限定。在附圖中:
[0010] 圖1是根據(jù)本申請一個實施例的識別用戶身份標識的方法的流程圖;
[0011] 圖2是根據(jù)本申請的更詳細實施例的識別用戶身份標識的方法的流程圖;
[0012] 圖3為根據(jù)本申請一個實施例的表示各用戶身份標識和各用戶身份標識之間的 關(guān)聯(lián)關(guān)系類型的圖表;以及
[0013] 圖4是根據(jù)本申請一個實施例的用于識別用戶身份標識的裝置的框圖。
【具體實施方式】
[0014] 本申請的主要思想在于,基于收集的各類用戶身份標識以及用戶身份標識之間的 關(guān)聯(lián)關(guān)系,獲取各類用戶身份標識之間的關(guān)聯(lián)關(guān)系權(quán)重,并且根據(jù)獲取的用戶身份標識之 間的關(guān)聯(lián)關(guān)系權(quán)重,可以確定各用戶身份標識的用戶統(tǒng)一身份標識。該技術(shù)方案通過對每 個用戶身份標識都分配一個用戶統(tǒng)一身份標識,可以對具有相同用戶統(tǒng)一身份標識的用戶 身份標識進行聚類,從而可以將各類用戶身份標識映射為同一對象(同一類人群或者同一 個自然人)。
[0015] 為使本申請的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本申請具體實施例及 相應(yīng)的附圖對本申請技術(shù)方案進行清楚、完整地描述。顯然,所描述的實施例僅是本申請一 部分實施例,而不是全部的實施例?;诒旧暾堉械膶嵤├?,本領(lǐng)域普通技術(shù)人員在沒有做 出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本申請保護的范圍。
[0016] 參考圖1,圖1是根據(jù)本申請一個實施例的識別用戶身份標識的方法100的流程 圖。如圖1所示,方法100開始于步驟101。
[0017] 在步驟101,基于收集的各類用戶身份標識以及用戶身份標識之間的關(guān)聯(lián)關(guān)系,獲 取各類用戶身份標識之間的關(guān)聯(lián)關(guān)系權(quán)重。
[0018] 具體而言,不同系統(tǒng)的用戶身份標識可以包括:互聯(lián)網(wǎng)中不同系統(tǒng)的用戶體系的 用戶名、記錄用戶登陸的cookie (小型文本文件)、用戶手機號碼、手機imei (國際移動設(shè)備 身份碼)、用戶的email (電子郵件地址)等。
[0019] 由于用戶身份標識具有各種類型,比如:imei、手機號碼、網(wǎng)站用戶名,等等,各類 用戶身份標識對其具體標識組成的數(shù)據(jù)結(jié)構(gòu)要求不同,如中國大陸手機號的組成數(shù)據(jù)結(jié)構(gòu) 要求為:11位數(shù)字組成,等等。
[0020] 而同一個自然人或同一類人群,可以有多個不同的用戶身份標識,如用戶A在B網(wǎng) 站的用戶名與其手機號碼綁定,而每個手機對應(yīng)唯一的手機imei,則用戶A在B網(wǎng)站的用戶 名與其手機號碼以及該手機對應(yīng)的手機imei之間具有關(guān)聯(lián)關(guān)系。從一些可以體現(xiàn)用戶身 份標識關(guān)聯(lián)關(guān)系的數(shù)據(jù)中,可以獲取不同用戶身份標識之間的關(guān)聯(lián)關(guān)系。例如,通過解析B 網(wǎng)站的網(wǎng)絡(luò)訪問和登錄日志,可以識別瀏覽器中cookie和B網(wǎng)站用戶名之間的關(guān)聯(lián)關(guān)系。
[0021] 對所收集的各類用戶身份標識及用戶身份標識之間的關(guān)聯(lián)關(guān)系進行分析和計算, 例如,通過計算用戶身份標識之間的共現(xiàn)概率,可以獲取各類用戶身份標識之間的關(guān)聯(lián)關(guān) 系權(quán)重。其中,關(guān)聯(lián)關(guān)系權(quán)重,用于表示用戶身份標識之間所存在的關(guān)聯(lián)關(guān)系的程度。用戶 身份標識之間的關(guān)聯(lián)關(guān)系權(quán)重越大,表示他們之間的關(guān)聯(lián)關(guān)系程度越高,用戶身份標識之 間的關(guān)聯(lián)關(guān)系權(quán)重越小,表示他們之間的關(guān)聯(lián)關(guān)系程度越低。
[0022] 在步驟102,根據(jù)獲取的用戶身份標識之間的關(guān)聯(lián)關(guān)系權(quán)重,確定各用戶身份標識 的用戶統(tǒng)一身份標識。
[0023] 具體而言,根據(jù)獲取的用戶身份標識之間的關(guān)聯(lián)關(guān)系權(quán)重,可以先對一部分用戶 身份標識生成相應(yīng)的用戶統(tǒng)一身份標識,在已生成的用戶統(tǒng)一身份標識的基礎(chǔ)上,計算其 他用戶身份標識與各用戶統(tǒng)一身份標識之間的關(guān)聯(lián)關(guān)系,從而確定其他用戶身份標識的用 戶統(tǒng)一身份標識。其中,所述用戶統(tǒng)一身份標識比如:對屬于同一個自然人的各類用戶身份 標識所提供的一個標識,和/或,對同一類人群的各類用戶身份標識所提供的一個標識。
[0024] 由于兩個用戶身份標識之間的關(guān)聯(lián)關(guān)系權(quán)重越大,其代表兩個用戶身份標識屬于 同一對象(如同一自然人、同一類人群)的可能性越大。因此,可以先對所有用戶身份標識中 具有關(guān)聯(lián)關(guān)系權(quán)重較大的用戶身份標識生成相應(yīng)的用戶統(tǒng)一身份標識,在此基礎(chǔ)上,計算 其他關(guān)聯(lián)關(guān)系權(quán)重較小的用戶身份標識與已生成的各用戶統(tǒng)一身份標識之間的關(guān)聯(lián)關(guān)系, 例如,計算與已生成的各用戶統(tǒng)一身份標識之間的條件概率。然后,可以將計算的結(jié)果與預(yù) 先設(shè)定的閾值進行比較,以確定該用戶身份標識的用戶統(tǒng)一身份標識。
[0025] 至此,描述了根據(jù)本申請一個實施例的識別用戶身份標識的方法100的流程圖。 根據(jù)本申請的技術(shù)方案,能夠基于收集的各類用戶身份標識以及用戶身份標識之間的關(guān)聯(lián) 關(guān)系,獲取各類用戶身份標識之間的關(guān)聯(lián)關(guān)系權(quán)重,并且根據(jù)獲取的用戶身份標識之間的 關(guān)聯(lián)關(guān)系權(quán)重,可以確定各用戶身份標識的用戶統(tǒng)一身份標識,從而解決現(xiàn)有技術(shù)中無法 將各類用戶身份標識映射為同一對象(同一類人群或者同一個自然人)的問題。
[0026] 圖2是根據(jù)本申請的更詳細實施例的識別用戶身份標識的方法200的流程圖;如 圖2所示,方法200開始于步驟201。
[0027] 在步驟201,基于各類用戶身份標識的數(shù)據(jù)結(jié)構(gòu),構(gòu)建相應(yīng)的數(shù)據(jù)合法性規(guī)則,以 對所收集的用戶身份標識進行過濾。
[0028] 由于在收集的不同系統(tǒng)的用戶身份標識中,有時會出現(xiàn)如缺損數(shù)據(jù)、重復(fù)數(shù)據(jù)、數(shù) 據(jù)格式不一致等情況。為了保證數(shù)據(jù)的質(zhì)量,可以根據(jù)各類用戶身份標識的數(shù)據(jù)結(jié)構(gòu),構(gòu)建 相應(yīng)的數(shù)據(jù)合法性規(guī)則,以對所收集的用戶身份標識進行過濾。數(shù)據(jù)合法性規(guī)則是確定數(shù) 據(jù)是否正常的標準。
[0029] 例如,數(shù)據(jù)合法性規(guī)則可以包括以下規(guī)則:
[0030] (1)郵箱:tolower (trim(email))rlike,~\\w+[~@]*@\\w+(\\· [~@]+)*$'
[0031] (2)手機imei :1