一種不同域下用戶數(shù)據(jù)的關聯(lián)方法和裝置制造方法
【專利摘要】本發(fā)明提供了一種不同域下用戶數(shù)據(jù)的關聯(lián)方法和裝置。所述方法包括:根據(jù)域名標識,從廣告流量數(shù)據(jù)中分別提取第一域名對應的第一廣告流量數(shù)據(jù)和第二域名對應的第二廣告流量數(shù)據(jù);將所述第一廣告流量數(shù)據(jù)和所述第二廣告流量數(shù)據(jù)進行匹配,得到具備相同訪問特征信息的第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù),所述訪問特征信息包括網頁地址、對網頁的訪問時間的時間標識、訪問所述網頁的終端信息和訪問所述網頁的用戶代理信息中的一種或多種;在匹配結果中提取對應的訪問時間的差值符合預設范圍的第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù),并將提取的第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù)進行關聯(lián)。
【專利說明】一種不同域下用戶數(shù)據(jù)的關聯(lián)方法和裝置
【技術領域】
[0001]本發(fā)明涉及廣告領域,特別是涉及一種不同域下用戶數(shù)據(jù)的關聯(lián)方法,以及,一種不同域下用戶數(shù)據(jù)的關聯(lián)裝置。
【背景技術】
[0002]Ad Exchange是互聯(lián)網廣告交易平臺,像股票交易平臺一樣,Ad Exchange聯(lián)系廣告交易的買方和賣方,也就是廣告主方和廣告位擁有方,并采用競價機制進行廣告投放。
[0003]當一個用戶訪問廣告位頁面時,廣告位的供應方平臺SSP端向Ad Exchange發(fā)出訪問訊號,告知有一個網站的訪問請求,SSP把廣告位的具體信息,例如所屬站點、最低出價以及通過分析匹配后的用戶的相關信息打包發(fā)送給各個DSP廣告位的需求方平臺,DSP端開始對這個廣告展現(xiàn)進行競價,競價獲勝者就能夠讓自己的廣告展現(xiàn)在這個廣告位上,進而讓用戶看到。
[0004]DSP首先需要在Ad Exchange進行賬號注冊,然后進行廣告位、廣告信息的同步后,需要完成Cookie Mapping,即將Ad Exchang和DSP雙方的用戶ID映射,因此,將同一用戶在不同域下的ID進行映射后,DSP才可以從Ad Exchang海量用戶數(shù)據(jù)中識別出目標人群,并參與后續(xù)的實時競價。
[0005]大多數(shù)互聯(lián)網企業(yè)進行用戶識別的方式是使用Cookie,但是Cookie有域的限制,同一用戶在不同域下的Cookie是不同的。企業(yè)內部不同域的Cookie關聯(lián)可以通過企業(yè)內部合作解決,不同企業(yè)的Cookie關聯(lián)有一定難度,而單個域的cookie來識別用戶,不能完整的刻畫用戶的習慣和興趣。
[0006]目前,不同域下進行用戶識別已有的方案是通過ADSL或IP地址加上User-Agent,但是粒度太粗,不能準確的描述一個用戶,從而不能對用戶進行準確地區(qū)分,數(shù)據(jù)關聯(lián)準確度不高,影響廣告投放的精準度。
【發(fā)明內容】
[0007]本發(fā)明提供了一種不同域下用戶數(shù)據(jù)的關聯(lián)方法和裝置,以提高數(shù)據(jù)關聯(lián)的準確度。
[0008]本發(fā)明提供了一種不同域下用戶數(shù)據(jù)的關聯(lián)方法,包括:
[0009]根據(jù)域名標識,從廣告流量數(shù)據(jù)中分別提取第一域名對應的第一廣告流量數(shù)據(jù)和第二域名對應的第二廣告流量數(shù)據(jù);
[0010]將所述第一廣告流量數(shù)據(jù)和所述第二廣告流量數(shù)據(jù)進行匹配,得到具備相同訪問特征信息的第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù),所述訪問特征信息包括網頁地址、對網頁的訪問時間的時間標識、訪問所述網頁的終端信息和訪問所述網頁的用戶代理信息中的一種或多種;
[0011]在匹配結果中提取對應的訪問時間的差值符合預設范圍的第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù),并將提取的第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù)進行關聯(lián)。
[0012]優(yōu)選地,所述方法還包括:
[0013]將所述第一廣告流量數(shù)據(jù)和所述第二廣告流量數(shù)據(jù)所包含的信息組織成鍵-鍵值的形式,以所述訪問特征信息為key,以對應的訪問時間和所述網頁的域名為value。
[0014]優(yōu)選地,所述將所述第一廣告流量數(shù)據(jù)和所述第二廣告流量數(shù)據(jù)進行匹配,得到具備相同訪問特征信息的第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù)包括:
[0015]將所述第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù)分別對應的鍵對進行匹配,提取對應相同鍵的第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù)。
[0016]優(yōu)選地,所述在匹配結果中提取對應的訪問時間的差值符合預設范圍的第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù),并將提取的第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù)進行關聯(lián)包括:
[0017]針對匹配的第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù),分別提取對應的value中的訪問時間;
[0018]將提取的訪問時間做差,若訪問時間的差值符合預設范圍,則進一步將所述第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù)進行關聯(lián)。
[0019]優(yōu)選地,所述訪問時間為Unix時間戳,所述時間標識為所述Unix時間戳的前八位數(shù)字,所述終端信息為訪問網頁的終端的IP地址。
[0020]本發(fā)明還提供了一種不同域下用戶數(shù)據(jù)的關聯(lián)裝置,包括:
[0021]數(shù)據(jù)提取模塊,用于根據(jù)域名標識,從廣告流量數(shù)據(jù)中分別提取第一域名對應的第一廣告流量數(shù)據(jù)和第二域名對應的第二廣告流量數(shù)據(jù);
[0022]數(shù)據(jù)匹配模塊,用于將所述第一廣告流量數(shù)據(jù)和所述第二廣告流量數(shù)據(jù)進行匹配,得到具備相同訪問特征信息的第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù),所述訪問特征信息包括網頁地址、對網頁的訪問時間的時間標識、訪問所述網頁的終端信息和訪問所述網頁的用戶代理信息中的一種或多種;
[0023]數(shù)據(jù)關聯(lián)模塊,用于在匹配結果中提取對應的訪問時間的差值符合預設范圍的第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù),并將提取的第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù)進行關聯(lián)。
[0024]優(yōu)選地,所述裝置還包括:
[0025]數(shù)據(jù)組織模塊,用于將所述第一廣告流量數(shù)據(jù)和所述第二廣告流量數(shù)據(jù)所包含的信息組織成鍵-鍵值的形式,以所述訪問特征信息為key,以對應的訪問時間和所述網頁的域名為value。
[0026]優(yōu)選地,所述數(shù)據(jù)匹配模塊包括:
[0027]鍵匹配子模塊,用于將所述第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù)分別對應的鍵對進行匹配,提取對應相同鍵的第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù)。
[0028]優(yōu)選地,所述數(shù)據(jù)關聯(lián)模塊包括:
[0029]時間提取子模塊,用于針對匹配的第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù),分別提取對應的value中的訪問時間;
[0030]做差子模塊,用于將提取的訪問時間做差,若訪問時間的差值符合預設范圍;
[0031]關聯(lián)子模塊,用于進一步將所述第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù)進行關聯(lián)。
[0032]優(yōu)選地,所述訪問時間為Unix時間戳,所述時間標識為所述Unix時間戳的前八位數(shù)字,所述終端信息為訪問網頁的終端的IP地址。
[0033]與【背景技術】相比,本發(fā)明包括以下優(yōu)點:
[0034]依據(jù)本發(fā)明實施例,通過域名標識過濾第一域名對應的第一廣告流量數(shù)據(jù)和第二域名對應的第二廣告流量數(shù)據(jù),將兩種數(shù)據(jù)進行匹配,得到對應同一訪問特征信息的廣告流量數(shù)據(jù),并通過時間對比,將時間差值符合預設范圍的第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù)進行關聯(lián),從而確定兩個域名下的數(shù)據(jù)的關聯(lián)關系,相比于【背景技術】,可以更準確更全面的描述用戶,然后用作廣告投放可以提高廣告投放的精準度,或用戶分析可以提高分析結果的準確度。
【專利附圖】
【附圖說明】
[0035]圖1是本發(fā)明實施例的一種不同域下用戶數(shù)據(jù)的關聯(lián)方法的流程圖;
[0036]圖2是本發(fā)明實施例的一種不同域下用戶數(shù)據(jù)的關聯(lián)裝置的結構框圖。
【具體實施方式】
[0037]為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結合附圖和【具體實施方式】對本發(fā)明作進一步詳細的說明。
[0038]下面通過實施例對本發(fā)明所述方法的實現(xiàn)流程進行詳細說明。
[0039]參照圖1,其示出了本發(fā)明實施例所述一種不同域下用戶數(shù)據(jù)的關聯(lián)方法的流程圖,所述方法具體可以包括:
[0040]步驟101、根據(jù)域名標識,從廣告流量數(shù)據(jù)中分別提取第一域名對應的第一廣告流量數(shù)據(jù)和第二域名對應的第二廣告流量數(shù)據(jù)。
[0041]廣告流量數(shù)據(jù)集合了不同域名下的數(shù)據(jù),以域名對應的域名標識進行標記,通過對廣告流量數(shù)據(jù)進行篩選,針對第一域名,提取第一域名對應的域名標識對應的廣告流量數(shù)據(jù)作為第一域名對應的第一廣告流量數(shù)據(jù),針對第二域名,提取第二域名對應的域名標識對應的廣告流量數(shù)據(jù)作為第二域名對應的第二廣告流量數(shù)據(jù)。
[0042]本發(fā)明實施例中,廣告流量數(shù)據(jù)可以是瀏覽器下記錄的Cookie,在訪問網頁時,對于訪問網站的同一用戶,在訪問不同網站時會各自產生用來標識其身份的ID,存儲在各自網站域下的Cookie中,同一個原始的Cookie中包括不同用戶的訪問記錄,不同域名的Cookie以該域名對應的域名標識作為標記。
[0043]步驟102、將所述第一廣告流量數(shù)據(jù)和所述第二廣告流量數(shù)據(jù)進行匹配,得到具備相同訪問特征信息的第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù),所述訪問特征信息包括網頁地址、對網頁的訪問時間的時間標識、訪問所述網頁的終端信息和訪問所述網頁的用戶代理信息中的一種或多種。
[0044]廣告流量數(shù)據(jù)中記錄了對網頁的各次訪問行為信息,網站的訪問行為與某一個確定的用戶對應,并且與某個確定的時間對應,因此,訪問行為可以以一些訪問特征信息進行標識,例如,訪問網頁的用戶ID、訪問網頁的時間、訪問網頁的終端標識等。針對競價請求數(shù)據(jù)和目標Cookie,當對應的訪問特征信息相同時,可以認為是對應了同一個網頁訪問行為,可以進一步將兩者對應。
[0045]訪問特征信息包括網頁地址、對網頁的訪問時間的時間標識、訪問所述網頁的終端信息和訪問所述網頁的用戶代理信息User-Agent中的一種或多種,可以根據(jù)具體地應用和環(huán)境設置,本發(fā)明對此并不做限制。
[0046]本發(fā)明實施例中,優(yōu)選地,所述訪問時間為Unix時間戳,所述時間標識為所述Unix時間戳的前八位數(shù)字,所述終端信息為訪問網頁的終端的IP地址。時間標識用于對訪問時間進行標記,當訪問特征信息中包含時間標識時,時間標識僅僅是Unix時間戳的前八位數(shù)字,是一個大范圍的時間,并是完整準確的時間,步驟102將競價請求數(shù)據(jù)與Cookie并不能準確地對比訪問時間,需要在步驟103中進一步進行對比。
[0047]為了進一步優(yōu)化匹配的過程,所述方法還包括:
[0048]將所述第一廣告流量數(shù)據(jù)和所述第二廣告流量數(shù)據(jù)所包含的信息組織成鍵-鍵值的形式,以所述訪問特征信息為key,以對應的訪問時間和所述網頁的域名為value。
[0049]相應的,所述將所述第一廣告流量數(shù)據(jù)和所述第二廣告流量數(shù)據(jù)進行匹配,得到具備相同訪問特征信息的第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù)包括:
[0050]子步驟S11、將所述第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù)分別對應的鍵對進行匹配,提取對應相同鍵的第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù)。
[0051]在進行數(shù)據(jù)匹配時,可以采用鍵-鍵值組成的鍵值對的方式進行匹配,從而可以大大提聞匹配的效率。
[0052]步驟103、在匹配結果中提取對應的訪問時間的差值符合預設范圍的第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù),并將提取的第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù)進行關聯(lián)。
[0053]由于針對同一網絡訪問行為,Cookie記錄的時間可能會有差異,因此,步驟102中可以根據(jù)訪問特征信息進行大致的匹配后,并不對訪問時間進行準確匹配,而是在步驟103中進一步針對訪問時間進行判斷。
[0054]可以根據(jù)統(tǒng)計或累積的經驗設置針對同一訪問行為的兩個Cookie的訪問時間差值,例如10秒,對于匹配的第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù),進一步判斷訪問時間差值是否不超過10秒,若是,則將第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù)進行關聯(lián)。
[0055]當采用鍵值對的匹配方式時,所述在匹配結果中提取對應的訪問時間的差值符合預設范圍的第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù),并將提取的第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù)進行關聯(lián)包括:
[0056]子步驟S21、針對匹配的第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù),分別提取對應的value中的訪問時間;
[0057]子步驟S22、將提取的訪問時間做差,若訪問時間的差值符合預設范圍,則進一步將所述第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù)進行關聯(lián)。
[0058]針對具備相同key的第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù),比較其鍵值中的訪問時間,訪問時間進一步對比,若差值符合預設范圍,則將第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù)進行關聯(lián)。
[0059]進一步不同域下Cookie匹配結果,可以進行廣告競價投放,具體地方式可以根據(jù)具體環(huán)境和需求選擇,本發(fā)明對此并不做限制。通過實際應用中的統(tǒng)計,通過本發(fā)明的方案對不同域下的用戶數(shù)據(jù)進行匹配,準確率在90%以上,為DSP進行廣告競價和精準投放提供了方便。
[0060]為使本領域技術人員更加理解本發(fā)明實施例,以下通過具體地例子對本發(fā)明實施例的不同域下用戶數(shù)據(jù)的關聯(lián)過程進行說明。
[0061]下面以百度和淘寶的cookie關聯(lián)為例說明如果將兩個不同域的cookie關聯(lián)起來。使用的工具是分布式計算平臺hadoop,輸入數(shù)據(jù)是淘寶的廣告數(shù)據(jù)和百度的廣告數(shù)據(jù)。hadoop作業(yè)主要分為map, shuffle, reduce三個過程。
[0062]1、map
[0063]map處理百度的廣告數(shù)據(jù)時,過濾出url中含有baidu.com的流量,以(Referer, Timel, Ip, User-Agent)為 key,以(Time2, BAIDUID = Cookie_Value)為 value.
[0064]map淘寶的廣告數(shù)據(jù)時,過濾出url中含有tanx.com的流量,以(Referer, Timel, Ip, User-Agent)為 key,以(Time2, cna = Cookie_Value)為 value。
[0065]其中,Timel取unix時間戳的前八個數(shù)字,Time2為unix時間戳,Cookie_Value為cookie的具體值,BAIDUID是百度的cookie名字,cna是淘寶的cookie名字。
[0066]2、shuffer
[0067]shuffer的過程是將map輸出中具有相同key的(key, value)發(fā)送給同一個reduce,并根據(jù)value中的Time2進行排序。
[0068]3、reduce
[0069]reduce將key相同,value中的Time2相差不超過10秒(可以根據(jù)準確率和召回率進行適當調整)的百度和淘寶的cookie關聯(lián)起來。
[0070]依據(jù)本發(fā)明實施例,通過域名標識過濾第一域名對應的第一廣告流量數(shù)據(jù)和第二域名對應的第二廣告流量數(shù)據(jù),將兩種數(shù)據(jù)進行匹配,得到對應同一訪問特征信息的廣告流量數(shù)據(jù),并通過時間對比,將時間差值符合預設范圍的第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù)進行關聯(lián),從而確定兩個域名下的數(shù)據(jù)的關聯(lián)關系,相比于【背景技術】,可以更準確更全面的描述用戶,然后用作廣告投放可以提高廣告投放的精準度,或用戶分析可以提高分析結果的準確度。
[0071]需要說明的是,對于前述的方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本發(fā)明并不受所描述的動作順序的限制,因為依據(jù)本發(fā)明,某些步驟可以采用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬于優(yōu)選實施例,所涉及的動作并不一定是本發(fā)明所必需的。
[0072]基于上述方法實施例的說明,本發(fā)明還提供了相應的不同域下用戶數(shù)據(jù)的關聯(lián)裝置實施例,來實現(xiàn)上述方法實施例所述的內容。
[0073]參照圖2,其示出了本發(fā)明實施例所述一種不同域下用戶數(shù)據(jù)的關聯(lián)裝置的結構框圖,包括:
[0074]數(shù)據(jù)提取模塊201,用于根據(jù)域名標識,從廣告流量數(shù)據(jù)中分別提取第一域名對應的第一廣告流量數(shù)據(jù)和第二域名對應的第二廣告流量數(shù)據(jù);
[0075]數(shù)據(jù)匹配模塊202,用于將所述第一廣告流量數(shù)據(jù)和所述第二廣告流量數(shù)據(jù)進行匹配,得到具備相同訪問特征信息的第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù),所述訪問特征信息包括網頁地址、對網頁的訪問時間的時間標識、訪問所述網頁的終端信息和訪問所述網頁的用戶代理信息中的一種或多種;
[0076]數(shù)據(jù)關聯(lián)模塊203,用于在匹配結果中提取對應的訪問時間的差值符合預設范圍的第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù),并將提取的第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù)進行關聯(lián)。
[0077]本發(fā)明實施例中,優(yōu)選地,所述裝置還包括:
[0078]數(shù)據(jù)組織模塊,用于將所述第一廣告流量數(shù)據(jù)和所述第二廣告流量數(shù)據(jù)所包含的信息組織成鍵-鍵值的形式,以所述訪問特征信息為key,以對應的訪問時間和所述網頁的域名為value。
[0079]本發(fā)明實施例中,優(yōu)選地,所述數(shù)據(jù)匹配模塊包括:
[0080]鍵匹配子模塊,用于將所述第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù)分別對應的鍵對進行匹配,提取對應相同鍵的第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù)。
[0081]本發(fā)明實施例中,優(yōu)選地,所述數(shù)據(jù)關聯(lián)模塊包括:
[0082]時間提取子模塊,用于針對匹配的第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù),分別提取對應的value中的訪問時間;
[0083]做差子模塊,用于將提取的訪問時間做差,若訪問時間的差值符合預設范圍;
[0084]關聯(lián)子模塊,用于進一步將所述第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù)進行關聯(lián)。
[0085]本發(fā)明實施例中,優(yōu)選地,所述訪問時間為Unix時間戳,所述時間標識為所述Unix時間戳的前八位數(shù)字,所述終端信息為訪問網頁的終端的IP地址。
[0086]依據(jù)本發(fā)明實施例,通過域名標識過濾第一域名對應的第一廣告流量數(shù)據(jù)和第二域名對應的第二廣告流量數(shù)據(jù),將兩種數(shù)據(jù)進行匹配,得到對應同一訪問特征信息的廣告流量數(shù)據(jù),并通過時間對比,將時間差值符合預設范圍的第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù)進行關聯(lián),從而確定兩個域名下的數(shù)據(jù)的關聯(lián)關系,相比于【背景技術】,可以更準確更全面的描述用戶,然后用作廣告投放可以提高廣告投放的精準度,或用戶分析可以提高分析結果的準確度。
[0087]對于上述不同域下用戶數(shù)據(jù)的關聯(lián)裝置實施例而言,由于其與方法實施例基本相似,所以描述的比較簡單,相關之處參見圖1所示方法實施例的部分說明即可。
[0088]本說明書中的各個實施例均采用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。
[0089]本領域技術人員易于想到的是:上述各個實施例的任意組合應用都是可行的,故上述各個實施例之間的任意組合都是本發(fā)明的實施方案,但是由于篇幅限制,本說明書在此就不一一詳述了。
[0090]本發(fā)明可用于眾多通用或專用的計算系統(tǒng)環(huán)境或配置中。例如:個人計算機、服務器計算機、手持設備或便攜式設備、平板型設備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、置頂盒、可編程的消費電子設備、網絡PC、小型計算機、大型計算機、包括以上任何系統(tǒng)或設備的分布式計算環(huán)境等等。
[0091]本發(fā)明可以在由計算機執(zhí)行的計算機可執(zhí)行指令的一般上下文中描述,例如程序模塊。一般地,程序模塊包括執(zhí)行特定任務或實現(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對象、組件、數(shù)據(jù)結構等等。也可以在分布式計算環(huán)境中實踐本發(fā)明,在這些分布式計算環(huán)境中,由通過通信網絡而被連接的遠程處理設備來執(zhí)行任務。在分布式計算環(huán)境中,程序模塊可以位于包括存儲設備在內的本地和遠程計算機存儲介質中。
[0092]在本發(fā)明中,“組件”、“裝置”、“系統(tǒng)”等等指應用于計算機的相關實體,如硬件、硬件和軟件的組合、軟件或執(zhí)行中的軟件等。詳細地說,例如,組件可以、但不限于是運行于處理器的過程、處理器、對象、可執(zhí)行組件、執(zhí)行線程、程序和/或計算機。還有,運行于服務器上的應用程序或腳本程序、服務器都可以是組件。一個或多個組件可在執(zhí)行的過程和/或線程中,并且組件可以在一臺計算機上本地化和/或分布在兩臺或多臺計算機之間,并可以由各種計算機可讀介質運行。組件還可以根據(jù)具有一個或多個數(shù)據(jù)包的信號,例如,來自一個與本地系統(tǒng)、分布式系統(tǒng)中另一組件交互的,和/或在因特網的網絡通過信號與其它系統(tǒng)交互的數(shù)據(jù)的信號通過本地和/或遠程過程來進行通信。
[0093]最后,還需要說明的是,在本文中,諸如第一和第二等之類的關系術語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關系或者順序。而且,術語“包括”、“包含”,不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設備中還存在另外的相同要素。
[0094]而且,上文中的“和/或”表示本文既包含了 “和”的關系,也包含了 “或”的關系,其中:如果方案A與方案B是“和”的關系,則表示某實施例中可以同時包括方案A和方案B ;如果方案A與方案B是“或”的關系,則表示某實施例中可以單獨包括方案A,或者單獨包括方案B。
[0095]本領域內的技術人員應明白,本發(fā)明的實施例可提供為方法、系統(tǒng)、或計算機程序產品。因此,本發(fā)明可采用完全硬件實施例、完全軟件實施例、或結合軟件和硬件方面的實施例的形式。而且,本發(fā)明可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(包括但不限于磁盤存儲器、CD-ROM、光學存儲器等)上實施的計算機程序產品的形式。
[0096]本發(fā)明是參照根據(jù)本發(fā)明實施例的方法、設備(系統(tǒng))、和計算機程序產品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合。可提供這些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設備的處理器以產生一個機器,使得通過計算機或其他可編程數(shù)據(jù)處理設備的處理器執(zhí)行的指令產生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
[0097]這些計算機程序指令也可存儲在能引導計算機或其他可編程數(shù)據(jù)處理設備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
[0098]這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設備上,使得在計算機或其他可編程設備上執(zhí)行一系列操作步驟以產生計算機實現(xiàn)的處理,從而在計算機或其他可編程設備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
[0099]盡管已描述了本發(fā)明的優(yōu)選實施例,但本領域內的技術人員一旦得知了基本創(chuàng)造性概念,則可對這些實施例做出另外的變更和修改。所以,所附權利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明范圍的所有變更和修改。
[0100]以上對本發(fā)明所提供的一種不同域下用戶數(shù)據(jù)的關聯(lián)方法和不同域下用戶數(shù)據(jù)的關聯(lián)的裝置,進行了詳細介紹,本文中應用了具體個例對本發(fā)明的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領域的一般技術人員,依據(jù)本發(fā)明的思想,在【具體實施方式】及應用范圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本發(fā)明的限制。
【權利要求】
1.一種不同域下用戶數(shù)據(jù)的關聯(lián)方法,其特征在于,包括: 根據(jù)域名標識,從廣告流量數(shù)據(jù)中分別提取第一域名對應的第一廣告流量數(shù)據(jù)和第二域名對應的第二廣告流量數(shù)據(jù); 將所述第一廣告流量數(shù)據(jù)和所述第二廣告流量數(shù)據(jù)進行匹配,得到具備相同訪問特征信息的第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù),所述訪問特征信息包括網頁地址、對網頁的訪問時間的時間標識、訪問所述網頁的終端信息和訪問所述網頁的用戶代理信息中的一種或多種; 在匹配結果中提取對應的訪問時間的差值符合預設范圍的第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù),并將提取的第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù)進行關聯(lián)。
2.根據(jù)權利要求1所述的方法,其特征在于,所述方法還包括: 將所述第一廣告流量數(shù)據(jù)和所述第二廣告流量數(shù)據(jù)所包含的信息組織成鍵-鍵值的形式,以所述訪問特征信息為key,以對應的訪問時間和所述網頁的域名為value。
3.根據(jù)權利要求2所述的方法,其特征在于,所述將所述第一廣告流量數(shù)據(jù)和所述第二廣告流量數(shù)據(jù)進行匹配,得到具備相同訪問特征信息的第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù)包括: 將所述第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù)分別對應的鍵對進行匹配,提取對應相同鍵的第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù)。
4.根據(jù)權利要求2所述的方法,其特征在于,所述在匹配結果中提取對應的訪問時間的差值符合預設范圍的第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù),并將提取的第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù)進行關聯(lián)包括: 針對匹配的第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù),分別提取對應的value中的訪問時間; 將提取的訪問時間做差,若訪問時間的差值符合預設范圍,則進一步將所述第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù)進行關聯(lián)。
5.根據(jù)權利要求1所述的方法,其特征在于,所述訪問時間為Unix時間戳,所述時間標識為所述Unix時間戳的前八位數(shù)字,所述終端信息為訪問網頁的終端的IP地址。
6.一種不同域下用戶數(shù)據(jù)的關聯(lián)裝置,其特征在于,包括: 數(shù)據(jù)提取模塊,用于根據(jù)域名標識,從廣告流量數(shù)據(jù)中分別提取第一域名對應的第一廣告流量數(shù)據(jù)和第二域名對應的第二廣告流量數(shù)據(jù); 數(shù)據(jù)匹配模塊,用于將所述第一廣告流量數(shù)據(jù)和所述第二廣告流量數(shù)據(jù)進行匹配,得到具備相同訪問特征信息的第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù),所述訪問特征信息包括網頁地址、對網頁的訪問時間的時間標識、訪問所述網頁的終端信息和訪問所述網頁的用戶代理信息中的一種或多種; 數(shù)據(jù)關聯(lián)模塊,用于在匹配結果中提取對應的訪問時間的差值符合預設范圍的第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù),并將提取的第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù)進行關聯(lián)。
7.根據(jù)權利要求6所述的裝置,其特征在于,所述裝置還包括: 數(shù)據(jù)組織模塊,用于將所述第一廣告流量數(shù)據(jù)和所述第二廣告流量數(shù)據(jù)所包含的信息組織成鍵-鍵值的形式,以所述訪問特征信息為key,以對應的訪問時間和所述網頁的域名為 value。
8.根據(jù)權利要求7所述的裝置,其特征在于,所述數(shù)據(jù)匹配模塊包括: 鍵匹配子模塊,用于將所述第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù)分別對應的鍵對進行匹配,提取對應相同鍵的第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù)。
9.根據(jù)權利要求7所述的裝置,其特征在于,所述數(shù)據(jù)關聯(lián)模塊包括: 時間提取子模塊,用于針對匹配的第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù),分別提取對應的value中的訪問時間; 做差子模塊,用于將提取的訪問時間做差,若訪問時間的差值符合預設范圍; 關聯(lián)子模塊,用于進一步將所述第一廣告流量數(shù)據(jù)和第二廣告流量數(shù)據(jù)進行關聯(lián)。
10.根據(jù)權利要求6所述的裝置,其特征在于,所述訪問時間為Unix時間戳,所述時間標識為所述Unix時間戳的前八位數(shù)字,所述終端信息為訪問網頁的終端的IP地址。
【文檔編號】G06Q30/02GK104199848SQ201410389988
【公開日】2014年12月10日 申請日期:2014年8月8日 優(yōu)先權日:2014年8月8日
【發(fā)明者】羅峰, 黃蘇支, 李娜 申請人:億贊普(北京)科技有限公司