一種點擊流數(shù)據(jù)的處理方法及裝置的制造方法
【技術領域】
[0001]本發(fā)明屬于計算技術領域,尤其涉及一種點擊流數(shù)據(jù)的處理方法及裝置。
【背景技術】
[0002]在線廣告的點擊率預估在廣告投放過程中起著重要的作用,其點擊率預估模型的建立依賴于在線廣告投放的歷史數(shù)據(jù)。由于目前在線廣告中面向的用戶與廣告訂單變化快速,因此,在線廣告點擊率預估模型的快速更新也顯得尤為重要。
[0003]近年來,流式數(shù)據(jù)處理系統(tǒng)在大數(shù)據(jù)領域應用的普及,為海量數(shù)據(jù)的實時處理提供了新的解決方案。例如,現(xiàn)有一種基于流式數(shù)據(jù)處理系統(tǒng)的在線分析點擊流數(shù)據(jù)的方法,可從廣告業(yè)務服務器接入廣告點擊流數(shù)據(jù),提取點擊流數(shù)據(jù)中相關有效信息,生成廣告點擊率預估模型所需的訓練數(shù)據(jù),其后會直接使用該訓練數(shù)據(jù)訓練點擊率預估模型。其中,點擊流數(shù)據(jù)是指展示廣告的每一次曝光、點擊、轉化等行為被網(wǎng)絡服務器記錄在日志中時產(chǎn)生的流式數(shù)據(jù)。
[0004]在對現(xiàn)有技術的研究和實踐過程中,本發(fā)明的發(fā)明人發(fā)現(xiàn),隨著在線廣告市場的持續(xù)發(fā)展,廣告相關的點擊流數(shù)據(jù)也在持續(xù)增長。在海量的點擊流數(shù)據(jù)中,在有效信息提取后,仍存有大量的信息冗余,如在同一段時間內(nèi),有很多相同年齡、相同性別的人在同一個廣告位看到相同的廣告,若將這些數(shù)據(jù)記錄為多條,則會造成信息冗余,從而導致存儲資源與后續(xù)模型計算資源的浪費。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的目的在于提供一種點擊流數(shù)據(jù)的處理方法及裝置,旨在減少存儲資源與模型計算資源的浪費。
[0006]為解決上述技術問題,本發(fā)明實施例提供以下技術方案:
[0007]—種點擊流數(shù)據(jù)的處理方法,其中包括:
[0008]獲取點擊流數(shù)據(jù);
[0009]根據(jù)所述點擊流數(shù)據(jù),生成原始訓練數(shù)據(jù);
[0010]對所述原始訓練數(shù)據(jù)進行聚合,得到第一聚合訓練數(shù)據(jù);
[0011]在預設的第一時間間隔內(nèi)對得到的第一聚合訓練數(shù)據(jù)進行存儲;
[0012]基于存儲的第一聚合訓練數(shù)據(jù)進行點擊率預估模型訓練。
[0013]為解決上述技術問題,本發(fā)明實施例還提供以下技術方案:
[0014]—種點擊流數(shù)據(jù)的處理裝置,其中包括:
[0015]獲取單元,用于獲取點擊流數(shù)據(jù);
[0016]生成單元,用于根據(jù)所述點擊流數(shù)據(jù),生成原始訓練數(shù)據(jù);
[0017]聚合單元,用于對所述原始訓練數(shù)據(jù)進行聚合,得到第一聚合訓練數(shù)據(jù);
[0018]存儲單元,用于在預設的第一時間間隔內(nèi)對得到的第一聚合訓練數(shù)據(jù)進行存儲;
[0019]訓練單元,用于基于存儲的第一聚合訓練數(shù)據(jù)進行點擊率預估模型訓練。
[0020]相對于現(xiàn)有技術,本實施例,根據(jù)獲取到的點擊流數(shù)據(jù),生成原始訓練數(shù)據(jù),并對該原始訓練數(shù)據(jù)進行聚合處理,得到第一聚合訓練數(shù)據(jù);其后在預設的第一時間間隔內(nèi)對得到的第一聚合訓練數(shù)據(jù)進行存儲,并利用第一聚合訓練數(shù)據(jù)進行點擊率預估模型訓練;本發(fā)明實施例,在生成原始訓練數(shù)據(jù)的過程中,基于點擊流數(shù)據(jù)生成的訓練數(shù)據(jù)進行聚合處理,并利用得到的聚合訓練數(shù)據(jù)進行存儲以及模型訓練,可以避免信息的冗余,減少了數(shù)據(jù)的存儲消耗,進而,在模型訓練過程中可以使用到更長時間范圍的數(shù)據(jù),提升模型質量。
【附圖說明】
[0021]下面結合附圖,通過對本發(fā)明的【具體實施方式】詳細描述,將使本發(fā)明的技術方案及其它有益效果顯而易見。
[0022]圖1a是本發(fā)明提供的點擊流數(shù)據(jù)的處理方法的場景示意圖;
[0023]圖1b為本發(fā)明第一實施例提供的點擊流數(shù)據(jù)的處理方法的流程示意圖;
[0024]圖2a為本發(fā)明第二實施例提供的點擊流數(shù)據(jù)的處理方法的流程示意圖;
[0025]圖2b為本發(fā)明第二實施例提供的點擊流數(shù)據(jù)的處理方法中數(shù)據(jù)聚合的流程示意圖;
[0026]圖2c為本發(fā)明第二實施例提供的點擊流數(shù)據(jù)的處理方法中數(shù)據(jù)聚合示意圖;
[0027]圖2d為本發(fā)明第二實施例提供的點擊流數(shù)據(jù)的處理方法中數(shù)據(jù)聚合的另一流程示意圖;
[0028]圖3a為本發(fā)明第三實施例提供的點擊流數(shù)據(jù)的處理裝置的結構示意圖;
[0029]圖3b為本發(fā)明第三實施例提供的點擊流數(shù)據(jù)的處理裝置的另一結構示意圖。
【具體實施方式】
[0030]請參照圖式,其中相同的組件符號代表相同的組件,本發(fā)明的原理是以實施在一適當?shù)倪\算環(huán)境中來舉例說明。以下的說明是基于所例示的本發(fā)明具體實施例,其不應被視為限制本發(fā)明未在此詳述的其它具體實施例。
[0031]在以下的說明中,本發(fā)明的具體實施例將參考由一部或多部計算機所執(zhí)行的步驟及符號來說明,除非另有述明。因此,這些步驟及操作將有數(shù)次提到由計算機執(zhí)行,本文所指的計算機執(zhí)行包括了由代表了以一結構化型式中的數(shù)據(jù)的電子信號的計算機處理單元的操作。此操作轉換該數(shù)據(jù)或將其維持在該計算機的內(nèi)存系統(tǒng)中的位置處,其可重新配置或另外以本領域測試人員所熟知的方式來改變該計算機的運作。該數(shù)據(jù)所維持的數(shù)據(jù)結構為該內(nèi)存的實體位置,其具有由該數(shù)據(jù)格式所定義的特定特性。但是,本發(fā)明原理以上述文字來說明,其并不代表為一種限制,本領域測試人員將可了解到以下所述的多種步驟及操作亦可實施在硬件當中。
[0032]本發(fā)明實施例提供一種點擊流數(shù)據(jù)的處理方法以及裝置。
[0033]參見圖la,為該點擊流數(shù)據(jù)的處理方法的場景示意圖,該點擊流數(shù)據(jù)的處理方法可應用于廣告點擊率預估模型的訓練系統(tǒng),該系統(tǒng)可以包括點擊流數(shù)據(jù)的處理裝置,該點擊流數(shù)據(jù)的處理裝置可集成在服務器或網(wǎng)關等網(wǎng)絡設備中,主要用于獲取點擊流數(shù)據(jù),根據(jù)獲取到的點擊流數(shù)據(jù),生成原始訓練數(shù)據(jù),比如根據(jù)點擊流數(shù)據(jù)中的關鍵信息生成原始訓練數(shù)據(jù);其后,對原始訓練數(shù)據(jù)進行聚合,得到第一聚合訓練數(shù)據(jù),在預設的第一時間間隔內(nèi)對得到的第一聚合訓練數(shù)據(jù)進行存儲,即可以在一時間窗內(nèi)(如10分鐘或20分鐘等)對第一聚合訓練數(shù)據(jù)一并存儲,以解決了針對由點擊流數(shù)據(jù)生成的原始訓練數(shù)據(jù)的信息冗余的問題;最后,可以基于存儲的第一聚合訓練數(shù)據(jù)進行點擊率預估模型訓練,比如基于第一聚合訓練數(shù)據(jù),對邏輯回歸LR等線性模型進行廣告點擊率建模,以通過訓練得到的模型進行廣告的點擊率預估,等等。
[0034]此外,該點擊流數(shù)據(jù)的處理系統(tǒng)還可以包括多個廣告業(yè)務服務器,主要用于向點擊流數(shù)據(jù)的處理裝置提供點擊流數(shù)據(jù);當然,該訓練數(shù)據(jù)的模型訓練系統(tǒng)還可以包括在線存儲服務器(如可基于分布式存儲系統(tǒng))、廣告投放裝置以及終端等,其中在線存儲服務器主要用于對訓練數(shù)據(jù)、廣告發(fā)布的有關信息等進行存儲,廣告投放裝置主要用于根據(jù)訓練結果和廣告發(fā)布的有關信息等進行廣告投放,終端主要用于向用戶展示投放的廣告等。
[0035]以下將分別進行詳細說明。
[0036]第一實施例
[0037]在本實施例中,將從點擊流數(shù)據(jù)的處理裝置的角度進行描述,該點擊流數(shù)據(jù)的處理裝置具體可以集成在服務器或網(wǎng)關等網(wǎng)絡設備中。
[0038]—種點擊流數(shù)據(jù)的處理方法,包括獲取點擊流數(shù)據(jù);根據(jù)點擊流數(shù)據(jù),生成原始訓練數(shù)據(jù);對上述原始訓練數(shù)據(jù)進行聚合,得到第一聚合訓練數(shù)據(jù);在預設的第一時間間隔內(nèi)對得到的第一聚合訓練數(shù)據(jù)進行存儲;基于存儲的第一聚合訓練數(shù)據(jù)進行點擊率預估模型訓練。
[0039]請參閱圖lb,圖1b是本發(fā)明第一實施例提供的點擊流數(shù)據(jù)的處理方法的流程示意圖。所述方法包括:
[0040]在步驟SlOl中,獲取點擊流數(shù)據(jù)。
[0041]在步驟S102中,根據(jù)上述點擊流數(shù)據(jù),生成原始訓練數(shù)據(jù)。
[0042]其中,所述步驟SlOl與步驟S102可具體為:
[0043]本發(fā)明實施例中,點擊流數(shù)據(jù)是指推廣信息(如展示廣告)的每一次曝光、點擊、轉化等行為都會被網(wǎng)絡服務器記錄在日志中產(chǎn)生的流式數(shù)據(jù)。
[0044]比如,“根據(jù)點擊流數(shù)據(jù),生成原始訓練數(shù)據(jù)”可具體包括:
[0045](a)提取上述點擊流數(shù)據(jù)中的關鍵信息;
[0046](b)根據(jù)上述關鍵信息生成原始訓練數(shù)據(jù)。
[0047]比如,在計算廣告學上,上述關鍵信息可包括廣告標識、廣告位標識和用戶標識(用戶標識例如郵箱等)等,當然關鍵信息還可包括其它一些關鍵信息。
[0048]可以理解的是,原始訓練數(shù)據(jù)中的一條訓練數(shù)據(jù)可認為是聚合了包括關鍵信息在內(nèi)的多種信息的一個信息聚合體。
[0049]又比如,可將提取到的上述點擊流數(shù)據(jù)中包含的關鍵信息寫入緩沖區(qū)之中,在從緩沖區(qū)之中讀取到上述關鍵信息之后,利用上述關鍵信息生成廣告投放預測模型的訓練數(shù)據(jù)^等等。
[0050]在步驟S103中,對該原始訓練數(shù)據(jù)進行聚合,得到第一聚合訓練數(shù)據(jù)。
[0051]在步驟S104中,在預設的第一時間間隔內(nèi)對得到的第一聚合訓練數(shù)據(jù)進行存儲。
[0052]其中,所述步驟S103與步驟S104可具體為:
[0053]由于原始訓練數(shù)據(jù)重復性高,因此此處采用數(shù)據(jù)聚合的方式,將原始訓練數(shù)據(jù)進行聚合,得到第一聚合訓練數(shù)據(jù);其中,數(shù)據(jù)聚合是指將相同內(nèi)容的多份數(shù)據(jù)聚合,只保留一份數(shù)據(jù)副本的數(shù)據(jù)處理方法。
[0054]也就是說,在生成原始訓練數(shù)據(jù)的過程中,首先將原始訓練數(shù)據(jù)中重復的訓練數(shù)據(jù)做聚合,只保留一份訓練數(shù)據(jù)的副本,并將這些保留的訓練數(shù)據(jù)的副本收集并確定為第一聚合訓練數(shù)據(jù),并進行保存,以供后續(xù)模型訓練使用,這樣經(jīng)過數(shù)據(jù)聚合可以有效的減少數(shù)據(jù)存儲空間。
[0055]比如,具體的,可以通過一個哈希表來實現(xiàn)