本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種數(shù)據(jù)分析方法及裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù),尤其是在線搜索技術(shù)的發(fā)展,各大電子商務(wù)廣告平臺(tái)都已推出各自的廣告推送方案。由于商務(wù)信息錯(cuò)綜復(fù)雜,往往在搜索業(yè)務(wù)中需要涉及地域、人文、用戶群等多種因素,為了提高廣告推送結(jié)果的準(zhǔn)確性,需要對(duì)用戶點(diǎn)擊率進(jìn)行分析及預(yù)估。
在目前所采用的點(diǎn)擊率預(yù)估系統(tǒng)中,主要通過(guò)對(duì)用戶輸入的檢索詞進(jìn)行文本相似計(jì)算,再根據(jù)預(yù)設(shè)的打分規(guī)則,確定各個(gè)候選廣告的得分,根據(jù)得分確定推送的優(yōu)先級(jí)。但是,在實(shí)際應(yīng)用中,電子商務(wù)廣告平臺(tái)每天都要處理海量用戶檢索數(shù)據(jù),并且用戶的檢索需求往往會(huì)受到市場(chǎng)動(dòng)態(tài)變化的影響,而預(yù)先設(shè)置的打分規(guī)則始終難以契合用戶的檢索目標(biāo),導(dǎo)致最終向用戶推送的廣告都會(huì)與用戶的預(yù)期出現(xiàn)較大誤差。例如:用戶搜索“手機(jī)”時(shí)展現(xiàn)候選廣告A、B,其中,根據(jù)文本相似度和預(yù)設(shè)的打分規(guī)則,廣告A得分高于廣告B,廣告A展現(xiàn)的位次必然優(yōu)于廣告B。但是由于臨時(shí)促銷活動(dòng)或是微信營(yíng)銷等快速營(yíng)銷手段,廣告B更符合用戶的檢索需求并且更多的用戶選擇點(diǎn)擊廣告B。
由此可見(jiàn),通過(guò)現(xiàn)有技術(shù)中的文本相似計(jì)算和打分規(guī)則設(shè)置來(lái)推送廣告的方案,由于預(yù)估誤差較大,所推送廣告的準(zhǔn)確性較低。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的實(shí)施例提供一種數(shù)據(jù)分析方法及裝置,能夠修正預(yù)估誤差,提高所推送數(shù)據(jù)的準(zhǔn)確性。
為達(dá)到上述目的,本發(fā)明的實(shí)施例采用如下技術(shù)方案:
第一方面,本發(fā)明的實(shí)施例提供一種數(shù)據(jù)分析方法,包括:
提取推送服務(wù)器的日志信息,并根據(jù)所述日志信息獲取兩個(gè)互斥的樣本集合,在各樣本集合的樣本元素中包括了至少兩個(gè)維度的信息和互斥信息,同一 個(gè)樣本集合中的樣本元素具有相同內(nèi)容的互斥信息;
利用所述兩個(gè)互斥的樣本集合,通過(guò)邏輯回歸在線學(xué)習(xí)算法更新各個(gè)維度的權(quán)重值;
根據(jù)更新后的各個(gè)維度的權(quán)重值,確定推送結(jié)果。
結(jié)合第一方面,在第一方面的第一種可能的實(shí)現(xiàn)方式中,在一個(gè)樣本集合中包括了至少兩個(gè)維度的商務(wù)信息和用戶點(diǎn)擊信息,所述商務(wù)信息的類型至少包括:用戶編碼、商品編碼、用戶檢索詞和廣告拍賣詞,所述用戶點(diǎn)擊信息用于表示用戶是否點(diǎn)擊所展現(xiàn)的廣告。
結(jié)合第一方面,在第一方面的第二種可能的實(shí)現(xiàn)方式中,所述利用所述兩個(gè)互斥的樣本集合,通過(guò)邏輯回歸在線學(xué)習(xí)算法更新各個(gè)維度的權(quán)重值,包括:
根據(jù)所述兩個(gè)互斥的樣本集合,獲取第一樣本集合的點(diǎn)擊值和第二樣本集合的點(diǎn)擊值其中所述兩個(gè)互斥的樣本集合表示為(Iclick,Inoclick),x表示一個(gè)維度的標(biāo)識(shí)值,w表示這個(gè)這一個(gè)維度對(duì)整體點(diǎn)擊的影響系數(shù);
根據(jù)所述第一樣本集合的點(diǎn)擊值和所述第二樣本集合的點(diǎn)擊值獲取損失函數(shù)
lt(wt)=y(tǒng)t log pt+(1-yt)log(1-pt),并根據(jù)所述損失函數(shù)獲取梯度函數(shù)grad=pt-yt,,其中yt表示實(shí)際點(diǎn)擊值,t表示樣本的編號(hào)1-yt表示實(shí)際未點(diǎn)擊值。
根據(jù)所述梯度函數(shù)更新各個(gè)維度的權(quán)重值。
結(jié)合第一方面的第二種可能的實(shí)現(xiàn)方式,在第三種可能的實(shí)現(xiàn)方式中,所 述根據(jù)所述梯度函數(shù)更新各個(gè)維度的權(quán)重值,包括:
根據(jù)所述梯度函數(shù)、第一樣本集合的點(diǎn)擊值和第二樣本集合的點(diǎn)擊值獲取各個(gè)樣本元素的梯度值gt;
根據(jù)歐幾里得距離公式nt=nt-1+gt2,更新各個(gè)維度的歐幾里得距離,并根據(jù)學(xué)習(xí)率公式更新各個(gè)維度的維度的學(xué)習(xí)率,nt-1表示第1條到第t-1條樣本的梯度歐式距離和;
根據(jù)更新后的學(xué)習(xí)率和歐幾里得距離,更新各個(gè)維度的權(quán)重值
其中,ω表示各個(gè)維度的權(quán)重值組成的權(quán)重集合,α和β分別表示人工調(diào)節(jié)參數(shù)。
結(jié)合第一方面的第三種可能的實(shí)現(xiàn)方式,還包括:
根據(jù)所述權(quán)重集合,獲取各個(gè)維度的權(quán)重累加和,并通過(guò)邏輯回歸公式 得到各個(gè)樣本元素的點(diǎn)擊率值。
第二方面,本發(fā)明的實(shí)施例提供一種數(shù)據(jù)分析方法,包括:讀取模塊,用于提取推送服務(wù)器的日志信息,并根據(jù)所述日志信息獲取兩個(gè)互斥的樣本集合,在各樣本集合的樣本元素中包括了至少兩個(gè)維度的信息和互斥信息,同一個(gè)樣本集合中的樣本元素具有相同內(nèi)容的互斥信息;
權(quán)重更新模塊,用于利用所述兩個(gè)互斥的樣本集合,通過(guò)邏輯回歸在線學(xué)習(xí)算法更新各個(gè)維度的權(quán)重值;
推送模塊,用于根據(jù)更新后的各個(gè)維度的權(quán)重值,確定推送結(jié)果。
結(jié)合第二方面,在第二方面的第一種可能的實(shí)現(xiàn)方式中,在一個(gè)樣本集合中包括了至少兩個(gè)維度的商務(wù)信息和用戶點(diǎn)擊信息,所述商務(wù)信息的類型至少包括:用戶編碼、商品編碼、用戶檢索詞和廣告拍賣詞,所述用戶點(diǎn)擊信息用于表示用戶是否點(diǎn)擊所展現(xiàn)的廣告。
本發(fā)明實(shí)施例提供的數(shù)據(jù)分析方法及裝置,能夠?qū)τ脩襞c推送服務(wù)器之間的數(shù)據(jù)交互的日志信息進(jìn)行分析,并實(shí)時(shí)更新所推送數(shù)據(jù)的各個(gè)維度的權(quán)重值,再根據(jù)更新后的各個(gè)維度的權(quán)重值,重新確定推送結(jié)果。相對(duì)于現(xiàn)有技術(shù),本發(fā)明能夠?qū)崟r(shí)更新權(quán)重值,從而修正預(yù)估誤差,提高所推送數(shù)據(jù)的準(zhǔn)確性。
附圖說(shuō)明
為了更清楚地說(shuō)明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其它的附圖。
圖1a、1b為本發(fā)明實(shí)施例提供的具體應(yīng)用場(chǎng)景的示意圖;
圖2為本發(fā)明實(shí)施例提供的數(shù)據(jù)分析方法的流程圖;
圖3為本發(fā)明實(shí)施例提供的數(shù)據(jù)分析裝置的結(jié)構(gòu)示意圖。
具體實(shí)施方式
為使本領(lǐng)域技術(shù)人員更好地理解本發(fā)明的技術(shù)方案,下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明作進(jìn)一步詳細(xì)描述。下文中將詳細(xì)描述本發(fā)明的實(shí)施方式,所述實(shí)施方式的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過(guò)參考附圖描述的實(shí)施方式是示例性的,僅用于解釋本發(fā)明,而不能解釋為對(duì)本發(fā)明的限制。
本技術(shù)領(lǐng)域技術(shù)人員可以理解,除非特意聲明,這里使用的單數(shù)形式“一”、“一個(gè)”、“所述”和“該”也可包括復(fù)數(shù)形式。應(yīng)該進(jìn)一步理解的是,本發(fā)明的說(shuō)明書(shū)中使用的措辭“包括”是指存在所述特征、整數(shù)、步 驟、操作、元件和/或組件,但是并不排除存在或添加一個(gè)或多個(gè)其他特征、整數(shù)、步驟、操作、元件、組件和/或它們的組。應(yīng)該理解,當(dāng)我們稱元件被“連接”或“耦接”到另一元件時(shí),它可以直接連接或耦接到其他元件,或者也可以存在中間元件。此外,這里使用的“連接”或“耦接”可以包括無(wú)線連接或耦接。這里使用的措辭“和/或”包括一個(gè)或更多個(gè)相關(guān)聯(lián)的列出項(xiàng)的任一單元和全部組合。
本技術(shù)領(lǐng)域技術(shù)人員可以理解,除非另外定義,這里使用的所有術(shù)語(yǔ)(包括技術(shù)術(shù)語(yǔ)和科學(xué)術(shù)語(yǔ))具有與本發(fā)明所屬領(lǐng)域中的普通技術(shù)人員的一般理解相同的意義。還應(yīng)該理解的是,諸如通用字典中定義的那些術(shù)語(yǔ)應(yīng)該被理解為具有與現(xiàn)有技術(shù)的上下文中的意義一致的意義,并且除非像這里一樣定義,不會(huì)用理想化或過(guò)于正式的含義來(lái)解釋。
本發(fā)明實(shí)施例中方法流程,可以由一種承擔(dān)數(shù)據(jù)推送功能的服務(wù)器執(zhí)行,在本實(shí)施例中可稱為推送服務(wù)器,例如:如圖1a所示為根據(jù)本發(fā)明一個(gè)具體實(shí)施方式的推送服務(wù)器。所述推送服務(wù)器包括輸入單元、處理器單元、輸出單元、通信單元、存儲(chǔ)單元、外設(shè)單元等組件。這些組件通過(guò)一條或多條總線進(jìn)行通信。本領(lǐng)域技術(shù)人員可以理解,圖中示出的推送服務(wù)器的結(jié)構(gòu)并不構(gòu)成對(duì)本發(fā)明的限定,它既可以是總線形結(jié)構(gòu),也可以是星型結(jié)構(gòu),還可以包括比圖示更多或更少的部件,或者組合某些部件,或者不同的部件布置。在本發(fā)明實(shí)施方式中。
輸入單元用于實(shí)現(xiàn)操作人員、技術(shù)人員與推送服務(wù)器的交互和/或信息輸入到推送服務(wù)器中。例如,輸入單元可以接收操作人員、技術(shù)人員輸入的數(shù)字或字符信息,以產(chǎn)生與操作人員、技術(shù)人員設(shè)置或功能控制有關(guān)的信號(hào)輸入。在本發(fā)明具體實(shí)施方式中,輸入單元可以是觸控面板,也可以是其他人機(jī)交互界面,還可是其他外部信息擷取裝置。
處理器單元為推送服務(wù)器的控制中心,利用各種接口和線路連接整個(gè)推送服務(wù)器的各個(gè)部分,通過(guò)運(yùn)行或執(zhí)行存儲(chǔ)在存儲(chǔ)單元內(nèi)的軟件程序和/或模塊,以及調(diào)用存儲(chǔ)在存儲(chǔ)單元內(nèi)的數(shù)據(jù),以執(zhí)行推送服務(wù)器的各種功能和/或處理數(shù) 據(jù)。所述處理器單元可以由集成電路(Integrated Circuit,簡(jiǎn)稱IC)組成,例如可以由單顆封裝的IC所組成,也可以由連接多顆相同功能或不同功能的封裝IC而組成。舉例來(lái)說(shuō),處理器單元可以僅包括中央處理器(Central Processing Unit,簡(jiǎn)稱CPU),也可以是GPU、數(shù)字信號(hào)處理器(Digital Signal Processor,簡(jiǎn)稱DSP)、及通信單元中的控制芯片(例如基帶芯片)的組合。在本發(fā)明實(shí)施方式中,CPU可以是單運(yùn)算核心,也可以包括多運(yùn)算核心。
所述通信單元用于建立通信信道,使推送服務(wù)器通過(guò)所述通信信道以連接至其他的服務(wù)器設(shè)備,或是通過(guò)有線或無(wú)線網(wǎng)絡(luò)與用戶終端進(jìn)行通信,比如:推送服務(wù)器通過(guò)接口接入移動(dòng)無(wú)線網(wǎng)絡(luò),并通過(guò)移動(dòng)無(wú)線網(wǎng)絡(luò)將廣告內(nèi)容或廣告想推送信息(URL)向用戶終端發(fā)送。在本發(fā)明的不同實(shí)施方式中,所述通信單元中的各種通信模塊一般以集成電路芯片(Integrated Circuit Chip)的形式出現(xiàn),并可進(jìn)行選擇性組合,而不必包括所有通信模塊及對(duì)應(yīng)的天線組。例如,所述通信單元可以僅包括基帶芯片、射頻芯片以及相應(yīng)的天線以在一個(gè)蜂窩通信系統(tǒng)中提供通信功能。經(jīng)由所述通信單元建立的無(wú)線通信連接,例如無(wú)線局域網(wǎng)接入或WCDMA接入,所述推送服務(wù)器可以連接至蜂窩網(wǎng)(Cellular Network)或因特網(wǎng)(Internet)。在本發(fā)明的一些可選實(shí)施方式中,所述通信單元中的通信模塊,例如基帶模塊可以集成到處理器單元中,典型的如高通(Qualcomm)公司提供的APQ+MDM系列平臺(tái)。
輸出單元包括但不限于影像輸出單元和聲音輸出單元。影像輸出單元用于輸出文字、圖片和/或視頻。所述影像輸出單元可包括顯示面板。
存儲(chǔ)單元可用于存儲(chǔ)軟件程序以及模塊,處理單元通過(guò)運(yùn)行存儲(chǔ)在存儲(chǔ)單元的軟件程序以及模塊,從而執(zhí)行推送服務(wù)器的各種功能應(yīng)用以及實(shí)現(xiàn)數(shù)據(jù)處理。存儲(chǔ)單元主要包括程序存儲(chǔ)區(qū)和數(shù)據(jù)存儲(chǔ)區(qū),其中,程序存儲(chǔ)區(qū)可存儲(chǔ)操作系統(tǒng)、至少一個(gè)功能所需的應(yīng)用程序,比如用于執(zhí)行本實(shí)施例方法流程的數(shù)據(jù)分析程序和用于實(shí)時(shí)修正各個(gè)維度的權(quán)重值的監(jiān)控程序等等,例如如圖3所示的讀取模塊、權(quán)重更新模塊和推送模塊可以程序代碼形式存儲(chǔ)于存儲(chǔ)單元并通過(guò)處理器單元運(yùn)行。
數(shù)據(jù)存儲(chǔ)區(qū)可存儲(chǔ)根據(jù)推送服務(wù)器的使用所創(chuàng)建的數(shù)據(jù),比如:待推送的廣告文本信息,采集到的用戶點(diǎn)擊廣告后的點(diǎn)擊信息等,在本實(shí)施例中,存儲(chǔ)單元記錄用戶與推送服務(wù)器交互狀態(tài)的信息可以稱為日志信息。在本發(fā)明具體實(shí)施方式中,存儲(chǔ)單元可以包括易性存儲(chǔ)器,例如非揮發(fā)性動(dòng)態(tài)隨機(jī)存取內(nèi)存(Nonvolatile Random Access Memory,簡(jiǎn)稱NVRAM)、相變化隨機(jī)存取內(nèi)存(Phase Change RAM,簡(jiǎn)稱PRAM)、磁阻式隨機(jī)存取內(nèi)存(Magetoresistive RAM,簡(jiǎn)稱MRAM)等,還可以包括非易失性存儲(chǔ)器,例如至少一個(gè)磁盤(pán)存儲(chǔ)器件、電子可擦除可編程只讀存儲(chǔ)器(Electrically Erasable Programmable Read-Only Memory,簡(jiǎn)稱EEPROM)、閃存器件,例如反或閃存(NOR flash memory)或是反及閃存(NAND flash memory)。
電源用于給推送服務(wù)器的不同部件進(jìn)行供電以維持其運(yùn)行。作為一般性理解,所述電源可以是內(nèi)置的電池,例如常見(jiàn)的鋰離子電池、鎳氫電池等,也包括直接向推送服務(wù)器供電的外接電源,例如AC適配器等。在本發(fā)明的一些實(shí)施方式中,所述電源還可以作更為廣泛的定義,例如還可以包括電源管理系統(tǒng)、充電系統(tǒng)、電源故障檢測(cè)電路、電源轉(zhuǎn)換器或逆變器、電源狀態(tài)指示器(如發(fā)光二極管),以及與推送服務(wù)器的電能生成、管理及分布相關(guān)聯(lián)的其他任何組件。
需要說(shuō)明的是,在本實(shí)施例的一種類似方案中,本發(fā)明實(shí)施例中方法流程,也可以由一種承擔(dān)數(shù)據(jù)推送功能的服務(wù)器組執(zhí)行,例如:如圖1b所示,服務(wù)器a用于執(zhí)行本實(shí)施例的方法流程并根據(jù)更新后的各個(gè)維度的權(quán)重值確定推送結(jié)果,服務(wù)器b用于通過(guò)互聯(lián)網(wǎng)將推送結(jié)果向用戶的終端設(shè)備發(fā)送,由服務(wù)器a和服務(wù)器b組成的設(shè)備組承擔(dān)數(shù)據(jù)推送功能的。
本發(fā)明實(shí)施例提供的數(shù)據(jù)分析方法,如圖2所示,包括:
101,提取推送服務(wù)器的日志信息,并根據(jù)所述日志信息獲取兩個(gè)互斥的樣本集合。
在本實(shí)施例的具體應(yīng)用中,比如電子商務(wù)平臺(tái),在一個(gè)樣本集合中包括了至少兩個(gè)維度的商務(wù)信息和用戶點(diǎn)擊信息,所述商務(wù)信息的類型至少包括:用戶編碼、商品編碼、用戶檢索詞和廣告拍賣詞等信息,所述用戶點(diǎn)擊信息用于 表示用戶是否點(diǎn)擊所展現(xiàn)的廣告。
其中,在各樣本集合的樣本元素中包括了至少兩個(gè)維度的信息和互斥信息,同一個(gè)樣本集合中的樣本元素具有相同內(nèi)容的互斥信息。例如:兩個(gè)樣本集合分別為Iclick和Inoclick,其中Iclick表示被用戶點(diǎn)擊過(guò)的廣告的集合,其中的樣本元素的表現(xiàn)形式可以是:{用戶編碼;商品編碼;用戶檢索詞;廣告內(nèi)容;click},“用戶編碼”可以是用戶的終端設(shè)備的MAC地址、用戶賬號(hào)等用于標(biāo)識(shí)用戶身份的信息,“商品編碼”可以是用戶所輸入的搜索詞所指向的商品類型的編碼,“用戶檢索詞”可以是用戶在電子商務(wù)平臺(tái)界面輸入的搜索詞(即用戶通過(guò)向終端設(shè)備輸入,并由終端設(shè)備向推送服務(wù)器或檢索服務(wù)器發(fā)送的檢索詞),“廣告內(nèi)容”可以是向用戶所推送的廣告的文本信息,“click”用于表示用戶已經(jīng)點(diǎn)擊所推送的本條廣告,若為“noclick”則表示用戶沒(méi)有點(diǎn)擊所推送的本條廣告。其中,“click”和“noclick”可以作為互斥信息,并以此篩選樣本元素并劃分至兩個(gè)樣本集合Iclick和Inoclick。
需要說(shuō)明的是,各個(gè)維度的信息和互斥信息可以由推送服務(wù)器從存儲(chǔ)設(shè)備上的日志信息中提取,日志信息用于記錄用戶與推送服務(wù)器交互狀態(tài)。例如:通過(guò)對(duì)現(xiàn)有檢索系統(tǒng)部署日志采集功能,從線上采集原始展現(xiàn)日志信息進(jìn)行解析拼接,然后提取用戶編碼、商品編碼、用戶檢索詞和廣告拍賣詞等信息等幾個(gè)維度的信息,以及用于是否點(diǎn)擊/觸發(fā)廣告的記錄,并形成廣告的明文樣本作為樣本元素,具體包括:推送服務(wù)器獲取用戶每次檢索的查詢?cè)~及相應(yīng)展示廣告和點(diǎn)擊廣告;將一次會(huì)話的檢索詞與展示廣告拆分,形成每次檢索詞對(duì)應(yīng)一條廣告;將廣告的點(diǎn)擊信息拼接形成廣告(展現(xiàn),點(diǎn)擊)或者(展現(xiàn),未點(diǎn)擊)的集合;之后根據(jù)推送服務(wù)器與用戶的終端設(shè)備的交互歷史記錄,選取影響廣告(展現(xiàn),點(diǎn)擊)的維度,得到樣本元素。其中推送服務(wù)器與用戶的終端設(shè)備的交互歷史記錄可以是基于海量用戶的交互歷史記錄,也可以是針對(duì)一個(gè)用戶群或一個(gè)用戶在一定時(shí)間段內(nèi)的交互歷史記錄,交互歷史記錄的具體采樣規(guī)則可以依據(jù)不同應(yīng)用場(chǎng)景改變。
102,利用所述兩個(gè)互斥的樣本集合,通過(guò)邏輯回歸在線學(xué)習(xí)算法更新各個(gè)維度的權(quán)重值。
103,根據(jù)更新后的各個(gè)維度的權(quán)重值,確定推送結(jié)果。
在本實(shí)施例中,權(quán)重值指的是樣本元素中各個(gè)維度各自對(duì)應(yīng)的權(quán)重值,一個(gè)樣本元素實(shí)際表示了一條推送的廣告,由用戶編碼、商品編碼、用戶檢索詞和廣告內(nèi)容或是更多的維度組成,在確定該樣本元素表示的廣告的推送優(yōu)先級(jí)時(shí),根據(jù)各個(gè)維度以及各個(gè)維度的權(quán)重值,通過(guò)權(quán)值計(jì)算的方式進(jìn)行打分,并根據(jù)打分結(jié)果確定不同廣告之間的推送優(yōu)先順序。在本實(shí)施例中,通過(guò)邏輯回歸在線學(xué)習(xí)算法更新各個(gè)維度的權(quán)重值,而對(duì)于權(quán)值計(jì)算和打分規(guī)則的具體方式不做限定。
在現(xiàn)有技術(shù)中,文本相似計(jì)算和打分規(guī)則設(shè)置等預(yù)估手段難以有效適應(yīng)用戶的實(shí)際操作,缺乏根據(jù)用戶的操作反饋進(jìn)行進(jìn)一步精確預(yù)估的方案。本發(fā)明實(shí)施例提供的數(shù)據(jù)分析方法,能夠?qū)τ脩襞c推送服務(wù)器之間的數(shù)據(jù)交互的日志信息進(jìn)行分析,并實(shí)時(shí)更新所推送數(shù)據(jù)的各個(gè)維度的權(quán)重值,再根據(jù)更新后的各個(gè)維度的權(quán)重值,重新確定推送結(jié)果。相對(duì)于現(xiàn)有技術(shù),本發(fā)明能夠?qū)崟r(shí)更新權(quán)重值,從而修正預(yù)估誤差,提高所推送數(shù)據(jù)的準(zhǔn)確性。
在本實(shí)施例中,所述利用所述兩個(gè)互斥的樣本集合,通過(guò)邏輯回歸在線學(xué)習(xí)算法更新各個(gè)維度的權(quán)重值的過(guò)程,具體包括:
根據(jù)所述兩個(gè)互斥的樣本集合,獲取第一樣本集合的點(diǎn)擊值和第二樣本集合的點(diǎn)擊值其中所述兩個(gè)互斥的樣本集合表示為(Iclick,Inoclick)。其中,x表示一個(gè)維度的標(biāo)識(shí)值,w表示這個(gè)這一個(gè)維度對(duì)整體點(diǎn)擊的影響系數(shù)。例如:根據(jù)用戶是否點(diǎn)擊廣告劃分兩個(gè)樣本集合:Iclick和Inoclick,由于在每個(gè)集合中影響廣告點(diǎn)擊率的維度有多種且可能動(dòng)態(tài)變化而不限定,因此兩個(gè)集合都可以表示為Iclick=Σwx,其中x表示影響廣告點(diǎn)擊的一個(gè)維度的標(biāo)識(shí)值,w表示這個(gè)這一個(gè)維度對(duì)整體點(diǎn)擊的影響系數(shù)。假設(shè)一個(gè)樣本元素的實(shí)際點(diǎn)擊值為yt,則實(shí)際未點(diǎn)擊值為1-yt,則根據(jù)邏輯回歸函數(shù),可以得到該樣本 元素的預(yù)估點(diǎn)擊值而預(yù)估未點(diǎn)擊值為
根據(jù)所述第一樣本集合的點(diǎn)擊值和所述第二樣本集合的點(diǎn)擊值獲取損失函數(shù)lt(wt)=y(tǒng)t log pt+(1-yt)log(1-pt),并根據(jù)所述損失函數(shù)獲取梯度函數(shù)(對(duì)損失函數(shù)求導(dǎo),得到梯度函數(shù))grad=pt-yt,其中yt表示實(shí)際點(diǎn)擊值,t表示樣本的編號(hào)1-yt表示實(shí)際未點(diǎn)擊值。
根據(jù)所述梯度函數(shù)更新各個(gè)維度的權(quán)重值。
其中,推送服務(wù)器可以根據(jù)上述梯度函數(shù)得到梯度值,并通過(guò)累計(jì)梯度的平方獲取每次預(yù)估偏差的方差和nt=nt-1+grad2,以及獲取每個(gè)維度的迭代學(xué)習(xí)率其中,α和β分別為人工調(diào)節(jié)參數(shù),可以由技術(shù)人員設(shè)定。根據(jù)迭代學(xué)習(xí)率和預(yù)估偏差的方差和,通過(guò) 更新各個(gè)維度的權(quán)重值。其中,Sgn是為一種函數(shù),表示如果x>0則sgn(x)=1,如果x=0則sgn(x)=0,如果x<0則sgn(x)=-1。
在本實(shí)施例中,所述根據(jù)所述梯度函數(shù)更新各個(gè)維度的權(quán)重值,具體包括:
根據(jù)所述梯度函數(shù)、第一樣本集合的點(diǎn)擊值和第二樣本集合的點(diǎn)擊值獲取各個(gè)樣本元素的梯度值gt。
根據(jù)歐幾里得距離公式nt=nt-1+gt2,更新各個(gè)維度的歐幾里得距 離,并根據(jù)學(xué)習(xí)率公式更新各個(gè)維度的維度的學(xué)習(xí)率,nt-1表示第1條到第t-1條樣本的梯度歐式距離和。α和β分別表示人工調(diào)節(jié)參數(shù)
根據(jù)更新后的學(xué)習(xí)率和歐幾里得距離,更新各個(gè)維度的權(quán)重值
其中,ω表示各個(gè)維度的權(quán)重值組成的權(quán)重集合。
在本實(shí)施例中,可以采用隨機(jī)梯度下降的方式獲取邏輯回歸中的局部最優(yōu)解,即通過(guò)梯度函數(shù)、樣本元素的實(shí)際點(diǎn)擊值和樣本元素的預(yù)估點(diǎn)擊值,獲取每個(gè)樣本元素的梯度值gt。例如:根據(jù)歐幾里得距離公式nt=nt-1+gt2更新各個(gè)維度的歐幾里得距離;
根據(jù)學(xué)習(xí)率公式更新各個(gè)維度的迭代學(xué)習(xí)率
根據(jù)迭代學(xué)習(xí)率和歐幾里得距離得到更新后的實(shí)際權(quán)重值
其中,ω表示各個(gè)維度的權(quán)重值組成的權(quán)重集合
在本實(shí)施例中,在獲取權(quán)重集合后,還包括:根據(jù)所述權(quán)重集合,獲取各 個(gè)維度的權(quán)重累加和,并通過(guò)邏輯回歸公式得到各個(gè)樣本元素的點(diǎn)擊率值。在本實(shí)施例的具體應(yīng)用場(chǎng)景中,通過(guò)對(duì)用戶點(diǎn)擊廣告的日志信息進(jìn)行挖掘分析,實(shí)時(shí)更新各個(gè)維度的權(quán)重值,采用邏輯回歸在線梯度算法后,在AUC(一種評(píng)估排序指標(biāo))中預(yù)估的準(zhǔn)確率,從原來(lái)的0.65提升至0.79。從而緩減了預(yù)估誤差較大的問(wèn)題,提高了推送廣告的準(zhǔn)確性。
本實(shí)施例還提供一種數(shù)據(jù)分析裝置,如圖3所示,包括:
讀取模塊,用于提取推送服務(wù)器的日志信息,并根據(jù)所述日志信息獲取兩個(gè)互斥的樣本集合,在各樣本集合的樣本元素中包括了至少兩個(gè)維度的信息和互斥信息,同一個(gè)樣本集合中的樣本元素具有相同內(nèi)容的互斥信息;
權(quán)重更新模塊,用于利用所述兩個(gè)互斥的樣本集合,通過(guò)邏輯回歸在線學(xué)習(xí)算法更新各個(gè)維度的權(quán)重值;
推送模塊,用于根據(jù)更新后的各個(gè)維度的權(quán)重值,確定推送結(jié)果。
其中,在一個(gè)樣本集合中包括了至少兩個(gè)維度的商務(wù)信息和用戶點(diǎn)擊信息,所述商務(wù)信息的類型至少包括:用戶編碼、商品編碼、用戶檢索詞和廣告拍賣詞,所述用戶點(diǎn)擊信息用于表示用戶是否點(diǎn)擊所展現(xiàn)的廣告。
本發(fā)明實(shí)施例提供的數(shù)據(jù)分析裝置,能夠?qū)τ脩襞c推送服務(wù)器之間的數(shù)據(jù)交互的日志信息進(jìn)行分析,并實(shí)時(shí)更新所推送數(shù)據(jù)的各個(gè)維度的權(quán)重值,再根據(jù)更新后的各個(gè)維度的權(quán)重值,重新確定推送結(jié)果。相對(duì)于現(xiàn)有技術(shù),本發(fā)明能夠?qū)崟r(shí)更新權(quán)重值,從而修正預(yù)估誤差,提高所推送數(shù)據(jù)的準(zhǔn)確性。
本說(shuō)明書(shū)中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,各個(gè)實(shí)施例之間相同相似的部分互相參見(jiàn)即可,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處。尤其,對(duì)于設(shè)備實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述得比較簡(jiǎn)單,相關(guān)之處參見(jiàn)方法實(shí)施例的部分說(shuō)明即可。
本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分流程, 是可以通過(guò)計(jì)算機(jī)程序來(lái)指令相關(guān)的硬件來(lái)完成,所述的程序可存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),可包括如上述各方法的實(shí)施例的流程。其中,所述的存儲(chǔ)介質(zhì)可為磁碟、光盤(pán)、只讀存儲(chǔ)記憶體(Read-Only Memory,ROM)或隨機(jī)存儲(chǔ)記憶體(Random Access Memory,RAM)等。
以上所述,僅為本發(fā)明的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求的保護(hù)范圍為準(zhǔn)。