本發(fā)明涉及移動(dòng)互聯(lián)網(wǎng)領(lǐng)域,特別涉及一種移動(dòng)廣告平臺(tái)尋找相似用戶的方法。
背景技術(shù):
現(xiàn)有技術(shù)中,對(duì)移動(dòng)廣告平臺(tái)相似用戶的尋找也提出了一些解決方案。
例如,在Audience segment expansion using distributed in-database k-means clustering(ADKDD2013)中,其主要通過以下技術(shù)方案來實(shí)現(xiàn):通過提取用戶相關(guān)的關(guān)鍵詞或主題模型來作為每個(gè)用戶的特征,然后利用機(jī)器學(xué)習(xí)中的聚類方法(例如k-means)對(duì)用戶群進(jìn)行聚類。種子用戶所在的聚類中其他用戶即為可擴(kuò)展的用戶。
再例如,一種視頻網(wǎng)站相似用戶搜索系統(tǒng)和方法(申請(qǐng)?zhí)枺?01510142618.6申請(qǐng)日:2015-03-27),在該技術(shù)方案中,主要通過以下技術(shù)方案來實(shí)現(xiàn):步驟1,對(duì)用戶觀看內(nèi)容進(jìn)行統(tǒng)計(jì)分析,統(tǒng)計(jì)一段時(shí)間內(nèi)的用戶視頻觀看記錄,結(jié)合視頻內(nèi)容描述詞得到每個(gè)用戶對(duì)每一種視頻內(nèi)容的觀看次數(shù)和頻率,其中,上述視頻內(nèi)容描述詞通過視頻標(biāo)簽、關(guān)鍵詞以及視頻標(biāo)題分詞來描述;步驟2,建立用戶的倒排索引,根據(jù)上述步驟1中統(tǒng)計(jì)分析得到的觀看記錄,基于視頻內(nèi)容描述詞建立用戶的倒排索引,該索引形式以視頻內(nèi)容描述詞作為索引關(guān)鍵字,以觀看該描述詞的所有用戶標(biāo)識(shí)及觀看頻率作為索引值;步驟3,進(jìn)行相似用戶搜索并計(jì)算相似性,利用種子用戶的視頻觀看記錄,以視頻內(nèi)容描述詞為搜索關(guān)鍵字,在索引文件上進(jìn)行相似用戶的搜索,同時(shí)計(jì)算相應(yīng)用戶的相似性,得到初步的搜索結(jié)果;步驟4,進(jìn)行搜索結(jié)果排序,利用相似性對(duì)初步搜索結(jié)果進(jìn)行由大到小的排序,經(jīng)過過濾處理得到最終的相似人群搜索結(jié)果。
上述兩種技術(shù)方案,無論是基于聚類或者基于索引的方法,都需要計(jì)算用戶的相似性,當(dāng)候選集很大的時(shí)候,計(jì)算量會(huì)相當(dāng)大。在客戶對(duì)相似用戶擴(kuò)展時(shí)間要求比較嚴(yán)格的情況下,上述兩個(gè)方法均不能在較短時(shí)間內(nèi)實(shí)現(xiàn)擴(kuò)展。對(duì)于多數(shù)聚類方法,其聚類結(jié)果往往是不確定的,造成了同一批種子用戶每次擴(kuò)展的相似用戶也不同。
因此有必要提供一種新的尋找相似用戶的方法來滿足需求。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的缺點(diǎn)與不足,提供一種移動(dòng)廣告平臺(tái)尋找相似用戶的方法。
本發(fā)明的目的通過以下的技術(shù)方案實(shí)現(xiàn):
一種移動(dòng)廣告平臺(tái)尋找相似用戶的方法,包含以下步驟:
(1)目標(biāo)App的開發(fā)者(廣告主)提交目標(biāo)App現(xiàn)有的種子用戶設(shè)備號(hào)列表;
(2)獲取目標(biāo)App的非相似用戶設(shè)備號(hào)列表;
(3)利用系統(tǒng)級(jí)別的API獲取到移動(dòng)用戶的App安裝包列表;
(4)安裝包過濾:計(jì)算移動(dòng)用戶每個(gè)App的設(shè)備覆蓋率,將覆蓋設(shè)備比例非常高和非常低的App從App安裝包列表里面剔除;
(5)采用bag-of-words方法將移動(dòng)用戶安裝包列表中剩下的app表達(dá)成1/0特征;
(6)根據(jù)用戶特征、相似用戶設(shè)備號(hào)列表和非相似客戶設(shè)備號(hào)列表,訓(xùn)練一個(gè)邏輯回歸模型;
(7)計(jì)算移動(dòng)用戶的三種特征:安裝的基本應(yīng)用比例、付費(fèi)應(yīng)用數(shù)、平均付費(fèi)價(jià)格;
(8)將邏輯回歸模型的輸出以及所述移動(dòng)用戶的三種特征作為輸入,再訓(xùn)練出GBDT(梯度提升樹)分類模型;
(9)對(duì)候選集的每個(gè)移動(dòng)用戶,通過獲取該移動(dòng)用戶的App安裝列表,并將App安裝列表表達(dá)成一個(gè)bag-of-words向量,先輸入到邏輯回歸模型中進(jìn)行一遍預(yù)測(cè),再加入用戶安裝的基本應(yīng)用比例、付費(fèi)應(yīng)用數(shù)、平均付費(fèi)價(jià)格這三個(gè)特征輸入到GBDT模型中進(jìn)行預(yù)測(cè),從而預(yù)測(cè)該用戶是否為種子用戶的相似用戶。
這樣就得到了用戶是否是相似用戶(1代表相似用戶,0代表非相似用戶)。
步驟(2)中,所述獲取非相似用戶設(shè)備號(hào)的方法包括:
a、目標(biāo)App的開發(fā)者直接提交一份非相似用戶設(shè)備號(hào)列表;
b、從廣告平臺(tái)自有的設(shè)備列表中隨機(jī)提取出與相似用戶列表等量的設(shè)備號(hào),作為非相似用戶設(shè)備號(hào)列表。
步驟(6)中,所述邏輯回歸模型是一種線性分類模型,邏輯回歸模型在線性回歸的基礎(chǔ)上,套用一個(gè)邏輯函數(shù)來得到最后的概率描述,邏輯回歸通過優(yōu)化方法極小化以下?lián)p失函數(shù):
其中m為樣本總數(shù),xi,yi分別為第i個(gè)樣本的特征和標(biāo)簽,hθ(xi)為邏輯回歸函數(shù);
帶L2正則的邏輯回歸極小化以下?lián)p失函數(shù):
其中m為樣本總數(shù),Xi,yi分別為第i個(gè)樣本的特征和標(biāo)簽,w和c分別為模型的特征權(quán)重和偏置項(xiàng),C為正則化項(xiàng)和誤差的權(quán)重系數(shù)。
為限制過擬合,防止某一個(gè)app對(duì)預(yù)測(cè)結(jié)果影響太大,我們對(duì)邏輯回歸加入了L2正則,作用是對(duì)每個(gè)app的系數(shù)進(jìn)行限制。
所述優(yōu)化方法包括牛頓方法、梯度下降。
步驟(8)中,所述GBDT分類模型為最終的分類模型,所述GBDT是一種迭代的決策樹算法,采用了Boost思想,該算法由多棵決策樹組成,所有決策樹的結(jié)論累加起來做最終答案。GBDT與傳統(tǒng)的Boost的區(qū)別是,每一次的計(jì)算是為了減少上一次的殘差,為消除殘差,在殘差減少的梯度方向上建立一個(gè)新的模型。因此在GBDT中,每個(gè)新的模型的建立是為了使得之前模型的殘差往梯度方向減少。
步驟(4)中,所述閾值M=50%,閾值N=1%。
本發(fā)明與現(xiàn)有技術(shù)相比,具有如下優(yōu)點(diǎn)和有益效果:
本發(fā)明在較小計(jì)算量下,根據(jù)客戶提供的種子用戶,準(zhǔn)確的將相似用戶擴(kuò)展出來。
附圖說明
圖1為本發(fā)明所述一種移動(dòng)廣告平臺(tái)尋找相似用戶的方法的流程圖。
具體實(shí)施方式
下面結(jié)合實(shí)施例及附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)的描述,但本發(fā)明的實(shí)施方式不限于此。
實(shí)施例一
一種移動(dòng)廣告平臺(tái)尋找相似用戶的方法,包含以下步驟:
(1)目標(biāo)App的開發(fā)者(廣告主)提交目標(biāo)App現(xiàn)有的種子用戶設(shè)備號(hào)列表;
(2)獲取目標(biāo)App的非相似用戶設(shè)備號(hào)列表:
a、目標(biāo)App的開發(fā)者直接提交一份非相似用戶設(shè)備號(hào)列表;
b、從廣告平臺(tái)自有的設(shè)備列表中隨機(jī)提取出與相似用戶列表等量的設(shè)備號(hào),作為非相似用戶設(shè)備號(hào)列表;
(3)利用系統(tǒng)級(jí)別的API獲取到移動(dòng)用戶的App安裝包列表;
(4)安裝包過濾:計(jì)算移動(dòng)用戶每個(gè)App的設(shè)備覆蓋率,將覆蓋設(shè)備比例非常高和非常低的App從App安裝包列表里面剔除;步驟(4)中,所述閾值M=50%,閾值N=1%;
(5)采用bag-of-words方法將移動(dòng)用戶安裝包列表中剩下的app表達(dá)成1/0特征;
(6)根據(jù)用戶特征、種子用戶設(shè)備號(hào)列表和非相似客戶設(shè)備號(hào)列表,訓(xùn)練一個(gè)邏輯回歸模型;
所述邏輯回歸模型是一種線性分類模型,邏輯回歸模型在線性回歸的基礎(chǔ)上,套用一個(gè)邏輯函數(shù)來得到最后的概率描述,邏輯回歸通過優(yōu)化方法極小化以下?lián)p失函數(shù):
其中m為樣本總數(shù),xi,yi分別為第i個(gè)樣本的特征和標(biāo)簽,hθ(xi)為邏輯回歸函數(shù);
帶L2正則的邏輯回歸極小化以下?lián)p失函數(shù):
其中m為樣本總數(shù),Xi,yi分別為第i個(gè)樣本的特征和標(biāo)簽,w和c分別為模型的特征權(quán)重和偏置項(xiàng),C為正則化項(xiàng)和誤差的權(quán)重系數(shù);
所述優(yōu)化方法包括牛頓方法、梯度下降;
為限制過擬合,防止某一個(gè)app對(duì)預(yù)測(cè)結(jié)果影響太大,我們對(duì)邏輯回歸加入了L2正則,作用是對(duì)每個(gè)app的系數(shù)進(jìn)行限制;
(7)計(jì)算移動(dòng)用戶的三種特征:安裝的基本應(yīng)用比例、付費(fèi)應(yīng)用數(shù)、平均付費(fèi)價(jià)格;
(8)將邏輯回歸模型的輸出以及所述移動(dòng)用戶的三種特征作為輸入,再訓(xùn)練出GBDT(梯度提升樹)分類模型;
所述GBDT分類模型為最終的分類模型,所述GBDT是一種迭代的決策樹算法,采用了Boost思想,該算法由多棵決策樹組成,所有決策樹的結(jié)論累加起來做最終答案。GBDT與傳統(tǒng)的Boost的區(qū)別是,每一次的計(jì)算是為了減少上一次的殘差,為消除殘差,在殘差減少的梯度方向上建立一個(gè)新的模型。因此在GBDT中,每個(gè)新的模型的建立是為了使得之前模型的殘差往梯度方向減少;
(9)對(duì)候選集的每個(gè)移動(dòng)用戶,通過獲取該移動(dòng)用戶的App安裝列表,并將App安裝列表表達(dá)成一個(gè)bag-of-words向量,先輸入到邏輯回歸模型中進(jìn)行一遍預(yù)測(cè),再加入用戶安裝的基本應(yīng)用比例、付費(fèi)應(yīng)用數(shù)、平均付費(fèi)價(jià)格這三個(gè)特征輸入到GBDT模型中進(jìn)行預(yù)測(cè),從而預(yù)測(cè)該用戶是否為相似用戶。
這樣就得到了用戶是否是相似用戶(1代表相似用戶,0代表非相似用戶)。
實(shí)施例二
如圖1,一種移動(dòng)廣告平臺(tái)尋找相似用戶的方法,包含以下步驟:
首先根據(jù)訓(xùn)練用戶過濾之后的安裝列表以及標(biāo)簽訓(xùn)練出一個(gè)L2正則的邏輯回歸模型。對(duì)于一個(gè)新的用戶(特征見圓角矩形)安裝列表,利用訓(xùn)練出的邏輯回歸模型得到一個(gè)[0,1]之間的預(yù)測(cè)值,表示其為相似用戶的概率。接著計(jì)算該用戶安裝列表中付費(fèi)應(yīng)用數(shù),基本應(yīng)用占比,平均付費(fèi)價(jià)格特征,將這些特征與上一步的邏輯回歸模型結(jié)果組合在一起,再訓(xùn)練出一個(gè)GBDT模型,最終預(yù)測(cè)用戶是否為相似用戶(1代表相似用戶,0代表非相似用戶)。
上述實(shí)施例為本發(fā)明較佳的實(shí)施方式,但本發(fā)明的實(shí)施方式并不受上述實(shí)施例的限制,其他的任何未背離本發(fā)明的精神實(shí)質(zhì)與原理下所作的改變、修飾、替代、組合、簡(jiǎn)化,均應(yīng)為等效的置換方式,都包含在本發(fā)明的保護(hù)范圍之內(nèi)。