預(yù)測(cè)叫車平臺(tái)的用戶流失的方法和裝置制造方法
【專利摘要】本發(fā)明的實(shí)施例提供了一種預(yù)測(cè)叫車平臺(tái)的用戶流失的方法,包括:基于用戶的行為變量來獲得預(yù)定的預(yù)測(cè)模型的輸入變量;將判斷用戶是否將會(huì)流失的變量確定為預(yù)測(cè)模型的輸出變量;將輸入變量和輸出變量作為歷史數(shù)據(jù),對(duì)預(yù)測(cè)模型進(jìn)行訓(xùn)練;以及基于經(jīng)訓(xùn)練的預(yù)測(cè)模型,來預(yù)測(cè)用戶是否將會(huì)流失。本發(fā)明的實(shí)施例還提供了一種預(yù)測(cè)叫車平臺(tái)的用戶是否將會(huì)流失的裝置。使用本發(fā)明的實(shí)施例的方法和裝置,可以在預(yù)測(cè)用戶是否將會(huì)流失時(shí),能夠提前一定時(shí)間給出流失用戶清單并且保證高準(zhǔn)確率、高覆蓋率,降低維系難度;縮小目標(biāo)用戶群,降低維系活動(dòng)成本。
【專利說明】預(yù)測(cè)叫車平臺(tái)的用戶流失的方法和裝置
【技術(shù)領(lǐng)域】
[0001] 本公開的實(shí)施例一般設(shè)及一種預(yù)測(cè)方法和裝置,并且更特別地,設(shè)及一種預(yù)測(cè)叫 車平臺(tái)的用戶流失的方法和裝置。
【背景技術(shù)】
[0002] 隨著移動(dòng)互聯(lián)網(wǎng)的高速發(fā)展,大多數(shù)司機(jī)已經(jīng)習(xí)慣用軟件接單、乘客習(xí)慣用軟件 叫單。W當(dāng)下流行的在移動(dòng)終端上使用的叫車平臺(tái)應(yīng)用軟件為例,乘客打開軟件發(fā)出打車 需求,消息被推送到叫車平臺(tái)的服務(wù)器,叫車平臺(tái)的服務(wù)器利用大數(shù)據(jù)在線分析,把訂單精 準(zhǔn)推送給附近的司機(jī)。該樣一來有利于降低司機(jī)空駛,提升司機(jī)收入等。但可能由于對(duì)軟 件操作方法不熟、軟件定位信息不準(zhǔn)、搶單成功率低等原因,導(dǎo)致司機(jī)流失。
[0003] 司機(jī)流失過多將導(dǎo)致叫車平臺(tái)的供求不均衡,不利于乘客叫單成功W及叫車平臺(tái) 的穩(wěn)定。發(fā)展一個(gè)新司機(jī)用戶的成本遠(yuǎn)遠(yuǎn)高于維系一個(gè)老司機(jī)用戶的成本。運(yùn)營(yíng)人員為了 挽回流失的司機(jī),只能在司機(jī)已經(jīng)不使用軟件一段時(shí)間后,才會(huì)采取相應(yīng)措施,但此時(shí)挽回 難度極大;若是對(duì)全部司機(jī)進(jìn)行挽留活動(dòng)則成本極高。例如,司機(jī)張師傅在8月常使用某叫 車平臺(tái)軟件,由于某些問題導(dǎo)致張師傅在9月已經(jīng)不再使用,運(yùn)營(yíng)人員在10月才知道張師 傅在9月未使用后,便會(huì)對(duì)張師傅發(fā)放一些回歸獎(jiǎng)勵(lì)金額等。但由于司機(jī)較長(zhǎng)時(shí)間未用,可 能已經(jīng)使用競(jìng)爭(zhēng)對(duì)手軟件等,很難挽回。
[0004] 如果能在司機(jī)用戶即將流失前進(jìn)行挽留活動(dòng),則可W極大地提高了挽留的成功率 并且可W極大地降低挽留活動(dòng)的成本。繼續(xù)W上面的張師傅為例,如果能根據(jù)張師傅在8 月中使用某叫車平臺(tái)軟件的數(shù)據(jù)分析預(yù)測(cè)出張師傅將在9月份不再使用該叫車平臺(tái)軟件, 則對(duì)于維護(hù)和挽留用戶張師傅是極為有利的。
【發(fā)明內(nèi)容】
[0005] 鑒于現(xiàn)有技術(shù)中存在的上述問題,本發(fā)明的實(shí)施例的目的在于:提供一種預(yù)測(cè)叫 車平臺(tái)的用戶流失的方法和裝置,W便于在預(yù)測(cè)用戶是否將會(huì)流失時(shí),能夠提前一定時(shí)間 給出流失用戶清單并且保證高準(zhǔn)確率、高覆蓋率,降低維系難度;縮小目標(biāo)用戶群,降低維 系活動(dòng)成本。
[0006] 根據(jù)本發(fā)明的第一方面,提供了一種預(yù)測(cè)叫車平臺(tái)的用戶流失的方法,包括:基于 用戶的行為變量來獲得預(yù)定的預(yù)測(cè)模型的輸入變量;將判斷用戶是否將會(huì)流失的變量確定 為所述預(yù)測(cè)模型的輸出變量;將所述輸入變量和所述輸出變量作為歷史數(shù)據(jù),對(duì)所述預(yù)測(cè) 模型進(jìn)行訓(xùn)練;W及基于經(jīng)訓(xùn)練的所述預(yù)測(cè)模型,來預(yù)測(cè)用戶是否將會(huì)流失。
[0007] 根據(jù)本發(fā)明的一些實(shí)施例,所述預(yù)定的預(yù)測(cè)模型包括;基于神經(jīng)網(wǎng)絡(luò)算法的模型、 基于決策樹的模型、或者基于邏輯回歸算法的模型。
[000引根據(jù)本發(fā)明的一些實(shí)施例,基于用戶的行為變量來獲得預(yù)定的預(yù)測(cè)模型的輸入變 量包括:基于用戶的多個(gè)行為變量中的每個(gè)用戶行為變量在不同時(shí)間段中的取值來獲得多 個(gè)所述輸入變量。
[0009] 根據(jù)本發(fā)明的一些實(shí)施例,基于用戶的多個(gè)行為變量中的每個(gè)用戶行為變量在不 同時(shí)間段中的取值來獲得多個(gè)所述輸入變量包括:通過用戶的所述多個(gè)行為變量中的每個(gè) 用戶行為變量在不同時(shí)間段中的取值、該些取值之間的差值、該些取值之間的比值、該些取 值的平均值、W及該些取值的方差值中的至少一項(xiàng),來獲得多個(gè)所述輸入變量。
[0010] 根據(jù)本發(fā)明的一些實(shí)施例,用戶的所述行為變量包括:接單次數(shù)和在線時(shí)長(zhǎng)。
[0011] 根據(jù)本發(fā)明的一些實(shí)施例,將判斷用戶是否將會(huì)流失的變量確定為所述預(yù)測(cè)模型 的輸出變量包括;將只有兩種可能取值的變量作為所述輸出變量,所述兩種可能取值分別 對(duì)應(yīng)于用戶將會(huì)流失和用戶將不會(huì)流失。
[0012] 根據(jù)本發(fā)明的一些實(shí)施例,該方法進(jìn)一步包括:基于對(duì)輸入變量和輸出變量所進(jìn) 行的相關(guān)性分析或數(shù)據(jù)分布分析,來進(jìn)一步篩選所述預(yù)定的預(yù)測(cè)模型的輸入變量。
[0013] 根據(jù)本發(fā)明的一些實(shí)施例,將所述輸入變量和所述輸出變量作為歷史數(shù)據(jù),對(duì)預(yù) 測(cè)模型進(jìn)行訓(xùn)練包括;將所述輸入變量輸入所述預(yù)測(cè)模型,計(jì)算得出所述輸出變量的取值; 將計(jì)算得出所述輸出變量的取值與所述輸出變量的已知值相比較而得到誤差;根據(jù)所述誤 差來調(diào)整所述預(yù)測(cè)模型;W及迭代進(jìn)行所述計(jì)算、所述比較和所述調(diào)整,直到所述誤差為零 或者迭代次數(shù)達(dá)到預(yù)定最大次數(shù)。
[0014] 根據(jù)本發(fā)明的一些實(shí)施例,如果所述預(yù)測(cè)模型是基于神經(jīng)網(wǎng)絡(luò)算法的模型,則根 據(jù)所述誤差來調(diào)整所述預(yù)測(cè)模型包括:根據(jù)所述誤差來調(diào)整所述基于神經(jīng)網(wǎng)絡(luò)算法的模型 的輸入變量的數(shù)量、隱層的數(shù)量、隱層神經(jīng)元的數(shù)量、隱層的傳遞函數(shù)、W及輸出層的傳遞 函數(shù)中的至少一項(xiàng)。
[0015] 根據(jù)本發(fā)明的一些實(shí)施例,該方法進(jìn)一步包括對(duì)所述預(yù)測(cè)模型進(jìn)行評(píng)價(jià)。
[0016] 根據(jù)本發(fā)明的一些實(shí)施例,使用W下各項(xiàng)中至少一項(xiàng)作為評(píng)價(jià)指標(biāo)來評(píng)價(jià)所述預(yù) 測(cè)模型的預(yù)測(cè)結(jié)果;準(zhǔn)確率、覆蓋率、在所有實(shí)際為流失的樣本中被正確判斷為流失之比 率、W及在所有實(shí)際為流失的樣本中被錯(cuò)誤判斷為流失之比率;并且基于所述評(píng)價(jià)來調(diào)整 優(yōu)化所述預(yù)測(cè)模型,或者從多個(gè)經(jīng)訓(xùn)練的預(yù)測(cè)模型中選出最優(yōu)的預(yù)測(cè)模型。
[0017] 根據(jù)本發(fā)明的一些實(shí)施例,使用ROC空間的方法來評(píng)價(jià)所述預(yù)測(cè)模型的預(yù)測(cè)結(jié) 果。
[0018] 根據(jù)本發(fā)明的第二方面,提供了一種預(yù)測(cè)叫車平臺(tái)的用戶流失的裝置,包括:輸入 變量確定單元,被配置為基于用戶的行為變量來獲得預(yù)定的預(yù)測(cè)模型的輸入變量;輸出變 量確定單元,被配置為將判斷用戶是否將會(huì)流失的變量確定為所述預(yù)測(cè)模型的輸出變量; 訓(xùn)練單元,被配置為將所述輸入變量和所述輸出變量作為歷史數(shù)據(jù),對(duì)所述預(yù)測(cè)模型進(jìn)行 訓(xùn)練;W及預(yù)測(cè)單元,被配置為基于經(jīng)訓(xùn)練的所述預(yù)測(cè)模型,來預(yù)測(cè)用戶是否將會(huì)流失。
[0019] 總之,為了提前挽回用戶、降低維系成本,使用本發(fā)明的實(shí)施例,能夠W司機(jī)歷史 的在線、聽單、搶單等使用行為信息預(yù)測(cè)出一定時(shí)間內(nèi)司機(jī)是否即將流失的預(yù)測(cè)模型。該預(yù) 測(cè)模型利用歷史上已流失司機(jī)、未流失司機(jī)行為做樣本,通過選取預(yù)測(cè)模型算法(諸如,BP 神經(jīng)網(wǎng)絡(luò)算法)進(jìn)行模型訓(xùn)練,將現(xiàn)有司機(jī)數(shù)據(jù)輸入模型,可輸出即將流失司機(jī)的清單。利 用清單,業(yè)務(wù)人員馬上可W進(jìn)行維系挽留工作,W提高成功率。
【專利附圖】
【附圖說明】
[0020] 通過參考附圖閱讀下文的詳細(xì)描述,本發(fā)明的實(shí)施例的上述W及其他目的、特征 和優(yōu)點(diǎn)將變得容易理解。在附圖中,w示例性而非限制性的方式示出了本發(fā)明的若干實(shí)施 例,其中:
[0021] 圖1示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的一種預(yù)測(cè)叫車平臺(tái)的用戶流失的方法的 流程圖;
[0022] 圖2示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的一種預(yù)測(cè)叫車平臺(tái)的用戶流失的裝置的 框圖;
[0023] 圖3示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的基于神經(jīng)網(wǎng)絡(luò)算法的預(yù)測(cè)模型的結(jié)構(gòu)框 圖;
[0024] 圖4示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的預(yù)測(cè)模型的輸入?yún)?shù)之間的相關(guān)性分析 結(jié)果的示意圖;
[0025] 圖5示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的預(yù)測(cè)模型的數(shù)據(jù)分布觀察的示意圖;
[0026] 圖6示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的預(yù)測(cè)模型的準(zhǔn)確率和命中率的示意圖;W 及
[0027] 圖7示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的預(yù)測(cè)模型的ROC曲線的示意圖。
【具體實(shí)施方式】
[002引下面將參考附圖中所示出的若干示例性實(shí)施例來描述本發(fā)明的原理和精神。應(yīng)當(dāng) 理解,描述該些實(shí)施例僅是為了使本領(lǐng)域的技術(shù)人員能夠更好地理解并實(shí)現(xiàn)本發(fā)明,而并 非W任何方式限制本發(fā)明的范圍。
[0029] 參考圖1,圖1示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的一種預(yù)測(cè)叫車平臺(tái)的用戶流失 的方法100的流程圖。根據(jù)本發(fā)明的一個(gè)實(shí)施例的方法100需要解決的預(yù)測(cè)問題是,根據(jù) 叫車平臺(tái)的已知的關(guān)于用戶使用叫車平臺(tái)的使用數(shù)據(jù)來預(yù)測(cè)該用戶未來還是否會(huì)繼續(xù)使 用該叫車平臺(tái)。W下詳細(xì)地介紹方法100的各個(gè)步驟。
[0030] 方法100開始于步驟101,在步驟101中,基于用戶的行為變量來獲得預(yù)定的預(yù)測(cè) 模型的輸入變量。
[0031] 本領(lǐng)域的技術(shù)人員可W理解,在預(yù)測(cè)叫車平臺(tái)的用戶是否流失的該個(gè)問題中,預(yù) 測(cè)問題是一個(gè)二分類問題,即流失或者不流失。而用來預(yù)測(cè)的基礎(chǔ)是用戶使用叫車平臺(tái)的 歷史數(shù)據(jù),也就是用戶的行為變量。對(duì)于該樣一個(gè)二分類的預(yù)測(cè)問題,可W基于各種算法來 建立預(yù)測(cè)模型,該些算法包括但不限于;神經(jīng)網(wǎng)絡(luò)、決策樹、或者邏輯回歸算法等,其中神經(jīng) 網(wǎng)絡(luò)可W是BP神經(jīng)網(wǎng)絡(luò)。應(yīng)當(dāng)理解,本領(lǐng)域的技術(shù)人員還可W根據(jù)具體的應(yīng)用環(huán)境W及其 他的相關(guān)背景來選取本文中沒有提到的其他預(yù)測(cè)模型,本發(fā)明的實(shí)施并不限于特定的預(yù)測(cè) 模型。
[0032] 在確定了預(yù)定的預(yù)測(cè)模型之后,接下來的問題是如何獲得用于該預(yù)定的預(yù)測(cè)模型 的輸入變量。根據(jù)本發(fā)明的一些實(shí)施例,在方法100中,基于用戶的行為變量來獲得預(yù)定 的預(yù)測(cè)模型的輸入變量。如此,用戶使用該叫車平臺(tái)的歷史行為特征被考慮在該預(yù)定的預(yù) 測(cè)模型中,從而實(shí)現(xiàn)了基于用戶的歷史使用行為特征來預(yù)測(cè)用戶未來是否會(huì)流失的預(yù)測(cè)方 案。
[0033] 根據(jù)本發(fā)明的一些實(shí)施例,方法100可W基于用戶的多個(gè)行為變量中的每個(gè)用戶 行為變量在不同時(shí)間段中的取值來獲得多個(gè)輸入變量。例如,如果預(yù)測(cè)模型需要N個(gè)輸入 變量,而被考慮的行為變量包括兩個(gè)行為變量,即行為變量A和行為變量B,則可W根據(jù)行 為變量A在上個(gè)月的上旬的取值A(chǔ)1、行為變量A在上個(gè)月的中旬的取值A(chǔ)2、行為變量A在 上個(gè)月的下旬的取值A(chǔ)3 ; W及行為變量B在上個(gè)月的上旬的取值B1、行為變量B在上個(gè)月 的中旬的取值B2、行為變量B在上個(gè)月的下旬的取值B3來獲得該N個(gè)輸入變量,具體的方 法可W是對(duì)行為變量在不同時(shí)間段中的取值進(jìn)行預(yù)定的運(yùn)算,從而可W得到比=個(gè)更多的 輸入變量值。
[0034] 本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,上面的示例僅是用于解釋和說明本發(fā)明的實(shí)施例的 具體示例。本發(fā)明的范圍并不限于該具體的示例,例如,本發(fā)明的輸入變量的個(gè)數(shù)N可W根 據(jù)具體的預(yù)測(cè)要求或者預(yù)測(cè)結(jié)構(gòu)的好壞進(jìn)行適應(yīng)性地設(shè)置。此外,用戶行為變量的個(gè)數(shù)也 不限于兩個(gè),可W根據(jù)實(shí)際的應(yīng)用情況來選擇更多或者更少個(gè)數(shù)的行為變量來產(chǎn)生N個(gè)輸 入變量。進(jìn)一步地,上面的示例中的"上個(gè)月"、"上旬"、"中旬"、"下旬"也都是對(duì)于方法100 中的"不同時(shí)間段"的具體示例,在實(shí)際的應(yīng)用中,本領(lǐng)域的技術(shù)人員可W根據(jù)實(shí)際情況進(jìn) 行其他選取,例如,"上兩個(gè)月"、"上周"、或者更長(zhǎng)或更短的時(shí)間范圍,本發(fā)明的保護(hù)范圍不 限于此。最后,如下面進(jìn)一步討論的,對(duì)行為變量在不同時(shí)間段中的取值進(jìn)行的預(yù)定運(yùn)算并 不限于某一種特定的運(yùn)算,而是只要能夠根據(jù)行為變量在不同時(shí)間段中的取值而產(chǎn)生N個(gè) 輸入變量W輸入預(yù)測(cè)模型的運(yùn)算都是該里所謂的"預(yù)定的運(yùn)算"。
[0035] 根據(jù)本發(fā)明的一些實(shí)施例,方法100可W通過用戶的所述多個(gè)行為變量中的每個(gè) 用戶行為變量在不同時(shí)間段中的取值、該些取值之間的差值、該些取值之間的比值、該些取 值的平均值、W及該些取值的方差值中的至少一項(xiàng),來獲得多個(gè)所述輸入變量。例如,還 是接著采用上面提到的示例,方法100可W使用A1、A2、A3和B1、B2、B3本身,W及類似 (A1-A2)、炬 1-B2)、(A1-B2)等差值,類似 A1/A2、B1/B3、A1/B1 等的比值,A1 至 A3 和 B1 至 B3的平均值和方差等來形成N個(gè)輸入變量。應(yīng)當(dāng)理解,本領(lǐng)域的技術(shù)人員還可W采用本發(fā) 明的實(shí)施例中未提到的其他運(yùn)算來從每個(gè)用戶行為變量在不同時(shí)間段中的取值獲得多個(gè) 輸入變量。
[0036] 根據(jù)本發(fā)明的一些實(shí)施例,方法100中所采用的用戶的行為變量包括接單次數(shù)和 在線時(shí)長(zhǎng)。預(yù)測(cè)將流失的用戶在流失前的使用行為會(huì)下降,即用戶行為變量的取值通常會(huì) 下降,因此可W首選接單次數(shù)、在線時(shí)長(zhǎng)等使用行為變量來進(jìn)行方法100,因?yàn)樵诰€時(shí)長(zhǎng)和 接單次數(shù)可能是其他間接原因?qū)е碌闹苯咏Y(jié)果變量。但是,本領(lǐng)域的技術(shù)人員可W理解,如 果通過該兩個(gè)變量的變化不能很好的得出預(yù)測(cè)流失的預(yù)測(cè)模型,則可添加其他直接體驗(yàn)參 數(shù)對(duì)預(yù)測(cè)模型調(diào)優(yōu),例如,未使用叫車平臺(tái)的天數(shù)等。
[0037] 接著,方法100前進(jìn)至步驟102。在步驟102中,將判斷用戶是否將會(huì)流失的變量 確定為預(yù)測(cè)模型的輸出變量。如上面所提到的,預(yù)測(cè)叫車平臺(tái)的用戶是否流失的該個(gè)問題 中,預(yù)測(cè)問題是一個(gè)二分類問題,即流失或者不流失。因此,預(yù)測(cè)模型的輸出變量應(yīng)當(dāng)是一 個(gè)只有兩種可能取值的變量,并且該兩種可能取值分別對(duì)應(yīng)于用戶將會(huì)流失和用戶將不會(huì) 流失。
[003引根據(jù)本發(fā)明的一些實(shí)施例,方法100還可W基于對(duì)輸入變量和輸出變量所進(jìn)行的 相關(guān)性分析或數(shù)據(jù)分布分析,來進(jìn)一步篩選預(yù)定的預(yù)測(cè)模型的輸入變量。例如,可W首選 對(duì)輸入變量、輸出變量進(jìn)行相關(guān)性、數(shù)據(jù)分布等基礎(chǔ)分析,意在剔除輸入?yún)?shù)之間相關(guān)性大 的、輸入變量與輸出變量相關(guān)性較小的、數(shù)據(jù)分布趨于集中的等,并進(jìn)行不規(guī)則數(shù)據(jù)的清 洗。
[0039] 接著,方法100前進(jìn)至步驟103。在步驟103中,將輸入變量和輸出變量作為歷史 數(shù)據(jù),對(duì)預(yù)測(cè)模型進(jìn)行訓(xùn)練。根據(jù)本發(fā)明的一些實(shí)施例,該樣的訓(xùn)練包括如下的具體步驟: 將輸入變量輸入預(yù)測(cè)模型,計(jì)算得出輸出變量的取值;將計(jì)算得出輸出變量的取值與輸出 變量的已知值相比較而得到誤差;根據(jù)該誤差來調(diào)整預(yù)測(cè)模型;W及迭代進(jìn)行計(jì)算、比較 和調(diào)整,直到該誤差為零或者迭代次數(shù)達(dá)到預(yù)定最大次數(shù)。本領(lǐng)域的技術(shù)人員可W理解,該 最大次數(shù)可W由技術(shù)人員根據(jù)具體的應(yīng)用環(huán)境來設(shè)置。
[0040] 根據(jù)本發(fā)明的一些實(shí)施例,如果預(yù)測(cè)模型是基于神經(jīng)網(wǎng)絡(luò)算法的模型,則根據(jù)該 誤差來調(diào)整預(yù)測(cè)模型包括;根據(jù)該誤差來調(diào)整基于神經(jīng)網(wǎng)絡(luò)算法的模型的輸入變量的數(shù) 量、隱層的數(shù)量、隱層神經(jīng)元的數(shù)量、隱層的傳遞函數(shù)、W及輸出層的傳遞函數(shù)中的至少一 項(xiàng)。其中,調(diào)整隱層的傳遞函數(shù)還包括調(diào)整各個(gè)神經(jīng)元的權(quán)系數(shù)。
[0041] 在使用歷史數(shù)據(jù)對(duì)預(yù)測(cè)模型訓(xùn)練完畢之后,接下來,方法100前進(jìn)至步驟104。在 步驟104中,基于經(jīng)訓(xùn)練的所述預(yù)測(cè)模型,來預(yù)測(cè)用戶是否將會(huì)流失。根據(jù)本發(fā)明的一些實(shí) 施例,根據(jù)用戶最近使用叫車平臺(tái)而新產(chǎn)生的行為變量來得到N個(gè)輸入變量的值,將輸入 變量的值輸入到經(jīng)訓(xùn)練預(yù)測(cè)模型,經(jīng)過經(jīng)訓(xùn)練預(yù)測(cè)模型的計(jì)算,可W得出用戶是否將會(huì)流 失的預(yù)測(cè)結(jié)果。
[0042] 在得到了經(jīng)訓(xùn)練的預(yù)測(cè)模型,W及使用經(jīng)訓(xùn)練的預(yù)測(cè)模型來進(jìn)行預(yù)測(cè)的預(yù)測(cè)結(jié)果 之后,可W對(duì)該預(yù)測(cè)模型進(jìn)行模型的評(píng)估和調(diào)優(yōu)。
[0043] 根據(jù)本發(fā)明的一些實(shí)施例,可W使用W下各項(xiàng)中至少一項(xiàng)作為評(píng)價(jià)指標(biāo)來評(píng)價(jià)預(yù) 測(cè)模型的預(yù)測(cè)結(jié)果;準(zhǔn)確率、覆蓋率、在所有實(shí)際為流失的樣本中被正確判斷為流失之比 率、W及在所有實(shí)際為流失的樣本中被錯(cuò)誤判斷為流失之比率;并且基于該評(píng)價(jià)來調(diào)整優(yōu) 化預(yù)測(cè)模型,或者從多個(gè)經(jīng)訓(xùn)練的預(yù)測(cè)模型中選出最優(yōu)的預(yù)測(cè)模型。
[0044] 下面詳細(xì)地介紹各個(gè)評(píng)價(jià)指標(biāo),準(zhǔn)確率二預(yù)測(cè)的準(zhǔn)確流失司機(jī)數(shù)/預(yù)測(cè)的所有流 失司機(jī)數(shù),準(zhǔn)確率越高,模型效果越好。覆蓋率二預(yù)測(cè)的準(zhǔn)確流失司機(jī)數(shù)/全部實(shí)際流失司 機(jī)數(shù),覆蓋率越高,模型效果越好。TPR ;在所有實(shí)際為流失的樣本中,被正確地判斷為流失 之比率,TPR = TP/(TP+FN)。FPR ;在所有實(shí)際為非流失的樣本中,被錯(cuò)誤地判斷為流失之 比率,F(xiàn)PR = FP/(FP+TN)。其中,TP是被正確地判斷為流失的樣本,(TP+FN)是所有實(shí)際為 流失的樣本;FP是被錯(cuò)誤地判斷為流失的樣本,(FP+TN)是所有實(shí)際為非流失的樣本。圖 6中示出了根據(jù)本公開內(nèi)容稍后描述的一個(gè)具體實(shí)施例的預(yù)測(cè)模型的準(zhǔn)確率和命中率的示 意圖。
[0045] 根據(jù)本發(fā)明的一些實(shí)施例,可W使用ROC空間的方法來評(píng)價(jià)預(yù)測(cè)模型的預(yù)測(cè)結(jié) 果。
[0046] 圖7示出了根據(jù)本公開內(nèi)容稍后描述的一個(gè)具體實(shí)施例的預(yù)測(cè)模型的ROC曲線的 示意圖。如圖7所示,ROC空間將FPR定義為X軸,TPR定義為Y軸。給定一個(gè)的闊值,就能 從所有樣本的(流失/非流失)真實(shí)值和預(yù)測(cè)值計(jì)算出一個(gè)狂=FPR,Y = TPR)坐標(biāo)點(diǎn)。 所有坐標(biāo)點(diǎn)繪制出了該條曲線,ROC曲線下方的面積稱為AUC,AUC值越大的分類器,正確率 越高。
[0047] 根據(jù)本發(fā)明的一些實(shí)施例,如果預(yù)測(cè)模型是基于神經(jīng)網(wǎng)絡(luò)的模型,則調(diào)優(yōu)可W通 過對(duì)輸入樣本的精準(zhǔn)篩選,輸入變量的增加、減少,對(duì)隱層神經(jīng)元個(gè)數(shù)的設(shè)置等等來進(jìn)行。
[0048] 根據(jù)本發(fā)明的一些實(shí)施例,對(duì)預(yù)測(cè)模型的評(píng)估包括,例如;W 6月有使用量、7月上 旬無使用量用戶司機(jī)做輸入樣本訓(xùn)練,訓(xùn)練得到=組最優(yōu)的流失預(yù)測(cè)模型。通過7月有使 用量、8月上旬無使用司機(jī)作為樣本輸入到模型,輸出得到標(biāo)記清單,對(duì)比實(shí)際流失數(shù)據(jù),得 到命中率、準(zhǔn)確率分別進(jìn)行對(duì)比,可選出最優(yōu)的一組作為最終模型。
[0049] 圖2示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的一種預(yù)測(cè)叫車平臺(tái)的用戶流失的裝置200 的框圖。如圖2所示出的,裝置200可W包括輸入變量確定單元201、輸出變量確定單元 202、訓(xùn)練單元203、W及預(yù)測(cè)單元204。
[0化0] 根據(jù)本發(fā)明的一些實(shí)施例,輸入變量確定單元201可W被配置為,基于用戶的行 為變量來獲得預(yù)定的預(yù)測(cè)模型的輸入變量;輸出變量確定單元202被配置為,將判斷用戶 是否將會(huì)流失的變量確定為預(yù)測(cè)模型的輸出變量;訓(xùn)練單元203被配置為,將輸入變量和 輸出變量作為歷史數(shù)據(jù),對(duì)預(yù)測(cè)模型進(jìn)行訓(xùn)練;并且預(yù)測(cè)單元204被配置為,基于經(jīng)訓(xùn)練的 預(yù)測(cè)模型,來預(yù)測(cè)用戶是否將會(huì)流失。
[0化1] 根據(jù)本發(fā)明的一些實(shí)施例,預(yù)定的預(yù)測(cè)模型可W包括;基于神經(jīng)網(wǎng)絡(luò)算法的模型、 基于決策樹的模型、或者基于邏輯回歸算法的模型。
[0化2] 根據(jù)本發(fā)明的一些實(shí)施例,輸入變量確定單元201可W進(jìn)一步被配置為;基于用 戶的多個(gè)行為變量中的每個(gè)用戶行為變量在不同時(shí)間段中的取值來獲得多個(gè)輸入變量。 [0化3] 根據(jù)本發(fā)明的一些實(shí)施例,輸入變量確定單元201可W進(jìn)一步被配置為;通過用 戶的多個(gè)行為變量中的每個(gè)用戶行為變量在不同時(shí)間段中的取值、該些取值之間的差值、 該些取值之間的比值、該些取值的平均值、W及該些取值的方差值中的至少一項(xiàng),來獲得多 個(gè)輸入變量。
[0化4] 根據(jù)本發(fā)明的一些實(shí)施例,用戶的行為變量可W包括;接單次數(shù)和在線時(shí)長(zhǎng)。 [0化5] 根據(jù)本發(fā)明的一些實(shí)施例,輸出變量確定單元202可W進(jìn)一步被配置為;將只有 兩種可能取值的變量作為輸出變量,兩種可能取值分別對(duì)應(yīng)于用戶將會(huì)流失和用戶將不會(huì) 流失。
[0化6] 根據(jù)本發(fā)明的一些實(shí)施例,輸入變量確定單元201可W進(jìn)一步被配置為;基于對(duì) 輸入變量和輸出變量所進(jìn)行的相關(guān)性分析或數(shù)據(jù)分布分析,來進(jìn)一步篩選預(yù)定的預(yù)測(cè)模型 的輸入變量。
[0化7] 根據(jù)本發(fā)明的一些實(shí)施例,訓(xùn)練單元203可W進(jìn)一步被配置為:將輸入變量輸入 所述預(yù)測(cè)模型,計(jì)算得出輸出變量的取值;將計(jì)算得出輸出變量的取值與輸出變量的已知 值相比較而得到誤差;根據(jù)誤差來調(diào)整預(yù)測(cè)模型;W及迭代進(jìn)行計(jì)算、比較和調(diào)整,直到誤 差為零或者迭代次數(shù)達(dá)到預(yù)定最大次數(shù)。
[0化引根據(jù)本發(fā)明的一些實(shí)施例,如果預(yù)測(cè)模型是基于神經(jīng)網(wǎng)絡(luò)算法的模型,則訓(xùn)練單 元203可W進(jìn)一步被配置為:根據(jù)誤差來調(diào)整基于神經(jīng)網(wǎng)絡(luò)算法的模型的輸入變量的數(shù) 量、隱層的數(shù)量、隱層神經(jīng)元的數(shù)量、隱層的傳遞函數(shù)、W及輸出層的傳遞函數(shù)中的至少一 項(xiàng)。
[0化9] 根據(jù)本發(fā)明的一些實(shí)施例,裝置200可W進(jìn)一步包括評(píng)價(jià)單元,該評(píng)價(jià)單元可W 被配置為對(duì)預(yù)測(cè)模型進(jìn)行評(píng)價(jià)。
[0060] 根據(jù)本發(fā)明的一些實(shí)施例,可W使用W下各項(xiàng)中至少一項(xiàng)作為評(píng)價(jià)指標(biāo)來評(píng)價(jià)預(yù) 測(cè)模型的預(yù)測(cè)結(jié)果;準(zhǔn)確率、覆蓋率、在所有實(shí)際為流失的樣本中被正確判斷為流失之比 率、w及在所有實(shí)際為流失的樣本中被錯(cuò)誤判斷為流失之比率;并且基于所述評(píng)價(jià)來調(diào)整 優(yōu)化所述預(yù)測(cè)模型,或者從多個(gè)經(jīng)訓(xùn)練的預(yù)測(cè)模型中選出最優(yōu)的預(yù)測(cè)模型。根據(jù)本發(fā)明的 一些實(shí)施例,可W使用ROC空間的方法來評(píng)價(jià)預(yù)測(cè)模型的預(yù)測(cè)結(jié)果。
[0061] 下面W基于神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)模型為例來具體地描述根據(jù)本發(fā)明的一個(gè)具體實(shí)施 例的實(shí)施方式。
[0062] 圖3示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的基于神經(jīng)網(wǎng)絡(luò)算法的預(yù)測(cè)模型的結(jié)構(gòu)框 圖。如圖3所示出的,該預(yù)測(cè)模型包括;包括多個(gè)輸入節(jié)點(diǎn)的輸入層,在圖中W Input示出; 包括多個(gè)隱層神經(jīng)元的隱層,在圖中W Hidden示出;W及包括多個(gè)輸出節(jié)點(diǎn)的輸出層,在 圖中W Ou化ut示出。
[0063] 首先舉例定義幾組數(shù)據(jù)進(jìn)行說明,負(fù)樣本;8月有使用行為,8月上旬無使用行為 的司機(jī)。正樣本;8月有使用行為,8月上旬依然有使用行為的司機(jī)。待預(yù)測(cè)樣本:假設(shè)今天 是10月1日,可W得到9月有使用行為司機(jī)數(shù)據(jù),但在10月1日的時(shí)間點(diǎn)上不知道有多少 在10月上旬會(huì)流失,要基于現(xiàn)有數(shù)據(jù)進(jìn)行預(yù)測(cè)司機(jī)是否流失。
[0064] 將歷史上的正樣本、負(fù)樣本數(shù)據(jù)進(jìn)行訓(xùn)練,評(píng)估后得到一組最優(yōu)模型。該模型是將 正樣本、負(fù)樣本司機(jī)在8月的不同使用行為作為各自特征,可W對(duì)新輸入數(shù)據(jù)的特征與正 樣本、負(fù)樣本相比較,再把新輸入數(shù)據(jù)歸類為正樣本或負(fù)樣本的同類。即待預(yù)測(cè)樣本作為輸 入,通過訓(xùn)練好的流失模型進(jìn)行一系列計(jì)算,輸出結(jié)果會(huì)對(duì)輸入的司機(jī)清單進(jìn)行兩種標(biāo)記, 1會(huì)流失,-1不會(huì)流失。該樣便在10月1日提前知道了在10月上旬即將流失的司機(jī)清單。 [00化]預(yù)測(cè)模型的訓(xùn)練計(jì)算過程如下,在圖3中,X1,X2,…,Xn是輸入樣本的各個(gè)變量, W1,W2,…,Wn是權(quán)系數(shù)。
[0066] Hi =E Wi*Xi = W1 X1+W2 X化…+Wn Xn,
[0067] 其中HI,肥,…,化是隱層神經(jīng)元,WH1,W肥,…,WHn是化的各個(gè)權(quán)系數(shù)。
[0068] Y(t) = f ( E WHi地i-日),0 是偏移量
[0069] f[u]是階躍函數(shù):
[0070]
【權(quán)利要求】
1. 一種預(yù)測(cè)叫車平臺(tái)的用戶流失的方法,包括: 基于用戶的行為變量來獲得預(yù)定的預(yù)測(cè)模型的輸入變量; 將判斷用戶是否將會(huì)流失的變量確定為所述預(yù)測(cè)模型的輸出變量; 將所述輸入變量和所述輸出變量作為歷史數(shù)據(jù),對(duì)所述預(yù)測(cè)模型進(jìn)行訓(xùn)練;以及 基于經(jīng)訓(xùn)練的所述預(yù)測(cè)模型,來預(yù)測(cè)用戶是否將會(huì)流失。
2. 根據(jù)權(quán)利要求1所述的方法,其中所述預(yù)定的預(yù)測(cè)模型包括: 基于神經(jīng)網(wǎng)絡(luò)算法的模型、基于決策樹的模型、或者基于邏輯回歸算法的模型。
3. 根據(jù)權(quán)利要求1所述的方法,其中基于用戶的行為變量來獲得預(yù)定的預(yù)測(cè)模型的輸 入變量包括: 基于用戶的多個(gè)行為變量中的每個(gè)用戶行為變量在不同時(shí)間段中的取值來獲得多個(gè) 所述輸入變量。
4. 根據(jù)權(quán)利要求3所述的方法,其中基于用戶的多個(gè)行為變量中的每個(gè)用戶行為變量 在不同時(shí)間段中的取值來獲得多個(gè)所述輸入變量包括: 通過用戶的所述多個(gè)行為變量中的每個(gè)用戶行為變量在不同時(shí)間段中的取值、這些取 值之間的差值、這些取值之間的比值、這些取值的平均值、以及這些取值的方差值中的至少 一項(xiàng),來獲得多個(gè)所述輸入變量。
5. 根據(jù)權(quán)利要求1所述的方法,其中用戶的所述行為變量包括:接單次數(shù)和在線時(shí)長(zhǎng)。
6. 根據(jù)權(quán)利要求1所述的方法,其中將判斷用戶是否將會(huì)流失的變量確定為所述預(yù)測(cè) 模型的輸出變量包括: 將只有兩種可能取值的變量作為所述輸出變量,所述兩種可能取值分別對(duì)應(yīng)于用戶將 會(huì)流失和用戶將不會(huì)流失。
7. 根據(jù)權(quán)利要求1所述的方法,進(jìn)一步包括: 基于對(duì)輸入變量和輸出變量所進(jìn)行的相關(guān)性分析或數(shù)據(jù)分布分析,來進(jìn)一步篩選所述 預(yù)定的預(yù)測(cè)模型的輸入變量。
8. 根據(jù)權(quán)利要求1所述的方法,其中將所述輸入變量和所述輸出變量作為歷史數(shù)據(jù), 對(duì)預(yù)測(cè)模型進(jìn)行訓(xùn)練包括: 將所述輸入變量輸入所述預(yù)測(cè)模型,計(jì)算得出所述輸出變量的取值; 將計(jì)算得出所述輸出變量的取值與所述輸出變量的已知值相比較而得到誤差; 根據(jù)所述誤差來調(diào)整所述預(yù)測(cè)模型;以及 迭代進(jìn)行所述計(jì)算、所述比較和所述調(diào)整,直到所述誤差為零或者迭代次數(shù)達(dá)到預(yù)定 最大次數(shù)。
9. 根據(jù)權(quán)利要求8所述的方法,其中在所述預(yù)測(cè)模型是基于神經(jīng)網(wǎng)絡(luò)算法的模型時(shí), 根據(jù)所述誤差來調(diào)整所述預(yù)測(cè)模型包括: 根據(jù)所述誤差來調(diào)整所述基于神經(jīng)網(wǎng)絡(luò)算法的模型的輸入變量的數(shù)量、隱層的數(shù)量、 隱層神經(jīng)元的數(shù)量、隱層的傳遞函數(shù)、以及輸出層的傳遞函數(shù)中的至少一項(xiàng)。
10. 根據(jù)權(quán)利要求1所述的方法,進(jìn)一步包括對(duì)所述預(yù)測(cè)模型進(jìn)行評(píng)價(jià)。
11. 根據(jù)權(quán)利要求10所述的方法,其中使用以下各項(xiàng)中至少一項(xiàng)作為評(píng)價(jià)指標(biāo)來評(píng)價(jià) 所述預(yù)測(cè)模型的預(yù)測(cè)結(jié)果:準(zhǔn)確率、覆蓋率、在所有實(shí)際為流失的樣本中被正確判斷為流失 之比率、以及在所有實(shí)際為流失的樣本中被錯(cuò)誤判斷為流失之比率;并且基于所述評(píng)價(jià)來 調(diào)整優(yōu)化所述預(yù)測(cè)模型,或者從多個(gè)經(jīng)訓(xùn)練的預(yù)測(cè)模型中選出最優(yōu)的預(yù)測(cè)模型。
12. 根據(jù)權(quán)利要求10所述的方法,其中使用ROC空間的方法來評(píng)價(jià)所述預(yù)測(cè)模型的預(yù) 測(cè)結(jié)果。
13. -種預(yù)測(cè)叫車平臺(tái)的用戶流失的裝置,包括: 輸入變量確定單元,被配置為基于用戶的行為變量來獲得預(yù)定的預(yù)測(cè)模型的輸入變 量; 輸出變量確定單元,被配置為將判斷用戶是否將會(huì)流失的變量確定為所述預(yù)測(cè)模型的 輸出變量; 訓(xùn)練單元,被配置為將所述輸入變量和所述輸出變量作為歷史數(shù)據(jù),對(duì)所述預(yù)測(cè)模型 進(jìn)行訓(xùn)練;以及 預(yù)測(cè)單元,被配置為基于經(jīng)訓(xùn)練的所述預(yù)測(cè)模型,來預(yù)測(cè)用戶是否將會(huì)流失。
14. 根據(jù)權(quán)利要求13所述的裝置,其中所述預(yù)定的預(yù)測(cè)模型包括:基于神經(jīng)網(wǎng)絡(luò)算法 的模型、基于決策樹的模型、或者基于邏輯回歸算法的模型。
15. 根據(jù)權(quán)利要求13所述的裝置,其中所述輸入變量確定單元進(jìn)一步被配置為: 基于用戶的多個(gè)行為變量中的每個(gè)用戶行為變量在不同時(shí)間段中的取值來獲得多個(gè) 所述輸入變量。
16. 根據(jù)權(quán)利要求15所述的裝置,其中所述輸入變量確定單元進(jìn)一步被配置為: 通過用戶的所述多個(gè)行為變量中的每個(gè)用戶行為變量在不同時(shí)間段中的取值、這些取 值之間的差值、這些取值之間的比值、這些取值的平均值、以及這些取值的方差值中的至少 一項(xiàng),來獲得多個(gè)所述輸入變量。
17. 根據(jù)權(quán)利要求13所述的裝置,其中用戶的所述行為變量包括:接單次數(shù)和在線時(shí) 長(zhǎng)。
18. 根據(jù)權(quán)利要求13所述的裝置,其中所述輸出變量確定單元進(jìn)一步被配置為: 將只有兩種可能取值的變量作為所述輸出變量,所述兩種可能取值分別對(duì)應(yīng)于用戶將 會(huì)流失和用戶將不會(huì)流失。
19. 根據(jù)權(quán)利要求13所述的裝置,其中所述輸入變量確定單元進(jìn)一步被配置為: 基于對(duì)輸入變量和輸出變量所進(jìn)行的相關(guān)性分析或數(shù)據(jù)分布分析,來進(jìn)一步篩選所述 預(yù)定的預(yù)測(cè)模型的輸入變量。
20. 根據(jù)權(quán)利要求13所述的裝置,其中所述訓(xùn)練單元進(jìn)一步被配置為: 將所述輸入變量輸入所述預(yù)測(cè)模型,計(jì)算得出所述輸出變量的取值; 將計(jì)算得出所述輸出變量的取值與所述輸出變量的已知值相比較而得到誤差; 根據(jù)所述誤差來調(diào)整所述預(yù)測(cè)模型;以及 迭代進(jìn)行所述計(jì)算、所述比較和所述調(diào)整,直到所述誤差為零或者迭代次數(shù)達(dá)到預(yù)定 最大次數(shù)。
21. 根據(jù)權(quán)利要求20所述的裝置,其中在所述預(yù)測(cè)模型是基于神經(jīng)網(wǎng)絡(luò)算法的模型 時(shí),所述訓(xùn)練單元進(jìn)一步被配置為: 根據(jù)所述誤差來調(diào)整所述基于神經(jīng)網(wǎng)絡(luò)算法的模型的輸入變量的數(shù)量、隱層的數(shù)量、 隱層神經(jīng)元的數(shù)量、隱層的傳遞函數(shù)、以及輸出層的傳遞函數(shù)中的至少一項(xiàng)。
22. 根據(jù)權(quán)利要求13所述的裝置,進(jìn)一步包括:評(píng)價(jià)單元,被配置為對(duì)所述預(yù)測(cè)模型進(jìn) 行評(píng)價(jià)。
23. 根據(jù)權(quán)利要求22所述的裝置,其中使用以下各項(xiàng)中至少一項(xiàng)作為評(píng)價(jià)指標(biāo)來評(píng)價(jià) 所述預(yù)測(cè)模型的預(yù)測(cè)結(jié)果:準(zhǔn)確率、覆蓋率、在所有實(shí)際為流失的樣本中被正確判斷為流失 之比率、以及在所有實(shí)際為流失的樣本中被錯(cuò)誤判斷為流失之比率;并且基于所述評(píng)價(jià)來 調(diào)整優(yōu)化所述預(yù)測(cè)模型,或者從多個(gè)經(jīng)訓(xùn)練的預(yù)測(cè)模型中選出最優(yōu)的預(yù)測(cè)模型。
24. 根據(jù)權(quán)利要求22所述的裝置,其中使用ROC空間的方法來評(píng)價(jià)所述預(yù)測(cè)模型的預(yù) 測(cè)結(jié)果。
【文檔編號(hào)】G06Q50/30GK104504460SQ201410748736
【公開日】2015年4月8日 申請(qǐng)日期:2014年12月9日 優(yōu)先權(quán)日:2014年12月9日
【發(fā)明者】陳國(guó)寶 申請(qǐng)人:北京嘀嘀無限科技發(fā)展有限公司