两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種識(shí)別行為異常用戶的方法及裝置與流程

文檔序號(hào):11386609閱讀:316來源:國知局
一種識(shí)別行為異常用戶的方法及裝置與流程

本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種識(shí)別行為異常用戶的方法及裝置。



背景技術(shù):

現(xiàn)有技術(shù)中識(shí)別異常呼叫用戶或詐騙號(hào)碼時(shí),一般先通過用戶自主標(biāo)記、警方與信安部提供黑名單、第三方友商渠道等建立或搜集黑名單,對(duì)黑名單進(jìn)行分類后建立數(shù)據(jù)庫,再將當(dāng)前號(hào)碼與數(shù)據(jù)庫進(jìn)行比對(duì)進(jìn)行當(dāng)前號(hào)碼識(shí)別。該方法不能有效實(shí)時(shí)發(fā)現(xiàn)行為異常的用戶或是涉及詐騙的號(hào)碼。

另一種識(shí)別異常呼叫用戶或詐騙號(hào)碼的方案中,通過算法針對(duì)用戶行為進(jìn)行分析并形成算法模型,該方案能透過現(xiàn)有的數(shù)據(jù)測試算法模型是否正確,并在算法模型實(shí)際上線運(yùn)作后逐步調(diào)整優(yōu)化,但算法模型從上線到穩(wěn)定運(yùn)行所需時(shí)間較長,從而導(dǎo)致在較長時(shí)間內(nèi)無法識(shí)別行為異常用戶。



技術(shù)實(shí)現(xiàn)要素:

為解決上述技術(shù)問題,本發(fā)明實(shí)施例提供一種識(shí)別行為異常用戶的方法及裝置,以減少算法模型上線后的調(diào)整優(yōu)化時(shí)間。

本發(fā)明實(shí)施例的技術(shù)方案是這樣實(shí)現(xiàn)的:

本發(fā)明實(shí)施例提供一種識(shí)別行為異常用戶的方法及裝置,包括:

根據(jù)黑號(hào)碼庫和白號(hào)碼庫在全量話單的信令數(shù)據(jù)中獲取訓(xùn)練信令數(shù)據(jù)和測試信令數(shù)據(jù);

獲取訓(xùn)練信令數(shù)據(jù)中特征值與目標(biāo)的特征值相關(guān)性較高的第一信令數(shù)據(jù);

根據(jù)所述第一信令數(shù)據(jù)的特征值和時(shí)間粒度生成包括衍生指標(biāo)的第一信息表;

使用第一篩選策略對(duì)所述衍生指標(biāo)進(jìn)行篩選,生成包括顯著指標(biāo)的第二信息表;

將所述第一信息表和所述第二信息表結(jié)合,生成訓(xùn)練信息表;

基于所述訓(xùn)練信息表建立第一模型,并使用所述測試信令數(shù)據(jù)對(duì)所述第一模型進(jìn)行測試,得到測試結(jié)果;

根據(jù)所述測試結(jié)果對(duì)所述第一模型進(jìn)行評(píng)估,得到評(píng)估優(yōu)化后的第二模型,以識(shí)別行為異常用戶。

上述方案中,所述根據(jù)黑號(hào)碼庫和白號(hào)碼庫在全量話單的信令數(shù)據(jù)中獲取訓(xùn)練信令數(shù)據(jù)和測試信令數(shù)據(jù),包括:

從數(shù)據(jù)庫中取出全量話單的信令數(shù)據(jù);

根據(jù)黑號(hào)碼庫和白號(hào)碼庫,在全量話單中獲取黑樣本數(shù)據(jù)和白樣本數(shù)據(jù);

通過黑樣本數(shù)據(jù)和白樣本數(shù)據(jù)在全量話單的信令數(shù)據(jù)中獲取訓(xùn)練信令數(shù)據(jù)和測試信令數(shù)據(jù)。

上述方案中,所述獲取訓(xùn)練信令數(shù)據(jù)中特征值與目標(biāo)的特征值相關(guān)性較高的第一信令數(shù)據(jù),包括:

將訓(xùn)練信令數(shù)據(jù)中特征值與目標(biāo)的特征值無關(guān)的信令數(shù)據(jù)或特征值為噪聲的信令數(shù)據(jù)刪除,獲取訓(xùn)練信令數(shù)據(jù)中特征值與目標(biāo)的特征值相關(guān)性較高的第一信令數(shù)據(jù)。

上述方案中,所述使用第一篩選策略對(duì)所述衍生指標(biāo)進(jìn)行篩選,包括:

對(duì)所述衍生指標(biāo)的特征值兩兩之間的相關(guān)性進(jìn)行相關(guān)分析,根據(jù)分析結(jié)果將多余特征值篩除;

對(duì)所述衍生指標(biāo)的特征值與目標(biāo)的特征值的相關(guān)性進(jìn)行維規(guī)約分析,根據(jù)分析結(jié)果將不相關(guān)特征值篩除。

上述方案中,所述使用第一篩選策略對(duì)所述衍生指標(biāo)進(jìn)行篩選,還包括:

對(duì)所述衍生指標(biāo)進(jìn)行方差分析和/或去噪處理。

上述方案中,所述基于所述訓(xùn)練信息表建立第一模型,并使用所述測試信令數(shù)據(jù)對(duì)所述第一模型進(jìn)行測試,得到測試結(jié)果,包括:

基于所述訓(xùn)練信息表和分類算法構(gòu)建分類器,并使用測試信令數(shù)據(jù)對(duì)所述分類器進(jìn)行測試,并記錄相應(yīng)測試結(jié)果。

上述方案中,所述根據(jù)所述測試結(jié)果對(duì)所述第一模型進(jìn)行評(píng)估,包括:

對(duì)所述第一模型的預(yù)測效果和運(yùn)行效果分別進(jìn)行評(píng)估。

上述方案中,所述通過黑樣本數(shù)據(jù)和白樣本數(shù)據(jù)在全量話單的信令數(shù)據(jù)中獲取訓(xùn)練信令數(shù)據(jù),包括:

獲取全部黑樣本數(shù)據(jù)和部分白樣本數(shù)據(jù)組成所述訓(xùn)練信令數(shù)據(jù);其中,

所述黑樣本數(shù)據(jù)的數(shù)量占所述訓(xùn)練信令數(shù)據(jù)數(shù)量的第一閾值范圍;

在全量話單的信令數(shù)據(jù)中隨機(jī)抽取的白樣本數(shù)據(jù)的數(shù)量占所述訓(xùn)練信令數(shù)據(jù)數(shù)量的第二閾值范圍。

本發(fā)明實(shí)施例提供一種識(shí)別行為異常用戶的裝置,所述裝置包括:

第一獲取單元,用于根據(jù)黑號(hào)碼庫和白號(hào)碼庫在全量話單的信令數(shù)據(jù)中獲取訓(xùn)練信令數(shù)據(jù)和測試信令數(shù)據(jù);

第二獲取單元,用于獲取訓(xùn)練信令數(shù)據(jù)中特征值與目標(biāo)的特征值相關(guān)性較高的第一信令數(shù)據(jù);

第一生成單元,用于根據(jù)所述第一信令數(shù)據(jù)的特征值和時(shí)間粒度生成包括衍生指標(biāo)的第一信息表;

第二生成單元,用于使用第一篩選策略對(duì)所述衍生指標(biāo)進(jìn)行篩選,生成包括顯著指標(biāo)的第二信息表;

第三生成單元,用于將所述第一信息表和所述第二信息表結(jié)合,生成訓(xùn)練信息表;

建模分析單元,用于基于所述訓(xùn)練信息表建立算法模型,并使用所述測試信令數(shù)據(jù)對(duì)所述算法模型進(jìn)行測試;

評(píng)估單元,用于對(duì)測試后的所述算法模型進(jìn)行評(píng)估,得到最優(yōu)算法模型。

上述方案中,所述第一獲取單元還用于:

從數(shù)據(jù)庫中取出全量話單的信令數(shù)據(jù);

根據(jù)黑號(hào)碼庫和白號(hào)碼庫,在全量話單中獲取黑樣本數(shù)據(jù)和白樣本數(shù)據(jù);

通過黑樣本數(shù)據(jù)和白樣本數(shù)據(jù)在全量話單的信令數(shù)據(jù)中獲取訓(xùn)練信令數(shù)據(jù)和測試信令數(shù)據(jù)。

上述方案中,所述第二獲取單元還用于:

將訓(xùn)練信令數(shù)據(jù)中特征值與目標(biāo)的特征值無關(guān)的信令數(shù)據(jù)或特征值為噪聲的信令數(shù)據(jù)刪除,獲取訓(xùn)練信令數(shù)據(jù)中特征值與目標(biāo)的特征值相關(guān)性較高的第一信令數(shù)據(jù)。

上述方案中,所述第二生成單元用于:

對(duì)所述衍生指標(biāo)的特征值兩兩之間的相關(guān)性進(jìn)行相關(guān)分析,根據(jù)分析結(jié)果將多余特征值篩除;

對(duì)所述衍生指標(biāo)的特征值與目標(biāo)的特征值的相關(guān)性進(jìn)行維規(guī)約分析,根據(jù)分析結(jié)果將不相關(guān)特征值篩除。

上述方案中,所述第二生成單元用于:對(duì)所述衍生指標(biāo)進(jìn)行方差分析和/或去噪處理。

上述方案中,所述建模分析單元還用于:

基于所述訓(xùn)練信息表和分類算法構(gòu)建分類器,并使用測試信令數(shù)據(jù)對(duì)所述分類器進(jìn)行測試,并記錄相應(yīng)測試結(jié)果。

上述方案中,所述評(píng)估單元還用于:

對(duì)所述算法模型的預(yù)測效果和運(yùn)行效果分別進(jìn)行評(píng)估。

上述方案中,所述第一獲取單元還用于:

獲取全部黑樣本數(shù)據(jù)和部分白樣本數(shù)據(jù)組成所述訓(xùn)練信令數(shù)據(jù);其中,

所述黑樣本數(shù)據(jù)的數(shù)量占所述訓(xùn)練信令數(shù)據(jù)數(shù)量的第一閾值范圍;

在全量話單的信令數(shù)據(jù)中隨機(jī)抽取的白樣本數(shù)據(jù)的數(shù)量占所述訓(xùn)練信令數(shù)據(jù)數(shù)量的第二閾值范圍。

本發(fā)明實(shí)施例所提供的識(shí)別行為異常用戶的方法及裝置通過獲取訓(xùn)練信令數(shù)據(jù)和測試信令數(shù)據(jù),并基于訓(xùn)練信令數(shù)據(jù)生成訓(xùn)練信息表;之后,基于訓(xùn)練信息表建立算法模型并使用測試信令數(shù)據(jù)進(jìn)行算法模型測試,并經(jīng)過評(píng)估步驟確認(rèn)最優(yōu)算法模型,相比較現(xiàn)有技術(shù)中算法模型上線后才進(jìn)行優(yōu)化調(diào)整,減少了算法模型上線后的調(diào)整優(yōu)化時(shí)間。

附圖說明

圖1為本發(fā)明實(shí)施例識(shí)別行為異常用戶的方法的實(shí)現(xiàn)流程圖;

圖2為本發(fā)明實(shí)施例識(shí)別行為異常用戶的裝置的組成結(jié)構(gòu)示意圖。

具體實(shí)施方式

為了能夠更加詳盡地了解本發(fā)明的特點(diǎn)與技術(shù)內(nèi)容,下面結(jié)合附圖對(duì)本發(fā)明的實(shí)現(xiàn)進(jìn)行詳細(xì)闡述,所附附圖僅供參考說明之用,并非用來限定本發(fā)明。

圖1為本發(fā)明實(shí)施例識(shí)別行為異常用戶的方法的實(shí)現(xiàn)流程圖,如圖1所示,本發(fā)明實(shí)施例提供的識(shí)別行為異常用戶的方法包括:

步驟101,根據(jù)黑號(hào)碼庫和白號(hào)碼庫在全量話單的信令數(shù)據(jù)中獲取訓(xùn)練信令數(shù)據(jù)和測試信令數(shù)據(jù)。

步驟102,獲取訓(xùn)練信令數(shù)據(jù)中特征值與目標(biāo)的特征值相關(guān)性較高的第一信令數(shù)據(jù)。

步驟103,根據(jù)第一信令數(shù)據(jù)的特征值和時(shí)間粒度生成包括衍生指標(biāo)的第一信息表。

步驟104,使用第一篩選策略對(duì)衍生指標(biāo)進(jìn)行篩選,生成包括顯著指標(biāo)的第二信息表。

步驟105,將第一信息表和第二信息表結(jié)合,生成訓(xùn)練信息表。

步驟106,基于訓(xùn)練信息表建立第一模型,并使用測試信令數(shù)據(jù)對(duì)第一模型進(jìn)行測試,得到測試結(jié)果。

步驟107,根據(jù)所述測試結(jié)果對(duì)第一模型進(jìn)行評(píng)估,得到評(píng)估優(yōu)化后的第二模型,以識(shí)別行為異常用戶。

本發(fā)明實(shí)施例提供的識(shí)別行為異常用戶的方法通過對(duì)基礎(chǔ)通話數(shù)據(jù)進(jìn)行各項(xiàng)通話數(shù)據(jù)特征指標(biāo)的識(shí)別及計(jì)算,最終獲得識(shí)別行為異常用戶所需特征指標(biāo)信息表及分析算法,為多種不良、違規(guī)、不法等用戶通話行為分析發(fā)現(xiàn)提供了通用的分析算法構(gòu)建方法。

本發(fā)明實(shí)施例得到的算法模型能夠根據(jù)用戶的異常行為模式,或是詐騙號(hào)碼的異常行為模式,藉由調(diào)整訓(xùn)練信令數(shù)據(jù)為訓(xùn)練信息表,迅速修正算法模型,使得服務(wù)器可以根據(jù)算法模型快速反應(yīng)找出異常用戶與詐騙號(hào)碼,有效減少服務(wù)器運(yùn)算時(shí)間以及提升服務(wù)器效能,進(jìn)而減少算法模型上線后的調(diào)整優(yōu)化時(shí)間。

在通信過程中,負(fù)責(zé)呼叫處理的服務(wù)器會(huì)將所有用戶每次通話的起呼、接聽、掛機(jī)等事件在通訊網(wǎng)絡(luò)中傳輸?shù)男帕钕⑹占⒄?,然后以通話記錄話單方式寫入業(yè)務(wù)平臺(tái)數(shù)據(jù)庫。

在步驟101中,根據(jù)黑號(hào)碼庫和白號(hào)碼庫在全量話單的信令數(shù)據(jù)中獲取訓(xùn)練信令數(shù)據(jù)和測試信令數(shù)據(jù)時(shí),首先從數(shù)據(jù)庫中取出全量話單的信令數(shù)據(jù);再根據(jù)黑號(hào)碼庫和白號(hào)碼庫,在全量話單中獲取黑樣本數(shù)據(jù)和白樣本數(shù)據(jù),其中,黑樣本數(shù)據(jù)與黑號(hào)碼庫對(duì)應(yīng),白樣本數(shù)據(jù)與白樣本庫對(duì)應(yīng);然后通過黑樣本數(shù)據(jù)和白樣本數(shù)據(jù)在全量話單的信令數(shù)據(jù)中獲取模型訓(xùn)練基準(zhǔn)識(shí)別數(shù)據(jù)即訓(xùn)練信令數(shù)據(jù)和測試信令數(shù)據(jù)。

訓(xùn)練信令數(shù)據(jù)由全部黑樣本數(shù)據(jù)和部分白樣本數(shù)據(jù)組成;其中,黑樣本數(shù)據(jù)的數(shù)量占訓(xùn)練信令數(shù)據(jù)數(shù)量的第一閾值范圍;在全量話單的信令數(shù)據(jù)中隨機(jī)抽取的白樣本數(shù)據(jù)的數(shù)量占訓(xùn)練信令數(shù)據(jù)數(shù)量的第二閾值范圍。

訓(xùn)練信令數(shù)據(jù)中組成黑樣本數(shù)據(jù)的信令數(shù)據(jù)為目標(biāo)樣本,需標(biāo)識(shí)出來;組成白樣本的信令數(shù)據(jù)采用隨機(jī)抽取的方式,根據(jù)目標(biāo)樣本的數(shù)量按比例進(jìn)行抽取。通常目標(biāo)樣本的信令數(shù)據(jù)量占訓(xùn)練信令數(shù)據(jù)數(shù)量的第一閾值范圍,該第一閾值范圍為15%-50%。同時(shí),訓(xùn)練信令數(shù)據(jù)為目標(biāo)樣本的信令數(shù)據(jù)與白樣本的信令數(shù)據(jù)的加總組和,因此白樣本的信令數(shù)據(jù)數(shù)量占訓(xùn)練信令數(shù)據(jù)數(shù)量的第二閾值范圍為50%-85%。

測試信令數(shù)據(jù)與訓(xùn)練信令數(shù)據(jù)類似,但是需要選擇與訓(xùn)練信令數(shù)據(jù)不同日期的信令數(shù)據(jù)。測試信令數(shù)據(jù)中,黑樣本的信令數(shù)據(jù)依然需要標(biāo)識(shí)出來,作為算法模型測試檢驗(yàn)的依據(jù)。

測試信令數(shù)據(jù)與訓(xùn)練信令數(shù)據(jù)都基于對(duì)全量用戶通話數(shù)據(jù)的全量采集,不同之處包括時(shí)間、內(nèi)容及目標(biāo)三方面。

首先,獲取的時(shí)間段是相對(duì)獨(dú)立的。舉例來說,訓(xùn)練信令數(shù)據(jù)如果是以2月份第一周的全量通話數(shù)據(jù)為數(shù)據(jù)集合,那么測試信令數(shù)據(jù)可以續(xù)3月份第一周的全量通話數(shù)據(jù)為數(shù)據(jù)集合。

其次,訓(xùn)練信令數(shù)據(jù)中包括已知的黑樣本在本數(shù)據(jù)集合中有通話記錄;而測試信令數(shù)據(jù)中預(yù)先沒有黑樣本的。

最后,訓(xùn)練信令數(shù)據(jù)主要用于基于黑白樣本進(jìn)行分析任務(wù)目標(biāo)算法的學(xué)習(xí),測試信令數(shù)據(jù)主要用于對(duì)算法模型的檢測驗(yàn)證。

信令數(shù)據(jù)的基礎(chǔ)知識(shí)數(shù)據(jù)包括:

全網(wǎng)運(yùn)營商號(hào)段數(shù)據(jù):運(yùn)營商、號(hào)段、歸屬地市;

公共特服號(hào)碼數(shù)據(jù):號(hào)碼、特服行業(yè);

黑名單/白名單數(shù)據(jù):號(hào)碼、行為類型、違規(guī)/合規(guī)標(biāo)識(shí);

彩印用戶:用戶編號(hào)、用戶歸屬地區(qū)、用戶號(hào)碼、業(yè)務(wù)類型;

通話記錄表:通話記錄編號(hào)、主叫號(hào)碼、被叫號(hào)碼、通話起始時(shí)間、通話結(jié)束時(shí)間、掛機(jī)時(shí)間、掛機(jī)方向;

提醒記錄表:提醒記錄編號(hào)、主叫號(hào)碼、被叫號(hào)碼、提醒類型、提醒消息編號(hào)。

在步驟102中,將訓(xùn)練信令數(shù)據(jù)中特征值與目標(biāo)的特征值無關(guān)的信令數(shù)據(jù)或特征值為噪聲的信令數(shù)據(jù)刪除,獲取訓(xùn)練信令數(shù)據(jù)中特征值與目標(biāo)的特征值相關(guān)性較高的第一信令數(shù)據(jù)。

特征值的來源就是信令數(shù)據(jù)中的特征,通過步驟102可以清理信令數(shù)據(jù)中的噪聲數(shù)據(jù)、空缺數(shù)據(jù)和不一致數(shù)據(jù),例如主叫號(hào)碼為空的記錄。

信令數(shù)據(jù)中包括多種特征值,在步驟102中,由眾多特征值中挑選出常用的基礎(chǔ)指標(biāo),并獲取具有基礎(chǔ)指標(biāo)的第一信令數(shù)據(jù)。

基礎(chǔ)指標(biāo)模板如表1所示:

表1基礎(chǔ)指標(biāo)模板列表

在步驟103中,基于第一信令數(shù)據(jù)的基礎(chǔ)指標(biāo),針對(duì)各種呼叫特征進(jìn)行統(tǒng)計(jì),計(jì)算獲得衍生指標(biāo),形成第一信息表。

衍生指標(biāo)的計(jì)算過程,主要是從大批量的信令數(shù)據(jù)的特征值中,基于主叫號(hào)碼、被叫號(hào)碼、呼叫頻次、呼叫時(shí)間間隔、振鈴時(shí)長、通話時(shí)長、釋放方向、釋放原因、接通率、被叫號(hào)碼離散度、被叫歸屬地區(qū)離散度等多種統(tǒng)計(jì)項(xiàng)目,并結(jié)合24小時(shí)、忙時(shí)和閑時(shí)等時(shí)間粒度,可以得到帶有時(shí)間粒度的衍生指標(biāo),例如24小時(shí)內(nèi)的平均通話時(shí)長等,最終形成衍生指標(biāo)的第一信息表。

衍生指標(biāo)列表如表2所示:

表2衍生指標(biāo)列表

由于衍生指標(biāo)之間可能存在相關(guān)性,或者衍生指標(biāo)與目標(biāo)樣本的指標(biāo)之間沒有顯著性,因此需要進(jìn)行對(duì)衍生指標(biāo)進(jìn)行篩選。在步驟104中,首先對(duì)衍生指標(biāo)的特征值兩兩之間的相關(guān)性進(jìn)行相關(guān)分析,根據(jù)分析結(jié)果將多余特征值篩除;對(duì)衍生指標(biāo)的特征值與目標(biāo)的特征值的相關(guān)性進(jìn)行維規(guī)約分析,根據(jù)分析結(jié)果將不相關(guān)特征值篩除;再對(duì)衍生指標(biāo)進(jìn)行方差分析和/或去噪處理,得到顯著指標(biāo),并最終形成顯著指標(biāo)的第二信息表。

其中,顯著指標(biāo)是指某些基礎(chǔ)指標(biāo)或衍生指標(biāo)與目標(biāo)樣本的特征值之間的顯著性很大,可叫做顯著指標(biāo)。

顯著指標(biāo)可設(shè)定為:統(tǒng)計(jì)時(shí)間、主叫號(hào)碼、被叫離散度、呼叫頻次、呼叫接通率、被叫掛機(jī)率、平均通話時(shí)長、短通話頻次、短通話被叫離散度。

維規(guī)約分析對(duì)分析挖掘具有多方面優(yōu)點(diǎn)。例如,降低維度后,能夠一定程度刪除不相關(guān)的特征并降低噪聲,進(jìn)而可有更多的挖掘算法選擇;同時(shí),進(jìn)行維歸約分析后將使得模型更易理解,數(shù)據(jù)結(jié)果可視化效果佳;即便維規(guī)約分析不能將數(shù)據(jù)歸約到二維或三維,數(shù)據(jù)也可以通過觀察屬性或?qū)⑷齻€(gè)屬性可視化的方式,使得組合數(shù)目降低,將帶來挖掘分析的時(shí)間、內(nèi)存及計(jì)算資源的節(jié)約。

在步驟105中,將衍生指標(biāo)的信息表與顯著指標(biāo)的信息表結(jié)合,形成訓(xùn)練信息表。

訓(xùn)練信息表由訓(xùn)練信令數(shù)據(jù)調(diào)整得到,代替訓(xùn)練信令數(shù)據(jù)用于后續(xù)建模。

在步驟106中,基于訓(xùn)練信息表和分類算法構(gòu)建分類器,并使用測試信令數(shù)據(jù)對(duì)分類器進(jìn)行測試,并記錄相應(yīng)測試結(jié)果。

在本申請(qǐng)中,可以使用r語言基于訓(xùn)練信息表和分類算法構(gòu)建分類器,但本申請(qǐng)不以此為限,也可使用其它種類的編程語言進(jìn)行構(gòu)建。

相應(yīng)測試結(jié)果用于后續(xù)的算法模型的評(píng)估與優(yōu)化步驟。

可以使用的分類算法包括:決策樹,邏輯回歸,隨機(jī)森林,支持向量機(jī),神經(jīng)網(wǎng)絡(luò)模型等算法。同時(shí),可以使用裝袋(bagging)或提升(boosting)方法將多個(gè)分類器結(jié)果通過構(gòu)造預(yù)測函數(shù)系列組合,使分類預(yù)測結(jié)果更精準(zhǔn)。

在步驟107中,對(duì)算法模型的預(yù)測效果和運(yùn)行效果分別進(jìn)行評(píng)估,得到評(píng)估優(yōu)化后的第二模型,以識(shí)別行為異常用戶。

其中,預(yù)測效果包括對(duì)該模型的查準(zhǔn)率,查全率,f-measure等指標(biāo)的預(yù)測,其中,查準(zhǔn)率又稱精準(zhǔn)率,查全率又稱召回率,f-measure又稱f-score。

在考察查全率時(shí),首先需要根據(jù)測試信令數(shù)據(jù)測試的結(jié)構(gòu),構(gòu)建如表3所示的混淆矩陣。

表3混淆矩陣

根據(jù)該矩陣,可以根據(jù)以下公式計(jì)算出相應(yīng)指標(biāo),從而衡量該模型的表現(xiàn)。其中:

預(yù)測為詐騙的精準(zhǔn)度precison計(jì)算公式為:

預(yù)測為詐騙的召回率recall計(jì)算公式為:

相互制約的精準(zhǔn)度與召回率的調(diào)和平均值f-score計(jì)算公式為:

表征分類器對(duì)于整個(gè)樣本的判定能力的準(zhǔn)確率a計(jì)算公式為:

運(yùn)行效果包括模型的運(yùn)行時(shí)間、模型的魯棒性、模型的可擴(kuò)展性等方面內(nèi)容。其中,魯棒性是指描述在數(shù)據(jù)帶有噪聲和有數(shù)據(jù)遺失情況下,模型仍能進(jìn)行正確預(yù)測的能力;可擴(kuò)展性是描述對(duì)處理大量數(shù)據(jù)并構(gòu)造相應(yīng)學(xué)習(xí)模型所需要的能力。

在每個(gè)行為分析任務(wù)得到的分析算法公式中各項(xiàng)參數(shù)調(diào)整變動(dòng)后,對(duì)分析算法執(zhí)行結(jié)果經(jīng)過上述考察,最終選定各項(xiàng)參數(shù)的配置值,以實(shí)現(xiàn)算法的現(xiàn)網(wǎng)部署配置要求。

本發(fā)明實(shí)施例所提供的識(shí)別行為異常用戶的方法通過獲取訓(xùn)練信令數(shù)據(jù)和測試信令數(shù)據(jù),并基于訓(xùn)練信令數(shù)據(jù)生成訓(xùn)練信息表;之后,基于訓(xùn)練信息表建立算法模型并使用測試信令數(shù)據(jù)進(jìn)行算法模型測試,并經(jīng)過評(píng)估步驟確認(rèn)最優(yōu)算法模型,相比較現(xiàn)有技術(shù)中算法模型上線后才進(jìn)行優(yōu)化調(diào)整,減少了算法模型上線后的調(diào)整優(yōu)化時(shí)間。

如圖2所示,本發(fā)明實(shí)施例提供的識(shí)別行為異常用戶的裝置包括:

第一獲取單元201,用于根據(jù)黑號(hào)碼庫和白號(hào)碼庫在全量話單的信令數(shù)據(jù)中獲取訓(xùn)練信令數(shù)據(jù)和測試信令數(shù)據(jù)。

第二獲取單元202,用于獲取訓(xùn)練信令數(shù)據(jù)中特征值與目標(biāo)的特征值相關(guān)性較高的第一信令數(shù)據(jù)。

第一生成單元203,用于根據(jù)第一信令數(shù)據(jù)的特征值和時(shí)間粒度生成包括衍生指標(biāo)的第一信息表。

第二生成單元204,用于使用第一篩選策略對(duì)衍生指標(biāo)進(jìn)行篩選,生成包括顯著指標(biāo)的第二信息表。

第三生成單元205,用于將第一信息表和第二信息表結(jié)合,生成訓(xùn)練信息表。

建模分析單元206,用于基于訓(xùn)練信息表建立第一模型,并使用測試信令數(shù)據(jù)對(duì)第一模型進(jìn)行測試,得到測試結(jié)果。

評(píng)估單元207,用于根據(jù)所述測試結(jié)果對(duì)第一模型進(jìn)行評(píng)估,得到評(píng)估優(yōu)化后的第二模型,以識(shí)別行為異常用戶。

本發(fā)明實(shí)施例提供的識(shí)別行為異常用戶的裝置通過對(duì)基礎(chǔ)通話數(shù)據(jù)進(jìn)行各項(xiàng)通話數(shù)據(jù)特征指標(biāo)的識(shí)別及計(jì)算,最終獲得特定呼叫行為分析判斷所需特征指標(biāo)信息表及分析算法,為多種不良、違規(guī)、不法等用戶通話行為分析發(fā)現(xiàn)提供了通用的分析算法構(gòu)建方法。

在通信過程中,負(fù)責(zé)呼叫處理的服務(wù)器會(huì)將所有用戶每次通話的起呼、接聽、掛機(jī)等事件在通訊網(wǎng)絡(luò)中傳輸?shù)男帕钕⑹占⒄?,然后以通話記錄話單方式寫入業(yè)務(wù)平臺(tái)數(shù)據(jù)庫。

具體地,第一獲取單元201首先從數(shù)據(jù)庫中取出全量話單的信令數(shù)據(jù);再根據(jù)黑號(hào)碼庫和白號(hào)碼庫,在全量話單中獲取黑樣本數(shù)據(jù)和白樣本數(shù)據(jù),其中,黑樣本數(shù)據(jù)與黑號(hào)碼庫對(duì)應(yīng),白樣本數(shù)據(jù)與白樣本庫對(duì)應(yīng);然后,通過黑樣本數(shù)據(jù)和白樣本數(shù)據(jù)在全量話單的信令數(shù)據(jù)中獲取訓(xùn)練信令數(shù)據(jù)和測試信令數(shù)據(jù)。

訓(xùn)練信令數(shù)據(jù)由全部黑樣本數(shù)據(jù)和部分白樣本數(shù)據(jù)組成;其中,黑樣本數(shù)據(jù)的數(shù)量占訓(xùn)練信令數(shù)據(jù)數(shù)量的第一閾值范圍;在全量話單的信令數(shù)據(jù)中隨機(jī)抽取的白樣本數(shù)據(jù)的數(shù)量占訓(xùn)練信令數(shù)據(jù)數(shù)量的第二閾值范圍。

訓(xùn)練信令數(shù)據(jù)中組成黑樣本數(shù)據(jù)的信令數(shù)據(jù)為目標(biāo)樣本,需標(biāo)識(shí)出來;組成白樣本的信令數(shù)據(jù)采用隨機(jī)抽取的方式,根據(jù)目標(biāo)樣本的數(shù)量按比例進(jìn)行抽取。通常目標(biāo)樣本的信令數(shù)據(jù)量占訓(xùn)練信令數(shù)據(jù)數(shù)量的第一閾值范圍,該第一閾值范圍為15%-50%。同時(shí),訓(xùn)練信令數(shù)據(jù)為目標(biāo)樣本的信令數(shù)據(jù)與白樣本的信令數(shù)據(jù)的加總組和,因此白樣本的信令數(shù)據(jù)數(shù)量占訓(xùn)練信令數(shù)據(jù)數(shù)量的第二閾值范圍為50%-85%。

之后,第二獲取單元202將訓(xùn)練信令數(shù)據(jù)中特征值與目標(biāo)的特征值無關(guān)的信令數(shù)據(jù)或特征值為噪聲的信令數(shù)據(jù)刪除,獲取訓(xùn)練信令數(shù)據(jù)中特征值與目標(biāo)的特征值相關(guān)性較高的第一信令數(shù)據(jù)。

特征值的來源就是信令數(shù)據(jù)中的特征,第二獲取單元202可以清理信令數(shù)據(jù)中的噪聲數(shù)據(jù)、空缺數(shù)據(jù)和不一致數(shù)據(jù),例如主叫號(hào)碼為空的記錄。

第一生成單元203基于第一信令數(shù)據(jù)的基礎(chǔ)指標(biāo),針對(duì)各種呼叫特征進(jìn)行統(tǒng)計(jì),計(jì)算獲得衍生指標(biāo),形成第一信息表。

衍生指標(biāo)的計(jì)算過程,主要是從大批量的信令數(shù)據(jù)的特征值中,基于主叫號(hào)碼、被叫號(hào)碼、呼叫頻次、呼叫時(shí)間間隔、振鈴時(shí)長、通話時(shí)長、釋放方向、釋放原因、接通率、被叫號(hào)碼離散度、被叫歸屬地區(qū)離散度等多種統(tǒng)計(jì)項(xiàng)目,并結(jié)合24小時(shí)、忙時(shí)和閑時(shí)等時(shí)間粒度,可以得到帶有時(shí)間粒度的衍生指標(biāo),例如24小時(shí)內(nèi)的平均通話時(shí)長等,最終形成衍生指標(biāo)的第一信息表。

由于衍生指標(biāo)之間可能存在相關(guān)性,或者衍生指標(biāo)與目標(biāo)樣本的指標(biāo)之間沒有顯著性,因此需要進(jìn)行對(duì)衍生指標(biāo)進(jìn)行篩選。在對(duì)衍生指標(biāo)進(jìn)行篩選時(shí),第二生成單元204首先對(duì)衍生指標(biāo)的特征值兩兩之間的相關(guān)性進(jìn)行相關(guān)分析,根據(jù)分析結(jié)果將多余特征值篩除;對(duì)衍生指標(biāo)的特征值與目標(biāo)的特征值的相關(guān)性進(jìn)行維規(guī)約分析,根據(jù)分析結(jié)果將不相關(guān)特征值篩除;再對(duì)衍生指標(biāo)進(jìn)行方差分析和/或去噪處理,得到顯著指標(biāo),并最終形成顯著指標(biāo)的第二信息表。

其中,顯著指標(biāo)是指某些基礎(chǔ)指標(biāo)或衍生指標(biāo)與目標(biāo)樣本的特征值之間的顯著性很大,可叫做顯著指標(biāo)。

顯著指標(biāo)可設(shè)定為:統(tǒng)計(jì)時(shí)間、主叫號(hào)碼、被叫離散度、呼叫頻次、呼叫接通率、被叫掛機(jī)率、平均通話時(shí)長、短通話頻次、短通話被叫離散度。

之后,第三生成單元205將衍生指標(biāo)的信息表與顯著指標(biāo)的信息表結(jié)合,形成訓(xùn)練信息表。訓(xùn)練信息表由訓(xùn)練信令數(shù)據(jù)調(diào)整得到,代替訓(xùn)練信令數(shù)據(jù)用于后續(xù)建模。

建模分析單元206基于訓(xùn)練信息表和分類算法構(gòu)建分類器,并使用測試信令數(shù)據(jù)對(duì)分類器進(jìn)行測試,并記錄相應(yīng)測試結(jié)果。

在本申請(qǐng)中,建模分析單元206可以使用r語言基于訓(xùn)練信息表和分類算法構(gòu)建分類器,但本申請(qǐng)不以此為限,也可使用其它種類的編程語言進(jìn)行構(gòu)建。

相應(yīng)測試結(jié)果用于后續(xù)的算法模型的評(píng)估與優(yōu)化步驟。

可以使用的分類算法包括:決策樹,邏輯回歸,隨機(jī)森林,支持向量機(jī),神經(jīng)網(wǎng)絡(luò)模型等算法。

最后,評(píng)估單元207對(duì)算法模型的預(yù)測效果和運(yùn)行效果分別進(jìn)行評(píng)估,得到評(píng)估優(yōu)化后的第二模型,以識(shí)別行為異常用戶。

其中,預(yù)測效果包括對(duì)該模型的查準(zhǔn)率,查全率,f-measure等指標(biāo)的預(yù)測,運(yùn)行效果包括模型的運(yùn)行時(shí)間、模型的魯棒性、模型的可擴(kuò)展性等方面內(nèi)容。

在每個(gè)行為分析任務(wù)得到的分析算法公式中各項(xiàng)參數(shù)調(diào)整變動(dòng)后,評(píng)估單元207對(duì)分析算法執(zhí)行結(jié)果經(jīng)過上述考察,最終選定各項(xiàng)參數(shù)的配置值,以實(shí)現(xiàn)算法的現(xiàn)網(wǎng)部署配置要求。

本發(fā)明實(shí)施例所提供的識(shí)別行為異常用戶的裝置通過獲取訓(xùn)練信令數(shù)據(jù)和測試信令數(shù)據(jù),并基于訓(xùn)練信令數(shù)據(jù)生成訓(xùn)練信息表;之后,基于訓(xùn)練信息表建立算法模型并使用測試信令數(shù)據(jù)進(jìn)行算法模型測試,并經(jīng)過評(píng)估步驟確認(rèn)最優(yōu)算法模型,相比較現(xiàn)有技術(shù)中算法模型上線后才進(jìn)行優(yōu)化調(diào)整,減少了算法模型上線后的調(diào)整優(yōu)化時(shí)間。

實(shí)際應(yīng)用中,第一獲取單元201、第二獲取單元202、第一生成單元203、第二生成單元204、第三生成單元205、建模分析單元206及評(píng)估單元207均可由位于識(shí)別行為異常用戶的裝置上的中央處理器(cpu,centralprocessingunit)、微處理器(mpu,microprocessorunit)、數(shù)字信號(hào)處理器(dsp,digitalsignalprocessor)、或現(xiàn)場可編程門陣列(fpga,fieldprogrammablegatearray)等實(shí)現(xiàn)。

本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明可采用硬件實(shí)施例、軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本發(fā)明可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器和光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。

本發(fā)明是參照根據(jù)本發(fā)明實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。

這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。

這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。

以上所述,僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
资兴市| 贺兰县| 天门市| 新津县| 绥宁县| 光山县| 五大连池市| 黑龙江省| 万宁市| 樟树市| 宁陕县| 嘉兴市| 建始县| 定兴县| 遂川县| 会泽县| 昭苏县| 东乌| 安新县| 平陆县| 芜湖县| 新干县| 巨鹿县| 江门市| 榆林市| 比如县| 荔波县| 铜川市| 永宁县| 景德镇市| 诸城市| 松阳县| 高邑县| 肃南| 道孚县| 咸丰县| 乌兰县| 宜良县| 常州市| 蓝山县| 邵阳市|