一種電子商務(wù)時(shí)間序列數(shù)據(jù)的異常檢測(cè)方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及電子商務(wù)相關(guān)技術(shù)領(lǐng)域,特別是一種電子商務(wù)時(shí)間序列數(shù)據(jù)的異常檢測(cè)方法及系統(tǒng)。
【背景技術(shù)】
[0002]時(shí)間序列是按時(shí)間先后順序排列的各個(gè)觀測(cè)記錄的有序集合。在電子商務(wù)業(yè)務(wù)中,隨著時(shí)間的推移,時(shí)間序列通常包含大量的數(shù)據(jù),對(duì)于時(shí)間序列的分析,可以揭示電子商務(wù)業(yè)務(wù)運(yùn)動(dòng)、變化和發(fā)展的內(nèi)在規(guī)律,尤其對(duì)于數(shù)據(jù)異常的來說,往往包含著更多重要的信息和知識(shí),因此,如何快速有效地檢測(cè)出這些異常是一項(xiàng)具有重要意義的工作,例如有時(shí)候訂單數(shù)據(jù)異常地大,背后可能意味著巨大的市場(chǎng)機(jī)會(huì);利潤數(shù)據(jù)的異常增長,可能意味著有降低產(chǎn)品成本或提升利潤的地方有待定位和挖掘;而用戶數(shù)的異常減少,可能意味著某種市場(chǎng)風(fēng)險(xiǎn)或運(yùn)營效率低下等問題的發(fā)生,等等異常數(shù)據(jù)在電子商務(wù)業(yè)務(wù)運(yùn)營中需要及時(shí)地發(fā)現(xiàn)和定位原因,而電子商務(wù)業(yè)務(wù)的多變性、復(fù)雜性和大數(shù)據(jù)量等特征,為異常數(shù)據(jù)的檢測(cè)帶來了不小的挑戰(zhàn)。
[0003]對(duì)于時(shí)間序列數(shù)據(jù)的異常檢測(cè),現(xiàn)有的技術(shù)方案通常利用業(yè)務(wù)邏輯和強(qiáng)假設(shè)的統(tǒng)計(jì)模型,大致采用兩種方法:
[0004](I)業(yè)務(wù)邏輯主觀閾值法
[0005]采用移動(dòng)平均值或環(huán)比、同比作為基準(zhǔn)值,把待判斷數(shù)據(jù)域基準(zhǔn)值的變化率計(jì)算出來,然后與閾值比較,超過閾值則判定為異常,通常這個(gè)閾值是主觀確定的。這樣做有兩個(gè)缺點(diǎn),一個(gè)是閾值是業(yè)務(wù)人員主觀確定,不同的人對(duì)業(yè)務(wù)的理解程度不一樣可能產(chǎn)生不同的閾值,而且可解釋性較差;另一方面通過環(huán)比、同比數(shù)據(jù)作為基準(zhǔn)值的時(shí)候,當(dāng)多個(gè)異常數(shù)據(jù)同時(shí)出現(xiàn)的時(shí)候,由于前面的異常數(shù)據(jù)過大或過小會(huì)使后面異常數(shù)據(jù)的環(huán)比或同比數(shù)據(jù)趨于平穩(wěn),從而無法發(fā)現(xiàn)后面連續(xù)的異常數(shù)據(jù),就像被“屏蔽”一樣。如圖1所示:
[0006]例如6月18日前后三天的數(shù)據(jù)都異常變大,但是用環(huán)比數(shù)據(jù)計(jì)算的時(shí)候,后面兩天由于第一天數(shù)據(jù)特別大,計(jì)算的環(huán)比變化就會(huì)很小,這樣就只能發(fā)現(xiàn)第一天的數(shù)據(jù)點(diǎn)異常,后面兩天的異常數(shù)據(jù)就會(huì)被第一天數(shù)據(jù)“屏蔽”掉而檢測(cè)不出來。
[0007](2)強(qiáng)假設(shè)統(tǒng)計(jì)模型判別法
[0008]統(tǒng)計(jì)模型經(jīng)常會(huì)有數(shù)據(jù)滿足某種特定分布的假設(shè)條件,常用的是滿足正態(tài)分布,在正態(tài)分布假設(shè)下,正常值區(qū)間范圍為:均值η倍標(biāo)準(zhǔn)差,η取1-3的時(shí)候,落在此區(qū)域的概率分別為68.29%,95.45%和99.73%,數(shù)據(jù)在正常值區(qū)間外的情況屬于小概率事件,定義為異常值。
[0009]目前上述發(fā)現(xiàn)時(shí)間序列數(shù)據(jù)異常的方法中,第一種業(yè)務(wù)邏輯主觀閾值法存在閾值定義主觀、存在“屏蔽”效應(yīng)等多種條件,在檢測(cè)可解釋性和精度上都存在較大問題;另一種強(qiáng)假設(shè)統(tǒng)計(jì)模型判斷法則存在假設(shè)依賴太強(qiáng)的問題,實(shí)際的電子商務(wù)數(shù)據(jù)是非常復(fù)雜的,很少有符合某種特定分布的情況,這就使得統(tǒng)計(jì)模型的使用范圍受到限制,模型效力也大大削弱。
【發(fā)明內(nèi)容】
[0010]基于此,有必要針對(duì)現(xiàn)有技術(shù)并不能很好地檢驗(yàn)出電子商務(wù)數(shù)據(jù)的異常數(shù)據(jù),提供一種電子商務(wù)時(shí)間序列數(shù)據(jù)的異常檢測(cè)方法及系統(tǒng)。
[0011]一種電子商務(wù)時(shí)間序列數(shù)據(jù)的異常檢測(cè)方法,包括:
[0012]數(shù)據(jù)獲取步驟,包括:獲取基于時(shí)間序列的電子商務(wù)數(shù)據(jù),對(duì)所述電子商務(wù)數(shù)據(jù)中的每個(gè)數(shù)據(jù)執(zhí)行基準(zhǔn)檢測(cè)步驟,執(zhí)行基準(zhǔn)檢測(cè)步驟的數(shù)據(jù)為待檢測(cè)數(shù)據(jù);
[0013]基準(zhǔn)檢測(cè)步驟,包括:選擇鄰近待檢測(cè)數(shù)據(jù)的N期電子商務(wù)數(shù)據(jù)作為窗口統(tǒng)計(jì)數(shù)據(jù),對(duì)所述窗口統(tǒng)計(jì)數(shù)據(jù)進(jìn)行分位數(shù)統(tǒng)計(jì),從而確定所述窗口統(tǒng)計(jì)數(shù)據(jù)中的正常值上邊界和正常值下邊界,所述窗口統(tǒng)計(jì)數(shù)據(jù)中處于所述正常值上邊界和所述正常值下邊界所確定的正常值范圍以外的數(shù)據(jù)為異常數(shù)據(jù),如果出現(xiàn)異常數(shù)據(jù),則執(zhí)行異常調(diào)用步驟,其中,所述N為預(yù)設(shè)的大于I的自然數(shù);
[0014]異常調(diào)用步驟,包括:把異常數(shù)據(jù)作為應(yīng)用接口提供給需求方調(diào)用。
[0015]一種電子商務(wù)時(shí)間序列數(shù)據(jù)的異常檢測(cè)系統(tǒng),包括:
[0016]數(shù)據(jù)獲取模塊,用于:獲取基于時(shí)間序列的電子商務(wù)數(shù)據(jù),對(duì)所述電子商務(wù)數(shù)據(jù)中的每個(gè)數(shù)據(jù)執(zhí)行基準(zhǔn)檢測(cè)模塊,執(zhí)行基準(zhǔn)檢測(cè)模塊的數(shù)據(jù)為待檢測(cè)數(shù)據(jù);
[0017]基準(zhǔn)檢測(cè)模塊,用于:選擇鄰近待檢測(cè)數(shù)據(jù)的N期電子商務(wù)數(shù)據(jù)作為窗口統(tǒng)計(jì)數(shù)據(jù),對(duì)所述窗口統(tǒng)計(jì)數(shù)據(jù)進(jìn)行分位數(shù)統(tǒng)計(jì),從而確定所述窗口統(tǒng)計(jì)數(shù)據(jù)中的正常值上邊界和正常值下邊界,所述窗口統(tǒng)計(jì)數(shù)據(jù)中處于所述正常值上邊界和所述正常值下邊界所確定的正常值范圍以外的數(shù)據(jù)為異常數(shù)據(jù),如果出現(xiàn)異常數(shù)據(jù),則執(zhí)行異常調(diào)用模塊,其中,所述N為預(yù)設(shè)的大于I的自然數(shù);
[0018]異常調(diào)用模塊,用于:把異常數(shù)據(jù)作為應(yīng)用接口提供給需求方調(diào)用。
[0019]本發(fā)明通過基準(zhǔn)檢測(cè),基于穩(wěn)健統(tǒng)計(jì)方法實(shí)現(xiàn)時(shí)序波動(dòng)識(shí)別,適用于各種分布情況。本發(fā)明能夠針對(duì)電子商務(wù)不同業(yè)務(wù)場(chǎng)景、不同數(shù)據(jù)分布形式,自動(dòng)發(fā)現(xiàn)數(shù)據(jù)異常。
【附圖說明】
[0020]圖1為現(xiàn)有技術(shù)環(huán)比指標(biāo)屏蔽效應(yīng)不意圖;
[0021]圖2為本發(fā)明一種電子商務(wù)時(shí)間序列數(shù)據(jù)的異常檢測(cè)方法的工作流程圖;
[0022]圖3為分位數(shù)異常點(diǎn)示意圖;
[0023]圖4為正態(tài)分布與分位數(shù)值對(duì)比圖;
[0024]圖5為本發(fā)明的最佳實(shí)施例的系統(tǒng)結(jié)構(gòu)圖;
[0025]圖6為本發(fā)明最佳實(shí)施例的工作流程圖;
[0026]圖7為本發(fā)明一種電子商務(wù)時(shí)間序列數(shù)據(jù)的異常檢測(cè)系統(tǒng)的結(jié)構(gòu)模塊圖。
【具體實(shí)施方式】
[0027]下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明做進(jìn)一步詳細(xì)的說明。
[0028]如圖2所示為本發(fā)明一種電子商務(wù)時(shí)間序列數(shù)據(jù)的異常檢測(cè)方法的工作流程圖,包括:
[0029]步驟S201,包括:獲取基于時(shí)間序列的電子商務(wù)數(shù)據(jù),對(duì)所述電子商務(wù)數(shù)據(jù)中的每個(gè)數(shù)據(jù)執(zhí)行步驟S202,執(zhí)行步驟S202的數(shù)據(jù)為待檢測(cè)數(shù)據(jù);
[0030]步驟S202,包括:選擇鄰近待檢測(cè)數(shù)據(jù)的N期電子商務(wù)數(shù)據(jù)作為窗口統(tǒng)計(jì)數(shù)據(jù),對(duì)所述窗口統(tǒng)計(jì)數(shù)據(jù)進(jìn)行分位數(shù)統(tǒng)計(jì),從而確定所述窗口統(tǒng)計(jì)數(shù)據(jù)中的正常值上邊界和正常值下邊界,所述窗口統(tǒng)計(jì)數(shù)據(jù)中處于所述正常值上邊界和所述正常值下邊界所確定的正常值范圍以外的數(shù)據(jù)為異常數(shù)據(jù),如果出現(xiàn)異常數(shù)據(jù),則執(zhí)行步驟S203,其中,所述N為預(yù)設(shè)的大于I的自然數(shù);
[0031]步驟S203,包括:把異常數(shù)據(jù)作為應(yīng)用接口提供給需求方調(diào)用。
[0032]步驟S201所獲取的電子商務(wù)數(shù)據(jù)是基于時(shí)間序列的數(shù)據(jù),一般來說,電子商務(wù)數(shù)據(jù)并不能完全符合現(xiàn)有的統(tǒng)計(jì)分布模型,從而導(dǎo)致現(xiàn)有的統(tǒng)計(jì)檢測(cè)異常數(shù)據(jù)的方法不能使用。本發(fā)明在步驟S202中,采用了分位數(shù)的統(tǒng)計(jì)方法,分位數(shù)的方法對(duì)于任何分布,甚至包含錯(cuò)誤值或多個(gè)異常數(shù)據(jù)的統(tǒng)計(jì)計(jì)算都很穩(wěn)健,基本原理是計(jì)算數(shù)據(jù)在該統(tǒng)計(jì)窗口的所有數(shù)據(jù)中所占的位置從而確定正常值范圍。
[0033]步驟S203,具體來說,將異常數(shù)據(jù)結(jié)果加工成標(biāo)準(zhǔn)的結(jié)構(gòu)化數(shù)據(jù),例如hdfs文件、hbase文件、xml或文本文件等形式,存入MySQL或分布式數(shù)據(jù)庫,通過數(shù)據(jù)庫系統(tǒng)直接調(diào)用、API調(diào)用或者通過標(biāo)準(zhǔn)的互聯(lián)網(wǎng)數(shù)據(jù)傳輸協(xié)議,供下游需求方使用
[0034]本發(fā)明通過采用分位