本申請涉及計(jì)算機(jī),尤其涉及一種數(shù)據(jù)異常檢測模型的訓(xùn)練方法、數(shù)據(jù)異常檢測方法及設(shè)備。
背景技術(shù):
1、隨著數(shù)字智能時(shí)代的到來,越來越多的數(shù)據(jù)處理過程可以依靠深度學(xué)習(xí)算法實(shí)現(xiàn),而無需人工進(jìn)行參與。在應(yīng)用算法進(jìn)行數(shù)據(jù)處理的過程中,需要通過獲取大量的訓(xùn)練數(shù)據(jù)用以完善深度學(xué)習(xí)算法的模型,如果訓(xùn)練數(shù)據(jù)的范圍無法覆蓋所有的模型可能的使用場景,或者,需要通過模型進(jìn)行處理的對象包括多種不同形式,會(huì)導(dǎo)致模型獲取到的輸出結(jié)果出現(xiàn)異常?,F(xiàn)有技術(shù)中對于模型異常輸出結(jié)果的發(fā)現(xiàn)主要依靠人工進(jìn)行干預(yù),例如,通過用戶反饋、人工分析反饋結(jié)果、并對人工選取的目標(biāo)樣本進(jìn)行數(shù)據(jù)加工,生成新的訓(xùn)練數(shù)據(jù),以完成對模型的迭代優(yōu)化。
2、由于上述優(yōu)化過程需要大量人工參與,因此,在整個(gè)異常數(shù)據(jù)處理階段均可能出現(xiàn)錯(cuò)誤,且發(fā)現(xiàn)數(shù)據(jù)異常需要依靠用戶進(jìn)行反饋,這就導(dǎo)致數(shù)據(jù)異常的處理并不及時(shí),同時(shí),人工進(jìn)行異常檢測的成本較高,如果檢測方向偏離關(guān)鍵異常,可能會(huì)導(dǎo)致在數(shù)據(jù)加工過程中存在大量重復(fù)/相似樣本標(biāo)注問題,耗費(fèi)大量的人工資源。因此,如何通過特定算法找出現(xiàn)有模型無法正確進(jìn)行數(shù)據(jù)處理的樣本、進(jìn)而使用這些樣本進(jìn)行模型迭代,更新現(xiàn)有的算法是亟待解決的問題。
技術(shù)實(shí)現(xiàn)思路
1、鑒于上述問題,本申請?zhí)峁┮环N數(shù)據(jù)異常檢測模型的訓(xùn)練方法、數(shù)據(jù)異常檢測方法及設(shè)備,解決了如何通過特定算法找出現(xiàn)有模型無法正確進(jìn)行數(shù)據(jù)處理的樣本、進(jìn)而使用這些樣本進(jìn)行模型迭代,更新現(xiàn)有的算法的問題。
2、為解決上述技術(shù)問題,本申請?zhí)岢鲆韵路桨福?/p>
3、第一方面,本申請?zhí)峁┝艘环N數(shù)據(jù)異常檢測模型的訓(xùn)練方法,方法包括:獲取訓(xùn)練樣本集;根據(jù)訓(xùn)練樣本集中訓(xùn)練樣本的標(biāo)簽提取目標(biāo)特征;基于訓(xùn)練樣本集和目標(biāo)特征對隨機(jī)森林模型和lightgbm模型進(jìn)行訓(xùn)練,得到數(shù)據(jù)異常檢測模型。
4、結(jié)合第一方面,在一種可能的實(shí)現(xiàn)方式中,通過內(nèi)置規(guī)則獲取訓(xùn)練樣本的標(biāo)簽;根據(jù)標(biāo)簽對應(yīng)的數(shù)值提取訓(xùn)練樣本集的目標(biāo)特征。
5、結(jié)合第一方面,在另一種可能的實(shí)現(xiàn)方式中,清洗訓(xùn)練樣本集;通過內(nèi)置規(guī)則對訓(xùn)練樣本集進(jìn)行去噪;通過聚類對訓(xùn)練樣本集進(jìn)行歸一化處理。
6、第二方面,本申請?zhí)峁┝艘环N數(shù)據(jù)異常檢測方法,方法包括:獲取待檢測數(shù)據(jù);將待檢測數(shù)據(jù)輸入訓(xùn)練完成的數(shù)據(jù)異常檢測模型中,得到待檢測數(shù)據(jù)的檢測結(jié)果。
7、結(jié)合第二方面,在一種可能的實(shí)現(xiàn)方式中,當(dāng)檢測結(jié)果指示待檢測數(shù)據(jù)存在異常時(shí),通過構(gòu)建待檢測數(shù)據(jù)拓?fù)涞年P(guān)聯(lián)關(guān)系,定位待檢測數(shù)據(jù),并產(chǎn)生告警信息。
8、第三方面,本申請?zhí)峁┝艘环N數(shù)據(jù)異常檢測模型的訓(xùn)練裝置,數(shù)據(jù)異常檢測模型的訓(xùn)練裝置包括:獲取模塊、特征提取模塊和訓(xùn)練模塊。
9、獲取模塊,用于獲取訓(xùn)練樣本集。
10、特征提取模塊,用于根據(jù)訓(xùn)練樣本集中訓(xùn)練樣本的標(biāo)簽提取目標(biāo)特征。
11、訓(xùn)練模塊,用于基于訓(xùn)練樣本集和目標(biāo)特征對隨機(jī)森林模型和lightgbm模型進(jìn)行訓(xùn)練,得到數(shù)據(jù)異常檢測模型。
12、結(jié)合第三方面,在一種可能的實(shí)現(xiàn)方式中,特征提取模塊具體用于:通過內(nèi)置規(guī)則獲取訓(xùn)練樣本的標(biāo)簽;根據(jù)標(biāo)簽對應(yīng)的數(shù)值提取訓(xùn)練樣本集的目標(biāo)特征。
13、結(jié)合第三方面,在另一種可能的實(shí)現(xiàn)方式中,裝置還包括預(yù)處理模塊,預(yù)處理模塊用于:清洗訓(xùn)練樣本集;通過內(nèi)置規(guī)則對訓(xùn)練樣本集進(jìn)行去噪;通過聚類對訓(xùn)練樣本集進(jìn)行歸一化處理。
14、第四方面,本申請?zhí)峁┝艘环N數(shù)據(jù)異常檢測裝置,數(shù)據(jù)異常檢測裝置包括:獲取模塊和檢測模塊。
15、獲取模塊,用于獲取待檢測數(shù)據(jù)。
16、檢測模塊,用于將待檢測數(shù)據(jù)輸入訓(xùn)練完成的數(shù)據(jù)異常檢測模型中,得到待檢測數(shù)據(jù)的檢測結(jié)果。
17、結(jié)合第四方面,在一種可能的實(shí)現(xiàn)方式中,檢測模塊具體用于:當(dāng)檢測結(jié)果指示待檢測數(shù)據(jù)存在異常時(shí),通過構(gòu)建待檢測數(shù)據(jù)拓?fù)涞年P(guān)聯(lián)關(guān)系,定位待檢測數(shù)據(jù),并產(chǎn)生告警信息。
18、為了實(shí)現(xiàn)上述目的,根據(jù)本申請的第五方面,提供了一種存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)包括存儲(chǔ)的程序,其中,在所述程序運(yùn)行時(shí)控制所述存儲(chǔ)介質(zhì)所在設(shè)備執(zhí)行上述第一方面的數(shù)據(jù)異常檢測模型的訓(xùn)練方法。
19、為了實(shí)現(xiàn)上述目的,根據(jù)本申請的第六方面,提供了一種存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)包括存儲(chǔ)的程序,其中,在所述程序運(yùn)行時(shí)控制所述存儲(chǔ)介質(zhì)所在設(shè)備執(zhí)行上述第二方面的數(shù)據(jù)異常檢測方法。
20、為了實(shí)現(xiàn)上述目的,根據(jù)本申請的第七方面,提供了一種電子設(shè)備,所述設(shè)備包括至少一個(gè)處理器、以及與處理器連接的至少一個(gè)存儲(chǔ)器、總線;其中,處理器、存儲(chǔ)器通過總線完成相互間的通信;處理器用于調(diào)用存儲(chǔ)器中的程序指令,以執(zhí)行上述第一方面的數(shù)據(jù)異常檢測模型的訓(xùn)練方法。
21、為了實(shí)現(xiàn)上述目的,根據(jù)本申請的第八方面,提供了一種電子設(shè)備,所述設(shè)備包括至少一個(gè)處理器、以及與處理器連接的至少一個(gè)存儲(chǔ)器、總線;其中,處理器、存儲(chǔ)器通過總線完成相互間的通信;處理器用于調(diào)用存儲(chǔ)器中的程序指令,以執(zhí)行上述第一方面的數(shù)據(jù)異常檢測方法。
22、借由上述技術(shù)方案,本申請?zhí)峁┑募夹g(shù)方案至少具有下列優(yōu)點(diǎn):
23、本申請?zhí)峁┑囊环N數(shù)據(jù)異常檢測模型的訓(xùn)練方法、數(shù)據(jù)異常檢測方法及設(shè)備,本申請可以實(shí)時(shí)監(jiān)控系統(tǒng)的狀態(tài),并及時(shí)發(fā)現(xiàn)系統(tǒng)中的異常情況;可以通過對系統(tǒng)歷史數(shù)據(jù)的分析,預(yù)測未來可能出現(xiàn)的故障情況,以便提前進(jìn)行維護(hù)和優(yōu)化;可以發(fā)現(xiàn)系統(tǒng)中的性能瓶頸,如響應(yīng)時(shí)間、吞吐量等,以便進(jìn)行系統(tǒng)優(yōu)化;可以通過監(jiān)控用戶行為數(shù)據(jù),發(fā)現(xiàn)用戶可能遇到的問題,以便改善用戶體驗(yàn)。
24、上述說明僅是本申請技術(shù)方案的概述,為了能夠更清楚了解本申請的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本申請的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本申請的具體實(shí)施方式。
1.一種數(shù)據(jù)異常檢測模型的訓(xùn)練方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述訓(xùn)練樣本集中訓(xùn)練樣本的標(biāo)簽提取目標(biāo)特征,包括:
3.根據(jù)權(quán)利要求1-2中任一項(xiàng)所述的方法,其特征在于,根據(jù)所述訓(xùn)練樣本集中訓(xùn)練樣本的標(biāo)簽提取目標(biāo)特征之前,所述方法還包括:
4.一種數(shù)據(jù)異常檢測方法,其特征在于,所述方法包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述方法包括:
6.一種數(shù)據(jù)異常檢測模型的訓(xùn)練裝置,其特征在于,所述裝置包括:
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述特征提取模塊具體用于:
8.根據(jù)權(quán)利要求6-7中任一項(xiàng)所述的裝置,其特征在于,所述裝置還包括預(yù)處理模塊,預(yù)處理模塊用于:
9.一種數(shù)據(jù)異常檢測裝置,其特征在于,所述裝置包括:
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,檢測模塊具體用于: