本發(fā)明涉及水廠數(shù)據(jù)檢測,尤其涉及一種水廠管控平臺報表的異常數(shù)據(jù)檢測及恢復方法及系統(tǒng)。
背景技術:
1、在現(xiàn)代水廠管控平臺的運營中,數(shù)據(jù)質量一直是一個關鍵問題。然而,由于環(huán)境因素、傳感器故障以及數(shù)據(jù)傳輸?shù)雀鞣N復雜因素的影響,報表中可能出現(xiàn)異常數(shù)據(jù)的情況時有發(fā)生。這些異常數(shù)據(jù)的存在會極大地影響數(shù)據(jù)的準確性和可靠性,給水廠的監(jiān)測和決策帶來困難。因此,針對這一問題,需要一種高效可靠的方法來檢測和修復這些異常數(shù)據(jù)。
技術實現(xiàn)思路
1、針對現(xiàn)有技術中存在的問題,本發(fā)明提供一種水廠管控平臺報表的異常數(shù)據(jù)檢測及恢復方法,包括:
2、步驟s1,采集水廠管控平臺的報表數(shù)據(jù),隨后通過閾值檢測得到所述報表數(shù)據(jù)的閾值范圍,將超出所述閾值范圍的各所述報表數(shù)據(jù)標記為潛在異常數(shù)據(jù);
3、步驟s2,采用預先訓練的異常檢測模型對所述報表數(shù)據(jù)中的各所述潛在異常數(shù)據(jù)進行異常評分得到對應的異常評分結果,隨后將異常評分結果超出設定的評分范圍的所述潛在異常數(shù)據(jù)標記為毛刺數(shù)據(jù)點;
4、步驟s3,將所述報表數(shù)據(jù)中的各所述毛刺數(shù)據(jù)點刪除,隨后利用被刪除的所述毛刺數(shù)據(jù)點的相鄰數(shù)據(jù)點的線性關系估算缺失的數(shù)據(jù)點進行線性插值,以對所述報表數(shù)據(jù)進行數(shù)據(jù)恢復。
5、優(yōu)選的,所述報表數(shù)據(jù)包括多個數(shù)據(jù)維度,所述步驟s1包括:
6、步驟s11,計算每個數(shù)據(jù)維度的均值和標準差,隨后根據(jù)所述均值和所述標準差得到所述閾值范圍;
7、步驟s12,將所述報表數(shù)據(jù)中超出所述閾值范圍的數(shù)據(jù)點標記為所述潛在異常數(shù)據(jù)。
8、優(yōu)選的,所述孤立森林算法模型的訓練過程包括:
9、步驟a1,獲取歷史時間序列數(shù)據(jù),將所述歷史時間序列數(shù)據(jù)轉換為孤立森林算法格式得到特征數(shù)據(jù)集;
10、步驟a2,對所述特征數(shù)據(jù)集進行特征統(tǒng)計得到統(tǒng)計特征,隨后將孤立森林算法的污染率參數(shù)設置為初始污染率參數(shù)對所述特征數(shù)據(jù)集進行異常檢測得到對應的初步異常檢測結果;
11、步驟a3,根據(jù)所述初步異常檢測結果和所述統(tǒng)計特征調整所述孤立森林算法的污染率參數(shù)得到所述異常檢測模型。
12、優(yōu)選的,在對報表數(shù)據(jù)進行閾值檢測之前還包括數(shù)據(jù)預處理過程,所述數(shù)據(jù)預處理過程包括:
13、對所述報表數(shù)據(jù)進行數(shù)據(jù)清洗,隨后對清洗后的所述報表數(shù)據(jù)進行缺失值填充,最后對填充后的所述報表數(shù)據(jù)進行數(shù)據(jù)平滑得到用于閾值檢測的所述報表數(shù)據(jù)。
14、優(yōu)選的,執(zhí)行所述步驟s3之后還包括:
15、步驟s4,對插值恢復后的所述報表數(shù)據(jù)進行數(shù)據(jù)平滑和移動平均處理,隨后采用多項式回歸校正法對移動平均后的所述報表數(shù)據(jù)進行數(shù)據(jù)校正,最后采用多項式回歸模型對校正后的所述報表數(shù)據(jù)進行數(shù)據(jù)擬合得到修正后的所述報表數(shù)據(jù)。
16、優(yōu)選的,執(zhí)行所述步驟s3之后還包括模型優(yōu)化過程,包括:
17、將審核人員對各所述毛刺數(shù)據(jù)點的審核結果作為反饋數(shù)據(jù)輸入所述異常檢測模型,對所述異常檢測模型進行再次訓練以調整所述異常檢測模型的模型參數(shù)。
18、本發(fā)明還提供一種水廠管控平臺報表的異常數(shù)據(jù)檢測及恢復系統(tǒng),應用如上述的異常數(shù)據(jù)檢測及恢復方法,包括:
19、潛在標記模塊,用于采集水廠管控平臺的報表數(shù)據(jù),隨后通過閾值檢測得到所述報表數(shù)據(jù)的閾值范圍,將超出所述閾值范圍的各所述報表數(shù)據(jù)標記為潛在異常數(shù)據(jù);
20、異常檢測模塊,連接所述潛在標記模塊,用于采用預先訓練的異常檢測模型對所述報表數(shù)據(jù)中的各所述潛在異常數(shù)據(jù)進行異常評分得到對應的異常評分結果,隨后將異常評分結果超出設定的評分范圍的所述潛在異常數(shù)據(jù)標記為毛刺數(shù)據(jù)點;
21、各所述潛在異常數(shù)據(jù)進行異常評分,隨后根據(jù)各所述異常評分結果將所述潛在異常數(shù)據(jù)標記為毛刺數(shù)據(jù)點;
22、數(shù)據(jù)恢復模塊,連接所述異常檢測模塊,用于將所述報表數(shù)據(jù)中的各所述毛刺數(shù)據(jù)點刪除,隨后利用被刪除的所述毛刺數(shù)據(jù)點的相鄰數(shù)據(jù)點的線性關系估算缺失的數(shù)據(jù)點進行線性插值,以對所述報表數(shù)據(jù)進行數(shù)據(jù)恢復。
23、優(yōu)選的,所述報表數(shù)據(jù)包括多個數(shù)據(jù)維度,所述潛在標記模塊包括:
24、范圍計算單元,用于計算每個數(shù)據(jù)維度的均值和標準差,隨后根據(jù)所述均值和所述標準差得到所述閾值范圍;
25、潛在標記單元,連接所述范圍計算模塊,用于將所述報表數(shù)據(jù)中超出所述閾值范圍的數(shù)據(jù)點標記為所述潛在異常數(shù)據(jù)。
26、優(yōu)選的,還包括模型訓練模塊,連接所述異常檢測模塊,包括:
27、數(shù)據(jù)集采集單元,用于獲取歷史時間序列數(shù)據(jù),將所述歷史時間序列數(shù)據(jù)轉換為孤立森林算法格式得到特征數(shù)據(jù)集;
28、初始檢測單元,連接所述數(shù)據(jù)集采集單元,用于對所述特征數(shù)據(jù)集進行特征統(tǒng)計得到統(tǒng)計特征,隨后將孤立森林算法的污染率參數(shù)設置為初始污染率參數(shù)對所述特征數(shù)據(jù)集進行異常檢測得到對應的初步異常檢測結果;
29、參數(shù)調整單元,連接所述初始檢測單元,用于根據(jù)所述初步異常檢測結果和所述統(tǒng)計特征調整所述孤立森林算法的污染率參數(shù)得到所述異常檢測模型。
30、優(yōu)選的,還包括數(shù)據(jù)預處理模塊,連接所述潛在標記模塊,用于對所述報表數(shù)據(jù)進行數(shù)據(jù)清洗,隨后對清洗后的所述報表數(shù)據(jù)進行缺失值填充,最后對填充后的所述報表數(shù)據(jù)進行數(shù)據(jù)平滑得到用于閾值檢測的所述報表數(shù)據(jù)。
31、上述技術方案具有如下優(yōu)點或有益效果:以水廠管控平臺實際報表數(shù)據(jù)為核心,通過多級異常檢測可以有效地識別和處理報表中的異常數(shù)據(jù),從而提高水廠管控平臺數(shù)據(jù)分析的精確性和穩(wěn)定性,通過結合統(tǒng)計分析與機器學習技術,實現(xiàn)了對水廠管控平臺中異常數(shù)據(jù)的高效檢測和恢復,為水廠管理人員提供可靠的數(shù)據(jù)基礎,促進水廠運營的智能化和精細化管理。
1.一種水廠管控平臺報表的異常數(shù)據(jù)檢測及恢復方法,其特征在于,包括:
2.根據(jù)權利要求1所述的異常數(shù)據(jù)檢測及恢復方法,其特征在于,所述報表數(shù)據(jù)包括多個數(shù)據(jù)維度,所述步驟s1包括:
3.根據(jù)權利要求1所述的異常數(shù)據(jù)檢測及恢復方法,其特征在于,所述孤立森林算法模型的訓練過程包括:
4.根據(jù)權利要求1所述的異常數(shù)據(jù)檢測及恢復方法,其特征在于,在對報表數(shù)據(jù)進行閾值檢測之前還包括數(shù)據(jù)預處理過程,所述數(shù)據(jù)預處理過程包括:
5.根據(jù)權利要求1所述的異常數(shù)據(jù)檢測及恢復方法,其特征在于,執(zhí)行所述步驟s3之后還包括:
6.根據(jù)權利要求1所述的異常數(shù)據(jù)檢測及恢復方法,其特征在于,執(zhí)行所述步驟s3之后還包括模型優(yōu)化過程,包括:
7.一種水廠管控平臺報表的異常數(shù)據(jù)檢測及恢復系統(tǒng),其特征在于,應用如權利要求1-6中任意一項所述的異常數(shù)據(jù)檢測及恢復方法,包括:
8.根據(jù)權利要求7所述的異常數(shù)據(jù)檢測及恢復系統(tǒng),其特征在于,所述報表數(shù)據(jù)包括多個數(shù)據(jù)維度,所述潛在標記模塊包括:
9.根據(jù)權利要求7所述的異常數(shù)據(jù)檢測及恢復系統(tǒng),還包括模型訓練模塊,連接所述異常檢測模塊,包括:
10.根據(jù)權利要求7所述的異常數(shù)據(jù)檢測及恢復系統(tǒng),還包括數(shù)據(jù)預處理模塊,連接所述潛在標記模塊,用于對所述報表數(shù)據(jù)進行數(shù)據(jù)清洗,隨后對清洗后的所述報表數(shù)據(jù)進行缺失值填充,最后對填充后的所述報表數(shù)據(jù)進行數(shù)據(jù)平滑得到用于閾值檢測的所述報表數(shù)據(jù)。