本發(fā)明屬于電力系統(tǒng)優(yōu)化調(diào)度,涉及一種大型碳排放監(jiān)測企業(yè)能耗數(shù)據(jù)異常值檢測方法和系統(tǒng),尤其是一種基于mbo-lstm-ae的大型碳排放監(jiān)測企業(yè)異常值檢測方法和系統(tǒng)。
背景技術(shù):
1、在當(dāng)今社會,全球氣候變化和環(huán)境問題日益引起人們的關(guān)注,推動了對碳排放監(jiān)測和能源管理的需求。大型碳排放監(jiān)測企業(yè)扮演著關(guān)鍵的角色,負(fù)責(zé)監(jiān)控和管理生產(chǎn)活動中的能耗情況,以減少對環(huán)境的負(fù)面影響。隨著數(shù)據(jù)科學(xué)和人工智能的迅速發(fā)展,大量的能耗數(shù)據(jù)被收集和記錄,為大型碳排放監(jiān)測企業(yè)提供了深入了解其能源使用情況的機(jī)會。
2、然而,大型碳排放監(jiān)測企業(yè)在處理龐大而復(fù)雜的能耗數(shù)據(jù)時,往往面臨一個嚴(yán)峻的挑戰(zhàn),即如何有效地檢測和處理數(shù)據(jù)中的異常值。異常值可能是由于設(shè)備故障、操作失誤或者其他未知因素引起的,如果不及時發(fā)現(xiàn)和處理,可能導(dǎo)致錯誤的能源管理決策。
3、下面分析大型碳排放監(jiān)測企業(yè)能耗數(shù)據(jù)的異常成因。首先,設(shè)備故障可能是導(dǎo)致能耗數(shù)據(jù)異常的一個常見原因。如果設(shè)備在運(yùn)行過程中出現(xiàn)故障,可能會導(dǎo)致能耗數(shù)據(jù)的采集和記錄出現(xiàn)異常。其次,人為操作和管理不當(dāng)也是導(dǎo)致能耗數(shù)據(jù)異常的一個重要原因。在企業(yè)生產(chǎn)和使用過程中,如果操作人員沒有按照規(guī)定的程序和要求進(jìn)行操作,就可能導(dǎo)致能耗數(shù)據(jù)異常。最后,外部環(huán)境因素也可能導(dǎo)致能耗數(shù)據(jù)異常。例如,氣候變化和天氣條件的變化可能會對能耗數(shù)據(jù)產(chǎn)生影響。
4、目前,一些企業(yè)仍在使用傳統(tǒng)的統(tǒng)計(jì)分析方法進(jìn)行異常值檢測,如基于均值的閾值判斷等。這些方法在復(fù)雜多變的碳排放數(shù)據(jù)面前,可能無法有效地識別出所有異常值。隨著大數(shù)據(jù)、人工智能等技術(shù)的發(fā)展,雖然已經(jīng)有了一些基于機(jī)器學(xué)習(xí)的異常值檢測方法,但這些方法在碳排放監(jiān)測領(lǐng)域的應(yīng)用還不夠廣泛和深入,導(dǎo)致部分異常值無法被及時發(fā)現(xiàn)和處理。
5、經(jīng)檢索,未發(fā)現(xiàn)與本發(fā)明相同或相近似的現(xiàn)有技術(shù)的公開文獻(xiàn)。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提出一種基于mbo-lstm-ae的大型碳排放監(jiān)測企業(yè)異常值檢測方法和系統(tǒng),能夠高效可靠地實(shí)現(xiàn)異常值的檢測。
2、本發(fā)明解決其現(xiàn)實(shí)問題是采取以下技術(shù)方案實(shí)現(xiàn)的:
3、一種基于mbo-lstm-ae的大型碳排放監(jiān)測企業(yè)異常值檢測方法,包括以下步驟:
4、步驟1、采集大型碳排放檢測企業(yè)能源消耗數(shù)據(jù);
5、步驟2、將步驟1所采集的大型碳排放檢測企業(yè)能源消耗數(shù)據(jù)進(jìn)行數(shù)據(jù)格式轉(zhuǎn)換;
6、步驟3、對dataframe格式的大型碳排放檢測企業(yè)能源消耗數(shù)據(jù)進(jìn)行空缺值插補(bǔ)以及歸一化處理;
7、步驟4、建立帝王蝶優(yōu)化算法優(yōu)化長短期記憶自動編碼器模型,識別步驟3中dataframe格式的大型碳排放監(jiān)測企業(yè)能源消耗數(shù)據(jù)中的異常值;
8、而且,所述步驟1的具體方法為:
9、通過rest?api通信協(xié)議從智能電表中提取大型碳排放檢測企業(yè)能源消耗數(shù)據(jù)。
10、而且,所述步驟2的具體方法為:
11、所述步驟2將大型碳排放監(jiān)測企業(yè)能耗數(shù)據(jù)格式從json格式轉(zhuǎn)換為pandas庫中的dataframe格式。
12、而且,所述步驟3的具體步驟包括:
13、(1)為降低數(shù)據(jù)缺失對異常值檢測的不良影響,使用多階拉格朗日內(nèi)插法來修復(fù)數(shù)據(jù)集中缺失的數(shù)據(jù)部分,公式為:
14、
15、式中,m1為前向點(diǎn)數(shù);m2為后向點(diǎn)數(shù);t為大型碳排放檢測企業(yè)電表缺失數(shù)據(jù)的具體時刻。
16、(2)將數(shù)據(jù)集歸一化至[-1,1]的區(qū)間內(nèi),公式為:
17、
18、式中,x表示為歸一化前的數(shù)據(jù);x′表示為歸一化后的數(shù)據(jù);xmax和xmin分別為大型碳排放監(jiān)測企業(yè)能源消耗數(shù)據(jù)的最大值和最小值;ymax和ymin分別為歸一化目標(biāo)區(qū)間的上限(1)和下限(-1)。
19、而且,所述步驟4的具體步驟包括:
20、(1)選擇lstm-ae模型需要優(yōu)化的超參數(shù),包括lstm層的層數(shù)、lstm層的神經(jīng)元數(shù)量以及dropout率;
21、lstm-ae模型結(jié)合長短期記憶單元lstm和自動編碼器ae,分為編碼器和解碼器兩部分,其中編碼器和解碼器中包含了多個lstm層;
22、其中,長短期記憶單元lstm包括遺忘門、輸入門以及輸出門三部分,遺忘門丟棄不相關(guān)的信息,輸入門決定存儲在單元狀態(tài)中的新信息,輸出門控制隱含層節(jié)點(diǎn)的輸出;
23、自動編碼器ae包括編碼器和解碼器;
24、在編碼過程中,對于高維輸入x,編碼器通過激活函數(shù)將其映射到低維空間;
25、在解碼過程中,解碼器通過激活函數(shù)將y逆向映射到高維空間,實(shí)現(xiàn)數(shù)據(jù)的重構(gòu);
26、(2)定義適應(yīng)度函數(shù):將準(zhǔn)確率accuracy作為適應(yīng)度函數(shù),它將根據(jù)模型在訓(xùn)練數(shù)據(jù)上的表現(xiàn)來評估模型的優(yōu)劣:
27、
28、式中:tp、tn、fp以及fn分別為混淆矩陣中的真正例(true?positives,tp)、真負(fù)例(true?negatives,tn)、假正例(false?positives,fp)和假負(fù)例(false?negatives,fn)。
29、(3)初始化帝王蝶種群:初始時,隨機(jī)生成一群帝王蝶,每只蝶代表一組lstm-ae的超參數(shù),包含lstm層的層數(shù)、lstm層的神經(jīng)元數(shù)量以及dropout率;這些超參數(shù)的組合構(gòu)成一個解空間,帝王蝶群體將在這個解空間中搜索最優(yōu)解。
30、(4)更新帝王蝶種群:將種群分為子種群1、子種群2和子種群3,三個子族群中的個體均受到具有局部搜索能力的遷徙算子和具有全局搜索能力的調(diào)整算子的作用,通過不斷迭代,帝王蝶群體將根據(jù)適應(yīng)度函數(shù)的評價結(jié)果,調(diào)整超參數(shù),朝著更優(yōu)解的方向演化;
31、其中,具有局部搜索能力的遷徙算子為:
32、
33、式中,為t+1次迭代時xi的第k維帝王蝶i的位置,該位置包含了一組lstm-ae的超參數(shù);r1和r2分別為種群1和2的隨機(jī)個體;r為符合均勻分布的在0至1間的隨機(jī)數(shù);pe為遷移周期,通常設(shè)定為1.2;p為遷移率,用于決定種群1和種群2中帝王蝶的比例,取值為5/12。
34、具有全局搜索能力的調(diào)整算子為:
35、
36、式中,為t+1次迭代時xi的第k維帝王蝶j的位置;為t次迭代時的最優(yōu)個體xbest的第k維;為種群3中隨機(jī)選取的第t代帝王蝶的第k維;ba為調(diào)整率,在帝王蝶算法中調(diào)整率ba等于遷移率p;smax為帝王蝶的最大步長;levy為萊維飛行公式;
37、(5)設(shè)置停止準(zhǔn)則:達(dá)到最大迭代次數(shù)或適應(yīng)度達(dá)到閾值時,則停止優(yōu)化過程;
38、(6)輸出最優(yōu)超參數(shù):在優(yōu)化過程結(jié)束后,帝王蝶群體中適應(yīng)度最高的個體所對應(yīng)的超參數(shù)就被認(rèn)為是lstm-ae的最優(yōu)超參數(shù),即最優(yōu)的lstm層的層數(shù)、lstm層的神經(jīng)元數(shù)量以及dropout率。
39、(7)依據(jù)mbo優(yōu)化所得的最優(yōu)超參數(shù)構(gòu)建lstm-ae模型,并開展異常值檢測;
40、(8)引入一種所謂的異常分?jǐn)?shù),將異常分?jǐn)?shù)定義為重建的能源消耗測量值和實(shí)際測量值之間的差值相對于整個訓(xùn)練數(shù)據(jù)集的平均差值的絕對值;將lstm-ae的每個重建序列與原始數(shù)據(jù)進(jìn)行比較,重構(gòu)數(shù)據(jù)和實(shí)際差異越大,異常的概率越高,用異常閾值表示;定義基于異常分?jǐn)?shù)分布的閾值。對于聚合級別,閾值為1.5,對應(yīng)于訓(xùn)練數(shù)據(jù)集所有異常分?jǐn)?shù)分布的95%分位數(shù);對于設(shè)備級別,閾值為0.5,對應(yīng)于99%分位數(shù);當(dāng)預(yù)測序列的異常分?jǐn)?shù)超過閾值時,lstm-ae發(fā)出異常信號。
41、在所述步驟4之后還包括如下步驟:
42、步驟5、構(gòu)建智能體,可視化步驟4的異常值檢測結(jié)果并觸發(fā)警報預(yù)警;
43、步驟6、通過多個評價指標(biāo),對步驟4的異常值檢測結(jié)果進(jìn)行全方位評價。
44、而且,所述步驟5的智能體包括兩個子智能體,一個負(fù)責(zé)用于可視化異常值檢測結(jié)果;一個負(fù)責(zé)在檢測到異常值時觸發(fā)警報,并通過郵件、sms和應(yīng)用程序?qū)崿F(xiàn)異常值報警。
45、而且,所述步驟6通過混淆矩陣、準(zhǔn)確率、召回率、精確度的4種評價指標(biāo)對方法的異常值檢測效率進(jìn)行評價。
46、一種基于mbo-lstm-ae的大型碳排放監(jiān)測企業(yè)異常值檢測系統(tǒng),包括:
47、數(shù)據(jù)采集模塊、數(shù)據(jù)輸入模塊、數(shù)據(jù)預(yù)處理模塊、模型構(gòu)建模塊、智能體模塊和評價模塊;
48、所述數(shù)據(jù)采集模塊,用于采集大型碳排放檢測企業(yè)能源消耗數(shù)據(jù),并將該大型碳排放檢測企業(yè)能源消耗數(shù)據(jù)發(fā)送到基于云的能源管理系統(tǒng);
49、所述數(shù)據(jù)輸入模塊,用于將所采集的大型碳排放檢測企業(yè)能源消耗數(shù)據(jù)進(jìn)行數(shù)據(jù)格式轉(zhuǎn)換;
50、數(shù)據(jù)預(yù)處理模塊,用于對dataframe格式的大型碳排放檢測企業(yè)能源消耗數(shù)據(jù)進(jìn)行空缺值插補(bǔ)以及歸一化處理;
51、模型構(gòu)建模塊,用于建立帝王蝶優(yōu)化算法優(yōu)化長短期記憶自動編碼器模型,識別dataframe格式的大型碳排放監(jiān)測企業(yè)能源消耗數(shù)據(jù)中的異常值;
52、所述智能體模塊,用于構(gòu)建智能體,可視化異常值檢測結(jié)果并觸發(fā)警報預(yù)警;
53、所述評價模塊,用于通過多個評價指標(biāo),對異常值檢測結(jié)果進(jìn)行全方位評價。
54、本發(fā)明的優(yōu)點(diǎn)和有益效果:
55、1、本發(fā)明為實(shí)現(xiàn)對大型碳排放監(jiān)測企業(yè)(如鋼鐵廠)能耗數(shù)據(jù)的準(zhǔn)確異常值檢測,提出了一種基于帝王蝶優(yōu)化算法(monarch?butterfly?optimization,mbo)優(yōu)化長短期記憶自動編碼器(long?short-term?memory?based?autoencoder,lstm-ae)的無監(jiān)督能耗數(shù)據(jù)異常值檢測方法,無需事先標(biāo)記異常事件類型來訓(xùn)練模型,可以無監(jiān)督地學(xué)習(xí)和捕捉能耗數(shù)據(jù)中的復(fù)雜模式,高效地實(shí)現(xiàn)異常值的檢測,使大型碳排放監(jiān)測企業(yè)能夠識別能源消耗數(shù)據(jù)中的異常值以及異常成因。
56、2、本發(fā)明提出了一種基于帝王蝶優(yōu)化算法(monarch?butterfly?optimization,mbo)優(yōu)化長短期記憶自動編碼器(long?short-term?memory?based?autoencoder,lstm-ae)的無監(jiān)督異常值檢測方法,用于識別大型碳排放監(jiān)測企業(yè)在聚合和設(shè)備級別上能源消耗數(shù)據(jù)的異常值。本發(fā)明包括數(shù)據(jù)采集模塊、數(shù)據(jù)輸入模塊、數(shù)據(jù)預(yù)處理模塊、模型構(gòu)建模塊、智能體模塊和評價模塊六個模塊。這種設(shè)計(jì)使得系統(tǒng)更易于理解、維護(hù)和擴(kuò)展,同時也提供了靈活性,使得各模塊可以獨(dú)立運(yùn)作或被替換,以適應(yīng)不同企業(yè)和數(shù)據(jù)源的特定需求。本方法采用了基于帝王蝶優(yōu)化算法優(yōu)化長短期記憶的自動編碼器(mbo-lstm-ae)模型作為異常值檢測的核心。相較于傳統(tǒng)方法,mbo-lstm-ae模型無需標(biāo)記數(shù)據(jù)即可進(jìn)行異常值檢測,這降低了部署和維護(hù)的難度,特別適用于碳排放監(jiān)測企業(yè)的實(shí)際場景。此外,作為一種深度學(xué)習(xí)方法,mbo-lstm-ae能夠捕捉時序數(shù)據(jù)中的復(fù)雜模式,從而提高了在大型碳排放監(jiān)測企業(yè)能源消耗數(shù)據(jù)中的異常值檢測精度。這使得系統(tǒng)能夠及時識別潛在問題,有助于企業(yè)采取有效的節(jié)能和減排措施。最終,該大型碳排放監(jiān)測企業(yè)能源消耗數(shù)據(jù)異常值檢測方法能夠更準(zhǔn)確地捕捉時序數(shù)據(jù)中的異常模式,這對于大型碳排放監(jiān)測企業(yè)來說至關(guān)重要,從而能夠快速、精確地識別異常值有助于及早發(fā)現(xiàn)潛在問題,降低生產(chǎn)過程中的能源浪費(fèi),提高能源利用效率。實(shí)驗(yàn)表明,該方法在聚合和設(shè)備級別都能精確地檢測到異常值,具有很高的工程意義。