本發(fā)明涉及電能表計量和數據挖掘技術領域,具體是一種基于電能表狀態(tài)檢修的電能表備品備件預測方法。
背景技術:
國網安徽省電力公司擁有2500萬只電能表,絕大部分電能表屬于IV、V類電能表,總計25,363,693只(約占98%)。III類電能表約占安徽公司運行電能表的101,852(1.5%),余下的I、II類電能表占比不到0.5%。目前是根據DL/T448-2000《電能計量裝置技術管理規(guī)程》要求將電能表分為I、II、III、IV、V五個等級,I、II、III類電能表開展現場隨機抽查,對抽查的電能表進行校驗,及按規(guī)定的時間進行定期輪換。由于各個電能表制造商的制造工藝、元器件批次質量以及運行環(huán)境不同,就會存在部分電能表未到期就已出現質量問題及引起用戶投訴率高;還有部分電能表質量較好,到期更換造成浪費。這些真正實際需要更換電能表數和因政策、環(huán)境等因素需要新增的電能表數常常是憑經驗判斷,無法準確預測,所以需要利用機器學習中的算法來準確預測來年需要準備多少只電能表。
技術實現要素:
由于以往采購電能表都是靠經驗決定,沒有科學依據,該方式很難有效地對需求進行預測,而備品備貨預測則為能夠更好地減少庫存、節(jié)約成本、縮短時間提供了科學合理的依據與方法,因此備品備貨預測研究具有一定的實際意義。
為了實現上述目的,本發(fā)明是通過如下的技術方案來實現:
一種基于電能表狀態(tài)檢修的電能表備品備件預測方法,其特征在于:具體包括以下幾個步驟:
(1)、以廠商和批次為對象,分析所屬電能表的多維度指標,并利用逐步回歸分析法從原始變量中找出包含信息量最多的變量;
(2)、利用統(tǒng)計平均數法對步驟(1)得出的主變量進行加權打分;
(3)、通過非健康值的計算公式將步驟(2)中的加權打分值降成一個維度的非健康值;
(4)、通過min-max標準化對步驟(3)中的非健康值進行線性變換,使結果值映射到[0-1]之間,最終用散點圖展現出各批次電能表的非健康值分布;
(5)、通過梯度樹提升算法對電能表將來未知的非健康值進行預測,得到電能表非健康值模型;
(6)、通過Arima時間序列算法對每年新增戶數進行預測分析;
(7)、將非健康值超過臨界值的電表數與通過預測后得到的電能表非健康模型中非健康值將超過臨界值的電表數和每年新增戶數相加,即為本次備品備貨的數量。
所述的基于電能表狀態(tài)檢修的電能表備品備件預測方法,其特征在于:步驟(1)中,所述的多維度指標包括故障率、報廢率、待報廢率、折舊率、檢定不合格率。
所述的基于電能表狀態(tài)檢修的電能表備品備件預測方法,其特征在于:步驟(1)中,所述的逐步回歸分析法的計算步驟如下:
(1-1)、先將被解釋變量y對每個解釋變量x1,x2,x3……做簡單回歸,再對每一個回歸方程進行統(tǒng)計檢驗分析(相關系數,擬合優(yōu)度,標準誤差)選出最優(yōu)的回歸方程,也稱基本回歸方程;
(1-2)、將其他解釋變量逐一的引進到基本回歸方程中,如果引入一個新的解釋變量使擬合優(yōu)度有提升,而其他的參數和回歸系數仍然合理,那說明這個解釋變量是有利的,可以保留;如果引入之后擬合優(yōu)度不明顯,對回歸系數也沒什么影響,則不必保留;如果新解釋變量不僅改變了擬合優(yōu)度,而且對其他回歸系數的數值和符號也產生了重要的影響,那么這個新變量是不利變量,引進后會使模型出現多重共線性問題;不利變量也不一定要舍去,如果它對被解釋變量確實是不可缺少的,則不能簡單的舍去,應該尋找更合適的模型,重新進行估計;如果通過檢驗證明回歸模型存在兩個明顯線性相關的解釋變量,并且其中一個變量可以很好地被另一個變量所解釋,那么可以省去對被解釋變量影響較小的變量,保留影響較大的變量。
所述的基于電能表狀態(tài)檢修的電能表備品備件預測方法,其特征在于:步驟(2)中,所述的統(tǒng)計平均數法具體的步驟如下:
(2-1)、確定行業(yè)專家進行初評:將待定的主變量交給各位專家,并請專家在不受外界干擾的前提下獨立的給出各項指標的權數值;
(2-2)、回收專家意見:將各位專家的數據收回,并分別計算電能表整體運行狀態(tài)各項指標的加權打分的均值和標準差。
所述的基于電能表狀態(tài)檢修的電能表備品備件預測方法,其特征在于:步驟(3)中,所述的非健康值的計算公式如下:
其中,w為故障種類,Ai為故障率,Fi為故障率權值,其中,故障包括電能表倒走、電能表反向潛動、電能表電池欠壓、電能表總與各費率之和不一致;
G2為待報廢率,K2為待報廢率權值;
G3為報廢率,K3為報廢率權值;
G4為折舊率,K4為折舊率權值;
G5為檢測不合格率,K5為檢測不合格率權值。
所述的基于電能表狀態(tài)檢修的電能表備品備件預測方法,其特征在于:步驟(4)中,線性變換的函數如下:
其中,x為樣本中的數據,max為樣本數據的最大值,min為樣本數據的最小值。
所述的基于電能表狀態(tài)檢修的電能表備品備件預測方法,其特征在于:步驟(5)中,所述的梯度樹提升模型如下:
(5-1)、首先初始化:
f0(x)=argminc∑i=1NL(yi,c);
估計一個使損失函數極小化的常數值,此時它只有一個節(jié)點的樹;
(5-2)、迭代的建立M棵提升樹:
for m=1 to M:(第一層循環(huán)),
for i=1 to N:(第二層循環(huán)),
計算損失函數的負梯度在當前模型的值,并將它作為殘差的估計值:
對于rmi擬合一棵回歸樹,得到第m棵樹的葉節(jié)點區(qū)域Rmj,j=1,2,…,J,
for j=1to J:(第二層循環(huán)),計算如下:
cmj=argminc∑xi∈RmjL(yi,fm-1(xi)+c);
利用線性搜索估計葉節(jié)點區(qū)域的值,使損失函數極小化;
然后,更新fm(x)=fm-1(x)+∑Jj=1cmjI(x∈Rmj);
(5-3)、最后得到的fm(x)就是最終的模型:
f~(x)=fM(x)=∑m=1M∑j=1JcmjI(x∈Rmj)。
所述的新增戶數,其特征在于:步驟(6)中,所述的Arima時間序列模型如下:
(6-1)、根據時間序列的散點圖、自相關函數和偏自相關函數圖以ADF單位根檢驗其方差、趨勢及其季節(jié)性變化規(guī)律,對序列的平穩(wěn)性進行識別;
(6-2)、對非平穩(wěn)序列進行平穩(wěn)化處理。如果數據序列是非平穩(wěn)的,并存在一定的增長或下降趨勢,則需要對數據進行差分處理,如果數據存在異方差,則需對數據進行技術處理,直到處理后的數據的自相關函數值和偏相關函數值無顯著地異于零;
(6-3)、根據時間序列模型的識別規(guī)則,建立相應的模型,若平穩(wěn)序列的偏相關函數是截尾的,而自相關函數是拖尾的,可斷定序列適合AR模型;若平穩(wěn)序列的偏相關函數是拖尾的,而自相關函數是截尾的,則可斷定序列適合MA模型;若平穩(wěn)序列的偏相關函數和自相關函數均是拖尾的,則序列適合ARMA模型;其中,截尾是指時間序列的自相關函數(ACF)或偏自相關函數(PACF)在某階后均為0的性質(比如AR的PACF);拖尾是指ACF或PACF并不在某階后均為0的性質(比如AR的ACF)。
(6-4)、進行參數估計,檢驗是否具有統(tǒng)計意義;
(6-5)、進行假設檢驗,診斷殘差序列是否為白噪聲;
(6-6)、利用已通過檢驗的模型進行預測分析。
本發(fā)明的有益效果:
本發(fā)明主要從三大方面考慮電能表備品備貨:第一:通過將電能表的計劃檢修提升到狀態(tài)檢修,以廠商和批次為單位,通過降維的思想為每批電能表打上非健康值這個標簽,用來衡量每個批次的好壞程度,決定哪些批次在資源有限的情況下應該優(yōu)先更換;第二:通過建立電能表非健康值預測模型,找出那些暫時問題不是很嚴重的批次在之后的發(fā)展變化中是否會成為優(yōu)先選擇更換的批次:第三:由于每年都會有新增戶數安裝電表的需求,這部分電表也是備品備貨主要組成之一,所以通過觀看近幾年各地區(qū)人口增長的走勢,結合政策導向,利用時間序列算法預測未來時間里有可能新增的戶數。
附圖說明
圖1為本發(fā)明的電能表備品備貨工作流程圖。
具體實施方式
為使本發(fā)明實現的技術手段、創(chuàng)作特征、達成目的與功效易于明白了解,下面結合具體實施方式,進一步闡述本發(fā)明。
參見圖1,其具體實現步驟如下:
本發(fā)明是基于大數據統(tǒng)計分析電能表的非健康值和以往每年新增戶數,利用機器學的梯度樹提升算法和Arima時間序列算法對電能表未來的非健康值和新增戶數進行預測分析,其具體實現步驟如下:
S1:選取所有批次電能表的一個月數據進行降維處理,數據降維基本原理是將樣本點從輸入空間通過線性或非線性變換映射到一個低維空間,從而獲得一個關于原數據集緊密的低維表示。利用逐步回歸分析法從原始變量中找出少數幾個主變量,使它們盡可能多地保留原始變量的信息,且彼此間互不相關。
逐步回歸分析法的計算步驟如下:
1、先將被解釋變量y對每個解釋變量x1,x2,x33……做簡單回歸,再對每一個回歸方程進行統(tǒng)計檢驗分析(相關系數,擬合優(yōu)度,標準誤差)選出最優(yōu)的回歸方程,也稱基本回歸方程;
2、將其他解釋變量逐一的引進到基本回歸方程中,如果引入一個新的解釋變量使擬合優(yōu)度有提升,而其他的參數和回歸系數仍然合理,那說明這個解釋變量是有利的,可以保留;如果引入之后擬合優(yōu)度不明顯,對回歸系數也沒什么影響,則不必保留。如果新解釋變量不僅改變了擬合優(yōu)度,而且對其他回歸系數的數值和符號也產生了重要的影響,那么這個新變量是不利變量,引進后會使模型出現多重共線性問題。不利變量也不一定要舍去,如果它對被解釋變量確實是不可缺少的,則不能簡單的舍去,應該尋找更合適的模型,重新進行估計。如果通過檢驗證明回歸模型存在兩個明顯線性相關的解釋變量,并且其中一個變量可以很好地被另一個變量所解釋,那么可以省去對被解釋變量影響較小的變量,保留影響較大的變量。
S2:由第一步得出模型的主要變量后,利用統(tǒng)計平均數法,對主要的幾個變量進行加權打分,再通過非健康值的計算公式降成一個維度,非健康值計算出來后需要min-max標準化,最終用散點圖展現出各批次電能表的非健康值分布。
1、統(tǒng)計平均數法(Statistical average method)是根據所選擇的各位專家對各項評價指標所賦予的相對重要性系數分別求其算術平均值,計算出的平均數作為各項指標的權重。其基本步驟是:第一步,確定行業(yè)專家進行初評。將待定的電能表運行狀態(tài)、報廢費和折舊率權數的指標提交給各位專家,并請專家在不受外界干擾的前提下獨立的給出各項指標的權數值;第二步,回收專家意見。將各位專家的數據收回,并計算電能表整體運行狀態(tài)涉及的各項指標的權數均值和標準差;第三步,分別計算電能表整體運行狀態(tài)各項指標權重的平均數。
2、建立非健康度分析模型如下:
(Gi、Ai:變量,Ki、Fi:該變量對應的權重),
Ai:故障率,Fi:故障率權值;(故障包括電表倒走,電能表反向潛動、電能表電池欠壓、電能表總與各費率之和不一致等);
G2:待報廢率,K2:待報廢率權值;
G3:報廢率,K3:報廢率權值;
G4:折舊率,K4:折舊率權值;
G5:檢測不合格率,K5:檢測不合格率權值。
3、min-max標準化(Min-Max Normalization):
通過min-max標準化對原始數據的線性變換,使結果值映射到[0-1]之間。轉換函數如下:
其中,max為樣本數據的最大值,min為樣本數據的最小值。
S3:通過梯度樹提升分析預測算法對非健康值進行預測,梯度樹提升步驟如下:
1、首先初始化:
f0(x)=argminc∑i=1NL(yi,c);
估計一個使損失函數極小化的常數值,此時它只有一個節(jié)點的樹;
2、迭代的建立M棵提升樹:
for m=1to M:(第一層循環(huán)),
for i=1to N:(第二層循環(huán)),
計算損失函數的負梯度在當前模型的值,并將它作為殘差的估計值:
對于rmi擬合一棵回歸樹,得到第m棵樹的葉節(jié)點區(qū)域Rmj,j=1,2,…,J,
for j=1to J:(第二層循環(huán)),計算如下:
cmj=argminc∑xi∈RmjL(yi,fm-1(xi)+c);
利用線性搜索估計葉節(jié)點區(qū)域的值,使損失函數極小化;
然后,更新fm(x)=fm-1(x)+∑Jj=1cmjI(x∈Rmj)。
3、最后得到的fm(x)就是我們最終的模型:
f~(x)=fM(x)=∑m=1M∑j=1JcmjI(x∈Rmj)
S4:通過Arima時間序列算法預測新增戶數,Arima時間序列算法步驟如下:
1、根據時間序列的散點圖、自相關函數和偏自相關函數圖以ADF單位根檢驗其方差、趨勢及其季節(jié)性變化規(guī)律,對序列的平穩(wěn)性進行識別。
2、對非平穩(wěn)序列進行平穩(wěn)化處理。如果數據序列是非平穩(wěn)的,并存在一定的增長或下降趨勢,則需要對數據進行差分處理,如果數據存在異方差,則需對數據進行技術處理,直到處理后的數據的自相關函數值和偏相關函數值無顯著地異于零。
3、根據時間序列模型的識別規(guī)則,建立相應的模型。若平穩(wěn)序列的偏相關函數是截尾的,而自相關函數是拖尾的,可斷定序列適合AR模型;若平穩(wěn)序列的偏相關函數是拖尾的,而自相關函數是截尾的,則可斷定序列適合MA模型;若平穩(wěn)序列的偏相關函數和自相關函數均是拖尾的,則序列適合ARMA模型。(其中,截尾是指時間序列的自相關函數(ACF)或偏自相關函數(PACF)在某階后均為0的性質(比如AR的PACF);拖尾是指ACF或PACF并不在某階后均為0的性質(比如AR的ACF)。)
4、進行參數估計,檢驗是否具有統(tǒng)計意義。
5、進行假設檢驗,診斷殘差序列是否為白噪聲。
6、利用已通過檢驗的模型進行預測分析。
以上顯示和描述了本發(fā)明的基本原理、主要特征和本發(fā)明的優(yōu)點。本行業(yè)的技術人員應該了解,本發(fā)明不受上述實施例的限制,上述實施例和說明書中描述的只是說明本發(fā)明的原理,在不脫離本發(fā)明精神和范圍的前提下,本發(fā)明還會有各種變化和改進,這些變化和改進都落入要求保護的本發(fā)明范圍內。本發(fā)明要求保護范圍由所附的權利要求書及其等效物界定。