一種基于大數(shù)據(jù)技術(shù)的配網(wǎng)搶修精益化方法以及管理系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及一種電力信息大數(shù)據(jù)信息挖掘與分析領(lǐng)域,特別是一種基于大數(shù)據(jù)技 術(shù)的配網(wǎng)搶修精益化方法W及管理系統(tǒng)。
【背景技術(shù)】
[0002] 現(xiàn)有的配網(wǎng)搶修過程管理都是基于傳統(tǒng)的統(tǒng)計分析來進(jìn)行數(shù)據(jù)規(guī)范和數(shù)據(jù)展現(xiàn) 的,傳統(tǒng)的統(tǒng)計分析是指運(yùn)用統(tǒng)計方法及與分析對象有關(guān)的知識,從定量與定性的結(jié)合上 進(jìn)行的研究活動。統(tǒng)計分析可W分為5個步驟:描述要分析的數(shù)據(jù)的性質(zhì);研究基礎(chǔ)群體的 數(shù)據(jù)關(guān)系;創(chuàng)建一個模型,總結(jié)數(shù)據(jù)與基礎(chǔ)群體的聯(lián)系;證明(或否定)該模型的有效性;采 用該模型來預(yù)測將來的趨勢。
[0003] 在運(yùn)用傳統(tǒng)的統(tǒng)計分析方法進(jìn)行分析應(yīng)用時,需對數(shù)據(jù)分布和變量間的關(guān)系做假 設(shè),確定用什么概率函數(shù)來描述變量間的關(guān)系,W及如何檢驗(yàn)參數(shù)的統(tǒng)計顯著性,W驗(yàn)證假 設(shè)是否成立,而無法實(shí)現(xiàn)自動尋找變量間隱藏的關(guān)系或規(guī)律,并且,傳統(tǒng)的統(tǒng)計分析在處理 實(shí)時、海量、模糊、雜亂的數(shù)據(jù)時效率低下,不能很好的支撐配網(wǎng)搶修的相關(guān)應(yīng)用,所W,基 于大數(shù)據(jù)技術(shù)的分布式并行計算和分析挖掘能力可W實(shí)現(xiàn)對海量數(shù)據(jù)快速準(zhǔn)確的進(jìn)行分 析。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的在于針對傳統(tǒng)統(tǒng)計分析方法在分析應(yīng)用之前需對數(shù)據(jù)分布和變量 間的關(guān)系做假設(shè)的問題,基于大數(shù)據(jù)的數(shù)據(jù)挖掘技術(shù)可W不需要對數(shù)據(jù)分布做任何假設(shè), 數(shù)據(jù)挖掘中的算法會自動尋找變量間隱藏的關(guān)系或規(guī)律。針對傳統(tǒng)統(tǒng)計分析方法處理實(shí) 時、海量數(shù)據(jù)效率低下的問題,基于大數(shù)據(jù)的分布式消息隊列、流計算、內(nèi)存計算和分布式 并行計算技術(shù)可W高效率、簡潔、實(shí)時的實(shí)現(xiàn)對數(shù)據(jù)的采集和處理。
[0005] 本專利通過定時或?qū)崟r采集故障搶修管理系統(tǒng)、生產(chǎn)管理系統(tǒng)、市調(diào)系統(tǒng)、氣象 信息系統(tǒng)中的故障搶修工單信息、搶修班組、用戶、臺區(qū)、線路、氣象信息等數(shù)據(jù)信息,構(gòu)建 故障搶修效率分析和故障數(shù)量預(yù)測兩個數(shù)據(jù)挖掘模型,實(shí)現(xiàn)"配網(wǎng)故障搶修實(shí)時分析"和 "故障搶修效率分析"場景應(yīng)用,從而提高供電服務(wù)質(zhì)量,強(qiáng)化配網(wǎng)故障搶修管理水平。
[0006] 本發(fā)明的目的通過如下技術(shù)方案實(shí)現(xiàn):
[0007] -種基于大數(shù)據(jù)技術(shù)的配網(wǎng)搶修精益化方法,它包括W下步驟:
[000引步驟a、數(shù)據(jù)源建立,建立故障搶修工單信息、搶修班組、用戶、臺區(qū)、線路、氣象信 息的數(shù)據(jù)信息;
[0009] 步驟b、數(shù)據(jù)整合:融合kafka實(shí)時數(shù)據(jù)分布式消息隊列、sqoop離線數(shù)據(jù)抽取技術(shù), 對異構(gòu)數(shù)據(jù)的快速接入,構(gòu)建分布式數(shù)據(jù)整合功能,具備定時/實(shí)時數(shù)據(jù)的采集處理能力, 實(shí)現(xiàn)從數(shù)據(jù)源到平臺存儲的配置開發(fā)、過程監(jiān)控;
[0010] 步驟C、數(shù)據(jù)存儲:對關(guān)系型數(shù)據(jù)存儲、非關(guān)系型數(shù)據(jù)存儲、分布式文件存儲進(jìn)行數(shù) 據(jù)存儲,同時提供統(tǒng)一存儲訪問接口,提高數(shù)據(jù)存儲低成本的橫向擴(kuò)展能力,提高在高并發(fā) 條件下的快速數(shù)據(jù)訪問響應(yīng)能力、滿足海量數(shù)據(jù)實(shí)時與準(zhǔn)實(shí)時存儲需求;
[0011] 步驟d、數(shù)據(jù)計算:并支撐SQL查詢,滿足不同時效性計算需求;批量計算支持大批 量數(shù)據(jù)離線分析;流計算支持實(shí)時處理,如用電數(shù)據(jù)實(shí)時處理、預(yù)警;同時提供類似S化的查 詢分析技術(shù),將查詢語句轉(zhuǎn)譯為并行的分布式計算任務(wù);步驟e、數(shù)據(jù)分析:集成R語言和 Mahout,形成分布式數(shù)據(jù)挖掘算法庫,提供挖掘建模設(shè)計工具,構(gòu)建統(tǒng)一的分析建模能力和 運(yùn)行引擎;同時,通過提升改造分析決策平臺,完善分析建模、模型運(yùn)行、模型發(fā)布等能力, 增加對大數(shù)據(jù)分布式計算的支持,滿足實(shí)時、離線應(yīng)用的分析挖掘需求,為公司分析決策應(yīng) 用構(gòu)建提供基礎(chǔ)平臺支撐;
[0012] 步驟f、場景展現(xiàn):實(shí)施配網(wǎng)故障搶修實(shí)時分析W及故障搶修效率分析。
[0013] 其中,步驟e:數(shù)據(jù)分析中,包括故障搶修效率分析,故障搶修效率分析具體為采用 K-Means聚類算法觀察探索不同搶修環(huán)節(jié)標(biāo)準(zhǔn)用時與故障、氣象的內(nèi)在發(fā)展規(guī)律,構(gòu)建搶修 效率分析模型,尋找多維度下不同搶修環(huán)節(jié)的標(biāo)準(zhǔn)用時,區(qū)域、駐點(diǎn)的月度故障統(tǒng)計信息; K-Means依賴于不斷尋找簇中屯、直至其達(dá)至穩(wěn)定實(shí)現(xiàn)對象的劃分;K-Means算法一開始先 (隨機(jī)或依據(jù)某種策略)選擇K個簇中屯、,然后在每次迭代時將對象劃分至最相似的簇中屯、, 形成新的簇劃分后再計算同簇對象的均值作為新的簇中屯、;運(yùn)個過程反復(fù)進(jìn)行,直至簇中 屯、不再變動或達(dá)到最大迭代次數(shù)為止。
[0014] K-Means算法實(shí)現(xiàn)步驟如下:
[001引1)第一步是為待聚類的點(diǎn)尋找K個聚類中屯、。
[0016] >指定聚類數(shù)目K;
[0017] >在所有個案中隨機(jī)選取K個類初始中屯、,(OkJk),k = l,2, ...;
[0018] 2)第二步是計算每個點(diǎn)到聚類中屯、的距離,將每個點(diǎn)聚類到離該點(diǎn)最近的聚類中 去,根據(jù)距離最近原則進(jìn)行分類,計算每個樣本數(shù)據(jù)點(diǎn)到K個類初始中屯、點(diǎn)的歐式距離,并 按照距K個類中屯、點(diǎn)距離最近的原則分派所有樣本,形成K類;
[0019] >樣本點(diǎn)到類初始中屯、點(diǎn)的歐式距離公式為:既C£?((O .n.嘩7;>)=^,-〇tf+Pi-nf, (Oi ,Ti)為樣本點(diǎn);
[0020] >判斷樣本點(diǎn)到哪類初始中屯、點(diǎn)的距離最小,并將此樣本歸入此類;
[0021] 3)第=步是計算每個聚類中所有點(diǎn)的坐標(biāo)平均值,并將運(yùn)個平均值作為新的聚類 中屯、。反復(fù)執(zhí)行(2)、(3),直到聚類中屯、不再進(jìn)行大范圍移動或者聚類次數(shù)達(dá)到要求為止, 依次計算各類中K個變量的均值,W均值點(diǎn)作為K個類的中屯、點(diǎn);
[0022] >重新確定類中屯、點(diǎn)(ck,tk) n為各類中樣本點(diǎn)的個數(shù); ,
[0023] 設(shè)置終止聚類的條件:迭代次數(shù)n:當(dāng)目前的迭代次數(shù)等于指定的迭代次數(shù)時,終 止聚類;類中屯、點(diǎn)偏移程度(S):新確定的類中屯、點(diǎn)距上個類中屯、的最大偏移量小于指定的 量時停止聚類。當(dāng)?shù)螖?shù)和類中屯、偏移成都中任一條件滿足則結(jié)束聚類,不滿足上述兩 個條件,則反復(fù)執(zhí)行(2)、(3)。
[0024] 另外,步驟e:數(shù)據(jù)分析中,包括故障數(shù)量預(yù)測,故障數(shù)量預(yù)測具體為采用隨機(jī)森林 分類預(yù)測算法觀察探索歷史故障發(fā)生情況與負(fù)荷、氣象的內(nèi)在發(fā)展規(guī)律,構(gòu)建故障量預(yù)測 模型,預(yù)測設(shè)備故障量可能發(fā)生的量級區(qū)間范圍;其中隨機(jī)森林,指的是利用多棵樹對樣本 進(jìn)行訓(xùn)練并預(yù)測的一種分類器;就是由多棵CART(Classification And Regression Tree) 決策樹構(gòu)成的;對于每棵樹,它們使用的訓(xùn)練集是從總的訓(xùn)練集中有放回采樣出來的,總的 訓(xùn)練集中的有些樣本可能多次出現(xiàn)在一棵樹的訓(xùn)練集中,也可能從未出現(xiàn)在一棵樹的訓(xùn)練 集中;在訓(xùn)練每棵樹的節(jié)點(diǎn)時,使用的特征是從所有特征中按照一定比例隨機(jī)地?zé)o放回的 抽取的。
[0025] 隨機(jī)森林分類預(yù)測模型構(gòu)建的過程主要包括W下幾個步驟:
[0026] 1)確定特征值,需采用預(yù)測算法預(yù)測未來一天的天氣信息和負(fù)荷信息,將天氣、負(fù) 荷信息作為模型的特征值;
[0027] 2)進(jìn)行數(shù)據(jù)預(yù)處理,由于原始數(shù)據(jù)存在缺失、錯漏等問題,需要對原始數(shù)據(jù)進(jìn)行預(yù) 處理,得到我們的模型輸入數(shù)據(jù),另外,隨機(jī)森林分類算法的目標(biāo)變量需為分類變量,而故 障量為數(shù)值變量,需采用聚類算法將故障量聚為若干聚類區(qū)間,并將故障量映射到聚類區(qū) 間;
[0028] 3)進(jìn)行模型訓(xùn)練,采用隨機(jī)森林分類算法構(gòu)建故障量預(yù)測模型,輸出預(yù)測結(jié)果;
[0029] 4)進(jìn)行模型評估,采用查準(zhǔn)率、查全率兩個指標(biāo)評估模型的預(yù)測效果,計算公式如 下:
(D (2)
[0032] 其中,precision和recall分別指查準(zhǔn)率和查全率,化,Nt,化分別表示預(yù)測正確樣 本數(shù)、預(yù)測樣本數(shù)及真實(shí)樣本數(shù)。
[0033] 搶修實(shí)時分析:實(shí)現(xiàn)對當(dāng)前上海全市的配網(wǎng)故障發(fā)生的實(shí)時情況進(jìn)行監(jiān)測,并從 故障數(shù)量實(shí)時分析、故障量日趨勢監(jiān)測、故障處理情況=個維度進(jìn)行詳細(xì)的剖析和監(jiān)測,實(shí) 時跟蹤故障搶修的整個過程,分析各區(qū)域駐點(diǎn)的工作強(qiáng)度。并通過隨機(jī)森林分類預(yù)測算法, 預(yù)測未來一天不同供電公司電網(wǎng)故障和非電網(wǎng)故障的故障數(shù)量,為搶修資源調(diào)配提供建 議。
[0034] 搶修效率分析:按照發(fā)生年月、故障分類、電壓等級、設(shè)備聚類、設(shè)備大類五個維度 實(shí)現(xiàn)對每月上海全市的非電網(wǎng)\電網(wǎng)\各電壓等級的配網(wǎng)搶修效率進(jìn)行分析,對上海全市、 各區(qū)域、駐點(diǎn)的效率進(jìn)行評估和分析。并通過聚類算法,W搶修過程重要節(jié)點(diǎn)時長為目標(biāo)變 量,氣象及交通流量等外部信息驗(yàn)證模型結(jié)果,制定各類故障的搶修標(biāo)準(zhǔn)效率,對搶修過程 中超期的環(huán)節(jié)進(jìn)行預(yù)警,實(shí)現(xiàn)搶修過程中的全面監(jiān)督。
[0(X3日