實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)融合的多核函數(shù)學(xué)習(xí)SVM的Mapreduce化短期負(fù)荷預(yù)測(cè)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及發(fā)一種基于多源異構(gòu)大數(shù)據(jù)的短期電力負(fù)荷預(yù)測(cè)方法。
【背景技術(shù)】
[0002] 在負(fù)荷預(yù)測(cè)領(lǐng)域中,影響負(fù)荷預(yù)測(cè)的因素豐富多樣,包括歷史負(fù)荷、天氣、季節(jié)、日 類(lèi)型、交通、實(shí)時(shí)電價(jià)、經(jīng)濟(jì)、政策等等,這些數(shù)據(jù)的各自治系統(tǒng)建設(shè)的時(shí)間、研發(fā)單位、采用 的技術(shù)和具體業(yè)務(wù)的特定要求等,導(dǎo)致了數(shù)據(jù)的存儲(chǔ)方式、數(shù)據(jù)類(lèi)型以及更新頻次等不同, 進(jìn)而呈現(xiàn)出數(shù)據(jù)異構(gòu)、來(lái)源多樣和海量數(shù)據(jù)等諸多特點(diǎn),使得這些特征通常擁有各自不同 的物理意義、量綱以及統(tǒng)計(jì)特性等?,F(xiàn)有的負(fù)荷預(yù)測(cè)方法中,基于時(shí)間序列模型不能很好 處理影響因素;回歸分析方法雖然考慮了部分影響因素,但并沒(méi)有考慮影響因素的異構(gòu)特 性,未能對(duì)這些特征進(jìn)行區(qū)分對(duì)待,可能導(dǎo)致對(duì)這些異源異構(gòu)特征利用效率的降低;現(xiàn)有的 利用基于單核的SVM進(jìn)行負(fù)荷預(yù)測(cè),其將所有的特征都并列堆疊成一個(gè)向量,比如,特征是 由兩個(gè)特征融合而成,第一個(gè)特征服從多項(xiàng)式分布,而第二個(gè)特征服從正態(tài)分布而后一起 輸入一個(gè)固定形式固定參數(shù)的核映射函數(shù)當(dāng)中來(lái)建立模型,這種處理方式顯得有些簡(jiǎn)單低 效,尤其是用來(lái)應(yīng)對(duì)來(lái)自不同數(shù)據(jù)源的不同種類(lèi)特征。
[0003] 當(dāng)數(shù)據(jù)規(guī)模龐大、數(shù)據(jù)異構(gòu)或者樣本分布不均勻時(shí),采用多核學(xué)習(xí)這一理論框架 則能夠提供更加靈活和有效的信息組織與挖掘功能。多核學(xué)習(xí)首先利用像一系列傳感器一 樣的基核對(duì)各自的信息進(jìn)行感知,而后通過(guò)在映射后高維空間中對(duì)各基核的優(yōu)化線(xiàn)性加權(quán) 集成,形成一種在原始空間中對(duì)不同信息的非線(xiàn)性?xún)?yōu)化集成,從而提高了核機(jī)器的性能以 更好的利用不同數(shù)據(jù)源中的信息。因此,研究基于多核學(xué)習(xí)的負(fù)荷預(yù)測(cè)算法具有重要意義。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的是提供一種能有效處理影響負(fù)荷預(yù)測(cè)的多種多源異構(gòu)數(shù)據(jù)的多核 函數(shù)學(xué)習(xí)方法,以解決因智能電網(wǎng)不斷發(fā)展,采集到的影響負(fù)荷變化的隨機(jī)因素的數(shù)量、結(jié) 構(gòu)種類(lèi)越來(lái)越多,導(dǎo)致傳統(tǒng)負(fù)荷預(yù)測(cè)方法無(wú)法精確處理及應(yīng)用這些多源異構(gòu)影響因素而不 能滿(mǎn)足大數(shù)據(jù)環(huán)境下短期負(fù)荷預(yù)測(cè)精度與速度要求的問(wèn)題。
[0005] 本發(fā)明為解決上述技術(shù)問(wèn)題而提供一種實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)融合的多核函數(shù)學(xué)習(xí) SVM的Mapreduce化短期負(fù)荷預(yù)測(cè)方法,該預(yù)測(cè)方法的步驟如下:
[0006] 步驟1、配置負(fù)荷預(yù)測(cè)平臺(tái):選定主節(jié)點(diǎn)服務(wù)器與從節(jié)點(diǎn)計(jì)算機(jī),搭建集群分布式 Hadoop平臺(tái),并配置集群環(huán)境JDK、SSH、HDFS以及Mapreduce等;
[0007] 步驟2、調(diào)研待預(yù)測(cè)配電網(wǎng)區(qū)域負(fù)荷情況:調(diào)研待預(yù)測(cè)配網(wǎng)區(qū)域底層線(xiàn)路如IOKV 專(zhuān)線(xiàn)、35KV專(zhuān)線(xiàn)的負(fù)荷種類(lèi)以及配電網(wǎng)區(qū)域范圍內(nèi)工業(yè)負(fù)荷、農(nóng)業(yè)負(fù)荷、商業(yè)負(fù)荷、居民負(fù) 荷的構(gòu)成比例;
[0008] 步驟3、選定多源異構(gòu)數(shù)據(jù)種類(lèi):根據(jù)步驟2的調(diào)研結(jié)果篩選M種影響負(fù)荷預(yù)測(cè)的 隨機(jī)多源異構(gòu)因素特征值屬性,第M種屬性特征值包含m個(gè)子特征值,并從氣象網(wǎng)、交通網(wǎng)、 SCADA系統(tǒng)以及數(shù)據(jù)庫(kù)等采集各特征值歷史樣本,每天的采集頻率為f,采集樣本個(gè)數(shù)為N ;
[0009] 【特征值 Xlll, Xll2,…,Xlln,特征值 Xl21,X122,…,xl2n,......,特征值 xlM1,xlM2,… ,xiMm】,i = 1,2,…,N
[0010] 步驟4、數(shù)據(jù)預(yù)處理:將步驟3中采集的多源異構(gòu)數(shù)據(jù)進(jìn)行歸一化處理;
[0011] 步驟5、選定M個(gè)核函數(shù)Kk,k = 1,2,…M,組合的多核函數(shù)為:if = Σ?=14&。式 中,dk為核函數(shù)K k對(duì)應(yīng)的權(quán)系數(shù),具體選定核函數(shù)種類(lèi)的步驟為:
[0012] 5A.采用單變量法,選定某一屬性的特征值【xkl, xk2,…,xkm】,k = 1,2,…M,m為 該屬性的特征值所含子特征值個(gè)數(shù);
[0013] 5B.采用單核SVM法,輸入變量為5A.中選取的單屬性特征值,核函數(shù)分別選線(xiàn)性 核函數(shù)、多項(xiàng)式核函數(shù)、RBF核函數(shù),進(jìn)行單核SVM負(fù)荷預(yù)測(cè);
[0014] 5C.計(jì)算四種單核SVM負(fù)荷預(yù)測(cè)精度;
[0015] 5D.選擇預(yù)測(cè)精度最高的核函數(shù)作為該單屬性特征值對(duì)應(yīng)的核函數(shù)Kk;
[0016] 5E.對(duì)M種屬性的特征值分別進(jìn)行5A至操作,得到最終的M個(gè)核函數(shù)Kk,k = 1,2,…M0
[0017] 步驟6、多源異構(gòu)數(shù)據(jù)特征融合:利用Hadoop平臺(tái)將多核函數(shù)學(xué)習(xí) SVM算法 Mapreduce化,實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)特征融合,并得到負(fù)荷預(yù)測(cè)結(jié)果。具體步驟為:
[0018] 6A.將步驟4歸一化后的多源異構(gòu)數(shù)據(jù)劃分為X個(gè)訓(xùn)練樣本與C個(gè)測(cè)試樣本,X+C =N:
[0019] 訓(xùn)練樣本:
[0020] Xu=【特征值 X ull,Xul2,…,Xuln,特征值 Xu21,Xu22,…,Xu2n,......,特征值 XUM1, XuM2,…,XuMm,Yu 】
[0021] 測(cè)試樣本:
[0022] Xv -【特征值 X vll,Xv12,…,XvIm,特征值 Xv21,Xv22,…,Xv2m,......,特征值 ΧνΜ1,XvM2,… ,XvMm, yv】
[0023] 其中:yu、yvS 目標(biāo)負(fù)荷值,u = 1,2, · · ·,X,v = 1,2, · · ·,C.
[0024] 6B.將6A中的訓(xùn)練樣本{xu,u = 1,2,…,X}分割為D個(gè)數(shù)據(jù)子集:確定需要并 行多核SVM計(jì)算的數(shù)目D和數(shù)據(jù)集大小,修改HDFS配置文件,設(shè)置塊大小,并將數(shù)據(jù)上傳至 HDFS ;
[0025] 6C.實(shí)現(xiàn)D個(gè)節(jié)點(diǎn)的Map過(guò)程:
[0026] ①設(shè)定精度為常數(shù)ε ;
[0027] ②利用步驟5的組合核函數(shù)K 4心計(jì)算數(shù)據(jù)子集的核矩陣,實(shí)現(xiàn)多源異構(gòu)
數(shù)據(jù)特征融合:
[0028] 給定初值
[0029] 初始化核矩陣為
[0030] 其中
[0031] ③利用初始化核矩陣,采用求解多核函數(shù)SVM的雙層交替優(yōu)化算法對(duì)數(shù)據(jù)子集進(jìn) 行訓(xùn)練,得到D個(gè)節(jié)點(diǎn)的子支持向量,輸出為〈key, value〉,key為訓(xùn)練樣本,value為子支 持向量;
[0032] 6D.實(shí)現(xiàn)Reduce過(guò)程:D個(gè)節(jié)點(diǎn)的子支持向量進(jìn)行合并,對(duì)合并后的支持向量集 進(jìn)行多核函數(shù)SVM訓(xùn)練,得到最優(yōu)核函數(shù)權(quán)重4&= 1,2,-·,Μ)、最優(yōu)拉格朗日乘子 <與 = :U.…A/)以及最終支持向量,建立多核SVM回歸估計(jì)函數(shù):
[0034] 其中
i為訓(xùn) 練樣本中的任意兩個(gè)樣本的特征值,yu為訓(xùn)練樣本中的目標(biāo)負(fù)荷值,X為待預(yù)測(cè)負(fù)荷的各特 征值向量。利用該多核SVM回歸估計(jì)函數(shù),對(duì)測(cè)試樣本進(jìn)行負(fù)荷預(yù)測(cè),并計(jì)算相對(duì)誤差,輸 出為〈key, value〉,key為測(cè)試樣本,value為負(fù)荷預(yù)測(cè)值與相對(duì)誤差。
[0035] 與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
[0036] 傳統(tǒng)負(fù)荷預(yù)測(cè)有的無(wú)法考慮影響因素,有的雖然考慮了部分影響因素,但并沒(méi)有 考慮影響因素的異構(gòu)特性,未能對(duì)這些特征進(jìn)行區(qū)分對(duì)待,導(dǎo)致對(duì)這些異源異構(gòu)特征利用 效率的降低,而且隨著智能電網(wǎng)的發(fā)展,大數(shù)據(jù)環(huán)境下影響負(fù)荷預(yù)測(cè)的數(shù)據(jù)隨機(jī)性、復(fù)雜程 度增加,傳統(tǒng)負(fù)荷預(yù)測(cè)方法數(shù)據(jù)處理方面的劣勢(shì)愈加明顯,本發(fā)明根據(jù)不同的影響因素選 用不同的核函數(shù)來(lái)代表其異構(gòu)特征,利用組合核函數(shù)來(lái)有效融合、處理影響負(fù)荷預(yù)測(cè)精度 的多源異構(gòu)數(shù)據(jù)因素,提高這些異源異構(gòu)特征利用效率,進(jìn)而提高負(fù)荷預(yù)測(cè)精度。
【附圖說(shuō)明】
[0037] 圖1是實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)融合的多核函數(shù)學(xué)習(xí) SVM的Mapreduce化短期負(fù)荷預(yù)測(cè) 方法流程圖
[0038] 圖2是選擇核函數(shù)的流程圖
【具體實(shí)施方式】
[0039] 為使本發(fā)明更明顯易懂,茲以?xún)?yōu)選實(shí)施例子,并配合附圖作詳細(xì)說(shuō)明如下。
[0040] 步驟1、配置負(fù)荷預(yù)測(cè)平臺(tái):選定主節(jié)點(diǎn)服務(wù)器與從節(jié)點(diǎn)計(jì)算機(jī),搭建集群分布式 Hadoop平臺(tái),并配置集群環(huán)境JDK、SSH、HDFS以及Mapreduce等;
[0041] 步驟2、調(diào)研待預(yù)測(cè)配電網(wǎng)區(qū)域負(fù)荷情況:調(diào)研待預(yù)測(cè)配網(wǎng)區(qū)域底層線(xiàn)路如IOKV 專(zhuān)線(xiàn)、35KV專(zhuān)線(xiàn)的負(fù)荷種類(lèi)以及配電網(wǎng)區(qū)域范圍內(nèi)工業(yè)負(fù)荷、農(nóng)業(yè)負(fù)荷、商業(yè)負(fù)荷、居民負(fù) 荷的構(gòu)成比例;
[0042] 步驟3、選定多源異構(gòu)數(shù)據(jù)種類(lèi):根據(jù)步驟2的調(diào)研結(jié)果篩選M種影響負(fù)荷預(yù)測(cè)的 隨機(jī)多源異構(gòu)因素特征值屬性,第M種屬性特征值包含m個(gè)子特征值,并從氣象網(wǎng)、交通網(wǎng)、 SCADA系統(tǒng)以及數(shù)據(jù)庫(kù)等采集各特征值歷史樣本,每天的采集頻率為f,采集樣本個(gè)數(shù)為N ;
[0043] 【特征值xm,Xil2,…,Xilm,特征值 Xi21 ? Xi22,··、Xi2m,·· .…,特征值XiMl,XiM2,…,XiMm】, i = 1,2,…,N
[0044] 例如,此處選擇的多源異構(gòu)數(shù)據(jù)構(gòu)造形式:
[0045] 【時(shí)刻X1,星期屬性x2,日最高氣溫Xy日最低氣溫x4,日平均氣溫 x;>,預(yù)測(cè)點(diǎn)電價(jià) X6、預(yù)測(cè)點(diǎn)前一時(shí)刻電價(jià)X7、前一天同一預(yù)測(cè)點(diǎn)電價(jià)X8、前一周同一預(yù)測(cè)點(diǎn)電價(jià)X 9、日最大車(chē) 流量X1。、日最小車(chē)流量χη、日進(jìn)出地鐵人數(shù)χ12】
[0046] 時(shí)刻X1 :每日每隔30分鐘米樣負(fù)荷數(shù)據(jù),一天共48個(gè)時(shí)刻表不如下:
[0048] 星期屬性x2:用數(shù)字1至7表示星期一至星期日。
[0049] 預(yù)測(cè)方式:日前負(fù)荷預(yù)測(cè),以待預(yù)測(cè)日前T (自定義)天每天每15分鐘的數(shù)據(jù)作為 訓(xùn)練樣本,來(lái)預(yù)測(cè)待預(yù)測(cè)日每15分鐘的負(fù)荷值。
[0050] 步驟4、數(shù)據(jù)預(yù)處理:將步驟3中采集的多源異構(gòu)數(shù)據(jù)進(jìn)行歸一化處理,歸一化方 法為:
[0052] 步驟5、選定M個(gè)核函數(shù)Kk,k = 1,2,…M,組合的多核函數(shù)為:[ = 。式 中,dk為核函數(shù)K k對(duì)應(yīng)的權(quán)系數(shù),具體選定核函數(shù)種類(lèi)的步驟為:
[0053] 5A.采用單變量法,選定某一屬性的特征值【xkl, xk2,…,xkm】,k = 1,2,…M,m為 該屬性的特征值所含子特征值個(gè)數(shù);
[0054] 5B.采用單核SVM法,輸入變量為5A.中選取的單屬性特征值,核函數(shù)分別選線(xiàn)性 核函數(shù)、多項(xiàng)式核函數(shù)、R