本申請(qǐng)涉及智能電網(wǎng)大數(shù)據(jù)應(yīng)用領(lǐng)域,尤其涉及一種用于智能電表大數(shù)據(jù)的負(fù)荷曲線聚類方法。
背景技術(shù):
隨著智能電網(wǎng)的發(fā)展,越來越多的智能電表被安裝到分布式網(wǎng)絡(luò)中,智能電表收集的時(shí)變用電數(shù)據(jù)構(gòu)成負(fù)荷曲線,不同的負(fù)荷曲線能夠反應(yīng)不同用戶的用電習(xí)慣,因此,通過對(duì)用戶的負(fù)荷曲線進(jìn)行聚類可以獲得用戶典型負(fù)荷曲線,并據(jù)此將用戶分類,對(duì)于一些應(yīng)用開發(fā)(如負(fù)荷預(yù)測(cè)、異常用電信息檢測(cè)、負(fù)荷控制、設(shè)計(jì)電價(jià)、需求響應(yīng)策略等)具有重要意義。
現(xiàn)有負(fù)荷曲線聚類方法主要包括基于劃分聚類方法,如K均值法、FCM(Fuzzy C-Means,模糊C均值法)聚類方法,以及基于模型的聚類方法,如自組織映射(SOM)和支持向量機(jī)(SVM),其中,F(xiàn)CM聚類方法因?yàn)榫垲悘?fù)雜度低且聚類性能較優(yōu)被廣泛應(yīng)用,另外為了提高大規(guī)模數(shù)據(jù)聚類效率,。聚類前先對(duì)負(fù)荷數(shù)據(jù)做降維處理,常用降維方法包括PCA(Principle Component Analysis,主成分分析法)和Sammon映射等,其中PCA因?yàn)橛?jì)算時(shí)間更小而更優(yōu)。
但是在傳統(tǒng)的FCM聚類方法中,需要預(yù)先設(shè)定聚類數(shù),而在實(shí)際負(fù)荷曲線進(jìn)行聚類的過程中,聚類前沒有辦法確定聚類數(shù);另外,F(xiàn)CM聚類方法考慮樣本數(shù)據(jù)相似性時(shí)采用歐式距離計(jì)算,而歐式距離計(jì)算中假設(shè)樣本數(shù)據(jù)各維屬性重要度相同,但是實(shí)際負(fù)荷曲線中的各負(fù)荷數(shù)據(jù)每一維屬性的重要度并不一樣。因此,傳統(tǒng)的FCM聚類方法所得的結(jié)果不準(zhǔn)確。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提供一種用于智能電表大數(shù)據(jù)的負(fù)荷曲線聚類方法,用于解決傳統(tǒng)的FCM聚類方法所得的結(jié)果不準(zhǔn)確的技術(shù)問題。
為達(dá)到上述目的,本發(fā)明提供了一種用于智能電表大數(shù)據(jù)的負(fù)荷曲線聚類方法,包括以下步驟:
步驟S1、采用PCA方法對(duì)樣本數(shù)據(jù)進(jìn)行降維處理;
步驟S2、設(shè)定一個(gè)預(yù)設(shè)聚類數(shù)目,并基于預(yù)設(shè)聚類數(shù)目,采用加權(quán)FCM算法對(duì)降維處理后的樣本數(shù)據(jù)進(jìn)行聚類;
步驟S3、通過聚類有效性函數(shù)自適應(yīng)確定預(yù)設(shè)聚類數(shù)目是否為最佳聚類數(shù)目,若是,則執(zhí)行步驟S4,若不是,則將預(yù)設(shè)聚類數(shù)目減1,并重新執(zhí)行步驟S2;
步驟S4、基于最佳聚類數(shù),采用加權(quán)FCM算法得到最佳聚類結(jié)果。
其中,所述步驟S1中具體包括:
設(shè)X={xn},n=1,2,…,X為零均值數(shù)據(jù),即定義協(xié)方差矩陣C為:
做特征值分解得:
其中U=[u1,u2,…,uS]為特征向量集合,Λ=diag(λ1,λ2,…,λS)為特征值;
若將一個(gè)S維空間數(shù)據(jù)映射到L維子空間中,其中L<<S時(shí),通過前L個(gè)特征向量UL=[u1,u2,…,uL]將一個(gè)S維的數(shù)據(jù)xi向L維主成分方向投影為:Xnew=XUL得到降維后的數(shù)據(jù)Xnew。
其中,所述步驟S2中的加權(quán)FCM聚類是在基于FCM聚類的同時(shí),考慮了各維屬性重要度之間的差異,并通過給屬性賦予不同權(quán)值來體現(xiàn)該差異,進(jìn)一步地,屬性的權(quán)值采用PCA降維后的屬性方差貢獻(xiàn)率來表示,設(shè) 協(xié)方差矩陣C的特征根λ1≥λ2≥…≥λS≥0,定義為第k個(gè)屬性的貢獻(xiàn)率,則降維后第k個(gè)屬性的權(quán)值為:
優(yōu)選地,定義為前k個(gè)屬性的累積貢獻(xiàn)率,所述累積貢獻(xiàn)率應(yīng)大于95%。
進(jìn)一步地,所述步驟S2中的加權(quán)FCM聚類是一種模糊聚類方法,該方法設(shè)定每一個(gè)樣本點(diǎn)不能嚴(yán)格地被劃分到某一類,而是以一定的隸屬度屬于某一類,令uij表示第j個(gè)樣本點(diǎn)屬于第i類的隸屬度,則隸屬度矩陣和聚類中心矩陣分別為U={uij}和V={vi},通過最小化目標(biāo)函數(shù)來確定隸屬度矩陣U={uij}和聚類中心矩陣V={vi},該目標(biāo)函數(shù)為:
其中
其中dij是樣本xj到聚類中心vi的加權(quán)歐式距離,表示為:
其中m≥1,m是模糊加權(quán)指數(shù),用來表示隸屬度矩陣U的模糊度,要預(yù)先設(shè)定,m越大,分類的模糊度越高,另外通過對(duì)(3)和(4)微分計(jì)算,可以得到uij和vi的計(jì)算公式為:
其中xj表示第j個(gè)樣本,從而獲得了隸屬度矩陣U={uij}和聚類中心矩陣V={vi}。
其中,步驟S3中采用的聚類有效性函數(shù)是基于樣本數(shù)據(jù)幾何結(jié)構(gòu)的DB(Davies-Bouldin)聚類有效函數(shù),該函數(shù)的特征是同一類內(nèi)的樣本點(diǎn)緊湊,不同類間的樣本點(diǎn)分離,因此可以用類內(nèi)樣本點(diǎn)距離與類間樣本點(diǎn)距離的比值來表示所述特征,定義為:
其中d(xi)是指類簇i下的所有樣本點(diǎn)間歐式距離總和,d(ci,cj)是指聚類中心i和j間的歐式距離,k表示聚類中心數(shù)目,IDB值越小,則聚類性能越好。
優(yōu)選地,所述步驟S3根據(jù)IDB的最小值確定最優(yōu)聚類數(shù)目。
進(jìn)一步地,用于智能電表大數(shù)據(jù)的負(fù)荷曲線聚類方法在步驟S1前還包括以下步驟:
步驟S01、收集樣本數(shù)據(jù);
步驟S02、對(duì)樣本數(shù)據(jù)中的異常數(shù)據(jù)進(jìn)行清理;
步驟S03、對(duì)清理之后的樣本數(shù)據(jù)執(zhí)行歸一化;
優(yōu)選地,所述用于智能電表大數(shù)據(jù)的負(fù)荷曲線聚類方法采用兩步聚類法,包括首先對(duì)單個(gè)用戶不同日的樣本數(shù)據(jù)執(zhí)行第一次負(fù)荷聚類運(yùn)算,獲得針對(duì)每個(gè)用戶的樣本數(shù)據(jù)的典型負(fù)荷曲線;然后對(duì)所有用戶獲得的典型負(fù)荷曲線執(zhí)行第二次聚類運(yùn)算,獲得最終不同所有樣本數(shù)據(jù)的用戶分類結(jié)果。
由以上技術(shù)方案可見,本發(fā)明提出的一種用于智能電表大數(shù)據(jù)的負(fù)荷曲 線聚類方法,該方法首先采用PCA方法對(duì)智能電表大數(shù)據(jù)降維;然后基于預(yù)設(shè)聚類數(shù)目采用加權(quán)FCM算法對(duì)降維處理后的樣本數(shù)據(jù)進(jìn)行聚類;接著通過聚類有效性函數(shù)自適應(yīng)確定預(yù)設(shè)聚類數(shù)目是否為最佳聚類數(shù)目;最后基于最佳聚類數(shù)得到最佳聚類結(jié)果,該聚類方法解決了傳統(tǒng)的FCM聚類方法所得的結(jié)果不準(zhǔn)確的技術(shù)問題。
附圖說明
為了更清楚地說明本申請(qǐng)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請(qǐng)中記載的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是用于智能電表大數(shù)據(jù)的負(fù)荷曲線聚類算法的具體流程圖;
圖2是本申請(qǐng)?zhí)岢龅膬刹截?fù)荷曲線聚類法的示意圖。
具體實(shí)施方式
下面將結(jié)合本申請(qǐng)實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清除、完整的描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
本發(fā)明實(shí)施例提出一種用于智能電表大數(shù)據(jù)的負(fù)荷曲線聚類方法,具體包括以下步驟:
步驟S1、采用PCA方法對(duì)樣本數(shù)據(jù)進(jìn)行降維處理;
步驟S2、設(shè)定一個(gè)預(yù)設(shè)聚類數(shù)目,并基于預(yù)設(shè)聚類數(shù)目,采用加權(quán)FCM算法對(duì)降維處理后的樣本數(shù)據(jù)進(jìn)行聚類;
步驟S3、通過聚類有效性函數(shù)自適應(yīng)確定預(yù)設(shè)聚類數(shù)目是否為最佳聚類數(shù)目,若是,則執(zhí)行步驟S4,若不是,則將預(yù)設(shè)聚類數(shù)目減1,并重新執(zhí) 行步驟S2;
步驟S4、基于最佳聚類數(shù),采用加權(quán)FCM算法得到最佳聚類結(jié)果。
本發(fā)明通過如上步驟所述的用于智能電表大數(shù)據(jù)的負(fù)荷曲線聚類方法,首先采用PCA方法對(duì)智能電表大數(shù)據(jù)降維;然后基于預(yù)設(shè)聚類數(shù)目采用加權(quán)FCM算法對(duì)降維處理后的樣本數(shù)據(jù)進(jìn)行聚類,成功將各位屬性度重要度的差異納入FCM聚類算法;接著通過聚類有效性函數(shù)自適應(yīng)確定預(yù)設(shè)聚類數(shù)目是否為最佳聚類數(shù)目;最后基于最佳聚類數(shù)得到最佳聚類結(jié)果,有效解決了傳統(tǒng)的FCM聚類方法所得的結(jié)果不準(zhǔn)確的技術(shù)問題。
其中,所述步驟S1具體包括:
設(shè)X={xn},n=1,2,…,X為零均值數(shù)據(jù),即定義協(xié)方差矩陣C為:
做特征值分解得:
其中U=[u1,u2,…,uS]為特征向量集合,Λ=diag(λ1,λ2,…,λS)為特征值;
將一個(gè)S維空間數(shù)據(jù)映射到L維子空間中,其中L<<S時(shí),通過前L個(gè)特征向量UL=[u1,u2,…,uL]將一個(gè)S維的數(shù)據(jù)xi向L維主成分方向投影為:Xnew=XUL得到降維后的數(shù)據(jù)Xnew,由此可見,所述PCA方法通過獲得較少屬性唯獨(dú)的數(shù)據(jù),縮短了負(fù)荷聚類時(shí)間。
其中,所述步驟S2中的加權(quán)FCM聚類是在基于FCM聚類的同時(shí),考慮了各維屬性重要度之間的差異,并通過給屬性賦予不同權(quán)值來體現(xiàn)該差異,進(jìn)一步地,屬性的權(quán)值采用PCA降維后的屬性方差貢獻(xiàn)率來表示,設(shè)協(xié)方差矩陣C的特征根λ1≥λ2≥…≥λS≥0,定義為第k個(gè)屬性的貢獻(xiàn)率,則降維后第k個(gè)屬性的權(quán)值為:
優(yōu)選地,定義為前k個(gè)屬性的累積貢獻(xiàn)率,為了即達(dá)到降維的目的,同時(shí)信息損失盡量小,所述累積貢獻(xiàn)率應(yīng)大于95%。
進(jìn)一步地,所述步驟S2中的加權(quán)FCM聚類是一種模糊聚類方法,該方法設(shè)定每一個(gè)樣本點(diǎn)不能嚴(yán)格地被劃分到某一類,而是以一定的隸屬度屬于某一類,令uij表示第j個(gè)樣本點(diǎn)屬于第i類的隸屬度,則隸屬度矩陣和聚類中心矩陣分別為U={uij}和V={vi},通過最小化目標(biāo)函數(shù)來確定隸屬度矩陣U={uij}和聚類中心矩陣V={vi},該目標(biāo)函數(shù)為:
其中
其中dij是樣本xj到聚類中心vi的加權(quán)歐式距離,表示為:
其中m≥1,m是模糊加權(quán)指數(shù),用來表示隸屬度矩陣U的模糊度,要預(yù)先設(shè)定,m越大,分類的模糊度越高,另外通過對(duì)(3)和(4)微分計(jì)算,可以得到uij和vi的計(jì)算公式為:
其中xj表示第j個(gè)樣本,從而獲得了隸屬度矩陣U={uij}和聚類中心矩陣V={vi}。
其中,步驟S3中采用的聚類有效性函數(shù)是基于樣本數(shù)據(jù)幾何結(jié)構(gòu)的DB (Davies-Bouldin)聚類有效函數(shù),該函數(shù)的特征是同一類內(nèi)的樣本點(diǎn)緊湊,不同類間的樣本點(diǎn)分離,因此可以用類內(nèi)樣本點(diǎn)距離與類間樣本點(diǎn)距離的比值來表示所述特征,定義為:
其中d(xi)是指類簇i下的所有樣本點(diǎn)間歐式距離總和,d(ci,cj)是指聚類中心i和j間的歐式距離,k表示聚類中心數(shù)目,IDB值越小,則聚類性能越好。
優(yōu)選地,所述步驟S3根據(jù)IDB的最小值確定最優(yōu)聚類數(shù)目。
進(jìn)一步地,用于智能電表大數(shù)據(jù)的負(fù)荷曲線聚類方法在步驟S1前還包括以下步驟:
步驟S01、收集樣本數(shù)據(jù),示例性地,所述樣本數(shù)據(jù)集中了智能電表以30min/次的頻率記錄的每個(gè)用戶用電量,一條負(fù)荷曲線由一天即24h的用電量時(shí)間序列組成,即一條負(fù)荷曲線包含48個(gè)負(fù)荷點(diǎn)。在聚類分析中,將每條負(fù)荷曲線作為一個(gè)聚類樣本點(diǎn),每條負(fù)荷曲線的48個(gè)負(fù)荷點(diǎn)作為每個(gè)聚類樣本點(diǎn)的48個(gè)聚類屬性;
步驟S02、對(duì)樣本數(shù)據(jù)中的異常數(shù)據(jù)進(jìn)行清理,示例性地,刪除一天負(fù)荷點(diǎn)超過或少于48個(gè)的負(fù)荷曲線或含較多0負(fù)荷的負(fù)荷曲線;
步驟S03、對(duì)清理之后的樣本數(shù)據(jù)執(zhí)行歸一化,示例性地,本發(fā)明采用最大最小歸一化方法對(duì)負(fù)荷數(shù)據(jù)做歸一化處理,公式如下:
優(yōu)選地,面對(duì)大量的樣本數(shù)據(jù),為了簡(jiǎn)化聚類過程和提高聚類效率,本發(fā)明采用兩步聚類法,如圖1所示,首先對(duì)單個(gè)用戶不同日的樣本數(shù)據(jù)執(zhí)行第一次負(fù)荷聚類運(yùn)算,獲得針對(duì)每個(gè)用戶的樣本數(shù)據(jù)的典型負(fù)荷曲線(每個(gè)類 簇的中心);然后再對(duì)所有用戶的典型負(fù)荷曲線執(zhí)行第二次聚類運(yùn)算,獲得最終不同所有樣本數(shù)據(jù)的用戶分類結(jié)果。
下面結(jié)合圖2對(duì)本申請(qǐng)?zhí)岢龅挠糜谥悄茈姳泶髷?shù)據(jù)的負(fù)荷曲線聚類方法的具體流程進(jìn)行進(jìn)一步舉例說明。
該實(shí)施例采用本發(fā)明提出的基于PCA降維處理的加權(quán)FCM方法,設(shè)置方差累積貢獻(xiàn)率σ=0.95,模糊指數(shù)m=2,迭代閾值ε=1×10-5,最大聚類數(shù)目Kmax=20,流程如下:
1)輸入最大聚類數(shù)目Kmax,模糊指數(shù)m,迭代停止閾值ε以及主成分累積貢獻(xiàn)率因子σ,原始聚類數(shù)據(jù)X;
2)對(duì)原始數(shù)據(jù)做PCA屬性降維處理,根據(jù)式求得S1,保留前S1個(gè)屬性作為聚類屬性,并根據(jù)式S1初始化每一個(gè)屬性權(quán)重得到屬性權(quán)重向量W={ωj}以及降維后數(shù)據(jù)Xnew;
3)設(shè)置初始聚類數(shù)目K=Kmax,DBmin=∞;
4)根據(jù)式(4)初始化隸屬度矩陣U;
5)根據(jù)式(7)計(jì)算聚類中心矩陣V;
6)根據(jù)式(6)計(jì)算隸屬度矩陣U;
7)根據(jù)式(3)計(jì)算目標(biāo)函數(shù),如果小于相對(duì)于上次目標(biāo)函數(shù)的改變量小于閾值ε,計(jì)算聚類索引DB值并跳轉(zhuǎn)步驟(8),否則跳轉(zhuǎn)步驟(5);
8)如果DB<DBmin,則賦值DBmin=DB,U*=U,V*=V;
9)設(shè)置K=K-1,如果K=1,輸出最優(yōu)聚類結(jié)果U*和V*,否則跳轉(zhuǎn)步驟(4)。
盡管已描述了本申請(qǐng)的優(yōu)選實(shí)施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對(duì)這些實(shí)施例作出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本申請(qǐng)范圍的所有變更和修改。 顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本申請(qǐng)進(jìn)行各種改動(dòng)和變型而不脫離本申請(qǐng)的精神和范圍。這樣,倘若本申請(qǐng)的這些修改和變型屬于本申請(qǐng)權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本申請(qǐng)也意圖包含這些改動(dòng)和變型在內(nèi)。