一種儲能電站海量數(shù)據(jù)壓縮方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種儲能技術(shù)領(lǐng)域的方法和系統(tǒng),具體講涉及一種儲能電站海量數(shù)據(jù) 壓縮方法及系統(tǒng)。
【背景技術(shù)】
[0002] 目前,儲能電站電池數(shù)量眾多,每個電池設(shè)有多個監(jiān)測設(shè)備,導(dǎo)致監(jiān)控系統(tǒng)采集儲 能電站數(shù)據(jù)量巨大,且隨著儲能電站的長期使用和擴展,儲能電站數(shù)據(jù)增多,形成海量數(shù) 據(jù)。而現(xiàn)有的儲能電站數(shù)據(jù)采集、存儲與管理方法不規(guī)范,需要對儲能電站海量數(shù)據(jù)管理和 挖掘技術(shù)開展進一步深化研究。在大量的電池儲能電站數(shù)據(jù)中,不但當(dāng)前時刻的數(shù)據(jù)有用, 且其歷史數(shù)據(jù)也有很大利用價值。因此,獲得完整的儲能電站歷史數(shù)據(jù)是必要的,但是所有 監(jiān)測點產(chǎn)生的所有數(shù)據(jù)按照周期返回到基站之后,若不加以壓縮就直接進行存儲勢必會占 用大量的硬件資源,同時將這些歷史數(shù)據(jù)進行查詢分析也將由于系統(tǒng)資源被占用而異常困 難?;谏鲜鲈?,將電池儲能電站海量數(shù)據(jù)進行壓縮處理成為對儲能電站海量數(shù)據(jù)進行 快速準(zhǔn)確分析計算的基礎(chǔ)。
[0003] 電池儲能電站數(shù)據(jù)主要有以下特點:
[0004] (1)數(shù)據(jù)量大:由于儲能電站電池設(shè)備眾多,每個電池設(shè)有較多監(jiān)測設(shè)備,每秒采 集的數(shù)據(jù)量很多,匯集起來的總數(shù)據(jù)量非常龐大;
[0005] (2)數(shù)據(jù)變化平緩:儲能電站龐大數(shù)據(jù)量不是隨機分布的,例如某電池的溫度在 進行充放電過程中會較高,而隨著剩余電量的穩(wěn)定會逐漸下降,呈現(xiàn)平緩改變的趨勢;
[0006] (3)同一數(shù)據(jù)出現(xiàn)頻率高:很容易出現(xiàn)很長一段時間的穩(wěn)定狀態(tài),即檢測到的數(shù) 據(jù)長時間保持在同一數(shù)值;
[0007] (4)按照時間序列分布:所有的監(jiān)測數(shù)據(jù)傳輸均按時間順序來發(fā)送的,即每隔一 個固定周期發(fā)送一次,因此,壓縮的同時還需要保證原數(shù)據(jù)的順序。
[0008] 針對儲能電站海量電池的原始數(shù)據(jù)進行無損壓縮,現(xiàn)有技術(shù)中,常用方法是按照 數(shù)據(jù)編碼的算法對數(shù)據(jù)進行壓縮,這類方法如果應(yīng)用在海量監(jiān)測數(shù)據(jù)上有如下缺陷:
[0009] (1)編碼后的數(shù)據(jù)量與原數(shù)據(jù)相差不大,壓縮效果不明顯。
[0010] (2)需要達到指定數(shù)據(jù)量才能進行壓縮,無法對實時接收到的數(shù)據(jù)進行壓縮。
[0011] (3)對于數(shù)據(jù)的查詢和分析需要先進行解壓縮過程,增加了計算量。
[0012] 因此,需要提供一種新的儲能電站海量數(shù)據(jù)壓縮方法及系統(tǒng),克服上述現(xiàn)有技術(shù) 存在的缺陷。
【發(fā)明內(nèi)容】
[0013] 為克服上述現(xiàn)有技術(shù)的不足,本發(fā)明提供一種儲能電站海量數(shù)據(jù)壓縮方法及系 統(tǒng)。
[0014] 實現(xiàn)上述目的所采用的解決方案為:
[0015] -種儲能電站海量數(shù)據(jù)壓縮方法,所述方法包括以下步驟:
[0016] I、確定原數(shù)據(jù)的長度n,依次將所述原數(shù)據(jù)中相鄰的數(shù)據(jù)劃分成最小子分段;
[0017] II、根據(jù)所述最小子分段中的數(shù)據(jù)確定PCA分段;
[0018] III、依次確定相鄰兩個所述PCA分段的合并代價,判斷是否可合并,選擇符合合 并要求且合并代價最小的值進行合并;
[0019] IV、返回步驟III,直到所述PCA分段不可再合并;
[0020] V、獲得PCA分段組,確定所述原數(shù)據(jù)的最優(yōu)化壓縮解。
[0021] 優(yōu)選地,所述步驟I中,確定所述原數(shù)據(jù)的長度為n,依次將所述原數(shù)據(jù)中按每兩 個相鄰數(shù)據(jù)為一個最小子分段劃分成m個所述最小子分段,m多n/2,所述最小子分段包括 兩個數(shù)據(jù)。
[0022] 優(yōu)選地,所述步驟II包括以下步驟:
[0023] 依次確定所述最小子分段中兩個數(shù)據(jù)的差值,判斷所述差值是否小于2ε,ε為 數(shù)據(jù)允許誤差;
[0024] 若小于,則采用PCA方法將所述最小子分段劃為一個所述PCA分段,該PCA分段的 數(shù)據(jù)常量為兩個數(shù)據(jù)的平均值,該PCA分段的結(jié)束時間為第二個數(shù)據(jù)的結(jié)束時間;
[0025] 若不小于,則將所述最小子分段的兩個數(shù)據(jù)分別定為一個PCA分段,該PCA分段的 數(shù)據(jù)常量為所包含數(shù)據(jù)的數(shù)據(jù)值,結(jié)束時間為所包含數(shù)據(jù)的結(jié)束時間。
[0026] 優(yōu)選地,所述步驟III包括以下步驟:
[0027] S301、依次確定相鄰兩個所述PCA分段所對應(yīng)的數(shù)據(jù)常量的均值mean、最大值Max 和最小值Min ;
[0028] S302、判斷是否滿足合并條件:|mean-Max |〈 ε & |mean_Min |〈 ε,ε為數(shù)據(jù)允許誤 差;
[0029] 若不滿足,則表示不可合并;
[0030] 若滿足,則表示可合并,計算其合并代價;
[0031] S303、確定所有可合并的兩個相鄰PCA分段的合并代價,合并所述合并代價最小 的兩個相鄰PCA分段,若最小合并代價的個數(shù)大于一,則合并任一的相鄰PCA分段。
[0032] 優(yōu)選地,所述步驟IV中,在每一次合并結(jié)束后,重復(fù)步驟III,再次計算合并后各 PCA分段是否滿足合并條件,若滿足則繼續(xù)合并,直到?jīng)]有滿足合并條件的組存在為止。
[0033] -種儲能電站海量數(shù)據(jù)壓縮系統(tǒng),其特征在于:所述系統(tǒng)包括數(shù)據(jù)存儲模塊和海 量數(shù)據(jù)壓縮模塊;
[0034] 所述數(shù)據(jù)存儲模塊利用hbase構(gòu)建電池儲能電站的hbase數(shù)據(jù)表存儲壓縮后的儲 能電站數(shù)據(jù);
[0035] 所述海量數(shù)據(jù)壓縮模塊利用hadoop分布式處理機制對原數(shù)據(jù)進行分片,分發(fā)給 hadoop集群的各個處理節(jié)點同時進行海量數(shù)據(jù)壓縮,并將壓縮結(jié)果存入所述數(shù)據(jù)存儲模塊 的hbase數(shù)據(jù)表中。
[0036] 優(yōu)選地,所述海量數(shù)據(jù)壓縮模塊對所述原數(shù)據(jù)進行無損壓縮包括以下步驟:
[0037] I、確定所述原數(shù)據(jù)的長度為n,依次將所述原數(shù)據(jù)中相鄰的數(shù)據(jù)劃分成m個所述 最小子分段,m多n/2,所述最小子分段包括兩個數(shù)據(jù)。
[0038] II、確定所述最小子分段中兩個數(shù)據(jù)的差值,判斷所述差值是否小于2ε,ε為數(shù) 據(jù)允許誤差;
[0039] 若小于,則采用PCA方法將所述最小子分段劃為一個所述PCA分段,該PCA分段的 數(shù)據(jù)常量為兩個數(shù)據(jù)的平均值,該PCA分段的餓結(jié)束時間為第二個數(shù)據(jù)的結(jié)束時間;
[0040] 若不小于,則將所述最小子分段的兩個數(shù)據(jù)分別定為一個PCA分段,該PCA分段的 數(shù)據(jù)常量為所包含數(shù)據(jù)的數(shù)據(jù)值,結(jié)束時間為所包含數(shù)據(jù)的結(jié)束時間。
[0041] III、依次確定相鄰兩個所述PCA分段的合并代價,判斷是否可合并,選擇符合合 并要求且合并代價最小的值進行合并;
[0042] IV、在每一次合并結(jié)束后,重復(fù)步驟III,再次計算合并后各PCA分段是否滿足合 并條件,若滿足則繼續(xù)合并,直到?jīng)]有滿足合并條件的組存在為止;V、獲得分段組,確定所 述原數(shù)據(jù)的最優(yōu)化壓縮解。
[0043] 優(yōu)選地,所述步驟III包括:
[0044] S301、依次確定相鄰兩個所述PCA分段所對應(yīng)的數(shù)據(jù)常量的均值mean、最大值Max 和最小值Min ;
[0045] S302、判斷是否滿足合并條件:|mean-Max |〈 ε &|mean_Min |〈 ε,ε為數(shù)據(jù)允許誤 差;
[0046] 若不滿足,則表示不可合并;
[0047] 若滿足,則表示可合并,計算其合并代價;
[0048] S303、確定所有可合并的兩個相鄰PCA分段的合并代價,合并所述合并代價最小 的兩個相鄰PCA分段,若最小合并代價的個數(shù)大于一,則合并任一的相鄰PCA分段。
[0049] 與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:
[0050] 1、針對電池儲能電站海量數(shù)據(jù)的特點,相對于傳統(tǒng)的壓縮方法,本發(fā)明提出的分 段合并壓縮方法,能夠大幅提升海量數(shù)據(jù)壓縮比,減小數(shù)據(jù)存儲的開銷;
[0051] 2、本發(fā)明提供的方法利用hadoop分布式特性,多節(jié)點并行進行海量數(shù)據(jù)的分段 壓縮,增大了壓縮的時間范圍,通過并行處理可以提高壓縮的速度;
[0052] 3、本發(fā)明提供的方法,減少了計算的復(fù)雜度;
[0053] 4、本發(fā)明提供的系統(tǒng)具有可擴展性,通過增加處理節(jié)點,可以進一步提升海量數(shù) 據(jù)壓縮的效率;
[0054] 5、本發(fā)明提供的海量數(shù)據(jù)壓縮算法,能夠與Hadoop分布式框架有機結(jié)合,在數(shù)據(jù) 解壓縮和利用時采用分布式處理方法,通過分片處理的方法提高數(shù)據(jù)處理的速度。
【附圖說明】
[0055] 圖1為本發(fā)明中電池儲能電站海量數(shù)據(jù)壓縮方法流程圖;
[0056] 圖2為本發(fā)明中電池儲能電站海量數(shù)據(jù)壓縮系統(tǒng)結(jié)構(gòu)圖;
[0057] 圖3為本實施例中基于hadoop的分布式壓縮流程圖。
【具體實施方式】
[0058] 下面結(jié)合附圖對本發(fā)明的【具體實施方式】做進一步的詳細(xì)說明。
[0059] 如圖1所示,圖1為本發(fā)明中電池儲能電站海量數(shù)據(jù)壓縮方法流程圖;本發(fā)明提供 的一種儲能電站海量數(shù)據(jù)壓縮方法包括以下步驟:
[0060] I、確定原數(shù)據(jù)的長度n,依次將所述原