本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域。更具體地,本發(fā)明涉及一種多元大數(shù)據(jù)優(yōu)化存儲方法。
背景技術(shù):
1、隨著科技的發(fā)展,每天都會產(chǎn)生大量數(shù)據(jù),例如生產(chǎn)線數(shù)據(jù)。為了便于進(jìn)行生產(chǎn)線管理,一般需要實(shí)時(shí)采集多元的生產(chǎn)線數(shù)據(jù),長期以往就會采集到大量的多元生產(chǎn)線數(shù)據(jù),而這些采集到的多元生產(chǎn)線數(shù)據(jù)需要保存一段時(shí)間,從而在后續(xù)產(chǎn)品出現(xiàn)問題時(shí),能夠快速的分析出成因。而要將這些數(shù)據(jù)存儲下來需要大量的存儲成本。為了節(jié)約存儲成本,需對采集的數(shù)據(jù)進(jìn)行壓縮處理。
2、霍夫曼編碼算法作為一種無損壓縮算法,其常用于數(shù)據(jù)的壓縮處理?;舴蚵幋a算法是根據(jù)數(shù)據(jù)的出現(xiàn)頻率進(jìn)行編碼,其中出現(xiàn)頻率越高,給其設(shè)置的編碼長度越短,出現(xiàn)頻率越低,給其設(shè)置的編碼長度越長。而現(xiàn)實(shí)中不同時(shí)刻的多元生產(chǎn)線數(shù)據(jù)不盡相同,因而每種多元生產(chǎn)線數(shù)據(jù)的出現(xiàn)頻率較低,而數(shù)據(jù)出現(xiàn)頻率較低就會導(dǎo)致編碼長度較長,而編碼長度較長就會導(dǎo)致數(shù)據(jù)壓縮效果較差。因而如何在數(shù)據(jù)出現(xiàn)頻率較低時(shí)也能達(dá)到較好的壓縮效果成為本發(fā)明的研究重點(diǎn)。
3、授權(quán)公告號為cn104283568b的專利文件中展示了一種基于部分霍夫曼樹的數(shù)據(jù)壓縮編碼方法,該專利文件主要是通過分層構(gòu)建編碼表的方式來提高壓縮效率。該專利文件中編碼方法不能解決出現(xiàn)頻率低造成的數(shù)據(jù)壓縮效果差的問題,因而該專利文件不能較好解決本發(fā)明中問題。
技術(shù)實(shí)現(xiàn)思路
1、為解決如何在數(shù)據(jù)出現(xiàn)頻率較低時(shí)也能達(dá)到較好的壓縮效果的問題,本發(fā)明提出一種多元大數(shù)據(jù)優(yōu)化存儲方法,該方法包括以下步驟:
2、獲取若干多元數(shù)據(jù)點(diǎn);
3、將與所有多元數(shù)據(jù)點(diǎn)的幾何中心最近的多元數(shù)據(jù)點(diǎn)作為比對點(diǎn),計(jì)算比對點(diǎn)與其他各多元數(shù)據(jù)點(diǎn)的每個(gè)維度與其他維度的相關(guān)性,將比對點(diǎn)與其他各多元數(shù)據(jù)點(diǎn)的每個(gè)維度與其他所有維度的相關(guān)性均值作為比對點(diǎn)與其他各多元數(shù)據(jù)點(diǎn)的每個(gè)維度的相關(guān)性描述值;根據(jù)相關(guān)性描述值對所有多元數(shù)據(jù)點(diǎn)進(jìn)行聚類處理;
4、利用pca算法對各類別的多元數(shù)據(jù)點(diǎn)進(jìn)行處理,獲取特征值最大的主成分方向記為第一主成分方向,在各類別的所有多元數(shù)據(jù)點(diǎn)的幾何中心和第一主成分方向定位出的直線上獲取最外側(cè)多元數(shù)據(jù)點(diǎn)記為基準(zhǔn)數(shù)據(jù)點(diǎn);獲取類別內(nèi)各多元數(shù)據(jù)點(diǎn)與基準(zhǔn)數(shù)據(jù)點(diǎn)構(gòu)成的向量作為各多元數(shù)據(jù)點(diǎn)的描述向量,獲取各多元數(shù)據(jù)點(diǎn)的描述向量的單位向量以及模長;
5、將單位向量作為編碼對象,對類別中所有多元數(shù)據(jù)點(diǎn)的單位向量進(jìn)行霍夫曼編碼,將多元數(shù)據(jù)點(diǎn)的單位向量對應(yīng)的編碼以及模長進(jìn)行存儲。
6、本發(fā)明考慮到多元數(shù)據(jù)點(diǎn)具有一定的分布方向,因而具有同一分布方向的多元數(shù)據(jù)點(diǎn)的數(shù)量較多,從而以多元數(shù)據(jù)點(diǎn)的分布方向作為編碼對象可以有效提高壓縮量;進(jìn)一步地,以多元數(shù)據(jù)點(diǎn)與基準(zhǔn)數(shù)據(jù)點(diǎn)的單位向量來反映多元數(shù)據(jù)點(diǎn)的分布方向,其不僅具有較高的描述準(zhǔn)確性,同時(shí)引入較少的無關(guān)數(shù)據(jù),有效提高壓縮量;進(jìn)一步地,為了使多元數(shù)據(jù)點(diǎn)具有較強(qiáng)分布方向特征,根據(jù)多元數(shù)據(jù)點(diǎn)的分布關(guān)系對多元數(shù)據(jù)點(diǎn)進(jìn)行聚類處理,使具有同一分布方向的多元數(shù)據(jù)點(diǎn)分割在一個(gè)類別中,為提高壓縮量提供數(shù)據(jù)基礎(chǔ);進(jìn)一步地,通過相關(guān)性描述值能夠較為準(zhǔn)確的反映多元數(shù)據(jù)點(diǎn)的分布關(guān)系,為準(zhǔn)確聚類提供基礎(chǔ)。進(jìn)一步地,在構(gòu)建相關(guān)性描述值時(shí),考慮到不同維度的數(shù)據(jù)之間的關(guān)聯(lián)性能夠有效反映多元數(shù)據(jù)的分布關(guān)系,因而利用不同維度的數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系來構(gòu)建相關(guān)性描述值。
7、優(yōu)選的,所述計(jì)算比對點(diǎn)與其他各多元數(shù)據(jù)點(diǎn)的每個(gè)維度與其他維度的相關(guān)性,包括:
8、將任意一個(gè)維度作為目標(biāo)維度,將比對數(shù)據(jù)點(diǎn)在目標(biāo)維度的數(shù)據(jù)與其他各多元數(shù)據(jù)點(diǎn)在目標(biāo)維度的數(shù)據(jù)構(gòu)成向量記為目標(biāo)維度的分析向量,將目標(biāo)維度的分析向量與其他維度的分析向量的皮爾遜相關(guān)系數(shù)的絕對值作為比對點(diǎn)與其他各多元數(shù)據(jù)點(diǎn)的目標(biāo)維度與其他維度的相關(guān)性;
9、獲取比對點(diǎn)與其他各多元數(shù)據(jù)點(diǎn)的每個(gè)維度與其他維度的相關(guān)性。
10、本發(fā)明通過皮爾遜相關(guān)系數(shù)的絕對值來反映不同維度數(shù)據(jù)的相關(guān)性,其實(shí)現(xiàn)效率更高。
11、優(yōu)選的,所述根據(jù)相關(guān)性描述值對所有多元數(shù)據(jù)點(diǎn)進(jìn)行聚類處理,包括:
12、將比對點(diǎn)與其他各多元數(shù)據(jù)點(diǎn)的所有維度的相關(guān)性描述值構(gòu)成的向量作為其他各多元數(shù)據(jù)點(diǎn)的分類基準(zhǔn),對各其他多元數(shù)據(jù)點(diǎn)進(jìn)行聚類得到若干類別,將與比對數(shù)據(jù)點(diǎn)最近的類別作為比對數(shù)據(jù)點(diǎn)的所屬類別。
13、本發(fā)明以相關(guān)性描述值作為分類基準(zhǔn),其能夠有效將同一分類特征的數(shù)據(jù)分割在一起,為后續(xù)有效數(shù)據(jù)壓縮提供數(shù)據(jù)基礎(chǔ)。
14、優(yōu)選的,所述在各類別的所有多元數(shù)據(jù)點(diǎn)的幾何中心和第一主成分方向定位出的直線上獲取最外側(cè)多元數(shù)據(jù)點(diǎn)記為基準(zhǔn)數(shù)據(jù)點(diǎn),包括:
15、獲取各類別中所有多元數(shù)據(jù)點(diǎn)的幾何中心,利用幾何中心以及第一主成分方向擬合出直線,在擬合出的直線上獲取任意一個(gè)最外側(cè)多元數(shù)據(jù)點(diǎn),記為基準(zhǔn)數(shù)據(jù)點(diǎn)。
16、優(yōu)選的,所述獲取類別內(nèi)各多元數(shù)據(jù)點(diǎn)與基準(zhǔn)數(shù)據(jù)點(diǎn)構(gòu)成的向量作為各多元數(shù)據(jù)點(diǎn)的描述向量,包括:
17、將類別內(nèi)各多元數(shù)據(jù)點(diǎn)與基準(zhǔn)數(shù)據(jù)點(diǎn)作差得到的向量作為各多元數(shù)據(jù)的描述向量。
18、優(yōu)選的,所述獲取各多元數(shù)據(jù)點(diǎn)的描述向量的單位向量以及模長,包括:
19、獲取多元數(shù)據(jù)點(diǎn)的描述向量的模長,將多元數(shù)據(jù)點(diǎn)的描述向量除以模長得到單位向量。
20、本發(fā)明考慮到多元數(shù)據(jù)點(diǎn)沿一個(gè)方向分布時(shí),描述向量偏離分布方向的程度較小,因而多元數(shù)據(jù)點(diǎn)的描述向量的單位向量的多樣性更少,多樣性少會導(dǎo)致霍夫曼樹的編碼長度更短;進(jìn)一步地,考慮到多元數(shù)據(jù)點(diǎn)沿一個(gè)方向分布時(shí),描述向量的單位向量與分布方向的偏離程度較小,在描述向量的單位向量上分布的多元數(shù)據(jù)點(diǎn)更多,因而以描述向量的單位向量作為編碼對象時(shí),其壓縮量更大。
21、優(yōu)選的,所述將單位向量作為編碼對象,對類別中所有多元數(shù)據(jù)點(diǎn)的單位向量進(jìn)行霍夫曼編碼,包括:
22、對類別中多元數(shù)據(jù)點(diǎn)的單位向量進(jìn)行統(tǒng)計(jì)得到單位向量的出現(xiàn)頻率,根據(jù)單位向量的出現(xiàn)頻率,利用霍夫曼編碼算法構(gòu)建霍夫曼樹,根據(jù)霍夫曼樹得到單位向量的編碼。
23、優(yōu)選的,所述將多元數(shù)據(jù)點(diǎn)的單位向量對應(yīng)的編碼以及模長進(jìn)行存儲,包括:
24、將霍夫曼樹、基準(zhǔn)數(shù)據(jù)點(diǎn)、多元數(shù)據(jù)點(diǎn)的單位向量對應(yīng)的編碼和模長進(jìn)行存儲。
25、本發(fā)明將霍夫曼樹、基準(zhǔn)數(shù)據(jù)點(diǎn)、多元數(shù)據(jù)點(diǎn)的單位向量對應(yīng)的編碼和模長進(jìn)行存儲,能夠節(jié)約存儲空間的同時(shí),還能為數(shù)據(jù)解壓縮提供數(shù)據(jù)基礎(chǔ)。
26、本發(fā)明具有以下有益效果:
27、本發(fā)明考慮到多元數(shù)據(jù)點(diǎn)具有一定的分布方向,因而具有同一分布方向的多元數(shù)據(jù)點(diǎn)的數(shù)量較多,從而以多元數(shù)據(jù)點(diǎn)的分布方向作為編碼對象可以有效提高壓縮量;
28、進(jìn)一步地,以多元數(shù)據(jù)點(diǎn)與基準(zhǔn)數(shù)據(jù)點(diǎn)的單位向量來反映多元數(shù)據(jù)點(diǎn)的分布方向,其不僅具有較高的描述準(zhǔn)確性,同時(shí)引入較少的無關(guān)數(shù)據(jù),有效提高壓縮量;
29、進(jìn)一步地,為了使多元數(shù)據(jù)點(diǎn)具有較強(qiáng)分布方向特征,根據(jù)多元數(shù)據(jù)點(diǎn)的分布關(guān)系對多元數(shù)據(jù)點(diǎn)進(jìn)行聚類處理,使具有同一分布方向的多元數(shù)據(jù)點(diǎn)分割在一個(gè)類別中,為提高壓縮量提供數(shù)據(jù)基礎(chǔ);
30、進(jìn)一步地,通過相關(guān)性描述值能夠較為準(zhǔn)確的反映多元數(shù)據(jù)點(diǎn)的分布關(guān)系,為準(zhǔn)確聚類提供基礎(chǔ)。
31、進(jìn)一步地,在構(gòu)建相關(guān)性描述值時(shí),考慮到不同維度的數(shù)據(jù)之間的關(guān)聯(lián)性能夠有效反映多元數(shù)據(jù)的分布關(guān)系,因而利用不同維度的數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系來構(gòu)建相關(guān)性描述值。