两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種多元大數(shù)據(jù)優(yōu)化存儲方法與流程

文檔序號:40601688發(fā)布日期:2025-01-07 20:42閱讀:4來源:國知局
一種多元大數(shù)據(jù)優(yōu)化存儲方法與流程

本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域。更具體地,本發(fā)明涉及一種多元大數(shù)據(jù)優(yōu)化存儲方法。


背景技術(shù):

1、隨著科技的發(fā)展,每天都會產(chǎn)生大量數(shù)據(jù),例如生產(chǎn)線數(shù)據(jù)。為了便于進(jìn)行生產(chǎn)線管理,一般需要實(shí)時(shí)采集多元的生產(chǎn)線數(shù)據(jù),長期以往就會采集到大量的多元生產(chǎn)線數(shù)據(jù),而這些采集到的多元生產(chǎn)線數(shù)據(jù)需要保存一段時(shí)間,從而在后續(xù)產(chǎn)品出現(xiàn)問題時(shí),能夠快速的分析出成因。而要將這些數(shù)據(jù)存儲下來需要大量的存儲成本。為了節(jié)約存儲成本,需對采集的數(shù)據(jù)進(jìn)行壓縮處理。

2、霍夫曼編碼算法作為一種無損壓縮算法,其常用于數(shù)據(jù)的壓縮處理?;舴蚵幋a算法是根據(jù)數(shù)據(jù)的出現(xiàn)頻率進(jìn)行編碼,其中出現(xiàn)頻率越高,給其設(shè)置的編碼長度越短,出現(xiàn)頻率越低,給其設(shè)置的編碼長度越長。而現(xiàn)實(shí)中不同時(shí)刻的多元生產(chǎn)線數(shù)據(jù)不盡相同,因而每種多元生產(chǎn)線數(shù)據(jù)的出現(xiàn)頻率較低,而數(shù)據(jù)出現(xiàn)頻率較低就會導(dǎo)致編碼長度較長,而編碼長度較長就會導(dǎo)致數(shù)據(jù)壓縮效果較差。因而如何在數(shù)據(jù)出現(xiàn)頻率較低時(shí)也能達(dá)到較好的壓縮效果成為本發(fā)明的研究重點(diǎn)。

3、授權(quán)公告號為cn104283568b的專利文件中展示了一種基于部分霍夫曼樹的數(shù)據(jù)壓縮編碼方法,該專利文件主要是通過分層構(gòu)建編碼表的方式來提高壓縮效率。該專利文件中編碼方法不能解決出現(xiàn)頻率低造成的數(shù)據(jù)壓縮效果差的問題,因而該專利文件不能較好解決本發(fā)明中問題。


技術(shù)實(shí)現(xiàn)思路

1、為解決如何在數(shù)據(jù)出現(xiàn)頻率較低時(shí)也能達(dá)到較好的壓縮效果的問題,本發(fā)明提出一種多元大數(shù)據(jù)優(yōu)化存儲方法,該方法包括以下步驟:

2、獲取若干多元數(shù)據(jù)點(diǎn);

3、將與所有多元數(shù)據(jù)點(diǎn)的幾何中心最近的多元數(shù)據(jù)點(diǎn)作為比對點(diǎn),計(jì)算比對點(diǎn)與其他各多元數(shù)據(jù)點(diǎn)的每個(gè)維度與其他維度的相關(guān)性,將比對點(diǎn)與其他各多元數(shù)據(jù)點(diǎn)的每個(gè)維度與其他所有維度的相關(guān)性均值作為比對點(diǎn)與其他各多元數(shù)據(jù)點(diǎn)的每個(gè)維度的相關(guān)性描述值;根據(jù)相關(guān)性描述值對所有多元數(shù)據(jù)點(diǎn)進(jìn)行聚類處理;

4、利用pca算法對各類別的多元數(shù)據(jù)點(diǎn)進(jìn)行處理,獲取特征值最大的主成分方向記為第一主成分方向,在各類別的所有多元數(shù)據(jù)點(diǎn)的幾何中心和第一主成分方向定位出的直線上獲取最外側(cè)多元數(shù)據(jù)點(diǎn)記為基準(zhǔn)數(shù)據(jù)點(diǎn);獲取類別內(nèi)各多元數(shù)據(jù)點(diǎn)與基準(zhǔn)數(shù)據(jù)點(diǎn)構(gòu)成的向量作為各多元數(shù)據(jù)點(diǎn)的描述向量,獲取各多元數(shù)據(jù)點(diǎn)的描述向量的單位向量以及模長;

5、將單位向量作為編碼對象,對類別中所有多元數(shù)據(jù)點(diǎn)的單位向量進(jìn)行霍夫曼編碼,將多元數(shù)據(jù)點(diǎn)的單位向量對應(yīng)的編碼以及模長進(jìn)行存儲。

6、本發(fā)明考慮到多元數(shù)據(jù)點(diǎn)具有一定的分布方向,因而具有同一分布方向的多元數(shù)據(jù)點(diǎn)的數(shù)量較多,從而以多元數(shù)據(jù)點(diǎn)的分布方向作為編碼對象可以有效提高壓縮量;進(jìn)一步地,以多元數(shù)據(jù)點(diǎn)與基準(zhǔn)數(shù)據(jù)點(diǎn)的單位向量來反映多元數(shù)據(jù)點(diǎn)的分布方向,其不僅具有較高的描述準(zhǔn)確性,同時(shí)引入較少的無關(guān)數(shù)據(jù),有效提高壓縮量;進(jìn)一步地,為了使多元數(shù)據(jù)點(diǎn)具有較強(qiáng)分布方向特征,根據(jù)多元數(shù)據(jù)點(diǎn)的分布關(guān)系對多元數(shù)據(jù)點(diǎn)進(jìn)行聚類處理,使具有同一分布方向的多元數(shù)據(jù)點(diǎn)分割在一個(gè)類別中,為提高壓縮量提供數(shù)據(jù)基礎(chǔ);進(jìn)一步地,通過相關(guān)性描述值能夠較為準(zhǔn)確的反映多元數(shù)據(jù)點(diǎn)的分布關(guān)系,為準(zhǔn)確聚類提供基礎(chǔ)。進(jìn)一步地,在構(gòu)建相關(guān)性描述值時(shí),考慮到不同維度的數(shù)據(jù)之間的關(guān)聯(lián)性能夠有效反映多元數(shù)據(jù)的分布關(guān)系,因而利用不同維度的數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系來構(gòu)建相關(guān)性描述值。

7、優(yōu)選的,所述計(jì)算比對點(diǎn)與其他各多元數(shù)據(jù)點(diǎn)的每個(gè)維度與其他維度的相關(guān)性,包括:

8、將任意一個(gè)維度作為目標(biāo)維度,將比對數(shù)據(jù)點(diǎn)在目標(biāo)維度的數(shù)據(jù)與其他各多元數(shù)據(jù)點(diǎn)在目標(biāo)維度的數(shù)據(jù)構(gòu)成向量記為目標(biāo)維度的分析向量,將目標(biāo)維度的分析向量與其他維度的分析向量的皮爾遜相關(guān)系數(shù)的絕對值作為比對點(diǎn)與其他各多元數(shù)據(jù)點(diǎn)的目標(biāo)維度與其他維度的相關(guān)性;

9、獲取比對點(diǎn)與其他各多元數(shù)據(jù)點(diǎn)的每個(gè)維度與其他維度的相關(guān)性。

10、本發(fā)明通過皮爾遜相關(guān)系數(shù)的絕對值來反映不同維度數(shù)據(jù)的相關(guān)性,其實(shí)現(xiàn)效率更高。

11、優(yōu)選的,所述根據(jù)相關(guān)性描述值對所有多元數(shù)據(jù)點(diǎn)進(jìn)行聚類處理,包括:

12、將比對點(diǎn)與其他各多元數(shù)據(jù)點(diǎn)的所有維度的相關(guān)性描述值構(gòu)成的向量作為其他各多元數(shù)據(jù)點(diǎn)的分類基準(zhǔn),對各其他多元數(shù)據(jù)點(diǎn)進(jìn)行聚類得到若干類別,將與比對數(shù)據(jù)點(diǎn)最近的類別作為比對數(shù)據(jù)點(diǎn)的所屬類別。

13、本發(fā)明以相關(guān)性描述值作為分類基準(zhǔn),其能夠有效將同一分類特征的數(shù)據(jù)分割在一起,為后續(xù)有效數(shù)據(jù)壓縮提供數(shù)據(jù)基礎(chǔ)。

14、優(yōu)選的,所述在各類別的所有多元數(shù)據(jù)點(diǎn)的幾何中心和第一主成分方向定位出的直線上獲取最外側(cè)多元數(shù)據(jù)點(diǎn)記為基準(zhǔn)數(shù)據(jù)點(diǎn),包括:

15、獲取各類別中所有多元數(shù)據(jù)點(diǎn)的幾何中心,利用幾何中心以及第一主成分方向擬合出直線,在擬合出的直線上獲取任意一個(gè)最外側(cè)多元數(shù)據(jù)點(diǎn),記為基準(zhǔn)數(shù)據(jù)點(diǎn)。

16、優(yōu)選的,所述獲取類別內(nèi)各多元數(shù)據(jù)點(diǎn)與基準(zhǔn)數(shù)據(jù)點(diǎn)構(gòu)成的向量作為各多元數(shù)據(jù)點(diǎn)的描述向量,包括:

17、將類別內(nèi)各多元數(shù)據(jù)點(diǎn)與基準(zhǔn)數(shù)據(jù)點(diǎn)作差得到的向量作為各多元數(shù)據(jù)的描述向量。

18、優(yōu)選的,所述獲取各多元數(shù)據(jù)點(diǎn)的描述向量的單位向量以及模長,包括:

19、獲取多元數(shù)據(jù)點(diǎn)的描述向量的模長,將多元數(shù)據(jù)點(diǎn)的描述向量除以模長得到單位向量。

20、本發(fā)明考慮到多元數(shù)據(jù)點(diǎn)沿一個(gè)方向分布時(shí),描述向量偏離分布方向的程度較小,因而多元數(shù)據(jù)點(diǎn)的描述向量的單位向量的多樣性更少,多樣性少會導(dǎo)致霍夫曼樹的編碼長度更短;進(jìn)一步地,考慮到多元數(shù)據(jù)點(diǎn)沿一個(gè)方向分布時(shí),描述向量的單位向量與分布方向的偏離程度較小,在描述向量的單位向量上分布的多元數(shù)據(jù)點(diǎn)更多,因而以描述向量的單位向量作為編碼對象時(shí),其壓縮量更大。

21、優(yōu)選的,所述將單位向量作為編碼對象,對類別中所有多元數(shù)據(jù)點(diǎn)的單位向量進(jìn)行霍夫曼編碼,包括:

22、對類別中多元數(shù)據(jù)點(diǎn)的單位向量進(jìn)行統(tǒng)計(jì)得到單位向量的出現(xiàn)頻率,根據(jù)單位向量的出現(xiàn)頻率,利用霍夫曼編碼算法構(gòu)建霍夫曼樹,根據(jù)霍夫曼樹得到單位向量的編碼。

23、優(yōu)選的,所述將多元數(shù)據(jù)點(diǎn)的單位向量對應(yīng)的編碼以及模長進(jìn)行存儲,包括:

24、將霍夫曼樹、基準(zhǔn)數(shù)據(jù)點(diǎn)、多元數(shù)據(jù)點(diǎn)的單位向量對應(yīng)的編碼和模長進(jìn)行存儲。

25、本發(fā)明將霍夫曼樹、基準(zhǔn)數(shù)據(jù)點(diǎn)、多元數(shù)據(jù)點(diǎn)的單位向量對應(yīng)的編碼和模長進(jìn)行存儲,能夠節(jié)約存儲空間的同時(shí),還能為數(shù)據(jù)解壓縮提供數(shù)據(jù)基礎(chǔ)。

26、本發(fā)明具有以下有益效果:

27、本發(fā)明考慮到多元數(shù)據(jù)點(diǎn)具有一定的分布方向,因而具有同一分布方向的多元數(shù)據(jù)點(diǎn)的數(shù)量較多,從而以多元數(shù)據(jù)點(diǎn)的分布方向作為編碼對象可以有效提高壓縮量;

28、進(jìn)一步地,以多元數(shù)據(jù)點(diǎn)與基準(zhǔn)數(shù)據(jù)點(diǎn)的單位向量來反映多元數(shù)據(jù)點(diǎn)的分布方向,其不僅具有較高的描述準(zhǔn)確性,同時(shí)引入較少的無關(guān)數(shù)據(jù),有效提高壓縮量;

29、進(jìn)一步地,為了使多元數(shù)據(jù)點(diǎn)具有較強(qiáng)分布方向特征,根據(jù)多元數(shù)據(jù)點(diǎn)的分布關(guān)系對多元數(shù)據(jù)點(diǎn)進(jìn)行聚類處理,使具有同一分布方向的多元數(shù)據(jù)點(diǎn)分割在一個(gè)類別中,為提高壓縮量提供數(shù)據(jù)基礎(chǔ);

30、進(jìn)一步地,通過相關(guān)性描述值能夠較為準(zhǔn)確的反映多元數(shù)據(jù)點(diǎn)的分布關(guān)系,為準(zhǔn)確聚類提供基礎(chǔ)。

31、進(jìn)一步地,在構(gòu)建相關(guān)性描述值時(shí),考慮到不同維度的數(shù)據(jù)之間的關(guān)聯(lián)性能夠有效反映多元數(shù)據(jù)的分布關(guān)系,因而利用不同維度的數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系來構(gòu)建相關(guān)性描述值。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
乃东县| 纳雍县| 六安市| 铜川市| 孟州市| 兴业县| 营山县| 淮南市| 周宁县| 桃园市| 崇左市| 盘山县| 周口市| 蓬溪县| 虎林市| 治县。| 蕉岭县| 石林| 富蕴县| 承德县| 五原县| 丽江市| 鹰潭市| 和平区| 安徽省| 甘泉县| 永兴县| 台东县| 夹江县| 景洪市| 抚远县| 郴州市| 康平县| 义乌市| 通榆县| 金平| 文安县| 玛纳斯县| 略阳县| 广河县| 长垣县|