两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

壓縮方法和系統(tǒng)以及云存儲(chǔ)方法和系統(tǒng)的制作方法

文檔序號(hào):9304547閱讀:525來(lái)源:國(guó)知局
壓縮方法和系統(tǒng)以及云存儲(chǔ)方法和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及云計(jì)算技術(shù)領(lǐng)域,特別涉及一種壓縮方法和系統(tǒng)以及云存儲(chǔ)方法及其 系統(tǒng)。
【背景技術(shù)】
[0002] 云存儲(chǔ)是指通過(guò)集群應(yīng)用、網(wǎng)格技術(shù)或分布式文件系統(tǒng)等功能,將網(wǎng)絡(luò)中大量不 同類型的存儲(chǔ)設(shè)備通過(guò)應(yīng)用軟件集合起來(lái)協(xié)同工作,共同對(duì)外提供數(shù)據(jù)存儲(chǔ)和業(yè)務(wù)訪問功 能的云計(jì)算系統(tǒng)。在云存儲(chǔ)系統(tǒng)中,文件一般被分片(Chunk)保存在多個(gè)存儲(chǔ)服務(wù)器(又 名ChunkServer)中。分片大小一般是固定的,例如按照64MB大小進(jìn)行分片。
[0003] 在云存儲(chǔ)系統(tǒng)中,為了提高存儲(chǔ)利用率,一般會(huì)提供重復(fù)數(shù)據(jù)刪除(又叫重刪、消 重)和數(shù)據(jù)壓縮等存儲(chǔ)策略。重復(fù)數(shù)據(jù)刪除基于文件或者分片的粒度進(jìn)行,使得相同的數(shù) 據(jù),在系統(tǒng)中邏輯上只保持一份。數(shù)據(jù)壓縮已有很多無(wú)損壓縮/解壓算法,如LZO,GZIP, Zippy/Snappy等,可基于文件或者分塊為單位,對(duì)數(shù)據(jù)進(jìn)行壓縮后保存。
[0004] 發(fā)明人發(fā)現(xiàn)目前云存儲(chǔ)系統(tǒng)中的重刪和壓縮策略在使用中存在如下缺點(diǎn):基本的 重刪功能要求文件或者數(shù)據(jù)塊完全一致,計(jì)算出的數(shù)據(jù)指紋(例如SHA-1摘要)才會(huì)一致。 數(shù)據(jù)指紋算法具有雪崩效應(yīng),只要數(shù)據(jù)有一個(gè)字節(jié)的不同,指紋就會(huì)完全不同,無(wú)法消重。 如果采用滑動(dòng)窗口法或者變長(zhǎng)分塊法進(jìn)行消重,一方面需要大量的計(jì)算,另一方面只要兩 塊數(shù)據(jù)之間略有周期性的若干字節(jié)不同,仍然無(wú)法消重。壓縮策略,對(duì)某些類型或應(yīng)用的數(shù) 據(jù)較有效,對(duì)另一些原本已經(jīng)是壓縮的數(shù)據(jù),如H. 264的視頻數(shù)據(jù)無(wú)效。此外,即使用戶數(shù) 據(jù)可以壓縮,對(duì)用戶的單個(gè)塊數(shù)據(jù),或者以單個(gè)文件為單位進(jìn)行壓縮,往往效果也有限。在 現(xiàn)有技術(shù)中,由于消重、壓縮都是消耗較多計(jì)算資源的操作,如果效果不明顯,就會(huì)降低云 存儲(chǔ)系統(tǒng)的存儲(chǔ)利用率,同時(shí)降低了云存儲(chǔ)系統(tǒng)的性能。

【發(fā)明內(nèi)容】

[0005] 針對(duì)現(xiàn)有技術(shù)的上述缺陷,本發(fā)明所要解決的技術(shù)問題是如何有效提高云存儲(chǔ)系 統(tǒng)的存儲(chǔ)利用率及性能。
[0006] 為實(shí)現(xiàn)上述目的,一方面,本發(fā)明的實(shí)施例中提供一種云存儲(chǔ)的壓縮方法,包括步 驟:
[0007] 查詢與第一分片數(shù)據(jù)相似的相關(guān)數(shù)據(jù),并向元數(shù)據(jù)服務(wù)器查詢所述相關(guān)數(shù)據(jù)所在 的存儲(chǔ)服務(wù)器信息;
[0008] 根據(jù)所述元數(shù)據(jù)服務(wù)器返回的信息,指示所述第一分片數(shù)據(jù)或所述相關(guān)數(shù)據(jù)所在 的存儲(chǔ)服務(wù)器調(diào)度數(shù)據(jù)并執(zhí)行對(duì)應(yīng)的壓縮操作。
[0009]優(yōu)選地,所述方法中,所述查詢與第一分片數(shù)據(jù)相似的相關(guān)數(shù)據(jù)進(jìn)一步包括步 驟:
[0010] 通過(guò)相對(duì)熵原理計(jì)算所述第一分片數(shù)據(jù)的詞頻率_逆向文檔頻率值來(lái)獲取所述 第一分片數(shù)據(jù)的特征向量;
[0011] 通過(guò)余弦定理計(jì)算所述第一分片數(shù)據(jù)的特征向量與其他分片數(shù)據(jù)的特征向量之 間的夾角,根據(jù)所述夾角確定分片數(shù)據(jù)之間的相似度,找出與所述第一分片數(shù)據(jù)最相似的 第二分片數(shù)據(jù)或者所述第二分片數(shù)據(jù)被壓縮后的第三分片數(shù)據(jù)。
[0012] 優(yōu)選地,所述方法中,所述指示所述第一分片數(shù)據(jù)或所述相關(guān)數(shù)據(jù)所在的存儲(chǔ)服 務(wù)器調(diào)度數(shù)據(jù)并執(zhí)行對(duì)應(yīng)的壓縮操作進(jìn)一步包括步驟:
[0013] 在所述第一分片數(shù)據(jù)所在的第一存儲(chǔ)服務(wù)器的信息與所述相關(guān)數(shù)據(jù)所在的第二 存儲(chǔ)服務(wù)器的信息不同時(shí),將數(shù)據(jù)量少的數(shù)據(jù)調(diào)度至對(duì)方存儲(chǔ)服務(wù)器上,并在自身存儲(chǔ)服 務(wù)器上刪除所述數(shù)據(jù)量少的數(shù)據(jù),同時(shí)更新元數(shù)據(jù)信息;
[0014] 通知所述對(duì)方存儲(chǔ)服務(wù)器執(zhí)行對(duì)所述第一分片數(shù)據(jù)與所述相關(guān)數(shù)據(jù)的合并壓縮。
[0015] 優(yōu)選地,所述方法中,所述查詢與第一分片數(shù)據(jù)相似的相關(guān)數(shù)據(jù)還包括步驟:
[0016] 根據(jù)用戶自定義的策略,將滿足用戶指定條件所產(chǎn)生的分片數(shù)據(jù)判定為所述相 似的相關(guān)數(shù)據(jù)。
[0017] 優(yōu)選地,所述方法中還包括步驟:
[0018] 在執(zhí)行完所述壓縮操作后,對(duì)數(shù)據(jù)信息進(jìn)行更新;
[0019] 其中,所述更新包括:
[0020] 更新壓縮得到的新分片數(shù)據(jù)的元數(shù)據(jù)信息;
[0021] 刪除參與壓縮的數(shù)據(jù),更新所述參與壓縮的數(shù)據(jù)的元數(shù)據(jù)信息及壓縮信息。
[0022] 另一方面,本發(fā)明的實(shí)施例中還同時(shí)提供一種云存儲(chǔ)方法,在如上所述的壓縮方 法的全部步驟之外還包括步驟:
[0023] 將全部待存儲(chǔ)數(shù)據(jù)劃分為分片數(shù)據(jù)后保存至各存儲(chǔ)服務(wù)器上。
[0024] 再一方面,本發(fā)明的實(shí)施例中還同時(shí)提供一種云存儲(chǔ)的壓縮系統(tǒng),所述系統(tǒng)包 括:
[0025] 相似性確定模塊,用于查詢與第一分片數(shù)據(jù)相似的相關(guān)數(shù)據(jù),并向元數(shù)據(jù)服務(wù)器 查詢所述相關(guān)數(shù)據(jù)所在的存儲(chǔ)服務(wù)器信息;
[0026] 調(diào)度壓縮模塊,用于根據(jù)所述元數(shù)據(jù)服務(wù)器返回的信息,指示所述第一分片數(shù)據(jù) 或所述分片數(shù)據(jù)所在的存儲(chǔ)服務(wù)器調(diào)度數(shù)據(jù)并執(zhí)行對(duì)應(yīng)的壓縮操作。
[0027] 優(yōu)選地,所述相似性確定模塊中進(jìn)一步包括:
[0028] 數(shù)據(jù)集獲取模塊,用于通過(guò)相對(duì)熵原理計(jì)算所述第一分片數(shù)據(jù)的詞頻率_逆向文 檔頻率值來(lái)獲取所述第一分片數(shù)據(jù)的特征向量;
[0029] 數(shù)據(jù)集比對(duì)模塊,用于通過(guò)余弦定理計(jì)算所述第一分片數(shù)據(jù)的特征向量與其他分 片數(shù)據(jù)的特征向量之間的夾角,根據(jù)所述夾角確定分片數(shù)據(jù)之間的相似度,找出與所述第 一分片數(shù)據(jù)最相似的第二分片數(shù)據(jù)或者所述第二分片數(shù)據(jù)被壓縮后的第三分片數(shù)據(jù)。
[0030] 優(yōu)選地,所述調(diào)度壓縮模塊中進(jìn)一步包括:
[0031] 數(shù)據(jù)調(diào)度模塊,用于在所述第一分片數(shù)據(jù)所在的第一存儲(chǔ)服務(wù)器的信息與所述相 關(guān)數(shù)據(jù)所在的第二存儲(chǔ)服務(wù)器的信息不同時(shí),將數(shù)據(jù)量少的數(shù)據(jù)調(diào)度至對(duì)方存儲(chǔ)服務(wù)器 上,并在自身存儲(chǔ)服務(wù)器上刪除所述數(shù)據(jù)量少的數(shù)據(jù),同時(shí)更新元數(shù)據(jù)信息;
[0032] 數(shù)據(jù)壓縮模塊,用于通知所述對(duì)方存儲(chǔ)服務(wù)器執(zhí)行對(duì)所述第一分片數(shù)據(jù)與所述 相關(guān)數(shù)據(jù)的合并壓縮。
[0033] 優(yōu)選地,所述相似性確定模塊中還包括:
[0034] 策略設(shè)置模塊,用于根據(jù)用戶自定義的策略,將滿足用戶指定條件所產(chǎn)生的分片 數(shù)據(jù)判定為所述相似的相關(guān)數(shù)據(jù)。
[0035] 優(yōu)選地,所述系統(tǒng)還包括:
[0036] 信息更新模塊,用于在執(zhí)行完所述壓縮操作后,對(duì)數(shù)據(jù)信息進(jìn)行更新;
[0037] 其中,所述信息更新模塊進(jìn)一步包括:
[0038] 新數(shù)據(jù)信息更新模塊,用于更新壓縮得到的新分片數(shù)據(jù)的元數(shù)據(jù)信息;
[0039] 原數(shù)據(jù)信息更新模塊,用于刪除參與壓縮的數(shù)據(jù),更新所述參與壓縮的數(shù)據(jù)的元 數(shù)據(jù)信息及壓縮信息。
[0040] 再一方面,本發(fā)明的實(shí)施例中還同時(shí)提供一種云存儲(chǔ)系統(tǒng),包括:如上所述的壓縮 系統(tǒng),以及
[0041] 分片存儲(chǔ)模塊,用于將全部待存儲(chǔ)數(shù)據(jù)劃分為分片數(shù)據(jù)后保存至各存儲(chǔ)服務(wù)器 上。
[0042] 本發(fā)明通過(guò)判定兩個(gè)數(shù)據(jù)塊之間的相似性,將高相似性的數(shù)據(jù)塊調(diào)度到同一個(gè)存 儲(chǔ)服務(wù)器上進(jìn)行壓縮,從而獲得較高的壓縮比,更加節(jié)約存儲(chǔ)空間。
【附圖說(shuō)明】
[0043]圖1為本發(fā)明的一個(gè)實(shí)施例中基于內(nèi)容相似性的云存儲(chǔ)方法的流程示意圖;
[0044] 圖2為本發(fā)明的一個(gè)優(yōu)選實(shí)施例中基于內(nèi)容相似性的云存儲(chǔ)系統(tǒng)的結(jié)構(gòu)示意圖;
[0045] 圖3為本發(fā)明的一個(gè)優(yōu)選實(shí)施例中基于內(nèi)容相似性判定的云存儲(chǔ)方法的流程示 意圖;
[0046] 圖4為本發(fā)明的另一個(gè)優(yōu)選實(shí)施例中基于內(nèi)容相似性判定的云存儲(chǔ)方法的流程 不意圖;
[0047] 圖5為圖3和圖4中已被壓縮的分片數(shù)據(jù)的讀出過(guò)程的流程示意圖;
[0048] 圖6為圖3和圖4中已被壓縮的分片數(shù)據(jù)的刪除過(guò)程的流程示意圖。
【具體實(shí)施方式】
[0049] 為使本領(lǐng)域技術(shù)人員更好地理解本發(fā)明的技術(shù)方案,下面結(jié)合附圖和具體實(shí)施方 式對(duì)本發(fā)明作進(jìn)一步詳細(xì)描述。
[0050] 現(xiàn)有技術(shù)中,云存儲(chǔ)系統(tǒng)的存儲(chǔ)利用率主要依賴于消重及壓縮策略,而消重策略 又嚴(yán)重依賴于對(duì)存儲(chǔ)內(nèi)容是否相同的判斷效率和準(zhǔn)確度上。由于相同性判定一般基于大量 數(shù)據(jù)的比對(duì),只有數(shù)據(jù)或分片數(shù)據(jù)完全相同時(shí)才采取措施進(jìn)行消重手段進(jìn)行優(yōu)化,而對(duì)分 片數(shù)據(jù)之間不考慮它們的相似性各自進(jìn)行壓縮,效果往往很有限,這使得現(xiàn)有云存儲(chǔ)系統(tǒng) 可優(yōu)化的余地非常有限。
[0051] 在本發(fā)明的技術(shù)方案中,優(yōu)化針對(duì)的數(shù)據(jù)不僅限于相同數(shù)據(jù),壓縮手段還可進(jìn)一 步應(yīng)用到相似數(shù)據(jù)上,同時(shí)還采用了一定的調(diào)度手段進(jìn)一步優(yōu)化系統(tǒng)存取效率,從而實(shí)現(xiàn) 了存儲(chǔ)利用率的大幅提升。
[0052] 如圖1所示,在本發(fā)明的一個(gè)實(shí)施例中,基于內(nèi)容相似性的云存儲(chǔ)方法具體包括 步驟:
[0053] 將全部待存儲(chǔ)數(shù)據(jù)劃分為分片數(shù)據(jù)后保存至各存儲(chǔ)服務(wù)器上;
[0054] 查詢與第一分片數(shù)據(jù)相似的相關(guān)數(shù)據(jù),并向元數(shù)據(jù)服務(wù)器查詢所述相關(guān)數(shù)據(jù)所在 的存儲(chǔ)服務(wù)器信息;
[0055] 根據(jù)所述元數(shù)據(jù)服務(wù)器返回的信息,指示所述第一分片數(shù)據(jù)或所述相關(guān)數(shù)據(jù)所在 的存儲(chǔ)服務(wù)器調(diào)度數(shù)據(jù)并執(zhí)行對(duì)應(yīng)的壓縮操作。
[0056] 本領(lǐng)域普通技術(shù)人員可以理解,實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分步驟是可以 通過(guò)程序來(lái)指令相關(guān)的硬件來(lái)完成,所述的程序可以存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中, 該程序在執(zhí)行時(shí),包括上述實(shí)施例方法的各步驟,而所述的存儲(chǔ)介質(zhì)可以是:R〇M/RAM、磁 碟、光盤、存儲(chǔ)卡等。因此,本領(lǐng)域相關(guān)技術(shù)人員應(yīng)能理解,與本發(fā)明的方法相對(duì)應(yīng)的,本發(fā) 明還同時(shí)包括一種基于內(nèi)容相似性的云存儲(chǔ)系統(tǒng),如圖2所示,與上述方法步驟一一對(duì)應(yīng) 地,該系統(tǒng)包括:
[0057] 分片存儲(chǔ)模塊30,用于將全部待存儲(chǔ)數(shù)據(jù)劃分為分片數(shù)據(jù)后保存至各存儲(chǔ)服務(wù)器 上;
[0058] 相似性確定模塊10,用于查詢與第一分片數(shù)據(jù)相似的相關(guān)數(shù)據(jù),并向元數(shù)據(jù)服務(wù) 器查詢所述相關(guān)數(shù)據(jù)所在的存儲(chǔ)服務(wù)器信息;
[0059] 調(diào)度壓縮模塊20,用于根據(jù)所述元數(shù)據(jù)服務(wù)器返回的
當(dāng)前第1頁(yè)1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
怀宁县| 青州市| 寻乌县| 太湖县| 明星| 凌源市| 长武县| 肇源县| 塔河县| 葫芦岛市| 南部县| 息烽县| 瑞安市| 浦北县| 北宁市| 邵东县| 黑河市| 闸北区| 东辽县| 青田县| 涿鹿县| 繁峙县| 无锡市| 成安县| 涞源县| 游戏| 大埔区| 新邵县| 民丰县| 陵水| 通渭县| 聂荣县| 西充县| 潞城市| 麦盖提县| 乐都县| 涪陵区| 南陵县| 惠水县| 金山区| 汝州市|