專利名稱::一種鍵值庫數(shù)據(jù)存儲中柔性事務(wù)管理方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及ー種鍵值庫數(shù)據(jù)存儲中柔性事務(wù)管理方法,屬于計算機數(shù)據(jù)庫管理
技術(shù)領(lǐng)域:
。
背景技術(shù):
:近年來,在線交互式服務(wù)平臺發(fā)展迅速,如社交網(wǎng)絡(luò)、電子郵件等領(lǐng)域。廣大用戶群的存在及海量用戶生成內(nèi)容(User-GeneratedContent)的形成催生了對系統(tǒng)平臺高可擴展性和高并發(fā)的要求。不僅如此,互聯(lián)網(wǎng)應(yīng)用對在線服務(wù)的無間斷服務(wù)要求,使得系統(tǒng)平臺不得不提供具有高可用性和容錯性的服務(wù)?!霸朴嬎恪钡母拍钫龖?yīng)此發(fā)展趨勢而生。在數(shù)據(jù)管理方面,這些應(yīng)用需求向數(shù)據(jù)管理系統(tǒng)提出了高可擴展性和高可用性的要求。盡管發(fā)展成熟的傳統(tǒng)關(guān)系型數(shù)據(jù)庫廣為網(wǎng)絡(luò)服務(wù)所用,但在高可擴展性和高可用性方面卻難以保證。隨著“云計算”概念的提出,在存儲方面出現(xiàn)了ー類具代表性的云存儲系統(tǒng),即鍵值庫(Key-valuestore,亦稱為NoSQLDB)。鍵值庫放棄了傳統(tǒng)數(shù)據(jù)庫的關(guān)系模型,而采用基于鍵值對的簡單數(shù)據(jù)模型,犧牲了部分如事務(wù)訪問這樣的數(shù)據(jù)庫特性,以提高數(shù)據(jù)存儲系統(tǒng)的可擴展性和容錯性。此類鍵值庫系統(tǒng)在實際互聯(lián)網(wǎng)中得到廣泛應(yīng)用,如用于谷歌服務(wù)的大表(Bigtable)、用于亞馬遜服務(wù)的簡單數(shù)據(jù)庫(SimpleDB),用于雅虎服務(wù)的皮納茨(PNUTS)、用于臉譜(Facebook)和推特(Twitter)服務(wù)的卡桑德拉(Cassandra)。Cassandra作為鍵值庫數(shù)據(jù)存儲中的典型代表,與關(guān)系數(shù)據(jù)庫相比,優(yōu)勢在于數(shù)據(jù)模型簡單,具有高擴展性、可用性和容錯性,提供簡單易用的應(yīng)用程序開發(fā)接ロ。Cassandra是基于對等互聯(lián)網(wǎng)結(jié)構(gòu)(peer-to-peer,P2P)的存儲系統(tǒng),特點是存儲系統(tǒng)中的姆一臺計算機(即“節(jié)點”,下同)都擁有對等的地位,各自負責一部分數(shù)據(jù)的存儲與備份,不存在單ー節(jié)點控制整個系統(tǒng)的資源分配。采用對等互聯(lián)網(wǎng)結(jié)構(gòu)有利于能夠提高系統(tǒng)的并發(fā)性、容錯性和擴展性。因為每個節(jié)點功能相同,都能夠響應(yīng)系統(tǒng)外部的數(shù)據(jù)請求,所有節(jié)點并行地響應(yīng)外部數(shù)據(jù)請求,可以提高系統(tǒng)的數(shù)據(jù)吞吐量,即提供良好的并發(fā)性。提高容錯性是指,在部分節(jié)點出錯不能正常工作(即“失效”)時,因為數(shù)據(jù)在其他節(jié)點上有備份,并且節(jié)點功能相同容易相互替代,所以會由其他正常工作的節(jié)點替代失效節(jié)點響應(yīng)外部請求,系統(tǒng)能夠保持對外的正常響應(yīng),系統(tǒng)的容錯性能得到了提高。又因為每個節(jié)點功能相同,所以在原有節(jié)點退出系統(tǒng)或新節(jié)點加入系統(tǒng)時,不會對系統(tǒng)扁平的結(jié)構(gòu)產(chǎn)生變化,只需要將系統(tǒng)中的數(shù)據(jù)進行重新分配即可,因此系統(tǒng)具有良好的可擴展性。P2P架構(gòu)為Cassandra系統(tǒng)帶來高并發(fā)性、容錯性和擴展性的同時,也帶來了ー些缺點,其中最重要的一點是它只能實現(xiàn)數(shù)據(jù)的最終一致性,不支持數(shù)據(jù)庫事務(wù)功能。數(shù)據(jù)ー致性是要求不同用戶在同時訪問一個數(shù)據(jù)庫系統(tǒng)的同一數(shù)據(jù)時,應(yīng)該得到相同的(即一致的)數(shù)據(jù)內(nèi)容。在分布式環(huán)境下,數(shù)據(jù)通常需要有多個備份,以防止單個節(jié)點失效造成系統(tǒng)的數(shù)據(jù)丟失,但同時也帶來了如何保持多個備份間數(shù)據(jù)一致的問題。理想的數(shù)據(jù)完全一致要求數(shù)據(jù)的所有備份在同一時刻都具有相同的數(shù)據(jù)內(nèi)容。而Cassandra實現(xiàn)的最終一致性是指,系統(tǒng)并不能保證每ー時刻不同備份的數(shù)據(jù)都是一致的,只能保證系統(tǒng)在經(jīng)過相當長的時間后穩(wěn)定狀態(tài)的數(shù)據(jù)是一致的。這是ー種較的一致性,在系統(tǒng)運行的時候,有可能不同用戶同時訪問同一個數(shù)據(jù)會得到不同的返回結(jié)果。數(shù)據(jù)庫事務(wù)是指數(shù)據(jù)庫中作為單個邏輯工作單元執(zhí)行的一系列操作,這些操作包括插入數(shù)據(jù)、更新數(shù)據(jù)、刪除數(shù)據(jù)等。數(shù)據(jù)庫事務(wù)機制可以保證事務(wù)單元內(nèi)的所有操作都成功完成,或者所有操作都不進行。傳統(tǒng)的數(shù)據(jù)庫要求事務(wù)具有原子性(所有操作要么都成功,要么都失敗)、一致性(事務(wù)執(zhí)行的結(jié)果必須是使數(shù)據(jù)庫從一個狀態(tài)變到另一個狀態(tài)),隔離性(不同事務(wù)的操作相互不影響),持久性(成功執(zhí)行的事務(wù)對數(shù)據(jù)的改動不會丟失),這四大特性統(tǒng)稱為ACID特性。Cassandra只能夠?qū)崿F(xiàn)最終以執(zhí)行,因此不能滿足數(shù)據(jù)庫對事務(wù)的要求,這會給上層應(yīng)用開發(fā)人員帶來麻煩,因為他們必須考慮在應(yīng)用層解決多個用戶并發(fā)訪問帶來的系統(tǒng)不一致問題。
發(fā)明內(nèi)容本發(fā)明的目的是提出ー種鍵值庫數(shù)據(jù)存儲中柔性事務(wù)管理方法,使事務(wù)管理的數(shù)據(jù)范圍可以根據(jù)用戶指定而變化,并方便用戶在使用數(shù)據(jù)庫時保持數(shù)據(jù)的一致性。本發(fā)明提出的鍵值庫數(shù)據(jù)存儲中柔性事務(wù)管理方法,包括以下步驟數(shù)據(jù)的寫入過程(I)用戶將寫入鍵值庫的數(shù)據(jù)提交到協(xié)調(diào)模塊,寫入鍵值庫的數(shù)據(jù)中帶有鍵值庫行鍵,協(xié)調(diào)模塊將用戶的寫入鍵值庫的數(shù)據(jù)和寫入操作封裝成為日志;(2)協(xié)調(diào)模塊從版本控制模塊中獲取當前最新日志位置,在最新日志位置上加1,得到步驟(I)日志的寫入日志位置,日志位置由鍵值庫數(shù)據(jù)存儲中的一行數(shù)據(jù)描述;(3)協(xié)調(diào)模塊根據(jù)步驟(I)的鍵值庫行鍵,井根據(jù)鍵值庫備份數(shù)據(jù)規(guī)則,計算得到步驟(I)的日志存儲在鍵值庫中的N個日志存儲器,其中N大于或等于3;(4)協(xié)調(diào)模塊采用派克斯一致性算法,將步驟(I)的日志存放在步驟(3)計算得到的N個日志存儲器中;(5)協(xié)調(diào)模塊將上述步驟(2)的寫入日志位置寫入版本控制模塊中,協(xié)調(diào)模塊向用戶返回寫入操作成功信息;(6)協(xié)調(diào)模塊根據(jù)步驟(I)的鍵值庫行鍵,井根據(jù)鍵值庫備份數(shù)據(jù)規(guī)則,計算得到步驟(I)的數(shù)據(jù)存儲在鍵值庫中的M個數(shù)據(jù)存儲器,其中M大于或等于3;(7)協(xié)調(diào)模塊將上述步驟(I)中用戶提交的數(shù)據(jù)和上述步驟(2)的寫入日志位置寫入M個數(shù)據(jù)存儲器;數(shù)據(jù)的讀取過程(8)用戶向協(xié)調(diào)模塊提交讀取數(shù)據(jù)的請求,該請求中包括需讀取數(shù)據(jù)在鍵值庫中的行鍵;(9)協(xié)調(diào)模塊從版本控制模塊中獲取與步驟(8)的行鍵相對應(yīng)的最新日志位置Pi;(10)協(xié)調(diào)模塊根據(jù)鍵值庫備份數(shù)據(jù)規(guī)則,計算得到步驟(8)的行鍵所在的U個數(shù)據(jù)存儲器,并從U個數(shù)據(jù)存儲器中的一個數(shù)據(jù)存儲器S上獲取與步驟(8)的行鍵相對應(yīng)的日志位置P2;(11)協(xié)調(diào)模塊對上述兩個日志位置P1和P2進行比較若P1=P2,則協(xié)調(diào)模塊從步驟(10)的數(shù)據(jù)存儲器S中獲取步驟(8)的行鍵的數(shù)據(jù),并將獲取的數(shù)據(jù)返回給請求用戶;若P1W2,則協(xié)調(diào)模塊根據(jù)鍵值庫備份數(shù)據(jù)規(guī)則,計算得到步驟(8)的行鍵所在的V個日志存儲器,并從V個日志存儲器中的ー個日志存儲器T上獲取與步驟(8)的行鍵相對應(yīng)的日志,同吋,協(xié)調(diào)模塊根據(jù)日志存儲器T中的當前日志內(nèi)容,修改數(shù)據(jù)存儲器S中的數(shù)據(jù),并從數(shù)據(jù)存儲器S中獲取與步驟(8)的行健相對應(yīng)的數(shù)據(jù),將該數(shù)據(jù)返回給請求用戶。本發(fā)明提出的鍵值庫數(shù)據(jù)存儲中柔性事務(wù)管理方法,其優(yōu)點是I、本發(fā)明的鍵值庫數(shù)據(jù)存儲中柔性事務(wù)管理方法,采用了已有技術(shù)中的對等互聯(lián)網(wǎng)結(jié)構(gòu)(P2P),提高了鍵值庫數(shù)據(jù)存儲的并發(fā)性、容錯性和擴展性。2、本發(fā)明的鍵值庫數(shù)據(jù)存儲中柔性事務(wù)管理方法,采用柔性事務(wù)的管理方法,支持事務(wù)特性的數(shù)據(jù)單元可以動態(tài)調(diào)整。事務(wù)既可以是一行之內(nèi)的事務(wù),保證對一行的讀寫多個列具有原子性,同時在并發(fā)的情況下能夠保持數(shù)據(jù)的一致性,也可以是跨多行的基于實體組的事務(wù),保證該實體組內(nèi)數(shù)據(jù)更新的ACID特性。事務(wù)限定數(shù)據(jù)范圍的柔性,給數(shù)據(jù)庫用戶帶來了很大的便利,用戶可以根據(jù)應(yīng)用的需要靈活地限定實體組的大小,能夠在系統(tǒng)一致性得到保證的情況下盡量地縮小事務(wù)限定的范圍,以提高系統(tǒng)的并發(fā)性。柔性事務(wù)的設(shè)計對提高數(shù)據(jù)庫事務(wù)的靈活性、適應(yīng)性有非常積極的作用,也是本發(fā)明的最大優(yōu)點。圖I是本發(fā)明方法中的模塊調(diào)用示意圖。具體實施例方式本發(fā)明提出的鍵值庫數(shù)據(jù)存儲中柔性事務(wù)管理方法,其各模塊調(diào)用示意圖如圖I所示,包括以下步驟數(shù)據(jù)的寫入過程(I)用戶將寫入鍵值庫的數(shù)據(jù)提交到協(xié)調(diào)模塊,寫入鍵值庫的數(shù)據(jù)中帶有鍵值庫行鍵,協(xié)調(diào)模塊將用戶的寫入鍵值庫的數(shù)據(jù)和寫入操作封裝成為日志;(2)協(xié)調(diào)模塊從版本控制模塊中獲取當前最新日志位置,在最新日志位置上加1,得到步驟(I)日志的寫入日志位置,日志位置由鍵值庫數(shù)據(jù)存儲中的一行數(shù)據(jù)描述;(3)協(xié)調(diào)模塊根據(jù)步驟(I)的鍵值庫行鍵,井根據(jù)鍵值庫備份數(shù)據(jù)規(guī)則,計算得到步驟(I)的日志存儲在鍵值庫中的N個日志存儲器,其中N大于或等于3,鍵值庫備份數(shù)據(jù)規(guī)則主要有兩種,可由用戶指定,一種是隨機分配,另ー種是按照數(shù)據(jù)行鍵對應(yīng)的大小排序,鍵值庫的每個備份負責存儲一定大小范圍的數(shù)據(jù)。鍵值庫備份數(shù)據(jù)規(guī)則,具體可以參見Cassandra配置說明;(4)協(xié)調(diào)模塊采用派克斯(Paxos)—致性算法,將步驟(I)的日志存放在步驟(3)計算得到的N個日志存儲器中;其中的派克斯算法是ー種在不可靠的網(wǎng)絡(luò)環(huán)境下達到多個處理器一致的算法,算法的具體說明可以參見論文LamportL,MalkhiD,ZhouL,VerticalPaxosandprimarybackupreplication,MSR-TR-2009-63[R],MicrosoftResearch,2009;(5)協(xié)調(diào)模塊將上述步驟(2)的寫入日志位置寫入版本控制模塊中,協(xié)調(diào)模塊向用戶返回寫入操作成功信息;(6)協(xié)調(diào)模塊根據(jù)步驟(I)的鍵值庫行鍵,井根據(jù)鍵值庫備份數(shù)據(jù)規(guī)則,計算得到步驟(I)的數(shù)據(jù)存儲在鍵值庫中的M個數(shù)據(jù)存儲器,其中M大于或等于3;(7)協(xié)調(diào)模塊將上述步驟(I)中用戶提交的數(shù)據(jù)和上述步驟(2)的寫入日志位置寫入M個數(shù)據(jù)存儲器;數(shù)據(jù)的讀取過程(8)用戶向協(xié)調(diào)模塊提交讀取數(shù)據(jù)的請求,該請求中包括需讀取數(shù)據(jù)在鍵值庫中的行鍵;(9)協(xié)調(diào)模塊從版本控制模塊中獲取與步驟(8)的行鍵相對應(yīng)的最新日志位置Pi;(10)協(xié)調(diào)模塊根據(jù)鍵值庫備份數(shù)據(jù)規(guī)則,計算得到步驟(8)的行鍵所在的U個數(shù)據(jù)存儲器,并從U個數(shù)據(jù)存儲器中的一個數(shù)據(jù)存儲器S上獲取與步驟(8)的行鍵相對應(yīng)的日志位置P2;(11)協(xié)調(diào)模塊對上述兩個日志位置P1和P2進行比較若P1=P2,則協(xié)調(diào)模塊從步驟(10)的數(shù)據(jù)存儲器S中獲取步驟(8)的行鍵的數(shù)據(jù),并將獲取的數(shù)據(jù)返回給請求用戶;若P1W2,則協(xié)調(diào)模塊根據(jù)鍵值庫備份數(shù)據(jù)規(guī)則,計算得到步驟(8)的行鍵所在的V個日志存儲器,并從V個日志存儲器中的ー個日志存儲器T上獲取與步驟(8)的行鍵相對應(yīng)的日志,這些日志包括日志位置大于P2,且小于或等于Pl的所有日志。同時,協(xié)調(diào)模塊根據(jù)日志存儲器T中的當前日志內(nèi)容,修改數(shù)據(jù)存儲器S中的數(shù)據(jù),并從數(shù)據(jù)存儲器S中獲取與步驟(8)的行健相對應(yīng)的數(shù)據(jù),將該數(shù)據(jù)返回給請求用戶。為了實現(xiàn)本發(fā)明的方法,必須將系統(tǒng)分為以下幾個主要模塊協(xié)調(diào)模塊(Coordinator):協(xié)調(diào)器是事務(wù)請求訪問的入口,也是系統(tǒng)邏輯的核心模塊。該模塊從用戶端接收事務(wù)請求,根據(jù)請求封裝事務(wù)執(zhí)行日志,通過協(xié)調(diào)分布式的存儲系統(tǒng)將事務(wù)日志備份到多臺機器上,并通知數(shù)據(jù)存儲器執(zhí)行事務(wù)的操作。在同時還需要獲取和維護最新的日志信息。該模塊由自主開發(fā)進行編碼實現(xiàn),是本發(fā)明的核心模塊。版本控制模塊(VersionController):姆個事務(wù)的單元都有ー份獨立的事務(wù)日志,同一個事務(wù)単元的日志是按照執(zhí)行的先后而排好序的。版本控制器就是管理每個事務(wù)單元當前最新日志位置(日志的序號)的模塊,正確的最新日志位置是保證事務(wù)按照日志編號順序執(zhí)行的重要保證,所以該模塊必須保證全局的一致性。在實現(xiàn)時,該模塊基于Cassandra的Counter進行實現(xiàn),因為該功能能夠保證數(shù)據(jù)改動的原子性和一致性。日志存儲器(LogNode):日志存儲器的功能是存儲實務(wù)操作日志。為了保證實務(wù)操作的持久性,不會因為節(jié)點的崩潰而造成已提交數(shù)據(jù)的丟失,在執(zhí)行數(shù)據(jù)更新操作時,系統(tǒng)會先寫事務(wù)日志,當日志寫成功后才返回提交成功。之后再根據(jù)日志內(nèi)容對實際數(shù)據(jù)進行修改,如果修改失敗在后來的讀寫過程中也會根據(jù)日志進行修復(fù),以保證事務(wù)操作的持久性和一致性。為了增強系統(tǒng)在分布式環(huán)境下的容錯性,每個日志都有多個備份,備份數(shù)通常不小于3。在實現(xiàn)時,該模塊由自主開發(fā)結(jié)合Cassandra的數(shù)據(jù)存儲器共同實現(xiàn)。數(shù)據(jù)存儲器(DataNode):數(shù)據(jù)存儲器的功能是存儲實際的數(shù)據(jù),這些數(shù)據(jù)都是通過執(zhí)行日志的內(nèi)容而產(chǎn)生的。數(shù)據(jù)存儲器也是基于Cassandra的數(shù)據(jù)存儲器進行開發(fā)實現(xiàn)。在實際的系統(tǒng)部署中,日志存儲器和數(shù)據(jù)存儲器通常位于同一臺物理機器上,以便于日志在本地執(zhí)行。權(quán)利要求1.ー種鍵值庫數(shù)據(jù)存儲中柔性事務(wù)管理方法,其特征在于該方法包括以下步驟數(shù)據(jù)的寫入過程(1)用戶將寫入鍵值庫的數(shù)據(jù)提交到協(xié)調(diào)模塊,寫入鍵值庫的數(shù)據(jù)中帶有鍵值庫行鍵,協(xié)調(diào)模塊將用戶的寫入鍵值庫的數(shù)據(jù)和寫入操作封裝成為日志;(2)協(xié)調(diào)模塊從版本控制模塊中獲取當前最新日志位置,在最新日志位置上加1,得到步驟(I)日志的寫入日志位置,日志位置由鍵值庫數(shù)據(jù)存儲中的一行數(shù)據(jù)描述;(3)協(xié)調(diào)模塊根據(jù)步驟(I)的鍵值庫行鍵,井根據(jù)鍵值庫備份數(shù)據(jù)規(guī)則,計算得到步驟(O的日志存儲在鍵值庫中的N個日志存儲器,其中N大于或等于3;(4)協(xié)調(diào)模塊采用派克斯一致性算法,將步驟(I)的日志存放在步驟(3)計算得到的N個日志存儲器中;(5)協(xié)調(diào)模塊將上述步驟(2)的寫入日志位置寫入版本控制模塊中,協(xié)調(diào)模塊向用戶返回寫入操作成功信息;(6)協(xié)調(diào)模塊根據(jù)步驟(I)的鍵值庫行鍵,井根據(jù)鍵值庫備份數(shù)據(jù)規(guī)則,計算得到步驟(I)的數(shù)據(jù)存儲在鍵值庫中的M個數(shù)據(jù)存儲器,其中M大于或等于3;(7)協(xié)調(diào)模塊將上述步驟(I)中用戶提交的數(shù)據(jù)和上述步驟(2)的寫入日志位置寫入M個數(shù)據(jù)存儲器;數(shù)據(jù)的讀取過程(8)用戶向協(xié)調(diào)模塊提交讀取數(shù)據(jù)的請求,該請求中包括需讀取數(shù)據(jù)在鍵值庫中的行鍵;(9)協(xié)調(diào)模塊從版本控制模塊中獲取與步驟(8)的行鍵相對應(yīng)的最新日志位置P1;(10)協(xié)調(diào)模塊根據(jù)鍵值庫備份數(shù)據(jù)規(guī)則,計算得到步驟(8)的行鍵所在的U個數(shù)據(jù)存儲器,并從U個數(shù)據(jù)存儲器中的一個數(shù)據(jù)存儲器S上獲取與步驟(8)的行鍵相對應(yīng)的日志位置P2;(11)協(xié)調(diào)模塊對上述兩個日志位置P1和P2進行比較若P1=P2,則協(xié)調(diào)模塊從步驟(10)的數(shù)據(jù)存儲器S中獲取步驟(8)的行鍵的數(shù)據(jù),并將獲取的數(shù)據(jù)返回給請求用戶;若PPP2,則協(xié)調(diào)模塊根據(jù)鍵值庫備份數(shù)據(jù)規(guī)則,計算得到步驟(8)的行鍵所在的V個日志存儲器,并從V個日志存儲器中的ー個日志存儲器T上獲取與步驟(8)的行鍵相對應(yīng)的日志,同吋,協(xié)調(diào)模塊根據(jù)日志存儲器T中的當前日志內(nèi)容,修改數(shù)據(jù)存儲器S中的數(shù)據(jù),并從數(shù)據(jù)存儲器S中獲取與步驟(8)的行健相對應(yīng)的數(shù)據(jù),將該數(shù)據(jù)返回給請求用戶。全文摘要本發(fā)明涉及一種鍵值庫數(shù)據(jù)存儲中柔性事務(wù)管理方法,屬于計算機數(shù)據(jù)庫管理
技術(shù)領(lǐng)域:
。該方法包括以下步驟寫入數(shù)據(jù)時,協(xié)調(diào)模塊將請求封裝成日志,獲取當前日志位置,使用派克斯算法將日志寫入新日志位置,記錄該位置,返回操作成功信息,再將數(shù)據(jù)和日志位置寫入數(shù)據(jù)存儲器;讀取數(shù)據(jù)時,協(xié)調(diào)模塊獲得最新日志位置,檢查數(shù)據(jù)是否為最新,如果是最新的,則讀取數(shù)據(jù)返回給用戶,否則先讀取日志,修改數(shù)據(jù),再讀取返回給用戶。本發(fā)明方法提高了鍵值庫數(shù)據(jù)存儲的并發(fā)性、容錯性和擴展性,能夠在系統(tǒng)一致性得到保證的情況下盡量地縮小事務(wù)限定的范圍,以提高系統(tǒng)的并發(fā)性。柔性事務(wù)的設(shè)計對提高數(shù)據(jù)庫事務(wù)的靈活性、適應(yīng)性有非常積極的作用。文檔編號G06F17/30GK102693312SQ20121016930公開日2012年9月26日申請日期2012年5月28日優(yōu)先權(quán)日2012年5月28日發(fā)明者丁貴廣,朱妤晴,楊義繁,王建民,衣國壘申請人:清華大學(xué)