專利名稱:基于Hadoop的磁盤配置系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本實用新型涉及服務器技術(shù)領(lǐng)域,特別涉及一種基于Hadoop的磁盤配置系統(tǒng)。
背景技術(shù):
Hadoop是一個分布式系統(tǒng)基礎架構(gòu)。用戶可以在不了解分布式底層細節(jié)的情況下,開發(fā)分布式程序。充分利用集群的威力高速運算和存儲。Hadoop實現(xiàn)了一個分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS)。HDFS具有著高容錯性的特點,并且設計用來部署在低廉的硬件上。并且,其可以提供高傳輸率(high throughput)來訪問應用程序的數(shù)據(jù),適合超大數(shù)據(jù)集(largedata set)的應用程序。在基于DFS(Distributed File System,分布式文件系統(tǒng))和 MapReduce 的 Hadoop集群中,每個物理節(jié)點同時承擔著兩份用戶角色。其中DFS用戶對數(shù)據(jù)進行分布式存儲,并且為上層的Mapreduce計算層提供支持,MapReduce用戶對存儲在DFS上的數(shù)據(jù)進行分布式·計算。所以DFS用戶和Mapreduce用戶在執(zhí)行任務過程中,產(chǎn)生的IO都會共同作用在同一塊磁盤上,尤其是在計算的shuffle階段,存在大量的隨機IO讀寫,不僅導致易出現(xiàn)IO性能瓶頸,增加任務執(zhí)行時間,而且還會增高硬盤的故障率。如圖I所示,傳統(tǒng)的Hadoop磁盤配置系統(tǒng)包括12塊磁盤,且磁盤為7200轉(zhuǎn)的近線SATA (Serial Advanced Technology Attachment,串行高級技術(shù)附加裝置)硬盤。其中,12
塊磁盤分別為disk0、diskl、disk2......diskll,每塊磁盤均同時承載DFS和Mapreduce兩
種配置方式。這種配置方式的隨機IO性能較差,故障率較高,并且對Mapreduce用戶、DFS用戶和磁盤本身的性能均有影響。具體地,對于Mapreduce用戶,在執(zhí)行任務過程中,如果產(chǎn)生大量的隨機10,則會出現(xiàn)10性能瓶頸。如果磁盤空間被DFS的存儲數(shù)據(jù)占滿,會導致計算任務異常中止。而對于DFS用戶,數(shù)據(jù)存儲的磁盤會因為Mapreduce的頻繁讀寫而增高故障率。DFS的性能并不隨著磁盤的數(shù)量線性增長,沒有必要在同一物理節(jié)點上配置過多的硬盤用于 DFS。對于磁盤本身,同時執(zhí)行Mapreduce的隨機10和DFS的順序10,則性能會明顯下降。
實用新型內(nèi)容本實用新型的目的旨在至少解決上述技術(shù)缺陷之一,特別提出一種基于Hadoop的磁盤配置系統(tǒng),該磁盤配置系統(tǒng)對計算和存儲用戶獨立配置相應的磁盤,可以明顯提升Hadoop集群的10性能,并且可以有效降低磁盤的故障率。為實現(xiàn)上述目的,本實用新型實施例提供了一種基于Hadoop的磁盤配置系統(tǒng),包括分布式文件系統(tǒng)DFS接口,用于與DFS用戶層相連;分布式計算框架Mapreduce接口,用于與Mapreduce用戶層相連;多個第一類磁盤,所述多個第一類磁盤分別與所述DFS接口相連,用于為所述DFS用戶層提供數(shù)據(jù)的分布式存儲;多個第二類磁盤,所述多個第二類磁盤分別與所述Mapreduce接口相連,用于為所述Mapreduce用戶層的分布式計算數(shù)據(jù)提供存儲。根據(jù)本實用新型實施例的基于Hadoop的磁盤配置系統(tǒng),基于Mapreduce用戶和DFS用戶的不同IO需求,對計算和存儲用戶獨立配置相應的磁盤,可以顯著提高Hadoop集群的IO吞吐率,尤其是隨機IO的性能,進而有效提升CPU的使用率,使得計算任務執(zhí)行的更快。并且,可以并有效降低磁盤的故障率。在本實用新型的一個實施例中,所述第一類磁盤為串行高級技術(shù)附加裝置磁盤。在本實用新型的一個實施例中,所述第二類磁盤為串行連接SCSI接口磁盤、基于閃存的固態(tài)磁盤或Flash磁盤。在本實用新型的一個實施例中,所述第一類磁盤的個數(shù)與所述第二類磁盤的個數(shù)·之間的比例可配置。在本實用新型的一個實施例中,所述第一類磁盤的個數(shù)與所述第二類磁盤的個數(shù)相同。本實用新型附加的方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本實用新型的實踐了解到。
本實用新型上述的和/或附加的方面和優(yōu)點從
以下結(jié)合附圖對實施例的描述中將變得明顯和容易理解,其中圖I為傳統(tǒng)的基于Hadoop的磁盤配置系統(tǒng)的不意圖;圖2為根據(jù)本實用新型實施例的基于Hadoop的磁盤配置系統(tǒng)的示意圖;以及圖3為根據(jù)本實用新型實施例的基于Hadoop的磁盤配置系統(tǒng)的示意圖。
具體實施方式
下面詳細描述本實用新型的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本實用新型,而不能解釋為對本實用新型的限制。在本實用新型的描述中,需要說明的是,除非另有規(guī)定和限定,術(shù)語“安裝”、“相連”、“連接”應做廣義理解,例如,可以是機械連接或電連接,也可以是兩個元件內(nèi)部的連通,可以是直接相連,也可以通過中間媒介間接相連,對于本領(lǐng)域的普通技術(shù)人員而言,可以根據(jù)具體情況理解上述術(shù)語的具體含義。此外,術(shù)語“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對重要性或者隱含指明所指示的技術(shù)特征的數(shù)量。由此,限定有“第一”、“第二”的特征可以明示或者隱含地包括一個或者更多個該特征。在本實用新型的描述中,“多個”的含義是兩個或兩個以上,除非另有明確具體的限定。下面參考圖2和圖3描述根據(jù)本實用新型實施例的基于Hadoop的磁盤配置系統(tǒng)1000。其中,該基于Hadoop的磁盤配置系統(tǒng)1000可以適用于服務器、Hadoop集群的IO性能及磁盤故障處理。如圖2所示,本實用新型實施例的基于Hadoop的磁盤配置系統(tǒng)1000,包括分布式文件系統(tǒng)DFS接口 100、分布式計算框架Mapreduce接口 200、多個第一類硬盤300和多個第二類硬盤400。其中,DFS接口 100與DFS用戶層500相連,Mapreduce接口 200與Mapreduce用戶層600相連。多個第一類硬盤300分別與DFS接口 100相連,為DFS用戶層500提供數(shù)據(jù)的分布式存儲。多個第二類磁盤400分別與Mapreduce接口相連,為Mapreduce用戶層600的分布式計算數(shù)據(jù)提供存儲。在本實用新型的一個實施例中,第一類磁盤300為串行高級技術(shù)附加裝置硬盤SATA硬盤。對于使用近線SATA硬盤的DFS用戶,主要是基于大數(shù)據(jù)塊的順序10。其中,大數(shù)據(jù)塊的大小(block size)是256MB。經(jīng)過試驗驗證,當硬盤數(shù)量超過5個以后,HDFS IO性能提升的空間有限,同時面臨網(wǎng)絡傳輸?shù)钠款i,所以DFS可以使用更大容量,更低轉(zhuǎn)速的SATA硬盤,不僅帶來成本及功耗方面的收益,而且不會受到計算任務的影響,磁盤的故障率可明顯降低。對于DFS用戶來說,其維護數(shù)據(jù)副本的開銷也能夠得到有效的降低。在本實用新型的又一個實施例中,第二類磁盤400為SAS(Serial Attached SCSI,串行連接SCSI接口)硬盤、基于閃存的SSD硬盤(solid state disk,固態(tài)磁盤)或Flash磁盤。SAS硬盤或SSD在隨機IO性能方面具有明顯的性能收益,可以有效提高節(jié)點的IO吞吐率及CPU使用效率,從而提升Hadoop計算任務的執(zhí)行效率。并且,硬盤具有更高的可靠性,即使發(fā)生故障,更換硬盤時也不需要進行數(shù)據(jù)同步,此外還可以避免因為磁盤空間不足導致計算任務異常終止的問題。其中,第一類磁盤300的個數(shù)和第二類磁盤400的個數(shù)之間的比例為可配置的。優(yōu)選的,第一類磁盤300的個數(shù)和第二類磁盤400的個數(shù)之間的比例為1,即第一類磁盤300的個數(shù)和第二類磁盤400的個數(shù)相同。下面參考圖3以12塊磁盤的服務器為例對本實用新型實施例的基于Hadoop的磁盤配置系統(tǒng)進行描述。其中,dfs為DFS存儲用戶,mapred為Mapreduce計算用戶。從圖中可以看出,12塊磁盤包括disk。、diskl、disk2......diskll,其中,diskO至
disk5為第二類磁盤,即與Mapreduce接口 200相連,為Mapreduce用戶層600的分布式計算提供數(shù)據(jù)。例如,diskO至disk5可以為SAS磁盤、SSD或Flash。disk6至diskll為第一類磁盤,即與DFS接口 100相連,為DFS用戶層500提供數(shù)據(jù)的分布式存儲。例如,disk6至diskll可以為SATA磁盤。由此,分別對DFS存儲用戶和Mapreduce計算用互獨立配置相應的磁盤,從而顯著提高Hadoop集群的10吞吐率,特別是10的性能,進而有效地提升CPU的使用率,并且可以有效降低磁盤的故障率??梢岳斫獾氖牵瑘D3示出的基于Hadoop的磁盤配置系統(tǒng)的第一類磁盤300和第二類磁盤400的個數(shù)相同,上述示例僅是優(yōu)選實施例。本實用新型實施例的基于Hadoop的磁盤配置系統(tǒng)的第一和第二類磁盤的配置比例還可以為其他數(shù)量。例如,以12塊硬盤為例,基于Hadoop的磁盤配置系統(tǒng)中的第一類磁盤300的個數(shù)可以為8塊,第二類磁盤400的個數(shù)可以為4塊。根據(jù)本實用新型實施例的基于Hadoop的磁盤配置系統(tǒng),基于Mapreduce用戶和DFS用戶的不同IO需求,對計算和存儲用戶獨立配置相應的磁盤,可以顯著提高Hadoop集群的IO吞吐率,尤其是隨機IO的性能,進而有效提升CPU的使用率,使得計算任務執(zhí)行的更快。并且,可以并有效降低磁盤的故障率。具體地,Mapreduce不會因磁盤空間不足而被迫中止,涉及的磁盤故障后,更換前也不再需要同步數(shù)據(jù)。DFS涉及的磁盤不會受頻繁隨機IO的影響,從而故障率可以明顯降低。在本說明書的描述中,參考術(shù)語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點包含于本實用新型的至少一個實施例或示例中。在本說明書中,對上述術(shù)語的示意性表述不一定指的是相同的實施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點可以在任何的一個或多個實施例或示例中以合適的方式結(jié)合。盡管已經(jīng)示出和描述了本實用新型的實施例,對于本領(lǐng)域的普通技術(shù)人員而言,可以理解在不脫離本實用新型的原理和精神的情況下可以對這些實施例進行多種變化、修 改、替換和變型,本實用新型的范圍由所附權(quán)利要求及其等同限定。
權(quán)利要求1.一種基于Hadoop的磁盤配置系統(tǒng),其特征在于,包括 分布式文件系統(tǒng)DFS接口,用于與DFS用戶層相連; 分布式計算框架Mapreduce接口,用于與Mapreduce用戶層相連; 多個第一類磁盤,所述多個第一類磁盤分別與所述DFS接口相連,用于為所述DFS用戶層提供數(shù)據(jù)的分布式存儲;以及 多個第二類磁盤,所述多個第二類磁盤分別與所述Mapreduce接口相連,用于為所述Mapreduce用戶層的分布式計算數(shù)據(jù)提供存儲。
2.如權(quán)利要求I所述的基于Hadoop的磁盤配置系統(tǒng),其特征在于,所述第一類磁盤為串行高級技術(shù)附加裝置磁盤。
3.如權(quán)利要求I所述的基于Hadoop的磁盤配置系統(tǒng),其特征在于,所述第二類磁盤為 串行連接SCSI接口磁盤、基于閃存的固態(tài)磁盤或Flash磁盤。
4.如權(quán)利要求I所述的基于Hadoop的磁盤配置系統(tǒng),其特征在于,所述第一類磁盤的個數(shù)與所述第二類磁盤的個數(shù)之間的比例可配置。
5.如權(quán)利要求I所述的基于Hadoop的磁盤配置系統(tǒng),其特征在于,所述第一類磁盤的個數(shù)與所述第二類磁盤的個數(shù)相同。
專利摘要本實用新型公開了一種基于Hadoop的磁盤配置系統(tǒng),包括分布式文件系統(tǒng)DFS接口,用于與DFS用戶層相連;分布式計算框架Mapreduce接口,用于與Mapreduce用戶層相連;多個第一類磁盤,所述多個第一類磁盤分別與所述DFS接口相連,用于為所述DFS用戶層提供數(shù)據(jù)的分布式存儲;多個第二類磁盤,所述多個第二類磁盤分別與所述Mapreduce接口相連,用于為所述Mapreduce用戶層的分布式計算數(shù)據(jù)提供存儲。本實用新型基于Mapreduce用戶和DFS用戶的不同IO需求,對計算和存儲用戶獨立配置相應的磁盤,可以顯著提高Hadoop集群的IO吞吐率并降低故障率。
文檔編號G06F3/06GK202795334SQ201220345438
公開日2013年3月13日 申請日期2012年7月16日 優(yōu)先權(quán)日2012年7月16日
發(fā)明者胡殿明, 楊斐, 魏偉 申請人:北京百度網(wǎng)訊科技有限公司