本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,具體而言,涉及一種集群數(shù)據(jù)實時查詢方法及系統(tǒng)。
背景技術(shù):
隨著大規(guī)?;ヂ?lián)網(wǎng)應(yīng)用的普及,網(wǎng)絡(luò)信息數(shù)據(jù)的海量劇增,大數(shù)據(jù)已悄然地對人們生活的各方面都產(chǎn)生了巨大的影響。Hadoop以其廉價、穩(wěn)定、通用的特點逐漸成為各個行業(yè)進(jìn)行海量數(shù)據(jù)采集、存儲和分析的主要平臺;HBase是利用Hadoop HDFS作為其文件存儲系統(tǒng)的分布式的、面向列的開源數(shù)據(jù)庫。
在大數(shù)據(jù)背景時代下,數(shù)據(jù)量呈現(xiàn)出了T級的增長,滿足了人們對各種數(shù)據(jù)的需求;但另一方面,數(shù)據(jù)量的劇增導(dǎo)致了數(shù)據(jù)查詢時間的增加,傳統(tǒng)的數(shù)據(jù)查詢方式已不能滿足人們對于集群數(shù)據(jù)的實時查詢需求,而且低效率的數(shù)據(jù)查詢方式使平臺使用者很難基于實時、有效的平臺數(shù)據(jù)做出快速、及時的反應(yīng)。
技術(shù)實現(xiàn)要素:
有鑒于此,本發(fā)明的目的在于提供一種集群數(shù)據(jù)實時查詢方法及系統(tǒng),能夠?qū)崿F(xiàn)集群數(shù)據(jù)的實時查詢。
第一方面,本發(fā)明實施例提供了一種集群數(shù)據(jù)實時查詢方法,包括以下步驟:
獲取客戶端的查詢請求,查詢請求攜帶查詢數(shù)據(jù)的地址內(nèi)容;
將查詢請求發(fā)送至Hadoop集群數(shù)據(jù)平臺的Hbase數(shù)據(jù)庫接口并讀取查詢數(shù)據(jù);
將查詢數(shù)據(jù)寫入暫存文件中,暫存文件位于查詢服務(wù)器的緩存中;
將暫存文件發(fā)送至客戶端。
結(jié)合第一方面,本發(fā)明實施例提供了第一方面的第一種可能的實施方式,其中,還包括數(shù)據(jù)處理步驟,具體步驟如下:
去重步驟,對暫存文件內(nèi)的查詢數(shù)據(jù)進(jìn)行去重,去除查詢數(shù)據(jù)內(nèi)的重復(fù)數(shù)據(jù);
統(tǒng)計步驟,將去重后的查詢數(shù)據(jù)進(jìn)行匯總統(tǒng)計;
關(guān)聯(lián)步驟,將去重后的查詢數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,挖掘查詢數(shù)據(jù)的內(nèi)在聯(lián)系;
完整性驗證步驟,將關(guān)聯(lián)分析后的查詢數(shù)據(jù)進(jìn)行完整性驗證分析,保證了數(shù)據(jù)的完整性與安全性。
結(jié)合第一方面的第一種可能的實時方式,本發(fā)明實施例提供了第一方面的第二種可能的實施方式,其中,關(guān)聯(lián)步驟中,關(guān)聯(lián)分析的支持度的范圍為1-10,置信度的范圍為0-1。
結(jié)合第一方面,本發(fā)明實施例提供了第一方面的第三種可能的實施方式,其中,還包括預(yù)警步驟,對查詢數(shù)據(jù)的讀取以及寫入暫存文件的過程進(jìn)行實時檢測,并對寫入超時進(jìn)行預(yù)警,從而使管理人員及時采取相應(yīng)的處置措施。
結(jié)合第一方面及其第一至三種可能的實施方式,本發(fā)明實施例提供了第一方面的第四種可能的實施方式,其中,緩存由Java EHCache模塊創(chuàng)建。
第二方面,本發(fā)明實施例還提供一種集群數(shù)據(jù)實時查詢系統(tǒng),包括客戶端、查詢服務(wù)器和Hadoop集群數(shù)據(jù)平臺,Hadoop集群數(shù)據(jù)平臺包括Hbase數(shù)據(jù)庫;
客戶端用于輸入查詢請求,查詢請求攜帶查詢數(shù)據(jù)的地址內(nèi)容;
查詢服務(wù)器包括接收模塊、交互模塊、暫存模塊、緩存模塊和發(fā)送模塊;
接收模塊用于接收查詢請求;
交互模塊用于將查詢請求發(fā)送至Hadoop集群數(shù)據(jù)平臺的Hbase數(shù)據(jù)庫接口并讀取查詢數(shù)據(jù);
暫存模塊用于將查詢數(shù)據(jù)寫入暫存文件中,暫存文件位于緩存模塊中;
發(fā)送模塊用于將暫存文件發(fā)送至客戶端。
結(jié)合第二方面,本發(fā)明實施例提供了第二方面的第一種可能的實施方式,其中,查詢服務(wù)器還包括數(shù)據(jù)處理模塊,數(shù)據(jù)處理模塊包括去重單元、統(tǒng)計單元、關(guān)聯(lián)單元和完整性驗證單元:
去重單元用于對暫存文件內(nèi)的查詢數(shù)據(jù)進(jìn)行去重;
統(tǒng)計單元用于對去重單元輸出的查詢數(shù)據(jù)進(jìn)行匯總統(tǒng)計;
關(guān)聯(lián)單元用于對去重單元輸出的查詢數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析;
完整性驗證單元用于對關(guān)聯(lián)單元輸出的查詢數(shù)據(jù)進(jìn)行完整性驗證分析。
結(jié)合第二方面的第一種可能的實施方式,本發(fā)明實施例提供了第二方面的第二種可能的實施方式,其中,關(guān)聯(lián)單元中,關(guān)聯(lián)分析的支持度的范圍為1-10,置信度的范圍為0-1。
結(jié)合第二方面,本發(fā)明實施例提供了第二方面的第三種可能的實施方式,其中,查詢服務(wù)器還包括預(yù)警模塊,用于對所述交互模塊讀取查詢數(shù)據(jù)以及將查詢數(shù)據(jù)寫入暫存文件的過程進(jìn)行實時檢測,并對寫入超時進(jìn)行預(yù)警。
結(jié)合第二方面及其第一至第三種可能的實施方式,本發(fā)明實施例提供了第二方面的第四種可能的實施方式,其中,緩存模塊由Java EHCache模塊創(chuàng)建。
本發(fā)明帶來了以下有益效果:
本發(fā)明中查詢服務(wù)器獲取客戶端的查詢請求;然后將查詢請求發(fā)送至Hadoop集群數(shù)據(jù)平臺的Hbase數(shù)據(jù)庫接口并讀取查詢數(shù)據(jù),并將查詢數(shù)據(jù)寫入查詢服務(wù)器緩存的暫存文件中;最后將暫存文件發(fā)送至客戶端。查詢服務(wù)器緩存的設(shè)置大大提高了數(shù)據(jù)寫入指定文件的速度,進(jìn)而提高了服務(wù)器與Hbase數(shù)據(jù)庫的數(shù)據(jù)傳輸速度,使查詢服務(wù)器在設(shè)定的閾值時間內(nèi)可以一次性讀取更多的數(shù)據(jù),避免了大數(shù)據(jù)的分次獲取,提高了數(shù)據(jù)獲取的效率,另一方面,緩存的設(shè)置還提高了服務(wù)器與客戶端的數(shù)據(jù)傳輸速度,使客戶可以在瞬間獲取查詢服務(wù)器緩存內(nèi)的查詢數(shù)據(jù)。因此,通過緩存的設(shè)置提高了查詢數(shù)據(jù)寫入暫存文件的速度以及與客戶端數(shù)據(jù)傳輸?shù)乃俣龋M(jìn)而使單次集群數(shù)據(jù)的查詢時間不超過1分鐘,實現(xiàn)了集群數(shù)據(jù)的實時查詢,而且每天的數(shù)據(jù)處理能力達(dá)到500G以上。
進(jìn)一步,對暫存文件內(nèi)的數(shù)據(jù)進(jìn)行去重、統(tǒng)計、關(guān)聯(lián)與完整性驗證后再發(fā)送至客戶端,既提高了查詢數(shù)據(jù)的有效性,又保證了查詢數(shù)據(jù)的完整性與安全性。
本發(fā)明的其他特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點在說明書、權(quán)利要求書以及附圖中所特別指出的結(jié)構(gòu)來實現(xiàn)和獲得。
為使本發(fā)明的上述目的、特征和優(yōu)點能更明顯易懂,下文特舉較佳實施例,并配合所附附圖,作詳細(xì)說明如下。
附圖說明
為了更清楚地說明本發(fā)明實施例的技術(shù)方案,下面將對實施例中所需要使用的附圖作簡單地介紹,應(yīng)當(dāng)理解,以下附圖僅示出了本發(fā)明的某些實施例,因此不應(yīng)被看作是對范圍的限定,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他相關(guān)的附圖。
圖1示出了本發(fā)明實施例1所提供的一種集群數(shù)據(jù)實時查詢方法的流程圖;
圖2示出了本發(fā)明實施例2所提供的一種集群數(shù)據(jù)實時查詢系統(tǒng)的示意圖;
圖3示出了本發(fā)明實施例2所提供的一種集群數(shù)據(jù)實時查詢系統(tǒng)中查詢服務(wù)器的示意圖。
1-客戶端;2-查詢服務(wù)器;21-接收模塊;22-交互模塊;23-緩存模塊;24-暫存模塊;25-數(shù)據(jù)處理模塊;26-預(yù)警模塊;27-發(fā)送模塊;3-Hbase數(shù)據(jù)庫。
具體實施方式
為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例中附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。因此,以下對在附圖中提供的本發(fā)明的實施例的詳細(xì)描述并非旨在限制要求保護(hù)的本發(fā)明的范圍,而是僅僅表示本發(fā)明的選定實施例?;诒景l(fā)明的實施例,本領(lǐng)域技術(shù)人員在沒有做出創(chuàng)造性勞動的前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。
目前的集群數(shù)據(jù)查詢方式無法滿足人們對于集群數(shù)據(jù)實時查詢的需求,基于此,本發(fā)明實施例提供的一種集群數(shù)據(jù)實時查詢方法及系統(tǒng),可以提高集群數(shù)據(jù)的查詢效率,滿足人們對于集群數(shù)據(jù)實時查詢的需求。
為便于對本實施例進(jìn)行理解,首先對本發(fā)明實施例所公開的一種集群數(shù)據(jù)實時查詢方法進(jìn)行詳細(xì)介紹。
一種集群數(shù)據(jù)實時查詢方法,包括以下步驟:
S11.獲取客戶端的查詢請求。
從客戶端輸入查詢請求,若查詢請求為上網(wǎng)信息,則查詢請求包括IP地址和/或mac地址。
S12.將查詢請求發(fā)送至Hadoop集群數(shù)據(jù)平臺的Hbase數(shù)據(jù)庫接口并讀取查詢數(shù)據(jù)。
對查詢請求進(jìn)行解析得到查詢地址,然后將查詢地址發(fā)送至Hbase數(shù)據(jù)庫的Native Java API,Zookeeper服務(wù)器獲取查詢地址后通過Root、META與Client進(jìn)行三級尋址,然后讀取查詢地址所指向的存儲于Region內(nèi)的Store所對應(yīng)的HDFS內(nèi)的查詢數(shù)據(jù),本實施例中的查詢數(shù)據(jù)為網(wǎng)址信息數(shù)據(jù)。
S13.將查詢數(shù)據(jù)寫入查詢服務(wù)器緩存內(nèi)的暫存文件中。
查詢服務(wù)器緩存由Java的緩存模塊EHCache創(chuàng)建,用于暫時存放查詢數(shù)據(jù),緩存的設(shè)置大大提高了數(shù)據(jù)寫入指定文件的速度,進(jìn)而提高了服務(wù)器與Hbase數(shù)據(jù)庫的數(shù)據(jù)傳輸速度,使查詢服務(wù)器在設(shè)定的閾值時間內(nèi)可以一次性讀取更多的數(shù)據(jù),避免了大數(shù)據(jù)的分次獲取,提高了數(shù)據(jù)獲取的效率,另一方面,緩存的設(shè)置還提高了服務(wù)器與客戶端的數(shù)據(jù)傳輸速度,使客戶可以在瞬間獲取查詢服務(wù)器緩存內(nèi)的查詢數(shù)據(jù)。因此,緩存的設(shè)置通過提高數(shù)據(jù)庫查詢數(shù)據(jù)寫入暫存文件的速度以及與客戶端數(shù)據(jù)傳輸?shù)乃俣仁辜簲?shù)據(jù)的查詢時間不超過1分鐘,實現(xiàn)了集群數(shù)據(jù)的實時查詢。
S14.預(yù)警步驟,對查詢數(shù)據(jù)的讀取以及寫入暫存文件的過程進(jìn)行實時檢測,并對寫入超時進(jìn)行預(yù)警。
查詢服務(wù)器實時監(jiān)測查詢數(shù)據(jù)的讀取以及寫入暫存文件的過程,若查詢數(shù)據(jù)在閾值時間內(nèi)沒有完成讀取與寫入的操作,則查詢服務(wù)器彈出預(yù)警對話框,優(yōu)選地,閾值時間的上限為2-3s;更優(yōu)選地,若查詢數(shù)據(jù)在閾值時間內(nèi)沒有完成讀取與寫入的操作,查詢服務(wù)器還發(fā)出預(yù)警聲音提示信息。
S15.數(shù)據(jù)處理步驟,用于對暫存文件內(nèi)的查詢數(shù)據(jù)進(jìn)行處理,具體步驟如下:
去重步驟,通過Bloom Filter哈希去重算法實現(xiàn)查詢數(shù)據(jù)的去重,去除查詢數(shù)據(jù)中的重合項,提高數(shù)據(jù)的有效性;
統(tǒng)計步驟,將去重后的查詢數(shù)據(jù)進(jìn)行匯總統(tǒng)計,統(tǒng)計有效數(shù)據(jù)的數(shù)量;
關(guān)聯(lián)步驟,使用Aprior算法進(jìn)行逐層搜索以實現(xiàn)關(guān)聯(lián)性分析;
以去重后的網(wǎng)址信息數(shù)據(jù)作為候選集,然后設(shè)置支持度為2,置信度為0.7,然后不斷地進(jìn)行自連接和剪枝,直到得到最終的頻繁集為止,終止條件是,如果自連接得到的已經(jīng)不再是頻繁集,那么取最后一次得到的頻繁集為結(jié)果。本實施例中的頻繁集為一些相關(guān)的網(wǎng)站網(wǎng)址,比如a網(wǎng)站、b網(wǎng)站、c網(wǎng)站、d網(wǎng)站等,且本實施例中關(guān)聯(lián)性驗證的結(jié)果為訪問了a網(wǎng)站的就會訪問b和網(wǎng)站c。
完整性驗證步驟,使用MD5或空值法將關(guān)聯(lián)分析后的查詢數(shù)據(jù)進(jìn)行完整性驗證分析。
S16.將暫存文件發(fā)送至客戶端。
將暫存文件內(nèi)經(jīng)過數(shù)據(jù)處理后的查詢數(shù)據(jù)發(fā)送至客戶端,由于暫存文件位于查詢服務(wù)器內(nèi)的暫存文件內(nèi),因此查詢服務(wù)器可以將暫存文件高速傳輸至客戶端。另一方面,客戶可以直接基于處理后的查詢數(shù)據(jù)做出相應(yīng)的處置措施,提高了查詢數(shù)據(jù)的利用效率。
本發(fā)明還提供了一種集群數(shù)據(jù)實時查詢系統(tǒng)的實施例,參見圖2-3所示,該實施例所提供的集群數(shù)據(jù)實時查詢系統(tǒng)包括客戶端1、查詢服務(wù)器2和Hadoop集群數(shù)據(jù)平臺,Hadoop集群數(shù)據(jù)平臺包括Hbase數(shù)據(jù)庫3;
客戶端1用于輸入查詢請求,查詢請求攜帶查詢數(shù)據(jù)的地址內(nèi)容;
查詢服務(wù)器2包括接收模塊21、交互模塊22、暫存模塊24、緩存模塊23和發(fā)送模塊27;
接收模塊21用于接收查詢請求;
交互模塊22用于將查詢請求發(fā)送至Hadoop集群數(shù)據(jù)平臺的Hbase數(shù)據(jù)庫3接口并讀取查詢數(shù)據(jù);
暫存模塊24用于將查詢數(shù)據(jù)寫入暫存文件中,暫存文件位于緩存模塊23中;
發(fā)送模塊27用于將暫存文件發(fā)送至客戶端1。
用戶通過客戶端1的Tomcat Web服務(wù)器輸入查詢請求,使用HTML表單中的Post方式將數(shù)據(jù)提交到查詢服務(wù)器2的接收模塊21,交互模塊22將接收模塊21內(nèi)的查詢請求發(fā)送至Hbase數(shù)據(jù)庫3的Native Java API,Zookeeper服務(wù)器獲取查詢地址后經(jīng)三級尋址讀取查詢地址所指向的存儲于Region內(nèi)的Store所對應(yīng)的HDFS內(nèi)的查詢數(shù)據(jù),本實施例中的查詢數(shù)據(jù)為網(wǎng)址信息數(shù)據(jù)。暫存模塊24將查詢數(shù)據(jù)寫入暫存文件中,暫存文件位于查詢服務(wù)器2內(nèi)存的緩存模塊23中,然后經(jīng)由發(fā)送模塊27將其發(fā)送至客戶端1。
本實施例的另一種實施方式,查詢服務(wù)器2還包括數(shù)據(jù)處理模塊25,數(shù)據(jù)處理模塊25包括去重單元、統(tǒng)計單元、關(guān)聯(lián)單元和完整性驗證單元:
去重單元通過Bloom Filter哈希去重算法實現(xiàn)查詢數(shù)據(jù)的去重,去除查詢數(shù)據(jù)中的重合項,提高數(shù)據(jù)的有效性;
統(tǒng)計單元將去重后的查詢數(shù)據(jù)進(jìn)行匯總統(tǒng)計,統(tǒng)計有效數(shù)據(jù)的數(shù)量;
關(guān)聯(lián)單元使用Aprior算法進(jìn)行逐層搜索以實現(xiàn)關(guān)聯(lián)性分析,以去重后的網(wǎng)址信息數(shù)據(jù)作為候選集,關(guān)聯(lián)分析的支持度的范圍為1-10,置信度的范圍為0-1,優(yōu)選地,關(guān)聯(lián)分析的支持度為5,置信度為0.4;然后不斷地進(jìn)行自連接和剪枝,直到得到最終的頻繁集為止,終止條件是,如果自連接得到的已經(jīng)不再是頻繁集,那么取最后一次得到的頻繁集為結(jié)果。本實施例中的頻繁集為一些相關(guān)的網(wǎng)站地址,比如a網(wǎng)站、b網(wǎng)站、c網(wǎng)站、d網(wǎng)站等,且本實施例中關(guān)聯(lián)性驗證的結(jié)果為訪問了a網(wǎng)站的就會訪問b和網(wǎng)站c。
完整性驗證單元使用MD5或空值法將關(guān)聯(lián)分析后的查詢數(shù)據(jù)進(jìn)行完整性驗證分析。
本實施例的另一種實施方式,查詢服務(wù)器2還包括預(yù)警模塊26,實時監(jiān)測查詢數(shù)據(jù)的讀取以及寫入暫存文件的過程,若查詢數(shù)據(jù)在閾值時間內(nèi)沒有完成寫入操作,則彈出預(yù)警對話框,優(yōu)選地,閾值為2s;更優(yōu)選地,若查詢數(shù)據(jù)在閾值時間內(nèi)沒有完成寫入操作還會發(fā)出預(yù)警聲音。
此外,上述實施方式的緩存模塊23由Java EHCache模塊創(chuàng)建。
本發(fā)明實施例所提供的一種集群數(shù)據(jù)實時查詢方法及系統(tǒng)的計算機(jī)程序產(chǎn)品,包括存儲了程序代碼的計算機(jī)可讀存儲介質(zhì),所述程序代碼包括的指令可用于執(zhí)行前面方法實施例中所述的方法,具體實現(xiàn)可參見方法實施例,在此不再贅述。
所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡潔,上述描述的系統(tǒng)和裝置的具體工作過程,可以參考前述方法實施例中的對應(yīng)過程,在此不再贅述。
術(shù)語“第一”、“第二”、“第三”僅用于描述目的,而不能理解為指示或暗示相對重要性。
另外,在本發(fā)明實施例的描述中,除非另有明確的規(guī)定和限定,術(shù)語“安裝”、“相連”、“連接”應(yīng)做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或一體地連接;可以是機(jī)械連接,也可以是電連接;可以是直接相連,也可以通過中間媒介間接相連,可以是兩個元件內(nèi)部的連通。對于本領(lǐng)域的普通技術(shù)人員而言,可以具體情況理解上述術(shù)語在本發(fā)明中的具體含義。
所述功能如果以軟件功能單元的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,可以存儲在一個計算機(jī)可讀取存儲介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機(jī)軟件產(chǎn)品存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計算機(jī)設(shè)備(可以是個人計算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例所述方法的全部或部分步驟。而前述的存儲介質(zhì)包括:U盤、移動硬盤、只讀存儲器(ROM,Read-Only Memory)、隨機(jī)存取存儲器(RAM,Random Access Memory)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
以上所述,僅為本發(fā)明的具體實施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)所述以權(quán)利要求的保護(hù)范圍為準(zhǔn)。