1.NET 中的正則表達(dá)式類,“Atcachet to loginbyuser:(.*):login(.*)\.”表示所要匹配的字段為“用戶名”字段以及“注冊(cè)”字段;T7ORMAT = username::“$1 ”login_result::“$2”表不字段內(nèi)容的限定,即“username”及“l(fā)ogin result”格式的定義。
[0028]本發(fā)明管理非結(jié)構(gòu)化數(shù)據(jù)的方法,其具體步驟為:
[0029](I)通過服務(wù)器I對(duì)用戶終端所產(chǎn)生的數(shù)據(jù)進(jìn)行綜合采集,得到綜合數(shù)據(jù);
[0030](2)服務(wù)器I將綜合數(shù)據(jù)發(fā)送到數(shù)據(jù)解析模塊2,數(shù)據(jù)解析模塊2對(duì)每一條數(shù)據(jù)進(jìn)行解析,根據(jù)數(shù)據(jù)類型、數(shù)據(jù)格式,對(duì)無效數(shù)據(jù)和錯(cuò)誤數(shù)據(jù)進(jìn)行刪除,并將有效數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù),放入原始數(shù)據(jù)隊(duì)列,最后將結(jié)構(gòu)化數(shù)據(jù)通過原始數(shù)據(jù)導(dǎo)入模塊3導(dǎo)入數(shù)據(jù)庫4存儲(chǔ),而非結(jié)構(gòu)化數(shù)據(jù)通過原始數(shù)據(jù)導(dǎo)入模塊3導(dǎo)入匹配規(guī)則定義模塊5 ;
[0031](3)匹配規(guī)則定義模塊5根據(jù)正則表達(dá)式建立若干條匹配規(guī)則,從非結(jié)構(gòu)化數(shù)據(jù)中提取含有匹配字段的數(shù)據(jù)內(nèi)容,并將含有匹配字段的數(shù)據(jù)內(nèi)容送入到分析模塊6 ;
[0032](4)分析模塊6對(duì)含有匹配字段的數(shù)據(jù)內(nèi)容進(jìn)行分析,抓取關(guān)鍵字段,而分析模塊6的輸出接口連接數(shù)據(jù)庫4,從而將非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行儲(chǔ)存;分析模塊6連接調(diào)整模塊7,調(diào)整模塊7對(duì)每組數(shù)據(jù)中的關(guān)鍵字段進(jìn)行刪除、添加等修改,并通過分析模塊6上傳到服務(wù)器1,從而實(shí)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的分析。
[0033]其中,該匹配規(guī)則定義模塊5是利用正則表達(dá)式,建立匹配規(guī)則,并將匹配規(guī)則發(fā)給分析模塊6。
[0034]該分析模塊6是利用匹配規(guī)則定義模塊5發(fā)來的匹配規(guī)則,對(duì)原始數(shù)據(jù)導(dǎo)入模塊3導(dǎo)入的所有非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分組,選出一組非結(jié)構(gòu)化數(shù)據(jù),將該組非結(jié)構(gòu)化數(shù)據(jù)對(duì)應(yīng)的匹配規(guī)則發(fā)送給調(diào)整模塊7,以及根據(jù)調(diào)整模塊7發(fā)來的調(diào)整后的匹配規(guī)則對(duì)該組非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行調(diào)整。
[0035]該調(diào)整模塊7是用于接收分析模塊6發(fā)來的匹配規(guī)則,對(duì)該匹配規(guī)則進(jìn)行調(diào)整,將調(diào)整后的匹配規(guī)則發(fā)給分析模塊6。
[0036]本發(fā)明能夠?qū)崟r(shí)的采集用戶的訪問數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行分類,通過匹配規(guī)則定義模塊、分析模塊和調(diào)整模塊能夠?qū)γ織l數(shù)據(jù)進(jìn)行擴(kuò)展,并即使的分類保存到數(shù)據(jù)庫中,從而保證服務(wù)器在接受訪問時(shí)能夠快速的調(diào)取數(shù)據(jù),使得非結(jié)構(gòu)化數(shù)據(jù)的檢索更加快捷、范圍更加準(zhǔn)確。
[0037]對(duì)于本領(lǐng)域技術(shù)人員而言,顯然本發(fā)明不限于上述示范性實(shí)施例的細(xì)節(jié),而且在不背離本發(fā)明的精神或基本特征的情況下,能夠以其他的具體形式實(shí)現(xiàn)本發(fā)明。因此,無論從哪一點(diǎn)來看,均應(yīng)將實(shí)施例看作是示范性的,而且是非限制性的,本發(fā)明的范圍由所附權(quán)利要求而不是上述說明限定,因此旨在將落在權(quán)利要求的等同要件的含義和范圍內(nèi)的所有變化囊括在本發(fā)明內(nèi)。不應(yīng)將權(quán)利要求中的任何附圖標(biāo)記視為限制所涉及的權(quán)利要求。
[0038]此外,應(yīng)當(dāng)理解,雖然本說明書按照實(shí)施方式加以描述,但并非每個(gè)實(shí)施方式僅包含一個(gè)獨(dú)立的技術(shù)方案,說明書的這種敘述方式僅僅是為清楚起見,本領(lǐng)域技術(shù)人員應(yīng)當(dāng)將說明書作為一個(gè)整體,各實(shí)施例中的技術(shù)方案也可以經(jīng)適當(dāng)組合,形成本領(lǐng)域技術(shù)人員可以理解的其他實(shí)施方式。
【主權(quán)項(xiàng)】
1.一種管理非結(jié)構(gòu)化數(shù)據(jù)的裝置,包括服務(wù)器、數(shù)據(jù)解析模塊、原始數(shù)據(jù)導(dǎo)入模塊、數(shù)據(jù)庫、匹配規(guī)則定義模塊、分析模塊和調(diào)整模塊,其特征在于,所述服務(wù)器連接用戶終端,所述服務(wù)器的數(shù)據(jù)輸出端依次連接所述數(shù)據(jù)解析模塊和原始數(shù)據(jù)導(dǎo)入模塊,所述原始數(shù)據(jù)導(dǎo)入模塊通過一對(duì)數(shù)據(jù)輸出端口分別連接所述數(shù)據(jù)庫和匹配規(guī)則定義模塊,所述匹配規(guī)則定義模塊依次連接所述分析模塊和調(diào)整模塊,所述分析模塊的數(shù)據(jù)輸出端口連接數(shù)據(jù)庫。2.一種如權(quán)利要求1所述的管理非結(jié)構(gòu)化數(shù)據(jù)的裝置的管理非結(jié)構(gòu)化數(shù)據(jù)的方法,其特征在于,具體步驟為: (1)通過服務(wù)器對(duì)用戶終端所產(chǎn)生的數(shù)據(jù)進(jìn)行綜合采集,得到綜合數(shù)據(jù); (2)再由服務(wù)器將綜合數(shù)據(jù)發(fā)送到數(shù)據(jù)解析模塊,數(shù)據(jù)解析模塊對(duì)每一條數(shù)據(jù)進(jìn)行解析,根據(jù)數(shù)據(jù)類型、數(shù)據(jù)格式,對(duì)無效數(shù)據(jù)和錯(cuò)誤數(shù)據(jù)進(jìn)行刪除,并將有效數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù),放入原始數(shù)據(jù)隊(duì)列,最后將非結(jié)構(gòu)化數(shù)據(jù)通過原始數(shù)據(jù)導(dǎo)入模塊導(dǎo)入匹配規(guī)則定義模塊; (3)匹配規(guī)則定義模塊根據(jù)正則表達(dá)式建立若干條匹配規(guī)則,從非結(jié)構(gòu)化數(shù)據(jù)中提取含有匹配字段的數(shù)據(jù)內(nèi)容,并將含有匹配字段的數(shù)據(jù)內(nèi)容送入到分析模塊內(nèi); (4)分析模塊對(duì)含有匹配字段的數(shù)據(jù)內(nèi)容進(jìn)行分析,抓取數(shù)據(jù)內(nèi)容內(nèi)的關(guān)鍵字段,分析模塊將關(guān)鍵字段進(jìn)行儲(chǔ)存;調(diào)整模塊接收分析模塊發(fā)來的數(shù)據(jù)內(nèi)容并進(jìn)行調(diào)整后,再由分析模塊將調(diào)整后的數(shù)據(jù)內(nèi)容上傳到服務(wù)器。3.如權(quán)利要求2所述的一種管理非結(jié)構(gòu)化數(shù)據(jù)的方法,其特征在于,所述步驟(2)中的結(jié)構(gòu)化數(shù)據(jù)是通過原始數(shù)據(jù)導(dǎo)入模塊直接導(dǎo)入數(shù)據(jù)庫存儲(chǔ)。4.如權(quán)利要求2所述的一種管理非結(jié)構(gòu)化數(shù)據(jù)的方法,其特征在于,所述步驟(3)中的匹配規(guī)則包括對(duì)匹配的字段的定義以及匹配的字段對(duì)應(yīng)的格式的定義。5.如權(quán)利要求2所述的一種管理非結(jié)構(gòu)化數(shù)據(jù)的方法,其特征在于,所述步驟(3)中匹配規(guī)則定義模塊是利用正則表達(dá)式建立匹配規(guī)則,并將匹配規(guī)則發(fā)給分析模塊。6.如權(quán)利要求2所述的一種管理非結(jié)構(gòu)化數(shù)據(jù)的方法,其特征在于,所述步驟(4)中的調(diào)整模塊用于接收分析模塊發(fā)來的匹配規(guī)則,對(duì)該匹配規(guī)則進(jìn)行調(diào)整,將調(diào)整后的匹配規(guī)則發(fā)給分析模塊。7.如權(quán)利要求6所述的一種管理非結(jié)構(gòu)化數(shù)據(jù)的裝置的方法,其特征在于,所述分析模塊利用匹配規(guī)則定義模塊發(fā)來的匹配規(guī)則,對(duì)原始數(shù)據(jù)導(dǎo)入模塊導(dǎo)入的所有非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分組,選出一組非結(jié)構(gòu)化數(shù)據(jù),將該組非結(jié)構(gòu)化數(shù)據(jù)對(duì)應(yīng)的匹配規(guī)則發(fā)送給調(diào)整模塊,以及根據(jù)調(diào)整模塊發(fā)來的調(diào)整后的匹配規(guī)則對(duì)該組非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行調(diào)整。
【專利摘要】本發(fā)明涉及一種管理非結(jié)構(gòu)化數(shù)據(jù)的裝置,其包括服務(wù)器、數(shù)據(jù)解析模塊、原始數(shù)據(jù)導(dǎo)入模塊、數(shù)據(jù)庫、匹配規(guī)則定義模塊、分析模塊和調(diào)整模塊,服務(wù)器連接用戶終端,服務(wù)器的數(shù)據(jù)輸出端依次連接數(shù)據(jù)解析模塊和原始數(shù)據(jù)導(dǎo)入模塊,原始數(shù)據(jù)導(dǎo)入模塊通過一對(duì)數(shù)據(jù)輸出端口分別連接數(shù)據(jù)庫和匹配規(guī)則定義模塊,匹配規(guī)則定義模塊依次連接分析模塊和調(diào)整模塊,分析模塊的數(shù)據(jù)輸出端口連接數(shù)據(jù)庫。本發(fā)明能夠?qū)崟r(shí)的采集用戶的訪問數(shù)據(jù),通過匹配規(guī)則定義模塊、分析模塊和調(diào)整模塊能夠?qū)γ織l數(shù)據(jù)進(jìn)行擴(kuò)展,并即使的分類保存到數(shù)據(jù)庫中,從而保證服務(wù)器在接受訪問時(shí)能夠快速的調(diào)取數(shù)據(jù),使得非結(jié)構(gòu)化數(shù)據(jù)的檢索更加快捷、范圍更加廣泛和準(zhǔn)確。
【IPC分類】G06F17/30
【公開號(hào)】CN105183916
【申請(qǐng)?zhí)枴緾N201510665574
【發(fā)明人】張艷平, 付治國, 解書華, 韓雪峰
【申請(qǐng)人】遼寧工程技術(shù)大學(xué)
【公開日】2015年12月23日
【申請(qǐng)日】2015年10月16日