一種文本文件的并行解析過(guò)濾方法【專(zhuān)利摘要】本發(fā)明公開(kāi)一種文本文件的并行解析過(guò)濾方法,涉及數(shù)據(jù)抽取轉(zhuǎn)換技術(shù),用于文本文件與hbase數(shù)據(jù)庫(kù)的轉(zhuǎn)換,通過(guò)配置數(shù)據(jù)模板及內(nèi)置常用數(shù)據(jù)項(xiàng),在解析出不同的文本文件類(lèi)型后進(jìn)行匹配解析,使得文本文件與數(shù)據(jù)模板中的常用數(shù)據(jù)項(xiàng)自動(dòng)匹配;最后按照不同的數(shù)據(jù)分類(lèi)存儲(chǔ)到hbase數(shù)據(jù)庫(kù),進(jìn)行文本文件的分類(lèi)解析過(guò)濾。本發(fā)明通過(guò)配置數(shù)據(jù)模板及內(nèi)置常用數(shù)據(jù)項(xiàng)實(shí)現(xiàn)文本文件的分類(lèi)解析過(guò)濾,通過(guò)多線(xiàn)程入庫(kù)hbase實(shí)現(xiàn)文本文件的分布式存儲(chǔ)管理;增加了系統(tǒng)的可擴(kuò)展性,同時(shí)使用了分類(lèi)解析、存儲(chǔ)、管理的方式,增強(qiáng)了文本數(shù)據(jù)解析過(guò)濾后的可用性。【專(zhuān)利說(shuō)明】一種文本文件的并行解析過(guò)濾方法[0001]
技術(shù)領(lǐng)域:
[0002]本發(fā)明涉及數(shù)據(jù)抽取轉(zhuǎn)換技術(shù),具體的說(shuō)是一種文本文件的并行解析過(guò)濾方法?!?br>背景技術(shù):
】[0003]隨著數(shù)據(jù)信息系統(tǒng)應(yīng)用的不斷發(fā)展,系統(tǒng)對(duì)應(yīng)不同種類(lèi)數(shù)據(jù)的解析、分類(lèi)和管理能力的要求越來(lái)越高,由于很大一部分社會(huì)化數(shù)據(jù)信息以文本文件的方式存放,系統(tǒng)需要將此部分信息錄入管理,比如:高校信息、生活信息(煤氣/水電)、交通出行信息、求職就業(yè)信息等等。如何實(shí)現(xiàn)數(shù)據(jù)的高效提取、分類(lèi)、管理,顯得尤為重要。[0004]為了更好的實(shí)現(xiàn)數(shù)據(jù)的高效提取管理,本發(fā)明提出了一種文本文件的并行解析過(guò)濾方法,實(shí)現(xiàn)文本文件與hbase數(shù)據(jù)庫(kù)的轉(zhuǎn)換,保證了文本數(shù)據(jù)的高效解析、分類(lèi)、管理。[0005]文本文件是一種計(jì)算機(jī)文件,存在于計(jì)算機(jī)文件系統(tǒng)中,是一種包含純文本的容器。文本文件中文件的邏輯結(jié)構(gòu)屬于流式文件,是以ASCII碼方式(也稱(chēng)文本方式)存儲(chǔ)的文件。文本文件中除了存儲(chǔ)文件有效字符信息外,不能存儲(chǔ)其他任何信息。[000?]HBase是一個(gè)分布式的、面向列的開(kāi)源數(shù)據(jù)庫(kù),HBase在Hadoop之上提供了類(lèi)似于Bigtable的能力;不同于一般的關(guān)系數(shù)據(jù)庫(kù),它是一個(gè)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫(kù)。HBase-HadoopDatabase,是一個(gè)高可靠性、高性能、面向列、可伸縮的分布式存儲(chǔ)系統(tǒng),利用HBase技術(shù)可在廉價(jià)PCServer上搭建起大規(guī)模結(jié)構(gòu)化存儲(chǔ)集群?!?br/>發(fā)明內(nèi)容】[0007]本發(fā)明針對(duì)目前技術(shù)發(fā)展的需求和不足之處,提供一種文本文件的并行解析過(guò)濾方法。[0008]本發(fā)明所述一種文本文件的并行解析過(guò)濾方法,解決上述技術(shù)問(wèn)題采用的技術(shù)方案如下:所述一種文本文件的并行解析過(guò)濾方法,用于文本文件與hbase數(shù)據(jù)庫(kù)的轉(zhuǎn)換,通過(guò)配置數(shù)據(jù)模板及內(nèi)置常用數(shù)據(jù)項(xiàng),在解析出不同的文本文件類(lèi)型后進(jìn)行匹配解析,使得文本文件與數(shù)據(jù)模板中的常用數(shù)據(jù)項(xiàng)自動(dòng)匹配;最后按照不同的數(shù)據(jù)分類(lèi)存儲(chǔ)到hbase數(shù)據(jù)庫(kù),實(shí)現(xiàn)文本文件的分類(lèi)解析過(guò)濾,進(jìn)而實(shí)現(xiàn)了文本數(shù)據(jù)的更高效的解析、存儲(chǔ)和管理。[0009]優(yōu)選的,所述文本文件的并行解析過(guò)濾方法,其主要包括如下步驟:創(chuàng)建數(shù)據(jù)模板,過(guò)濾文本文件類(lèi)型,解析匹配數(shù)據(jù),以及多線(xiàn)程入庫(kù)hbase。[0010]優(yōu)選的,所述創(chuàng)建數(shù)據(jù)模板這一步驟,其主要內(nèi)容包括,不同的用戶(hù)能夠自定義不同的數(shù)據(jù)模板,數(shù)據(jù)模板中內(nèi)置常用的匹配數(shù)據(jù)項(xiàng);解析文本文件時(shí)選擇指定的數(shù)據(jù)模塊。[0011]優(yōu)選的,所述過(guò)濾文本文件類(lèi)型這一步驟,其主要內(nèi)容包括,解析出不同的文本文件類(lèi)型,然后將文本文件與數(shù)據(jù)模板中的常用數(shù)據(jù)項(xiàng)自動(dòng)匹配。[0012]優(yōu)選的,若文本文件類(lèi)型不匹配,則結(jié)束;若文本文件類(lèi)型匹配,則上傳文本文件。[0013]優(yōu)選的,所述解析匹配數(shù)據(jù)這一步驟,其主要內(nèi)容包括,根據(jù)不同的文本文件類(lèi)型解析過(guò)濾;首先匹配內(nèi)置的常用數(shù)據(jù)類(lèi)型,再匹配選定的數(shù)據(jù)模板,并作相應(yīng)標(biāo)記。[0014]優(yōu)選的,所述多線(xiàn)程入庫(kù)hbase這一步驟,其主要內(nèi)容包括,根據(jù)匹配的不同的數(shù)據(jù)類(lèi)型,分多線(xiàn)程批量存儲(chǔ)到hbase數(shù)據(jù)庫(kù)。[0015]本發(fā)明所述一種文本文件的并行解析過(guò)濾方法與現(xiàn)有技術(shù)相比具有的有益效果是:本發(fā)明通過(guò)配置數(shù)據(jù)模板及內(nèi)置常用數(shù)據(jù)項(xiàng)實(shí)現(xiàn)文本文件的分類(lèi)解析過(guò)濾,通過(guò)多線(xiàn)程入庫(kù)hbase實(shí)現(xiàn)文本文件的分布式存儲(chǔ)管理;由于使用了數(shù)據(jù)模板增加了系統(tǒng)的可擴(kuò)展性,同時(shí)使用了分類(lèi)解析、存儲(chǔ)、管理的方式,增強(qiáng)了文本數(shù)據(jù)解析過(guò)濾后的可用性。[0016]說(shuō)明書(shū)附圖附圖1為所述文本文件的并行解析過(guò)濾方法的流程圖。【具體實(shí)施方式】[0017]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,對(duì)本發(fā)明所述一種文本文件的并行解析過(guò)濾方法進(jìn)一步詳細(xì)說(shuō)明。[0018]本發(fā)明公開(kāi)了一種文本文件的并行解析過(guò)濾方法,用于文本文件與hbase數(shù)據(jù)庫(kù)的轉(zhuǎn)換,通過(guò)配置數(shù)據(jù)模板及內(nèi)置常用數(shù)據(jù)項(xiàng),在解析出不同的文本文件類(lèi)型后進(jìn)行匹配解析,使得文本文件與數(shù)據(jù)模板中的常用數(shù)據(jù)項(xiàng)自動(dòng)匹配;最后按照不同的數(shù)據(jù)分類(lèi)存儲(chǔ)至IJhbase數(shù)據(jù)庫(kù),實(shí)現(xiàn)文本文件的分類(lèi)解析過(guò)濾,進(jìn)而實(shí)現(xiàn)了文本數(shù)據(jù)的更高效的解析、存儲(chǔ)和管理。[0019]實(shí)施例:本實(shí)施例所述一種文本文件的并行解析過(guò)濾方法,主要包括如下步驟:創(chuàng)建數(shù)據(jù)模板,過(guò)濾文本文件類(lèi)型,解析匹配數(shù)據(jù),以及多線(xiàn)程入庫(kù)hbase。如附圖1所示,該并行解析過(guò)濾方法的具體實(shí)施流程包括:所述創(chuàng)建數(shù)據(jù)模板這一步驟,其主要內(nèi)容是指,不同的用戶(hù)能夠自定義不同的數(shù)據(jù)模板,數(shù)據(jù)模板中內(nèi)置常用的匹配數(shù)據(jù)項(xiàng);解析文本文件時(shí)選擇指定的數(shù)據(jù)模塊,保證了可擴(kuò)展性。[0020]所述過(guò)濾文本文件類(lèi)型這一步驟,其主要內(nèi)容包括,解析出不同的文本文件類(lèi)型,查看文本數(shù)據(jù)是否為csv、txt、excel2003、excel2007等等;然后將文本文件與數(shù)據(jù)模板中的常用數(shù)據(jù)項(xiàng)自動(dòng)匹配;若文本文件類(lèi)型不匹配,則結(jié)束;若文本文件類(lèi)型匹配,則上傳文本文件。[0021]所述解析匹配數(shù)據(jù)這一步驟,其主要內(nèi)容包括,根據(jù)不同的文本文件類(lèi)型解析過(guò)濾,首先匹配內(nèi)置的常用數(shù)據(jù)類(lèi)型,再匹配選定的數(shù)據(jù)模板,并作相應(yīng)標(biāo)記。[0022]所述多線(xiàn)程入庫(kù)hbase這一步驟,其主要內(nèi)容包括,根據(jù)匹配的不同的數(shù)據(jù)類(lèi)型,分多線(xiàn)程批量存儲(chǔ)到hbase數(shù)據(jù)庫(kù)。[0023]上述【具體實(shí)施方式】?jī)H是本發(fā)明的具體個(gè)案,本發(fā)明的專(zhuān)利保護(hù)范圍包括但不限于上述【具體實(shí)施方式】,任何符合本發(fā)明的權(quán)利要求書(shū)的且任何所屬
技術(shù)領(lǐng)域:
的普通技術(shù)人員對(duì)其所做的適當(dāng)變化或替換,皆應(yīng)落入本發(fā)明的專(zhuān)利保護(hù)范圍?!局鳈?quán)項(xiàng)】1.一種文本文件的并行解析過(guò)濾方法,其特征在于,用于文本文件與hbase數(shù)據(jù)庫(kù)的轉(zhuǎn)換,通過(guò)配置數(shù)據(jù)模板及內(nèi)置常用數(shù)據(jù)項(xiàng),在解析出不同的文本文件類(lèi)型后進(jìn)行匹配解析,使得文本文件與數(shù)據(jù)模板中的常用數(shù)據(jù)項(xiàng)自動(dòng)匹配;最后按照不同的數(shù)據(jù)分類(lèi)存儲(chǔ)到hbase數(shù)據(jù)庫(kù),進(jìn)行文本文件的分類(lèi)解析過(guò)濾。2.根據(jù)權(quán)利要求1所述一種文本文件的并行解析過(guò)濾方法,其特征在于,所述文本文件的并行解析過(guò)濾方法,其主要包括如下步驟:創(chuàng)建數(shù)據(jù)模板,過(guò)濾文本文件類(lèi)型,解析匹配數(shù)據(jù),以及多線(xiàn)程入庫(kù)hbase。3.根據(jù)權(quán)利要求2所述一種文本文件的并行解析過(guò)濾方法,其特征在于,所述創(chuàng)建數(shù)據(jù)模板這一步驟,其主要內(nèi)容包括,不同的用戶(hù)能夠自定義不同的數(shù)據(jù)模板,數(shù)據(jù)模板中內(nèi)置常用的匹配數(shù)據(jù)項(xiàng);解析文本文件時(shí)選擇指定的數(shù)據(jù)模塊。4.根據(jù)權(quán)利要求3所述一種文本文件的并行解析過(guò)濾方法,其特征在于,所述過(guò)濾文本文件類(lèi)型這一步驟,其主要內(nèi)容包括,解析出不同的文本文件類(lèi)型,然后將文本文件與數(shù)據(jù)模板中的常用數(shù)據(jù)項(xiàng)自動(dòng)匹配。5.根據(jù)權(quán)利要求4所述一種文本文件的并行解析過(guò)濾方法,其特征在于,若文本文件類(lèi)型不匹配,則結(jié)束;若文本文件類(lèi)型匹配,則上傳文本文件。6.根據(jù)權(quán)利要求5所述一種文本文件的并行解析過(guò)濾方法,其特征在于,所述解析匹配數(shù)據(jù)這一步驟,其主要內(nèi)容包括,根據(jù)不同的文本文件類(lèi)型解析過(guò)濾;首先匹配內(nèi)置的常用數(shù)據(jù)類(lèi)型,再匹配選定的數(shù)據(jù)模板,并作相應(yīng)標(biāo)記。7.根據(jù)權(quán)利要求6所述一種文本文件的并行解析過(guò)濾方法,其特征在于,所述多線(xiàn)程入庫(kù)hbase這一步驟,其主要內(nèi)容包括,根據(jù)匹配的不同的數(shù)據(jù)類(lèi)型,分多線(xiàn)程批量存儲(chǔ)到hbase數(shù)據(jù)庫(kù)。【文檔編號(hào)】G06F17/30GK105912735SQ201610483787【公開(kāi)日】2016年8月31日【申請(qǐng)日】2016年6月28日【發(fā)明人】孫凱【申請(qǐng)人】浪潮軟件股份有限公司