一種分布式互聯(lián)網(wǎng)數(shù)據(jù)采集解析系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及大數(shù)據(jù)的數(shù)據(jù)采集解析領(lǐng)域,特別涉及一種分布式互聯(lián)網(wǎng)數(shù)據(jù)采集解析系統(tǒng)。
【背景技術(shù)】
[0002]全球企業(yè)都對(duì)于大數(shù)據(jù)充滿了積極的熱情,以后的大數(shù)據(jù)將變得無處不在。但是從大數(shù)據(jù)的應(yīng)用現(xiàn)狀來看,無論是是技術(shù)、產(chǎn)品還是應(yīng)用還有待提升。大數(shù)據(jù)處理流程包括數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)整合、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘分析、數(shù)據(jù)展現(xiàn)應(yīng)用。傳統(tǒng)行業(yè)企業(yè)在開展大數(shù)據(jù)時(shí),首先面對(duì)的就是如何打通內(nèi)部數(shù)據(jù)與外部數(shù)據(jù),也就是如何獲得基于企業(yè)內(nèi)部數(shù)據(jù)之外的互聯(lián)網(wǎng)數(shù)據(jù)。然而互聯(lián)網(wǎng)采集的數(shù)據(jù)一般都是無結(jié)構(gòu)或半結(jié)構(gòu)化的文本、圖片、音頻以及視頻等等。將這些數(shù)據(jù)解析并結(jié)構(gòu)化,將是與組織內(nèi)數(shù)據(jù)整合以進(jìn)行數(shù)據(jù)挖掘的必不可少的工作。
[0003]對(duì)于數(shù)據(jù)采集、實(shí)體識(shí)別、結(jié)構(gòu)化以及文本分類技術(shù),以及有較為成熟的算法、專利和軟件。如何將這些技術(shù)融合,形成一個(gè)通用平臺(tái),可以為各種實(shí)際業(yè)務(wù)提供結(jié)構(gòu)化數(shù)據(jù),是需要突破的一個(gè)難題。
【發(fā)明內(nèi)容】
[0004]為了解決現(xiàn)有技術(shù)的問題,本發(fā)明提供了一種分布式互聯(lián)網(wǎng)數(shù)據(jù)采集解析系統(tǒng),其能夠解決非結(jié)構(gòu)化數(shù)據(jù)解析的三個(gè)問題:一是數(shù)據(jù)量大的問題;一是數(shù)據(jù)源多的問題;還有一個(gè)是基于語義的智能結(jié)構(gòu)化問題。同時(shí),該系統(tǒng)最大的優(yōu)勢(shì)在于它是模塊化的、可配置的,集數(shù)據(jù)采集、結(jié)構(gòu)化、文檔分類為一體的可橫向擴(kuò)展的通用系統(tǒng)。
[0005]本發(fā)明所采用的技術(shù)方案如下:
一種分布式互聯(lián)網(wǎng)數(shù)據(jù)采集解析系統(tǒng),包括物理層、業(yè)務(wù)邏輯處理層和用戶界面及服務(wù)層,所述的物理層用于保存系統(tǒng)輸入輸出數(shù)據(jù);所述的業(yè)務(wù)邏輯處理層包括分布式數(shù)據(jù)采集模塊、解析模型訓(xùn)練模塊和結(jié)構(gòu)化信息抽取模塊,其中的分布式數(shù)據(jù)采集模塊用于進(jìn)行采集爬蟲管理和采集方式配置管理,所述的解析模型訓(xùn)練模塊用于進(jìn)行網(wǎng)頁正文提取、正則抽取設(shè)置、隱馬爾科夫模型訓(xùn)練以及信息分類模型訓(xùn)練,所述的結(jié)構(gòu)化信息抽取模塊用于以具體應(yīng)用為目標(biāo)的采集、解析、分類的任務(wù)設(shè)置和執(zhí)行;所述的用戶界面及服務(wù)層用于用戶通過圖形界面的形式對(duì)網(wǎng)頁解析子系統(tǒng)進(jìn)行任務(wù)配置和參數(shù)設(shè)定,并通過圖形化界面查看提取結(jié)果。
[0006]物理層是基于開源云計(jì)算平臺(tái)的分布式文件系統(tǒng)和分布式數(shù)據(jù)庫。
[0007]分布式數(shù)據(jù)采集模塊是按照主題,通過網(wǎng)絡(luò)爬蟲采集互聯(lián)網(wǎng)數(shù)據(jù)到物理層,或?qū)⒁延袛?shù)據(jù)上傳至物理層。
[0008]分布式數(shù)據(jù)采集模塊根據(jù)需求定制爬蟲,采集內(nèi)容通過配置項(xiàng)進(jìn)行定制。
[0009]解析模型訓(xùn)練模塊先從已有數(shù)據(jù)集中選擇訓(xùn)練數(shù)據(jù);再根據(jù)業(yè)務(wù)需求定義需結(jié)構(gòu)化抽取項(xiàng)、對(duì)需要正則提取的結(jié)構(gòu)化項(xiàng)編寫正則表達(dá)式并進(jìn)行抽取、對(duì)需要使用隱馬爾科夫識(shí)別的項(xiàng)進(jìn)行定義,將上一步定義的識(shí)別項(xiàng)與需結(jié)構(gòu)化的項(xiàng)進(jìn)行匹配;最后執(zhí)行隱馬爾科夫識(shí)別任務(wù);對(duì)識(shí)別結(jié)果進(jìn)行優(yōu)化;最終提交解析器。
[0010]本發(fā)明提供的技術(shù)方案帶來的有益效果是:
本發(fā)明采用模塊化、可配置的可擴(kuò)展通用平臺(tái),能夠解決非結(jié)構(gòu)化數(shù)據(jù)解析的三個(gè)問題:數(shù)據(jù)量大的問題,數(shù)據(jù)源多的問題和基于語義的智能結(jié)構(gòu)化問題,能夠進(jìn)行海量數(shù)據(jù)采集和處理;同時(shí),本發(fā)明最大的優(yōu)勢(shì)在于它是模塊化的、可配置的,集數(shù)據(jù)采集、結(jié)構(gòu)化、文檔分類為一體的可橫向擴(kuò)展的通用系統(tǒng)。
【附圖說明】
[0011]為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0012]圖1為本發(fā)明的一種分布式互聯(lián)網(wǎng)數(shù)據(jù)采集解析系統(tǒng)的系統(tǒng)架構(gòu)圖。
[0013]圖2為本發(fā)明的一種分布式互聯(lián)網(wǎng)數(shù)據(jù)采集解析系統(tǒng)的功能框架圖。
[0014]圖3為本發(fā)明的一種分布式互聯(lián)網(wǎng)數(shù)據(jù)采集解析系統(tǒng)的業(yè)務(wù)邏輯流程圖。
【具體實(shí)施方式】
[0015]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明實(shí)施方式作進(jìn)一步地詳細(xì)描述。
[0016]實(shí)施例一
本實(shí)施例從整體上可以分為三大層次結(jié)構(gòu)。
[0017]1、系統(tǒng)底層為物理層,主要是數(shù)據(jù)存儲(chǔ)平臺(tái),系統(tǒng)輸入輸出數(shù)據(jù)都存儲(chǔ)在該平臺(tái)中。本子系統(tǒng)的數(shù)據(jù)存儲(chǔ)平臺(tái)為基于開源云計(jì)算平臺(tái)Hadoop的分布式文件系統(tǒng)HDFS和分布式數(shù)據(jù)庫HBase。
[0018]2、存儲(chǔ)平臺(tái)上層是系統(tǒng)的業(yè)務(wù)邏輯處理平臺(tái),實(shí)現(xiàn)了系統(tǒng)的核心模塊一一互聯(lián)網(wǎng)數(shù)據(jù)采集、解析模型訓(xùn)練和結(jié)構(gòu)化信息抽取模塊。其中,互聯(lián)網(wǎng)數(shù)據(jù)采集主要包括采集爬蟲管理和采集方式配置管理;解析模型訓(xùn)練包括網(wǎng)頁正文提取、正則抽取設(shè)置、隱馬爾科夫模型訓(xùn)練以及信息分類模型訓(xùn)練等核心算法的實(shí)現(xiàn);結(jié)構(gòu)化信息抽取包括了以具體應(yīng)用為目標(biāo)的采集、解析、分類的任務(wù)設(shè)置和執(zhí)行。
[0019]3、業(yè)務(wù)邏輯處理平臺(tái)上層是Π (用戶界面)與服務(wù)層,對(duì)用戶開放。用戶通過圖形界面的形式對(duì)網(wǎng)頁解析子系統(tǒng)進(jìn)行任務(wù)配置和參數(shù)設(shè)定,并通過圖形化界面查看提取結(jié)果等。
[0020]圖1展示了網(wǎng)頁解析子系統(tǒng)的系統(tǒng)架構(gòu)圖。
[0021]系統(tǒng)功能模塊劃分見圖2。簡要介紹如下:
(I)數(shù)據(jù)管理
數(shù)據(jù)管理功能包括數(shù)據(jù)主題管理、主題詞庫管理、數(shù)據(jù)集管理、數(shù)據(jù)采集、數(shù)據(jù)上傳和數(shù)據(jù)ETL六部分。本模塊主要工作是按照主題,通過網(wǎng)絡(luò)爬蟲采集互聯(lián)網(wǎng)數(shù)據(jù)到數(shù)據(jù)存儲(chǔ)平臺(tái),或?qū)⒁延袛?shù)據(jù)上傳至數(shù)據(jù)存儲(chǔ)平臺(tái);對(duì)存儲(chǔ)平臺(tái)的原始數(shù)據(jù)和處理后數(shù)據(jù)進(jìn)行管理,包括查詢、刪除、合并、過濾、清洗等工作。數(shù)據(jù)采集可以根據(jù)需求定制爬蟲,采集內(nèi)容通過配置項(xiàng)進(jìn)行定制,滿足各種數(shù)據(jù)獲取的需求。
[0022](2)解析器管理
解析器管理功能包括訓(xùn)練解析器的整個(gè)過程:從已有數(shù)據(jù)集中選擇訓(xùn)練數(shù)據(jù);根據(jù)業(yè)務(wù)需求定義需結(jié)構(gòu)化抽取項(xiàng)、對(duì)需要正則提取的結(jié)構(gòu)化項(xiàng)編寫正則表達(dá)式并進(jìn)行抽取、對(duì)需要使用隱馬爾科夫(HMM)識(shí)別的項(xiàng)進(jìn)行定義(如:地名、機(jī)構(gòu)名、時(shí)間等)、將上一步定義的識(shí)別項(xiàng)與需結(jié)構(gòu)化的項(xiàng)進(jìn)行匹配;執(zhí)行HMM識(shí)別任務(wù);對(duì)識(shí)別結(jié)果進(jìn)行優(yōu)化;最終提交解析器。
[0023](3)分類器管理
分類器管理功能包括訓(xùn)練分類器的整個(gè)過程:對(duì)類別進(jìn)行管理和選擇;從已有數(shù)據(jù)集中選擇訓(xùn)練數(shù)據(jù);選擇合適的分類算法;為算法配置參數(shù);執(zhí)行分類器訓(xùn)練;根據(jù)分類結(jié)果進(jìn)行反饋并優(yōu)化分類器;最終提交分類器。
[0024](4 )數(shù)據(jù)采集解析應(yīng)用管理
根據(jù)實(shí)際業(yè)務(wù)應(yīng)用需求,定義要解析的數(shù)據(jù)源和結(jié)構(gòu)化項(xiàng),為結(jié)構(gòu)化項(xiàng)選擇待分析數(shù)據(jù)集、解析器、分類器,將結(jié)果保存在數(shù)據(jù)存儲(chǔ)平臺(tái),供數(shù)據(jù)ETL和展示。
[0025](5)日志管理
對(duì)所有任務(wù)的日志進(jìn)行查詢和管理。
[0026]業(yè)務(wù)邏輯流程圖見圖3。
[0027]選擇數(shù)據(jù)集一定義數(shù)據(jù)項(xiàng)一選擇解析器一選擇分類器一執(zhí)行解析任務(wù)一結(jié)果顯不O
[0028]以上所述僅為本發(fā)明的較佳實(shí)施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1.一種分布式互聯(lián)網(wǎng)數(shù)據(jù)采集解析系統(tǒng),包括物理層、業(yè)務(wù)邏輯處理層和用戶界面及服務(wù)層,其特征在于: 所述的物理層用于保存系統(tǒng)輸入輸出數(shù)據(jù); 所述的業(yè)務(wù)邏輯處理層包括分布式數(shù)據(jù)采集模塊、解析模型訓(xùn)練模塊和結(jié)構(gòu)化信息抽取模塊,其中的分布式數(shù)據(jù)采集模塊用于進(jìn)行采集爬蟲管理和采集方式配置管理,所述的解析模型訓(xùn)練模塊用于進(jìn)行網(wǎng)頁正文提取、正則抽取設(shè)置、隱馬爾科夫模型訓(xùn)練以及信息分類模型訓(xùn)練,所述的結(jié)構(gòu)化信息抽取模塊用于以具體應(yīng)用為目標(biāo)的采集、解析、分類的任務(wù)設(shè)置和執(zhí)行; 所述的用戶界面及服務(wù)層用于用戶通過圖形界面的形式對(duì)網(wǎng)頁解析子系統(tǒng)進(jìn)行任務(wù)配置和參數(shù)設(shè)定,并通過圖形化界面查看提取結(jié)果。2.根據(jù)權(quán)利要求1所述的一種分布式互聯(lián)網(wǎng)數(shù)據(jù)采集解析系統(tǒng),其特征在于,所述的物理層是基于開源云計(jì)算平臺(tái)的分布式文件系統(tǒng)和分布式數(shù)據(jù)庫。3.根據(jù)權(quán)利要求1所述的一種分布式互聯(lián)網(wǎng)數(shù)據(jù)采集解析系統(tǒng),其特征在于,所述的分布式數(shù)據(jù)采集模塊是按照主題,通過網(wǎng)絡(luò)爬蟲采集互聯(lián)網(wǎng)數(shù)據(jù)到物理層,或?qū)⒁延袛?shù)據(jù)上傳至物理層。4.根據(jù)權(quán)利要求3所述的一種分布式互聯(lián)網(wǎng)數(shù)據(jù)采集解析系統(tǒng),其特征在于,所述的分布式數(shù)據(jù)采集模塊根據(jù)需求定制爬蟲,采集內(nèi)容通過配置項(xiàng)進(jìn)行定制。5.根據(jù)權(quán)利要求1所述的一種分布式互聯(lián)網(wǎng)數(shù)據(jù)采集解析系統(tǒng),其特征在于,所述的解析模型訓(xùn)練模塊先從已有數(shù)據(jù)集中選擇訓(xùn)練數(shù)據(jù);再根據(jù)業(yè)務(wù)需求定義需結(jié)構(gòu)化抽取項(xiàng)、對(duì)需要正則提取的結(jié)構(gòu)化項(xiàng)編寫正則表達(dá)式并進(jìn)行抽取、對(duì)需要使用隱馬爾科夫識(shí)別的項(xiàng)進(jìn)行定義,將上一步定義的識(shí)別項(xiàng)與需結(jié)構(gòu)化的項(xiàng)進(jìn)行匹配;最后執(zhí)行隱馬爾科夫識(shí)別任務(wù);對(duì)識(shí)別結(jié)果進(jìn)行優(yōu)化;最終提交解析器。
【專利摘要】本發(fā)明涉及大數(shù)據(jù)的數(shù)據(jù)采集解析領(lǐng)域,特別涉及一種分布式互聯(lián)網(wǎng)數(shù)據(jù)采集解析系統(tǒng)。其系統(tǒng)包括物理層、業(yè)務(wù)邏輯處理層和用戶界面及服務(wù)層,業(yè)務(wù)邏輯處理層包括分布式數(shù)據(jù)采集模塊、解析模型訓(xùn)練模塊和結(jié)構(gòu)化信息抽取模塊,用戶界面及服務(wù)層用于用戶通過圖形界面的形式對(duì)網(wǎng)頁解析子系統(tǒng)進(jìn)行任務(wù)配置和參數(shù)設(shè)定,并通過圖形化界面查看提取結(jié)果。本發(fā)明采用模塊化、可配置的可擴(kuò)展通用平臺(tái),能夠解決非結(jié)構(gòu)化數(shù)據(jù)解析的三個(gè)問題:數(shù)據(jù)量大的問題,數(shù)據(jù)源多的問題和基于語義的智能結(jié)構(gòu)化問題,能夠進(jìn)行海量數(shù)據(jù)采集和處理;同時(shí),本發(fā)明最大的優(yōu)勢(shì)在于它是模塊化的、可配置的,集數(shù)據(jù)采集、結(jié)構(gòu)化、文檔分類為一體的可橫向擴(kuò)展的通用系統(tǒng)。
【IPC分類】G06F17/30
【公開號(hào)】CN104915415
【申請(qǐng)?zhí)枴緾N201510307708
【發(fā)明人】范瑩, 于治樓
【申請(qǐng)人】浪潮集團(tuán)有限公司
【公開日】2015年9月16日
【申請(qǐng)日】2015年6月8日