一種報(bào)文信息源抽取方法及其系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種報(bào)文信息源抽取方法及其系統(tǒng),該方法通過匹配信息源抽取規(guī)則庫的關(guān)鍵詞提取報(bào)文中的信息源,并匹配信息源抽取規(guī)則庫的規(guī)則判斷信息源類型,該方法包括:報(bào)文解析步驟和信息源抽取步驟,報(bào)文解析步驟用于根據(jù)輸入的文本,提取文本中的字符,并對字符進(jìn)行斷句處理為不同分句,信息源抽取步驟為根據(jù)信息源抽取規(guī)則庫對分句進(jìn)行關(guān)鍵詞匹配,對分句抽取有用要素序列,并在有用要素序列上,提取信息源,并通過匹配信息源抽取規(guī)則庫的規(guī)則判斷信息源類型。
【專利說明】一種報(bào)文信息源抽取方法及其系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及文本挖掘領(lǐng)域,特別涉及一種報(bào)文信息源抽取方法和系統(tǒng)。
【背景技術(shù)】
[0002]近年來,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡(luò)上的各種信息得以廣泛傳播,這些信息質(zhì)量與可信度差異極大,既有相對正規(guī)的傳統(tǒng)新聞媒體,也有論壇、博客、微博等可信度相對較差的新興媒介。那么如何抽取有用的信息源將成為大家廣泛關(guān)注的研究問題。
[0003]信息抽取(Information Extraction:1E),顧名思義,是把文本里包含的信息進(jìn)行結(jié)構(gòu)化處理,變成表格一樣的組織形式。輸入信息抽取系統(tǒng)的是原始文本,輸出的是固定格式的信息點(diǎn),信息點(diǎn)從各種各樣的文檔中被抽取出來,然后以統(tǒng)一的形式集成在一起,這就是息抽取的主要任務(wù)。
[0004]信息抽取技術(shù)并不試圖全面理解整篇文檔,只是對文檔中包含相關(guān)信息的部分進(jìn)行分析,至于哪些信息是相關(guān)的,那將由系統(tǒng)設(shè)計(jì)時定下的領(lǐng)域范圍而定。
[0005]信息抽取技術(shù)對于從大量的文檔中抽取需要的特定事實(shí)來說是非常有用的?;ヂ?lián)網(wǎng)上就存在著這么一個文檔庫,在互聯(lián)網(wǎng)上,同一主題的信息通常分散存放在不同網(wǎng)站上,表現(xiàn)的形式也各不相同,若能將這些信息收集在一起,用結(jié)構(gòu)化形式儲存,那將是非常有益的。
【發(fā)明內(nèi)容】
[0006]本發(fā)明要解決的技術(shù)問題在于提供了一種報(bào)文信息源抽取方法及其系統(tǒng),以克服現(xiàn)有技術(shù)中信息抽取技術(shù)的信息提取效率低,操作復(fù)雜的問題。
[0007]為了達(dá)到以上目的,本發(fā)明提供了一種報(bào)文信息源抽取方法,其特征在于,所述方法通過匹配信息源抽取規(guī)則庫的關(guān)鍵詞提取報(bào)文中的信息源,并匹配所述信息源抽取規(guī)則庫的規(guī)則判斷所述信息源類型,該方法包括:
[0008]報(bào)文解析步驟:根據(jù)輸入的文本,提取所述文本中的字符,并對所述字符進(jìn)行斷句處理為不同分句;
[0009]信息源抽取步驟:根據(jù)所述信息源抽取規(guī)則庫對所述分句進(jìn)行關(guān)鍵詞匹配,對所述分句抽取有用要素序列,并在所述有用要素序列上,提取信息源,并通過匹配所述信息源抽取規(guī)則庫的規(guī)則判斷信息源類型。
[0010]上述報(bào)文信息源抽取方法,其特征在于,所述信息源抽取規(guī)則庫進(jìn)一步包括:有用要素庫、真實(shí)信息源識別規(guī)則、信息源類型識別規(guī)則和字符類型識別規(guī)則。
[0011 ] 上述報(bào)文信息源抽取方法,其特征在于,所述方法在所述報(bào)文解析步驟之前,進(jìn)一步包括:
[0012]報(bào)文內(nèi)容適配步驟:用于屏蔽報(bào)文的編碼或存儲方式的差異,提供統(tǒng)一的報(bào)文字符迭代讀取接口。
[0013]上述報(bào)文信息源抽取方法,其特征在于,所述方法進(jìn)一步包括:[0014]信息源統(tǒng)計(jì)步驟:匯總所述提取信息源的抽取結(jié)果,計(jì)算所述信息源的統(tǒng)計(jì)信息。
[0015]上述報(bào)文信息源抽取方法,其特征在于,所述報(bào)文解析步驟還包括:
[0016]報(bào)文字符讀取步驟:讀取報(bào)文字節(jié)流,并根據(jù)編碼方式將字節(jié)組裝成實(shí)際的字符;
[0017]字符類型判斷步驟:根據(jù)所述字符類型識別規(guī)則,將字符分為不同類型;
[0018]響應(yīng)事件步驟:根據(jù)所述字符的不同類型,通知用戶進(jìn)行不同類型字符的抽取操作。
[0019]上述報(bào)文信息源抽取方法,其特征在于,所述信息源抽取步驟還包括:
[0020]索引建立步驟:根據(jù)所述有用要素庫建立TRIE關(guān)鍵詞索引;
[0021]分句步驟:將所述響應(yīng)事件步驟中的所述字符進(jìn)行斷句處理為不同的分句;
[0022]抽取處理步驟:根據(jù)所述TRIE關(guān)鍵詞索引,對所述不同的分句進(jìn)行關(guān)鍵詞匹配,抽取信息源,并判斷所述信息源的真實(shí)性,完成所述信息源類型的判別;
[0023]輸出步驟:將所述信息源和所述信息源類型的信息進(jìn)行輸出。
[0024]上述報(bào)文信息源抽取方法,其特征在于,所述抽取處理步驟還包括:
[0025]信息源抽取步驟:以所述分句為單元進(jìn)行信息源提取,根據(jù)所述有用要素庫建立的TRIE關(guān)鍵詞索引,抽取候選新聞信息源或候選新聞信息源列表;
[0026]有用要素抽取步驟:根據(jù)所述候選新聞信息源或候選新聞信息源列表,從所述分句中抽取有用要素及所述有用要素中所述分句中的位置信息;
[0027]真實(shí)信息源判斷步驟:通過預(yù)先定義的所述真實(shí)信息源識別規(guī)則,判斷所述候選信息源是否為真實(shí)信息源;
[0028]信息源類型抽取步驟:通過預(yù)定義的所述信息源類型識別規(guī)則與所述有用要素進(jìn)行匹配完成信息源類型判別。
[0029]上述報(bào)文信息源抽取方法,其特征在于,所述有用要素庫包含有用要素,所述有用要素包括:媒體名稱指示詞、日期信息、媒體報(bào)道行為詞和媒體指示詞。
[0030]上述報(bào)文信息源抽取方法,其特征在于,所述真實(shí)信息源識別規(guī)則為啟發(fā)式規(guī)則,通過觀察報(bào)文人工制定,規(guī)則可以添加或修改。
[0031]上述報(bào)文信息源抽取方法,其特征在于,所述真實(shí)信息源識別規(guī)則包含一啟發(fā)式規(guī)則:如果分句中只有一個所述候選信息源,并且出現(xiàn)所述媒體報(bào)道行為詞,且滿足所述候選信息源的字符以所述媒體名稱指示詞結(jié)尾或所述后續(xù)信息源字符串所在的分句出現(xiàn)所述日期信息或所述后續(xù)信息源字符中出現(xiàn)所述媒體指示詞,則判斷所述候選信息源為真實(shí)信息源。
[0032]上述報(bào)文信息源抽取方法,其特征在于,所述信息源類型包括:新聞媒體、論壇、博客和微博。
[0033]上述報(bào)文信息源抽取方法,其特征在于,所述信息源類型抽取步驟中,對于所述信息源類型為博客和或微博的信息源,需要進(jìn)一步抽取用戶名稱或博客網(wǎng)站信息。
[0034]本發(fā)明還提供一種報(bào)文信息源抽取系統(tǒng),采用所述的報(bào)文信息源抽取方法,其特征在于,所述系統(tǒng)包括:
[0035]報(bào)文解析模塊:根據(jù)輸入的文本,進(jìn)行編碼解析,提取所述文本中的字符,并對所述字符進(jìn)行斷句處理為不同分句;[0036]信息源抽取模塊:根據(jù)所述信息源抽取規(guī)則庫對所述分句進(jìn)行關(guān)鍵詞匹配,對所述分句抽取有用要素序列,并在所述有用要素序列上,提取信息源,并通過匹配所述信息源抽取規(guī)則庫的規(guī)則判斷信息源類型。
[0037]上述報(bào)文信息源抽取系統(tǒng),其特征在于,所述信息源抽取規(guī)則庫進(jìn)一步包括:有用要素庫、真實(shí)信息源識別規(guī)則、信息源類型識別規(guī)則和字符類型識別規(guī)則。
[0038]上述報(bào)文信息源抽取系統(tǒng),其特征在于,所述系統(tǒng)進(jìn)一步包括:
[0039]報(bào)文內(nèi)容適配模塊:用于屏蔽報(bào)文的編碼或存儲方式的差異,提供統(tǒng)一的報(bào)文字符迭代讀取接口。
[0040]上述報(bào)文信息源抽取方法,其特征在于,所述系統(tǒng)進(jìn)一步包括:
[0041]信息源統(tǒng)計(jì)模塊:匯總所述提取信息源的抽取結(jié)果,計(jì)算所述信息源的統(tǒng)計(jì)信息。
[0042]上述報(bào)文信息源抽取系統(tǒng),其特征在于,所述報(bào)文解析模塊還包括:
[0043]報(bào)文字符讀取模塊:讀取報(bào)文字節(jié)流,并根據(jù)編碼方式將字節(jié)組裝成實(shí)際的字符;
[0044]字符類型判斷模塊:根據(jù)所述字符類型識別規(guī)則,將字符分為不同類型;
[0045]響應(yīng)事件模塊:根據(jù)所述字符的不同類型,通知用戶進(jìn)行不同類型字符的抽取操作。
[0046]上述報(bào)文信息源抽取系統(tǒng),其特征在于,所述信息源抽取模塊還包括:
[0047]索引建立模塊:根據(jù)所述有用要素庫建立TRIE關(guān)鍵詞索引;
[0048]分句模塊:將所述響應(yīng)事件步驟中的所述字符進(jìn)行斷句處理為不同的分句;
[0049]抽取處理模塊:根據(jù)所述TRIE關(guān)鍵詞索引,對所述不同的分句進(jìn)行關(guān)鍵詞匹配,抽取信息源,并判斷所述信息源的真實(shí)性,完成所述信息源類型的判別;
[0050]輸出模塊:將所述信息源和所述信息源類型的信息進(jìn)行輸出。
[0051]上述報(bào)文信息源抽取系統(tǒng),其特征在于,所述抽取處理模塊還包括:
[0052]信息源抽取模塊:以所述分句為單元進(jìn)行信息源提取,根據(jù)所述有用要素庫建立的TRIE關(guān)鍵詞索引,抽取候選新聞信息源或候選新聞信息源列表;
[0053]有用要素抽取模塊:根據(jù)所述候選新聞信息源或候選新聞信息源列表,從所述分句中抽取有用要素及所述有用要素中所述分句中的位置信息;
[0054]真實(shí)信息源判斷模塊:通過預(yù)先定義的所述真實(shí)信息源識別規(guī)則,判斷所述候選信息源是否為真實(shí)信息源;
[0055]信息源類型抽取模塊:通過預(yù)定義的所述信息源類型識別規(guī)則與所述有用要素進(jìn)行匹配完成信息源類型判別。
[0056]上述報(bào)文信息源抽取系統(tǒng),其特征在于,所述信息源類型抽取模塊中,對于所述信息源類型為博客和微博的信息源,需要進(jìn)一步抽取用戶名稱和博客網(wǎng)站信息。
[0057]與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果在于:
[0058]1、本發(fā)明基于通用的基于事件響應(yīng)的信息抽取框架,能靈活擴(kuò)展,實(shí)現(xiàn)具體抽取任務(wù)。
[0059]2、本發(fā)明能有效整合信息源抽取規(guī)則庫,從報(bào)文中抽取消息源,并判斷其類型,提高報(bào)文信息源抽取效率降低操作難度。【專利附圖】
【附圖說明】
[0060]圖1為本發(fā)明報(bào)文信息源抽取方法步驟概要示意圖;
[0061]圖2為本發(fā)明報(bào)文解析步驟示意圖;
[0062]圖3為本發(fā)明信息源抽取步驟示意圖;
[0063]圖4為本發(fā)明抽取處理步驟示意圖;
[0064]圖5為本發(fā)明報(bào)文信息源提取方法實(shí)施例步驟示意圖;
[0065]圖6為本發(fā)明的實(shí)施例報(bào)文解析步驟示意圖;
[0066]圖7為本發(fā)明的實(shí)施例報(bào)文抽取步驟示意圖;
[0067]圖8為本發(fā)明報(bào)文信息源抽取系統(tǒng)結(jié)構(gòu)示意圖;
[0068]圖9為本發(fā)明具體實(shí)施例報(bào)文信息源抽取系統(tǒng)結(jié)構(gòu)示意圖。
[0069]其中,附圖標(biāo)記:
[0070]I報(bào)文內(nèi)容適配模塊2信息源抽取模塊[0071 ]3報(bào)文解析模塊 4信息源統(tǒng)計(jì)模塊
[0072]21報(bào)文字符讀取模塊 22字符類型判斷模塊
[0073]23響應(yīng)事件模塊
[0074]31索引建立模塊32分句模塊
[0075]33抽取處理模塊34輸出模塊
[0076]331信息源抽取模塊 332有用要素抽取模塊
[0077]333真實(shí)信息源判斷模塊334信息源類型抽取模塊
[0078]SI ~S4、Sll ~S13、S21 ~S24、S231 ~S234、SlOO ~S102、S1031 ~S1034:本發(fā)明各實(shí)施例的施行步驟。
【具體實(shí)施方式】
[0079]下面給出本發(fā)明的【具體實(shí)施方式】,結(jié)合圖示對本發(fā)明做出了詳細(xì)描述。
[0080]圖1為本發(fā)明報(bào)文信息源抽取方法步驟示意圖,如圖1所示,本發(fā)明提供的一種報(bào)文信息源抽取方法,該方法通過匹配信息源抽取規(guī)則庫的關(guān)鍵詞提取報(bào)文中的信息源,并匹配信息源抽取規(guī)則庫的規(guī)則判斷所述信息源類型,該方法包括:
[0081]報(bào)文內(nèi)容適配步驟S1:用于屏蔽報(bào)文的編碼或存儲方式的差異,提供統(tǒng)一的報(bào)文字符迭代讀取接口;
[0082]報(bào)文解析步驟S2:根據(jù)輸入的文本,提取文本中的字符,并對字符進(jìn)行斷句處理為不同分句;
[0083]信息源抽取步驟S3:根據(jù)信息源抽取規(guī)則庫對分句進(jìn)行關(guān)鍵詞匹配,對分句抽取有用要素序列,并在有用要素序列上,提取信息源,并通過匹配信息源抽取規(guī)則庫的規(guī)則判斷信息源類型;
[0084]信息源統(tǒng)計(jì)步驟S4:匯總提取信息源的抽取結(jié)果,計(jì)算信息源的統(tǒng)計(jì)信息。
[0085]其中的信息源抽取規(guī)則庫進(jìn)一步包括:有用要素庫、真實(shí)信息源識別規(guī)則、信息源類型識別規(guī)則和字符類型識別規(guī)則。
[0086]圖2為本發(fā)明報(bào)文解析步驟示意圖,如圖2所示,其中,報(bào)文解析步驟S2還包括:
[0087]報(bào)文字符讀取步驟S21:讀取報(bào)文字節(jié)流,并根據(jù)編碼方式將字節(jié)組裝成實(shí)際的字符;
[0088]字符類型判斷步驟S22:根據(jù)字符類型識別規(guī)則,將字符分為不同類型;
[0089]響應(yīng)事件步驟S23:根據(jù)字符的不同類型,通知用戶進(jìn)行不同類型字符的抽取操作。
[0090]圖3為本發(fā)明信息源抽取步驟示意圖,如圖3所示,其中,信息源抽取步驟S3還包括:
[0091]索引建立步驟S31:根據(jù)有用要素庫建立TRIE關(guān)鍵詞索引;
[0092]分句步驟S32:將響應(yīng)事件步驟中的字符進(jìn)行斷句處理為不同的分句;
[0093]抽取處理步驟S33:根據(jù)TRIE關(guān)鍵詞索引,對不同的分句進(jìn)行關(guān)鍵詞匹配,抽取信息源,并判斷信息源的真實(shí)性,完成信息源類型的判別;
[0094]輸出步驟S34:將信息源和信息源類型的信息進(jìn)行輸出。
[0095]其中,圖4為本發(fā)明報(bào)文信息源抽取方法詳細(xì)步驟示意圖,如圖4所示,抽取處理步驟S33還包括:
[0096]信息源抽取步驟S331:以分句為單元進(jìn)行信息源提取,根據(jù)有用要素庫建立的TRIE關(guān)鍵詞索引,抽取候選新聞信息源或候選新聞信息源列表;
[0097]有用要素抽取步驟S332:根據(jù)候選新聞信息源或候選新聞信息源列表,從分句中抽取有用要素及有用要素中分句中的位置信息;
[0098]真實(shí)信息源判斷步驟S333:通過預(yù)先定義的真實(shí)信息源識別規(guī)則,判斷候選信息源是否為真實(shí)信息源;
[0099]信息源類型抽取步驟S334:通過預(yù)定義的信息源類型識別規(guī)則與有用要素進(jìn)行匹配完成信息源類型判別。
[0100]其中的有用要素庫包含有用要素,有用要素包括:媒體名稱指示詞、日期信息、媒體報(bào)道行為詞和媒體指示詞。
[0101]其中的真實(shí)信息源識別規(guī)則為啟發(fā)式規(guī)則,通過觀察報(bào)文人工制定,規(guī)則可以添加或修改。
[0102]進(jìn)一步的,本發(fā)明的真實(shí)信息源識別規(guī)則包含一啟發(fā)式規(guī)則:如果分句中只有一個候選信息源,并且出現(xiàn)媒體報(bào)道行為詞,且滿足候選信息源的字符以媒體名稱指示詞結(jié)尾或后續(xù)信息源字符串所在的分句出現(xiàn)日期信息或后續(xù)信息源字符中出現(xiàn)媒體指示詞,則判斷候選信息源為真實(shí)信息源。
[0103]其中的信息源類型包括:新聞媒體、論壇、博客和微博。
[0104]信息源類型抽取步驟S334中,對于信息源類型為博客和或微博的信息源,需要進(jìn)一步抽取用戶名稱或博客網(wǎng)站信息。
[0105]以下結(jié)合圖示說明本發(fā)明具體實(shí)施例的步驟,圖5為本發(fā)明報(bào)文信息源提取方法一實(shí)施例步驟示意圖,如圖5所示,本發(fā)明的一具體實(shí)施例操作步驟,說明報(bào)文信息源抽取過程。
[0106]本發(fā)明目的在于提供一種人性化的信息抽取技術(shù),其中包括從報(bào)文中提取出現(xiàn)過的信息源,自動分析消息源的類型(新聞、論壇、博客、微博)和名稱,抽取博客和微博的用戶名稱。
[0107]為了實(shí)現(xiàn)上述目的,本發(fā)明提供了一種基于規(guī)則匹配的方法以及信息源抽取的規(guī)則庫,包括下列步驟:
[0108]步驟SlOO:讀取規(guī)則庫,從中抽取關(guān)鍵詞及其類型信息,建立TRIE關(guān)鍵詞索引。
[0109]步驟SlOl:根據(jù)輸入的文本,進(jìn)行編碼解析,即從文本中提取字符流,如漢字字符、標(biāo)點(diǎn)等。
[0110]步驟S102:進(jìn)行斷句處理,將輸入文本分為不同分句。
[0111]步驟S103:對每個分句分別進(jìn)行如下處理步驟,包括:
[0112]步驟S1031:利用事先建立的TRIE書索引進(jìn)行多關(guān)鍵詞匹配和日期匹配,將分句分為“有用要素”序列,同時記錄“有用要素”在分句中的位置信息。有用要素包括媒體名稱指示詞、媒體的報(bào)道行為詞、媒體指示詞等。
[0113]步驟S1032:在有用要素序列上,逐一匹配各種預(yù)先定義的規(guī)則,如果存在候選新聞信息源,提取候選新聞信息源,并判斷是否為真實(shí)信息源。
[0114]步驟S1033:通過匹配預(yù)先定義的規(guī)則,進(jìn)一步對抽取的信息源判斷其類型。
[0115]步驟S1034:結(jié)果輸出。
[0116]圖6為本發(fā)明的實(shí)施例報(bào)文解析步驟示意圖,如圖6所示,具體由三個步驟構(gòu)成:
[0117]步驟S200:報(bào)文字符讀取,Parser通過報(bào)文字符迭代讀取接口讀取一個字符,也就是說報(bào)文字符迭代讀取接口讀取報(bào)文字節(jié)流,并根據(jù)相應(yīng)的編碼方式,將字節(jié)組裝成實(shí)際的字符,如一個漢字,返回給Parser。
[0118]步驟S201:判斷字符的類型,字符根據(jù)其在不同要素抽取中的功能角色分為不同類型,如年、月、日及一些特殊標(biāo)點(diǎn)符號等等。
[0119]步驟S202:通知Listeners響應(yīng)事件,根據(jù)字符的類型,通知各個Listeners (觀察者)執(zhí)行相應(yīng)的回調(diào)函數(shù)來響應(yīng)字符讀取事件。
[0120]信息源抽取實(shí)際上對應(yīng)于通用抽取框架的一個具體Listener的實(shí)現(xiàn),通過不斷響應(yīng)字符讀取事件完成信息源抽取功能。圖7為本發(fā)明的實(shí)施例報(bào)文抽取步驟示意圖,如圖7所示,對于該流程的具體步驟說明如下:
[0121]步驟S301:我們利用“,”等標(biāo)點(diǎn)符號進(jìn)行分句分割,然后以分句為單元進(jìn)行信息源抽取。
[0122]步驟S302:我們抽取候選新聞信息源(通常以“”或《》包圍)或者候選新聞信息源列表。
[0123]步驟S303:如果存在候選新聞信息源,則從分句中抽取有用要素及其在分句中的位置信息。這些有用要素及其位置信息有助于定位真實(shí)信息源,并判斷其類型。這里,有用要素包括以下幾種類型:
[0124]a)媒體名稱指示詞,如“時報(bào)”,“網(wǎng)”,“新聞”,“博客”,“貼吧”,“晚報(bào)”等等。候選
新聞源字符串以媒體名稱指示詞作為結(jié)尾,表明該候選新聞源可能是真實(shí)媒體名字,如“新浪博客”、《每日經(jīng)濟(jì)新聞》等。
[0125]b)日期信息,一般候選新聞源往往伴隨報(bào)道日期:如“6月24— 25日”、“4月I日”
坐寸ο
[0126]c)媒體的報(bào)道行為詞,如“消息”、“報(bào)道”、“轉(zhuǎn)載”、“評論”、“刊登”、“發(fā)布”等,表明
該短句可能陳述一個新聞報(bào)道行為,因而有助于判斷候選新聞源是否真實(shí)新聞源。
[0127]d)媒體指示詞,如“境內(nèi)”、“據(jù)”、“媒體”、“網(wǎng)站”。通常在候選新聞源周圍出現(xiàn),表明候選新聞源字符串可能是媒體名詞。
[0128]步驟S304:在此基礎(chǔ)上,我們可以很容易逐一匹配各種預(yù)先定義的規(guī)則,判斷候選新聞信息源(如果有的話)是否真實(shí)信息源。
[0129]比如,其中一條最簡單的啟發(fā)式規(guī)則如下:如果分句中只有一個候選信息源,并且出現(xiàn)媒體的報(bào)道行為詞,同時滿足如下條件之一,則可以判斷候選信息源為真實(shí)信息源:
[0130]a)候選新聞源字符串以媒體名稱指示詞作為結(jié)尾。
[0131]b)候選新聞源字符串所在的短句出現(xiàn)日期信息。
[0132]c)在候選新聞源字符串周圍出現(xiàn)“境內(nèi)”、“據(jù)”、“媒體”、“網(wǎng)站”等媒體指示詞。
[0133]如,分句境內(nèi)“NG0發(fā)展交流網(wǎng)”3月11日刊帖滿足以上啟發(fā)式規(guī)則,可以抽取信息源“NG0發(fā)展交流網(wǎng)”為信息源。
[0134]這里的啟發(fā)式規(guī)則主要通過觀察報(bào)文人工制定,可能包含很多復(fù)雜規(guī)則,而且規(guī)則也是不斷添加或者修改。我們實(shí)現(xiàn)了一個高效可擴(kuò)展的信息抽取系統(tǒng),能靈活支持規(guī)則的添加或者修改。
[0135]步驟S305:我們進(jìn)一步對抽取的信息源判斷其類型,包括新聞媒體、論壇、博客及微博,對于博客及微博我們進(jìn)一步抽取用戶名稱及博客或微博網(wǎng)站信息。這里,我們同樣制定了一系列規(guī)則,通過逐一匹配規(guī)則完成信息源類型判別,這些規(guī)則利用步驟S303提供的有用要素信息包括信息源名稱中的媒體名稱指示詞信息(如果有的話)及周圍的其他要素信息。如對于新華網(wǎng)微博客用戶“χχχχ”建議,抽取的信息源類型為微博,其用戶名稱為“XXXX”,微博站點(diǎn)為“新華網(wǎng)微博”。
[0136]步驟S306.我們將報(bào)文中的所有信息源及其類型信息輸出。
[0137]本發(fā)明還提供了一種報(bào)文信息源抽取系統(tǒng),采用了報(bào)文信息源抽取方法,圖8為本發(fā)明報(bào)文信息源抽取系統(tǒng)結(jié)構(gòu)示意圖,如圖8所示,該系統(tǒng)包括:
[0138]報(bào)文內(nèi)容適配模塊1:用于屏蔽報(bào)文的編碼或存儲方式的差異,提供統(tǒng)一的報(bào)文字符迭代讀取接口;
[0139]報(bào)文解析模塊2:根據(jù)輸入的文本,進(jìn)行編碼解析,提取文本中的字符,并對字符進(jìn)行斷句處理為不同分句;
[0140]信息源抽取模塊3:根據(jù)信息源抽取規(guī)則庫對分句進(jìn)行關(guān)鍵詞匹配,對分句抽取有用要素序列,并在有用要素序列上,提取信息源,并通過匹配信息源抽取規(guī)則庫的規(guī)則判斷信息源類型;
[0141]信息源統(tǒng)計(jì)模塊4:匯總提取信息源的抽取結(jié)果,計(jì)算信息源的統(tǒng)計(jì)信息。
[0142]其中,報(bào)文解析模塊2還包括:
[0143]報(bào)文字符讀取模塊21:讀取報(bào)文字節(jié)流,并根據(jù)編碼方式將字節(jié)組裝成實(shí)際的字符;
[0144]字符類型判斷模塊22:根據(jù)字符類型識別規(guī)則,將字符分為不同類型;
[0145]響應(yīng)事件模塊23:根據(jù)字符的不同類型,通知用戶進(jìn)行不同類型字符的抽取操作。
[0146]其中,信息源抽取模塊3還包括:
[0147]索引建立模塊31:根據(jù)有用要素庫建立TRIE關(guān)鍵詞索引;
[0148]分句模塊32:將響應(yīng)事件步驟中的字符進(jìn)行斷句處理為不同的分句;[0149]抽取處理模塊33:根據(jù)TRIE關(guān)鍵詞索引,對不同的分句進(jìn)行關(guān)鍵詞匹配,抽取信息源,并判斷信息源的真實(shí)性,完成信息源類型的判別;
[0150]輸出模塊34:將信息源和信息源類型的信息進(jìn)行輸出。
[0151]其中,抽取處理模塊33還包括:
[0152]信息源抽取模塊331:以分句為單元進(jìn)行信息源提取,根據(jù)有用要素庫建立的TRIE關(guān)鍵詞索引,抽取候選新聞信息源或候選新聞信息源列表;
[0153]有用要素抽取模塊332:根據(jù)候選新聞信息源或候選新聞信息源列表,從分句中抽取有用要素及有用要素中分句中的位置信息;
[0154]真實(shí)信息源判斷模塊333:通過預(yù)先定義的真實(shí)信息源識別規(guī)則,判斷候選信息源是否為真實(shí)信息源;
[0155]信息源類型抽取模塊334:通過預(yù)定義的信息源類型識別規(guī)則與有用要素進(jìn)行匹配完成信息源類型判別。
[0156]其中,信息源類型抽取模塊334中,對于信息源類型為博客和微博的信息源,需要進(jìn)一步抽取用戶名稱和博客網(wǎng)站信息。
[0157]以下結(jié)合本發(fā)明具體實(shí)施例說明報(bào)文信息源抽取系統(tǒng),圖9為本發(fā)明具體實(shí)施例報(bào)文信息源抽取系統(tǒng)結(jié)構(gòu)示意圖,如圖9所示,本發(fā)明的報(bào)文信息源抽取系統(tǒng)包含:以下四個層次:
[0158]I)報(bào)文內(nèi)容適配層:屏蔽報(bào)文編碼、存儲方式等差異為上層模塊提供一致的報(bào)文字符迭代讀取接口,使得上層模塊只需要關(guān)心抽取的邏輯。
[0159]2)Parser層:基于事件響應(yīng)的信息抽取總體流程。這里采用觀察者設(shè)計(jì)模型,Parser實(shí)際上是個目標(biāo)(Subject),并注冊有一系列觀察者(Observer)??傮w流程如下:通過內(nèi)容適配層迭代讀取報(bào)文字符,每讀取一個字符作為一個事件,通知各個觀察者執(zhí)行相應(yīng)的回調(diào)函數(shù)來相應(yīng)事件。
[0160]3) Extractor層:實(shí)際上對應(yīng)一個觀察者Listener,通過實(shí)現(xiàn)具體的事件響應(yīng)動作,完成具體的信息抽取功能等。信息源抽取是對Extractor層的一個具體實(shí)現(xiàn),根據(jù)輸入的報(bào)文內(nèi)容,從中抽取新聞、論壇、博客及微博等類型信息源;對于新聞、論壇信息源提供名稱規(guī)范化功能;對于博客及微博信息源提供用戶名稱及站點(diǎn)名稱抽取功能。
[0161]4)信息源統(tǒng)計(jì)層:信息源統(tǒng)計(jì)從報(bào)文數(shù)據(jù)庫遍歷讀取報(bào)文,對每個報(bào)文內(nèi)容進(jìn)行信息源抽取。最終,匯總所有的抽取結(jié)果,計(jì)算所抽取的信息源的出現(xiàn)次數(shù)、報(bào)文類別分布等統(tǒng)計(jì)信息,將統(tǒng)計(jì)結(jié)果寫入數(shù)據(jù)庫。
[0162]當(dāng)然,本發(fā)明還可有其它多種實(shí)施例,在不背離本發(fā)明精神及其實(shí)質(zhì)的情況下,熟悉本領(lǐng)域的技術(shù)人員當(dāng)可根據(jù)本發(fā)明做出各種相應(yīng)的改變和變形,但這些相應(yīng)的改變和變形都應(yīng)屬于本發(fā)明所附的權(quán)利要求的保護(hù)范圍。
【權(quán)利要求】
1.一種報(bào)文信息源抽取方法,其特征在于,所述方法通過匹配信息源抽取規(guī)則庫的關(guān)鍵詞提取報(bào)文中的信息源,并匹配所述信息源抽取規(guī)則庫的規(guī)則判斷信息源類型,該方法包括: 報(bào)文解析步驟:根據(jù)輸入的文本,提取所述文本中的字符,并對所述字符進(jìn)行斷句處理為不同分句; 信息源抽取步驟:根據(jù)所述信息源抽取規(guī)則庫對所述分句進(jìn)行關(guān)鍵詞匹配,對所述分句抽取有用要素序列,并在所述有用要素序列上,提取信息源,并通過匹配所述信息源抽取規(guī)則庫的規(guī)則判斷信息源類型。
2.根據(jù)權(quán)利要求1所述報(bào)文信息源抽取方法,其特征在于,所述信息源抽取規(guī)則庫進(jìn)一步包括:有用要素庫、真實(shí)信息源識別規(guī)則、信息源類型識別規(guī)則和字符類型識別規(guī)則。
3.根據(jù)權(quán)利要求1所述報(bào)文信息源抽取方法,其特征在于,所述方法在所述報(bào)文解析步驟之前,進(jìn)一步包括: 報(bào)文內(nèi)容適配步驟:用于屏蔽報(bào)文的編碼或存儲方式的差異,提供統(tǒng)一的報(bào)文字符迭代讀取接口。
4.根據(jù)權(quán)利要求3所述報(bào)文信息源抽取方法,其特征在于,所述方法進(jìn)一步包括: 信息源統(tǒng)計(jì)步驟:匯總所述提取信息源的抽取結(jié)果,計(jì)算所述信息源的統(tǒng)計(jì)信息。
5.根據(jù)權(quán)利要求1或2所述報(bào)文信息源抽取方法,其特征在于,所述報(bào)文解析步驟還包括: 報(bào)文字符讀取步驟:讀取報(bào)文字節(jié)流,并根據(jù)編碼`方式將字節(jié)組裝成實(shí)際的字符; 字符類型判斷步驟:根據(jù)所述字符類型識別規(guī)則,將字符分為不同類型; 響應(yīng)事件步驟:根據(jù)所述字符的不同類型,通知用戶進(jìn)行不同類型字符的抽取操作。
6.根據(jù)權(quán)利要求1所述報(bào)文信息源抽取方法,其特征在于,所述信息源抽取步驟還包括: 索引建立步驟:根據(jù)所述有用要素庫建立TRIE關(guān)鍵詞索引; 分句步驟:將所述響應(yīng)事件步驟中的所述字符進(jìn)行斷句處理為不同的分句; 抽取處理步驟:根據(jù)所述TRIE關(guān)鍵詞索引,對所述不同的分句進(jìn)行關(guān)鍵詞匹配,抽取信息源,并判斷所述信息源的真實(shí)性,完成所述信息源類型的判別; 輸出步驟:將所述信息源和所述信息源類型的信息進(jìn)行輸出。
7.根據(jù)權(quán)利要求6或2所述報(bào)文信息源抽取方法,其特征在于,所述抽取處理步驟還包括: 信息源抽取步驟:以所述分句為單元進(jìn)行信息源提取,根據(jù)所述有用要素庫建立的TRIE關(guān)鍵詞索引,抽取候選新聞信息源或候選新聞信息源列表; 有用要素抽取步驟:根據(jù)所述候選新聞信息源或候選新聞信息源列表,從所述分句中抽取有用要素及所述有用要素中所述分句中的位置信息; 真實(shí)信息源判斷步驟:通過預(yù)先定義的所述真實(shí)信息源識別規(guī)則,判斷所述候選信息源是否為真實(shí)信息源; 信息源類型抽取步驟:通過預(yù)定義的所述信息源類型識別規(guī)則與所述有用要素進(jìn)行匹配完成信息源類型判別。
8.根據(jù)權(quán)利要求2所述報(bào)文信息源抽取方法,其特征在于,所述有用要素庫包含有用要素,所述有用要素包括:媒體名稱指示詞、日期信息、媒體報(bào)道行為詞和媒體指示詞。
9.根據(jù)權(quán)利要求2所述報(bào)文信息源抽取方法,其特征在于,所述真實(shí)信息源識別規(guī)則為啟發(fā)式規(guī)則,通過觀察報(bào)文人工制定,規(guī)則可以添加或修改。
10.根據(jù)權(quán)利要求9所述報(bào)文信息源抽取方法,其特征在于,所述真實(shí)信息源識別規(guī)則包含一啟發(fā)式規(guī)則:如果分句中只有一個所述候選信息源,并且出現(xiàn)所述媒體報(bào)道行為詞,且滿足所述候選信息源的字符以所述媒體名稱指示詞結(jié)尾或所述后續(xù)信息源字符串所在的分句出現(xiàn)所述日期信息或所述后續(xù)信息源字符中出現(xiàn)所述媒體指示詞,則判斷所述候選信息源為真實(shí)信息源。
11.根據(jù)權(quán)利要求1所述報(bào)文信息源抽取方法,其特征在于,所述信息源類型包括:新聞媒體、論壇、博客和微博。
12.根據(jù)權(quán)利要求7所述報(bào)文信息源抽取方法,其特征在于,所述信息源類型抽取步驟中,對于所述信息源類型為博客和或微博的信息源,需要進(jìn)一步抽取用戶名稱或博客網(wǎng)站信息。
13.一種報(bào)文信息源抽取系統(tǒng),采用如權(quán)利要求1-12中任一項(xiàng)所述的報(bào)文信息源抽取方法,其特征在于,所述系統(tǒng)包括: 報(bào)文解析模塊:根據(jù)輸入的文本,進(jìn)行編碼解析,提取所述文本中的字符,并對所述字符進(jìn)行斷句處理為不同分句; 信息源抽取模塊:根據(jù)所述信息源抽取規(guī)則庫對所述分句進(jìn)行關(guān)鍵詞匹配,對所述分句抽取有用要素序列,并在所述有用要素序列上,提取信息源,并通過匹配所述信息源抽取規(guī)則庫的規(guī)則判斷信息源類型。
14.根據(jù)權(quán)利要求13所述報(bào)文信息源抽取系統(tǒng),其特征在于,所述信息源抽取規(guī)則庫進(jìn)一步包括:有用要素庫、真實(shí)信息源識別規(guī)則、信息源類型識別規(guī)則和字符類型識別規(guī)則。
15.根據(jù)權(quán)利要求13所述報(bào)文信息源抽取系統(tǒng),其特征在于,所述系統(tǒng)進(jìn)一步包括: 報(bào)文內(nèi)容適配模塊:用于屏蔽報(bào)文的編碼或存儲方式的差異,提供統(tǒng)一的報(bào)文字符迭代讀取接口。
16.根據(jù)權(quán)利要求13或14所述報(bào)文信息源抽取系統(tǒng),其特征在于,所述系統(tǒng)進(jìn)一步包括: 信息源統(tǒng)計(jì)模塊:匯總所述提取信息源的抽取結(jié)果,計(jì)算所述信息源的統(tǒng)計(jì)信息。
17.根據(jù)權(quán)利要求13所述報(bào)文信息源抽取系統(tǒng),其特征在于,所述報(bào)文解析模塊還包括: 報(bào)文字符讀取模塊:讀取報(bào)文字節(jié)流,并根據(jù)編碼方式將字節(jié)組裝成實(shí)際的字符; 字符類型判斷模塊:根據(jù)所述字符類型識別規(guī)則,將字符分為不同類型;響應(yīng)事件模塊:根據(jù)所述字符的不同類型,通知用戶進(jìn)行不同類型字符的抽取操作。
18.根據(jù)權(quán)利要求13所述報(bào)文信息源抽取系統(tǒng),其特征在于,所述信息源抽取模塊還包括: 索引建立模塊:根據(jù)所述有用要素庫建立TRIE關(guān)鍵詞索引; 分句模塊:將所述響應(yīng)事件步驟中的所述字符進(jìn)行斷句處理為不同的分句; 抽取處理模塊:根據(jù)所述TRIE關(guān)鍵詞索引,對所述不同的分句進(jìn)行關(guān)鍵詞匹配,抽取信息源,并判斷所述信息源的真實(shí)性,完成所述信息源類型的判別; 輸出模塊:將所述信息源和所述信息源類型的信息進(jìn)行輸出。
19.根據(jù)權(quán)利要求18或14所述報(bào)文信息源抽取系統(tǒng),其特征在于,所述抽取處理模塊還包括: 信息源抽取模塊:以所述分句為單元進(jìn)行信息源提取,根據(jù)所述有用要素庫建立的TRIE關(guān)鍵詞索引,抽取候選新聞信息源或候選新聞信息源列表; 有用要素抽取模塊:根據(jù)所述候選新聞信息源或候選新聞信息源列表,從所述分句中抽取有用要素及所述有用要素中所述分句中的位置信息; 真實(shí)信息源判斷模塊:通過預(yù)先定義的所述真實(shí)信息源識別規(guī)則,判斷所述候選信息源是否為真實(shí)信息源; 信息源類型抽取模塊:通過預(yù)定義的所述信息源類型識別規(guī)則與所述有用要素進(jìn)行匹配完成信息源類型判別。
20.根據(jù)權(quán)利要求1 9所述報(bào)文信息源抽取系統(tǒng),其特征在于,所述信息源類型抽取模塊中,對于所述信息源類型為博客和微博的信息源,需要進(jìn)一步抽取用戶名稱和博客網(wǎng)站信息。
【文檔編號】G06F17/30GK103778200SQ201410010836
【公開日】2014年5月7日 申請日期:2014年1月9日 優(yōu)先權(quán)日:2014年1月9日
【發(fā)明者】劉春陽, 程工, 張旭, 王卿, 程學(xué)旗, 吳瓊, 徐學(xué)可 申請人:中國科學(xué)院計(jì)算技術(shù)研究所, 國家計(jì)算機(jī)網(wǎng)絡(luò)與信息安全管理中心