專利名稱:一種智能提取文檔結構的方法及系統(tǒng)的制作方法
技術領域:
本發(fā)明涉及電子文檔數(shù)據(jù)處理領域,尤其涉及一種智能提取文檔結構的方法及系統(tǒng)。
背景技術:
隨著IT應用的深入普及,各行各業(yè)都積累了大量的信息資源,這些信息資源都以 電子文檔數(shù)據(jù)的形式保存??茖W管理和合理開發(fā)這些內部和外部信息資源已經(jīng)成為企業(yè)正 確決策、增強競爭力的關鍵。如何有效地從這些信息資源的電子文檔數(shù)據(jù)內容中獲取結構 化的內容,也是許多計算機應用開發(fā)所需要解決的關鍵問題。比如,現(xiàn)在各個出版社都有大 量的歷史書籍資源,而且書籍的格式是多種多樣的,出版社需要把歷史資源結構化后入庫, 然后對這些結構化的資源進行再加工和利用,可以發(fā)布到網(wǎng)頁html格式,pdf格式等。目前,對信息資源的內容結構化方法主要是通過人工以儲存、流程、元數(shù)據(jù) (Metadata)為要件來制作系統(tǒng)。儲存多以關聯(lián)式數(shù)據(jù)庫的方式,也有的以一般數(shù)據(jù)文件方 式儲存,或者是根據(jù)需要兩種方式并存。在儲存方式中,通常使用專門軟件對特定數(shù)據(jù)字段 進行錄入,這種方法的缺點是進行錄入的數(shù)據(jù)字段受軟件限制,而且需要手工錄入,不容易 實現(xiàn)自動化加工。另外還有一種使用類似XML編輯器的軟件進行內容結構化加工的方法, 這種方法的缺點是只能對純內容的數(shù)據(jù)進行結構化,無法帶入原文檔內容的版式信息和樣 式fe息。因此,在申請?zhí)枮?00810238994. 4的中國專利申請“一種基于樣式的內容結構化 方法及系統(tǒng)”中提出了一種內容結構化的自動加工方法。該方法根據(jù)需要結構化的文檔建 立內容結構化體系,然后建立樣式與結構化關鍵字的對應關系,最后解析該文檔提取內容 形成結構化內容,從而完成內容結構化的加工。但是,由于這種方法完全依據(jù)段落樣式進行 結構化,所以僅能針對設置了段落樣式的文檔進行提取,而對于非段落樣式的文檔片段無 法正確提取。也就是說,這種方法僅能對特定格式的文檔進行結構化,而不能適用于任意文 檔格式的結構化加工。
發(fā)明內容
為了解決現(xiàn)有技術中存在的以上問題,本發(fā)明提供一種智能提取文檔結構的方法 及系統(tǒng),以實現(xiàn)對任意文檔格式內容的結構化自動加工方法。為了實現(xiàn)以上目的,本發(fā)明提供的智能提取文檔結構的方法包括以下步驟小樣 分析步驟,即,依據(jù)待提取結構的文檔的小樣中所包含的各部分內容及其關鍵屬性建立各 部分的提取規(guī)則及其相對應的結構化關鍵字以及結構化關鍵字之間的層次關系;文檔結構 化步驟,即,對待提取結構的文檔應用所建立的提取規(guī)則,提取該文檔的內容形成按照結構 化關鍵字表達的結構化內容。所述關鍵屬性可包括字體樣式、段落樣式、文字屬性和標題級別。所述結構化關 鍵字是可以任意指定的,可以是但不限于是表示所述關鍵屬性和/或特殊文字內容的關鍵 字。提取規(guī)則和結構化關鍵字之間的關系也是可以任意指定的。
此外,還可由用戶自行設置提取規(guī)則和結構化關鍵字。具體地,向用戶提供小樣中 所包含的各部分內容及其關鍵屬性,然后,用戶根據(jù)所提供的信息建立各部分的提取規(guī)則 及其相對應的結構化關鍵字以及結構化關鍵字之間的層次關系。用戶還可根據(jù)不同的需要 對所建立的提取規(guī)則及其相對應的結構化關鍵字以及結構化關鍵字之間的層次關系進行 添加、刪除或更新等修改操作。優(yōu)選地,在建立或修改提取規(guī)則和結構化關鍵字時,可執(zhí)行以下步驟對小樣應用 用戶所設置的提取規(guī)則,提取該小樣的內容形成按照用戶所設置的結構化關鍵字表達的結 構化內容,并將該結構化內容顯示給用戶;用戶根據(jù)顯示的結構化內容對所設置的提取規(guī) 則和結構化關鍵字進行調整,直到所形成的結構化內容滿足用戶要求為止。此外,為了能夠以統(tǒng)一的結構化方法處理任意格式的文檔,將小樣或文檔轉化為 作為中間結果的邏輯樹,然后對該具有一致規(guī)范的邏輯樹應用統(tǒng)一的方法進行結構化。在這種情況下,所述小樣分析步驟包括以下步驟根據(jù)待提取結構的文檔的小樣 生成包含該小樣的各部分內容及其關鍵屬性的邏輯樹,并依據(jù)該邏輯樹中所包含的各部分 內容及其關鍵屬性建立各部分的提取規(guī)則及其相對應的結構化關鍵字以及結構化關鍵字 之間的層次關系。所述文檔結構化步驟包括以下步驟根據(jù)待提取結構的文檔生成包含該 文檔的各部分內容及其關鍵屬性的邏輯樹,并對該邏輯樹應用所建立的提取規(guī)則,提取該 文檔的內容形成按照結構化關鍵字表達的結構化內容。在用戶設置提取規(guī)則和結構化關鍵字的過程中,向用戶提供根據(jù)小樣生成的邏輯 樹中所包含的各部分內容及其關鍵屬性,然后,用戶根據(jù)所提供的信息建立或修改各部分 的提取規(guī)則及其相對應的結構化關鍵字以及結構化關鍵字之間的層次關系。相應地,本發(fā)明提供一種智能提取文檔結構的系統(tǒng),該系統(tǒng)包括文檔輸入單元, 輸入文檔小樣和待處理文檔,并將文檔小樣發(fā)送給分析單元,將待處理文檔發(fā)送給結構化 單元;分析單元,依據(jù)從文檔輸入單元接收的文檔小樣中所包含的各部分內容及其關鍵屬 性建立各部分的提取規(guī)則及其相對應的結構化關鍵字以及結構化關鍵字之間的層次關系, 并將建立的提取規(guī)則和結構化關鍵字作為系統(tǒng)默認的提取規(guī)則和結構化關鍵字發(fā)送給結 構化單元;結構化單元,對從文檔輸入單元接收的待處理文檔應用從分析單元接收的提取 規(guī)則,提取該文檔的內容形成按照從分析單元接收的結構化關鍵字表達的結構化內容,并 將所形成的結構化內容發(fā)送給文檔輸出單元;文檔輸出單元,輸出從結構化單元接收的結 構化內容。。優(yōu)選地,該系統(tǒng)還可包括用戶設置界面,用戶通過這個界面設置或修改提取規(guī)則 及其相對應的結構化關鍵字以及結構化關鍵字之間的層次關系,并將用戶設置的提取規(guī)則 和結構化關鍵字發(fā)送給結構化單元。本發(fā)明依據(jù)文檔中的樣式(包括文字樣式和段落樣式)、文字屬性、文字內容、標 題級別等屬性設置一些簡單的提取規(guī)則,并根據(jù)這些規(guī)則智能提取文檔中的結構化信息, 從而實現(xiàn)任意文檔格式的結構化自動加工。另一方面,用戶僅通過簡單的操作就可自行設 置提取規(guī)則,提取豐富的文檔結構,靈活性強。
圖1是根據(jù)本發(fā)明的第一實施例的智能提取文檔結構的方法的流程圖2是一個文檔小樣的示例;圖3是對圖2所示的小樣生成的結構化內容;圖4是根據(jù)本發(fā)明的第二實施例的智能提取文檔結構的方法的流程圖;圖5是對圖2所示的小樣生成的結構化內容;圖6是根據(jù)本發(fā)明的智能提取文檔結構的系統(tǒng)的框圖;圖7是根據(jù)本發(fā)明的智能提取文檔結構的另一系統(tǒng)的框圖。
具體實施例方式下面,將結合實施例和附圖對本發(fā)明進行詳細描述。(第一實施例)圖1是根據(jù)本發(fā)明的第一實施例的智能提取文檔結構的方法的流程圖。參照圖1, 該方法包括以下步驟步驟Sl、小樣分析步驟在該步驟中,依據(jù)待提取結構的文檔的小樣中所包含的各部分內容及其關鍵屬性 建立各部分的提取規(guī)則及其相對應的結構化關鍵字以及結構化關鍵字之間的層次關系,也 就是說,所建立的各個部分的提取規(guī)則和結構化關鍵字應能體現(xiàn)出該部分的內容和/或關 鍵屬性。其中,關鍵屬性可以是,但不限于,字體樣式、段落樣式、文字屬性和標題級別。提 取規(guī)則可以依據(jù)小樣中各部分內容的文字內容設置,還可以,但不限于,依據(jù)各部分內容的 關鍵屬性設置。結構化關鍵字可以是,但不限于是,表示關鍵屬性和/或特殊文字內容的關 鍵字。并且,提取規(guī)則和結構化關鍵字之間的關系也是可以任意指定的。這樣,本發(fā)明能夠 依據(jù)各類文檔的各種屬性形成文檔內容的結構化體系,而不僅適用于設置了段落樣式的文 檔格式。也即是說,本發(fā)明可應用于任意文檔格式的結構化加工。步驟S2、文檔結構化步驟在該步驟中,對待提取結構的文檔應用所建立的提取規(guī)則,提取該文檔的內容形 成按照結構化關鍵字表達的結構化內容。這樣,通過已經(jīng)設置好的提取規(guī)則和結構化關鍵 字,就自動完成了文檔的結構化加工。這里,需要指出的是,在小樣分析步驟Sl中,對于不需要提取結構的部分內容,可 不建立提取規(guī)則。相應地,在文檔結構化步驟S2中,不提取這些部分內容形成結構化內容。此外,為了實現(xiàn)文檔結構的個性化提取,還可由用戶設置各部分的提取規(guī)則及其 相對應的結構化關鍵字以及結構化關鍵字之間的層次關系。具體地講,向用戶提供小樣中 所包含的各部分內容及其關鍵屬性,比如,字體、字號、樣式等,然后,用戶根據(jù)所提供的信 息建立各部分的提取規(guī)則及其相對應的結構化關鍵字以及結構化關鍵字之間的層次關系。 另外,用戶還可根據(jù)不同的需要對所建立的提取規(guī)則及其相對應的結構化關鍵字以及結構 化關鍵字之間的層次關系進行添加、刪除或更新等修改操作,從而實現(xiàn)該方法對任意文檔 格式的適用性。也就是說,對于一些類似的文檔格式,只需修改所建立的少部分提取規(guī)則和 結構化關鍵字,而不需要全部重新設置。優(yōu)選地,在用戶建立或修改提取規(guī)則和結構化關鍵字時,對小樣應用用戶所設置 的提取規(guī)則,提取該小樣的內容形成按照用戶所設置的結構化關鍵字表達的結構化內容,并將該結構化內容顯示給用戶。然后,用戶根據(jù)顯示的結構化內容對所設置的提取規(guī)則和 結構化關鍵字進行調整,直到所形成的結構化內容滿足用戶要求為止。通過上述交互方法,用戶可根據(jù)需要自行設置提取規(guī)則和結構化關鍵字,從而實 現(xiàn)個性化提取。另外,由于為用戶提供文檔小樣中用到的字體、字號、樣式等,用戶僅通過簡 單的設置就可提取合適的規(guī)則和結構化關鍵字。這里,不限于用戶從所提供的信息中選擇 其中一個,用戶還可根據(jù)所提供的信息自定義一些提取規(guī)則和結構化關鍵字,提取規(guī)則和 結構化關鍵字之間的對應關系,即,映射關系也可任意指定。但是,優(yōu)選地,一個結構化關鍵 字可以與多個提取規(guī)則映射,而一個提取規(guī)則只能與與一個結構化關鍵字映射。以下將結合一個具體的示例對本實施例進行進一步的說明。在該示例中,以圖2 所示的排版文檔作為小樣,形成一個按照用戶自定義的結構化關鍵字表達的結構化內容。首先,依據(jù)圖2所示小樣中所包含的各部分內容和關鍵屬性,建立文檔結構的提 取規(guī)則及其相對應的結構化關鍵字,也就是說,建立文檔結構的提取規(guī)則和結構化關鍵字 之間的映射關系。如上所述,可根據(jù)標題級別屬性、固定樣式屬性、特殊文字內容或不同文 字顏色屬性等各種屬性建立該小樣的各個部分的提取規(guī)則和結構化關鍵字。在該示例中, 用戶建立如表1所示的提取規(guī)則和結構化關鍵字的映射表。表1提取規(guī)則與結構化關鍵字的映射表
權利要求
1.一種智能提取文檔結構的方法,包括以下步驟小樣分析步驟,即,依據(jù)待提取結構的文檔的小樣中所包含的各部分內容及其關鍵 屬性建立各部分的提取規(guī)則及其相對應的結構化關鍵字以及結構化關鍵字之間的層次關 系;文檔結構化步驟,即,對待提取結構的文檔應用所建立的提取規(guī)則,提取該文檔的內容 形成按照結構化關鍵字表達的結構化內容。
2.根據(jù)權利要求1所述的方法,其特征在于,所述小樣分析步驟包括以下步驟向用戶提供小樣中所包含的各部分內容及其關鍵屬性;用戶根據(jù)所提供的信息建立各部分的提取規(guī)則及其相對應的結構化關鍵字以及結構 化關鍵字之間的層次關系。
3.根據(jù)權利要求2所述的方法,其特征在于,還包括用戶根據(jù)不同的需要對所建立的提取規(guī)則及其相對應的結構化關鍵字以及結構化關 鍵字之間的層次關系進行添加、刪除或更新等修改操作。
4.根據(jù)權利要求2或3所述的方法,其特征在于,在用戶建立或修改提取規(guī)則和結構化 關鍵字時,執(zhí)行以下步驟對小樣應用用戶所設置的提取規(guī)則,提取該小樣的內容形成按照用戶所設置的結構化 關鍵字表達的結構化內容,并將該結構化內容顯示給用戶;用戶根據(jù)顯示的結構化內容對所設置的提取規(guī)則和結構化關鍵字進行調整,直到所形 成的結構化內容滿足用戶要求為止。
5.根據(jù)權利要求1所述的方法,其特征在于,所述文檔結構化步驟包括以下步驟遍歷所述文檔的每個部分,使用所建立的提取規(guī)則進行關鍵屬性的匹配,如果匹配成 功則提取該部分的內容并使用與該提取規(guī)則對應的結構化關鍵字進行結構化,匹配不成功 的就是不需要提取的內容。
6.根據(jù)權利要求1所述的方法,其特征在于,所述關鍵屬性包括字體樣式、段落樣式、 文字屬性和標題級別
7.根據(jù)權利要求1所述的方法,其特征在于,所述結構化關鍵字包括表示所述關鍵屬 性和/或特殊文字內容的關鍵字,并且,提取規(guī)則和結構化關鍵字之間的關系也是可以任 意指定的。
8.根據(jù)權利要求1所述的方法,其特征在于,所述小樣分析步驟包括以下步驟根據(jù)待提取結構的文檔的小樣生成包含該小樣的各部分內容及其關鍵屬性的邏輯樹, 并依據(jù)該邏輯樹中所包含的各部分內容及其關鍵屬性建立各部分的提取規(guī)則及其相對應 的結構化關鍵字以及結構化關鍵字之間的層次關系;在這種情況下,所述文檔結構化步驟包括以下步驟根據(jù)待提取結構的文檔生成包含該文檔的各部分內容及其關鍵屬性的邏輯樹,并對該 邏輯樹應用所建立的提取規(guī)則,提取該文檔的內容形成按照結構化關鍵字表達的結構化內容。
9.根據(jù)權利要求8所述的方法,其特征在于,所述小樣分析步驟中建立提取規(guī)則和結 構化關鍵字的步驟包括以下步驟向用戶提供根據(jù)小樣生成的邏輯樹中所包含的各部分內容及其關鍵屬性;用戶根據(jù)所提供的信息建立各部分的提取規(guī)則及其相對應的結構化關鍵字以及結構 化關鍵字之間的層次關系。
10.根據(jù)權利要求8所述的方法,其特征在于,所述邏輯樹為XML樹,該XML樹中的每個 節(jié)點中分別包含文檔的一個部分的內容及其關鍵屬性。
11.一種智能提取文檔結構的系統(tǒng),包括文檔輸入單元,輸入文檔小樣和待處理文檔,并將文檔小樣發(fā)送給分析單元,將待處理 文檔發(fā)送給結構化單元;分析單元,依據(jù)從文檔輸入單元接收的文檔小樣中所包含的各部分內容及其關鍵屬性 建立各部分的提取規(guī)則及其相對應的結構化關鍵字以及結構化關鍵字之間的層次關系,并 將建立的提取規(guī)則和結構化關鍵字作為系統(tǒng)默認的提取規(guī)則和結構化關鍵字發(fā)送給結構 化單元;結構化單元,對從文檔輸入單元接收的待處理文檔應用從分析單元接收的提取規(guī)則, 提取該文檔的內容形成按照從分析單元接收的結構化關鍵字表達的結構化內容,并將所形 成的結構化內容發(fā)送給文檔輸出單元;文檔輸出單元,輸出從結構化單元接收的結構化內容。
12.根據(jù)權利要求11所述的系統(tǒng),其特征在于,還包括用戶設置界面,分析單元將小樣 中所包含的各部分內容及其關鍵屬性發(fā)送給用戶設置界面以顯示給用戶;用戶根據(jù)所提供 的信息建立各部分的提取規(guī)則及其相對應的結構化關鍵字以及結構化關鍵字之間的層次 關系,并將建立的提取規(guī)則和結構化關鍵字發(fā)送給結構化單元。
13.根據(jù)權利要求12所述的系統(tǒng),其特征在于,用戶根據(jù)不同的需要通過用戶設置界 面對所設置的提取規(guī)則和結構化關鍵字進行添加、刪除或更新等修改操作,并將修改的提 取規(guī)則和結構化關鍵字發(fā)送給結構化單元。
14.根據(jù)權利要求12或13所述的系統(tǒng),其特征在于,在結構化單元從用戶設置界面 接收到提取規(guī)則和結構化關鍵字時,結構化單元從文檔輸入單元讀取小樣,并對該小樣應 用用戶所設置的提取規(guī)則,提取該小樣的內容形成按照用戶所設置的結構化關鍵字表達的 結構化內容,并將該結構化內容作為預覽內容傳送給用戶設置界面以在用戶設置界面上顯 示;用戶根據(jù)從結構化單元接收的預覽內容對所設置的提取規(guī)則和結構化關鍵字進行調 整,并將調整后的提取規(guī)則和結構化關鍵字又發(fā)送給結構化單元,結構化單元再次對小樣 應用經(jīng)過用戶調整的提取規(guī)則,生成結構化內容,然后再次作為預覽內容發(fā)送給用戶設置 界面以顯示給用戶,如此反復操作,直到所形成的結構化內容滿足用戶要求為止。
15.根據(jù)權利要求14所述的系統(tǒng),其特征在于,所述結構化單元執(zhí)行以下操作遍歷文檔小樣或待處理文檔的每個部分,使用從分析單元接收的系統(tǒng)默認提取規(guī)則或 者由用戶通過用戶設置界面建立的提取規(guī)則進行關鍵屬性的匹配,如果匹配成功則提取該 部分的內容并使用與該提取規(guī)則對應的結構化關鍵字進行結構化,匹配不成功的就是不需 要提取的內容。
16.根據(jù)權利要求11所述的系統(tǒng),其特征在于,還包括邏輯樹生成單元,將從文檔輸入單元接收的文檔小樣或待處理文檔生成包含其各部分 內容及其關鍵屬性的邏輯樹,并將生成的邏輯樹發(fā)送給分析單元和結構化單元,在這種情況下,分析單元依據(jù)從邏輯樹生成單元接收的邏輯樹中所包含的各部分內容及其關鍵屬性建立各部分的提取規(guī)則及其相對應的結構化關鍵字以及結構化關鍵字之間 的層次關系,并將其作為系統(tǒng)默認的提取規(guī)則和結構化關鍵字發(fā)送給結構化單元,結構化單元對從邏輯樹生成單元接收的邏輯樹應用從分析單元接收的提取規(guī)則,提取 邏輯樹中所包含的各部分內容形成按照從分析單元接收的結構化關鍵字表達的結構化內容。
17.根據(jù)權利要求16所述的系統(tǒng),其特征在于,還包括用戶設置界面,分析單元將從 邏輯樹生成單元接收的邏輯樹中所包含的各部分內容及其關鍵屬性發(fā)送給用戶設置界面 以顯示給用戶;用戶根據(jù)所提供的信息建立各部分的提取規(guī)則及其相對應的結構化關鍵字 以及結構化關鍵字之間的層次關系,并將建立的提取規(guī)則和結構化關鍵字發(fā)送給結構化單兀。
18.根據(jù)權利要求17所述的系統(tǒng),其特征在于,在結構化單元從用戶設置界面接收到 提取規(guī)則和結構化關鍵字時,結構化單元從邏輯樹生成單元讀取小樣的邏輯樹,并對該邏 輯樹應用用戶所設置的提取規(guī)則,提取該邏輯樹中所包含的各部分內容形成按照用戶所設 置的結構化關鍵字表達的結構化內容,并將該結構化內容作為預覽內容傳送給用戶設置界 面以在用戶設置界面上顯示;用戶根據(jù)從結構化單元接收的預覽內容對所設置的提取規(guī)則 和結構化關鍵字進行調整,并將調整后的提取規(guī)則和結構化關鍵字又發(fā)送給結構化單元, 結構化單元再次對小樣的邏輯樹應用經(jīng)過用戶調整的提取規(guī)則,生成結構化內容,然后再 次作為預覽內容發(fā)送給用戶設置界面以顯示給用戶,如此反復操作,直到所形成的結構化 內容滿足用戶要求為止。
全文摘要
本發(fā)明提供一種智能提取文檔結構的方法,該方法包括通過對文檔小樣進行分析,建立提取規(guī)則及其相對應的結構化關鍵字;對待提取結構的文檔應用所建立的提取規(guī)則,提取文檔內容形成按照結構化關鍵字表達的結構化內容。相應地,本發(fā)明提供一種智能提取文檔結構的系統(tǒng),該系統(tǒng)包括文檔輸入單元、分析單元、結構化單元、用戶設置界面和文檔輸出單元。本發(fā)明依據(jù)文檔中的樣式(包括文字樣式和段落樣式)、文字屬性、文字內容、標題級別等屬性設置一些簡單的提取規(guī)則,并根據(jù)這些規(guī)則智能提取文檔中的結構化信息,從而實現(xiàn)任意文檔格式的結構化自動加工。另一方面,用戶僅通過簡單的操作就可自行設置提取規(guī)則,靈活性強。
文檔編號G06F17/27GK102103605SQ20091024289
公開日2011年6月22日 申請日期2009年12月18日 優(yōu)先權日2009年12月18日
發(fā)明者余忠華, 曹學軍, 曾建英, 繆萍, 閆國龍 申請人:北京北大方正電子有限公司, 北大方正集團有限公司