一種提取文檔結(jié)構(gòu)化信息的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)字文本加工領(lǐng)域,具體地說是一種提取文檔結(jié)構(gòu)化信息的方法及裝 置。
【背景技術(shù)】
[0002] 版式文檔格式是版面呈現(xiàn)效果固定的電子文檔格式,版式文檔的呈現(xiàn)與設(shè)備無 關(guān),在各種設(shè)備上閱讀、打印或印刷時,其版面的呈現(xiàn)結(jié)果都是一致的。版式文檔主要應用 于成文后文件的發(fā)布、傳播和存檔。版式文檔的特點是版面固定、不跑版,即所見即所得 (What you see is what you get,簡稱WYSIWYG),使電子文檔在使用過程中,呈現(xiàn)效果不 因軟硬件環(huán)境、操作者的變化而變化,在版式、版面、字體、字號等方面與紙質(zhì)文件保持完全 一致。版式文檔格式的特點使它成為電子文檔發(fā)布、數(shù)字化信息傳播和存檔的理想文檔格 式。越來越多的電子圖書、產(chǎn)品說明、公司文告、網(wǎng)絡(luò)資料、電子郵件開始使用版式文檔,在 國外,Adobe公司的PDF版式文檔格式目前已成為數(shù)字化信息事實上的一個工業(yè)標準。
[0003] 隨著信息技術(shù)的發(fā)展,越來越多的書籍、報紙逐漸電子化,由原來的紙質(zhì)圖書轉(zhuǎn)變 成各種PC、手持設(shè)備的電子閱讀器。在報社、出版社等行業(yè),電子文檔主要以版式文檔為主, 便于打印和印刷。但在電子化閱讀時(如各種電子書閱讀器),由于屏幕的大小,需要對版 式文檔進行重排以適應屏幕,這就需要從版式文檔中提取目錄、正文、章節(jié)標題等結(jié)構(gòu)化信 息。
[0004] 現(xiàn)有技術(shù)中公開一種基于TOF的復雜版面的標引方法,用以提供一種省時、省力 的統(tǒng)一的PDF復雜版面的標引方法。通過分析和獲取文字信息以及位置、字體、字號等信 息,根據(jù)相鄰、相似的原則進行自動化的文字成塊操作,進一步根據(jù)字體字號等信息確定文 章標題與正文,根據(jù)位置信息進行正文拼接,使得整個版面上的文章快速構(gòu)建。該方法的優(yōu) 點是可以自動化處理復雜版面的文字信息提取、原始文字塊合并以及文章內(nèi)容和樣式信息 的提取,但不足之處是該方法在處理過程中使用一組參數(shù)進行識別,而目前的版式文檔多 種多樣且數(shù)據(jù)量巨大,該方案不能適應多種多樣的復雜版面信息,如果需要人為來針對每 種版式進行參數(shù)設(shè)置,數(shù)據(jù)量過于復雜,難于實現(xiàn)。
【發(fā)明內(nèi)容】
[0005] 為此,本發(fā)明所要解決的技術(shù)問題在于現(xiàn)有技術(shù)中提取文檔的結(jié)構(gòu)化信息的方法 中使用固定的參數(shù),只能針對特定類型的文檔提取,從而提出一種可以針對多種多樣的文 檔自動選擇進行格式化信息提取的方法和裝置。
[0006] 為解決上述技術(shù)問題,本發(fā)明的提供一種提取文檔結(jié)構(gòu)化信息的方法和裝置。
[0007] 本發(fā)明提供一種提取文檔結(jié)構(gòu)化信息的方法,包括:
[0008] 提取文檔的字符塊信息;
[0009] 根據(jù)文檔中字符塊信息選擇結(jié)構(gòu)化信息模板;
[0010] 根據(jù)所述結(jié)構(gòu)化信息模板對字符塊進行聚類、排序后合并為文本塊;
[0011] 根據(jù)所述結(jié)構(gòu)化信息模板和所述文本塊形成結(jié)構(gòu)化文檔。
[0012] 優(yōu)選地,所述根據(jù)文檔中字符塊信息選擇結(jié)構(gòu)化信息模板的處理前,還包括
[0013] 建立結(jié)構(gòu)化信息模板,所述結(jié)構(gòu)化信息模板中包括文檔屬性及其對應的屬性內(nèi) 容。
[0014] 優(yōu)選地,所述文檔屬性包括標題、正文,所述屬性內(nèi)容包括字體值、字號值、格式 值。
[0015] 優(yōu)選地,所述根據(jù)文檔中字符塊信息選擇結(jié)構(gòu)化信息模板的過程,包括
[0016] 獲取字符塊信息中存在的屬性內(nèi)容;
[0017] 將該屬性內(nèi)容與所述結(jié)構(gòu)化信息模板中的信息內(nèi)容匹配,
[0018] 選擇匹配程度最高的結(jié)構(gòu)化信息模板。
[0019] 優(yōu)選地,所述結(jié)構(gòu)化信息模板中還設(shè)置有字號容忍度系數(shù)、和/或字符塊之間的 位置關(guān)系容忍系數(shù)。
[0020] 優(yōu)選地,根據(jù)所述結(jié)構(gòu)化信息模板對字符塊進行聚類、排序后合并為文本塊的處 理中,包括:
[0021] 根據(jù)所述結(jié)構(gòu)化信息模板中的字號容忍度系數(shù)、和/或字符塊之間的位置關(guān)系容 忍系數(shù),對字符塊進行聚類生成文本塊。
[0022] 優(yōu)選地,根據(jù)所述結(jié)構(gòu)化信息模板和所述文本塊形成結(jié)構(gòu)化文檔的過程,包括:
[0023] 根據(jù)結(jié)構(gòu)化信息模板中的屬性及屬性內(nèi)容,將屬性內(nèi)容相同的文本塊作為該屬性 的結(jié)構(gòu)信息,獲得結(jié)構(gòu)化文檔。
[0024] 本發(fā)明還提供一種提取文檔結(jié)構(gòu)化信息的裝置,包括:
[0025] 提取單元:提取文檔的字符塊信息;
[0026] 模板選擇單元:根據(jù)文檔中字符塊信息選擇結(jié)構(gòu)化信息模板;
[0027] 文本塊獲取單元:根據(jù)所述結(jié)構(gòu)化信息模板對字符塊進行聚類、排序后合并為文 本塊;
[0028] 結(jié)構(gòu)化信息提取單元:根據(jù)所述結(jié)構(gòu)化信息模板和所述文本塊形成結(jié)構(gòu)化文檔。
[0029] 優(yōu)選地,還包括模板建立單元:建立結(jié)構(gòu)化信息模板,所述結(jié)構(gòu)化信息模板中包括 文檔屬性及其對應的屬性內(nèi)容。
[0030] 優(yōu)選地,模板選擇單元包括
[0031] 獲取子單元:獲取字符塊信息中存在的屬性內(nèi)容;
[0032] 匹配子單元:將該屬性內(nèi)容與所述結(jié)構(gòu)化信息模板中的信息內(nèi)容匹配,
[0033] 選擇子單元:選擇匹配程度最高的結(jié)構(gòu)化信息模板。
[0034] 優(yōu)選地,所述結(jié)構(gòu)化信息模板中還設(shè)置有字號容忍度系數(shù)、和/或字符塊之間的 位置關(guān)系容忍系數(shù)。
[0035] 優(yōu)選地,文本塊獲取單元包括:
[0036] 容忍度處理子單元:根據(jù)所述結(jié)構(gòu)化信息模板中的字號容忍度系數(shù)、和/或字符 塊之間的位置關(guān)系容忍系數(shù),對字符塊進行聚類生成文本塊。
[0037] 優(yōu)選地,結(jié)構(gòu)化信息提取單元包括提取子單元:根據(jù)結(jié)構(gòu)化信息模板中的屬性及 屬性內(nèi)容,將屬性內(nèi)容相同的文本塊作為該屬性的結(jié)構(gòu)信息,獲得結(jié)構(gòu)化文檔。
[0038] 本發(fā)明的上述技術(shù)方案相比現(xiàn)有技術(shù)具有以下優(yōu)點,
[0039] (1)本發(fā)明中提取文檔結(jié)構(gòu)化信息的方法,提取文檔的字符塊信息后,根據(jù)文檔中 字符塊信息選擇結(jié)構(gòu)化信息模板,然后根據(jù)所述結(jié)構(gòu)化信息模板對字符塊進行聚類、排序 后合并為文本塊,最后根據(jù)所述結(jié)構(gòu)化信息模板和所述文本塊形成結(jié)構(gòu)化文檔。該方案中, 根據(jù)當前文檔的特點來選擇模板,該模板更符合當前文檔的特點,因此使用其來提取結(jié)構(gòu) 話信息,更加準確,此外,不同的文檔可以根據(jù)其特點選擇不同的模板,該方案可以應用于 多種多樣的文檔中。本發(fā)明對現(xiàn)有技術(shù)中存在的只針對只適用一種文檔的結(jié)構(gòu)化信息提取 方法進行了改進,采用多套模板的方式,使各種復雜的版面信息根據(jù)排版樣式選擇不同的 模式,以提高獲取版面信息的準確率。同時該方法不僅適用于PDF文檔,還適用于CEBX、0FD 等所有的版式文檔。此外,現(xiàn)有的版式文檔結(jié)構(gòu)化的過程存在準確率不高、適用范圍較小、 處理緩慢的現(xiàn)象,本發(fā)明就是在現(xiàn)有技術(shù)的基礎(chǔ)上,通過模板的方式進行改進,以提高版式 文檔提取結(jié)構(gòu)化信息的處理速度以及準確率。
[0040] ⑵本發(fā)明中提取文檔結(jié)構(gòu)化信息的方法,構(gòu)建了結(jié)構(gòu)化信息模板,該模板中包括 正文、標題等屬性,以及他們對應的屬性內(nèi)容,如正文或標題中的字體值、字號值、格式值, 該結(jié)構(gòu)化信息模板根據(jù)需要設(shè)置為盡量多的不同形式,保證每種文檔都有其對應的合理模 板,這樣就可以提高結(jié)構(gòu)化信息的獲取精度。
[0041] (3)本發(fā)明中提取文檔結(jié)構(gòu)化信息的方法,選擇結(jié)構(gòu)化信息模板的依據(jù)是該模板 中的屬性內(nèi)容與當前文檔字符塊中屬性內(nèi)容一致,也就是如果當前文本的字庫塊中存在四 號楷體、二號宋體字,則選擇屬性內(nèi)容中也存在這些內(nèi)容的模板,為后續(xù)匹配提供依據(jù)。
[0042] (4)本發(fā)明中提取文檔結(jié)構(gòu)化信息的方法,所述結(jié)構(gòu)化信息模板中還設(shè)置有字號 容忍度系數(shù)、和/或字符塊之間的位置關(guān)系容忍系數(shù),由于字號匹配、位置等都具有不可避 免的誤差,因此該方案中還提供字號容忍度系數(shù)、位置關(guān)系容忍系數(shù),保證能夠順利完成匹 配。
[0043] (5)本發(fā)明還提供一種提取文檔結(jié)構(gòu)化信息的裝置,包括提取單元、模板選擇單 元、文本塊獲取單元、結(jié)構(gòu)化信息提取單元,根據(jù)當前文檔的特