一種提取文檔結(jié)構(gòu)化信息的方法及裝置的制造方法

文檔序號：9888099閱讀：667來源：國知局

一種提取文檔結(jié)構(gòu)化信息的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)字文本加工領(lǐng)域，具體地說是一種提取文檔結(jié)構(gòu)化信息的方法及裝置。
【背景技術(shù)】
[0002] 版式文檔格式是版面呈現(xiàn)效果固定的電子文檔格式，版式文檔的呈現(xiàn)與設(shè)備無關(guān)，在各種設(shè)備上閱讀、打印或印刷時，其版面的呈現(xiàn)結(jié)果都是一致的。版式文檔主要應用于成文后文件的發(fā)布、傳播和存檔。版式文檔的特點是版面固定、不跑版，即所見即所得 (What you see is what you get,簡稱WYSIWYG)，使電子文檔在使用過程中，呈現(xiàn)效果不因軟硬件環(huán)境、操作者的變化而變化，在版式、版面、字體、字號等方面與紙質(zhì)文件保持完全一致。版式文檔格式的特點使它成為電子文檔發(fā)布、數(shù)字化信息傳播和存檔的理想文檔格式。越來越多的電子圖書、產(chǎn)品說明、公司文告、網(wǎng)絡(luò)資料、電子郵件開始使用版式文檔，在國外，Adobe公司的PDF版式文檔格式目前已成為數(shù)字化信息事實上的一個工業(yè)標準。
[0003] 隨著信息技術(shù)的發(fā)展，越來越多的書籍、報紙逐漸電子化，由原來的紙質(zhì)圖書轉(zhuǎn)變成各種PC、手持設(shè)備的電子閱讀器。在報社、出版社等行業(yè)，電子文檔主要以版式文檔為主，便于打印和印刷。但在電子化閱讀時（如各種電子書閱讀器），由于屏幕的大小，需要對版式文檔進行重排以適應屏幕，這就需要從版式文檔中提取目錄、正文、章節(jié)標題等結(jié)構(gòu)化信息。
[0004] 現(xiàn)有技術(shù)中公開一種基于TOF的復雜版面的標引方法，用以提供一種省時、省力的統(tǒng)一的PDF復雜版面的標引方法。通過分析和獲取文字信息以及位置、字體、字號等信息，根據(jù)相鄰、相似的原則進行自動化的文字成塊操作，進一步根據(jù)字體字號等信息確定文章標題與正文，根據(jù)位置信息進行正文拼接，使得整個版面上的文章快速構(gòu)建。該方法的優(yōu) 點是可以自動化處理復雜版面的文字信息提取、原始文字塊合并以及文章內(nèi)容和樣式信息的提取，但不足之處是該方法在處理過程中使用一組參數(shù)進行識別，而目前的版式文檔多種多樣且數(shù)據(jù)量巨大，該方案不能適應多種多樣的復雜版面信息，如果需要人為來針對每種版式進行參數(shù)設(shè)置，數(shù)據(jù)量過于復雜，難于實現(xiàn)。

【發(fā)明內(nèi)容】

[0005] 為此，本發(fā)明所要解決的技術(shù)問題在于現(xiàn)有技術(shù)中提取文檔的結(jié)構(gòu)化信息的方法中使用固定的參數(shù)，只能針對特定類型的文檔提取，從而提出一種可以針對多種多樣的文檔自動選擇進行格式化信息提取的方法和裝置。
[0006] 為解決上述技術(shù)問題，本發(fā)明的提供一種提取文檔結(jié)構(gòu)化信息的方法和裝置。
[0007] 本發(fā)明提供一種提取文檔結(jié)構(gòu)化信息的方法，包括：
[0008] 提取文檔的字符塊信息；
[0009] 根據(jù)文檔中字符塊信息選擇結(jié)構(gòu)化信息模板；
[0010] 根據(jù)所述結(jié)構(gòu)化信息模板對字符塊進行聚類、排序后合并為文本塊；
[0011] 根據(jù)所述結(jié)構(gòu)化信息模板和所述文本塊形成結(jié)構(gòu)化文檔。
[0012] 優(yōu)選地，所述根據(jù)文檔中字符塊信息選擇結(jié)構(gòu)化信息模板的處理前，還包括
[0013] 建立結(jié)構(gòu)化信息模板，所述結(jié)構(gòu)化信息模板中包括文檔屬性及其對應的屬性內(nèi) 容。
[0014] 優(yōu)選地，所述文檔屬性包括標題、正文，所述屬性內(nèi)容包括字體值、字號值、格式值。
[0015] 優(yōu)選地，所述根據(jù)文檔中字符塊信息選擇結(jié)構(gòu)化信息模板的過程，包括
[0016] 獲取字符塊信息中存在的屬性內(nèi)容；
[0017] 將該屬性內(nèi)容與所述結(jié)構(gòu)化信息模板中的信息內(nèi)容匹配，
[0018] 選擇匹配程度最高的結(jié)構(gòu)化信息模板。
[0019] 優(yōu)選地，所述結(jié)構(gòu)化信息模板中還設(shè)置有字號容忍度系數(shù)、和/或字符塊之間的位置關(guān)系容忍系數(shù)。
[0020] 優(yōu)選地，根據(jù)所述結(jié)構(gòu)化信息模板對字符塊進行聚類、排序后合并為文本塊的處理中，包括：
[0021] 根據(jù)所述結(jié)構(gòu)化信息模板中的字號容忍度系數(shù)、和/或字符塊之間的位置關(guān)系容忍系數(shù)，對字符塊進行聚類生成文本塊。
[0022] 優(yōu)選地，根據(jù)所述結(jié)構(gòu)化信息模板和所述文本塊形成結(jié)構(gòu)化文檔的過程，包括：
[0023] 根據(jù)結(jié)構(gòu)化信息模板中的屬性及屬性內(nèi)容，將屬性內(nèi)容相同的文本塊作為該屬性的結(jié)構(gòu)信息，獲得結(jié)構(gòu)化文檔。
[0024] 本發(fā)明還提供一種提取文檔結(jié)構(gòu)化信息的裝置，包括：
[0025] 提取單元：提取文檔的字符塊信息；
[0026] 模板選擇單元：根據(jù)文檔中字符塊信息選擇結(jié)構(gòu)化信息模板；
[0027] 文本塊獲取單元：根據(jù)所述結(jié)構(gòu)化信息模板對字符塊進行聚類、排序后合并為文本塊；
[0028] 結(jié)構(gòu)化信息提取單元：根據(jù)所述結(jié)構(gòu)化信息模板和所述文本塊形成結(jié)構(gòu)化文檔。
[0029] 優(yōu)選地，還包括模板建立單元：建立結(jié)構(gòu)化信息模板，所述結(jié)構(gòu)化信息模板中包括文檔屬性及其對應的屬性內(nèi)容。
[0030] 優(yōu)選地，模板選擇單元包括
[0031] 獲取子單元：獲取字符塊信息中存在的屬性內(nèi)容；
[0032] 匹配子單元：將該屬性內(nèi)容與所述結(jié)構(gòu)化信息模板中的信息內(nèi)容匹配，
[0033] 選擇子單元：選擇匹配程度最高的結(jié)構(gòu)化信息模板。
[0034] 優(yōu)選地，所述結(jié)構(gòu)化信息模板中還設(shè)置有字號容忍度系數(shù)、和/或字符塊之間的位置關(guān)系容忍系數(shù)。
[0035] 優(yōu)選地，文本塊獲取單元包括：
[0036] 容忍度處理子單元：根據(jù)所述結(jié)構(gòu)化信息模板中的字號容忍度系數(shù)、和/或字符塊之間的位置關(guān)系容忍系數(shù)，對字符塊進行聚類生成文本塊。
[0037] 優(yōu)選地，結(jié)構(gòu)化信息提取單元包括提取子單元：根據(jù)結(jié)構(gòu)化信息模板中的屬性及屬性內(nèi)容，將屬性內(nèi)容相同的文本塊作為該屬性的結(jié)構(gòu)信息，獲得結(jié)構(gòu)化文檔。
[0038] 本發(fā)明的上述技術(shù)方案相比現(xiàn)有技術(shù)具有以下優(yōu)點，
[0039] (1)本發(fā)明中提取文檔結(jié)構(gòu)化信息的方法，提取文檔的字符塊信息后，根據(jù)文檔中字符塊信息選擇結(jié)構(gòu)化信息模板，然后根據(jù)所述結(jié)構(gòu)化信息模板對字符塊進行聚類、排序后合并為文本塊，最后根據(jù)所述結(jié)構(gòu)化信息模板和所述文本塊形成結(jié)構(gòu)化文檔。該方案中，根據(jù)當前文檔的特點來選擇模板，該模板更符合當前文檔的特點，因此使用其來提取結(jié)構(gòu) 話信息，更加準確，此外，不同的文檔可以根據(jù)其特點選擇不同的模板，該方案可以應用于多種多樣的文檔中。本發(fā)明對現(xiàn)有技術(shù)中存在的只針對只適用一種文檔的結(jié)構(gòu)化信息提取方法進行了改進，采用多套模板的方式，使各種復雜的版面信息根據(jù)排版樣式選擇不同的模式，以提高獲取版面信息的準確率。同時該方法不僅適用于PDF文檔，還適用于CEBX、0FD 等所有的版式文檔。此外，現(xiàn)有的版式文檔結(jié)構(gòu)化的過程存在準確率不高、適用范圍較小、處理緩慢的現(xiàn)象，本發(fā)明就是在現(xiàn)有技術(shù)的基礎(chǔ)上，通過模板的方式進行改進，以提高版式文檔提取結(jié)構(gòu)化信息的處理速度以及準確率。
[0040] ⑵本發(fā)明中提取文檔結(jié)構(gòu)化信息的方法，構(gòu)建了結(jié)構(gòu)化信息模板，該模板中包括正文、標題等屬性，以及他們對應的屬性內(nèi)容，如正文或標題中的字體值、字號值、格式值，該結(jié)構(gòu)化信息模板根據(jù)需要設(shè)置為盡量多的不同形式，保證每種文檔都有其對應的合理模板，這樣就可以提高結(jié)構(gòu)化信息的獲取精度。
[0041] (3)本發(fā)明中提取文檔結(jié)構(gòu)化信息的方法，選擇結(jié)構(gòu)化信息模板的依據(jù)是該模板中的屬性內(nèi)容與當前文檔字符塊中屬性內(nèi)容一致，也就是如果當前文本的字庫塊中存在四號楷體、二號宋體字，則選擇屬性內(nèi)容中也存在這些內(nèi)容的模板，為后續(xù)匹配提供依據(jù)。
[0042] (4)本發(fā)明中提取文檔結(jié)構(gòu)化信息的方法，所述結(jié)構(gòu)化信息模板中還設(shè)置有字號容忍度系數(shù)、和/或字符塊之間的位置關(guān)系容忍系數(shù)，由于字號匹配、位置等都具有不可避免的誤差，因此該方案中還提供字號容忍度系數(shù)、位置關(guān)系容忍系數(shù)，保證能夠順利完成匹配。
[0043] (5)本發(fā)明還提供一種提取文檔結(jié)構(gòu)化信息的裝置，包括提取單元、模板選擇單元、文本塊獲取單元、結(jié)構(gòu)化信息提取單元，根據(jù)當前文檔的特

完整全部詳細技術(shù)資料下載

當前第1頁1 2 3

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：林欣欣;羅偉富;易玨玲;
技術(shù)所有人：北大方正集團有限公司;北京方正阿帕比技術(shù)有限公司;
我是此專利的發(fā)明人

上一篇：識別物體危險性的方法和裝置的制造方法
上一篇：檢測人群對目標位置關(guān)注度的方法及設(shè)備的制造方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種提取文檔結(jié)構(gòu)化信息的方法及裝置的制造方法