一種pdf文檔到xml文檔轉(zhuǎn)換的方法

文檔序號：6650723閱讀：569來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種pdf文檔到xml文檔轉(zhuǎn)換的方法
技術(shù)領(lǐng)域：
本發(fā)明是一種信息轉(zhuǎn)化的方法，屬于信息技術(shù)類，確切地說，它包括中間文檔生成模塊、規(guī)則生成模塊、自動抽取模塊的信息抽取系統(tǒng)的方法。
背景技術(shù)：
隨著Web技術(shù)的發(fā)展，越來越多的信息呈現(xiàn)在用戶面前。如何對海量的信息資源進行處理，是數(shù)字圖書館研究工作的一項重要內(nèi)容。為了實現(xiàn)對網(wǎng)絡(luò)信息資源的有效開發(fā)利用，需要進行信息的分類、檢索等操作。所有對信息處理的操作都應(yīng)該涉及到對文檔信息的抽取。文檔信息抽取是指從一段文本中抽取指定的一類信息，并將其形成結(jié)構(gòu)化數(shù)據(jù)填入數(shù)據(jù)庫中供用戶查詢使用的過程。
信息抽取現(xiàn)有三種基本實現(xiàn)方法基于字典，基于馬爾可夫模型和基于規(guī)則。其中，基于字典和基于馬爾可夫模型主要應(yīng)用于WebIE領(lǐng)域；只有基于規(guī)則的方法不僅應(yīng)用于WebIE中，同時也是實現(xiàn)信息抽取的主要方法。目前有三種主要的基于規(guī)則的信息抽取技術(shù)基于自然語言理解、基于Ontology和基于DOM樹。
1、基于自然語言理解的信息抽取技術(shù)自然語言的處理技術(shù)通常用于自由文本的信息抽取。自然語言處理的過程如下首先把文本分割成多個句子，對每個句子的成分進行標記；然后將已分析好的句子成分和事先定義好的規(guī)則進行匹配，從而獲得句子的內(nèi)容。這種信息抽取方法的實質(zhì)是，根據(jù)語義項對應(yīng)的語義類，語義項的上下文和所處的句子成分實現(xiàn)信息的定位。它主要適合源文檔中含有大量文本的情況，尤其是合乎文法的文本。
2、基于ontology的信息抽取主要利用了對數(shù)據(jù)本身的描述信息實現(xiàn)抽取。采用該方法，事先要由知識領(lǐng)域?qū)＜也捎萌斯さ姆绞綍鴮懩骋粦?yīng)用領(lǐng)域的ontology，并且根據(jù)ontology中常值和關(guān)鍵字的描述信息產(chǎn)生抽取規(guī)則，對每個無結(jié)構(gòu)的文本塊進行抽取獲得各語義項的值。這種方法對頁面的結(jié)構(gòu)和表現(xiàn)形式依賴少，只要事先創(chuàng)建的應(yīng)用領(lǐng)域的ontology足夠強大，系統(tǒng)可以對某一應(yīng)用領(lǐng)域中各種網(wǎng)頁實現(xiàn)信息抽取。不過，這事先需要構(gòu)造一個完整的ontology庫，而構(gòu)造這樣一個庫需要花費專家大量的時間；而且，有時很多信息很難給出對應(yīng)的ontology庫。
3、基于DOM樹的信息抽取技術(shù)在信息抽取之前，通過解析器將HTML文檔或XML文檔解析成DOM樹，然后以自動化或半自動化的方式產(chǎn)生抽取規(guī)則，將信息抽取轉(zhuǎn)化為對DOM樹的操作。該類信息抽取技術(shù)應(yīng)用于能夠表示為DOM樹的文檔，如HTML文檔，XML文檔的信息抽取。
經(jīng)檢索還沒有見到一種包括中間文檔生成模塊、規(guī)則生成模塊、自動抽取模塊信息抽取系統(tǒng)的方法，從PDF文檔到XML文檔轉(zhuǎn)換的方法方面的文獻報道。

發(fā)明內(nèi)容
本發(fā)明的目的在于發(fā)明一種信息抽取的方法。
本發(fā)明是這樣實現(xiàn)的它包括中間文檔生成模塊、規(guī)則生成模塊、自動抽取模塊依次進行，其步驟為(一)中間文檔生成模塊針對PDF樣本文檔(2)的內(nèi)容，根據(jù)語義項和文本塊之間的映射關(guān)系，系統(tǒng)自動生成標記語義項和信息塊特征的中間XML文檔；(二)規(guī)則生成模塊對PDF樣本文檔(2)進行分析和處理，調(diào)用中間文檔生成模塊(7)產(chǎn)生的中間XML文檔，通過文檔解析器讀取PDF源文檔(1)的內(nèi)容，并將其轉(zhuǎn)換為規(guī)則的XSLT文檔；(三)自動抽取模塊接受規(guī)則XSLT文檔(4)，得到滿足目標DTD文檔并具有語義信息的目標XML文檔(5)。
本發(fā)明可以對轉(zhuǎn)換后的XML文檔做進一步的操作，從而提高文檔自動分類和用戶信息檢索的效率。

圖1為本發(fā)明的系統(tǒng)總體框架圖；圖2為本發(fā)明的系統(tǒng)流程圖；圖3為樣例PDF源文檔片斷；圖4為樣例中間XML文檔片斷；圖5為樣例目標XML文檔圖中1為PDF源文檔；2為PDF樣本文檔；3為中間XML文檔；4為規(guī)則XSLT文檔；5為目標XML文檔；6為PDF文檔庫；7為中間文檔生成模塊；8為規(guī)則生成模塊；9為自動抽取模塊；10為XSLT規(guī)則文檔庫；11為目標XML文檔庫以下將結(jié)合實施例對本發(fā)明進行進一步的描述
具體實施例方式一、模塊的具體設(shè)計和實現(xiàn)1.中間文檔生成模塊中間文檔生成模塊7設(shè)計是先將PDF源文檔1轉(zhuǎn)換成為一種易于處理的中間格式，再對中間格式進行基于規(guī)則的自動的XML文檔轉(zhuǎn)換。
本模塊的實現(xiàn)有兩個關(guān)鍵點(一)中間文檔的結(jié)構(gòu)的定義。
對中間文檔結(jié)構(gòu)設(shè)計的要求如下一是它能夠描述源文檔的格式特征和編排結(jié)構(gòu)信息，這是自動抽取模塊9規(guī)則匹配的依據(jù)；二是PDF文檔到中間文檔的轉(zhuǎn)換最好能夠較為容易地進行。
(二)設(shè)計PDF文檔的解析器，生成滿足上述要求的中間文檔。
目前，有不少軟件如pdfpert，pdftohtml等，能夠?qū)DF文檔轉(zhuǎn)換為XML文檔。它們轉(zhuǎn)換后生成的XML文檔基本上都是平級XML文檔，其中的XML元素和屬性包含了PDF源文檔1中大量的顯示信息。因此，可以基于上述軟件提供的接口開發(fā)中間文檔生成模塊。
2.規(guī)則生成模塊該模塊的功能是生成應(yīng)用于PDF源文檔1對應(yīng)的中間XML文檔3的規(guī)則XSLT文檔4。規(guī)則生成模塊8采用半自動化的方式生成規(guī)則，具體包括以下三個步驟(一)開發(fā)用戶學(xué)習(xí)界面。用戶首先全面理解PDF樣本文檔2的內(nèi)容和結(jié)構(gòu)，并在用戶學(xué)習(xí)界面的幫助下，建立語義項與文本塊之間的映射關(guān)系。系統(tǒng)利用Adobe在Acrobat 7.0 SDK中提供的一個IAC(Interapplication Communication)實例ActiveView完成用戶學(xué)習(xí)界面的開發(fā)。
(二)生成規(guī)則中間文檔。目的是方便規(guī)則XSLT文檔4的編寫。這個過程是通過對PDF樣本文檔2對應(yīng)的中間XML文檔3進行解析完成的。由于中間XML文檔3的結(jié)構(gòu)趨于平面化，整個文檔的數(shù)據(jù)量很大，而目標文檔的生成所需的信息一般只位于文檔的開始部分，所以選擇XML簡單應(yīng)用編程接口SAX對中間XML文檔3進行解析。Sun公司提供了Java API for XML Parsing(JAXP)接口支持SAX和DOM的使用，任何與JAXP兼容的XML文檔解析器都可以使用，如Apache的Xerces解析器。
(三)編輯規(guī)則XSLT文檔4。結(jié)合文本塊的顯示特征，位置特征以及先驗的文本特征，根據(jù)每個元素的XPath形成XSLT文檔。該XSLT文檔就是抽取規(guī)則。
3.自動抽取模塊由于抽取規(guī)則采用XSLT語言進行編輯，所以自動抽取模塊9需要做的工作是執(zhí)行抽取規(guī)則XSLT文檔4。本系統(tǒng)使用Xalan作為XSLT執(zhí)行引擎，由于XSLT執(zhí)行引擎都實現(xiàn)了XML轉(zhuǎn)換接口，所以它們可以任意替代而不影響應(yīng)用程序代碼。
二、信息抽取系統(tǒng)運行過程步驟一針對PDF樣本文檔2的內(nèi)容，用戶為頁面信息附加語義；根據(jù)用戶建立的語義項和文本塊之間的映射關(guān)系，系統(tǒng)自動生成標記語義項和信息塊特征的規(guī)則中間XML文檔；完成規(guī)則XSLT文檔4的編輯，存入規(guī)則文檔庫中。
步驟二用戶從PDF文檔庫中選擇PDF源文檔1，同時從規(guī)則文檔庫中選擇規(guī)則文檔。系統(tǒng)調(diào)用中間文檔生成模塊7，通過文檔解析器讀取PDF源文檔1的內(nèi)容，并將其轉(zhuǎn)換為中間XML文檔3。中間XML文檔3是自動抽取模塊9的輸入項。
步驟三自動抽取模塊9使用規(guī)則解析器讀取規(guī)則文檔中的內(nèi)容，自動地將抽取規(guī)則應(yīng)用于中間XML文檔3，從而得到滿足目標DTD文檔并具有語義信息的XML文檔。
其中，規(guī)范目標XML文檔的DTD文件如下

三.系統(tǒng)的特點1.系統(tǒng)通過中間文檔生成模塊7，先將PDF文檔轉(zhuǎn)換為中間文檔，該中間文檔保留了PDF源文檔1中的文本顯示信息以及版面編排結(jié)構(gòu)特征，方便了自動抽取模塊9的規(guī)則匹配，從而降低了系統(tǒng)設(shè)計的難度。
2.中間文檔生成模塊7選擇XML格式作為中間文檔的信息表現(xiàn)形式，優(yōu)點表現(xiàn)在以下兩個方面(一)可以通過XML文檔的自定義標簽(包括元素和屬性)保存PDF源文檔1中的顯示信息，從而可以利用PDF文檔中的顯示信息有效地完成基于規(guī)則的信息抽取。
(二)可以利用XML的標準化工具完成對中間文檔的合法性驗證和有效性驗證，以及利用XML的解析模型DOM或SAX對中間文檔進行解析，而不需要開發(fā)專門的工具，從而減少了不必要的系統(tǒng)開支。
3.在規(guī)則生成模塊中，選擇XSLT作為抽取規(guī)則描述語言。
XSLT作為W3C制定的標準，支持它的工具很多，目前已經(jīng)獲得了包括xalan在內(nèi)的二十多種工具的支持；XSLT定義了一套強大而且靈活的數(shù)據(jù)定位指令XPath和抽取指令，具有部分的高級編程語言的能力，能夠應(yīng)付許多場合的變換要求；XSLT采用XML語法進行定義，易于理解和修改，而且具有良好的擴展性；與java，c等高級語言相比，XSLT能夠以少量代碼完成文本塊的定位和抽取。
本發(fā)明也可以是將PDF源文檔1經(jīng)過中間文檔生成模塊7，產(chǎn)生中間XML文檔3，不經(jīng)過規(guī)則生成模塊8，而是直接進入自動抽取模塊9，輸出目標XML文檔5。還可以將PDF文檔，先經(jīng)過規(guī)則生成模塊8，輸出規(guī)則XSLT文檔4，再進入自動抽取模塊9，輸出目標XML文檔5。
PDF源文檔1為系統(tǒng)處理的原始對象、PDF樣本文檔2為提供給用戶學(xué)習(xí)從而獲得系統(tǒng)抽取規(guī)則的對象。
權(quán)利要求
1.一種PDF文檔到XML文檔轉(zhuǎn)換的方法，其特征在于它包括中間文檔生成模塊(7)、規(guī)則生成模塊(8)、自動抽取模塊(9)依次進行，其步驟為步驟一中間文檔生成模塊針對PDF樣本文檔(2)的內(nèi)容，根據(jù)語義項和文本塊之間的映射關(guān)系，系統(tǒng)自動生成標記語義項和信息塊特征的中間XML文檔(3)；步驟二規(guī)則生成模塊對PDF樣本文檔(2)進行分析和處理，調(diào)用中間文檔生成模塊(7)產(chǎn)生的中間XML文檔，通過文檔解析器讀取PDF源文檔(1)的內(nèi)容，并將其轉(zhuǎn)換為規(guī)則XSLT文檔(4)；步驟三自動抽取模塊接受規(guī)則XSLT文檔(4)，得到滿足目標DTD文檔并具有語義信息的目標XML文檔(5)。
2.根據(jù)權(quán)利要求1所述的一種PDF文檔到XML文檔轉(zhuǎn)換的方法，其特征在于也可以是將PDF源文檔(1)經(jīng)過中間文檔生成模塊(7)，產(chǎn)生中間XML文檔，不經(jīng)過規(guī)則生成模塊(8)，而是直接進入自動抽取模塊(9)，輸出目標XML文檔。
3.根據(jù)權(quán)利要求1所述的一種PDF文檔到XML文檔轉(zhuǎn)換的方法，其特征在于可以將PDF文檔，先經(jīng)過規(guī)則生成模塊(8)，輸出規(guī)則XSLT文檔，再進入自動抽取模塊(9)，輸出目標XML文檔。
4.根據(jù)權(quán)利要求1或3所述的一種PDF文檔到XML文檔轉(zhuǎn)換的方法，其特征在于規(guī)則生成模塊(8)生成的結(jié)果為規(guī)則XSLT文檔，包括以下三個步驟步驟一，開發(fā)用戶學(xué)習(xí)界面；步驟二，生成規(guī)則中間文檔；步驟三，編輯規(guī)則XSLT文檔。
全文摘要
本發(fā)明公開了一種PDF文檔到XML文檔轉(zhuǎn)換的方法，(一)中間文檔生成模塊(7)針對PDF樣本文檔(2)的內(nèi)容，根據(jù)語義項和文本塊之間的映射關(guān)系，系統(tǒng)自動生成標記語義項和信息塊特征的中間XML文檔(3)；(二)規(guī)則生成模塊對PDF樣本文檔(2)進行分析和處理，調(diào)用中間文檔生成模塊(7)產(chǎn)生的中間XML文檔(3)，通過文檔解析器讀取PDF源文檔(1)的內(nèi)容，并將其轉(zhuǎn)換為規(guī)則的XSLT文檔；(三)自動抽取模塊接受規(guī)則的XSLT文檔，得到滿足目標DTD文檔并具有語義信息的目標XML文檔(5)。本發(fā)明可以對轉(zhuǎn)換后的XML文檔做進一步的操作，從而提高文檔自動分類和用戶信息檢索的效率。
文檔編號G06F17/30GK1776673SQ200510122890
公開日2006年5月24日申請日期2005年12月3日優(yōu)先權(quán)日2005年12月3日
發(fā)明者張文德, 宋艷娟, 陳振標, 楊傳耀, 陳俊林, 朱丹紅申請人:福州大學(xué)

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張文德;宋艷娟;陳振標;楊傳耀;陳俊林;朱丹紅
技術(shù)所有人：福州大學(xué)
我是此專利的發(fā)明人

上一篇：基于嵌入式加數(shù)字信號處理的電力電子數(shù)字控制平臺的制作方法
上一篇：顯示器驅(qū)動控制裝置及其方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

文檔轉(zhuǎn)換器相關(guān)技術(shù)

文檔格式轉(zhuǎn)換器相關(guān)技術(shù)

文檔格式轉(zhuǎn)換軟件相關(guān)技術(shù)

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種pdf文檔到xml文檔轉(zhuǎn)換的方法