两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種pdf文檔到xml文檔轉(zhuǎn)換的方法

文檔序號:6650723閱讀:569來源:國知局
專利名稱:一種pdf文檔到xml文檔轉(zhuǎn)換的方法
技術(shù)領(lǐng)域
本發(fā)明是一種信息轉(zhuǎn)化的方法,屬于信息技術(shù)類,確切地說,它包括中間文檔生成模塊、規(guī)則生成模塊、自動抽取模塊的信息抽取系統(tǒng)的方法。
背景技術(shù)
隨著Web技術(shù)的發(fā)展,越來越多的信息呈現(xiàn)在用戶面前。如何對海量的信息資源進行處理,是數(shù)字圖書館研究工作的一項重要內(nèi)容。為了實現(xiàn)對網(wǎng)絡(luò)信息資源的有效開發(fā)利用,需要進行信息的分類、檢索等操作。所有對信息處理的操作都應(yīng)該涉及到對文檔信息的抽取。文檔信息抽取是指從一段文本中抽取指定的一類信息,并將其形成結(jié)構(gòu)化數(shù)據(jù)填入數(shù)據(jù)庫中供用戶查詢使用的過程。
信息抽取現(xiàn)有三種基本實現(xiàn)方法基于字典,基于馬爾可夫模型和基于規(guī)則。其中,基于字典和基于馬爾可夫模型主要應(yīng)用于WebIE領(lǐng)域;只有基于規(guī)則的方法不僅應(yīng)用于WebIE中,同時也是實現(xiàn)信息抽取的主要方法。目前有三種主要的基于規(guī)則的信息抽取技術(shù)基于自然語言理解、基于Ontology和基于DOM樹。
1、基于自然語言理解的信息抽取技術(shù)自然語言的處理技術(shù)通常用于自由文本的信息抽取。自然語言處理的過程如下首先把文本分割成多個句子,對每個句子的成分進行標記;然后將已分析好的句子成分和事先定義好的規(guī)則進行匹配,從而獲得句子的內(nèi)容。這種信息抽取方法的實質(zhì)是,根據(jù)語義項對應(yīng)的語義類,語義項的上下文和所處的句子成分實現(xiàn)信息的定位。它主要適合源文檔中含有大量文本的情況,尤其是合乎文法的文本。
2、基于ontology的信息抽取主要利用了對數(shù)據(jù)本身的描述信息實現(xiàn)抽取。采用該方法,事先要由知識領(lǐng)域?qū)<也捎萌斯さ姆绞綍鴮懩骋粦?yīng)用領(lǐng)域的ontology,并且根據(jù)ontology中常值和關(guān)鍵字的描述信息產(chǎn)生抽取規(guī)則,對每個無結(jié)構(gòu)的文本塊進行抽取獲得各語義項的值。這種方法對頁面的結(jié)構(gòu)和表現(xiàn)形式依賴少,只要事先創(chuàng)建的應(yīng)用領(lǐng)域的ontology足夠強大,系統(tǒng)可以對某一應(yīng)用領(lǐng)域中各種網(wǎng)頁實現(xiàn)信息抽取。不過,這事先需要構(gòu)造一個完整的ontology庫,而構(gòu)造這樣一個庫需要花費專家大量的時間;而且,有時很多信息很難給出對應(yīng)的ontology庫。
3、基于DOM樹的信息抽取技術(shù)在信息抽取之前,通過解析器將HTML文檔或XML文檔解析成DOM樹,然后以自動化或半自動化的方式產(chǎn)生抽取規(guī)則,將信息抽取轉(zhuǎn)化為對DOM樹的操作。該類信息抽取技術(shù)應(yīng)用于能夠表示為DOM樹的文檔,如HTML文檔,XML文檔的信息抽取。
經(jīng)檢索還沒有見到一種包括中間文檔生成模塊、規(guī)則生成模塊、自動抽取模塊信息抽取系統(tǒng)的方法,從PDF文檔到XML文檔轉(zhuǎn)換的方法方面的文獻報道。

發(fā)明內(nèi)容
本發(fā)明的目的在于發(fā)明一種信息抽取的方法。
本發(fā)明是這樣實現(xiàn)的它包括中間文檔生成模塊、規(guī)則生成模塊、自動抽取模塊依次進行,其步驟為(一)中間文檔生成模塊針對PDF樣本文檔(2)的內(nèi)容,根據(jù)語義項和文本塊之間的映射關(guān)系,系統(tǒng)自動生成標記語義項和信息塊特征的中間XML文檔;(二)規(guī)則生成模塊對PDF樣本文檔(2)進行分析和處理,調(diào)用中間文檔生成模塊(7)產(chǎn)生的中間XML文檔,通過文檔解析器讀取PDF源文檔(1)的內(nèi)容,并將其轉(zhuǎn)換為規(guī)則的XSLT文檔;(三)自動抽取模塊接受規(guī)則XSLT文檔(4),得到滿足目標DTD文檔并具有語義信息的目標XML文檔(5)。
本發(fā)明可以對轉(zhuǎn)換后的XML文檔做進一步的操作,從而提高文檔自動分類和用戶信息檢索的效率。


圖1為本發(fā)明的系統(tǒng)總體框架圖;圖2為本發(fā)明的系統(tǒng)流程圖;圖3為樣例PDF源文檔片斷;圖4為樣例中間XML文檔片斷;圖5為樣例目標XML文檔圖中1為PDF源文檔;2為PDF樣本文檔;3為中間XML文檔;4為規(guī)則XSLT文檔;5為目標XML文檔;6為PDF文檔庫;7為中間文檔生成模塊;8為規(guī)則生成模塊;9為自動抽取模塊;10為XSLT規(guī)則文檔庫;11為目標XML文檔庫以下將結(jié)合實施例對本發(fā)明進行進一步的描述
具體實施例方式一、模塊的具體設(shè)計和實現(xiàn)1.中間文檔生成模塊中間文檔生成模塊7設(shè)計是先將PDF源文檔1轉(zhuǎn)換成為一種易于處理的中間格式,再對中間格式進行基于規(guī)則的自動的XML文檔轉(zhuǎn)換。
本模塊的實現(xiàn)有兩個關(guān)鍵點(一)中間文檔的結(jié)構(gòu)的定義。
對中間文檔結(jié)構(gòu)設(shè)計的要求如下一是它能夠描述源文檔的格式特征和編排結(jié)構(gòu)信息,這是自動抽取模塊9規(guī)則匹配的依據(jù);二是PDF文檔到中間文檔的轉(zhuǎn)換最好能夠較為容易地進行。
(二)設(shè)計PDF文檔的解析器,生成滿足上述要求的中間文檔。
目前,有不少軟件如pdfpert,pdftohtml等,能夠?qū)DF文檔轉(zhuǎn)換為XML文檔。它們轉(zhuǎn)換后生成的XML文檔基本上都是平級XML文檔,其中的XML元素和屬性包含了PDF源文檔1中大量的顯示信息。因此,可以基于上述軟件提供的接口開發(fā)中間文檔生成模塊。
2.規(guī)則生成模塊該模塊的功能是生成應(yīng)用于PDF源文檔1對應(yīng)的中間XML文檔3的規(guī)則XSLT文檔4。規(guī)則生成模塊8采用半自動化的方式生成規(guī)則,具體包括以下三個步驟(一)開發(fā)用戶學(xué)習(xí)界面。用戶首先全面理解PDF樣本文檔2的內(nèi)容和結(jié)構(gòu),并在用戶學(xué)習(xí)界面的幫助下,建立語義項與文本塊之間的映射關(guān)系。系統(tǒng)利用Adobe在Acrobat 7.0 SDK中提供的一個IAC(Interapplication Communication)實例ActiveView完成用戶學(xué)習(xí)界面的開發(fā)。
(二)生成規(guī)則中間文檔。目的是方便規(guī)則XSLT文檔4的編寫。這個過程是通過對PDF樣本文檔2對應(yīng)的中間XML文檔3進行解析完成的。由于中間XML文檔3的結(jié)構(gòu)趨于平面化,整個文檔的數(shù)據(jù)量很大,而目標文檔的生成所需的信息一般只位于文檔的開始部分,所以選擇XML簡單應(yīng)用編程接口SAX對中間XML文檔3進行解析。Sun公司提供了Java API for XML Parsing(JAXP)接口支持SAX和DOM的使用,任何與JAXP兼容的XML文檔解析器都可以使用,如Apache的Xerces解析器。
(三)編輯規(guī)則XSLT文檔4。結(jié)合文本塊的顯示特征,位置特征以及先驗的文本特征,根據(jù)每個元素的XPath形成XSLT文檔。該XSLT文檔就是抽取規(guī)則。
3.自動抽取模塊由于抽取規(guī)則采用XSLT語言進行編輯,所以自動抽取模塊9需要做的工作是執(zhí)行抽取規(guī)則XSLT文檔4。本系統(tǒng)使用Xalan作為XSLT執(zhí)行引擎,由于XSLT執(zhí)行引擎都實現(xiàn)了XML轉(zhuǎn)換接口,所以它們可以任意替代而不影響應(yīng)用程序代碼。
二、信息抽取系統(tǒng)運行過程步驟一針對PDF樣本文檔2的內(nèi)容,用戶為頁面信息附加語義;根據(jù)用戶建立的語義項和文本塊之間的映射關(guān)系,系統(tǒng)自動生成標記語義項和信息塊特征的規(guī)則中間XML文檔;完成規(guī)則XSLT文檔4的編輯,存入規(guī)則文檔庫中。
步驟二用戶從PDF文檔庫中選擇PDF源文檔1,同時從規(guī)則文檔庫中選擇規(guī)則文檔。系統(tǒng)調(diào)用中間文檔生成模塊7,通過文檔解析器讀取PDF源文檔1的內(nèi)容,并將其轉(zhuǎn)換為中間XML文檔3。中間XML文檔3是自動抽取模塊9的輸入項。
步驟三自動抽取模塊9使用規(guī)則解析器讀取規(guī)則文檔中的內(nèi)容,自動地將抽取規(guī)則應(yīng)用于中間XML文檔3,從而得到滿足目標DTD文檔并具有語義信息的XML文檔。
其中,規(guī)范目標XML文檔的DTD文件如下

三.系統(tǒng)的特點1.系統(tǒng)通過中間文檔生成模塊7,先將PDF文檔轉(zhuǎn)換為中間文檔,該中間文檔保留了PDF源文檔1中的文本顯示信息以及版面編排結(jié)構(gòu)特征,方便了自動抽取模塊9的規(guī)則匹配,從而降低了系統(tǒng)設(shè)計的難度。
2.中間文檔生成模塊7選擇XML格式作為中間文檔的信息表現(xiàn)形式,優(yōu)點表現(xiàn)在以下兩個方面(一)可以通過XML文檔的自定義標簽(包括元素和屬性)保存PDF源文檔1中的顯示信息,從而可以利用PDF文檔中的顯示信息有效地完成基于規(guī)則的信息抽取。
(二)可以利用XML的標準化工具完成對中間文檔的合法性驗證和有效性驗證,以及利用XML的解析模型DOM或SAX對中間文檔進行解析,而不需要開發(fā)專門的工具,從而減少了不必要的系統(tǒng)開支。
3.在規(guī)則生成模塊中,選擇XSLT作為抽取規(guī)則描述語言。
XSLT作為W3C制定的標準,支持它的工具很多,目前已經(jīng)獲得了包括xalan在內(nèi)的二十多種工具的支持;XSLT定義了一套強大而且靈活的數(shù)據(jù)定位指令XPath和抽取指令,具有部分的高級編程語言的能力,能夠應(yīng)付許多場合的變換要求;XSLT采用XML語法進行定義,易于理解和修改,而且具有良好的擴展性;與java,c等高級語言相比,XSLT能夠以少量代碼完成文本塊的定位和抽取。
本發(fā)明也可以是將PDF源文檔1經(jīng)過中間文檔生成模塊7,產(chǎn)生中間XML文檔3,不經(jīng)過規(guī)則生成模塊8,而是直接進入自動抽取模塊9,輸出目標XML文檔5。還可以將PDF文檔,先經(jīng)過規(guī)則生成模塊8,輸出規(guī)則XSLT文檔4,再進入自動抽取模塊9,輸出目標XML文檔5。
PDF源文檔1為系統(tǒng)處理的原始對象、PDF樣本文檔2為提供給用戶學(xué)習(xí)從而獲得系統(tǒng)抽取規(guī)則的對象。
權(quán)利要求
1.一種PDF文檔到XML文檔轉(zhuǎn)換的方法,其特征在于它包括中間文檔生成模塊(7)、規(guī)則生成模塊(8)、自動抽取模塊(9)依次進行,其步驟為步驟一中間文檔生成模塊針對PDF樣本文檔(2)的內(nèi)容,根據(jù)語義項和文本塊之間的映射關(guān)系,系統(tǒng)自動生成標記語義項和信息塊特征的中間XML文檔(3);步驟二規(guī)則生成模塊對PDF樣本文檔(2)進行分析和處理,調(diào)用中間文檔生成模塊(7)產(chǎn)生的中間XML文檔,通過文檔解析器讀取PDF源文檔(1)的內(nèi)容,并將其轉(zhuǎn)換為規(guī)則XSLT文檔(4);步驟三自動抽取模塊接受規(guī)則XSLT文檔(4),得到滿足目標DTD文檔并具有語義信息的目標XML文檔(5)。
2.根據(jù)權(quán)利要求1所述的一種PDF文檔到XML文檔轉(zhuǎn)換的方法,其特征在于也可以是將PDF源文檔(1)經(jīng)過中間文檔生成模塊(7),產(chǎn)生中間XML文檔,不經(jīng)過規(guī)則生成模塊(8),而是直接進入自動抽取模塊(9),輸出目標XML文檔。
3.根據(jù)權(quán)利要求1所述的一種PDF文檔到XML文檔轉(zhuǎn)換的方法,其特征在于可以將PDF文檔,先經(jīng)過規(guī)則生成模塊(8),輸出規(guī)則XSLT文檔,再進入自動抽取模塊(9),輸出目標XML文檔。
4.根據(jù)權(quán)利要求1或3所述的一種PDF文檔到XML文檔轉(zhuǎn)換的方法,其特征在于規(guī)則生成模塊(8)生成的結(jié)果為規(guī)則XSLT文檔,包括以下三個步驟步驟一,開發(fā)用戶學(xué)習(xí)界面;步驟二,生成規(guī)則中間文檔;步驟三,編輯規(guī)則XSLT文檔。
全文摘要
本發(fā)明公開了一種PDF文檔到XML文檔轉(zhuǎn)換的方法,(一)中間文檔生成模塊(7)針對PDF樣本文檔(2)的內(nèi)容,根據(jù)語義項和文本塊之間的映射關(guān)系,系統(tǒng)自動生成標記語義項和信息塊特征的中間XML文檔(3);(二)規(guī)則生成模塊對PDF樣本文檔(2)進行分析和處理,調(diào)用中間文檔生成模塊(7)產(chǎn)生的中間XML文檔(3),通過文檔解析器讀取PDF源文檔(1)的內(nèi)容,并將其轉(zhuǎn)換為規(guī)則的XSLT文檔;(三)自動抽取模塊接受規(guī)則的XSLT文檔,得到滿足目標DTD文檔并具有語義信息的目標XML文檔(5)。本發(fā)明可以對轉(zhuǎn)換后的XML文檔做進一步的操作,從而提高文檔自動分類和用戶信息檢索的效率。
文檔編號G06F17/30GK1776673SQ200510122890
公開日2006年5月24日 申請日期2005年12月3日 優(yōu)先權(quán)日2005年12月3日
發(fā)明者張文德, 宋艷娟, 陳振標, 楊傳耀, 陳俊林, 朱丹紅 申請人:福州大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
城固县| 三门县| 广昌县| 徐汇区| 桂林市| 喜德县| 沭阳县| 木里| 元谋县| 丹凤县| 永宁县| 中西区| 涿鹿县| 西乡县| 兴山县| 怀集县| 林周县| 洛川县| 营口市| 永春县| 望奎县| 固阳县| 巴林右旗| 台前县| 荔浦县| 太仆寺旗| 苍溪县| 咸丰县| 林甸县| 康乐县| 澄迈县| 内黄县| 鸡西市| 汝南县| 苏尼特左旗| 广安市| 舒兰市| 岫岩| 平和县| 卓尼县| 郑州市|