一種Word文檔格式檢查方法
【專利摘要】本發(fā)明公開了一種Word格式提取及再利用方法,包括如下步驟:A、針對某類文檔配置好相對應(yīng)的模版規(guī)則,包括文檔有哪幾個模塊組成,每個段落所要滿足的校驗(yàn)器等;B、利用Word轉(zhuǎn)xml的技術(shù),將用戶上傳的文檔轉(zhuǎn)換成xml文件,在xml文件中提取文檔的具體格式;C、根據(jù)配置好的模版,對用戶文檔提取的格式進(jìn)行匹配檢查,對于不正確的地方反饋具體信息,生成結(jié)果文檔。本發(fā)明的有益效果是:本發(fā)明基于J2EE的Word文檔格式檢查方法,幫助用戶檢測文檔格式不正確的部分,并給出批注,方便其改正,以降低格式檢查中人力的消耗。本發(fā)明的格式檢查方法是基于模版規(guī)則,在系統(tǒng)支持的架構(gòu)下,可隨意搭建模版,對文檔的支持非常廣泛。
【專利說明】—種Word文檔格式檢查方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種格式檢查方法,更具體說,它涉及一種Word文檔格式檢查方法?!颈尘凹夹g(shù)】
[0002]Microsoft Word是微軟公司的一個文字處理應(yīng)用程序,在辦公自動化中,Microsoft Word得到了越來越多的應(yīng)用。然而,在自動化辦公應(yīng)用非常廣泛的今天,經(jīng)常需要讀取并甄別有用信息,如何成批、快速的實(shí)現(xiàn)對Word文檔的格式檢查,將直接影響到人們的辦公效率。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的目的是克服現(xiàn)有技術(shù)中的不足,提供一種效率高,方便操作的Word文檔格式檢查方法。
[0004]這種Word格式提取及再利用方法,包括如下步驟:
[0005]A、針對某類文檔配置好相對應(yīng)的模版規(guī)則,包括文檔有哪幾個模塊組成,每個段落所要滿足的校驗(yàn)器等;
[0006]B、利用Word轉(zhuǎn)xml的技術(shù),將用戶上傳的文檔轉(zhuǎn)換成xml文件,在xml文件中提取文檔的具體格式;
[0007]C、根據(jù)配置好的模版,對用戶文檔提取的格式進(jìn)行匹配檢查,對于不正確的地方反饋具體信息,生成結(jié)果文檔。
[0008]作為優(yōu)選:所述步驟A具體包括:
[0009]Al、配置好模版的樹形結(jié)構(gòu),如文檔包含封面、標(biāo)題、正文,正文中包含多個章節(jié),章節(jié)中又包含圖片、表格、文字等內(nèi)容;
[0010]A2、給每個節(jié)點(diǎn)設(shè)置匹配次數(shù),邏輯上是或還是連接;
[0011]A3、為每個節(jié)點(diǎn)設(shè)置校驗(yàn)器,系統(tǒng)中自帶常用的校驗(yàn)器,如:字?jǐn)?shù)統(tǒng)計、段落字體、段落格式、內(nèi)容破頁等;
[0012]A4、根據(jù)特殊需求,為節(jié)點(diǎn)編寫自定義腳本。主要使用正則表達(dá)式對段落具體內(nèi)容進(jìn)行校驗(yàn);
[0013]A5、將配置好的模版生成xml文件,校驗(yàn)器用〈validator〉標(biāo)簽表示,節(jié)點(diǎn)用〈part〉標(biāo)簽表示。
[0014]本發(fā)明的有益效果是:本發(fā)明基于J2EE的Word文檔格式檢查方法,幫助用戶檢測文檔格式不正確的部分,并給出批注,方便其改正,以降低格式檢查中人力的消耗。本發(fā)明所提供的格式檢查方法是基于模版規(guī)則的,在系統(tǒng)支持的架構(gòu)下,可以隨意的搭建模版,對文檔的支持非常廣泛。
【專利附圖】
【附圖說明】
[0015]圖1為本發(fā)明流程圖;[0016]圖2是實(shí)施例的總體流程圖;
[0017]圖3是實(shí)施例封面格式掃描的流程圖;
[0018]圖4是實(shí)施例摘要格式掃描的流程圖;
[0019]圖5是實(shí)施例目錄格式掃描的流程圖;
[0020]圖6是實(shí)施例正文格式掃描的流程圖。
【具體實(shí)施方式】
[0021]下面結(jié)合附圖和實(shí)施例對本發(fā)明做進(jìn)一步描述。雖然本發(fā)明將結(jié)合較佳實(shí)施例進(jìn)行描述,但應(yīng)知道,并不表示本發(fā)明限制在所述實(shí)施例中。相反,本發(fā)明將涵蓋可包含在有附后權(quán)利要求書限定的本發(fā)明的范圍內(nèi)的替換物、改進(jìn)型和等同物。
[0022]本發(fā)明基于J2EE的word文檔格式檢查系統(tǒng),主要核心點(diǎn)在于,基于xml、正則表達(dá)式下解析word文檔與比較預(yù)定義模版、校驗(yàn)器,對不正確的部分進(jìn)行批注。至于Jacob、PO1、正則表達(dá)式等技術(shù)為現(xiàn)有技術(shù)所熟知,在此不再描述。
[0023]畢業(yè)論文模版包含封面、摘要、目錄、圖目錄、表目錄、正文、結(jié)論、參考文獻(xiàn)、附錄、致謝等部分,如圖2所示。
[0024]封面節(jié)點(diǎn)配置若干子節(jié)點(diǎn),包括題目、姓名、學(xué)號、指導(dǎo)老師、所在學(xué)院、班級、日期等子節(jié)點(diǎn)。
[0025]摘要包含標(biāo)題、副標(biāo)題、內(nèi)容、關(guān)鍵字等,其中副標(biāo)題可有可無,設(shè)置為匹配O或I次。
[0026]對于正文的檢查,我們可以配置好章節(jié)的模版,對章節(jié)匹配若干次。章節(jié)中包含若干節(jié)點(diǎn),有標(biāo)題、圖片、表格、文本、代碼、公式等子節(jié)點(diǎn)。圖片、表格、文本、代碼、公式等節(jié)點(diǎn)配置為或” I”運(yùn)算符。
[0027]對正文添加內(nèi)置校驗(yàn)器”字?jǐn)?shù)統(tǒng)計”,檢查論文子數(shù)是否達(dá)標(biāo)。
[0028]對于圖片、表格,我們需要檢查它們標(biāo)號是否正確(S卩,圖A.B中AB數(shù)字是否正確),可以在模版中配置一個自定義腳本。腳本使用系統(tǒng)掃描段落時記錄的變量,如currentChapterNos (當(dāng)前章節(jié)號)、currentPictureNos (當(dāng)前圖片編號)等加上簡單的if語句就能檢測圖片編號。
[0029]為圖片、表格添加內(nèi)置校驗(yàn)器”內(nèi)容破頁”,用來檢查圖片、表格是否跨頁。
[0030]對于參考文獻(xiàn)節(jié)點(diǎn),我們需要寫一個自定義的腳本作為校驗(yàn)器,用正則表達(dá)式來檢查文獻(xiàn)編號格式,如連續(xù)出版物的格式為:[序號]主要責(zé)任者.文獻(xiàn)題名[J].刊名,出版年份,卷號(期號):頁碼.[0031 ] 所有節(jié)點(diǎn)配置兩個內(nèi)置校驗(yàn)器,”段落格式”和”段落字體”,為內(nèi)置校驗(yàn)器配置屬性,
[0032]如”段落格式”的屬性包含對齊方式、大綱級別、行距、首行縮進(jìn)。這些常見屬性不需要編寫腳本,在屬性值框中選擇設(shè)置即可。
[0033]完成模版配置后將模版保存,系統(tǒng)根據(jù)模版配置,生成對應(yīng)的xml文件,〈part〉對應(yīng)節(jié)點(diǎn)、〈validator〉對應(yīng)校驗(yàn)器、〈property〉對應(yīng)校驗(yàn)器屬性。matcher值中的內(nèi)容對應(yīng)用戶自定義腳本。
[0034]對上傳文檔進(jìn)行匹配,以畢業(yè)設(shè)計模版為例,大致流程如圖2所示,匹配到某一節(jié)點(diǎn)后,進(jìn)入對應(yīng)的流程,如匹配到封面后,子流程如圖3所示。
[0035]檢查過程校驗(yàn)器找到的格式錯誤,會生成改正提示信息,使用Jacob以批注的形式加到文檔中,方便用戶改正。
[0036]本發(fā)明的【具體實(shí)施方式】提供了一類文檔的模版配置方式,只要按照系統(tǒng)所建立的規(guī)則花一定的時間配置好模版,就可以檢查任何word文檔的格式。
【權(quán)利要求】
1.一種Word文檔格式檢查方法,其特征在于:包括如下步驟: A、針對某類文檔配置好相對應(yīng)的模版規(guī)則,包括文檔有哪幾個模塊組成,每個段落所要滿足的校驗(yàn)器等; B、利用Word轉(zhuǎn)xml的技術(shù),將用戶上傳的文檔轉(zhuǎn)換成xml文件,在xml文件中提取文檔的具體格式; C、根據(jù)配置好的模版,對用戶文檔提取的格式進(jìn)行匹配檢查,對于不正確的地方反饋具體信息,生成結(jié)果文檔。
2.根據(jù)權(quán)利要求1所述的Word文檔格式檢查方法,其特征在于:所述步驟A具體包括: Al、配置好模版的樹形結(jié)構(gòu),如文檔包含封面、標(biāo)題、正文,正文中包含多個章節(jié),章節(jié)中又包含圖片、表格、文字等內(nèi)容; A2、給每個節(jié)點(diǎn)設(shè)置匹配次數(shù),邏輯上是或還是連接; A3、為每個節(jié)點(diǎn)設(shè)置校驗(yàn)器,系統(tǒng)中自帶常用的校驗(yàn)器,如:字?jǐn)?shù)統(tǒng)計、段落字體、段落格式、內(nèi)容破頁等; A4、根據(jù)特殊需求,為節(jié)點(diǎn)編寫自定義腳本。主要使用正則表達(dá)式對段落具體內(nèi)容進(jìn)行校驗(yàn); A5、將配置好的模版生成xml文件,校驗(yàn)器用〈validator〉標(biāo)簽表示,節(jié)點(diǎn)用〈part〉標(biāo)簽表示。
3.根據(jù)權(quán)利要求1所述的Word文檔格式檢查方法,其特征在于:所述步驟C具體包括: Cl、解析xml文件,用自動機(jī)匹配模版中配置的節(jié)點(diǎn),如果某一節(jié)點(diǎn)匹配不到,顯示未能匹配,在文檔中批注哪個節(jié)點(diǎn)沒有匹配到; C2、對于每一個節(jié)點(diǎn),抽取模版中對應(yīng)節(jié)點(diǎn)的校驗(yàn)器; C4、對于格式內(nèi)容不正確的地方,提取模版信息和實(shí)際信息,進(jìn)行注釋,生成結(jié)果文檔。
4.根據(jù)權(quán)利要求3所述的Word文檔格式檢查方法,其特征在于:所述步驟C2和C4之間還包括: C31、以一個段落為基本單元,提取該段落的信息,包含文本內(nèi)容、文本大綱級別、段落內(nèi)圖片數(shù)、段落內(nèi)表格數(shù)、當(dāng)前章節(jié)標(biāo)號等; C32、模版節(jié)點(diǎn)的校驗(yàn)器中的腳本可以使用這些信息的變量,將段落的實(shí)際信息與校驗(yàn)器的腳本進(jìn)行比對。
【文檔編號】G06F17/30GK103886098SQ201410137144
【公開日】2014年6月25日 申請日期:2014年4月4日 優(yōu)先權(quán)日:2014年4月4日
【發(fā)明者】柯海豐, 張高燕, 陳佳寧, 何瓣, 宋 瑩 申請人:浙江大學(xué)城市學(xué)院