两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種文檔處理系統(tǒng)和方法

文檔序號:6557702閱讀:320來源:國知局

專利名稱::一種文檔處理系統(tǒng)和方法
技術(shù)領(lǐng)域
:本發(fā)明涉及文檔處理系統(tǒng)和方法,特別是對文檔進(jìn)行識別并對識別后的文檔進(jìn)行處理的系統(tǒng)和方法。
背景技術(shù)
:文檔格式的識別一直是文檔自動處理中的一個難題,因為文檔的格式變化多樣,沒有固定的形式可言。現(xiàn)實工作生活中卻常常遇到要對同一種格式的文檔反復(fù)進(jìn)行處理的情況,因為同一種格式的文檔往往被不同的人在不同的時間反復(fù)使用,比如某公司的職位申請表,不同的應(yīng)聘者總是在不同的時間填寫相同格式的申請表。對于同一種格式文檔(如上面提到的申請表)的反復(fù)處理,可以預(yù)先把需要處理的文檔的格式保存起來,通過保存文檔的格式信息可極大的提高同一格式文檔自動處理的效率并且用戶還可以通過指定該類型文檔的輸出格式完成用戶的特定需求。專利號為US6,886,136,發(fā)明名稱為“在表格處理中模板的自動生成和區(qū)域定義(Automatictemplateandfielddefinitioninformprocessing)”的發(fā)明專利中給出了一種模板自動生成的方法,目的是通過對圖像文檔的分析把相似的文檔聚為一組,并為類似的文檔創(chuàng)建模板。通過自動創(chuàng)建模板的方式雖然可以提高模板創(chuàng)建的效率,這種處理其主要對象是圖像文件,同時其自動創(chuàng)建的模板信息非常有限,對文檔自動處理的幫助非常有限,也無法完成用戶指定的輸出格式。專利號為US6,785,420,發(fā)明名稱為“表格識別、字符識別的方法、設(shè)備和計算機(jī)產(chǎn)品(Methodandapparatusfortablerecognition,apparatusforcharacterrecognition,andcomputerproduct)”中公開了一種表格處理的方法,通過連通域分析找出表格,字符串和線條的位置,然后通過這些信息做表格識別,然而該方法中沒有用到文檔的模板信息。
發(fā)明內(nèi)容本發(fā)明的目的在于提供一種文檔處理系統(tǒng)和方法,對輸入文檔進(jìn)行識別,并對識別后的文檔進(jìn)行自動處理,提高文檔處理的效率,方便用戶,同時滿足特定的文檔處理的輸出要求。為了實現(xiàn)上述目的,本發(fā)明提供了一種文檔處理系統(tǒng),包括模板存儲模塊,用于存儲輸入模板和輸出模板,輸入模板用于記錄輸入文檔的格式信息,輸出模板用于記錄對應(yīng)于輸入文檔的輸出文檔的格式信息;模板匹配模塊,用于接收輸入文檔,并通過輸入文檔的格式信息和/或輸入模板的特定信息從模板存儲模塊選取輸入模板;文檔自動處理模塊,用于根據(jù)模板匹配模塊選擇的模板進(jìn)行輸入文檔的自動處理。上述的系統(tǒng),其中,文檔自動處理模塊還用于輸出利用輸出模板保存的輸出文檔。上述的系統(tǒng),其中,文檔自動處理模塊具體用于利用輸入模板提取輸入文檔的信息,并用于將提取出的輸入文檔的信息利用輸出模板進(jìn)行保存,和/或用于根據(jù)模板匹配模塊選擇的模板對輸入文檔進(jìn)行分類。上述的系統(tǒng),其中,還包括一用戶界面模塊,用于提供用戶對輸入模板或輸出模板進(jìn)行管理操作的界面,還用于提供用戶對模板匹配模塊進(jìn)行管理操作的界面。上述的系統(tǒng),其中,用戶界面模塊具體包括模板手動生成模塊,用于根據(jù)用戶輸入生成輸入模板或輸出模板,并將生成的輸入模板或輸出模板存儲到模板存儲模塊;和/或模板自動生成模塊,用于通過對輸入文檔和/或輸出模板進(jìn)行分析并產(chǎn)生相應(yīng)的輸入模板或輸出模板,并將生成的輸入模板或輸出模板存儲到模板存儲模塊;和/或模板編輯校正模塊,用于提供對輸入模板或輸出模板進(jìn)行編輯校正的界面,并將編輯校正后的輸入模板或輸出模板存儲到模板存儲模塊;和/或模板添加刪除模塊,用于根據(jù)用戶指示添加、刪除輸入模板或輸出模板;和/或可視化模塊,用于將模板、文檔及對模板和/或文檔的處理以圖形或圖象形式顯示;和/或模板匹配運行管理模塊,用于在模板匹配模塊無法為當(dāng)前輸入文檔匹配到相應(yīng)的輸入模板、找到多個相應(yīng)輸入模板或無法獲取輸入模板對應(yīng)的輸出模板時,提供用戶選擇輸入模板或輸出模板的界面,并將用戶選擇結(jié)果發(fā)送給模板匹配模塊;和/或文檔處理編輯模塊,用于提供用戶對文檔處理結(jié)果進(jìn)行校正和/或?qū)χ虚g結(jié)果進(jìn)行編輯,和/或?qū)ο到y(tǒng)的參數(shù)進(jìn)行修正的界面。為了更好的實現(xiàn)上述目的,本發(fā)明還提供了一種文檔處理方法,包括步驟A,將輸入模板和輸出模板保存到模板存儲模塊,輸入模板用于記錄輸入文檔的格式信息,輸出模板用于記錄對應(yīng)于輸入文檔的輸出文檔的格式信息;步驟B,模板匹配模塊接收輸入文檔,并通過輸入文檔的格式信息和/或輸入模板的特定信息從模板存儲模塊中選取對應(yīng)的輸入模板;步驟C,文檔自動處理模塊根據(jù)模板匹配模塊選擇的模板進(jìn)行輸入文檔的自動處理。上述的方法,其中,還包括步驟D,文檔自動處理模塊輸出利用輸出模板保存的輸出文檔。上述的方法,其中,所述步驟C具體為步驟C1,文檔自動處理模塊利用輸入模板提取輸入文檔的信息,并將提取出的輸入文檔的信息利用輸出模板進(jìn)行保存;和/或步驟C2,文檔自動處理模塊根據(jù)模板匹配模塊選擇的模板對輸入文檔進(jìn)行分類。上述的方法,其中,步驟A具體包括步驟A11,創(chuàng)建輸入模板,記錄輸入文檔的格式信息;步驟A12,創(chuàng)建輸出模板,記錄輸出文檔的格式信息,同時記錄輸出模板單元和輸入模板單元之間的對應(yīng)關(guān)系;步驟A13,將輸入模板和輸出模板保存到模板存儲模塊。上述的方法,其中,步驟A還可以是具體包括步驟A21,模板匹配模塊接收到輸入文檔;步驟A22,模板匹配模塊根據(jù)該輸入文檔的格式信息和/或模板的特定信息無法從模板存儲模塊中選取匹配的輸入模板;步驟A23,模板匹配模塊指示模板自動生成模塊根據(jù)該輸入文檔的格式信息創(chuàng)建輸入模板,并保存到模板存儲模塊。上述的方法,其中,步驟B具體包括步驟B1,模板匹配模塊接收輸入文檔,并根據(jù)輸入文檔的格式信息和/或模板的特定信息從模板存儲模塊查找匹配的輸入模板;步驟B2,模板匹配模塊判斷是否有匹配的輸入模板,如果否進(jìn)入步驟B3,否則進(jìn)入步驟B4;步驟B3,模板匹配模塊指示模板自動生成模塊根據(jù)該輸入文檔的格式信息創(chuàng)建輸入模板,并保存到模板存儲模塊并返回步驟B1;步驟B4,模板匹配模塊判斷是否有多個匹配的輸入模板,如果是進(jìn)入步驟B5,否則進(jìn)入步驟C;步驟B5,由用戶通過模板匹配運行管理模塊選擇一個輸入模板作為匹配的輸入模板后進(jìn)入步驟C,或由模板匹配模塊產(chǎn)生候選輸入模板后由用戶通過模板匹配運行管理模塊選擇一個輸入模板作為匹配的輸入模板后進(jìn)入步驟C。上述的方法,其中,步驟C具體包括步驟C1,文檔自動處理模塊分析輸入文檔找出輸入文檔對應(yīng)于輸入模板的每個單元,并提取輸入文檔對應(yīng)單元的信息;步驟C2,文檔自動處理模塊根據(jù)輸入模板單元和輸出模板單元的對應(yīng)關(guān)系,將從輸入文檔中提取的信息保存在由輸出模板定義的輸出文檔中。本發(fā)明的文檔處理系統(tǒng)和方法通過在模板存儲模塊存儲輸入模板和輸出模板,并利用模板匹配模塊對輸入文檔和模板之間進(jìn)行匹配,然后由文檔自動處理模塊基于匹配模板進(jìn)行自動處理,通過建立輸入模板單元與輸出模板單元的對應(yīng)關(guān)系,可以把指定的輸入文檔以指定的格式輸出,很大地方便了文檔處理的個性化需求;通過建立輸入模板,將輸入文檔每個單元的位置和屬性記錄在系統(tǒng)中,極大的提高了該類型文檔自動處理效率,同時也為該類文檔的分類提供了依據(jù)。圖1為本發(fā)明的文檔處理系統(tǒng)的結(jié)構(gòu)示意圖;圖2a為輸入模板的具體實例示意圖;圖2b為對應(yīng)于圖2a所示輸入模板的輸出模板的具體實例示意圖;圖3為本發(fā)明的第一種模板配置方式的流程示意圖;圖4為本發(fā)明的第二種模板配置方式的流程示意圖;圖5為本發(fā)明的文檔處理方法的文檔處理步驟的流程示意圖;圖6為文檔處理步驟中步驟52的具體流程示意圖。具體實施例方式本發(fā)明的文檔處理系統(tǒng)如圖1所示,包括模板存儲模塊11、模板匹配模塊12、文檔自動處理模塊13和用戶界面模塊14,其中模板存儲模塊11,用于存儲模板,該模板包括輸入模板和輸出模板,該輸入模板用于記錄輸入文檔的格式信息,該輸出模板用于記錄對應(yīng)于輸入文檔的輸出文檔的格式信息,其中該格式信息包括文檔單元的數(shù)量、每個文檔單元的相對位置和文檔單元的屬性等信息;模板匹配模塊12,用于接收輸入文檔,并通過輸入文檔格式信息和/或模板的特定信息從模板存儲模塊11選取匹配的輸入模板或根據(jù)用戶指示從模板庫存儲模塊11選取輸入模板,通常,該模板匹配模塊12可以處理輸入文檔的傾斜、縮放、扭曲和噪音等情況,其通過輸入文檔向模板的規(guī)一化完成的,通過對輸入文檔的處理,使輸入文檔盡可能的和輸入模板匹配,其具體步驟包括輸入文檔的傾斜校正來處理傾斜;通過輸入文檔單元和模板單元的匹配關(guān)系來處理文檔的縮放、扭曲和相對位移,比如先選取可能的匹配單元,然后通過這些匹配單元來處理文檔的縮放、扭曲和相對位移;通過對輸入文檔的去噪和引入抗噪的模板匹配策略來處理輸入文檔噪音,比如模板匹配方法允許輸入文檔單元的冗余和遺漏;文檔自動處理模塊13,用于通過輸入文檔和模板匹配模塊12選擇的輸入模板提取輸入文檔的信息,并將信息保存在對應(yīng)的輸出文檔中,同時還可用于根據(jù)模板匹配模塊選擇的模板對輸入文檔進(jìn)行分類;用戶界面模塊14,用于實現(xiàn)用戶對模板的管理操作,還用于實現(xiàn)用戶對模板匹配模塊12的運行管理操作,具體包括模板手動生成模塊,用于根據(jù)用戶輸入生成模板并存儲到模板存儲模塊11;模板自動生成模塊,用于通過對輸入文檔/輸出文檔進(jìn)行分析并產(chǎn)生相應(yīng)的輸入模板/輸出模板,并將輸入模板/輸出模板存儲到模板存儲模塊11;模板編輯校正模塊,用于提供對輸入模板/輸出模板進(jìn)行編輯校正的界面,并將編輯校正后的輸入模板/輸出模板存儲到模板存儲模塊11;模板添加刪除模塊,用于根據(jù)用戶指示添加或刪除輸入模板/輸出模板;可視化模塊,用于將模板和文檔以圖形或圖象形式顯示,便于用戶理解文檔和模板的格式;模板匹配運行管理模塊,用于在模板匹配模塊12無法為當(dāng)前輸入文檔匹配到相應(yīng)的輸入模板、找到多個相應(yīng)輸入模板或無法獲取輸入模板對應(yīng)的輸出模板時,提供用戶選擇輸入模板或輸出模板的界面,并將用戶選擇結(jié)果發(fā)送給模板匹配模塊12,用戶在選擇輸入文檔匹配的輸入模板或輸出模板時,輸入模板、輸出模板和文檔會以圖像圖形的形式顯示出來,以便于用戶選擇;文檔處理編輯模塊,用于提供用戶對文檔處理結(jié)果進(jìn)行校正和/或?qū)χ虚g結(jié)果進(jìn)行編輯,和/或?qū)ο到y(tǒng)的參數(shù)進(jìn)行修正的界面,可以通過圖像圖形的形式實現(xiàn)。圖2a和圖2b為本發(fā)明的輸入模板和輸出模板的具體實例。圖2a是為了收集某公司的員工個人信息而設(shè)計的一個文檔,圖2b是指定的輸出文檔格式,假設(shè)公司員工已經(jīng)將個人信息填入如圖2a所示的文檔中,而現(xiàn)在要求將這些個人信息以圖2b所示的格式保存為電子化文檔。對比圖2a和圖2b可以看出只有部分包含在圖2a所示的輸入模板中的信息被包含在圖2b所示的輸出模板中,并且輸出模板的格式與輸入模板格式不一樣,因此,模板不僅包含圖2a和圖2b文檔中的每個單元的信息,還應(yīng)包含輸入模板和輸出模板的相應(yīng)的單元的關(guān)系,比如圖2a的姓名和對應(yīng)圖2b的姓名,通常而言,模板包含以下信息文檔單元的相對位置,文檔單元包括文檔上每個文本塊、線條、圖片、表格及表格內(nèi)的線條、單元格等;文檔單元的屬性,比如每個單元的唯一標(biāo)識,單元的類型等,如果為字符串,還包括字符串的語言語種、字體等;輸入模板單元和輸出模板單元的對應(yīng)關(guān)系。圖2a所示的輸入模板可以定義為下面形式(僅例舉了部分文檔單元){Label1,position(Xs1,Yx1,Xe1,Ye1),Typeconstantstring(員工個人信息登記表(表20060303)),LanguageChinese,F(xiàn)ont宋體,etc;Label2,position(Xs2,Yx2,Xe2,Ye2),Typeconstantstringanddigits(員工唯一號digits),LanguageChinese+Digit,F(xiàn)ont宋體,etc;Label3,position(Xs3,Yx3,Xe3,Ye3),Typeconstantstringandstring(單位名稱string),LanguageChinese,F(xiàn)ont宋體,etc;Label4,position(Xs4,Yx4,Xe4,Ye4),Typetable,etc;Label5,position(Xs5,Yx5,Xe5,Ye5),Typeconstantstring(姓名),LanguageChinese,F(xiàn)ont宋體,etc;Label6,position(Xs6,Yx6,Xe6,Ye6),Typestring(string),LanguageChinese,etc;Label7,position(Xs7,Yx7,Xe7,Ye7),Typeconstantstring(公民身份號碼),LanguageChinese,F(xiàn)ont宋體,etc;Label8,position(Xs8,Yx8,Xe8,Ye8),Typedigits(digits,length=18),etc;Label9,position(Xs9,Yx9,Xe9,Ye9),Typephotograph,etc;..................}在上面的輸入模板中,Label用來為每個單元指定一個唯一的標(biāo)識,標(biāo)識可由系統(tǒng)生成也可由用戶指定,position用來表示單元的相對位置,可以系統(tǒng)生成或用戶指定,Type表示單元的屬性,比如字符串,數(shù)字圖片等;同時還定義了每個單位屬性的類型,比如是字符串還是數(shù)字等。圖2b所示的輸出模板可以定義為下面的形式{Mark1,Label9,position(Xs1,Yx1,Xe1,Ye1),Typephotographetc;Mark2,position(Xs2,Yx2,Xe2,Ye2),Typetable,etc;Mark3,label5,position(Xs3,Yx3,Xe3,Ye3),font宋體,size10;Mark4,label6,position(Xs4,Yx4,Xe4,Ye4),font宋體,size10;..................}該輸出模板與輸入模板類似,其不同之處在于輸出模板中定義了輸入模板單元和輸出模板單元的相互關(guān)系,其中,Mark為輸出模板單元的唯一標(biāo)識,Label為輸出模板單元在輸入模板中對應(yīng)單元的唯一標(biāo)識號,通過它可以建立輸入模板單元與輸出模板單元的對應(yīng)關(guān)系,比如標(biāo)識號為Mark1的輸出模板單元對應(yīng)標(biāo)識號為Labe9的輸入模板單元。通過建立這這種對應(yīng)關(guān)系,用戶可以把指定的輸入模板單元以指定的格式輸出,很大地方便了文檔處理的個性化需求。通過建立輸入模板,可將輸入文檔每個單元的位置和屬性記錄在系統(tǒng)中,這極大的提高了該類型文檔自動處理效率,同時也為該類文檔的分類提供了依據(jù),如,如果發(fā)現(xiàn)員工個人信息登記表(表200603031)字段,則可以將其分類到員工信息類別;通過建立輸出文檔,可以指定輸出文檔的格式和內(nèi)容,很大程度上滿足了用戶個性化的需要,極大地方便的用戶。本發(fā)明的文檔處理方法包括模板配置步驟和文檔處理步驟,下面分別進(jìn)行詳細(xì)描述。模板配置步驟中,通過用戶界面模塊將需要處理的輸入文檔和對應(yīng)的輸出文檔的格式信息以模板的形式保存在模板存儲模塊中,圖3和圖4所示為分別為本發(fā)明的模板配置的2種方式的流程示意圖。如圖3所示,本發(fā)明中第一種模板配置方式是在文檔處理系統(tǒng)運行前,用戶預(yù)先把將要處理的文檔格式以模板的形式保存到模板存儲模塊中,具體包括如下步驟步驟31,創(chuàng)建輸入模板,該輸入模板記錄了輸入文檔的格式信息,輸入模板可由用戶界面模塊中的模板自動生成模塊根據(jù)輸入文檔創(chuàng)建,也可以由用戶界面模塊中的模板手動生成模塊根據(jù)用戶輸入創(chuàng)建,該用戶輸入可以是用戶通過可視化模塊手動繪制的模板或通過模板編輯校正模塊處理后的模板;步驟32,創(chuàng)建輸出模板,該輸出模板記錄了輸出文檔的格式信息,同時包括輸出模板單元和輸入模板單元之間的對應(yīng)關(guān)系,輸出模板可由模板手動生成模塊結(jié)合輸出文檔和輸入模板創(chuàng)建,也可以由模板手動生成模塊根據(jù)輸入模板和用戶輸入創(chuàng)建;步驟33,模板手動生成模塊或模板自動生成模塊將輸入模板和輸出模板保存到模板存儲模塊。如圖4所示,本發(fā)明中第二種模板配置方式是在系統(tǒng)運行過程中遇到新的文檔時根據(jù)該新的文檔形成新的輸入模板加入到模板存儲模塊中,具體包括如下步驟步驟41,模板匹配模塊接收到輸入文檔;步驟42,模板匹配模塊根據(jù)輸入文檔的格式信息和/或模板的特定信息從模板存儲模塊選取匹配的輸入模板,但無法找到匹配的輸入模板;步驟43,模板匹配模塊指示模板自動生成模塊根據(jù)該輸入文檔的格式信息創(chuàng)建輸入模板,并保存到模板存儲模塊。在步驟43中,還可以由用戶通過模板編輯校正模塊對創(chuàng)建的輸入模板進(jìn)行校對后才保存到模板存儲模塊。當(dāng)根據(jù)該輸入文檔的格式信息創(chuàng)建輸入模板后,文檔處理系統(tǒng)以后就具備了處理該格式文檔的能力。本發(fā)明文檔處理方法中的文檔處理步驟針對接收到的輸入文檔,通過模板匹配,從模板存儲模塊查找輸入文檔匹配的輸入模板以及和該輸入模板對應(yīng)的輸出模板,并基于模板進(jìn)行文檔的自動處理,如圖5所示,文檔處理步驟具體包括如下步驟步驟51,模板匹配模塊收到輸入文檔;步驟52,模板匹配模塊根據(jù)輸入文檔從模板存儲模塊查找輸入模板,即為輸入文檔選擇相應(yīng)的輸入模板;步驟53,文檔自動處理模塊根據(jù)模板匹配模塊選擇的輸入模板提取輸入文檔的信息,并根據(jù)該輸入模板對應(yīng)的輸出模板將提取出的信息保存在對應(yīng)的輸出文檔中;輸入文檔的信息提取是通過輸入文檔和輸入模板完成的,通過對輸入文檔的分析找出輸入文檔對應(yīng)于輸入模板的每個單元,然后提取輸入文檔對應(yīng)單元的信息;提取信息的保存就是將從輸入文檔中提取的信息,通過輸入模板單元和輸出模板單元的對應(yīng)關(guān)系,保存在由輸出模板定義的輸出文檔中,上述的分析包括對輸入文檔各單元的檢測和各單元與模板單元的匹配。同時,上述的步驟也可以是根據(jù)文檔自動處理模塊根據(jù)模板匹配模塊選擇的輸入模板對輸入文檔進(jìn)行文檔分類的處理。由于在文檔自動處理時,系統(tǒng)通過輸入模板已經(jīng)知道輸入文檔的格式,系統(tǒng)在自動處理輸入文檔時就是根據(jù)輸入模板找出輸入文檔與輸入模板相對應(yīng)的每個單元,由于輸入文檔每個單元的屬性已經(jīng)在模板中指定,這大大提高了輸入文檔的處理效率,比如文檔版面分析,OCR識別結(jié)果等。其中,步驟52如圖6所示,具體包括如下步驟步驟521,模板匹配模塊根據(jù)輸入文檔格式信息從模板存儲模塊查找匹配的輸入模板,通常用于模板匹配的特征有輸入文檔的格式信息和/或模板的特定信息,如輸入文檔的格式信息包括文檔單元的數(shù)量、相對位置、屬性等,模板的特定信息比如圖2a中表頭的字符串“員工個人信息登記表(表200603031)”就可以作模板匹配的標(biāo)準(zhǔn)之一,通常在模板匹配中要通過對輸入文檔向輸入模板的規(guī)一化以處理輸入文檔的傾斜,縮放,扭曲,噪音,和單元的相對位移等情況;輸入文檔向模板的規(guī)一化是指通過對輸入文檔的處理,使輸入文檔盡可能的和輸入模板匹配,其具體步驟包括輸入文檔的傾斜校正來處理傾斜;通過輸入文檔單元和模板單元的匹配關(guān)系來處理文檔的縮放、扭曲和相對位移,比如先選取可能的匹配單元,然后通過這些匹配單元來處理文檔的縮放、扭曲和相對位移;通過對輸入文檔的去噪和引入抗噪的模板匹配策略來處理輸入文檔噪音,比如模板匹配方法允許輸入文檔單元的冗余和遺漏;步驟522,模板匹配模塊判斷是否有匹配的輸入模板,如果否進(jìn)入步驟523,否則進(jìn)入步驟524;步驟523,模板匹配模塊指示模板自動生成模塊根據(jù)該輸入文檔的格式信息創(chuàng)建輸入模板,并保存到模板存儲模塊并返回步驟521;步驟524,模板匹配模塊判斷是否有多個匹配的輸入模板,如果是進(jìn)入步驟525,否則進(jìn)入步驟53;步驟525,由用戶通過模板匹配運行管理模塊選擇一個輸入模板作為匹配的輸入模板后進(jìn)入步驟53。步驟525也可以是先由模板匹配模塊產(chǎn)生候選輸入模板后由用戶通過模板匹配運行管理模塊選擇一個輸入模板作為匹配的輸入模板后進(jìn)入步驟53。以上所述僅是本發(fā)明的優(yōu)選實施方式,應(yīng)當(dāng)指出,對于本
技術(shù)領(lǐng)域
的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以作出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。權(quán)利要求1.一種文檔處理系統(tǒng),其特征在于,包括模板存儲模塊,用于存儲輸入模板和輸出模板,輸入模板用于記錄輸入文檔的格式信息,輸出模板用于記錄對應(yīng)于輸入文檔的輸出文檔的格式信息;模板匹配模塊,用于接收輸入文檔,并通過輸入文檔的格式信息和/或輸入模板的特定信息從模板存儲模塊選取相應(yīng)的輸入模板和/或輸出模板;文檔自動處理模塊,用于根據(jù)模板匹配模塊選擇的模板進(jìn)行輸入文檔的自動處理。2.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,文檔自動處理模塊具體用于利用輸入模板提取輸入文檔的信息,并用于將提取出的輸入文檔的信息利用輸出模板進(jìn)行保存,和/或用于根據(jù)模板匹配模塊選擇的模板對輸入文檔進(jìn)行分類。3.根據(jù)權(quán)利要求2所述的系統(tǒng),其特征在于,所述文檔自動處理模塊還用于輸出利用輸出模板保存的輸出文檔。4.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,還包括一用戶界面模塊,用于提供用戶對輸入模板或輸出模板進(jìn)行管理操作的界面,還用于提供用戶對模板匹配模塊進(jìn)行管理操作的界面。5.根據(jù)權(quán)利要求4所述的系統(tǒng),其特征在于,所述用戶界面模塊具體包括模板手動生成模塊,用于根據(jù)用戶輸入生成輸入模板或輸出模板,并將生成的輸入模板或輸出模板存儲到模板存儲模塊;和/或模板自動生成模塊,用于通過對輸入文檔和/或輸出模板進(jìn)行分析并產(chǎn)生相應(yīng)的輸入模板或輸出模板,并將生成的輸入模板或輸出模板存儲到模板存儲模塊;和/或模板編輯校正模塊,用于提供對輸入模板或輸出模板進(jìn)行編輯校正的界面,并將編輯校正后的輸入模板或輸出模板存儲到模板存儲模塊;和/或模板添加刪除模塊,用于根據(jù)用戶指示添加、刪除輸入模板或輸出模板;和/或可視化模塊,用于將模板、文檔及對模板和/或文檔的處理以圖形或圖象形式顯示;和/或模板匹配運行管理模塊,用于在模板匹配模塊無法為當(dāng)前輸入文檔匹配到相應(yīng)的輸入模板、找到多個相應(yīng)輸入模板或無法獲取輸入模板對應(yīng)的輸出模板時,提供用戶選擇輸入模板或輸出模板的界面,并將用戶選擇結(jié)果發(fā)送給模板匹配模塊;和/或文檔處理編輯模塊,用于提供用戶對文檔處理結(jié)果進(jìn)行校正和/或?qū)χ虚g結(jié)果進(jìn)行編輯,和/或?qū)ο到y(tǒng)的參數(shù)進(jìn)行修正的界面。6.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,所述模板匹配模塊,還用于根據(jù)用戶指示從模板庫存儲模塊選取輸入模板。7.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,所述格式信息包括文檔單元的數(shù)量、每個文檔單元的相對位置和文檔單元的屬性。8.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,輸入模板和輸出模板通過文檔單元屬性中的標(biāo)識建立輸入模板單元與輸出模板單元之間的對應(yīng)關(guān)系。9.一種文檔處理方法,包括如下步驟步驟A,將輸入模板和輸出模板保存到模板存儲模塊,輸入模板用于記錄輸入文檔的格式信息,輸出模板用于記錄對應(yīng)于輸入文檔的輸出文檔的格式信息;步驟B,模板匹配模塊接收輸入文檔,并通過輸入文檔的格式信息和/或輸入模板的特定信息從模板存儲模塊中選取對應(yīng)的輸入模板;步驟C,文檔自動處理模塊根據(jù)模板匹配模塊選擇的模板進(jìn)行輸入文檔的自動處理。10.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述步驟C具體為步驟C1,文檔自動處理模塊利用輸入模板提取輸入文檔的信息,并將提取出的輸入文檔的信息利用輸出模板進(jìn)行保存;和/或步驟C2,文檔自動處理模塊根據(jù)模板匹配模塊選擇的模板對輸入文檔進(jìn)行分類。11.根據(jù)權(quán)利要求10所述的方法,其特征在于,步驟C1具體包括步驟C1,文檔自動處理模塊分析輸入文檔找出輸入文檔對應(yīng)于輸入模板的每個單元,并提取輸入文檔對應(yīng)單元的信息;步驟C2,文檔自動處理模塊根據(jù)輸入模板單元和輸出模板單元的對應(yīng)關(guān)系,將從輸入文檔中提取的信息保存在由輸出模板定義的輸出文檔中。12.根據(jù)權(quán)利要求9所述的方法,其特征在于,還包括步驟D,文檔自動處理模塊輸出利用輸出模板保存的輸出文檔。13.根據(jù)權(quán)利要求9所述的方法,其特征在于,步驟A具體包括步驟A11,創(chuàng)建輸入模板,記錄輸入文檔的格式信息;步驟A12,創(chuàng)建輸出模板,記錄輸出文檔的格式信息,同時記錄輸出模板單元和輸入模板單元之間的對應(yīng)關(guān)系;步驟A13,將輸入模板和輸出模板保存到模板存儲模塊。14.根據(jù)權(quán)利要求13所述的方法,其特征在于,所述步驟A1中,輸入模板可由用戶界面模塊中的模板自動生成模塊根據(jù)輸入文檔創(chuàng)建,或由用戶界面模塊中的模板手動生成模塊根據(jù)用戶輸入創(chuàng)建。15.根據(jù)權(quán)利要求14所述的方法,其特征在于,所述步驟A2中,輸出模板可由模板手動生成模塊根據(jù)輸出文檔和輸入模板創(chuàng)建,或由模板手動生成模塊根據(jù)輸入模板和用戶輸入創(chuàng)建。16.根據(jù)權(quán)利要求9所述的方法,其特征在于,步驟A具體包括步驟A21,模板匹配模塊接收到輸入文檔;步驟A22,模板匹配模塊根據(jù)該輸入文檔的格式信息和/或模板的特定信息無法從模板存儲模塊中選取匹配的輸入模板;步驟A23,模板匹配模塊指示模板自動生成模塊根據(jù)該輸入文檔的格式信息創(chuàng)建輸入模板,并保存到模板存儲模塊。17.根據(jù)權(quán)利要求16所述的方法,其特征在于,步驟A23中,還由用戶通過模板編輯校正模塊對創(chuàng)建的輸入模板進(jìn)行校對后保存到模板存儲模塊。18.根據(jù)權(quán)利要求9所述的方法,其特征在于,步驟B具體包括步驟B1,模板匹配模塊接收輸入文檔,并根據(jù)輸入文檔的格式信息和/或模板的特定信息從模板存儲模塊查找匹配的輸入模板;步驟B2,模板匹配模塊判斷是否有匹配的輸入模板,如果否進(jìn)入步驟B3,否則進(jìn)入步驟B4;步驟B3,模板匹配模塊指示模板自動生成模塊根據(jù)該輸入文檔的格式信息創(chuàng)建輸入模板,并保存到模板存儲模塊并返回步驟B1;步驟B4,模板匹配模塊判斷是否有多個匹配的輸入模板,如果是進(jìn)入步驟B5,否則進(jìn)入步驟C;步驟B5,由用戶通過模板匹配運行管理模塊選擇一個輸入模板作為匹配的輸入模板后進(jìn)入步驟C,或由模板匹配模塊產(chǎn)生候選輸入模板后由用戶通過模板匹配運行管理模塊選擇一個輸入模板作為匹配的輸入模板后進(jìn)入步驟C。19.根據(jù)權(quán)利要求18所述的方法,其特征在于,所述步驟B1中,還對輸入文檔向輸入模板作規(guī)一化處理。20.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述格式信息包括文檔單元的數(shù)量、每個文檔單元的相對位置和文檔單元的屬性。21.根據(jù)權(quán)利要求20所述的方法,其特征在于,輸入模板和輸出模板通過文檔單元屬性中的標(biāo)識建立輸入模板單元與輸出模板單元之間的對應(yīng)關(guān)系。全文摘要本發(fā)明公開了一種文檔處理系統(tǒng)和方法,該系統(tǒng)包括模板存儲模塊,用于存儲輸入模板和輸出模板;模板匹配模塊,用于接收輸入文檔,并通過輸入文檔的格式信息和/或輸入模板的特定信息從模板存儲模塊選取相應(yīng)的輸入和/或輸出模板;文檔自動處理模塊,用于根據(jù)模板匹配模塊選擇的輸入模板提取輸入文檔的信息,并用于將提取出的輸入文檔的信息利用輸出模板進(jìn)行保存。本發(fā)明可以把指定的輸入文檔單元以指定的格式輸出,很大地方便了文檔處理的個性化需求;通過將輸入文檔每個單元的位置和屬性記錄在輸入模板中,極大的提高了文檔自動處理效率,同時也可以用來文檔的分類。文檔編號G06F17/30GK101046808SQ20061006706公開日2007年10月3日申請日期2006年3月31日優(yōu)先權(quán)日2006年3月31日發(fā)明者歐文武,張睿,杜成,李滔申請人:株式會社理光
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
大厂| 万全县| 永济市| 龙川县| 贺州市| 鄂伦春自治旗| 玛纳斯县| 翁源县| 营口市| 榆社县| 八宿县| 西乌| 阿拉善左旗| 柯坪县| 昌邑市| 宁夏| 明光市| 凤凰县| 望奎县| 五指山市| 北票市| 望奎县| 蕲春县| 云浮市| 贵阳市| 双辽市| 阳山县| 郸城县| 镇康县| 章丘市| 邢台市| 隆子县| 江阴市| 新疆| 南丰县| 晋中市| 永登县| 绩溪县| 梁山县| 丘北县| 册亨县|