掃描期間的異常檢測的制作方法

文檔序號：7622155閱讀：231來源：國知局

專利名稱：掃描期間的異常檢測的制作方法
技術領域：
本發(fā)明涉及處理多頁文檔的方法，該方法包括以下步驟接收通過光學掃描多頁文檔的一系列頁面而得到的掃描圖像，并且處理掃描圖像以生成對應于多頁文檔的原始頁面的頁面圖像的文件。
本發(fā)明還涉及用于處理多頁文檔的計算機程序產品。
本發(fā)明還涉及文檔處理系統(tǒng)，包括用于通過光學掃描多頁文檔的一系列頁面生成掃描圖像的掃描儀單元、本地用戶界面單元以及用于處理掃描圖像以生成對應于多頁文檔的原始頁面的頁面圖像的圖像處理器單元。
背景技術：
當出于存檔的目的而必須掃描大的文檔時，無誤地掃描文檔的所有頁面是相當重要的，因為當以后檢測到掃描錯誤時，可能再也得不到原始文檔了。因此，必需檢查每個掃描圖像以保證質量。然而，檢查每個掃描圖像的質量需要大量的時間和努力并且給進行掃描工作的人員造成過重的負擔。而且，檢查大量的圖像令人厭煩且容易出錯。
一種規(guī)避人類檢查過程的方法是使用自動系統(tǒng)，它自動檢查每個新掃描圖像，并且如果可能的話還通過相關的圖像處理技術來糾正出錯的圖像。以下將不符合預定質量標準的掃描圖像稱作“異?！?。
從專利申請WO98/09427得知這種方法，它描述了用于確保掃描或復制期間的質量的裝置和方法。該方法包括以下步驟送入要接受掃描的頁面并且在一系列步驟中檢查掃描圖像的質量，包括就傾斜、雙頁送入/重疊、反常形狀以及幾何變形進行外部特征的檢查、對所謂的頁面內容的內部質量的檢查以及對信息內容質量的檢查。在每個步驟中，將測量的質量與質量極限進行比較。如果測量的質量是依照該極限或更好，如果需要的話，進行掃描圖像的自動調整，調整之后，將掃描圖像加到掃描文件中。如果測量的質量低于極限，請求操作員重新送入頁面以進行e-掃描。
在已知的系統(tǒng)中，基于固定的、預編程的質量極限進行質量檢查，這可能并不總是適合實際情況。如果檢查是否定的，除了重新掃描沒有其它選擇，這迫使操作員重新送入文檔。然而，可能出現(xiàn)被拒絕的掃描圖像實際上仍然可接受或者可以通過小調整變成可接受的而根本不需要重新掃描的情況。

發(fā)明內容
本發(fā)明的目的是提供用于處理掃描圖像以生成與多頁文檔的原始頁面非常對應的一系列頁面圖像的方法和系統(tǒng)，同時為操作員提供靈活的選擇用于基于質量的自動檢測來糾正有限數(shù)量的頁面圖像。
根據(jù)本發(fā)明的第一方面，用如開頭段落中所述的方法實現(xiàn)此目的，特征在于，該方法包括以下步驟基于在處理掃描圖像期間獲得的多頁文檔的頁面屬性自動確定圖像參數(shù)的目標標準、檢查頁面的圖像參數(shù)是否是按照目標標準，并且如果是，自動接受頁面圖像，而如果不是，顯示頁面圖像供操作員進行糾正動作或接受頁面圖像。
根據(jù)本發(fā)明的第二方面，通過用于執(zhí)行該方法的計算機程序產品來實現(xiàn)該目的。
根據(jù)本發(fā)明的第三方面，通過在開頭段落中所述的文檔處理系統(tǒng)實現(xiàn)該目的，特征在于，該系統(tǒng)包括異常檢測裝置，用于基于在處理掃描圖像期間獲得的多頁文檔的頁面屬性確定圖像參數(shù)的目標標準、檢查頁面的圖像參數(shù)是否是按照目標標準，并且如果是，自動接受頁面圖像，而如果不是，顯示頁面圖像供操作員通過用戶界面單元進行糾正動作或接受頁面圖像。
這些措施具有以下結果。處理掃描圖像產生基于檢測的頁面屬性的頁面圖像。在頁面圖像中，掃描過程的各種結果可以在處理掃描圖像的步驟中得到補償或糾正。將頁面屬性和糾正與目標標準進行比較，目標標準是基于多頁文檔本身的統(tǒng)計屬性來設置的。因此與文檔屬性相關地測量頁面圖像的質量，并且隨后如果提出的處理的頁面圖像實質性地偏離目標標準，那么把頁面圖像稱作異常。顯示提出的頁面圖像，操作員則可能接受，或者可能拒絕、重新掃描、在糾正動作中糾正或調整頁面圖像。這樣做的優(yōu)點是，需要操作員只是檢驗有限數(shù)量的異常而大部分掃描圖像是自動處理的。此外，操作員可以防止拒絕實際上可接受或仍可調整的圖像。
特別是，將目標標準調整為文檔的全局屬性，這樣就考慮了實際掃描的多頁文檔的屬性。這有利地改進了異常的檢測并且減少了不必要地被分類為異常的正確頁面的數(shù)量。如果檢測到實質性地偏離目標標準，那么檢測到異常，并且只有在那時才向操作員顯示出提出的圖像以供核準或糾正。因此通過有選擇的檢查和糾正來有效地防止頁面圖像的最終集合中的錯誤。
在該方法的一個實施例中，所述確定目標標準包括基于在處理掃描圖像期間獲得的頁面屬性統(tǒng)計確定至少一個圖像參數(shù)的目標范圍。這樣做的結果是基于多頁文檔的掃描圖像的屬性統(tǒng)計確定或調整預期值的目標范圍。
在一個實施例中，圖像參數(shù)包括頁面尺寸或文本區(qū)域位置或大小。在整個像書或雜志之類的多頁文檔上，這種參數(shù)通常是一致的。基于檢測圖像參數(shù)(例如檢測的頁面尺寸)是否在預期值的目標范圍之外，檢測異常并向操作員顯示。
在該方法的一個實施例中，所述檢測圖像參數(shù)是否是按照目標標準的步驟包括計算可靠性因數(shù)，該因數(shù)表明為生成頁面圖像進行的調整的可靠性。計算諸如校直(deskew)或旋轉的處理步驟的可靠度，例如在處理期間，已經檢測到提出的頁面圖像的結果由于不清楚的數(shù)據(jù)而不可靠。因此目標標準可包括最低的可靠性級別。
在一個實施例中，預期值包括用于多頁文檔的頁面的預定參數(shù)的關于文檔的先驗知識。先驗知識可以與來自多頁文檔的統(tǒng)計數(shù)據(jù)結合或用來自多頁文檔的統(tǒng)計數(shù)據(jù)進行檢驗。文檔的一般屬性通常是預期的，例如，文本排列成水平行。也可以為適當?shù)奈臋n應用或選擇預定義的參數(shù)集，例如包括用于日語文檔的垂直文本行。使用先驗知識的優(yōu)點是可容易檢測異常，因為它們偏離常見的文檔屬性。
在一個實施例中，預定義的參數(shù)包括文本行取向，而處理掃描圖像包括檢測文本行取向并根據(jù)檢測的文本行取向糾正掃描圖像的偏斜。這樣做的優(yōu)點是，可容易糾正掃描期間的常見錯誤，即掃描儀上原始頁面的位置傾斜。
在一個實施例中，所述方法包括建立頁面圖像的復合集，該復合集具有對應于多頁文檔中頁面范圍的邏輯部分。這樣做的優(yōu)點是，可以在頁面圖像的復合集中維持原始文檔的邏輯子部分，例如，書中的章節(jié)。在一個特定實施例中，該方法包括從操作員接收命令，該命令用于表明掃描圖像的子集構成頁面圖像復合集的邏輯部分。這樣做的優(yōu)點是，在掃描期間，在原始文檔頁面的連貫范圍開始和/或結束的時候，操作員可以容易地輸入命令。
根據(jù)本發(fā)明的設備的另外優(yōu)選的實施例在所附權利要求中給出，通過引用將其公開內容結合于此。

通過參考附圖并且參考在下面描述中以示例形式說明的實施例，進一步闡述了本發(fā)明的這些方面和其他方面，它們將顯而易見，附圖中圖1示出用于處理文檔的設備，圖2示出掃描多頁文檔的方法，
圖3示出書的掃描圖像的示例，圖4示出用于檢測取向的文本屬性，圖5示出文檔處理系統(tǒng)的組成部分的示意圖，圖6示出檢測文本區(qū)位置的結果，以及圖7示出用戶界面。
附圖是示意性的而不是按比例繪制的。在附圖中，對應于已經描述的部分的部分具有相同的參考標記。
具體實施例方式
圖1示出用于處理文檔的設備，以示意的形式分別示出設備上的不同部分。文檔通常是紙件文檔，但可以包括任何類型的用于攜帶信息的片狀物，例如，開支報表(overhead sheet)、書、圖等等。用于處理文檔的設備1可以只是掃描儀，但最好是還包括打印、復印或傳真功能的多功能設備，例如，多用途復印機。掃描儀單元120包括配備了玻璃稿臺(原始文檔可以放在玻璃稿臺上面)、CCD陣列以及用于使文檔在CCD陣列上成像的具有可移動鏡和透鏡系統(tǒng)的成像單元的平板掃描儀。在這些條件下，CCD陣列生成電信號，這些電信號以本來已知的方式轉換成數(shù)字圖像數(shù)據(jù)。文檔送入器110可以配備用于引入一摞文檔的輸入托盤111、用于沿著掃描儀單元120逐個地傳輸文檔的傳輸機構(未示出)以及在掃描之后放置文檔的交付托盤112。
在適當時，可以經由文檔送入器放入要掃描的多頁文檔。例如，可以手動地將書或雜志放到稿臺上?？梢詾槎囗撐臋n提供另外的掃描輔助，例如，自動翻書頁。
設備可以具有打印機單元130，例如包括本來已知的電子照相處理部件，其中，光電導介質被充電、按照數(shù)字圖像數(shù)據(jù)經由LED陣列曝光以及用色粉粉末顯影，然后轉印色粉圖像并定影在圖像載體上，通常是一張紙。在供應部件140中可得到許多不同格式和取向的圖像載體。帶有色粉圖像的圖像載體被傳輸?shù)酵瓿珊徒桓恫考?50，如果必要的話，完成和交付部件150將它們收集成集并裝訂它們，然后在交付托盤151中存放它們。
設備的控制單元由參考標記170示意示出。下面參考圖5更詳細地說明按照本發(fā)明處理掃描圖像的功能。電纜171可以將控制單元170連到本地網絡。網絡可以是有線的，但也可以是部分或完全無線的。
設備具有用戶界面160，例如包括設在設備上用于對其操作的操作員控制面板。用戶界面配備顯示器161和按鍵。下面描述用于控制文檔處理的顯示器的操作。
注意，在按照本發(fā)明的文檔處理系統(tǒng)中，掃描可以在獨立的設備中進行，而如下所述的圖像處理是在具有顯示器和操作員界面的處理器單元中進行的，例如用戶工作站。處理器可以構建為專用硬件單元，或可以包括標準處理單元和軟件程序以實現(xiàn)如下所述的圖像處理和糾正功能。
圖2示出掃描多頁文檔的方法。在第一階段，所述方法開始于“開始”21，在步驟“掃描”22中光學掃描多頁文檔。可以對整個文檔或按部分對文檔進行掃描。對于每個掃描操作，通過將新的原始頁面定位在掃描儀上或對于書而言是將雙頁面放置在掃描單元的稿臺上，生成掃描圖像。含兩個頁面的掃描圖像稱作雙掃描圖像。在特殊情況下，掃描圖像可包含更多數(shù)量的子圖像，以便被自動處理成分開的頁面圖像。可以直接處理掃描圖像或者把掃描圖像存儲為中間文件，或者也可以把掃描圖像包括在最終文件中，例如也保持原始的源材料。
在下一步驟PROC 23中，接收并處理通過掃描多頁文檔的一系列頁面而得的掃描圖像，生成對應于多頁文檔的原始頁面的頁面圖像。對每個掃描圖像執(zhí)行一些處理步驟，用于檢索一個頁面圖像或在雙掃描圖像情況下的兩個頁面圖像。頁面圖像是原始頁面的表示，即，掃描圖像提供的掃描數(shù)據(jù)的已處理版本。下面給出若干將掃描圖像處理成頁面圖像的示例。
按照本發(fā)明，在步驟PROC 23中的處理期間，收集統(tǒng)計信息STAT20，該統(tǒng)計信息用于基于在處理掃描圖像期間得到的多頁文檔的頁面屬性確定圖像參數(shù)的目標標準。例如，可以確定像紙張尺寸、文本區(qū)大小和對比度之類的屬性的預期值。目標標準是基于統(tǒng)計確定的屬性(例如平均值或中值以及基于方差的容限)的預定圖像參數(shù)的預期值和容限。
應當指出，為了可靠確定統(tǒng)計參數(shù)，首先需要處理至少若干頁面。因此，多頁文檔的初始部分(至少幾頁，但最好是文檔的實質部分或甚至是整個文檔)需要是可用的(即被掃描和被存儲)，并且在開始如下所述的異常檢測之前被處理。因此，如果多頁文檔的所述初始部分包括10頁并且例如第一或第二掃描圖像證明是異常，那么延遲10頁再提供。在處理了初始部分之后，可以無延遲地測試另外的掃描圖像是否有異常。在處理文檔的剩余部分期間可以精細確定最初確定的統(tǒng)計參數(shù)?？蛇x地，可以掃描和存儲完整的多頁文檔，并且可以在初始運行中處理掃描圖像的全集以確定統(tǒng)計參數(shù)，并且在第二運行中基于完整文檔的統(tǒng)計來檢測異常。
在步驟PROP 24中，通過基于檢測的圖像參數(shù)改進或糾正處理功能，處理步驟23生成提出的頁面圖像。下面給出這種處理功能的若干示例。
在下一步驟“異?！?5中，確定頁面圖像是否是異常，即，圖像頁面的屬性或圖像參數(shù)是否實質性地偏離基于統(tǒng)計信息20的目標標準。通過確定圖像參數(shù)是否在目標標準之外來評估頁面圖像。
如果頁面圖像不是異常，在步驟“存儲”26通過自動接受頁面圖像繼續(xù)該過程。然而，如果頁面圖像被檢測為異常，通過如下與操作員的交互繼續(xù)該過程。在步驟“顯示”30中，為操作員顯示頁面圖像。因此，操作員可以可視地檢查提出的頁面圖像即處理的結果。如果提出的頁面圖像是他可接受的，在步驟“接受”31操作員命令接受提出的頁面圖像。如果結果不是可接受的，在步驟“調整”32中可以手動調整頁面圖像的處理。例如，如果提出錯誤的文本區(qū)域，可以剪切去掃描圖像的一部分，包括原始文本的邊緣，并且操作員可以調整提出的頁面圖像的文本區(qū)邊框。隨后，在步驟“存儲”26中存儲調整的或接受的頁面圖像。
最后，如果在步驟“下一個圖像”27檢測時處理了得到的掃描圖像并且在步驟“下一次掃描”28檢測時沒有另外的文檔頁面或部分需要被掃描，那么在步驟“組合”29中，產生的頁面圖像被組合成原始多頁文檔的多頁數(shù)字輸出文檔，例如存儲在文件中。應當指出，如果過程是面向批處理的并且需要在處理開始之前掃描完整的文檔，那么可以省略步驟“下一個掃描”28。在“結束”33通過交付輸出文檔文件結束過程。
在本方法的實施例中，在步驟PROC 23中確定圖像參數(shù)的統(tǒng)計值的步驟包括以下內容。在掃描時，頁面邊緣檢測器檢測最強的邊緣并且選擇四邊緣形成邊框，其尺寸離頁面區(qū)最近。對單獨頁面的與檢測的紙張尺寸有關的參數(shù)和屬性進行統(tǒng)計分析，例如，進行平均，并且對產生的原始頁面的紙張尺寸特征進行估計。隨后，將參數(shù)或屬性的預期值存儲為紙張尺寸標準以和多頁文檔另外的頁面進行比較。
在實施例中，目標標準包括基于在處理掃描圖像期間獲得的頁面屬性的至少一個圖像參數(shù)的目標范圍。例如，圖像參數(shù)可以包括文本區(qū)位置。在多頁文檔的范圍內，文本區(qū)參數(shù)通常是一致的。而且更詳細的特征，像頁頭或頁腳的位置或一系列頁碼或章節(jié)號，可以單獨檢測和存儲為預期值。因此可以檢測缺頁。
除基于掃描圖像的統(tǒng)計分析的屬性的預期值外，步驟PROC 23的處理可以包括關于文檔的先驗知識，即假定多頁文檔的頁面的預定義參數(shù)或屬性存在。例如，許多掃描的文檔具有標準的紙張尺寸，像A4或書信。預定義參數(shù)的實例是文本行取向，即假定文本以平行于紙張邊緣的方向排列成行，并且認為將文本排列為豎直字符組成的水平行。因此，從文本行的檢測角看，假定原始頁面是在傾斜的位置被掃描，并且必須被旋轉直到文本行取向是水平的，即所謂的傾斜量為零。隨后，掃描圖像的處理包括檢測文本行取向并根據(jù)檢測的文本行取向糾正掃描圖像的傾斜。
使本方法另外的實施例能夠處理掃描圖像中的多個原始頁面，特別是書或雜志的雙掃描圖像的兩個頁面。因此，雙掃描圖像包含多頁文檔的脊并且頁面位于脊的兩側。
圖3示出書的掃描圖像的示例。掃描圖像是書的兩頁35和36的雙掃描圖像。以256個灰度級別、300DPI(每英寸點數(shù))掃描頁面，從而圖的分辨率降低。掃描圖像含黑色或灰色邊框區(qū)38，這應該被除去，因為它不是原始頁面的部分。要檢測頁面之間的行(稱作多頁文檔的脊37)以分開兩頁面。文本區(qū)39可用在每頁上，但是在一些頁面上也可用于包括可以不使用、即白色的圖像?？梢酝ㄟ^頁面35、36的白色區(qū)的邊界來檢測紙張尺寸。要注意的是，由于書的放置方式，隱藏在書脊中的紙的量可以變化。這種變化量可以通過重建在左邊和右邊都具有適合的頁邊空白的原始頁面來補償，例如，通過使文本區(qū)39獨立于書脊而居中。
在圖2所示的方法中，處理掃描圖像的步驟PROC 23可以包含檢測多頁文檔的脊并由單個掃描圖像生成兩個頁面圖像。原始文檔的檢測可以是自動的，例如，基于脊、平行的文本區(qū)的出現(xiàn)和/或檢測的紙張尺寸并結合文本行取向?？蛇x地，操作員可以輸入命令以表明要掃描和處理脊型多頁文檔。
在步驟PROC 23的實施例中，處理雙掃描圖像包括分別對于所述兩個頁面的每個來檢測文本行取向。注意的是，由于放置書的方式，兩頁面的傾斜角可以是不同的。因此，通過根據(jù)檢測的文本行取向來檢測和校正雙掃描圖像的兩個部分的傾斜，對兩個圖像頁面單獨處理以使傾斜為零。
多頁文檔另外的屬性是每頁具有正確的稱作豎直的取向。然而，在掃描期間，多頁文檔可能顛倒取向或側向取向。在處理期間，可以檢測掃描圖像上的原始頁面取向，并且通過適當?shù)男D由不同取向的掃描圖像生成正立的頁面圖像。可以通過象頂部或底部空白、頁碼等頁面布局屬性來檢測頁面取向。在特定的示例中，所述檢測頁面取向是基于對文本的檢測和對文本屬性的確定。
圖4示出用于檢測取向的文本屬性，尤其是顛倒檢測。分析文本片段40，并且延伸到底部基線42以下的字符稱作下超部分44，而延伸到頂部基線44以上的字符稱作上超部分43。通常，對于上超部分和下超部分有個比率，例如，對于拉丁語要預期某些比率。這種先驗知識可以用作起始值。在處理掃描圖像期間可以統(tǒng)計地確定或調整特定文檔的比率。應用目標比率以檢測文檔位圖(掃描圖像內部的頁面區(qū))是顛倒還是直立的，并且應用目標比率以確定所檢測的取向的可靠性。每個字符分類成上超部分、下超部分或無。例如，如果完整頁面的上超部分和下超部分的比率接近目標比率，那么頁面是直立的。如果比率接近反的目標比率，那么頁面是顛倒的并且進行180度的旋轉以糾正頁面。如果(糾正的)頁面的比率實質性地偏離目標比率，那么檢測到異常。
還可以使用字符的其它屬性來檢測文本取向。例如，確定所選字符(例如字符i)的取向提供文本取向參數(shù)。
圖2所示的方法中的步驟“異?！?5是用于檢測圖像參數(shù)是否在目標標準之外。目標標準可以包括如下的可靠性標準。在步驟PROC23處理各種糾正和調整期間，計算可靠性因數(shù)，該因數(shù)表明為生成頁面圖像進行的調整是正確的可靠性。例如，頁面上的文本行的數(shù)量可能是非常小的。因此，所檢測的文本行取向或字符特征可能不太可靠，并且可靠性因數(shù)會低。所檢測的頁面邊緣可能示出灰色區(qū)，例如，由于原始的多頁文檔的紙張在稿臺上沒有完全壓平。因此，通過在所檢測的紙張邊緣附近的灰色圖像元素(像素)的出現(xiàn)，假定紙張邊緣或取向的可靠性低，并且計算低的可靠性因數(shù)。
圖5示出文檔處理系統(tǒng)的組成部分的圖。文檔處理系統(tǒng)50具有用于通過光學掃描多頁文檔58的一系列頁面生成掃描圖像的掃描儀單元51。掃描儀單元可以是掃描和處理設備的一部分，或者可以是單獨的掃描設備。文檔處理系統(tǒng)50具有控制單元52，它耦合到掃描儀單元51、本地存儲器57以及包括顯示器55和諸如按鍵、經由光標的菜單控制、觸摸屏等用戶命令部分56的用戶界面54。存儲器可以包括固態(tài)存儲器、磁盤等。處理器單元包括用于控制掃描圖像的接收的掃描控制單元60、用于經由用戶界面54與操作員通信的用戶界面控制單元63、圖像處理器單元61以及用于生成包含頁面圖像的輸出文檔59的異常檢測單元62，該頁面圖像已經被處理并且經檢查是在圖像特征預期的目標范圍內，并且由操作員任意調整。
圖像處理器單元61處理掃描圖像以生成對應于多頁文檔的原始頁面的頁面圖像。異常檢測單元62通過檢測圖像參數(shù)是否在預期值的目標范圍之外來檢測頁面圖像是否是異常。隨后，如果頁面圖像不是異常，異常檢測單元自動接受頁面圖像。如果頁面圖像是異常，在顯示器55上顯示頁面圖像，供操作員經由用戶界面單元54上的用戶命令部分56來接受或調整頁面圖像。
在系統(tǒng)50中，圖像處理器單元可以使用先驗知識或可以被安排用于確定如上所述的圖像參數(shù)的預期值。具體地，預期值可以是基于在處理掃描圖像期間獲得的頁面屬性，例如平均紙張尺寸。系統(tǒng)50可以被安排用于建立輸出文檔59中的頁面圖像的復合集。復合集具有對應于多頁文檔中的頁面范圍的邏輯部分的結構，例如章節(jié)和附錄。本地用戶界面單元54具有可控部分，例如輸入按鈕，用于接收來自操作員的命令，該命令用于表明掃描圖像的子集構成頁面圖像復合集的邏輯部分。在實施例中，系統(tǒng)包括用于打印頁面圖像或任何其它的所請求的打印作業(yè)的打印機單元(未示出)。
在實際的實施例中，生成輸出文檔的工作流程可以如下。處理多頁文檔(例如書)以目錄開始，目錄包含以逗號分隔的文本文件形式的掃描圖像和表格。表格提供一系列掃描圖像的控制數(shù)據(jù)并且每行具有若干字段圖像類型-彩色或黑白；左頁面的頁碼；右頁面的頁碼；以及包含兩頁的掃描圖像的文件名。進行以下相繼的步驟以處理掃描圖像校直每個圖像并且保存局部適應的閾值化(二值)圖像和灰度圖像；在掃描圖像上找到紙張邊緣和書脊；找到左頁面和右頁面的文本區(qū)；檢測異常參數(shù)，例如在取向或文本區(qū)選擇中可能的錯誤；彈出用于糾正錯誤的用戶界面；通過刪除不是對應于原始多頁文檔的紙張區(qū)的黑色/灰色區(qū)從掃描圖像裁剪出頁面圖像；并且最終產生文件，例如，以眾所周知的出版格式，像PDF(可移植文檔格式)或HTML(超文本標記語言)。
對于校直過程，例如，用在“數(shù)字圖像處理，第115頁，W.Niblack，Prentice Hall，1986”中描述的Niblack方法創(chuàng)建了二值圖像。Niblack的二值化算法是局部適應方法。對于尺寸為(n*n)的窗口，計算均值和標準偏差(stdev)。窗口(n)的尺寸可以例如設定為31。如果文本比背景暗，使用下面的公式來計算中心像素的閾值閾值＝均值(窗口)-0.18*stdev(窗口)。當不應該抖動或由于糟糕的照明或由于原始圖像的老化圖像而對比度低時，該算法非常有用。如果背景比字符暗，因數(shù)-0.18必須是+0.18。二值圖像用于檢測掃描圖像各部分的角度，例如文本行或紙張邊緣。二值圖像還可用于OCR和文本區(qū)定位。
用于校直相對小的角度(例如，最多30度)的各種方法通常用在圖像處理中并且計算角度的直方圖。直方圖的質量，例如，缺乏清晰的峰值，可能表明建議的角度是不可靠的時候?？梢詫С隹煽啃詤?shù)并用于異常檢測。注意，校直的頁面可能是顛倒的，因為初始的傾斜檢測算法沒意識到那點。通過使用前面的掃描圖像，例如，通過附加的規(guī)則實現(xiàn)如果直方圖的質量太低，那么和前面的頁面一樣旋轉該頁面，可以實現(xiàn)改進。如果質量依然低，檢測到異常，并且顯示掃描供操作員決定。
作為校直的一部分，檢測頁面的取向，例如，如參考圖4所述。可能需要旋轉掃描圖像或掃描圖像上的各個頁面90或180度以實現(xiàn)頁面圖像的直立取向以補償有差別地定位原始多頁文檔。注意在一些情況下，頁面需要被單獨校直，或可能具有不同的取向。然而，如果掃描圖像包含像圖上鋼筆劃線之類的干擾部分，那么校直可能失敗?？梢酝ㄟ^在校直過程中生成的角度指示符的范圍確定用于異常檢測的可靠性因數(shù)。
檢測紙張邊緣和書脊可以如下進行。第一步是通過形態(tài)(morphological)濾波器除去字符，即具有9×9核的封閉操作(通過擴張然后侵蝕，基本圖像開始填充小的開口)。然后，在此圖像上使用Sobel濾波器(n×n核中基于像素之間差異的導數(shù)計算)，產生圖像的近似導數(shù)，在白色和黑色區(qū)之間邊界線上具有強分量。接下來，向圖像施加固定閾值并且產生二元候選書邊。盡管形態(tài)濾波器除去大多數(shù)字符從而除去錯誤的邊，但是書中存在的圖仍然會生成錯誤的候選書邊。通過應用清除規(guī)則、例如下面關于八個相連分量的規(guī)則除去這些候選書邊。如果對象的覆蓋大于總面積的五分之一，并且縱橫比小于10，那么對象是錯誤的候選紙張邊緣或書脊并且被除去。這種規(guī)則還除去“滴狀”對象并且保持拉長的形狀或者輪廓的部分。
通常，產生的圖像在書邊附近和書脊附近只含有一些線。為了定位這些線，計算Hough變換并在角度域中表示圖像如下。直線用于建立角度范圍，并且以如下形式參數(shù)化ρ＝xsin(θ)+ycos(θ)這里，ρ是距原點的垂直距離而θ是與法線之間的角度。共線點(xi，yi)(其中i＝1，...N)變換成(ρ，θ)平面中、相交于點(ρ，θ)的N條正弦曲線。在Hough平面中，例如，θ＝0°附近的10個極大值給出10個候選垂直邊緣，而θ＝90°附近的20個極大值給出20個候選水平邊緣。選擇更多水平候選者，因為書脊邊緣也必須被檢測。從這組線中，選擇四個來形成輪廓，它的尺寸最接近書的預期尺寸。從水平線的集合中，離選擇的頂部和底部書邊的中間最近的候選者被選擇作為書脊?；诖?，可以裁剪出兩頁，并進一步處理。如果沒有合適的線可以選擇，或者如果提出的裁剪頁面偏離頁面尺寸的目標范圍太多，則檢測到異常，并且顯示出異常供操作員另外處理。
找到紙張區(qū)和中間的新穎方法是基于紙張的白度。校直的灰度圖像用作輸入，并且首先通過封閉操作除去字符對象。通過等數(shù)據(jù)算法閾值化結果以生成二進制圖像，舉例如下。
用于選擇閾值的迭代技術在T.W.Ridler和S.Calvard的“使用迭代[sic]選擇方法的圖像閾值化，IEEE transaction on System，Man andCybemetics，卷SMC-8，No.8，pp.630-2，1978年8月”中描述。使用起始閾值t、例如t＝2B-1(最大動態(tài)范圍的一半)，起初將直方圖分段為兩部分。計算與前景像素(mf)相關聯(lián)的灰度值的樣本均值和與背景像素(mbkg)相關聯(lián)的灰度值的樣本均值?，F(xiàn)在計算新的閾值t作為這兩個樣本均值的平均值?；谛碌拈撝抵貜驮撨^程，直到閾值不再變化。
然后，二進制圖像中存在的對象被標記并且選擇最大的對象。如果最大的對象小于某一閾值，也選擇第二大對象。然后把所有選擇的對象復制到新圖像。通過形態(tài)開口除去二進制對象邊緣處的刺狀物并且用封閉填充孔。結果圖像一般只包含一個對象，測量其邊界框并用作書紙張邊緣?？赡茉谧罱K的紙張?zhí)咨珔^(qū)(area mask)中出現(xiàn)間隙(例如，由于圖像未除去)，但是不影響對象的邊界框。
在下一步中，確定書的中心(書脊定位)。兩個圖像用于那個目的如上所述閾值化的輸入圖像等數(shù)據(jù)以及通過封閉得到的處理圖像，例如使用11×11模式封閉并通過3×3Sobel濾波器濾波的圖像。然后，通過在等數(shù)據(jù)閾值化圖像中找到那些像素轉變(從黑到白或反過來)數(shù)量下降到25以下的列來計算書中心的若干候選者。從這些候選者中，通過在Sobel濾波后的圖像的列中找到像素的最大和來選擇中心。
已經指出，因為該步驟需要校直的原件，如果校直失敗，那么該步驟(特別是書中心定位)將會失敗。因此，該步驟的可靠性因數(shù)可能取決于校直步驟的參數(shù)。應用可靠性因數(shù)以檢測處理的圖像是否是異常并且需要操作員核準或調整。
在處理期間，可以確定掃描圖像上的文本區(qū)位置。這一部分描述對齊書頁的文本區(qū)所需要的步驟。計算的值可用于從掃描圖像中剪切頁面圖像而不帶任何黑色邊框，或者用于指導OCR或頁碼識別?；舅惴ㄖ皇褂眯泻土修D變的數(shù)目。通過使用布局分析算法可以進行質量改進。輸入圖像是校直的黑白圖像，在上述校直步驟中生成。
圖6示出檢測文本區(qū)位置的結果。該圖示出掃描圖像67和表明文本區(qū)位置的六個圖像參數(shù)，每個參數(shù)X1、X2、X3、X4、Y1、Y2表明提出的文本區(qū)邊框。兩個文本區(qū)65和66由六個坐標值限定，其中，左文本區(qū)65和右文本區(qū)66的y坐標Y1、Y2是相等的，如圖所示。從掃描圖像的頂部開始，計算每行上的轉變數(shù)目。當該數(shù)目超過15時，找到文本區(qū)的Y1。對于Y2，使用同樣的方法。找到兩頁的文本區(qū)的左右邊界可能更困難。這是因為實際上頁面可能只包含幾行文本。從左邊第一次出現(xiàn)5個以上轉變確定X1。位置X4由從右邊開始在列中第一次出現(xiàn)15個以上轉變、并且在更靠左邊的30個像素的位置出現(xiàn)25個以上轉變來定位。位置X2由第一次出現(xiàn)5個以下轉變并且在更靠右邊10個像素的位置出現(xiàn)5個以下轉變來定位。搜索開始于掃描圖像的寬度的1/4處，朝向右。位置X3由第一次出現(xiàn)5個以下轉變并且在更靠左邊10個像素的位置出現(xiàn)5個以下轉變來定位。搜索開始于寬度的3/4處，朝向左。由于該簡單方法，此步驟可能出錯。在頁面上需要至少校直的圖像和一些文本。一些常見的錯誤是，X1、X2、X3或X4穿過某些文本，并且頁碼被切斷，X2和X3之間有文本，或空白頁面造成的影響。檢錯步驟通過計算表明這種錯誤概率的參數(shù)來檢測結果是否必須被認為是異常。例如，可以檢測空白頁面。如果檢測到X2和X3之間空間中的對象，那么X2或X3線可能被相應地移動以解決問題，或者結果可以分類為異常，要為操作員顯示。
在異常檢測單元中，檢錯步驟計算前面處理步驟的錯誤的可能性，例如，基于前面處理步驟產生的可靠性因數(shù)，例如，基于直方圖質量的校直可靠性因數(shù)。各種參數(shù)可用于檢測異常，例如紙張寬度、某些區(qū)域(文本或圖)的光譜屬性、不同域的質量，像角度、對象尺寸、顏色、白度或對比度等。異常檢測單元還可以確定頁面圖像的附加屬性，例如，文本區(qū)寬度的異常、關于紙張的文本區(qū)定位等。所有的參數(shù)或屬性可以與處理期間收集的多頁文檔的統(tǒng)計知識比較，或者與自動假定的或操作員輸入的先驗知識進行比較。
在一個實施例中，通過假定關于頁面文本區(qū)寬度的規(guī)律性，異常檢測器能夠檢測文本區(qū)寬度中的異常。注意，左文本區(qū)和右文本區(qū)的頂部和/或底部可以假定相等，或者可以假定不同并分開處理。用于檢測文本區(qū)寬度中異常的方法通過檢測異常的公式描述，如果abs(p-Mp)Median(abs(p-Mp))>treshold]]>其中，p＝文本區(qū)寬度，Mp是文本區(qū)寬度的中值。因為可能有非常大的會對均值有太大影響的異常(例如，具有零寬度的空白頁面)，所以使用中值。可以由操作員調整閾值以找到基本檢測在文本區(qū)寬度或位置中的所有錯誤的實際值。在用于常規(guī)書的實際情況下，閾值14證明會給出好的結果。
由異常函數(shù)檢測的可能錯誤隨后被顯示，以供操作員通過用戶界面手動調整。
用戶界面可以具有以下選項以接受或調整提出的頁面圖像，例如顯示屏上的菜單或工具條功能。通過選擇目前所看到的圖像頁面下面的按鈕之一，用戶可以完成一些功能
·取向通過在書頁上畫應該是水平的線或指明旋轉90度或180度來手動校直。
·紙張區(qū)選擇包含紙張區(qū)的矩形·紙張中間選擇書脊位置·左頁面選擇包含左頁面的文本區(qū)的矩形·右頁面選擇包含右頁面的文本區(qū)的矩形·轉到懷疑不正確的下一掃描，或者如果沒有使用檢錯，就按順序轉到下一掃描。
在同樣的圖像上，所有的功能可以根據(jù)需要執(zhí)行許多次。在輸出文檔中，操作員執(zhí)行的動作可以被記錄，所以復查是可能的。因此跳過標記為異常的掃描不是永久的并且可以在重新啟動時提供。若用戶進行手動校直，可以分開保存新的灰度圖像。
最后，從掃描圖像裁剪出圖像頁面，將任何校直考慮進去。雙掃描圖像在文本區(qū)邊框被切割成兩個頁面圖像，在所有邊增加35個像素。這樣做是為了防止差一點發(fā)生的事故導致丟失字符和圖像的很少的部分。這不影響圖像的對齊。最后，當從一系列掃描圖像中裁剪出時，構建包含頁面圖像的文件。文件可以設有對應于原始多頁文檔的書簽和頁碼，并且可用于可選的處理，例如自適應背景糾正或光學字符識別(OCR)。
用于處理多頁文檔的其它方法包括在生成的頁面圖像的序列中生成邏輯結構?；旧?，單個多頁文檔的掃描圖像集被轉換成頁面圖像的復合集，這可能例如是單個文檔文件。然而，原始的多頁文檔通常具有像章節(jié)或部分的邏輯結構或者可能包括附錄。在復合集中，原始結構被轉換為類似的結構，即表明對應于多頁文檔的頁面范圍的集合的邏輯部分。應當指出，可以自動檢測邏輯結構，例如，通過頁編號或者通過圖形布局特征，例如粗體或放大字體的章節(jié)標題。
為表明邏輯結構，掃描儀或處理單元可以為操作員提供選項以在掃描的文檔中創(chuàng)建邏輯結構。因此，該方法包括從操作員接收命令，該命令用于表明分配給頁面圖像序列的結構。在掃描多頁文檔期間可以給出命令。在掃描一部分多頁文檔之前和/或之后，可以按專門的按鈕以表明掃描圖像的相應子集構成頁面圖像復合集的邏輯部分?？梢宰詣由蓵灥拿Q，例如，輸入集號、隨后是起始頁碼和結束頁碼。因此，可以有效地掃描結構化的多頁文檔，而同時在轉換的頁面圖像序列中生成邏輯結構。
圖7示出用戶界面。用戶界面單元70具有多個按鈕或按鍵72以及顯示屏71用來向操作員提供可視數(shù)據(jù)。顯示器71具有足夠的尺寸和分辨率以顯示從掃描產生的頁面圖像或者至少一部分大得足以如上所述判斷和調整提出的頁面圖像的質量的圖像。
具體地說，用戶界面70具有輸入按鈕74和啟動按鈕73。啟動按鈕還可以命名為開/關按鈕。啟動按鈕打開或關閉任何掃描操作，而輸入按鈕將一部分多頁文檔的掃描圖像附到現(xiàn)有集合中。各個部分的原件可以作為松散頁放到自動文檔送入器(ADF)中，或者可以由操作員在稿臺上放置書或卷宗的連續(xù)頁來手動提供。在掃描這一部分之后，操作員可以再按輸入按鈕以附加另一部分，并且同時在文檔文件中定義剛剛關閉的部分的書簽。最后通過按啟動按鈕結束此過程，并且將完成文檔的數(shù)字版本的邏輯結構。
另外，用戶界面可以設有專門的按鈕或菜單功能以表明邏輯部分在雙掃描圖像的左頁面或右頁面上開始或結束。
雖然通過用于掃描書的實施例主要說明了本發(fā)明，但是應當指出，本發(fā)明適合用于任何多頁文檔處理。另外，除了公司環(huán)境，文檔處理可以是任何規(guī)模的，例如在消費者的家中或者作為公共商業(yè)服務。此外，在生成的頁面圖像序列中生成邏輯結構的方法可以單獨應用。應當指出，在該文檔中，動詞“包括”及其變化形式的使用不排除所列出的那些內容以外的其它要素或步驟的出現(xiàn)，并且要素前面的詞“一”或“一個”不排除出現(xiàn)多個這類要素，任何參考符號并不限制權利要求的范圍，本發(fā)明和提到的每個單元或裝置可以通過合適的硬件和/或軟件來實現(xiàn)，并且若干“裝置”或“單元”可以由同樣的項目來表示。另外，本發(fā)明的范圍不限于實施例，并且本發(fā)明在于上述每一個新穎特征或者特征的組合。
權利要求
1.一種處理多頁文檔的方法，所述方法包括如下步驟-接收通過光學掃描所述多頁文檔的一系列頁面得到的掃描圖像，-處理所述掃描圖像以生成對應于所述多頁文檔的原始頁面的頁面圖像，特征在于所述方法包括以下步驟-基于在處理所述掃描圖像期間得出的所述多頁文檔的頁面屬性自動確定圖像參數(shù)的目標標準，-檢查頁面的圖像參數(shù)是否按照所述目標標準，以及--如果是，則自動接受所述頁面圖像，而--如果不是，則顯示所述頁面圖像供操作員進行糾正動作或接受所述頁面圖像。
2.如權利要求1所述的方法，其特征在于，所述確定目標標準包括基于在處理所述掃描圖像期間得出的頁面屬性統(tǒng)計確定所述圖像參數(shù)中至少一個的目標范圍。
3.如權利要求2所述的方法，其特征在于，所述圖像參數(shù)包括紙張尺寸或文本區(qū)域位置或大小。
4.如權利要求1或2所述的方法，其特征在于，檢測所述圖像參數(shù)是否按照所述目標標準的步驟包括計算可靠性因數(shù)，它表明為生成所述頁面圖像進行的調整的可靠性。
5.如權利要求4所述的方法，其特征在于，處理所述掃描圖像的步驟包括檢測頁面取向，以便從不同取向的掃描圖像生成正立的頁面圖像。
6.如權利要求5所述的方法，其特征在于，檢測頁面取向的步驟包括檢測文本并確定所述文本的屬性，在特定情況下，還包括確定上超部分和下超部分的比率或者確定所選字符的取向。
7.如權利要求1到6中任一項所述的方法，其特征在于，所述圖像參數(shù)包括文本行取向，并且處理所述掃描圖像的步驟包括檢測文本行取向并根據(jù)所檢測的文本行取向來糾正所述掃描圖像的傾斜。
8.如權利要求1到7中任一項所述的方法，其特征在于，所述目標標準取決于對于所述多頁文檔的頁面的預定義參數(shù)、關于文檔的先驗知識。
9.如權利要求1到8中任一項所述的方法，其特征在于，處理所述掃描圖像的步驟包括在多頁文檔中檢測書脊并且從單個掃描圖像生成兩個頁面圖像。
10.如權利要求9所述的方法，其特征在于，處理所述掃描圖像的步驟包括對于所述兩個頁面中的每一個獨立地檢測所述文本行取向并根據(jù)所檢測的文本行取向糾正所述掃描圖像的傾斜。
11.如權利要求1所述的方法，其特征在于，所述方法包括建立頁面圖像的復合集，所述復合集具有對應于所述多頁文檔中的頁面范圍的邏輯部分。
12.如權利要求11所述的方法，其特征在于，所述方法包括接收來自所述操作員的命令，所述命令用于表明掃描圖像的子集構成所述頁面圖像的復合集的邏輯部分。
13.用于處理多頁文檔的計算機程序產品，所述程序可用于使處理器執(zhí)行如權利要求1到12中任一項所述的方法。
14.一種文檔處理系統(tǒng)(1、50)，包括-掃描儀單元(51)，用于通過光學掃描多頁文檔的一系列頁面生成掃描圖像，-用戶界面單元(54)，-圖像處理器單元(61)，用于處理所述掃描圖像以生成對應于所述多頁文檔的原始頁面的頁面圖像，特征在于所述系統(tǒng)包括異常檢測裝置(62)，用于-基于在處理所述掃描圖像期間得出的所述多頁文檔的頁面屬性確定圖像參數(shù)的目標標準，-檢查所述圖像參數(shù)是否按照所述目標標準，以及--如果是，則自動接受所述頁面圖像，而--如果不是，則顯示所述頁面圖像供操作員經由所述用戶界面單元(54)進行糾正動作或接受所述頁面圖像。
15.如權利要求14所述的系統(tǒng)，其特征在于，安排所述異常檢測裝置(62)用于所述通過基于在處理所述掃描圖像期間得出的頁面屬性統(tǒng)計確定所述圖像參數(shù)中至少一個的目標范圍來確定目標標準。
16.如權利要求14所述的系統(tǒng)，其特征在于，安排所述圖像處理器單元(61)用于建立頁面圖像的復合集，所述復合集具有對應于所述多頁文檔中頁面范圍的邏輯部分。
17.如權利要求16所述的系統(tǒng)，其特征在于，安排所述用戶界面單元(54)用于從所述操作員接收命令，該命令用于表明掃描圖像的子集構成所述頁面圖像的復合集的邏輯部分。
18.如權利要求14所述的系統(tǒng)，其特征在于，系統(tǒng)包括用于打印所述頁面圖像的打印機單元(130)。
全文摘要
描述了掃描和處理多頁文檔。通過光學掃描多頁文檔、例如書的一系列頁面生成掃描圖像。處理掃描圖像以生成對應于多頁文檔原始頁面的頁面圖像，例如，通過校直和除去黑色邊框區(qū)域。在生成提出的頁面圖像之后，通過檢測它的圖像參數(shù)，例如文本區(qū)域坐標(X1、X2、X3、X4、Y1、Y2)是否按照基于文檔的統(tǒng)計分析的目標標準，檢查是否有可能該圖像包含錯誤。如果頁面圖像滿足目標標準，頁面圖像被自動接受。然而，如果不滿足，則顯示頁面圖像(65、66)供操作員接受或調整頁面圖像。
文檔編號H04N1/00GK1734469SQ20051009153
公開日2006年2月15日申請日期2005年8月10日優(yōu)先權日2004年8月10日
發(fā)明者M·P·布雷納申請人:奧西-技術有限公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：Ｍ.Ｐ.布雷納
技術所有人：奧西－技術有限公司
我是此專利的發(fā)明人

上一篇：對齊視頻數(shù)據(jù)以創(chuàng)建全面的程序向導的制作方法
上一篇：改善無線網絡中的服務質量的方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術及應用 3.機電一體化產品開發(fā) 4.機械工程測試技術 5.逆向工程技術研究
2、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設計 2.汽車檢測系統(tǒng)設計 3.汽車電子控制系統(tǒng)設計
4、畢老師：機構動力學與控制
5、袁老師：1.計算機視覺 2.無線網絡及物聯(lián)網
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

文檔版本管理軟件相關技術

文檔處理系統(tǒng)相關技術

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

掃描期間的異常檢測的制作方法