專利名稱:用于校正畸變文檔圖像的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于校正畸變文檔圖像的方法和系統(tǒng),尤其涉及用于校正由數(shù)字照相
機(jī)從書本或裝訂文檔拍攝的畸變文檔圖像的方法和系統(tǒng)。
背景技術(shù):
數(shù)字照相機(jī)已變得越來越普及,其不僅在消費(fèi)者之中作為消費(fèi)品變得普及,而且 還在諸如商業(yè)和技術(shù)之類的領(lǐng)域中作為方便的工具而變得普及。對于OCR(光學(xué)字符識(shí)別) 界來說,數(shù)字照相機(jī)作為文檔成像裝置提供了對掃描儀的一種可能替換方案。然而,當(dāng)前的 OCR技術(shù)主要是為扁平文檔的數(shù)字掃描圖像設(shè)計(jì)的,而不能處理一般的照相機(jī)拍攝的文檔 圖像。 掃描儀攝取的圖像大體上是扁平的,并且具有從正前方的基本上為零的視角,因 此幾乎不存在由于透視或彎曲問題引起的幾何畸變。然而,當(dāng)通過數(shù)字照相機(jī)拍攝書本或 其他類型的裝訂文檔的圖像時(shí),多少會(huì)有非零視角,并且取決于所述書本或裝訂文檔的厚 度,所述書本或裝訂文檔將具有一定的彎曲。結(jié)果,由數(shù)字照相機(jī)拍攝的文檔圖像將遭受由 透視和彎曲這兩個(gè)問題造成的幾何畸變。圖8示出了由數(shù)字照相機(jī)拍攝的文檔圖像的示 例,所述文檔圖像具有明顯的由透視和彎曲這兩個(gè)問題造成的畸變。如果直接使用這樣的 畸變文檔圖像用于OCR操作,則識(shí)別準(zhǔn)確率將較低。 已提出了多種方法用于校正畸變文檔圖像中的畸變。 一類方法利用特殊的三維
掃描設(shè)備來校正畸變。根據(jù)題為"Former Books DigitalProcessing :Image Warping",
A. Doncescu,A. Bouju,V. Quillet,Proc. Workshop of Document Image Analysis,5—9,1997
的論文中的方法,使用激光投影儀將二維光網(wǎng)投影在文檔的三維表面上,然后可構(gòu)建一個(gè)
網(wǎng)圖(mesh)來表示該三維文檔表面,并且將該網(wǎng)圖直接扁平化或變換為可展網(wǎng)圖。 作為替換方案,可從文檔圖像估計(jì)出該表面的三維形狀。存在估計(jì)所述三維形狀
的參數(shù)方法和繞過形狀估計(jì)過程的非參數(shù)方法。 在 題 為"Global and Local Document Degradation Models", T. Ka皿ngo, R. Haralick, I.Philips, in Proc. 2nd InternationalConference on Document Analysis and Recognition, 1993的論文中,介紹了一種利用圓柱體和平面的組合來對書本的三維表 面模型進(jìn)行仿真的方法,但是如何估計(jì)與此模型有關(guān)的參數(shù)以及如何將此模型用于校正畸 變的問題仍未解決。由于必須利用特殊的設(shè)備,該方法還是代價(jià)高昂的。此外,此方法只能 被應(yīng)用于掃描儀掃描的圖像。 根據(jù)在題為"Document Restoration Using 3D Shape :a GeneralDeskewing Algorithm for Arbitrarily Warped Documents", M. S. Brown, W.B.Seales, Proc. International Conference on ComputerVision,July 2001的論文中介紹的方法,通過某 種立體視覺方法獲得文檔圖像的每個(gè)點(diǎn)在文檔中的深度,以便創(chuàng)建深度圖像,然后根據(jù)該 深度圖像將該文檔圖像矯正為平面。雖然似乎可以矯正任何類型的圖像畸變,但是如何將 深度圖像定義的文檔的粗糙帶噪表面上的點(diǎn)映射到平面上的點(diǎn)仍是個(gè)問題。
5
在題為"Restoration of Images Scanned from Thick Bo皿dDocuments,,, Z. Zhang, C. L Tan, in Proc.6th InternationalConference on Document Analysis and Recognition, 2001的論文中,借助字符分段過程來矯正裝訂書本的掃描圖像。陰影中的 (表面彎巻處的)字符被分段,對這些字符的朝向和原始位置進(jìn)行估計(jì),然后相應(yīng)地調(diào)整字 符。 在題為"Rectifying the Bound Document Image Captured by theCamera :A Model Based Approach", Huaigu Cao, Xiaoqing Ding, Changsong Liu, Proceedings of the Seventh International Conferenceon Document Analysis and Recognition(ICDAR 2003)的論文中還提出了一種用于矯正照相機(jī)拍攝的裝訂文檔的圖像的基于模型的方法。 由一般的圓柱體表面表示文檔的表面。顯然,無法處理諸如折頁之類的其他彎曲類型。
—般來說,如果文檔圖像僅具有由透視問題引起的畸變,則可以使用頁邊緣的方 向信息來近似字符方向。然而,當(dāng)不僅由透視問題而且還由彎曲問題引起畸變時(shí),一頁中的 字符具有不同方向的不同畸變,因此上述近似方法將失效。 因此,需要這樣一種技術(shù),其能夠處理圖像中的由總是伴隨照相機(jī)拍攝的文檔圖 像的彎曲和透視問題引起的畸變,并且實(shí)施起來有效且容易。
發(fā)明內(nèi)容
考慮到在前述現(xiàn)有技術(shù)中存在的技術(shù)問題,提供了一種用于校正畸變文檔圖像的 新方法。本發(fā)明基于這樣的關(guān)鍵思想常常存在于自然打開的書本或自然打開的紙捆中的 彎巻文檔頁可以通過這樣一組平面條帶來近似,所述平面條帶垂直于文本行的方向或平行 于裝訂方向而延伸,并且在文本行的方向上被排列。也就是說,這些圖像條帶是通過利用至 少一條垂直線分割畸變文檔圖像而獲得的。在每一個(gè)所述條帶中,彎曲可以被忽略,而透視 畸變成為主導(dǎo)畸變。因此,復(fù)雜的非線性問題可以被轉(zhuǎn)化為多個(gè)較簡單的局部線性問題。本 發(fā)明還基于兩個(gè)重要的文本特征,即文本行的局部朝向和垂直字符筆劃,它們被用于識(shí)別 局部線性畸變。 本發(fā)明不需要任何輔助裝置,并且可以應(yīng)對各種各樣的畸變類型,諸如由裝訂、折 疊和透視引起的那些畸變類型。應(yīng)該注意,雖然本發(fā)明主要針對校正數(shù)字照相機(jī)拍攝的文 檔圖像的畸變,但是其也可以應(yīng)用于校正從其他裝置輸入的文檔圖像,諸如由平臺(tái)掃描儀 掃描的厚書本的文檔圖像。 根據(jù)本發(fā)明的一個(gè)方面,提供一種校正原始文檔的畸變文檔圖像中的幾何畸變的 方法,包括 垂直消失點(diǎn)檢測步驟,檢測所述畸變文檔圖像的垂直消失點(diǎn),所述垂直消失點(diǎn)是 在原始文檔中垂直于文本行的垂直方向上的消失點(diǎn); 圖像分割步驟,通過使用從所檢測到的垂直消失點(diǎn)起源的垂直線,將所述畸變文 檔圖像的整個(gè)區(qū)域分割成多個(gè)圖像條帶; 水平消失點(diǎn)檢測步驟,檢測每個(gè)所述圖像條帶的水平消失點(diǎn),所述水平消失點(diǎn)是 在原始文檔中垂直于所述垂直方向的水平方向上的消失點(diǎn); 畸變模型生成步驟,通過使用所述垂直消失點(diǎn)和所述圖像條帶的所述水平消失點(diǎn) 建立畸變模型,所述畸變模型描述畸變文檔圖像和校正后的文檔圖像之間的映射關(guān)系;以
6及 校正步驟,基于所述模型生成校正后的文檔圖像。 根據(jù)本發(fā)明的另一個(gè)方面,提供一種校正原始文檔的畸變文檔圖像中的幾何畸變 的系統(tǒng),包括 垂直消失點(diǎn)檢測裝置,用于檢測所述畸變文檔圖像的垂直消失點(diǎn),所述垂直消失 點(diǎn)是在原始文檔中垂直于文本行的垂直方向上的消失點(diǎn); 圖像分割裝置,用于通過使用從所檢測到的垂直消失點(diǎn)起源的垂直線,將所述畸 變文檔圖像的整個(gè)區(qū)域分割成多個(gè)圖像條帶; 水平消失點(diǎn)檢測裝置,用于檢測每個(gè)所述圖像條帶的水平消失點(diǎn),所述水平消失 點(diǎn)是在原始文檔中垂直于所述垂直方向的水平方向上的消失點(diǎn); 畸變模型生成裝置,用于通過使用所述垂直消失點(diǎn)和所述圖像條帶的所述水平消 失點(diǎn)建立畸變模型,所述畸變模型描述畸變文檔圖像和校正后的文檔圖像之間的映射關(guān) 系;以及 校正裝置,用于基于所述模型生成校正后的文檔圖像。 從以下參照附圖的描述,本發(fā)明的其他特性特征和優(yōu)點(diǎn)將變得清晰。
并入到說明書中并且構(gòu)成說明書一部分的附圖示出了本發(fā)明的實(shí)施例,并且與描 述一起用于說明本發(fā)明的原理。 圖1是示出用于實(shí)現(xiàn)根據(jù)本發(fā)明的用于校正畸變文檔圖像的系統(tǒng)的計(jì)算裝置的 布置的框圖。 圖2是示出根據(jù)本發(fā)明的實(shí)施例的包含各個(gè)模塊裝置的用于校正畸變文檔圖像 的系統(tǒng)的總體配置的框圖。
圖3是示出實(shí)現(xiàn)根據(jù)本發(fā)明的校正畸變文檔圖像的方法的總體過程的流程圖。
圖4是示出根據(jù)本發(fā)明的實(shí)施例的檢測垂直消失點(diǎn)的示例性過程的流程圖。
圖5示出線段與連接交點(diǎn)和所述線段中點(diǎn)的直線所限定的交叉角的圖示,用于說 明如何計(jì)算消失點(diǎn)。 圖6是示出根據(jù)本發(fā)明的用于定位文本行曲線的示例性過程的流程圖。 圖7是示出如何在網(wǎng)圖模型的一個(gè)網(wǎng)格中將畸變文檔圖像映射到校正后的文檔
圖像的示意圖。 圖8示出由照相機(jī)從書本的一頁拍攝的典型文檔圖像的示例。
圖9示出從圖8所示的文檔圖像獲得的示例性邊緣圖像。 圖10 (a)示出通過對圖9所示的邊緣圖像進(jìn)行旋轉(zhuǎn)、壓縮、以及游程長度平滑算法 而獲得的示例性邊緣圖像;圖10(b)示出從圖10(a)所示的圖像提取的中等高度點(diǎn)所構(gòu)成 的示例性圖像。 圖11示出由垂直筆劃構(gòu)成的示例性邊緣圖像,所述垂直筆劃是通過從圖9所示的 邊緣圖像中除去水平筆劃的邊緣而獲得的。 圖12示出通過從圖ll所示的邊緣圖像找到提取的垂直筆劃的連通單元而獲得的 示例性圖像。
圖13示出帶有通過根據(jù)本發(fā)明的實(shí)施例的方法構(gòu)建的網(wǎng)圖的圖9的文檔圖像。
圖14示出借助根據(jù)本發(fā)明的畸變校正方法得到的示例性的校正后的文檔圖像。
圖15示出用于說明如何構(gòu)建網(wǎng)圖的圖示。
具體實(shí)施例方式以下將參照附圖詳細(xì)描述本發(fā)明的實(shí)施例。 在本說明書和權(quán)利要求書中,尤其是當(dāng)用于畸變文檔圖像中時(shí),術(shù)語"水平"或"在 x方向上"意味著基本上水平,而術(shù)語"垂直"或"在y方向上"意味著基本上垂直。特別地, 在畸變文檔圖像中所用的術(shù)語"水平"是指在相應(yīng)的校正后的文檔圖像中或原始文檔中與 文本行平行的方向。例如,術(shù)語"水平線"是指校正后的平面圖像(或者原始文檔)中的對 應(yīng)于這條線的線平行于校正后的平面圖像(或者原始文檔)中的文本行。類似地,在畸變 文檔圖像中所用的術(shù)語"垂直"是指在相應(yīng)的校正后的文檔圖像中或原始文檔中與文本行 垂直。例如,術(shù)語"垂直筆劃"是指校正后的平面圖像(或者原始文檔)中的該筆劃垂直于 文本行。 在本說明書中,術(shù)語"左"和"右"表示當(dāng)以人們在閱讀書本或文檔時(shí)通常所用的 普通方式來觀看頁面時(shí)的左手側(cè)和右手側(cè)。 在本說明書中,除非另外指出,否則所有尺寸(諸如長度或?qū)挾?都以"像素"為 單位。例如,L < 5意味著L小于5個(gè)像素。 圖1是示出用于實(shí)施根據(jù)本發(fā)明的用于校正畸變文檔圖像的系統(tǒng)的計(jì)算裝置的 布置的框圖。為了簡單起見,該系統(tǒng)被示出為構(gòu)建在單個(gè)計(jì)算裝置中。然而,無論該系統(tǒng)構(gòu) 建在單個(gè)計(jì)算裝置中還是構(gòu)建在作為網(wǎng)絡(luò)系統(tǒng)的多個(gè)計(jì)算裝置中,該系統(tǒng)都是有效的。
如圖1所示,計(jì)算裝置100用于實(shí)施校正畸變文檔圖像的處理。計(jì)算裝置100可 以包含CPU 101、芯片組102、 RAM 103、存儲(chǔ)控制器104、顯示控制器105、硬盤驅(qū)動(dòng)器106、 CD-ROM驅(qū)動(dòng)器107、以及顯示器108。計(jì)算裝置100還可以包括連接在CPU 101和芯片組 102之間的信號(hào)線111、連接在芯片組102和RAM 103之間的信號(hào)線112、連接在芯片組102 和各種外圍裝置之間的外圍裝置總線113、連接在存儲(chǔ)控制器104和硬盤驅(qū)動(dòng)器106之間的 信號(hào)線114、連接在存儲(chǔ)控制器104和CD-ROM驅(qū)動(dòng)器107之間的信號(hào)線115、以及連接在顯 示控制器105和顯示器108之間的信號(hào)線116。 客戶端120可以直接或經(jīng)由網(wǎng)絡(luò)130連接到計(jì)算裝置100??蛻舳?20可以將校 正任務(wù)發(fā)送給計(jì)算裝置IOO,并且計(jì)算裝置IOO可以將校正結(jié)果返回給客戶端120。
圖2是示出由各個(gè)模塊裝置構(gòu)成的用于校正畸變文檔圖像的系統(tǒng)的總體配置的 框圖。 如圖2所示,畸變校正系統(tǒng)200可以包括垂直消失點(diǎn)檢測裝置201,用于檢測所 述畸變文檔圖像的垂直消失點(diǎn);圖像分割裝置203,用于通過使用從所檢測到的垂直消失 點(diǎn)起源的垂直線,將所述畸變文檔圖像的整個(gè)區(qū)域分割成多個(gè)圖像條帶;水平消失點(diǎn)檢測 裝置205,用于檢測每個(gè)所述圖像條帶的水平消失點(diǎn);畸變模型生成裝置207,用于通過使 用所述垂直消失點(diǎn)和所述圖像條帶的所述水平消失點(diǎn)建立畸變模型,所述畸變模型描述畸 變文檔圖像和校正后的文檔圖像之間的映射關(guān)系;以及校正裝置209,用于基于所述模型 生成校正后的文檔圖像。垂直消失點(diǎn)檢測裝置201可以優(yōu)選包括垂直筆劃提取裝置2011,用于從所述畸變文檔圖像中提取字符的多個(gè)垂直筆劃;垂直線段擬合裝置2013,用于通過 多個(gè)垂直線段來擬合所述垂直筆劃;垂直最優(yōu)會(huì)聚點(diǎn)計(jì)算裝置2015,用于通過搜索所述垂 直線段的最優(yōu)會(huì)聚點(diǎn),從垂直線段計(jì)算垂直消失點(diǎn)。所述垂直最優(yōu)會(huì)聚點(diǎn)計(jì)算裝置2015 可以優(yōu)選包括交點(diǎn)計(jì)算裝置2015-1,用于計(jì)算所述垂直線段中的任何兩條垂直線段之間 的交點(diǎn);以及最優(yōu)點(diǎn)選擇裝置2015-2,用于在所述交點(diǎn)之中選擇使交叉角的正弦平方和最 小化的交點(diǎn)作為最優(yōu)會(huì)聚點(diǎn)。所述水平消失點(diǎn)檢測裝置205可以優(yōu)選包括文本行曲線定 位裝置2051,用于從所述畸變文檔圖像中沿文本行的方向定位文本行曲線;片段提取裝置 2052,用于提取在圖像條帶中定位的文本行曲線的片段;水平線段擬合裝置2053,用于通 過水平線段擬合所述文本行曲線的片段;以及水平最優(yōu)會(huì)聚點(diǎn)計(jì)算裝置2054,用于通過搜 索水平線段的最優(yōu)會(huì)聚點(diǎn),從所述水平線段計(jì)算水平消失點(diǎn)。所述水平最優(yōu)會(huì)聚點(diǎn)計(jì)算裝 置2054可以優(yōu)選包括交點(diǎn)計(jì)算裝置2054-1,用于計(jì)算所述水平線段中的任何兩條水平線 段之間的交點(diǎn);以及最優(yōu)點(diǎn)選擇裝置2054-2,用于在所述交點(diǎn)之中選擇使交叉角的正弦平 方和最小化的交點(diǎn)作為最優(yōu)會(huì)聚點(diǎn)。所述文本行曲線定位裝置2051可以優(yōu)選包括中等高 度點(diǎn)提取裝置2051-1,用于提取畸變文檔圖像中的字符的像素的中等高度點(diǎn);以及文本行 曲線定位裝置2051-2,用于通過使用所述中等高度點(diǎn),定位穿過所述文本行中的字符的中 等高度的文本行曲線。 上述裝置是用于實(shí)施以下所要描述的過程的示例性優(yōu)選模塊。用于實(shí)施各種步驟 的模塊并沒有在以上被詳盡地描述。然而,當(dāng)具有執(zhí)行某種過程的步驟時(shí),即有用于實(shí)施同 種過程的相應(yīng)的功能模塊或裝置。 圖3是示出實(shí)施根據(jù)本發(fā)明的校正畸變文檔圖像的方法的過程的流程圖。圖8示 出通過照相機(jī)從書本的一頁拍攝的典型文檔圖像的示例。如圖8所示,存在由彎曲和透視 問題兩者引起的明顯畸變。 在步驟S310中,利用垂直字符筆劃的朝向來檢測垂直消失點(diǎn)。消失點(diǎn)的含義將在 以下說明。平面中的所有彼此平行的直線無論怎樣延伸,它們在理論上都永不彼此相交。 另一方面,當(dāng)平面被放置在具有非零視角的三維空間中時(shí),本來彼此平行的這些直線看上 去將不再平行,并且所有這些直線的延長線理論上將相交在一點(diǎn)。這些在平面中彼此平行 的線在非零視角的三維空間中彼此相交的點(diǎn)被稱作消失點(diǎn)。因此,平面中的垂直線在非零 視角的三維空間中彼此相交的點(diǎn)被稱作垂直消失點(diǎn)。相似地,平面中的水平線在非零視角 的三維空間中彼此相交的點(diǎn)被稱作水平消失點(diǎn)。術(shù)語"水平"和"垂直"已如上定義。在多 數(shù)情況下,裝訂書本的自然彎曲將在平行于裝訂線或者垂直于文本行的方向上延伸。因此, 對于一個(gè)拍攝的圖像僅存在一個(gè)垂直消失點(diǎn)。有許多用于檢測消失點(diǎn)的已知技術(shù),例如在 Barnard S. T.的〃 Interpreting Perspective Images" , Artificial Intelligen ce, vol. 21, pp. 435-462, 1983中公開的基于高斯球面的方法,以及在Virginio Cantoni, Luca Lombardi,Marco Porta,Nicolas Sicard的"Vanishing PointDetection-Representation Analysis and New Approaches'', Proceedings of the 11th International Conference on Image Analysis&Processing中公開的基于極坐標(biāo)空間中的Hough變換積累的方法。
在步驟S310中確定了垂直消失點(diǎn)之后,在步驟S320中,可以導(dǎo)出一組垂直線,這 些垂直線都起源于該垂直消失點(diǎn),并且穿過圖像區(qū)域,以將整個(gè)圖像區(qū)域分割成沿著水平 方向排列的多個(gè)平面條帶。
9
然后在步驟S330中,檢測這些圖像條帶的水平消失點(diǎn)。 在步驟S340中,根據(jù)圖像條帶并且根據(jù)水平消失點(diǎn)和垂直消失點(diǎn),構(gòu)建描述畸變 文檔圖像中的整體畸變的模型。在確定了垂直消失點(diǎn)和水平消失點(diǎn)之后,透視特性和彎曲 特性都可以被確定。因此,諸如文本行、字符筆劃以及頁邊緣等的各種文檔特征都可以被用 于構(gòu)建這種模型。 最后在步驟S350中,通過利用如上所構(gòu)建的模型生成校正后的文檔圖像。
以下是根據(jù)本發(fā)明的用于校正畸變文檔圖像中的畸變的示例性實(shí)施例。
首先在步驟S310中,利用垂直字符筆劃的朝向以檢測垂直消失點(diǎn)。以下將參照圖 4描述用于執(zhí)行步驟S310的詳細(xì)步驟。 圖4是示出步驟S310中的檢測垂直消失點(diǎn)的過程的流程圖。 在步驟S410中,檢測圖像的前景對象的邊緣。各種常用的邊緣檢測技術(shù),諸如
Sobe 1算子、Ca皿y算子等,可以在此被應(yīng)用以檢測邊緣。輸出是邊緣圖像和邊緣方向圖像。
邊緣方向圖像具有關(guān)于每個(gè)檢測出的邊緣像素的梯度角的信息。像素的梯度角是指示該像
素的灰度值的改變方向的角。也就是說,像素的梯度角示出從相鄰像素到該像素的灰度改
變方向。圖9示出圖8所示的文檔圖像的示例性邊緣圖像??梢钥闯?,每個(gè)字符的邊緣被
提取出。 在步驟S420,通過以下的方法處理邊緣圖像以便挑選出垂直字符筆劃。正在被數(shù) 字照相機(jī)拍攝的文檔可能未被合適地放置,因此很可能引入某種歪斜。為了檢測歪斜角,在 此可以使用對二值圖像檢測歪斜角的各種現(xiàn)有方法,諸如例如在Yue Lu, Chew Lim Tan所 著的題為"A Nearest-Neighbour Chain Based Approach to SkewEstimation in Document Images", Pattern Recognition letters 24 (2003) 2315-2323,中提出的基于最近鄰的方 法,或者基于投影的方法。不要求所檢測的歪斜角必需是非常準(zhǔn)確的,因?yàn)樗璧膬H是從歪 斜角獲得粗略的文本行方向。 然后,通過將像素的梯度方向與所述歪斜角進(jìn)行比較,不屬于垂直筆劃的邊緣的 像素被除去。令9i表示位于邊緣的(Xi,yi)上的像素的梯度角,e表示文檔的歪斜角。如
果I 9i-e I大于給定的閾值,則該像素應(yīng)該被除去。應(yīng)指出,(Xi,y》是對畸變文檔圖像建
立的笛卡爾坐標(biāo)系中的坐標(biāo)。圖11示出通過從圖9所示的邊緣圖像中除去水平筆劃的邊 緣中的像素而獲得的示例性邊緣圖像。 在步驟S430中,通過在步驟S420中獲得的邊緣圖像上搜索連通單元來找到垂直 筆劃候選。連通單元是指這樣一組像素,所述一組像素中的每一個(gè)都與該組像素中的至少 另一個(gè)像素連通。如果一個(gè)像素在另一個(gè)像素的某個(gè)鄰域內(nèi)(例如,距所述另一個(gè)像素水 平3個(gè)像素且垂直4個(gè)像素內(nèi)的鄰域),則這兩個(gè)像素可以被視作"連通"的。本領(lǐng)域中已 知多種算法用于在像素中搜索連通單元。例如,搜索策略例如可以是,首先從圖像底部選擇 起始點(diǎn),然后垂直向上地搜索黑色像素。每次從一個(gè)黑色像素開始,在上述的鄰域內(nèi)搜索下 一個(gè)前景像素。請注意,鄰域的大小可以由本領(lǐng)域技術(shù)人員取決于實(shí)際要求來任意選擇。為 了計(jì)算消失點(diǎn),優(yōu)選地只考慮長度L在某個(gè)所需范圍內(nèi)(例如12<L<150)的主導(dǎo)連通 單元。也就是說,長度不在此范圍內(nèi)的連通單元將優(yōu)選地被除去或忽略。請注意,上述范圍 的數(shù)值僅是示例性的,本領(lǐng)域技術(shù)人員可以根據(jù)設(shè)計(jì)要求或原始文檔的實(shí)際狀況來任意選 擇此范圍。圖12示出了通過從圖ll所示的邊緣圖像找到提取的垂直筆劃的連通單元而獲
10得的示例性圖像。 對于每個(gè)找到的連通單元,將擬合一條直線,該直線的參數(shù)為角度e和距原點(diǎn)的 距離P : p = xcos 9 +ysin 9 (1) 其中,x和y是該直線上的一點(diǎn)在笛卡爾坐標(biāo)系中的x坐標(biāo)和y坐標(biāo),9禾P p是 在擬合過程中要確定的兩個(gè)參數(shù)。 每個(gè)獲得的連通單元是具有相似梯度朝向的一組邊緣像素(Xi, y》,(Xi, y》是連 通單元中的第i個(gè)像素在笛卡爾坐標(biāo)系中的坐標(biāo),i = 1,2,3...。可直接從與邊緣像素相 關(guān)聯(lián)的矩陣D的特征值A(chǔ)工和A 2以及特征向量Vl和v2確定直線參數(shù)。矩陣D被定義如 下。
Z 2\ 、 -
Z \_ , 2
(2) 其中《=、-i和?,=?!跏翘囟ㄟB通單元的平均校正像素坐標(biāo),并且 7 =丄11、,歹=丄£^ ,n是該連通單元中的像素的數(shù)目。用于求矩陣的特征值和特征
向量的過程在本領(lǐng)域內(nèi)公知,因此在此省略用于獲得矩陣D的特征值、和入2以及特征向 量^和^的詳細(xì)過程。在理想直線的情況下,特征值之一應(yīng)為零。直線擬合的質(zhì)量是由矩
陣D的兩個(gè)特征值的比值S卩v-f來表征的。直線參數(shù)是從特征向量Vl和v2確定的,其中
乂2
Vl是與最大的特征值相關(guān)聯(lián)的特征向 、(2)、
夕=arctan
v,(l)
直線參數(shù)被計(jì)算如下
(3)yo = icos"ysin0 (4) 其中,(f,力是線段中點(diǎn),其中7和p已如上定義,^(1)是^的第一維,^(2)是^的 第二維。根據(jù)上述公式,獲得該直線的參數(shù)9和P,并且從而獲得擬合每一個(gè)垂直筆劃的 連通單元的每一條垂直線段。 在步驟S440中,通過搜索這些垂直線段的最優(yōu)會(huì)聚點(diǎn)來獲得垂直消失點(diǎn)。存在各 種現(xiàn)有技術(shù)可以用于估計(jì)多條直線的最優(yōu)會(huì)聚點(diǎn)。以下是用于估計(jì)這些垂直線段的最優(yōu)會(huì) 聚點(diǎn)的示例性過程。首先,計(jì)算所述線段中的任何兩條線段之間的交點(diǎn),作為垂直消失點(diǎn)候
然后,利用統(tǒng)計(jì)方法從該組交點(diǎn)中選擇最優(yōu)會(huì)聚點(diǎn)作為所得
選組(々W), j = 1,2,3.
的垂直消失點(diǎn)。垂直消失點(diǎn)例如可以是交點(diǎn)(^,^)中的使以下函數(shù)F(j)最小化的點(diǎn)
/)2 (5)
j, = a - 4 cos《- W sin《I
(6)
(7)
(8)
ii
其中,gj,)是第i條線段的中點(diǎn)的坐標(biāo),"Z是第j個(gè)候選交點(diǎn) ^)到第i條線
段的距離,p i是第i條線段到原點(diǎn)的距離,e i是第i條線段與x軸限定的角,V是第j個(gè)
候選交點(diǎn)與第i條線段中點(diǎn)的距離,/ /是第i條線段與連接第j個(gè)候選交點(diǎn)(々',^)和第i
條線段中點(diǎn)fe,力)的直線限定的角。請參照圖5獲得直觀的表示。請注意,對步驟S440的
上述描述僅是示例性的,而不意圖限制本發(fā)明的范圍。如前文所述的,已知多種技術(shù)用于獲
得多條直線的消失點(diǎn),并且用于獲得消失點(diǎn)的方法并不限于上述的方法。 在步驟S310中確定了垂直消失點(diǎn)之后(例如通過利用上述的子步驟S410-S440),
在步驟S320中,可以導(dǎo)出一組垂直線,這些垂直線均從垂直消失點(diǎn)起源,并且穿過圖像區(qū)
域,將整個(gè)圖像區(qū)域分割成沿水平方向排列的多個(gè)平面條帶。該分割例如基本上基于以下
的示例性準(zhǔn)則中的一條或多條 (1)每個(gè)條帶中單個(gè)文本行曲線的長度可以在指定的范圍[L1,L2]內(nèi),其中Ll和 L2是例如根據(jù)文檔圖像中的平均字符大小來確定的值。 (2)如果要處理的圖像具有雙頁,則訂書釘或裝訂線可以是這些垂直線之一。
(3)如果圖像包含不止一列,則在相鄰的列之間可以有分離線作為一條所述垂直 線。
(4)在頁面中間部分,條帶可以較窄;而在頁面的左側(cè)和右側(cè),條帶可以較寬。
(5)每個(gè)條帶應(yīng)該能夠被視作基本上平坦。也就是說, 一個(gè)條帶僅具有一個(gè)水平消 失點(diǎn)。對于平坦的標(biāo)準(zhǔn)可以取決于實(shí)際要求和期望的OCR準(zhǔn)確率。 上述的準(zhǔn)則確保所分割的條帶對于計(jì)算準(zhǔn)確的水平消失點(diǎn)是足夠?qū)挼模瑫r(shí)確保 條帶足夠平坦。 應(yīng)該注意,上述準(zhǔn)則僅是示例性的,而并不意圖限制本發(fā)明的保護(hù)范圍。本領(lǐng)域技 術(shù)人員可以采用上述準(zhǔn)則中的一條或多條,或者可以設(shè)計(jì)出其他準(zhǔn)則用于分割圖像區(qū)域。 關(guān)于如何分割圖像區(qū)域的準(zhǔn)則取決于實(shí)際要求和期望的OCR準(zhǔn)確率。 在步驟S330中,檢測每個(gè)圖像條帶的水平消失點(diǎn)。因?yàn)闀镜募堩撘话阊刂?方向波動(dòng),因此每個(gè)圖像條帶的水平消失點(diǎn)將會(huì)不同。也就是說,每個(gè)圖像條帶具有其自己 的水平消失點(diǎn)。 以下是用于獲得每個(gè)圖像條帶的水平消失點(diǎn)的示例性過程。 首先,從步驟S410中提取出的邊緣圖像中檢測出穿過每個(gè)文本行的中等高度的
曲線。具體地,提取字符的中等高度點(diǎn),然后通過使用連通單元分析從中等高度點(diǎn)中定位文
本行曲線。文本行曲線對于指示沿水平方向的畸變信息就足夠精確了 。 圖6示出用于定位文本行曲線的詳細(xì)流程圖。請注意,圖6的過程僅是示例性的
優(yōu)選示例。本領(lǐng)域技術(shù)人員知曉用于從邊緣圖像定位各種文本行曲線的各種方法。 在步驟S610中,在步驟S410中提取的作為邊緣圖像的二值圖像例如通過仿射變
換操作進(jìn)行變換,并且生成新的二值圖像II。仿射變換操作相當(dāng)于這樣的過程利用前述
的歪斜角將所述二值圖像旋轉(zhuǎn)為基本上正立的視圖,然后通過"或"的方法對旋轉(zhuǎn)后的圖像
進(jìn)行壓縮,水平壓縮比N大于垂直壓縮比M。"或"的方法意味著,對于與壓縮后的圖像的一
個(gè)像素對應(yīng)的未壓縮的圖像的NXM的圖像塊,如果在該圖像塊中有至少一個(gè)黑色像素,則
壓縮后的圖像上的相應(yīng)的像素將被設(shè)定為黑色。旋轉(zhuǎn)的目的是使文本行充分水平,而壓縮
12的主要目的是對于每個(gè)文本行抹去字符的空白區(qū)域而獲得"實(shí)心"文本塊。在"實(shí)心"文本 塊上搜索字符的中等高度點(diǎn)容易得多。 為了獲得良好的"實(shí)心"效果,同時(shí)不將相鄰文本行混淆,垂直壓縮比M可以被指 定為滿足以下條件的最小正整數(shù)該條件是,原始圖像的高度除以M不大于給定的值(例如 512)。也可以根據(jù)要檢測的字符的平均高度來分配垂直壓縮比M。例如,如果要檢測的字符 的平均高度為H,則M可以被分配為H/8。水平壓縮比N可以被指定為3XM。
在步驟S620中,為了獲得文本行的更好的"實(shí)心"效果,二值圖像II進(jìn)一步通過 在水平方向上然后在垂直方向上執(zhí)行游程長度平滑算法(RLSA)來進(jìn)行平滑。游程是指一 片連續(xù)的N個(gè)像素,其間不具有間隔(白色像素)。游程長度平滑算法是由指示一個(gè)長度 (像素?cái)?shù)目)的參數(shù)來表征的,如果兩個(gè)像素之間的距離小于該長度,則這兩個(gè)像素之間的 像素都將被描繪為"黑色",換言之,根據(jù)游程長度平滑算法,這兩個(gè)像素將被認(rèn)為是"連續(xù) 的"。所述的參數(shù)可被選作2和4之間的值。游程長度平滑算法的效果是使距離短的像素 連通在一起以便識(shí)別為"基本上"連續(xù)的直線或曲線。圖10(a)示出通過對圖9中的邊緣 圖像如上所述進(jìn)行旋轉(zhuǎn)、壓縮和游程長度平滑算法而獲得的示例性邊緣圖像。
然后,在步驟S630中,沿著垂直方向在二值圖像II上尋找黑色游程。通過除去太 短或太長的黑色游程而丟棄不屬于字符的黑色游程。Hl和H2例如分別被指定作為仿射變 換后的文檔中最小可能的文本高度和最大可能的文本高度。如果黑色游程的長度小于Hl 或者大于H2,則該黑色游程被丟棄。在丟棄步驟之后,多數(shù)保留的黑色游程屬于字符。
在步驟S640中,提取保留的黑色游程的中等高度點(diǎn)作為字符的中等高度點(diǎn)。然 后,生成與二值圖像II同樣尺寸的二值圖像12。在二值圖像12中,在與中等高度點(diǎn)對應(yīng)的 位置處的像素被設(shè)為黑色。圖10(b)示出由從圖10(a)的圖像提取的中等高度點(diǎn)構(gòu)成的示 例性圖像。 在步驟S650中,在獲得包含所述中等高度點(diǎn)的二值圖像I2之后,可以通過利用連 通單元搜索方法來找到曲線。與在步驟S430中描述的相似,搜索策略例如可以是,首先從 圖像左側(cè)選擇起始點(diǎn),然后水平向右側(cè)搜索黑色像素。在本方法的實(shí)施中,每次從一個(gè)黑色 像素開始,在例如水平4個(gè)像素和垂直3個(gè)像素內(nèi)搜索下一個(gè)前景像素。
由于字符筆劃的波動(dòng),如此獲得的曲線常常是不平滑的,如圖10(b)所示。因此, 在步驟S660中,優(yōu)選地使用游程長度信息來平滑這些曲線。例如,計(jì)算每條曲線的平均游 程長度H,然后其相應(yīng)游程長度超過[aXH,bXH]的范圍的點(diǎn)被除去,其中a〈 l且b〉 1。 也可以在步驟S660中使用其他平滑方法,只要可以平滑這些曲線即可。如果對計(jì)算復(fù)雜度 有限制,或者對準(zhǔn)確率的要求許可,則也可以省略步驟S660。 在步驟S670中,文本行曲線的坐標(biāo)被變換到原始邊緣圖像上。此變換操作是前述 的仿射變換操作的逆操作。 然后,對于每個(gè)圖像條帶,通過如下步驟計(jì)算其水平消失點(diǎn) a)提取位于圖像條帶中的文本行曲線的片段; b)用水平線段擬合每一條所述文本行曲線的片段; c)通過選擇水平線段的最優(yōu)會(huì)聚點(diǎn),從水平線段計(jì)算水平消失點(diǎn)。 在計(jì)算水平消失點(diǎn)時(shí)選擇最優(yōu)會(huì)聚點(diǎn)的過程例如可以通過與步驟S440中計(jì)算垂
直消失點(diǎn)時(shí)相同的過程來執(zhí)行。然而,在計(jì)算水平消失點(diǎn)時(shí)選擇最優(yōu)會(huì)聚點(diǎn)的過程也可以通過與步驟S440中計(jì)算垂直消失點(diǎn)時(shí)的過程不同的過程來執(zhí)行,只要可以計(jì)算出消失點(diǎn) 即可。 現(xiàn)在再參照圖3。 在步驟S340中,從圖像條帶以及相應(yīng)的水平消失點(diǎn)和垂直消失點(diǎn),構(gòu)建描述畸變 文檔圖像的模型,用于描述畸變文檔圖像和校正后的文檔圖像之間的映射。在本示例中,該 模型是網(wǎng)圖。圖15舉例示出了如何構(gòu)建該網(wǎng)圖的方法。如圖15所示,以實(shí)線曲線描繪了 文檔圖像Pa-Pb-Pc-Pd,并且該文檔圖像Pa-Pb-Pc-Pd被分割成三個(gè)條帶,其從左側(cè)到右側(cè) 依次為STRIPE 1、STRIPE 2和STRIPE 3。根據(jù)上述的方法找到了一個(gè)垂直消失點(diǎn)VVP和三 個(gè)水平消失點(diǎn)HVP1、HVP2和HVP3。水平消失點(diǎn)HVP1、HVP2和HVP3分別是STRIPE1、STRIPE 2和STRIPE 3的水平消失點(diǎn)。因此,有兩條垂直線Pe-Pf和Pg-Ph,其均起源于垂直消失點(diǎn) VVP,并將該圖像分割成這三個(gè)條帶?,F(xiàn)在考慮網(wǎng)圖中的水平曲線。在圖15示出的此說明 性示例中使用了兩條水平曲線。然而,水平曲線的數(shù)量可以取決于期望的OCR準(zhǔn)確率以及 諸如處理速度和計(jì)算能力之類的要求和條件來確定。此圖像的左邊緣上的例如兩個(gè)點(diǎn)被選 擇作為點(diǎn)P011和點(diǎn)P012。優(yōu)選選擇這些點(diǎn)使得它們均等地分割左邊緣。然而,這并不是 嚴(yán)格的要求。然后,從水平消失點(diǎn)HVP1開始向著點(diǎn)P011畫一條直線,該直線延伸而與直線 Pe-Pf具有交點(diǎn)P121,并且從水平消失點(diǎn)HVP1開始向著點(diǎn)P012畫一條直線,該直線延伸而 與直線Pe-Pf具有交點(diǎn)P122。然后,從水平消失點(diǎn)HVP2開始向著點(diǎn)P121畫一條直線,該直 線與直線Pg-Ph具有交點(diǎn)P231,并且從水平消失點(diǎn)HVP2開始向著點(diǎn)P122畫一條直線,該直 線與直線Pg-Ph具有交點(diǎn)P232。最后,從水平消失點(diǎn)HVP3開始向著點(diǎn)P231畫一條直線, 該直線與圖像的右邊緣具有交點(diǎn)P301,并且從水平消失點(diǎn)HVP3開始向著點(diǎn)P232畫一條直 線,該直線與圖像的右邊緣具有交點(diǎn)P302。結(jié)果,獲得八個(gè)點(diǎn)P011、P012、P121、P122、P231、 P232、P301和P302??梢酝ㄟ^利用兩組點(diǎn)來擬合兩條水平曲線,其中一組為點(diǎn)P011、P121、 P231和P301,另一組為點(diǎn)P012、P122、P232和P302。也就是說,總體上,水平曲線是通過計(jì) 算每個(gè)水平消失點(diǎn)與垂直線之間的交點(diǎn)來確定的。請注意,雖然在以上說明性示例中,該方 法從左側(cè)的水平消失點(diǎn)開始進(jìn)行,但是任何一個(gè)水平消失點(diǎn)都可以被當(dāng)作開始的水平消失 點(diǎn),只要在某個(gè)條帶內(nèi)的水平曲線的方向是通過該條帶的水平消失點(diǎn)來確定的即可。
圖13示出帶有通過上述方法構(gòu)造的網(wǎng)圖的圖9的文檔圖像。如圖13所示,整個(gè)圖 像區(qū)域被分割成8個(gè)平面條帶,這8個(gè)平面條帶是通過從垂直消失點(diǎn)起源的7條垂直線獲 得的。 一組9條水平曲線是通過如上所述計(jì)算水平消失點(diǎn)和垂直線之間的交點(diǎn)而確定的。
在建立了網(wǎng)圖之后,通過參照該網(wǎng)圖生成畸變文檔圖像上的點(diǎn)和校正后的文檔圖 像上的點(diǎn)之間的映射;然后,通過參照該映射獲得校正后的文檔圖像。 畸變文檔圖像上的點(diǎn)和校正后的文檔圖像上的點(diǎn)之間的映射是基于邊界內(nèi)插 來石角定的。在題為"Identification of Text-Only Areas inMixed-type Documents", C.Strouthopoulos, N. Papamarkos, C. Chamzas, Engng Applic. Artif. Intell. , Elsevier Science Ltd, GreatBritain, Vol. 10, No. 4, pp. 387-401, 1997的論文中描述了一種邊界內(nèi) 插方法。 在一個(gè)示例中,利用三次自然樣條來擬合連接這些交點(diǎn)、并且包圍網(wǎng)圖中的一個(gè) 網(wǎng)格的曲線,作為邊界曲線Ci(i = 1,2,3,4),如圖7所示。圖7的左下部分示出了網(wǎng)圖中 的一個(gè)網(wǎng)格,該網(wǎng)格如上所述由四條邊界曲線Ci(i = 1,2,3,4)包圍。這些邊界曲線是通過
14垂直消失點(diǎn)和水平消失點(diǎn)如上所述獲得的上述的垂直線和水平曲線的一部分。圖7的右下 部分示出了在與畸變文檔圖像的一個(gè)網(wǎng)格對應(yīng)的校正后的文檔圖像的一個(gè)網(wǎng)格中在參數(shù) 空間u和v上定義的校正后的文檔圖像,其中u G [O,l]并且vG [O,l]。水平邊界曲線q 和C3可以表達(dá)為以 (u)作為x坐標(biāo),且以Ciy(u)作為y坐標(biāo)(i = 1,3),并且垂直邊界線 。2和q可以表達(dá)為以cix(v)作為x坐標(biāo),且以ciy(v)作為y坐標(biāo)(i = 2,4)。也就是說,對 于校正后的文檔圖像的每一個(gè)u,畸變文檔圖像中的水平邊界曲線q和q上的每個(gè)點(diǎn)可以 被表達(dá)為(cix(U),ciy(U)), (i = 1,3),并且對于校正后的文檔圖像的每一個(gè)v,畸變文檔圖 像中的垂直邊界線C2和C4上的每個(gè)點(diǎn)可以被表達(dá)為(cix(V),ciy(V)), (i = 2,4)。
每條邊界曲線Ci(i = 1,2,3,4)映射到u-v空間中的直線圖像的相應(yīng)的一條邊。
例如,校正后的文檔圖像中的U軸對應(yīng)于畸變文檔圖像中的曲線(^,并且校正后的文檔圖像
中的v軸對應(yīng)于畸變文檔圖像中的曲線c4。在這種情況下,例如利用雙線性混成昆氏曲面 (bi-linearlyblended Coons patch)來提供用來描述如何將校正后的文檔圖像中的任意 點(diǎn)(u,v)映射到由畸變文檔圖像中的邊界曲線Ci(i = 1,2,3,4)包圍的畸變文檔圖像中的 點(diǎn)(cx (u, v) , cv (u, v))的2維函數(shù),如下:
C,(W,V) = [1 -
+ [c1; ,c3j(0)]
—[1 —
l一v
V
、(1)
l一v
V
(9) Cy(w,v) = — —
卜v
V
(10)
(。) (0)「l-v 這些方程式由兩個(gè)相對的邊界曲線的線性內(nèi)插(式中的第一和第二項(xiàng))、以及
基于邊界的交點(diǎn)的校正函數(shù)(式中的第三項(xiàng))構(gòu)成。這些方程式的更多細(xì)節(jié)可以從題為
"Correcting document imagewarping based on regression of curved text lines,,, Zheng Zhang,Chew Lim Tan,Proceedings of the Seventh International Conferenceon Document Analysis and Recognition(ICDAR' 03)的論文中找至U。 為了獲取網(wǎng)圖中的任何網(wǎng)格中的映射關(guān)系,包圍該網(wǎng)格的兩條相關(guān)水平曲線可以 被選擇為Cl和c3,并且包圍該網(wǎng)格的兩條相關(guān)垂直線可以被選擇為c2和c4。
根據(jù)上述過程對網(wǎng)圖中的每個(gè)網(wǎng)格中的每個(gè)點(diǎn)建立映射,從而建立畸變文檔圖像 和校正后的文檔圖像之間的像素映射。 注意,雖然使用了三次自然樣條方法來擬合用于連接這些交點(diǎn)的曲線,但是也可 以使用各種其他曲線諸如圓錐曲線,并且可以使用相應(yīng)的內(nèi)插方法用于該映射。并且,也可
15以使用通過直線簡單地連接這些交點(diǎn)的方法。在這種情況下,網(wǎng)圖中的每個(gè)網(wǎng)格可以由四邊形來近似,并且此四邊形內(nèi)部的每個(gè)點(diǎn)可以通過使用公知的線性技術(shù)來進(jìn)行內(nèi)插。
最后,在步驟S350中,通過映射獲得校正后的文檔圖像。具體地,當(dāng)獲得與畸變文檔圖像中的像素相對應(yīng)的映射后的像素時(shí),映射后的像素被描繪以與畸變文檔圖像中的相應(yīng)像素相同的顏色。圖14示出借助根據(jù)本發(fā)明的畸變校正方法從圖8所示的畸變文檔圖像校正的示例性校正后的文檔圖像??梢钥闯觯U蟮奈臋n圖像既沒有透視問題引起的畸變也沒有彎曲問題引起的畸變,并且看上去非常平坦。在校正之后,利用校正后的文檔圖像的OCR識(shí)別準(zhǔn)確率與利用畸變文檔圖像的相比可以顯著改善。 可以通過許多方式來實(shí)施本發(fā)明的方法和系統(tǒng)。例如,可以通過軟件、硬件、固件、或其任何組合來實(shí)施本發(fā)明的方法和系統(tǒng)。上述的方法步驟的次序僅是說明性的,本發(fā)明的方法步驟不限于以上具體描述的次序,除非以其他方式明確說明。此外,在一些實(shí)施例中,本發(fā)明還可以被實(shí)施為記錄在記錄介質(zhì)中的程序,其包括用于實(shí)現(xiàn)根據(jù)本發(fā)明的方法的機(jī)器可讀指令。因而,本發(fā)明還覆蓋存儲(chǔ)用于實(shí)現(xiàn)根據(jù)本發(fā)明的方法的程序的記錄介質(zhì)。
雖然已通過示例詳細(xì)展示了本發(fā)明的一些具體實(shí)施例,但是本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,上述示例僅意圖是示例性的而非限制本發(fā)明的范圍。本領(lǐng)域技術(shù)人員應(yīng)該理解,上述實(shí)施例可以被修改而不脫離本發(fā)明的范圍和實(shí)質(zhì)。本發(fā)明的范圍是通過所附的權(quán)利要求限定的。
權(quán)利要求
一種校正原始文檔的畸變文檔圖像中的幾何畸變的方法,包括垂直消失點(diǎn)檢測步驟,檢測所述畸變文檔圖像的垂直消失點(diǎn),所述垂直消失點(diǎn)是在原始文檔中垂直于文本行的垂直方向上的消失點(diǎn);圖像分割步驟,通過使用從所檢測到的垂直消失點(diǎn)起源的垂直線,將所述畸變文檔圖像的整個(gè)區(qū)域分割成多個(gè)圖像條帶;水平消失點(diǎn)檢測步驟,檢測每個(gè)所述圖像條帶的水平消失點(diǎn),所述水平消失點(diǎn)是在原始文檔中垂直于所述垂直方向的水平方向上的消失點(diǎn);畸變模型生成步驟,通過使用所述垂直消失點(diǎn)和所述圖像條帶的所述水平消失點(diǎn)建立畸變模型,所述畸變模型描述畸變文檔圖像和校正后的文檔圖像之間的映射關(guān)系;以及校正步驟,基于所述模型生成校正后的文檔圖像。
2. 如權(quán)利要求1所述的方法,其中所述垂直消失點(diǎn)檢測步驟包括如下子步驟從所述畸變文檔圖像中提取字符的多個(gè)垂直筆劃;通過多個(gè)垂直線段來擬合所述垂直筆劃;通過搜索所述垂直線段的最優(yōu)會(huì)聚點(diǎn),從垂直線段計(jì)算垂直消失點(diǎn)。
3. 如權(quán)利要求2所述的方法,其中搜索所述垂直線段的最優(yōu)會(huì)聚點(diǎn)的步驟包括如下子步驟計(jì)算所述垂直線段中的任何兩條垂直線段之間的交點(diǎn);在所述交點(diǎn)之中選擇使交叉角的正弦平方和最小化的交點(diǎn)作為最優(yōu)會(huì)聚點(diǎn),其中對于一個(gè)所述交點(diǎn),每個(gè)交叉角是一條垂直線段與連接所述交點(diǎn)和所述垂直線段的中點(diǎn)的直線所限定的角。
4. 如權(quán)利要求1-3中任一項(xiàng)所述的方法,其中所述水平消失點(diǎn)檢測步驟包括如下子步驟對于每一個(gè)圖像條帶,從所述畸變文檔圖像中沿文本行的方向定位文本行曲線;提取在圖像條帶中定位的文本行曲線的片段;通過水平線段擬合所述文本行曲線的片段;以及通過搜索水平線段的最優(yōu)會(huì)聚點(diǎn),從所述水平線段計(jì)算水平消失點(diǎn)。
5. 如權(quán)利要求4所述的方法,其中從所述畸變文檔圖像中沿文本行的方向定位文本行曲線的子步驟包括中等高度點(diǎn)提取步驟,提取畸變文檔圖像中的字符的像素的中等高度點(diǎn);文本行曲線定位步驟,通過使用所述中等高度點(diǎn),定位穿過所述文本行中的字符的中等高度的文本行曲線。
6. 如權(quán)利要求4所述的方法,其中搜索水平線段的最優(yōu)會(huì)聚點(diǎn)的步驟包括如下子步驟計(jì)算所述水平線段中的任何兩條水平線段之間的交點(diǎn);在所述交點(diǎn)之中選擇使交叉角的正弦平方和最小化的交點(diǎn)作為最優(yōu)會(huì)聚點(diǎn),其中對于一個(gè)所述交點(diǎn),每個(gè)交叉角是一條水平線段與連接所述交點(diǎn)和所述水平線段的中點(diǎn)的直線所限定的角。
7. 如權(quán)利要求5所述的方法,其中搜索水平線段的最優(yōu)會(huì)聚點(diǎn)的步驟包括如下子步驟計(jì)算所述水平線段中的任何兩條水平線段之間的交點(diǎn);在所述交點(diǎn)之中選擇使交叉角的正弦平方和最小化的交點(diǎn)作為最優(yōu)會(huì)聚點(diǎn),其中對于一個(gè)所述交點(diǎn),每個(gè)交叉角是一條水平線段與連接所述交點(diǎn)和所述水平線段的中點(diǎn)的直線所限定的角。
8. 如權(quán)利要求1-7中任一項(xiàng)所述的方法,其中所述畸變模型是網(wǎng)圖模型,所述網(wǎng)圖模型是由描述水平方向上的畸變的一組水平曲線和一組所述垂直線構(gòu)成的,所述水平曲線是基于所述圖像條帶的所述水平消失點(diǎn)產(chǎn)生的。
9. 一種校正原始文檔的畸變文檔圖像中的幾何畸變的系統(tǒng),包括垂直消失點(diǎn)檢測裝置,用于檢測所述畸變文檔圖像的垂直消失點(diǎn),所述垂直消失點(diǎn)是在原始文檔中垂直于文本行的垂直方向上的消失點(diǎn);圖像分割裝置,用于通過使用從所檢測到的垂直消失點(diǎn)起源的垂直線,將所述畸變文檔圖像的整個(gè)區(qū)域分割成多個(gè)圖像條帶;水平消失點(diǎn)檢測裝置,用于檢測每個(gè)所述圖像條帶的水平消失點(diǎn),所述水平消失點(diǎn)是在原始文檔中垂直于所述垂直方向的水平方向上的消失點(diǎn);畸變模型生成裝置,用于通過使用所述垂直消失點(diǎn)和所述圖像條帶的所述水平消失點(diǎn)建立畸變模型,所述畸變模型描述畸變文檔圖像和校正后的文檔圖像之間的映射關(guān)系;以及校正裝置,用于基于所述模型生成校正后的文檔圖像。
10. 如權(quán)利要求9所述的系統(tǒng),其中所述垂直消失點(diǎn)檢測裝置進(jìn)一步包括用于從所述畸變文檔圖像中提取字符的多個(gè)垂直筆劃的裝置;用于通過多個(gè)垂直線段來擬合所述垂直筆劃的裝置;用于通過搜索所述垂直線段的最優(yōu)會(huì)聚點(diǎn)從垂直線段計(jì)算垂直消失點(diǎn)的裝置。
11. 如權(quán)利要求10所述的系統(tǒng),其中用于通過搜索所述垂直線段的最優(yōu)會(huì)聚點(diǎn)從垂直線段計(jì)算垂直消失點(diǎn)的裝置進(jìn)一步包括用于計(jì)算所述垂直線段中的任何兩條垂直線段之間的交點(diǎn)的裝置;用于在所述交點(diǎn)之中選擇使交叉角的正弦平方和最小化的交點(diǎn)作為最優(yōu)會(huì)聚點(diǎn)的裝置,其中對于一個(gè)所述交點(diǎn),每個(gè)交叉角是一條垂直線段與連接所述交點(diǎn)和所述垂直線段的中點(diǎn)的直線所限定的角。
12. 如權(quán)利要求9-11中任一項(xiàng)所述的系統(tǒng),其中所述水平消失點(diǎn)檢測裝置進(jìn)一步包括用于從所述畸變文檔圖像中沿文本行的方向定位文本行曲線的裝置;用于提取在圖像條帶中定位的文本行曲線的片段的裝置;用于通過水平線段擬合所述文本行曲線的片段的裝置;用于通過搜索水平線段的最優(yōu)會(huì)聚點(diǎn)從所述水平線段計(jì)算水平消失點(diǎn)的裝置。
13. 如權(quán)利要求12所述的系統(tǒng),其中所述用于從所述畸變文檔圖像中沿文本行的方向定位文本行曲線的裝置包括中等高度點(diǎn)提取裝置,用于提取畸變文檔圖像中的字符的像素的中等高度點(diǎn);文本行曲線定位裝置,用于通過使用所述中等高度點(diǎn),定位穿過所述文本行中的字符的中等高度的文本行曲線。
14. 如權(quán)利要求12所述的系統(tǒng),其中用于通過搜索水平線段的最優(yōu)會(huì)聚點(diǎn)從所述水平線段計(jì)算水平消失點(diǎn)的裝置進(jìn)一步包括用于計(jì)算所述水平線段中的任何兩條水平線段之間的交點(diǎn)的裝置; 用于在所述交點(diǎn)之中選擇使交叉角的正弦平方和最小化的交點(diǎn)作為最優(yōu)會(huì)聚點(diǎn)的裝置,其中對于一個(gè)所述交點(diǎn),每個(gè)交叉角是一條水平線段與連接所述交點(diǎn)和所述水平線段的中點(diǎn)的直線所限定的角。
15. 如權(quán)利要求13所述的系統(tǒng),其中用于通過搜索水平線段的最優(yōu)會(huì)聚點(diǎn)從所述水平線段計(jì)算水平消失點(diǎn)的裝置進(jìn)一步包括用于計(jì)算所述水平線段中的任何兩條水平線段之間的交點(diǎn)的裝置; 用于在所述交點(diǎn)之中選擇使交叉角的正弦平方和最小化的交點(diǎn)作為最優(yōu)會(huì)聚點(diǎn)的裝置,其中對于一個(gè)所述交點(diǎn),每個(gè)交叉角是一條水平線段與連接所述交點(diǎn)和所述水平線段的中點(diǎn)的直線所限定的角。
16. 如權(quán)利要求9-15中任一項(xiàng)所述的系統(tǒng),其中所述畸變模型是網(wǎng)圖模型,所述網(wǎng)圖 模型是由描述水平方向上的畸變的一組水平曲線和一組所述垂直線構(gòu)成的,所述水平曲線 是基于所述圖像條帶的所述水平消失點(diǎn)產(chǎn)生的。
全文摘要
本發(fā)明提供一種用于校正畸變文檔圖像中的幾何畸變的方法和系統(tǒng)。所述方法包括垂直消失點(diǎn)檢測步驟,檢測所述畸變文檔圖像的垂直消失點(diǎn);圖像分割步驟,通過使用從所檢測到的垂直消失點(diǎn)起源的垂直線,將所述畸變文檔圖像的整個(gè)區(qū)域分割成多個(gè)圖像條帶;水平消失點(diǎn)檢測步驟,檢測每個(gè)所述圖像條帶的水平消失點(diǎn);畸變模型生成步驟,通過使用所述垂直消失點(diǎn)和所述圖像條帶的所述水平消失點(diǎn)建立畸變模型,所述畸變模型描述畸變文檔圖像和校正后的文檔圖像之間的映射關(guān)系;以及校正步驟,基于所述模型生成校正后的文檔圖像。根據(jù)這種畸變模型,可以容易且高效地校正幾何畸變。
文檔編號(hào)G06K9/36GK101789122SQ20091000992
公開日2010年7月28日 申請日期2009年1月22日 優(yōu)先權(quán)日2009年1月22日
發(fā)明者溫東超, 胥立豐 申請人:佳能株式會(huì)社