專利名稱:單詞識別裝置的制作方法
技術領域:
本發(fā)明屬于涉及利用字符串識別的單詞輸入裝置的技術領域。
背景技術:
以往,將在紙上印刷或手寫的文字進行讀取的裝置作為OCR已為人們所熟知。主要應用領域是賬票處理、郵件的區(qū)分、文書的文本化等。在典型的OCR中,按以下那樣的順序讀取文字。首先,使用掃描器將紙面進行光電變換并讀入到計算機(圖像輸入),推定讀取對象的區(qū)域后截出每個文字(文字截出),識別每個文字是什么文字(文字識別),利用語言信息等將已讀取的文字群作為字符串進行解釋(后處理)。當在這樣的OCR中識別日語時,尤其對于用于存儲語言信息的裝置(語言詞典)需要很大的存儲容量。另外,存在在紙面上存在多個文字行,作為讀取對象的文字往往是其一部分的情況。在這樣的情況下,根據(jù)依照應用領域預先被規(guī)定的規(guī)則,裝置自動地判別作為讀取對象的文字行。
一般在文字截出階段,特定哪個部分圖像與正確的文字對應是困難的。為此,基于各種假設截出文字,在后處理中特定文字的截出方法正在被廣泛地被使用。
另外,在有類似形狀的文字的情況下,在文字識別單獨處理中特定文字種類是困難的。在這樣的情況下,文字識別將輸出多個候補文字。
近年來,出現(xiàn)了將被搭載在便攜式電話、PDA(personal digitalassistant)等便攜設備中的攝像機作為圖像輸入的裝置讀取文書、廣告牌、標記等文字的嘗試。在這些設備中的識別對象是電話號碼、郵件地址、URL、英語單詞等。另外,識別結果在電話和郵件的發(fā)送、向WEB的訪問、單詞的翻譯等服務中被使用。在這樣的用途中,假定利用者通過便攜式設備自由地讀取身邊的文書、廣告牌、標記等,并接收服務。為此,實現(xiàn)操作的容易性、等待時間的縮短等已成為必要。
在現(xiàn)有技術的識別對象的情況下,從圖像中特定讀取對象的字符串比較容易。例如,在電話號碼的情況下,通常在一開始記載有“Tel.”等字符串,而且在全部的位數(shù)、括號和連字符的附加方法中存在規(guī)則性。另外,在郵件地址和URL等中,也有在開頭有“http:”,在中途出現(xiàn)“@”,用“.com”“.jp”等結束等的規(guī)則性。利用這樣的規(guī)則性,用現(xiàn)有的技術也能自動地檢測識別對象的字符串。另外,在英語單詞的場合,在單詞的前后有空白。為此,基于大致位置的指定特定識別對象的單詞是容易的。例如,在山崎正裕等人發(fā)表的題為《面向應用了OCR功能的便攜式電話的電子詞典功能的開發(fā)》(電子信息通信學會2004年綜合大會演講論文集D-12-35)(非專利文獻1)中,記載著操作者通過使想要讀取的英語單詞與畫面中央的標記一致,既讀取其近旁的英語單詞,又顯示單詞的翻譯結果的應用例子。
但是,當從在日語和漢語等單詞間不留空白所記述的語言的字符串識別單詞的情況下,特定讀取對象的字符串是困難的。這是因為在日語的情況下,在單詞間不設置空白而進行印刷或者書寫的緣故。例如,為讀取“臨時修繕費用請求”的文字行中的“修繕”這樣的單詞,操作者即使使標記與“修繕”的中央一致,自動地特定什么范圍是操作者期待的讀取范圍也是困難的。作為代替方案,有用矩形指定讀取區(qū)域的方式,但它顯著地使操作量增加,并降低設備的方便性。
另外,對于具有這樣的文字識別功能的便攜式設備,在后處理中將產(chǎn)生詞典的存儲容量的問題。在現(xiàn)有的方式中,在使用單詞詞典的信息加以制約的同時,一般地,在對于文字截出和文字識別的結果有含糊性的單詞中檢測表面合理的單詞。若將日語一般的單詞、時事單詞等作為讀取對象,那么單詞數(shù)量變得很龐大,很難存儲到便攜式設備中。作為此問題的解決方法,人們已考慮將詞典存儲到服務器等外部的計算機中,并用通信功能與便攜式設備連接。但是在這樣的后處理中,必須頻繁地訪問單詞詞典,若將詞典設置在外部,那么就有處理時間變長的問題。
發(fā)明內(nèi)容
本發(fā)明想要解決的第1課題就是做到用簡單的操作從日語或漢語等在單詞間不留空白而被記錄的語言的文檔中能指定想要讀取的單詞。如上述那樣,在日語的場合,因為單詞間沒有空白,因此即使只指定1點位置也很難自動地特定單詞的范圍。在本發(fā)明中,能解決此問題,并用與識別英語單詞等相同的操作指定讀取對象的單詞。
本發(fā)明想要解決的第2課題就是降低向后處理中的單詞詞典的訪問頻度,即使單詞詞典在服務器上也在實用的處理時間內(nèi)使單詞的讀取成為可能。
作為用于解決上述課題的第1裝置,在本發(fā)明中,設置從單詞對照的結果所得到的候補單詞的集合選擇最接近操作者指定的位置信息的單詞的設備。此處,所謂單詞對照,是作為預先已存儲到詞典中的單詞,根據(jù)單詞識別結果檢測表面合理的部分圖像的配置的處理。在詞典中預先存儲1個以上的單詞。如果,在作為單詞發(fā)現(xiàn)多個表面合理的部分圖像配置的場合,就將它們作為候補單詞進行輸出。作為指定的位置和候補單詞的接近程度的尺度,例如使用候補單詞的外接矩形的重心和指定位置的距離。由此,在單詞間沒有空白的場合,也能讀取操作者指定的位置近旁的單詞。
作為用于解決上述課題的第2設備,在本發(fā)明中,設置在文字識別后不使用單詞信息而輸出表面合理的字符串的候補的字符串輸出設備。該字符串輸出設備以文字識別的結果所得到的確信度、部分圖像間隔的均勻性等的信息為基準輸出表面合理的字符串。在表面合理的字符串有多個的場合,將多個字符串作為候補字符串輸出。
在字符串輸出設備中采用通過反復處理使表面合理性變?yōu)樽罴训姆绞健R酝?,廣泛使用網(wǎng)絡表達部分圖像的位置關系(文字截出網(wǎng)絡),求出作為每個部分圖像的文字的確信度,求出在網(wǎng)絡上確信度的和成為最大的路徑的方式。但是,對于該方式,不能夠?qū)⒉糠謭D像間隔的均勻性變成最佳化。因此,做到使文字的截出方法一點一點地反復變化,使作為字符串的表面合理性最佳化。
通過使用上述那樣的文字截出方式、單詞對照方式和數(shù)據(jù)形式,能從在單詞間不留空白而被記述的日語和漢語等語言的字符串中自動地截出接近操作者指定的位置的單詞。因此,用于讓識別單詞的操作者的操作量大幅度地減少,并提高設備的方便性。
另外,即使在遠程服務器中具有單詞詞典,也沒有必要頻繁地進行網(wǎng)絡訪問,因而提高處理速度。在本發(fā)明中,能夠匯總字符串并傳送到服務器,縮短傳送時間。進行傳送的字符串通過文字識別的確信度、文字間隔的分散等進行嚴格挑選,縮短傳送時間。此外文字截出的含糊性在該時刻被解除,服務器中的單詞對照處理也是簡單的。
圖1是本發(fā)明的一個實施例的構成。
圖2是位置指定畫面。
圖3是文字截出結果的網(wǎng)絡。
圖4是字符串輸出結果。
圖5是字符串輸出的處理順序。
圖6是邊界倒轉(zhuǎn)的例子。
圖7是單詞選擇結果的顯示例子。
圖8是字符串輸出的數(shù)據(jù)形式。
圖9是單詞對照結果的數(shù)據(jù)形式。
圖10是計算機1的構成例子。
具體實施例方式
圖1表示本發(fā)明的一個實施例。本實施例用2臺計算機100、101實現(xiàn)。圖像輸入設備102將文字的圖樣進行光電變換后輸入到計算機中。位置指定設備103特定由操作者輸入的讀取對象的單詞位置的指定。此處,設位置用圖像上的X坐標值和Y坐標值指定。文字截出設備104截出被認為與每個文字對應的部分圖像。文字識別設備105識別已截出的各個部分圖像是什么文字,并與確信度一起輸出。這時,參照用于存儲各文字的形狀的設備(文字識別詞典109)。字符串輸出設備106以文字識別的結果所得到的確信度、部分圖像間隔的均勻性等的信息為基準輸出表面合理的字符串。在表面合理的字符串有多個的情況下,將多個字符串作為候補字符串輸出。單詞對照設備107將預先存儲在單詞詞典110中的單詞與候補字符串對照,檢測一致的單詞。單詞選擇設備108在單詞對照設備107的輸出和位置指定設備103的輸出的基礎上,選擇接近指定位置的單詞,作為單詞識別結果進行輸出。最后,在識別結果顯示設備111中顯示單詞識別結果。
計算機1是便攜式信息終端,例如是帶有攝像機的便攜式電話和帶有攝像機的PDA等。計算機2是通過無線或有線直接或間接地能與計算機1通信的計算機,例如,是被連接到蜂窩狀通信網(wǎng)絡的服務器等。識別結果顯示設備112是計算機1具有的顯示部分。計算機1的圖像輸入設備111通過攝像機等的圖像輸入裝置來實現(xiàn)。位置指定設備103、文字截出設備104、文字識別設備105、以及字符串輸出設備106通過在演算部分實行被存儲在計算機1的存儲部分中的程序來實現(xiàn)。文字識別詞典109被存儲在計算機1的存儲部分中。單詞對照設備107和單詞選擇設備108通過在演算部分實行存儲在計算機2的存儲部分中的程序來實現(xiàn)。單詞詞典110被存儲在計算機2的存儲部分中。計算機1和2具有通信功能,使用該通信功能進行單詞的位置指定、字符串輸出設備的輸出以及單詞識別結果等的發(fā)送接收。
圖10表示計算機1(100)的外觀(表面一側和背面一側)。圖像輸入設備102的攝像機若設置在與顯示部分111相反一側,那么在用戶一邊目視一邊輸入時很方便。在顯示部分111的一側,設置了在顯示部分的顯示內(nèi)容的操作和圖像輸入的指定時使用的輸入按鈕112。
圖2是模式地表示輸入圖像和位置指定的操作。201是在顯示部分111上顯示輸入圖像的窗口。設在輸入圖像中取有想讓操作者讀取的單詞。202是用于位置指定的標記。通過操作者將該標記與想要識別的單詞對準進行圖像的輸入,相當于該標記的位置的輸入圖像的位置作為在位置指定設備103中應特定的位置被指定。在該例中,為了讓“經(jīng)濟”的字符串讀出,在將標記對準其近旁的狀態(tài)下輸入圖像。
如202所示那樣,當在輸入圖像中被分為邊和旁的單詞多的情況下,專一地規(guī)定單詞和單詞的邊界是困難的。在這種情況下,在此階段要基于各式各樣的假設預先截出文字。圖3模式地表示文字截出設備103的輸出的例子。此處,文字截出結果成為在特開平11-085909號公報(專利文獻1)記述的網(wǎng)絡的形式。圖中用圓標記表示的網(wǎng)絡的頂點表示文字間的邊界的候補。圓中的數(shù)字表示各邊界候補的標識符。另外,折線表示已被截出的部分圖像。通過這樣的網(wǎng)絡的表現(xiàn),單詞的截出方法成為用網(wǎng)絡中的路徑來表示。
作為文字識別設備105,例如,使用在H.Bunke、P.S.P.Wang“Handbook of Character Recognition and Document Image Analysis”(Word Sxientific、1997)(非專利文獻2)中那樣的方法。若有類似形狀的文字,那么在文字識別單獨處理中往往很難特定文字種類。在這樣的情況下,文字識別設備105使多個候補單詞與確信度成對輸出。
圖4模式地表示字符串輸出設備106的輸出例。由于文字截出方法在此階段不能決定,因此假定各式各樣的文字截出方法并輸出字符串。圖中示出了6個字符串,它表示6個候補字符串被輸出的場合。另外,候補字符串的順序按以下表示的字符串確信度的值大的順序排列。
(字符串確信度)=a×(文字識別結果的一位的確信度的平均值)-b×(文字的中心坐標間隔的分散值)(a、b是正的常數(shù))這是盡可能地將作為文字表面合理,而且,作為字符串文字的間距均勻的文字的截出方法作為上位的候補。
圖5表示在字符串輸出設備107中的處理順序的例子。首先,在步驟501中,在網(wǎng)絡上探索文字識別確信度的總和成為最大的路徑。這能用最短路徑的算法等通常的路徑探索算法實現(xiàn)。接著,在步驟502中,按照在步驟501中所得到的路徑計算字符串確信度,并代入變量a、b。
接著,在步驟503中,重復以下的處理。首先,在循環(huán)504中,對于全部的邊界候補計算已將該邊界候補倒轉(zhuǎn)的字符串確信度,將該值代入到變量c。在變量c的值比b的值大時,將c的值代入到b。
在上述的循環(huán)503中的處理中,所謂邊界候補是表示以下那樣的處理。如果,在邊界候i被包含在路徑中時,選擇靠近i之前、緊接在i之后的邊界候補作為兩端的文字的截出方法,并修正路徑以便不包含i。如果,當邊界候補i沒有包含在路徑中時,修正路徑以便包含i。在圖6(B)的例子中,將圖6(A)的第3邊界候補倒轉(zhuǎn),在圖6(C)中,將第5邊界候補倒轉(zhuǎn)。
接著,在步驟505中,判定a的值是否小于b的值,若判定結果為“真”,那么將b的值代入到a。若為“假”,那么結束循環(huán)503,按照在該時刻的路徑確定與字符串對應的部分圖像的配置,并作為字符串輸出。上述的處理,是只輸出1個最佳的文字截出方法的例子。與上述處理相同,通過經(jīng)常存儲上位n個文字的路徑,并使它們重復,一點一點地進行修正,也能輸出上位n個最佳文字的截出方法。
作為字符串輸出設備的輸出,使用將對于所得到的部分圖像配置的各部分圖像的文字識別結果的一位候補文字連接起來的輸出。另外,作為其它的實施例,如后述的那樣對于各部分圖像也可以使用存儲了多個候補文字的輸出(網(wǎng)格)。
在單詞對照設備107中,使用通常的字符串比較方法。另外,作為輸入,在使用網(wǎng)格的場合,使用丸川勝美等人發(fā)表的題為《用于手寫漢字住所識別的錯誤修正算法》(信息處理學會論文雜志Vol.35、No.6、1994-6pp.1101-1110)(非專利文獻3)那樣的方法。
在圖7中模式地表示用識別結果顯示設備111顯示了單詞選擇設備108的輸出的結果。201是在位置指定中已使用的畫面。701是表示單詞識別結果的窗口。越往窗口的上方,作為單詞越顯示表面合理的單詞。對于單詞的表面合理性使用在所識別的單詞的外接矩形的圖像上的重心和操作者指定的讀取位置的距離。另外,也可以顯示包含外接矩形指定的讀取位置那樣的單詞候補。此外,在能指定操作者希望的單詞候補那樣的識別結果顯示設備111上顯示光標702。操作者操作按鈕等使光標上下移動,從所列舉的候補單詞中選擇希望的單詞。另外,窗口701中單詞的X坐標,與在窗口201中所示的輸入圖像中對應的單詞的X坐標對準并顯示。
圖8是將字符串輸出設備106的輸出形式作為網(wǎng)格時的數(shù)據(jù)形式。表中各行即1個記錄與字符串中的1個文字對應。在開始的2個變量BL和BR中,存儲在網(wǎng)絡上的左、右邊界的識別符。在接著的4個變量L、T、R、B中,存儲已被截出的部分圖像的左端、右端、上端、下端的坐標。在下面的變量N中,存儲進行輸出的候補文字的個數(shù)。在從配置C[1]到C[N]中存儲文字識別結果所得到的候補文字的文字代碼。在從配置Lk[1]到Lk[N]中,存儲各候補文字的確信度。這樣,通過與部分圖像的坐標一起預先存儲文字識別結果,就能在單詞選擇設備108中選擇與位置指定結果相應的候補單詞。
圖9表示單詞對照107輸出的數(shù)據(jù)形式。在第1變量LEN中,存儲單詞的文字個數(shù)。在下面的4個變量L、T、R、B中存儲單詞的左端、右端、上端、下端的坐標。在變量C[i]中存儲單詞的第i個文字的文字代碼。在變量P[i]中,表示向與單詞的第i個文字對應的圖8的表中的記錄的指針。通過使用這樣的存儲形式,使圖7所示那樣的顯示成為可能。
權利要求
1.一種單詞識別裝置,其特征在于包括將圖像進行光電變換并作為數(shù)字圖像讀入的圖像輸入設備;從上述數(shù)字圖像中截出一個或以上的部分圖像的文字截出設備;將在文字截出設備中所得到的部分圖像作為文字進行識別的文字識別設備;存儲單詞的集合的單詞存儲設備;基于文字識別結果,檢測與在單詞存儲設備中存儲的單詞的每個文字類似的部分圖像的配置的單詞對照設備;指定圖像中應讀取的單詞的位置的位置指定設備;以及從單詞對照的結果內(nèi)部選擇接近由位置指定設備指定的位置的單詞的單詞選擇設備。
2.如權利要求1記載的單詞識別裝置,其特征在于單詞選擇設備對部分圖像配置的外接矩形的重心和指定的位置的距離為最短的部分圖像配置進行選擇。
3.如權利要求1記載的單詞識別裝置,其特征在于單詞選擇設備對部分圖像配置的外接矩形包含指定的位置的單詞進行選擇。
4.一種單詞識別裝置,其特征在于包括將圖像進行光電變換并作為數(shù)字圖像讀入的圖像輸入設備;從上述數(shù)字圖像中截出一個或以上的部分圖像的文字截出設備;將在文字截出設備中所得到的部分圖像作為文字進行識別的文字識別設備;基于文字識別的結果和各部分圖像的坐標生成表面合理的文字代碼的字符串生成設備;存儲單詞的集合的單詞存儲設備;從字符串生成結果檢測與存儲在單詞存儲設備中的單詞一致的部分字符串的字符串單詞對照設備;指定圖像中應讀取的單詞的位置的位置指定設備;以及從字符串單詞對照的結果內(nèi)部選擇接近由位置指定設備指定的位置的單詞的單詞選擇設備。
5.如權利要求4記載的單詞識別裝置,其特征在于單詞選擇設備對部分圖像配置的外接矩形的重心和指定的位置的距離為最短的部分圖像配置進行選擇。
6.如權利要求4記載的單詞識別裝置,其特征在于單詞選擇設備對部分圖像配置的外接矩形包含指定的位置的單詞進行選擇。
7.如權利要求4記載的單詞識別裝置,其特征在于圖像輸入設備、文字截出設備、文字識別設備、字符串生成設備和位置指定設備在第一計算機上被實現(xiàn),單詞存儲設備、字符串單詞對照設備以及單詞選擇設備在第二計算機上被實現(xiàn),兩者用通信設備連接。
8.如權利要求4記載的單詞識別裝置,其特征在于字符串生成設備通過對基于至少包含文字識別結果所得到的確信度和各部分圖像的重心的間隔的變量的評價值反復處理進行最佳化。
全文摘要
本發(fā)明提供單詞識別裝置。本裝置從單詞間沒有空白的日語、漢語等語言的字符串的圖像中識別單詞,在與操作者的位置指定連鎖的同時,在單詞詞典處于遠程的場合也提供防止處理時間增加的單詞對照設備。設置從單詞對照的結果所得到的候補單詞的集合選擇最接近操作者指定的位置信息的單詞的設備。在單詞對照中,根據(jù)文字識別結果檢測作為已預先存儲在詞典中的單詞表面合理的部分圖像的配置。
文檔編號G06K9/00GK1808466SQ20051008972
公開日2006年7月26日 申請日期2005年8月5日 優(yōu)先權日2005年1月21日
發(fā)明者古賀昌史, 龜山達也, 嶺龍治, 高橋壽一 申請人:日立歐姆龍金融系統(tǒng)有限公司