專利名稱:Ocr裝置、文件檢索系統(tǒng)及文件檢索程序的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及應(yīng)用文字識別技術(shù),從紙文件群或文件圖像群中檢索含有給定檢索關(guān)鍵字的文件群,取得必要情報(bào)的文件檢索與處理方法、裝置以及文件檢索處理程序。
背景技術(shù):
即使是在計(jì)算機(jī)數(shù)字情報(bào)技術(shù)得以普及的現(xiàn)在,紙文件作為情報(bào)傳遞的媒體仍然應(yīng)用廣泛。但是,要想以某一關(guān)鍵詞從大量文件中檢索到必要的情報(bào),或者對含有特定關(guān)鍵詞群的文件進(jìn)行檢索和自動分類,對于這樣的要求,紙文件與數(shù)字?jǐn)?shù)據(jù)相比其處理明顯困難得多。為解決這一問題,人們提出了各種各樣的方法以進(jìn)行紙文件的檢索和自動處理。
從紙文件或文件圖像中檢索必要關(guān)鍵詞的手段有兩種,即每次檢索時(shí)以O(shè)CR(光學(xué)讀取裝置)對紙文件進(jìn)行識別、檢索的在線處理和先以O(shè)CR讀取然后永久性保持其讀取結(jié)果再進(jìn)行檢索的離線處理。例如,郵件區(qū)分機(jī)等裝置可以說是屬于在線處理。在這一在線處理過程中,因?yàn)橹付讼胍獧z索的關(guān)鍵詞,根據(jù)關(guān)鍵詞中包含的文字的特性(全角、半角、漢字、英文數(shù)字等等)改變文字切出的參數(shù),或者在文字識別時(shí)加以文字種類的限定等,通過這樣的處理就能提高檢索精度。但是,因?yàn)槊看螜z索時(shí)都必須進(jìn)行圖像解析和文字識別,因而在檢索重復(fù)進(jìn)行的情況下,計(jì)算時(shí)間方面不具備實(shí)用性。本發(fā)明提出的是基于離線處理的方法。
對紙文件進(jìn)行離線關(guān)鍵詞檢索的最基本的方法,是利用OCR將紙文件轉(zhuǎn)換成文本文件,然后對文本文件進(jìn)行檢索。但是,一般情況下以O(shè)CR轉(zhuǎn)換的文本文件中有錯(cuò)誤,因而簡單的文本檢索就會產(chǎn)生無法處理的情況。當(dāng)然,也可以人工修正OCR轉(zhuǎn)換的文本文件,并針對修正結(jié)果進(jìn)行檢索。但是,這種人工介入的修正,在處理速度以及成本方面很難說具有實(shí)用性。
作為提高OCR讀取精度的手段,對OCR識別結(jié)果適用詞素解析的方法屬于公知技術(shù)(例如參照專利文獻(xiàn)1)。通過詞素解析等的知識處理,確實(shí)可以訂正誤讀,但即使這樣也不可能做到100%的訂正。而且,在通常的詞素解析中使用的詞典是以新聞等一般性文章為對象,對于特殊業(yè)務(wù)用途的文件如果要做到高精度的校正,則需要追加定義適合該領(lǐng)域的特殊詞典。這樣,就會產(chǎn)生可維護(hù)性與計(jì)算量方面的問題。
另外,為了避免文字誤讀給檢索帶來的不良影響,有人提出利用OCR容易誤讀的相似文字的情報(bào)進(jìn)行單詞檢索的方法(例如參照專利文獻(xiàn)2)。還有人提出在OCR的讀取結(jié)果中允許有多個(gè)文字識別候補(bǔ),從其中選擇文字編碼檢索出單詞的方法(例如參照專利文獻(xiàn)3)。使用這些技術(shù)確實(shí)能避免1文字單位的誤讀給單詞檢索帶來的不良影響。
但是,在上述方法中,由于分離文字和文字間接觸等原因,文字結(jié)構(gòu)的邊界不能明確確定,因而無法處理錯(cuò)誤的文字結(jié)構(gòu)切出的情況。例如,上述專利方法雖然能夠處理OCR把寫作“ハル”的文字讀成“ヘル”的情況,但無法處理讀成“ハノレ”的情況。而且,對于結(jié)合了圖、表的文件、帳票等規(guī)線很多且混合在一起的文件,在文字讀取之前文字行的檢出和辨認(rèn)往往很困難。上述方法無法處理這一問題,。
專利文獻(xiàn)1特開平05-108891號公報(bào)專利文獻(xiàn)2特開平10-74250號公報(bào)專利文獻(xiàn)3特開平9-134369號公報(bào)發(fā)明內(nèi)容本發(fā)明的目的是提供一種以文字識別結(jié)果為基礎(chǔ),從紙文件群中檢索必要關(guān)鍵詞的單詞檢索方法和利用該結(jié)果進(jìn)行文件檢索、文件分類等處理的文件檢索處理系統(tǒng)、裝置以及記錄檢索處理程序的記錄媒體。
以現(xiàn)有技術(shù)對紙文件群進(jìn)行的文件檢索,是對作為OCR讀取結(jié)果的文本進(jìn)行檢索,但難以處理文字破碎和飛白等導(dǎo)致的文字識別錯(cuò)誤、文字結(jié)構(gòu)邊界模糊而導(dǎo)致的文字切出錯(cuò)誤以及文本-插圖-規(guī)線混雜而導(dǎo)致的OCR文字行提取錯(cuò)誤。本發(fā)明的第一個(gè)目的是提出一種避免OCR讀取引起的文字識別、文字切出、文字行提取錯(cuò)誤給單詞檢索帶來的不良影響的方法。
另外,在使用關(guān)鍵詞群進(jìn)行的文件檢索、文件分類處理中,一般使用特定關(guān)鍵詞與其結(jié)合規(guī)則(AND與OR)進(jìn)行處理。例如檢索“OCR”和“檢索”這兩個(gè)詞共同(AND)出現(xiàn)的文件。在現(xiàn)有的對文本文件的檢索中,關(guān)鍵詞的有無以1和0兩個(gè)值確定,因而結(jié)合規(guī)則的適用可以簡單處理。而本發(fā)明因與文字識別相關(guān),關(guān)鍵詞的有無以取0和1之間連續(xù)值的尤度來表示。因此,如果對尤度低的關(guān)鍵詞一律適用結(jié)合規(guī)則進(jìn)行文件檢索,則無法實(shí)現(xiàn)足夠的命中率,或者如果一律忽視尤度低的關(guān)鍵詞進(jìn)行文件檢索,則無法檢索出必要的文件。本發(fā)明的第二個(gè)目的是提出一種利用文字識別尤度,導(dǎo)出單詞檢索的尤度和結(jié)合規(guī)則的尤度,通過自動學(xué)習(xí)來控制文件檢索精度的方法。
解決技術(shù)問題的技術(shù)方案為實(shí)現(xiàn)上述第一個(gè)目的,本發(fā)明提供了一種系統(tǒng),該系統(tǒng)將OCR和檢索裝置分離,采用永久性保持文字行提取、文字切出以及文字識別多重假說的文件(OCR讀取假說文件)作為OCR的輸出形式,構(gòu)成以該OCR讀取假說文件為基礎(chǔ)進(jìn)行關(guān)鍵詞檢索的裝置,從而進(jìn)行必要的文件檢索和文件分類。
為實(shí)現(xiàn)上述第二個(gè)目的,本發(fā)明提供了這樣一種機(jī)構(gòu),即在OCR讀取假說文件中包含文字識別的類似度、文字結(jié)構(gòu)的位置情報(bào)等信息,將被檢索關(guān)鍵詞的尤度和關(guān)鍵詞按規(guī)則結(jié)合時(shí)的尤度作為計(jì)算情報(bào)加以利用,并依據(jù)這些尤度決定接受還是放棄文件檢索結(jié)果。
圖1是使用OCR讀取假說文件的檢索與現(xiàn)有技術(shù)的比較概念圖。
圖2是至輸出OCR讀取假說文件的流程圖。
圖3是使用OCR讀取假說文件進(jìn)行檢索處理的流程圖。
圖4是被檢索單詞路徑的檢定流程圖。
圖5是從候補(bǔ)文字網(wǎng)絡(luò)進(jìn)行單詞提取處理的概念圖。
圖6是候補(bǔ)文字網(wǎng)絡(luò)的示意圖。
圖7是文件檢索系統(tǒng)的一個(gè)屏幕畫面構(gòu)成例。
圖8是表示OCR讀取假說文件效果的圖之一。
圖9是表示OCR讀取假說文件效果的示意圖之二。
圖10是文件檢索系統(tǒng)的一個(gè)構(gòu)成例。
圖11是文件檢索系統(tǒng)中學(xué)習(xí)流程的概念圖。
圖12是OCR讀取假說文件的數(shù)據(jù)構(gòu)成圖之一。
圖13是OCR讀取假說文件的數(shù)據(jù)構(gòu)成圖之二。
圖14是以O(shè)CR讀取假說文件表示的文字列結(jié)構(gòu)的概念圖之一。
圖15是以O(shè)CR讀取假說文件表示的文字列結(jié)構(gòu)的概念圖之二。
圖16是以O(shè)CR讀取假說文件表示的文字列結(jié)構(gòu)的概念圖之三。
符號說明101-輸入到現(xiàn)有文件檢索系統(tǒng)的紙文件102-現(xiàn)有文件檢索系統(tǒng)中的OCR部分103-現(xiàn)有文件檢索系統(tǒng)的OCR輸出形式104-現(xiàn)有文件檢索系統(tǒng)的單詞檢索部分105-現(xiàn)有文件檢索系統(tǒng)的文件檢索部分106-現(xiàn)有文件檢索系統(tǒng)的文件檢索結(jié)果107-輸入到本發(fā)明文件檢索系統(tǒng)的紙文件108-本發(fā)明文件檢索系統(tǒng)的OCR部分109-本發(fā)明文件檢索系統(tǒng)的OCR輸出形式110-本發(fā)明文件檢索系統(tǒng)的單詞檢索部分111-本發(fā)明文件檢索系統(tǒng)的文件檢索部分112-本發(fā)明文件檢索系統(tǒng)的文件檢索結(jié)果113-單詞檢索中使用的單詞數(shù)據(jù)庫部分114-文件檢索中使用的文件檢索規(guī)則數(shù)據(jù)庫部分201-OCR裝置中的圖像輸入部分202-OCR裝置中的文件構(gòu)造解析部分203-OCR裝置中的文字行提取部分204-OCR裝置中的文字結(jié)構(gòu)生成部分205-OCR裝置中的文字識別部分
206-OCR裝置中的OCR讀取假說文件輸出部分207-OCR裝置中輸入文件圖像時(shí)的流向301-文件檢索裝置中的OCR讀取假說文件輸入部分302-文件檢索裝置中的單詞檢索部分303-文件檢索裝置中的檢索單詞檢定部分304-文件檢索裝置中的檢索規(guī)則適用部分305-文件檢索裝置中的檢索文件檢定部分401-文件檢索裝置中的路徑識別尤度計(jì)算部分402-文件檢索裝置中的文字配置尤度計(jì)算部分403-文件檢索裝置中的路徑配置尤度計(jì)算部分601-候補(bǔ)文字網(wǎng)絡(luò)中的文字結(jié)構(gòu)602-候補(bǔ)文字網(wǎng)絡(luò)中的結(jié)構(gòu)邊界603-候補(bǔ)文字網(wǎng)絡(luò)中的文字識別結(jié)果604-候補(bǔ)文字網(wǎng)絡(luò)中的文字識別類似度605-來自候補(bǔ)文字網(wǎng)絡(luò)的被檢索單詞701-文件檢索系統(tǒng)屏幕畫面的關(guān)鍵詞輸入欄702-文件檢索系統(tǒng)屏幕畫面的檢索規(guī)則指定欄703-文件檢索系統(tǒng)屏幕畫面的檢索文件表示欄704-文件檢索系統(tǒng)屏幕畫面的檢索文件詳細(xì)情報(bào)表示欄705-文件檢索系統(tǒng)屏幕畫面的檢索圖像表示欄706-文件檢索系統(tǒng)屏幕畫面的單詞檢索結(jié)果1001-OCR裝置部分的圖像輸入裝置1002-OCR裝置部分的操作終端裝置1003-OCR裝置部分的顯示終端裝置1004-OCR裝置部分的外部記憶裝置1005-OCR裝置部分的存儲器1006-OCR裝置部分的CPU1007-OCR裝置部分的通信裝置1008-OCR裝置部分的通信總線
1009-網(wǎng)絡(luò)部分1010-檢索裝置部分的操作終端裝置1011-檢索裝置部分的顯示終端裝置1012-檢索裝置部分的外部記憶裝置1013-檢索裝置部分的存儲器1014-檢索裝置部分的CPU1015-檢索裝置部分的通信裝置1016-檢索裝置部分的通信總線1101-輸入文件檢索系統(tǒng)的紙文件1102-在文件檢索系統(tǒng)中形成的OCR讀取假說文件1103-文件檢索系統(tǒng)的單詞檢索部分1104-在文件檢索系統(tǒng)中得到的單詞檢索結(jié)果1105-文件檢索系統(tǒng)的文件檢索規(guī)則適用部分1106-在文件檢索系統(tǒng)中得到的檢索文件與非檢索文件1107-檢索文件的利用1108-指定檢索文件良否的教師指令1109-文件檢索系統(tǒng)的學(xué)習(xí)部分1110-文件檢索系統(tǒng)的檢索對象單詞1111-文件檢索系統(tǒng)的檢索對象單詞參數(shù)1112-文件檢索系統(tǒng)的文件檢索規(guī)則1113-文件檢索系統(tǒng)的文件檢索規(guī)則參數(shù)具體實(shí)施方式
以圖1為例簡要說明現(xiàn)有技術(shù)與本發(fā)明方法的區(qū)別。圖1以流程圖表示現(xiàn)有單詞檢索方法和文件檢索方法與本發(fā)明方法的區(qū)別。
首先,在現(xiàn)有技術(shù)的流程中,有101所示的紙文件群,把這些紙文件裝入102所示的OCR并進(jìn)行讀取。讀取結(jié)果以103所示文本文件的形式輸出。其后輸入到104所示的裝置中進(jìn)行單詞檢索。該流程從單詞數(shù)據(jù)庫DB(113)對照作為檢索對象的單詞。但是,如本來寫作“血液化學(xué)検查”的詞,OCR的讀取結(jié)果卻是“皿液ィヒ學(xué)検查”,在這種情況下,難以基于文本文件對“血液化學(xué)検查”這樣的單詞進(jìn)行檢索,檢索一般會失敗。因此,即使在105所示裝置中對被檢索單詞適用文件檢索規(guī)則(114)進(jìn)行處理,因?yàn)閼?yīng)適用該規(guī)則的單詞并不存在,從而導(dǎo)致失敗。這樣最終無法實(shí)現(xiàn)文件的檢索和命中。為此,在本發(fā)明的處理流程中,首先有107所示的紙文件群,將這些文件裝入108所示的OCR進(jìn)行讀取。讀取結(jié)果以109所示的OCR讀取假說文件的形式輸出。其次,將讀取假說文件輸入110所示裝置進(jìn)行單詞檢索。應(yīng)檢索單詞在113所示的單詞數(shù)據(jù)庫中定義。在OCR讀取假說文件中,因?yàn)楸3至烁鞣N各樣的文字行提取候補(bǔ)、文字切出候補(bǔ)、文字識別候補(bǔ),因而除了“皿液ィヒ學(xué)検查”這樣的結(jié)果以外,還能保持正確的識別結(jié)果“血”、“化”,這樣單詞檢索就能容易實(shí)現(xiàn)。然后,在111所示裝置中,根據(jù)記載被檢出單詞與單詞之間關(guān)系的文件檢索規(guī)則,進(jìn)行文件的檢索和命中。文件檢索規(guī)則記載在114所示的規(guī)則數(shù)據(jù)庫中。作為文件檢索規(guī)則的例子,如同“‘OCR’與‘檢索’這兩個(gè)詞同時(shí)存在的文件”,考慮的是將多個(gè)單詞以“OR”、“AND”相連的結(jié)構(gòu)。通過使用OCR讀取假說文件,提高了單詞檢索的精度,且作為讀取結(jié)果可適用文件檢索規(guī)則,從而如112所示實(shí)現(xiàn)了文件檢索和命中。
OCR讀取假說文件具有同相應(yīng)的紙文件或文件圖像一一對應(yīng)的文件ID編碼,并能夠永久保存在磁記憶裝置中。在需要進(jìn)行文件檢索時(shí),使用OCR讀取假說文件的檢索系統(tǒng)從預(yù)先存儲的OCR讀取假說文件中檢索必要的關(guān)鍵詞、結(jié)合對照文件檢索規(guī)則、記憶符合條件的文件ID編碼。檢索結(jié)果能夠與對應(yīng)文件ID編碼的紙文件或文件圖像一起表示出來。這樣,即使OCR裝置與檢索裝置相分離,也能構(gòu)成將文件圖像和讀取數(shù)據(jù)統(tǒng)一進(jìn)行處理的文件處理系統(tǒng)。
下面說明圖2。在本發(fā)明實(shí)施例的帳票識別裝置中,首先,OCR裝置為紙文件照相并將其轉(zhuǎn)換成電子圖像數(shù)據(jù)(201)。該處理在原始文件為電子圖像數(shù)據(jù)的情況下可以省略。其次,以電子圖像數(shù)據(jù)為基礎(chǔ),進(jìn)行規(guī)線提取、框架構(gòu)造解析、讀取對象框架的位置推定等的文件構(gòu)造解析(202)。此時(shí)的識別處理可應(yīng)用公知技術(shù)(特開平09-319824、特開2000-251012等)。然后接收文件解析結(jié)果,提取作為讀取對象的文字行候補(bǔ)(203)。接著從文字行圖像中切出文字結(jié)構(gòu)候補(bǔ)(204),并進(jìn)一步識別各文字的結(jié)構(gòu)候補(bǔ)(205)。從對象文件中提取多個(gè)這樣的文字行候補(bǔ)、文字結(jié)構(gòu)候補(bǔ)、文字識別候補(bǔ),構(gòu)成多重假說。最后,將文字行候補(bǔ)、文字切出結(jié)構(gòu)候補(bǔ)及其識別結(jié)果輸出到文件(206)。這一輸出文件就稱為OCR讀取假說文件。有關(guān)OCR讀取假說文件將在后面詳述。上述從201到206的處理,表示的是使用光學(xué)讀取裝置等專用裝置將紙文件轉(zhuǎn)換成OCR讀取假說文件的過程。如果給出的是電子圖像數(shù)據(jù),則以圖像讀入(207)來代替201的處理,將其轉(zhuǎn)換成OCR讀取假說文件。在這種情況下,一旦有轉(zhuǎn)換程序以及發(fā)動轉(zhuǎn)換程序的通用運(yùn)算裝置,就可進(jìn)行處理。
上述各情報(bào)被存儲在圖10所示OCR裝置中的下列位置。從紙文件轉(zhuǎn)換來的圖像數(shù)據(jù)或作為處理對象已經(jīng)準(zhǔn)備好的圖像數(shù)據(jù),被存儲在外部記憶裝置1004或存儲器1005中。OCR程序存儲在外部記憶裝置1004或存儲器1005中,由中央運(yùn)算裝置1006進(jìn)行處理。圖像數(shù)據(jù)解析結(jié)果得到的框架情報(bào)、行情報(bào)、候補(bǔ)結(jié)構(gòu)網(wǎng)絡(luò)、候補(bǔ)文字網(wǎng)絡(luò)主要在存儲器1005上展開。該處理輸出的OCR讀取假說文件通過外部記憶裝置1004或存儲器1005或通信裝置1007存儲到外部裝置中。
下面說明圖3。圖3表示的是使用OCR讀取假說文件的文件檢索引擎的處理流程。首先,讀入對應(yīng)作為檢索對象的紙文件群(或者文件圖像群)的OCR讀取假說文件群,并針對各自的OCR讀取假說作成候補(bǔ)文字網(wǎng)絡(luò)(301)。其次,輸入候補(bǔ)文字網(wǎng)絡(luò)和作為檢索對象的單詞群進(jìn)行單詞檢索(302)。因?yàn)樵贠CR讀取假說文件中含有各種各樣的文字行候補(bǔ)、文字切出候補(bǔ)和文字識別候補(bǔ),因此有必要進(jìn)行判斷檢索出的單詞是否正確進(jìn)行處理。最后,利用檢索結(jié)果和文字識別的尤度、次序及文字結(jié)構(gòu)的排列等情報(bào)來計(jì)算被檢索單詞的尤度,決定接受還是放棄單詞檢索結(jié)果(303)。這些有關(guān)文字識別的尤度、次序以及文字結(jié)構(gòu)的排列等情報(bào)包含在OCR讀取假說文件中。有關(guān)OCR讀取假說文件將在后面詳述(結(jié)合圖12~圖16)。然后針對含有被檢索單詞群的文件適用文件檢索規(guī)則進(jìn)行文件檢索(304)。最后,針對檢索出的文件,考慮被適用規(guī)則的檢出單詞的尤度和適用規(guī)則的重要性,決定接受還是放棄文件的檢索結(jié)果(305)。
下面說明圖4。圖4是對上述處理303的詳細(xì)描述。在該處理中,針對被檢索單詞,利用文字識別的尤度、文字結(jié)構(gòu)的配置情報(bào)、單詞的對應(yīng)文件圖像的配置情報(bào)等,計(jì)算檢出單詞的尤度。在檢出單詞的尤度計(jì)算中,首先考慮文字列路徑(被檢索單詞以文字編碼列和文字結(jié)構(gòu)列組的形式表示。這被稱作路徑。詳見圖5的說明)上文字結(jié)構(gòu)的識別尤度,計(jì)算單詞的識別尤度(401)。其次計(jì)算有關(guān)文字結(jié)構(gòu)配置的補(bǔ)償(402)。例如有這樣的方法相對路徑整體高度的文字高度比、相對路徑整體中心線的文字中心線的偏離、平均的文字幅度、相鄰文字結(jié)構(gòu)的間隔等,在多大程度上偏離統(tǒng)計(jì)平均值,將這一程度作為補(bǔ)償。然后進(jìn)一步計(jì)算考慮檢出單詞整體位置的補(bǔ)償(403)。例如使用在文件圖像的規(guī)定區(qū)域內(nèi)是否有檢出單詞的情報(bào)等。但是,在OCR讀取假說文件保持的情報(bào)中有若干個(gè)階段的層次(后述),對應(yīng)這些層次可以省略402及403的處理。有關(guān)OCR讀取假說文件將在后面詳述。
下面說明圖5及圖6。圖5將單詞檢索的過程以概念圖的形式表現(xiàn)出來。圖6表示的是候補(bǔ)文字網(wǎng)絡(luò)的概念圖和詳細(xì)數(shù)據(jù)。對照圖5說明單詞檢索的流程。將被認(rèn)為是文字結(jié)構(gòu)的部分從讀取對象文字行(a)分別切出,形成候補(bǔ)文字結(jié)構(gòu),對各候補(bǔ)文字結(jié)構(gòu)進(jìn)行文字識別得到候補(bǔ)文字網(wǎng)絡(luò)(b)。候補(bǔ)文字網(wǎng)絡(luò)至少具有文字結(jié)構(gòu)、文字識別結(jié)果得到的有次序的識別編碼群和候補(bǔ)文字網(wǎng)絡(luò)中文字結(jié)構(gòu)間連接關(guān)系的情報(bào)。OCR讀取假說文件含有這些情報(bào)的一部分。其形式為二進(jìn)制形式或使用XML等表示法的文本形式。本發(fā)明方法使用了OCR讀取假說文件,因而候補(bǔ)文字網(wǎng)絡(luò)以從文件讀取的情報(bào)為基礎(chǔ)形成。然后利用文字列表示法知識(c),從候補(bǔ)文字網(wǎng)絡(luò)中計(jì)算文字列路徑(d)。在圖5所示例中,表示的是以記號OR(|)排列單詞的文字列表示知識,其意義為指定記號|之間的單詞群作為檢索對象。作為文字列表示,除該表示法以外還有使用嘗試法、上下文無關(guān)文法等的方法(特開2001-014311等的記載)。文字候補(bǔ)網(wǎng)絡(luò)詳見圖6。文字候補(bǔ)網(wǎng)絡(luò)表現(xiàn)為以文字結(jié)構(gòu)候補(bǔ)為弧線(601)、以文字結(jié)構(gòu)邊界為節(jié)點(diǎn)(602)的有向圖。在各文字結(jié)構(gòu)中,含有表示左右(縱向書寫時(shí)為上下)節(jié)點(diǎn)(結(jié)構(gòu)邊界)的邊界ID號、文字識別候補(bǔ)(603)以及識別類似度(604)的情報(bào)。單詞檢索處理是輸入文字候補(bǔ)網(wǎng)絡(luò)和文字列表示知識、找到候補(bǔ)文字網(wǎng)絡(luò)中含有的單詞及其結(jié)構(gòu)列的處理。例如,文字列表示知識中的單詞“血液化學(xué)檢查”,在圖6的候補(bǔ)文字網(wǎng)絡(luò)中,能夠通過追蹤如605中以黑色圓圈表示的文字編碼和文字結(jié)構(gòu)來找到。有關(guān)追蹤文字編碼和文字結(jié)構(gòu)的算法可利用公知技術(shù)(特愿平10-28077、特愿平11-18753等)。單詞檢索的結(jié)果確定了文字列路徑。所謂文字列路徑,是指文字編碼列(即文字列)和對應(yīng)各文字編碼的文字結(jié)構(gòu)構(gòu)成的情報(bào)。
上述各種情報(bào)存儲在圖10所示檢索裝置的下列位置OCR讀取假說文件存儲在外部記憶裝置1012或存儲器1013中。單詞檢索程序存儲在外部記憶裝置1012或存儲器1013中,并由中央運(yùn)算裝置1014進(jìn)行處理。由OCR讀取假說文件形成的候補(bǔ)文字網(wǎng)絡(luò)在存儲器1013上展開。對此進(jìn)行單詞檢索,并且檢索結(jié)果的情報(bào)通過外部記憶裝置1012或存儲器1013或通信裝置1015存儲在外部裝置中。
下面說明圖7。圖7表示的是使用本發(fā)明方法的文件檢索系統(tǒng)的一個(gè)屏幕畫面構(gòu)成例。這里以處方(レセプト)文件的檢索系統(tǒng)為例。首先,在輸入欄701中指定想要檢索的關(guān)鍵詞,并在輸入欄702中指定以什幺樣的規(guī)則處理關(guān)鍵字。本圖中選擇的是意味著找出指定的全部關(guān)鍵詞中任意一個(gè)的OR規(guī)則。輸入上述第2個(gè)項(xiàng)目,對存儲OCR讀取假說文件的數(shù)據(jù)庫進(jìn)行處方(レセプト)文件檢索。在表示欄703中,表示的是從檢索結(jié)果得到的處方(レセプト)(文件)名。表示欄704表示的是檢索出的文件中與現(xiàn)在表示的文件相關(guān)的數(shù)據(jù)。在表示欄705中,檢索結(jié)果以視覺可見的形式表示出來。OCR讀取假說文件具有能夠與原始紙文件或文件圖像一一對應(yīng)的文件ID編碼,因而可以同時(shí)表示文件圖像與檢索結(jié)果。此外,被檢索單詞如706所示以下劃線表示其位置所在。在表示文件檢索結(jié)果時(shí),因?yàn)槭褂昧薕CR讀取假說文件可計(jì)算的檢出單詞尤度和檢索文件尤度,可以實(shí)現(xiàn)優(yōu)先標(biāo)記。
下面說明圖8。圖8表示的是在使用OCR讀取假說文件的檢索系統(tǒng)中,文字切出和文字識別的多重假說產(chǎn)生的效果。圖(a)是作為讀取對象的文件(其中的部分圖像),以粗框框出的部分相當(dāng)于一個(gè)行假說。圖(b)表示在沒有特別知識的情況下用通常的OCR來讀該部分,本來寫作“ルリツド錠”的單詞被讀成“ノレリソド癥”。這是因?yàn)椤哎搿庇蓛蓚€(gè)文字結(jié)構(gòu)合成而被分開來讀,“ツ”因?yàn)轱w白使首位識別結(jié)果為誤讀,同樣,“錠”的一部分因?yàn)槠扑槭故孜蛔R別結(jié)果為誤讀。針對這一問題,在OCR讀取假說文件中,如圖(c)所示保持了候補(bǔ)文字網(wǎng)絡(luò)。即,其中既存在將“ル”讀成“ノレ”的假說,也存在讀成“ル”的假說,對于“ツ”、“錠”等雖然首位文字識別結(jié)果誤讀為“ソ”、“癥”,但在下位的識別候補(bǔ)中也含有正確的識別結(jié)果“ツ”、“錠”。針對OCR的文本讀取結(jié)果進(jìn)行單詞檢索的情況下,必須從“ノレリソド癥”檢索“ルリツド錠”這樣的單詞,但兩個(gè)文字列的距離以編輯距離進(jìn)行測試時(shí),1個(gè)文字的位置插入2個(gè)文字就沒法讀,因而作為單詞不能說是類似。另一方面,在使用OCR讀取假說文件的檢索中,沒有文字插入和沒法讀的情況,因而單詞檢索能夠容易實(shí)現(xiàn)。結(jié)果如圖(d)所示檢索到正確的單詞。
下面說明圖9。圖9表示的是在使用OCR讀取假說文件的檢索系統(tǒng)中文字行多重假說產(chǎn)生的效果。圖(a)是作為讀取對象的文件(其中的部分圖像)。圖(b)是根據(jù)單一假說從其中提取文字行時(shí)的結(jié)果。在該圖中,圖(a)的中間3行被合在一起作為一行提取出來。這是將文字行投影在橫方向上進(jìn)行切分時(shí),因?yàn)楦餍袏A在印刷行之間,并且存在手寫行和圖章行,投影時(shí)切分分界線不明顯,因而將其合在一起判斷為一行。對此,由于除了單一假說還允許多個(gè)行假說,因而將圖(b)中粗的文字行進(jìn)行更細(xì)切分形成的文字行也作為假說加入,構(gòu)成如圖(c)所示的文字行假說群。針對這多個(gè)行假說展開OCR讀取假說文件,對其進(jìn)行單詞檢索,結(jié)果如圖(d)所示檢索出正確的單詞。在OCR讀取假說文件中,不僅存儲了文字切出、文字識別情報(bào),還存儲有文字行假說情報(bào)。有關(guān)OCR讀取假說文件中包含的情報(bào)將在后面詳述(圖12~圖16)。
下面說明圖10。圖10是根據(jù)本發(fā)明方法將OCR裝置與檢索裝置分離構(gòu)成文件檢索系統(tǒng)的一個(gè)構(gòu)成例。圖10的上半部分是OCR裝置的一個(gè)構(gòu)成例,圖10的下半部分是檢索裝置的一個(gè)構(gòu)成例。
首先,在上半部分的OCR裝置中,由圖像輸入裝置(1001)將文件轉(zhuǎn)換成電子數(shù)據(jù),然后將其存儲在外部記憶裝置(1004)和存儲器(1005)中,由中央運(yùn)算裝置(1006)進(jìn)行讀取。文件形式的定義等存儲在外部記憶裝置(1004)中,在進(jìn)行文件構(gòu)造解析時(shí)參照存儲在這里的定義。這些處理可通過操作終端裝置(1002)由人工進(jìn)行操作,處理結(jié)果等通過顯示終端裝置(1003)進(jìn)行顯示,在外部記憶裝置中存儲,或者通過通信裝置(1007)將數(shù)據(jù)送往外部裝置。OCR讀取結(jié)果既可以象現(xiàn)有裝置那樣以文本文件的形式輸出,也可以O(shè)CR讀取假說文件的形式輸出。OCR讀取假說文件存儲在外部記憶裝置中,或通過通信裝置送往外部裝置。此時(shí),OCR讀取假說文件被標(biāo)注上對應(yīng)OCR所讀取文件(或圖像)的文件ID編碼。利用文件的ID編碼,就能實(shí)現(xiàn)紙文件或文件圖像與OCR讀取假說文件的對應(yīng)。由于實(shí)現(xiàn)了與OCR讀取假說文件的對應(yīng),對于想把檢索后的單詞在原始文件圖像上表示的人來說,能夠提供令人愉快的GUI功能,實(shí)現(xiàn)選擇含有目的單詞的文件圖像等文件檢索功能。例如圖7表示的是單詞檢索中的GUI的一個(gè)構(gòu)成例,文件圖像(705)和被檢索單詞(706)在此同時(shí)表示出來。這一表示功能的實(shí)現(xiàn),利用的是OCR讀取假說文件中被檢索單詞的位置情報(bào)和對應(yīng)OCR讀取假說文件ID的圖像文件。
圖10下半部分的檢索裝置,利用從OCR功能裝置輸出的OCR讀取假說文件進(jìn)行檢索,具有對于已經(jīng)形成OCR讀取假說文件的文件,能夠重復(fù)檢索任意次(只要假說文件還存在)的功能。該檢索裝置通過通信裝置(1015)及外部記憶裝置(1012)讀取OCR讀取假說文件,并將其寫入存儲器(1013)中,由中央運(yùn)算裝置(1014)進(jìn)行檢索處理。要檢索的單詞和文件檢索規(guī)則可以存儲在外部記憶裝置中,或者從操作終端裝置(1010)輸入。單詞的檢索結(jié)果通過顯示終端裝置(1011)顯示,并可通過通信裝置將數(shù)據(jù)送往外部儀器,或者將檢索結(jié)果存儲在外部記憶裝置中。這些裝置通過內(nèi)部總線(1008、1009、1016)連接。
下面說明圖11。圖11是使文件檢索系統(tǒng)適用于實(shí)際業(yè)務(wù)的自動學(xué)習(xí)機(jī)構(gòu)示意圖。首先,向文件檢索系統(tǒng)中輸入大量的紙文件或文件圖像群(1101),形成對應(yīng)各文件的OCR讀取假說文件(1102)。然后利用OCR讀取假說文件進(jìn)行單詞檢索(1103)。此時(shí),作為檢索對象的單詞存儲在數(shù)據(jù)庫(1110)中,各單詞都附有表示該單詞重要度和檢索時(shí)尤度閾值的可能的學(xué)習(xí)參數(shù)(1111)。然后對被檢索單詞(1104)適用文件檢索規(guī)則(1105)。此時(shí),文件檢索規(guī)則存儲在數(shù)據(jù)庫(1112)中,各規(guī)則都附有表示該規(guī)則重要度和適用時(shí)尤度閾值的學(xué)習(xí)參數(shù)(1113)。然后根據(jù)來自對象文件群的檢索尤度等來決定接受還是放棄檢索,確定檢索文件群(或者作為其補(bǔ)集的、不符合檢索條件的文件群,即非檢索文件群),并將其結(jié)果通過顯示器等顯示裝置顯示給用戶(1106)。用戶以顯示結(jié)果作為判斷依據(jù),直接利用檢索結(jié)果中必要的文件(1107),并就檢索結(jié)果中的垃圾(沒有意義的檢索結(jié)果)和沒有進(jìn)入檢索結(jié)果的文件,向系統(tǒng)中加入反饋(1108)。學(xué)習(xí)機(jī)構(gòu)(1109)針對文件的檢索結(jié)果,對被判斷為檢索垃圾的,調(diào)整其參數(shù)(1111、1113)以降低其檢索尤度,對未進(jìn)入檢索候補(bǔ)的文件調(diào)整其參數(shù)以提高其檢索尤度。
對于學(xué)習(xí)再稍加詳述。本發(fā)明方法能夠針對檢出單詞,根據(jù)識別尤度、文字配置的尤度等計(jì)算檢出單詞的尤度。通過利用檢出單詞的尤度,檢索規(guī)則的尤度(適合度)也能計(jì)算出來。例如,可根據(jù)作為檢索對象的單詞和if-then規(guī)則確定文件檢索規(guī)則。此時(shí),if-then規(guī)則的真假值可利用檢出單詞的尤度以模糊邏輯值表示。一般情況下if-then規(guī)則可分解為下面的邏輯運(yùn)算邏輯積A∩B、邏輯和A∪B、否定~A將檢出單詞分別應(yīng)用于A和B,把單詞的識別尤度作為模糊邏輯值,對應(yīng)上述各要素的模糊運(yùn)算符可置換為尤度(A∩B)=MIN(尤度(A)、尤度(B))尤度(A∪B)=MAX(尤度(A)、尤度(B))尤度(~A)=1-尤度(A)
這里所謂的尤度(X)是指計(jì)算相對單詞X或邏輯式X的尤度的函數(shù)。根據(jù)該函數(shù),也能反映相對文件檢索規(guī)則的文字識別尤度,例如對于重要的規(guī)則,即使特定單詞的識別尤度多少有點(diǎn)低,賦予其重要性并適用規(guī)則進(jìn)行文件檢索,則可實(shí)現(xiàn)對文件檢索的加權(quán)。另外,因?yàn)閱卧~檢索的丟失(作為精度低的單詞被放棄的情況)或者規(guī)則適合的丟失(作為精度低的規(guī)則被放棄),本來應(yīng)該檢出的情報(bào)卻不能提取出來的情況下,通過調(diào)整單詞檢索時(shí)的閾值以及規(guī)則適合時(shí)的尤度參數(shù),同時(shí)微調(diào)參數(shù)以提高尤度(檢出尤度、規(guī)則適合尤度),這樣可以向著更為實(shí)用的檢索系統(tǒng)學(xué)習(xí)。
一般情況下,在文件檢索中,測試檢索性能時(shí)使用再現(xiàn)率和適合率兩個(gè)標(biāo)準(zhǔn)。所謂再現(xiàn)率,是測試本來想要檢索的文件通過有關(guān)檢索引擎檢索出的比例為多少的標(biāo)準(zhǔn)。所謂適合率,是測試在通過有關(guān)檢索引擎檢出的文件中,本來想要檢索的文件占多少比例的標(biāo)準(zhǔn)。在上述學(xué)習(xí)過程中,通過利用用戶反饋達(dá)到提高再現(xiàn)率和適合率的目的。為提高適合率,利用用戶反饋的情報(bào)“用戶選擇了什幺樣的文件”,針對用戶選擇的文件群調(diào)整參數(shù)以提高檢出尤度。為了提高再現(xiàn)率,從圖11的1106列出的非檢索文件群中,通過隨機(jī)取樣找出漏檢的文件群,對此調(diào)整參數(shù)以提高檢出尤度。
具體的學(xué)習(xí)算法有最急速下降法。將檢索單詞列表為{W1,W2,,Wn},將這些單詞檢索時(shí)的尤度閾值定為{T1,T2,,Tn}。即,假定單詞及其檢索尤度閾值對{(W1,T1),,(Wn,Tn)}是檢索系統(tǒng)的輸入。使用OCR讀取假說文件進(jìn)行單詞檢索的結(jié)果,某單詞Wk以識別尤度Lk檢出(當(dāng)然,在該尤度的計(jì)算中,不僅僅簡單考慮文字識別的尤度,也應(yīng)考慮文字結(jié)構(gòu)的配置情報(bào)等)。這樣,單詞的尤度可以表示為尤度閾值Tk和識別尤度Lk的函數(shù)。將其作為單詞的檢出尤度Fk=F(Tk,Lk)。例如,作為單詞的檢出尤度,可以考慮識別尤度Lk低于閾值尤度Tk的情況為0,而高于Tk的情況為1這樣的離散函數(shù),還可以考慮相對識別尤度和閾值尤度的差分Lk-Tk的S型函數(shù)或與其類似的連續(xù)函數(shù)。
如上所述,對于規(guī)則也能夠以原始邏輯運(yùn)算符的尤度函數(shù)定義為基礎(chǔ)計(jì)算邏輯式的尤度。即,因?yàn)楹袉卧~Wk的某規(guī)則的尤度可作為單詞Wk的尤度的函數(shù),因而可將其表示為R(Fk)。而且,如果把它看作參數(shù)Tk的函數(shù),則Fk是參數(shù)Tk的函數(shù),可表示為R(Fk)=R(Tk)。
學(xué)習(xí)過程配備有教師,由教師指示應(yīng)當(dāng)強(qiáng)化什幺樣的規(guī)則適用、忽略什幺樣的規(guī)則適用。例如,如果有應(yīng)當(dāng)強(qiáng)化的規(guī)則,則應(yīng)調(diào)整有關(guān)單詞Wk的參數(shù),以提高該規(guī)則的尤度R=R(Fk)。例如,如果將上述尤度閾值Tk作為想要學(xué)習(xí)的參數(shù),向原始參數(shù)Tk加入作為參數(shù)Tk的函數(shù)得到的規(guī)則尤度R(Tk)的、與關(guān)于參數(shù)Tk的偏導(dǎo)數(shù)δR/δTk成比例的擾動,則可以提高規(guī)則尤度R(Tk)的值。
當(dāng)然,這是規(guī)則尤度R相對參數(shù)Tk平滑的情況下可以使用的學(xué)習(xí)方法。除了此處所述的最急速下降法,還有GA(遺傳算法)、SA(退火法)、單形法等也能使用離散函數(shù)的參數(shù)學(xué)習(xí)法。這些學(xué)習(xí)方法是基于這樣的原理,調(diào)整有關(guān)判斷算法的參數(shù)群,以使表示對象數(shù)據(jù)判斷良否的某種評價(jià)標(biāo)準(zhǔn)對于對象數(shù)據(jù)群整體最優(yōu)化。本發(fā)明所述的依據(jù)檢出單詞的尤度計(jì)算規(guī)則尤度的構(gòu)架,能夠?qū)⑸鲜鲈u價(jià)標(biāo)準(zhǔn)的定義以使用規(guī)則尤度的明示函數(shù)形式表示出來,而且能通過參數(shù)調(diào)節(jié)檢出單詞的精度等,從而實(shí)現(xiàn)了與連續(xù)還是離散無關(guān)的學(xué)習(xí)。
下面詳述OCR讀取假說文件的構(gòu)成。OCR讀取假說文件至少包含與原始紙文件或文件圖像一一對應(yīng)的文件ID編碼和多行假說情報(bào)及各文字行候補(bǔ)中的多文字切出假說及文字識別假說。下面就行假說情報(bào)、文字切出假說和文字識別假說進(jìn)行描述。
首先描述保持文字行多重假說所必要的情報(bào)。文字行多重假說是由多個(gè)如圖12所示單一文字行的假說情報(bào)集合構(gòu)成。構(gòu)成文字行假說的情報(bào)可分為幾個(gè)層次考慮。在該圖中分為3個(gè)階段。層次1是保持多重行假說所必要的最低限度的情報(bào)。它由表示文字行的行ID、有關(guān)文字行中包含的文字切出和文字假說以及有關(guān)文字行的坐標(biāo)情報(bào)構(gòu)成。行ID也可用表示行假說結(jié)束的分割記號來代替。利用行ID識別文字行單位中情報(bào)的結(jié)束、根據(jù)文字切出和文字識別假說從該文字行檢出單詞,并利用行坐標(biāo)情報(bào)防止過剩檢索的問題(同一檢索關(guān)鍵字以多個(gè)行假說檢出的問題)。層次2是在跨文字行進(jìn)行單詞檢索時(shí)必要的情報(bào),是表示文字行間連接結(jié)構(gòu)的情報(bào)。象處方(レセプト)或帳票文件那樣,文章以分條敘述的形式以一行為單位時(shí),這是不必要的情報(bào),但對于象學(xué)術(shù)文件或一般文件那樣比較長的句子的文件進(jìn)行檢索時(shí)是必要的。層次3雖然在保持多重行假說方面不是實(shí)質(zhì)性的情報(bào),但在想以圖像情報(bào)為基礎(chǔ)再次進(jìn)行文字切出和文字識別時(shí)有用。
下面描述為保持各文字行假說中文字切出及文字識別的多重假說所必要的情報(bào)。各行中的文字切出及文字識別的多重假說,由多個(gè)如圖13所示的單一文字結(jié)構(gòu)假說情報(bào)集合構(gòu)成。構(gòu)成文字切出假說的情報(bào)也可以分為同上所述的幾個(gè)層次考慮。在該圖中分為3個(gè)階段。層次1是保持多重切出假說及多重識別假說所必要的最低限度的情報(bào)。即,文字切出及文字識別的多重假說以表示文字結(jié)構(gòu)間連接關(guān)系的邊界ID號cn、nn表示,且文字識別的多重假說由多個(gè)識別編碼dt構(gòu)成。文字結(jié)構(gòu)間的連接關(guān)系可以如圖6所示以網(wǎng)絡(luò)形式獲得。文字結(jié)構(gòu)的切斷位置以網(wǎng)絡(luò)上的節(jié)點(diǎn)(圖6中的白點(diǎn))表示,上述邊界ID號cn、nn是加在節(jié)點(diǎn)上的唯一編號。層次2是針對單詞的檢索結(jié)果計(jì)算尤度時(shí)可使用的情報(bào)。例如,根據(jù)文字結(jié)構(gòu)的配置和文字識別的類似度dk,向單詞尤度中加入補(bǔ)償?shù)那闆r下,該情報(bào)是必要的。層次3是在檢索后的處理中,需要更詳細(xì)的文字結(jié)構(gòu)解析時(shí)必要的情報(bào)。
在OCR讀取假說文件中包含上述情報(bào)。OCR裝置將上述情報(bào)對應(yīng)必要的層次輸出到OCR讀取假說文件,檢索裝置從OCR讀取假說文件中復(fù)原候補(bǔ)文字網(wǎng)絡(luò),然后進(jìn)行單詞檢索。輸出到OCR讀取假說文件的情報(bào)的層次被分成若干階段,因而可以對應(yīng)系統(tǒng)調(diào)整文件的容量和單詞檢索的精度。OCR讀取假說文件的形式可以是二進(jìn)制文件或文本文件中的任何一個(gè)。在此就使用XML表示法以文本形式記載OCR讀取假說文件時(shí)的一個(gè)實(shí)施例進(jìn)行描述。
在對OCR讀取假說文件的XML表示法例進(jìn)行描述之前,首先描述一下JEITA提倡的相對文字識別多重假說的XML標(biāo)準(zhǔn)。該標(biāo)準(zhǔn)提出一種使用多重文字編碼用標(biāo)記<mc>和標(biāo)記內(nèi)在屬性v的XML構(gòu)造。標(biāo)記mc表示多個(gè)文字識別編碼,標(biāo)記內(nèi)在屬性v表示識別類似度。標(biāo)記內(nèi)在屬性v可以省略。XML表示例描述如下(圖14表示文字結(jié)構(gòu)例)例1)有內(nèi)容為“文字”的文字行,各文字結(jié)構(gòu)識別如下對于“文”,識別結(jié)果為“文交大”,類似度為0.80、0.71、0.60對于“學(xué)”,識別結(jié)果為“字宇學(xué)”,類似度為0.89、0.00、0.00。
表示例1文<mc>交大</mc>字<mc>宇學(xué)</mc>
表示例2文<mc v=″0.80 0.71 0.60″>交大</mc>
字<mc v=″0.89 0.00 0.00″>宇學(xué)</mc>
本發(fā)明描述了沿用上述標(biāo)準(zhǔn)的框架的OCR讀取假說文件的表示例。首先,向文字切出的多重假說追加標(biāo)記內(nèi)在屬性cn、nn,以表示出文字間的連接關(guān)系。此處的cn、nn表示的是如圖13所示文字特征邊界的邊界ID號。XML表示例如下所示(圖15表示的是文字結(jié)構(gòu)例)例2)有內(nèi)容為“文字”的文字行,各文字結(jié)構(gòu)如下進(jìn)行識別對于“文”,識別結(jié)果為“文交大”,類似度為0.80、0.71、0.60對于“字”,識別結(jié)果為“字宇學(xué)”,類似度為0.89、0.00、0.00有跨“文字”兩個(gè)字的結(jié)構(gòu),識別結(jié)果為“対効”,類似度為0.60、0.57表示例1文<mc cn=1 nn=2>交大</mc>
字<mc cn=2 nn=3>宇學(xué)</mc>
対<mc cn=1 nn=3>効</mc>
表示例2
文<mc cn=1 nn=2v=″0.80 0.71 0.60″>交大</mc>
字<mc cn=2 nn=3v=″0.89 0.00 0.00″>宇學(xué)</mc>
対<mc cn=1 nn=3v=″0.60 0.57″>効</mc>
然后向文字行切出的多重假說中追加行情報(bào)標(biāo)記<ml>,以表示文字行假說。作為標(biāo)記間的層次關(guān)系,mc標(biāo)記包含在ml標(biāo)記內(nèi)。即規(guī)定在<ml>標(biāo)記和</ml>標(biāo)記之間,可放入多個(gè)以<mc>標(biāo)記和</mc>標(biāo)記的匯總。XML表示例表示如下(圖16表示文字結(jié)構(gòu)例)。
例3)以行切出假說1將“文字”作為行提取,包含如下的文字結(jié)構(gòu)對于“文”,識別結(jié)果為“文交大”,類似度為0.80、0.71、0.60對于“字”,識別結(jié)果為“字宇學(xué)”,類似度為0.89、0.00、0.00有跨“文字”兩個(gè)字的結(jié)構(gòu),識別結(jié)果為“対効”,類似度為0.60、0.57而且,以行切出假說2將“多重”作為行提取,包含如下的文字結(jié)構(gòu)對于“多”,文字編碼為“多名”,類似度為0.80、0.71對于“重”,文字編碼為“重乗”,類似度為0.89、0.70表示例1<ml>文<mc cn=1 nn=2>交大</mc>
字<mc cn=2 nn=3>宇學(xué)</mc>
対<mc cn=1 nn=3>効</mc></ml>
<ml>多<mc cn=1 nn=2>多名</mc>
重<mc cn=2 nn=3>重乗</mc></ml>
正如圖12所述,可將構(gòu)成文字行假說的情報(bào)分成幾個(gè)層次來考慮。特別是作為保持多重行假說所必要的最低限度的情報(bào),應(yīng)考慮表示文字行的行ID、有關(guān)文字行中包含的文字切出和文字識別假說以及有關(guān)文字行的坐標(biāo)情報(bào)。行ID也可以用表示行假說結(jié)束的分割記號來代替。在上述表示法例1中,<ml>標(biāo)記相當(dāng)于該分割記號,<ml>標(biāo)記與</ml>標(biāo)記之間的部分表示文字切出及文字識別假說。然后,對上述表示例進(jìn)行擴(kuò)充以表示行的矩形坐標(biāo)。行坐標(biāo)情報(bào)是防止過剩檢索問題(同一檢索關(guān)鍵字以多個(gè)行假說檢出的問題)的有效情報(bào)。為了表示行的矩形坐標(biāo),使用標(biāo)記內(nèi)在屬性l、r、t、b。lrtb分別是包含各行的外接矩形的左端X坐標(biāo)、右端X坐標(biāo)、上Y坐標(biāo)、下Y坐標(biāo)。坐標(biāo)的表示方法也可有其他考慮。另外還有以行中心坐標(biāo)及大小表示的方法、使用行矩形四角的點(diǎn)坐標(biāo)的方法等等。以下表示的是使用外接矩形坐標(biāo)時(shí)的XML表示例(圖16表示文字結(jié)構(gòu)例)例4)表示例1<ml l=1000 r=1200 t=800 b=850>
文<mc cn=1 nn=2>交大</mc>
字<mc cn=2 nn=3>宇學(xué)</mc>
対<mc cn=1 nn=3>効</mc>
</ml>
<ml1=1000 r=1200 t=850 b=900>
多<mc cn=1 nn=2>多名</mc>
重<mc cn=2 nn=3>重乗</mc>
</ml>
同樣,可針對上述表示例進(jìn)行擴(kuò)充以表示行間的連接方式。這種情況下使用的是標(biāo)記內(nèi)在屬性lc、ln,并規(guī)定文字結(jié)構(gòu)和行之間的連接方式。XML表示例如下所示(圖16表示文字結(jié)構(gòu)例)例5)表示例1<ml lc=1 ln=2>
文<mc cn=1 nn=2>交大</mc>
字<mc cn=2 nn=3>宇學(xué)</mc>
対<mc cn=1 nn=3>効</mc></ml>
<ml lc=2 ln=3>
多<mc cn=1 nn=2>多名</mc>
重<mc cn=2 nn=3>重乗</mc></ml>
以現(xiàn)有技術(shù)對紙文件群進(jìn)行的文件檢索,是對作為OCR讀取結(jié)果的文本進(jìn)行檢索,但難以處理文字破碎和飛白等導(dǎo)致的OCR文字識別錯(cuò)誤、文字結(jié)構(gòu)邊界模糊而導(dǎo)致的文字切出錯(cuò)誤和文本-插圖-規(guī)線混雜而導(dǎo)致的OCR文字行提取錯(cuò)誤。本發(fā)明利用保持文字識別、文字切出、文字行提取方法的OCR讀取假說文件進(jìn)行單詞檢索及文件檢索,從而能夠避免上述問題。
另外,對于現(xiàn)有技術(shù)難以調(diào)整的文件檢索性能和單詞檢索性能的折衷關(guān)系(如果僅使用文字識別信賴度高的關(guān)鍵詞進(jìn)行文件檢索,則無法檢索到必要的文件,若同時(shí)使用信賴度低的關(guān)鍵詞進(jìn)行文件檢索,則在文件檢索中產(chǎn)生多余的檢索結(jié)果),本發(fā)明通過使用OCR讀取假說文件中包含的文字識別次序、類似度、結(jié)構(gòu)配置尤度等情報(bào),能夠依據(jù)對應(yīng)各單詞檢索結(jié)果的尤度和單詞檢索尤度來計(jì)算文件檢索尤度,利用針對檢索結(jié)果良否的用戶反饋來提高文件檢索結(jié)果的精度,進(jìn)行自動參數(shù)學(xué)習(xí),從而可以自動構(gòu)建適合用戶檢索意圖的文件檢索系統(tǒng)。
權(quán)利要求
1.由接收記載有文字的圖像輸入的圖像輸入裝置、中央運(yùn)算裝置和外部記憶裝置構(gòu)成的一種OCR裝置,其特征在于,其中所述中央運(yùn)算裝置從輸入圖像中提取文字行候補(bǔ)和文字切出候補(bǔ),并對文字切出候補(bǔ)進(jìn)行文字識別,將文字識別的結(jié)果、文字行候補(bǔ)以及文字切出候補(bǔ)組合成讀取假說文件,并記憶在所述的外部記憶裝置中。
2.如權(quán)利要求1所述的OCR裝置,其特征在于,所述中央運(yùn)算裝置還提取文字切出候補(bǔ)之間的關(guān)系以及文字識別結(jié)果的類似度,并將提取出的文字切出候補(bǔ)之間的關(guān)系以及文字識別結(jié)果的類似度進(jìn)一步結(jié)合到讀取假說文件,并記憶在記憶裝置中。
3.如權(quán)利要求1或2中任一項(xiàng)所述的OCR裝置,其特征在于,所述中央運(yùn)算裝置還提取文字切出候補(bǔ)的上下左右坐標(biāo)值中至少任意一個(gè),并將提取的文字切出候補(bǔ)的坐標(biāo)值進(jìn)一步結(jié)合組結(jié)合到讀取假說文件,并記憶在上述的記憶裝置中。
4.如權(quán)利要求1、2或3中任一項(xiàng)所述的OCR裝置,其特征在于,所述中央運(yùn)算裝置還提取文字行候補(bǔ)外接矩形的上下左右頂點(diǎn)坐標(biāo)值中至少任意一個(gè),并將提取的頂點(diǎn)坐標(biāo)值進(jìn)一步結(jié)合到讀取假說文件中,并記憶在上述的記憶裝置中。
5.由包括操作終端裝置、外部記憶裝置、中央運(yùn)算裝置、顯示終端裝置、通信裝置的檢索裝置和包括通信裝置并與所述檢索裝置連接的如權(quán)利要求1至4中任一項(xiàng)所述的OCR裝置構(gòu)成的一種文件檢索系統(tǒng),其特征在于,其中所述OCR裝置的中央運(yùn)算裝置通過OCR裝置的通信裝置發(fā)送讀取假說文件,所述檢索裝置的中央運(yùn)算裝置通過檢索裝置的通信裝置接收OCR裝置發(fā)送的讀取假說文件,利用接收到的讀取假說文件中的情報(bào),從圖像記載的文字中檢索與輸入到操作終端裝置的檢索關(guān)鍵字一致的文字列,并將檢索結(jié)果輸出到外部記憶裝置或顯示終端裝置。
6.如權(quán)利要求5所述的文件檢索系統(tǒng),其特征在于,所述檢索裝置的中央運(yùn)算裝置還設(shè)定檢索關(guān)鍵字的權(quán)值,并根據(jù)該權(quán)值改變輸入的檢索關(guān)鍵字的檢索精度。
7.如權(quán)利要求6所述的文件檢索系統(tǒng),其特征在于,利用在使用所述檢索關(guān)鍵字的檢索歷史中過去的再現(xiàn)率和適合率,設(shè)定檢索關(guān)鍵字的權(quán)值。
8.如權(quán)利要求5至7中任一項(xiàng)所述的文件檢索系統(tǒng),其特征在于,所述OCR裝置的圖像輸入裝置接收多個(gè)圖像的輸入,所述OCR裝置的中央運(yùn)算裝置針對各個(gè)被輸入圖像,將與各圖像一一對應(yīng)的文件ID進(jìn)一步結(jié)合到讀取假說文件中,記憶在所述記憶裝置中;所述檢索裝置的中央運(yùn)算裝置在檢索中利用文件ID鑒別記載有與檢索關(guān)鍵字相對應(yīng)文字列的圖像,并輸出到所述顯示終端裝置。
9.包括操作終端裝置、記憶裝置和顯示終端裝置的計(jì)算機(jī)實(shí)施的一種通過計(jì)算機(jī)實(shí)現(xiàn)的文件檢索的程序,其特征在于,包括接收記載有文字的圖像輸入的步驟,從圖像中提取文字行候補(bǔ)的步驟,從圖像提取文字切出候補(bǔ)的步驟,對文字切出候補(bǔ)進(jìn)行文字識別的步驟,將含有文字識別結(jié)果、文字行候補(bǔ)以及文字切出候補(bǔ)的文件以讀取假說文件的形式在所述記憶裝置中記憶的步驟,接收所述操作終端裝置輸入的關(guān)鍵字的步驟,從所述記憶裝置讀出讀取假說文件的步驟,利用讀取假說文件中的文字切出候補(bǔ)以及行提取候補(bǔ)、從圖像記載的文字中檢索與檢索關(guān)鍵字對應(yīng)的文字列的步驟,以及將上述檢索結(jié)果輸出到所述記憶裝置或顯示終端裝置的步驟。
10.如權(quán)利要求9所述的通過計(jì)算機(jī)實(shí)現(xiàn)的文件檢索程序,其特征在于包括在接收圖像輸入的步驟中接收多個(gè)圖像的輸入;在記憶讀取假說文件的步驟中,針對輸入的各個(gè)圖像,將與各圖像一一對應(yīng)的文件ID進(jìn)一步結(jié)合到讀取假說文件中并記憶在所述記憶裝置中;在檢索中,利用文件ID鑒別記載有與檢索關(guān)鍵字相對應(yīng)文字列的圖像并輸出到所述顯示終端裝置的步驟。
全文摘要
本發(fā)明提供一種作為對紙文件及文件圖像進(jìn)行文件檢索的OCR裝置、文件檢索系統(tǒng)及文件檢索手段,該手段是應(yīng)用文字識別技術(shù),檢索含有給定關(guān)鍵詞的文件群的方法。本發(fā)明的發(fā)明目的是通過提供一種系統(tǒng),該系統(tǒng)將OCR裝置和檢索裝置分離,采用永久性保持文字行提取、文字切出以及文字識別多重假說的文件(OCR讀取假說文件)作為OCR的輸出形式,構(gòu)成以該OCR讀取假說文件為基礎(chǔ)進(jìn)行關(guān)鍵詞檢索的機(jī)能,實(shí)現(xiàn)必要的文件檢索和文件分類。
文檔編號G06K9/00GK1503193SQ0310495
公開日2004年6月9日 申請日期2003年2月28日 優(yōu)先權(quán)日2002年11月21日
發(fā)明者永崎健, 丸川勝美, 藤原茂之, 之, 美 申請人:株式會社日立制作所