專利名稱:文件編排裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明是有關(guān)將例如文件或圖等圖象以電子方式生成的文件編排系統(tǒng),尤其是識別文件和圖記述的字符,將累積的文件·圖數(shù)據(jù)以任意的關(guān)鍵字進行全文檢索的系統(tǒng)。
對紙類文件進行光電轉(zhuǎn)換制定的文件圖象,由字符識別得到的含有錯誤的識別結(jié)果,不作修正就作為字符識別數(shù)據(jù)保存,因此,如果利用關(guān)鍵字對字符識別數(shù)據(jù)進行檢索,因識別結(jié)果含有錯誤,即使進行關(guān)鍵字檢索,也不與關(guān)鍵字一致,就不可避免作為檢索結(jié)果顯示不到的“檢索漏洞”和本不與關(guān)鍵字一致的字符列作為檢索結(jié)果生成的“檢索垃圾”。檢索漏洞的減少可由以下方法實現(xiàn),即對1個字符圖象保存多個識別候選字符,與關(guān)鍵字進行校對時,即使存在一部分不一致的字符,也認為校對成立。
以下,以特開平6-223121號公報作為以往例子進行說明。圖36是特開平6-223121號公報中表示的關(guān)于以往例子的組成圖。圖36中,101是將文件進行光電轉(zhuǎn)換,輸入文件圖象的掃描儀,102是存儲掃描儀101輸入的文件圖象的文件圖象數(shù)據(jù)存儲裝置,103是識別字符的字符識別裝置,104是評價準確度的評價裝置,105是字符識別數(shù)據(jù)存儲裝置,106是修正裝置,107是作為輸出裝置的顯示器,108是字符列檢索裝置,109是作為關(guān)鍵字輸入裝置的鍵盤。
下面,說明以往例子的工作原理。
用戶輸入的紙類文件,由掃描儀101光電轉(zhuǎn)換為文件圖象。然后,字符識別裝置103,從文件圖象抽出字符并轉(zhuǎn)換為字符碼輸出。在這里,對1個字符類型輸出多個候選字符和各候選字符的確信度。
評價準確度的評價裝置104,從字符識別裝置103輸出的候選字符的確信度求得候選中含有正確字符的概率P。如果概率P比某閾值Pth小,則從候選中,依次將有用的候選追加到清單上,反復(fù)重新求得概率P。選出的清單中候選數(shù)如果是1個字符,則只保存其字符碼。如果選出的清單中,候選字符數(shù)比一定值Thn少時,候選作為存在多個識別標號的同時,也作為保存候選。被選清單中的候選字符數(shù)超過一定值Thn時,將所有的字符作為對象,以*標記作為保存候選,表示所有的字符是校對對象。
然后,文件識別數(shù)據(jù)存儲裝置105,將準確度的評價裝置104選出的字符保存在沒有圖示的文件識別數(shù)據(jù)里。
將存有多個候選字符的例子表示在圖37的111上。又,將所有的字符作為校對對象的例子表示在圖37的112上。
下面說明以往例子的檢索方法。
字符列檢索裝置108,校對用戶用鍵盤109輸入的關(guān)鍵字和文件識別數(shù)據(jù),輸出一致的字符列?,F(xiàn)將關(guān)鍵字Jpan和字符識別數(shù)據(jù)之間的校對情況表示如圖37。
圖37中,(1)是關(guān)鍵字中的n和字符列中的h因不一致而校對不成功的例子。另外,(2)是為使關(guān)鍵字和字符列完全一致而校對成功的例子。
又,圖37中,(3)是一種例子,即hn111是多個候選,這時,111里的n和關(guān)鍵字中的n一致而校對成功的例子。而且,(4)是一種例子,即以112表示的*表示與所有字符一致的情況。在這里,關(guān)鍵字中的n和字符列中的*112無條件一致,而校對成功。這樣,即使字符列不是全部一致,也可以檢索成功,由此防止檢索漏洞。
字符識別數(shù)據(jù)的數(shù)據(jù)數(shù)一多,對1個關(guān)鍵字檢索成功的文件數(shù),能達數(shù)十~數(shù)百,有不能一下子表示檢索結(jié)果的情況。作為這種情況的結(jié)果顯示方法,首先有一種方法,即向用戶提示檢索結(jié)果一覽表,用戶從檢索結(jié)果一覽表指定要看的文件,瀏覽文件的內(nèi)容。
圖38表示的是WWW(World Wide Web)中檢索引擎的檢索結(jié)果一覽表的例子。
圖38中,201表示文件的連續(xù)號碼,202是表示關(guān)鍵字和文件里的字符的一致度,203是表示文件標題,204是表示文件開始的數(shù)個字符。這里,一致度表示該文件中含有關(guān)鍵字的概率。以圖38為例,向用戶提示,用戶參考文件和一致度,以顯示選擇的文件,有效率的檢索成為可能。字符識別數(shù)據(jù)作為檢索用數(shù)據(jù)使用時,如所述以往例子的說明,即使字符列沒有全部一致,也會檢索成功,因此就有一種情況,即檢索結(jié)果一覽表中,關(guān)鍵字和檢索用數(shù)據(jù)的字符列彼此不完全一致的文件也會作為結(jié)果顯示。
如上所述,在以往例子里,即使字符識別結(jié)果和關(guān)鍵字不完全一致,但因仍表示為檢索結(jié)果,尤其,存在一種問題,即字符數(shù)少的關(guān)鍵字很容易產(chǎn)生檢索垃圾。例如,因為電話的話的正確概率低,若將檢索用數(shù)據(jù)保存為電*,則這個字符列,會與電氣電器電機電信電力電流等的任何一個關(guān)鍵字校對成功。其結(jié)果,就有一種問題,即會發(fā)生很多與關(guān)鍵字不一致的有錯誤的檢索結(jié)果。
如果將與所述關(guān)鍵字不一致的含有多個錯誤的檢索結(jié)果用檢索結(jié)果一覽表顯示,則當(dāng)用戶閱覽文件時就會發(fā)生不包含所求關(guān)鍵字的情況。尤其,字符識別裝置103的性能低時,上述情況發(fā)生的更多,就有一種檢索效率顯著降低的問題。
又,如圖38所示,可以考慮與文件的一致度作為尺度,在一覽表里,按一致度的大小順序排列文件,以此為基礎(chǔ),用戶閱覽文件或文件圖象的方法,而作為與文件一致度的計算方法,當(dāng)文件里存在多個與關(guān)鍵字一致的字符列時,一般方法是使用存在于文件中的與關(guān)鍵字一致的字符列數(shù)去除各一致的字符列和關(guān)鍵字之間的一致度而得到的平均一致度。但是,這種計算方法,說到底為表示文件的平均一致度,因此就有一種問題,即根據(jù)一致度無法判斷文件里是否存在完全一致的字符列。
例如,完全一致的一致度作為100%,此外,例如,關(guān)鍵字4個字符中,3個字符一致時,一致度作為3÷4=75%,2個的平均一致度成為(100+75)/2=87.5%。因此,由一致度能判斷完全包含關(guān)鍵字的只是100%的情況,此外的值,無法明確文件里是否存在完全一致的字符列。為此,確切地包含關(guān)鍵字的文件只有一致度是100%的情況,一致度是100%以外的文件,為確定是否確切包含關(guān)鍵字,就有一種問題,即有必要一次性閱覽文件的內(nèi)容。
作為解決這個問題的方法,只是將完全一致的字符列作為檢索結(jié)果輸出是行之有效的方法,但會增加錯誤識別引起的檢索漏洞。為減少檢索漏洞,用戶就有必要正確修正字符識別結(jié)果,進行登錄,就有一種問題,即字符識別結(jié)果修正作業(yè)要付出很多勞動。
本發(fā)明正是著眼于上述問題而完成的,通過明確表示是否與關(guān)鍵字完全一致,可以容易識別用戶輸入的含有關(guān)鍵字的文件,因此本發(fā)明的目的在于得到一種可以容易選擇、容易閱覽的文件編排裝置。
本發(fā)明有關(guān)的文件編排裝置,具有,輸入文件圖象的輸入裝置、保存用于字符識別的標準圖形特征的字符識別辭典、對所述輸入裝置輸入的文件圖象,依據(jù)所述字符識別辭典保存的標準圖形進行字符識別的字符識別裝置、保存所述字符識別裝置輸出的字符識別結(jié)果的識別結(jié)果保存裝置、輸入關(guān)鍵字的關(guān)鍵字輸入裝置,其關(guān)鍵字檢索收錄在所述識別結(jié)果保存裝置的檢索用文件數(shù)據(jù)、進行所述關(guān)鍵字輸入裝置輸入的關(guān)鍵字和收錄在所述識別結(jié)果保存裝置的檢索用文件數(shù)據(jù)之間的校對,輸出至少校對成功的檢索用文件數(shù)據(jù)內(nèi)的各字符列和輸入的關(guān)鍵字之間的一致度的檢索裝置、從與所述檢索裝置輸出的關(guān)鍵字的一致度,編輯每個檢索結(jié)果顯示單位的檢索結(jié)果的檢索結(jié)果編輯裝置、輸出所述檢索結(jié)果編輯裝置編輯的結(jié)果的檢索結(jié)果輸出裝置。
又,所述檢索裝置的特征在于,根據(jù)所述關(guān)鍵字輸入裝置輸入的關(guān)鍵字和所述檢索用文件數(shù)據(jù)間的校對,即使組成關(guān)鍵字的所有字符不一致,只要滿足一定的標準,就認為校對成功,并計算與關(guān)鍵字校對成功的各字符列的一致度,而所述檢索結(jié)果編輯裝置,根據(jù)上述一致度,在檢索結(jié)果顯示單位內(nèi),分為只要含有1個與關(guān)鍵字完全一致的字符列的檢索結(jié)果顯示單位組和雖然不存在1個與關(guān)鍵字完全一致的字符列,但是存在部分一致的字符列的檢索結(jié)果顯示單位組,所述檢索結(jié)果輸出裝置,將所述檢索結(jié)果編輯裝置輸出的各組表示為可以相識別的狀態(tài)。
又其特征在于,將所述檢索結(jié)果顯示單位作為組成文件的頁集合體。
又其特征在于,將所述檢索結(jié)果顯示單位作為組成文件的各個頁。
又其特征在于,所述檢索結(jié)果輸出裝置,將所述檢索用文件數(shù)據(jù)內(nèi)存在的與關(guān)鍵字完全一致的字符列的檢索結(jié)果顯示單位,雖然不完全一致但存在部分一致的字符列的檢索結(jié)果顯示單位,表示為可以相互識別的表示形態(tài)。
又其特征在于,所述檢索結(jié)果輸出裝置,將所述檢索用文件數(shù)據(jù)內(nèi)存在的與關(guān)鍵字完全一致的字符列的檢索結(jié)果顯示單位,雖然不完全一致但存在部分一致的字符列的檢索結(jié)果顯示單位,顯示在不同區(qū)域。
又其特征在于,所述檢索結(jié)果輸出裝置,對所述檢索用文件數(shù)據(jù)內(nèi)存在的,與關(guān)鍵字完全一致的字符列的檢索結(jié)果顯示單位,將各檢索結(jié)果顯示單位按一致數(shù)多的順序排列顯示。
又其特征在于,擁有將與輸入的關(guān)鍵字類似的單詞和不同標記作為檢索對象關(guān)鍵字追加的關(guān)鍵字展開裝置,而所述檢索結(jié)果輸出裝置表示是否確實包含,依據(jù)所述關(guān)鍵字展開裝置的展開關(guān)鍵字。
又,所述檢索結(jié)果輸出裝置的特征在于,將包含與用戶輸入的關(guān)鍵字完全一致的字符列的檢索結(jié)果顯示單位、只與展開關(guān)鍵字完全一致的檢索結(jié)果顯示單位、與用戶輸入的關(guān)鍵字部分一致的檢索結(jié)果顯示單位、只與展開關(guān)鍵字部分一致的檢索結(jié)果顯示單位,表示為可以相互識別的表示狀態(tài)。
又,所述檢索結(jié)果輸出裝置的特征在于,將包含與用戶輸入的關(guān)鍵字完全一致的字符列的檢索結(jié)果顯示單位、只與展開關(guān)鍵字完全一致的檢索結(jié)果顯示單位、與用戶輸入的關(guān)鍵字部分一致的檢索結(jié)果顯示單位、只與展開關(guān)鍵字部分一致的檢索結(jié)果顯示單位,表示為各自不同的區(qū)域。
而且,其特征在于,擁有指定檢索結(jié)果顯示單位的檢索結(jié)果顯示單位指定裝置,所述檢索結(jié)果輸出裝置,以所述檢索結(jié)果顯示單位指定裝置指定的檢索結(jié)果顯示單位,表示檢索結(jié)果。
附圖簡單說明
圖1是表示有關(guān)本發(fā)明實施例1文件編排裝置組成的方框圖。
圖2是有關(guān)實施例1文件登錄時的流程圖。
圖3是表示用于實施例1的文件圖象例子(文件1)的說明圖。
圖4是識別圖3的結(jié)果說明圖。
圖5是表示用于實施例1的文件圖象例子(文件2)的說明圖。
圖6是識別圖5的結(jié)果說明圖。
圖7是檢索用文件數(shù)據(jù)內(nèi)文件名和頁碼號及文件名的關(guān)系圖。
圖8是有關(guān)實施例1檢索時的流程圖。
圖9表示輸入關(guān)鍵字例子的說明圖。
圖10實施例1中,表示檢索結(jié)果例子的說明圖。
圖11是實施例1中,檢索結(jié)果編輯裝置的輸出結(jié)果的說明圖。
圖12實施例1中,表示檢索結(jié)果一覽例子的說明圖。
圖13實施例1中,表示檢索結(jié)果一覽例子的說明圖。
圖14實施例1中,表示檢索結(jié)果一覽例子的說明圖。
圖15實施例1中,用于檢索結(jié)果一覽的各組和字形說明圖。
圖16實施例1中,表示檢索結(jié)果一覽例子的說明圖。
圖17實施例1中,用于檢索結(jié)果一覽的各組和字符顏色說明圖。
圖18是表示有關(guān)本發(fā)明實施例2文件編排裝置組成的方框圖。
圖19是表示用于實施例2的文件圖象例子(文件3)的說明圖。
圖20表示圖19識別結(jié)果的說明圖。
圖21是表示用于實施例2的文件圖象例子(文件4)的說明圖。
圖22表示圖21識別結(jié)果的說明圖。
圖23實施例2中檢索時的流程圖。
圖24表示展開關(guān)鍵字表例子的說明圖。
圖25表示實施例2中檢索結(jié)果例子的說明圖。
圖26實施例2中,表示檢索結(jié)果一覽例子的說明圖。
圖27實施例2中,表示檢索結(jié)果一覽例子的說明圖。
圖28實施例2中,用于檢索結(jié)果一覽的各組和字形說明圖。
圖29實施例2中,表示檢索結(jié)果一覽例子的說明圖。
圖30是表示有關(guān)本發(fā)明實施例3文件編排裝置組成的方框圖。
圖31表示用于實施例3的文件圖象及識別結(jié)果的說明圖。
圖32表示實施例3中,檢索結(jié)果例子的說明圖。
圖33實施例3中,表示文件單位里檢索結(jié)果一覽例子的說明圖。
圖34實施例3中,表示在頁單位的檢索結(jié)果一覽例子的說明圖。
圖35實施例3中,表示關(guān)于1文件的在頁單位的檢索結(jié)果一覽例子的說明圖。
圖36是以往例子的說明圖。
圖37表示以往例子的檢索例子的說明圖。
圖38表示以往例子的檢索結(jié)果一覽的說明圖。
發(fā)明實施例實施例1本發(fā)明的實施例1,利用圖1~圖17說明。
首先,說明有關(guān)檢索用數(shù)據(jù)的登錄方法。
圖1是表示本發(fā)明實施例1有關(guān)的文件編排裝置組成的方框圖。
圖1中,1是輸入文件圖象的輸入裝置,2是從輸入的文件圖象抽出字符進行識別的字符識別裝置,3是存儲各字符標準圖形的字符識別辭典,各字符標準圖形用于字符識別裝置2的識別,4是識別結(jié)果保存裝置,7是檢索用文件數(shù)據(jù),5是檢索時輸入關(guān)鍵字的關(guān)鍵字輸入裝置,6是校對關(guān)鍵字輸入裝置5和檢索用文件數(shù)據(jù)7,輸出該文件的檢索裝置,8是檢索結(jié)果編輯裝置,9是檢索結(jié)果輸出裝置。
下面,根據(jù)圖2所示的流程圖,說明圖1中表示的有關(guān)組成的文件登錄時的工作原理。
首先,在圖2的步驟S101里,用戶使用輸入裝置1進行文件圖象輸入。輸入裝置1,可以使用掃描儀或者數(shù)字相機等進行光電轉(zhuǎn)換的機器。又,也可以經(jīng)由網(wǎng)絡(luò)等輸入事先光電轉(zhuǎn)換好的圖象。這里,文件圖象定為黑白2值圖象。
下面,進入圖2的步驟S102,字符識別裝置2,取進輸入裝置1輸入的文件圖象,進行字符識別,輸出其結(jié)果字符碼列。關(guān)于字符識別方法,可以使用眾所周知的技術(shù)實現(xiàn)。例如,將文件圖象中的黑象素進行標記,由區(qū)域的形狀大小判斷貼有標記的各區(qū)域是否為字符列。對判斷為字符列的區(qū)域(以后作為字符列區(qū)域)進行字符切離,從字符列區(qū)域里,對每1個字符圖象進行分離。
關(guān)于字符切離的方法,例如,字符列區(qū)域從縱、橫2個方向上劃分周圍分布,將黑象素數(shù)是閾值以下的位置判斷為字符的斷開處,進行分離。對分離的1個字符圖象實施字符識別。字符識別處理,依據(jù)字符切離,對一字符單位里分割的圖象,例如抽出8×8量綱的濃度特征,求事先保存的字符識別辭典3內(nèi)的標準圖形和各量綱差分之和,從差分和最小的標準圖形里,將幾個字符作為識別結(jié)果輸出。
其次進入步驟S103,識別結(jié)果保存裝置4,利用字符識別裝置2輸出的識別結(jié)果字符碼列,作文件名和頁碼號以及索引文件數(shù)據(jù)管理表。這里,文件名作為文件圖象的字符識別結(jié)果的頭幾個字符。索引是檢索裝置6是表示檢索用文件數(shù)據(jù)7內(nèi)各文件的識別結(jié)果先頭位置的數(shù)值。文件數(shù)據(jù)管理表和識別結(jié)果保存在檢索用文件數(shù)據(jù)7里。
現(xiàn)在,對圖3表示的文件圖象,進行字符識別的結(jié)果表示在圖4上。
又,同樣,對圖5的字符圖象,進行字符識別的結(jié)果表示在圖6上。從圖4及圖6,識別結(jié)果保存裝置4,將文件名和頁碼號及檢索用文件數(shù)據(jù)7內(nèi)的索引登錄在檢索用文件數(shù)據(jù)7里的管理表里。其結(jié)果表示在圖7上。又,將圖4、圖6表示的內(nèi)容保存在檢索用文件數(shù)據(jù)7里。至此,登錄處理結(jié)束。
下面,根據(jù)圖8所示的流程圖,說明圖1中表示的有關(guān)組成的檢索方法時的工作原理。
首先,在圖8的步驟S201里,用戶使用輸入裝置5輸入關(guān)鍵字。關(guān)鍵字輸入裝置5,可由鍵盤等實現(xiàn)。在這里,輸入圖9表示的Electric。然后,在圖8中步驟S202,檢索裝置6校對輸入關(guān)鍵字和檢索用文件數(shù)據(jù)7。檢索裝置6,參照檢索用文件數(shù)據(jù)7內(nèi)的管理表,校對檢索用文件數(shù)據(jù)7內(nèi)各文件的識別結(jié)果和輸入關(guān)鍵字。
校對方法是,如果檢索用文件數(shù)據(jù)7內(nèi)的字符列和組成關(guān)鍵字的字符數(shù),滿足一定比例以上的一致度,則認為校對成功。在這里,關(guān)鍵字字符數(shù)要達到80%以上的一致度作為校對成功的條件。具體講,進行檢索用文件數(shù)據(jù)7上存在的圖4所表示文件1的檢索用文件數(shù)據(jù)和圖6所表示文件2的檢索用文件數(shù)據(jù)和關(guān)鍵字的校對。文件1中,雖然存在與關(guān)鍵字完全一致的字符列,但文件2的字符識別結(jié)果字符碼不是Electric的1而是1(一)20,因此與關(guān)鍵字的校對中一部分不一致。但是,這里,不一致的字符是1(一)20,一致度是7÷8=87.5%,校對成功。檢索裝置6,將檢索用數(shù)據(jù)7內(nèi)的各文件、各頁有關(guān)的一致數(shù)和一致度的臨時一致表保存在緩沖器里。
以下進入圖8的步驟S203,檢索裝置6,以完成的檢索數(shù)據(jù)的各文件、各頁對應(yīng)的一致數(shù)和一致度的臨時一致表,制定圖10所示的檢索結(jié)果一覽表。檢索結(jié)果一覽表制定關(guān)于文件名和頁碼號以及與關(guān)鍵字的一致數(shù)、與關(guān)鍵字的完全一致數(shù)的表。圖10中的一致數(shù),由計算臨時一致表中存在的所有一致數(shù)而求得。又圖10中的完全一致數(shù),由計算臨時一致表中一致度是100%的一致數(shù)算出。實施例1中,檢索結(jié)果顯示單位作為文件。檢索結(jié)果編輯裝置8,從圖10的檢索結(jié)果一覽表,對與各文件內(nèi)的關(guān)鍵字的一致數(shù)是1個以上的文件,判斷完全一致數(shù)是1個以上還是0,將其結(jié)果輸出到緩沖器。其圖表示在圖11上。
下面,進入圖4的步驟S204,檢索結(jié)果輸出裝置9進行檢索結(jié)果一覽的顯示。檢索結(jié)果輸出裝置9,參照圖11所示緩沖器內(nèi)的表,如圖12所示,將完全一致的文件和部分一致的文件顯示在不同區(qū)域上。用戶從圖12所示顯示圖看是否完全一致,決定閱覽哪個文件。
在這里,以完全一致和除此之外分開表示了關(guān)于檢索結(jié)果輸出裝置9的工作原理,不限于此,例如如圖13所示,作上使之明了完全一致的標記,也可以在同一區(qū)域顯示。又,如圖14所示,原原本本顯示圖10的結(jié)果也可以。又,如圖15所示的是否完全一致的字符字形對應(yīng)表和圖16所示的檢索結(jié)果一覽那樣,用不同字符字形顯示完全一致的文件和完全不一致的文件也可以。或者雖沒有圖示,按字符的大小,區(qū)別是否完全一致也可以。或者,檢索結(jié)果輸出裝置9,參照圖17所示完全一致與否的字符顏色對應(yīng)表,根據(jù)完全一致與否,改變文件名等的字符顏色顯示也可以。
又,不限于此,例如,將完全一致的文件名用下劃線、掛網(wǎng)等修飾顯示也可以。而且,檢索結(jié)果輸出裝置9,在顯示檢索結(jié)果一覽表時,根據(jù)按與關(guān)鍵字的一致數(shù)多少的顯示順序,對一致文件多的情況,可以進行比較有效的檢索結(jié)果顯示。在實施例1里,字符識別結(jié)果輸出是按1個字符圖象對應(yīng)1個字符進行的,但不限于此,對1個字符圖象輸出多個候選字符也可以。
如上所示,在所述實施例1里,由明確顯示與關(guān)鍵字是否完全一致,很容易識別用戶輸入的包含關(guān)鍵字的文件,用戶很容易選擇所希望的文件,閱覽就成為可能。又,由顯示與關(guān)鍵字部分一致的文件名,與只顯示完全一致的文件名的情況相比較,可以有效地尋找用戶所希望的文件。
實施例2在所述實施例1里,以用戶輸入的關(guān)鍵字與檢索用文件數(shù)據(jù)7內(nèi)的字符列完全一致與否,改變檢索結(jié)果一覽表的顯示方法和顯示區(qū)域,而在實施例2里,說明以用戶輸入的關(guān)鍵字同時檢索同義語、不同標記時的檢索結(jié)果一覽表的顯示方法。
圖18是表示本發(fā)明實施例2有關(guān)的文件編排裝置組成的方框圖。
圖18中,與圖1所示實施例1相同部分標以相同標號,并省略其說明。作為新的標號,10是將輸入關(guān)鍵字或類似的單詞和不同標記作為檢索對象關(guān)鍵字追加的關(guān)鍵字展開裝置,11是事先記述了類義語或不同標記關(guān)系的展開關(guān)鍵字表。
這個實施例2的文件登錄方法同實施例1相同。這里,除在實施例1中所示的圖3及圖5的文件圖象外,還新登錄圖19和圖21所示的文件圖象。圖19(a)是輸入裝置1輸入的文件3的第1頁的圖象,圖19(b)是文件3的第2頁的圖象。圖19的文件圖象,由字符識別裝置2變換為圖20所示的識別結(jié)果進行輸出。識別結(jié)果保存裝置4,與實施例1一樣,制定文件數(shù)據(jù)管理表,將文件數(shù)據(jù)管理表和識別結(jié)果保存在檢索用文件數(shù)據(jù)7里。由此,檢索用文件數(shù)據(jù)7里登錄有文件1~文件4。
下面,使用圖23的流程圖說明實施例2的檢索工作原理。
首先,在圖23的步驟S301里,用戶利用關(guān)鍵字輸入裝置5輸入關(guān)鍵字。在這里,與實施例1相同,說明圖9的Electric作為關(guān)鍵字輸入的情況。
下面,在步驟S302,關(guān)鍵字展開裝置10制定展開關(guān)鍵字。利用圖24所示展開關(guān)鍵字表11,得到關(guān)于輸入關(guān)鍵字Electric的類似關(guān)鍵字ElectricalElectricty電氣。
下面,在步驟S303,檢索裝置6,校對檢索用文件數(shù)據(jù)7內(nèi)的字符列和關(guān)鍵字。在這里,利用ElectricElectricalElectricty電氣4個關(guān)鍵字進行校對,部分一致時即與關(guān)鍵字長的50%字符數(shù)量一致的情況,認為校對成立。
下面,使用圖25說明檢索結(jié)果一覽表的制定方法。
檢索裝置6,將計算一致數(shù)的結(jié)果存儲在關(guān)鍵字一致數(shù),其一致數(shù)包含輸入關(guān)鍵字Electric和檢索用文件數(shù)據(jù)7內(nèi)的識別結(jié)果之間部分一致,將計算了與輸入關(guān)鍵字Electric完全一致的字符列數(shù)的結(jié)果存儲在完全一致數(shù)里。
又,展開關(guān)鍵字ElectricalElectricty電氣和檢索用文件數(shù)據(jù)7內(nèi)的識別結(jié)果之間的一致數(shù)記入展開關(guān)鍵字一致數(shù),與ElectricalElectricty電氣一致的字符列數(shù)記入完全一致數(shù)224。例如,在圖20,文件3的第1頁上只存在1個Electric21,因此,圖25的關(guān)鍵一致數(shù)設(shè)定12完全一致數(shù)也設(shè)定126。
又,圖20的第1頁上不存在展開關(guān)鍵字,在圖25的展開關(guān)鍵字一致數(shù)完全一致數(shù)2上分別設(shè)定02028。圖20的文件3的第2頁上,因沒有與輸入關(guān)鍵字Electric一致的字符列,因此,圖25的關(guān)鍵字一致數(shù)成為029完全一致數(shù)會成為030,存在電(繁寫)氣22和雷氣23字符列,電氣22與展開關(guān)鍵字電氣完全一致,雷氣
23則與展開關(guān)鍵字電(繁寫)氣一致1/2=50%,因此部分一致。
由此,文件3的展開關(guān)鍵字一致數(shù)成為2完全一致數(shù)224會成為132。
然后,檢索結(jié)果編輯裝置8,從圖25所示的檢索結(jié)果一覽表抽出與輸入關(guān)鍵字完全一致的文件和與展開關(guān)鍵字完全一致的文件,并向檢索結(jié)果輸出裝置9輸出。分類方法為,抽出在圖2關(guān)鍵字一致數(shù)1個以上,并且完全一致數(shù)是1個以上的文件和關(guān)鍵字一致數(shù)是1個以上,且完全一致數(shù)0的文件。然后,抽出展開關(guān)鍵字一致數(shù)是1個以上,并且完全一致數(shù)2是1個以上的文件和展開關(guān)鍵字一致數(shù)是1個以上,完全一致數(shù)221為0的文件。檢索結(jié)果輸出裝置9,接受此項,如圖26所示,關(guān)于關(guān)鍵字和展開關(guān)鍵字之間完全一致與否,分別顯示在不同區(qū)域里。
檢索結(jié)果輸出裝置9的顯示方法,不限于此,如圖27所示,使用表示與關(guān)鍵字或者展開關(guān)鍵字完全一致與否的標記也可以。圖27中,關(guān)鍵字完全一致欄上,圖25里關(guān)鍵字一致數(shù)是1個以上,完全一致數(shù)是1個以上的情況輸出O標記,關(guān)鍵字一致數(shù)是1個以上,完全一致數(shù)是0的情況,輸出X標記。同樣,圖27中,展開關(guān)鍵字完全一致欄上,圖25里展開關(guān)鍵字一致數(shù)是1個以上,完全一致數(shù)2是1個以上的情況輸出O標記,展開關(guān)鍵字一致數(shù)是1個以上,完全一致數(shù)2是0的情況,輸出X標記。
又,如圖28所示,因使用不同字符字形和斜體字符,如圖29所示,也可以顯示為可以分別識別的狀態(tài)。又,不限于此,與實施例1相同,例如將完全一致的文件名用下劃線、掛網(wǎng)等顯示也可以。又,原原本本顯示圖25的檢索結(jié)果一致表也可以。
因此,按所述實施例2,將與關(guān)鍵字是否完全一致適用于展開關(guān)鍵字的情況,對關(guān)鍵字和展開關(guān)鍵字可以很容易識別完全一致的文件,而且,因使用展開關(guān)鍵字,可以減少檢索漏洞。
實施例3在此實施例3里,表示一種例子,即由于用戶指定檢索結(jié)果顯示單位,因此應(yīng)檢索結(jié)果一覽表里表示的文件數(shù)和檢索用文件數(shù)據(jù)7的規(guī)模,可以有效地顯示檢索結(jié)果。
圖30是表示本發(fā)明實施例3有關(guān)的文件編排裝置組成的方框圖。
圖30中,與圖1所示實施例1相同部分標以相同標號,并省略其說明。作為新的標號,12是指定顯示檢索結(jié)果一覽表的單位的檢索結(jié)果顯示單位指定裝置。
在這個實施例3里,在檢索之前,用戶使用檢索結(jié)果顯示單位指定裝置12,指定是文件單位的顯示還是頁碼單位的顯示?,F(xiàn)與實施例1及2一樣,使用字符識別裝置2、及識別裝置結(jié)果保存裝置4,登錄圖31(a)~(c)所示的文件圖象。圖31(d)是依據(jù)字符識別裝置2的識別結(jié)果。
這里,檢索用文件數(shù)據(jù)7登錄有文件1~文件5。
現(xiàn)在,例如輸入關(guān)鍵字與實施例1一樣如果考慮檢索Electric,則檢索裝置6,進行檢索用文件數(shù)據(jù)7內(nèi)的文件1~文件5的校對,制定圖32所示的檢索結(jié)果一覽表。
檢索結(jié)果編輯裝置8,從圖32的檢索結(jié)果一覽表進行以文件為單位一致數(shù)完全一致數(shù)的計算,分割為完全一致數(shù)是1個以上的文件和0的文件。
檢索結(jié)果輸出裝置9,接受此項,如圖33所示,以文件為單位,將與關(guān)鍵字完全一致與否顯示在不同區(qū)域。同樣,檢索結(jié)果顯示單位是頁的情況,檢索結(jié)果編輯裝置8,從檢索結(jié)果一覽表,以頁為單位進行一致數(shù)完全一致數(shù)的計算,并向檢索結(jié)果輸出裝置9輸出。在檢索結(jié)果輸出裝置9里,顯示如圖34所示的檢索結(jié)果。如實施例3所示的檢索用文件數(shù)據(jù)7小的情況,以頁為單位顯示,有檢索、閱覽效率變好的效果。
又,實施例3,在檢索之前用戶使用檢索結(jié)果顯示單位指定裝置12,進行文件單位顯示或者頁單位顯示的指定,但不限于此,例如,首先將檢索結(jié)果顯示單位作為文件單位固定進行檢索,檢索結(jié)果被顯示之后,一將用戶想閱覽的文件輸入檢索結(jié)果顯示單位指定裝置12,檢索結(jié)果顯示單位指定裝置12,向檢索結(jié)果輸出裝置9輸出指定文件名和檢索結(jié)果顯示單位是頁碼單位的情況。
檢索結(jié)果輸出裝置9,接受此項,從圖32的檢索結(jié)果一覽表,參照有關(guān)指定頁單位的一致數(shù)完全一致數(shù)的值,只將該文件的檢索結(jié)果一覽,如圖35所示,可以以頁為單位顯示。圖35表示的是關(guān)于文件5的例子。檢索用文件數(shù)據(jù)7比較大時,這種控制有效。
因此,按實施例3,由于可以選擇檢索結(jié)果一覽的顯示單位,依據(jù)檢索數(shù)據(jù)和文件內(nèi)包含的關(guān)鍵字數(shù)可以實現(xiàn)比較有效的檢索和閱覽。又,以頁為單位顯示是否一致,用戶很容易把握在文件哪一頁包含關(guān)鍵字。
發(fā)明效果如上所示,按本發(fā)明,擁有輸入文件圖象的輸入裝置、保存用于字符識別的標準圖形特征的字符識別辭典、對所述輸入裝置輸入的文件圖象,根據(jù)所述字符識別辭典保存的標準圖形,進行字符識別的字符識別裝置、保存所述字符識別裝置輸出的字符識別結(jié)果的識別結(jié)果保存裝置、輸入關(guān)鍵字的關(guān)鍵字輸入裝置,其關(guān)鍵字檢索收錄在所述識別結(jié)果保存裝置的檢索用文件數(shù)據(jù)、進行所述關(guān)鍵字輸入裝置輸入的關(guān)鍵字和所述識別結(jié)果保存裝置收錄的檢索用文件數(shù)據(jù)之間的校對,輸出至少校對成功的檢索用文件數(shù)據(jù)內(nèi)的各字符列和輸入的關(guān)鍵字之間一致度的檢索裝置、從所述檢索裝置輸出的關(guān)鍵字一致度編輯每個檢索結(jié)果顯示單位的檢索結(jié)果的檢索結(jié)果編輯裝置、輸出所述檢索結(jié)果編輯裝置編輯的結(jié)果的檢索結(jié)果輸出裝置,通過明確顯示與關(guān)鍵字是否完全一致,用戶很容易識別包含輸入的關(guān)鍵字的文件,用戶很容易選擇、閱覽所希望的文件。
又,所述檢索裝置,在所述關(guān)鍵字輸入裝置輸入的關(guān)鍵字和所述檢索用文件數(shù)據(jù)的校對中,組成關(guān)鍵字的所有字符即使不一致,只要滿足一定的標準,就認為校對成功,并計算與關(guān)鍵字校對成功的各字符列的一致度,而所述檢索結(jié)果編輯裝置,根據(jù)所述一致度,以檢索結(jié)果顯示單位分為哪怕包含1個與關(guān)鍵字完全一致的字符列的檢索結(jié)果顯示單位組和雖不存在1個與關(guān)鍵字完全一致的字符列但存在部分一致的字符列的檢索結(jié)果顯示單位組,所述檢索結(jié)果輸出裝置,顯示為所述檢索結(jié)果編輯裝置輸出的各組可以相互識別的狀態(tài),因此,因顯示與關(guān)鍵字部分一致的文件名,與只顯示完全一致的文件名的情況相比,可以有效地尋找用戶所需要的文件。
又,通過將所述檢索結(jié)果顯示單位作為組成文件的頁集合體,可以以頁為單位顯示檢索結(jié)果。
又,通過將所述檢索結(jié)果顯示單位作為組成文件的各個頁,可以以頁為單位顯示檢索結(jié)果。
又,所述檢索結(jié)果輸出裝置,將所述檢索用文件數(shù)據(jù)內(nèi)存在的與關(guān)鍵字完全一致的字符列的檢索結(jié)果顯示單位、雖不完全一致但存在部分一致的字符列的檢索結(jié)果顯示單位,表示為可以相互識別的狀態(tài),因此可以有效地尋找用戶所需要的文件。
又,所述檢索結(jié)果輸出裝置,將所述檢索用文件數(shù)據(jù)內(nèi)存在的與關(guān)鍵字完全一致的字符列的檢索結(jié)果顯示單位、雖不完全一致但存在部分一致的字符列的檢索結(jié)果顯示單位,表示在其它區(qū)域,因此可以有效地尋找用戶所希望的文件。
又,所述檢索結(jié)果輸出裝置,對所述檢索用文件數(shù)據(jù)內(nèi)存在的與關(guān)鍵字完全一致的字符列的檢索結(jié)果顯示單位,將各檢索結(jié)果顯示單位按一致數(shù)多的順序排列,因此可以有效地尋找用戶所需要的文件。
又,擁有將與輸入關(guān)鍵字類似的單詞和不同標記作為檢索對象關(guān)鍵字追加的關(guān)鍵字展開裝置,所述檢索結(jié)果輸出裝置,因顯示是否包含所述關(guān)鍵字展開裝置的展開關(guān)鍵字,因此,通過將由與關(guān)鍵字是否完全一致也適用于展開關(guān)鍵字,很容易識別對關(guān)鍵字和展開關(guān)鍵字完全一致的文件,通過再使用展開關(guān)鍵字可以減少檢索漏洞。
又,所述檢索結(jié)果輸出裝置,將包含與用戶輸入的關(guān)鍵字完全一致的字符列的檢索結(jié)果顯示單位、只與展開關(guān)鍵字完全一致的檢索結(jié)果顯示單位、與用戶輸入的關(guān)鍵字只是部分一致的檢索結(jié)果顯示單位、只與展開關(guān)鍵字部分一致的檢索結(jié)果顯示單位,表示為可以相互識別的狀態(tài),因此可以有效地尋找用戶所希望的文件。
又,所述檢索結(jié)果輸出裝置,將包含與用戶輸入的關(guān)鍵字完全一致的字符列的檢索結(jié)果顯示單位、只與展開關(guān)鍵字完全一致的檢索結(jié)果顯示單位、與用戶輸入的關(guān)鍵字只是部分一致的檢索結(jié)果顯示單位、只與展開關(guān)鍵字部分一致的檢索結(jié)果顯示單位,表示為各自不同的區(qū)域,因此可以有效地尋找用戶所需要的文件。
而且,具有指定檢索結(jié)果顯示單位的檢索結(jié)果顯示單位指定裝置,所述檢索結(jié)果輸出裝置,以所述檢索結(jié)果顯示單位指定裝置指定的檢索結(jié)果顯示單位,顯示檢索結(jié)果,因此,可以選擇檢索結(jié)果一覽的顯示單位,根據(jù)檢索數(shù)據(jù)數(shù)或文件內(nèi)包含的關(guān)鍵字數(shù),可以實現(xiàn)有效的檢索、閱覽。又,通過以頁為單位顯示是否一致,用戶很容易把握在文件內(nèi)的哪一頁包含關(guān)鍵字。
權(quán)利要求
1.一種文件編排裝置,具有輸入文件圖象的輸入裝置;保存用于字符識別的標準圖形特征的字符識別辭典;對所述輸入裝置輸入的字符圖象,根據(jù)所述字符識別辭典保存的標準圖形,進行字符識別的字符識別裝置;保存所述字符識別裝置輸出的字符識別結(jié)果的識別結(jié)果保存裝置;輸入關(guān)鍵字的關(guān)鍵字輸入裝置,其關(guān)鍵字用于檢索收錄在所述識別結(jié)果保存裝置的檢索用文件數(shù)據(jù);對所述關(guān)鍵字輸入裝置輸入的關(guān)鍵字和收錄在所述識別結(jié)果保存裝置的檢索用文件數(shù)據(jù)進行校對,輸出至少校對成功的檢索用字符數(shù)據(jù)內(nèi)的各字符列和輸入的關(guān)鍵字之間一致度的檢索裝置;從與所述檢索裝置輸出的關(guān)鍵字的一致度編輯每個檢索結(jié)果顯示單位的檢索結(jié)果的檢索結(jié)果編輯裝置;檢索結(jié)果輸出裝置,其輸出所述檢索結(jié)果編輯裝置編輯的結(jié)果。
2.權(quán)利要求1所述的文件編排裝置,其特征在于,所述檢索裝置根據(jù)所述關(guān)鍵字輸入裝置輸入的關(guān)鍵字和所述檢索用文件數(shù)據(jù)之間的校對,即使組成關(guān)鍵字的所有字符不一致,只要滿足一定的標準,就認為校對成功,并計算與關(guān)鍵字校對成功的各字符列的一致度,所述檢索結(jié)果編輯裝置分類為,根據(jù)上述一致度,在檢索結(jié)果顯示單位里,哪怕包含與關(guān)鍵字完全一致的1個字符列的檢索結(jié)果顯示單位組和雖然不存在1個與關(guān)鍵字完全一致的字符列,但是存在部分一致的字符列的檢索結(jié)果顯示單位組,所述檢索結(jié)果輸出裝置顯示為,使所述檢索結(jié)果編輯裝置輸出的各組可以識別。
3.權(quán)利要求2所述的文件編排裝置,其特征在于將所述檢索結(jié)果顯示單位作為組成文件頁的集合體。
4.權(quán)利要求2所述的文件編排裝置,其特征在于將所述檢索結(jié)果顯示單位作為組成文件的各個頁。
5.權(quán)利要求2所述的文件編排裝置,其特征在于所述檢索結(jié)果輸出裝置,將所述檢索用文件數(shù)據(jù)里存在的與關(guān)鍵字完全一致的字符列的檢索結(jié)果顯示單位和雖然不完全一致但是部分一致的字符列的檢索結(jié)果顯示單位,表示為可以相互識別的顯示狀態(tài)。
6.權(quán)利要求2至4任一項所述的文件編排裝置,其特征在于,所述檢索結(jié)果輸出裝置,將所述檢索用文件數(shù)據(jù)里存在的與關(guān)鍵字完全一致的字符列的檢索結(jié)果顯示單位和雖然不完全一致但是部分一致的字符列的檢索結(jié)果顯示單位,顯示在不同區(qū)域。
7.權(quán)利要求2所述的文件編排裝置,其特征在于所述檢索結(jié)果輸出裝置,對所述檢索用文件數(shù)據(jù)里存在與關(guān)鍵字完全一致的字符列的檢索結(jié)果顯示單位,按一致數(shù)多少的順序排列各檢索結(jié)果顯示單位。
8.權(quán)利要求2所述的文件編排裝置,其特征在于擁有將與輸入關(guān)鍵字類似的單詞或不同標記作為檢索對象關(guān)鍵字追加的關(guān)鍵字展開裝置,而所述檢索結(jié)果輸出裝置,顯示是否確實包含所述關(guān)鍵字展開裝置產(chǎn)生的展開關(guān)鍵字。
9.權(quán)利要求8所述的文件編排裝置,其特征在于所述檢索結(jié)果輸出裝置將含有與用戶輸入的關(guān)鍵字完全一致的字符列的檢索結(jié)果顯示單位、只與展開關(guān)鍵字完全一致的檢索結(jié)果顯示單位、與用戶輸入的關(guān)鍵字部分一致的檢索結(jié)果顯示單位、只與展開關(guān)鍵字部分一致的檢索結(jié)果顯示單位,表示為可以相互識別的顯示狀態(tài)。
10.權(quán)利要求8所述的文件編排裝置,其特征在于所述檢索結(jié)果輸出裝置,將含有與用戶輸入的關(guān)鍵字完全一致的字符列的檢索結(jié)果顯示單位、只與展開關(guān)鍵字完全一致的檢索結(jié)果顯示單位、與用戶輸入的關(guān)鍵字部分一致的檢索結(jié)果顯示單位、只與展開關(guān)鍵字部分一致的檢索結(jié)果顯示單位,顯示在各自不同的區(qū)域。
11.權(quán)利要求2所述的文件編排裝置,其特征在于擁有指定檢索結(jié)果顯示單位的檢索結(jié)果顯示單位指定裝置,而所述檢索結(jié)果輸出裝置,以所述檢索結(jié)果顯示單位指定裝置指定的檢索結(jié)果顯示單位表示檢索結(jié)果。
全文摘要
一種文件編排裝置,即容易識別輸入的包含關(guān)鍵字的文件,容易選擇閱覽文件。具有輸入文件圖象的輸入裝置1、保存標準圖形特征的字符識別辭典31對輸入裝置輸入的文件圖象,進行字符識別的字符識別裝置2、保存字符識別結(jié)果的識別結(jié)果保存裝置4、輸入檢索檢索用文件數(shù)據(jù)的關(guān)鍵字的關(guān)鍵字輸入裝置5、進行輸入的關(guān)鍵字和檢索用文件數(shù)據(jù)之間的校對,輸出一致度的檢索裝置6、檢索結(jié)果編輯裝置8和輸出編輯結(jié)果的檢索結(jié)果輸出裝置9。
文檔編號G06F17/30GK1271131SQ0010537
公開日2000年10月25日 申請日期2000年3月31日 優(yōu)先權(quán)日1999年4月19日
發(fā)明者龜代泰三, 岡田康裕 申請人:三菱電機株式會社