两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

電子設(shè)備和記錄介質(zhì)的制作方法

文檔序號:6646067閱讀:132來源:國知局
專利名稱:電子設(shè)備和記錄介質(zhì)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種對其文本由第一語言寫成的紙制文檔執(zhí)行OCR(光學(xué)字符讀取器)處理以獲得該文本的技術(shù),更具體地,涉及一種可以有效地校正OCR處理引起的識別錯誤的技術(shù)。
背景技術(shù)
近些年,隨著因特網(wǎng)和其他世界范圍通信環(huán)境的普及以及商業(yè)界和各種其他領(lǐng)域的國際化的發(fā)展,遇到由常用語言(如母語等)之外的語言寫成的文本的可能性增加。因此,對簡單、容易的文本翻譯的需求不斷增加并且提出了各種技術(shù)以滿足這種需求。作為這種技術(shù)的一個示例,將翻譯軟件安裝在諸如個人計算機(下面稱“PC”)的計算機裝置上,以提供機器翻譯,在此期間由翻譯軟件執(zhí)行翻譯處理。
另外,為了使計算機裝置對記錄在紙制文檔中的原文執(zhí)行機器翻譯,需要例如通過對該紙制文檔執(zhí)行OCR處理,將表示原文的數(shù)據(jù)輸入到計算機裝置中。然而,因為OCR處理的字符識別率不是100%,所以有時會獲得單個字符的多個候選字符串。當(dāng)獲得了這些多個候選字符串時,需要使用戶從該多個候選字符串中選擇正確地表示寫在原文中的字符的一個候選字符串,以校正OCR處理所獲得的處理結(jié)果。然而,如果該處理頻繁發(fā)生,則這樣的校正會使OCR處理的效率急劇下降。

發(fā)明內(nèi)容
為了解決以上問題,本發(fā)明的一方面提供了一種電子設(shè)備,其具有輸入單元,其輸入表示以第一語言寫成的文本的圖像數(shù)據(jù);識別單元,其對由輸入單元輸入的圖像數(shù)據(jù)執(zhí)行字符識別處理并且識別候選字符串,該候選字符串表示對圖像數(shù)據(jù)所代表的文本的各結(jié)構(gòu)單元進行字符識別處理的結(jié)果;指定單元,其使用戶指定第二語言;確定單元,其確定第二語言是否與第一語言不同;提示(presentation)單元,其在確定單元確定第一語言和第二語言不同時,對于識別單元識別出了多個候選字符串的各結(jié)構(gòu)單元,提示第二語言的候選字符串的譯文;以及選擇單元,其使用戶從提示單元提示的多個譯文中選擇一個譯文。
根據(jù)本發(fā)明的實施例,即使用于書寫原文的語言與用戶語言不同,當(dāng)對記錄在紙制文檔上的原文執(zhí)行OCR處理以獲取原文時,用戶也能夠有效地校正由OCR處理生成的字符識別結(jié)果。


將根據(jù)下面的附圖詳細說明本發(fā)明的實施例,其中圖1是示出了配備有表示根據(jù)本發(fā)明實施例的電子設(shè)備的翻譯裝置110的翻譯系統(tǒng)10的示例性配置的框圖;圖2是示出了翻譯裝置110的硬件配置示例的框圖;圖3是示出了顯示在顯示單元220上的語言指定畫面的示例的圖;圖4是示出了控制單元200使用翻譯軟件所執(zhí)行的翻譯處理的流程的流程圖;圖5(a)、5(b)和5(c)是示出了在翻譯處理期間在翻譯裝置110的顯示單元220上顯示的內(nèi)容的示例的圖;圖6是示出在變型例3中顯示的候選字符串示例的圖;以及圖7是示出在變型例5中提示的候選字符串示例的圖。
具體實施例方式
下面,將參照附圖對本發(fā)明的實施例進行詳細說明。
(A.配置)圖1是示出了配備有翻譯裝置110的翻譯系統(tǒng)10的示例性配置的框圖,該翻譯系統(tǒng)10代表了根據(jù)本發(fā)明實施例的電子設(shè)備。如圖1所示,圖像讀取器120是提供了諸如ADF(自動文檔進給器)的自動進紙機構(gòu)的掃描儀裝置,其一次一頁地光學(xué)獲取放置在ADF中的紙制文檔并且將與獲取的圖像相對應(yīng)的圖像數(shù)據(jù)通過通信線130(例如LAN(局域網(wǎng))等)傳送到翻譯裝置110。此外,雖然本實施例說明了通信線130是LAN的情況,但是當(dāng)然其也可以是WAN(廣域網(wǎng))或因特網(wǎng)。此外,雖說本實施例說明了將翻譯裝置110和圖像讀取器120分別構(gòu)成為單獨硬件的情況,但理所當(dāng)然地,也可以將兩者構(gòu)成為單個的集成硬件。在這樣的實施例中,通信線130是在硬件中將翻譯裝置110連接到圖像讀取器120的內(nèi)部總線。
圖1的翻譯裝置110具有這樣的功能將從圖像讀取器120傳送的圖像數(shù)據(jù)所表示的文本翻譯成翻譯目的語言并且顯示翻譯的結(jié)果(也就是,翻譯成目的語言的文本譯文),該翻譯目的語言與用于書寫所述文本的翻譯源(source)語言不同。此外,本實施例說明了一種情況,其中翻譯源語言是中文,翻譯目的語言是英語。此外,在本實施例中,從圖像讀取器120向翻譯裝置110傳送的圖像數(shù)據(jù)表示要被翻譯的文本(換句話說,原文),并且下文將該圖像數(shù)據(jù)稱為“原文數(shù)據(jù)”。
圖2是示出了翻譯裝置110的硬件配置的示例的框圖。
如圖2所示,翻譯裝置110配備了控制單元200、通信接口(下文稱為IF)單元210、顯示單元220、操作單元230、存儲單元240和作為這些組件之間的數(shù)據(jù)交換的媒介的總線250。
該控制單元200(例如是CPU(中央處理器))通過運行存儲在存儲單元240中的各種軟件(其將在下文描述)對翻譯裝置110中的各個單元執(zhí)行中央控制。通信IF單元210通過通信線130與圖像讀取器120相連接,接收通過通信線130從圖像讀取器120發(fā)送的原文數(shù)據(jù)并且將其傳送給控制單元200。簡言之,通信IF單元210用作用于輸入從圖像讀取器120發(fā)送的原文數(shù)據(jù)的輸入單元。
顯示單元220,例如是液晶顯示器及其驅(qū)動電路,顯示與從控制單元200傳送的數(shù)據(jù)相對應(yīng)的圖像,并且提供各種用戶接口。操作單元230,例如是配備有多個鍵的鍵盤(其圖被省略),其通過傳送與鍵操作內(nèi)容相對應(yīng)的數(shù)據(jù)(下文稱為操作內(nèi)容數(shù)據(jù))將用戶操作內(nèi)容傳送到控制單元200。
如圖2所示,存儲單元240包括易失性存儲單元240a和非易失性存儲單元240b。該易失性存儲單元240a,例如是RAM(隨機存取存儲器),用作控制單元200運行下述各種軟件的工作區(qū)域。另一方面,非易失性存儲單元240例如是硬盤。存儲在非易失性存儲單元240b中的是使控制單元200可以執(zhí)行本實施例的翻譯裝置110所特有的功能的數(shù)據(jù)和軟件。
建議將在執(zhí)行以上機器翻譯時所使用的各種雙語字典作為存儲在非易失性存儲單元240b中的數(shù)據(jù)的示例。另一方面,建議將翻譯軟件和使控制單元200運行操作系統(tǒng)(Operation System,下文稱為“OS”)的OS軟件作為存儲在非易失性存儲單元240b的軟件的示例。此處,“翻譯軟件”一詞是指使控制單元200執(zhí)行處理以將由圖像讀取器120所輸入的原文數(shù)據(jù)表示的原文翻譯成預(yù)定的翻譯目的語言的軟件。下面,將針對控制單元200由于執(zhí)行軟件程序而具有的功能進行說明。
當(dāng)接通翻譯裝置110的電源(其圖被省略)時,首先,控制單元200從非易失性存儲單元240b讀取OS軟件并且執(zhí)行它。當(dāng)其執(zhí)行OS軟件并且由此運行了OS時,控制單元200具有控制翻譯裝置110的單元的功能和從非易失性存儲單元240b讀取其他軟件并且根據(jù)用戶的指令執(zhí)行該軟件的功能。例如,當(dāng)發(fā)送指令來運行翻譯軟件時,控制單元200從非易失性存儲單元240b讀取翻譯軟件并執(zhí)行它。當(dāng)執(zhí)行翻譯軟件時,控制單元200被至少賦予了下述的7個功能。
首先,其被賦予了使用戶指定常用語言(即,用戶語言)并存儲指定內(nèi)容的功能。具體地說,首先控制單元200使用顯示單元220顯示如圖3所示畫面的語言指定畫面。隨后視覺地檢查語言指定畫面的用戶可以通過操作單元230適當(dāng)?shù)夭僮飨吕藛?10然后按下“輸入”按鈕B1而輸入所希望的用戶語言,來指定他們自己的語言。另一方面,控制單元200基于從操作單元230傳送的操作內(nèi)容數(shù)據(jù)識別用戶語言,然后將表示用戶語言的數(shù)據(jù)(下文稱為用戶語言數(shù)據(jù))寫入并存儲到易失性存儲單元240a中。此外,盡管本實施例說明了通過下拉菜單指定用戶語言的情況,但是也可以使用戶通過鍵入表示用戶語言的字符串?dāng)?shù)據(jù)等來指定用戶指定語言。
第二,其具有使其對從圖像讀取器120輸入的原文數(shù)據(jù)執(zhí)行例如OCR處理的字符識別處理的功能,以及對候選字符串進行識別的功能,這些候選字符串代表了組成原文(由原文數(shù)據(jù)表示)的各個字詞的識別結(jié)果。
第三,其具有確定用于書寫由原文數(shù)據(jù)表示的原文的翻譯源語言是否與由用戶指定的用戶語言不同的功能。因為在本實施例中將“中文”預(yù)置為翻譯源語言,所以控制單元200確定由用戶指定的用戶語言是否為中文,如果不是中文,則該控制單元200確定翻譯源語言和用戶語言不同。
第四,其具有當(dāng)?shù)谌δ艽_定用戶語言和翻譯源語言不同時,提示具有由第二功能識別出的多個候選字符串字的字詞的用戶語言譯文的功能。更具體地說,對于組成原文(由原文數(shù)據(jù)表示)的任何字詞,控制單元200確定第二功能是否識別出了多個候選字符串,通過參照雙語字典,對具有肯定確定結(jié)果的字詞(也就是,具有多個識別出的候選字符串的字詞),識別出該多個候選字符串的每一個所代表的字詞的用戶語言譯文;并且將表示該譯文的字符串顯示在顯示單元220上以提示這些譯文。
第五,其具有使用戶從由第四功能提示的多個譯文中選擇一個譯文并將選擇結(jié)果存儲在存儲器中的功能。
第六,在結(jié)構(gòu)單位具有由第二功能唯一識別出的候選字符串的情況下,生成表示使用該對應(yīng)的候選字符串組成的文本的代碼數(shù)據(jù),在結(jié)構(gòu)單位具有多個識別出的候選字符串的情況下,生成表示使用與第五功能存儲的譯文相對應(yīng)的候選字符串組成的文本的代碼數(shù)據(jù)。此處,代碼數(shù)據(jù)是這樣的數(shù)據(jù),其中按照字符被寫入的順序排列組成文本的字符的字符代碼(例如,ASCII碼和Shift-JIS碼等)。盡管本實施例說明了這樣的情況,其中在結(jié)構(gòu)單位具有由第二功能唯一識別出的候選字符串的情況下,生成表示使用相應(yīng)的候選字符串組成的文本的代碼數(shù)據(jù),并且在結(jié)構(gòu)單位具有多個識別出的候選字符串的情況下,生成表示使用與由第五功能存儲的譯文相對應(yīng)的候選字符串組成的文本的代碼數(shù)據(jù),但是當(dāng)然也可以生成表示文本的圖像數(shù)據(jù)。
以及,第七,其具有將第六功能生成的代碼數(shù)據(jù)表示的文本翻譯為翻譯目的語言的譯文并將翻譯結(jié)果顯示在顯示單元220上的功能。此外,盡管本實施例說明了這樣的情況,其中將由代碼數(shù)據(jù)表示的文本的翻譯成翻譯目的語言的翻譯結(jié)果顯示在顯示單元220上,但也可以生成表示這種翻譯結(jié)果的圖像數(shù)據(jù)和代碼數(shù)據(jù),將該圖像數(shù)據(jù)和代碼數(shù)據(jù)發(fā)送到諸如打印機的圖像形成裝置,并且打印翻譯結(jié)果,也可以將表示翻譯結(jié)果的圖像數(shù)據(jù)和代碼數(shù)據(jù)與原文數(shù)據(jù)相關(guān)聯(lián)地存儲。
如上所述,這種根據(jù)本實施例的翻譯裝置110的硬件配置與普通計算機裝置的硬件配置相同,通過使控制單元200能夠執(zhí)行存儲在非易失性存儲單元240b中的各種軟件來實現(xiàn)本發(fā)明的電子設(shè)備的特有功能。因此,盡管本實施例說明了這樣的情況,其中在軟件模塊的協(xié)助下實現(xiàn)了本發(fā)明的電子設(shè)備所特有的功能,然而,也可以通過組合執(zhí)行這些功能的硬件模塊來構(gòu)建本發(fā)明的電子設(shè)備。
(B操作)下面,針對翻譯裝置110的操作進行說明,其中強調(diào)說明將表明其顯著特征的操作。此外,在下面所說明的操作示例中,假設(shè)操作翻譯裝置110的用戶是日本人,該日本人除了他或她自己的母語(也就是日語)之外不擅長任何語言。此外,下面假設(shè)翻譯裝置110的控制單元200運行0S軟件并且等待用戶執(zhí)行輸入操作。
如果用戶正確地操作了操作單元230并且執(zhí)行了發(fā)送指令以執(zhí)行翻譯軟件的輸入操作,則操作單元230將與該操作的內(nèi)容相對應(yīng)的操作內(nèi)容數(shù)據(jù)傳送到控制單元200。在本操作示例中,將用于發(fā)送指令以執(zhí)行翻譯軟件的操作內(nèi)容數(shù)據(jù)從操作單元230傳送到控制單元200,控制單元200從非易失性存儲單元240b讀取翻譯軟件并且根據(jù)操作內(nèi)容數(shù)據(jù)執(zhí)行該翻譯軟件。下面將參照

運行翻譯軟件的控制單元200的翻譯操作。
圖4是示出了控制單元200使用翻譯軟件所執(zhí)行的翻譯處理的流程的流程圖。首先,如圖4所示,控制單元200在顯示單元220上顯示語言指定畫面(見圖3)并且使用戶可以指定用戶語言(步驟SA100)。如上所述,隨后視覺監(jiān)視語言指定畫面的用戶可以通過適當(dāng)?shù)夭僮飨吕藛?10然后按下“輸入”按鈕B1來指定所希望的用戶語言??刂茊卧?00從操作單元230接收表示用戶操作內(nèi)容的操作內(nèi)容數(shù)據(jù)(也就是,表示從下拉菜單所選擇的項的數(shù)據(jù)和反映已經(jīng)按下了“輸入”按鈕B1的事實的數(shù)據(jù))并且基于操作內(nèi)容數(shù)據(jù)(也就是,下拉菜單中的顯示所選擇的語言的項的編號)識別所選擇的語言。此外,因為操作翻譯裝置110的用戶不擅長“日語”之外的任何語言,所以在該操作示例中選擇“日語”作為用戶語言。
接下來,控制單元200將表示根據(jù)從操作單元230傳送的操作內(nèi)容數(shù)據(jù)所識別的語言的用戶語言數(shù)據(jù)寫入易失性存儲單元240a,將其存儲在該處,并且等待從圖像讀取器120發(fā)送原文數(shù)據(jù)。另一方面,當(dāng)用戶將紙制文檔放置在圖像讀取器120的ADF中并且執(zhí)行某些特定操作(例如,按下在圖像讀取器120的操作單元上提供的開始按鈕等)時,通過圖像讀取器120獲取表示記錄在紙制文檔中的內(nèi)容的圖像,并且將與該圖像相對應(yīng)的原文數(shù)據(jù)通過通信線130從圖像讀取器120傳送到翻譯裝置110。此外,在本實施例中,將表示用“中文”寫成的文本的圖像數(shù)據(jù)作為原文數(shù)據(jù)從圖像讀取器120傳送到翻譯裝置110。
此時,當(dāng)控制單元200通過通信IF單元210接收了從圖像讀取器120發(fā)送的原文數(shù)據(jù)(步驟SA110)時,對原文數(shù)據(jù)執(zhí)行OCR處理以執(zhí)行字符識別并且識別候選字符串,該候選字符串表示組成由原文數(shù)據(jù)表示的原文的各個字詞的識別候選(步驟SA120)。然后,控制單元200確定由用戶通過語言指定畫面所指定的用戶語言與翻譯源語言是否不同(SA130),并且,當(dāng)確定該兩者相同時,執(zhí)行常規(guī)的校正處理(步驟SA140),并且,另一方面,當(dāng)確定該兩者不同時,執(zhí)行根據(jù)本發(fā)明的實施例的電子設(shè)備所特有的校正處理(也就是,在圖4中,從步驟SA150到步驟SA170的處理)。
在此處所用的術(shù)語“常規(guī)校正處理”表示包括如下步驟的處理,將具有在步驟SA120中識別出的具有多個候選字符串的字詞的候選字符串顯示在顯示單元220上,使用戶選擇正確地表示由原文數(shù)據(jù)表示的原文中的字詞的單個候選字符串,并且響應(yīng)于選擇結(jié)果生成表示原文的代碼數(shù)據(jù)。因此,如果當(dāng)用戶語言和翻譯源語言相同時,翻譯源語言中的多個候選字符串顯示在顯示單元220上,則用戶可以從多個候選字符串中選擇正確地表示原文中的字詞的單個候選字符串。
相反地,當(dāng)用戶語言和翻譯源語言不同時,如果原樣地顯示這些候選字符串,則用戶無法選擇正確地表示原文中的字詞的單個候選字符串。因此,在這種情況下,翻譯裝置110執(zhí)行根據(jù)本發(fā)明的實施例的電子設(shè)備所特有的校正處理,該處理使用戶可以從多個候選字符串中選擇一個正確地表示原文中的字詞的候選字符串。因為在步驟SA100中所指定的用戶語言是“日語”而翻譯源語言是“中文”,所以在這個操作示例中,步驟SA130中的確定結(jié)果是“是”并且執(zhí)行從步驟SA150到步驟SA170的處理。
當(dāng)在步驟SA130中的確定結(jié)果是“是”時,則在隨后執(zhí)行的步驟SA150中,對組成由原文數(shù)據(jù)表示的文本的字詞中的具有多個識別出的候選字符串的字詞,將由候選字符串表示的字詞翻譯成用戶語言的字詞,并且將該譯文顯示在顯示單元220上。例如,如圖5(a)、5(b)所示,當(dāng)對于包含在由原文數(shù)據(jù)表示的原文中的一個字詞識別出兩個候選字符串時,控制單元200使用顯示單元220顯示選擇畫面(見圖5(c)),該選擇畫面將該兩個候選字符串的用戶語言譯文提示給用戶。然后,視覺監(jiān)視選擇畫面的用戶可以通過適當(dāng)?shù)夭僮鞑僮鲉卧?30并且參照在選擇畫面上提示的譯文,從該兩個候選字符串中選擇一個候選字符串。在該操作示例中,假設(shè)用戶從圖5(c)所示的選擇畫面上提示的譯文中選擇“東京”。
在執(zhí)行以上選擇之后,控制單元200從操作單元230接收表示選擇的內(nèi)容的操作內(nèi)容數(shù)據(jù)(步驟SA160),將由操作內(nèi)容數(shù)據(jù)表示的候選字符串之外的候選字符串從步驟SA120的字符識別處理中獲得的處理結(jié)果中刪除,并且生成表示要被翻譯的文本的代碼數(shù)據(jù)(步驟SA170)。更加具體地說,在步驟SA170,在字詞具有在步驟SA120中唯一地識別出的候選字符串的情況下,生成表示使用相應(yīng)的候選字符串組成的文本的代碼數(shù)據(jù),在字詞具有多個候選字符串的情況下,生成表示使用與在步驟SA160中選擇的譯文相對應(yīng)的候選字符串組成的文本的代碼數(shù)據(jù)。
以上描述了根據(jù)本發(fā)明實施例的電子設(shè)備所特有的校正處理。
通過參照存儲在非易失性存儲單元240b中的雙語字典,控制單元200隨后將由步驟SA140或步驟SA170生成的代碼數(shù)據(jù)表示的文本翻譯成翻譯目的語言(步驟SA180)并且將表示該譯文的圖像數(shù)據(jù)傳送到顯示單元220,在該顯示單元220上顯示該譯文(步驟SA190)。在本實施例中,翻譯目的語言是“英文”,因此,將在選擇畫面(見圖5(c))上選擇的其譯文為“東京”的字詞翻譯為“Tokyo”。
如上所述,即使翻譯源語言與使用該翻譯裝置的用戶的用戶語言不同,當(dāng)通過OCR處理獲得以某種翻譯源語言記錄在紙制文檔上的原文并且將原文翻譯成預(yù)定的翻譯目的語言時,本實施例的翻譯裝置也能實現(xiàn)使用戶能夠有效地校正OCR處理生成的字符識別結(jié)果的效果,并執(zhí)行到翻譯目的語言的翻譯。
(C.變型例)上述的實施例是本發(fā)明的一個示例性實施例,當(dāng)然,可以對其例如進行如下地修改。
(C-1變型例1)上述實施例說明了這樣的情況,其中將本發(fā)明應(yīng)用于翻譯裝置,該翻譯裝置通過光學(xué)獲取紙制文檔來獲得原文數(shù)據(jù)并且對由原文數(shù)據(jù)表示的文本執(zhí)行機器翻譯。然而,本發(fā)明還可以應(yīng)用于這樣的電子設(shè)備,該電子設(shè)備接收原文數(shù)據(jù),對原文數(shù)據(jù)執(zhí)行OCR處理并且將所獲得的數(shù)據(jù)存儲在存儲器中或?qū)⑵浒l(fā)送到其他裝置。
(C-2變型例2)上述實施例說明了這樣的情況,其中預(yù)先提供以翻譯源語言(實施例中為中文)寫成的文本,并且將該文本翻譯成預(yù)定的翻譯目的語言(實施例中為英文)。然而,可以使用戶以與指定用戶語言相同的方式指定翻譯源語言和翻譯目的語言。因此,當(dāng)允許用戶指定翻譯源語言和翻譯目的語言時,可以根據(jù)與選擇的內(nèi)容相對應(yīng)的雙語字典(也就是,與用戶指定的用戶語言和與用戶指定的翻譯源語言相對應(yīng)的雙語字典)獲得各候選字符串的譯文。此外,當(dāng)對從圖像讀取器傳送的原文數(shù)據(jù)執(zhí)行OCR處理時,可以基于處理結(jié)果識別翻譯源語言。
(C-3變型例3)上述實施例說明了這樣的情況,其中對于字詞單位選擇候選字符串。然而,如圖6中所示,也可以使用戶提示候選字符串并且從多個候選字符串中以句子單位級別選擇一個候選字符串,也可以允許用戶提示候選字符串并且以字詞塊單位級別選擇一個候選字符串。例如,圖6示出了這樣的情況,其中所提示的句子的用戶語言譯文包括字詞“****”,對于該字詞,識別出了“mmmm”、“kkkk”和“pppp”作為候選字符串,并且用戶將要選擇該三個候選字符串中的一個。簡言之,在針對文本的結(jié)構(gòu)單位提示候選字符串的實施例中,該結(jié)構(gòu)單位可以是字詞、字詞塊或句子。
(C-4變型例4)上述實施例說明了這種情況,其中在字詞具有多個識別出的候選字符串的情況下,使用戶可以通過提示各個候選字符串的用戶語言譯文,從多個候選字符串中選擇一個候選字符串。然而,當(dāng)識別出了多個候選字符串時,除了候選字符串的譯文,還可以提示OCR處理方面的特定確定度的數(shù)據(jù)(例如,表示確定度的值和與確定度相對應(yīng)的優(yōu)先級的數(shù)據(jù))。
(C-5變型例5)上述實施例中說明了這樣的情況,其中在字詞具有識別出的多個候選字符串的情況下,用戶在顯示各個候選字符串的用戶語言譯文的顯示單元220的幫助下,從多個候選字符串中選擇一個候選字符串。然而,涉及多個候選字符串的用戶語言譯文的表示的實施例不限于將譯文顯示在顯示單元220上的實施例。例如,如圖7所示,在字詞具有多個識別出的候選字符串的情況下(圖7中的字“****”),也可以通過向候選字符串的用戶語言譯文添加預(yù)定的檢查標(biāo)記(圖7中的“”),在通過在例如打印紙的記錄材料上打印字符識別處理的處理結(jié)果而輸出該處理結(jié)果的同時,對它們進行打印。在通過勾涂(paint out)緊接一個候選字符串提供的檢查標(biāo)記而從多個候選字符串中選擇一個候選字符串之后,視覺監(jiān)視這樣打印出的字符識別結(jié)果的用戶隨后可以通過使圖像讀取器120再次讀入打印出的結(jié)果將選擇結(jié)果傳送到電子設(shè)備。
(C-6變型例6)上述的實施例說明了這樣的情況,其中將使控制單元200執(zhí)行本發(fā)明的翻譯裝置所特有的功能的軟件預(yù)先存儲在非易失性存儲單元240b中。然而,當(dāng)然,可以將該軟件安置在計算機可讀記錄介質(zhì)上(例如CD-ROM(壓縮盤只讀存儲器)或DVD(數(shù)字萬能盤)),并且將該軟件安裝在使用這種記錄介質(zhì)的普通計算機裝置上。這么做實現(xiàn)了使普通計算機裝置可以用作本發(fā)明的翻譯裝置的效果。
如上所述,本發(fā)明一方面提供了一種電子設(shè)備,其具有輸入單元,其輸入表示以第一語言寫成的文本的圖像數(shù)據(jù);識別單元,其對由輸入單元輸入的圖像數(shù)據(jù)執(zhí)行字符識別處理并且識別候選字符串,該候選字符串表示對由圖像數(shù)據(jù)表示的文本的各個結(jié)構(gòu)單位進行字符識別處理的結(jié)果;指定單元,其允許用戶指定第二語言;確定單元,其確定第二語言是否與第一語言不同;提示單元,其在確定單元確定第一語言和第二語言不同時,為識別單元識別出了多個候選字符串的各個結(jié)構(gòu)單位以第二語言提示候選字符串的譯文;以及選擇單元,其允許用戶從提示單元提示的多個譯文中選擇一個譯文。
使用這種電子設(shè)備,當(dāng)由用戶指定為第二語言的用戶語言與第一語言不同時,該設(shè)備提示具有多個識別出的候選字符串的結(jié)構(gòu)單位的用戶語言譯文。從而,雖然用戶不擅長第一語言,但是也可以通過參照由提示單元提示的譯文從多個候選字符串中選擇一個候選字符串。
在該方面的實施例中,電子設(shè)備可以具有生成單元,其生成表示文本的圖像數(shù)據(jù)或代碼數(shù)據(jù),該文本使用識別單元為由圖像數(shù)據(jù)表示的文本的結(jié)構(gòu)單位唯一地識別的各候選字符串和選擇單元為由圖像數(shù)據(jù)表示的文本的、被識別出了多個候選字符串的結(jié)構(gòu)單位選出的各候選文本字符串組合而成。
在該方面的另一實施例中,所述結(jié)構(gòu)單位可以是字詞、字詞塊或句子的至少其中之一。在這樣的實施例中,與為分離的字符提示多個候選字符串的情況相對地,為包含具有多個識別出的候選字符串的字符的字詞、字詞塊或句子,提示第二語言的譯文,結(jié)果,可以通過以字詞、字詞塊或句子為單位考慮上下文和適合性,從多個候選字符串中選擇一個候選字符串。
在該方面的另一實施例中,提示單元可以與多個候選字符串的每一個候選字符串的第二語言的譯文一起提示表示識別單元做出的識別的確定度的數(shù)據(jù)。在這樣的實施例中,可以通過除了考慮譯文以外還考慮確定度,從多個候選字符串中選擇一個候選字符串。此外,當(dāng)所述結(jié)構(gòu)單位是字詞單位時,可以確定第二語言的多個候選字符串的譯文是否存儲在第二語言的術(shù)語數(shù)據(jù)庫(例如,其中表示語義內(nèi)容和用法的數(shù)據(jù)與第二語言的字詞相互關(guān)聯(lián)地存儲的數(shù)據(jù)庫)中,并且指示提示單元通過提高存儲在術(shù)語字典數(shù)據(jù)庫中的譯文的優(yōu)先級來提示它們。
在該方面的另一實施例中,電子設(shè)備還可以具有翻譯單元,其將由生成單元生成的圖像數(shù)據(jù)或代碼數(shù)據(jù)表示的文本翻譯成不同于第一語言和第二語言的第三語言。在這樣的實施例中,即使使用電子設(shè)備的用戶既不擅長第一語言(也就是,翻譯源語言)也不擅長第三語言(也就是翻譯目的語言),也可以有效地校正通過對表示以第一語言寫成的原文的圖形數(shù)據(jù)執(zhí)行OCR處理而獲得的字符識別結(jié)果中的識別錯誤,并且通過對經(jīng)校正的識別結(jié)果進行機器翻譯而獲得第三語言的譯文。
本發(fā)明的另一方面提供了一種計算機可讀記錄介質(zhì),該計算機可讀記錄介質(zhì)記錄了使計算機執(zhí)行上述電子設(shè)備的功能的程序。在這樣的實施例中,將記錄在介質(zhì)中的程序安裝在普通計算機裝置上并且執(zhí)行該程序以使該計算機裝置具有與上述電子設(shè)備相同的功能。
本發(fā)明的另一方面提供一種方法,該方法具有執(zhí)行上述的電子設(shè)備的功能的步驟。
對本發(fā)明實施例的上述說明是出于示例和說明的目的而提供的。并非旨在窮舉或?qū)⒈景l(fā)明限于所公開的具體形式。很顯然,對本領(lǐng)域技術(shù)人員,多種修改和變型是顯而易見的。所選取并描述的實施例用于最好地說明本發(fā)明的原理及其實際應(yīng)用,從而使本領(lǐng)域的其他技術(shù)人員能夠理解本發(fā)明的各種實施例,以及適合于期望的具體應(yīng)用的各種變型。本發(fā)明的范圍旨在由以下權(quán)利要求及其等同物來限定。
在此以引用的方式并入2005年3月25日提交的日本專利申請第2005-090199號的全部公開(包括說明書、權(quán)利要求、附圖和摘要)。
權(quán)利要求
1.一種電子設(shè)備,其包括輸入單元,其輸入表示以第一語言寫成的文本的圖像數(shù)據(jù);識別單元,其對由輸入單元輸入的圖像數(shù)據(jù)執(zhí)行字符識別處理并且識別候選字符串,該候選字符串表示對圖像數(shù)據(jù)表示的文本的各個結(jié)構(gòu)單位進行字符識別處理的結(jié)果;指定單元,其使得用戶指定第二語言;確定單元,其確定第二語言是否與第一語言不同;提示單元,其在確定單元確定第一語言與第二語言不同時,提示識別裝置識別出了多個候選字符串的各個結(jié)構(gòu)單位的候選字符串的第二語言的譯文,以及選擇單元,其使用戶從提示單元提示的多個譯文中選擇一個譯文。
2.根據(jù)權(quán)利要求1所述的電子設(shè)備,還包括生成單元,其生成表示文本的圖像數(shù)據(jù)或代碼數(shù)據(jù),該文本使用識別單元為由圖像數(shù)據(jù)表示的文本的結(jié)構(gòu)單位唯一地識別的各候選字符串,以及選擇單元為由圖像數(shù)據(jù)表示的文本的、被識別出了多個候選字符串的結(jié)構(gòu)單位選出的各候選文本字符串組合而成。
3.根據(jù)權(quán)利要求1所述的電子設(shè)備,其中所述結(jié)構(gòu)單位是字詞、字詞塊或句子的至少其中之一。
4.根據(jù)權(quán)利要求1所述的電子設(shè)備,其中提示單元與多個候選字符串的每一個候選字符串的第二語言的譯文一起提示表示識別單元做出的識別的確定度的數(shù)據(jù)。
5.根據(jù)權(quán)利要求2所述的電子設(shè)備,還包括翻譯單元,其將由生成單元生成的圖像數(shù)據(jù)或代碼數(shù)據(jù)表示的文本翻譯成第三語言,該第三語言與第一語言不同并且與第二語言不同。
6.一種記錄程序的計算機可讀記錄介質(zhì),該程序使得計算機執(zhí)行接收表示以第一語言寫成的文本的圖像數(shù)據(jù);對圖像數(shù)據(jù)執(zhí)行字符識別處理并且識別候選字符串,該候選字符串表示對文本的各個結(jié)構(gòu)單位進行字符識別處理的結(jié)果;使用戶指定第二語言;確定第二語言是否與第一語言不同;并且在確定第一語言和第二語言是不同時,提示識別出了多個候選字符串的各個結(jié)構(gòu)單位的候選字符串的第二語言的譯文,并且使用戶從多個譯文中選擇一個譯文。
7.根據(jù)權(quán)利要求6所述的計算機可讀記錄介質(zhì),其中所述程序還使得計算機執(zhí)行生成表示文本的圖像數(shù)據(jù)或代碼數(shù)據(jù),該文本使用為由圖像數(shù)據(jù)表示的文本的結(jié)構(gòu)單位唯一地識別的各候選字符串和為由圖像數(shù)據(jù)表示的文本的、被識別出了多個候選字符串的結(jié)構(gòu)單位選出的各候選文本字符串組合而成。
8.根據(jù)權(quán)利要求6所述的計算機可讀記錄介質(zhì),其中所述結(jié)構(gòu)單位是字詞、字詞塊或句子的至少其中之一。
9.根據(jù)權(quán)利要求6所述的計算機可讀記錄介質(zhì),其中所述程序使得計算機執(zhí)行在提示譯文的處理中,與多個候選字符串的每一個候選字符串的第二語言的譯文一起提示表示識別的確定度的數(shù)據(jù)。
10.根據(jù)權(quán)利要求7所述的計算機可讀記錄介質(zhì),其中所述程序還使計算機執(zhí)行將由圖像數(shù)據(jù)或代碼數(shù)據(jù)表示的文本翻譯成第三語言,該第三語言與第一語言不同并且與第二語言不同。
11.一種方法,包括接收表示以第一語言寫成的文本的圖像數(shù)據(jù);對圖像數(shù)據(jù)執(zhí)行字符識別處理并且識別候選字符串,該候選字符串表示對文本的各個結(jié)構(gòu)單位進行字符識別處理的結(jié)果;使用戶指定第二語言;確定第二語言是否與第一語言不同;并且在確定第一語言和第二語言是不同時,提示識別出了多個候選字符串的各個結(jié)構(gòu)單位的候選字符串的第二語言的譯文,并且使用戶從多個譯文中選擇一個譯文。
12.根據(jù)權(quán)利要求11所述的方法,還包括生成表示文本的圖像數(shù)據(jù)或代碼數(shù)據(jù),該文本使用為由圖像數(shù)據(jù)表示的文本的結(jié)構(gòu)單位唯一地識別的各候選字符串和為由圖像數(shù)據(jù)表示的文本的、被識別出了多個候選字符串的結(jié)構(gòu)單位選出的各候選文本字符串組合而成。
13.根據(jù)權(quán)利要求11所述的方法,其中所述結(jié)構(gòu)單位是字詞、字詞塊或句子的至少其中之一。
14.根據(jù)權(quán)利要求11所述的方法,其中所述提示譯文的步驟包括與多個候選字符串的每一個候選字符串的第二語言的譯文一起提示表示識別的確定度的數(shù)據(jù)。
15.根據(jù)權(quán)利要求12所述的方法,還包括將由圖像數(shù)據(jù)或代碼數(shù)據(jù)表示的文本翻譯成第三語言,該第三語言與第一語言不同并且與第二語言不同。
全文摘要
電子設(shè)備和記錄介質(zhì)。本發(fā)明提供了一種電子設(shè)備,其具有識別單元,其對表示以第一語言寫成的文本的圖像數(shù)據(jù)執(zhí)行字符識別處理并且識別候選字符串,該候選字符串表示對文本的各個結(jié)構(gòu)單位進行字符識別處理的結(jié)果;確定單元,其確定由用戶指定第二語言是否與第一語言不同;提示單元,其在第一語言與第二語言不同時,提示識別出了多個候選字符串的各個結(jié)構(gòu)單位的第二語言的候選字符串的譯文;和選擇單元,其使用戶從提示單元所提示的多個譯文中選擇一個譯文。
文檔編號G06K9/00GK1838148SQ20051010273
公開日2006年9月27日 申請日期2005年9月9日 優(yōu)先權(quán)日2005年3月25日
發(fā)明者田川昌俊, 田代潔, 田宗道弘, 增市博, 石川恭輔, 伊藤篤, 佐藤直子 申請人:富士施樂株式會社
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
八宿县| 曲阜市| 广宁县| 弋阳县| 都兰县| 龙游县| 高密市| 松桃| 潜山县| 财经| 陈巴尔虎旗| 武汉市| 广河县| 新巴尔虎左旗| 建平县| 永康市| 商河县| 福泉市| 商南县| 吉隆县| 贵溪市| 孟村| 博野县| 抚顺市| 台北县| 米林县| 化州市| 巴里| 北川| 延庆县| 昭觉县| 克东县| 稷山县| 青岛市| 万荣县| 方城县| 定襄县| 麻城市| 崇州市| 寻甸| 顺平县|