專利名稱:圖像處理裝置及圖像處理方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種生成用于搜索文檔中的對象的電子文檔數(shù)據(jù)的圖像處理裝置及圖像處理方法。
背景技術(shù):
傳統(tǒng)地,考慮了提供一種搜索包含在文檔中的諸如照片、圖(線圖)或者表等的對象的方法。(這里所使用的術(shù)語“對象”是指包括字符以外的諸如照片、圖(線圖)或者表等的對象。)例如,存在如下一種方法在從文檔中提取的對象的附近,添加描述對象的字符串 (注釋(caption))并將其作為元數(shù)據(jù)關(guān)聯(lián)以使得能夠搜索對象。當(dāng)一般文檔中的注釋包含諸如圖編號(例如“照片1”、“第一圖”或“表1”)等用于識別對象的表述(以下稱為“錨表述(anchor expression)")時,在正文中也使用錨表述來說明對象的更為詳細(xì)的描述。如上所述的錨表述也被用作用于識別文檔中的對象的手段。根據(jù)日本特開平11-025113(1999)號公報中公開的發(fā)明,提取包含錨表述的正文中的說明部分(以下稱為“正文中的說明文本(explanatory text)”)并將其作為對象的元數(shù)據(jù)關(guān)聯(lián)。當(dāng)與圖的對象鄰近的注釋包含錨表述“圖1”并且正文包含例如“圖1是AAA”的說明時,將錨表述“圖1”作為圖的對象的標(biāo)識信息進(jìn)行關(guān)聯(lián)。同時,還將正文中的說明文本 “圖1是AAA”作為元數(shù)據(jù)進(jìn)行關(guān)聯(lián),由此提供利用元數(shù)據(jù)對圖的對象的搜索。近年來,例如一些字處理器具有編輯功能(例如自動生成錨表述的功能以及將文檔中存在的對象與正文中的說明文本關(guān)聯(lián)的功能)??梢詫⑼ㄟ^這些功能給出的信息(元數(shù)據(jù))存儲在電子文檔中,由此實現(xiàn)對文檔的有效編輯。近年來的掃描器具有諸如自動文檔給送器的功能,因此能夠容易地讀取多頁紙。 因此,這種掃描器還能夠同時讀取多種文檔。另一方面,當(dāng)這種掃描器必須讀取混合的不同文檔時,存在如下可能性,即可能產(chǎn)生具有包含相同錨表述的注釋的多個對象。例如,可能存在如下情況同時讀取的多個文檔中的一個文檔具有注釋為“表1是YYY”的表對象,而其中的另一個文檔具有注釋為“表1示出ZZZ”的表對象。如果在這種情況下簡單地進(jìn)行上述關(guān)聯(lián)處理,則相同的錨表述“表1”與兩個表對象關(guān)聯(lián),從而無法提供與錨表述“表1”適當(dāng)?shù)貙?yīng)的正文中的說明文本。由于上述情形,期望這樣一種方法即使當(dāng)必須讀取多種文檔并且多個注釋使用同一錨表述時,也能夠?qū)⒆⑨尰蛘闹械恼f明文本作為元數(shù)據(jù)與對象適當(dāng)?shù)仃P(guān)聯(lián)。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的圖像處理裝置包括區(qū)域劃分單元,其被配置為將多頁的圖像分別劃分為多個區(qū)域;屬性信息添加單元,其被配置為向劃分的所述多個區(qū)域中的各個添加與區(qū)域?qū)?yīng)的屬性;字符識別單元,其被配置為對由所述屬性信息添加單元分別添加了注釋屬性和正文屬性的注釋區(qū)域和正文區(qū)域進(jìn)行字符識別處理;以及元數(shù)據(jù)處理單元,其被配置為將元數(shù)據(jù)與附有所述注釋區(qū)域的對象區(qū)域進(jìn)行關(guān)聯(lián);其中,所述元數(shù)據(jù)處理單元包括 第一提取單元,其被配置為從對所述注釋區(qū)域的所述字符識別處理的結(jié)果中,提取由預(yù)定字符串構(gòu)成的錨表述以及由所述錨表述以外的字符串構(gòu)成的注釋表述;確定單元,其被配置為確定是否存在附有包含相同錨表述的注釋區(qū)域的多個對象區(qū)域;第二提取單元,其被配置為從對所述正文區(qū)域的所述字符識別處理的結(jié)果中,提取包含所述錨表述的說明文本;第一關(guān)聯(lián)單元,其被配置為在所述確定單元確定存在附有包含所述相同錨表述的注釋區(qū)域的一個對象區(qū)域的情況下,將所述對象區(qū)域與由所述第二提取單元提取的所述說明文本獲得的元數(shù)據(jù)進(jìn)行關(guān)聯(lián);類似度計算單元,其被配置為在所述確定單元確定存在附有包含所述相同錨表述的注釋區(qū)域的多個對象區(qū)域的情況下,分別計算包含所述相同錨表述的各個注釋區(qū)域的注釋表述、與由所述第二提取單元提取的包含所述相同錨表述的所述說明文本之間的類似度;以及第二關(guān)聯(lián)單元,其被配置為基于由所述類似度計算單元計算出的所述類似度,來確定針對所述多個對象區(qū)域中的各個對象區(qū)域的最佳說明文本,并將由所確定的最佳說明文本獲得的元數(shù)據(jù)與所述各個對象區(qū)域進(jìn)行關(guān)聯(lián)。根據(jù)本發(fā)明,即使存在包含相同錨表述的多個對象,也能夠?qū)ο笈c適當(dāng)?shù)脑獢?shù)據(jù)關(guān)聯(lián)。因此,甚至在包含多個文檔的混合的圖像數(shù)據(jù)中,也能夠準(zhǔn)備向各個對象添加了適當(dāng)?shù)脑獢?shù)據(jù)的電子文檔。從以下參照附圖對示例性實施例的描述中,本發(fā)明的其它特征將變得清楚。
圖1是示出根據(jù)本發(fā)明的圖像處理系統(tǒng)的配置的框圖;圖2示出MFP 100的配置;圖3是示出數(shù)據(jù)處理單元218的內(nèi)部配置的框圖;圖4是示出元數(shù)據(jù)處理單元304的內(nèi)部配置的框圖;圖5A至圖5C示出數(shù)據(jù)處理單元218的處理詳情,其中圖5A示出如何將圖像數(shù)據(jù)劃分為區(qū)域,圖5B是示出區(qū)域劃分單元301、屬性信息添加單元302以及字符識別單元303 的處理結(jié)果的示例的表,圖5C示出格式轉(zhuǎn)換單元305使用的對應(yīng)表的示例;圖6A和圖6B示出在本發(fā)明中生成的電子文檔,其中圖6A示出利用SVG格式描述的電子文檔的示例,圖6B以表的形式示出電子文檔中的元數(shù)據(jù);圖7是示出根據(jù)本發(fā)明的圖像處理裝置的處理的概要的流程圖;圖8A和圖8B是示出元數(shù)據(jù)提取和添加處理的流程的流程圖;圖9A和圖9B示出根據(jù)本發(fā)明的圖像處理裝置的處理,其中圖9A示出輸入到數(shù)據(jù)處理單元218的圖像數(shù)據(jù)以及對其的區(qū)域劃分的示例,圖9B是示出在圖像數(shù)據(jù)的情況下區(qū)域劃分單元301、屬性信息添加單元302以及字符識別單元303的處理結(jié)果的示例的表;圖10是示出根據(jù)實施例1的、用于將正文中的說明文本與對象區(qū)域關(guān)聯(lián)的處理的流程的流程圖;圖11是示出根據(jù)實施例1的類似度計算處理的流程的流程圖;圖12A和圖12B示出通過類似度計算處理獲得的中間結(jié)果,其中圖12A示出通過到步驟1103的處理獲得的結(jié)果的示例,圖12B示出在步驟1105和步驟1106中的處理的示例;
圖13以表的形式示出通過對圖9A的圖像數(shù)據(jù)901至907進(jìn)行根據(jù)實施1的處理獲得的元數(shù)據(jù)信息;圖14是示出圖14A和圖14B之間的關(guān)系的圖;圖14A和圖14B是示出根據(jù)實施例2的、用于將正文中的說明文本與對象區(qū)域進(jìn)行關(guān)聯(lián)的處理的流程的流程圖;圖15是示出根據(jù)實施例2的類似度計算處理的流程的流程圖;圖16是示出根據(jù)實施例3的、用于將正文中的說明文本與對象區(qū)域進(jìn)行關(guān)聯(lián)的處理的流程的流程圖;圖17示出在操作單元203上顯示的用戶界面(UI)畫面的示例;圖18示出在操作單元203上顯示的警告畫面的示例;以及圖19是示出根據(jù)實施例4的、用于將正文中的說明文本與對象關(guān)聯(lián)的處理的流程的流程圖。
具體實施例方式[實施例1]下文將參照附圖描述用于實現(xiàn)本發(fā)明的實施例。圖1是示出根據(jù)本實施例的圖像處理系統(tǒng)的配置的框圖。在圖1中,在辦公室A中構(gòu)建的LAN 102連接到作為用于實現(xiàn)多種功能(例如復(fù)印功能、打印功能、發(fā)送功能)的圖像處理裝置的多功能外圍設(shè)備(MFP) 100。LAN 102還經(jīng)由代理服務(wù)器103連接到外部網(wǎng)絡(luò)104??蛻舳薖C 101經(jīng)由LAN 102接收從MFP 100發(fā)送的數(shù)據(jù)并使用MFP 100擁有的功能。例如,客戶端PC 101還可以向MFP 100發(fā)送打印數(shù)據(jù), 由此使得通過MFP 100來打印基于打印數(shù)據(jù)的打印物。圖1的配置是示例。因此,也可以使用其它配置,其中具有與辦公室A相同的構(gòu)成部件的多個辦公室經(jīng)由網(wǎng)絡(luò)104連接。網(wǎng)絡(luò)104典型地是由例如互聯(lián)網(wǎng)、LAN、WAN、電話線路、專用數(shù)字線路、ATM、幀中繼線路、通信衛(wèi)星線路、有線電視線路或者數(shù)據(jù)廣播無線線路實現(xiàn)的通信網(wǎng)絡(luò)。網(wǎng)絡(luò)104可以是任意網(wǎng)絡(luò),只要能夠通過其發(fā)送和接收數(shù)據(jù)即可??蛻舳薖ClOl和代理服務(wù)器103的各個終端具有在通用計算機中設(shè)置的標(biāo)準(zhǔn)構(gòu)成部件(包括例如CPU、RAM、ROM、硬盤、外部存儲裝置、網(wǎng)絡(luò)接口、顯示器、鍵盤及鼠標(biāo))。圖2示出MFP 100的配置。首先,MFP 100的配置主要被分為作為圖像輸入設(shè)備的掃描器單元201、作為圖像輸出設(shè)備的打印機單元202、由CPU 205構(gòu)成的控制單元204以及作為用戶接口的操作單元 203。控制單元204連接到掃描器單元201、打印機單元202和操作單元203。控制單元 204還是連接到LAN 219或者作為一般電話線網(wǎng)絡(luò)的公共線路(WAN) 220、由此提供圖像信息及設(shè)備信息的輸入和輸出的控制器。CPU 205控制包括在控制單元204中的各個單元。RAM 206是用于CPU 205的操作的系統(tǒng)工作存儲器并且還是用于臨時存儲圖像數(shù)據(jù)的圖像存儲器。ROM 210是存儲諸如系統(tǒng)引導(dǎo)程序等的程序的引導(dǎo)ROM。
存儲單元211是存儲系統(tǒng)控制軟件及圖像數(shù)據(jù)的硬盤驅(qū)動器。操作單元I/F 207是與操作單元(UI) 203的接口單元,其向操作單元203輸出要在操作單元203上顯示的圖像數(shù)據(jù)。操作單元I/F 207還具有向CPU 205發(fā)送由該圖像處理裝置的用戶通過操作單元203輸入的信息的功能。網(wǎng)絡(luò)I/F 208將該圖像處理裝置連接到LAN 219以提供包(packet)類型信息的輸入和輸出。調(diào)制解調(diào)器209將該圖像處理裝置連接到WAN 220來提供數(shù)據(jù)解調(diào)和調(diào)制,由此提供信息的輸入和輸出。如上所述的設(shè)備被布置在系統(tǒng)總線221上。圖像總線I/F 212是將系統(tǒng)總線221連接到用于以高速傳送圖像數(shù)據(jù)的圖像總線 222以轉(zhuǎn)換數(shù)據(jù)結(jié)構(gòu)的總線橋。圖像總線222由例如PCI總線以及IEEE 1394構(gòu)成。圖像總線222上具有如下設(shè)備。光柵圖像處理器(RIP) 213實現(xiàn)分析頁面描述語言(PDL)代碼以將代碼展開為具有指定分辨率的位像的所謂繪制處理。該展開以像素為單位或者以區(qū)域為單位來添加屬性信息。這被稱為圖像區(qū)域確定處理。通過圖像區(qū)域確定處理,針對各個像素或者各個區(qū)域添加示出對象類型(例如字符(文本)、線、圖形或者圖像)的屬性信息。例如,依據(jù) PDL代碼中的PDL描述的對象的類型,RIP 213輸出圖像區(qū)域信號。然后,將與信號值所示的屬性對應(yīng)的屬性信息和對應(yīng)于對象的像素或區(qū)域關(guān)聯(lián)地存儲。因此,圖像數(shù)據(jù)附有與其關(guān)聯(lián)的屬性信息。設(shè)備I/F 214經(jīng)由信號線223將作為圖像輸入設(shè)備的掃描器單元201連接到控制單元204。設(shè)備I/F 214還經(jīng)由信號線224將作為圖像輸出設(shè)備的打印機單元202連接到控制單元204。設(shè)備I/F 214提供圖像數(shù)據(jù)的同步/異步轉(zhuǎn)換。掃描器圖像處理單元215對輸入的圖像數(shù)據(jù)進(jìn)行校正、處理和編輯。打印機圖像處理單元216對要輸出到打印機單元202的打印輸出圖像數(shù)據(jù)進(jìn)行例如依據(jù)打印機單元202的校正及分辨率轉(zhuǎn)換。圖像旋轉(zhuǎn)單元217對輸入的圖像數(shù)據(jù)進(jìn)行旋轉(zhuǎn)以使數(shù)據(jù)直立并輸出該數(shù)據(jù)。參照圖3詳細(xì)描述數(shù)據(jù)處理單元218。<數(shù)據(jù)處理單元>如圖3所示,數(shù)據(jù)處理單元218由區(qū)域劃分單元(區(qū)域提取單元)301、屬性信息添加單元302、字符識別單元303、元數(shù)據(jù)處理單元304以及格式轉(zhuǎn)換單元305構(gòu)成。數(shù)據(jù)處理單元218利用各個處理單元301至305對輸入的圖像數(shù)據(jù)300進(jìn)行預(yù)定的處理。最后, 生成并輸出電子文檔310。區(qū)域劃分單元301接收由掃描器單元201讀取的圖像數(shù)據(jù)或者接收從諸如客戶端PC的外部裝置接收并存儲在存儲單元中的圖像數(shù)據(jù)。為了以頁為單位從輸入的圖像數(shù)據(jù)中提取基于諸如字符、照片、圖或者表的各個屬性劃分的區(qū)域,使圖像數(shù)據(jù)中的像素經(jīng)歷諸如提取或者分組的處理??梢酝ㄟ^已知的區(qū)域劃分方法(區(qū)域提取方法)進(jìn)行該處理。 以下描述這種方法的示例。首先,將輸入圖像進(jìn)行二值化以生成二值圖像。然后,使二值圖像具有較低分辨率,由此準(zhǔn)備篩選圖像(縮小圖像)。例如,為了準(zhǔn)備1/(MXN)稀疏圖像 (thinning image),將二值圖像劃分為分別對應(yīng)MXN個像素。如果MXN個像素包含黑色像素,則將縮小圖像中的相應(yīng)像素設(shè)置為黑色像素。如果MXN個像素不包含黑色像素,則將縮小圖像中的相應(yīng)像素設(shè)置為白色像素。以這種方式,準(zhǔn)備稀疏圖像。接下來,提取稀疏圖像中黑色像素連接的部分(連接黑色像素),由此準(zhǔn)備由連接黑色像素外接的矩形。當(dāng)布置大小與字符圖像的大小類似的矩形(一個字符的矩形)時或者當(dāng)在短邊的附近布置高度或者寬度與字符圖像大小類似的相似矩形(連接了多個字符的連接黑色像素的矩形)時, 這些矩形可以組成構(gòu)成字符行的字符圖像的可能性高。在這種情況下,將這些矩形相互連接,由此獲得表示一個字符行的矩形。在表示一個字符行的、短邊長度大體相同并且在列方向上以大體相等的間距布置的矩形的集合的情況下,該集合可以表示可能為正文。因此,將這些矩形連接,并提取得到的部分作為正文區(qū)域。通過大小大于字符圖像的連接黑色像素來提取照片區(qū)域、圖區(qū)域以及表區(qū)域。結(jié)果,例如提取了由圖5A的標(biāo)號501至506所示的各個區(qū)域。如稍后所述,基于例如大小、長寬比或者黑色像素密度或者連接黑色像素中包括的白色像素的輪廓跟蹤結(jié)果來確定各個區(qū)域的屬性。屬性信息添加單元302向區(qū)域劃分單元301劃分的各個區(qū)域添加屬性信息。如圖 5A所示,基于假定區(qū)域劃分單元301劃分了圖像數(shù)據(jù)500來進(jìn)行以下描述。在頁中的區(qū)域506中包括大于或者等于預(yù)定數(shù)量的字符和行并且具有例如段落的形式。因此,區(qū)域506被添加“正文”屬性。為了簡單地示出圖,包含在圖5A的區(qū)域506 中的字符用黑色點表示。然而,區(qū)域506實際包含多個字符圖像。對于其余區(qū)域501至505,確定區(qū)域501至505是否是包含字符的區(qū)域。具體地說,在包含字符的區(qū)域的情況下,字符圖像的矩形周期性地出現(xiàn)在區(qū)域中。因此,確定區(qū)域是否是包含大小與字符圖像大小類似的矩形的區(qū)域。結(jié)果,區(qū)域501、區(qū)域504和區(qū)域505 被確定為包含字符的區(qū)域并被添加有“字符包含區(qū)域”屬性。另一方面,對于上述區(qū)域以外的區(qū)域,首先確定區(qū)域的大小。當(dāng)區(qū)域大小非常小時,其屬性被確定為“噪聲”。當(dāng)區(qū)域大小不是很小而是等于或者大于固定大小時,該區(qū)域是某個對象的區(qū)域。因此,進(jìn)一步對該區(qū)域進(jìn)行以下確定以確定要向該區(qū)域添加的屬性(即該區(qū)域?qū)?yīng)于哪一個對象)。首先,對具有低像素密度的連接黑色像素中的白色像素進(jìn)行輪廓跟蹤。然后,確定白色像素輪廓的外接矩形是否按順序布置。當(dāng)白色像素輪廓的外接矩形按順序布置時,則該區(qū)域被確定為具有“表”屬性。當(dāng)白色像素輪廓的外接矩形未按順序布置時,該區(qū)域被確定為具有“圖(線圖)”屬性。該區(qū)域以外的具有高像素密度的區(qū)域被確定為與圖片或者照片相對應(yīng)并被確定為具有“照片”屬性。在上述部分中,基于“照片”、 “圖(線圖)”、以及“表”三種對象屬性來對區(qū)域進(jìn)行分類。然而,本發(fā)明不限于此。還可以使用其它確定標(biāo)準(zhǔn)以使得能夠基于任意類型的對象屬性來對區(qū)域進(jìn)行分類。如果在添加有諸如“照片”、“圖”或者“表”的屬性的對象區(qū)域的附近(或正上方或正下方)存在字符包含區(qū)域,則確定該區(qū)域是用于描述對象區(qū)域的字符的區(qū)域并由此添加“注釋”屬性。將添加有“注釋”屬性的區(qū)域與附有該注釋的諸如“照片”、“圖”或者“表” 的區(qū)域關(guān)聯(lián)地存儲以使得可以識別后者區(qū)域。當(dāng)區(qū)域大于正文部分的字符圖像并且位于與正文部分的列設(shè)置的位置不同的位置時,該區(qū)域被添加“標(biāo)題”屬性。當(dāng)區(qū)域大于正文部分的字符圖像并且存在于正文部分的列設(shè)置的上部時,該區(qū)域被添加“副標(biāo)題”屬性。當(dāng)區(qū)域是用于大小比正文部分的字符圖像的大小小的字符圖像并且存在于原稿的下端或上端時,該區(qū)域被添加“頁”(或者“頁眉”或者“頁腳”)。在區(qū)域被確定為字符包含區(qū)域而不被確定為“正文”、“標(biāo)題”、“副標(biāo)題”、“注釋”或者“頁”的情況下,該區(qū)域被添加“字符”屬性。通過如上所述的添加屬性信息的處理,對圖像數(shù)據(jù)500進(jìn)行設(shè)置以使得分別對區(qū)域501添加標(biāo)題屬性,對區(qū)域502添加表屬性,對區(qū)域503添加照片屬性,對區(qū)域504添加字符屬性,對區(qū)域505添加注釋屬性(其附加區(qū)域503)以及對區(qū)域506添加正文屬性。對區(qū)域501、504以及505的各個屬性給出的下劃線表示對其添加了 “字符包含區(qū)域”。字符識別單元303對包含字符圖像的區(qū)域(添加有“字符”屬性、“正文”屬性、“標(biāo)題”屬性、“副標(biāo)題”屬性以及“注釋”屬性的區(qū)域)進(jìn)行已知的字符識別處理(OCR處理)。 還可以對“表”中的字符圖像的區(qū)域添加“表內(nèi)字符”屬性并且隨后可以對其進(jìn)行字符識別處理。然后,將通過字符識別處理獲得的字符代碼列存儲為字符識別信息并將其與目標(biāo)區(qū)域關(guān)聯(lián)。如上所述,存儲單元211在其中存儲由區(qū)域劃分單元301、屬性信息添加單元302 以及字符識別單元303中的各個單元提取的例如區(qū)域的位置及大小、區(qū)域?qū)傩孕畔ⅰ㈨撔畔?、字符識別處理的結(jié)果的信息(字符代碼列)。圖5B以表的形式示出圖像數(shù)據(jù)500的上述處理的結(jié)果。因此,該結(jié)果以表形式存儲在存儲單元211中。區(qū)域504是存在于照片503 中的字符圖像的區(qū)域。因此,區(qū)域504被添加“在照片503中”屬性。盡管表中關(guān)于區(qū)域的位置和大小的格(例如坐標(biāo)X/Y、寬度W、高度H)包括諸如Xl的標(biāo)記,但是在實際情況下在這些格中包括數(shù)值。元數(shù)據(jù)處理單元304將由屬性信息添加單元302確定為附有注釋的區(qū)域的對象區(qū)域(例如“照片”、“圖”或者“表”)與用作用于搜索對象的信息的元數(shù)據(jù)進(jìn)行關(guān)聯(lián)。然后, 屬性信息添加單元302將得到的數(shù)據(jù)存儲在存儲單元211中。具體地說,屬性信息添加單元302將作為特定對象區(qū)域的注釋來描述的字符串、與使用跟該字符串中包括的諸如圖號 (錨描述)的詞相同的詞的正文中的說明部分(正文中的說明文本)關(guān)聯(lián),作為用于搜索對象的元數(shù)據(jù)。通過對各個對象給出的標(biāo)識符(以下稱為“注釋標(biāo)識符”)進(jìn)行元數(shù)據(jù)的關(guān)聯(lián)。該注釋標(biāo)識符可以用于將注釋或者正文中的說明文本分別與附有注釋的對象區(qū)域適當(dāng)?shù)仃P(guān)聯(lián)。通過向各個對象添加不同的注釋標(biāo)識符,即使當(dāng)存在具有包含相同錨表述的注釋的多個對象時,也能夠?qū)⒃獢?shù)據(jù)與對象適當(dāng)?shù)仃P(guān)聯(lián)。在本實施例中,注釋標(biāo)識符是用于唯一識別附有注釋的對象區(qū)域的ID(即從值“1”開始的序列號(正整數(shù)))。注釋標(biāo)識符還可以是諸如表示注釋或者正文的字符識別信息的存儲位置的地址或者指針的位置信息或者諸如 XMLPath或者URL的參照信息。格式轉(zhuǎn)換單元305使用由上述各個處理單元獲得的各種信息(例如頁信息、區(qū)域的位置或者大小、屬性、字符識別信息、元數(shù)據(jù)),將圖像數(shù)據(jù)轉(zhuǎn)換為具有預(yù)定格式的電子文檔。預(yù)定格式可以是例如通過格式轉(zhuǎn)換生成的電子文檔包括使用例如圖形的頁顯示信息(例如待顯示圖像)以及使用諸如字符的語義描述的內(nèi)容信息(例如元數(shù)據(jù))。格式轉(zhuǎn)換單元305主要進(jìn)行以下兩種處理。一種處理是對圖像區(qū)域進(jìn)行濾波器處理(例如直方圖均衡化、平滑、邊緣增強、色量化、二值化),以使得圖像數(shù)據(jù)(例如與添加有 “圖(線圖)”屬性的區(qū)域相對應(yīng)的部分的圖像)能夠以具有預(yù)定格式的電子文檔的形式進(jìn)行存儲。通過將圖像數(shù)據(jù)轉(zhuǎn)換為矢量路徑描述圖形數(shù)據(jù)(矢量數(shù)據(jù))或位圖描述圖形數(shù)據(jù) (例如JPEG數(shù)據(jù)),能夠?qū)D像數(shù)據(jù)以具有預(yù)定格式的電子文檔的形式進(jìn)行存儲??梢酝ㄟ^已知的矢量化技術(shù)來進(jìn)行到矢量數(shù)據(jù)的轉(zhuǎn)換。該轉(zhuǎn)換還生成當(dāng)針對對象搜索將搜索結(jié)果進(jìn)行識別或強調(diào)時顯示的諸如框的圖形描述(矢量路徑描述)。另一種處理是向生成的矢量數(shù)據(jù)或位圖數(shù)據(jù)中添加存儲在存儲單元211中的區(qū)域信息(位置、大小、屬性)、用于區(qū)域中的字符識別的信息以及元數(shù)據(jù),由此準(zhǔn)備具有預(yù)定格式的電子文檔。由格式轉(zhuǎn)換單元305應(yīng)當(dāng)對各個區(qū)域進(jìn)行的轉(zhuǎn)換處理方法常常依據(jù)區(qū)域的屬性。 例如,矢量轉(zhuǎn)換處理適于諸如字符或者線圖等由白黑顏色或者少數(shù)顏色構(gòu)成的圖形,但不適于諸如照片等具有灰階的圖像區(qū)域。為了提供與各個區(qū)域的屬性對應(yīng)的適當(dāng)轉(zhuǎn)換,還可以預(yù)先提供如圖5C所示的對應(yīng)表。例如,設(shè)置圖5C所示的對應(yīng)表,以使得對具有“字符”、“圖(線圖)”以及“表”屬性的區(qū)域進(jìn)行矢量轉(zhuǎn)換處理并對具有“照片”屬性的區(qū)域進(jìn)行圖像剪切處理,作為各自的轉(zhuǎn)換處理。另外,設(shè)置如圖5C所示的對應(yīng)表,以使得針對各個屬性設(shè)置是否從圖像數(shù)據(jù)中刪除區(qū)域的像素信息。例如,當(dāng)將具有“字符”屬性的區(qū)域的數(shù)據(jù)轉(zhuǎn)換為矢量路徑描述數(shù)據(jù)時, 設(shè)置區(qū)域以進(jìn)行刪除處理。在這種情況下,進(jìn)行用周圍顏色填充與由轉(zhuǎn)換的矢量路徑覆蓋的部分相對應(yīng)的像素的這種處理。類似地,當(dāng)將具有“照片”屬性的區(qū)域剪切作為矩形圖像部分時,用例如周圍顏色填充與剪切區(qū)域相對應(yīng)的區(qū)域。如上所述的刪除處理的目的是使用各個區(qū)域已經(jīng)進(jìn)行了填充處理的圖像數(shù)據(jù)作為構(gòu)成“背景”圖像數(shù)據(jù)的部分。在背景圖像數(shù)據(jù)(背景圖像)中包含由區(qū)域劃分處理提取的區(qū)域以外的其余部分(例如與圖像數(shù)據(jù)中的基色(foundation)相對應(yīng)的像素)。通過將由未示出的矢量轉(zhuǎn)換處理單元或者圖像剪切處理單元獲得的圖形數(shù)據(jù)(前景圖像)疊加在背景圖像上,由此顯示結(jié)果圖像來獲得電子文檔的數(shù)據(jù)描述。這因此能夠防止背景像素(背景顏色)的信息的缺失并能夠構(gòu)建非冗余的圖形數(shù)據(jù)。作為另選方案,還可以預(yù)先準(zhǔn)備多個對應(yīng)表,以使得能夠依據(jù)電子文檔的應(yīng)用來選擇適當(dāng)?shù)膶?yīng)表。例如,當(dāng)使用圖5C的對應(yīng)表時,主要將對象轉(zhuǎn)換為具有矢量路徑描述, 因此提供用于放大或者縮小顯示的高圖像質(zhì)量。因此,提供其它對應(yīng)表,例如根據(jù)該對應(yīng)表針對字符圖像的各個字符顏色生成不同的二值圖像并對所述二值圖像進(jìn)行無損壓縮以及將上述圖像以外的圖像作為背景圖像進(jìn)行例如JPEG壓縮。前者適于再利用例如圖形編輯器的應(yīng)用。后者適于期望準(zhǔn)備在實現(xiàn)高壓縮比率的同時能夠容易地讀取字符圖像的這樣一種電子文檔的情況。通過依據(jù)應(yīng)用使用不同的對應(yīng)表,能夠準(zhǔn)備適于用戶應(yīng)用的適當(dāng)?shù)碾娮游臋n。圖6A示出由數(shù)據(jù)處理單元218生成的電子文檔的示例。圖6A示出基于圖5A的圖像數(shù)據(jù)500生成的、基于可縮放矢量圖形(SVG)格式描述的電子文檔600。為了簡便起見,圖6B以表的形式示出添加到電子文檔600的元數(shù)據(jù)的信息。在這種情況下,圖6A的標(biāo)號601至606分別表示與圖像數(shù)據(jù)500中的區(qū)域501至 506相對應(yīng)的圖形描述。標(biāo)號601以及604至606表示使用字符代碼的字符圖描述。標(biāo)號 602表示用于進(jìn)行了矢量轉(zhuǎn)換的表的框的矢量路徑描述。標(biāo)號603表示用于粘附照片圖像的描述。描述603包括注釋標(biāo)識符(caption_id) 608 ( “ 1”)。標(biāo)號607表示用于元數(shù)據(jù)的描述。描述607描述了照片對象中的字符“新產(chǎn)品”、注釋“圖1AAA”、注釋中的錨表述“圖1”以及基于所述錨表述和正文的字符串提取的正文中的說明文本“圖1是關(guān)于AAA的XX”。此外,還描述了與注釋標(biāo)識符608相同的標(biāo)識符609。 代替包含錨表述“圖1”的正文中的說明文本(句子)“圖1是關(guān)于AAA的XX”,還可以提取詞“AAA”并可以將其作為元數(shù)據(jù)添加。作為另選方案,還可以使用正文中的說明文本以及詞二者作為元數(shù)據(jù)。其同樣適用于注釋的字符串。因此,還可以將從注釋中提取的詞作為元數(shù)據(jù)添加。<元數(shù)據(jù)處理單元>圖4是示出元數(shù)據(jù)處理單元304的內(nèi)部配置的框圖。標(biāo)號401表示元數(shù)據(jù)添加目標(biāo)選擇單元,其進(jìn)行從輸入的圖像數(shù)據(jù)中選擇要進(jìn)行元數(shù)據(jù)的提取/添加的區(qū)域的處理。在本實施例中,選擇具有注釋區(qū)域的圖像數(shù)據(jù)作為要進(jìn)行元數(shù)據(jù)(例如注釋、錨表述或者正文中的說明文本)的提取/添加的目標(biāo)。標(biāo)號402表示錨表述提取單元,其從由元數(shù)據(jù)添加目標(biāo)選擇單元401選擇的注釋區(qū)域中提取錨表述。具體地說,錨表述提取單元402分析與選擇的注釋區(qū)域關(guān)聯(lián)的字符識別信息,以在字符識別信息中搜索諸如“圖1”的任意錨表述的存在。當(dāng)找到錨表述時,提取相應(yīng)部分作為錨表述并提取上述部分以外的其它部分作為注釋表述。該提取使用例如字符代碼特性或者詞典以排除無用的字符串(例如無意義的符號串)。這因此防止了在字符識別中將出現(xiàn)在文檔的文本部分的邊界處的劃分線或圖像錯誤地識別為字符。此外,能夠通過使用諸如圖號的多語言字符串模式或者針對字符串模式的錯誤字符識別模式來提取錨表述,由此實現(xiàn)了錨表述提取的精確性并校正了錨表述的字符。還可以對注釋表述進(jìn)行使用自然語言處理的分析或者錯誤字符識別的校正。因此,還能夠校正并排除具有錨表述的邊界或者出現(xiàn)在開頭或結(jié)尾的符號或字符修飾。標(biāo)號403表示正文內(nèi)搜索單元,其在與正文區(qū)域關(guān)聯(lián)的字符識別信息中搜索包含由錨表述提取單元402獲得的錨表述的正文中表述(句子),以提取其作為正文中的說明文本。為了實現(xiàn)高速搜索,還可以準(zhǔn)備和使用搜索索引。索引的準(zhǔn)備以及使用索引的高速搜索可以通過已知技術(shù)實現(xiàn)并且不是本發(fā)明的要點,因此將不再對其進(jìn)行描述。作為另選方案,可以同時搜索多個錨表述,由此實現(xiàn)高速。還可以將在搜索中找到的正文中的說明文本與使用多語言字符串模式描述的錨表述相組合。標(biāo)號404表示表述類似度計算單元,其基于錨表述將注釋表述與正文中的說明文本進(jìn)行比較以計算它們之間的類似度。具體地說,表述類似度計算單元404使用字符級 (character level)或者自然語言分析來將注釋表述與正文中的說明文本進(jìn)行比較,由此進(jìn)行基于詞或者意義級的比較。然后,在關(guān)注兩個表述中的錨表述的位置的同時計算類似度。類似度是當(dāng)兩個表述具有與錨表述較近的字符或者詞時值增大的標(biāo)準(zhǔn)。稍后將詳細(xì)描述類似度。標(biāo)號405表示元數(shù)據(jù)收集/輸出單元,其收集由上述各個單元提取的元數(shù)據(jù)以將元數(shù)據(jù)與要添加元數(shù)據(jù)的圖像數(shù)據(jù)進(jìn)行關(guān)聯(lián),由此將結(jié)果輸出到格式轉(zhuǎn)換單元305。標(biāo)號406是元數(shù)據(jù)處理控制單元,其基于存儲在存儲單元211中的區(qū)域信息(位置、大小、屬性)411、區(qū)域中的字符識別信息412及元數(shù)據(jù)413,將圖像數(shù)據(jù)300分配給適當(dāng)?shù)奶幚韱卧?01至405。然后,元數(shù)據(jù)處理控制單元406對元數(shù)據(jù)處理單元304的整體進(jìn)行控制,以使得元數(shù)據(jù)收集/輸出單元405能夠?qū)母鱾€處理單元401至404輸出的數(shù)據(jù)進(jìn)行整合。接下來,下文將參照圖7的流程圖來描述由根據(jù)本實施例的圖像處理裝置(MFP 100)進(jìn)行的處理的概要。基于如下情況進(jìn)行以下描述,所述情況為針對圖9A所示的與由兩種不同類型的文檔構(gòu)成的總共7頁相對應(yīng)的圖像數(shù)據(jù)(901至903以及904至907),生成各個對象被添加了適當(dāng)?shù)脑獢?shù)據(jù)的電子文檔。各個步驟中的處理(在此,這些處理被描述為由各個處理單元進(jìn)行的處理)通過使CPU 205讀取存儲在存儲單元211中的計算機程序來實現(xiàn)。然而,本發(fā)明不限于此。例如,各個處理單元還可以全部或部分通過硬件實現(xiàn),以使得構(gòu)成數(shù)據(jù)處理單元218的各個單元中的任意一個可以通過諸如電子電路的硬件來實現(xiàn)。首先,在步驟S701中,CPU 205通過掃描器單元201讀取文檔或者讀取從例如客戶端PC 101發(fā)送并存儲在存儲單元211中的文檔,由此獲取多頁的圖像數(shù)據(jù)。將獲取的圖像數(shù)據(jù)901至907輸入到數(shù)據(jù)處理單元218并將其從元數(shù)據(jù)處理控制單元406發(fā)送到區(qū)域劃分單元301。在步驟S702中,區(qū)域劃分單元301將輸入的圖像數(shù)據(jù)901至907按照其屬性以頁為單位進(jìn)行劃分。圖像數(shù)據(jù)901至907被劃分為各個區(qū)域908、910、911、912、913、915、917、 918,919 以及 920。在步驟S703中,屬性信息添加單元302向在步驟S702中劃分的各個區(qū)域添加屬性信息。例如,在第三頁的圖像數(shù)據(jù)903的情況下,區(qū)域911被添加“照片”屬性,區(qū)域912 被添加“注釋”屬性。注釋912還被添加示出附加區(qū)域(對象)是區(qū)域911的信息。在步驟S704中,字符識別單元303對在步驟S703中添加了與字符相關(guān)的屬性(例如正文、注釋、標(biāo)題、副標(biāo)題)的區(qū)域進(jìn)行字符識別處理,并將結(jié)果作為字符識別信息與區(qū)域關(guān)聯(lián),由此將結(jié)果存儲在存儲單元211中。各個區(qū)域的字符識別處理結(jié)果如在圖9B所示的表中的字符識別信息的格中所描述的那樣。在步驟S705中,數(shù)據(jù)處理單元218確定是否對所有頁進(jìn)行了步驟S702至S704中的各個處理。由于輸入了與7頁相對應(yīng)的圖像數(shù)據(jù)901至907,因此當(dāng)如圖9B中的表所示的所有信息都被存儲在存儲單元211中時,能夠確定對所有頁的處理完成。當(dāng)確定對所有頁的處理完成時,處理進(jìn)入步驟S706。如果發(fā)現(xiàn)任何還未進(jìn)行處理的頁,則處理返回步驟 S702并重復(fù)上述處理。在步驟S706中,元數(shù)據(jù)處理單元304進(jìn)行提取和添加元數(shù)據(jù)的處理。稍后將描述該處理的詳情。 在步驟S707中,格式轉(zhuǎn)換單元305使用圖5C所示的對應(yīng)表,基于存儲在存儲單元 211中的各個信息將圖像數(shù)據(jù)901至907轉(zhuǎn)換為具有預(yù)先指定的預(yù)定格式的電子文檔。(元數(shù)據(jù)的提取和添加)接下來,下文將參照圖8A和圖8B的流程圖來描述在上述步驟S706中的提取和添加元數(shù)據(jù)的處理的詳情。該處理主要由以下兩個處理構(gòu)成。第一處理是用于提取錨表述及注釋表述的第一提取(圖8A)。第二處理是用于提取正文中的說明文本的第二提取(圖 8B)。首先,進(jìn)行用于提取錨表述和注釋表述的處理。然后,進(jìn)行用于提取正文中的說明文本的處理。首先,下文將參照圖8A的流程圖來描述用于提取錨表述及注釋表述的處理。
在步驟S801中,元數(shù)據(jù)添加目標(biāo)選擇單元401參照存儲單元211中的區(qū)域信息, 以從添加有“注釋”屬性的區(qū)域中選擇還未進(jìn)行用于提取錨表述及注釋表述的處理的一個區(qū)域。具體地說,確定是否存在還未處理的注釋區(qū)域。如果存在還未處理的注釋區(qū)域,則選擇該區(qū)域作為處理目標(biāo)。然后,處理進(jìn)入步驟S802。如果不存在具有“注釋”屬性的區(qū)域或者如果已經(jīng)對所有區(qū)域進(jìn)行了處理,則用于提取錨表述及注釋表述的處理完成。在輸入圖像數(shù)據(jù)901至907的情況下,第一例程(routine)選擇注釋區(qū)域912,之后的例程依次選擇注釋區(qū)域918和920。在步驟S802中,元數(shù)據(jù)處理控制單元406向選擇的附有注釋區(qū)域的對象區(qū)域中添加注釋標(biāo)識符,并在存儲單元211中確保用于所添加的注釋標(biāo)識符的元數(shù)據(jù)的存儲區(qū)域。 在選擇了注釋912的情況下,注釋標(biāo)識符“1”被添加到附有注釋912的照片對象911中,并且在存儲單元211中確保用以存儲用于注釋標(biāo)識符“1”的元數(shù)據(jù)的存儲區(qū)域。在步驟S803中,錨表述提取單元402從選擇的注釋區(qū)域的字符識別信息中提取錨表述和注釋表述。附加對象的注釋可以僅包括錨表述、僅包括注釋表述或者包括錨表述和注釋表述兩者。例如,圖的錨表述常常由諸如“圖”、“第幾圖”或者“Fig. ”的特定字符串(錨字符串)和編號或符號的組合來表現(xiàn)。因此,預(yù)先準(zhǔn)備包括登記的錨字符串作為候選的詞典。可以將詞典中的這些候選與字符識別信息進(jìn)行比較,由此識別錨表述(錨字符串+編號/符號)。然后,在注釋區(qū)域的字符識別信息中,將不構(gòu)成錨表述的字符串確定作為注釋表述。例如,當(dāng)注釋區(qū)域的字符識別信息是由字符串“圖1AAA”構(gòu)成的區(qū)域912時,“圖1” 部分是錨表述而“AAA”部分是注釋表述。可能存在注釋表述具有非常少的字符數(shù)或者注釋表述不具有有意義的字符串(例如符號串“——”)的情況。在這種情況下,存在如下可能性,也即可能將不是字符的標(biāo)記(例如文檔的邊界)錯誤地識別為字符串。因此,不提取該標(biāo)記作為注釋表述。在步驟S804中,元數(shù)據(jù)處理控制單元406確定在步驟S803中是否從注釋區(qū)域提取到錨表述和/或注釋表述。具體地說,確定是否提取到用作添加有注釋標(biāo)識符的對象的元數(shù)據(jù)的錨表述和注釋表述。當(dāng)提取到這種表述時,處理進(jìn)入步驟S805。當(dāng)未提取到這種表述時,處理返回到步驟S801。在步驟S805中,元數(shù)據(jù)處理控制單元406將從注釋區(qū)域(錨表述或注釋表述或錨表述和注釋表述兩者)中提取到的元數(shù)據(jù),存儲在步驟S802中確保的用于元數(shù)據(jù)的存儲區(qū)域中。通過如上所述的處理,例如提取到的錨表述作為特定對象的元數(shù)據(jù)通過注釋標(biāo)識符被適當(dāng)?shù)仃P(guān)聯(lián)。當(dāng)用于通過錨表述和注釋表述的提取來提取元數(shù)據(jù)的處理完成時,則開始用于提取正文中的說明文本的處理。下文將參照圖8B的流程圖來描述用于提取正文中的說明文本的處理。在步驟S806中,元數(shù)據(jù)處理控制單元406選擇還未進(jìn)行用于提取正文中的說明文本的處理的一個錨表述。具體地說,元數(shù)據(jù)處理控制單元406確定是否存在還未處理的錨表述。如果存在還未處理的錨表述,則選擇該錨表述。然后,處理進(jìn)入步驟S807。如果不存在錨表述,或者如果對所有的錨表述進(jìn)行了處理,則用于提取正文中的說明文本的處理完成。在上述示例中,從注釋區(qū)域912中提取“圖1”作為錨表述。因此,首先選擇該錨表述。然后,處理進(jìn)入步驟S807。在步驟S807中,元數(shù)據(jù)處理控制單元406從存儲在存儲單元211中的正文區(qū)域的字符識別信息中提取包含提取的錨表述的部分(句子),以將提取的正文中的說明文本作為元數(shù)據(jù)與對象關(guān)聯(lián)。在上述示例中,“圖1”被提取作為錨表述。因此,在圖像數(shù)據(jù)901的正文區(qū)域908中包含標(biāo)號916所示的詞“圖1”。由于該詞與錨表述“圖1”相同,因此正文區(qū)域908被提取作為正文中的說明文本并作為照片對象911的元數(shù)據(jù)關(guān)聯(lián)。還可以進(jìn)一步對提取到的作為正文中的說明文本的正文區(qū)域進(jìn)行分析,由此提取元數(shù)據(jù)。例如,可以使用例如自然語言處理的形態(tài)分析來分離詞,或者例如可以確定獲得的詞類(word class)或重要的詞,由此提取正文區(qū)域908中的詞“照相機”作為元數(shù)據(jù)。存在提取到正文中的多個說明文本的可能性。還可能存在從提取到的正文中的說明文本進(jìn)一步獲得元數(shù)據(jù)的可能性。因此,該步驟可以提取多個元數(shù)據(jù)。當(dāng)用于提取正文中的說明文本的處理完成時,則處理進(jìn)入步驟S808。在步驟S808中,元數(shù)據(jù)處理控制單元406確定是否提取到用作添加有注釋標(biāo)識符的對象區(qū)域的元數(shù)據(jù)的正文中的說明文本。如果提取到這種正文中的說明文本,則處理進(jìn)入步驟S809。如果未提取到這種正文中的說明文本,則處理返回到步驟S806,對其它未處理的錨表述重復(fù)處理。在步驟S809中,元數(shù)據(jù)處理控制單元406將提取到的正文中的說明文本存儲(或者添加)在步驟S802中確保的用于元數(shù)據(jù)的存儲區(qū)域中。在存儲之后,處理返回到步驟 S806以繼續(xù)對其它未處理的錨表述的處理。通過上述處理,提取到的正文中的說明文本作為特定對象的元數(shù)據(jù)通過注釋標(biāo)識符被適當(dāng)?shù)仃P(guān)聯(lián)。當(dāng)對所有錨表述的處理完成時,元數(shù)據(jù)收集/輸出單元405收集得到的元數(shù)據(jù)并將元數(shù)據(jù)以格式轉(zhuǎn)換單元305能夠接收的圖像數(shù)據(jù)的形式添加到圖像數(shù)據(jù)中。然后,將添加有元數(shù)據(jù)的圖像數(shù)據(jù)發(fā)送到格式轉(zhuǎn)換單元305。(正文中的說明文本與對象之間的關(guān)聯(lián))接下來,下文將參照圖10的流程圖來描述圖8B的步驟S807中的處理的詳情。在步驟S1001中,元數(shù)據(jù)處理控制單元406獲取具有包含在圖8B的步驟S806中選擇的特定錨表述的注釋的對象的數(shù)量。假定例如針對圖像數(shù)據(jù)901至907選擇了錨表述 “圖2”的情況。在這種情況下,除了照片對象919以外不存在包含“圖2”的對象。因此,獲取“1”作為對象的數(shù)量。另一方面,當(dāng)選擇了錨表述“圖1”時,照片對象911和照片對象 917作為具有包含“圖1”的注釋的對象存在。因此,選擇“2”作為對象的數(shù)量。在步驟S1002中,元數(shù)據(jù)處理控制單元406確定在步驟S1001中獲取的對象的數(shù)量是否是多個。當(dāng)獲取的對象的數(shù)量是“1”時(即當(dāng)不再存在具有包含相同錨表述的注釋的其它對象時),處理進(jìn)入步驟S1003。當(dāng)獲取的對象的數(shù)量是多個時(即當(dāng)多個對象的注釋使用相同的錨表述時),處理進(jìn)入步驟S1005。在步驟S1003中,正文內(nèi)搜索單元403在正文區(qū)域的字符識別信息中搜索特定的錨表述。在上述示例的情況下,包含“圖2”作為錨表述916的正文區(qū)域915被提取作為正文中的說明文本。當(dāng)在正文區(qū)域的字符識別信息中找到包含錨表述的表述時,處理進(jìn)入步驟 S1004。
在步驟S1004中,元數(shù)據(jù)處理控制單元406將正文中包含特定錨表述的表述(正文中的說明文本)與對象關(guān)聯(lián)。在上述示例的情況下,將提取到的作為包含錨表述“圖2” 的正文中的說明文本的正文區(qū)域915與照片對象919關(guān)聯(lián)。在步驟S1005中,正文內(nèi)搜索單元403如步驟S1003中那樣在正文區(qū)域的字符識別信息中搜索特定的錨表述。在上述示例的情況下,找到正文區(qū)域908和913作為包含錨表述“圖1”的正文中的說明文本。當(dāng)如上所述在正文區(qū)域的字符識別信息中找到包含特定的錨表述的正文中的說明文本時,處理進(jìn)入步驟S1006。在步驟S1006中,元數(shù)據(jù)處理控制單元406針對找到的正文中的說明文本(正文區(qū)域)準(zhǔn)備用于找到與可能的對象區(qū)域的注釋之間的最佳對應(yīng)關(guān)系所需的多種組合。然后,對各個組合計算類似度。在上述示例的情況下,例如,在包含相同錨表述“圖1”的注釋 912和918與包含該錨表述的正文區(qū)域908和913之間準(zhǔn)備兩種組合。具體地說,在這種情況下,如果確定了與正文中的一個說明文本相對應(yīng)的注釋,則也確定了其它注釋。因此,準(zhǔn)備兩種組合注釋912和正文區(qū)域908的組合以及注釋918和正文區(qū)域908的組合。作為另選方案,還可以準(zhǔn)備相應(yīng)的其它兩種組合注釋912和正文區(qū)域913的組合以及注釋918 與正文區(qū)域913的組合。如果存在包含相同錨表述的三個注釋(對象)并且找到正文中可以與所述注釋相對應(yīng)的三個說明文本,則至少計算5種組合。稍后將描述類似度的計算的詳情。在類似度的計算完成之后,處理進(jìn)入步驟 S1007。在步驟S1007中,元數(shù)據(jù)處理控制單元406基于步驟S1006中的計算結(jié)果認(rèn)定類似度的值最大的組合是最佳的。然后,元數(shù)據(jù)處理控制單元406將組合中的正文中的說明文本與對象區(qū)域關(guān)聯(lián)。(用于計算類似度的處理)參照圖11的流程圖,針對上述兩種組合(注釋912和正文區(qū)域908的第一組合以及注釋918和正文區(qū)域908的第二組合)的示例來描述圖10的步驟S1006中的類似度的計算。在步驟SllOl中,表述類似度計算單元404從計算目標(biāo)的組合的注釋中獲取注釋表述。當(dāng)?shù)谝唤M合是計算目標(biāo)時,獲取通過從注釋912中移除錨表述“圖1”而獲得的“AAA” 作為注釋表述。在獲取之后,處理進(jìn)入步驟S1102。在步驟Sl 102中,表述類似度計算單元404通過形態(tài)分析對獲取的注釋表述進(jìn)行詞分離,由此獲得關(guān)于各個詞的詞類信息。然后,基于獲得的詞類信息,選擇具有諸如名詞的詞類的詞(以下稱為“注釋詞”)作為比較目標(biāo)。具體地說,從比較目標(biāo)中排除不重要的詞或錨表述,以使得不選擇該詞或錨表述。例如,注釋表述“AAA”提供一個名詞“AAA”。獲得注釋詞“AAA”及詞類信息“名詞”。結(jié)果,選擇了“AAA”作為比較目標(biāo)候選。在該步驟中, 可以選擇多個注釋詞。在步驟S1103中,表述類似度計算單元404將注釋詞的權(quán)重設(shè)置為1。具體地說, 在本實施例中,不基于例如距錨表述的距離或者詞的詞類或詞性來計算權(quán)重值。然而,當(dāng)注釋表述是具有某一長度的句子時或者當(dāng)基于例如唯一的表述提取或者詞典來計算詞的重要性時,也可以使用如上所述通過計算獲得的值作為權(quán)重。圖12A以表的形式示出通過如上所述的處理獲得的第一組合的結(jié)果。在該表中,注釋表述和注釋詞是“AAA”,注釋詞屬性是“名詞”,并選擇了比較目標(biāo)候選。距錨表述的距離信息被設(shè)置為信息“_”,其表示不使用該距離信息。將權(quán)重設(shè)置為“ 1 ”。接下來,在步驟Sl 104中,表述類似度計算單元404在計算目標(biāo)的組合中獲取正文中的說明文本(正文區(qū)域)。在第一組合的情況下,獲取正文區(qū)域908作為包含“圖1”作為錨表述909的正文中的說明文本“照相機AAA(圖1)用于例如風(fēng)景的拍攝”。在步驟S1105中,表述類似度計算單元404通過形態(tài)分析對獲取的正文中的說明文本進(jìn)行詞分離,由此獲得各個詞的詞類信息。然后,基于獲得的詞類信息,選擇具有諸如名詞的詞類的詞(以下稱為“說明文本詞”)作為比較目標(biāo)。另外,進(jìn)行該選擇以使得從比較目標(biāo)中排除不重要的詞或錨表述,并且不選擇不重要的詞或錨表述。在該步驟中,選擇了多個說明文本詞。在步驟S1106中,表述類似度計算單元404將選擇的說明文本詞按照在正文中的說明文本中的位置到錨表述更近的順序(即按照距錨表述的距離(詞距離)更短的順序) 布置。將距錨表述的距離簡單地設(shè)置為從錨表述到說明文本詞的詞數(shù)量。以下,將按照詞距離的順序布置的說明文本詞的列稱為“說明文本詞串”。然后,將包含在該說明文本詞串中的說明文本詞的數(shù)量設(shè)置為變量N的值。圖12B以表的形式示出對獲取的正文中的說明文本“照相機AAA(圖1)用于例如風(fēng)景的拍攝”進(jìn)行步驟S1105和S1106的處理的結(jié)果。三個說明文本詞被選擇作為比較目標(biāo)候選,并分別給予值“3”、“2”、“1”作為在說明文本詞串中的順序,以使得可以按照詞到錨表述“圖1”距離更短的順序(即按照“AAA”、“照相機”、及“風(fēng)景”的順序)提取這些詞。 在這種情況下,包含在說明文本詞串中的說明文本詞的數(shù)量是3。因此,變量N的值被設(shè)置為 “3”。在步驟S1107中,表述類似度計算單元404對示出類似度的變量S的值進(jìn)行初始化。具體地說,表述類似度計算單元404將作為類似度S的預(yù)定值設(shè)置為“0”。在步驟S1108中,表述類似度計算單元404確定變量N的值是否大于“0”。當(dāng)變量 N大于“0”時,其表示存在作為未處理比較目標(biāo)的說明文本詞。因此,處理進(jìn)入步驟S1109。 當(dāng)變量N的值是“0”時,其表示已經(jīng)對作為比較目標(biāo)的所有說明文本詞進(jìn)行了處理。因此, 進(jìn)行由步驟S1108至步驟S1113構(gòu)成的例程并完成處理。在步驟Sl 109中,表述類似度計算單元404從說明文本詞串中提取在說明文本詞串中的順序具有與變量N的值相同的值的說明文本詞。在上述示例的情況下,首先提取了在說明文本詞串中順序為“3”的說明文本詞“AAA”。在步驟SlllO中,表述類似度計算單元404基于示出距錨表述的距離的詞距離來計算說明文本詞的權(quán)重。權(quán)重具有依據(jù)詞距離衰減(attenuate)的值并且具有最大值“1” 和最小值“0”。在本示例中,權(quán)重是詞距離的倒數(shù)。在說明文本詞“AAA”的情況下,其詞距離為“2”。因此,計算出“0.5”作為權(quán)重??梢酝ㄟ^上述方法以外的各種方法(包括例如權(quán)重按線性方式衰減的方法、使用對數(shù)的方法或者使用分布函數(shù)的方法)來獲得權(quán)重。然而, 也可以使用任意方法,只要該方法提供權(quán)重依據(jù)距離衰減即可。在步驟Sllll中,表述類似度計算單元404將選擇的說明文本詞與注釋詞進(jìn)行比較以計算類似度S。具體地說,如下面公式1所示,當(dāng)前詞與后詞具有相同的字符串時,通過將“1”乘以前詞和后詞的權(quán)重來計算類似度S。當(dāng)前詞和后詞具有不同的字符串時,通過將“0”乘以前詞和后詞的權(quán)重來計算類似度S。類似度S = (1或0) X (注釋詞的權(quán)重)X (說明文本詞的權(quán)重)…(公式1)以這種方式,對作為比較目標(biāo)的說明文本詞計算類似度S。當(dāng)存在多個注釋詞時, 將注釋詞與選擇的說明文本詞逐一比較。然后,將計算出的類似度S中具有最大值的類似度S確定為Smax0在本實施例中,通過簡單的計算獲得類似度S。然而,還可以通過考慮例如同義詞、 不一致的表示或者諸如平假名、片假名或漢字的表示的這種比較來獲得類似度S。還可以通過使用同義詞的比較或使用用于基于上下文確定多義性的比較語言的比較來獲得類似度 S。還可以通過考慮例如字符串的包含率或同一字符混入的比率來獲得類似度S。接下來,在步驟S1112中,表述類似度計算單元404將在步驟Sllll中計算出的類似度S (或Smax)的值與先前的類似度S的值相加,由此更新類似度S的值。在例如第一例程的情況下,將初始值設(shè)為“0”。因此,將在步驟Sllll中計算出的類似度S的值直接用作更新的類似度S。在第二及之后的例程的情況下,將通過先前例程獲得的類似度S的值與最近確定的類似度S(或Smax)的值相加。在步驟Sl 113中,表述類似度計算單元404從變量N的值中減去1 ( 一)。然后,處理返回到步驟S1108。在圖12B的示例中,有三個說明文本詞作為比較對象候選。因此,將上述例程重復(fù) 3次。在第一例程中,將變量N的值設(shè)為“3”。因此,在步驟S1108中的確定之后進(jìn)行步驟 S1109.在步驟S1109和SlllO中,如上所述,在“AAA”的提取之后,計算“0.5”作為詞的權(quán)重。然后,在步驟Sllll中,進(jìn)行計算說明文本詞“AAA”與注釋詞“AAA”之間的類似度S的處理。在這種情況下,前詞與后詞具有相同的字符串。因此,計算類似度S為“ 1X1X0.5”。由于僅有一個注釋詞“AAA”,因此在步驟Sl 112中將得到的類似度S = 0. 5加到初始值“0”中。然后,處理進(jìn)入步驟S1113。在步驟S1113中,從變量N的值中減去1( 一)以得到N = “2”。然后,處理返回到步驟S1108。之后,將相同的處理重復(fù)兩次。還計算說明文本詞“照相機”與“風(fēng)景”之間的類似度S,然后不斷更新類似度S。然而,由于說明文本詞 “照相機”和“風(fēng)景”與僅有的注釋詞“AAA”不同,因此對于說明文本詞“照相機”和“風(fēng)景” 兩者來說,在步驟Sllll中計算的類似度S的值均是“0”。因此,最終獲得的類似度S的值是 0. 5+0+0 = 0. 5。如上所述,描述了第一組合的處理。還對由注釋918和正文區(qū)域908構(gòu)成的第二組合進(jìn)行類似的處理。在第二組合的情況下,從注釋918獲得的注釋表述是“BBB”。因此, 注釋表述與說明文本詞不同。因此,最終獲得的類似度S的值為0。結(jié)果,在圖10的步驟 S1007中,元數(shù)據(jù)處理控制單元406認(rèn)定類似度S為0.5的第一組合是最佳組合。具體地說,將具有根據(jù)第一組合的注釋912的照片對象911與正文中的說明文本“照相機AAA(圖 1)用于例如風(fēng)景的拍攝”(正文區(qū)域908)關(guān)聯(lián)。代替圖11的流程圖所示的方法,例如,還可以使用其它方法,諸如使用相同字符被使用的比率或相同字符被連續(xù)使用的程度的方法或者僅提取重要的表述由此獲得用于比較的特定表述(字符串)的方法。圖13以表的形式示出通過對圖像數(shù)據(jù)901至907進(jìn)行上述處理獲得的元數(shù)據(jù)信息。例如,如標(biāo)號1301所示,通過注釋標(biāo)識符“1”將正文區(qū)域908的正文中的說明文本、注釋912及其錨表述“圖1”與照片對象911適當(dāng)?shù)仃P(guān)聯(lián)。如標(biāo)號1302所示,通過注釋標(biāo)識符“2”同樣將正文區(qū)域913的正文中的說明文本、注釋918及其錨表述“圖1”與照片對象917適當(dāng)?shù)仃P(guān)聯(lián)。如標(biāo)號1303所示,通過注釋標(biāo)識符“3”將正文區(qū)域915的正文中的說明文本、注釋920及其錨表述“圖2”與照片對象919適當(dāng)?shù)仃P(guān)聯(lián)。在實際情況下,使用例如SVG格式描述圖13的表中示出的元數(shù)據(jù)信息??梢允褂门c圖6A所述的方法相同的方法來描述元數(shù)據(jù)信息。具體地說,在圖6A中,注釋標(biāo)識符 608被添加到對象數(shù)據(jù)603,并且相同的標(biāo)識符作為注釋標(biāo)識符609被添加到對象的元數(shù)據(jù) 607。類似地,在圖13中,與添加到各個對象的注釋標(biāo)識符(1至3)相同的標(biāo)識符被添加到與各個對象相對應(yīng)的元數(shù)據(jù),以使得能夠識別與各個對象相對應(yīng)的元數(shù)據(jù)。如上所述,在根據(jù)本實施例的圖像處理裝置中,能夠?qū)⑽臋n中的對象(例如照片、 圖或表)與描述其內(nèi)容的正文中的說明文本適當(dāng)?shù)仃P(guān)聯(lián)。結(jié)果,即使當(dāng)在不同文檔的不同對象的注釋中共同使用特定的錨表述時,能夠針對各個對象準(zhǔn)備添加有適當(dāng)元數(shù)據(jù)的電子文檔數(shù)據(jù)。此外,能夠在大大降低由頁面布局或頁之間的距離帶來的影響的同時提取元數(shù)據(jù)。因此,即使在頁隨機布置的圖像數(shù)據(jù)中也能夠添加適當(dāng)?shù)脑獢?shù)據(jù)。[實施例2]接下來,下文將參照圖14A、圖14B和圖15來描述實施例2在圖8B的步驟S807中的處理。實施例2是能夠提高用于提取包含選擇的錨表述的正文中的說明文本、以將提取的文本與對象區(qū)域關(guān)聯(lián)的處理的效率的實施例。圖14A和圖14B是示出本實施例中的將正文中的說明文本與對象區(qū)域關(guān)聯(lián)的處理的流程圖。對與根據(jù)實施例1的圖10的流程圖相同的部分進(jìn)行簡單的描述或者不再描述。 因此,主要描述不同點。在步驟S1401中,獲取具有包含特定錨表述的注釋的對象的數(shù)量。在步驟S1402 中,當(dāng)獲取的對象的數(shù)量是多個時,處理進(jìn)入步驟S1405。當(dāng)對象的數(shù)量是“1”時,后續(xù)的處理(S1403和S1404)與圖10的步驟S1003和S1004相同。在步驟S1405中,元數(shù)據(jù)處理控制單元406搜索正文區(qū)域中的錨表述。在步驟 S1406中,元數(shù)據(jù)處理控制單元406確定得到的正文中的說明文本是否與諸如照片的對象存在于同一頁中。在通過掃描器讀取這些頁而獲得的各個頁的圖像數(shù)據(jù)的情況下,很少出現(xiàn)一頁的數(shù)據(jù)與其它文檔的圖像數(shù)據(jù)混合。因此,當(dāng)諸如照片的對象與通過搜索找到的正文中的說明文本存在于同一頁中時,認(rèn)為對象與說明文本之間具有對應(yīng)關(guān)系。因此,進(jìn)行該確定處理以使得在不計算類似度的情況下就能夠進(jìn)行關(guān)聯(lián)。當(dāng)判斷為諸如照片的對象與正文中的說明文本存在于同一頁中時,處理進(jìn)入步驟S1407。在步驟S1407中,元數(shù)據(jù)處理控制單元406將包含錨表述的正文中的說明文本與同一頁中的對象區(qū)域關(guān)聯(lián)。之后,處理進(jìn)入步驟S1409。當(dāng)判斷為諸如照片的對象不與正文中的說明文本在同一頁中時,處理進(jìn)入步驟 S1408。在步驟S1408中,元數(shù)據(jù)處理控制單元406確定是否存在其它通過搜索找到的正文中的說明文本。具體地說,元數(shù)據(jù)處理控制單元406確定是否存在必須計算類似度的、對象區(qū)域和正文中的說明文本的組合。如果確定不再存在正文中的說明文本,則處理完成。如果存在其它正文中的說明文本,則處理進(jìn)入步驟S1409。在步驟S1409中,元數(shù)據(jù)處理控制單元406確定在步驟S1401中獲取的對象的數(shù)量是否是3或者更多。當(dāng)對象的數(shù)量是2時,處理進(jìn)入步驟S1410。當(dāng)對象的數(shù)量是3或者更多時,處理進(jìn)入步驟S1413。當(dāng)對象的數(shù)量是3或者更多時的步驟S1413和步驟S1414 中的處理與圖10的步驟S1006和步驟S1007中的處理相同。在步驟S1410中,表述類似度計算單元404對一個對象區(qū)域與正文中的說明文本的組合進(jìn)行圖11的流程圖的上述處理,由此計算類似度S。接下來,在步驟S1411中,表述類似度計算單元404使用在步驟S1410中獲得的類似度S,對其它對象區(qū)域與正文中的說明文本的組合進(jìn)行圖15的流程圖所示的處理。具體地說,進(jìn)行以下處理。首先,在步驟S1501中,表述類似度計算單元404獲取在步驟S1410中獲得的類似度S,以將該類似度S作為用作稍后描述的步驟S1514中的比較目標(biāo)的類似度Scomp保持在 RAM 206中。然后,處理進(jìn)入步驟S1502。在步驟S1502到步驟S1513中,進(jìn)行與圖11的步驟SllOl到步驟S1112的處理相同的處理。當(dāng)在步驟S1513中進(jìn)行了用于類似度S的第一更新的處理時,處理進(jìn)入步驟 S1514。在步驟S1514中,表述類似度計算單元404將在步驟S1501中獲取并保持的值 Scomp與在步驟S1513中更新的類似度S的值進(jìn)行比較以確定這兩個值中的哪一個更大。 當(dāng)更新的類似度S的值大于Scomp時,處理完成。然后,處理進(jìn)入步驟S1412。其原因是確定了獲得的類似度S(Scomp)小于步驟S1410中的類似度S。當(dāng)更新的類似度S的值小于值 Scomp時,處理進(jìn)入步驟S1515以進(jìn)行計算類似度S的第二例程。當(dāng)在第二及隨后的例程中在沒有確定更新的類似度S的值大于Scomp的情況下變量N的值為O時,處理完成。然后,處理進(jìn)入步驟S1412。在此時點,確定為在步驟S1410中獲取的類似度S(Scomp)大于在步驟S1411中獲取的類似度S。然后,在步驟S1412中,元數(shù)據(jù)處理控制單元406將類似度S的值較大的組合中的正文中的說明文本與對象區(qū)域關(guān)聯(lián)。如上所述,根據(jù)本實施例,依據(jù)諸如照片的對象和正文中的說明文本是否存在于同一頁中以及對象的數(shù)量是否是3或更多,能夠省略部分處理。因此,能夠以較高的速度進(jìn)行處理。[實施例3]在實施例1和實施例2中,僅基于計算出的類似度的值是較大還是較小,來將諸如照片的對象與正文中的說明文本關(guān)聯(lián)。下文將描述在計算類似度之后、確定計算出的類似度的值是否達(dá)到預(yù)定閾值的實施例。僅當(dāng)計算出的類似度的值達(dá)到預(yù)定閾值時,將對象區(qū)域與正文中的說明文本關(guān)聯(lián)。圖16是示出根據(jù)本實施例的、用于將正文中的說明文本與對象區(qū)域關(guān)聯(lián)的處理的流程的流程圖。圖16的流程圖與實施例1的圖10的流程圖以及實施例2的圖14A和圖 14B的流程圖相對應(yīng)。因此,對它們之間的共同部分進(jìn)行簡單地描述或者不再進(jìn)行描述。因此將主要描述不同點。步驟S1601到步驟S1608中的處理與圖14A和圖14B的步驟S1401到步驟S1408中的處理相同。步驟S1609的處理與圖10的步驟S1006的處理相同。當(dāng)在步驟S1609中計算了組合的類似度時,處理進(jìn)入步驟S1610。在步驟S1610中,表述類似度計算單元404將最大的類似度的值與預(yù)先設(shè)置的預(yù)定閾值進(jìn)行比較,以確定類似度的值是否等于或者大于閾值。當(dāng)類似度的值等于或者大于閾值時,處理進(jìn)入步驟S1611以將正文中的說明文本與對象區(qū)域關(guān)聯(lián)。當(dāng)類似度的值未達(dá)到閾值時,不將正文中的說明文本與對象區(qū)域關(guān)聯(lián)并且處理完成。圖17示出在MFP 100的操作單元203上顯示的用戶界面(UI)畫面的示例。在UI 畫面1710上具有用于指定搜索文檔中的對象(例如照片、圖或者表)的功能的等級的按鈕 1702和1703。當(dāng)選擇了按鈕1702時,通過具有高級對象搜索功能的方法(即根據(jù)本發(fā)明的方法)來準(zhǔn)備電子文檔。當(dāng)選擇了按鈕1703時,通過文件大小的壓縮優(yōu)先的傳統(tǒng)方法來準(zhǔn)備電子文檔。標(biāo)號1704表示允許用戶將上述閾值設(shè)置為任意值的按鈕。為了提高文檔中的元數(shù)據(jù)的提取等級,將按鈕1704滑動到右側(cè)。這因此減小了閾值,由此提取更多的元數(shù)據(jù)。另一方面,為了降低文檔中的元數(shù)據(jù)的提取等級,將按鈕1704滑動到左側(cè)。這因此提高了閾值,由此提取更少的元數(shù)據(jù)。通過該用戶界面,用戶能夠任意地改變閾值,以將元數(shù)據(jù)的提取等級改變?yōu)槠谕牡燃?。?biāo)號1705表示用于取消選擇的內(nèi)容的取消按鈕。標(biāo)號1706表示用于確定設(shè)置內(nèi)容的確認(rèn)按鈕。根據(jù)本實施例,將類似度的值小于閾值的情況認(rèn)定為不可能提取正確的元數(shù)據(jù)的情況,由此防止添加元數(shù)據(jù)。這因此能夠防止正文中的說明文本錯誤地與對象區(qū)域關(guān)聯(lián)而引起的錯誤元數(shù)據(jù)的添加的情形。因此,能夠正確地進(jìn)行后續(xù)的對象搜索。[實施例4]接下來,描述實施例4,在實施例4中,當(dāng)發(fā)現(xiàn)存在具有包含特定錨表述的注釋的多個對象時,通過警告顯示來向用戶警告該存在。圖18示出在本實施例中的MFP 100的操作單元203上顯示的警告畫面的示例。圖 19是根據(jù)本實施例的、用于將正文中的說明文本與對象區(qū)域關(guān)聯(lián)的處理的流程的流程圖。 對與根據(jù)實施例1的流程圖相同的部分進(jìn)行簡單的描述或者不再描述。因此,將主要描述不同點。在步驟S1901中,獲取具有包含特定錨表述的注釋的對象的數(shù)量。當(dāng)在步驟S1902 中確定獲取的對象的數(shù)量是多個時,處理進(jìn)入步驟S1905。在步驟S1905中,元數(shù)據(jù)處理控制單元406在例如操作單元203上顯示如圖18所示的警告畫面。該警告畫面包括表示在不同的圖中檢測到相同的圖編號的消息,并且還包括用于指定是否繼續(xù)處理的按鈕。當(dāng)用戶在警告畫面1801上選擇“繼續(xù)”按鈕1802時,處理進(jìn)入步驟S1907以繼續(xù)處理。步驟S1907至步驟S1909的處理與圖10中的步驟S1005至步驟S1007的處理相同。 另一方面,當(dāng)用戶選擇“完成”按鈕1803時,處理停止以返回到掃描開始之前的狀態(tài)。根據(jù)本實施例,當(dāng)發(fā)現(xiàn)存在具有包含相同錨表述的注釋的多個對象時,用戶能夠有機會考慮是否繼續(xù)處理。因此,為了添加正確的元數(shù)據(jù),用戶能夠有機會停止處理以嘗試第二次掃描。本發(fā)明的各方面還能夠通過讀出并執(zhí)行記錄在存儲設(shè)備上的用于執(zhí)行上述實施例的功能的程序的系統(tǒng)或裝置的計算機(或諸如CPU或MPU的設(shè)備)、以及由系統(tǒng)或裝置的計算機例如讀出并執(zhí)行記錄在存儲設(shè)備上的用于執(zhí)行上述實施例的功能的程序來執(zhí)行步驟的方法來實現(xiàn)。鑒于此,例如經(jīng)由網(wǎng)絡(luò)或者從用作存儲設(shè)備的各種類型的記錄介質(zhì)(例如計算機可讀介質(zhì))向計算機提供程序。 雖然參照示例性實施例描述了本發(fā)明,但是應(yīng)當(dāng)理解,本發(fā)明不限于所公開的示例性實施例。應(yīng)對所附權(quán)利要求的范圍給予最寬的解釋,以使其覆蓋所有這種變型、等同結(jié)構(gòu)和功能。
權(quán)利要求
1.一種圖像處理裝置,所述圖像處理裝置包括區(qū)域劃分單元,其被配置為將頁的圖像劃分為多個區(qū)域; 屬性信息添加單元,其被配置為向劃分的所述多個區(qū)域添加與區(qū)域?qū)?yīng)的屬性; 字符識別單元,其被配置為對由所述屬性信息添加單元分別添加了注釋屬性和正文屬性的注釋區(qū)域和正文區(qū)域進(jìn)行字符識別處理;以及元數(shù)據(jù)處理單元,其被配置為將元數(shù)據(jù)與附有所述注釋區(qū)域的對象區(qū)域進(jìn)行關(guān)聯(lián); 其中,所述元數(shù)據(jù)處理單元包括第一提取單元,其被配置為從對所述注釋區(qū)域的所述字符識別處理的結(jié)果中,提取由預(yù)定字符串構(gòu)成的錨表述以及由所述錨表述以外的字符串構(gòu)成的注釋表述;確定單元,其被配置為確定是否存在附有包含相同錨表述的注釋區(qū)域的多個對象區(qū)域;第二提取單元,其被配置為從對所述正文區(qū)域的所述字符識別處理的結(jié)果中,提取包含所述錨表述的說明文本;第一關(guān)聯(lián)單元,其被配置為在所述確定單元確定存在附有包含所述相同錨表述的注釋區(qū)域的一個對象區(qū)域的情況下,將所述對象區(qū)域與由所述第二提取單元提取的所述說明文本獲得的元數(shù)據(jù)進(jìn)行關(guān)聯(lián);類似度計算單元,其被配置為在所述確定單元確定存在附有包含所述相同錨表述的注釋區(qū)域的多個對象區(qū)域的情況下,分別計算包含所述相同錨表述的各個注釋區(qū)域的注釋表述、與由所述第二提取單元提取的包含所述相同錨表述的所述說明文本之間的類似度;以及第二關(guān)聯(lián)單元,其被配置為基于由所述類似度計算單元計算出的所述類似度,來確定針對所述多個對象區(qū)域中的各個對象區(qū)域的最佳說明文本,并將由所確定的最佳說明文本獲得的元數(shù)據(jù)與所述各個對象區(qū)域進(jìn)行關(guān)聯(lián)。
2.根據(jù)權(quán)利要求1所述的圖像處理裝置,其中,所述對象區(qū)域是由所述屬性信息添加單元添加了照片、圖或者表的任意屬性的區(qū)域。
3.根據(jù)權(quán)利要求1所述的圖像處理裝置,其中,所述第二關(guān)聯(lián)單元將具有所述類似度計算單元計算出的最大類似度的說明文本確定作為針對所述對象區(qū)域的最佳說明文本,并將由所述最佳說明文本獲得的元數(shù)據(jù)與所述對象區(qū)域進(jìn)行關(guān)聯(lián)。
4.根據(jù)權(quán)利要求1所述的圖像處理裝置,其中, 所述區(qū)域劃分單元將多頁的各個圖像劃分為多個區(qū)域,所述元數(shù)據(jù)處理單元還包括第二確定單元,所述第二確定單元被配置為確定由所述第二提取單元提取的所述說明文本和所述對象區(qū)域兩者是否存在于同一頁的圖像內(nèi),以及在所述第二確定單元確定由所述第二提取單元提取的所述說明文本和所述對象區(qū)域兩者存在于同一頁的圖像內(nèi)的情況下,所述元數(shù)據(jù)處理單元跳過由所述類似度計算單元進(jìn)行的所述類似度的計算,將由從該同一頁的圖像中提取的說明文本獲得的元數(shù)據(jù)與存在于該同一頁的圖像內(nèi)的所述對象區(qū)域進(jìn)行關(guān)聯(lián)。
5.根據(jù)權(quán)利要求1所述的圖像處理裝置,其中,所述第二關(guān)聯(lián)單元在所述最佳說明文本的類似度達(dá)到預(yù)定閾值的情況下,將由所述最佳說明文本獲得的元數(shù)據(jù)與所述對象區(qū)域進(jìn)行關(guān)聯(lián)。
6.根據(jù)權(quán)利要求1所述的圖像處理裝置,其中,所述元數(shù)據(jù)處理單元在所述確定單元確定存在附有包含所述相同錨表述的注釋區(qū)域的多個對象區(qū)域的情況下,提供示出存在所述多個對象區(qū)域的警告顯示。
7.根據(jù)權(quán)利要求1所述的圖像處理裝置,其中,所述圖像處理裝置還包括第三關(guān)聯(lián)單元,所述第三關(guān)聯(lián)單元被配置為將由所述第一提取單元提取的所述注釋表述作為元數(shù)據(jù)與附有包含所述注釋表述的注釋區(qū)域的對象區(qū)域進(jìn)行關(guān)聯(lián)。
8.根據(jù)權(quán)利要求1所述的圖像處理裝置,其中,所述圖像處理裝置還包括生成單元,所述生成單元被配置為使用關(guān)于由所述區(qū)域劃分單元對頁的圖像劃分的所述多個區(qū)域的信息以及與所述對象區(qū)域關(guān)聯(lián)的元數(shù)據(jù),來生成具有預(yù)定格式的電子文檔。
9.一種圖像處理方法,所述圖像處理方法包括區(qū)域劃分步驟,用于將多頁的圖像劃分為多個區(qū)域;屬性信息添加步驟,用于向劃分的所述多個區(qū)域中的各個添加與區(qū)域?qū)?yīng)的屬性;字符識別步驟,用于對由所述屬性信息添加步驟分別添加了注釋屬性和正文屬性的注釋區(qū)域和正文區(qū)域進(jìn)行字符識別處理;以及元數(shù)據(jù)處理步驟,用于將元數(shù)據(jù)與附有所述注釋區(qū)域的對象區(qū)域進(jìn)行關(guān)聯(lián);其中,所述元數(shù)據(jù)處理步驟包括第一提取步驟,用于從對所述注釋區(qū)域的所述字符識別處理的結(jié)果中,提取由預(yù)定字符串構(gòu)成的錨表述以及由所述錨表述以外的字符串構(gòu)成的注釋表述;確定步驟,用于確定是否存在附有包含相同錨表述的注釋區(qū)域的多個對象區(qū)域;第二提取步驟,用于從對所述正文區(qū)域的所述字符識別處理的結(jié)果中,提取包含所述錨表述的說明文本;第一關(guān)聯(lián)步驟,用于在所述確定步驟確定存在附有包含所述相同錨表述的注釋區(qū)域的一個對象區(qū)域的情況下,將由所述第二提取步驟提取的所述說明文本獲得的元數(shù)據(jù)與所述對象區(qū)域進(jìn)行關(guān)聯(lián);類似度計算步驟,用于在所述確定步驟確定存在附有包含所述相同錨表述的注釋區(qū)域的多個對象區(qū)域的情況下,分別計算包含所述相同錨表述的各個注釋區(qū)域的注釋表述、與由所述第二提取步驟提取的包含所述相同錨表述的所述說明文本之間的類似度;以及第二關(guān)聯(lián)步驟,用于基于由所述類似度計算步驟計算出的所述類似度,來確定針對所述多個對象區(qū)域中的各個對象區(qū)域的最佳說明文本,并將由所確定的最佳說明文本獲得的元數(shù)據(jù)與所述各個對象區(qū)域進(jìn)行關(guān)聯(lián)。
全文摘要
本發(fā)明提供一種圖像處理裝置及圖像處理方法。即使當(dāng)多個對象的注釋使用相同錨表述時,本發(fā)明也能夠?qū)⑦m當(dāng)?shù)恼闹械恼f明文本作為元數(shù)據(jù)與對象關(guān)聯(lián)。
文檔編號G06F17/30GK102196130SQ20111005980
公開日2011年9月21日 申請日期2011年3月11日 優(yōu)先權(quán)日2010年3月16日
發(fā)明者三沢玲司, 小坂亮, 相馬英智, 金津知俊 申請人:佳能株式會社