專利名稱:圖像處理裝置及圖像處理方法
技術(shù)領(lǐng)域:
本發(fā)明涉及能夠由紙質(zhì)文檔或電子文檔數(shù)據(jù)生成包含相互鏈接信息的電子文檔數(shù)據(jù)的圖像處理裝置,所述相互鏈接信息附加至所生成的電子文檔數(shù)據(jù)。本發(fā)明還涉及圖像處理方法、計算機程序以及存儲該計算機程序的計算機可讀存儲介質(zhì)。
背景技術(shù):
傳統(tǒng)上,使用包含“對象”以及“針對對象的解釋說明(注釋語句),,的種類繁多的文檔,作為紙質(zhì)文檔或電子文檔。這類文檔的示例包括學(xué)術(shù)論文、專利文獻、說明書以及產(chǎn)品目錄。在這種情況下,“對象”代表包含在各文檔中的諸如“照片”、“線條畫”以及“表”的獨立區(qū)域?!搬槍ο蟮慕忉屨f明(注釋語句)”代表描述關(guān)于文本中的上述“對象”的詳情的語句。作為能夠指定對象的標識符,通常使用諸如“圖1”(即圖編號)的表述來指示“對象”與“針對對象的解釋說明”之間的關(guān)聯(lián)。在以下描述中,將“對象”與“針對對象的解釋說明”相關(guān)聯(lián)的標識符(諸如“圖1”)稱作“錨(anchor)表述”。另外,在許多情況下,針對對象的簡單解釋說明和錨表述位于對象自身的附近。解釋說明和錨表述統(tǒng)稱為“題注 (caption)表述,,。通常,這類文檔的讀者在檢查文本中的錨表述的同時,需要確認目標“對象”與“針對對象的解釋說明”之間的對應(yīng)關(guān)系。如果文檔的讀者在文本中找到“圖1示出…”這樣的語句,則文檔的讀者在文檔中檢索與“圖1”對應(yīng)的對象,然后(即,在確認對象的內(nèi)容以后)返回到之前在文本中的位置,以再開始閱讀文檔。另一方面,如果文檔的讀者在題注表述中找到由錨表述“圖1”附隨的對象,則讀者在文本中檢索描述“圖1”的語句。然后,讀者確認解釋說明,并返回到前一頁,以再開始閱讀文檔。如果文檔由多頁構(gòu)成,則讀者可能需要檢查跨越兩頁或更多頁的較寬的范圍,來在文本中檢索與“圖1示出…”對應(yīng)的對象,或者與對象“圖1”對應(yīng)的解釋說明。換言之, 易讀性變差。通常,在文本中找到解釋說明并不容易。解釋說明可能存在于文本中的多個部分。讀者可能會花相對較長的時間來對全部解釋說明進行確認。如日本專利特開平11-066196號公報所記載,存在這樣一種傳統(tǒng)技術(shù),其能夠光學(xué)讀取紙質(zhì)文檔,并根據(jù)使用的目的生成各種類型的計算機可用的文檔。更具體地說,生成具有將各圖與圖編號關(guān)聯(lián)的超文本的電子文檔是可行的。例如,如果讀者利用鼠標在文本中的“圖編號”上點擊,則能夠在畫面上顯示與“圖編號”對應(yīng)的圖。然而,根據(jù)日本特開平11-066196號公報中記載的技術(shù),能被提供的鏈接僅限于將文本中的圖編號連接至相應(yīng)對象的鏈接。沒有提供將該對象連接至文本中的圖編號的鏈接。因此,可能出現(xiàn)以下問題。(1)當初始瀏覽“對象”時,花費相對較長時間來檢索“針對對象的解釋說明”。(2)盡管在初始閱讀“針對對象的解釋說明”之后能夠顯示相應(yīng)“對象”,但是當在“對象”的瀏覽完成以后、“對象”的畫面顯示被關(guān)閉以返回至“針對對象的解釋說明”時,找出之前的位置(例如,段落編號、行編號等)并不容易。(3)當進行“對象”的畫面顯示時識別文檔(或頁)中的“對象”的位置(例如,頁編號、行編號等)并不容易。另外,即使在文本僅包括一個“對象”的情況下,也可能在文本中的不同(多個) 部分出現(xiàn)“針對對象的解釋說明”。在這種情況下,需要確認所有頁的全部內(nèi)容,以生成圖與圖編號之間的超鏈接。因此,如果臨時保持所有頁的數(shù)據(jù),則需要大尺寸的工作存儲器。此外,當將處理后的文檔輸出到外部裝置時,在所有頁的處理完成之前,將需要相對較長的等待時間。更具體地說,響應(yīng)于各頁的分析處理的完成而將處理后的頁逐頁輸出是不可行的。 結(jié)果是傳輸效率變差。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的一方面,一種圖像處理裝置,所述圖像處理裝置包括輸入單元,其被構(gòu)造為輸入包括多個頁圖像的文檔;區(qū)域分割單元,其被構(gòu)造為將由所述輸入單元輸入的各頁圖像劃分為屬性區(qū)域;字符識別單元,其被構(gòu)造為對由所述區(qū)域分割單元劃分出的區(qū)域執(zhí)行字符識別處理;第一檢測單元,其被構(gòu)造為根據(jù)由所述字符識別單元對所述頁圖像中的文本屬性區(qū)域執(zhí)行的所述字符識別處理的結(jié)果,來檢測由特定字符串構(gòu)成的第一錨表述;第一標識符分配單元,其被構(gòu)造為將第一鏈接標識符分配給由所述第一檢測單元檢測到的所述第一錨表述;第一圖形數(shù)據(jù)生成單元,其被構(gòu)造為生成要用于識別由所述第一檢測單元檢測到的所述第一錨表述的第一圖形數(shù)據(jù),并且將所生成的第一圖形數(shù)據(jù)與由所述第一標識符分配單元分配的所述第一鏈接標識符相關(guān)聯(lián);第一表更新單元,其被構(gòu)造為將所述第一鏈接標識符和所述第一錨表述以相互關(guān)聯(lián)的方式登記在鏈接結(jié)構(gòu)管理表中,并且如果與所述第一錨表述類似的錨表述已經(jīng)登記在所述鏈接結(jié)構(gòu)管理表中,則以使得將相同錨表述的鏈接標識符相互關(guān)聯(lián)的方式來更新所述鏈接結(jié)構(gòu)管理表;第二檢測單元,其被構(gòu)造為根據(jù)由所述字符識別單元對附隨所述頁圖像中的對象的題注區(qū)域執(zhí)行的所述字符識別處理的結(jié)果,檢測由特定字符串構(gòu)成的第二錨表述;第二標識符分配單元,其被構(gòu)造為將第二鏈接標識符分配給由檢測到所述第二錨表述的所述題注區(qū)域附隨的所述對象;第二圖形數(shù)據(jù)生成單元,其被構(gòu)造為生成要用于識別由檢測到所述第二錨表述的所述題注區(qū)域附隨的所述對象的第二圖形數(shù)據(jù),并且將所生成的第二圖形數(shù)據(jù)與由所述第二標識符分配單元分配的所述第二鏈接標識符相關(guān)聯(lián);第二表更新單元,其被構(gòu)造為將所述第二鏈接標識符與所述第二錨表述以相互關(guān)聯(lián)的方式登記在所述鏈接結(jié)構(gòu)管理表中,并且如果與所述第二錨表述類似的錨表述已經(jīng)登記在所述鏈接結(jié)構(gòu)管理表中,則以使得將相同錨表述的鏈接標識符相互關(guān)聯(lián)的方式來更新所述鏈接結(jié)構(gòu)管理表;頁數(shù)據(jù)生成單元,其被構(gòu)造為利用所述第一鏈接標識符、所述第一圖形數(shù)據(jù)、所述第二鏈接標識符以及所述第二圖形數(shù)據(jù), 生成針對所述頁圖像的電子文檔的頁數(shù)據(jù);第一發(fā)送單元,其被構(gòu)造為發(fā)送由所述頁數(shù)據(jù)生成單元生成的所述電子文檔的所述頁數(shù)據(jù);控制單元,其被構(gòu)造為相繼指定由所述輸入單元輸入的所述頁圖像的各頁作為處理目標,并且控制由所述區(qū)域分割單元、所述字符識別單元、所述第一檢測單元、所述第一標識符分配單元、所述第一圖形數(shù)據(jù)生成單元、所述第一表更新單元、所述第二檢測單元、所述第二標識符分配單元、所述第二圖形數(shù)據(jù)生成單元、所述第二表更新單元、所述頁數(shù)據(jù)生成單元以及所述第一發(fā)送單元反復(fù)執(zhí)行的處理;以及第二發(fā)送單元,其被構(gòu)造為基于由所述第一表更新單元和所述第二表更新單元更新的所述鏈接結(jié)構(gòu)管理表,生成要用于將所述電子文檔中包含的所述第一鏈接標識符與所述第二鏈接標識符鏈接的鏈接結(jié)構(gòu)信息,并且發(fā)送所生成的鏈接結(jié)構(gòu)信息。根據(jù)本發(fā)明的又一方面,一種圖像處理裝置,所述圖像處理裝置包括輸入單元, 其被構(gòu)造為輸入包括多個頁圖像的文檔;區(qū)域分割單元,其被構(gòu)造為將由所述輸入單元輸入的各頁圖像劃分為屬性區(qū)域;字符識別單元,其被構(gòu)造為對由所述區(qū)域分割單元劃分出的區(qū)域執(zhí)行字符識別處理;檢測單元,其被構(gòu)造為根據(jù)由所述字符識別單元執(zhí)行的所述字符識別處理的結(jié)果,來檢測由特定字符串構(gòu)成的錨表述;標識符分配單元,其被構(gòu)造為將鏈接標識符分配給由所述檢測單元檢測到的所述錨表述;生成單元,其被構(gòu)造為生成使要基于所述錨表述確定的強調(diào)位置與所述鏈接標識符相關(guān)聯(lián)的數(shù)據(jù);表更新單元,其被構(gòu)造為將所述錨表述和所述鏈接標識符以相互關(guān)聯(lián)的方式登記在鏈接結(jié)構(gòu)管理表中,并且如果與所述錨表述類似的錨表述已經(jīng)登記在所述鏈接結(jié)構(gòu)管理表中,則以使得將相同錨表述的鏈接標識符相互關(guān)聯(lián)的方式來更新所述鏈接結(jié)構(gòu)管理表;第一發(fā)送單元,其被構(gòu)造為基于所述鏈接標識符和所述強調(diào)位置來生成針對所述頁圖像的電子文檔的頁數(shù)據(jù),并發(fā)送所生成的頁數(shù)據(jù);控制單元,其被構(gòu)造為相繼指定由所述輸入單元輸入的所述頁圖像的各頁作為處理目標,并且控制由所述區(qū)域分割單元、所述字符識別單元、所述檢測單元、所述標識符分配單元、所述生成單元、所述表更新單元以及所述第一發(fā)送單元反復(fù)執(zhí)行的處理;以及第二發(fā)送單元,其被構(gòu)造為基于由所述表更新單元更新的所述鏈接結(jié)構(gòu)管理表,生成要用于鏈接所述電子文檔中包含的所述鏈接標識符的鏈接結(jié)構(gòu)信息,并且發(fā)送所生成的鏈接結(jié)構(gòu) fn息ο根據(jù)本發(fā)明的示例性實施例,能夠利用包含多頁的輸入電子文檔來逐頁地自動生成文本中的“對象”與“針對對象的解釋說明,,之間的相互鏈接。此外,能夠生成包含多頁的電子文檔。參照該相互鏈接能夠容易地檢查“對象”與“針對對象的解釋說明,,之間的關(guān)系。易讀性得以提高。另外,當向個人計算發(fā)送多頁的文檔圖像時,即使在存在“對象”的頁不同于包含“針對對象的解釋說明”的頁的情況下,也能自動生成相互鏈接。因為能夠逐頁地進行處理,因此不需要能夠保持全部頁的數(shù)據(jù)的大規(guī)模工作存儲器。另外,逐頁發(fā)送電子文檔數(shù)據(jù)對于提高傳輸效率是有用的。根據(jù)以下參照附圖對示例性實施例的詳細描述,本發(fā)明的其他特征和方面將變得清楚。
被包括在說明書中并構(gòu)成說明書的一部分的附圖,例示了本發(fā)明的示例性實施例、特征以及各個方面,并與文字說明一起用于說明本發(fā)明的原理。圖1是例示根據(jù)本發(fā)明的示例性實施例的圖像處理系統(tǒng)的框圖。圖2是例示根據(jù)本發(fā)明的示例性實施例的多功能外圍設(shè)備(MFP)的框圖。圖3是例示根據(jù)本發(fā)明的示例性實施例的數(shù)據(jù)處理單元的示例結(jié)構(gòu)的框圖。圖4是例示根據(jù)本發(fā)明的示例性實施例的鏈接處理單元的示例結(jié)構(gòu)的框圖。圖5A至圖5C例示了根據(jù)本發(fā)明的示例性實施例的對輸入圖像數(shù)據(jù)進行的區(qū)域分割處理的結(jié)果。圖6例示了根據(jù)本發(fā)明的示例性實施例的能夠由輸入圖像數(shù)據(jù)生成的電子文檔數(shù)據(jù)的示例。圖7是例示根據(jù)本發(fā)明的第一示例性實施例的整個處理的流程圖。圖8是例示根據(jù)本發(fā)明的第一示例性實施例的逐頁進行的鏈接處理的流程圖。圖9A至圖9D例示了根據(jù)本發(fā)明的第一示例性實施例的能夠生成的鏈接結(jié)構(gòu)管理表的示例。圖IOA至圖IOD例示了根據(jù)本發(fā)明的第一示例性實施例的多個示例頁圖像和處理結(jié)果。圖11例示了根據(jù)本發(fā)明的第一示例性實施例的電子文檔數(shù)據(jù)的結(jié)構(gòu)。圖12是例示了根據(jù)本發(fā)明的第一示例性實施例的能夠由接收端裝置進行的示例處理的流程圖。圖13A至圖13C例示了根據(jù)本發(fā)明的第一示例性實施例的能夠由應(yīng)用進行的示例操作。圖14是例示根據(jù)本發(fā)明的第一示例性實施例的能夠由應(yīng)用進行的示例處理的流程圖。圖15是例示根據(jù)本發(fā)明的第四示例性實施例的示例處理的流程圖。
具體實施例方式以下將參照附圖詳細描述本發(fā)明的各種示例性實施例、特征和方面。圖1是例示根據(jù)本發(fā)明的示例性實施例的圖像處理系統(tǒng)的結(jié)構(gòu)的框圖。在圖1中,多功能外圍設(shè)備(MFP)IOO連接至在辦公室A中構(gòu)建的局域網(wǎng) (LAN) 102。MFP 100具有實現(xiàn)多種功能(例如,復(fù)印功能、打印功能和發(fā)送功能)的能力。 LAN 102經(jīng)由代理服務(wù)器103連接至網(wǎng)絡(luò)104??蛻舳藗€人計算機(PC) 101可以經(jīng)由LAN 102從MFP 100接收發(fā)送數(shù)據(jù),并且可以使用能夠被MFP 100實現(xiàn)的功能。例如,客戶端PC 101可以將打印數(shù)據(jù)發(fā)送給MFP 100,并且可以基于接收到的打印數(shù)據(jù)來指示MFP 100對打印物進行打印。圖1所示的結(jié)構(gòu)僅為示例。例如,兩個或更多個辦公室(各自具有與辦公室A類似的部件)可以連接至網(wǎng)絡(luò)104。另外,網(wǎng)絡(luò)104典型地為互聯(lián)網(wǎng),并且可以為另一 LAN或廣域網(wǎng)(WAN),或者可以為電話電路、專用數(shù)字電路、自動取款機(ATM)或幀中繼電路、通信衛(wèi)星電路、有線電視電路、數(shù)據(jù)廣播無線電路或者任何其他通信網(wǎng)絡(luò)??捎糜跀?shù)據(jù)發(fā)送/接收的任意類型的網(wǎng)絡(luò)可以被用作網(wǎng)絡(luò)104。另外,客戶端PC 101和代理服務(wù)器103具有作為在通用計算機上安裝的標準部件的各種部件,諸如中央處理單元(CPU)、隨機存取存儲器(RAM)、只讀存儲器(ROM)、硬盤、外部存儲設(shè)備、網(wǎng)絡(luò)接口、 顯示設(shè)備、鍵盤以及鼠標。圖2例示了根據(jù)本示例性實施例的功能上可作為圖像處理裝置操作的MFP 100的詳細結(jié)構(gòu)。圖2所示的MFP 100包括功能上可作為圖像輸入設(shè)備操作的掃描器單元201、功能上可作為圖像輸出設(shè)備操作的打印機單元202、包括中央處理單元(CPU) 205的控制器單元204以及功能上可作為用戶接口操作的操作單元203。
控制器單元204連接至掃描器單元201、打印機單元202以及操作單元203??刂破鲉卧?04可以經(jīng)由局域網(wǎng)(LAN) 219或公共電話線路(WAN) 220 (即通用電話電路網(wǎng)絡(luò)) 訪問外部設(shè)備,以輸入和輸出圖像信息和設(shè)備信息。CPU 205可以對控制器單元204中包含的各功能單元進行控制。隨機存取存儲器 (RAM) 206可以被CPU 205訪問,并且可以用作CPU 205操作時的系統(tǒng)工作存儲器。CPU 205 還作為能夠臨時存儲圖像數(shù)據(jù)的圖像存儲器。只讀存儲器(ROM) 210作為存儲系統(tǒng)引導(dǎo)程序的引導(dǎo)ROM。存儲單元211是存儲系統(tǒng)控制軟件和圖像數(shù)據(jù)的硬盤驅(qū)動器。操作單元接口(I/F) 207是控制對操作單元(UI)203 的各訪問的接口單元??梢詫D像數(shù)據(jù)經(jīng)由操作單元I/F 207輸出到操作單元203,以在操作單元203的畫面上顯示圖像數(shù)據(jù)。另外,當圖像處理裝置的用戶經(jīng)由操作單元203輸入信息時,操作單元I/F 207可以將輸入信息發(fā)送到CPU 205。網(wǎng)絡(luò)I/F 208可以將圖像處理裝置連接到LAN 219,以輸入和輸出包(packet)格式信息。調(diào)制解調(diào)器209可以經(jīng)由WAN 220將圖像處理裝置連接至外部設(shè)備,并且可以進行數(shù)據(jù)解調(diào)制/調(diào)制處理,以輸入和輸出信息。上述功能設(shè)備可經(jīng)由系統(tǒng)總線221相互訪問。圖像總線I/F 212是在系統(tǒng)總線221與圖像總線222之間配置的總線橋。圖像總線222具有實現(xiàn)圖像數(shù)據(jù)的高速傳輸?shù)哪芰?。圖像總線I/F 212可以轉(zhuǎn)變圖像數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)。圖像總線222例如是PCI總線或IEEE1394總線。以下功能設(shè)備可經(jīng)由圖像總線222 相互連接。光柵圖像處理器(RIP) 213可以實現(xiàn)所謂的繪制處理。更具體地說,RIP 213分析頁面描述語言(PDL)代碼并且對具有指定分辨率的位像進行光柵化。當RIP 213對位像進行光柵化時,RIP 213確定各像素或各區(qū)域的屬性,并添加代表確定結(jié)果的屬性信息。該處理稱為“圖像區(qū)域確定處理”。通過圖像區(qū)域確定處理,表示對象的類型(屬性) 的屬性信息(諸如“文本”、“線”、“圖形”和“圖像”)被分配給各像素或各區(qū)域。設(shè)備I/F 214可以將掃描器單元201(即圖像輸入設(shè)備)經(jīng)由信號線223連接至控制器單元204。另外,設(shè)備I/F 214可以將打印機單元202(即圖像輸出設(shè)備)經(jīng)由信號線2M連接至控制器單元204。設(shè)備I/F 214可以對圖像數(shù)據(jù)進行同步/異步轉(zhuǎn)換處理。 掃描器圖像處理單元215被構(gòu)造為對輸入圖像數(shù)據(jù)進行校正、修改和編輯處理。打印機圖像處理單元216被構(gòu)造為根據(jù)打印機單元202,對要被輸出到打印機單元202的打印輸出圖像數(shù)據(jù)進行校正和分辨率轉(zhuǎn)換處理。圖像旋轉(zhuǎn)單元217被構(gòu)造為旋轉(zhuǎn)輸入圖像數(shù)據(jù)并輸出豎著的圖像數(shù)據(jù)。以下詳細描述數(shù)據(jù)處理單元218。接著,以下參照圖3來描述圖2所示的數(shù)據(jù)處理單元218的示例結(jié)構(gòu)和操作。數(shù)據(jù)處理單元218包括區(qū)域分割單元301、屬性信息分配單元302、字符識別單元303、鏈接處理單元304以及格式轉(zhuǎn)換單元305。數(shù)據(jù)處理單元218例如接收由掃描器單元201掃描的圖像數(shù)據(jù)300,并且使各個處理單元301至305對輸入圖像數(shù)據(jù)300進行處理。然后,數(shù)據(jù)處理單元218輸出電子文檔數(shù)據(jù)310。區(qū)域分割單元301被構(gòu)造為接收由圖2所示的掃描器單元201掃描的圖像數(shù)據(jù)或者存儲在存儲單元211中的圖像數(shù)據(jù)(文檔圖像)。區(qū)域分割單元301將輸入圖像數(shù)據(jù)劃分成布置于頁上的各個區(qū)域,諸如字符、照片、圖以及表。
在這種情況下,可以使用傳統(tǒng)上已知的區(qū)域提取方法(區(qū)域分割方法)。區(qū)域提取方法(區(qū)域分割方法)的示例包括將輸入圖像二值化以生成二值圖像,并降低該二值圖像的分辨率以生成稀疏化(thirmed-out)圖像(削減圖像)。例如,為了生成1/(MXN)的稀疏化圖像,將二值化圖像劃分成多個塊,每個塊均包含MXN個像素,并且如果在該MXN個像素中存在黑像素,則以黑像素為相應(yīng)的削減像素。如果不存在黑像素,則以白像素為相應(yīng)的削減像素。該方法還包括提取稀疏化圖像中黑像素連續(xù)排列的部分(即連續(xù)黑像素),并生成所述連續(xù)黑像素的外接矩形。在這種情況下,如果各自具有與字符圖像類似大小的多個矩形連續(xù)布置,或者如果各自具有與字符圖像相當?shù)目v向長度和橫向長度的相似矩形(接續(xù)黑像素的矩形)接連布置在短邊的附近,則較可能存在單字符行的字符圖像。在這種情況下,可以通過將多個矩形連接來獲得代表一個字符行的矩形。如果各自代表單字符行的兩個或更多個矩形在短邊長度上相似并且在列方向上等間隔排列,則這些矩形的集合較可能為文本部分。因此,可以將這些矩形整體提取作為文本區(qū)域。另外,照片區(qū)域、圖區(qū)域以及表區(qū)域可以被提取作為尺寸大于字符圖像的連續(xù)黑像素。作為結(jié)果,例如,圖5A所示的圖像數(shù)據(jù)500可以被劃分為多個區(qū)域501至506。各區(qū)域的屬性可以基于其尺寸或者其縱橫比來確定,也可以基于黑像素的密度或者連續(xù)黑像素內(nèi)包含的白像素的輪廓追蹤結(jié)果來確定,如以下所描述。屬性信息分配單元302被構(gòu)造為向被區(qū)域分割單元301劃分的各個區(qū)域添加屬性。在本示例性實施例中,可以由屬性信息分配單元302進行的示例處理操作,將在以下基于圖5A所示的輸入圖像數(shù)據(jù)500的示例來描述。屬性信息分配單元302向區(qū)域506分配屬性“文本”(即,文本屬性),因為區(qū)域506 包括構(gòu)成頁的一部分的一定數(shù)量的字符或一定數(shù)量的行,并且因為區(qū)域506由連續(xù)的字符串以使得保持一個文本的式樣(例如,很多字符,很多行以及分段)的方式來構(gòu)成。屬性信息分配單元302確定剩余區(qū)域是否包括尺寸與字符圖像相似的矩形。尤其是,關(guān)于包括字符圖像的區(qū)域,字符圖像的矩形周期性地出現(xiàn)在該區(qū)域中。因此,屬性信息分配單元302可以識別包括字符的區(qū)域。作為結(jié)果,屬性信息分配單元302將屬性“字符”分配給區(qū)域501、區(qū)域504以及區(qū)域505的各個,因為這些區(qū)域包括字符。然而,這些區(qū)域501、504和505不具有任何文本的式樣(例如,很多字符,很多行以及分段),并且與上述文本區(qū)域不同。另一方面,如果剩余區(qū)域的尺寸非常小,則屬性信息分配單元302將該剩余區(qū)域確定為“噪聲”。另外,當對具有較小像素密度的連續(xù)黑像素的內(nèi)部區(qū)域應(yīng)用白像素輪廓追蹤時,如果白像素輪廓外接矩形按順序排列,則屬性信息分配單元302識別相關(guān)區(qū)域作為 “表”,而如果所述矩形不按順序排列,則識別相關(guān)區(qū)域作為“線條畫”。屬性信息分配單元302識別像素密度具有較高值的另一區(qū)域作為圖片或照片,并且將屬性“照片”分配給所識別的區(qū)域。分配有屬性“表”、“線條畫”或“照片”的區(qū)域?qū)?yīng)于上述“對象”,并且具有除“字符”外的屬性。另外,字符區(qū)域可以不被確定為文本,并且可以存在于分配有屬性“表”、“線條畫”或“照片”的對象區(qū)域的附近(例如,在該對象區(qū)域的上方或者下方)。在這種情況下,屬性信息分配單元302識別對象區(qū)域作為描述“表”、“線條畫”或“照片”區(qū)域的字符區(qū)域。然后,屬性信息分配單元302將屬性“題注”分配給不被識別作為文本的字符區(qū)域。屬性信息分配單元302以能夠基于存儲的信息來指定附隨有“題注”區(qū)域的對象區(qū)域 (例如,“表”、“線條畫”或“照片”對象)這樣的方式,來存儲題注區(qū)域。更具體地說,分配有屬性“題注”的區(qū)域(下文中稱為“題注區(qū)域”)與附隨有“題注”的對象區(qū)域(下文稱為“題注附隨對象”)相互關(guān)聯(lián)地進行存儲。例如,如圖5B所示, 在“題注附隨區(qū)域”欄中,區(qū)域505(題注區(qū)域)與“區(qū)域503”相關(guān)聯(lián)。另外,如果字符區(qū)域的字符尺寸大于文本區(qū)域的字符圖像的尺寸并且如果字符區(qū)域的位置不同于文本區(qū)域的列設(shè)置,則屬性信息分配單元302將屬性“標題”分配給字符區(qū)域。另外,如果區(qū)域的字符尺寸大于文本區(qū)域的字符圖像的尺寸并且如果區(qū)域位于文本區(qū)域的列設(shè)置的上端,則屬性信息分配單元302將屬性“副標題”分配給該區(qū)域。另外,如果區(qū)域由尺寸等于或小于文本區(qū)域的字符圖像的尺寸的字符圖像構(gòu)成, 并且如果區(qū)域存在于構(gòu)成圖像數(shù)據(jù)的頁的下端部分或上端部分,則屬性信息分配單元302 將屬性“頁”(或“頁眉”或“頁腳”)分配給該區(qū)域。另外,屬性信息分配單元302將屬性 “字符”分配給已被識別作為字符區(qū)域但是不被識別作為“文本”、“標題”、“副標題”、“題注” 或“頁”的區(qū)域。如果對圖5A所示的圖像數(shù)據(jù)進行上述屬性信息分配處理,則屬性“標題”被分配給區(qū)域501,屬性“表”被分配給區(qū)域502,并且屬性“照片,,被分配給區(qū)域503。另外,屬性 “字符”被分配給區(qū)域504,屬性“題注”被分配給區(qū)域505,并且屬性“文本”被分配給區(qū)域 506。由于屬性“題注”被分配給區(qū)域505,因此區(qū)域503作為題注附隨對象與區(qū)域505相關(guān)聯(lián)。另外,在本示例性實施例中,分配有屬性“照片”的區(qū)域503對應(yīng)于“對象”。分配有屬性“文本”的區(qū)域506對應(yīng)于上述“針對對象的解釋說明”,因為區(qū)域506包括錨表述“圖 1”。例如,從圖5B所示的數(shù)據(jù)表可以看出,由屬性信息分配單元302進行的屬性分配將識別的屬性與由區(qū)域分割單元301劃分的各個區(qū)域相關(guān)聯(lián)地存儲在存儲單元211中。字符識別單元303被構(gòu)造為對包含字符圖像的各區(qū)域(即,具有屬性“字符”、“文本”、“標題”、“副標題”或“題注”的各區(qū)域)執(zhí)行傳統(tǒng)上已知的字符識別處理,并且將獲得的結(jié)果作為字符信息以與目標區(qū)域相關(guān)聯(lián)的方式存儲在存儲單元211中。例如,如圖5B所示,在各區(qū)域501、504至506的“字符信息”欄中描述代表字符識別處理結(jié)果的字符信息。將如上所述由區(qū)域分割單元301、屬性信息分配單元302以及字符識別單元303提取的信息(例如區(qū)域?qū)傩孕畔?各區(qū)域的位置和尺寸)、頁信息以及字符識別結(jié)果信息(字符代碼信息))以與各區(qū)域相關(guān)聯(lián)的方式存儲在存儲單元211中。例如,圖5B例示了在對圖5A所示的圖像數(shù)據(jù)500進行處理的情況下存儲在存儲單元211中的數(shù)據(jù)表的示例。盡管在圖5A及圖5B中未詳細描述,但是期望將屬性“表中的字符”分配給屬性為“表”的區(qū)域的字符圖像區(qū)域并對該字符圖像區(qū)域進行字符識別處理, 如果獲得處理結(jié)果,則還將該結(jié)果存儲作為字符信息。如圖5B所示,區(qū)域504是包含在照片或圖中的區(qū)域。因此,屬性“在照片區(qū)域503內(nèi)”被分配給區(qū)域504。鏈接處理單元304被構(gòu)造為生成鏈接信息,所述鏈接信息將由屬性信息分配單元302檢測到的題注附隨對象(即具有屬性“表”、“線條畫”、“照片”或“插圖”的區(qū)域)與“包括錨表述的文本中的解釋表述”鏈接。然后,鏈接處理單元304將生成的鏈接信息存儲在存儲單元211中。以下詳細描述鏈接處理單元304。格式轉(zhuǎn)換單元305被構(gòu)造為基于通過區(qū)域分割單元301、屬性信息分配單元302、 字符識別單元303以及鏈接處理單元304獲得的信息,將輸入圖像數(shù)據(jù)300轉(zhuǎn)換成電子文檔數(shù)據(jù)310。電子文檔數(shù)據(jù)310的文件格式的示例有SVG、XPS、PDF或Off iceOpenXML。轉(zhuǎn)換后的電子文檔數(shù)據(jù)310存儲在存儲單元211中,或者經(jīng)由LAN102發(fā)送到客戶端PC 101。安裝在客戶端PC 101上的應(yīng)用(例如,Internet Explorer、Adobe Reader或 MS Office)使得文檔用戶能夠瀏覽電子文檔數(shù)據(jù)310。以下將詳細描述用于利用應(yīng)用來瀏覽電子文檔數(shù)據(jù)310的示例操作。電子文檔數(shù)據(jù)310包括能利用圖形表現(xiàn)的頁顯示信息(包括要顯示的圖像)以及能利用包括字符的有意義的描述來表現(xiàn)的內(nèi)容信息(例如,鏈接信息)。格式轉(zhuǎn)換單元305的處理可以大致分為兩個,其中一個包括對各圖像區(qū)域進行濾波(諸如平坦化、平滑化、邊緣增強、色彩量化以及二值化)處理,以將各區(qū)域的圖像數(shù)據(jù)轉(zhuǎn)換成具有能夠存儲在電子文檔數(shù)據(jù)310中的指定格式。例如,格式轉(zhuǎn)換單元305將具有屬性“字符”、“線條畫”或“表”的區(qū)域的圖像數(shù)據(jù)轉(zhuǎn)換成矢量路徑描述圖形數(shù)據(jù)(矢量數(shù)據(jù))或位圖描述圖形數(shù)據(jù)(例如,JPEG數(shù)據(jù))。傳統(tǒng)上已知的矢量化技術(shù)可用作能夠?qū)D像數(shù)據(jù)轉(zhuǎn)換成矢量數(shù)據(jù)的技術(shù)。然后, 格式轉(zhuǎn)換單元305將矢量數(shù)據(jù)轉(zhuǎn)換成與存儲在存儲單元211中的區(qū)域信息(例如,位置、尺寸及屬性)、區(qū)域中字符的信息以及鏈接信息相關(guān)聯(lián)的電子文檔數(shù)據(jù)310。另外,上述格式轉(zhuǎn)換單元305根據(jù)取決于區(qū)域的屬性而可變的方法,來對各區(qū)域進行轉(zhuǎn)換處理。例如,矢量轉(zhuǎn)換處理適合于字符或線條畫的單色圖像(或其相當圖像),但是不適合于諸如照片區(qū)域的灰度圖像區(qū)域。如上所述,為了根據(jù)各區(qū)域的屬性進行適當?shù)霓D(zhuǎn)換處理,期望預(yù)先設(shè)置圖5C所示的對應(yīng)表,并且參照該對應(yīng)表進行轉(zhuǎn)換處理。例如,根據(jù)圖5C所示的對應(yīng)表,格式轉(zhuǎn)換單元 305對具有屬性“字符”、“線條畫”或“表”的各區(qū)域進行矢量轉(zhuǎn)換處理,并且對具有屬性“照片”的各區(qū)域進行圖像裁切處理。另外,在圖5C所示的對應(yīng)表中,將進行用于從圖像數(shù)據(jù)300中刪除對應(yīng)區(qū)域的像素信息的處理的必要性與各屬性相關(guān)聯(lián)地進行存儲。例如,根據(jù)圖5C所示的對應(yīng)表,當將具有屬性“字符”的區(qū)域轉(zhuǎn)換成矢量路徑描述數(shù)據(jù)時,格式轉(zhuǎn)換單元305進行刪除處理。因此,對于圖像數(shù)據(jù)300,格式轉(zhuǎn)換單元305進行這樣一種處理,即利用周邊顏色將對應(yīng)于由轉(zhuǎn)換后的矢量路徑包圍的部分的像素標出來。類似地,當具有屬性“照片”的區(qū)域被分割作為矩形的圖像部分時,格式轉(zhuǎn)換單元305利用周邊顏色對圖像數(shù)據(jù)300的對應(yīng)于分割區(qū)域的部分區(qū)域進行標出處理。作為通過上述刪除處理獲得的一方面的效果,在針對各區(qū)域的處理完成以后(即在標出處理結(jié)束以后),圖像數(shù)據(jù)300可以用作“背景”圖像部分數(shù)據(jù)。除通過區(qū)域分割處理劃分的區(qū)域之外的部分(例如,圖像數(shù)據(jù)300中包含的背景像素)可以保留在上述背景圖像數(shù)據(jù)(即背景圖像)中。以使得將通過格式轉(zhuǎn)換單元305進行的矢量轉(zhuǎn)換處理或圖像裁切處理而獲得的圖形數(shù)據(jù)疊加在背景圖像部分數(shù)據(jù)(即背景圖像)上的這種方式,來進行電子文檔數(shù)據(jù)310 的描述。由此,在不丟失背景像素的信息(背景顏色)的情況下構(gòu)成非冗余圖形數(shù)據(jù)變得可行。由此,根據(jù)本示例性實施例的處理包括對具有屬性“字符”的各字符區(qū)域進行二值圖像裁切處理以及進行用于從圖像數(shù)據(jù)300中刪除像素的處理。根據(jù)本示例性實施例的處理可以不包括對具有其他屬性的各區(qū)域進行矢量化處理和圖像裁切處理。更具體地說,除處理目標外的像素(即具有屬性“照片”、“線條畫”或“表”的區(qū)域中像素信息)保留在背景圖像部分數(shù)據(jù)中。因此,根據(jù)本示例性實施例的處理包括將“字符”圖像部分疊加在背景圖像上。另外,預(yù)先準備多個對應(yīng)表(參見圖5C),使得可以根據(jù)要輸出的電子文檔數(shù)據(jù) 310的用途或者考慮到電子文檔的內(nèi)容來選擇表中的適當?shù)囊粋€,也是有用的。例如,基于圖5C所示的對應(yīng)表的輸出,對于放大或縮小的圖像的質(zhì)量方面卓有成效,這是由于對象的大部分被轉(zhuǎn)換成了矢量路徑描述數(shù)據(jù)并且可以被圖形編輯器再使用。另外,作為對應(yīng)表的另一生成方法,通過針對各字符顏色獨立地將字符圖像轉(zhuǎn)換成二值圖像、并且對生成的二值圖像進行可逆壓縮來再現(xiàn)高質(zhì)量字符圖像部分,這也是可行的。另外,通過對作為背景圖像的剩余部分進行JPEG壓縮來增大數(shù)據(jù)大小壓縮的比率, 這也是可行的。這適合于甚至在容易讀取的字符圖像被高度壓縮的情況下該字符圖像的數(shù)據(jù)生成。通過選擇上述生成方法的一種,可以適當?shù)厣呻娮游臋n數(shù)據(jù)。圖6例示了能夠通過數(shù)據(jù)處理單元218生成的電子文檔數(shù)據(jù)310的示例??梢愿鶕?jù)可縮放矢量圖形(Salable Vector Graphics, SVG)格式來描述圖6所示的示例,并且可以在基于存儲在存儲單元211中的數(shù)據(jù)表(圖5B)來處理圖5A所示的圖像數(shù)據(jù)500時獲得圖6所示的示例。盡管基于SVG格式描述了本示例性實施例,但是數(shù)據(jù)格式并不限于SVG 格式,并且可以是PDF、XPS、Office Open XML以及其他PDL格式的任意一種。在圖6所示的電子文檔數(shù)據(jù)描述600中,描述601至606是對應(yīng)于圖5A所示的區(qū)域501至506的圖形的描述。描述601和描述604至606是對使用字符代碼的字符描繪的示例描述。描述602是針對矢量轉(zhuǎn)換表的框的示例矢量路徑描述。描述603是對已經(jīng)歷了裁切處理的要粘貼的照片圖像的示例描述。圖5B和圖6所示的示例包括使用實際通過數(shù)值來替換的符號(諸如坐標值Xl和 Yl)所描述的部分。另外,描述607是針對鏈接信息的示例描述。描述607包括兩個描述 608和609。描述608是與從“題注附隨對象”到“文本中的解釋表述”的鏈接相關(guān)的信息。描述610是與由描述603表示的題注附隨對象以及由描述611表示的圖形數(shù)據(jù)區(qū)域相關(guān)聯(lián)的鏈接標識符。描述612是與文檔的讀者利用應(yīng)用來瀏覽電子文檔數(shù)據(jù)310的情況下要進行的操作相關(guān)的動作信息。該動作信息表示響應(yīng)于由描述611表示的圖形數(shù)據(jù)區(qū)域的按下(選擇)而在應(yīng)用側(cè)進行的顯示操作。描述609是與從“文本中的解釋表述”到“題注附隨對象”的鏈接相關(guān)的信息。描述613至615與描述610至612類似。圖4是例示鏈接處理單元304的示例結(jié)構(gòu)的框圖。以下描述鏈接處理單元304的示例處理內(nèi)容。鏈接信息分配目標選擇單元401被構(gòu)造為選擇題注附隨對象,作為要經(jīng)受針對輸入圖像數(shù)據(jù)進行的鏈接信息生成處理的目標對象。錨表述提取單元402被構(gòu)造為對附隨至由鏈接信息分配目標選擇單元401選擇的對象的題注區(qū)域中的字符信息進行分析,并且從所分析的字符信息中提取錨表述(例如, "Fig. 1”、“圖1”等)。如果找到任何錨表述,則錨表述提取單元402提取字符信息的相應(yīng)部分作為錨表述,并將剩余部分作為題注表述。另外,如果字符代碼特性及庫(dictionary)可用,則錨表述提取單元402可以排除無意義的字符串(例如一行無意義的字符)。這對于消除字符識別中的任何錯誤是有效的。例如,這對于防止沿文檔的文本部分的邊界出現(xiàn)的裝飾、分割線、或者任何圖像被錯誤地解釋為字符,變得可行。另外,為了提取錨表述,將多語言字符串圖案(例如,圖編號)與相應(yīng)字符識別中的錯誤識別圖案存儲在庫中是有用的,因為這樣能夠提高錨表述提取精度并且能校正錨表述字符。另外,錨表述提取單元402可以對題注表述進行類似的處理。更具體地說,錨表述提取單元402可以在自然語言處理中進行分析,并且可以在字符識別中校正錯誤識別。例如,錨表述提取單元402可以被構(gòu)造為校正和排除沿錨表述之間的邊界出現(xiàn)的、或者在錨表述的頭或尾出現(xiàn)的符號及字符裝飾。文本中的錨表述檢索單元403被構(gòu)造為從文檔的各文本區(qū)域中包含的字符信息中、檢索可以通過由錨表述提取單元402進行的錨表述提取處理而提取的錨表述的全部特定字符串(例如,“Fig. ”、“圖”等),并且還將其檢測作為對應(yīng)于對象的文本中的錨表述候選。另外,文本中的錨表述檢索單元403還可以將包含錨表述并且解釋對象的文本中的解釋表述,檢測作為對象解釋表述候選。在本示例性實施例中,為了實現(xiàn)高速檢索,生成檢索索引是可行的。在這種情況下,傳統(tǒng)上已知的索引生成/檢索技術(shù)可用于生成索引并實現(xiàn)高速檢索。另外,可以以批處理的形式來檢索多個錨表述的特定字符串,以實現(xiàn)高速檢索。而且,可以針對文本中的解釋表述,存儲多語言字符串圖案(例如圖編號)以及相應(yīng)字符識別中的錯誤識別圖案。所存儲的信息可以用于提高檢索精度并提供校正功能。鏈接信息生成單元404被構(gòu)造為生成鏈接信息,所述鏈接信息將由鏈接信息分配目標選擇單元401選擇的題注附隨對象、與由文本中的錨表述檢索單元403檢索到并提取的文本中的錨表述候選及解釋表述候選相關(guān)聯(lián)。鏈接信息包括鏈接操作觸發(fā)因子、鏈接動作設(shè)置以及鏈接結(jié)構(gòu)信息,以下將詳細進行描述。在本示例性實施例中,鏈接信息生成單元404生成觸發(fā)因子和鏈接動作設(shè)置,作為從“題注附隨對象”到“文本中可能描述的錨表述及對象解釋表述”的鏈接信息,或者從上述的“文本中的錨表述候選及解釋表述候選”到“可能是插入到文檔中的對象”的鏈接信息。鏈接信息在初始生成時是不完全的,因為其鏈接目的地信息尚未確定。鏈接結(jié)構(gòu)信息生成單元405被構(gòu)造為在由上述鏈接信息生成單元404生成鏈接信息時,生成并更新圖9A至圖9D所示的鏈接結(jié)構(gòu)管理表,所述鏈接結(jié)構(gòu)管理表可用于累積諸如鏈接標識符、出現(xiàn)累計次數(shù)及鏈接目的地信息的鏈接結(jié)構(gòu)信息。鏈接信息輸出單元406被構(gòu)造為收集由鏈接結(jié)構(gòu)信息生成單元405生成的鏈接結(jié)構(gòu)信息,并且使所收集的鏈接結(jié)構(gòu)信息成為能夠被輸出到格式轉(zhuǎn)換單元305的格式。格式轉(zhuǎn)換單元305可以基于所收集的鏈接結(jié)構(gòu)信息來生成電子文檔數(shù)據(jù)310。鏈接處理控制單元407被構(gòu)造為整體控制鏈接處理單元304。作為主要作用,鏈接處理控制單元407將存儲在圖2所示的存儲單元211中的區(qū)域信息411 (例如與各區(qū)域相關(guān)聯(lián)的位置、尺寸和屬性信息)及區(qū)域中的字符信息412連同圖像數(shù)據(jù)300的各區(qū)域一起, 分配給處理單元401至406中的適當?shù)囊徽摺A硗?,如果從處理單?01至406的一者接收到任何信息,則鏈接處理控制單元 407進行用于將接收到的信息發(fā)送到適當?shù)奶幚韱卧目刂?。區(qū)域信息411和字符信息412 具有與由區(qū)域分割單元301從圖像數(shù)據(jù)300劃分的各區(qū)域相關(guān)聯(lián)的數(shù)據(jù)表的格式(參見圖 5B),并且被存儲在存儲單元211中。以下將參照實際處理來詳細描述可以由鏈接處理單元304的各個部分(圖4所示的處理單元401至407的各個)進行的示例操作。接下來,參照圖7所示的流程圖來描述可以由根據(jù)第一示例性實施例的圖像處理系統(tǒng)進行的整個處理。圖7所示的流程圖包括對由圖1所示的掃描器單元201輸入的多頁的圖像數(shù)據(jù)逐頁進行處理,并且將處理后的數(shù)據(jù)轉(zhuǎn)換成包括多頁的電子文檔數(shù)據(jù)。在本示例性實施例中,多頁的圖像數(shù)據(jù)是例如包括被相繼(逐一)指定作為處理目標的多頁圖像的圖IOA所示的文檔。在下文中,將詳細描述圖7所示的流程圖的各步驟。在步驟S701中,數(shù)據(jù)處理單元218將可用于生成鏈接結(jié)構(gòu)信息的鏈接結(jié)構(gòu)管理表初始化,所述鏈接結(jié)構(gòu)信息能夠記錄對象與描述該對象的解釋說明之間的對應(yīng)關(guān)系。以下詳細描述鏈接結(jié)構(gòu)信息和鏈接結(jié)構(gòu)管理表。在步驟S702中,區(qū)域分割單元301從對應(yīng)于1頁的輸入圖像數(shù)據(jù)中提取區(qū)域。例如,區(qū)域分割單元301對圖IOA所示的圖像數(shù)據(jù)1001 (第1頁)進行區(qū)域分割處理,并提取區(qū)域1006。另外,在步驟S702中,區(qū)域分割單元301識別與區(qū)域1006相關(guān)的信息(諸如圖IOB所示的數(shù)據(jù)表中的“坐標X”、“坐標Y”、“寬度W”、“高度H”以及“頁”),并將這些數(shù)據(jù)以與區(qū)域1006相關(guān)聯(lián)的方式存儲在存儲單元211中。在步驟S703中,屬性信息分配單元302根據(jù)區(qū)域的類型將屬性分配給在步驟S702 中劃分的各區(qū)域。例如,根據(jù)圖IOA所示的示例圖像數(shù)據(jù)1003(第3頁),屬性信息分配單元302將屬性“照片”分配給區(qū)域1009并將屬性“題注”分配給區(qū)域1010。在這種情況下,屬性信息分配單元302將表示“照片”區(qū)域1009是附隨題注的目標對象的信息添加到區(qū)域1010。更具體地說,區(qū)域1009變?yōu)轭}注附隨對象。如上所述,屬性信息分配單元302將圖IOB所示的“屬性”和“附隨目標對象”信息與各相應(yīng)區(qū)域相關(guān)聯(lián)地存儲在存儲單元211中。在步驟S704中,字符識別單元303對在步驟S703中分配了字符(例如文本、題注、 標題或副標題)屬性的區(qū)域執(zhí)行字符識別處理。字符識別單元303將字符識別處理的結(jié)果作為字符信息以與相應(yīng)區(qū)域相關(guān)聯(lián)的方式存儲在存儲單元211中。例如,在步驟S704中, 字符識別單元303將圖IOB所示的“字符信息”作為字符識別處理的結(jié)果存儲在存儲單元 211 中。在步驟S705中,鏈接處理單元304執(zhí)行包括錨表述和題注附隨對象的提取、圖形數(shù)據(jù)的生成以及鏈接信息的生成的鏈接處理。以下參照圖8所示的流程圖詳細描述可以由鏈接處理單元304在步驟S705中執(zhí)行的處理的詳細內(nèi)容。如果上述處理完成,則處理進入到步驟S706。以下參照圖8所示的流程圖、基于圖IOA所示的輸入數(shù)據(jù)1001至1005的示例,來描述要在圖7所示的步驟S705中進行的鏈接處理的詳細內(nèi)容。當輸入第1頁(即圖IOA所示的圖像數(shù)據(jù)1001)時要進行的鏈接處理中的操作在圖8所示的步驟S801中,鏈接處理單元304的鏈接信息分配目標選擇單元401 根據(jù)存儲單元211中存儲的區(qū)域信息411,選擇尚未經(jīng)受鏈接信息生成處理的字符區(qū)域的一個文本區(qū)域。更具體地說,如果存在未處理的文本區(qū)域(步驟S801中的“是”),則鏈接信息分配目標選擇單元401選擇未處理的文本區(qū)域作為處理目標,并且處理進行到步驟S802。另一方面,如果不存在任何文本區(qū)域(步驟S801中“否”),或者如果完成了全部處理,則處理進行到步驟S807。由于圖像數(shù)據(jù)1001包括文本區(qū)域1006,因此處理進入步驟S802。在步驟S802中,文本中的錨表述檢索單元403從與由鏈接信息分配目標選擇單元 401在步驟S801中選擇的文本區(qū)域相對應(yīng)的字符信息412中,檢索可以通過由錨表述提取單元402進行的錨表述提取處理所提取的錨表述的全部特定字符串(例如,“Fig. ”、“圖”、 “表”及其與數(shù)字的組合等)。如果檢測到錨表述候選,則文本中的錨表述檢索單元403還檢索包括檢測到的錨表述并且描述了文本中的對象的解釋表述候選。然后,處理進入步驟S803。另一方面,如果沒有檢測到錨表述候選,則文本中的錨表述檢索單元403確定不存在任何分配了鏈接信息的相應(yīng)部分。然后,處理返回到步驟S801。當鏈接處理單元304處理圖像數(shù)據(jù)1001時,文本中的錨表述檢索單元403從文本區(qū)域1006中檢索“Fig. 1”(“圖1”)區(qū)域1007作為錨表述候選。文本中的錨表述檢索單元403將對應(yīng)于圖IOB所示的區(qū)域1006的“錨表述候選”信息存儲在存儲單元211中。另外,文本中的錨表述檢索單元403將包括詞“Fig. 1” ( “圖1”)的語句作為解釋表述候選、 以與錨表述候選相關(guān)聯(lián)的方式存儲在存儲單元211中。接著,處理進行到步驟S803。在步驟S803中,鏈接信息生成單元404生成鏈接標識符,并且將生成的鏈接標識符與在步驟S802中檢測到的錨表述候選的區(qū)域相關(guān)聯(lián)。該步驟中生成的鏈接標識符可以用于識別分配了鏈接信息的區(qū)域。當鏈接處理單元304處理圖像數(shù)據(jù)1001時,鏈接信息生成單元404將鏈接標識符 “text_figl-l”與文本區(qū)域1006中存在的區(qū)域1007相關(guān)聯(lián)。另外,鏈接信息生成單元404 將圖IOB所示的數(shù)據(jù)表中的對應(yīng)于區(qū)域1006的“鏈接標識符”信息,存儲在存儲單元211 中。如果文本中存在類似于“Fig. 1(圖1)”的多個(N個)錨表述候選,則鏈接信息生成單元404將鏈接標識符“teXt_figl-l”至“text_figl-N”分別與這些錨表述候選相關(guān)聯(lián)。在步驟S804中,鏈接信息生成單元404生成圖形數(shù)據(jù),并將生成的圖形數(shù)據(jù)與在步驟S803中生成的鏈接標識符相關(guān)聯(lián)。在這種情況下,例如如果讀者在利用應(yīng)用瀏覽在本示例性實施例中生成的電子文檔數(shù)據(jù)310時、通過鼠標點擊了文檔中的對象,則圖形數(shù)據(jù)是要用于強調(diào)鏈接目的地目標區(qū)域(即文本中的錨表述)的位置的圖形描繪信息(例如,紅色矩形)。當鏈接處理單元304處理圖像數(shù)據(jù)1001時,鏈接信息生成單元404將鏈接標識符 “text_figl-l”與圖形數(shù)據(jù)(“坐標 X”,“坐標 Y”,“寬度 W”,“高度 H”)= ( “X17”,“Y17”, “W17”,“H17”)相關(guān)聯(lián),如圖IOC的區(qū)域1017所示。圖IOD所示的圖形數(shù)據(jù)1022是圖形數(shù)據(jù)的示例。圖形數(shù)據(jù)1022是疊加在區(qū)域1007上的矩形信息。圖形數(shù)據(jù)1022是能夠用于實現(xiàn)圖形顯示的描繪信息,所述圖形顯示使得用戶能夠識別文本中的解釋表述中包含的錨表述的位置。更具體地說,圖形數(shù)據(jù)1022是當讀者點擊題注附隨對象以移動到包括該題注附隨對象的解釋表述的頁中時,可用于簡單表示位置(例如段落編號、行編號等)的描繪信息。作為圖形數(shù)據(jù)的示例,圖IOD所示的圖形數(shù)據(jù)1022圍繞錨表述。然而,圖形數(shù)據(jù)不限于所示的示例。例如,要生成的圖形數(shù)據(jù)可以不包括錨表述的位置??梢云谕杀硎疚谋局械陌ㄥ^表述的解釋表述的位置的圖形數(shù)據(jù)(例如,圍繞包括錨表述的語句的矩形),作為描繪信息。此外,根據(jù)本示例性實施例的圖形數(shù)據(jù)不限于矩形,而可以是能夠?qū)崿F(xiàn)形狀或線 (例如,圓形、星形、箭頭、下劃線等)的容易理解的強調(diào)顯示的任何其他描繪信息。在步驟S805中,鏈接信息生成單元404生成表示從文本中的錨表述候選到假定存在于文檔中的對象的鏈接的鏈接信息。該鏈接信息是與當根據(jù)本示例性實施例的電子文檔的讀者對文本中的解釋表述(主要為文本中的解釋表述中包含的錨表述)進行任何動作 (下文中稱為“觸發(fā)因子”)時的操作相關(guān)的鏈接動作設(shè)置。例如,當讀者利用鼠標點擊(作為觸發(fā)因子)錨表述區(qū)域時,鏈接信息生成單元 404強調(diào)對應(yīng)于鏈接目的地對象的圖形,以使得該讀者能夠打開包括該對象的頁的畫面。另外,在不存在鏈接目的地對象的情況下,鏈接信息生成單元404可以進行類似的設(shè)置。根據(jù)圖IOC中描述的設(shè)置,如果不存在鏈接目的地對象,則不進行操作(用“_”表示)。作為選擇,顯示表示不存在鏈接目的地的消息也是可行的。上述鏈接信息被描述作為圖IOC所示的“觸發(fā)因子”類型以及“鏈接動作設(shè)置”信息,并被存儲在圖2所示的存儲單元211中。在步驟S806中,鏈接結(jié)構(gòu)信息生成單元405更新用來構(gòu)成鏈接結(jié)構(gòu)信息的鏈接結(jié)構(gòu)管理表,所述鏈接結(jié)構(gòu)信息描述了對象與描述該對象的解釋表述(錨表述候選)之間的對應(yīng)關(guān)系。更新鏈接結(jié)構(gòu)管理表,使得通過將在完成最后一頁的處理后要獲得的鏈接結(jié)構(gòu)信息與在步驟S805中設(shè)置的觸發(fā)因子和鏈接動作設(shè)置相關(guān)聯(lián),來完成實現(xiàn)相互鏈接的鏈接信息,是可行的。圖9A至圖9D例示了鏈接結(jié)構(gòu)管理表的示例。鏈接結(jié)構(gòu)管理表包括存儲了在步驟 S802中檢測到的錨表述候選和出現(xiàn)次數(shù)、在步驟S803中生成的鏈接標識符、要在步驟S808 中提取的錨表述、以及要在步驟S809中生成的鏈接標識符的多個欄,這些內(nèi)容被存儲在存儲單元211中。以下參照圖9A至圖9D描述響應(yīng)于第1頁上的圖像數(shù)據(jù)1001的輸入來生成鏈接結(jié)構(gòu)管理表的示例方法。首先,鏈接結(jié)構(gòu)信息生成單元405檢查在“錨表述”欄中以及在“錨表述候選”欄中是否存在步驟S802中檢測到的錨字符候選“Fig. 1” ( “圖1”)。如果已經(jīng)存在與所檢測到的錨字符候選一致的錨表述或者錨表述候選,則鏈接結(jié)構(gòu)信息生成單元405確定所檢測到的錨字符候選是鏈接目標,并且將與所檢測到的錨字符候選相關(guān)的數(shù)據(jù)附加登記(附加記錄)在既有欄中。另一方面,如果不存在與所檢測到的錨字符候選一致的任何錨表述(或錨表述候選),則鏈接結(jié)構(gòu)信息生成單元405確定未確定鏈接目的地,并且新登記數(shù)據(jù)。在檢測圖IOA所示的錨表述候選1007時,不存在任何一致的數(shù)據(jù)。因此,鏈接結(jié)構(gòu)信息生成單元405新生成數(shù)據(jù)901,并且將“Fig. 1”(“圖1”)附加記錄在“錨表述候選” 欄中,將“ 1,,附加記錄在“出現(xiàn)次數(shù)”欄中。然后,鏈接結(jié)構(gòu)信息生成單元405將在步驟S803中生成的鏈接標識符“text_ figl-1”附加記錄在“鏈接標識符”欄中。作為結(jié)果,在完成第1頁的處理時,能夠生成圖9A 所示的鏈接結(jié)構(gòu)管理表,并將其存儲在存儲單元211中。在步驟S807中,鏈接信息分配目標選擇單元401根據(jù)存儲單元211中存儲的區(qū)域信息411,來選擇題注附隨對象中的尚未經(jīng)歷鏈接信息生成處理的一個區(qū)域(對象)。更具體地說,如果存在未處理的題注附隨對象,則鏈接信息分配目標選擇單元401選擇未處理的題注附隨對象作為處理目標。然后,處理進入步驟S808。如果不存在任何題注附隨對象,或者如果徹底完成了處理,則鏈接信息分配目標選擇單元401結(jié)束圖8所示的流程圖的處理過程。然后,處理進入圖7所示的步驟S706。第1頁的圖像數(shù)據(jù)1001不包括任何題注附隨對象。因此,鏈接信息分配目標選擇單元401結(jié)束圖8所示的流程圖的處理過程。然后,處理進入圖7所示的步驟S706。在步驟S706中,格式轉(zhuǎn)換單元305對處理后的數(shù)據(jù)進行格式轉(zhuǎn)換處理。在步驟 S707中,圖像處理系統(tǒng)發(fā)送處理頁的數(shù)據(jù)。在步驟S708中,圖像處理系統(tǒng)確定是否處理了全部頁。如果確定存在待處理的下一頁(步驟S708中“否”),則處理返回步驟S702,在步驟S702中區(qū)域分割單元301指定下一頁的圖像1002作為處理目標,并且對圖像1002進行上述處理。當輸入第2頁(即圖IOA所示的圖像數(shù)據(jù)1002)時要進行的鏈接處理中的操作在步驟S801中,鏈接信息分配目標選擇單元401從圖像數(shù)據(jù)1002中選擇文本區(qū)域1008。然后,處理進入步驟S802。在步驟S802中,文本中的錨表述檢索單元403對圖像數(shù)據(jù)1002的文本區(qū)域1008進行錨表述候選檢測處理。在這種情況下,文本中的錨表述檢索單元403無法檢測到任何錨表述候選。因此,處理返回到步驟S801,在步驟S801中確定是否存在任何未處理的字符區(qū)域。然后,在完成整個文本區(qū)域的處理之后,處理進入步驟S807。在步驟S807中,鏈接信息分配目標選擇單元401確定圖像數(shù)據(jù)1002不包括任何題注附隨對象,并且結(jié)束圖8所示的流程圖的處理過程。然后,處理進入圖7所示的步驟S706。當輸入第3頁(即圖IOA所示的圖像數(shù)據(jù)1003)時要進行的鏈接處理中的操作在步驟S801中,鏈接信息分配目標選擇單元401確定不存在任何文本區(qū)域。然后, 處理進入步驟S807。在步驟S807中,鏈接信息分配目標選擇單元401從圖像數(shù)據(jù)1003中選擇未處理的題注附隨對象1009。然后,處理進入步驟S808。在步驟S808中,錨表述提取單元402從附隨由鏈接信息分配目標選擇單元401在步驟S807中選擇的題注附隨對象的題注區(qū)域的字符信息中,提取錨表述和題注表述。如果提取到錨表述(步驟S808中“是”),則處理進入步驟S809。如果沒有提取到錨表述(步驟 S808中“否”),則處理返回步驟S807。在本示例性實施例中,錨表述是識別題注附隨對象的字符信息(即字符串)。題注表述是簡單描述題注附隨對象的字符信息(即字符串)。例如,附隨題注附隨對象的題注由錨表述或題注表述構(gòu)成,或者可以由其組合構(gòu)成,或者可以不包括它們中的任何一者。例如,在許多情況下,錨表述可以由諸如“Fig. ”或“圖”的特定字符串與數(shù)字或符號的組合構(gòu)成。因此,準備存儲有預(yù)先登記的特定字符串的錨字符串庫、使得可以將題注表述與庫中存儲的登記數(shù)據(jù)進行比較以指定錨部分(即錨字符串+數(shù)字/符號),也是有用的。另外,確定錨表述以外的題注區(qū)域中的字符串作為題注表述也是有用的。當鏈接處理單元304處理圖像數(shù)據(jù)1003時,錨表述提取單元402提取題注附隨對象1009。錨表述提取單元402從附隨對象1009的題注區(qū)域1010中提取錨表述和題注表述。附隨題注附隨對象1009的題注區(qū)域1010的字符信息是“圖1AAA”。因此,錨表述提取單元402識別“圖1”作為錨表述并識別“AAA”作為題注表述。另外,在步驟S808中,錨表述提取單元402將對應(yīng)于題注區(qū)域1010的“錨表述”信息存儲在存儲單元211中,如圖IOB 所示。在步驟S809中,鏈接信息生成單元404生成鏈接標識符,并將生成的鏈接標識符與由鏈接信息分配目標選擇單元401選擇的題注附隨對象相關(guān)聯(lián)。當鏈接處理單元304處理圖像數(shù)據(jù)1003(即第3頁)時,鏈接信息生成單元404 例如針對題注附隨對象1009生成鏈接標識符“image_figl-l”,并利用數(shù)據(jù)表將它們相互關(guān)聯(lián)。在這種情況下,從圖IOB中所示的數(shù)據(jù)表可以看出,鏈接信息生成單元404將對應(yīng)于區(qū)域1009的“鏈接標識符”信息存儲在存儲單元211中。在步驟S810中,鏈接信息生成單元404生成可以識別對象的圖形數(shù)據(jù),并將生成的圖形數(shù)據(jù)與在步驟S809中生成的鏈接標識符相關(guān)聯(lián)。在步驟S810中生成的圖形數(shù)據(jù)是當文本中的對象錨表述被點擊時可以用來強調(diào)鏈接目標對象的描繪信息。當鏈接處理單元304處理圖像數(shù)據(jù)1003時,鏈接信息生成單元404將鏈接標識符 “image_figl-l”與圖形數(shù)據(jù)(“坐標 X”,“坐標 Y”,“寬度 W”,“高度 H”)= ( “X18”,“Y18,,, “W18”,“H18”)相關(guān)聯(lián),從圖IOC所示的區(qū)域1018可以看出。圖IOD所示的圖形數(shù)據(jù)1023是圖形數(shù)據(jù)的示例。圖形數(shù)據(jù)1023是疊加在區(qū)域 1009上的矩形信息。另外,根據(jù)本示例性實施例的圖形數(shù)據(jù)不限于矩形,而可以是能夠?qū)崿F(xiàn)形狀或線的容易理解的強調(diào)顯示的任何其他描繪信息。在步驟S811中,鏈接信息生成單元404生成表示從題注附隨對象到文本中存在的解釋表述(錨表述)的鏈接的鏈接信息。該鏈接信息包括觸發(fā)因子及鏈接動作設(shè)置。另外, 輸入文檔中包含的鏈接目的地的數(shù)量不限于僅一個。輸入文檔可以包括多個鏈接目的地或者可以不包括任何鏈接目的地。因此,鏈接信息生成單元404針對“無”、“僅一個”以及“多個”鏈接目的地的各個,獨立地進行鏈接動作設(shè)置。例如,在不存在鏈接目的地的情況下,鏈接信息生成單元404 “_(不進行任何處理)”。在僅存在一個鏈接目的地的情況下,鏈接信息生成單元 404 “(用紅色)強調(diào)文本中的相應(yīng)錨表述+移動至包括該錨表述的描述的頁”。在存在兩個或更多個鏈接目的地的情況下,鏈接信息生成單元404“顯示各自包括相應(yīng)錨表述的描述
20的頁的列表”。要根據(jù)本示例性實施例進行的鏈接工作,不限于上述示例。例如,如果不存在任何鏈接目的地,則鏈接信息生成單元404可以顯示表示不存在移動目的地的“消息”或“錯誤”。另外,如果存在多個鏈接目的地,則鏈接信息生成單元404可以顯示表示存在針對移動目的地的多個選項的“消息”或“錯誤”。上述鏈接信息作為“觸發(fā)因子”和“鏈接動作設(shè)置”信息被寫入圖IOC所示的區(qū)域1018中,并被存儲在存儲單元211中。在步驟S812中,鏈接結(jié)構(gòu)信息生成單元405更新可用來構(gòu)成對象與描述該對象的解釋表述之間的對應(yīng)關(guān)系的鏈接結(jié)構(gòu)管理表。以下參照圖9A至圖9D來描述響應(yīng)于圖像數(shù)據(jù)1003的輸入而更新鏈接結(jié)構(gòu)管理表的示例方法。首先,該方法包括檢查在“錨表述候選”欄中是否存在在步驟S808中檢測到的錨字符“圖1”。圖9A所示的鏈接結(jié)構(gòu)管理表包括數(shù)據(jù)901的“錨表述候選”欄中的一致的數(shù)據(jù)。因此,鏈接結(jié)構(gòu)信息生成單元405附加記錄上述數(shù)據(jù)。更具體地說,鏈接結(jié)構(gòu)信息生成單元405附加記錄數(shù)據(jù)901的“錨表述”欄中的“圖1”以及數(shù)據(jù)901的鏈接標識符欄中的在步驟S803中生成的鏈接標識符“teXt_figl-l”。作為結(jié)果,圖9B所示的鏈接結(jié)構(gòu)管理表可以被生成并存儲在存儲單元211中。如果完成了全部區(qū)域的處理,則鏈接信息分配目標選擇單元401結(jié)束針對圖像數(shù)據(jù)1003的鏈接處理。然后,處理進入圖7所示的步驟S706。當輸入第4頁(即圖IOA所示的圖像數(shù)據(jù)1004)時要進行的鏈接處理中的操作在步驟S801中,文本中的錨表述檢索單元403選擇文本區(qū)域1011。然后,處理進入步驟S802。在步驟S802中,文本中的錨表述檢索單元403提取文本區(qū)域1011中包含的字符串“圖1”作為錨表述候選1013。然后,處理進入步驟S803。在步驟S803中,鏈接信息生成單元404生成鏈接標識符“text_figl_2”并將生成的鏈接標識符以與在步驟S802中提取的錨表述候選區(qū)域1013相關(guān)聯(lián)的方式進行存儲(參見圖IOB所示的欄1011)。在步驟S804中,鏈接信息生成單元404生成要用于強調(diào)錨表述候選1013的圖形數(shù)據(jù),并將生成的圖形數(shù)據(jù)與上述鏈接標識符相關(guān)聯(lián)(參見圖IOC所示的欄1019)。在步驟S805中,鏈接信息生成單元404生成針對錨表述候選1013的鏈接信息(例如,觸發(fā)因子及鏈接動作設(shè)置)(參見圖IOC所示的欄1019)。在步驟S806中,鏈接結(jié)構(gòu)信息生成單元405更新鏈接結(jié)構(gòu)管理表。鏈接結(jié)構(gòu)信息生成單元405確認在圖9A至圖9D所示的鏈接結(jié)構(gòu)管理表的“錨表述”欄和“錨表述候選” 欄中是否存在在步驟S802中檢測到的錨表述候選“圖1”。在這種情況下,在數(shù)據(jù)901的“錨表述候選”欄中存在一致的描述。因此,鏈接結(jié)構(gòu)信息生成單元405將出現(xiàn)次數(shù)增加1并新記錄鏈接標識符“text_f igl-2”。類似地,鏈接結(jié)構(gòu)信息生成單元405針對文本區(qū)域1012重復(fù)上述步驟S801至 S806的處理。圖9C例示了當完成針對第4頁的圖像數(shù)據(jù)1004的處理時可以獲得的鏈接結(jié)
構(gòu)管理表。
當鏈接處理單元304處理圖像數(shù)據(jù)1004時,在步驟S807中,鏈接信息分配目標選擇單元401確定在圖像數(shù)據(jù)1004中不存在題注附隨對象,并且結(jié)束圖8所示的流程圖的處理過程。然后,處理進入圖7所示的步驟S706。當輸入第5頁(即圖IOA所示的圖像數(shù)據(jù)1005)時要進行的鏈接處理中的操作當鏈接處理單元304處理圖像數(shù)據(jù)1005時,在步驟S801中,文本中的錨表述檢索單元403選擇文本區(qū)域1015。然后,處理進入到步驟S802。在步驟S802中,文本中的錨表述檢索單元403檢測到字符串“圖2”作為文本區(qū)域1015中的錨表述候選1016。然后,處理進入到步驟S803。在步驟S803中,鏈接信息生成單元404生成鏈接標識符“teXt_fig2-l”,并且將生成的鏈接標識符以與在步驟S802中提取的錨表述候選區(qū)域1016相關(guān)聯(lián)的方式進行存儲 (參見圖IOB所示的欄1015)。在步驟S804中,鏈接信息生成單元404生成要用于強調(diào)錨表述候選1016的圖形數(shù)據(jù),并將生成的圖形數(shù)據(jù)與鏈接標識符“teXt_fig2-l”相關(guān)聯(lián)(參見圖IOC所示的欄 1021)。在步驟S805中,鏈接信息生成單元404生成針對錨表述候選1016的鏈接信息(即觸發(fā)因子和鏈接動作設(shè)置)(參見圖IOC所示的欄1021)。在步驟S806中,鏈接結(jié)構(gòu)信息生成單元405更新鏈接結(jié)構(gòu)管理表。鏈接結(jié)構(gòu)信息生成單元405確認在圖9A至圖9D所示的鏈接結(jié)構(gòu)管理表的“錨表述”欄和“錨表述候選” 欄中不存在步驟S802中檢測到的錨表述候選“圖2”。然后,鏈接結(jié)構(gòu)信息生成單元405附加記錄數(shù)據(jù)902中的新鏈接結(jié)構(gòu)信息。圖9D 例示了當完成針對第5頁的圖像數(shù)據(jù)1005的處理時可以獲得的鏈接結(jié)構(gòu)管理表。當鏈接處理單元304處理圖像數(shù)據(jù)1005時,在步驟S807中,鏈接信息分配目標選擇單元401確定在圖像數(shù)據(jù)1005中不存在題注附隨對象,并且結(jié)束圖8所示的流程圖的處理過程。然后,處理進入圖7所示的步驟S706。如上所述,在圖8中,步驟S801至S806中進行的處理是針對文本區(qū)域的,而步驟 S807至S812中進行的處理是針對題注附隨對象的。通過使用在完成針對所有頁的處理之后生成的鏈接結(jié)構(gòu)信息(鏈接結(jié)構(gòu)管理表),即通過在步驟S709中發(fā)送鏈接結(jié)構(gòu)信息,由上述處理生成的鏈接信息能夠完成“題注附隨對象”與“文本中的該對象的錨表述和解釋表述”之間的雙向鏈接。如上所述,鏈接處理單元304能夠完成圖8所示的流程圖的處理。返回參照圖7,在步驟S706中,格式轉(zhuǎn)換單元305基于待處理的目標頁的圖像數(shù)據(jù)300以及圖IOB和圖IOC所示的存儲在存儲單元211中的信息,將鏈接處理數(shù)據(jù)轉(zhuǎn)換成電子文檔數(shù)據(jù)310。如參照圖4所描述的,格式轉(zhuǎn)換單元305根據(jù)描述了要應(yīng)用于各區(qū)域的轉(zhuǎn)換處理方法的對應(yīng)表,對圖像數(shù)據(jù)300的各區(qū)域執(zhí)行轉(zhuǎn)換處理。在本示例性實施例中,假定格式轉(zhuǎn)換單元305利用圖5C所示的對應(yīng)表來進行轉(zhuǎn)換處理。更具體地說,對于處理目標頁圖像,可以基于圖IOB和圖IOC所示的數(shù)據(jù)來生成電子文檔的轉(zhuǎn)換了格式的頁數(shù)據(jù)。生成的電子文檔頁包括頁的各個轉(zhuǎn)換區(qū)域的數(shù)據(jù)、表示鏈接目的地的位置的描繪信息(圖形數(shù)據(jù))以及鏈接標識符。此外,當圖IOB所示的表示字符識別結(jié)果的字符信息被存儲在電子文檔的各頁中時,文本檢索變得可行。
在步驟S707中,數(shù)據(jù)處理單元218將在步驟S706中轉(zhuǎn)換了格式的電子文檔頁,逐頁發(fā)送到客戶端PC 101。在步驟S708中,數(shù)據(jù)處理單元218確定是否針對所有頁完成了上述步驟S702至 S707中的處理。如果確定完成了針對所有頁的處理(步驟S708中“是”),則處理進入步驟 S709。如果確定存在至少一個未處理的頁(步驟S708中“否”),則數(shù)據(jù)處理單元218指定下一個未處理的頁作為處理目標并且重復(fù)上述步驟S702至S707的處理。如上所述,數(shù)據(jù)處理單元218對圖IOA所示的對應(yīng)于5頁的圖像數(shù)據(jù)1001至1005進行步驟S702至S707 的處理。在步驟S709中,鏈接信息輸出單元406基于在步驟S705中生成的鏈接結(jié)構(gòu)管理表(參見圖9D)以及圖IOC所示的各頁的鏈接信息來進行格式轉(zhuǎn)換,并生成整個電子文檔的鏈接信息數(shù)據(jù)(例如,鏈接結(jié)構(gòu)信息、觸發(fā)因子以及鏈接動作設(shè)置),然后發(fā)送生成的鏈接信息數(shù)據(jù)。然后,通過發(fā)送目的地設(shè)備將鏈接信息數(shù)據(jù),與在步驟S707中發(fā)送的具有在步驟S706中轉(zhuǎn)換的格式的各頁的電子文檔數(shù)據(jù)進行綜合。更具體地說,由于各頁的電子數(shù)據(jù)在步驟S707中已被發(fā)送,因此鏈接信息數(shù)據(jù)通過接收端裝置(即客戶端PC 101)被添加到電子文檔數(shù)據(jù)。圖11示意性地例示了要發(fā)送到客戶端PC 101的電子文檔數(shù)據(jù)(第1至第5頁)及鏈接信息。圖11所示的電子文檔數(shù)據(jù)包括對應(yīng)于第1至第5頁的電子文檔數(shù)據(jù)1101至1105,以及鏈接信息數(shù)據(jù)1106。鏈接信息數(shù)據(jù)1106包括與錨表述“圖1”相關(guān)的鏈接結(jié)構(gòu)信息,這表示對象鏈接標識符“image_figl-l”與作為從文本中提取的錨表述候選的鏈接標識符“teXt_figl-l”、 “text_figl-2” 和 “text_figl-3” 鏈接。另夕卜,如果點擊了對象“image_figl-l”,則可以顯示多個鏈接目的地的列表,以指示用戶可以選擇所述鏈接目的地中的期望目的地。另外,如果點擊了文本中的錨表述候選 “text_figl-l”、“text_figl-2”和“text_figl-3”中的任何一個,則強調(diào)對應(yīng)于相互鏈接的對象的圖形,以指示打開顯示鏈接目的地對象的頁。如上所述,數(shù)據(jù)處理單元218能夠完成圖7所示的流程圖的處理。在上述示例性實施例中,圖7和圖8所例示的流程圖中的處理,通過圖2所示的數(shù)據(jù)處理單元218(更具體地說,圖3所示的處理單元301至30 來執(zhí)行。根據(jù)本示例性實施例的CPU 205在功能上可作為數(shù)據(jù)處理單元218(即圖3所示的處理單元301至305)來操作。為此,CPU 205從存儲單元211(即計算機可讀存儲介質(zhì))中讀取計算機程序,并執(zhí)行所讀出的程序。然而,數(shù)據(jù)處理單元218并不限于CPU205。例如,適當?shù)碾娮与娐坊蛉魏纹渌布部捎米鲾?shù)據(jù)處理單元218(即圖3所示的處理單元301至305)。接著,以下參照圖12所示的流程圖來描述可以由接收端裝置執(zhí)行的示例處理。客戶端PC 101(即接收端裝置)逐頁接收從MFP 100(即發(fā)送端裝置)發(fā)送的電子文檔數(shù)據(jù), 并最終接收鏈接信息數(shù)據(jù)。首先,在步驟S1201中,客戶端PC 101接收在圖7所示的步驟S707中發(fā)送的(各頁的)電子文檔數(shù)據(jù),即相繼接收以圖像數(shù)據(jù)1001開始的頁數(shù)據(jù)。接著,在步驟S1202中,客戶端PC 101確定是否已徹底接收了全部頁的電子文檔數(shù)據(jù)。如果已接收了全部頁的電子文檔數(shù)據(jù)(步驟S1202中的“是”),則處理進入步驟S1203。如果存在尚未接收的任何電子文檔數(shù)據(jù)(步驟S1202中的“否”),則處理返回到步驟S1201,在步驟S1201中客戶端PC 101接收與下一頁相關(guān)的數(shù)據(jù)。接著,在步驟S1203中,客戶端PC 101接收作為在圖7所示的步驟S709中發(fā)送的數(shù)據(jù)的鏈接結(jié)構(gòu)信息。最后,在步驟S1204中,客戶端PC 101將在步驟1201中接收到的電子文檔數(shù)據(jù) (即第1至第5頁)與在步驟S1203中接收到的鏈接信息數(shù)據(jù)組合,并將組合數(shù)據(jù)存儲在客戶端PC 101的存儲區(qū)域(未例示)中。在本示例性實施例中,客戶端PC 101將組合數(shù)據(jù)存儲作為由多頁構(gòu)成的電子文檔文件。接下來,以下參照圖14所示的流程圖來描述可以由應(yīng)用執(zhí)行、以基于根據(jù)本示例性實施例的電子文檔數(shù)據(jù)的描述、來實現(xiàn)相互鏈接的示例操作。在本示例性實施例中,每次用戶在電子文檔數(shù)據(jù)的顯示畫面上的期望錨表述或?qū)ο髴?yīng)用的部分進行點擊時,應(yīng)用執(zhí)行圖14所示的流程圖的處理。在步驟S1401中,應(yīng)用檢查針對點擊的對象(或錨表述)的鏈接信息是否與移動信息臨時相關(guān)聯(lián)。如果確定鏈接信息與移動信息相關(guān)聯(lián)(步驟S1401中“是”),則處理進行到步驟S1402。另一方面,如果確定鏈接信息不與移動信息相關(guān)聯(lián)(步驟S1401中“否”), 則處理進行到步驟S 1403。在本示例性實施例中,如果鏈接目的地對象被點擊,以返回至包括前一(變遷前) 鏈接源錨表述的頁,則移動信息在從鏈接源錨表述至包括鏈接目的地對象的頁的變遷中可用。例如,現(xiàn)假定讀者點擊多個錨表述中的一個,并且基于鏈接信息生成從鏈接源錨表述到包括鏈接目的地對象的頁的變遷。在這種情況下,將與點擊鏈接源錨表述相關(guān)的信息作為移動信息,以與鏈接目的地對象相關(guān)聯(lián)的方式臨時存儲。期望以這樣一種方式來構(gòu)造系統(tǒng),S卩如果讀者在完成瀏覽后點擊鏈接目的地對象,則通過參照與該對象相關(guān)聯(lián)的移動信息來返回到變遷源頁,從而能夠顯示鏈接源錨表述(在變遷至對象頁之前的狀態(tài)下)。例如,如果讀者想要在圖IOA所示的圖像數(shù)據(jù)1001(即第1頁)中確認對應(yīng)于錨表述“圖1”的對象,則讀者點擊錨表述中包含的區(qū)域1007。如果檢測到點擊,則參照錨表述的鏈接結(jié)構(gòu)信息和鏈接動作設(shè)置。然后,利用紅色對與錨表述相關(guān)聯(lián)的圖像數(shù)據(jù)1003(第 3頁)的對象區(qū)域1009進行強調(diào),并且打開包含對象的頁。在這種情況下,將與點擊的錨表述相關(guān)的信息(例如,鏈接標識符或位置信息)作為移動信息,以與鏈接對象1009相關(guān)聯(lián)的方式存儲。接著,如果讀者點擊對象區(qū)域1009,則使臨時存儲的移動信息的處理優(yōu)先于與對象區(qū)域相關(guān)聯(lián)的鏈接信息的處理,從而能夠恢復(fù)之前顯示的頁的錨表述。在步驟S1402中,應(yīng)用將存儲的移動信息的內(nèi)容設(shè)置作為參照目的地信息(即鏈接目的地信息)。由此,如果點擊的對象(或錨表述)是基于頁變遷而顯示的對象,則處理返回至剛好前一瀏覽位置(即鏈接源信息),并且將信息設(shè)置作為參照目的地。在步驟S1403中,應(yīng)用從在圖7所示的步驟S705中生成并在步驟S709中發(fā)送的鏈接結(jié)構(gòu)信息,獲取與點擊的對象(或錨表述)相關(guān)聯(lián)的鏈接目的地信息。例如,在點擊圖像數(shù)據(jù)1003中的對象區(qū)域1009的情況下,應(yīng)用可以參照圖11所示的鏈接信息數(shù)據(jù)1106(即圖9D所示的鏈接結(jié)構(gòu)管理表的內(nèi)容),來獲取鏈接至對象區(qū)域1009的錨表述候選的鏈接標識符(或關(guān)聯(lián)信息)。在這種情況下,應(yīng)用可以獲取與對應(yīng)于對象區(qū)域1009的文本中的錨表述候選“圖1”相關(guān)的3個鏈接標識符(即,“text_figl-l”、“text_figl-2”和“text_ figl-3”)。在步驟S1404中,應(yīng)用考慮到鏈接目的地的數(shù)量來選擇接下來要進行的處理。如果不存在鏈接目的地,則應(yīng)用不進行任何處理,并結(jié)束圖14所示的流程圖的處理過程。另外,如果僅存在一個鏈接目的地,則應(yīng)用將該鏈接目的地設(shè)置作為參照目的地信息(即鏈接目的地信息),并且處理進入步驟S1408。另外,如果存在兩個或更多個鏈接目的地,則處理進入步驟S1405。在步驟S1405中,應(yīng)用顯示選擇列表,以使得讀者能夠從多個鏈接目的地中選擇期望的鏈接目的地。更具體地說,應(yīng)用顯示在步驟S1403中獲取的鏈接目的地(即,“錨表述候選(針對對象的解釋說明)”)的列表,從而各用戶能夠選擇期望的候選。在步驟S1406中,應(yīng)用確定讀者是否從選擇列表中選擇了鏈接目的地。如果確定沒有選擇鏈接目的地(步驟S1406中“否”),則應(yīng)用結(jié)束圖14所示的流程圖的處理過程。 如果確定選擇了期望的鏈接目的地(步驟S1406中“是”),則處理進行到步驟S1407。在步驟S1407中,應(yīng)用設(shè)置對應(yīng)于從選擇列表中選擇的項目的信息(諸如鏈接標識符或位置信息)作為參照目的地信息(即鏈接目的地信息)。在步驟S1408中,應(yīng)用獲取與讀者瀏覽的位置(即點擊的對象(或錨表述))相關(guān)的信息,并以使得將獲取的信息作為移動信息與鏈接目的地相關(guān)聯(lián)的方式臨時保持的這種方式來進行設(shè)置。在步驟S1409中,應(yīng)用參照在步驟S1402或S1407中設(shè)置的參照目的地信息以及與點擊的對象(或錨表述)相關(guān)的鏈接動作設(shè)置的內(nèi)容來進行鏈接處理。例如,在僅存在 1個鏈接目的地的情況下,應(yīng)用利用紅色來強調(diào)鏈接目的地的圖形數(shù)據(jù),并以使得能夠立即找到鏈接目的地的強調(diào)區(qū)域的這種方式來進行畫面變遷。當應(yīng)用瀏覽電子文檔數(shù)據(jù)時,應(yīng)用進行上述操作。在本示例性實施例中,描述了基于在圖8所示的步驟S805和步驟S811中設(shè)置的鏈接動作(參見圖10C)的示例操作。如果設(shè)置了與圖IOC所示的鏈接動作不同的鏈接動作,則處理過程可能稍微改變。接下來,以下參照圖13A至圖13C來詳細描述當文檔的讀者使用應(yīng)用來瀏覽根據(jù)本示例性實施例生成的電子文檔數(shù)據(jù)時可以執(zhí)行的示例操作。圖13A至圖13C例示了當應(yīng)用被啟動以瀏覽包含鏈接信息的電子文檔數(shù)據(jù)時、 可以由圖1所示的客戶端PC 101或另一客戶端PC執(zhí)行的虛擬⑶I軟件顯示畫面的示例。這種應(yīng)用的實際示例是Adobe Reader 。應(yīng)用的類型并不限于上述的類型。例如,可采用具有實現(xiàn)MFP 100的操作單元203上的顯示操作的能力的任何其他應(yīng)用。如果應(yīng)用是 Adobe Reader ,則圖6所示的數(shù)據(jù)的格式需要為PDF。圖13A例示了可以被啟動以瀏覽上述電子數(shù)據(jù)的應(yīng)用的顯示畫面1301。顯示畫面1301上的示例電子文檔為本示例性實施例中的圖IOA所示的第1頁(即生成鏈接信息后的頁)。顯示畫面1301包括讀者可以利用鼠標點按來顯示前一頁或后一頁的頁滾動按鈕1302。顯示畫面1301還包括使得讀者能夠輸入檢索關(guān)鍵字的窗口 1304、能夠被按下以基于輸入的檢索關(guān)鍵字來執(zhí)行檢索的檢索執(zhí)行按鈕1303、以及指示當前顯示頁的頁編號的狀態(tài)條1305。根據(jù)傳統(tǒng)技術(shù),當讀者瀏覽電子文檔數(shù)據(jù)并查找由錨表述1306參照的圖(例如 “圖1”)時,讀者通常按下頁滾動按鈕1302,或者在窗口 1304中輸入檢索關(guān)鍵字“圖1”。然后,讀者瀏覽由錨表述參照的圖。例如,如果確認了圖的內(nèi)容,則讀者按下頁滾動按鈕1302 以返回至第1頁并讀取下一語句。另一方面,如果讀者瀏覽根據(jù)本示例性實施例的包含鏈接信息的電子文檔數(shù)據(jù), 則讀者利用鼠標在圖13A所示的包括錨表述1306的區(qū)域上進行點擊。如果該區(qū)域被點擊, 則參照圖IOC所示的區(qū)域1014的鏈接信息,并且利用紅色來強調(diào)由錨表述“圖1”參照的對象(更具體地說,題注附隨區(qū)域(圖形數(shù)據(jù)))。然后,打開包含題注附隨區(qū)域的頁,如圖 13B所示。更具體地說,利用紅色矩形來強調(diào)題注附隨區(qū)域,并且打開第3頁。接著,讀者瀏覽題注附隨區(qū)域,并且在確認該區(qū)域的內(nèi)容之后,讀者利用鼠標在圖13B所示的題注附隨區(qū)域上進行點擊。如果執(zhí)行了點擊,則應(yīng)用參照與圖IOA所示的區(qū)域1015相關(guān)聯(lián)的移動信息(或鏈接信息)、利用紅色來強調(diào)錨表述(圖形數(shù)據(jù)),并且打開包含錨表述的頁。在本示例性實施例中,圖13B例示了從頁1至頁3的畫面變遷的結(jié)果。因此,存在移動信息。如果題注附隨對象被點擊,則如圖13C顯示由移動信息指定的頁1的錨表述。更具體地說,圖13C例示了利用紅色矩形在重打開的第1頁上強調(diào)的錨表述。如上所述,根據(jù)本示例性實施例的處理包括逐頁地生成添加了鏈接信息的電子文檔數(shù)據(jù),更新鏈接結(jié)構(gòu)管理表,并針對各頁相繼發(fā)送所生成的頁信息。然后,如果針對全部頁完成了處理,則使用最終獲得的鏈接結(jié)構(gòu)信息來生成在“對象”與“文本中的對象的錨表述和解釋表述”之間的相互鏈接。在該情況下,“對象”可能與“對象的解釋表述”不是一對一的關(guān)系。在這種情況下,定義多個鏈接動作是有用的。根據(jù)本示例性實施例,當將多頁的文檔圖像發(fā)送到PC時,即使包括“對象”的頁與包括“文本中的對象的錨表述和解釋表述”的頁不同,也能夠通過逐頁處理而容易地實現(xiàn)相
互鏈接。另外,逐頁發(fā)送生成的電子文檔數(shù)據(jù)是有用的,這是因為與全部頁的電子文檔數(shù)據(jù)被生成并一起發(fā)送的情況相比,能夠減小所需的內(nèi)存并且能夠提高傳輸效率。例如,傳統(tǒng)上需要2M字節(jié)的工作存儲器來處理圖IOA所示的由5頁構(gòu)成的文檔圖像。另一方面,根據(jù)本示例性實施例,能夠?qū)⑺璧膬?nèi)存大小減小到400K字節(jié)。在第一示例性實施例中,由錨表述提取單元402和文本中的錨表述檢索單元403 針對鏈接信息生成處理提取的目標不僅限于錨字符(例如“Fig. 1”、“圖1”等)。在本發(fā)明的第二示例性實施例中,要提取的字符串不限于錨字符。針對鏈接信息生成的目標可以是在文本中頻繁使用的字符串以及由用戶指定的字符串(例如關(guān)鍵字)。 另外,構(gòu)成鏈接的目標對不限于“對象”與“針對對象的解釋說明”的組合。例如,在兩個“針對對象的解釋說明”之間的鏈接也可以是鏈接目標對。在這種情況下,能夠獲得使得讀者能夠僅讀取相關(guān)部分的效果。在第一和第二示例性實施例中,由掃描器單元201輸入作為圖像數(shù)據(jù)300的文檔數(shù)據(jù)是包括“對象”和“針對對象的解釋說明”的紙質(zhì)文檔。生成包括雙向鏈接信息的電子文檔數(shù)據(jù)310。然而,輸入文檔不限于紙質(zhì)文檔,而可以是電子文檔。
26
更具體地說,在本發(fā)明的第三示例性實施例中,輸入不包括雙向鏈接信息的SVG、 XPS、PDF或OfficeOpenXML的電子文檔并生成包括雙向鏈接信息的電子文檔數(shù)據(jù)也是可行的。如果輸入文檔是電子文檔,則圖2所示的光柵圖像處理器(RIP) 213分析頁面描述語言 (PDL)代碼,并將電子文檔光柵化為具有指定分辨率的位像。換言之,RIP 213實現(xiàn)所謂的繪制處理。當進行上述光柵化處理時,逐像素或逐區(qū)域地分配屬性信息。這通常稱為圖像區(qū)域確定處理。當進行該圖像區(qū)域確定處理時,表示對象的類型的屬性信息(諸如文本、線、 圖形或圖像)可以被分配給各像素或各區(qū)域。例如,RIP 213根據(jù)PDL代碼中的PDL描述對象的類型來輸出圖像區(qū)域信號。對應(yīng)于由信號值表示的屬性的屬性信息,與對應(yīng)于對象的像素或區(qū)域相關(guān)聯(lián)地存儲。因此,關(guān)聯(lián)的屬性信息被添加到圖像數(shù)據(jù)。另外,在分配了字符屬性的區(qū)域中描述的字符串以及在分配了表屬性的區(qū)域中描述的字符串二者均包括PDL描述中的字符代碼。因此,它們能夠相互關(guān)聯(lián)。更具體地說,如果輸入電子文檔已經(jīng)包括區(qū)域信息(例如,位置、尺寸和屬性)和字符信息,則能夠省略要由區(qū)域分割單元301、屬性信息分配單元302和字符識別單元303 進行的處理,以提高處理效率。在第一至第三示例性實施例中,描述了用于生成多頁的PDL文件、同時以使得減小所需的內(nèi)存大小并提高傳輸效率的這種方式來實現(xiàn)“對象”與“針對對象的解釋說明”之間的相互鏈接的方法。在本發(fā)明的第四示例性實施例中,通過以下這種方式而適應(yīng)性地切換鏈接信息生成處理,即如果可用的工作存儲器足以保持頁,則在完成全部頁的數(shù)據(jù)處理之后生成鏈接信息,而如果可用的工作存儲器不足,則針對各頁生成鏈接信息。在下文中,以下參照圖15所示的流程圖來描述這樣一種示例方法,該示例方法在可用的工作存儲器足以保持頁的第一情況與可用的工作存儲器不足的第二情況之間,切換鏈接信息生成處理。現(xiàn)假定圖IOA所示的圖像數(shù)據(jù)1001至1005被輸入作為多頁的圖像數(shù)據(jù)。在圖15中,與已經(jīng)在第一示例性實施例中參照圖7描述的步驟類似的步驟用相同的步驟編號來表示,并且不再重復(fù)其描述。首先,在步驟S1501中,確定用以保持頁的可用的工作存儲器是否大于預(yù)定值。更具體地說,計數(shù)器(未例示)對放置在MFP 100的圖像讀取單元110上的多個文檔片材的數(shù)量進行計數(shù),以計算保持全部頁所需的工作存儲器容量。然后,確定計算出的內(nèi)存量是否可以由MFP 100的存儲單元111來提供。作為選擇,圖像讀取單元1110中包含的自動文檔給送器(ADF)的傳感器(未例示)可用來對要讀取的文檔片材的數(shù)量進行計數(shù)。另外,用戶可以經(jīng)由用戶界面(未例示)手動地輸入文檔片材的數(shù)量。如果確定可用的工作存儲器等于或小于預(yù)定值(步驟S1501中“否”),則處理進入步驟S1502。接下來要執(zhí)行的處理與圖7所示的流程圖中進行的處理類似,并且可以生成與第二示例性實施例中獲得的電子文檔數(shù)據(jù)類似的電子文檔數(shù)據(jù)。如果確定可用的工作存儲器大于預(yù)定值(步驟S1501中的“是”),則處理進入步驟S701。要在步驟S702至S706以及步驟S708中執(zhí)行的處理,與第一示例性實施例中描述的處理類似。因此,不再重復(fù)其描述。然而,在第一示例性實施例中,格式轉(zhuǎn)換單元305已經(jīng)在步驟S706中逐頁進行了格式轉(zhuǎn)換處理。另一方面,在本示例性實施例中,格式轉(zhuǎn)換單元305以批處理的形式將全部頁的數(shù)據(jù)轉(zhuǎn)換成電子文檔數(shù)據(jù)。在步驟S1503中,鏈接信息生成單元404基于在完成全部頁的處理之后生成的鏈接結(jié)構(gòu)管理表,來更新鏈接信息。更具體地說,鏈接信息生成單元404可以根據(jù)鏈接目的地的數(shù)量,刪除已被設(shè)置作為鏈接動作的不必要的處理設(shè)置。另外,如果不存在鏈接目的地, 則鏈接信息生成單元404可以刪除鏈接信息自身。以上述方式生成的鏈接信息能夠被壓縮成所需的最小量的信息。換言之,能夠削減生成文件的尺寸。在步驟S1504中,數(shù)據(jù)處理單元218將格式轉(zhuǎn)換后的電子文檔數(shù)據(jù)發(fā)送到客戶端 PC 101,并且結(jié)束圖15所示的流程圖的處理過程。通過上述處理,如果可用的工作存儲器足以保持頁,則能夠通過限制要被分配給各鏈接信息的鏈接動作來削減生成的電子文檔數(shù)據(jù)的文件尺寸。另外,將鏈接操作中的處理限制為僅僅所需的處理,對于提高瀏覽中的閱讀器性能是有用的。本發(fā)明的各方面還能夠通過讀出并執(zhí)行記錄在存儲設(shè)備上的用于執(zhí)行上述實施例的功能的程序的系統(tǒng)或裝置的計算機(或諸如CPU或MPU的設(shè)備)、以及由系統(tǒng)或裝置的計算機例如讀出并執(zhí)行記錄在存儲設(shè)備上的用于執(zhí)行上述實施例的功能的程序來執(zhí)行步驟的方法來實現(xiàn)。鑒于此,例如經(jīng)由網(wǎng)絡(luò)或者從用作存儲設(shè)備的各種類型的記錄介質(zhì)(例如計算機可讀介質(zhì))向計算機提供程序。雖然參照示例性實施例描述了本發(fā)明,但是應(yīng)當理解,本發(fā)明不限于所公開的示例性實施例。應(yīng)對所附權(quán)利要求的范圍給予最寬的解釋,以使其覆蓋所有變型、等同結(jié)構(gòu)和功能。
權(quán)利要求
1.一種圖像處理裝置,所述圖像處理裝置包括輸入單元,其被構(gòu)造為輸入包括多個頁圖像的文檔;區(qū)域分割單元,其被構(gòu)造為將由所述輸入單元輸入的各頁圖像劃分為屬性區(qū)域; 字符識別單元,其被構(gòu)造為對由所述區(qū)域分割單元劃分出的區(qū)域執(zhí)行字符識別處理; 第一檢測單元,其被構(gòu)造為根據(jù)由所述字符識別單元對所述頁圖像中的文本屬性區(qū)域執(zhí)行的所述字符識別處理的結(jié)果,來檢測由特定字符串構(gòu)成的第一錨表述;第一標識符分配單元,其被構(gòu)造為將第一鏈接標識符分配給由所述第一檢測單元檢測到的所述第一錨表述;第一圖形數(shù)據(jù)生成單元,其被構(gòu)造為生成要用于識別由所述第一檢測單元檢測到的所述第一錨表述的第一圖形數(shù)據(jù),并且將所生成的第一圖形數(shù)據(jù)與由所述第一標識符分配單元分配的所述第一鏈接標識符相關(guān)聯(lián);第一表更新單元,其被構(gòu)造為將所述第一鏈接標識符和所述第一錨表述以相互關(guān)聯(lián)的方式登記在鏈接結(jié)構(gòu)管理表中,并且如果與所述第一錨表述類似的錨表述已經(jīng)登記在所述鏈接結(jié)構(gòu)管理表中,則以使得將相同錨表述的鏈接標識符相互關(guān)聯(lián)的方式來更新所述鏈接結(jié)構(gòu)管理表;第二檢測單元,其被構(gòu)造為根據(jù)由所述字符識別單元對附隨所述頁圖像中的對象的題注區(qū)域執(zhí)行的所述字符識別處理的結(jié)果,檢測由特定字符串構(gòu)成的第二錨表述;第二標識符分配單元,其被構(gòu)造為將第二鏈接標識符分配給由檢測到所述第二錨表述的所述題注區(qū)域附隨的所述對象;第二圖形數(shù)據(jù)生成單元,其被構(gòu)造為生成要用于識別由檢測到所述第二錨表述的所述題注區(qū)域附隨的所述對象的第二圖形數(shù)據(jù),并且將所生成的第二圖形數(shù)據(jù)與由所述第二標識符分配單元分配的所述第二鏈接標識符相關(guān)聯(lián);第二表更新單元,其被構(gòu)造為將所述第二鏈接標識符與所述第二錨表述以相互關(guān)聯(lián)的方式登記在所述鏈接結(jié)構(gòu)管理表中,并且如果與所述第二錨表述類似的錨表述已經(jīng)登記在所述鏈接結(jié)構(gòu)管理表中,則以使得將相同錨表述的鏈接標識符相互關(guān)聯(lián)的方式來更新所述鏈接結(jié)構(gòu)管理表;頁數(shù)據(jù)生成單元,其被構(gòu)造為利用所述第一鏈接標識符、所述第一圖形數(shù)據(jù)、所述第二鏈接標識符以及所述第二圖形數(shù)據(jù),生成針對所述頁圖像的電子文檔的頁數(shù)據(jù);第一發(fā)送單元,其被構(gòu)造為發(fā)送由所述頁數(shù)據(jù)生成單元生成的所述電子文檔的所述頁數(shù)據(jù);控制單元,其被構(gòu)造為相繼指定由所述輸入單元輸入的所述頁圖像的各頁作為處理目標,并且控制由所述區(qū)域分割單元、所述字符識別單元、所述第一檢測單元、所述第一標識符分配單元、所述第一圖形數(shù)據(jù)生成單元、所述第一表更新單元、所述第二檢測單元、所述第二標識符分配單元、所述第二圖形數(shù)據(jù)生成單元、所述第二表更新單元、所述頁數(shù)據(jù)生成單元以及所述第一發(fā)送單元反復(fù)執(zhí)行的處理;以及第二發(fā)送單元,其被構(gòu)造為基于由所述第一表更新單元和所述第二表更新單元更新的所述鏈接結(jié)構(gòu)管理表,生成要用于將所述電子文檔中包含的所述第一鏈接標識符與所述第二鏈接標識符鏈接的鏈接結(jié)構(gòu)信息,并且發(fā)送所生成的鏈接結(jié)構(gòu)信息。
2.根據(jù)權(quán)利要求1所述的圖像處理裝置,其中,所述對象包括表、線條畫以及照片屬性區(qū)域的任意一者。
3.根據(jù)權(quán)利要求1所述的圖像處理裝置,其中,所述頁數(shù)據(jù)生成單元執(zhí)行格式轉(zhuǎn)換處理,以生成所述電子文檔的所述頁數(shù)據(jù)。
4.根據(jù)權(quán)利要求1所述的圖像處理裝置,其中,由發(fā)送目的地裝置將所述第一發(fā)送單元發(fā)送的所述電子文檔的所述頁數(shù)據(jù)與所述第二發(fā)送單元發(fā)送的所述鏈接結(jié)構(gòu)信息綜合。
5.根據(jù)權(quán)利要求1所述的圖像處理裝置,其中,所述特定字符串是包括“圖”、“FIG”或 “表”的字符串。
6.根據(jù)權(quán)利要求1所述的圖像處理裝置,該圖像處理裝置還包括確定單元,其被構(gòu)造為確定對構(gòu)成所述文檔的所述多個頁圖像的全部進行處理所需的工作存儲器是否可用;其中,如果所述確定單元確定所述工作存儲器不可用,則由所述輸入單元輸入的頁圖像的各頁被相繼指定為處理目標,并且執(zhí)行由所述區(qū)域分割單元、所述字符識別單元、所述第一檢測單元、所述第一標識符分配單元、所述第一圖形數(shù)據(jù)生成單元、所述第一表更新單元、所述第二檢測單元、所述第二標識符分配單元、所述第二圖形數(shù)據(jù)生成單元、所述第二表更新單元、所述頁數(shù)據(jù)生成單元、所述第一發(fā)送單元、所述控制單元以及所述第二發(fā)送單元執(zhí)行的處理,并且其中,如果所述確定單元確定所述工作存儲器可用,則對由所述輸入單元輸入的所述多個頁圖像執(zhí)行由所述區(qū)域分割單元、所述字符識別單元、所述第一檢測單元、所述第一標識符分配單元、所述第一圖形數(shù)據(jù)生成單元、所述第一表更新單元、所述第二檢測單元、所述第二標識符分配單元、所述第二圖形數(shù)據(jù)生成單元以及所述第二表更新單元執(zhí)行的處理,然后進行控制,以生成對應(yīng)于全部頁的頁數(shù)據(jù)和鏈接信息,并發(fā)送所生成的頁數(shù)據(jù)和鏈接信息。
7.一種圖像處理裝置,所述圖像處理裝置包括輸入單元,其被構(gòu)造為輸入包括多個頁圖像的文檔;區(qū)域分割單元,其被構(gòu)造為將由所述輸入單元輸入的各頁圖像劃分為屬性區(qū)域;字符識別單元,其被構(gòu)造為對由所述區(qū)域分割單元劃分出的區(qū)域執(zhí)行字符識別處理;檢測單元,其被構(gòu)造為根據(jù)由所述字符識別單元執(zhí)行的所述字符識別處理的結(jié)果,來檢測由特定字符串構(gòu)成的錨表述;標識符分配單元,其被構(gòu)造為將鏈接標識符分配給由所述檢測單元檢測到的所述錨表述;生成單元,其被構(gòu)造為生成使要基于所述錨表述確定的強調(diào)位置與所述鏈接標識符相關(guān)聯(lián)的數(shù)據(jù);表更新單元,其被構(gòu)造為將所述錨表述和所述鏈接標識符以相互關(guān)聯(lián)的方式登記在鏈接結(jié)構(gòu)管理表中,并且如果與所述錨表述類似的錨表述已經(jīng)登記在所述鏈接結(jié)構(gòu)管理表中,則以使得將相同錨表述的鏈接標識符相互關(guān)聯(lián)的方式來更新所述鏈接結(jié)構(gòu)管理表;第一發(fā)送單元,其被構(gòu)造為基于所述鏈接標識符和所述強調(diào)位置來生成針對所述頁圖像的電子文檔的頁數(shù)據(jù),并發(fā)送所生成的頁數(shù)據(jù);控制單元,其被構(gòu)造為相繼指定由所述輸入單元輸入的所述頁圖像的各頁作為處理目標,并且控制由所述區(qū)域分割單元、所述字符識別單元、所述檢測單元、所述標識符分配單元、所述生成單元、所述表更新單元以及所述第一發(fā)送單元反復(fù)執(zhí)行的處理;以及第二發(fā)送單元,其被構(gòu)造為基于由所述表更新單元更新的所述鏈接結(jié)構(gòu)管理表,生成要用于鏈接所述電子文檔中包含的所述鏈接標識符的鏈接結(jié)構(gòu)信息,并且發(fā)送所生成的鏈接結(jié)構(gòu)信息。
8. 一種圖像處理方法,所述圖像處理方法包括 輸入步驟,輸入包括多個頁圖像的文檔; 區(qū)域分割步驟,將所輸入的各頁圖像劃分為屬性區(qū)域; 字符識別步驟,對所劃分出的區(qū)域執(zhí)行字符識別處理;第一檢測步驟,根據(jù)對所述頁圖像中的文本屬性區(qū)域執(zhí)行的所述字符識別處理的結(jié)果,來檢測由特定字符串構(gòu)成的第一錨表述;第一標識符分配步驟,將第一鏈接標識符分配給所檢測到的第一錨表述; 第一圖形數(shù)據(jù)生成步驟,生成要用于識別所檢測到的第一錨表述的第一圖形數(shù)據(jù),并且將所生成的第一圖形數(shù)據(jù)與所分配的第一鏈接標識符相關(guān)聯(lián);第一表更新步驟,將所述第一鏈接標識符和所述第一錨表述以相互關(guān)聯(lián)的方式登記在鏈接結(jié)構(gòu)管理表中,并且如果與所述第一錨表述類似的錨表述已經(jīng)登記在所述鏈接結(jié)構(gòu)管理表中,則以使得將相同錨表述的鏈接標識符相互關(guān)聯(lián)的方式來更新所述鏈接結(jié)構(gòu)管理表;第二檢測步驟,根據(jù)對附隨所述頁圖像中的對象的題注區(qū)域執(zhí)行的所述字符識別處理的結(jié)果,檢測由特定字符串構(gòu)成的第二錨表述;第二標識符分配步驟,將第二鏈接標識符分配給由檢測到所述第二錨表述的所述題注區(qū)域附隨的所述對象;第二圖形數(shù)據(jù)生成步驟,生成要用于識別由檢測到所述第二錨表述的所述題注區(qū)域附隨的所述對象的第二圖形數(shù)據(jù),并且將所生成的第二圖形數(shù)據(jù)與所分配的第二鏈接標識符相關(guān)聯(lián);第二表更新步驟,將所述第二鏈接標識符與所述第二錨表述以相互關(guān)聯(lián)的方式登記在所述鏈接結(jié)構(gòu)管理表中,并且如果與所述第二錨表述類似的錨表述已經(jīng)登記在所述鏈接結(jié)構(gòu)管理表中,則以使得將相同錨表述的鏈接標識符相互關(guān)聯(lián)的方式來更新所述鏈接結(jié)構(gòu)管理表;頁數(shù)據(jù)生成步驟,利用所述第一鏈接標識符、所述第一圖形數(shù)據(jù)、所述第二鏈接標識符以及所述第二圖形數(shù)據(jù),生成針對所述頁圖像的電子文檔的頁數(shù)據(jù); 第一發(fā)送步驟,發(fā)送所生成的所述電子文檔的頁數(shù)據(jù);控制步驟,相繼指定所輸入的頁圖像的各頁作為處理目標,并且進行控制以反復(fù)執(zhí)行所述區(qū)域分割步驟、所述字符識別步驟、所述第一檢測步驟、所述第一標識符分配步驟、所述第一圖形數(shù)據(jù)生成步驟、所述第一表更新步驟、所述第二檢測步驟、所述第二標識符分配步驟、所述第二圖形數(shù)據(jù)生成步驟、所述第二表更新步驟、所述頁數(shù)據(jù)生成步驟以及所述第一發(fā)送步驟;以及第二發(fā)送步驟,基于所更新的鏈接結(jié)構(gòu)管理表,生成要用于將所述電子文檔中包含的所述第一鏈接標識符與所述第二鏈接標識符鏈接的鏈接結(jié)構(gòu)信息,并且發(fā)送所生成的鏈接結(jié)構(gòu)信息。
9. 一種圖像處理方法,所述圖像處理方法包括 輸入步驟,輸入包括多個頁圖像的文檔; 區(qū)域分割步驟,將所輸入的各頁圖像劃分為屬性區(qū)域; 字符識別步驟,對所劃分出的區(qū)域執(zhí)行字符識別處理;檢測步驟,根據(jù)所執(zhí)行的字符識別處理的結(jié)果,來檢測由特定字符串構(gòu)成的錨表述; 標識符分配步驟,將鏈接標識符分配給所檢測到的錨表述;生成步驟,生成使要基于所述錨表述確定的強調(diào)位置與所述鏈接標識符相關(guān)聯(lián)的數(shù)據(jù);表更新步驟,將所述錨表述和所述鏈接標識符以相互關(guān)聯(lián)的方式登記在鏈接結(jié)構(gòu)管理表中,并且如果與所述錨表述類似的錨表述已經(jīng)登記在所述鏈接結(jié)構(gòu)管理表中,則以使得將相同錨表述的鏈接標識符相互關(guān)聯(lián)的方式來更新所述鏈接結(jié)構(gòu)管理表;第一發(fā)送步驟,基于所述鏈接標識符和所述強調(diào)位置來生成針對所述頁圖像的電子文檔的頁數(shù)據(jù),并發(fā)送所生成的頁數(shù)據(jù);控制步驟,相繼指定所輸入的頁圖像的各頁作為處理目標,并且進行控制以反復(fù)執(zhí)行所述區(qū)域分割步驟、所述字符識別步驟、所述檢測步驟、所述標識符分配步驟、所述生成步驟、所述表更新步驟以及所述第一發(fā)送步驟;以及第二發(fā)送步驟,基于所更新的鏈接結(jié)構(gòu)管理表,生成要用于鏈接所述電子文檔中包含的所述鏈接標識符的鏈接結(jié)構(gòu)信息,并且發(fā)送所生成的鏈接結(jié)構(gòu)信息。
全文摘要
本發(fā)明提供一種圖像處理裝置及圖像處理方法。所述圖像處理裝置相繼指定輸入頁圖像的各頁作為處理目標,檢測由特定字符串構(gòu)成的錨表述并使對應(yīng)于該錨表述的強調(diào)位置與鏈接標識符相關(guān)聯(lián)。當錨表述與鏈接標識符被登記在鏈接結(jié)構(gòu)管理表中時,如果相同的錨表述已被登記在表中,則該圖像處理裝置以使得將相同錨表述的鏈接標識符相互關(guān)聯(lián)的方式來更新表。該圖像處理裝置基于與處理目標頁圖像相關(guān)的鏈接標識符及其強調(diào)位置來生成電子文檔的頁數(shù)據(jù),并發(fā)送所生成的頁數(shù)據(jù)。所述圖像處理裝置在完成針對全部頁的處理之后,基于鏈接結(jié)構(gòu)管理表來生成可用來鏈接相關(guān)鏈接標識符的信息,并發(fā)送所生成的信息。
文檔編號G06K9/00GK102314484SQ201110192760
公開日2012年1月11日 申請日期2011年7月7日 優(yōu)先權(quán)日2010年7月8日
發(fā)明者三沢玲司, 小坂亮, 相馬英智, 金津知俊 申請人:佳能株式會社