專利名稱::信息處理裝置和信息處理方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及信息處理裝置和信息處理方法。
背景技術(shù):
:日本特許第3578618號(hào)公報(bào)(專利文獻(xiàn)I)公開了一種文檔分割裝置,該文檔分割裝置通過不僅考慮相鄰文檔的關(guān)系而且考慮與該文檔相關(guān)聯(lián)的廣域的關(guān)系來實(shí)現(xiàn)有效分割文檔的目標(biāo),并且該文檔分割裝置設(shè)置有:語言要素分出單元,該語言要素分出單元用于以段落、句子以及行為單位從電子文檔中分出語言要素;語言要素間關(guān)聯(lián)度評(píng)估單元,該語言要素間關(guān)聯(lián)度評(píng)估單元用于評(píng)估任何兩個(gè)語言要素(例如,具有公共字符或者單詞)的關(guān)聯(lián)度;語言要素間關(guān)聯(lián)度矩陣取得單元,該語言間要素關(guān)聯(lián)矩陣取得單元通過利用這種語言要素間關(guān)聯(lián)度評(píng)估單元來取得全部語言要素的關(guān)聯(lián)度;以及矩陣拆分單元,該矩陣拆分單元用于將這種語言要素間關(guān)聯(lián)度矩陣取得單元提供的語言要素間關(guān)聯(lián)度矩陣分割為具有高關(guān)聯(lián)度的部分矩陣的排列。由此,可以與通過部分矩陣進(jìn)行的拆分相應(yīng)地來拆分文檔。日本特許第3767180號(hào)公報(bào)(專利文獻(xiàn)2)公開了一種用于分析文檔結(jié)構(gòu)的方法和裝置、以及存儲(chǔ)文檔結(jié)構(gòu)分析程序的存儲(chǔ)介質(zhì),其目標(biāo)在于即使當(dāng)不包括項(xiàng)目標(biāo)記或者未寫有特定標(biāo)記等時(shí)也可以通過使用每個(gè)字符串的長(zhǎng)度或者行首的位置信息來分析標(biāo)記項(xiàng)目和文本中的簡(jiǎn)單句的文檔結(jié)構(gòu),其中,輸入待分析的文檔,檢查在所述文檔的行首上是否存在引用符,當(dāng)存在引用符時(shí),刪除該引用符,檢測(cè)特定項(xiàng)目標(biāo)記所要使用的包括文檔中的日期、場(chǎng)所、期限的字符串,并且基于檢測(cè)到的項(xiàng)目標(biāo)記的特征來檢測(cè)任意項(xiàng)目標(biāo)記,將檢測(cè)到所述項(xiàng)目標(biāo)記的行的行首位置和未檢測(cè)到項(xiàng)目標(biāo)記的后續(xù)行的行首位置指定為項(xiàng)目范圍,后續(xù)行與被判斷為項(xiàng)目范圍以外的行相連接,以句子為單位分割各行,將特定項(xiàng)目、任意項(xiàng)目以及指示句子的標(biāo)簽附加至文檔并輸出。
發(fā)明內(nèi)容本發(fā)明的目的在于提供一種信息處理裝置,該信息處理裝置在將文檔中的區(qū)域分割為段落區(qū)域或者項(xiàng)目區(qū)域的情況下,在指示項(xiàng)目的字符與預(yù)定的字符不同時(shí)可以抑制錯(cuò)誤分割。根據(jù)本發(fā)明的第一方面,提供了一種信息處理裝置,該信息處理裝置包括:取得單元,該取得單元取得區(qū)域信息、行信息以及字符信息,該區(qū)域信息是與文檔中的區(qū)域有關(guān)的信息,該行信息是與區(qū)域中的行有關(guān)的信息,以及字符信息是與行中的字符有關(guān)的信息;判斷單元,該判斷單元基于所述取得單元取得的行信息來判斷包括該行信息所指示的行的區(qū)域是否左對(duì)齊;第一分割單元,該第一分割單元基于所述取得單元取得的字符信息,將包括該字符信息所指示的字符的區(qū)域分割為段落區(qū)域或者項(xiàng)目區(qū)域;分析單元,該分析單元分析所述判斷單元判斷為左對(duì)齊的區(qū)域內(nèi)的行的縮進(jìn);第二分割單元,該第二分割單元基于所述分析單元的分析結(jié)果將所述判斷單元判斷為左對(duì)齊的所述區(qū)域分割為段落區(qū)域或者項(xiàng)目區(qū)域;以及輸出單元,該輸出單元針對(duì)所述判斷單元判斷為未左對(duì)齊的區(qū)域,輸出所述第一分割單元的分割結(jié)果,而針對(duì)所述判斷單元判斷為左對(duì)齊的區(qū)域,輸出所述第二分割單兀的分iiij結(jié)果。根據(jù)本發(fā)明的第二方面,在根據(jù)第一方面的信息處理裝置中,當(dāng)作為對(duì)象的語言是沒有規(guī)定行尾對(duì)齊的語言時(shí),所述判斷單元可基于與行信息所指示的行的下一行中的字符有關(guān)的字符信息來改變?cè)撔行畔?,隨后可以判斷包括該行信息指示的所述行的區(qū)域是否左對(duì)齊。根據(jù)本發(fā)明的第三方面,在根據(jù)第一或者第二方面的信息處理裝置中,所述判斷單元可基于所述取得單元所取得的行信息,來計(jì)算所述行信息所指示的行的中點(diǎn)坐標(biāo),并且可以基于以下坐標(biāo)中的一個(gè)或者更多個(gè)坐標(biāo)來判斷所述區(qū)域是否左對(duì)齊:所述區(qū)域中的所述行的行首坐標(biāo)、所述中點(diǎn)坐標(biāo)以及行尾坐標(biāo)。根據(jù)本發(fā)明的第四方面,在根據(jù)第一方面至第三方面中的任一方面的信息處理裝置中,所述第一分割單元可基于位于行首或者行尾中的一個(gè)以上字符的字符串是否滿足預(yù)定的字符串條件,來將所述區(qū)域分割為段落區(qū)域或者項(xiàng)目區(qū)域。根據(jù)本發(fā)明的第五方面,在根據(jù)第一方面至第四方面中的任一方面的信息處理裝置中,所述第一分割單元可以基于由所述區(qū)域中的行的字符數(shù)量所預(yù)定的值是否滿足預(yù)定條件,來將所述區(qū)域分割為段落區(qū)域或者項(xiàng)目區(qū)域。根據(jù)本發(fā)明的第六方面,在根據(jù)第一方面至第五方面的任一方面的信息處理裝置中,所述分析單元可以通過基于從區(qū)域左端至該區(qū)域中各行的左端之間的距離,將各行分類為縮進(jìn)行和未縮進(jìn)行,來分析行的縮進(jìn)。根據(jù)本發(fā)明的第七方面,在根據(jù)第六方面的信息處理裝置中,第二分割單元可以基于行中包括的字符串中是否包括預(yù)定字符串以及作為所述分析單元的分析結(jié)果的分類邊界是否與所述段落的邊界重合,來將所述區(qū)域分割為段落區(qū)域或者項(xiàng)目區(qū)域。根據(jù)本發(fā)明的第八方面,提供了一種信息處理裝置,該信息處理裝置包括:取得單元,該取得單元取得區(qū)域信息、行信息和字符信息,該區(qū)域信息是與文檔中的區(qū)域有關(guān)的信息,該行信息是與所述區(qū)域中的行有關(guān)的信息,該字符信息是與所述行中的字符有關(guān)的信息;判斷單元,該判斷單元基于所述取得單元所取得的行信息來判斷包括所述行信息所指示的行的區(qū)域是否上對(duì)齊;第一分割單元,該第一分割單元基于所述取得單元所取得的字符信息,將包括所述字符信息所指示的字符的區(qū)域分割為段落區(qū)域或者項(xiàng)目區(qū)域;分析單元,該分析單元分析所述判斷單元判斷為上對(duì)齊的區(qū)域內(nèi)的行的縮進(jìn);第二分割單元,該第二分割單元基于所述分析單元的分析結(jié)果將所述判斷單元判斷為上對(duì)齊的所述區(qū)域分割為段落區(qū)域或者項(xiàng)目區(qū)域;以及輸出單元,該輸出單元針對(duì)所述判斷單元判斷為未上對(duì)齊的區(qū)域,輸出所述第一分割單元的分割結(jié)果,而針對(duì)所述判斷單元判斷為上對(duì)齊的區(qū)域,輸出所述第二分割單元的分割結(jié)果。根據(jù)本發(fā)明的第九方面,在根據(jù)第八方面的信息處理裝置中,當(dāng)作為對(duì)象的語言是沒有規(guī)定行尾對(duì)齊的語言時(shí),所述判斷單元可以基于與行信息指示的行的下一行中的字符有關(guān)的字符信息來改變?cè)撔行畔?,隨后可以判斷包括該行信息指示的所述行的區(qū)域是否上對(duì)齊。根據(jù)本發(fā)明的第十方面,在根據(jù)第八方面或者第九方面的信息處理裝置中,所述判斷單元可以基于所述取得單元所取得的行信息,來計(jì)算所述行信息所指示的行的中點(diǎn)坐標(biāo),并且可以基于以下坐標(biāo)中的一個(gè)或者更多個(gè)坐標(biāo)來判斷所述區(qū)域是否上對(duì)齊:所述區(qū)域中的所述行的行首坐標(biāo)、所述中點(diǎn)坐標(biāo)以及行尾坐標(biāo)。根據(jù)本發(fā)明的第十一方面,在根據(jù)第八方面至第十方面中的任一方面的信息處理裝置中,所述第一分割單元可以基于位于行首或者行尾中的一個(gè)以上字符的字符串是否滿足預(yù)定的字符串條件,來將所述區(qū)域分割為段落區(qū)域或者項(xiàng)目區(qū)域。根據(jù)本發(fā)明的第十二方面,在根據(jù)第八方面至第十一方面中的任一方面的信息處理裝置中,所述第一分割單元可基于由所述區(qū)域中的行的字符數(shù)所預(yù)定的值是否滿足預(yù)定條件,來將所述區(qū)域分割為段落區(qū)域或者項(xiàng)目區(qū)域。根據(jù)本發(fā)明的第十三方面,在根據(jù)第八方面至第十二方面的任一方面的信息處理裝置中,所述分析單元可以通過基于從區(qū)域上端至該區(qū)域中各行的上端之間的距離,將各行分類為縮進(jìn)行和未縮進(jìn)行,來分析行的縮進(jìn)。根據(jù)本發(fā)明的第十四方面,在根據(jù)第十三方面的信息處理裝置中,第二分割單元可基于行中包括的字符串中是否包括預(yù)定字符串以及作為所述分析單元的分析結(jié)果的分類邊界是否與所述段落的邊界重合,來將所述區(qū)域分割為段落區(qū)域或者項(xiàng)目區(qū)域。根據(jù)本發(fā)明的第十五方面,提供了一種信息處理方法,該信息處理方法包括:取得步驟,取得區(qū)域信息、行信息和字符信息,該區(qū)域信息是與文檔中的區(qū)域有關(guān)的信息,該行信息是與所述區(qū)域中的行有關(guān)的信息,該字符信息是與所述行中的字符有關(guān)的信息;判斷步驟,基于所述取得步驟所取得的行信息,判斷包括所述行信息所指示的行的區(qū)域是否左對(duì)齊;第一分割步驟,基于所述取得步驟所取得的字符信息,將包括所述字符信息所指示的字符的區(qū)域分割為段落區(qū)域或者項(xiàng)目區(qū)域;分析步驟,分析所述判斷步驟判斷為左對(duì)齊的區(qū)域內(nèi)的行的縮進(jìn);第二分割步驟,基于所述分析步驟的分析結(jié)果,將所述判斷步驟判斷為左對(duì)齊的區(qū)域分割為段落區(qū)域或者項(xiàng)目區(qū)域;以及輸出步驟,針對(duì)所述判斷步驟判斷為未左對(duì)齊的區(qū)域,輸出所述第一分割步驟的分割結(jié)果,而針對(duì)所述判斷步驟判斷為左對(duì)齊的區(qū)域,輸出所述第二分割步驟的分割結(jié)果。根據(jù)本發(fā)明的第十六方面,提供了一種信息處理方法,該信息處理方法包括:取得步驟,取得區(qū)域信息、行信息和字符信息,該區(qū)域信息是與文檔中的區(qū)域有關(guān)的信息,該行信息是與所述區(qū)域中的行有關(guān)的信息,該字符信息是與所述行中的字符有關(guān)的信息;判斷步驟,基于所述取得步驟所取得的行信息,判斷包括所述行信息所指示的行的區(qū)域是否上對(duì)齊;第一分割步驟,基于所述取得步驟所取得的字符信息,將包括所述字符信息所指示的字符的區(qū)域分割為段落區(qū)域或者項(xiàng)目區(qū)域;分析步驟,分析所述判斷步驟判斷為上對(duì)齊的區(qū)域內(nèi)的行的縮進(jìn);第二分割步驟,基于所述分析步驟的分析結(jié)果,將所述判斷步驟判斷為上對(duì)齊的所述區(qū)域分割為段落區(qū)域或者項(xiàng)目區(qū)域;以及輸出步驟,針對(duì)所述判斷步驟判斷為未上對(duì)齊的區(qū)域,輸出所述第一分割步驟的分割結(jié)果,而針對(duì)所述判斷步驟判斷為上對(duì)齊的區(qū)域,輸出所述第二分割步驟的分割結(jié)果。根據(jù)本發(fā)明的第一、第十五以及第十六方面,在將文檔中的區(qū)域分割為段落區(qū)域或者項(xiàng)目區(qū)域的情況下,可以在指示項(xiàng)目的字符與預(yù)定字符不同時(shí),抑制錯(cuò)誤分割。根據(jù)本發(fā)明的第二方面,可以根據(jù)語言的特點(diǎn)來判斷區(qū)域是否左對(duì)齊。根據(jù)本發(fā)明的第三方面,可以基于行的行首坐標(biāo)、中點(diǎn)坐標(biāo)、以及行尾坐標(biāo)三者中的一個(gè)或者更多個(gè)來判斷區(qū)域是否左對(duì)齊。根據(jù)本發(fā)明的第四方面,可以基于位于行首或者行尾中的一個(gè)以上字符的字符串是否滿足預(yù)定的字符串條件,來將所述區(qū)域分割為段落區(qū)域或者項(xiàng)目區(qū)域。根據(jù)本發(fā)明的第五方面,可以基于由區(qū)域中的行的字符數(shù)所預(yù)定的值是否滿足預(yù)定的條件,來將所述區(qū)域分割為段落區(qū)域或者項(xiàng)目區(qū)域。根據(jù)本發(fā)明的第六方面,可以通過基于從區(qū)域左端至該區(qū)域中各行的左端之間的距離,將各行分類為縮進(jìn)行和未縮進(jìn)行,來分析行的縮進(jìn)。根據(jù)本發(fā)明的第七方面,可以基于行中包括的字符串中是否包括預(yù)定的字符串以及所述分類的邊界與所述段落的邊界是否重合,來將所述區(qū)域分割為段落區(qū)域或者項(xiàng)目區(qū)域。根據(jù)本發(fā)明的八方面,在將文檔中的區(qū)域分割為段落區(qū)域或者項(xiàng)目區(qū)域的情況下,可以在指示項(xiàng)目的字符與預(yù)定的字符不同時(shí),抑制錯(cuò)誤分割。根據(jù)本發(fā)明的第九方面,可以根據(jù)語言的特點(diǎn)來判斷區(qū)域是否上對(duì)齊。根據(jù)本發(fā)明的第十方面,可以基于行的行首坐標(biāo)、中點(diǎn)坐標(biāo)、以及行尾坐標(biāo)三者中的一個(gè)或者更多個(gè)來判斷區(qū)域是否上對(duì)齊。根據(jù)本發(fā)明的第十一方面,可以基于位于行首或者行尾中的一個(gè)以上字符的字符串是否滿足預(yù)定的字符串條件,來將所述區(qū)域分割為段落區(qū)域或者項(xiàng)目區(qū)域。根據(jù)本發(fā)明的第十二方面,可以基于由區(qū)域中的行的字符數(shù)所預(yù)定的值是否滿足預(yù)定條件,來將所述區(qū)域分割為段落區(qū)域或者項(xiàng)目區(qū)域。根據(jù)本發(fā)明的第十三方面,可以通過基于從區(qū)域上端至該區(qū)域中各行的上端之間的距離,將各行分類為縮進(jìn)行和未縮進(jìn)行,來分析行的縮進(jìn)。根據(jù)本發(fā)明的第十四方面,可以基于行中包括的字符串中是否包括預(yù)定字符串以及所述分類的邊界與所述段落的邊界是否重合,來將所述區(qū)域分割為段落區(qū)域或者項(xiàng)目區(qū)域?;谝韵赂綀D詳細(xì)描述本發(fā)明的示例性實(shí)施方式,在附圖中:圖1是關(guān)于示例性實(shí)施方式的構(gòu)造示例的概念模塊構(gòu)造圖;圖2是例示出根據(jù)第二示例性實(shí)施方式的處理示例的流程圖;圖3是例示出由布局信息取得模塊取得的信息的數(shù)據(jù)結(jié)構(gòu)示例的示圖;圖4是例示出由布局信息取得模塊取得的信息示例的示圖;圖5是例示出由行對(duì)齊判斷模塊執(zhí)行的處理示例的示圖;圖6是例示出由行對(duì)齊判斷模塊執(zhí)行的處理示例的示圖;圖7是例示出由行對(duì)齊判斷模塊執(zhí)行的處理示例的示圖8是例示出由行對(duì)齊判斷模塊執(zhí)行的處理示例的流程圖;圖9是例示出由行對(duì)齊判斷模塊執(zhí)行的處理示例的示圖;圖1O是例示出由行對(duì)齊判斷模塊執(zhí)行的處理示例的示圖;圖11是例示出由段落和項(xiàng)目判斷模塊A執(zhí)行的處理示例的示圖;圖12是例示出由縮進(jìn)分析模塊執(zhí)行的處理示例的示圖;圖13是例示出由縮進(jìn)分析模塊執(zhí)行的處理示例的示圖;圖14A和圖14B是例示出由段落和項(xiàng)目判斷模塊B執(zhí)行的處理示例的示圖;圖15A和圖15B是例示出由段落和項(xiàng)目判斷模塊B執(zhí)行的處理示例的示圖;圖16A和圖16B是例示出根據(jù)示例性實(shí)施方式的處理示例的示圖;以及圖17是例示出用于實(shí)現(xiàn)示例性實(shí)施方式的計(jì)算機(jī)硬件的構(gòu)造示例的框圖。具體實(shí)施例方式下面將參照附圖來描述用于實(shí)施本發(fā)明的示例性實(shí)施方式。圖1是關(guān)于示例性實(shí)施方式的構(gòu)造示例的概念模塊構(gòu)造圖。此外,模塊表示通常邏輯劃分的諸如軟件(計(jì)算機(jī)程序)和硬件的部件。因此,本示例性實(shí)施方式中的模塊不僅表示計(jì)算機(jī)程序中的模塊,還表示硬件構(gòu)造中的模塊。因此,示例性實(shí)施方式還包括用于使計(jì)算機(jī)起到模塊的作用的計(jì)算機(jī)程序(使計(jì)算機(jī)執(zhí)行各處理的程序、使計(jì)算機(jī)起到各單元的作用的程序、或使計(jì)算機(jī)實(shí)現(xiàn)各功能的程序)、系統(tǒng)以及方法的描述。然而,為了便于描述,雖然使用術(shù)語“存儲(chǔ)”或者“進(jìn)行存儲(chǔ)”以及等同術(shù)語,但這些術(shù)語表示在示例性實(shí)施方式是計(jì)算機(jī)程序的情況下,存儲(chǔ)在存儲(chǔ)裝置中,或者進(jìn)行控制以存儲(chǔ)在所述存儲(chǔ)裝置中。此外,模塊可與功能一對(duì)一對(duì)應(yīng)。在安裝時(shí),單個(gè)程序可以構(gòu)成單個(gè)模塊,單個(gè)程序可以構(gòu)成多個(gè)模塊,或者反之單個(gè)模塊可以由多個(gè)程序構(gòu)成。此外,可以由單臺(tái)計(jì)算機(jī)執(zhí)行多個(gè)模塊,或者利用分布式或者并行環(huán)境下的計(jì)算機(jī)可以由多個(gè)計(jì)算機(jī)執(zhí)行單個(gè)模塊。另外,單個(gè)模塊可包括其它模塊。下文中,術(shù)語“連接”不僅用于物理連接的情況,還用于邏輯連接的情況(數(shù)據(jù)收發(fā)、指示、數(shù)據(jù)間的引用關(guān)系等)。術(shù)語“預(yù)定”表示在作為對(duì)象的處理之前定義的,并且通常包括根據(jù)那時(shí)的環(huán)境或者狀態(tài)或者根據(jù)目前的環(huán)境或者狀態(tài)進(jìn)行定義的意思,包括根據(jù)本示例性實(shí)施方式的處理尚未開始的狀態(tài),即使在根據(jù)本示例性實(shí)施方式的處理開始之后,只要作為對(duì)象的所述處理尚未執(zhí)行即可。此外,具有“在A的情況下,執(zhí)行B”的含義的短語用于表示“判斷是否存在A,如果判斷出存在A,則執(zhí)行B”。然而,排除關(guān)于是否存在A的判斷不必要的情況。此外,系統(tǒng)或者裝置不僅包括將多個(gè)計(jì)算機(jī)、多件硬件、多個(gè)裝置等構(gòu)成為經(jīng)由諸如網(wǎng)絡(luò)的通信單元彼此連接(包括一一對(duì)應(yīng)的通信連接)的情況,還包括由單個(gè)計(jì)算機(jī)、單件硬件、單個(gè)裝置等實(shí)現(xiàn)的情況?!把b置”和“系統(tǒng)”用作具有等同意思的術(shù)語。當(dāng)然,“系統(tǒng)”不包括僅僅是人為設(shè)置的社會(huì)“結(jié)構(gòu)”(社會(huì)系統(tǒng))。此外,針對(duì)各模塊執(zhí)行的各處理,或者針對(duì)在模塊中執(zhí)行多個(gè)處理的情況下的各處理,從存儲(chǔ)裝置讀取作為對(duì)象的信息,執(zhí)行處理,隨后將處理結(jié)果寫入存儲(chǔ)裝置。因此,存在如下情況,即可能省略了處理之前從存儲(chǔ)裝置進(jìn)行讀取的描述和在處理之后對(duì)存儲(chǔ)裝置進(jìn)行寫入的描述。存儲(chǔ)裝置在此可包括硬盤、RAM(隨機(jī)訪問存儲(chǔ)器)、外部存儲(chǔ)介質(zhì)、經(jīng)由通信線路的存儲(chǔ)裝置、CPU(中央處理單元)中的寄存器等。根據(jù)本示例性實(shí)施方式的信息處理裝置將文檔中的區(qū)域分割為段落區(qū)域或者項(xiàng)目區(qū)域,并且如圖1的示例所示,根據(jù)本示例性實(shí)施方式的信息處理裝置包括布局信息取得模塊110、行對(duì)齊判斷模塊120、段落和項(xiàng)目判斷模塊A130、處理變更模塊140、縮進(jìn)分析模塊150、段落和項(xiàng)目判斷模塊B160、以及判斷結(jié)果輸出模塊170。布局信息取得模塊110連接至行對(duì)齊判斷模塊120。布局信息取得模塊110取得作為與文檔中的區(qū)域有關(guān)的信息的區(qū)域信息、作為與區(qū)域中的行有關(guān)的信息的行信息、以及作為與行中的字符有關(guān)的信息的字符信息。此外,文檔至少包括文本數(shù)據(jù)。在某些情況下,文檔是諸如圖像、運(yùn)動(dòng)圖像及音頻或者上述的組合的電子數(shù)據(jù);對(duì)文檔進(jìn)行存儲(chǔ)、編輯以及搜索;文檔表示可在系統(tǒng)或者用戶之間交換的單個(gè)單位;并且包括與之類似的文檔。文檔中的區(qū)域表示:例如作掃描儀讀取的作為圖像的文檔并且通過對(duì)圖像進(jìn)行分析而將文檔分割為區(qū)域。布局信息取得模塊110接收的信息與作為通過對(duì)文檔的圖像進(jìn)行字符識(shí)別而識(shí)別出的結(jié)果的數(shù)據(jù)或者F1DF(PortableDocumentFormat:便攜式文檔格式)(注冊(cè)商標(biāo))相對(duì)應(yīng)。此外,存在在該區(qū)域中包括可以分割為段落區(qū)域或者項(xiàng)目區(qū)域的區(qū)域的情況。存在字符信息中包括錯(cuò)誤字符信息的情況。例如,在通過字符識(shí)別取得字符識(shí)別結(jié)果的情況下,可能出現(xiàn)誤識(shí)別。具體來說,存在誤識(shí)別項(xiàng)目的先導(dǎo)字符的情況。此外,字符包括符號(hào)等。下面參照?qǐng)D3和圖4描述區(qū)域信息、行信息以及字符信息的詳細(xì)示例。區(qū)域信息、行信息以及字符信息的取得,可接收在利用例如掃描儀或者攝像機(jī)讀取圖像之后(或者利用傳真經(jīng)由通信線路從外部裝置接收到圖像之后),通過結(jié)構(gòu)識(shí)別或者字符識(shí)別取得的結(jié)果。此外,可以讀取(嵌入計(jì)算機(jī)中的并且包括經(jīng)由網(wǎng)絡(luò)連接的)硬盤中存儲(chǔ)的區(qū)域信息、行信息以及字符信息。行對(duì)齊判斷模塊120連接至布局信息取得模塊110和段落和項(xiàng)目判斷模塊A130。行對(duì)齊判斷模塊120基于布局信息取得模塊110取得的行信息,判斷包括行信息所表示的行的區(qū)域是否左對(duì)齊。稍后利用圖5以及圖8至圖10的示例來描述此處理的詳細(xì)示例。行對(duì)齊判斷模塊120可以基于布局信息取得模塊110取得的行信息,來計(jì)算該行信息所表示的行的中點(diǎn)坐標(biāo),并且可以基于以下坐標(biāo)中的一個(gè)或者更多個(gè)來判斷區(qū)域是否左對(duì)齊:區(qū)域中的行的右端坐標(biāo)、中點(diǎn)坐標(biāo)以及左端坐標(biāo)。此外,行對(duì)齊判斷模塊120可以判斷區(qū)域是左對(duì)齊、居中對(duì)齊還是右對(duì)齊。在作為對(duì)象的語言是沒有規(guī)定行尾對(duì)齊的語言的情況下,行對(duì)齊判斷模塊120可以基于行信息所表示的行的下一行中的字符的字符信息,來改變行信息,隨后可以判斷包括該行信息所表示的行的區(qū)域是否左對(duì)齊。稍后利用圖6和圖7的示例來描述此處理的詳細(xì)示例。此外,在此“未規(guī)定行尾對(duì)齊的語言”是行尾一般不對(duì)齊的語言。當(dāng)然,即使在這種語言中,也可能在存在多行時(shí)有行尾碰巧對(duì)齊的情況,但是如果行尾一般不對(duì)齊,則語言相當(dāng)于“未規(guī)定行尾對(duì)齊的語言”。更具體來說,該語言對(duì)應(yīng)于英語、韓語等。另一方面,日語、中文等原則上具有對(duì)齊的行尾。此外,作為特例,在段落在行中結(jié)束的情況下,行尾不對(duì)齊,并且執(zhí)行諸如外掛(hanging)的處理,使得標(biāo)點(diǎn)符號(hào)不被置于行首,但是在存在多行的情況下,如果行尾一般對(duì)齊,則語言不相當(dāng)于“未規(guī)定行尾對(duì)齊的語言”。此外,“行信息的改變”指的是改變表示行信息中的行長(zhǎng)度的信息(在水平書寫的情況下,布局信息300的寬度340,而在垂直書寫的情況下,布局信息300的高度338)??苫谧址畔⒅械淖址麃韴?zhí)行關(guān)于是否對(duì)應(yīng)于語言的判斷。例如,在語言中使用的字符代碼的范圍根據(jù)字符代碼而不同,因此可以判斷所使用的字符代碼屬于那種語言的字符代碼的范圍。此外,在預(yù)先設(shè)置語言的情況下,可以根據(jù)設(shè)置來執(zhí)行判斷。設(shè)置包括存儲(chǔ)有與語言相對(duì)應(yīng)的值的標(biāo)志等。段落和項(xiàng)目判斷模塊A130連接至行對(duì)齊判斷模塊120和處理變更模塊140。段落和項(xiàng)目判斷模塊A130基于布局信息取得模塊110取得的字符信息,將包括該字符信息所表示的字符的區(qū)域分割為段落或者項(xiàng)目區(qū)域。稍后利用圖11的示例來描述此處理的詳細(xì)示例。通過段落和項(xiàng)目判斷模塊B160針對(duì)段落和項(xiàng)目判斷模塊A130的分割結(jié)果執(zhí)行分割處理,取得判斷結(jié)果輸出模塊170輸出的段落和項(xiàng)目判斷模塊B160的分割結(jié)果。段落和項(xiàng)目判斷模塊A130基于位于行首或者行尾的一個(gè)以上字符的字符串是否滿足預(yù)定字符串條件,可以將區(qū)域分割為段落區(qū)域或者項(xiàng)目區(qū)域。此外,字符串不僅包括多個(gè)字符的情況,還包括單個(gè)字符的情況。此外,段落和項(xiàng)目判斷模塊A130可以基于作為區(qū)域中的行的字符數(shù)而預(yù)定的值是否滿足預(yù)定條件,將區(qū)域分割為段落區(qū)域或者項(xiàng)目區(qū)域。處理變更模塊140連接至段落和項(xiàng)目判斷模塊A130、縮進(jìn)分析模塊150、以及判斷結(jié)果輸出模塊170。處理變更模塊140將行對(duì)齊判斷模塊120判斷為左對(duì)齊的區(qū)域的區(qū)域信息、行信息和字符信息發(fā)送至縮進(jìn)分析模塊150。此外,段落和項(xiàng)目判斷模塊A130對(duì)行對(duì)齊判斷模塊120判斷為未左對(duì)齊的區(qū)域的分割結(jié)果(區(qū)域的區(qū)域信息、行信息以及字符信息)被發(fā)送至判斷結(jié)果輸出模塊170。另外,包括字符的區(qū)域被判斷為左對(duì)齊或者未左對(duì)齊??s進(jìn)分析模塊150連接至處理變更模塊140和段落和項(xiàng)目判斷模塊B160??s進(jìn)分析模塊150對(duì)行對(duì)齊判斷模塊120判斷為左對(duì)齊的區(qū)域中的行的縮進(jìn)進(jìn)行分析。稍后利用圖12和圖13的示例來描述此處理的詳細(xì)示例。縮進(jìn)分析模塊150可以通過基于從區(qū)域的左端到該區(qū)域中各行的左端的距離,將各行分類為縮進(jìn)行和未縮進(jìn)行,來分析行縮進(jìn)。段落和項(xiàng)目判斷模塊B160連接至縮進(jìn)分析模塊150和判斷結(jié)果輸出模塊170。段落和項(xiàng)目判斷模塊B160基于縮進(jìn)分析模塊150的分析結(jié)果,將行對(duì)齊判斷模塊120判斷為左對(duì)齊的區(qū)域分割為段落區(qū)域或者項(xiàng)目區(qū)域。稍后利用圖14A至圖15B的示例來描述此處理的詳細(xì)示例。段落和項(xiàng)目判斷模塊B160可以基于行中包括的字符串中是否包括預(yù)定的字符串、以及作為縮進(jìn)分析模塊150的分析結(jié)果的分類邊界是否與段落邊界重合,來將區(qū)域分割為段落區(qū)域或者項(xiàng)目區(qū)域。判斷結(jié)果輸出模塊170連接至處理變更模塊140和段落和項(xiàng)目判斷模塊B160。判斷結(jié)果輸出模塊170對(duì)于行對(duì)齊判斷模塊120判斷為未左對(duì)齊的區(qū)域輸出段落和項(xiàng)目判斷模塊A130的分割結(jié)果,而對(duì)于行對(duì)齊判斷模塊120判斷為左對(duì)齊的區(qū)域輸出段落和項(xiàng)目判斷模塊B160的分割結(jié)果。存在省略段落和項(xiàng)目判斷模塊A130的分割結(jié)果以及段落和項(xiàng)目判斷模塊B160的分割結(jié)果兩者中的任一方的情況。因此,判斷結(jié)果輸出模塊170可以輸出段落和項(xiàng)目判斷模塊A130的分割結(jié)果以及段落和項(xiàng)目判斷模塊B160的分割結(jié)果兩者中的任一方,或者輸出段落和項(xiàng)目判斷模塊A130的分割結(jié)果以及段落和項(xiàng)目判斷模塊B160的分割結(jié)果這兩者。分割結(jié)果的輸出例如包括:將分割結(jié)果寫入諸如文檔數(shù)據(jù)庫的存儲(chǔ)裝置中作為與文檔有關(guān)的信息;將分割結(jié)果存儲(chǔ)到諸如存儲(chǔ)卡的存儲(chǔ)介質(zhì)中;將分割結(jié)果發(fā)送至其它信息處理裝置(例如執(zhí)行解釋處理等的信息處理裝置)等。此外,行對(duì)齊判斷模塊120和段落和項(xiàng)目判斷模塊A130兩者中的任一方可先執(zhí)行處理,或者兩者可以并行執(zhí)行處理。圖2是例示出根據(jù)示例性實(shí)施方式的處理示例的流程圖。在步驟S202中,布局信息取得模塊110取得布局信息。布局信息包括上述的區(qū)域信息、行信息以及字符信息。圖3是例示出布局信息取得模塊110取得的信息的數(shù)據(jù)結(jié)構(gòu)示例的示圖。布局信息300包括區(qū)域信息310和行信息330。在此,示出了區(qū)域是矩形區(qū)域的示例。另外,行信息330存儲(chǔ)表示區(qū)域信息310中的區(qū)域信息所表示的區(qū)域中的行的信息。區(qū)域信息310包括坐標(biāo)信息312和句子方向信息322,作為與區(qū)域有關(guān)的信息。坐標(biāo)信息312存儲(chǔ)區(qū)域的位置和尺寸。坐標(biāo)信息312包括X314、y316、高度318以及寬度320。x314存儲(chǔ)區(qū)域的左上坐標(biāo)的X坐標(biāo)。y316存儲(chǔ)區(qū)域的左y坐標(biāo)。高度318存儲(chǔ)區(qū)域的高度。寬度320存儲(chǔ)區(qū)域的寬度。此外,雖然例示出左上坐標(biāo)的X坐標(biāo)和I坐標(biāo)、高度以及寬度作為坐標(biāo)信息,但是也可使用其它信息,例如右上坐標(biāo)的X坐標(biāo)和I坐標(biāo)、高度以及寬度,而且也可使用左上坐標(biāo)的X坐標(biāo)和y坐標(biāo)以及右下坐標(biāo)的X坐標(biāo)和I坐標(biāo),只要該信息指示矩形的位置即可。下文中,上述情況也同樣適用于坐標(biāo)信息332和坐標(biāo)信息348中的信息。句子方向信息322存儲(chǔ)區(qū)域中的句子的方向(行方向)。句子方向包括水平書寫和垂直書寫。此外,在水平書寫的情況下,可以包括從左至右的方向和從右至左的方向。具體來說,存儲(chǔ)表示水平書與、垂直書與等的符號(hào)。行信息330包括區(qū)域中包括的各行的坐標(biāo)信息332、字符尺寸342以及字符信息344。因此,在區(qū)域中有多個(gè)行的情況下,存在多條行信息330。坐標(biāo)信息332存儲(chǔ)行的位置和尺寸。在此,示出行是矩形區(qū)域的示例。坐標(biāo)信息332包括X334,y336、高度338以及寬度340。X334存儲(chǔ)行的左X坐標(biāo)。y336存儲(chǔ)行的左上坐標(biāo)的y坐標(biāo)。高度338存儲(chǔ)行的高度。寬度340存儲(chǔ)行的寬度。字符尺寸342存儲(chǔ)行中包括的字符的尺寸。例如,存在磅值、點(diǎn)尺寸(dotsize)等。字符信息334針對(duì)行中包括的各字符存儲(chǔ)與該字符有關(guān)的信息。因此,在行中有多個(gè)字符的情況下,存在多條字符信息344。字符信息344包括字符代碼346和坐標(biāo)信息348。字符代碼346存儲(chǔ)表示字符的字符代碼。坐標(biāo)信息348包括X350、y352、高度354以及寬度356。在此,示出字符是矩形區(qū)域的示例。X350存儲(chǔ)字符的左X坐標(biāo)。J352存儲(chǔ)字符的左上坐標(biāo)的y坐標(biāo)。高度354存儲(chǔ)字符的高度。寬度356存儲(chǔ)字符的寬度。例如通過對(duì)文檔布局分析、字符識(shí)別以及電子文檔提取中的兩個(gè)以上處理結(jié)果進(jìn)行整合,獲得布局信息取得模塊110取得的信息。例如,區(qū)域信息是布局分析的處理結(jié)果,并且行信息和字符信息是字符識(shí)別或者電子文檔提取的處理結(jié)果。具體來說,當(dāng)通過掃描文檔取得的圖像作為對(duì)象時(shí),行信息和字符信息是字符識(shí)別的結(jié)果,而當(dāng)電子文檔作為對(duì)象時(shí),首先取得文檔中的字符代碼,并且針對(duì)沒有字符代碼的部分執(zhí)行字符識(shí)別,以取得其識(shí)別結(jié)果。圖4是例示出布局信息取得模塊110取得的信息的示例的示圖。在區(qū)域信息410中,存在總共3個(gè)項(xiàng)目,第一項(xiàng)目包括兩個(gè)項(xiàng)目(行信息420b和420c),并且如行信息420e中所示存在縮進(jìn)行。區(qū)域信息410包括六條行信息:行信息420a至行信息420f。此外,行信息420包括八條字符信息:字符信息430a至字符信息430r。另外,在圖4的示例中,雖然省略了行信息420b之后的行信息中的字符信息,但每行都包括字符信息。在步驟S204中,行對(duì)齊判斷模塊120計(jì)算作為判斷材料的數(shù)值統(tǒng)計(jì)量。在此,示出計(jì)算區(qū)域中的字符尺寸和行的中點(diǎn)坐標(biāo)這兩者的示例。至少可計(jì)算行的中點(diǎn)坐標(biāo),并且也可計(jì)算其它信息。關(guān)于區(qū)域中的字符尺寸,取得區(qū)域中的字符尺寸,并且計(jì)算眾數(shù),使用眾數(shù)作為區(qū)域中的代表字符尺寸。除了眾數(shù),還可使用平均值或者中間值。該值可以用作后續(xù)校正或者判斷處理的基準(zhǔn)。此外,作為在諸如部分混合有大字符的情況下的對(duì)策,采用眾數(shù)。此夕卜,例如當(dāng)存在不同字符尺寸時(shí),可以將包括該字符的行分離出來作為不同行,并且在行之間的字符尺寸差異超過預(yù)定值的情況下,可以將區(qū)域分離出來,使得在同一區(qū)域不包括具有不同尺寸的字符。基于句子方向信息來限定計(jì)算中點(diǎn)坐標(biāo)的方向。具體來說,垂直書寫是在Y軸方向,而水平書寫是在X軸方向。在此,所計(jì)算出的值用于步驟S208中的行對(duì)齊判斷。圖5是例示出行對(duì)齊判斷模塊120執(zhí)行的處理示例(中點(diǎn)坐標(biāo)的計(jì)算處理示例)的示圖。行信息420a至行信息420f的中點(diǎn)分別是中點(diǎn)坐標(biāo)510a至中點(diǎn)坐標(biāo)510f。在步驟S206中,行對(duì)齊判斷模塊120根據(jù)語言特征來校正信息。此外,步驟S206中的處理可省略。例如,在對(duì)象是規(guī)定了行尾對(duì)齊的語言的情況下(日語、中文等),省略步驟S206中的處理。此外,可以判斷語言是否是未規(guī)定行尾對(duì)齊的語言(英語、韓語等)。這種判斷可以利用上述的字符代碼來執(zhí)行。由于在未規(guī)定行尾對(duì)齊的語言(英語、韓語等)中行尾可能未對(duì)齊,因此執(zhí)行校正,以便進(jìn)行與規(guī)定了行尾對(duì)齊的語言(日語、中文等)相同的處理。圖6和圖7是例示出當(dāng)句子方向信息表示水平書寫時(shí),行對(duì)齊判斷模塊120執(zhí)行的處理示例的示圖。此外,當(dāng)句子方向信息表不垂直書寫時(shí),執(zhí)行以向右旋轉(zhuǎn)90度的方式的處理。首先,從字符信息取得對(duì)象行的下一行中的開始單詞的寬度。作為行信息中的寬度信息,將所取得的單詞寬度和調(diào)整寬度的值添加至對(duì)象行的寬度,并且判斷該行信息是否超過區(qū)域?qū)挾取H绻诖颂幚碇信袛喑鲂行畔⒊^了區(qū)域?qū)挾?,則將行信息擴(kuò)展到區(qū)域信息的末尾。具體來說,對(duì)象行的下一行(在水平書寫時(shí)位于對(duì)象行直接下面的行,而在垂直書寫時(shí)位于對(duì)象行直接左側(cè)的行)中的開始單詞的寬度是直至在該下一行中由空格分開的單詞的寬度,并且將該寬度添加至對(duì)象行。此外,將作為預(yù)定值的調(diào)整寬度的值添加至對(duì)象行。在此情況下,判斷對(duì)象行是否包括在區(qū)域中。在圖6的示例中,將行信息620a的下一行信息620b中的開始單詞寬度630b(下一行開始單詞寬度640a)和調(diào)整寬度650a添加至行信息620a的右端(X坐標(biāo))。判斷此結(jié)果是否超過區(qū)域信息610的右端。在圖6所示的示例中,判斷出區(qū)域信息610中的行信息620a、行信息620b以及行信息620c超過了區(qū)域信息610的右端。如果行信息620d的右端與區(qū)域信息610的右端相一致,則不必進(jìn)行此處理。此外,調(diào)整寬度可以基于區(qū)域中的代表字符尺寸來定義。由于存在通過調(diào)整空格尺寸來排列字符的情況,因此提供這種調(diào)整寬度。例如,調(diào)整寬度可以是與代表字符尺寸的三個(gè)字符的長(zhǎng)度相對(duì)應(yīng)的長(zhǎng)度。此外,如果判斷出包括行的區(qū)域中未包括對(duì)象行,則校正表示行的行信息的寬度,使得該行的右端與區(qū)域的右端相一致。在圖7所示的示例中,將區(qū)域信息710中的行信息720a、行信息720b以及行信息720c的右端擴(kuò)展到區(qū)域信息710的右端。在步驟S208中,行對(duì)齊判斷模塊120對(duì)行對(duì)齊進(jìn)行判斷(對(duì)左對(duì)齊、居中對(duì)齊以及右對(duì)齊進(jìn)行判斷)??梢愿鶕?jù)區(qū)域中的行首、行尾以及中點(diǎn)的坐標(biāo)執(zhí)行判斷。當(dāng)句子方向信息表示水平書寫時(shí),行首的坐標(biāo)是行的左端的X坐標(biāo),行尾的坐標(biāo)是行的右端的X坐標(biāo),而中點(diǎn)的坐標(biāo)是在步驟S204中計(jì)算的中點(diǎn)的X坐標(biāo)。圖8、圖9以及圖10中所示的示例用于描述水平書寫的情況,并且當(dāng)句子方向信息表示垂直書寫時(shí),通過向右旋轉(zhuǎn)90度可以執(zhí)行等同處理。此外,在區(qū)域中只有唯一行的情況下,進(jìn)行左對(duì)齊判斷。圖8是例示出行對(duì)齊判斷模塊120執(zhí)行的步驟S208中的處理示例的流程圖。在步驟S802中,行對(duì)齊判斷模塊120判斷是否“右坐標(biāo)(行的右端的x坐標(biāo))對(duì)齊”并且是否“左坐標(biāo)(行的左端的X坐標(biāo))對(duì)齊”,并且如果滿足該條件,則流程進(jìn)行到步驟S804,否則,流程進(jìn)行到步驟S806。在此,在“判斷是否對(duì)齊”時(shí),計(jì)算與區(qū)域坐標(biāo)的差,并且如果該差的方差小于預(yù)定值,則判斷為對(duì)齊。例如,預(yù)定值可以是代表字符尺寸的2.5個(gè)字符。這也適用于后續(xù)步驟S806。此外,利用左坐標(biāo)未對(duì)齊的條件旨在判斷句子緊密填滿矩形的情況為“左對(duì)齊”。在步驟S804中,行對(duì)齊判斷模塊120判斷區(qū)域?yàn)橛覍?duì)齊。在圖9所示的示例中,由于左坐標(biāo)與區(qū)域的左端坐標(biāo)之間的差,即左側(cè)間隔信息940a、左側(cè)間隔信息940b以及左側(cè)間隔信息940d的方差大于預(yù)定值,所以判斷為“左坐標(biāo)未對(duì)齊”,而由于各個(gè)行的右坐標(biāo)與區(qū)域右側(cè)信息930c相一致,所以判斷為“右坐標(biāo)對(duì)齊”,并且在步驟S804中判斷出區(qū)域信息910為右對(duì)齊。在步驟S806中,行對(duì)齊判斷模塊120判斷是否“中點(diǎn)坐標(biāo)對(duì)齊”并且是否“左坐標(biāo)未對(duì)齊”,并且如果如此,則流程進(jìn)行到步驟S808,否則流程進(jìn)行到步驟S810。在步驟S808中,行對(duì)齊判斷模塊120判斷出區(qū)域?yàn)榫又袑?duì)齊。在圖10所示的示例中,由于左坐標(biāo)與區(qū)域的左端坐標(biāo)之間的差,即左側(cè)間隔信息1040a、左側(cè)間隔信息1040b以及左側(cè)間隔信息1040d的方差大于預(yù)定值,所以判斷為“左坐標(biāo)未對(duì)齊”,并且由于各個(gè)行的中點(diǎn)坐標(biāo)與區(qū)域中點(diǎn)信息1030b—致,所以判斷為“中點(diǎn)坐標(biāo)對(duì)齊”,并且在步驟S808中判斷出區(qū)域信息1010為居中對(duì)齊。在步驟S810中,行對(duì)齊判斷模塊120判斷區(qū)域?yàn)樽髮?duì)齊。此外,由于在句子中存在段落縮進(jìn)的情況,因此不用左坐標(biāo)對(duì)齊的條件來判斷左對(duì)齊。此外,判斷是按照步驟S802和S806的順序執(zhí)行的,但也可按照相反順序執(zhí)行,并且利用組合上述條件取得的條件經(jīng)一次判斷來進(jìn)行區(qū)分。在步驟S210中,段落和項(xiàng)目判斷模塊A130利用字符串來檢測(cè)項(xiàng)目記號(hào)。通過在區(qū)域信息中,將行首開始的預(yù)定數(shù)量字符的字符串與從行尾開始的預(yù)定數(shù)量字符的字符串相比較,來檢測(cè)項(xiàng)目記號(hào)。例如,如果滿足下列條件,則識(shí)別到項(xiàng)目記號(hào)。此外,為了即使在使用相同的項(xiàng)目記號(hào)縮進(jìn)段落的情況下也能夠檢測(cè),因此不使用坐標(biāo)信息。然而,也可以使用坐標(biāo)信息。(I)當(dāng)句首有預(yù)定的項(xiàng)目記號(hào)時(shí),基于先導(dǎo)字符串是否是預(yù)定字符串來判斷是否是項(xiàng)目記號(hào)。然而,限于在區(qū)域中存在以相同記號(hào)開始的多個(gè)行的情況下,判斷記號(hào)為項(xiàng)目記號(hào)。這是因?yàn)闇p少由于字符識(shí)別的誤識(shí)別弓I起的分割錯(cuò)誤。例如,記號(hào)由作為預(yù)定字符串的正規(guī)表達(dá)表示,并且對(duì)應(yīng)于“[.Y-—*〇☆※□ΛΑψ.]”等。(2)當(dāng)具有括弧的項(xiàng)目記號(hào)位于句首時(shí),檢測(cè)先導(dǎo)字符串是否由括弧包圍,并且如果在區(qū)域中存在以由相同括弧所包圍的字符串開始的多個(gè)行,則判斷出記號(hào)為項(xiàng)目記號(hào)。例如,記號(hào)由作為預(yù)定字符串的正規(guī)表達(dá)表示,并且對(duì)應(yīng)于“[(Y[〈]”等。例如,記號(hào)由作為結(jié)束括弧的正規(guī)表達(dá)表示,并且對(duì)應(yīng)于“DY]〉]”等。此外,可以包括在說明書中無法使用的括弧記號(hào)(“半角括號(hào)”和用于寫段號(hào)的“固定括弧(也稱為括號(hào))”)??梢詫⒁袛嗟淖址麛?shù)量設(shè)置為預(yù)定數(shù)量。例如,預(yù)定數(shù)量可以在從頭開始四個(gè)字符以內(nèi)的范圍。(3)當(dāng)字母數(shù)字字符位于句首并且滿足條件時(shí)條件(3-1)“初始字符是字母數(shù)字字符、中文數(shù)字或者羅馬字符”并且“第二字符是.一”中的任一方”。此外,如果存在滿足前述條件的多個(gè)行,并且初始字符的字符代碼連續(xù)存在,則判斷為項(xiàng)目。例如,如果“Α”、“Β”等連續(xù)存在,則被檢測(cè)到。條件(3-2)“從初始字符開始連續(xù)存在數(shù)字的行”當(dāng)存在滿足該條件的多個(gè)行,并且數(shù)字由數(shù)值替代且以數(shù)值的順序排列時(shí),如果作為行的相鄰數(shù)值之間的差是O或者1,則判斷為項(xiàng)目。此外,由于僅后半個(gè)字符可以變化,諸如例如“12-1”和“12-2”,因此存在差(初始數(shù)字12和12之間的差)為O的情況。在步驟S212中,段落和項(xiàng)目判斷模塊A130利用句子結(jié)束記號(hào)來檢測(cè)段落邊界。如果上一行的句子以標(biāo)點(diǎn)符號(hào)或者句號(hào)結(jié)束,則判斷出段落邊界位于其間。檢測(cè)到的句子結(jié)束字符串是預(yù)定的。例如,句子結(jié)束字符串由作為預(yù)定字符串的正規(guī)表達(dá)表示,并且可以是!”。此外,可增加在文本行中句子起始縮進(jìn)的條件。這是為了防止在標(biāo)點(diǎn)符號(hào)碰巧位于行尾的句子中判斷出在不是段落邊界的部位分段。在步驟S214中,段落和項(xiàng)目判斷模塊A130利用字符數(shù)量來檢測(cè)段落邊界。在區(qū)域中的行的平均字符數(shù)小于預(yù)定值的情況下,判斷為是對(duì)單詞進(jìn)行枚舉,并且所有行被分為單獨(dú)行(使用各行的邊界用作段落邊界)。此外,在英語中,將由空格分開的單詞的數(shù)量作為對(duì)象。例如,作為預(yù)定值,平均字符數(shù)在日語、中文以及韓語的情況下可以是八個(gè)字符,而在英語的情況下可以是三個(gè)單詞。在此,作為條件,當(dāng)一行中的數(shù)字串完全由“+「.,,γ$%-」”(正規(guī)表達(dá))構(gòu)成時(shí),可以在不考慮字符數(shù)的情況下分離數(shù)字串。此目的在于處理沒有格線的表單等。在步驟S214中,判斷字符是否是表單單元中的字符,并且如果字符是表單單元中的字符,則針對(duì)字符可以不執(zhí)行此處理。此目的在于處理單元中的字符不規(guī)則排列的情況。在步驟S216中,段落和項(xiàng)目判斷模塊A130利用位于句子起始和句子結(jié)束處的記號(hào)來檢測(cè)段落邊界。這是針對(duì)由括弧包圍的句子的枚舉的對(duì)策。如果行首的字符和行尾的字符是對(duì)應(yīng)的括弧,則判斷該行為單獨(dú)行,并進(jìn)行分割(使用行的邊界作為段落邊界)。例如,存在[]、「」、()、“”、以及作為預(yù)定的括弧字符,并且由它們之一所包圍的行是對(duì)象。此外,從步驟S210至S216的處理可以是它們中的一個(gè)步驟或者更多個(gè)步驟的處理。此外,從步驟S210至S216的處理可以不是順序執(zhí)行的。例如,可以按照相反順序執(zhí)行這些處理或者可以并行執(zhí)行這些處理。此外,可使用現(xiàn)有技術(shù)文件中公開的技術(shù)來替代這些處理,或者現(xiàn)有技術(shù)文件中公開的技術(shù)可以與這些處理一起使用。在步驟S218中,段落和項(xiàng)目判斷模塊A130分離出在被判斷為存在項(xiàng)目記號(hào)的行與前一行之間的邊界處的區(qū)域信息,并且使用所分離出的區(qū)域信息作為段落信息。利用通過從步驟S210至步驟S216的處理所檢測(cè)到的段落邊界來分離出區(qū)域信息,并且使用區(qū)域信息作為段落信息。整合通過從步驟S210至S216的處理所檢測(cè)到的信息,并且針對(duì)每條段落信息分離句子。其中檢測(cè)到了項(xiàng)目記號(hào)的行因?yàn)榫渥颖慌袛嘣谠撔兄皠澐侄环珠_。利用段落邊界作為邊界來分離信息。此時(shí),針對(duì)每個(gè)“段落區(qū)域”匯總區(qū)域信息,諸如圖11的示例中所示的虛線所包圍的段落信息1120a至1120e。在步驟S220中,處理變更模塊140判斷區(qū)域是否是左對(duì)齊(在垂直書寫的情況下是否是上對(duì)齊),并且如果區(qū)域是左對(duì)齊(上對(duì)齊),則流程進(jìn)行到步驟S222。隨后,流程進(jìn)行到步驟S228。如果在步驟S208中判斷待處理的區(qū)域信息是左對(duì)齊,則附加執(zhí)行關(guān)于區(qū)域信息中的句子是否縮進(jìn)的判斷處理(從步驟S222至步驟S226的處理)。在居中對(duì)齊和右對(duì)齊的情況下,流程進(jìn)行到步驟S228。在垂直書寫的情況下,在上對(duì)齊的情況下流程進(jìn)行到步驟S222,否則流程進(jìn)行到步驟S228。在步驟S222中,縮進(jìn)分析模塊150利用區(qū)域中的行的行首坐標(biāo)來檢測(cè)縮進(jìn),并且選擇縮進(jìn)候選。利用區(qū)域的左端坐標(biāo)與區(qū)域中包括的行的左端坐標(biāo)之間的距離來對(duì)行進(jìn)行分組。圖12是例示出縮進(jìn)分析模塊150執(zhí)行的處理示例的示圖。區(qū)域信息1100包括五個(gè)段落的段落信息1120a至1120e。此外,段落信息1120d包括兩個(gè)行。其它段落分別僅包括一個(gè)行。從區(qū)域信息1100的左端至段落信息1120a中的行的左端的距離是O(區(qū)域左坐標(biāo)A:1210;即它們彼此重合)。類似的是,從區(qū)域信息1100的左端到段落信息1120d中的第一行和段落信息1120e中的行的左端的距離是0,并且它們形成組A。從區(qū)域信息1100的左端到段落信息1120b中的行的左端的距離、從區(qū)域信息1100的左端到段落信息1120c中的行的左端的距離、以及從區(qū)域信息1100的左端到段落信息1120d中的第二行的左端的距離(區(qū)域縮進(jìn)坐標(biāo)B:1220)相同,因此它們形成組B。在此相同的距離表示被比較的距離之間的差在預(yù)定值內(nèi)。例如,在區(qū)域中,差可以在代表字符尺寸的0.7個(gè)字符內(nèi)。此外,順序檢查行的組,并且在一個(gè)組變更至另一個(gè)組的邊界處選擇縮進(jìn)候選。換言之,如果相同組中包括的行連續(xù)排列,則多個(gè)行成為相同的縮進(jìn)候選。具體來說,在圖12所示的示例中,在段落信息1120a中的行與段落信息1120b中的行之間的邊界處、在段落信息1120c中的行與段落信息1120d中的第一行之間的邊界處、在段落信息1120d中的第一行與段落信息1120d中的第二行之間的邊界處、以及在段落信息1120d中的第二行與段落信息1120e中的行之間的邊界處,選擇縮進(jìn)候選。因此,在區(qū)域信息1100中有五個(gè)縮進(jìn)候選。具體來說,如圖13中示例所示,段落信息1120a與縮進(jìn)候選信息1310a重合,并且段落信息1120b和段落信息1120c包括在縮進(jìn)候選信息1310b中。相反,縮進(jìn)候選信息1310c和縮進(jìn)候選信息1310d包括在段落信息1120d中,并且段落信息1120e與縮進(jìn)候選信息1310e重合。此外,存在縮進(jìn)候選可以包括不是縮進(jìn)的可能性。在下列步驟中,從縮進(jìn)候選中選擇縮進(jìn)。此外,在垂直書寫的情況下,可以利用上端坐標(biāo)來檢測(cè)縮進(jìn)。此外,當(dāng)從區(qū)域的左端至行的左端的距離等于或者大于閾值時(shí),可以選擇縮進(jìn)候選的行。用于判斷縮進(jìn)候選的行的閾值是預(yù)定的。例如,使用從區(qū)域的左端至行的左端的距離等于或者大于該區(qū)域中代表字符尺寸的2.5個(gè)字符的行作為縮進(jìn)候選的行。在圖12所示的示例中,組B的從區(qū)域的左端至行的左端的距離(區(qū)域縮進(jìn)坐標(biāo)B:1220)等于或者大于2.5個(gè)字符,因此段落信息1120b中的行、段落信息1120c中的行、以及段落信息1120d中的第二行成為縮進(jìn)候選的行。在步驟S224中,段落和項(xiàng)目判斷模塊B160利用項(xiàng)目信息來縮小縮進(jìn)候選。如果在步驟S222中分割為組的縮進(jìn)候選的邊界滿足下列兩個(gè)條件,則將邊界視為缺省,并且后面的縮進(jìn)候選組包括在前面的縮進(jìn)候選組中。(條件I)預(yù)定的項(xiàng)目記號(hào)(步驟S210等中使用的項(xiàng)目記號(hào)等)包括在邊界之前的行中。(條件2)段落的邊界和縮進(jìn)候選的邊界彼此不重合。對(duì)上述進(jìn)行詳細(xì)描述。如圖14A的示例所示,在區(qū)域信息1100中,有五個(gè)段落(段落信息1120a至1120e)和五個(gè)縮進(jìn)候選(縮進(jìn)候選信息1310a至1310e)??s進(jìn)候選的對(duì)象邊界是縮進(jìn)候選信息1310a與縮進(jìn)候選信息1310b之間的邊界、縮進(jìn)候選信息1310b與縮進(jìn)候選信息1310c之間的邊界、縮進(jìn)候選信息1310c與縮進(jìn)候選信息1310d之間的邊界、以及縮進(jìn)候選信息1310d與縮進(jìn)候選信息1310e之間的邊界。滿足條件I和2的邊界是縮進(jìn)候選信息1310c與縮進(jìn)候選信息1310d之間的邊界。換言之,預(yù)定的項(xiàng)目記號(hào)“”包括在縮進(jìn)候選信息1310c中。此外,沒有與縮進(jìn)候選信息1310c與縮進(jìn)候選信息1310d之間的邊界位于相同位置處的段落邊界。這是因?yàn)榭s進(jìn)候選信息1310c和縮進(jìn)候選信息1310d包括在段落信息1120d中。因此,縮進(jìn)候選信息1310d屬于組B,但變更為屬于作為縮進(jìn)候選信息1310c的組的組A,并且縮進(jìn)候選信息1310c和縮進(jìn)候選信息1310d被視為單一縮進(jìn)候選。此外,執(zhí)行在步驟S222中執(zhí)行的縮進(jìn)候選分割。換言之,順序檢查行的組,并且如果相同組中包括的行連續(xù)排列,則多個(gè)行成為相同縮進(jìn)候選。具體來說,由于縮進(jìn)候選信息1310d變更為屬于組A,縮進(jìn)候選信息1310c、縮進(jìn)候選信息1310d以及縮進(jìn)候選信息1310e屬于相同組A并且連續(xù)排列,因此將它們被視為組A的縮進(jìn)候選。將上述應(yīng)用于區(qū)域信息1100中的行后的狀態(tài)下的縮進(jìn)候選成為縮進(jìn)(項(xiàng)目區(qū)域)。圖14A中示出的示例也應(yīng)用于圖14B中所示的示例。換言之,存在三個(gè)縮進(jìn)(項(xiàng)目區(qū)域):僅由在區(qū)域信息1100中的第一行形成的縮進(jìn)信息1410a、由區(qū)域信息1100中的第二行和第三行形成的縮進(jìn)信息1410b、以及由區(qū)域信息1100中的第四行、第五行以及第六行形成的縮進(jìn)信息1410c。縮進(jìn)信息1410a屬于組A,縮進(jìn)信息1410b屬于組B,而縮進(jìn)信息1410c屬于組A。此外,在縮進(jìn)候選的邊界位于區(qū)域中的第一行與第二行之間,并且第一行排列在第二行下方(所謂反向縮進(jìn)狀態(tài);具體來說,在垂直書寫的情況下,第一行比第二行位于更右側(cè),而在水平書寫的情況下,第一行比第二行位于更下側(cè)),第一行的組可以變更至第二行的組。這是針對(duì)段落起始的縮進(jìn)寬度大的情況的對(duì)策,而且這是因?yàn)榈谝恍斜慌袛酁椴豢s進(jìn)。在步驟S226中,段落和項(xiàng)目判斷模塊B160利用行尾信息來分割段落信息。針對(duì)每個(gè)段落,比較連續(xù)行的行尾坐標(biāo)。如果后面行的行尾從前面行的行尾向下預(yù)定值(在水平書寫的情況下,后面行的行尾比前面行的行尾在更右側(cè)的狀態(tài),而在垂直書寫的情況下,后面行的行尾比前面行的行尾位于更下側(cè)的狀態(tài)),則假設(shè)段落的邊界位于被比較的行之間,來分割段落信息。例如三個(gè)以上字符等作為預(yù)定值。此外,雖然英語中存在行尾未對(duì)齊的情況,但是可以在步驟S206中進(jìn)行校正,因此步驟S226的處理也可這樣執(zhí)行。對(duì)上述進(jìn)行詳細(xì)描述。如圖15A的示例所示,通過對(duì)行信息1520c和行信息1520d的行尾坐標(biāo)進(jìn)行比較,發(fā)現(xiàn)行信息1520d的行尾比行信息1520c的行尾(行信息1540)位于更右側(cè)預(yù)定值以上。因此,在行信息1520c與行信息1520d之間(行邊界信息1530)分割段落信息1515。如圖15B的不例所不,在區(qū)域信息1510中有兩個(gè)段落,段落信息1550a和段落信息1550b。此外,當(dāng)區(qū)域中的行的數(shù)量小于預(yù)定值時(shí),可以省略步驟S226中的處理。例如三行或者更少行等作為預(yù)定值。由少量行構(gòu)成的區(qū)域很可能是標(biāo)題。由于在標(biāo)題中,行尾通常不對(duì)齊,因此可以排除步驟S226中的處理。在步驟S228中,判斷結(jié)果輸出模塊170輸出分割結(jié)果。通過從步驟S222至步驟S226獲取左對(duì)齊的區(qū)域的結(jié)果,而通過步驟S218中的處理獲取未左對(duì)齊的區(qū)域的結(jié)果。在上述示例中,主要描述了布局信息取得模塊110取得的布局信息不包括錯(cuò)誤字符的情況。然而,存在取得字符識(shí)別結(jié)果作為布局信息取得模塊110取得的布局信息的情況。例如,通過對(duì)圖16A所示的對(duì)象圖像1610執(zhí)行結(jié)構(gòu)識(shí)別和字符識(shí)別獲得的結(jié)果是圖16B所示的識(shí)別結(jié)果1620。取得關(guān)于識(shí)別結(jié)果1620的信息作為步驟S202中的布局信息。由于在字符識(shí)別技術(shù)中可能誤識(shí)別記號(hào),因此存在表示項(xiàng)目的項(xiàng)目記號(hào)或者字符串未被正確取得的情況。由于在段落和項(xiàng)目判斷模塊A130執(zhí)行的處理中僅參考字符代碼,因此難以找到誤識(shí)別的句子的斷開處。在示例性實(shí)施方式中,作為縮進(jìn)分析模塊150以及段落和項(xiàng)目判斷模塊B160執(zhí)行的處理,合并并分析字符串的信息和行的位置信息。參照?qǐng)D17,將描述根據(jù)示例性實(shí)施方式的信息處理裝置的硬件構(gòu)造示例。圖17所示的構(gòu)造例如由個(gè)人計(jì)算機(jī)(PC)等實(shí)現(xiàn),并且是包括諸如掃描儀的數(shù)據(jù)讀取單元1717和諸如打印機(jī)的數(shù)據(jù)輸出單元1718的硬件構(gòu)造示例。CPU(中央處理單元)1701是根據(jù)計(jì)算機(jī)程序執(zhí)行處理的控制器,該計(jì)算機(jī)程序描述了上述實(shí)施方式中描述的以下各種模塊的執(zhí)行序列:即,布局信息取得模塊110、行對(duì)齊判斷模塊120、段落和項(xiàng)目判斷模塊A130、處理變更模塊140、縮進(jìn)分析模塊150、段落和項(xiàng)目判斷模塊B160以及判斷結(jié)果輸出模塊170。ROM(只讀存儲(chǔ)器)1702存儲(chǔ)CPU1701使用的程序或者操作參數(shù)。RAM(隨機(jī)訪問存儲(chǔ)器)1703存儲(chǔ)CPU1701執(zhí)行時(shí)所使用的程序或者在執(zhí)行中適當(dāng)變化的參數(shù)。它們經(jīng)由CPU總線組成的主機(jī)總線1704彼此連接。主機(jī)總線1704經(jīng)由橋接器1705連接至諸如PCI(外圍組件互連/接口)總線的外部總線1706。鍵盤1708和諸如鼠標(biāo)的指示裝置1709是操作人員操作的輸入設(shè)備。顯示器1710包括液晶顯示器、CRT(陰極射線管)等,并且顯示作為文本或者圖像信息的各種信息。HDD(硬盤驅(qū)動(dòng)器)1711其內(nèi)具有嵌入有硬盤,驅(qū)動(dòng)硬盤,并且記錄或者復(fù)制CPU1701執(zhí)行的程序或者信息。硬盤存儲(chǔ)布局信息取得模塊110接收到的布局信息、段落和項(xiàng)目判斷模塊A130的處理結(jié)果等。此外,在硬盤中存儲(chǔ)諸如各種其它數(shù)據(jù)處理程序的各種計(jì)算機(jī)程序。驅(qū)動(dòng)器1712讀取安裝于其中的諸如磁盤、光盤、磁光盤或者半導(dǎo)體存儲(chǔ)器的可移動(dòng)記錄介質(zhì)1713上的數(shù)據(jù)或者程序,并且將數(shù)據(jù)和程序提供給經(jīng)由接口1707、外部總線1706、橋接器1705以及主機(jī)總線1704與其連接的RAM1703??梢苿?dòng)記錄介質(zhì)1718還可以以與硬盤相同的方式用作數(shù)據(jù)記錄區(qū)。連接端口1714是用于連接至外部連接裝置1715的端口,并且具有諸如USB或者IEEE1394的連接單元。連接端口1714經(jīng)由接口1707、外部總線1706、橋接器1705以及主機(jī)總線1704連接至CPU1701等。通信單元1716連接至通信線并且執(zhí)行與外部裝置的數(shù)據(jù)通信處理。數(shù)據(jù)讀取單元1717例如是掃描儀,并且執(zhí)行文檔讀取處理。數(shù)據(jù)輸出單元1718例如是打印機(jī),并且執(zhí)行文檔數(shù)據(jù)輸出處理。此外,圖17中所示的信息處理裝置的硬件構(gòu)造示出了構(gòu)造示例,但示例性實(shí)施方式不限于圖17所示的構(gòu)造,并且可采用可以執(zhí)行示例性實(shí)施方式中描述的模塊的構(gòu)造。例如,一些模塊可由專用硬件(例如專用集成電路)構(gòu)成,一些模塊可具有位于外部系統(tǒng)中并且經(jīng)由通信線連接的形式,而圖17所示的多個(gè)系統(tǒng)可經(jīng)由通信線彼此連接并且彼此協(xié)調(diào)操作。此外,硬件構(gòu)造可并入打印機(jī)、傳真機(jī)、掃描儀、打印機(jī)、多功能外部設(shè)備(具有掃描儀、打印機(jī)、復(fù)印機(jī)以及傳真機(jī)中的兩種以上功能的圖像處理裝置)等。雖然主要利用水平書寫的情況下的示例來描述上述示例性實(shí)施方式,但是在垂直書寫的情況下,可以利用旋轉(zhuǎn)90度的坐標(biāo)系統(tǒng)。在此情況下,水平書寫中的左對(duì)齊變?yōu)榇怪睍鴮懼械纳蠈?duì)齊,而水平書寫中的右對(duì)齊變?yōu)榇怪睍鴮懼械南聦?duì)齊。此外,行的中點(diǎn)是水平書寫中的行的水平寬度中的中點(diǎn),并且是垂直書寫中的行的高度中的中點(diǎn)。此外,布局信息取得模塊110可以基于布局信息來判斷區(qū)域是否是水平書寫(或者垂直書寫),隨后根據(jù)其判斷結(jié)果執(zhí)行處理(在水平書寫的情況下用于水平書寫的處理和在垂直書寫的情況下用于垂直書寫的處理)。此外,在基于布局信息判斷水平書寫時(shí),如果在布局信息中存在表示區(qū)域是否是水平書寫的信息,則根據(jù)該信息執(zhí)行判斷。此外,如果不存在信息,則可以利用布局信息的行信息中的行的高度和寬度之比來執(zhí)行判斷。例如,如果高度和寬度之比表示它在水平方向大于預(yù)定比率,則判斷為水平書寫,而如果高度和寬度之比表示它在垂直方向大于預(yù)定比率,則判斷為垂直書寫。在上述示例性實(shí)施方式的描述中,在與預(yù)定值進(jìn)行比較時(shí),則“等于或更大”、“等于或小于”、“大于”以及“小于”可分別用“大于”、“小于”、“等于或更大”以及“等于或小于”來替代,只要它們的組合不產(chǎn)生矛盾即可。此外,上述程序可以存儲(chǔ)在記錄介質(zhì)上并提供,或者程序可以利用通信單元來提供。在此情況下,例如可將上述程序理解為“記錄程序的計(jì)算機(jī)可讀記錄介質(zhì)”的發(fā)明?!坝涗洺绦虻挠?jì)算機(jī)可讀記錄介質(zhì)”指的是用于安裝執(zhí)行程序以及發(fā)布程序、上面記錄程序并且能夠由計(jì)算機(jī)讀取的記錄介質(zhì)。此外,例如,記錄介質(zhì)包括:作為數(shù)字通用盤(DVD)且作為DVD論壇制定標(biāo)準(zhǔn)的例如“DVD-R、DVD-RW、DVD-RAM等”;作為由DVD+RW制定標(biāo)準(zhǔn)的“DVD+R、DVD+RW等”;作為光盤(CD)的只讀存儲(chǔ)器(CD-ROM)、CD-可記錄(CD-R)、CD-可重寫(CD-RW)等;藍(lán)光光盤(Blu-raydisc,注冊(cè)商標(biāo));磁光盤(MO);柔性盤(FD);磁帶;硬盤;只讀存儲(chǔ)器(ROM);電可擦可編程只讀存儲(chǔ)器(EEPROM(注冊(cè)商標(biāo)));閃速存儲(chǔ)器;隨機(jī)存取存儲(chǔ)器(RAM);SD(安全數(shù)字)存儲(chǔ)卡等。上述程序或者其部分可以記錄在記錄介質(zhì)上以保留或者發(fā)布。此外,程序可以通過通信來傳輸,例如經(jīng)由諸如局域網(wǎng)(LAN)、城域網(wǎng)(MAN)、廣域網(wǎng)(WAN)、因特網(wǎng)、內(nèi)聯(lián)網(wǎng)以及外聯(lián)網(wǎng)的有線網(wǎng)絡(luò)或者無線通信網(wǎng)絡(luò)。此外,程序可利用諸如記錄介質(zhì)的組合的傳輸介質(zhì)來傳輸或者可以承載在載波上。此外,上述程序可以是其他程序的一部分,或者可以與獨(dú)立程序一起記錄在記錄介質(zhì)上。此外,程序可以經(jīng)分割記錄到多個(gè)記錄介質(zhì)上。程序可以任何形式記錄,只要能夠通過壓縮、解碼等可以恢復(fù)程序即可。出于例示和描述的目的,提供了本發(fā)明的示例性實(shí)施方式的前述描述。并非旨在對(duì)本發(fā)明進(jìn)行窮舉或者將本發(fā)明限于所公開的精確形式。顯然,對(duì)于本領(lǐng)域技術(shù)人員來說明可以有多種變化和變型。選擇了實(shí)施方式進(jìn)行說明以最好地解釋本發(fā)明的原理及其實(shí)際應(yīng)用,以使本領(lǐng)域技術(shù)人員能夠理解本發(fā)明的各種實(shí)施方式,以及適合于所設(shè)想的具體用途的各種變型。旨在由所附權(quán)利要求及其等同來限定本發(fā)明的范圍。權(quán)利要求1.一種信息處理裝置,該信息處理裝置包括:取得單元,該取得單元取得區(qū)域信息、行信息以及字符信息,該區(qū)域信息是與文檔中的區(qū)域有關(guān)的信息,該行信息是與該區(qū)域中的行有關(guān)的信息,而該字符信息是與該行中的字符有關(guān)的息;判斷單元,該判斷單元基于所述取得單元取得的行信息,來判斷包括該行信息所指示的行的區(qū)域是否左對(duì)齊;第一分割單元,該第一分割單元基于所述取得單元取得的字符信息,將包括該字符信息所指示的字符的區(qū)域分割為段落區(qū)域或者項(xiàng)目區(qū)域;分析單元,該分析單元分析所述判斷單元判斷為左對(duì)齊的區(qū)域內(nèi)的行的縮進(jìn);第二分割單元,該第二分割單元基于所述分析單元的分析結(jié)果,將所述判斷單元判斷為左對(duì)齊的區(qū)域分割為段落區(qū)域或者項(xiàng)目區(qū)域;以及輸出單元,該輸出單元針對(duì)所述判斷單元判斷為未左對(duì)齊的區(qū)域,輸出所述第一分割單元的分割結(jié)果,而針對(duì)所述判斷單元判斷為左對(duì)齊的區(qū)域,輸出所述第二分割單元的分割結(jié)果。2.根據(jù)權(quán)利要求1所述的信息處理裝置,其中,當(dāng)作為對(duì)象的語言是沒有規(guī)定行尾對(duì)齊的語言時(shí),所述判斷單元基于與行信息所指示的行的下一行中的字符有關(guān)的字符信息來變更該行信息,然后判斷包括所述行信息所指示的行的區(qū)域是否左對(duì)齊。3.根據(jù)權(quán)利要求1或者2所述的信息處理裝置,其中,所述判斷單元基于所述取得單元取得的行信息,計(jì)算該行信息所指示的行的中點(diǎn)坐標(biāo),并且基于所述區(qū)域內(nèi)的行的行首坐標(biāo)、中點(diǎn)坐標(biāo)以及行尾坐標(biāo)中的一個(gè)以上坐標(biāo)來判斷所述區(qū)域是否左對(duì)齊。4.根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的信息處理裝置,其中,所述第一分割單元基于位于行首或者行尾中的一個(gè)以上字符的字符串是否滿足預(yù)定字符串條件,將所述區(qū)域分割為段落區(qū)域或者項(xiàng)目區(qū)域。5.根據(jù)權(quán)利要求1至4中任一項(xiàng)所述的信息處理裝置,其中,所述第一分割單元基于由所述區(qū)域內(nèi)的行的字符數(shù)量所預(yù)定的值是否滿足預(yù)定條件,將所述區(qū)域分割為段落區(qū)域或者項(xiàng)目區(qū)域。6.根據(jù)權(quán)利要求1至5中任一項(xiàng)所述的信息處理裝置,其中,所述分析單元通過基于從區(qū)域的左端到該區(qū)域內(nèi)各行的左端的距離,將所述各行分類為縮進(jìn)行和未縮進(jìn)行,來分析行的縮進(jìn)。7.根據(jù)權(quán)利要求6所述的信息處理裝置,其中,所述第二分割單元基于行內(nèi)所含的字符串中是否包括預(yù)定字符串以及作為所述分析單元的分析結(jié)果的分類邊界是否與所述段落的邊界重合,來將所述區(qū)域分割為段落區(qū)域或者項(xiàng)目區(qū)域。8.一種信息處理裝置,該信息處理裝置包括:取得單元,該取得單元取得區(qū)域信息、行信息以及字符信息,該區(qū)域信息是與文檔中的區(qū)域有關(guān)的信息,該行信息是與該區(qū)域中的行有關(guān)的信息,而該字符信息是與該行中的字符有關(guān)的息;判斷單元,該判斷單元基于所述取得單元取得的行信息,來判斷包括該行信息所指示的行的區(qū)域是否上對(duì)齊;第一分割單元,該第一分割單元基于所述取得單元取得的字符信息,將包括該字符信息所指示的字符的區(qū)域分割為段落區(qū)域或者項(xiàng)目區(qū)域;分析單元,該分析單元分析所述判斷單元判斷為上對(duì)齊的區(qū)域內(nèi)的行的縮進(jìn);第二分割單元,該第二分割單元基于所述分析單元的分析結(jié)果,將所述判斷單元判斷為上對(duì)齊的區(qū)域分割為段落區(qū)域或者項(xiàng)目區(qū)域;以及輸出單元,該輸出單元針對(duì)所述判斷單元判斷為未上對(duì)齊的區(qū)域,輸出所述第一分割單元的分割結(jié)果,而針對(duì)所述判斷單元判斷為上對(duì)齊的區(qū)域,輸出所述第二分割單元的分割結(jié)果。9.根據(jù)權(quán)利要求8所述的信息處理裝置,其中,當(dāng)作為對(duì)象的語言是沒有規(guī)定行尾對(duì)齊的語言時(shí),所述判斷單元基于與行信息所指示的行的下一行中的字符有關(guān)的字符信息來變更該行信息,然后判斷包括該行信息所指示的行的區(qū)域是否上對(duì)齊。10.根據(jù)權(quán)利要求8或者9所述的信息處理裝置,其中,所述判斷單元基于所述取得單元取得的行信息,來計(jì)算該行信息所指示的行的中點(diǎn)坐標(biāo),并且基于所述區(qū)域內(nèi)的行的行首坐標(biāo)、中點(diǎn)坐標(biāo)以及行尾坐標(biāo)中的一個(gè)以上坐標(biāo)來判斷所述區(qū)域是否上對(duì)齊。11.根據(jù)權(quán)利要求8至10中任一項(xiàng)所述的信息處理裝置,其中,所述第一分割單元基于位于行首或者行尾中的一個(gè)以上字符的字符串是否滿足預(yù)定字符串條件,將所述區(qū)域分割為段落區(qū)域或者項(xiàng)目區(qū)域。12.根據(jù)權(quán)利要求8至11中任一項(xiàng)所述的信息處理裝置,其中,所述第一分割單元基于由所述區(qū)域內(nèi)的行的字符數(shù)量所預(yù)定的值是否滿足預(yù)定條件,將所述區(qū)域分割為段落區(qū)域或者項(xiàng)目區(qū)域。13.根據(jù)權(quán)利要求8至12中任一項(xiàng)所述的信息處理裝置,其中,所述分析單元通過基于從區(qū)域的上端到該區(qū)域內(nèi)各行的上端的距離,將所述各行分類為縮進(jìn)行和未縮進(jìn)行,來分析行的縮進(jìn)。14.根據(jù)權(quán)利要求13所述的信息處理裝置,其中,所述第二分割單元基于行內(nèi)所含的字符串中是否包括預(yù)定字符串以及作為所述分析單元的分析結(jié)果的分類邊界是否與所述段落的邊界重合,將所述區(qū)域分割為段落區(qū)域或者項(xiàng)目區(qū)域。15.一種信息處理方法,該信息處理方法包括以下步驟:取得步驟,取得區(qū)域信息、行信息以及字符信息,該區(qū)域信息是與文檔中的區(qū)域有關(guān)的信息,該行信息是與該區(qū)域中的行有關(guān)的信息,而該字符信息是與該行中的字符有關(guān)的信息;判斷步驟,基于所述取得步驟取得的行信息,來判斷包括該行信息所指示的行的區(qū)域是否左對(duì)齊;第一分割步驟,基于所述取得步驟所取得的字符信息,將包括該字符信息所指示的字符的區(qū)域分割為段落區(qū)域或者項(xiàng)目區(qū)域;分析步驟,分析所述判斷步驟判斷為左對(duì)齊的區(qū)域內(nèi)的行的縮進(jìn);第二分割步驟,基于所述分析步驟的分析結(jié)果將所述判斷步驟判斷為左對(duì)齊的區(qū)域分割為段落區(qū)域或者項(xiàng)目區(qū)域;以及輸出步驟,針對(duì)所述判斷步驟判斷為未左對(duì)齊的區(qū)域,輸出所述第一分割步驟的分割結(jié)果,而針對(duì)所述判斷步驟判斷為左對(duì)齊的區(qū)域,輸出所述第二分割步驟的分割結(jié)果。16.一種信息處理方法,該信息處理方法包括以下步驟:取得步驟,取得區(qū)域信息、行信息以及字符信息,該區(qū)域信息是與文檔中的區(qū)域有關(guān)的信息,該行信息是與該區(qū)域中的行有關(guān)的信息,而該字符信息是與該行中的字符有關(guān)的信息;判斷步驟,基于所述取得步驟所取得的行信息,判斷包括該行信息所指示的行的區(qū)域是否上對(duì)齊;第一分割步驟,基于所述取得步驟所取得的字符信息,將包括該字符信息所指示的字符的區(qū)域分割為段落區(qū)域或者項(xiàng)目區(qū)域;分析步驟,分析所述判斷步驟判斷為上對(duì)齊的區(qū)域內(nèi)的行的縮進(jìn);第二分割步驟,基于所述分析步驟的分析結(jié)果,將所述判斷步驟判斷為上對(duì)齊的區(qū)域分割為段落區(qū)域或者項(xiàng)目區(qū)域;以及輸出步驟,針對(duì)所述判斷步驟判斷為未上對(duì)齊的區(qū)域,輸出所述第一分割步驟的分割結(jié)果,而針對(duì)所述判斷步驟判斷為上對(duì)齊的區(qū)域,輸出所述第二分割步驟的分割結(jié)果。全文摘要本發(fā)明涉及信息處理裝置和信息處理方法。一種信息處理裝置包括取得單元,其取得區(qū)域信息、行信息、以及字符信息;判斷單元,其判斷區(qū)域是否左對(duì)齊;第一分割單元,其將包括字符信息所指示的字符的區(qū)域分割為段落區(qū)域或者項(xiàng)目區(qū)域;分析單元,其分析所述判斷單元判斷為左對(duì)齊的區(qū)域內(nèi)的行的縮進(jìn);第二分割單元,其將所述判斷單元判斷為左對(duì)齊的區(qū)域分割為段落區(qū)域或者項(xiàng)目區(qū)域;以及輸出單元,其針對(duì)所述判斷單元判斷為未左對(duì)齊的區(qū)域,輸出所述第一分割單元的分割結(jié)果,而針對(duì)所述判斷單元判斷為左對(duì)齊的區(qū)域,輸出所述第二分割單元的分割結(jié)果。文檔編號(hào)G06F17/27GK103218352SQ201210380729公開日2013年7月24日申請(qǐng)日期2012年10月9日優(yōu)先權(quán)日2011年12月9日發(fā)明者今野裕也申請(qǐng)人:富士施樂株式會(huì)社