两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種自動識別數(shù)字文檔目錄的方法及裝置的制作方法

文檔序號:6464838閱讀:232來源:國知局
專利名稱:一種自動識別數(shù)字文檔目錄的方法及裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)字文檔處理技術(shù)領(lǐng)域,尤其涉及一種自動識別數(shù)字文檔目錄 的方法及裝置。
背景技術(shù)
文檔中的目錄可以提高讀者的閱讀速度,并且便于內(nèi)^f全索。文檔中的目 錄相當(dāng)于整個文檔的一個提領(lǐng),例如章、節(jié)、子節(jié)等層次結(jié)構(gòu),索引了整個文 檔的主體內(nèi)容。此外如果實現(xiàn)個性化的閱讀方式,例如建立從目錄到文檔正文 的鏈接,就需要在識別目錄的基礎(chǔ)上實現(xiàn)。
隨著網(wǎng)絡(luò)的發(fā)展,數(shù)字文檔的應(yīng)用領(lǐng)域越來越廣,當(dāng)把紙質(zhì)的書和期刊的 內(nèi)容轉(zhuǎn)化為數(shù)字文檔時,對于數(shù)字文檔中的目錄的識別,現(xiàn)有技術(shù)中主要通過 人眼分辨、手工編輯的方式,識別數(shù)字文檔中目錄頁所在的位置,及每個目錄 頁包含的信息,采用這種人工識別方式占用了大量的人力資源,效率低,同時 也限制了數(shù)字文檔的制作速度。

發(fā)明內(nèi)容
有鑒于此,本發(fā)明實施例提供一種自動識別數(shù)字文檔目錄的方法及裝置, 用以解決現(xiàn)有技術(shù)中數(shù)字文檔目錄人工識別效率低的問題。
本發(fā)明實施例提供的一種自動識別數(shù)字文檔目錄的方法,包括 根據(jù)數(shù)字文檔的總頁數(shù)及保存的目錄頁占數(shù)字文檔的總頁數(shù)的比例參數(shù), 確定數(shù)字文檔目錄頁所在的候選頁;
根據(jù)設(shè)置的至少一個特征信息,在所述候選頁中確定候選目錄頁; 在所述候選目錄頁中按照預(yù)置規(guī)則確定數(shù)字文檔目錄頁;在所述數(shù)字文檔目錄頁中選擇一頁,根據(jù)該頁的屬性信息,確定該頁中表
示各章節(jié)內(nèi)容的頁碼標(biāo)識的位置;
根據(jù)保存的層次,在所述數(shù)字文檔目錄頁的每頁版心范圍內(nèi)根據(jù)每行的屬 性信息,確定每行在目錄中的層次,所述層次根據(jù)數(shù)字文檔中每行包含的章節(jié) 信息劃分,根據(jù)字符的間隔,將每行劃分為若干個字符段,根據(jù)所述頁碼標(biāo)識 的位置及每個字符段的屬性信息,分別存儲層次信息、頁碼標(biāo)識信息和對應(yīng)每 個屬性的字符段信息。
本發(fā)明實施例提供的一種自動識別數(shù)字文檔目錄的裝置,包括
候選頁識別模塊,用于根據(jù)數(shù)字文檔的總頁數(shù)及保存的目錄頁占數(shù)字文檔 的總頁數(shù)的比例參數(shù),確定數(shù)字文檔目錄頁所在的候選頁;
候選目錄頁識別模塊,用于根據(jù)設(shè)置的至少一個特征信息,在所述候選頁 中確定候選目錄頁;
目錄頁識別模塊,用于在所述候選目錄頁中按照預(yù)置規(guī)則確定數(shù)字文檔目
錄頁;
頁碼標(biāo)識識別模塊,用于在所述數(shù)字文檔目錄頁中選擇一頁,根據(jù)該頁的 屬性信息,確定該頁中表示各章節(jié)內(nèi)容的頁碼標(biāo)識的位置;
內(nèi)容識別模塊,用于根據(jù)保存的層次,在所述數(shù)字文檔目錄頁的每頁版心 范圍內(nèi)根據(jù)每行的屬性信息,確定每行在目錄中的層次,所述層次根據(jù)數(shù)字文 檔中每行包含的章節(jié)信息劃分,根據(jù)字符的間隔,將每行劃分為若千個字符段, 根據(jù)所述頁碼標(biāo)識的位置及每個字符段的屬性信息,分別存儲層次信息、頁碼 標(biāo)識信息和對應(yīng)每個屬性的字符段信息。
本發(fā)明實施例提供的自動識別數(shù)字文檔目錄的方法,通過確定數(shù)字文檔目 錄所在頁,確定目錄頁中頁碼的位置以及識別數(shù)字文檔目錄中的內(nèi)容信息,實 現(xiàn)對數(shù)字文檔目錄的自動識別。采用此自動識別數(shù)字文檔的方法,可以節(jié)省大 量的人力資源,提高目錄識別的效率從而提高數(shù)字文檔的制作效率。
8


圖1為本發(fā)明實施例提供的自動識別數(shù)字文檔目錄的方法流程圖; 圖2為本發(fā)明實施例提供的確定數(shù)字文檔目錄所在頁的流程圖; 圖3為本發(fā)明實施例提供的確定字符坐標(biāo)示意圖4為本發(fā)明實施例提供的特征分析確定每個候選頁是否滿足目錄頁的流 程圖5為本發(fā)明實施例提供的確定數(shù)字文檔目錄中表示各章節(jié)內(nèi)容的頁碼標(biāo) 識位置的方法流程圖6為本發(fā)明實施例提供的識別數(shù)字文檔目錄所在頁的目錄項信息的方法 流程圖7為本發(fā)明實施例提供的版心及基線位置示意圖8為本發(fā)明實施例提供的目錄項識別示意圖9為本發(fā)明實施例提供的具體的數(shù)字文檔目錄識別的流程圖10為本發(fā)明實施例提供的供目錄識別的數(shù)字文檔的一頁;
圖11為本發(fā)明實施例提供的數(shù)字文檔的目錄識別中部分結(jié)果的顯示;
圖12為本發(fā)明實施例提供的自動識別數(shù)字文檔目錄的裝置。
具體實施例方式
在本發(fā)明實施例中實現(xiàn)對數(shù)字文檔目錄的自動識別,提高數(shù)字文檔目錄識 別的效率,如圖l所示,提供了一種自動識別數(shù)字文檔目錄的方法,具體包括 以下步驟
S101:根據(jù)數(shù)字文檔的總頁數(shù)及保存的目錄頁占總頁數(shù)的比例參數(shù),確定 數(shù)字文檔目錄頁所在的候選頁。
具體包括根據(jù)所述數(shù)字文檔的總頁數(shù)以及預(yù)置的目錄頁占數(shù)字文檔的總 頁數(shù)的比例參數(shù),計算數(shù)字文檔目錄候選頁區(qū)間的頁數(shù),根據(jù)所述數(shù)字文檔目 錄候選頁區(qū)間的頁數(shù),從所述數(shù)字文檔第 一 頁開始向后確定對應(yīng)頁數(shù)的數(shù)字文
9檔為所述數(shù)字文檔目錄頁所在的候選頁區(qū)間,其中所述目錄頁占數(shù)字文檔的總 頁數(shù)的比例參數(shù)為不大于1的正實數(shù)。
S102:根據(jù)設(shè)置的至少一個特征信息,在所述候選頁中確定候選目錄頁。 其中所述至少一個特征信息包括每個候選頁中是否有預(yù)置的關(guān)鍵詞;或 每個候選頁中可斷開行的數(shù)量;或每個候選頁中行首或行末含有數(shù)字的行的數(shù) 量;或每個候選頁中行首或行末的數(shù)字非降的行的數(shù)量。當(dāng)然在具體的識別過 程中可以采用上述特征信息的任意一個或幾個的組合。 在所述候選頁中確定候選目錄頁,包括
根據(jù)獲得的每個候選頁的至少 一個特征信息與保存的對應(yīng)該至少 一個特 征信息的特征參數(shù),確定所述候選頁對應(yīng)該至少一個特征信息的條件值,根據(jù) 該條件值及對應(yīng)該至少一個特征信息的權(quán)重系數(shù),確定候選目錄頁。
S103:在所述候選目錄頁中按照預(yù)置規(guī)則確定數(shù)字文檔目錄頁。
具體包括將候選目錄頁的候選頁按照頁碼的大小順序排列,從所述排列 中選擇候選頁的頁碼連續(xù),并且包含的候選頁最多的候選頁區(qū)間,將該候選頁 區(qū)間包含的候選頁確定為數(shù)字文檔目錄頁。
S104:在所述數(shù)字文檔目錄所在頁中選擇一頁,根據(jù)該頁的屬性信息,確 定該頁中表示各章節(jié)內(nèi)容的頁碼標(biāo)識的位置。
對應(yīng)該頁的行首和行末分別設(shè)置第 一統(tǒng)計變量和第二統(tǒng)計變量,并將該兩 個統(tǒng)計變量賦值為0,當(dāng)排列在后的行的行首的數(shù)字,不小于排列在前的相鄰的 行對應(yīng)行首的數(shù)字時,將行首對應(yīng)的統(tǒng)計變量的值增加1;和/或,
當(dāng)排列在后的行的行末的數(shù)字,不小于排列在前的相鄰的行對應(yīng)行末的數(shù) 字時,將行末對應(yīng)的統(tǒng)計變量的值增加1;
根據(jù)所述第一統(tǒng)計變量、第二統(tǒng)計變量,與預(yù)置的變量參數(shù)的關(guān)系,確定 表示各章節(jié)內(nèi)容的頁碼標(biāo)識的位置。
S105:根據(jù)保存的層次,在所述數(shù)字文檔目錄頁的每頁版心范圍內(nèi)根據(jù)每 行的屬性信息,確定每行在目錄中的層次,所述層次根據(jù)數(shù)字文檔中每行包含的章節(jié)信息劃分,根據(jù)字符的間隔,將每行劃分為不同的字符段,根據(jù)所述頁 碼標(biāo)識信息及每個字符段的屬性信息,分別存儲層次信息、頁碼標(biāo)識信息和對 應(yīng)每個屬性的字符段信息。
去掉所述數(shù)字文檔目錄頁的每頁中版心范圍內(nèi)的連接符、空白字符和其他 特殊字符,確定該頁中的左基線。
計算每行的平均文字寬度及每行相對于左基線的縮進量;
根據(jù)所述縮進量、該行的平均文字寬度,及保存的該頁中平均文字寬度確 定該行的層次參數(shù);
將所有行的層次參數(shù)排序,根據(jù)所述層次參數(shù)確定每行的目錄層次,其中 較小的層次參數(shù)對應(yīng)較高的目錄層次。
并且在本發(fā)明實施例中所采用的數(shù)據(jù)文檔,能夠按頁讀取該數(shù)字文檔,并 且能夠獲取數(shù)字文檔每頁的字符,并通過每個字符獲得在每頁的坐標(biāo)信息,同 時能夠識別出文字的字體信息,即文字的字體類型,字號等信息。
如圖2所示,下面通過具體的實施例詳細(xì)說明確定數(shù)字文檔目錄頁的方法, 包括以下步驟
S201:根據(jù)數(shù)字文檔的總頁數(shù)及保存的目錄頁占數(shù)字文檔的總頁數(shù)的比例 參數(shù),確定數(shù)字文檔目錄頁所在的候選頁。
根據(jù)數(shù)字文檔的總頁數(shù),以及保存的目錄頁占數(shù)字文檔的總頁數(shù)的比例參 數(shù),計算數(shù)字文檔目錄候選區(qū)間頁的頁數(shù),根據(jù)數(shù)字文檔目錄候選區(qū)間頁的頁 數(shù),從數(shù)字文檔第一頁開始向后確定對應(yīng)頁數(shù)的數(shù)字文檔為數(shù)字文檔目錄所在 的候選頁,其中目錄頁占數(shù)字文檔的總頁數(shù)的比例參數(shù)為不大于1的正實數(shù)。
即抽取數(shù)字文檔的前幾頁作為數(shù)字文檔目錄所在的候選頁區(qū)間,該前幾頁 根據(jù)數(shù)字文檔的總頁數(shù)T以及保存的目錄頁占數(shù)字文檔的總頁數(shù)的比例參數(shù) CANDIDATE—RATE的乘積確定,其中T為自然數(shù),表示數(shù)字文檔的總頁數(shù), CANDIDATE—RATE是保存的數(shù)字文檔目錄頁占數(shù)字文檔的總頁數(shù)的比例參 數(shù),并且該比例參數(shù)為小于1的正實數(shù)。當(dāng)然在具體的計算過程中,由于數(shù)字文檔的目錄一般在數(shù)字文檔中所占比例并不大,因此CANDIDATE—RATE的值 可以根據(jù)實際情況進行具體的選擇,例如為0.15或0.2等,從而有利于提高數(shù) 字文檔目錄識別的效率。
S202:在數(shù)字文檔目錄的每個候選頁中,按照一定的規(guī)則確定每個字符的 坐標(biāo)。
具體包括在每個候選頁中以該頁的左上頂點為坐標(biāo)原點,記為(O,O),該坐 標(biāo)原點水平向右的直線確定為;f黃軸x軸正方向,該坐標(biāo)原點垂直向下的直線確 定為縱軸y軸正方向,根據(jù)每個點距離原點的位置確定每個點的坐標(biāo)。具體每 個字符的坐標(biāo)可以用字符的最小外接矩形框的形式表示,字符的坐標(biāo)用其最小 外接矩形框的兩個對角的頂點的坐標(biāo)表示,如圖3,字符"目"的坐標(biāo)可以采 用頂點1和3的坐標(biāo)表示,或者采用頂點2和4的坐標(biāo)表示,例如采用頂點1 和3的坐標(biāo)表示字符的坐標(biāo),該字符的坐標(biāo)表示為(xp yi, x2, y2), x!為頂點 1的^f黃坐標(biāo),即頂點1距離坐標(biāo)軸y的距離,》為頂點1的縱坐標(biāo),即頂點1 距離坐標(biāo)軸x的距離,X2為頂點3的橫坐標(biāo),即頂點3距離坐標(biāo)軸y的距離, y2為頂點3的縱坐標(biāo),即頂點3距離坐標(biāo)軸x的距離。只要保證在整個的數(shù)字 文檔目錄的識別過程中每個字符采用相同的方式確定坐標(biāo)即可,即釆用最小矩 形框中同一對角頂點表示最小矩形框內(nèi)的字符的坐標(biāo)。
在本發(fā)明實施例中,字符包括文字、空白字符、連接符和其他特殊字符, 對于不同的文字由于其繁簡不同,因此對應(yīng)的最小外接矩形框的大小也不同, 但是對于相同的文字其對應(yīng)的最小外接矩形框的大小相同,本發(fā)明實施例中所 指的相同的文字包括相同字體類型、相同字號并且字體風(fēng)格和內(nèi)容均相同的 文字,對于所有空白字符其具有相同的最小外接矩形框,所有的連接符的最小 外接矩形框的大小也相同,并且相同的特殊字符其最小外接矩形框的大小也相 同。
S203:按照確定的坐標(biāo),在每個候選頁中按照確定的坐標(biāo)將所有字符按照 規(guī)則排序。
12具體包括每個候選頁的頁面中,將所有字符排序,首先判斷每兩個字符 是否為同一行,以數(shù)字文檔目錄項的排版方向為橫排為例,可以按照判斷兩個 字符的垂直方向的間距是否不超過預(yù)置的間距參數(shù)h,其中h為正實數(shù),當(dāng)兩 個字符在垂直方向的間距間距不大于間距參數(shù)h時,則將兩個字符排列在一行, 否則,不將兩個字符排列在一行;然后在每一行中,按照4黃坐標(biāo)依次遞增的原
則將每行的字符排序。如圖3所示,則排序后得到此行的最小外接矩形框為(Xm,
ym, xn, yn),該行中所有字符的最小外接矩形框包括在該行的最小外接矩形框
內(nèi),其中Xm為此行中最左端字符1的橫坐標(biāo)值,該橫坐標(biāo)可以為該字符的左
上頂點的橫坐標(biāo)或左下頂點的橫坐標(biāo),ym為此行中最上端字符3的縱坐標(biāo)值, 該縱坐標(biāo)可以為該字符的左上頂點的縱坐標(biāo)或右上頂點的縱坐標(biāo),x。為此行中 最右端字符4的橫坐標(biāo)值,該橫坐標(biāo)可以為該字符的右上頂點的橫坐標(biāo)或右下 頂點的橫坐標(biāo),yn為此行中最下端字符2的縱坐標(biāo)值,該縱坐標(biāo)可以為該字符 的左下頂點的縱坐標(biāo)或右下頂點的縱坐標(biāo)。
當(dāng)數(shù)字文檔的目錄項的排版方向為豎排時,相信本領(lǐng)域技術(shù)人員可以根據(jù) 上述步驟排列每個字符。
S204:根據(jù)設(shè)置的至少一個特征信息,在候選頁中確定候選目錄頁。
由于至少 一個特征包括每個候選頁中是否有預(yù)置的關(guān)鍵詞;或每個候選頁 中可斷開行的數(shù)量;或每個候選頁中行首或行末含有數(shù)字的行的數(shù)量;或每個 候選頁中行首或行末的數(shù)字非降的行的數(shù)量。如圖4所示,具體的根據(jù)設(shè)置上 述4個特征確定每個候選頁是否為候選目錄頁的方法,包括以下步驟
S401:在所有字符排序后的每個候選頁內(nèi),統(tǒng)計該候選頁的前M行,是 否包含關(guān)鍵詞信息,該關(guān)鍵詞信息例如為"目錄""contents"等字符的信息, 其中M為正整數(shù),并且由于數(shù)字文檔目錄的關(guān)鍵詞信息一般存在于數(shù)字文檔 的前幾行,所以M的取值比較小,例如為4等。
當(dāng)該候選頁的前M行包含關(guān)鍵詞信息時,則該候選頁對應(yīng)此特征的條件 線為1,否則為零。S402:統(tǒng)計每個候選頁內(nèi)可以斷開行的數(shù)量,比較該可斷開行的數(shù)量是否 大于預(yù)置的行數(shù),確定對應(yīng)此特征的條件數(shù)的值。
本發(fā)明實施例在每個候選頁中,識別該候選頁中可斷開行的數(shù)量包括,判 斷該行是否存在長度超過閾值間隔N的內(nèi)容相同的連續(xù)出現(xiàn)的字符,其中N 為正實數(shù),當(dāng)存在長度超過閾值N的內(nèi)容相同且連續(xù)出現(xiàn)的字符時,則該行為 可斷開行,否則為不可斷開行。
在本發(fā)明實施例中,由于所有連接符的內(nèi)容相同,因此當(dāng)4企測到連續(xù)多個 字符具有相同的內(nèi)容,且該連續(xù)多個字符的橫坐標(biāo)差值的和超過了閾值間隔N 時,判定該多個字符為連接符、空白字符或其他特殊字符,則判定此行存在間 隔。
可斷開4亍的數(shù)量為GapLineCount,滿足GapLineCount大于TotalLineCount 和參數(shù)g的條件時,參數(shù)g為小于l的正實數(shù),TotalLineCount為該候選頁內(nèi) 總的行數(shù)。該候選頁對應(yīng)此特征的條件數(shù)b2為1,否則為零。
S403:識別該候選頁中行首或行末含有數(shù)字的行的數(shù)量,比較該數(shù)量是否 大于預(yù)置的含有數(shù)字的行的數(shù)量,確定該候選頁對應(yīng)此特征的條件數(shù)b3的值。
其中,統(tǒng)計每個候選頁內(nèi),行首或行末含有數(shù)字的行的數(shù)量包括在每個 候選頁的每行的行首的幾個字符或行末的幾個字符中,例如行首的5個字符或 行末的5個字符,查找是否含有數(shù)字,例如阿拉伯?dāng)?shù)字,羅馬數(shù)字等,當(dāng)含有 數(shù)字時,則此行為行首或行末含有數(shù)字的行。
當(dāng)該候選頁內(nèi)行首或行末含有數(shù)字的行的數(shù)量為DigitLineCount,且滿足 DigitLineCount大于TotalLineCount和參數(shù)d的乘積時,參數(shù)d為小于1的正 實數(shù),TotalLineCount為該候選頁內(nèi)總的行數(shù),則該候選頁對應(yīng)此特征的條件 數(shù)b3為1,否則為零。
S404:識別該候選頁中行首或行末的數(shù)字非降的行數(shù),比4交該行數(shù)是否大 于預(yù)置的數(shù)字非降的行的數(shù)量,確定該候選頁對應(yīng)此特征的條件數(shù)b4的值。
本發(fā)明實施例中,識別每個候選頁中行首或行末的數(shù)字非降的行數(shù)的方法包括對應(yīng)該候選頁的行首或行末設(shè)置一統(tǒng)計變量OrderValue,記錄行首或行 末中數(shù)字的遞增情況,統(tǒng)計之初將該統(tǒng)計變量的值初始化,將該統(tǒng)計變量賦值 為0,依次識別候選頁內(nèi)的每一行,當(dāng)排列在后的行的行首或行末的數(shù)字,不 小于排列在前的相鄰的行的對應(yīng)行首或行末的數(shù)字時,將該統(tǒng)計變量 OrderValue的值增加1 ,否則,統(tǒng)計變量OrderValue的值不變。
當(dāng)候選頁中表示每行行首或行末數(shù)字情況的統(tǒng)計變量OrderValue的值,大 于TotalLineCount和參數(shù)o的乘積時,參數(shù)o為小于1的正實數(shù),TotalLineCount 為該候選頁內(nèi)總的行數(shù),則該候選頁對應(yīng)此特征的條件數(shù)b4為1,否則為零。
S405:對于每種特征信息,根據(jù)上述對應(yīng)每個特征信息的條件數(shù)及保存的 對應(yīng)每種特征信息的權(quán)重系數(shù),計算每個候選頁是否可能為候選目錄頁。
其中設(shè)置對應(yīng)每個特征的權(quán)重系數(shù)為Wi, i為l到4的正整數(shù),Wi為小于 1的正實數(shù),且所有預(yù)置的權(quán)重系數(shù)Wj的和為1。計算每種特征信息的條件數(shù) 與對應(yīng)每個特征信息的斥又重系數(shù)的乘積的和w,即計算w:i:bi x Wi, i為1到 4的正整數(shù),當(dāng)計算的w的值不小于預(yù)置的目錄頁參數(shù)w。時,該wo為正實數(shù), 則該候選頁可能為候選目錄頁,否則不可能是候選目錄頁。
其中步驟S401、 S401、 S401和S404的順序可以互換,無論按照什么順序 統(tǒng)計四種情況下的條件數(shù)都滿足特征分析的要求。當(dāng)然在具體的計算過程中還 可以根據(jù)上述至少一個特征信息來判斷每個候選頁是否可能為候選目錄頁,當(dāng) 然根據(jù)目錄頁的特點也可以采用其他的特征參數(shù),在具體的實現(xiàn)過程中可以根 據(jù)需要選擇最佳實施方式。
S205:識別出每個候選目錄頁的頁碼,將識別出的所有候選目錄頁的頁碼 按照頁碼的大小排序,在上述排序中選擇候選頁的頁碼連續(xù)的候選頁區(qū)間,并 且確定包含的候選頁最多的候選頁區(qū)間,將該候選頁區(qū)間包含的候選頁確定為 數(shù)字文檔目錄頁。
例如將候選目錄頁的候選頁的頁碼排序后,分別為頁碼l、 2、 3、 5、 6、 7、 8、 9、 12和13,其中頁碼連續(xù)的候選頁區(qū)間分別為區(qū)間1 、 2、 3,區(qū)間5、 6、7、 8、 9以及區(qū)間12、 13,其中包含的候選頁最多的候選頁區(qū)間為區(qū)間5、 6、 7、 8、 9,則可知數(shù)字文檔目錄頁為第5頁、第6頁、第7頁、第8頁和第9頁。
當(dāng)確定了數(shù)字文檔目錄頁后,根據(jù)數(shù)字文檔目錄頁中每個目錄頁的結(jié)構(gòu)基 本相同的特性,因此只要分析其中一頁的結(jié)構(gòu)特征,就可以得知整個數(shù)字文檔 目錄頁的結(jié)構(gòu)特征,并且采用此方法可以提高數(shù)字文檔目錄識別的效率。當(dāng)然 為了確保分析的準(zhǔn)確性,也可以選擇分析所有目錄頁的結(jié)構(gòu)特征。
如圖5所示,為本發(fā)明實施例中,選擇數(shù)字文檔目錄所在頁的中間頁,確 定數(shù)字文檔目錄中頁碼位置的方法,具體包括以下步驟
S501:選擇此數(shù)字文檔目錄所在頁的中間頁。
其中,選擇此數(shù)字文檔目錄所在頁的中間頁包括計算數(shù)字目錄所在頁中 第一頁的頁碼與最后一頁的頁碼的平均值,將該平均值取整數(shù),選擇數(shù)字文檔 的頁碼為該整數(shù)的一頁。取整的方法包括很多種,例如向下取整數(shù)、向上取整 數(shù)、或四舍五入取整數(shù)等等。
例如數(shù)字文檔目錄所在頁的頁碼分別為5、 6、 7、 8和9,其中數(shù)字文檔目 錄所在頁的第一頁的頁碼為5,最后一頁的頁碼為9,則5與9的平均值為7, 所以數(shù)字文檔目錄所在頁的中間頁為第7頁。當(dāng)數(shù)字文檔目錄所在頁的頁碼分 別為2、 3、 4和5時,第一頁的頁碼與最后一頁的頁碼的和為7,平均值為3.5, 向上取整為4,則數(shù)字文檔目錄所在頁的中間頁為第4頁。 S502:在該頁中按照確定的坐標(biāo)劃分行。 按照坐標(biāo)將該頁的所有字符劃分行同步驟S202和S203。 S503:確定該頁中在行首位置或行末位置存在遞增的數(shù)字。 預(yù)置行首對應(yīng)的第一統(tǒng)計變量為OrderValul,行末對應(yīng)的第二統(tǒng)計變量為 OrderValu2,兩個統(tǒng)計變量分別記錄行首和行末數(shù)字的遞增情況。識別之初將 兩個統(tǒng)計變量的值初始化,例如將兩個統(tǒng)計變量賦值為0,在該頁中逐行地識 別每行中行首和行末的幾個字符中是否存在數(shù)字,當(dāng)排列在后的行的行首和/或行末的數(shù)字,不小于排列在前的相鄰的行對應(yīng)行首和/或行末的數(shù)字時,將行
首和/或行末對應(yīng)的統(tǒng)計變量的值增加1;當(dāng)在某一行的行首和/或行末識別不到 數(shù)字時,則對應(yīng)的行首和/或行末對應(yīng)的統(tǒng)計變量不變化。例如以識別行首的數(shù) 字為例,當(dāng)識別到第3行時,第3行的行首存在數(shù)字,并且第3行行首的數(shù)字 17較第2行行首的數(shù)字8大,則行首對應(yīng)的第一統(tǒng)計變量OrderValul的值加1, 然后識別第4行,判斷第4行行首的數(shù)字是否大于第3行行首的數(shù)字,依次識 別完所有行的行首的數(shù)字。
S504:對該頁的行首和行末的數(shù)字識別完后,根據(jù)兩個統(tǒng)計變量與預(yù)置的 變量參數(shù)的關(guān)系,確定該頁中表示各章節(jié)內(nèi)容的頁碼標(biāo)識的位置。
根據(jù)記錄該頁中行首和行末數(shù)字的遞增情況的兩個統(tǒng)計變量,判定兩個統(tǒng) 計變量中較大值是否小于該頁中總的行數(shù)與參數(shù)o的乘積,參數(shù)o為小于1的 正實數(shù),與步驟S404中的參數(shù)相同,當(dāng)判定結(jié)果為是時,則該頁的頁碼位置 不可知,當(dāng)兩個統(tǒng)計變量中較大值不小于該頁中總的行數(shù)與參數(shù)o的乘積時, 則該頁中存在頁碼標(biāo)識信息,當(dāng)兩個統(tǒng)計變量中第 一統(tǒng)計變量OrderValul 4交大 時,則該頁中表示各章節(jié)內(nèi)容的頁碼標(biāo)識在行首,即在該頁的左邊,當(dāng)?shù)诙y(tǒng) 計變量OrderValu2較大時,則該頁中表示各章節(jié)內(nèi)容的頁碼標(biāo)識在行末,即在 該頁的右邊。
并且根據(jù)該頁中表示各章節(jié)內(nèi)容的頁碼標(biāo)識的信息,可以推知數(shù)字文檔目 錄所在頁的表示各章節(jié)內(nèi)容的頁碼標(biāo)識的位置。
上述過程中識別出了數(shù)字文檔目錄頁中表示各章節(jié)內(nèi)容的頁碼標(biāo)識的位 置,為了詳細(xì)的了解數(shù)字文檔目錄頁的內(nèi)容信息,如圖6所示,為本發(fā)明實施 例中識別數(shù)字文檔目錄頁的目錄項信息的方法,具體包括以下步驟
S601:根據(jù)保存的版心范圍信息,計算數(shù)字文檔目錄所在頁中每頁的平均 文字寬度。
根據(jù)保存的版心范圍信息,其中該版心范圍信息包括由左邊界線、右邊 界線、上邊界線和下邊界線組成的版心坐標(biāo)信息。在數(shù)字文檔目錄頁中每頁的版心范圍內(nèi),去除每頁中的連接符、空格和其他特殊字符,例如星號等,其中
判斷字符是否為連接符、空格或其他特殊字符的方法包括判定連續(xù)幾個字符 的內(nèi)容是否相同,將內(nèi)容相同的連續(xù)的幾個字符判定為連接符空格或其他特殊 字符。
去除每頁中的連接符、空格和其他特殊字符后,在版心范圍內(nèi)識別字符的 最小橫坐標(biāo)值,將通過該橫坐標(biāo)值并且平行于縱軸y軸的直線確定為左基線, 如圖7所示。在版心范圍內(nèi)計算左基線與版心的右邊界線間的平均文字寬度, 可以釆用統(tǒng)計文字的橫坐標(biāo)的差值,計算所有文字的橫坐標(biāo)差值的和與文字?jǐn)?shù) 量的比值,得到左基線與版心的右邊界線間的版心范圍內(nèi)的平均文字寬度。
S602:在左基線與版心的右邊界線間的版心范圍內(nèi),確定每行在目錄中的 層次。其中該層次信息根據(jù)每行所包含的章節(jié)信息劃分而定。
在左基線與版心的右邊界線間的版心范圍內(nèi),根據(jù)左基線與每行字符的最 小橫坐標(biāo)值確定的縮進量IndentValue,如圖7所示,版心范圍內(nèi)的平均文字寬 度,以及該行的平均文字寬度確定該行在目錄中的層次。即計算縮進量與該行 內(nèi)的平均文字寬度的比值,再乘以版心范圍內(nèi)的平均文字寬度,得到一個層次 參數(shù)LevelValue。將計算后的所有行的層次參數(shù)LevelValue的值進行比較,層 次參數(shù)LevelValue值越小者,目錄層次越高。該目錄中的層次包括目錄中的 章、目錄中的節(jié)和目錄中的子節(jié)等劃分關(guān)系,當(dāng)然可能還有其他目錄層次形式, 可以根據(jù)此形式一一推出??梢愿鶕?jù)這種表達的內(nèi)容關(guān)系將目錄的層次確定為 第一層、第二層、第三層等,根據(jù)目錄的具體形式采用不同的多個層次。
例如具體的判別過程可以為,保存每個層次對應(yīng)的層次閾值,此層次閾值 為正實數(shù),例如目錄中的章的層次閾值為1、目錄中的節(jié)的層次閾值為2、目 錄中子節(jié)的層次閾值為3,根據(jù)左基線與某一行字符的最小橫坐標(biāo)值確定的縮 進量IO,版心范圍內(nèi)的平均文字寬度為9,該行的平均文字寬度為12, 該行 的層次參數(shù)LevelValue=10 x 9/12=7.5。然后計算其他行的層次參數(shù)LevelValue。 層次參數(shù)LevelValue值越小,該行的目錄層次越高。如果7.5是里面的最小值,則該行的目錄層次為l,即第一層。
S603:在左基線與版心的右邊界線間的版心范圍內(nèi),才艮據(jù)行中是否存在間 隔,將每行識別為不同的目錄項。
具體包括,在左基線與版心的右邊界線間的版心范圍內(nèi),根據(jù)保存的間隔 閾值gap,此間隔閾值為一個正實數(shù),逐行查看每行中文字字符之間的水平距 離。由于目錄頁的每行中文字字符按照橫坐標(biāo)的從小到大進行排序,因此采用 在后的字符的最小橫坐標(biāo)值與在前的字符的最大橫坐標(biāo)值的差,可以確定兩個 文字字符之間的水平距離,也可以根據(jù)每個文字字符的兩個橫坐標(biāo)的平均值確 定平均橫坐標(biāo)值,比4交兩個平均橫坐標(biāo)值的差值確定兩個文字字符之間的水平 距離,具體的計算方法可以根據(jù)需要進行選擇。
當(dāng)識別出的兩個相鄰文字字符的水平距離大于保存的間隔閾值時,則在此 兩個文字字符間斷開。當(dāng)一行中存在一處兩個相鄰文字字符的水平距離大于保 存的間隔閾值時,則在此兩個文字字符間斷開,斷開點之前的為第一目錄項, 斷開點之后為第二目錄項;當(dāng)一行中存在兩處兩個相鄰文字字符的水平距離大 于保存的間隔閾值時,如圖8所示,分別在斷點1和斷點2處斷開,則斷點1 之前的內(nèi)容為第一目錄項,斷點1和斷點2之間的內(nèi)容為第二目錄項,斷點2 之后的內(nèi)容為第三目錄項。因此根據(jù)本發(fā)明實施例提供的方式可以將每行劃分 為不同的目錄項。
在每行包含的目錄項中識別數(shù)字,根據(jù)上述識別過程中確定的數(shù)字文檔目 錄頁的表示章節(jié)內(nèi)容的頁碼標(biāo)識的位置,確定識別出的數(shù)字是否為頁碼信息, 保存識別出的頁碼信息,將識別出的其他各項目錄信息另行保存,較長的字符 段標(biāo)記為"標(biāo)題","標(biāo)題"前的字符段中如果含有數(shù)字,則標(biāo)為"章節(jié)序號", 否則標(biāo)記為"未定義字段"。如果"標(biāo)題"后有未標(biāo)記的字符段,也標(biāo)記為"未 定義字段"。分別存儲識別出的層次關(guān)系,以及每個字符段的信息,當(dāng)然在存 儲的過程中可以設(shè)定存儲的類別,例如頁碼信息,第一目錄項信息,第二目錄項信息以及第三目錄項信息等,將識別出的字符段分別對應(yīng)存儲在每個類別 中,當(dāng)然也可以根據(jù)識別出的各行的層次,按照對應(yīng)的層次存儲每個字符段。
保存上述各個過程中識別的數(shù)字文檔目錄的各項信息,根據(jù)保存的目錄信 息可以建立目錄索引,以及根據(jù)保存的信息進行目錄項中相關(guān)信息的提取,為 數(shù)字文檔的進一 步加工制作提供數(shù)據(jù)支持。
并且上述對it字文檔目錄頁中目錄項信息的識別過程中S602和S603的順 序可以互換,只要實現(xiàn)對每行的層次識別并識別每行包含的內(nèi)容即可。
如圖9所示,本發(fā)明實施例中采用西安交通大學(xué)出版社出版的電子圖書《新 聞釆訪與寫作教程》為例,說明自動識別數(shù)字文檔目錄的方法,具體包括以下 步驟
步驟901:讀入數(shù)字文檔,確定數(shù)字文檔目錄所在的候選頁。
該數(shù)字文檔的總頁數(shù)T為357,預(yù)置的目錄頁占數(shù)字文檔的總頁數(shù)的比例 參數(shù)CANDIDATE_RATE為0.1,所以可知數(shù)字文檔目錄所在的候選頁區(qū)間為 該數(shù)字文檔的前35頁。
步驟902:根據(jù)設(shè)置的特征參數(shù),確定數(shù)字文檔的候選目錄頁,并在候選 目錄頁中按照預(yù)置的規(guī)則確定數(shù)字文檔目錄頁。
對于該數(shù)字文檔的前35頁中的每一頁,以每一頁中頁面的左上頂點為坐 標(biāo)原點,該坐標(biāo)原點記為(0, 0), ^v該坐標(biāo)原點水平向右^^己為x軸正方向, 從該坐標(biāo)原點垂直向下記為y軸正方向,字符的坐標(biāo)用其最小外接矩形框的兩 個對角頂點表示為(xp yP x2, y2),在本發(fā)明實施例中用該最小外接矩形框的 左上頂點1與右下頂點3的坐標(biāo)表示字符的坐標(biāo),如圖3所示,(Xl, yD為左上 頂點1的坐標(biāo),分別表示該左上頂點1距離y軸和x軸的距離,(x2, y。為右下 頂點3的坐標(biāo),分別表示該右下頂點3距離y軸和x軸的距離。
將該數(shù)字文檔的前35頁中的每一頁的所有字符按照規(guī)則排列成多行,其 中,為了保證每一頁中所有字符按照行排列,在排列的過程中字符間的水平中 軸線間的垂直距離需要滿足一定的條件,此字符間的水平中軸線的垂直距離可
20以根據(jù)計算字符的上端和下端的兩個頂點的縱坐標(biāo)的平均值,再計算兩個字符
的對應(yīng)的縱坐標(biāo)的平均值的差值確定。在本發(fā)明實施例中判斷兩個字符A和B 是否能夠排在一行的方法為計算字符A的兩個縱坐標(biāo)的平均值,并計算字符 A的較大的縱坐標(biāo)與較小的縱坐標(biāo)的差值,同時計算字符B的兩個縱坐標(biāo)的平 均值,并計算字符B的較大的縱坐標(biāo)與較小的縱坐標(biāo)的差值,判斷字符A、 B 對應(yīng)的縱坐標(biāo)的平均值的差值,是否小于兩個字符A、 B中較小的較大的縱坐 標(biāo)與較小的縱坐標(biāo)的差值與參數(shù)的乘積,即判斷
<formula>formula see original document page 21</formula>
其中,MIN表示取兩者中較小值,j是小于1的正實數(shù),Y"A)為字符A的較 小的縱坐標(biāo)值,Y2(A)為字符A的較大的縱坐標(biāo)值,Y"B)為字符B的較小的縱 坐標(biāo)值,Y2(B)為字符B的較大的縱坐標(biāo)值。當(dāng)判斷結(jié)果為是時,將A和B排 列到一行,否則將A和B排列到不同行,然后依次判斷B和C兩個字符的縱 坐標(biāo)是否滿足上述條件,判斷B和C是否排列到一行。采用此方法將每一頁 中所有字符進行排列。采用此方法排列后,每一行對應(yīng)一個最小外接矩形框, 如圖3所示。
以下是對數(shù)字文檔的前35頁中的每一頁特征分析,判斷其是否為候選目 錄頁的方法
技術(shù)領(lǐng)域
本發(fā)明實施例中以數(shù)字文檔的第5頁為例說明,#>據(jù)保存的版心坐標(biāo)左邊 界線left為0、右邊界線right為422、上邊界線top為54.65和下邊界線bottom 為583.20。去掉版心之外的內(nèi)容,如圖7所示的頁眉部分。去掉版心范圍內(nèi)的 連接符、空格和其他特殊字符,即為行首和行末的空白以及連接標(biāo)題與頁碼的 省略號。確定該頁的左基線LeftBaseLine為橫坐標(biāo)為20.71的平行于縱軸的直 線,如圖7所示。并且計算該頁版心范圍的平均文字寬度AVGWidth為9.76。
本發(fā)明實施例以4個特征的結(jié)合判斷每個候選頁是否為候選目錄頁,如圖 10所示,為該數(shù)字文檔的第4頁,該頁中經(jīng)過排列后一共有29行,即TotalLineCount為29,在該頁的前4行包含關(guān)鍵字"目錄",所以此特征對應(yīng) 的條件數(shù)bi為1;本發(fā)明實施例中闊值間隔N為2個平均文字寬度,其中該平 均文字寬度即為版心范圍內(nèi)去掉空格、連接符和其他特殊字符后的所有文字字 符的平均文字寬度,根據(jù)此閾值間隔N判斷該頁中可斷開的行GapLineCount 為26,判斷GapLineCount大于TotalLineCount與g的乘積,g為0.6,則可#口 此特征對應(yīng)的條件數(shù)b2為1;行末或者行首含有數(shù)字的行DigitLineCount為26, 判斷DigitLineCount大于TotalLineCount與d的乘積,d為0.6,則此特征對應(yīng) 的條件數(shù)b3為l;通過逐行掃描將行首或行末含有數(shù)字的第一行的數(shù)字設(shè)為0, 用OrderValue記錄數(shù)字的遞增情況,統(tǒng)計得到OrderValue為24,且OrderValue 大于TotalLineCount與o的乘積,o為0.5,則此特征對應(yīng)的條件數(shù)b4為1。并 且每一特征對應(yīng)的權(quán)重系數(shù)分別為w!為0.1, w2為0.3 , w3為0.4, w4為0.2 , 則可知該第4頁為目錄頁的可能性w^Sbi*Wi=10,同時保存的wo為4, w不 小于w。,則可知此第4頁為候選目錄頁。
依次判斷數(shù)字文檔的前35頁是否為候選目錄頁,將為候選目錄頁的頁碼 取出排序為4, 5,其中長度最長的頁碼連續(xù)的區(qū)間為4, 5,因此,此數(shù)字文 檔的目錄頁為第4頁和第5頁。
步驟903:從數(shù)字文檔目錄頁中取出一頁,判斷數(shù)字文檔目錄項頁中表示 個章節(jié)內(nèi)容的頁碼標(biāo)識的位置。
在步驟902中確定了數(shù)字文檔的目錄頁為第4頁和第5頁,其中數(shù)字文檔 目錄頁的第一頁的頁碼為4,最后一頁的頁碼為5,則4與5的和9, 9的平均 值即為4.5, 4.5向下取整為4,則取該數(shù)字文檔的第4頁,判斷數(shù)字文檔目錄 頁中表示章節(jié)內(nèi)容的頁碼標(biāo)識的位置。
在該第4頁所有的字符進行排列后,用統(tǒng)計變量OrderValul和 OrderValue2,分別表示行首和行末的數(shù)字遞增情況。首先將兩個統(tǒng)計變量的值 初始化,將兩個統(tǒng)計變量賦值為0,通過逐行比4交行首和/或行末的數(shù)字,當(dāng)當(dāng) 前行識別出的行首和/或行末的數(shù)字不小于此當(dāng)前行相鄰的前一行對應(yīng)的行首和/或行尾的數(shù)字時,則對應(yīng)的OrderValul和/或OrderValue2的值增加1,否則 統(tǒng)計變量的值保持不變。將此第4頁行首和行末的數(shù)字識別后,OrderValul的 值為0, OrderValue2的值為24,并且OrderValuel和OrderValue2中較大的值 大于TotalLineCount與o的乘積,o為0.5,并且OrderValue2大于OrderValuel , 則該4頁中表示章節(jié)內(nèi)容的頁碼標(biāo)識的位置為"在右"。由于數(shù)字文檔的目錄 頁中每頁的結(jié)構(gòu)相同,所以該數(shù)字文檔的第5頁中表示章節(jié)內(nèi)容的頁碼標(biāo)識位 置在右。
步驟904:確定數(shù)字文檔目錄所在頁中每頁的目錄項信息及每行在目錄中 層次。
根據(jù)保存的版心范圍信息,數(shù)字文檔的第5頁得到的版心位坐標(biāo)為左邊界 線left為0、右邊界線right為422、上邊界線top為54.65和下邊界線bottom 為583.20。確定該頁的左基線LeftBaseLine為橫坐標(biāo)為20.71的平行于縱軸的 直線,并且計算該頁版心范圍內(nèi)的平均文字寬度AVGWidth為9.76。
以"通訊主題,, 一行為例,采用間隔閾值gap為0.2個平均文字寬度 AVGWidth,將行斷開。斷開后的行中各段文字分別存儲,即"第二節(jié)","通 訊主題","(153)"。根據(jù)左基線與當(dāng)前行中字符的最小橫坐標(biāo)確定的縮進量 IndentValue為10.48,該行的平均文字寬度為9.7035,版心范圍內(nèi)的平均文字 寬度9.76,因此可知該行的層次參數(shù)LevelValue的值為10.541,依次判斷每行 的層次參數(shù)LevelValue的值,將每行對應(yīng)的層次參數(shù)LevdValue的值排序,則 層次參數(shù)LevelValue的值越小的對應(yīng)的行的層次越高,其中最高層目錄為第1 層,根據(jù)該行的層次參數(shù)LevelValue的值,確定該行目錄為第2層。
根據(jù)步驟903中確定的頁碼位置,對各行中分離的各目錄項進行文字識別, 得到頁碼為"153"沒有識別為頁碼的目錄項另行存儲,其中因為"通訊主題" 的字符段較長,因此將其標(biāo)記為"標(biāo)題","標(biāo)題"之前的字符段中含有數(shù)字, 因此將"第二節(jié)"標(biāo)記為"章節(jié)序號"。從而在第2層的存儲空間中對應(yīng)標(biāo)題 信息存儲"通訊主題",對應(yīng)章節(jié)序號信息存儲"第二節(jié),,,對應(yīng)頁碼信息存儲"153"。當(dāng)然也可以將識別出的信息按照頁碼信息"153",第一目錄項信息"第 二節(jié)"和第二目錄項信息"通訊主題"的格式存儲,具體的存儲過程可以根據(jù) 需要設(shè)置,只要能夠?qū)⒆R別出的每個信息分類存儲即可。
在本發(fā)明實施例中可以采用可擴展的置標(biāo)語言(Extensible Markup Language, XML),將步驟903中得到的結(jié)果保存起來,如圖11所示,便于后 續(xù)信息提取或后續(xù)文檔加工的使用。
本發(fā)明實施例提供了一種自動識別數(shù)字文檔目錄的裝置,如圖12所示, 包括
候選頁識別模塊120,用于根據(jù)數(shù)字文檔的總頁數(shù)及保存的目錄頁占數(shù)字 文檔的總頁數(shù)的比例參數(shù),確定數(shù)字文檔目錄頁所在的候選頁;
候選目錄頁識別模塊122,用于根據(jù)設(shè)置的至少一個特征信息,在所述候 選頁中確定候選目錄頁;
目錄頁識別模塊123,用于在所述候選目錄頁中按照預(yù)置規(guī)則確定數(shù)字文 檔目錄頁;
頁碼標(biāo)識識別模塊124,用于在所述數(shù)字文檔目錄頁中選擇一頁,根據(jù)該 頁的屬性信息,確定該頁中表示各章節(jié)內(nèi)容的頁碼標(biāo)識的位置;
內(nèi)容識別模塊126,用于根據(jù)保存的層次,在所述數(shù)字文檔目錄頁的每頁 版心范圍內(nèi)根據(jù)每行的屬性信息,確定每行在目錄中的層次,所述層次根據(jù)數(shù) 字文檔中每行包含的章節(jié)信息劃分,根據(jù)字符的間隔,將每行劃分為不同的字 符段,根據(jù)所述頁碼標(biāo)識的位置及每個字符段的屬性信息,分別存儲層次信息、 頁碼標(biāo)識信息和對應(yīng)每個屬性的字符段信息。
其中,所述候選頁識別模塊120包括
計算單元1200,用于根據(jù)所述數(shù)字文檔的總頁數(shù)以及預(yù)置的目錄頁占數(shù)字 文檔的總頁數(shù)的比例參數(shù),計算數(shù)字文檔目錄候選區(qū)間頁的頁數(shù),其中所述目 錄頁占數(shù)字文檔的總頁數(shù)的比例參數(shù)為不大于1的正實數(shù);
候選頁識別單元1201,用于根據(jù)所述數(shù)字文檔目錄候選區(qū)間頁的頁數(shù),從
24所述數(shù)字文檔第 一 頁開始向后確定對應(yīng)頁數(shù)的數(shù)字文檔為所述數(shù)字文檔目錄 所在的候選頁。
所述裝置還包括
行識別模塊121,用于確定每個候選頁中所有字符的坐標(biāo),將每個候選頁 內(nèi)所有字符排序,每行中排列滿足條件的字符。
所述行識別模塊121還用于
在每個候選頁中以該頁的左上頂點為坐標(biāo)原點,通過所述坐標(biāo)原點水平向 右的直線確定為^f黃軸正方向,通過所述坐標(biāo)原點垂直向下的直線確定為縱軸正 方向;確定每個候選頁中所有點的坐標(biāo),并確定每個候選頁中所有字符的最小 外接矩形框,用所述最小外接矩形框的兩個對角頂點的坐標(biāo)表示該最小外接矩 形框內(nèi)字符的坐標(biāo)。
所述行識別模塊121還用于
根據(jù)每兩個字符在垂直方向的間距是否小于預(yù)置的間距參數(shù),判斷是否將 該兩個字符排列為一行,其中所述預(yù)置的間距參數(shù)為正實數(shù)。 所述候選目錄頁識別模塊122包括
存儲單元1220,用于存儲每個候選頁中是否有預(yù)置的關(guān)鍵詞;或每個候選 頁中可斷開行的數(shù)量;或每個候選頁中行首或行末含有數(shù)字的行的數(shù)量;或每 個候選頁中行首或行末的數(shù)字非降的行的數(shù)量。
所述候選目錄頁識別模塊122還包括
特征分析單元1221,用于根據(jù)獲得的每個候選頁的至少一個特征信息與保 存的對應(yīng)該至少一個特征信息的特征參數(shù),確定所述候選頁對應(yīng)該至少一個特 征信息的條件值,根據(jù)該條件值及對應(yīng)該至少一個特征信息的權(quán)重系數(shù),確定 候選目錄頁。
所述目錄頁識別模塊123包括
排列單元1230,用于將候選目錄頁的候選頁按照頁碼的大小順序排列; 目錄頁識別單元1231,用于從所述排列中選擇候選頁的頁碼連續(xù),并且包含的候選頁最多的候選頁區(qū)間,將該候選頁區(qū)間包含的候選頁確定為數(shù)字文檔 目錄頁。
所述頁碼標(biāo)識識別^f莫塊124包括
選取單元1240,用于計算所述數(shù)字文檔目錄頁的第 一 頁的頁碼和最后一頁 的頁碼的平均值,將所述平均值取整數(shù),選擇數(shù)字文檔的頁碼為該整數(shù)的一頁。 所述頁碼標(biāo)識識別才莫塊124還包括
變量統(tǒng)計單元1241,用于對應(yīng)該頁的行首和行末分別設(shè)置第一統(tǒng)計變量和 第二統(tǒng)計變量,并將該兩個統(tǒng)計變量賦值為0,當(dāng)排列在后的行的行首的數(shù)字, 不小于排列在前的相鄰的行對應(yīng)行首的數(shù)字時,將行首對應(yīng)的統(tǒng)計變量的值增 加l;和/或,當(dāng)排列在后的行的行末的數(shù)字,不小于排列在前的相鄰的行對應(yīng) 行末的數(shù)字時,將行末對應(yīng)的統(tǒng)計變量的值增加1;
頁碼標(biāo)識識別單元1242,用于根據(jù)所述第一統(tǒng)計變量、第二統(tǒng)計變量,與 預(yù)置的變量參數(shù)的關(guān)系,確定表示各章節(jié)內(nèi)容的頁碼標(biāo)識的位置。
所述裝置還包括
基線識別模塊125,用于去掉所述數(shù)字文檔目錄頁的每頁中版心范圍內(nèi)的 連接符、空白字符和其他特殊字符,確定該頁中的左基線。 所述內(nèi)容識別才莫塊126包括
層次參數(shù)計算單元1260,用于計算每行的平均文字寬度及每行相對于左基 線的縮進量;根據(jù)所述縮進量、該行的平均文字寬度,及保存的該頁中平均文 字寬度確定該行的層次參數(shù);
層次識別單元1261,用于將所有行的層次參數(shù)排序,根據(jù)所述層次參數(shù)確 定每行的目錄層次,其中較小的層次參數(shù)對應(yīng)較高的目錄層次。
本發(fā)明實施例提供的自動識別數(shù)字文檔目錄的方法,通過確定數(shù)字文檔目 錄所在頁,確定目錄頁中頁碼的位置以及識別數(shù)字文檔中的內(nèi)容信息,實現(xiàn)對 數(shù)字文檔目錄的自動識別。采用此自動識別數(shù)字文檔的方法,可以節(jié)省大量的 人力資源,提高目錄識別的效率從而提高數(shù)字文檔的制作效率。明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及 其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。
權(quán)利要求
1、一種自動識別數(shù)字文檔目錄的方法,其特征在于,包括根據(jù)數(shù)字文檔的總頁數(shù)及保存的目錄頁占數(shù)字文檔的總頁數(shù)的比例參數(shù),確定數(shù)字文檔目錄頁所在的候選頁;根據(jù)設(shè)置的至少一個特征信息,在所述候選頁中確定候選目錄頁;在所述候選目錄頁中按照預(yù)置規(guī)則確定數(shù)字文檔目錄頁;在所述數(shù)字文檔目錄頁中選擇一頁,根據(jù)該頁的屬性信息,確定該頁中表示各章節(jié)內(nèi)容的頁碼標(biāo)識的位置;根據(jù)保存的層次關(guān)系,在所述數(shù)字文檔目錄頁的每頁版心范圍內(nèi)根據(jù)每行的屬性信息,確定每行在目錄中的層次,所述層次關(guān)系根據(jù)數(shù)字文檔中每行包含的章節(jié)信息劃分,并根據(jù)字符的間隔,將每行劃分為若干個字符段,根據(jù)所述頁碼標(biāo)識的位置及每個字符段的屬性信息,分別存儲層次信息、頁碼標(biāo)識信息和對應(yīng)每個屬性的字符段信息。
2、 如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)數(shù)字文檔的總頁數(shù) 及保存的目錄頁占數(shù)字文檔的總頁數(shù)的比例參數(shù),確定數(shù)字文檔目錄頁所在的 候選頁區(qū)間,包括根據(jù)所述數(shù)字文檔的總頁數(shù)以及預(yù)置的目錄頁占數(shù)字文檔的總頁數(shù)的比 例參數(shù),計算數(shù)字文檔目錄候選頁區(qū)間的頁數(shù),根據(jù)所述數(shù)字文檔目錄候選頁 區(qū)間的頁數(shù),從所述數(shù)字文檔第一頁開始向后確定對應(yīng)頁數(shù)的數(shù)字文檔為所述 數(shù)字文檔目錄頁所在的候選頁區(qū)間,其中所述目錄頁占數(shù)字文檔的總頁數(shù)的比 例參數(shù)為不大于1的正實數(shù)。
3、 如權(quán)利要求1所述的方法,其特征在于,根據(jù)設(shè)置的至少一個特征信 息,在所述候選頁中確定候選目錄頁之前所述方法還包括確定每個候選頁中所有字符的坐標(biāo),將每個候選頁內(nèi)所有字符排序,每行 中排列滿足條件的字符。
4、 如權(quán)利要求1所述的方法,其特征在于,所述至少一個特征信息的設(shè)置包括根據(jù)每個候選頁中是否有預(yù)置的關(guān)鍵詞設(shè)置;或根據(jù)每個候選頁中可斷開行的數(shù)量設(shè)置;或 根據(jù)每個候選頁中行首或行末含有數(shù)字的行的數(shù)量設(shè)置;或 根據(jù)每個候選頁中行首或行末的數(shù)字非降的行的數(shù)量設(shè)置。
5、 如權(quán)利要求1所述的方法,其特征在于,在所述候選頁中確定候選目 錄頁,包括根據(jù)獲得的每個候選頁的至少 一個特征信息與保存的對應(yīng)該至少 一個特 征信息的特征參數(shù),確定所述候選頁對應(yīng)該至少一個特征信息的條件值,根據(jù) 該條件值及對應(yīng)該至少一個特征信息的權(quán)重系數(shù),確定候選目錄頁。
6、 如權(quán)利要求1所述的方法,其特征在于,所述在所述候選目錄頁中按 照預(yù)置規(guī)則確定數(shù)字文檔的目錄頁包括將為候選目錄頁的候選頁按照頁碼的大小順序排列,從所述排列中選擇候 選頁的頁碼連續(xù),并且包含的候選頁最多的候選頁區(qū)間,將該候選頁區(qū)間包含 的候選頁確定為數(shù)字文檔目錄頁。
7、 如權(quán)利要求1所述的方法,其特征在于,在所述數(shù)字文檔目錄頁中選 擇一頁,包括計算所述數(shù)字文檔目錄頁的第一頁的頁碼和最后一頁的頁碼的平均值,將 所述平均值取整數(shù),選擇數(shù)字文檔的頁碼為該整數(shù)的一頁。
8、 如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)該頁的屬性信息, 確定該頁中表示各章節(jié)內(nèi)容的頁碼標(biāo)識的位置,包括對應(yīng)該頁的行首和行末分別設(shè)置第一統(tǒng)計變量和第二統(tǒng)計變量,并將該兩 個統(tǒng)計變量賦值為0,當(dāng)排列在后的行的行首的數(shù)字,不小于排列在前的相鄰的 行對應(yīng)行首的數(shù)字時,將行首對應(yīng)的統(tǒng)計變量的值增加1;和/或,當(dāng)排列在后的行的行末的數(shù)字,不小于排列在前的相鄰的行對應(yīng)行末的數(shù) 字時,將行末對應(yīng)的統(tǒng)計變量的值增加1;根據(jù)所述第一統(tǒng)計變量、第二統(tǒng)計變量,與預(yù)置的變量參數(shù)的關(guān)系,確定 表示各章節(jié)內(nèi)容的頁碼標(biāo)識的位置。
9、 如權(quán)利要求1所述的方法,其特征在于,在確定每行在目錄中的層次 之前所述方法還包括去掉所述數(shù)字文檔目錄頁的每頁中版心范圍內(nèi)的連接符、空白字符和其他 特殊字符,確定該頁中的左基線。
10、 如權(quán)利要求9所述的方法,其特征在于,所述#4居每行的屬性信息, 確定每行在目錄中的層次,包括計算每行的平均文字寬度及每行相對于左基線的縮進量; 根據(jù)所述縮進量、該行的平均文字寬度,及保存的該頁中平均文字寬度確定該行的層次參數(shù);將所有行的層次參數(shù)排序,根據(jù)所述層次參數(shù)確定每行的層次,其中較小的層次參數(shù)對應(yīng)較高的層次。
11、 一種自動識別數(shù)字文檔目錄的裝置,其特征在于,包括 候選頁識別模塊,用于根據(jù)數(shù)字文檔的總頁數(shù)及保存的目錄頁占數(shù)字文檔的總頁數(shù)的比例參數(shù),確定數(shù)字文檔目錄頁所在的候選頁;候選目錄頁識別模塊,用于根據(jù)設(shè)置的至少一個特征信息,在所述候選頁 中確定候選目錄頁;目錄頁識別模塊,用于在所述候選目錄頁中按照預(yù)置規(guī)則確定數(shù)字文檔目 錄頁;頁碼標(biāo)識識別模塊,用于在所述數(shù)字文檔目錄頁中選擇一頁,根據(jù)該頁的 屬性信息,確定該頁中表示各章節(jié)內(nèi)容的頁碼標(biāo)識的位置;內(nèi)容識別模塊,用于根據(jù)保存的層次,在所述數(shù)字文檔目錄頁的每頁版心 范圍內(nèi)根據(jù)每行的屬性信息,確定每行在目錄中的層次,所述層次根據(jù)數(shù)字文 檔中每行包含的章節(jié)信息劃分,并根據(jù)字符的間隔,將每行劃分為若干個字符 段,根據(jù)所述頁碼標(biāo)識的位置及每個字符段的屬性信息,分別存儲層次信息、頁碼標(biāo)識信息和對應(yīng)每個屬性的字符^更信息。
12、 如權(quán)利要求11所述的裝置,其特征在于,所述候選頁識別模塊包括 計算單元,用于4艮據(jù)所述數(shù)字文檔的總頁數(shù)以及預(yù)置的目錄頁占數(shù)字文檔的總頁數(shù)的比例參數(shù),計算數(shù)字文檔目錄候選頁區(qū)間的頁數(shù),其中所述目錄頁 占數(shù)字文檔的總頁數(shù)的比例參數(shù)為不大于1的正實數(shù);候選頁識別單元,用于根據(jù)所述數(shù)字文檔目錄候選頁區(qū)間的頁數(shù),從所述 數(shù)字文檔第 一頁開始向后確定對應(yīng)頁數(shù)的數(shù)字文檔為所述數(shù)字文檔目錄頁所 在的候選頁。
13、 如權(quán)利要求11所述的裝置,其特征在于,所述裝置還包括 行識別模塊,用于確定每個候選頁中所有字符的坐標(biāo),將每個候選頁內(nèi)所有字符排序,每行中排列滿足條件的字符。
14、 如權(quán)利要求11所述的裝置,其特征在于,所述候選目錄頁識別模塊 包括存儲單元,用于存儲每個候選頁中是否有預(yù)置的關(guān)4定詞;或每個候選頁中 可斷開行的數(shù)量;或每個候選頁中行首或行末含有數(shù)字的行的數(shù)量;或每個候 選頁中行首或行末的數(shù)字非降的行的數(shù)量。
15、 如權(quán)利要求11所述的裝置,其特征在于,所述候選目錄頁識別模塊 還包括特征分析單元,用于根據(jù)獲得的每個候選頁的至少一個特征信息與保存的 對應(yīng)該至少 一個特征信息的特征參數(shù),確定所述候選頁對應(yīng)該至少 一個特征信 息的條件值,根據(jù)該條件值及對應(yīng)該至少一個特征信息的權(quán)重系數(shù),確定候選 目錄頁。
16、 如權(quán)利要求11所述的裝置,其特征在于,所述目錄頁識別模塊包括 排列單元,用于將候選目錄頁的候選頁按照頁碼的大小順序排列; 目錄頁識別單元,用于從所述排列中選擇候選頁的頁碼連續(xù),并且包含的候選頁最多的候選頁區(qū)間,將該候選頁區(qū)間包含的候選頁確定為數(shù)字文檔目錄頁。
17、 如權(quán)利要求11所述的裝置,其特征在于,所述頁碼標(biāo)識識別模塊包括選取單元,用于計算所述數(shù)字文檔目錄頁的第 一頁的頁碼和最后一頁的頁 碼的平均值,將所述平均值取整數(shù),選擇數(shù)字文檔的頁碼為該整數(shù)的一頁。
18、 如權(quán)利要求11所述的裝置,其特征在于,所述頁碼標(biāo)識識別;f莫塊還 包括變量統(tǒng)計單元,用于對應(yīng)該頁的行首和行末分別設(shè)置第一統(tǒng)計變量和第二 統(tǒng)計變量,并將該兩個統(tǒng)計變量賦值為0,當(dāng)排列在后的行的行首的數(shù)字,不小 于排列在前的相鄰的行對應(yīng)行首的數(shù)字時,將行首對應(yīng)的統(tǒng)計變量的值增加1; 和/或,當(dāng)排列在后的行的行末的數(shù)字,不小于排列在前的相鄰的行對應(yīng)行末的 數(shù)字時,將行末對應(yīng)的統(tǒng)計變量的值增加1;頁碼標(biāo)識識別單元,用于根據(jù)所述第一統(tǒng)計變量、第二統(tǒng)計變量,與預(yù)置 的變量參數(shù)的關(guān)系,確定表示各章節(jié)內(nèi)容的頁碼標(biāo)識的位置。
19、 如權(quán)利要求11所述的裝置,其特征在于,所述裝置還包括 基線識別模塊,用于去掉所述數(shù)字文檔目錄頁的每頁中版心范圍內(nèi)的連接符、空白字符和其他特殊字符,確定該頁中的左基線。
20、 如權(quán)利要求11所述的裝置,其特征在于,所述內(nèi)容識別模塊包括 層次參數(shù)計算單元,用于計算每行的平均文字寬度及每行相對于左基線的縮進量;根據(jù)所述縮進量、該行的平均文字寬度,及保存的該頁中平均文字寬 度確定該行的層次參數(shù);層次識別單元,用于將所有行的層次參數(shù)排序,根據(jù)所述層次參數(shù)確定每 行的目錄層次,其中較小的層次參數(shù)對應(yīng)較高的目錄層次。
全文摘要
本發(fā)明公開了一種自動識別數(shù)字文檔目錄的方法及裝置,用以解決現(xiàn)有技術(shù)中數(shù)字文檔的目錄人工識別效率低的問題。該方法根據(jù)數(shù)字文檔的總頁數(shù)及保存的目錄頁占總頁數(shù)的比例參數(shù),確定數(shù)字文檔目錄頁所在的候選頁;根據(jù)設(shè)置的至少一個特征信息,在候選頁中確定候選目錄頁;在候選目錄頁中確定數(shù)字文檔目錄頁;確定該一頁中表示各章節(jié)內(nèi)容的頁碼標(biāo)識的位置;根據(jù)保存的層次關(guān)系,在每頁版心范圍內(nèi)根據(jù)每行的屬性信息,確定每行在目錄中的層次,根據(jù)字符的間隔,將每行劃分為不同的字符段,分別存儲識別的層次信息及每個字符段。如本發(fā)明提出的方案自動識別數(shù)字文檔的目錄,有效的提高了數(shù)字文檔的制作速度。
文檔編號G06F17/21GK101458680SQ20081011933
公開日2009年6月17日 申請日期2008年9月3日 優(yōu)先權(quán)日2008年9月3日
發(fā)明者幟 湯, 褚一民, 欣 陶, 高良才 申請人:北京大學(xué);北大方正集團有限公司;北京方正阿帕比技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
长宁区| 杭州市| 英吉沙县| 格尔木市| 孟村| 铁岭市| 翼城县| 轮台县| 惠来县| 休宁县| 金乡县| 婺源县| 滨州市| 岳阳县| 河津市| 房山区| 武宣县| 渭南市| 尉氏县| 姚安县| 丹凤县| 永春县| 仁布县| 西丰县| 南平市| 祥云县| 铜陵市| 雷波县| 铅山县| 天长市| 仙居县| 琼海市| 华池县| 荃湾区| 泊头市| 泰州市| 马山县| 临海市| 石狮市| 原平市| 将乐县|