两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種文檔正文區(qū)域識別方法及裝置與流程

文檔序號:12601171閱讀:405來源:國知局
一種文檔正文區(qū)域識別方法及裝置與流程

本申請涉及文檔處理技術(shù)領(lǐng)域,更具體地說,涉及一種文檔正文區(qū)域識別方法及裝置。



背景技術(shù):

一份文檔一般都是分頁的,每頁除了正文還可以存在頁眉、頁腳區(qū)域,以及左右兩側(cè)存在文檔注解區(qū)域。

文檔在不同分辨率的設(shè)備上進行顯示時,需要根據(jù)設(shè)備的分辨率對文檔進行排版的轉(zhuǎn)換,即將文檔按照目標(biāo)顯示設(shè)備的分辨率,轉(zhuǎn)換成對應(yīng)分辨率下的文檔?,F(xiàn)有文檔轉(zhuǎn)換的方式是獲取原文檔的內(nèi)容,然后按照目標(biāo)分辨率重新排版,生成新的文檔?,F(xiàn)有方法并未考慮文檔內(nèi)容類型的不同,因此重新排版后會出現(xiàn)正文內(nèi)容與其它內(nèi)容排版混亂的問題。參見圖1a和圖1b,圖1a中示例了原文檔顯示界面,圖1b為按照現(xiàn)有技術(shù)重新排版后的展示頁面。對比可以看出,重新排版后正文內(nèi)容與頁眉和頁腳內(nèi)容混亂在一起。

由此可見,準(zhǔn)確識別文檔正文區(qū)域,對文檔排版轉(zhuǎn)換的準(zhǔn)確度至關(guān)重要,現(xiàn)有技術(shù)亟需一種文檔正文區(qū)域識別方案。



技術(shù)實現(xiàn)要素:

有鑒于此,本申請?zhí)峁┝艘环N文檔正文區(qū)域識別方法及裝置,以實現(xiàn)準(zhǔn)確識別文檔正文區(qū)域,為文檔排版轉(zhuǎn)換提供基礎(chǔ)。

為了實現(xiàn)上述目的,現(xiàn)提出的方案如下:

一種文檔正文區(qū)域識別方法,包括:

確定待識別文檔的各頁中,內(nèi)容元素所占區(qū)域;

將各頁中內(nèi)容元素所占區(qū)域的透明度設(shè)置為第一透明度值,非內(nèi)容元素所占區(qū)域的透明度設(shè)置為第二透明度值;

將所述待識別文檔的各頁對齊疊加,得到疊加后的文檔展示頁面;

根據(jù)所述文檔展示頁面中各像素點的透明度值分布狀態(tài),識別文檔正文所處的區(qū)域。

優(yōu)選地,所述將各頁中內(nèi)容元素所占區(qū)域的透明度設(shè)置為第一透明度值,非內(nèi)容元素所占區(qū)域的透明度設(shè)置為第二透明度值,包括:

將表征完全不透明的透明度值,除以所述待識別文檔的總頁數(shù),得到第一透明度值;

將各頁中內(nèi)容元素所占區(qū)域的透明度設(shè)置為所述第一透明度值,非內(nèi)容元素所占區(qū)域的透明度設(shè)置為第二透明度值,所述第二透明度值為表征完全透明的透明度值。

優(yōu)選地,所述根據(jù)所述文檔展示頁面中各像素點的透明度值分布狀態(tài),識別文檔正文所處的區(qū)域,包括:

將所述文檔展示頁面沿豎直方向,以像素點為單位分行,得到多行;

對每一行計算各像素點的透明度值的平均值,得到各行的平均透明度值;

以行高作為橫坐標(biāo),各行的平均透明度值作為縱坐標(biāo),繪制第一曲線圖;

根據(jù)第一曲線圖中波峰分布狀態(tài),識別文檔正文所處區(qū)域的行高范圍。

優(yōu)選地,所述根據(jù)所述文檔展示頁面中各像素點的透明度值分布狀態(tài),識別文檔正文所處的區(qū)域,還包括:

將所述文檔展示頁面沿水平方向,以像素點為單位分列,得到多列;

對每一列計算各像素點的透明度值的平均值,得到各列的平均透明度值;

以列寬作為橫坐標(biāo),各列的平均透明度值作為縱坐標(biāo),繪制第二曲線圖;

根據(jù)第二曲線圖中波峰的分布狀態(tài),識別文檔正文所處區(qū)域的列寬范圍。

優(yōu)選地,所述根據(jù)第一曲線圖中波峰分布狀態(tài),識別文檔正文所處區(qū)域的行高范圍,包括:

判斷所述第一曲線圖的兩端是否存在偏離中心峰群的離群峰;

若所述第一曲線圖兩端均存在離群峰,則根據(jù)兩端的離群峰對應(yīng)的行高,確定文檔正文所處區(qū)域的行高范圍;

若所述第一曲線圖兩端均不存在離群峰,則根據(jù)所述中心峰群兩側(cè)的邊緣峰對應(yīng)的行高,確定文檔正文所處區(qū)域的行高范圍;

若所述第一曲線圖僅一端存在離群峰,則根據(jù)離群峰對應(yīng)的行高以及中心峰群的遠離離群峰一側(cè)的邊緣峰對應(yīng)的行高,確定文檔正文所處區(qū)域的行高范圍。

優(yōu)選地,所述根據(jù)第二曲線圖中波峰的分布狀態(tài),識別文檔正文所處區(qū)域的列寬范圍,包括:

判斷所述第二曲線圖的兩端是否存在偏離中心峰群的離群峰;

若所述第二曲線圖兩端均存在離群峰,則根據(jù)兩端的離群峰對應(yīng)的列寬,確定文檔正文所處區(qū)域的列寬范圍;

若所述第二曲線圖兩端均不存在離群峰,則根據(jù)所述中心峰群兩側(cè)的邊緣峰對應(yīng)的列寬,確定文檔正文所處區(qū)域的列寬范圍;

若所述第二曲線圖僅一端存在離群峰,則根據(jù)離群峰對應(yīng)的列寬以及中心峰群的遠離離群峰一側(cè)的邊緣峰對應(yīng)的列寬,確定文檔正文所處區(qū)域的列寬范圍。

一種文檔正文區(qū)域識別裝置,包括:

內(nèi)容區(qū)域確定單元,用于確定待識別文檔的各頁中,內(nèi)容元素所占區(qū)域;

透明度設(shè)置單元,用于將各頁中內(nèi)容元素所占區(qū)域的透明度設(shè)置為第一透明度值,非內(nèi)容元素所占區(qū)域的透明度設(shè)置為第二透明度值;

文檔頁疊加單元,用于將所述待識別文檔的各頁對齊疊加,得到疊加后的文檔展示頁面;

正文區(qū)域識別單元,用于根據(jù)所述文檔展示頁面中各像素點的透明度值分布狀態(tài),識別文檔正文所處的區(qū)域。

優(yōu)選地,所述透明度設(shè)置單元包括:

第一透明度設(shè)置子單元,用于將表征完全不透明的透明度值,除以所述待識別文檔的總頁數(shù),得到第一透明度值;

第二透明度設(shè)置子單元,用于將各頁中內(nèi)容元素所占區(qū)域的透明度設(shè)置為所述第一透明度值,非內(nèi)容元素所占區(qū)域的透明度設(shè)置為第二透明度值,所述第二透明度值為表征完全透明的透明度值。

優(yōu)選地,所述正文區(qū)域識別單元包括:

文檔分行單元,用于將所述文檔展示頁面沿豎直方向,以像素點為單位分行,得到多行;

行平均透明度確定單元,用于對每一行計算各像素點的透明度值的平均值,得到各行的平均透明度值;

第一曲線圖繪制單元,用于以行高作為橫坐標(biāo),各行的平均透明度值作為縱坐標(biāo),繪制第一曲線圖;

行高范圍識別單元,用于根據(jù)第一曲線圖中波峰分布狀態(tài),識別文檔正文所處區(qū)域的行高范圍。

優(yōu)選地,所述正文區(qū)域識別單元還包括:

文檔分列單元,用于將所述文檔展示頁面沿水平方向,以像素點為單位分列,得到多列;

列平均透明度確定單元,用于對每一列計算各像素點的透明度值的平均值,得到各列的平均透明度值;

第二曲線圖繪制單元,用于以列寬作為橫坐標(biāo),各列的平均透明度值作為縱坐標(biāo),繪制第二曲線圖;

列寬范圍識別單元,用于根據(jù)第二曲線圖中波峰的分布狀態(tài),識別文檔正文所處區(qū)域的列寬范圍。

從上述的技術(shù)方案可以看出,本申請實施例提供的文檔正文區(qū)域識別方法包括:確定待識別文檔的各頁中,內(nèi)容元素所占區(qū)域;將各頁中內(nèi)容元素所占區(qū)域的透明度設(shè)置為第一透明度值,非內(nèi)容元素所占區(qū)域的透明度設(shè)置為第二透明度值;將所述待識別文檔的各頁對齊疊加,得到疊加后的文檔展示頁面;根據(jù)所述文檔展示頁面中各像素點的透明度值分布狀態(tài),識別文檔正文所處的區(qū)域。由此可見,本申請通過對文檔內(nèi)容元素所占區(qū)域及非內(nèi)容元素所占區(qū)域進行不同透明度處理,并將文檔的各頁進行疊加,根據(jù)疊加后文檔展示頁面中各像素點的透明度值分布狀態(tài),確定文檔正文區(qū)域,充分利用正文區(qū)域多頁疊加后透明度值與其它非正文區(qū)域多頁疊加后透明度值的不同,正文區(qū)域識別準(zhǔn)確度高。

附圖說明

為了更清楚地說明本申請實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請的實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)提供的附圖獲得其他的附圖。

圖1a和圖1b中分別示例了原文檔顯示界面及按照現(xiàn)有技術(shù)重新排版后的展示界面示意圖;

圖2為本申請實施例公開的一種文檔正文區(qū)域識別方法流程圖;

圖3示例了一種顏色標(biāo)準(zhǔn)內(nèi)容元素區(qū)域及非內(nèi)容元素區(qū)域的示意圖;

圖4示例了一種透明度設(shè)置效果示意圖;

圖5示例了一種PDF格式文檔透明度處理并疊加后的文檔展示頁面效果示意圖;

圖6為本申請實施例公開的另一種文檔正文區(qū)域識別方法流程圖;

圖7為本申請實施例公開的一種識別文檔正文區(qū)域的行高范圍的方法流程圖;

圖8示例了第一曲線示意圖;

圖9為本申請實施例公開的一種根據(jù)第一曲線圖識別文檔正文區(qū)域的行高范圍的方法流程圖;

圖10示例了對圖8所示第一曲線進行離群峰劃分后效果示意圖;

圖11為本申請實施例公開的一種識別文檔正文區(qū)域的列寬范圍的方法流程圖;

圖12示例了第二曲線示意圖;

圖13為本申請實施例公開的一種根據(jù)第二曲線圖識別文檔正文區(qū)域的列寬范圍的方法流程圖;

圖14示例了對圖12所示第二曲線進行離群峰劃分后效果示意圖;

圖15為本申請實施例公開的一種文檔正文區(qū)域識別裝置結(jié)構(gòu)示意圖。

具體實施方式

下面將結(jié)合本申請實施例中的附圖,對本申請實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本申請一部分實施例,而不是全部的實施例。基于本申請中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本申請保護的范圍。

接下來介紹本申請方案,參見圖2,圖2為本申請實施例公開的一種文檔正文區(qū)域識別方法流程圖。

如圖2所示,該方法包括:

步驟S100、確定待識別文檔的各頁中,內(nèi)容元素所占區(qū)域;

具體地,文檔頁中包含有多種類型的內(nèi)容元素,如正文、頁眉、頁腳、批注等。本步驟中,在待識別文檔的各頁中,確定出內(nèi)容元素所占區(qū)域。

具體實施時,可以是將內(nèi)容元素所占區(qū)域通過特定顏色進行標(biāo)注。參考圖3所示,圖3中文檔頁面中內(nèi)容元素為黑色區(qū)域,非內(nèi)容元素為白色區(qū)域。

步驟S110、將各頁中內(nèi)容元素所占區(qū)域的透明度設(shè)置為第一透明度值,非內(nèi)容元素所占區(qū)域的透明度設(shè)置為第二透明度值;

具體地,第一透明度值不同于第二透明度值。通過將內(nèi)容元素所占區(qū)域及非內(nèi)容元素所占區(qū)域設(shè)置不同的透明度值,以便后續(xù)文檔頁疊加后可以根據(jù)各像素點透明度值的分布不同,識別文檔正文所處區(qū)域。

參考上述圖3示例的情況,本步驟中可以對黑色區(qū)域設(shè)置第一透明度值,對白色區(qū)域設(shè)置第二透明度值。透明度設(shè)置之后的顯示效果如圖4所示。

步驟S120、將所述待識別文檔的各頁對齊疊加,得到疊加后的文檔展示頁面;

具體地,待識別文檔包含多頁,對每一頁進行上述透明度值處理之后,將各頁對齊疊加,疊加后得到文檔展示頁面。疊加后文檔展示頁面中各像素點的透明度值為各疊加前各文檔頁在該像素點處的透明度值的和值。由于內(nèi)容元素區(qū)域的透明度值與非內(nèi)容區(qū)域的透明度值不同,因此疊加后文檔展示頁面中各像素點的透明度值也不一定相同。參見圖5,其示例了一份PDF格式文檔按照前述步驟透明度處理并疊加后的文檔展示頁面效果示意圖。

步驟S130、根據(jù)所述文檔展示頁面中各像素點的透明度值分布狀態(tài),識別文檔正文所處的區(qū)域。

具體地,文檔正文區(qū)域內(nèi)容元素密度要大于文檔非正文區(qū)域內(nèi)容元素的密度,而前述已經(jīng)介紹對內(nèi)容元素所占區(qū)域與非內(nèi)容元素所占區(qū)域設(shè)置不同的透明度值,因此,文檔展示頁面中正文區(qū)域像素點的透明度值不同于非正文區(qū)域像素點的透明度值。本步驟中根據(jù)文檔展示頁面中各像素點的透明度值分布狀態(tài),識別文檔正文所處的區(qū)域。

本申請實施例提供的文檔正文區(qū)域識別方法,確定待識別文檔的各頁中,內(nèi)容元素所占區(qū)域;將各頁中內(nèi)容元素所占區(qū)域的透明度設(shè)置為第一透明度值,非內(nèi)容元素所占區(qū)域的透明度設(shè)置為第二透明度值;將所述待識別文檔的各頁對齊疊加,得到疊加后的文檔展示頁面;根據(jù)所述文檔展示頁面中各像素點的透明度值分布狀態(tài),識別文檔正文所處的區(qū)域。由此可見,本申請通過對文檔內(nèi)容元素所占區(qū)域及非內(nèi)容元素所占區(qū)域進行不同透明度處理,并將文檔的各頁進行疊加,根據(jù)疊加后文檔展示頁面中各像素點的透明度值分布狀態(tài),確定文檔正文區(qū)域,充分利用正文區(qū)域多頁疊加后透明度值與其它非正文區(qū)域多頁疊加后透明度值的不同,正文區(qū)域識別準(zhǔn)確度高。

參見圖6,圖6為本申請實施例公開的另一種文檔正文區(qū)域識別方法流程圖。

如圖6所示,該方法包括:

步驟S200、確定待識別文檔的各頁中,內(nèi)容元素所占區(qū)域;

具體地,文檔頁中包含有多種類型的內(nèi)容元素,如正文、頁眉、頁腳、批注等。本步驟中,在待識別文檔的各頁中,確定出內(nèi)容元素所占區(qū)域。

步驟S210、將表征完全不透明的透明度值,除以所述待識別文檔的總頁數(shù),得到第一透明度值;

具體地,透明度取值方式有兩種,一種是0-100,另一種是0-255。其中,數(shù)值越小代表越透明,數(shù)值越大代表越不透明。本申請可以采用上述兩種取值方式中的任意一種。

步驟S220、將各頁中內(nèi)容元素所占區(qū)域的透明度設(shè)置為所述第一透明度值,非內(nèi)容元素所占區(qū)域的透明度設(shè)置為第二透明度值,所述第二透明度值為表征完全透明的透明度值;

具體地,本申請將各頁中非內(nèi)容元素所占區(qū)域的透明度設(shè)置為完全透明,也即透明度值為0。這樣多頁疊加后非內(nèi)容元素所占區(qū)域的疊加不會對總透明度值產(chǎn)生影響。同時,本申請將各頁中內(nèi)容元素所占區(qū)域的透明度設(shè)置為所述第一透明度值,該第一透明度值為表征完全不透明的透明度值除以待識別文檔的總頁數(shù),從而保證待識別文檔的各頁疊加后不會出現(xiàn)某個像素點的透明度值超過透明度最大值的情況。

步驟S230、將所述待識別文檔的各頁對齊疊加,得到疊加后的文檔展示頁面;

具體地,待識別文檔包含多頁,對每一頁進行上述透明度值處理之后,將各頁對齊疊加,疊加后得到文檔展示頁面。由于內(nèi)容元素區(qū)域的透明度值與非內(nèi)容區(qū)域的透明度值不同,因此疊加后文檔展示頁面中各像素點的透明度值也不一定相同。

步驟S240、根據(jù)所述文檔展示頁面中各像素點的透明度值分布狀態(tài),識別文檔正文所處的區(qū)域。

相比于上一實施例,本實施例中介紹了一種對文檔各頁內(nèi)容元素及非內(nèi)容元素所占區(qū)域設(shè)置不同透明度值的實施方式。本申請將各頁中非內(nèi)容元素所占區(qū)域的透明度設(shè)置為完全透明,也即透明度值為0。這樣多頁疊加后非內(nèi)容元素所占區(qū)域的疊加不會對總透明度值產(chǎn)生影響。同時,本申請將各頁中內(nèi)容元素所占區(qū)域的透明度設(shè)置為所述第一透明度值,該第一透明度值為表征完全不透明的透明度值除以待識別文檔的總頁數(shù),從而保證待識別文檔的各頁疊加后不會出現(xiàn)某個像素點的透明度值超過透明度最大值的情況。

接下來的實施例中,對上述步驟S130,根據(jù)所述文檔展示頁面中各像素點的透明度值分布狀態(tài),識別文檔正文所處的區(qū)域的過程進行介紹。

首先,本申請先介紹識別文檔正文所處區(qū)域的行高范圍的過程,參見圖7所示,該過程可以包括:

步驟S300、將所述文檔展示頁面沿豎直方向,以像素點為單位分行,得到多行;

這里,本申請定義待識別文檔的每一頁的寬為W個像素點,高為H各像素點。本步驟中,將所述文檔展示頁面沿豎直方向,以像素點為單位分行,得到多行(H行)。

步驟S310、對每一行計算各像素點的透明度值的平均值,得到各行的平均透明度值;

具體實施方式可以是:對每一行,每個像素點的透明度值A(chǔ)LPHA除以W,得到修改后透明度值A(chǔ)LPHA2=ALPHA/W。進一步,將每一行所有像素點的修改后透明度值求和,得到各行的平均透明度值A(chǔ)LPHA3。

步驟S320、以行高作為橫坐標(biāo),各行的平均透明度值作為縱坐標(biāo),繪制第一曲線圖;

具體地,參見圖8,圖8示例了對圖5所示頁面進行處理后,繪制得到的第一曲線圖。其中,橫坐標(biāo)為行高,縱坐標(biāo)為透明度值。

步驟S330、根據(jù)第一曲線圖中波峰分布狀態(tài),識別文檔正文所處區(qū)域的行高范圍。

具體地,根據(jù)圖8可以看出,曲線圖中存在很多的波峰,且波峰分布狀態(tài)與文檔內(nèi)容元素的分布情況存在一定對應(yīng)關(guān)系,據(jù)此可以識別文檔正文所處區(qū)域的行高范圍。

本申請的一個實施例中,對上述步驟S330,根據(jù)第一曲線圖中波峰分布狀態(tài),識別文檔正文所處區(qū)域的行高范圍的過程進行介紹,參見圖9所示:

該過程可以包括:

步驟S400、判斷所述第一曲線圖的兩端是否存在偏離中心峰群的離群峰;

具體地,待識別文檔如果存在頁眉和頁腳的話,則繪制的第一曲線圖可以參照圖8示例的情況,其在曲線兩端會存在偏離中心峰群的離群峰。離群峰代表的是頁眉或頁腳。而中心峰群代表的文檔正文區(qū)域。

步驟S410、若所述第一曲線圖兩端均存在離群峰,則根據(jù)兩端的離群峰對應(yīng)的行高,確定文檔正文所處區(qū)域的行高范圍;

具體地,如果第一曲線圖兩端均存在離群峰,則代表待識別文檔同時存在頁眉和頁腳。本步驟中根據(jù)兩端的離群峰對應(yīng)的行高,確定文檔正文所處區(qū)域的行高范圍。

參見圖10,圖10為對圖8所示的第一曲線圖進行離群峰劃分后的結(jié)果。其中,左側(cè)離群峰與中心峰間的一個波谷,代表正文區(qū)域開始行,右側(cè)離群峰與中心峰間的一個波谷,代表正文區(qū)域結(jié)束行。圖10表明,正文區(qū)域的行高范圍為150-760。

步驟S420、若所述第一曲線圖兩端均不存在離群峰,則根據(jù)所述中心峰群兩側(cè)的邊緣峰對應(yīng)的行高,確定文檔正文所處區(qū)域的行高范圍;

可以理解的是,若第一曲線圖兩端均不存在離群峰,則代表待識別文檔不存在頁眉和頁腳。因此可以根據(jù)中心峰群兩側(cè)的邊緣峰對應(yīng)的行高,確定文檔正文所處區(qū)域的行高范圍。為便于理解,可以將圖10中兩側(cè)離群峰去掉,以直線代替,正文區(qū)域的開始行和結(jié)束行即為中心峰群兩側(cè)的邊緣峰對應(yīng)的行高。

步驟S430、若所述第一曲線圖僅一端存在離群峰,則根據(jù)離群峰對應(yīng)的行高以及中心峰群的遠離離群峰一側(cè)的邊緣峰對應(yīng)的行高,確定文檔正文所處區(qū)域的行高范圍。

具體地,若第一曲線圖僅一端存在離群峰,另一端不存在離群峰,則代表待識別文檔僅存在頁眉或頁腳。則文檔正文所處區(qū)域的行高范圍可以根據(jù)離群峰對應(yīng)的行高以及中心峰群的遠離離群峰一側(cè)的邊緣峰對應(yīng)的行高確定。

在本申請的又一個實施例中,對識別文檔正文所處區(qū)域的列寬范圍的過程進行介紹,參見圖11所示,該過程可以包括:

步驟S500、將所述文檔展示頁面沿水平方向,以像素點為單位分列,得到多列;

與上述識別行高范圍的過程類似,本申請定義待識別文檔的每一頁的寬為W個像素點,高為H各像素點。本步驟中,將所述文檔展示頁面沿水平方向,以像素點為單位分列,得到多列(W列)。

步驟S510、對每一列計算各像素點的透明度值的平均值,得到各列的平均透明度值;

具體實施方式可以是:對每一列,每個像素點的透明度值A(chǔ)LPHA除以H,得到修改后透明度值A(chǔ)LPHA4=ALPHA/W。進一步,將每一列所有像素點的修改后透明度值求和,得到各列的平均透明度值A(chǔ)LPHA5。

步驟S520、以列寬作為橫坐標(biāo),各列的平均透明度值作為縱坐標(biāo),繪制第二曲線圖;

具體地,參見圖12,圖12示例了對圖5所示頁面進行處理后,繪制得到的第二曲線圖。其中,橫坐標(biāo)為列寬,縱坐標(biāo)為透明度值。

步驟S530、根據(jù)第二曲線圖中波峰的分布狀態(tài),識別文檔正文所處區(qū)域的列寬范圍。

具體地,根據(jù)圖12可以看出,曲線圖中存在很多的波峰,且波峰分布狀態(tài)與文檔內(nèi)容元素的分布情況存在一定對應(yīng)關(guān)系,據(jù)此可以識別文檔正文所處區(qū)域的列寬范圍。

本申請的一個實施例中,對上述步驟S530,根據(jù)第二曲線圖中波峰分布狀態(tài),識別文檔正文所處區(qū)域的列寬范圍的過程進行介紹,參見圖13所示:

該過程可以包括:

步驟S600、判斷所述第二曲線圖的兩端是否存在偏離中心峰群的離群峰;

具體地,待識別文檔如果存在左欄注釋和右欄注釋的話,則繪制的第二曲線圖兩端會存在偏離中心峰群的離群峰。離群峰代表的是左欄注釋或右欄注釋。而中心峰群代表的文檔正文區(qū)域。

步驟S610、若所述第二曲線圖兩端均存在離群峰,則根據(jù)兩端的離群峰對應(yīng)的列寬,確定文檔正文所處區(qū)域的列寬范圍;

具體地,如果第二曲線圖兩端均存在離群峰,則代表待識別文檔同時存在左欄注釋或右欄注釋。本步驟中根據(jù)兩端的離群峰對應(yīng)的列寬,確定文檔正文所處區(qū)域的列寬范圍。

步驟S620、若所述第二曲線圖兩端均不存在離群峰,則根據(jù)所述中心峰群兩側(cè)的邊緣峰對應(yīng)的列寬,確定文檔正文所處區(qū)域的列寬范圍;

可以理解的是,若第二曲線圖兩端均不存在離群峰,則代表待識別文檔不存在左欄注釋和右欄注釋。因此可以根據(jù)中心峰群兩側(cè)的邊緣峰對應(yīng)的列寬,確定文檔正文所處區(qū)域的列寬范圍。為便于理解,參照圖14,圖14為對圖12所示的第二曲線圖進行離群峰劃分后的結(jié)果。其中,只存在一個中心峰群,不存在離群峰。因此,中心峰群的左側(cè)邊緣峰對應(yīng)的列寬為正文區(qū)域的開始列,右側(cè)邊緣峰對應(yīng)的列寬為正文區(qū)域的結(jié)束列。圖14表明,正文區(qū)域的列寬范圍為40-560。

步驟S630、若所述第二曲線圖僅一端存在離群峰,則根據(jù)離群峰對應(yīng)的列寬以及中心峰群的遠離離群峰一側(cè)的邊緣峰對應(yīng)的列寬,確定文檔正文所處區(qū)域的列寬范圍。

具體地,若第二曲線圖僅一端存在離群峰,另一端不存在離群峰,則代表待識別文檔僅存在左欄注解或右欄注解。則文檔正文所處區(qū)域的列寬范圍可以根據(jù)離群峰對應(yīng)的列寬以及中心峰群的遠離離群峰一側(cè)的邊緣峰對應(yīng)的列寬確定。

下面對本申請實施例提供的文檔正文區(qū)域識別裝置進行描述,下文描述的文檔正文區(qū)域識別裝置與上文描述的文檔正文區(qū)域識別方法可相互對應(yīng)參照。

參見圖15,圖15為本申請實施例公開的一種文檔正文區(qū)域識別裝置結(jié)構(gòu)示意圖。

如圖15所示,該裝置包括:

內(nèi)容區(qū)域確定單元11,用于確定待識別文檔的各頁中,內(nèi)容元素所占區(qū)域;

透明度設(shè)置單元12,用于將各頁中內(nèi)容元素所占區(qū)域的透明度設(shè)置為第一透明度值,非內(nèi)容元素所占區(qū)域的透明度設(shè)置為第二透明度值;

文檔頁疊加單元13,用于將所述待識別文檔的各頁對齊疊加,得到疊加后的文檔展示頁面;

正文區(qū)域識別單元14,用于根據(jù)所述文檔展示頁面中各像素點的透明度值分布狀態(tài),識別文檔正文所處的區(qū)域。

可選的,所述透明度設(shè)置單元可以包括:

第一透明度設(shè)置子單元,用于將表征完全不透明的透明度值,除以所述待識別文檔的總頁數(shù),得到第一透明度值;

第二透明度設(shè)置子單元,用于將各頁中內(nèi)容元素所占區(qū)域的透明度設(shè)置為所述第一透明度值,非內(nèi)容元素所占區(qū)域的透明度設(shè)置為第二透明度值,所述第二透明度值為表征完全透明的透明度值。

可選的,所述正文區(qū)域識別單元可以包括:

文檔分行單元,用于將所述文檔展示頁面沿豎直方向,以像素點為單位分行,得到多行;

行平均透明度確定單元,用于對每一行計算各像素點的透明度值的平均值,得到各行的平均透明度值;

第一曲線圖繪制單元,用于以行高作為橫坐標(biāo),各行的平均透明度值作為縱坐標(biāo),繪制第一曲線圖;

行高范圍識別單元,用于根據(jù)第一曲線圖中波峰分布狀態(tài),識別文檔正文所處區(qū)域的行高范圍。

可選的,所述正文區(qū)域識別單元還可以包括:

文檔分列單元,用于將所述文檔展示頁面沿水平方向,以像素點為單位分列,得到多列;

列平均透明度確定單元,用于對每一列計算各像素點的透明度值的平均值,得到各列的平均透明度值;

第二曲線圖繪制單元,用于以列寬作為橫坐標(biāo),各列的平均透明度值作為縱坐標(biāo),繪制第二曲線圖;

列寬范圍識別單元,用于根據(jù)第二曲線圖中波峰的分布狀態(tài),識別文檔正文所處區(qū)域的列寬范圍。

可選的,所述行高范圍識別單元可以包括:

第一行高范圍識別子單元,用于判斷所述第一曲線圖的兩端是否存在偏離中心峰群的離群峰;

第二行高范圍識別子單元,用于若所述第一曲線圖兩端均存在離群峰,則根據(jù)兩端的離群峰對應(yīng)的行高,確定文檔正文所處區(qū)域的行高范圍;

第三行高范圍識別子單元,用于若所述第一曲線圖兩端均不存在離群峰,則根據(jù)所述中心峰群兩側(cè)的邊緣峰對應(yīng)的行高,確定文檔正文所處區(qū)域的行高范圍;

第四行高范圍識別子單元,用于若所述第一曲線圖僅一端存在離群峰,則根據(jù)離群峰對應(yīng)的行高以及中心峰群的遠離離群峰一側(cè)的邊緣峰對應(yīng)的行高,確定文檔正文所處區(qū)域的行高范圍。

可選的,所述列寬范圍識別單元可以包括:

第一列寬范圍識別子單元,用于判斷所述第二曲線圖的兩端是否存在偏離中心峰群的離群峰;

第二列寬范圍識別子單元,用于若所述第二曲線圖兩端均存在離群峰,則根據(jù)兩端的離群峰對應(yīng)的列寬,確定文檔正文所處區(qū)域的列寬范圍;

第三列寬范圍識別子單元,用于若所述第二曲線圖兩端均不存在離群峰,則根據(jù)所述中心峰群兩側(cè)的邊緣峰對應(yīng)的列寬,確定文檔正文所處區(qū)域的列寬范圍;

第四列寬范圍識別子單元,用于若所述第二曲線圖僅一端存在離群峰,則根據(jù)離群峰對應(yīng)的列寬以及中心峰群的遠離離群峰一側(cè)的邊緣峰對應(yīng)的列寬,確定文檔正文所處區(qū)域的列寬范圍。

最后,還需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。

本說明書中各個實施例采用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似部分互相參見即可。

對所公開的實施例的上述說明,使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本申請。對這些實施例的多種修改對本領(lǐng)域的專業(yè)技術(shù)人員來說將是顯而易見的,本文中所定義的一般原理可以在不脫離本申請的精神或范圍的情況下,在其它實施例中實現(xiàn)。因此,本申請將不會被限制于本文所示的這些實施例,而是要符合與本文所公開的原理和新穎特點相一致的最寬的范圍。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
温州市| 商洛市| 潼关县| 保德县| 虞城县| 弋阳县| 诸暨市| 加查县| 环江| 永和县| 于田县| 滨海县| 乐安县| 泾源县| 宿州市| 信阳市| 惠水县| 荥阳市| 新巴尔虎右旗| 辽源市| 民勤县| 金寨县| 津南区| 义乌市| 游戏| 迁西县| 辽阳县| 溧阳市| 新田县| 枣阳市| 嘉禾县| 宜昌市| 龙岩市| 朝阳市| 布拖县| 正安县| 高州市| 静安区| 南投市| 泸水县| 永新县|