技術(shù)特征:
技術(shù)總結(jié)
本發(fā)明公開了一種文本版心識別方法、電子設(shè)備及計算機存儲介質(zhì),其方法包括:從文本中擇取預(yù)設(shè)頁數(shù)的頁面,分為奇數(shù)頁面組和偶數(shù)頁面組;分別對每個頁面的文字以行為單位進行識別,得到對應(yīng)的矩形文本對象;針對奇數(shù)頁面組和偶數(shù)頁面組中的每一頁面組,進行處理:對該頁面組的頁面進行完全重疊設(shè)置,以垂直于頁面的方向為投影方向?qū)υ擁撁娼M進行投影處理,將在投影方向上具有相交區(qū)域的矩形文本對象進行合并處理;根據(jù)矩形文本對象的矩形位置數(shù)據(jù)、矩形尺寸數(shù)據(jù)和/或矩形文本對象的文字信息,對矩形文本對象進行過濾處理,得到該頁面組的投影頁面的有效矩形文本對象,確定該頁面組的版心。本發(fā)明提供的方法,識別效率高。
技術(shù)研發(fā)人員:張恒;孫上斌
受保護的技術(shù)使用者:掌閱科技股份有限公司
技術(shù)研發(fā)日:2017.05.12
技術(shù)公布日:2017.09.15