本發(fā)明屬于文字處理技術(shù)領(lǐng)域,尤其涉及一種字符分割方法及裝置。
背景技術(shù):字符包括漢字、字母和數(shù)字,常規(guī)的字符分割方法一般基于圖像灰度的直方圖投影,或者基于直方圖投影后計(jì)算一個(gè)平均的字符寬度進(jìn)行,或者基于直方圖投影后計(jì)算一個(gè)平均字符寬度進(jìn)行,或者對(duì)于每個(gè)灰度直方圖得到的點(diǎn)進(jìn)行分析,采用一些特定措施來(lái)處理,但是上述方法這些都只是具有一定的適用范圍,只能用于對(duì)漢字或者字母中一種進(jìn)行分割,如果同時(shí)對(duì)漢字、字母和數(shù)字進(jìn)行分割,經(jīng)常出現(xiàn)錯(cuò)誤,效果不佳。
技術(shù)實(shí)現(xiàn)要素:本發(fā)明實(shí)施例的目的在于提供一種字符分割方法及裝置,以解決現(xiàn)有技術(shù)存在的,同時(shí)對(duì)漢字、字母和數(shù)字進(jìn)行分割時(shí),經(jīng)常出現(xiàn)錯(cuò)誤和效果不佳的問題。本發(fā)明的實(shí)施例是這樣實(shí)現(xiàn)的,一種字符分割方法,所述方法包括以下步驟:對(duì)包含字符的圖像進(jìn)行預(yù)處理得到處理后的二值化圖像,所述預(yù)處理包括中值濾波、直方圖均衡化和圖像二值化;對(duì)所述二值化圖像的第i行字符進(jìn)行n連通域的搜索,得到第i行字符的第一矩形框組;按照預(yù)設(shè)的合并條件,對(duì)第i行字符的第一矩形框組進(jìn)行合并處理,得到第i行字符的第二矩形框組;根據(jù)第i行字符的第二矩形框組的水平長(zhǎng)度,采用預(yù)設(shè)定方法確定第i行字符的平均寬度;當(dāng)?shù)趇行字符的第二矩形框組的寬度與第i行字符的平均寬度差值小于預(yù)設(shè)寬度差值時(shí),保留所述第i行字符的第二矩形框組,否則,保留所述第i行字符的第一矩形框組。本發(fā)明的另一實(shí)施例的目的在于提供一種字符分割裝置,所述裝置包括:預(yù)處理模塊,用于對(duì)包含字符的圖像進(jìn)行預(yù)處理得到處理后的二值化圖像,所述預(yù)處理包括中值濾波、直方圖均衡化和圖像二值化;處理模塊,用于對(duì)所述二值化圖像的第i行字符進(jìn)行n連通域的搜索,得到第i行字符的第一矩形框組;所述處理模塊,還用于按照預(yù)設(shè)的合并條件,對(duì)第i行字符的第一矩形框組進(jìn)行合并處理,得到第i行字符的第二矩形框組;計(jì)算單元,用于根據(jù)第i行字符的第二矩形框組的水平長(zhǎng)度,采用預(yù)設(shè)定方法確定第i行字符的平均寬度;所述處理單元,還用于當(dāng)?shù)趇行字符的第二矩形框組的寬度與第i行字符的平均寬度差值小于預(yù)設(shè)寬度差值時(shí),保留所述第i行字符的第二矩形框組,否則,保留所述第i行字符的第一矩形框組。本發(fā)明實(shí)施例通過(guò)將字符所在矩形框進(jìn)行絕對(duì)值運(yùn)算,將誤分割的漢字合并,并且通過(guò)漢字與數(shù)字及字母的寬度不一樣,將漢字與數(shù)字及字符分割開,解決了現(xiàn)有技術(shù)存在的,同時(shí)對(duì)漢字、字母和數(shù)字進(jìn)行分割時(shí),經(jīng)常出現(xiàn)錯(cuò)誤和效果不佳的問題。附圖說(shuō)明為了更清楚地說(shuō)明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1是本發(fā)明一種字符分割方法第一實(shí)施例提供的實(shí)現(xiàn)流程圖;圖2是本發(fā)明一種字符分割方法第一實(shí)施例提供的二值化圖像在y方向統(tǒng)計(jì)得到的曲線圖;圖3是本發(fā)明一種字符分割裝置第一實(shí)施例提供的模塊結(jié)構(gòu)圖。具體實(shí)施方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。本發(fā)明第一實(shí)施例提供了字符分割方法,所述方法如圖1所示,具體步驟包括:在步驟S101中,對(duì)包含字符的圖像進(jìn)行預(yù)處理得到處理后的二值化圖像。需要說(shuō)明的是,字符包括漢字、字母和數(shù)字等,包含字符的圖像是指照相機(jī)或者掃描儀等設(shè)備拍攝紙質(zhì)文本獲取的圖像,在拍攝過(guò)程中由于拍照條件可能造成字符粘連或者斷筆等,所述圖像中的字符可能只有一行,也可能有多行;所述預(yù)處理包括但不限于中值濾波、直方圖均衡化和圖像二值化,通過(guò)所述預(yù)處理將包含字符的圖像轉(zhuǎn)換為體現(xiàn)文字特征的圖像。進(jìn)一步需要說(shuō)明的是,對(duì)于預(yù)處理后的二值化圖像,在y(y軸)方向上進(jìn)行二值化數(shù)據(jù)統(tǒng)計(jì),得到文字在y方向上的分布情況,根據(jù)方向上的分布情況,根據(jù)y方向的波峰數(shù)量可以確定該圖像中有多少行字符。圖2示出了對(duì)漢字、字母和數(shù)字的二值化圖像在y方向統(tǒng)計(jì)得到的曲線圖。在步驟S102中,對(duì)所述二值化圖像的第i行字符進(jìn)行n連通域的搜索,得到第i行字符的第一矩形框組。需要說(shuō)明的是,i的取值范圍從1到圖像中字符總的行數(shù);第一矩形框組是矩形框的集合,包括一個(gè)或者多個(gè)矩形框,在步驟S102中,是按照n連通域的搜索得到,矩形框中可能只有漢字、數(shù)字或者字母,由于n連通域的搜索方法的技術(shù)缺陷,導(dǎo)致一個(gè)漢字和一個(gè)數(shù)字在一個(gè)矩形框中,或者一個(gè)漢字的左偏旁在一個(gè)矩形框,而右偏旁在相鄰一個(gè)矩形框,例如“江”字,三點(diǎn)水在一個(gè)矩形框,而工字在另外一個(gè)矩形框。進(jìn)一步需要說(shuō)明的是,n連通域的搜索中的n是通過(guò)實(shí)驗(yàn)得到的經(jīng)驗(yàn)值,連通域的搜索是現(xiàn)有技術(shù)。在步驟S103中,按照預(yù)設(shè)的合并條件,...