两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于卷積神經(jīng)網(wǎng)絡(luò)模型的旋轉(zhuǎn)漢字識(shí)別方法與流程

文檔序號(hào):11134768閱讀:4334來(lái)源:國(guó)知局
本發(fā)明屬于圖像分類
技術(shù)領(lǐng)域
,特別是一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型的旋轉(zhuǎn)漢字識(shí)別方法。
背景技術(shù)
:脫機(jī)手寫(xiě)漢字識(shí)別一直是模式識(shí)別領(lǐng)域的難點(diǎn)之一。如何增強(qiáng)脫機(jī)手寫(xiě)漢字的隨機(jī)旋轉(zhuǎn)單字識(shí)別能力有很強(qiáng)的現(xiàn)實(shí)意義。在日常生活中,傳感器的特性和局限性等原因常導(dǎo)致一個(gè)模式識(shí)別系統(tǒng)的輸入不夠理想,對(duì)脫機(jī)漢字識(shí)別系統(tǒng)的輸入常出現(xiàn)自然旋轉(zhuǎn),這將會(huì)導(dǎo)致識(shí)別系統(tǒng)的識(shí)別能力下降;對(duì)于大角度旋轉(zhuǎn)的脫機(jī)漢字,幾乎難以識(shí)別。脫機(jī)手寫(xiě)漢字的旋轉(zhuǎn)問(wèn)題,至今沒(méi)有很好的解決方案。本發(fā)明針對(duì)GB2312—80一級(jí)字符集,對(duì)選取的所有脫機(jī)相似手寫(xiě)漢字圖像進(jìn)行隨機(jī)角度旋轉(zhuǎn)處理之后再進(jìn)行識(shí)別。旋轉(zhuǎn)脫機(jī)手寫(xiě)漢字識(shí)別的主要困難在于筆畫(huà)順序未知、角度難以確定、特別是大量相似漢字的存在以及不規(guī)則的書(shū)寫(xiě)變形。在旋轉(zhuǎn)之后,脫機(jī)漢字將更難識(shí)別。因此,改善旋轉(zhuǎn)漢字的識(shí)別性能具有很強(qiáng)的現(xiàn)實(shí)意義。近年來(lái),為解決脫機(jī)旋轉(zhuǎn)字符識(shí)別問(wèn)題,人們提出了許多有效的方法:U.Pal等人為了解決多方位多尺度的印刷藝術(shù)英語(yǔ)字符的識(shí)別問(wèn)題,提出了一種基于字符邊界點(diǎn)的歸一化信息的修正的二次判別函數(shù)(MQDF)識(shí)別方法,對(duì)旋轉(zhuǎn)的英文字符可以有效識(shí)別。C.Singh等人提出了提出改變澤尼克矩的(ThemagnitudeofZernikemoments)單個(gè)實(shí)分量和虛分量的新方法,改變后的實(shí)分量和虛分量隨后被用作不變圖像描述符,這種方法對(duì)旋轉(zhuǎn)字符識(shí)別有很好的識(shí)別性能。但是以上方法對(duì)數(shù)據(jù)集樣本數(shù)量級(jí)要求高,需要大量的數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò),對(duì)于低數(shù)量級(jí)樣本并沒(méi)有很好地效果。而且方法復(fù)雜,對(duì)于不同數(shù)據(jù)集效果有一定差別,沒(méi)有很好地普適性。因此,對(duì)于隨機(jī)旋轉(zhuǎn)的漢字的分類,目前還沒(méi)有較為普適有效的方法。技術(shù)實(shí)現(xiàn)要素:為了解決上述問(wèn)題,本發(fā)明的目的在于提供一種基于卷積神經(jīng)網(wǎng)絡(luò)模型的旋轉(zhuǎn)漢字識(shí)別方法,分類速度快的基于卷積神經(jīng)網(wǎng)絡(luò)的分類方法。本發(fā)明采用如下技術(shù)方案實(shí)現(xiàn)。一種基于卷積神經(jīng)網(wǎng)絡(luò)模型的旋轉(zhuǎn)漢字識(shí)別方法,其包括按順序進(jìn)行的下列步驟:1)在linux系統(tǒng)上搭建卷積神經(jīng)網(wǎng)絡(luò)的caffe深度學(xué)習(xí)框架平臺(tái);2)準(zhǔn)備數(shù)據(jù)集(HCL2000數(shù)據(jù)集下的一級(jí)漢字):訓(xùn)練數(shù)據(jù)集和帶有標(biāo)簽的測(cè)試數(shù)據(jù)集。訓(xùn)練集為原始手寫(xiě)漢字以及將原始漢字任意角度旋轉(zhuǎn)得到的樣本共同加入訓(xùn)練集中,測(cè)試集為帶有標(biāo)簽的任意角度旋轉(zhuǎn)的手寫(xiě)漢字。3)利用上述數(shù)據(jù)集在caffe平臺(tái)上訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)模型,得到測(cè)試結(jié)果,實(shí)現(xiàn)對(duì)任意角度旋轉(zhuǎn)漢字的識(shí)別;進(jìn)一步地,在步驟2)中,訓(xùn)練數(shù)據(jù)集是從HCL2000一級(jí)手寫(xiě)漢字?jǐn)?shù)據(jù)集中處理后所得,處理方法為對(duì)數(shù)據(jù)集中漢字進(jìn)行旋轉(zhuǎn),從而在訓(xùn)練過(guò)程中,模型可以學(xué)習(xí)到更多的旋轉(zhuǎn)特征;測(cè)試集為對(duì)數(shù)據(jù)集中漢字任意角度隨機(jī)旋轉(zhuǎn),并帶有標(biāo)簽。與現(xiàn)有技術(shù)相比,本發(fā)明提供的基于卷積神經(jīng)網(wǎng)絡(luò)模型的旋轉(zhuǎn)漢字分類方法具有的優(yōu)點(diǎn)和積極效果是:(1)采用目前分類效果出色的多層卷積神經(jīng)網(wǎng)絡(luò)模型,分類準(zhǔn)確率高;(2)通過(guò)對(duì)漢字圖像進(jìn)行任意角度旋轉(zhuǎn)對(duì)樣本集進(jìn)行擴(kuò)展,得到的模型可以學(xué)習(xí)到旋轉(zhuǎn)樣本的特征,以提高卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)旋轉(zhuǎn)字體識(shí)別的魯棒性;(3)實(shí)驗(yàn)基于GPU的并行計(jì)算,訓(xùn)練和測(cè)試速度遠(yuǎn)遠(yuǎn)高于CPU的運(yùn)算速度。附圖說(shuō)明圖1為實(shí)例中卷積神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。圖2為實(shí)例中旋轉(zhuǎn)變換幾何關(guān)系圖。圖3為實(shí)例中隨機(jī)旋轉(zhuǎn)角度下的旋轉(zhuǎn)圖像。圖4為實(shí)例中未旋轉(zhuǎn)樣本與旋轉(zhuǎn)樣本共同訓(xùn)練模型對(duì)旋轉(zhuǎn)樣本識(shí)別能力曲線。具體實(shí)施方式以下結(jié)合附圖和實(shí)例對(duì)本發(fā)明的具體實(shí)施作進(jìn)一步說(shuō)明,但本發(fā)明的實(shí)施和保護(hù)不限于此,以下若有未特別詳細(xì)說(shuō)明之處,均是本領(lǐng)域技術(shù)人員可參照現(xiàn)有技術(shù)實(shí)現(xiàn)的。如圖1,卷積神經(jīng)網(wǎng)絡(luò)由輸入層、隱含層和輸出層組成,隱含層則主要包括卷積層、最大化池采樣層和全連接層組成。(1)卷積層。卷積層用于視覺(jué)接受域中提取基本視覺(jué)特征,也被稱為特征映射,操作單元也被稱作神經(jīng)元。(2)最大采樣層。因?yàn)閳D像具有一種“靜態(tài)性”的屬性,這也就意味著在一個(gè)圖像區(qū)域有用的特征極有可能在另一個(gè)區(qū)域同樣適用。因此,為了描述大的圖像,可以從不同位置的特征進(jìn)行聚合統(tǒng)計(jì),統(tǒng)計(jì)特征不僅可以降低維度,同時(shí)還會(huì)改善結(jié)果,不容易過(guò)擬合。采用最大池化,取池化區(qū)域的最大值作為下一層的輸入。(3)全連接層。經(jīng)過(guò)卷積層和池化層之后,將提取出來(lái)的特征再進(jìn)行組合,最后得到了每個(gè)字所具有的獨(dú)一無(wú)二的特征。在權(quán)重參數(shù)初始化的選擇上,采用Xavier策略,這是由Xavier等人在2010年提出的一種歸一化初始化策略,該策略使網(wǎng)絡(luò)在訓(xùn)練過(guò)程中可以保持激活差異和背向梯度方差,使網(wǎng)絡(luò)收斂得非???。該策略由式給出:這里的U指的是均勻分布,分別為當(dāng)前層和下一層的神經(jīng)元的數(shù)量。此外,在網(wǎng)絡(luò)訓(xùn)練參數(shù)調(diào)整上,為提高網(wǎng)絡(luò)的魯棒性和加快網(wǎng)絡(luò)收斂,設(shè)定以下網(wǎng)絡(luò)參數(shù):(1)學(xué)習(xí)率。學(xué)習(xí)率將隨著迭代次數(shù)的增加逐漸減小。采用以下更新策略:其中,為基礎(chǔ)學(xué)習(xí)速率,、為設(shè)定的參數(shù),iter為迭代次數(shù),實(shí)驗(yàn)中取,,。(2)神經(jīng)網(wǎng)絡(luò)激活函數(shù)。采用RELU非線性激勵(lì)函數(shù)代替以往的sigmoid函數(shù)。(3)誤差函數(shù)增加了動(dòng)量項(xiàng)和規(guī)則化項(xiàng)。動(dòng)量項(xiàng)是基于物理學(xué)中的牛頓定律,當(dāng)誤差曲面進(jìn)入了“平坦區(qū)”后,網(wǎng)絡(luò)可以更快地收斂。正則項(xiàng)則是為了避免網(wǎng)絡(luò)過(guò)擬合而引進(jìn)的一個(gè)正則化系數(shù),也稱為權(quán)重衰減系數(shù)。網(wǎng)絡(luò)的最后一層,即全連接層,其設(shè)計(jì)是與網(wǎng)絡(luò)的分類任務(wù)相關(guān)聯(lián)的。輸出層的神經(jīng)元數(shù)量被設(shè)為所需分類的類別數(shù)目。在本實(shí)例中,采用了softmax分類器,交叉熵誤差由式給出。對(duì)于個(gè)類別的分類任務(wù),令為第個(gè)樣本的交叉熵誤差值,而分類判別規(guī)則由式給出,其中是一個(gè)獨(dú)立于類別的常數(shù)。對(duì)于,若有,則為最小值,那么即被分為第類。在搭建完網(wǎng)絡(luò)之后,接下來(lái)對(duì)樣本進(jìn)行旋轉(zhuǎn)變換。旋轉(zhuǎn)變換是仿射變換的操作方式之一,通過(guò)對(duì)原始樣本進(jìn)行旋轉(zhuǎn)變換,并加入到訓(xùn)練集之中,可以使得模型學(xué)習(xí)到旋轉(zhuǎn)的樣本特征。因此,對(duì)原始樣本進(jìn)行旋轉(zhuǎn)處理,并將旋轉(zhuǎn)樣本加入到訓(xùn)練集中訓(xùn)練模型。在幾何上,兩個(gè)向量空間之間的一個(gè)仿射變換可以由一個(gè)線性變換和一個(gè)平移組成。對(duì)于二維空間,仿射變換可以用矩陣的形式表示:其中大小為的矩陣和列向量都是仿射變換的系數(shù),和分別表示原二維線性空間的基向量和經(jīng)仿射變換后的二維線性空間的基向量。對(duì)樣本作仿射變換得到新的樣本可以通過(guò)式將轉(zhuǎn)換系數(shù)作用到圖像上的每一個(gè)像素點(diǎn)來(lái)實(shí)現(xiàn)。這種作用關(guān)系由式給出。其中表示變換后圖像坐標(biāo)為的像素點(diǎn)的灰度值,表示原圖像坐標(biāo)為的像素點(diǎn)的灰度值(由于和的值都有可能超出給定圖像且為非整數(shù),因此假定超出給定圖像大小的像素點(diǎn)的灰度值均為255并在實(shí)驗(yàn)中應(yīng)用雙線性插值的方法)。常見(jiàn)的仿射變換有平移、縮放、旋轉(zhuǎn)、錯(cuò)切變換(水平方向上和豎直方向上)等。本實(shí)例采用了對(duì)樣本作旋轉(zhuǎn)的方法來(lái)擴(kuò)展樣本集。常見(jiàn)的仿射變換有平移、縮放、旋轉(zhuǎn)、錯(cuò)切變換(水平方向上和豎直方向上)等,而旋轉(zhuǎn)是重要的仿射變換操作之一。如圖2所示,以點(diǎn)為軸心逆時(shí)針旋轉(zhuǎn),假定點(diǎn)在原二維空間中的坐標(biāo)為,則由幾何關(guān)系可以得到點(diǎn)在新的二維空間中的坐標(biāo)的取值分別為:因此,旋轉(zhuǎn)變換系數(shù)分別為:,對(duì)圖像中的每一個(gè)像素都通過(guò)和來(lái)計(jì)算新的坐標(biāo)取值,然后根據(jù)式計(jì)算每一個(gè)像素點(diǎn)的新的灰度值,即可得到旋轉(zhuǎn)圖像。改變中的參數(shù)可以改變以圖像中心為軸心圖像逆時(shí)針旋轉(zhuǎn)的角度。圖3中展示了幾種隨機(jī)旋轉(zhuǎn)角度下的旋轉(zhuǎn)圖像(上方是原圖像,下方是對(duì)應(yīng)的隨機(jī)角度旋轉(zhuǎn)圖像)。最后對(duì)發(fā)明方法進(jìn)行測(cè)試,本實(shí)例采用了HCL2000的手寫(xiě)漢字樣本數(shù)據(jù)庫(kù),HCL2000是北京郵電大學(xué)發(fā)布的一個(gè)大規(guī)模的脫機(jī)手寫(xiě)體漢字識(shí)別樣本庫(kù)。數(shù)據(jù)庫(kù)中包含3755個(gè)常用的簡(jiǎn)化漢字,分別由1000個(gè)不同的人書(shū)寫(xiě)。對(duì)于脫機(jī)手寫(xiě)漢字的識(shí)別能力,通過(guò)最有可能性的n個(gè)候選集方法,對(duì)脫機(jī)手寫(xiě)漢字已經(jīng)有較高的識(shí)別能力。然而對(duì)于相似字,由于筆畫(huà)相近,字體結(jié)構(gòu)相仿,目前在漢字識(shí)別領(lǐng)域仍是一大挑戰(zhàn)。因此,隨機(jī)選取十組相似漢字,每組漢字包括十個(gè)相似字體,每個(gè)字體共300個(gè)原始樣本。對(duì)于每個(gè)字體,選取其中225個(gè)樣本作為訓(xùn)練集,75個(gè)作為測(cè)試集。為了降低維度并減小訓(xùn)練量,采用最近鄰內(nèi)插的算法將64*64的樣本圖像大小調(diào)整為28*28。除此之外,為了避免由于字體處于邊緣而導(dǎo)致網(wǎng)絡(luò)提取特征時(shí)可能會(huì)丟失部分特征,在調(diào)整大小后的圖像四周添加2個(gè)空白像素(像素灰度值為255),最終得到的漢字樣本圖像大小為32*32。通過(guò)搭建的卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型,調(diào)整網(wǎng)絡(luò)參數(shù),最終得到表1所示的結(jié)果。表1原始樣本識(shí)別能力實(shí)驗(yàn)結(jié)果通過(guò)實(shí)驗(yàn)測(cè)試可知,十組相似漢字的識(shí)別準(zhǔn)確率平均值達(dá)到了92.26%,并且每組漢字的識(shí)別準(zhǔn)確率都很高,證明了網(wǎng)絡(luò)的合理性和有效性。但存在部分樣本的識(shí)別準(zhǔn)確率不高的情況,通過(guò)查看錯(cuò)誤樣本,發(fā)現(xiàn)漢字識(shí)別的準(zhǔn)確率受到漢字本身的相似性的影響。例如“士”和“土”、“大”“太”和“火”等,由于無(wú)約束手寫(xiě)漢字中的書(shū)寫(xiě)變形的影響,將會(huì)導(dǎo)致這些相似字難以正確識(shí)別。在漢字旋轉(zhuǎn)后,錯(cuò)誤可能依然存在。此外“士”和“干”這類漢字可能會(huì)由于某字旋轉(zhuǎn)后,變成另一個(gè)字體,而導(dǎo)致識(shí)別錯(cuò)誤。采用上述原始樣本識(shí)別能力實(shí)驗(yàn)訓(xùn)練出來(lái)的模型對(duì)旋轉(zhuǎn)任意角度()的十組相似漢字分別進(jìn)行分類測(cè)試,測(cè)試結(jié)果如表2。表2原有樣本訓(xùn)練得出模型對(duì)旋轉(zhuǎn)樣本直接測(cè)試的結(jié)果組別01020304050607080910平均值準(zhǔn)確率0.1900.1590.2420.1630.1500.1710.1930.1960.2170.1670.1848對(duì)本實(shí)驗(yàn)的測(cè)試準(zhǔn)確率求均值可得旋轉(zhuǎn)的相似漢字平均識(shí)別能力僅有18.48%,完全不足以應(yīng)用。因此,采用原始樣本訓(xùn)練出來(lái)的模型無(wú)法準(zhǔn)確識(shí)別旋轉(zhuǎn)漢字。首先通過(guò)對(duì)原始樣本進(jìn)行固定角度旋轉(zhuǎn),以字體的幾何中心為旋轉(zhuǎn)中心,每產(chǎn)生一個(gè)旋轉(zhuǎn)樣本。對(duì)于單個(gè)樣本,在旋轉(zhuǎn)角度的范圍內(nèi)可以得到36個(gè)旋轉(zhuǎn)樣本。然后將新產(chǎn)生的旋轉(zhuǎn)樣本加入到訓(xùn)練集中,訓(xùn)練網(wǎng)絡(luò)模型。最后對(duì)隨機(jī)角度旋轉(zhuǎn)樣本進(jìn)行測(cè)試。接著,每產(chǎn)生一個(gè)旋轉(zhuǎn)樣本,與上述描述相同,用訓(xùn)練后的網(wǎng)絡(luò)模型對(duì)隨機(jī)旋轉(zhuǎn)樣本進(jìn)行測(cè)試。采取01組的十個(gè)相似字進(jìn)行實(shí)驗(yàn),得到表3所示結(jié)果。表3每旋轉(zhuǎn)得到的樣本加入訓(xùn)練集對(duì)隨機(jī)旋轉(zhuǎn)樣本的識(shí)別能力實(shí)驗(yàn)通過(guò)對(duì)原始樣本進(jìn)行隨機(jī)旋轉(zhuǎn)得到旋轉(zhuǎn)樣本,將旋轉(zhuǎn)后的樣本加入訓(xùn)練集,并改變旋轉(zhuǎn)樣本與原始樣本的比例作為對(duì)照。將旋轉(zhuǎn)后不同比例的樣本以及原始樣本共同作為訓(xùn)練集來(lái)訓(xùn)練網(wǎng)絡(luò)。采取01組的十個(gè)相似字進(jìn)行實(shí)驗(yàn),得到如表4所示。表4未旋轉(zhuǎn)樣本與旋轉(zhuǎn)樣本共同訓(xùn)練模型對(duì)旋轉(zhuǎn)樣本識(shí)別能力如圖4,實(shí)驗(yàn)結(jié)果表明,隨著所加旋轉(zhuǎn)樣本的增加,旋轉(zhuǎn)字體識(shí)別能力有所提升,同時(shí)當(dāng)旋轉(zhuǎn)樣本比例達(dá)到30倍正常的樣本之后,準(zhǔn)確率將穩(wěn)定在93%附近,接近于沒(méi)有添加旋轉(zhuǎn)樣本的時(shí)候訓(xùn)練得到的網(wǎng)絡(luò)所獲得的準(zhǔn)確度(94.2%)。在訓(xùn)練集中隨機(jī)旋轉(zhuǎn)樣本與原始樣本比例為50:1時(shí),達(dá)到最好效果(0.939)。下面,對(duì)其余九組中進(jìn)行同樣比例的實(shí)驗(yàn),取得如下相似的結(jié)果:表5訓(xùn)練集中加入50倍隨機(jī)旋轉(zhuǎn)樣本時(shí)對(duì)隨機(jī)旋轉(zhuǎn)字體識(shí)別結(jié)果組別01020304050607080910平均值準(zhǔn)確率0.9390.9420.8580.9530.8640.9490.9200.9130.9010.9470.9186實(shí)驗(yàn)結(jié)果證明,通過(guò)固定角度旋轉(zhuǎn)產(chǎn)生樣本,以及隨機(jī)角度產(chǎn)生大量樣本來(lái)訓(xùn)練模型均可以提高對(duì)旋轉(zhuǎn)漢字的識(shí)別準(zhǔn)確率。證明本發(fā)明提出的通過(guò)旋轉(zhuǎn)原始樣本產(chǎn)生一定數(shù)量旋轉(zhuǎn)樣本來(lái)訓(xùn)練模型可以有效地識(shí)別未知的旋轉(zhuǎn)樣本。當(dāng)前第1頁(yè)1 2 3 
當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
泌阳县| 西华县| 喀什市| 全椒县| 塔河县| 鹿泉市| 库尔勒市| 崇礼县| 铁岭市| 六安市| 仁化县| 长沙县| 德庆县| 文昌市| 牡丹江市| 吴忠市| 万宁市| 盈江县| 新干县| 贵南县| 阳春市| 资兴市| 文成县| 麻阳| 泌阳县| 雷州市| 环江| 沁阳市| 博白县| 桃江县| 高平市| 富顺县| 曲靖市| 健康| 若羌县| 四子王旗| 嘉义县| 长春市| 阳山县| 察隅县| 抚宁县|