詞語識別方法及裝置制造方法
【專利摘要】本發(fā)明的實(shí)施方式提供了提供一種詞語識別方法,包括:從文本行中分離出詞語;將該詞語作為一個(gè)整體,提取該詞語的字符特征;使用具有詞庫的分類器識別該詞語的字符特征,若該字符特征與詞庫中的詞語匹配,則輸出詞庫中對應(yīng)的該詞語。該方法提高了常用詞語的識別成功率和識別效率,避免了字符拆分可能引起的錯(cuò)誤和耗費(fèi)的時(shí)間。
【專利說明】詞語識別方法及裝置【技術(shù)領(lǐng)域】
[0001]本發(fā)明的各實(shí)施方式涉及詞語識別方法及裝置。
【背景技術(shù)】
[0002]在對詞語進(jìn)行光學(xué)字符識別時(shí),通常先將詞語通過各種拆分方法拆分為多個(gè)文字,然后對每個(gè)文字分別進(jìn)行識別。這種方法一方面速度較慢,另一方面,對文本行進(jìn)行拆分也存在一些問題。例如,由于全角字符和半角字符的混合,以及中英文、數(shù)字的混合,導(dǎo)致一個(gè)文本行中各個(gè)有意義的字符的寬度不一致,這使得對文本行拆分時(shí)很容易將一個(gè)字符拆成兩個(gè)部分,或?qū)⒉粚儆谝粋€(gè)字符的多個(gè)連通域拆分成一個(gè)字符,從而為文字和詞語的識別帶來困難。
【發(fā)明內(nèi)容】
[0003]鑒于上述原因,本發(fā)明提供一種詞語識別方法及裝置。
[0004]根據(jù)本發(fā)明的一個(gè)方面,提供一種詞語識別方法,包括:從文本行中分離出詞語;將該詞語作為一個(gè)整體,提取該詞語的字符特征;使用具有詞庫的分類器識別該詞語的字符特征,若該字符特征與詞庫中的詞語匹配,則輸出詞庫中對應(yīng)的該詞語。
[0005]根據(jù)本發(fā)明的另一方面,通過估計(jì)詞語的識別置信度來判斷該字符特征與詞庫中的詞語的匹配程度。
[0006]根據(jù)本發(fā)明的另一方面,使用標(biāo)點(diǎn)符號或空格來從文本行中分離出詞語。
[0007]根據(jù)本發(fā)明的另一方面,該字符特征是該詞語的梯度方向直方圖。
[0008]根據(jù)本發(fā)明的另一方面,當(dāng)該字符特征與詞庫中的所有詞語都不匹配時(shí),將該詞語切分為單個(gè)字符進(jìn)行識別。
[0009]根據(jù)本發(fā)明的另一方面,提供一種詞語識別裝置,包括:詞語分離單元,用于從文本行中分離出詞語;字符特征提取單元,用于將該詞語作為一個(gè)整體,提取該詞語的字符特征;詞語分類器單元,其具有詞庫,用于識別該詞語的字符特征,若該字符特征與詞庫中的詞語匹配,則輸出詞庫中對應(yīng)的該詞語。
[0010]根據(jù)本發(fā)明的另一方面,詞語分類器單元通過估計(jì)詞語的識別置信度來判斷該字符特征與詞庫中的詞語的匹配程度。
[0011]根據(jù)本發(fā)明的另一方面,詞語分離單元使用標(biāo)點(diǎn)符號或空格來從文本行中分離出詞語。
[0012]根據(jù)本發(fā)明的另一方面,該字符特征是該詞語的梯度方向直方圖。
[0013]根據(jù)本發(fā)明的另一方面,還包括單字符識別單元,當(dāng)該字符特征與詞庫中的所有詞語都不匹配時(shí),單字符識別單元將該詞語切分為單個(gè)字符進(jìn)行識別。
[0014]通過使用詞語分類器首先對整個(gè)詞語的字符特征進(jìn)行識別,提高了常用詞語的識別成功率和識別效率,避免了字符拆分可能引起的錯(cuò)誤和耗費(fèi)的時(shí)間。【專利附圖】
【附圖說明】
[0015]當(dāng)結(jié)合附圖閱讀下文對示范性實(shí)施方式的詳細(xì)描述時(shí),這些以及其他目的、特征和優(yōu)點(diǎn)將變得顯而易見,在附圖中:
[0016]圖1是根據(jù)本發(fā)明優(yōu)選實(shí)施例的詞語識別方法的流程圖;
[0017]圖2是適于用來實(shí)踐本發(fā)明實(shí)施方式的詞語識別裝置的示意性框圖;
[0018]圖3是用來實(shí)踐本發(fā)明實(shí)施方式的移動(dòng)終端的示意性框圖。
【具體實(shí)施方式】
[0019]附圖中的流程圖和框圖,圖示了按照本發(fā)明各種實(shí)施例的裝置、方法和計(jì)算機(jī)程序產(chǎn)品的可能實(shí)現(xiàn)的體系架構(gòu)、功能和操作。在這點(diǎn)上,流程圖或框圖中的每個(gè)方框可以代表一個(gè)模塊、程序段、或代碼的一部分,所述模塊、程序段、或代碼的一部分包含一個(gè)或多個(gè)用于實(shí)現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實(shí)現(xiàn)中,方框中所標(biāo)注的功能也可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如,兩個(gè)接連地表示的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時(shí)也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個(gè)方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來實(shí)現(xiàn),或者可以用專用硬件與計(jì)算機(jī)指令的組合來實(shí)現(xiàn)。
[0020]現(xiàn)在將僅通過示例性方式來詳細(xì)地描述本發(fā)明的各種實(shí)施方式。
[0021]圖1是根據(jù)本發(fā)明優(yōu)選實(shí)施例的一詞語識別方法的流程圖。該方法具體包括下列步驟:
[0022]首先執(zhí)行步驟S11,從文本行中分離出詞語??梢酝ㄟ^標(biāo)點(diǎn)符號或空格將每個(gè)詞從文本行中分離出來。此時(shí)分離出來的是每個(gè)詞所包含的像素點(diǎn),而并不了解每個(gè)詞的含義。
[0023]然后執(zhí)行步驟S12,將該詞語作為一個(gè)整體,提取該詞語的字符特征。該詞語的字符特征應(yīng)當(dāng)是能被光學(xué)字符識別引擎所識別的特征。優(yōu)選地,該字符特征是該詞語的梯度方向直方圖。梯度方向直方圖作為圖像識別領(lǐng)域的一個(gè)已知的圖像描述特征,能夠體現(xiàn)圖像中的各像素點(diǎn)的梯度大小和方向的分布規(guī)律,從而為該圖像的識別提供一個(gè)很好的描述特征。可以通過各種已知的算法計(jì)算該詞語的圖像的梯度方向直方圖。應(yīng)當(dāng)注意的是,由于詞語的寬度是不確定的,因而計(jì)算梯度方向直方圖時(shí)統(tǒng)計(jì)的每個(gè)詞語的像素點(diǎn)的數(shù)量也是不確定的。從步驟Sll中分離出來的詞語包含多少像素,則將這個(gè)詞語的圖像作為一個(gè)整體,統(tǒng)計(jì)該圖像中的所有像素的梯度方向直方圖,從而獲得整個(gè)詞語的字符特征。這與識別單個(gè)字符時(shí)相對固定的像素?cái)?shù)量是不同的。
[0024]當(dāng)提取完詞語的字符特征后,便可以執(zhí)行步驟S13,使用具有詞庫的分類器識別該詞語的字符特征。該詞庫中存儲有一定數(shù)量的常用詞語及其對應(yīng)的字符特征。若輸入的字符特征與詞庫中的某個(gè)詞語的字符特征匹配,則輸出詞庫中對應(yīng)的該詞語,從而該詞語的含義被識別。
[0025]可以使用各種分類器來對字符特征進(jìn)行識別。優(yōu)選使用SVM分類器。優(yōu)選通過一定數(shù)量的字符特征樣本來對SVM分類器進(jìn)行訓(xùn)練,使該分類器對詞庫中的每個(gè)詞語的字符特征的識別達(dá)到一定的準(zhǔn)確度。具體地,對每一個(gè)期望被識別的詞語,選擇一定數(shù)量的詞語的圖像,包括一定范圍的清晰度和噪聲下的該詞語的圖像作為樣本,計(jì)算這些樣本的字符特征,例如梯度方向直方圖。使用這些樣本對SVM分類器進(jìn)行訓(xùn)練,使該分類器被校準(zhǔn)為在被識別的詞語的字符特征與訓(xùn)練樣本均值特征的相似度達(dá)到一定程度,即該字符特征符合該詞語的置信度達(dá)到一預(yù)定值時(shí),即將該輸入的字符特征代表的詞語認(rèn)定為詞庫中的該訓(xùn)練樣本所表示的詞語,并將其輸出??梢酝ㄟ^各種已知算法對SVM分類器進(jìn)行訓(xùn)練,在此不再贅述。
[0026]可以根據(jù)需要對分類器詞庫中增加字符特征及其對應(yīng)的詞語,以增加該分類器能夠識別的詞語。
[0027]由于詞語包含的像素比單個(gè)字符包含的像素多,計(jì)算整個(gè)詞語的字符特征因而能獲得更大的統(tǒng)計(jì)樣本,從而使得不同詞之間的字符特征的差異更明顯,其中包含的噪聲和誤差更小,更有利于分類器對字符特征的準(zhǔn)確識別。同時(shí),該方法也避免了對詞語再次進(jìn)行拆分所帶來的錯(cuò)誤和時(shí)間的耗費(fèi),提高了識別的準(zhǔn)確率和效率。
[0028]優(yōu)選地,當(dāng)輸入的詞語的字符特征與詞庫中的所有詞語都不匹配時(shí),將該詞語切分為單個(gè)文字進(jìn)行識別。也就是說,分類器的詞庫中沒有與該詞語的圖像中的字符特征相匹配時(shí),說明書詞庫中沒有存儲該詞語,則回到通常的字符識別方式,將該詞語的圖像再按照現(xiàn)有的方法切分為單個(gè)的字符,然后對每個(gè)單個(gè)的字符使用通常的分類器進(jìn)行識別,從而使得整個(gè)詞語被識別出來。
[0029]該詞語識別方法適于通過計(jì)算機(jī)程序來實(shí)現(xiàn)。
[0030]圖2是適于用來實(shí)踐本發(fā)明實(shí)施方式的詞語識別裝置的示意性框圖。在圖2中,詞語識別裝置200包括:詞語分離單元201,用于從文本行中分離出詞語;字符特征提取單元202,用于將該詞語作為一個(gè)整體,提取該詞語的字符特征;詞語分類器單元203,其具有詞庫,用于識別該詞語的字符特征,若該字符特征與詞庫中的詞語匹配,則輸出詞庫中對應(yīng)的該詞語。
[0031]該詞語分離單元201使用標(biāo)點(diǎn)符號或空格來從文本行中分離出詞語。該詞語分類器單元203通過估計(jì)詞語的識別置信度來判斷該字符特征與詞庫中的詞語的匹配程度。優(yōu)選地,該詞語識別裝置200還包括單字符識別單元204,當(dāng)該字符特征與詞庫中的所有詞語都不匹配時(shí),單字符識別單元將該詞語切分為單個(gè)字符進(jìn)行識別。
[0032]該詞語識別裝置200適于執(zhí)行以上所述的各種詞語識別方法。
[0033]該詞語識別裝置適于通過載入以上詞語識別方法的計(jì)算機(jī)硬件來實(shí)現(xiàn)。該詞語識別裝置尤其適于通過載入以上詞語識別算法的、具有計(jì)算處理功能的手機(jī)等移動(dòng)設(shè)備來實(shí)現(xiàn)。該移動(dòng)設(shè)備優(yōu)選還具有數(shù)碼相機(jī),用于拍攝名片等包含文字的圖像信息。該移動(dòng)設(shè)備可通過載入的算法程序,即時(shí)對拍攝的名片等圖像中的詞語進(jìn)行提取、識別、存儲。
[0034]下面參考圖3,其示出了適于用來實(shí)踐本發(fā)明實(shí)施方式的移動(dòng)終端300的示意性框圖。在圖3所示的示例中,移動(dòng)終端300是一個(gè)具有無線通信能力的移動(dòng)設(shè)備。然而,可以理解,這僅僅是示例性而非限制性的。其他類型的移動(dòng)終端也可以容易地采用本發(fā)明的實(shí)施方式,諸如便攜式數(shù)字助理(PDA)、尋呼機(jī)、移動(dòng)計(jì)算機(jī)、移動(dòng)電視、游戲設(shè)備、膝上型計(jì)算機(jī)、照相機(jī)、錄像機(jī)、GPS設(shè)備以及其他類型的語音和文本通信系統(tǒng)。固定式移動(dòng)終端同樣可以容易地使用本發(fā)明的實(shí)施方式。
[0035]移動(dòng)終端300包括一個(gè)或天線312,其可操作地與發(fā)射機(jī)314和接收機(jī)316進(jìn)行通信。移動(dòng)終端300還包括處理器312或者其他處理元件,其分別提供去往發(fā)射機(jī)314的信號和接收來自接收機(jī)316的信號。信號包括按照適當(dāng)蜂窩系統(tǒng)的空中接口標(biāo)準(zhǔn)的信令信息,并且還包括用戶語音、接收的數(shù)據(jù)和/或用戶生成的數(shù)據(jù)。在此方面,移動(dòng)終端300能夠利用一個(gè)或多個(gè)空中接口標(biāo)準(zhǔn)、通信協(xié)議、調(diào)制類型以及接入類型來進(jìn)行操作。作為示范,移動(dòng)終端300能夠根據(jù)多個(gè)第一代、第二代、第三代和/或第四代通信協(xié)議等中的任何協(xié)議來進(jìn)行操作。例如,移動(dòng)終端300可以能夠按照第二代(G)無線通信協(xié)議IS-136 (TDMA)、GSM和IS-95 (CDMA)來進(jìn)行操作,或者按照諸如UMTS、CDMA2000, WCDMA和TD-SCDMA的第三代(G)無線通信協(xié)議來進(jìn)行操作,或者按照第四代(4G)無線通信協(xié)議和/或類似協(xié)議進(jìn)行操作。
[0036]可以理解,處理器312包括實(shí)現(xiàn)移動(dòng)終端300的功能所需的電路。例如,處理器312可以包括數(shù)字信號處理器設(shè)備、微處理器設(shè)備、各種模數(shù)轉(zhuǎn)換器、數(shù)模轉(zhuǎn)換器和其他支持電路。移動(dòng)終端300的控制和信號處理功能按照這些設(shè)備各自的能力在其間分配。處理器312由此還可以包括在調(diào)制和傳輸之前對消息和數(shù)據(jù)進(jìn)行卷積編碼和交織的功能。處理器312還可以另外包括內(nèi)部語音編碼器,并且可以包括內(nèi)部數(shù)據(jù)調(diào)制解調(diào)器。此外,處理器312可以包括對可以存儲在存儲器中的一個(gè)或多個(gè)軟件程序進(jìn)行操作的功能。例如,處理器312可以能夠操作連接程序,諸如傳統(tǒng)的Web瀏覽器。連接程序繼而可以允許移動(dòng)終端300例如按照無線應(yīng)用協(xié)議(WAP)、超文本傳輸協(xié)議(HTTP)等來發(fā)射和接收Web內(nèi)容(諸如基于位置的內(nèi)容和/或其他web頁面內(nèi)容)。
[0037]移動(dòng)終端300還可以包括用戶接口,其例如可以包括耳機(jī)或者揚(yáng)聲器324、振鈴器322、麥克風(fēng)326、顯示屏328以及輸入接口 331,所有這些設(shè)備都耦合至處理器312。移動(dòng)終端300可以包括小鍵盤330。小鍵盤330可以包括傳統(tǒng)的數(shù)字鍵(0_9)和相關(guān)鍵(#、*),以及用于操作移動(dòng)終端300的其他鍵。備選地,小鍵盤330可以包括傳統(tǒng)的QWERTY小鍵盤布置。小鍵盤330還可以包括與功能相關(guān)聯(lián)的各種軟鍵。移動(dòng)終端300還可以包括相機(jī)模塊336,用于捕獲靜態(tài)和/或動(dòng)態(tài)圖像。
[0038]特別地,顯示屏328可以包括觸摸式屏幕和/或鄰近式屏幕,用戶可以通過直接操作屏幕而操作移動(dòng)終端300。此時(shí),顯示屏328同時(shí)充當(dāng)輸入設(shè)備和輸出設(shè)備二者。在這樣的實(shí)施方式中,輸入接口 331可以配置用于接收用戶通過例如普通的筆、專用觸筆和/或手指在顯示屏328上提供的輸入,包括指點(diǎn)輸入和手勢輸入。處理器312可配置用于檢測此類輸入,并且識別出用戶的手勢。
[0039]此外,移動(dòng)終端300可以包括諸如操縱桿的接口設(shè)備或者其他用于輸入接口。移動(dòng)終端300還包括電池334,諸如振動(dòng)電池組,用于為操作移動(dòng)終端300所需的各種電路供電,以及可選地提供機(jī)械振動(dòng)作為可檢測輸出。
[0040]移動(dòng)終端300可以進(jìn)一步包括用戶標(biāo)識模塊(UM) 338。UIM 338通常是具有內(nèi)置處理器的存儲器設(shè)備。UM 338例如可以包括訂戶標(biāo)識模塊(SM)、通用集成電路卡(ΠCC)、通用訂戶標(biāo)識模塊(USM)、可移動(dòng)用戶標(biāo)識模塊(R-UM)等。ΠΜ 338通常存儲與移動(dòng)訂戶相關(guān)的信元。
[0041]移動(dòng)終端300還可以具有存儲器。例如,移動(dòng)終端300可以包括易失性存儲器340,例如包括用于數(shù)據(jù)臨時(shí)存儲的高速緩存區(qū)域的易失性隨機(jī)存取存儲器(RAM)。移動(dòng)終端300還可以包括其他非易失性存儲器342,其可以是嵌入式的和/或可移動(dòng)的。非易失性存儲器342可以附加地或者可選地包括例如EEPROM和閃存等。存儲器可以存儲移動(dòng)終端300所使用的多個(gè)信息片段和數(shù)據(jù)中的任意項(xiàng),以實(shí)現(xiàn)移動(dòng)終端300的功能。
[0042]所述移動(dòng)終端300可以配置用于實(shí)現(xiàn)上文結(jié)合圖1描述的方法以及作為結(jié)合圖2描述的裝置。
[0043]應(yīng)當(dāng)理解,圖3所述的結(jié)構(gòu)框圖僅僅為了示例的目的而示出的,而不是對本發(fā)明范圍的限制。在某些情況下,可以根據(jù)具體情況而增加或者減少某些設(shè)備。
[0044]已經(jīng)出于示出和描述的目的給出了本發(fā)明的說明書,但是其并不意在是窮舉的或者限制于所公開形式的發(fā)明。本領(lǐng)域技術(shù)人員可以想到很多修改和變體。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,本發(fā)明實(shí)施方式中的方法和裝置可以以軟件、硬件、固件或其組合實(shí)現(xiàn)。
[0045]因此,實(shí)施方式是為了更好地說明本發(fā)明的原理、實(shí)際應(yīng)用以及使本領(lǐng)域技術(shù)人員中的其他人員能夠理解以下內(nèi)容而選擇和描述的,即,在不脫離本發(fā)明精神的前提下,做出的所有修改和替換都將落入所附權(quán)利要求定義的本發(fā)明保護(hù)范圍內(nèi)。
【權(quán)利要求】
1.一種詞語識別方法,包括: 從文本行中分離出詞語; 將該詞語作為一個(gè)整體,提取該詞語的字符特征; 使用具有詞庫的分類器識別該詞語的字符特征,若該字符特征與詞庫中的詞語匹配,則輸出詞庫中對應(yīng)的該詞語。
2.根據(jù)權(quán)利要求1所述的方法,其中,通過估計(jì)詞語的識別置信度來判斷該字符特征與詞庫中的詞語的匹配程度。
3.根據(jù)權(quán)利要求1所述的方法,其中,使用標(biāo)點(diǎn)符號或空格來從文本行中分離出詞語。
4.根據(jù)權(quán)利要求1所述的方法,其中,該字符特征是該詞語的梯度方向直方圖。
5.根據(jù)權(quán)利要求1-4任一項(xiàng)所述的方法,其中,當(dāng)該字符特征與詞庫中的所有詞語都不匹配時(shí),將該詞語切分為單個(gè)字符進(jìn)行識別。
6.一種詞語識別裝置,包括: 詞語分離單元,用于從文本行中分離出詞語; 字符特征提取單元,用于將該詞語作為一個(gè)整體,提取該詞語的字符特征; 詞語分類器單元,其具有詞庫,用于識別該詞語的字符特征,若該字符特征與詞庫中的詞語匹配,則輸出詞庫中對應(yīng)的該詞語。
7.根據(jù)權(quán)利要求6所述的裝置,其中,詞語分類器單元通過估計(jì)詞語的識別置信度來判斷該字符特征與詞庫中的詞語的匹配程度。
8.根據(jù)權(quán)利要求6所述的裝置,其中,詞語分離單元使用標(biāo)點(diǎn)符號或空格來從文本行中分離出詞語。
9.根據(jù)權(quán)利要求6所述的裝置,其中,該字符特征是該詞語的梯度方向直方圖。
10.根據(jù)權(quán)利要求6-9任一項(xiàng)所述的裝置,其中,還包括單字符識別單元,當(dāng)該字符特征與詞庫中的所有詞語都不匹配時(shí),單字符識別單元將該詞語切分為單個(gè)字符進(jìn)行識別。
【文檔編號】G06K9/20GK103854021SQ201210551755
【公開日】2014年6月11日 申請日期:2012年11月29日 優(yōu)先權(quán)日:2012年11月29日
【發(fā)明者】鄭大念 申請人:北京千橡網(wǎng)景科技發(fā)展有限公司