專利名稱:一種基于稀疏表示和判決分析的數(shù)碼球識別方法
一種基于稀疏表示和判決分析的數(shù)碼球識別方法技術(shù)領(lǐng)域
本發(fā)明屬于圖像稀疏表示和概率計算領(lǐng)域,具體是涉及一種基于稀疏表示和判決 分析的數(shù)碼球識別方法。
背景技術(shù):
傳統(tǒng)的字符識別都是在平面上操作的,但如果把這些平面操作的方法用于曲面, 就會出現(xiàn)很多問題。但是我們生活中的很多東西并不僅僅是平面上的識別,對于曲面甚至 不規(guī)則圖形上的識別是個很有意義又很實用的方法。數(shù)碼球是一種在它表面上印有唯一數(shù) 字的球,因此我們需要一種新的方法來識別球面上的數(shù)字信息。我們先實現(xiàn)靜止圖片的識 別,然后對高速運(yùn)動的數(shù)碼球進(jìn)行連續(xù)拍攝,再進(jìn)行識別,這是個很有挑戰(zhàn)性也很有工業(yè)價 值的問題。
由于是球面上操作的,所以先要檢測到圓,然后定位數(shù)字,接著把數(shù)字信息表示出 來,最主要的還是識別這個數(shù)字信息。然而,因為數(shù)碼球存在著三維旋轉(zhuǎn),不同視角等問題, 所以導(dǎo)致了不同的觀測結(jié)果。此外,通過單個相機(jī),我們只能得到數(shù)碼球的部分信息,不能 得到完整的球面信息用于識別。最后,當(dāng)圖片中存在多個數(shù)碼球的時候,我們?nèi)绾螠?zhǔn)確定位 和去除那些錯誤定位的圓很重要。所以我們提出了用稀疏表達(dá)和多次概率分布的測量來實 現(xiàn)球面數(shù)字的識別。
近年來,稀疏表達(dá)在機(jī)器學(xué)習(xí)和模式識別中應(yīng)用的越來越多了。尤其對于處理 高維數(shù)據(jù),稀疏的方法很有效。基于稀疏表達(dá)這個技術(shù),每個樣本都可以表達(dá)為訓(xùn)練數(shù)據(jù) 的稀疏線性組合。當(dāng)這個優(yōu)化表示足夠稀疏時,基于凸優(yōu)化的算法能夠有效用于解決該問 題。比較有名的稀疏表達(dá)方法有l(wèi)asso,彈性網(wǎng)(elastic net)和非負(fù)方法(normegative garrote)。該發(fā)明中,就是用這三種方法來表達(dá)數(shù)碼球的信息用于分類的。
在表示了數(shù)碼球的信息后,接著就是分類了。一直以來,分類都是機(jī)器學(xué)習(xí)中的 重點,分類的方法也是多種多樣的。在機(jī)器學(xué)習(xí)提出來之前,主要的分類方法是相關(guān)。隨 著機(jī)器學(xué)習(xí)的廣泛興起,有越來越多的分類方法了,如PCA(Shlens Jonathon, A Tutorial on Principal Component Analysis. Systems Neurobiology Laboratory, Salk Insitute for Biological Studies, 2009), Fisher 判決(Fisher, Ronald A. , The use of multiple measurements intaxonomic problems. Annals Eugen. ,1936.),線性判別分析(LDA) (R. Duda, P. Hart, and D.Stork, Pattern classification,2rd ed. ffiley-Interscience, 2000)。本發(fā)明利用多次測量和概率方法來進(jìn)行分類,通過單次甚至多次的后驗判決方法達(dá) 到不錯的數(shù)碼球識別率。發(fā)明內(nèi)容
本發(fā)明提供了一種基于稀疏表示和判決分析的數(shù)碼球識別方法,該方法識別能力 強(qiáng),識別效果好。
—種基于稀疏表示和判決分析的數(shù)碼球識別方法,包括4
(1)把數(shù)碼球集合中的每一個數(shù)碼球單獨放置在單色背景下,利用單攝像頭連續(xù) 采集單幅或多幅圖像,自動定位每幅圖像中的數(shù)碼球并提取視覺特征,并對所有的視覺特 征建立稀疏表達(dá),形成訓(xùn)練樣本特征集合;
(2)把待識別的一個或多個數(shù)碼球放置在同樣的場景中,采集單幅或多幅圖像,對 每幅圖像中的所有數(shù)碼球自動定位并提取子圖像;對單幅或者多幅圖像中對應(yīng)同一數(shù)碼球 的子圖像提取視覺特征,并利用訓(xùn)練樣本特征集合建立該子圖像的稀疏表達(dá);
(3)采用判決分析方法進(jìn)行識別,得到測試圖像所屬的類別,其中對于多幅圖像的 情況,采用聯(lián)合后驗判決的方法實現(xiàn)。
所述的步驟(1)中形成訓(xùn)練樣本特征集合的方法為在單色背景下用單攝像頭連 續(xù)采集單幅或多幅圖像,每幅圖中只有一個數(shù)碼球,形成訓(xùn)練樣本集合,定位圖像中的球并 提取視覺特征,建立訓(xùn)練樣本集合的稀疏表達(dá)把數(shù)碼球集合中的每一個數(shù)碼球,單獨放置 在單色背景(如黑色)下,利用單攝像頭連續(xù)采集單幅或多幅圖像作為訓(xùn)練樣本集合,每次 獲得的圖像都是單視角的,具體步驟如下
(a)對采集的圖像做預(yù)處理,使用Carmy算子進(jìn)行邊緣檢測,得到二值化圖像,接 著給出圓的大致半徑,使用霍夫變換或外接圓構(gòu)造匹配的方法定位每幅圖中的數(shù)碼球位 置;
(b)在每幅數(shù)碼球圖片上找到感興趣的信息區(qū)域,檢測并提取該興趣區(qū)域(黃同 同,數(shù)碼球的快速檢測與識別。浙江大學(xué)計算機(jī)學(xué)院計算機(jī)軟件與理論,2010),最后對該 興趣區(qū)域進(jìn)行坐標(biāo)軸變換,用極坐標(biāo)形式進(jìn)行特征提取和表示,其流程如下檢測出數(shù)碼球 圖片上的橢圓,然后將橢圓移到中心,旋轉(zhuǎn)和重投影這橢圓,對橢圓進(jìn)行二值化,從二值化 圖像轉(zhuǎn)換得到極坐標(biāo)圖像;
(C)最后將來自第i類的Iii幅練圖片構(gòu)成矩陣Α/ =] G,其中、,j = 1,2,...叫是由每幅圖像構(gòu)成的列向量,每個元素都標(biāo)準(zhǔn)化為單位的I2范數(shù),所有K個類的訓(xùn)練圖片組合成一個訓(xùn)練樣本矩陣A = [A1, A2, ... , AJ,即為訓(xùn)練樣本特征集合。
所述的步驟O)中對每幅圖像中的所有數(shù)碼球自動定位并提取子圖像的過程為
(a)對輸入的測試圖像A進(jìn)行預(yù)處理,使用Carmy算子進(jìn)行邊緣檢測,得到二值化 圖像;
(b)把二值化后的圖像中的所有點都保存下來,以所有的非零點為中心,球的半徑 為半徑,把該區(qū)域內(nèi)的所有點都加1,再標(biāo)準(zhǔn)化該邊緣直方(c)遍歷標(biāo)準(zhǔn)化邊緣直方圖中所有的點,估計出所有圓的中心并保存下來;
(d)以每個圓心信息為中心,以球的半徑為半徑,提取出測試圖片所有的感興趣區(qū) 域并以圖片方式保存下來,輸出得到所有感興趣區(qū)域的子圖像A= (A1, A2, ...An},即測試 圖像的子圖像。
多球檢測的實施算法如下
輸入單幅測試圖像A
輸出所有感興趣區(qū)域子圖像A = (A1, A2, . . . AJ
步驟1 對輸入的測試圖像進(jìn)行預(yù)處理,使用Carmy算子進(jìn)行邊緣檢測,得到二值化圖像;
步驟2 計算二值化圖像的邊緣直方圖,即以所有的非零點為中心,球的半徑為半 徑,把該區(qū)域內(nèi)的所有點都加1,再標(biāo)準(zhǔn)化該邊緣直方步驟3 遍歷圖中所有的點,取那些一定區(qū)域內(nèi)(大于某個設(shè)定的閾值)最大值的 點為圓心并保存下來;
步驟4 以每個圓心信息為中心,以球的半徑為半徑,提取出測試圖片所有的感興 趣區(qū)域并以圖片方式保存下來。
所述的對識別單幅或者多幅圖像中對應(yīng)同一數(shù)碼球的子圖像提取視覺特征的過 程為取出測試圖片中的一個感興趣區(qū)域子圖像,把該興趣區(qū)域堆成一個列向量JGM〃, 用所有訓(xùn)練樣本特征集合得到1的近似稀疏表達(dá),即J G RP
其中,β是稀疏系數(shù)向量。理想情況下,β中除了與y所屬的類i相關(guān)的系數(shù)不 為零外,其它所有系數(shù)都為零。但是,通常是β的大部分非零值都集中在第i類上,小部分 非零值分散在其它類上?,F(xiàn)在的問題是如何來求得β,從而獲得y的近似表達(dá)。我們可以 用下面三種方法來實現(xiàn)
第一禾中方法是用 Iasso 算法(R. Tibshirani, Regression Shrinkage and Selection via the Lasso. Journal of the Royal Statistical Society, Series B, 1996.)求得稀疏系數(shù)向量β,即:
arg min\\y~xp\l+A \β\[β 2
其中,I I · I I1是I1范數(shù),λ I I β I I1是I1懲罰項。
第二種方法是用彈性網(wǎng)算法(H.Zou and Τ. Hastie, Regularization and variable selection via the Elastic Net. Journal of the Royal Statistical Society, Series B, 2005.)求得稀疏系數(shù)向量β,即:
mm\h -ΦΙβ -
其中,Μ · I I2表示為一個向量的I2范數(shù),并且|y|2 =7^。彈性網(wǎng)可以用 LARS(B. Efron, T. Hastie, I.Johnstone and R. Tibshirani, Least angle regression. Annals of Statistics, 2004.)方法解決。
第三禾中方法是用方法(normegative garrote) (L. Breiman, Better subset regression using the nonnegative garrote. Technometrics, 1995.)求稀疏系數(shù)向量 β,即
min Il|y-a^0I+1IHIiA > 0對于 i = 1,· · ·,η。β 2
非負(fù)方法可以用經(jīng)典的數(shù)值方法有效求得,這些經(jīng)典的數(shù)值方法包括最小角回歸 (LARS)禾口 pathwise coordinate(J. Friedman, Τ. Hastie, H. Hofling and R. Tibshirani, Pathwise coordinate optimization. Annals OfApplied Statistics, 2007.)方法。
得到測試圖片y的稀疏表達(dá)β后,接下來就是判斷y屬于哪個類。這個提取的 特征在不同的類之間應(yīng)該盡可能的不同。根據(jù)前面的稀疏表達(dá),已經(jīng)知道系數(shù)向量β的6大部分非零值主要集中于測試樣本所屬的類,即廣.,其中,是與第i 類相關(guān)的系數(shù)向量。為了估計測試樣本所屬的類,我們定義了下面的后驗估計(posterior estimate)
權(quán)利要求
1.一種基于稀疏表示和判決分析的數(shù)碼球識別方法,包括(1)把數(shù)碼球集合中的每一個數(shù)碼球單獨放置在單色背景下,利用單攝像頭連續(xù)采集 單幅或多幅圖像,自動定位每幅圖像中的數(shù)碼球并提取視覺特征,并對所有的視覺特征建 立稀疏表達(dá),形成訓(xùn)練樣本特征集合;(2)把待識別的一個或多個數(shù)碼球放置在同樣的場景中,采集單幅或多幅圖像,對每幅 圖像中的所有數(shù)碼球自動定位并提取子圖像;對單幅或者多幅圖像中對應(yīng)同一數(shù)碼球的子 圖像提取視覺特征,并利用訓(xùn)練樣本特征集合建立該子圖像的稀疏表達(dá);(3)采用判決分析方法進(jìn)行識別,得到測試圖片所屬的類別,其中對于多幅圖像的情 況,采用聯(lián)合后驗判決的方法實現(xiàn)。
2.根據(jù)權(quán)利要求1所述的基于稀疏表示和判決分析的數(shù)碼球識別方法,其特征在于, 所述的步驟(1)中形成訓(xùn)練樣本特征集合的方法為(a)對采集的圖像做預(yù)處理,使用Carmy算子進(jìn)行邊緣檢測,得到二值化圖像,接著給 出圓的大致半徑,使用霍夫變換或外接圓構(gòu)造匹配的方法定位每幅圖中的數(shù)碼球位置;(b)在每幅數(shù)碼球圖片上找到感興趣的信息區(qū)域,檢測并提取該區(qū)域,最后對該興趣區(qū) 域進(jìn)行坐標(biāo)軸變換,用極坐標(biāo)形式進(jìn)行特征提取和表示,其流程如下檢測出數(shù)碼球圖片上 的橢圓,然后將橢圓移到中心,旋轉(zhuǎn)和重投影這橢圓,對橢圓進(jìn)行二值化,從二值化圖像轉(zhuǎn) 換得到極坐標(biāo)圖像;(C)最后將來自第i類的Hi幅訓(xùn)練圖片構(gòu)成矩陣A,+ ^aaaynahlGRP^,其中
3.根據(jù)權(quán)利要求1所述的基于稀疏表示和判決分析的數(shù)碼球識別方法,其特征在于, 所述的步驟O)中對每幅圖像中的所有數(shù)碼球自動定位并提取子圖像的過程為(a)對輸入的測試圖像A進(jìn)行預(yù)處理,使用Carmy算子進(jìn)行邊緣檢測,得到二值化圖像;(b)把二值化后的圖像中的所有點都保存下來,以所有的非零點為中心,球的半徑為半 徑,把該區(qū)域內(nèi)的所有點都加1,再標(biāo)準(zhǔn)化該邊緣直方圖;(c)遍歷標(biāo)準(zhǔn)化邊緣直方圖中所有的點,估計出所有圓的中心并保存下來;(d)以每個圓心信息為中心,以球的半徑為半徑,提取出測試圖片所有的感興趣區(qū)域并 以圖片方式保存下來,輸出得到所有感興趣區(qū)域的子圖像A= (A1, A2, ...An},即測試圖像 的子圖像。
4.根據(jù)權(quán)利要求1所述的基于稀疏表示和判決分析的數(shù)碼球識別方法,其特征在于, 所述的對識別的單幅或者多幅圖像中對應(yīng)同一數(shù)碼球的子圖像提取視覺特征的過程為取 出測試圖片中的一個感興趣區(qū)域子圖像,把該興趣區(qū)域堆成一個列向量JG ,用所有訓(xùn) 練樣本特征集合得到y(tǒng)的近似稀疏表達(dá),即J A^gM〃,其中,β是稀疏系數(shù)向量。
5.根據(jù)權(quán)利要求4所述的基于稀疏表示和判決分析的數(shù)碼球識別方法,其特征在于, 所述的稀疏系數(shù)向量β由lasso算法求解得到,即
6.根據(jù)權(quán)利要求4所述的基于稀疏表示和判決分析的數(shù)碼球識別方法,其特征在于, 所述的稀疏系數(shù)向量β由彈性網(wǎng)求解得到,即
7.根據(jù)權(quán)利要求4所述的基于稀疏表示和判決分析的數(shù)碼球識別方法,其特征在于, 所述的稀疏系數(shù)向量β由非負(fù)方法求解得到,即
8.根據(jù)權(quán)利要求1所述的基于稀疏表示和判決分析的數(shù)碼球識別方法,其特征在于, 所述的步驟(3)中,對于單幅圖像采用的識別方法為單次后驗估計法,其表達(dá)式為
9.根據(jù)權(quán)利要求1所述的基于稀疏表示和判決分析的數(shù)碼球識別方法,其特征在于, 所述的步驟(3)中,對于多幅圖像采用的識別方法為多次聯(lián)合后驗判決方法,其表達(dá)式為
全文摘要
本發(fā)明公開了一種基于稀疏表示和判決分析的數(shù)碼球識別方法,包括把數(shù)碼球集合中的每一個數(shù)碼球,放置在單色背景下,利用單攝像頭連續(xù)采集單幅或多幅圖像,自動定位每幅圖像中的數(shù)碼球并提取視覺特征,并對所有的特征建立稀疏表達(dá),形成訓(xùn)練樣本特征集合;把待識別的一個或多個數(shù)碼球放置在同樣的場景中,采集單幅或多幅圖像,對每幅圖像中的所有數(shù)碼球自動定位并提取子圖像和提取子圖像的視覺特征,并利用訓(xùn)練樣本特征集合建立該子圖像的稀疏表達(dá);采用判決分析方法進(jìn)行識別,其中對于多幅圖像的情況,采用聯(lián)合后驗判決,提高識別精度。本發(fā)明充分利用稀疏表達(dá)和判決分析,應(yīng)用于單色背景下的單球或多球識別,識別效果好。
文檔編號G06K9/66GK102034094SQ20101058675
公開日2011年4月27日 申請日期2010年12月14日 優(yōu)先權(quán)日2010年12月14日
發(fā)明者王東輝, 程麗莉, 鄧霄 申請人:浙江大學(xué)