專利名稱:一種基于特征向量的靜態(tài)手勢(shì)識(shí)別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種靜態(tài)手勢(shì)識(shí)別方法,尤其是一種基于特征向量的靜態(tài)手勢(shì)識(shí)別方 法。屬于人機(jī)交互領(lǐng)域。
背景技術(shù):
隨著人機(jī)交互技術(shù)的發(fā)展,自然和諧的人機(jī)交互方式日益受到人們的重視?;?視覺的手勢(shì)識(shí)別技術(shù),以其自然性、簡(jiǎn)潔性和直接性的特點(diǎn),提供了一個(gè)自然的人機(jī)交互接 口,受到了研究者的重視。由于人手非剛體的特性,傳統(tǒng)的具有旋轉(zhuǎn)不變性和縮放不變性的 識(shí)別方法,例如傅立葉描述子、圖像不變矩等,在手勢(shì)識(shí)別的應(yīng)用中遇到了種種問題,不能 滿足人機(jī)交互對(duì)手勢(shì)識(shí)別實(shí)時(shí)性的要求。經(jīng)過對(duì)現(xiàn)有的文獻(xiàn)資料研究發(fā)現(xiàn),覃文軍等2009年在《東北大學(xué)學(xué)報(bào)(自然科學(xué) 版)》第30卷第9期發(fā)表的論文《基于傅立葉描述子-BP神經(jīng)網(wǎng)絡(luò)的手勢(shì)識(shí)別方法》中提 出了一種基于傅立葉描述子和BP神經(jīng)網(wǎng)路的手勢(shì)識(shí)別方法,首先通過多特征融合的手勢(shì) 分割方法提取手勢(shì)區(qū)域,然后結(jié)合傅立葉描述子較好的輪廓描繪能力和BP神經(jīng)網(wǎng)絡(luò)較好 的自學(xué)習(xí)能力,用傅立葉描述子和BP神經(jīng)網(wǎng)絡(luò)的方法對(duì)手勢(shì)進(jìn)行識(shí)別。該論文的方法得到 了較高的識(shí)別率,但是算法計(jì)算量大,識(shí)別一幅圖像需要4. 5秒時(shí)間,遠(yuǎn)不能達(dá)到實(shí)時(shí)應(yīng)用 的要求;同時(shí)由于傅立葉描述子適用于對(duì)剛體的輪廓描述,因此應(yīng)用于手勢(shì)識(shí)別中,并不能 很好的描述不同角度下的同一手勢(shì),其算法的魯棒性差。
發(fā)明內(nèi)容
本發(fā)明的目的在于提出一種基于特征向量的靜態(tài)手勢(shì)識(shí)別方法,以解決現(xiàn)有技術(shù) 在手勢(shì)識(shí)別應(yīng)用中計(jì)算量大、識(shí)別結(jié)果受手勢(shì)方向影響大的問題,克服現(xiàn)有技術(shù)中的缺陷。本發(fā)明的技術(shù)方案概括為首先在YCbCr顏色空間中用膚色特性對(duì)手勢(shì)進(jìn)行分割 處理,然后選取特征向量描述手勢(shì),進(jìn)行長度和角度歸一化處理,根據(jù)特征向量確定手勢(shì)中 指尖的位置,最終用指尖和手勢(shì)中心的相對(duì)位置對(duì)手勢(shì)進(jìn)行識(shí)別。本發(fā)明一種基于特征向量的靜態(tài)手勢(shì)識(shí)別方法,其具體步驟如下步驟1 手勢(shì)分割采用Logitech QuickCam Pro9000攝像頭采集圖像,獲得圖像尺寸為320 X 240,圖 像格式為JPEG,拍攝背景無類似膚色的區(qū)域,被拍攝的用戶穿非膚色長袖衣服。對(duì)得到的圖 像,首先從RGB顏色空間轉(zhuǎn)化到Y(jié)CbCr顏色空間,之后選擇Cb、Cr分量的中心值和閾值,其 中Cb分量中心值Cbmid = 115,Cr分量中心值Crmid = 145,閾值Ithres = 15,對(duì)輸入圖像的 各像素計(jì)算其Cb、Cr值與中心值的歐式距離dist
_ — = ^I(Cb-Cbmid)2KO-Omid)2(1) 若dist小于相應(yīng)的閾值Ittoes,則將該像素的值設(shè)為1,否則將其值設(shè)為0,將輸入
圖像轉(zhuǎn)化為二值圖像。對(duì)得到的二值圖像進(jìn)行一次腐蝕膨脹處理,并假定圖像中最大連通
4區(qū)域?yàn)槭謩?shì)所在區(qū)域。步驟2 獲得手勢(shì)的中心、方向和邊緣將手勢(shì)圖像轉(zhuǎn)化為二值圖像后,通過計(jì)算獲得手勢(shì)的中心、方向,并提取手勢(shì)的邊 緣。具體方法如下由式⑵和式(3)計(jì)算手勢(shì)中心點(diǎn)坐標(biāo)χ禾口 y
式中,B[i,j]表示圖像中第i行第j列的值,圖像的大小為nXm。 手勢(shì)方向θ的計(jì)算式如下
-^i-I(4)
"20 一 "02 _
式中,μη、μ2。、μ。2為圖像的二階中心矩。 用Carmy算子從二值圖像中提取手勢(shì)的邊緣。 步驟3 選取特征向量
計(jì)算手勢(shì)中心點(diǎn)和邊緣各點(diǎn)連線的角度,找出角度與手勢(shì)方向角最接近的點(diǎn),以
該點(diǎn)為起始點(diǎn),對(duì)手勢(shì)邊界進(jìn)行η等分,得邊界上的η個(gè)點(diǎn)。以手勢(shì)中心點(diǎn)為起始點(diǎn),邊界 上的η個(gè)點(diǎn)之一為終止點(diǎn)構(gòu)造向量,用η個(gè)向量來表征該手勢(shì)。為消除輸入圖像中手勢(shì)的 尺寸對(duì)識(shí)別的影響,選取特征向量中長度最長的向量,將其長度設(shè)置為100,將其它向量的 長度歸一化到(0,100)。經(jīng)實(shí)驗(yàn),采用η = 60。步驟4:定位指尖位置將步驟3得到的特征向量視為一個(gè)首尾相連的向量組,消除起始點(diǎn)選擇對(duì)向量組 的影響,保證特征向量對(duì)旋轉(zhuǎn)不敏感。從向量組中求出局部極大值和局部極小值,其中局部 最大值對(duì)應(yīng)的點(diǎn)為指尖點(diǎn)候選點(diǎn),而其相鄰的兩個(gè)局部極小值點(diǎn)的角度差為手指所在區(qū)域 的角度。選定手指長度閾值Ith和角度閾值θ th,用指尖到手勢(shì)中心的長度1和手指所在區(qū) 域的角度θ與設(shè)定閾值相比較來判定指尖候選點(diǎn)是否為指尖。當(dāng)1>4且θ < eth時(shí), 則該特征向量的終點(diǎn)所在位置為指尖位置,否則該點(diǎn)為非指尖。經(jīng)實(shí)驗(yàn),采用Ith = 53,0th =1. 87。步驟5 手勢(shì)識(shí)別根據(jù)步驟2和步驟4得到手勢(shì)中心點(diǎn)和指尖位置,構(gòu)造一組以手勢(shì)中心點(diǎn)為起點(diǎn), 指尖位置為終點(diǎn)的向量。找出這些向量中兩兩間最大的夾角,以夾角最大的兩個(gè)向量中的 一個(gè)為起始向量,將其角度設(shè)置為0,在保證各向量相對(duì)角度不變的前提下,使其它向量與 起始向量的逆時(shí)針夾角和之和最小,得到唯一的歸一化結(jié)果。得到角度歸一化的向量組之 后,確定手勢(shì)包含的手指數(shù);根據(jù)手指的相對(duì)位置和長度信息,對(duì)包含相同手指數(shù)的不同手 勢(shì)進(jìn)行區(qū)分。本發(fā)明優(yōu)點(diǎn)及功效在于對(duì)手勢(shì)的識(shí)別具有旋轉(zhuǎn)不變性和縮放不變性,計(jì)算簡(jiǎn)單, 滿足實(shí)時(shí)處理要求,適用于不同人手的不同手勢(shì)的識(shí)別。
圖1為本發(fā)明方法的算法框圖。圖2為手勢(shì)的中心和方向示意圖,圖中菱形代表手勢(shì)的中心,圖中箭頭代表手勢(shì) 的方向。圖3為手勢(shì)的特征向量示意圖。其中,圖3(a)為2手指手勢(shì)特征向量示意圖;圖3(b)為4手指手勢(shì)特征向量示意圖。圖4為指尖位置圖,圖中菱形為本發(fā)明方法定位的指尖位置。其中,圖4(a)為3手指定位結(jié)果圖;圖4 (b)為5手指定位結(jié)果圖;(五)具體實(shí)施方法本發(fā)明的技術(shù)方案概括為首先在YCbCr顏色空間中用膚色特性對(duì)手勢(shì)進(jìn)行分割 處理,然后選取特征向量描述手勢(shì),進(jìn)行長度和角度歸一化處理,根據(jù)特征向量確定手勢(shì)中 指尖的位置,最終用指尖和手勢(shì)中心的相對(duì)位置對(duì)手勢(shì)進(jìn)行識(shí)別。下面結(jié)合附圖對(duì)本發(fā)明的技術(shù)方案作進(jìn)一步的詳細(xì)描述。主要步驟如下步驟1 手勢(shì)分割本發(fā)明采用Logitech QuickCam Pro9000攝像頭采集圖像,獲得彩色圖像尺寸為 320X240,圖像格式為JPEG,拍攝背景無類似膚色的區(qū)域,被拍攝的用戶穿非膚色長袖衣 服。對(duì)得到的手勢(shì)圖像,首先從RGB顏色空間轉(zhuǎn)化到Y(jié)CbCr顏色空間,之后選擇Cb、Cr分量 的中心值和閾值,其中Cb分量中心值Cbmid = 115,Cr分量中心值Crmid = 145,閾值Ittoes = 15,對(duì)輸入圖像的各像素計(jì)算其Cb、Cr值與中心值的歐式距離dist 若dist小于相應(yīng)的閾值Ittoes,則將該像素值設(shè)為1,否則將其值設(shè)為0,從而將輸 入圖像轉(zhuǎn)化為二值圖像。對(duì)得到的二值圖像進(jìn)行一次腐蝕膨脹處理,并假定圖像中最大連 通區(qū)域?yàn)槭謩?shì)所在區(qū)域。步驟2 獲得手勢(shì)的中心、方向和邊緣將手勢(shì)圖像轉(zhuǎn)化為二值圖像后,通過計(jì)算獲得手勢(shì)的中心、方向,并提取手勢(shì)的邊緣。由式⑵和式(3)計(jì)算手勢(shì)中心點(diǎn)坐標(biāo)χ禾口 y 式中,B[i,j]表示圖像中第i行第j列的值,圖像的大小為nXm。手勢(shì)方向θ的計(jì)算式如下
的方向(
^ =-tan"1
2Mi
."20 _ "02 ,
(4)
式中,μη、μ2。、μ。2為圖像的二階中心矩。 用Carmy算子從二值圖像中提取手勢(shì)的邊緣。
圖2為手勢(shì)的中心和方向示意圖,圖中菱形代表手勢(shì)的中心,圖中箭頭代表手勢(shì)
步驟3 選取特征向量
計(jì)算手勢(shì)中心點(diǎn)和邊緣各點(diǎn)連線的角度,找出角度與手勢(shì)方向角最接近的點(diǎn),以 該點(diǎn)為起始點(diǎn),對(duì)手勢(shì)邊界進(jìn)行η等分,得邊界上的η個(gè)點(diǎn)。以手勢(shì)中心點(diǎn)為起始點(diǎn),邊界 上的η個(gè)點(diǎn)之一為終止點(diǎn)構(gòu)造向量,用η個(gè)向量來表征該手勢(shì)。為消除輸入圖像中手勢(shì)的 尺寸對(duì)識(shí)別的影響,選取特征向量中長度最長的向量,將其長度設(shè)置為100,將其它向量的 長度歸一化到
。經(jīng)實(shí)驗(yàn),采用η = 60。圖3(a)為對(duì)2手指手勢(shì)選取特征向量結(jié)果圖,圖3 (b)為對(duì)4手指手勢(shì)選取特征 向量結(jié)果圖,步驟4:定位指尖位置將步驟3得到的特征向量視為一個(gè)首尾相連的向量組,消除起始點(diǎn)選擇對(duì)向量組 的影響,保證特征向量對(duì)旋轉(zhuǎn)不敏感。從向量組中求出局部極大值和局部極小值,其中局部 最大值對(duì)應(yīng)的點(diǎn)為指尖點(diǎn)候選點(diǎn),而其相鄰的兩個(gè)局部極小值點(diǎn)的角度差為手指所在區(qū)域 的角度。選定手指長度閾值Ith和角度閾值θ th,用指尖到手勢(shì)中心的長度1和手指所在區(qū) 域的角度θ與設(shè)定閾值相比較來判定指尖候選點(diǎn)是否為指尖。當(dāng)1>4且θ < eth時(shí), 則該特征向量的終點(diǎn)所在位置為指尖位置,否則該點(diǎn)為非指尖。經(jīng)實(shí)驗(yàn),采用Ith = 53,0th =1. 87。圖4(a)為對(duì)3手指手勢(shì)的指尖定位結(jié)果圖,圖4(b)為對(duì)5手指手勢(shì)的指尖定位 結(jié)果圖。步驟5 手勢(shì)識(shí)別根據(jù)步驟2和步驟4得到手勢(shì)中心點(diǎn)和指尖位置,構(gòu)造一組以手勢(shì)中心點(diǎn)為起點(diǎn), 指尖位置為終點(diǎn)的向量。找出這些向量中兩兩間最大的夾角,以夾角最大的兩個(gè)向量中的 一個(gè)為起始向量,將其角度設(shè)置為0,在保證各向量相對(duì)角度不變的前提下,使其它向量與 起始向量的逆時(shí)針夾角和之和最小,得到唯一的歸一化結(jié)果。得到角度歸一化的向量組之 后,確定了手勢(shì)包含的手指數(shù);根據(jù)手指的相對(duì)位置和長度信息,對(duì)包含相同手指數(shù)的不同 手勢(shì)進(jìn)行區(qū)分。本發(fā)明方法識(shí)別一幅手勢(shì)圖像耗時(shí)0. 4秒左右,而覃文軍等的方法識(shí)別一 幅手勢(shì)圖像耗時(shí)在4. 5秒左右。在本發(fā)明優(yōu)點(diǎn)及功效在于對(duì)手勢(shì)的識(shí)別具有旋轉(zhuǎn)不變性 和縮放不變性,計(jì)算簡(jiǎn)單,滿足實(shí)時(shí)處理要求,有很好的識(shí)別率。說明書附圖中出現(xiàn)的英文符號(hào),其含義如下1 用指尖到手勢(shì)中心的長度;θ :手指所在區(qū)域的角度;Ith 手指長度閾值,設(shè)為53 ;θ th:角度閾值,設(shè)為1.87。
權(quán)利要求
一種基于特征向量的靜態(tài)手勢(shì)識(shí)別方法,其特征在于,包括下述幾個(gè)步驟步驟1手勢(shì)分割采用Logitech QuickCam Pro9000攝像頭采集圖像,獲得圖像尺寸為320×240,圖像格式為JPEG,拍攝背景無類似膚色的區(qū)域,被拍攝的用戶穿非膚色長袖衣服;對(duì)得到的圖像,首先從RGB顏色空間轉(zhuǎn)化到Y(jié)CbCr顏色空間,之后選擇Cb、Cr分量的中心值和閾值,其中Cb分量中心值Cbmid=115,Cr分量中心值Crmid=145,閾值lthres=15,對(duì)輸入圖像的各像素計(jì)算其Cb、Cr值與中心值的歐式距離dist <mrow><mi>dist</mi><mo>=</mo><msqrt> <msup><mrow> <mo>(</mo> <mi>Cb</mi> <mo>-</mo> <msub><mi>Cb</mi><mi>mid</mi> </msub> <mo>)</mo></mrow><mn>2</mn> </msup> <mo>+</mo> <msup><mrow> <mo>(</mo> <mi>Cr</mi> <mo>-</mo> <msub><mi>Cr</mi><mi>mid</mi> </msub> <mo>)</mo></mrow><mn>2</mn> </msup></msqrt><mo>-</mo><mo>-</mo><mo>-</mo><mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo></mrow> </mrow>若dist小于相應(yīng)的閾值lthres,則將該像素的值設(shè)為1,否則將其值設(shè)為0,從而將輸入圖像轉(zhuǎn)化為二值圖像;對(duì)得到的二值圖像進(jìn)行一次腐蝕膨脹處理,并假定圖像中最大連通區(qū)域?yàn)槭謩?shì)所在區(qū)域;步驟2獲得手勢(shì)的中心、方向和邊緣將手勢(shì)圖像轉(zhuǎn)化為二值圖像后,通過計(jì)算獲得手勢(shì)的中心、方向,并提取手勢(shì)的邊緣;由式(2)和式(3)計(jì)算手勢(shì)中心點(diǎn)坐標(biāo)x和y <mrow><mi>x</mi><mo>=</mo><mfrac> <mrow><msubsup> <mi>Σ</mi> <mrow><mi>i</mi><mo>=</mo><mn>1</mn> </mrow> <mi>n</mi></msubsup><msubsup> <mi>Σ</mi> <mrow><mi>j</mi><mo>=</mo><mn>1</mn> </mrow> <mi>m</mi></msubsup><mi>jB</mi><mo>[</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>]</mo> </mrow> <mrow><msubsup> <mi>Σ</mi> <mrow><mi>i</mi><mo>=</mo><mn>1</mn> </mrow> <mi>n</mi></msubsup><msubsup> <mi>Σ</mi> <mrow><mi>j</mi><mo>=</mo><mn>1</mn> </mrow> <mi>m</mi></msubsup><mi>B</mi><mo>[</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>]</mo> </mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo></mrow> </mrow> <mrow><mi>y</mi><mo>=</mo><mfrac> <mrow><msubsup> <mi>Σ</mi> <mrow><mi>i</mi><mo>=</mo><mn>1</mn> </mrow> <mi>n</mi></msubsup><msubsup> <mi>Σ</mi> <mrow><mi>j</mi><mo>=</mo><mn>1</mn> </mrow> <mi>m</mi></msubsup><mi>iB</mi><mo>[</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>]</mo> </mrow> <mrow><msubsup> <mi>Σ</mi> <mrow><mi>i</mi><mo>=</mo><mn>1</mn> </mrow> <mi>n</mi></msubsup><msubsup> <mi>Σ</mi> <mrow><mi>j</mi><mo>=</mo><mn>1</mn> </mrow> <mi>m</mi></msubsup><mi>B</mi><mo>[</mo><mi>i</mi><mo>,</mo><mi>j</mi><mo>]</mo> </mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo></mrow> </mrow>式中,B[i,j]表示圖像中第i行第j列的值,圖像的大小為n×m;手勢(shì)方向θ的計(jì)算式如下 <mrow><mi>θ</mi><mo>=</mo><mfrac> <mn>1</mn> <mn>2</mn></mfrac><msup> <mi>tan</mi> <mrow><mo>-</mo><mn>1</mn> </mrow></msup><mo>[</mo><mfrac> <mrow><mn>2</mn><msub> <mi>μ</mi> <mn>11</mn></msub> </mrow> <mrow><msub> <mi>μ</mi> <mn>20</mn></msub><mo>-</mo><msub> <mi>μ</mi> <mn>02</mn></msub> </mrow></mfrac><mo>]</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo></mrow> </mrow>式中,μ11、μ20、μ02為圖像的二階中心矩;用Canny算子從二值圖像中提取手勢(shì)的邊緣;步驟3選取特征向量計(jì)算手勢(shì)中心點(diǎn)和邊緣各點(diǎn)連線的角度,找出角度與手勢(shì)方向角最接近的點(diǎn),以該點(diǎn)為起始點(diǎn),對(duì)手勢(shì)邊界進(jìn)行n等分,得到邊界上的n個(gè)點(diǎn);以手勢(shì)中心點(diǎn)為起始點(diǎn),邊界上的n個(gè)點(diǎn)之一為終止點(diǎn)構(gòu)造向量,用這n個(gè)向量來表征該手勢(shì);為消除輸入圖像中手勢(shì)的尺寸對(duì)識(shí)別的影響,選取特征向量中長度最長的向量,將其長度設(shè)置為100,將其它向量的長度歸一化到(0,100);采用n=60;步驟4定位指尖位置將步驟3得到的特征向量視為一個(gè)首尾相連的向量組,消除起始點(diǎn)選擇對(duì)向量組的影響,保證特征向量對(duì)旋轉(zhuǎn)不敏感;從向量組中求出局部極大值和局部極小值,其中局部最大值對(duì)應(yīng)的點(diǎn)為指尖點(diǎn)候選點(diǎn),而其相鄰的兩個(gè)局部極小值點(diǎn)的角度差為手指所在區(qū)域的角度;選定手指長度閾值lth和角度閾值θth,用指尖到手勢(shì)中心的長度l和手指所在區(qū)域的角度θ與設(shè)定閾值相比較來判定指尖候選點(diǎn)是否為指尖;當(dāng)l>lth且θ<θth時(shí),則該特征向量的終點(diǎn)所在位置為指尖位置,否則該點(diǎn)為非指尖;采用lth=53,θth=1.87;步驟5手勢(shì)識(shí)別根據(jù)步驟2和步驟4得到手勢(shì)中心點(diǎn)和指尖位置,構(gòu)造一組以手勢(shì)中心點(diǎn)為起點(diǎn),指尖位置為終點(diǎn)的向量;找出這些向量中兩兩間最大的夾角,以夾角最大的兩個(gè)向量中的一個(gè)為起始向量,將其角度設(shè)置為0,在保證各向量相對(duì)角度不變的前提下,使其它向量與起始向量的逆時(shí)針夾角和之和最小,得到唯一的歸一化結(jié)果;得到角度歸一化的向量組后,則確定了手勢(shì)包含的手指數(shù);根據(jù)手指的相對(duì)位置和長度信息,對(duì)包含相同手指數(shù)的不同手勢(shì)進(jìn)行區(qū)分。
全文摘要
本發(fā)明一種基于特征向量的靜態(tài)手勢(shì)識(shí)別方法,可概括為首先在YCbCr顏色空間中用膚色特性對(duì)手勢(shì)進(jìn)行分割處理,然后選取特征向量描述手勢(shì),進(jìn)行長度和角度歸一化處理,根據(jù)特征向量確定手勢(shì)中指尖的位置,最終用指尖和手勢(shì)中心的相對(duì)位置對(duì)手勢(shì)進(jìn)行識(shí)別。該方法具有旋轉(zhuǎn)不變性和縮放不變性,有很好的實(shí)時(shí)性,滿足人機(jī)交互應(yīng)用要求。
文檔編號(hào)G06K9/62GK101901350SQ201010238368
公開日2010年12月1日 申請(qǐng)日期2010年7月23日 優(yōu)先權(quán)日2010年7月23日
發(fā)明者姜磊, 毛峽 申請(qǐng)人:北京航空航天大學(xué)