一種基于數(shù)字家庭設備的手勢互動控制系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種基于數(shù)字家庭設備的手勢互動控制系統(tǒng),所述系統(tǒng)包括:坐標定標模塊,用于對應于屏幕上面的輸出位置撲捉手指坐標;手勢識別模塊,用于在攝像頭得到視頻幀后,處理所述視頻幀,識別出手和手勢,并將視頻幀反饋給手勢跟蹤模塊;手勢跟蹤模塊,用于對手勢進行運動跟蹤;網(wǎng)絡傳輸模塊,用于將手勢跟蹤內(nèi)容發(fā)送給系統(tǒng)控制模塊;系統(tǒng)控制模塊,用于控制整個功能模塊之間的交互。本發(fā)明系統(tǒng)成本低廉,識別率高,控制效果好。數(shù)字家庭環(huán)境系統(tǒng)對人的限制較少、可操作性較強。同時,本文使用左右雙手識別,相對于單手手勢識別來說,擴展了應用范圍。
【專利說明】一種基于數(shù)字家庭設備的手勢互動控制系統(tǒng)
【技術領域】
[0001] 本發(fā)明涉及數(shù)字家庭【技術領域】,具體涉及一種基于數(shù)字家庭設備的手勢互動控制 系統(tǒng)。
【背景技術】
[0002] 數(shù)字家庭系統(tǒng)可以這樣定義:利用計算機技術和網(wǎng)絡技術作為基礎,將家庭環(huán)境, 家用設備和家庭用戶通過不同的互聯(lián)方式進行通信和數(shù)據(jù)交換,實現(xiàn)家庭環(huán)境,家用設備 以及家庭用戶的/互聯(lián)互通,使得家庭中的人們能極大得享受到互聯(lián)家電和智能家居所帶 來的便捷生活,滿足他們在信息,通訊,交流和娛樂方面的需求,進而提高家居生活的質(zhì)量 的系統(tǒng)。數(shù)字家庭追求家居電器環(huán)境的自動化、智能化和網(wǎng)絡化,當前數(shù)字家居的研宄熱 點是家庭內(nèi)部組網(wǎng),即如何實現(xiàn)設備間的互聯(lián)和完成無縫的數(shù)據(jù)交換[1]。然而,從更高的 層次上看,家庭內(nèi)電子設備的互聯(lián),依然處在物理設備層,遠沒有達到"以人為本"的智能要 求。因此,實現(xiàn)數(shù)字家庭環(huán)境中人機和諧、自然交互過程,對數(shù)字家庭的發(fā)展具有重要的推 動作用。隨著機器人技術的發(fā)展,智能服務機器人開始逐步融入人類的生活中,人機交互 技術的發(fā)展是智能服務機器人研宄的不可或缺的重要組成部分。人機交互的主要研宄方向 主要有表情,聲音和手勢識別技術。其中手勢是一種自然而直觀的人機交流模式,在信息的 表達上比表情更加直觀明確,信息量更加豐富。在人機交互中,基于視覺的手勢的識別是實 現(xiàn)新一代人機交互所不可缺少的一項關鍵技術。基于視覺的手勢識別是通過圖像信息,讓 機器人獲取人的手勢姿態(tài)信息,對不同的手勢信息進行分類。為解決這一問題,本文構(gòu)建 了數(shù)字家庭環(huán)境,并放置了機器人作為人機交互接口。采用雙手控制,提出了基于Gentle AdaBoost算法的手勢檢測識別方案,通過自建樣本訓練不同手勢對應的分類器,并完成了 手勢互動控制系統(tǒng)設計,具有較高的準確性與抗干擾能力。
[0003] 從數(shù)字家庭行業(yè)來看,目前基于觸控的用戶界面也是非常重要新興的交互市場, 目前大多的應用也都應用在小屏幕的產(chǎn)品上,而且多是作為輔助操作來設計,而非像iPad 那樣作為完全輸出和輸出集合的設備。例如目前許多洗衣機,冰箱等一些白色家庭在人機 交互界面上都開始采用觸控操作,有些是基于真實觸感的觸點操控,有些則是類似蘋果的 基于平面的觸點操控。使用手指,甚至是身體的任何部位與平面的直接接觸來進行。
[0004] 目前基于語音的用戶界面語音識別技術一直在發(fā)展,而且目前各大數(shù)字產(chǎn)業(yè)巨頭 都在研發(fā)各自的基于聲音識別的相關服務"由于語音操作能極大地將人的雙手從操作中 解放出來,因而它在特定情境下是十分理想的交互形式"而同時在電視產(chǎn)業(yè)中,由于電視 內(nèi)容的幾何級增長,這種數(shù)據(jù)的極大擴充其實也給用戶在內(nèi)容搜索查詢上帶來了極大的難 度"試想如何在所有直播的200多個頻道中快速選擇自己要觀看的頻道,使用傳統(tǒng)的遙控 器猶如大海撈針,然后即使是使用蘋果的電視機頂盒它優(yōu)秀的用戶界面也仍然無法解決這 一問題,因為使用它的遙控器在電視上進行輸入操作是極其令人抓狂的事情"在這個情境 中語音輸入是最好的選擇〃
[0005] 固定式的設計和過于笨重的設計使其缺乏移動性;操作面積的增加同時也增加了 動作量,將增加疲憊感;基于平面的觸控降低了接觸現(xiàn)實世界的凹凸觸感,無真實物理回 饋;表面的清潔是個問題;由于是基于桌面概念屏幕的方向不能調(diào)整將增加人的疲勞感。
[0006] 而語音識別技術在應用中仍然會遇到比較大的困難,例如口音的問題,就中國大 陸而言,各種方言不下百種,普通話也有南腔北調(diào),并且許多方言不是語音的問題而是語法 和詞匯都完全改變,這種情況下基于語音操作的通用性將十分低,另外一個問題就是語音 本身作為一種交互形式存在的話它確實不能與其他語音同時并存的,太嘈雜的環(huán)境音或其 他語音都將影響它的交互質(zhì)量〃所有這些問題也正是基于語音的界面交互不能大量普及 的原因了。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明的目的是基于視覺的雙手手勢控制方法能有效地在所構(gòu)造的數(shù)字家庭環(huán) 境中完成普通家電控制功能,系統(tǒng)成本低廉,識別率高,控制效果好。數(shù)字家庭環(huán)境系統(tǒng)對 人的限制較少、可操作性較強。同時,本文使用左右雙手識別,相對于單手手勢識別來說,擴 展了應用范圍。
[0008] 本發(fā)明提供了一種基于數(shù)字家庭設備的手勢互動控制系統(tǒng),所述系統(tǒng)包括:
[0009] 坐標定標模塊,用于對應于屏幕上面的輸出位置撲捉手指坐標;
[0010] 手勢識別模塊,用于在攝像頭得到視頻幀后,處理所述視頻幀,識別出手和手勢, 并將視頻幀反饋給手勢跟蹤模塊;
[0011] 手勢跟蹤模塊,用于對手勢進行運動跟蹤;
[0012] 網(wǎng)絡傳輸模塊,用于將手勢跟蹤內(nèi)容發(fā)送給系統(tǒng)控制模塊;
[0013] 系統(tǒng)控制模塊,用于控制整個功能模塊之間的交互。
[0014] 所述坐標定標模塊用于對輸入的已知坐標對應點校正程序,并實現(xiàn)參數(shù)矩陣。
[0015] 本發(fā)明具有如下有益效果,系統(tǒng)成本低廉,識別率高,控制效果好。數(shù)字家庭環(huán)境 系統(tǒng)對人的限制較少、可操作性較強。同時,本文使用左右雙手識別,相對于單手手勢識別 來說,擴展了應用范圍。
【專利附圖】
【附圖說明】
[0016] 為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn) 有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以 根據(jù)這些附圖獲得其它的附圖。
[0017] 圖1是本發(fā)明實施例中的基于數(shù)字家庭設備的手勢互動控制系統(tǒng)結(jié)構(gòu)示意圖;
[0018] 圖2是本發(fā)明實施例中的坐標標定的流程圖;
[0019] 圖3是本發(fā)明實施例中的手勢識別的流程圖;
[0020] 圖4是本發(fā)明實施例中的訓練及匹配過程流程圖。
【具體實施方式】
[0021] 下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完 整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于 本發(fā)明中的實施例,本領域普通技術人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其它 實施例,都屬于本發(fā)明保護的范圍。
[0022] 基于計算機視覺的手勢交互系統(tǒng)由五個模塊組成,包括坐標標定,手勢識別,手勢 跟蹤,網(wǎng)絡傳輸以及系統(tǒng)控制模塊組成,系統(tǒng)的結(jié)構(gòu)流程關系圖1所示。
[0023] 坐標標定模塊是一個獨立的模塊,它所對應的是屏幕上面的輸出位置和攝像頭捕 捉的手指坐標,如果攝像頭和屏幕位置關系沒有變,那么它就不需要重新進行運算,而如果 發(fā)生變化的話它就會發(fā)生相應的變化以適應模塊變化。手勢識別模塊是為手勢跟蹤模塊服 務的,當程序通過攝像頭得到視頻幀后,首先通過手勢識別模塊處理此視頻幀,識別出手以 及手勢,并且將手的位置信息傳遞給手勢跟蹤模塊,在接下來的視頻幀中程序就只需要手 勢跟蹤模塊即可對手勢進行運動跟蹤,而不需要重新進行識別。不過有可能會出現(xiàn)跟蹤失 敗,此時會反饋給手勢識別模塊,那么又返回到前面所說的步驟中去,通過再次識別手勢的 位置。因此這兩個模塊有一個互相反饋的過程。
[0024] 坐標標定模塊是一個獨立的模塊,在進行交互前需要對攝像頭的參數(shù)進行標定, 使得后面的識別中能夠得到更加準確的坐標值。坐標標定是整個系統(tǒng)中一個必備的模塊。 在計算機程序中坐標標定會需要一些外部的器件來達到標定的目的,比如棋盤表,坐標標 定的流程如圖2所示。
[0025] 手勢識別模塊中,由于這整個系統(tǒng)目前是基于手指指頭來進行識別的,因而這個 視覺交互使用了膚色模型,并且加上了高斯模型來提高識別正確率。普通的膚色模型中,由 于受到環(huán)境因素的影響很大,識別率并不是很高,在識別后的圖像中往往會有很多噪音點。 手勢識別模塊是整個手指交互的數(shù)據(jù)輸入基礎,如果在識別上出現(xiàn)問題那么就會影響到后 面的手勢跟蹤模塊,手勢識別的流程如圖3所示。
[0026] 圖4示出了本發(fā)明實施例中的訓練及匹配過程流程圖,人們對圖像的理解都是認 為圖像是由像素構(gòu)成,但是在模式識別中,機器對圖像的檢測和識別一般都是通過特征來 完成的。圖像都包含自己所獨有的特征,通過對特征的檢測,就可以完成對圖像的檢測。使 用特征對手勢圖像進行建模,可以減少計算量,能提升系統(tǒng)訓練和檢測速度。對四種不同的 AdaBoost算法進行了性能測試和比較,最終得出了 Gentle AdaBoost算法不僅在所訓練得 到分類器性能上是最優(yōu)的,而且訓練速度也是最快的。本發(fā)明采用Gentle AdaBoost算法 作為手勢檢測匹配算法。
[0027] Gentle AdaBoost算法的訓練強分類器的算法描述如下:
[0028] 1.準備大量的訓練樣本(X1, y),(X。y2),…,(xn,yn),其中Yi= 1表示為正樣本 (手勢,Yi= -1表示為負樣本,η為正、樣本的綜合。
[0029] 2.初始化樣本權重Qi=Da),正樣本可以設置為= 4負樣本可設置為 = $這里的P、q分別表示正、負樣本的數(shù)量,即P+q = η。 ,
[0030] 3.對 t = 1,· · ·,T :
[0031] 1)歸一化樣本權重
【權利要求】
1. 一種基于數(shù)字家庭設備的手勢互動控制系統(tǒng),其特征在于,所述系統(tǒng)包括: 坐標定標模塊,用于對應于屏幕上面的輸出位置撲捉手指坐標; 手勢識別模塊,用于在攝像頭得到視頻帖后,處理所述視頻帖,識別出手和手勢,并將 視頻帖反饋給手勢跟蹤模塊; 手勢跟蹤模塊,用于對手勢進行運動跟蹤; 網(wǎng)絡傳輸模塊,用于將手勢跟蹤內(nèi)容發(fā)送給系統(tǒng)控制模塊; 系統(tǒng)控制模塊,用于控制整個功能模塊之間的交互。
2. 如權利要求1所述的基于數(shù)字家庭設備的手勢互動控制系統(tǒng),其特征在于,所述坐 標定標模塊用于對輸入的已知坐標對應點校正程序,并實現(xiàn)參數(shù)矩陣。
【文檔編號】G06K9/62GK104460991SQ201410664444
【公開日】2015年3月25日 申請日期:2014年11月19日 優(yōu)先權日:2014年11月19日
【發(fā)明者】王若梅, 楊雪, 陳湘萍, 林謀廣 申請人:中山大學