專利名稱:結(jié)合視頻通道的智能家居語音控制系統(tǒng)及其控制方法
技術(shù)領(lǐng)域:
本發(fā)明涉及視頻語音識別技術(shù),尤其涉及結(jié)合視頻通道的智能家居語音控制系統(tǒng)及其控制方法。
背景技術(shù):
目前,大部分復(fù)雜的家電都是通過遙控器的鍵盤輸入方式進(jìn)行遙控的,隨著家居的智能化以及包含內(nèi)容的多樣化,為了優(yōu)化操作方式、增強操作的舒適性,用戶需要更加易于操作的遙控器。語言是人類最直接最方便的交流和表達(dá)方式,如果采用語音識別技術(shù),可以將原來的被動靜止結(jié)構(gòu)轉(zhuǎn)變?yōu)榫哂兄鲃幼R別語音執(zhí)行的智慧工具,從而滿足人們?nèi)找嬖鲩L的需求。近年來,語音識別技術(shù)發(fā)展十分迅速,目前已出現(xiàn)了許多自動語音識別類的產(chǎn)品, 例如IBM開發(fā)的ViaVoice語音系統(tǒng)等。但是這些系統(tǒng)仍然缺乏較強的抗干擾能力,原因是它只能單一地從語音信道中獲取信息,當(dāng)這些系統(tǒng)應(yīng)用到真實環(huán)境中時,一旦有背景噪聲或多人交叉說話,它們的性能將大大下降,并且這樣的應(yīng)用環(huán)境十分常見,如辦公室、汽車、工廠或機場等,就連家庭環(huán)境也是如此。
發(fā)明內(nèi)容
為解決現(xiàn)有技術(shù)存在的缺點和不足,本發(fā)明提供結(jié)合視頻通道的智能家居語音控制系統(tǒng)及其控制方法,相比現(xiàn)有技術(shù)所采用的控制方式,本發(fā)明抗干擾能力強,能夠克服家庭環(huán)境中由于噪音干擾所帶來的無法識別的技術(shù)問題。本發(fā)明的目的通過下述技術(shù)方案實現(xiàn)結(jié)合視頻通道的智能家居語音控制系統(tǒng),包括依次連接的手勢檢測模塊、人臉檢測模塊、識別系統(tǒng)模塊、指令判斷模塊、指令顯示與確認(rèn)模塊。所述識別系統(tǒng)模塊包括唇語部分和語音部分,所述唇語部分包括依次連接的人臉跟蹤定位模塊、唇語視頻輸入模塊、唇語識別模塊;所述語音部分包括依次連接的語音輸入模塊、語音識別模塊。結(jié)合視頻通道的智能家居語音控制系統(tǒng)的識別方法,可通過如下步驟實現(xiàn)(1)手勢檢測手勢檢測模塊采用haar小波變換,以及LBP特征提取,選取Adaboost分類器對固定手勢進(jìn)行檢測,判斷用戶是否獲得控制權(quán);⑵人臉檢測人臉檢測模塊采用haar小波變換,選取Adaboost分類器對人臉進(jìn)行檢測,判斷操作空間內(nèi)是否有人,如果檢測到人臉,則同時開啟識別系統(tǒng)模塊的唇語和語音兩部分;(3)人臉跟蹤與定位人臉跟蹤與定位模塊結(jié)合人臉檢測模塊輸出的參數(shù),按照人臉的大小以及位置, 調(diào)整攝像頭焦距和光軸,使人臉圖像足夠清晰,同時控制人臉處于圖像中央位置,使人臉至少占圖像的三分之二面積以上;(4)唇語視頻輸入唇語視頻輸入模塊將從人臉中提取出嘴唇部分,實現(xiàn)嘴唇的分割與模型建立,獲得嘴唇運動序列;(5)唇語識別唇語識別模塊將相應(yīng)的嘴唇運動序列翻譯成為一定語義的指令,其中包括唇部特征提取和模式識別;(6)語音輸入語音輸入模塊通過語音接收設(shè)備,接收音頻輸入,系統(tǒng)采用麥克風(fēng)將語音輸入給計算機,聲卡以一定頻率機型數(shù)據(jù)采樣,然后進(jìn)行A/D轉(zhuǎn)換;為減少不利影響,此模塊將對輸入的語音信號進(jìn)行高頻補償。(7)語音識別語音識別模塊將檢測到的語音數(shù)據(jù),翻譯成對應(yīng)的語義指令,包括語音特征提取和語音識別。(8)指令判斷指令判斷模塊將語音識別模塊的輸出結(jié)果和唇語識別模塊的輸出結(jié)果進(jìn)行匹配, 通過概率分析,判斷該指令是否有效,指令集為C= [C1, c2,... cn]唇語識別模塊輸出各指令概率為P = [Pl,p2, . . . pn],語音識別模塊輸出各指令概率為Q = [Ql, q2, . . . Qn],則認(rèn)為唇語和語音結(jié)合判斷的指令概率D =[屯,d2,. . . dn],其中
權(quán)利要求
1.結(jié)合視頻通道的智能家居語音控制系統(tǒng),其特征在于包括依次連接的手勢檢測模塊、人臉檢測模塊、識別系統(tǒng)模塊、指令判斷模塊、指令顯示與確認(rèn)模塊。
2.根據(jù)權(quán)利要求1所述的結(jié)合視頻通道的智能家居語音控制系統(tǒng),其特征在于所述識別系統(tǒng)模塊包括唇語部分和語音部分,所述唇語部分包括依次連接的人臉跟蹤定位模塊、唇語視頻輸入模塊、唇語識別模塊;所述語音部分包括依次連接的語音輸入模塊、語音識別模塊。
3.結(jié)合視頻通道的智能家居語音控制系統(tǒng)的識別方法,其特征在于如下步驟(1)手勢檢測手勢檢測模塊采用haar小波變換,以及LBP特征提取,選取Adaboost分類器對固定手勢進(jìn)行檢測,判斷用戶是否獲得控制權(quán);(2)人臉檢測人臉檢測模塊采用haar小波變換,選取Adaboost分類器對人臉進(jìn)行檢測,判斷操作空間內(nèi)是否有人,如果檢測到人臉,則同時開啟識別系統(tǒng)模塊的唇語和語音兩部分;(3)人臉跟蹤與定位人臉跟蹤與定位模塊結(jié)合人臉檢測模塊輸出的參數(shù),按照人臉的大小以及位置,調(diào)整攝像頭焦距和光軸,使人臉圖像足夠清晰,同時控制人臉處于圖像中央位置,使人臉至少占圖像的三分之二面積以上;(4)唇語視頻輸入唇語視頻輸入模塊將從人臉中提取出嘴唇部分,實現(xiàn)嘴唇的分割與模型建立,獲得嘴唇運動序列;(5)唇語識別唇語識別模塊將相應(yīng)的嘴唇運動序列翻譯成為一定語義的指令,其中包括唇部特征提取和模式識別;(6)語音輸入語音輸入模塊通過語音接收設(shè)備,接收音頻輸入,系統(tǒng)采用麥克風(fēng)將語音輸入給計算機,聲卡以一定頻率機型數(shù)據(jù)采樣,然后進(jìn)行A/D轉(zhuǎn)換;為減少不利影響,此模塊將對輸入的語音信號進(jìn)行高頻補償。(7)語音識別語音識別模塊將檢測到的語音數(shù)據(jù),翻譯成對應(yīng)的語義指令,包括語音特征提取和語音識別。(8)指令判斷指令判斷模塊將語音識別模塊的輸出結(jié)果和唇語識別模塊的輸出結(jié)果進(jìn)行匹配,通過概率分析,判斷該指令是否有效,指令集為 C = [ci; C2, ... cn ]唇語識別模塊輸出各指令概率為P = [Pl,P2, . . . Pj,語音識別模塊輸出各指令概率為Q = [Q1, Q2, ... Qn ],則認(rèn)為唇語和語音結(jié)合判斷的指令概率D = W1, d2,. . . dn],其中
4.根據(jù)權(quán)利要求3所述結(jié)合視頻通道的智能家居語音控制系統(tǒng)的識別方法,其特征在于,所述步驟(4)唇語視頻輸入具體如下(1)嘴唇分割使用改善的FCMS算法,將圖像的顏色信息與空間信息結(jié)合起來,再把嘴唇的形狀信息嵌入到聚類算法中的相似性判別函數(shù)中,實現(xiàn)嘴唇的有效分割;(2)在嘴唇模型建立方法上,采用14點主動形狀模型。在ASM中將外形相似的嘴唇輪廓通過14個關(guān)鍵的特征點的坐標(biāo)串接成原始的形狀向量。
5.根據(jù)權(quán)利要求3所述結(jié)合視頻通道的智能家居語音控制系統(tǒng)的識別方法,其特征在于,所述步驟(5)唇語識別具體如下(1)唇部的形狀特征提取,將選取14點ASM模型的長和寬,即6點和14點之間以及3 點和10點之間的距離W和H作為特征,并在計算過程中引入兩點間距離公式D = ^(xl-x2)2+(yl-y2)2為消除由于說話人坐姿等帶來的干擾因素,要對W,H進(jìn)行歸一化,特征向量記為fra = {W,H};另外幾何特征提取將通過14點ASM模型進(jìn)行曲線擬合,然后把說話人嘴唇劃分為三段曲線,即1-6點和14點,6-10點,10-14點分別進(jìn)行二次曲線擬合Y = ax2+bx+c曲線內(nèi)核所得到參數(shù)a,b,c,經(jīng)過歸一化后可作為獨立的特征向量,此特征向量可記為fCur — ‘ b” C1J a2,b2,c2,a3,b3,c3}其中相關(guān)特征提取將采取一階差分、二階差分獲取運動圖像相關(guān)特征Vf = f (n) -f (n-1),結(jié)果記為 Vfwa, VfcurV2f = f (n) +f (n-2) -2f (n-1),結(jié)果記為 V2fra, V2fcur(2)模式識別部分將前述的各種特征組合作為輸入向量輸入HMM,通過這種方式識別唇語。緊接著將識別的內(nèi)容與事先設(shè)置好的指令集進(jìn)行匹配。匹配后,指令集中的每個子集概率都會不一樣,將所有子集對應(yīng)的概率輸入指令判斷模塊。
6.根據(jù)權(quán)利要求3所述的結(jié)合視頻通道的智能家居語音控制系統(tǒng)的識別方法,其特征在于,所述步驟(7)語音特征提取和語音識別具體如下(1)語音特征提取使用線性預(yù)測倒譜系數(shù)來表征短時語音信號,由線性預(yù)測系數(shù)直接推導(dǎo)
7.根據(jù)權(quán)利要求3所述的結(jié)合視頻通道的智能家居語音控制系統(tǒng)的識別方法,其特征在于,所述步驟(9)指令顯示與確認(rèn)具體如下當(dāng)檢測到用戶的手勢,若表示確認(rèn)該指令, 指令將會輸出到相應(yīng)的設(shè)備中執(zhí)行;當(dāng)檢測到用戶的手勢,若表示否定該指令,系統(tǒng)將返回至人臉檢測模塊重新開始。
全文摘要
本發(fā)明公開了結(jié)合視頻通道的智能家居語音控制系統(tǒng)及其方法,系統(tǒng)包括依次連接的手勢檢測模塊、人臉檢測模塊、識別系統(tǒng)模塊、指令判斷模塊、指令顯示與確認(rèn)模塊。識別系統(tǒng)模塊包括唇語部分和語音部分,所述唇語部分包括依次連接的人臉跟蹤定位模塊、唇語視頻輸入模塊、唇語識別模塊;所述語音部分包括依次連接的語音輸入模塊、語音識別模塊。其能夠通過檢測控制手勢、識別人臉和唇語信息,對已識別到的語音信息加以補充,從而提高控制指令的準(zhǔn)確度,增加利用語音控制智能家居的可行性。本發(fā)明具有很強的抗干擾能力,可廣泛應(yīng)用于多種復(fù)雜環(huán)境模式,尤其適用于克服家庭環(huán)境中人多有噪音的情況下。
文檔編號G06K9/62GK102298443SQ20111017407
公開日2011年12月28日 申請日期2011年6月24日 優(yōu)先權(quán)日2011年6月24日
發(fā)明者徐向民, 梁卓銳, 王玥 申請人:華南理工大學(xué)