專利名稱:基于視頻的面部表情識(shí)別方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種識(shí)別方法,尤其是指一種基于視頻對(duì)人臉面部表情的識(shí)別方法及裝置。
背景技術(shù):
隨著人機(jī)交互研究的深入和巨大的應(yīng)用前景,人臉面部表情識(shí)別已經(jīng)成為當(dāng)前模式識(shí)別和人工智能領(lǐng)域的一個(gè)研究熱點(diǎn)。但人臉表情的實(shí)時(shí)識(shí)別是一個(gè)非常困難的問題,許多理論還不完善,成熟的商業(yè)成果幾乎沒有。人臉表情識(shí)別的困難在于不同人所做出的同一種表情有較大差異,而且不同表情之間的差別也很微妙。此外光照、人臉姿態(tài)也會(huì)影響到識(shí)別的正確率。表情識(shí)別的方法一般都是基于統(tǒng)計(jì)來完成的,即從人臉圖像中提取出特征矢量,然后訓(xùn)練分類器,最后進(jìn)行識(shí)別。
特征的提取是識(shí)別成敗的關(guān)鍵,目前用于表情識(shí)別的特征可以分為兩種局部特征和整體特征?;诰植刻卣鞯娜四樏娌勘砬樽R(shí)別是利用每個(gè)人的面部特征(眉毛、眼睛、鼻子、嘴巴和面部輪廓等)的位置、大小及其相互位置的不同進(jìn)行特征提取,達(dá)到人臉面部表情識(shí)別的目的?;谌四樥w特征的識(shí)別是從整個(gè)人臉圖像出發(fā),提出反映了整體的特征實(shí)現(xiàn)人臉面部表情識(shí)別。局部特征的數(shù)據(jù)量比較小,但是它用有限的特征來代表整個(gè)圖像,會(huì)丟失有用的信息。而且人臉特征的準(zhǔn)確、自動(dòng)提取是一個(gè)很難的問題。
在現(xiàn)有的技術(shù)中,有人提出采用對(duì)人臉的面部表情的識(shí)別采用Fisher準(zhǔn)則函數(shù)進(jìn)行識(shí)別,也就是對(duì)人臉部的整體特征進(jìn)行識(shí)別,利用反向傳播算法對(duì)人臉進(jìn)行識(shí)別,該方法識(shí)別的基本步驟是a、對(duì)接收的圖像進(jìn)行預(yù)處理;b、進(jìn)行人臉的局部特征提??;c、整體特征的提??;d、對(duì)局部和整體特征進(jìn)行融合;e、最后對(duì)接收的人臉的面部表情做出識(shí)別。但是這種識(shí)別方法只是更清楚的對(duì)人臉的特征進(jìn)行分析和判斷,盡管能大致反映出人臉上體現(xiàn)的面部表情,但是還受到光照等外在因素的影響,仍不能準(zhǔn)確,迅速自動(dòng)的提取出來。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是現(xiàn)有技術(shù)不能準(zhǔn)確、自動(dòng)提取人臉表情的問題,本發(fā)明提出一種視頻情況下的面部表情識(shí)別方法,目的是能夠解決現(xiàn)有技術(shù)中存在的缺陷,該方法基于人臉的整體特征,根據(jù)自動(dòng)提取的人臉下巴輪廓生成一個(gè)標(biāo)準(zhǔn)臉,然后采用AdaBoost的算法選擇最有效的特征,得到穩(wěn)健的識(shí)別結(jié)果。
本發(fā)明的方法是針對(duì)常用的USB攝像頭的視頻數(shù)據(jù)提出的可以對(duì)人臉進(jìn)行實(shí)時(shí)自動(dòng)檢測、跟蹤并識(shí)別出正面人臉常見的表情的算法,尤其是最常見的四種表情,并且可以避免識(shí)別的面部表情受到光照等因素的影響。
本發(fā)明的目的是這樣實(shí)現(xiàn)的一種基于視頻的面部表情識(shí)別方法,包括以下步驟從USB攝像頭輸入的視頻數(shù)據(jù)中采集人臉的面部表情圖像數(shù)據(jù),對(duì)該圖像數(shù)據(jù)做預(yù)處理;實(shí)時(shí)提取人臉在預(yù)處理后圖像中的位置;依據(jù)人眼分類器對(duì)確定出的圖像中的人臉中的人眼做出定位;根據(jù)確定的人眼的位置和人臉分類器的信息提取包含人臉的圖像區(qū)域,進(jìn)行歸一化處理;對(duì)人臉器官定位;根據(jù)對(duì)人臉器官的定位確定人臉下巴的位置,確定圖像中的人臉區(qū)域,生成特征臉,并作為分類樣本;
計(jì)算所述的特征臉圖像的Gabor特征;對(duì)計(jì)算出的Gabor特征進(jìn)行選擇;由挑選的特征構(gòu)造支持向量機(jī)分類器;根據(jù)構(gòu)造的分類器得出人臉表情識(shí)別結(jié)果。
從USB攝像頭輸入的數(shù)據(jù)進(jìn)行采集的時(shí)候,包括以下人臉圖像跟蹤步驟在未獲取跟蹤目標(biāo)前,搜索每幀圖像,檢測人臉圖像的存在;如果檢測到某幀圖像存在一個(gè)或多個(gè)人臉,則在接下來的兩幀圖像中跟蹤檢測到的人臉,并對(duì)這兩幀圖像中跟蹤的人臉進(jìn)行檢測和驗(yàn)證,對(duì)檢測結(jié)果作出判斷;在同一個(gè)位置三幀圖像都檢測到人臉后,算法才認(rèn)為該位置存在有人臉圖像,此時(shí)執(zhí)行實(shí)時(shí)人臉檢測算法提取人臉在圖像中的位置;如果檢測到場景中存在有多個(gè)人臉圖像,挑選出最大的人臉圖像開始跟蹤,在后續(xù)幀中持續(xù)跟蹤該人臉,如相鄰幀中后一幀與前一幀的跟蹤結(jié)果的相似度過低,或某個(gè)跟蹤目標(biāo)所在區(qū)域長時(shí)間未檢測到正面直立人臉,則停止跟蹤。
所述歸一化處理通過重采樣算法實(shí)現(xiàn)所述的重采樣算法為縮放、旋轉(zhuǎn)和平移變換,使檢測的人眼的位置與人眼分類器的位置重疊進(jìn)行定位。
所述的對(duì)人臉器官定位是采用目標(biāo)提取方法,該目標(biāo)提取方法為主動(dòng)形狀模型算法。
所述的主動(dòng)形狀模型算法的具體步驟為由視頻數(shù)據(jù)中提取人臉的輪廓信息,建立樣本單元;對(duì)樣本單元中的樣本進(jìn)行歸一化和對(duì)齊處理,然后進(jìn)行主分量分析變換;對(duì)主分量分析變換后的輪廓信息中每個(gè)控制點(diǎn)的灰度信息,作為點(diǎn)搜索的依據(jù);將主分量分析計(jì)算得到的平均輪廓作為輪廓搜索的初始值,進(jìn)行迭代搜索,得到最終結(jié)果。
所述的迭代搜索的步驟是根據(jù)灰度信息來獲得初始的平移值,將根據(jù)灰度搜索得到的新的輪廓對(duì)齊到平均輪廓,計(jì)算對(duì)齊的參數(shù)值;根據(jù)對(duì)齊后的數(shù)據(jù)和主分量分析計(jì)算的統(tǒng)計(jì)值來計(jì)算形狀的變化值;根據(jù)對(duì)齊的參數(shù)值將變化后的形狀反算到原來的位置得到一次搜索的結(jié)果;重復(fù)上述搜索步驟,繼續(xù)進(jìn)行迭代直到收斂得到最終結(jié)果。
所述的生成特征臉是將提取出來的人臉輪廓與人臉分類器中的人臉對(duì)比,進(jìn)行傾斜度調(diào)整。
在生成特征臉與計(jì)算特征臉圖像的Gabor特征之間還存在對(duì)生成的特征臉進(jìn)行處理的步驟對(duì)形成的特征臉的左右部分進(jìn)行灰度的歸一化,使左右部分的灰度均值和方差相同。
所述的特征臉的左右部分之間設(shè)有灰度過濾帶。
所建立的支持向量機(jī)分類器為多類分類器,為一對(duì)一、一對(duì)多或決策樹形。
本發(fā)明還提出一種基于視頻的面部表情識(shí)別裝置,包括視頻數(shù)據(jù)采集單元,圖像處理單元、人臉信息數(shù)據(jù)庫以及面部表情識(shí)別單元;視頻數(shù)據(jù)采集單元對(duì)視頻的人臉圖像進(jìn)行采集并將其傳送給圖像處理單元;圖像處理單元從人臉信息數(shù)據(jù)庫中調(diào)取人臉信息與采集的人臉圖像進(jìn)行對(duì)比,再對(duì)人臉數(shù)據(jù)進(jìn)行計(jì)算,將計(jì)算后的數(shù)據(jù)傳送給所述的面部表情識(shí)別單元;面部表情識(shí)別單元根據(jù)人臉信息數(shù)據(jù)庫中存儲(chǔ)的識(shí)別信息對(duì)采集的人臉圖像進(jìn)行識(shí)別。
還包括顯示單元,將識(shí)別出來的面部表情顯示出來。
所述的圖像處理單元包括比較單元、特征生成單元、計(jì)算單元以及分類器單元;所述的比較單元將人臉的圖像信息與人臉數(shù)據(jù)庫中的圖像信息做出對(duì)比,檢測出人臉以及雙眼,并根據(jù)雙眼位置提取出人臉圖像,將該人臉信息傳送至特征生成單元;所述的特征生成單元對(duì)人臉器官定位,根據(jù)人臉下巴生成特征臉,將特征臉作為樣本傳送至計(jì)算單元;所述的計(jì)算單元計(jì)算特征臉圖像的Gabor特征,并采用AdaBoost算法挑選特征,再將挑選的特征傳送至分類器單元;所述的分類器單元根據(jù)挑選的特征構(gòu)造支持向量機(jī)分類器,將分類器信息傳送至面部表情識(shí)別單元。
所述的視頻數(shù)據(jù)采集單元中還包含一視頻數(shù)據(jù)追蹤單元,該視頻數(shù)據(jù)追蹤單元對(duì)視頻數(shù)據(jù)的人臉數(shù)據(jù)進(jìn)行追蹤檢測,判斷是否對(duì)輸入數(shù)據(jù)采集。
本發(fā)明上述的方法的技術(shù)方案,使得在視頻情況能自動(dòng)提取準(zhǔn)確的人臉的面部表情,并且本方法采用了Adaboost以及ASM算法,可以消除光照的影響,在方法中對(duì)人臉圖像進(jìn)行了專門處理,使人臉的左右部分的灰度均值和方差基本一致,并且本發(fā)明的方法針對(duì)常用的USB攝像頭的視頻數(shù)據(jù)來開發(fā)一個(gè)可以對(duì)人臉進(jìn)行實(shí)時(shí)自動(dòng)檢測、跟蹤并能識(shí)別出正面人臉常見的四種表情的算法,可以達(dá)到較佳的技術(shù)以及商用效果。
圖1為本發(fā)明的基于視頻的面部表情識(shí)別的方法流程圖。
圖2為本發(fā)明的基于視頻的面部表情識(shí)別方法的實(shí)施例中表情采集示意圖。
圖3為人臉圖像形狀的歸一化處理示意圖。
圖4為ASM算法的檢測示意圖。
圖5a所示為采集到的人臉輪廓的特征臉。
圖5b所示為標(biāo)準(zhǔn)特征臉。
圖6為特征臉生成的示意圖。
圖7為在進(jìn)行特征人臉圖像的Gabor特征計(jì)算時(shí),圖像在不同尺度、不同角度下的Gabor特征示意圖。
圖8為本發(fā)明所述的一對(duì)一分類器的示意圖。
圖9為本發(fā)明所述的方法的識(shí)別效果圖。
圖10為本發(fā)明所述的裝置的結(jié)構(gòu)框圖。
具體實(shí)施例方式
本發(fā)明給出一種基于視頻的人臉面部表情識(shí)別方法,該方法是針對(duì)常用的USB攝像頭的視頻數(shù)據(jù)而做出的,該方法可以對(duì)人臉進(jìn)行實(shí)時(shí)自動(dòng)檢測、跟蹤并能識(shí)別正面人臉常見的表情。
參考本發(fā)明的圖1所示,為本發(fā)明所述的識(shí)別方法的流程圖,其具體包括的步驟如下首先,采集人臉表情圖像,該采集步驟具體是從USB攝像頭輸入的視頻數(shù)據(jù)中采集人臉的面部表情圖像數(shù)據(jù),對(duì)該圖像數(shù)據(jù)做預(yù)處理;在本發(fā)明的實(shí)施例中,該采集圖像過程中,還包括一個(gè)人臉數(shù)據(jù)追蹤的步驟,該步驟的目的是實(shí)時(shí)檢測拍攝場景中的多個(gè)人臉,對(duì)其中一個(gè)人臉如最大的人臉持續(xù)跟蹤,并在跟蹤過程中不斷驗(yàn)證,判斷人臉的存在與否。該追蹤步驟可檢測-20到20度深度旋轉(zhuǎn)、-20到20度平面旋轉(zhuǎn)的人臉,可檢測不同膚色的、不同光照條件下的人臉、或者帶眼鏡的人臉等。跟蹤算法不受人臉姿態(tài)的影響,側(cè)面、旋轉(zhuǎn)人臉同樣可以跟蹤。
該追蹤步驟是采用以下方式實(shí)現(xiàn)的
在未獲取跟蹤目標(biāo)前,對(duì)每幀圖像進(jìn)行搜索,檢測人臉是否存在;如果某幀圖像檢測到一個(gè)或多個(gè)人臉,則在接下來的兩幀圖像中跟蹤這些人臉,并對(duì)這兩幀圖像中跟蹤的人臉進(jìn)行檢測和驗(yàn)證,判斷前面的檢測結(jié)果是否是真人臉;只有在某個(gè)位置三幀都檢測到人臉后,算法才認(rèn)為該位置人臉存在,繼續(xù)對(duì)人臉圖像進(jìn)行判斷識(shí)別。在此跟蹤步驟中,如果場景中存在有多個(gè)人臉,選擇其中一個(gè)進(jìn)行跟蹤。在后續(xù)幀中持續(xù)跟蹤該人臉,如果相鄰幀中后一幀與前一幀的跟蹤結(jié)果的相似度過低,則停止跟蹤;如果某個(gè)跟蹤目標(biāo)所在區(qū)域長時(shí)間未檢測到正面直立人臉,則認(rèn)為該目標(biāo)的跟蹤價(jià)值不大,停止跟蹤該目標(biāo)。當(dāng)前一個(gè)跟蹤目標(biāo)停止跟蹤后,在后續(xù)圖像中重新進(jìn)行人臉檢測,直到找到新的人臉,跟蹤新的人臉,重復(fù)人臉追蹤的步驟。
參考圖1所示的內(nèi)容,采集到人臉表情圖像后,然后進(jìn)行人臉檢測步驟,本實(shí)施例中的人臉檢測,實(shí)際上是采用基于視頻的實(shí)時(shí)人臉檢測算法實(shí)時(shí)提取人臉在預(yù)處理后圖像中的位置;該識(shí)別方式可參考圖2所示,目前的算法可以對(duì)不同表情進(jìn)行識(shí)別,例如中性、笑、生氣和驚訝等表情,而識(shí)別的算法基于統(tǒng)計(jì)原理。在進(jìn)行本發(fā)明所述的方法的識(shí)別之前,必須首先大量的采集樣本,可以由USB相機(jī)錄下被采集者的表情視頻,從視頻文件中分離出的包含人臉表情的圖像被作為用來進(jìn)行統(tǒng)計(jì)的初始樣本,形成初始樣本,以便在識(shí)別過程中采用。
在本發(fā)明所述的方法中,人臉檢測的目的是確定人臉在采集到的圖像中的位置,確定了人臉的位置,就可以進(jìn)行雙眼的檢測。同時(shí)參看圖1中的雙眼檢測步驟,該步驟是依據(jù)人眼分類器對(duì)確定出的圖像中的人臉中的人眼做出定位;本步驟是在檢測到的人臉的圖像區(qū)域之后,基于人眼分類器來確定人眼的位置,人眼分類器一般基于統(tǒng)計(jì)的方法檢測而建立,即首先根據(jù)人眼樣本來訓(xùn)練出分類器,然后根據(jù)分類器來進(jìn)行檢測。
參見圖1以及圖3所示的內(nèi)容,根據(jù)雙眼位置提取出只包含人臉的圖像,該步驟是根據(jù)確定的人眼的位置和人眼分類器的信息提取包含人臉的圖像區(qū)域,進(jìn)行歸一化處理。歸一化的過程可參見圖3的內(nèi)容,由圖3a中視頻采集的圖像參照?qǐng)D3b中的標(biāo)準(zhǔn)的人臉模板,最終得到圖3c所示的歸一化的結(jié)果。這是由于在視頻情況下人臉的區(qū)域會(huì)隨真實(shí)人臉距離USB攝像頭的遠(yuǎn)近而發(fā)生大小的變化,這對(duì)器官定位的算法是很不利的,在檢測出雙眼的位置后,需要從原始視頻數(shù)據(jù)中重采樣出一個(gè)圖像,圖像中雙眼位置是固定的而且連線是水平的,重采樣后的圖像覆蓋了人臉的全部區(qū)域。
重采樣的算法是一個(gè)簡單的縮放、旋轉(zhuǎn)和平移變換,即將檢測到的雙眼經(jīng)過上述的變換后和標(biāo)準(zhǔn)臉圖像中的雙眼位置重疊。標(biāo)準(zhǔn)圖像的大小可以為120*148。具體的計(jì)算公式為x=λ(x′cosθ+y′sinθ)+x0y=λ(-x′sinθ+y′cosθ)+y0設(shè)λcosθ=a,λsinθ=b,那么公式可以寫為x=ax′+by′+x0y=-bx′+ay′+y0在上述公式中只有四個(gè)未知數(shù),每個(gè)點(diǎn)可以列出兩個(gè)方程,兩個(gè)點(diǎn)就可以解出所有未知數(shù)。所以可以通過雙眼的位置來進(jìn)行這個(gè)變換。
經(jīng)過上述重采樣算法處理得到的人臉圖像和事先訓(xùn)練的標(biāo)準(zhǔn)圖像的大小相同,檢測到的雙眼(圖3中的×點(diǎn))在經(jīng)過旋轉(zhuǎn)和平移后和標(biāo)準(zhǔn)圖像中的雙眼位置是相同的。
在進(jìn)行上述人臉圖像的提取后,繼續(xù)參見圖1,進(jìn)行人臉器官定位,該定位人臉器官采用目標(biāo)提取算法實(shí)現(xiàn),在本發(fā)明的實(shí)施例中可采用ASM(Active Shape Model,主動(dòng)形狀模型)算法實(shí)現(xiàn),該步驟的目的是準(zhǔn)確的提取出人臉的區(qū)域,并去掉圖像中不相關(guān)的背景信息。本發(fā)明的方法中需要定出人臉的大致輪廓的位置,ASM引入已有的人臉輪廓的統(tǒng)計(jì)信息作為約束條件,在輪廓搜索中用來控制輪廓形狀的變化。利用ASM的方法可快速、準(zhǔn)確的提取出人臉的輪廓,對(duì)人臉器官定位。
其中,所述的ASM算法的具體步驟為首先,由視頻數(shù)據(jù)中提取人臉的輪廓信息,建立樣本單元;然后,對(duì)樣本單元中的樣本進(jìn)行歸一化和對(duì)齊處理,然后進(jìn)行主分量分析(principal components analysis,簡稱PCA)變換;對(duì)PCA變換中處理的輪廓信息中每個(gè)控制點(diǎn)的灰度信息,作為點(diǎn)搜索的依據(jù);進(jìn)而將主分量分析計(jì)算得到的平均輪廓作為輪廓搜索的初始值,進(jìn)行迭代搜索,得到最終結(jié)果。
在進(jìn)行ASM算法的時(shí)候,該迭代搜索的具體步驟是根據(jù)灰度信息來獲得初始的平移值,將根據(jù)灰度搜索得到的新的輪廓對(duì)齊到平均輪廓,計(jì)算對(duì)齊的參數(shù)值;根據(jù)對(duì)齊后的數(shù)據(jù)和主分量分析計(jì)算的統(tǒng)計(jì)值來計(jì)算形狀的變化值;根據(jù)對(duì)齊的參數(shù)值將變化后的形狀反算到原來的位置得到一次搜索的結(jié)果;重復(fù)搜索步驟,進(jìn)行迭代直到收斂得到最終結(jié)果。
在本發(fā)明所述的方法中,為了提高搜索的速度和準(zhǔn)確度,還可以引入金字塔影像,用來進(jìn)行分級(jí)搜索。并且,本發(fā)明進(jìn)行ASM算法的時(shí)候,由于引入了PCA計(jì)算統(tǒng)計(jì)方法來控制人臉輪廓的變化,使得ASM的算法能夠較為準(zhǔn)確的找出人臉的輪廓,算法的速度也較快,迭代搜索的計(jì)算在1秒之內(nèi)就能夠收斂,在本發(fā)明的算法方案中,可以利用檢測到的人眼的位置來確定輪廓的初始位置,同時(shí)為了提高器官定位的精度,本發(fā)明使數(shù)據(jù)庫中存儲(chǔ)的圖像大小和實(shí)際檢測的圖像大小一致。實(shí)施本發(fā)明的時(shí)候,實(shí)際上也可以采用AAM(Active Aspect Model,主動(dòng)外觀模型)算法實(shí)現(xiàn)對(duì)人臉的輪廓的查找,由于該算法在現(xiàn)有技術(shù)中常常應(yīng)用,所以在本實(shí)施例中不再贅述。
通過上述描述,結(jié)合圖4所示的內(nèi)容可以看出,本發(fā)明的算法可以較好的恢復(fù)人臉中下巴的位置,可以很好的保持輪廓的整體形狀。
繼續(xù)參看圖1的內(nèi)容,進(jìn)行人臉器官定位后,再根據(jù)對(duì)人臉器官的定位確定人臉下巴的位置,確定圖像中的人臉區(qū)域,生成特征臉,并作為分類樣本;在本步驟中間,生成特征臉的時(shí)候,用于分類的樣本應(yīng)該包含人臉的主要區(qū)域,并且去掉會(huì)影響識(shí)別效果的那些無用信息,在人臉表情識(shí)別的過程中,在只考慮正面人臉表情識(shí)別的情況下,影響識(shí)別的主要因素是背景和光照。本發(fā)明的方法是根據(jù)ASM算法提取出下巴的位置,可以將圖像中的人臉區(qū)域單獨(dú)提取出來作為一個(gè)用于面部表情識(shí)別的特征臉圖像,特征臉的大小是固定的,一般特征臉的大小設(shè)置為64*64能夠滿足識(shí)別率和速度方面的要求,特征臉如果太小那么識(shí)別率會(huì)降低,太大則會(huì)影響算法的效率。
同時(shí)結(jié)合圖5和圖6所示的內(nèi)容,其中圖5a為采集到的特征臉,圖5b為標(biāo)準(zhǔn)特征臉,圖5a由上至下依次具有多條平行的直線,由直線的位置可見,其中一條線確定了人臉下巴的位置,而圖5b所示的是人臉分類器中的標(biāo)準(zhǔn)特征臉,該標(biāo)準(zhǔn)特征臉是進(jìn)行識(shí)別之前訓(xùn)練所得到,該圖上也由上至下標(biāo)示了與圖5a中同樣數(shù)目的多條相互平行的線條,與圖5a相應(yīng)的線條的位置同樣可以確定臉下巴的位置;由于圖5a與圖5b的比較可以看出,依據(jù)視頻輸入實(shí)際提取出來的人臉輪廓的大小和標(biāo)準(zhǔn)特征臉的大小并不相同,而且可能存在傾斜。本發(fā)明的方法可以沿計(jì)算出來的傾斜角度來進(jìn)行采樣,如圖5a中所示的多條線條,對(duì)應(yīng)了圖5b中的同樣數(shù)目的線條,對(duì)應(yīng)線條之間的關(guān)系可以將實(shí)際的人臉區(qū)域重采樣為和標(biāo)準(zhǔn)特征臉大小完全一致的圖像,通過這樣的采樣后可以將視頻中檢測到的人臉轉(zhuǎn)換為與標(biāo)準(zhǔn)特征臉大小一致,且角度一致的人臉圖像。這是一個(gè)對(duì)采集到的人臉圖像進(jìn)行標(biāo)準(zhǔn)化處理的過程,這里的標(biāo)準(zhǔn)化是指將視頻中檢測到的人臉經(jīng)過幾何變換使之和我們?cè)O(shè)定的標(biāo)準(zhǔn)特征臉一致。標(biāo)準(zhǔn)化的目的是為了方便樣本的生成和特征的提取,提高識(shí)別的精度。
同時(shí)參考圖6的內(nèi)容,左圖為從視頻數(shù)據(jù)中提取出來的人臉圖像,右邊是經(jīng)過重采樣后得到的特征臉,該特征臉大小優(yōu)選為64*64。本發(fā)明的識(shí)別是基于圖像灰度信息,所以光照會(huì)影響到我們最終的識(shí)別結(jié)果,為了去除光照影響,我們對(duì)生成的特征臉進(jìn)行處理。方法是對(duì)特征臉的左右分別進(jìn)行灰度的歸一化,使左右部分的灰度均值和方差都相同。同時(shí)為了避免中間存在一個(gè)灰度的跳躍,依據(jù)本方法在左右臉的中間設(shè)立了一個(gè)灰度的過渡帶,使灰度能夠平滑的從臉的左部過渡到右部。
繼續(xù)參見圖1的內(nèi)容,生成特征臉后,對(duì)計(jì)算所述的特征臉圖像的Gabor特征;如圖7所示對(duì)特征臉圖像的每個(gè)像素可以計(jì)算5個(gè)尺度,6個(gè)方向上的Gabor特征,即每個(gè)像素可以得到一個(gè)30維的向量,64*64的圖像所有像素點(diǎn)的Gabor特征集中在一起可以得到一個(gè)122880維的特征向量。在實(shí)際計(jì)算中,為了加快計(jì)算的速度,本發(fā)明采用快速傅立葉變換(FFT)來計(jì)算Gabor特征。
參見圖1所示的內(nèi)容,在計(jì)算特征臉圖像的Gabor特征后,需要對(duì)計(jì)算出的Gabor特征進(jìn)行選擇;在本發(fā)明所述的方法中,根據(jù)特征臉計(jì)算出來的Gabor特征矢量的維數(shù)高達(dá)122880維,這會(huì)給本發(fā)明的訓(xùn)練和計(jì)算帶來很大的麻煩,導(dǎo)致算法效率低下,因此,本發(fā)明采用AdaBoost算法來挑選特征,該Adaboost方法從原始矢量中提取出最為有效的一部分特征,作為分類的樣本。AdaBoost算法的基本原理是將弱分類器不斷的組合在一起,形成一個(gè)分類能力很強(qiáng)的強(qiáng)分類器。在運(yùn)用AdaBoost進(jìn)行計(jì)算的過程中,我們可以挑選出分類能力最好的一系列特征,并根據(jù)訓(xùn)練得到的權(quán)重來得到最終的分類器。Adaboost算法本身是通過改變數(shù)據(jù)分布來實(shí)現(xiàn)的,它根據(jù)每次訓(xùn)練集中每個(gè)例子的分類是否正確,以及上次的總體分類準(zhǔn)確率,來確定每個(gè)例子的權(quán)重值。將每次訓(xùn)練得到的分類器最后融合起來,作為最后的決策分類器。
參考圖1和圖8所示的內(nèi)容,在進(jìn)行特征挑選后,由挑選的特征構(gòu)造支持向量機(jī)(SVM)分類器;例如,本發(fā)明的方法采用AdaBoost算法來挑選出了2000維特征作為訓(xùn)練樣本,當(dāng)然在實(shí)際應(yīng)用中也可以選擇3000維、4000維等特征作為訓(xùn)練樣本,在本實(shí)施例中以2000維為例,并構(gòu)成SVM分類器,在本實(shí)施例中,基本上要區(qū)分四類表情,因此是多類的分類器。實(shí)際上多類分類器是相對(duì)簡單的兩類分類器而言的。在本發(fā)明的實(shí)施例中,由于至少要識(shí)別四種表情,每種表情可以看作是一個(gè)類,所以是一個(gè)多類分類器。而SVM是可以構(gòu)造出線性分類器和非線性分類器。在本發(fā)明的方法中,兩種分類器都可以實(shí)現(xiàn),但是采用線性分類器來進(jìn)行識(shí)別的速度會(huì)快一些。所以在不影響識(shí)別率的情況下,采用線性分類器是本發(fā)明的一個(gè)較佳實(shí)施方式。本發(fā)明中所述的多類分類器的設(shè)計(jì)可以有多種選擇一對(duì)一,一對(duì)多,決策樹等。一對(duì)一是在每兩個(gè)類之間設(shè)計(jì)一個(gè)分類器,比如本發(fā)明具有四個(gè)類別,那么就具有6種組合,本發(fā)明就可以構(gòu)建得到6個(gè)分類器。如果是一對(duì)多,那個(gè)我們可以在每個(gè)類和其他類之間設(shè)計(jì)一個(gè)分類器,四個(gè)類別就可以得到四個(gè)分類器。復(fù)雜的還可以設(shè)計(jì)決策樹。
在本實(shí)施例中,以一對(duì)一的設(shè)計(jì)方法進(jìn)行說明,一對(duì)一分類器的作用就是把兩個(gè)類進(jìn)行劃分。在表情識(shí)別中,將任意兩個(gè)類的組合(如四種表情就有6種組合)都用上面的方法來設(shè)計(jì)分類器,就可以得到6個(gè)一對(duì)一的分類器。利用這些一對(duì)一的分類器,我們就可以區(qū)分四種表情。
其原理可如圖8所示,采用6根線條來表示6個(gè)分類器,其中線條11將中性表情和笑的表情分開;線條12條將憤怒和笑的表情分開;線條13將驚訝和笑的表情分開;線條21將中性表情和憤怒的表情分開;線條22將中性表情和驚訝的表情分開;線條23是將驚訝與憤怒的表情分開。
最后,參見圖1,得到SVM分類器之后,本發(fā)明的就可以進(jìn)行實(shí)時(shí)的人臉表情識(shí)別,在本發(fā)明實(shí)施過程中,首先對(duì)視頻中的每一幀進(jìn)行人臉檢測,然后對(duì)人臉進(jìn)行跟蹤并提取出雙眼的位置;如果跟蹤成功,就對(duì)當(dāng)前的圖像中的人臉進(jìn)行表情識(shí)別,并實(shí)時(shí)給出識(shí)別的結(jié)果;同時(shí)參看圖9所示的內(nèi)容,左邊為USB攝像頭輸入的視頻數(shù)據(jù),右邊的小窗口是面部表情識(shí)別的結(jié)果。
本發(fā)明的方法可以應(yīng)用于一種基于視頻的面部表情識(shí)別裝置,如圖10所示,所述裝置包括視頻數(shù)據(jù)采集單元1,圖像處理單元2、人臉信息數(shù)據(jù)庫3以及面部表情識(shí)別單元4;視頻數(shù)據(jù)采集單元1對(duì)視頻的人臉圖像進(jìn)行采集并將其傳送給圖像處理單元2;圖像處理單元2從人臉信息數(shù)據(jù)庫3中調(diào)取人臉信息由圖像處理單元2中的比較單元121將兩者的圖像對(duì)比,并采用AdaBoost計(jì)算單元123對(duì)人臉數(shù)據(jù)進(jìn)行計(jì)算傳送給所述的面部表情識(shí)別單元4;面部表情識(shí)別單元4根據(jù)人臉信息數(shù)據(jù)庫3中存儲(chǔ)的識(shí)別信息對(duì)采集的人臉圖像進(jìn)行識(shí)別。該裝置還包括顯示單元5,將識(shí)別出來的面部表情顯示出來。
其中所述的圖像處理單元2包括比較單元121、特征生成單元122、計(jì)算單元123以及分類器單元124;所述的比較單元121將人臉的圖像信息與人臉數(shù)據(jù)庫3中的圖像信息做出對(duì)比,檢測出人臉以及雙眼,并根據(jù)雙眼位置提取出人臉圖像,將該人臉圖像信息傳送至特征生成單元122;所述的特征生成單元122對(duì)人臉器官定位,根據(jù)人臉下巴生成特征臉,將特征臉作為樣本傳送至計(jì)算單元123;所述的計(jì)算單元123計(jì)算特征臉圖像的Gabor特征,并采用AdaBoost算法挑選特征,再將挑選的特征傳送至分類器單元124;所述的分類器單元124根據(jù)挑選的特征構(gòu)造支持向量機(jī)分類器,將分類器信息傳送至面部表情識(shí)別單元4。所述的視頻數(shù)據(jù)采集單元1中還包含一視頻數(shù)據(jù)追蹤單元111,該視頻數(shù)據(jù)追蹤單元111對(duì)視頻數(shù)據(jù)的人臉數(shù)據(jù)進(jìn)行追蹤檢測,判斷是否采集,執(zhí)行本發(fā)明方法中的追蹤人臉步驟。
本發(fā)明所述的方法使得在視頻情況能自動(dòng)提取準(zhǔn)確的人臉的面部表情,并且本方法采用了Adaboost以及ASM算法,可以消除光照的影響,在方法中對(duì)人臉圖像進(jìn)行了專門處理,使人臉的左右部分的灰度均值和方差基本一致,并且本發(fā)明的方法針對(duì)常用的USB攝像頭的視頻數(shù)據(jù)來開發(fā)一個(gè)可以對(duì)人臉進(jìn)行實(shí)時(shí)自動(dòng)檢測、跟蹤并能識(shí)別出正面人臉常見表情的算法,可以達(dá)到較佳的商用效果。
以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種基于視頻的面部表情識(shí)別方法,其特征在于,包括以下步驟從USB攝像頭輸入的視頻數(shù)據(jù)中采集人臉的面部表情圖像數(shù)據(jù),對(duì)該圖像數(shù)據(jù)做預(yù)處理;實(shí)時(shí)提取人臉在預(yù)處理后圖像中的位置;依據(jù)人眼分類器對(duì)確定出的圖像中的人臉中的人眼做出定位;根據(jù)確定的人眼的位置和人臉分類器的信息提取包含人臉的圖像區(qū)域,進(jìn)行歸一化處理;對(duì)人臉器官定位;根據(jù)對(duì)人臉器官的定位確定人臉下巴的位置,確定圖像中的人臉區(qū)域,生成特征臉,并作為分類樣本;基于所述的分類樣本計(jì)算所述的特征臉圖像的Gabor特征;對(duì)計(jì)算出的Gabor特征進(jìn)行選擇;由挑選的特征構(gòu)造支持向量機(jī)分類器;根據(jù)構(gòu)造的分類器得出人臉表情識(shí)別結(jié)果。
2.如權(quán)利要求1所述的基于視頻的面部表情識(shí)別方法,其特征在于,從USB攝像頭輸入的數(shù)據(jù)進(jìn)行采集的時(shí)候,包括以下人臉跟蹤步驟在未獲取跟蹤目標(biāo)前,搜索每幀圖像,檢測人臉是否存在;如果檢測到某幀圖像存在一個(gè)或多個(gè)人臉,則在接下來的兩幀圖像中跟蹤檢測到的人臉,并對(duì)這兩幀圖像中跟蹤的人臉進(jìn)行檢測和驗(yàn)證,對(duì)檢測結(jié)果作出判斷;在同一個(gè)位置三幀圖像都檢測到人臉后,算法才認(rèn)為該位置存在有人臉,此時(shí)執(zhí)行實(shí)時(shí)人臉檢測算法提取人臉在圖像中的位置;如果檢測到場景中存在有多個(gè)人臉,挑選出其中一個(gè)人臉開始跟蹤,在后續(xù)幀中持續(xù)跟蹤該人臉,如相鄰幀中后一幀與前一幀的跟蹤結(jié)果的相似度過低,或某個(gè)跟蹤目標(biāo)所在區(qū)域長時(shí)間未檢測到正面直立人臉,則停止跟蹤。
3.如權(quán)利要求1所述的基于視頻的面部表情識(shí)別方法,其特征在于,所述歸一化處理通過重采樣算法實(shí)現(xiàn)所述的重采樣算法為縮放、旋轉(zhuǎn)和平移變換,使檢測的人眼的位置與人眼分類器的位置重疊進(jìn)行定位。
4.如權(quán)利要求1所述的在視頻情況下的面部表情識(shí)別方法,其特征在于,所述的對(duì)人臉器官定位是采用目標(biāo)提取方法,該目標(biāo)提取方法為主動(dòng)形狀模型算法。
5.如權(quán)利要求4所述的基于視頻的面部表情識(shí)別方法,其特征在于,所述的主動(dòng)形狀模型算法的具體步驟為由視頻數(shù)據(jù)中提取人臉的輪廓信息,建立樣本單元;對(duì)樣本單元中的樣本進(jìn)行歸一化和對(duì)齊處理,然后進(jìn)行主分量分析變換;對(duì)主分量分析變換后的輪廓信息中每個(gè)控制點(diǎn)的灰度信息,作為點(diǎn)搜索的依據(jù);將主分量分析計(jì)算得到的平均輪廓作為輪廓搜索的初始值,進(jìn)行迭代搜索,得到人臉輪廓。
6.如權(quán)利要求5所述的基于視頻的面部表情識(shí)別方法,其特征在于,所述的迭代搜索的步驟是根據(jù)灰度信息來獲得初始的平移值,將根據(jù)灰度搜索得到的新的輪廓對(duì)齊到平均輪廓,計(jì)算對(duì)齊的參數(shù)值;根據(jù)對(duì)齊后的數(shù)據(jù)和主分量分析計(jì)算的統(tǒng)計(jì)值來計(jì)算形狀的變化值;根據(jù)對(duì)齊的參數(shù)值將變化后的形狀反算到新輪廓的位置得到一次搜索的結(jié)果;重復(fù)上述搜索步驟,繼續(xù)進(jìn)行迭代直到收斂得到人臉輪廓。
7.如權(quán)利要求1所述的基于視頻的面部表情識(shí)別方法,其特征在于,所述特征臉的生成是將提取出來的人臉輪廓與人臉分類器中的人臉對(duì)比,進(jìn)行傾斜度調(diào)整。
8.如權(quán)利要求1所述的基于視頻的面部表情識(shí)別方法,其特征在于,在生成特征臉與計(jì)算特征臉圖像的Gabor特征之間還存在對(duì)生成的特征臉進(jìn)行處理的步驟對(duì)形成的特征臉的左右部分進(jìn)行灰度的歸一化,使左右部分的灰度均值和方差相同。
9.如權(quán)利要求8所述的基于視頻的面部表情識(shí)別方法,其特征在于,在所述的特征臉左右部分之間設(shè)置灰度過濾帶。
10.如權(quán)利要求1所述的基于視頻的面部表情識(shí)別方法,其特征在于,所建立的支持向量機(jī)分類器為多類分類器,為一對(duì)一、一對(duì)多或決策樹形。
11.一種基于視頻的面部表情識(shí)別裝置,其特征在于包括視頻數(shù)據(jù)采集單元,圖像處理單元、人臉信息數(shù)據(jù)庫以及面部表情識(shí)別單元;視頻數(shù)據(jù)采集單元對(duì)視頻的人臉圖像進(jìn)行采集并將其傳送給圖像處理單元;圖像處理單元從人臉信息數(shù)據(jù)庫中調(diào)取人臉信息與采集的人臉圖像進(jìn)行對(duì)比,再對(duì)人臉數(shù)據(jù)進(jìn)行計(jì)算,將計(jì)算后的數(shù)據(jù)傳送給所述的面部表情識(shí)別單元;面部表情識(shí)別單元根據(jù)人臉信息數(shù)據(jù)庫中存儲(chǔ)的識(shí)別信息對(duì)采集的人臉圖像進(jìn)行識(shí)別。
12.如權(quán)利要求11所述的基于視頻的面部表情識(shí)別裝置,其特征在于,還包括顯示單元,將識(shí)別出來的面部表情顯示出來。
13.如權(quán)利要求11所述的基于視頻的面部表情識(shí)別裝置,其特征在于,所述的圖像處理單元包括比較單元、特征生成單元、計(jì)算單元以及分類器單元;所述的比較單元將人臉的圖像信息與人臉數(shù)據(jù)庫中的圖像信息做出對(duì)比,檢測出人臉以及雙眼,并根據(jù)雙眼位置提取出人臉圖像,將該人臉圖像信息傳送至特征生成單元;所述的特征生成單元對(duì)人臉器官定位,根據(jù)人臉下巴生成特征臉,將特征臉作為樣本傳送至計(jì)算單元;所述的計(jì)算單元計(jì)算特征臉圖像的Gabor特征,并采用AdaBoost算法挑選特征,再將挑選的特征傳送至分類器單元;所述的分類器單元根據(jù)挑選的特征構(gòu)造支持向量機(jī)分類器,將分類器信息傳送至面部表情識(shí)別單元。
14.如權(quán)利要求11所述的基于視頻的面部表情識(shí)別裝置,其特征在于,所述的視頻數(shù)據(jù)采集單元中還包含一視頻數(shù)據(jù)追蹤單元,該視頻數(shù)據(jù)追蹤單元對(duì)視頻數(shù)據(jù)的人臉數(shù)據(jù)進(jìn)行追蹤檢測,判斷是否對(duì)輸入數(shù)據(jù)進(jìn)行采集。
全文摘要
本發(fā)明提出一種基于視頻的面部表情識(shí)別方法及裝置,該方法在進(jìn)行實(shí)時(shí)視頻面部表情識(shí)別的時(shí)候,主要將ASM輪廓提取算法應(yīng)用到特征矢量的提取當(dāng)中,并根據(jù)人臉的眼睛的位置對(duì)人臉圖像進(jìn)行提取,由人臉下巴的位置生成歸一化的特征臉,用AdaBoost算法提取特征臉中最有效的特征,最終達(dá)到面部表情識(shí)別的目的。本發(fā)明在使用中可以消除光照的影響,在方法中對(duì)人臉圖像進(jìn)行了專門處理,使人臉的左右部分的灰度均值和方差基本一致,并且本發(fā)明的方法針對(duì)常用的USB攝像頭的視頻數(shù)據(jù)來對(duì)人臉進(jìn)行實(shí)時(shí)自動(dòng)檢測、跟蹤并能識(shí)別出正面人臉常見的四種表情的算法,可以達(dá)到較佳的技術(shù)以及商用效果。
文檔編號(hào)G06K9/00GK1794265SQ200510135670
公開日2006年6月28日 申請(qǐng)日期2005年12月31日 優(yōu)先權(quán)日2005年12月31日
發(fā)明者謝東海, 黃英, 王浩 申請(qǐng)人:北京中星微電子有限公司