專利名稱:用于估計(jì)對(duì)象姿態(tài)的設(shè)備和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于估計(jì)對(duì)象姿態(tài)的技術(shù),具體說來,涉及一種能夠?qū)τ趯?duì)象的連續(xù)姿態(tài)進(jìn)行估計(jì)的設(shè)備和方法。
背景技術(shù):
對(duì)象姿態(tài)估計(jì)是計(jì)算機(jī)視覺、人機(jī)交互和其它相關(guān)領(lǐng)域的一項(xiàng)重要內(nèi)容。例如,當(dāng)用戶的頭部作為進(jìn)行估計(jì)的對(duì)象時(shí),可通過估計(jì)用戶的連續(xù)頭部姿態(tài)來了解用戶所要表達(dá)的豐富的個(gè)性化信息,比如,演講者的頭部姿態(tài)可幫助別人了解他的演講內(nèi)容和情緒。此夕卜,對(duì)象(例如,頭部)姿態(tài)的估計(jì)結(jié)果可用于進(jìn)行更為友好的人機(jī)交互,例如,如果可通過估計(jì)頭部姿態(tài)得出用戶視線的焦點(diǎn),就能夠進(jìn)行更為有效的人機(jī)交互。目前的對(duì)象姿態(tài)估計(jì)方法大致上可分為基于跟蹤的方法和基于學(xué)習(xí)的方法這兩種。基于跟蹤的方法主要是在視頻序列中的當(dāng)前幀與前一幀之間,以成對(duì)配準(zhǔn)的方式來估計(jì)對(duì)象的姿態(tài),其優(yōu)點(diǎn)是短時(shí)間尺度下相對(duì)姿態(tài)精度較高,但是這種方法由于累積誤差容易產(chǎn)生跟蹤漂移,而當(dāng)對(duì)象旋轉(zhuǎn)幅度大或者運(yùn)動(dòng)快時(shí),又容易由于特征匹配錯(cuò)誤而跟蹤失敗。盡管可利用關(guān)鍵幀技術(shù)來解決跟蹤漂移問題,但是如何在現(xiàn)實(shí)中合理地選取并更新關(guān)鍵幀是個(gè)難以解決的問題。另一方面,基于學(xué)習(xí)的方法通常將對(duì)象姿態(tài)估計(jì)定義為分類問題或者回歸問題,通過具有標(biāo)簽的樣本來進(jìn)行訓(xùn)練,利用得到的訓(xùn)練模型來估計(jì)對(duì)象的姿態(tài)?;趯W(xué)習(xí)的方法的缺點(diǎn)在于:分類方法只能完成對(duì)象姿態(tài)的粗略估計(jì),而回歸方法在現(xiàn)實(shí)環(huán)境中易受影響,無(wú)法取得精確的估計(jì)結(jié)果。因此,盡管已就對(duì)象姿態(tài)估計(jì)進(jìn)行了大量的研究工作,但是在現(xiàn)實(shí)世界中用計(jì)算機(jī)視覺的方法連續(xù)穩(wěn)定地獲取對(duì)象姿態(tài)依然是個(gè)難題,特別是在光照變化劇烈,對(duì)象旋轉(zhuǎn)角度大或?qū)ο筮\(yùn)動(dòng)速度快等情況下更難實(shí)現(xiàn)有效的對(duì)象姿態(tài)估計(jì)。
發(fā)明內(nèi)容
本發(fā)明的示例性實(shí)施例在于提供一種用于估計(jì)對(duì)象姿態(tài)的設(shè)備和方法,從而克服現(xiàn)有技術(shù)中難以有效地實(shí)現(xiàn)對(duì)象姿態(tài)跟蹤的問題。根據(jù)本發(fā)明的一方面,提供一種用于估計(jì)對(duì)象姿態(tài)的設(shè)備,所述設(shè)備包括:對(duì)象輸入單元,用于將對(duì)象輸入到對(duì)象跟蹤單元和對(duì)象識(shí)別單元;對(duì)象跟蹤單元,用于基于跟蹤方法來獲取所述對(duì)象的跟蹤姿態(tài)概率密度;對(duì)象識(shí)別單元,用于基于訓(xùn)練模型來獲取所述對(duì)象的識(shí)別姿態(tài)概率密度;以及結(jié)合單元,用于通過將跟蹤姿態(tài)概率密度與識(shí)別姿態(tài)概率密度進(jìn)行融合來獲取所述對(duì)象的估計(jì)姿態(tài)概率密度,并基于所述對(duì)象的估計(jì)姿態(tài)概率密度來估計(jì)所述對(duì)象的對(duì)象姿態(tài)。所述設(shè)備還可包括:在線更新單元,用于基于由結(jié)合單元估計(jì)的所述對(duì)象姿態(tài)來更新對(duì)象識(shí)別單元的訓(xùn)練模型。所述對(duì)象識(shí)別單元可首先對(duì)包含輸入對(duì)象的圖像進(jìn)行Gabor小波變換,然后,從Gabor小波變換后的圖像提取對(duì)象的亮度分布,作為對(duì)象的特征,從而針對(duì)所述對(duì)象的特征基于訓(xùn)練模型來獲取所述對(duì)象的識(shí)別姿態(tài)概率密度。所述訓(xùn)練模型可以是隨機(jī)森林模型,并且,在線更新單元可通過以下處理來更新所述隨機(jī)森林模型:確定所述對(duì)象姿態(tài)是否為在線關(guān)鍵樣本,當(dāng)所述對(duì)象姿態(tài)為在線關(guān)鍵樣本時(shí),設(shè)置該在線關(guān)鍵樣本在隨機(jī)森林中的相應(yīng)葉節(jié)點(diǎn),并相應(yīng)地更新整個(gè)隨機(jī)森林模型。對(duì)象識(shí)別單元可計(jì)算出相鄰兩幀圖像中對(duì)象的相對(duì)姿態(tài),并利用該相對(duì)姿態(tài)來指導(dǎo)跟蹤姿態(tài)概率密度的傳播。所述對(duì)象可包括人的頭部。對(duì)象識(shí)別單元可通過以下處理來計(jì)算相鄰兩幀圖像中頭部的相對(duì)姿態(tài):基于人的頭部中的匹配特征點(diǎn)執(zhí)行POSIT處理,然后,利用正交迭代方法對(duì)POIST處理后內(nèi)圍的匹配特征點(diǎn)進(jìn)行處理。結(jié)合單元可以將跟蹤姿態(tài)概率密度作為基礎(chǔ),針對(duì)識(shí)別姿態(tài)概率密度中的每個(gè)識(shí)別姿態(tài)進(jìn)行密度融合來獲取所述對(duì)象的估計(jì)姿態(tài)概率密度。結(jié)合單元可將得到的估計(jì)姿態(tài)概率密度中的每種估計(jì)姿態(tài)進(jìn)行隨機(jī)擴(kuò)散,并基于隨機(jī)擴(kuò)散后的估計(jì)姿態(tài)概率密度來估計(jì)所述對(duì)象的對(duì)象姿態(tài)。當(dāng)結(jié)合單元基于隨機(jī)擴(kuò)散后的估計(jì)姿態(tài)概率密度來估計(jì)所述對(duì)象的對(duì)象姿態(tài)時(shí),所述結(jié)合單元可重新獲取估計(jì)姿態(tài)概率密度中每種估計(jì)姿態(tài)的概率值,其中,所述結(jié)合單元可計(jì)算每種估計(jì)姿態(tài)的最大似然值作為它的概率值。結(jié)合單元可將重新獲取的最大概率值對(duì)應(yīng)的估計(jì)姿態(tài)作為所述對(duì)象的估計(jì)姿態(tài)。根據(jù)本發(fā)明的另一方面,提供一種用于估計(jì)對(duì)象姿態(tài)的方法,所述方法包括:輸入待估計(jì)的對(duì)象;基于跟蹤方法來獲取所述對(duì)象的跟蹤姿態(tài)概率密度;基于訓(xùn)練模型來獲取所述對(duì)象的識(shí)別姿態(tài)概率密度;以及通過將跟蹤姿態(tài)概率密度與識(shí)別姿態(tài)概率密度進(jìn)行融合來獲取所述對(duì)象的估計(jì)姿態(tài)概率密度,并基于所述對(duì)象的估計(jì)姿態(tài)概率密度來估計(jì)所述對(duì)象的對(duì)象姿態(tài)。所述方法還可包括:基于估計(jì)的所述對(duì)象姿態(tài)來更新訓(xùn)練模型。基于跟蹤方法來獲取所述對(duì)象的跟蹤姿態(tài)概率密度的步驟可包括:計(jì)算出相鄰兩幀圖像中對(duì)象的相對(duì)姿態(tài),并利用該相對(duì)姿態(tài)來指導(dǎo)跟蹤姿態(tài)概率密度的傳播。基于跟蹤方法來獲取所述對(duì)象的跟蹤姿態(tài)概率密度的步驟可與基于訓(xùn)練模型來獲取所述對(duì)象的識(shí)別姿態(tài)概率密度的步驟被并行執(zhí)行。根據(jù)本發(fā)明的所述對(duì)象姿態(tài)估計(jì)設(shè)備和方法,能夠利用靜態(tài)的對(duì)象識(shí)別結(jié)果來影響動(dòng)態(tài)的對(duì)象跟蹤結(jié)果,從而解決對(duì)象跟蹤過程中的跟蹤漂移問題。
通過下面結(jié)合附圖進(jìn)行的對(duì)實(shí)施例的描述,本發(fā)明的上述和/或其它目的和優(yōu)點(diǎn)將會(huì)變得更加清楚,其中:圖1是示出根據(jù)本發(fā)明示例性實(shí)施例的對(duì)象姿態(tài)估計(jì)設(shè)備的框圖;圖2是示出根據(jù)本發(fā)明示例性實(shí)施例的對(duì)象姿態(tài)估計(jì)方法的流程圖;圖3是示出根據(jù)本發(fā)明示例性實(shí)施例的通過將跟蹤姿態(tài)概率密度與識(shí)別姿態(tài)概率密度進(jìn)行融合來估計(jì)對(duì)象姿態(tài)的示圖;以及圖4是示出根據(jù)本發(fā)明示例性實(shí)施例對(duì)訓(xùn)練模型進(jìn)行在線更新的效果圖。
具體實(shí)施例方式現(xiàn)將詳細(xì)參照本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中,相同的標(biāo)號(hào)始終指的是相同的部件。以下將通過參照附圖來說明所述實(shí)施例,以便解釋本發(fā)明。圖1是示出根據(jù)本發(fā)明示例性實(shí)施例的對(duì)象姿態(tài)估計(jì)設(shè)備的框圖。如圖1所示,根據(jù)本發(fā)明示例性實(shí)施例的對(duì)象姿態(tài)估計(jì)設(shè)備可包括:對(duì)象輸入單元10、對(duì)象跟蹤單元20、對(duì)象識(shí)別單元30和結(jié)合單元40。具體說來,對(duì)象輸入單元10用于將對(duì)象輸入到對(duì)象跟蹤單元20和對(duì)象識(shí)別單元30,應(yīng)注意,根據(jù)本發(fā)明示例性實(shí)施例的對(duì)象姿態(tài)可包括各種人體部位(例如,頭部、軀干、四肢等)的姿態(tài),還可包括非人體的各種對(duì)象的姿態(tài),例如,運(yùn)動(dòng)的物體等。對(duì)象跟蹤單元20基于跟蹤方法來獲取所述對(duì)象的跟蹤姿態(tài)概率密度,對(duì)象識(shí)別單元30基于訓(xùn)練模型來獲取所述對(duì)象的識(shí)別姿態(tài)概率密度,結(jié)合單元40將跟蹤姿態(tài)概率密度與識(shí)別姿態(tài)概率密度進(jìn)行融合,從而獲取所述對(duì)象的估計(jì)姿態(tài)概率密度,基于所述對(duì)象的估計(jì)姿態(tài)概率密度,結(jié)合單元40可估計(jì)出所述對(duì)象的對(duì)象姿態(tài)。從圖1可以看出,在根據(jù)本發(fā)明示例性實(shí)施例的對(duì)象姿態(tài)估計(jì)設(shè)備中,融合了動(dòng)態(tài)的姿態(tài)跟蹤結(jié)果和靜態(tài)的姿態(tài)識(shí)別結(jié)果,通過兩者的概率密度融合,可防止動(dòng)態(tài)的姿態(tài)跟蹤結(jié)果中的誤差被不斷累積,從而解決了跟蹤漂移問題。此外,作為附加部件,圖1的對(duì)象姿態(tài)估計(jì)設(shè)備還可包括在線更新單元50,該在線更新單元50可基于由結(jié)合單元40估計(jì)出的對(duì)象姿態(tài)來更新對(duì)象識(shí)別單元30中的訓(xùn)練模型。通過這種方式,可實(shí)質(zhì)上擴(kuò)充訓(xùn)練模型的樣本數(shù)量,并且所增加的樣本更符合真實(shí)環(huán)境,從而進(jìn)一步提高了訓(xùn)練模型的泛化性能。此外,這種在線更新的方式不需要對(duì)大部分的樣本進(jìn)行存儲(chǔ),對(duì)內(nèi)存的要求較低。本領(lǐng)域技術(shù)人員應(yīng)理解:本發(fā)明并不受限于圖1所示的對(duì)象姿態(tài)估計(jì)設(shè)備的具體結(jié)構(gòu),例如,對(duì)象輸入單元10或結(jié)合單元40可被并入對(duì)象跟蹤單元20或?qū)ο笞R(shí)別單元30中,而在線更新單元50也可被并入對(duì)象識(shí)別單元30中,另外,還可對(duì)上述單元進(jìn)行各種組合,以通過單個(gè)控制器來實(shí)現(xiàn)所組合的多個(gè)單元。也就是說,對(duì)于本領(lǐng)域技術(shù)人員而言,可對(duì)圖1所示的設(shè)備結(jié)構(gòu)進(jìn)行各種形式和細(xì)節(jié)上的變形,以執(zhí)行基本一致的操作。圖2是示出根據(jù)本發(fā)明示例性實(shí)施例的對(duì)象姿態(tài)估計(jì)方法的流程圖,可通過圖1所示的對(duì)象姿態(tài)估計(jì)設(shè)備來執(zhí)行所述對(duì)象姿態(tài)估計(jì)方法。參照?qǐng)D2,在步驟S100,由對(duì)象輸入單元10將對(duì)象輸入到對(duì)象跟蹤單元20和對(duì)象識(shí)別單元30。這里,所述對(duì)象的數(shù)據(jù)格式不需要受限于某種特定格式,任何能夠?qū)崿F(xiàn)對(duì)象跟蹤和對(duì)象識(shí)別的數(shù)據(jù)格式的圖像均可被應(yīng)用于本發(fā)明(例如,灰度圖像、RGB圖像、紅外圖像,深度圖像等)。此外,優(yōu)選地,在某些情況下,所述對(duì)象輸入單元10還可對(duì)諸如頭部的對(duì)象執(zhí)行AAM(主動(dòng)外觀模型)擬合以及面部定位等處理,以從原始圖像中分離出頭部,再將頭部作為待估計(jì)的對(duì)象輸入到對(duì)象跟蹤單元20和對(duì)象識(shí)別單元30。在步驟S200,由對(duì)象跟蹤單元200基于跟蹤方法來獲取所述對(duì)象的跟蹤姿態(tài)概率密度。具體說來,可將跟蹤的對(duì)象看作一個(gè)剛體,然后針對(duì)所述對(duì)象的每個(gè)觀測(cè)狀態(tài),通過最大化對(duì)象運(yùn)動(dòng)的后驗(yàn)概率來優(yōu)化跟蹤過程,從而得到跟蹤姿態(tài)概率密度。本領(lǐng)域的技術(shù)人員應(yīng)知曉,可利用諸如粒子濾波等各種跟蹤方法來實(shí)現(xiàn)對(duì)輸入對(duì)象的連續(xù)姿態(tài)的跟蹤,也就是說,任何能夠基于連續(xù)輸入的對(duì)象得出其跟蹤姿態(tài)概率分布的跟蹤方法均可應(yīng)用于本發(fā)明。優(yōu)選地,本發(fā)明還可采用一種改進(jìn)的跟蹤方式來獲取對(duì)象的跟蹤姿態(tài)概率密度,在該優(yōu)選方式下,對(duì)于成功配準(zhǔn)的相鄰兩幀圖像,對(duì)象跟蹤單元20計(jì)算出所述相鄰兩幀圖像的相對(duì)姿態(tài),并利用該相對(duì)姿態(tài)來指導(dǎo)跟蹤姿態(tài)概率密度的傳播,從而得到更為準(zhǔn)確的跟蹤姿態(tài)概率密度。以下將以頭部為例來具體說明對(duì)象跟蹤單元20根據(jù)上述優(yōu)選方式執(zhí)行操作的示例。對(duì)于成功配準(zhǔn)的相鄰兩幀圖像,假設(shè)針對(duì)前一幀圖像估計(jì)出的頭部姿態(tài)概率密度由粒子集Pyaw(N)和Ppitdl(N)表示,其中,Pyaw(N)表示頭部姿態(tài)的N個(gè)樣本的水平偏轉(zhuǎn)角(yaw)的概率分布,Ppitch(N)表示頭部姿態(tài)的N個(gè)樣本的垂直傾斜角(pitch)的概率分布。這里,對(duì)于第一幀圖像而言,由于其不具有前一幀圖像,因此,可選取概率值相同的任意粒子集Pyaw(N)和Ppitdl(N),或其它適當(dāng)?shù)念^部姿態(tài)概率密度作為其進(jìn)行姿態(tài)跟蹤的基礎(chǔ)。然后,對(duì)象跟蹤單元20針對(duì)所述相鄰兩幀圖像提取人臉上的二維特征點(diǎn)并建立相應(yīng)的對(duì)應(yīng)關(guān)系,然后,借助3D人臉模型,利用3D姿態(tài)估計(jì)方法(諸如POSIT方法),得到所述特征點(diǎn)的三維坐標(biāo),從而重建所述相鄰兩幀圖像的相對(duì)姿態(tài)St(R,T),其中,t指示當(dāng)前時(shí)刻,R指示相對(duì)姿態(tài)的旋轉(zhuǎn)矩陣,T指示相對(duì)姿態(tài)的平移向量。優(yōu)選地,為了進(jìn)一步確保收斂性,可在POSIT處理之后,進(jìn)一步利用正交迭代(01, orthogonal iteration)方法對(duì)內(nèi)圍的匹配特征點(diǎn)進(jìn)行處理。在計(jì)算相對(duì)姿態(tài)δ t (R,T)時(shí),可選取至少4對(duì)匹配的特征點(diǎn)以獲取能夠有效地影響對(duì)象姿態(tài)概率密度(即,恢復(fù)對(duì)象姿態(tài))的相對(duì)姿態(tài),為此,對(duì)象跟蹤單元20可隨機(jī)選取用于恢復(fù)對(duì)象姿態(tài)的匹配特征點(diǎn)的最小集,然后選取大量的可以計(jì)算相對(duì)姿態(tài)的匹配特征點(diǎn)。對(duì)每個(gè)恢復(fù)的對(duì)象姿態(tài),根據(jù)3D人臉模型的三維頂點(diǎn)到圖像平面的投影誤差計(jì)算其置信度。最后選取置信度最高的姿態(tài)作為重建的相對(duì)姿態(tài)St(R,T)。之后,粒子集P胃(N)和Ppitch(N)中的所有樣本都基于重建的相對(duì)姿態(tài)St(R,T)進(jìn)行調(diào)整更新,從而實(shí)現(xiàn)密度傳播過程。更新后的粒子集Pyaw(N)和Ppitdl(N)即為對(duì)象跟蹤單元20基于跟蹤算法得到的當(dāng)前幀圖像的跟蹤姿態(tài)概率分布。在步驟S300,由對(duì)象識(shí)別單元30基于訓(xùn)練模型來獲取當(dāng)前幀圖像中所述對(duì)象的識(shí)別姿態(tài)概率密度。根據(jù)本發(fā)明的示例性實(shí)施例,對(duì)象識(shí)別單元30可采用任意針對(duì)靜態(tài)圖像進(jìn)行對(duì)象姿態(tài)識(shí)別的方式來獲取識(shí)別姿態(tài)概率密度,從而通過與步驟S200中獲取的跟蹤姿態(tài)概率密度進(jìn)行融合以糾正對(duì)象跟蹤單元20中產(chǎn)生的累積誤差。這里,基于訓(xùn)練模型獲取識(shí)別姿態(tài)概率密度的方式有助于在復(fù)雜的真實(shí)環(huán)境(例如,光照變化強(qiáng)烈或出現(xiàn)嚴(yán)重的對(duì)象遮擋問題等)下補(bǔ)償跟蹤失敗導(dǎo)致的估計(jì)失效問題。作為示例,對(duì)象識(shí)別單元30可基于隨機(jī)森林模型來獲取對(duì)象的識(shí)別姿態(tài)概率密度。這里的隨機(jī)森林模型可以是事先通過離線訓(xùn)練獲取的預(yù)測(cè)樹集合,其能夠依據(jù)回歸算法針對(duì)每一幀輸入對(duì)象的特征得出相應(yīng)的各個(gè)姿態(tài)的概率密度。利用隨機(jī)森林的回歸來實(shí)現(xiàn)對(duì)象姿態(tài)識(shí)別是本領(lǐng)域的公知技術(shù),在此不做贅述。
優(yōu)選地,根據(jù)本發(fā)明的示例性實(shí)施例,在提取對(duì)象的特征之前,首先對(duì)原始圖像進(jìn)行Gabor小波變換,這樣可在復(fù)雜的現(xiàn)實(shí)環(huán)境下改進(jìn)特征提取的性能,使得識(shí)別結(jié)果對(duì)光照、漂移和形變等表現(xiàn)出更好的魯棒性。針對(duì)Gabor變換后的對(duì)象,對(duì)象識(shí)別單元30可提取對(duì)象劃分為網(wǎng)格(例如,8 X 8網(wǎng)格)后的亮度分布,作為對(duì)象的特征,并基于該特征通過隨機(jī)森林的回歸得到相應(yīng)的識(shí)別姿態(tài)概率密度。這里,每個(gè)特征都被歸一化為零均值和單位方差,以均衡不同Gabor內(nèi)核的尺度變化。
應(yīng)注意,步驟S200和步驟S300并不受限于以上描述的順序,其也可被并行執(zhí)行。然后,在步驟S400,由結(jié)合單元40將在步驟S200得到的跟蹤姿態(tài)概率密度與在步驟300得到的識(shí)別姿態(tài)概率密度進(jìn)行融合,從而獲取對(duì)象的估計(jì)姿態(tài)概率密度,并基于所述對(duì)象的估計(jì)姿態(tài)概率密度來估計(jì)所述對(duì)象的對(duì)象姿態(tài)。圖3是示出根據(jù)本發(fā)明示例性實(shí)施例的通過將跟蹤姿態(tài)概率密度與識(shí)別姿態(tài)概率密度進(jìn)行融合來估計(jì)對(duì)象姿態(tài)的示圖。在圖3示出的(A)、(A’)、(B)、(C)和(C’ )中,每個(gè)圓圈表示一種姿態(tài),圓圈的大小表示該姿態(tài)的概率值。具體說來,圖3中的(A)表示針對(duì)前一幀圖像估計(jì)出的對(duì)象的姿態(tài)概率密度,圖3中的(A’)表示基于當(dāng)前幀與前一幀之間的相對(duì)姿態(tài)St(R,T)對(duì)前一幀的對(duì)象姿態(tài)概率密度(A)進(jìn)行調(diào)整更新(即,概率密度傳播)而得到的當(dāng)前幀對(duì)象的跟蹤姿態(tài)概率密度,圖3中的(B)表示基于隨機(jī)森林模型得到的當(dāng)前幀對(duì)象的識(shí)別姿態(tài)概率密度,圖3中的(C)表示通過將跟蹤姿態(tài)概率密度(A’)與識(shí)別姿態(tài)概率密度(B)進(jìn)行融合而得到的估計(jì)姿態(tài)概率密度,其中,在進(jìn)行所述融合處理時(shí),結(jié)合單元40以跟蹤姿態(tài)概率密度(A’ )作為基礎(chǔ),針對(duì)識(shí)別姿態(tài)概率密度(B)中的每個(gè)識(shí)別姿態(tài)進(jìn)行密度融合。具體說來,結(jié)合單元40可判斷跟蹤姿態(tài)概率密度(A’)中是否存在某種跟蹤姿態(tài),使得該跟蹤姿態(tài)與所述識(shí)別姿態(tài)之間的距離小于一定閾值(該閾值的取值可根據(jù)需要人為設(shè)定、或通過其它方式計(jì)算而得),如果存在這樣的跟蹤姿態(tài),則增加所述跟蹤姿態(tài)的概率值(例如,將所述跟蹤姿態(tài)的概率值增加1/M,其中,M為隨機(jī)森林中隨機(jī)樹的數(shù)量),如果不存在相應(yīng)的跟蹤姿態(tài),則將所述識(shí)別姿態(tài)作為一種新的跟蹤姿態(tài)添加到跟蹤姿態(tài)概率密度中,該新的跟蹤姿態(tài)的概率值可為1/M。在對(duì)識(shí)別姿態(tài)概率密度(B)中的所有識(shí)別姿態(tài)執(zhí)行過上述處理之后,便得到融合后的估計(jì)姿態(tài)概率密度,其中,各個(gè)姿態(tài)的概率值被歸一化處理。此外,作為優(yōu)選方式,可刪除其中概率較低的姿態(tài),僅根據(jù)需要保留概率較高的姿態(tài)進(jìn)行后續(xù)處理。在上述密度融合處理之后,可選地,結(jié)合單元40將得到的估計(jì)姿態(tài)概率密度中的每種估計(jì)姿態(tài)進(jìn)行隨機(jī)擴(kuò)散(例如,布朗運(yùn)動(dòng)),以獲取更為有效的估計(jì)姿態(tài)概率密度(C,)。在此基礎(chǔ)上,結(jié)合單元40將重新獲取估計(jì)姿態(tài)概率密度(C’ )中每種估計(jì)姿態(tài)的概率值,這里,可將每種估計(jì)姿態(tài)的最大似然值作為它的概率值。優(yōu)選地,可將每種姿態(tài)的似然概率設(shè)置為與提取的特征點(diǎn)和二維投影之間的位置差異和成正比,其中,所述二維投影對(duì)應(yīng)于所述特征點(diǎn)的三維坐標(biāo)。而對(duì)于由粒子集Pyaw(N)和Ppitah(N)表示的頭部姿態(tài)而言,第i個(gè)水平偏離樣本Pyairt的概率值是針對(duì)Ppitdl(N)中所有垂直傾斜樣本估計(jì)的極大似然值,第j個(gè)垂直傾斜樣本Ppitd _的權(quán)重值是針對(duì)Pyaw (N)中所有水平偏離樣本估計(jì)的極大似然值。
在此基礎(chǔ)上,結(jié)合單元40將概率值最大的姿態(tài)作為估計(jì)出的對(duì)象姿態(tài)。以上示出的是依據(jù)結(jié)合單元40得到的跟蹤姿態(tài)來重新計(jì)算每種姿態(tài)的概率值,從而確定最終估計(jì)姿態(tài)的示例,然而,本領(lǐng)域技術(shù)人員應(yīng)理解:本發(fā)明并不受限于上述示例,任何可用于根據(jù)跟蹤姿態(tài)來估計(jì)出每種姿態(tài)的概率值的方式均可應(yīng)用于本發(fā)明。此外,作為優(yōu)選的附加處理,在步驟S500,在線更新單元50可基于由結(jié)合單元40在步驟S400估計(jì)出的最終對(duì)象姿態(tài)來更新對(duì)象識(shí)別單元30中的訓(xùn)練模型。例如,在隨機(jī)森林模型作為訓(xùn)練模型的情況下,在線更新單元50可將所述估計(jì)出的對(duì)象姿態(tài)看作袋外(out-of-bag)樣本,并計(jì)算隨機(jī)森林中各個(gè)樹的袋外誤差(00ΒΕ, out-of-bag-error)以及整個(gè)隨機(jī)森林的00ΒΕ,如果整個(gè)森林的OBBE大于閾值(例如,0.5或其它根據(jù)實(shí)際應(yīng)用設(shè)置的值),則將所述對(duì)象姿態(tài)作為在線關(guān)鍵樣本,設(shè)置該在線關(guān)鍵樣本在隨機(jī)森林中的相應(yīng)葉節(jié)點(diǎn),并相應(yīng)地更新整個(gè)隨機(jī)森林模型。作為示例,在已經(jīng)確定在線關(guān)鍵樣本S之后,對(duì)于隨機(jī)森林中的當(dāng)前樹Tt而言,可確定該當(dāng)前樹Tt在加入關(guān)鍵樣本S后的OOBE值是否大于閾值(例如,0.5),如果小于閾值,進(jìn)行葉子節(jié)點(diǎn)更新算法。以下詳細(xì)描述葉子節(jié)點(diǎn)更新算法,對(duì)于所述在線關(guān)鍵樣本S,如果葉子節(jié)點(diǎn)中已經(jīng)存在與該樣本S的姿態(tài)一致或近似的節(jié)點(diǎn)類別,則將節(jié)點(diǎn)類別的個(gè)數(shù)加1,否則,在葉子節(jié)點(diǎn)中增加新的節(jié)點(diǎn)類別,該新的節(jié)點(diǎn)類別具有樣本S,同時(shí),將葉子節(jié)點(diǎn)的總類別個(gè)數(shù)加I。接著,判斷是否需要對(duì)當(dāng)前的葉子節(jié)點(diǎn)進(jìn)行分類,例如,確定葉子節(jié)點(diǎn)的總類別個(gè)數(shù)是否大于一定閾值(該閾值可根據(jù)實(shí)際情況來設(shè)置),如果大于閾值,則按照現(xiàn)有技術(shù)中的節(jié)點(diǎn)分裂方法進(jìn)行節(jié)點(diǎn)分裂,否則,可結(jié)束在線更新過程。圖4是示出根據(jù)本發(fā)明示例性實(shí)施例對(duì)訓(xùn)練模型進(jìn)行在線更新的效果圖,圖4中的⑷示出本領(lǐng)域常用的Boston University的jam7測(cè)試圖像序列,在圖4中的⑶中,Ground truth示出針對(duì)上述測(cè)試圖像利用磁傳感器獲得的真實(shí)頭部yaw姿態(tài),RF示出基于傳統(tǒng)的離線隨機(jī)森林進(jìn)行識(shí)別的結(jié)果,OnlineRF-1和OnlineRF-2是基于本發(fā)明提出的在線更新的隨機(jī)森林進(jìn)行識(shí)別的結(jié)果,由此可見,本發(fā)明提出的基于估計(jì)出的對(duì)象姿態(tài)來更新訓(xùn)練模型的方式能夠取得更接近真實(shí)對(duì)象的識(shí)別結(jié)果。在根據(jù)本發(fā)明示例性實(shí)施例的對(duì)象姿態(tài)估計(jì)設(shè)備和對(duì)象姿態(tài)估計(jì)方法中,融合了動(dòng)態(tài)的姿態(tài)跟蹤結(jié)果和靜態(tài)的姿態(tài)識(shí)別結(jié)果,從而有效地防止了姿態(tài)跟蹤結(jié)果中的誤差被不斷累積,從而解決了跟蹤漂移問題。此外,本發(fā)明還可利用相鄰圖像的相對(duì)姿態(tài)來指導(dǎo)跟蹤姿態(tài)概率密度的傳播,從而得到更為準(zhǔn)確的跟蹤姿態(tài)概率密度。此外,本發(fā)明在獲取識(shí)別姿態(tài)概率密度時(shí)使用的訓(xùn)練模型可采取在線更新的方式被持續(xù)訓(xùn)練,通過這種方式,可實(shí)質(zhì)上擴(kuò)充訓(xùn)練模型的樣本數(shù)量,并且所增加的樣本更符合真實(shí)環(huán)境,從而進(jìn)一步提高了訓(xùn)練模型的泛化性能。此外,這種在線更新的方式不需要對(duì)大部分的樣本進(jìn)行存儲(chǔ),對(duì)內(nèi)存的要求較低。應(yīng)注意,根據(jù)本發(fā)明示例性實(shí)施例的對(duì)象姿態(tài)估計(jì)設(shè)備可被包括在用于進(jìn)行人機(jī)交互的設(shè)備中,例如,所述人機(jī)交互的設(shè)備可根據(jù)對(duì)象姿態(tài)估計(jì)設(shè)備估計(jì)出的頭部姿態(tài)以及提取的眼睛位置來合成視窗。本發(fā)明的以上各個(gè)實(shí)施例僅僅是示例性的,而本發(fā)明并不受限于此。本領(lǐng)域技術(shù)人員應(yīng)該理解:任何涉及利用跟蹤姿態(tài)和識(shí)別姿態(tài)融合以估計(jì)對(duì)象姿態(tài)的方式均落入本發(fā)明的范圍之中。在不脫離本發(fā)明的原理和精神的情況下,可對(duì)這些實(shí)施例進(jìn)行改變,其中,本發(fā)明的范圍在權(quán)利要求及其等同物中限定。
權(quán)利要求
1.一種用于估計(jì)對(duì)象姿態(tài)的設(shè)備,所述設(shè)備包括: 對(duì)象輸入單元,用于將對(duì)象輸入到對(duì)象跟蹤單元和對(duì)象識(shí)別單元; 對(duì)象跟蹤單元,用于基于跟蹤方法來獲取所述對(duì)象的跟蹤姿態(tài)概率密度; 對(duì)象識(shí)別單元,用于基于訓(xùn)練模型來獲取所述對(duì)象的識(shí)別姿態(tài)概率密度;以及 結(jié)合單元,用于通過將跟蹤姿態(tài)概率密度與識(shí)別姿態(tài)概率密度進(jìn)行融合來獲取所述對(duì)象的估計(jì)姿態(tài)概率密度,并基于所述對(duì)象的估計(jì)姿態(tài)概率密度來估計(jì)所述對(duì)象的對(duì)象姿態(tài)。
2.如權(quán)利要求1所述的設(shè)備,還包括: 在線更新單元,用于基于由結(jié)合單元估計(jì)的所述對(duì)象姿態(tài)來更新對(duì)象識(shí)別單元的訓(xùn)練模型。
3.如權(quán)利要求1所述的設(shè)備,其中,所述對(duì)象識(shí)別單元首先對(duì)包含輸入對(duì)象的圖像進(jìn)行Gabor小波變換, 然后,從Gabor小波變換后的圖像提取對(duì)象的亮度分布,作為對(duì)象的特征,從而針對(duì)所述對(duì)象的特征基于訓(xùn)練模型來獲取所述對(duì)象的識(shí)別姿態(tài)概率密度。
4.如權(quán)利要求2所述的設(shè)備,其中,所述訓(xùn)練模型是隨機(jī)森林模型,并且,在線更新單元通過以下處理來更新所述隨機(jī)森林模型:確定所述對(duì)象姿態(tài)是否為在線關(guān)鍵樣本,當(dāng)所述對(duì)象姿態(tài)為在線關(guān)鍵樣本時(shí),設(shè)置該在線關(guān)鍵樣本在隨機(jī)森林中的相應(yīng)葉節(jié)點(diǎn),并相應(yīng)地更新整個(gè)隨機(jī)森林模型。
5.如權(quán)利要求1所述的設(shè)備,其中,對(duì)象識(shí)別單元計(jì)算出相鄰兩幀圖像中對(duì)象的相對(duì)姿態(tài),并利用該相對(duì)姿態(tài)來指導(dǎo)跟蹤姿態(tài)概率密度的傳播。
6.如權(quán)利要求5所述的設(shè)備,其中,所述對(duì)象包括人的頭部。
7.如權(quán)利要求6所述的設(shè)備,其中,對(duì)象識(shí)別單元通過以下處理來計(jì)算相鄰兩幀圖像中頭部的相對(duì)姿態(tài):基于人的頭部中的匹配特征點(diǎn)執(zhí)行POSIT處理,然后,利用正交迭代方法對(duì)POIST處理后內(nèi)圍的匹配特征點(diǎn)進(jìn)行處理。
8.如權(quán)利要求1所述的設(shè)備,其中,結(jié)合單元以跟蹤姿態(tài)概率密度作為基礎(chǔ),針對(duì)識(shí)別姿態(tài)概率密度中的每個(gè)識(shí)別姿態(tài)進(jìn)行密度融合來獲取所述對(duì)象的估計(jì)姿態(tài)概率密度。
9.如權(quán)利要求8所述的設(shè)備,其中,結(jié)合單元將得到的估計(jì)姿態(tài)概率密度中的每種估計(jì)姿態(tài)進(jìn)行隨機(jī)擴(kuò)散,并基于隨機(jī)擴(kuò)散后的估計(jì)姿態(tài)概率密度來估計(jì)所述對(duì)象的對(duì)象姿態(tài)。
10.如權(quán)利要求9所述的設(shè)備,其中,當(dāng)結(jié)合單元基于隨機(jī)擴(kuò)散后的估計(jì)姿態(tài)概率密度來估計(jì)所述對(duì)象的對(duì)象姿態(tài)時(shí),所述結(jié)合單元重新獲取估計(jì)姿態(tài)概率密度中每種估計(jì)姿態(tài)的概率值,其中,所述結(jié)合單元計(jì)算每種估計(jì)姿態(tài)的最大似然值作為它的概率值。
11.如權(quán)利要求10所述的設(shè)備,其中,結(jié)合單元將重新獲取的最大概率值對(duì)應(yīng)的估計(jì)姿態(tài)作為所述對(duì)象的估計(jì)姿態(tài)。
12.一種用于估計(jì)對(duì)象姿態(tài)的方法,所述方法包括: 輸入待估計(jì)的對(duì)象; 基于跟蹤方法來獲取所述對(duì)象的跟蹤姿態(tài)概率密度; 基于訓(xùn)練模型來獲取所述對(duì)象的識(shí)別姿態(tài)概率密度;以及 通過將跟蹤姿態(tài)概率密度與識(shí)別姿態(tài)概率密度進(jìn)行融合來獲取所述對(duì)象的估計(jì)姿態(tài)概率密度,并基于所述對(duì)象的估計(jì)姿態(tài)概率密度來估計(jì)所述對(duì)象的對(duì)象姿態(tài)。
13.如權(quán)利要求12所述的方法,還包括: 基于估計(jì)的所述對(duì)象姿態(tài)來更新訓(xùn)練模型。
14.如權(quán)利要求12所述的方法,其中,基于跟蹤方法來獲取所述對(duì)象的跟蹤姿態(tài)概率密度的步驟包括:計(jì)算出相鄰兩幀圖像中對(duì)象的相對(duì)姿態(tài),并利用該相對(duì)姿態(tài)來指導(dǎo)跟蹤姿態(tài)概率密度的傳播。
15.如權(quán)利要求14所述的方法,其中,基于跟蹤方法來獲取所述對(duì)象的跟蹤姿態(tài)概率密度的步驟與基于訓(xùn)練模型來獲取所述對(duì)象的識(shí)別姿態(tài)概率密度的步驟被并行執(zhí)行。
全文摘要
提供一種用于估計(jì)對(duì)象姿態(tài)的設(shè)備和方法,所述設(shè)備包括對(duì)象輸入單元,用于將對(duì)象輸入到對(duì)象跟蹤單元和對(duì)象識(shí)別單元;對(duì)象跟蹤單元,用于基于跟蹤方法來獲取所述對(duì)象的跟蹤姿態(tài)概率密度;對(duì)象識(shí)別單元,用于基于訓(xùn)練模型來獲取所述對(duì)象的識(shí)別姿態(tài)概率密度;以及結(jié)合單元,用于通過將跟蹤姿態(tài)概率密度與識(shí)別姿態(tài)概率密度進(jìn)行融合來獲取所述對(duì)象的估計(jì)姿態(tài)概率密度,并基于所述對(duì)象的估計(jì)姿態(tài)概率密度來估計(jì)所述對(duì)象的對(duì)象姿態(tài)。通過密度融合,能夠糾正對(duì)象跟蹤過程中的累積誤差,取得更為準(zhǔn)確的對(duì)象估計(jì)結(jié)果。
文檔編號(hào)G06K9/66GK103177269SQ20111045817
公開日2013年6月26日 申請(qǐng)日期2011年12月23日 優(yōu)先權(quán)日2011年12月23日
發(fā)明者王西穎, 高書征 申請(qǐng)人:北京三星通信技術(shù)研究有限公司, 三星電子株式會(huì)社