專利名稱::對圖像中的對象進(jìn)行定位的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明總體上涉及對圖像序列中的對象進(jìn)行跟蹤,并且更具體地涉及對非線性運(yùn)動的對象的檢測和跟蹤。
背景技術(shù):
:跟蹤是對圖像序列中的對象的運(yùn)動進(jìn)行估計的過程。對象跟蹤方法通常要求首先在某個初始圖像中檢測到對象。然后,可以在隨后的圖像中跟蹤該對象。各種對象檢測方法太多,而無法一一列舉。跟蹤方法可以分為狀態(tài)空間估計器方法或模型對準(zhǔn)方法。狀態(tài)空間估計器方法狀態(tài)空間估計器方法典型地使用馬爾可夫過程(Markovianprocess)并構(gòu)建運(yùn)動參數(shù)的概率密度函數(shù)(pdf)。例如,卡爾曼濾波(Kalmanfiltering)使用正態(tài)分布。然而,卡爾曼濾波方法不能描述多峰(multi-modal)分布。蒙特卡洛積分(MonteCarlointegration)方法(例如粒子濾波)可以跟蹤包括對象姿態(tài)的任意參數(shù)化變化。然而,特別是對于更高維表示,依賴于隨機(jī)采樣的這些方法會使估計出的似然度退化(degenerate)。此夕卜,這些方法的計算需求隨狀態(tài)變量的數(shù)量成指數(shù)增長,這使得這些方法不適于跟蹤復(fù)雜的姿態(tài)變化。模型對準(zhǔn)(modelalignment)方法模型對準(zhǔn)方法基于對象模型和在圖像中看到的對象之間的差異而定義代價函數(shù)。通過最小化運(yùn)動參數(shù)來求解該代價函數(shù)。一個示例為光流估計,其中對象模型和圖像強(qiáng)度之間的差的平方和被最小化為迭代最小平方問題。該方法的主要難點(diǎn)在于該方法要求對每次迭代計算圖像梯度、雅可比(Jacobian)矩陣和海賽(Hessian)矩陣,這使得該方法較慢。其他模型對準(zhǔn)方法通過另選地列出運(yùn)動和相關(guān)代價函數(shù)的關(guān)系式而克服這一難點(diǎn)。在一些方法中,該運(yùn)動通過使用離線過程中學(xué)習(xí)的圖像梯度的線性函數(shù)來估計。該想法被擴(kuò)展到使用相關(guān)向量機(jī)來學(xué)習(xí)從圖像到運(yùn)動的非線性映射。然而,這些方法通過線性化來估計對運(yùn)動參數(shù)的加性(additive)更新。因此,這些方法不能跟蹤非線性運(yùn)動。運(yùn)動估計的李群(LieGroup)理論對于使用均值偏移(meanshift)運(yùn)算的剛體運(yùn)動估計,李代數(shù)可以被用來找到具有歐幾里德(Euclidean)運(yùn)動群結(jié)構(gòu)的分布模式。己知當(dāng)運(yùn)動較大時,均值偏移可能失敗。向量加法運(yùn)算定義在李代數(shù)上以對一系列仿射運(yùn)動進(jìn)行積分,來跟蹤仿射"蛇形"(affmesnake)。在李代數(shù)上執(zhí)行加性更新來進(jìn)行模板跟蹤。然而,該方法未能解決矩陣乘法的不可交換性,并且進(jìn)行的估計僅在對象的初始變換附近有效。期望在對象非線性運(yùn)動的同時跟蹤圖像序列中的對象。還期望檢測初始圖像中的對象。此外,如果作為檢測和跟蹤的基礎(chǔ)的方法可以相同的話,將是有利的。
發(fā)明內(nèi)容本發(fā)明的實施方式提供了對圖像序列中的對象進(jìn)行檢測和跟蹤的方法。在訓(xùn)練期間,確定回歸函數(shù)/。該回歸函數(shù)將對象描述符與對象運(yùn)動關(guān)聯(lián)起來。在優(yōu)選實施方式中,這些描述符是方位直方圖(orientationhistogram)。方位直方圖對于像素強(qiáng)度(pixelintensity)變化相對不敏感,而對于大的對象運(yùn)動是精確的。對象運(yùn)動具有矩陣?yán)钊航Y(jié)構(gòu)。該運(yùn)動包括大多數(shù)常見的變換,例如歐幾里德運(yùn)動、相似性變換、仿射運(yùn)動以及平面單應(yīng)性(planarhomography)。因為這些運(yùn)動不依賴于歐幾里德空間,所以回歸函數(shù)通過最小化誤差函數(shù)來確定底空間(underlyingspace)的幾何形狀。現(xiàn)有技術(shù)的方法將運(yùn)動線性化,這隱式地做出了歐幾里德空間的假設(shè)。這對于非線性運(yùn)動來說是不確切的。因此,本發(fā)明使用矩陣?yán)钊航Y(jié)構(gòu)來描述對象的運(yùn)動。本發(fā)明在李代數(shù)上構(gòu)建了對象運(yùn)動的模型。該模型最小化了對測地線(geodesic)誤差的平方和的一階近似。本發(fā)明使用嶺回歸(ridgeregression)來更新該對象模型,這使得甚至能夠以少量的圖像的訓(xùn)練集也能夠準(zhǔn)確地進(jìn)行對象運(yùn)動的學(xué)習(xí)。本方法在計算上是高效的,并且實時地工作。還能夠在序列的初始目標(biāo)圖像中檢測到對象。在已經(jīng)檢測到對象之后,可以對該對象進(jìn)行跟蹤。本發(fā)明的實施方式使用相同的回歸函數(shù)和李代數(shù)結(jié)構(gòu)來執(zhí)行對象檢測和對象跟蹤。圖1是根據(jù)本發(fā)明一個實施方式的對圖像序列中的對象進(jìn)行跟蹤的方法的流程圖;圖2是根據(jù)本發(fā)明一個實施方式的對象坐標(biāo)下的對象和圖像坐標(biāo)下的對象之間的雙向變換的圖;圖3是具有根據(jù)本發(fā)明一個實施方式的利用方位直方圖來表示跟蹤區(qū)域的框圖;圖4是根據(jù)本發(fā)明實施方式的用于訓(xùn)練回歸函數(shù)的方法的框圖;圖5包括根據(jù)本發(fā)明一個實施方式的訓(xùn)練集的圖像;圖6是針對本發(fā)明一個實施方式的跟蹤方法的偽代碼的框圖;圖7是使用圖4的經(jīng)過訓(xùn)練的回歸函數(shù)來檢測圖像中的對象的方法的流程圖。具體實施方式方法概述圖1示出了根據(jù)本發(fā)明實施方式對圖像序列/i110中的運(yùn)動對象115進(jìn)行跟蹤的方法和系統(tǒng)100。圖像序列110可由攝像機(jī)102獲取。另選地,圖像序列110可以從持久性存儲器或通信接口提供給方法100。不失一般性,針對對象115的非線性運(yùn)動來描述方法100。然而,該方法可以對具有任何運(yùn)動類型的對象進(jìn)行跟蹤。方法100可以運(yùn)行在連接到顯示設(shè)備103的處理器或微處理器中,顯示設(shè)備103例如為本領(lǐng)域公知的電視機(jī)、投影儀、回放設(shè)備、攝像機(jī)或計算機(jī)。顯示設(shè)備可以用于由該系統(tǒng)的用戶來觀察對象的運(yùn)動。計算機(jī)通常包括由總線連接的一個或更多個處理單元和/或微控制器、存儲器以及輸入/輸出接口。存儲器可以包括用于儲存如下所述當(dāng)前圖像的易失性存儲器,例如RAM。處理器還可以訪問儲存有圖像序列110的持久性存儲器(例如,諸如錄像帶和DVD的可移除儲存介質(zhì))以及通信接口(例如,機(jī)頂盒、網(wǎng)絡(luò)接口等)。應(yīng)當(dāng)理解,當(dāng)實時地獲取圖像序列110時,該方法也可以對對象進(jìn)行跟蹤。對我們方法的輸入為圖像序列。包括對象的初始圖像可以被稱為訓(xùn)練圖像。其中需要檢測或跟蹤對象的隨后圖像可以被稱為目標(biāo)圖像。對于對象檢測,該序列可以限于訓(xùn)練圖像和一個目標(biāo)圖像。對于圖像序列110中的每個當(dāng)前(目標(biāo))圖像120,我們在位置160處確定(200)對象描述符130。位置160對應(yīng)于先前處理過的圖像中的對象115的位置。如我們在下面描述的,對象的位置由跟蹤區(qū)域限定,該跟蹤區(qū)域圍繞圖像坐標(biāo)下的圖像內(nèi)的對象。接著,我們對對象描述符130應(yīng)用(400)回歸函數(shù)/(140)。因為該函數(shù)和描述符為矩陣,所以該應(yīng)用基本上為矩陣乘法?;貧w函數(shù)的應(yīng)用的輸出為運(yùn)動AM(150)。運(yùn)動AM(150)對應(yīng)于對象115從前一圖像到當(dāng)前圖像120的運(yùn)動。運(yùn)動150被用來更新(170)跟蹤區(qū)域在當(dāng)前圖像中的位置。然后,經(jīng)更新位置處的跟蹤區(qū)域可以用于對圖像序列110中下一(當(dāng)前)圖像內(nèi)的對象進(jìn)行跟蹤。跟蹤方法形式化(formalization)針對對象115的參數(shù)化(parametric)運(yùn)動變換A(2)來描述本發(fā)明的實施方式。參數(shù)化變換是應(yīng)用于給定變量的參數(shù)的函數(shù)。這些變量包括像素特征、區(qū)域特征、像素坐標(biāo)以及區(qū)域坐標(biāo)。例如,這些參數(shù)包括仿射、投影運(yùn)動變換以及可以由有限數(shù)量的參數(shù)表示的其他線性和非線性運(yùn)動變換、剛體和非剛體運(yùn)動變換。還可以利用例如相似性變換《2)和歐幾里德運(yùn)動S五(2)的其他運(yùn)動變換而使用本發(fā)明。2維參數(shù)化變換^2)由以下3x3矩陣給出「<formula>formulaseeoriginaldocumentpage9</formula>其中A為用于表示旋轉(zhuǎn)、縮放以及傾斜(skew)的非奇異2x2矩陣,并且be^。所有參數(shù)化變換的集合形成矩陣?yán)钊航Y(jié)構(gòu)。李群是可微的簇。對該群的運(yùn)算與平滑結(jié)構(gòu)兼容。因為李群是簇,所以可以利用微分學(xué)對其進(jìn)行運(yùn)算。如李代數(shù)中公知的,可以用局部的或線性化的李群來替代全局的李群。李代數(shù)是可以對幾何對象(諸如李群和可微的簇)進(jìn)行運(yùn)算的代數(shù)結(jié)構(gòu)。圖2示出了在對象坐標(biāo)和圖像坐標(biāo)下對象115的位置的雙向位置變換M和M"。在對象坐標(biāo)下對象115的位置為單位正方形201。在圖像坐標(biāo)下對象115的位置為圖像202的跟蹤區(qū)域160。仿射矩陣M根據(jù)下式將坐標(biāo)原點(diǎn)203處的單位正方形201變換為包含圖像中的對象的跟蹤區(qū)域160其中,下標(biāo)分別表示對象坐標(biāo)(obj)和圖像坐標(biāo)(img)。逆變換M-'也是仿射矩陣,并將圖像坐標(biāo)160下的對象變換為對象坐標(biāo)201下的對象。令/表示輸入圖像110,t為時間(幀)索引。給定到時間t的圖像(即Io...t)和初始位置變換M。,跟蹤對位置變換矩陣M,進(jìn)行估計。下面描述用于檢測初始圖像中的對象的方法。位置變換矩陣M,定義對象坐標(biāo)下的時間t處的跟蹤區(qū)域160的位置。我們將位置變換矩陣建模為M,=MM.AM,,(3)并估計每一時間(幀)t處的運(yùn)動變換AM。運(yùn)動變換AM對應(yīng)于在對象坐標(biāo)203下對象從時間t-l到時間t的運(yùn)動。對象坐標(biāo)下的圖像為/(M-1)。我們考慮跟蹤區(qū)域160內(nèi)的像素值并用諸如梯度方位直方圖的描述符來表示該區(qū)域。描述符(觀察值)為0(M-')e9T,其中m為描述符o(130)的維數(shù)。我們將跟蹤定義為矩陣估值回歸問題。給定由先前處理過的圖像M,一,的位置變換矩陣(即跟蹤區(qū)域)表示的對象的前一位置以及當(dāng)前圖像/t,我們使用下面的回歸函數(shù)140來估計運(yùn)動變換AM,150AM,=/(。)。(4)因此,如下所述,跟蹤簡化為訓(xùn)練并更新回歸函數(shù)/(MO)。對象描述符圖3示出了包含對象115的單位正方形201的表示。單位正方形包括在對象坐標(biāo)下單位正方形201內(nèi)的規(guī)則網(wǎng)格處確定的幾個梯度方位直方圖。與尺度不變特征變換(SIFT)描述符類似,每個像素對直方圖的貢獻(xiàn)與該像素的梯度大小成比例。單位正方形301被劃分成6x6=36個塊302,并且針對每個塊確定直方圖,見D丄owe,"Distinctiveimagefeaturesfromscale-invariantKeypoints",Intl,J.ofComp.Vision,60(2):91-110,2004,通過引用將其合并于此。在0和2;r度之間以;r/6度來量化每個直方圖中的方位。因此,每個直方圖為12維,并且對象描述符o為432維。在跟蹤期間,跟蹤區(qū)域中的外圍像素經(jīng)常受到背景的影響。因此,在本發(fā)明的一個實施方式中,我們在跟蹤區(qū)域的外圍附近留出10%邊界,并確定單位正方形301內(nèi)的對象的描述符。回歸函數(shù)圖4示出了根據(jù)本發(fā)明的實施方式訓(xùn)練回歸函數(shù)/(140)的方法。訓(xùn)練結(jié)果是對回歸系數(shù)fi的估計?;貧w系數(shù)將對象描述符o與運(yùn)動變換AM關(guān)聯(lián)起來。對于對象跟蹤和對象檢測,回歸函數(shù)的訓(xùn)練方式和將回歸函數(shù)應(yīng)用于圖像的方式是相同的。訓(xùn)練集在訓(xùn)練期間,對象115的初始位置由序列110的初始(訓(xùn)練)圖像10420中的初始跟蹤區(qū)域160來近似。跟蹤區(qū)域160通常根據(jù)圖像坐標(biāo)來表示對象115的位置。因此,在對象坐標(biāo)下的對象115的位置的位置變換矩陣M。(460)也是已知的。對于對象檢測,向訓(xùn)練提供包括對象的訓(xùn)練圖像,見圖7。我們基于對象的初始位置M。(460)而生成(430)n個隨機(jī)參數(shù)化運(yùn)動變換矩陣(AM}!.-,...的集合。每個矩陣描述了對象115從初始位置M。460起可能的運(yùn)動,例如平移、旋轉(zhuǎn)、縮放、傾斜及其組合。通過乘以運(yùn)動變換AM,-'而對位置M。(460)處的對象115進(jìn)行變換。新的描述符為oi^o。(AM「'.M力。運(yùn)動變換AM,使對象運(yùn)動到單位正方形201。每個運(yùn)動變換AM與位置M。(460)處的對象115的描述符o相關(guān)聯(lián)。運(yùn)動變換確定了訓(xùn)練集410。訓(xùn)練集410包括n個樣本K,AM,〉。圖5示出了初始訓(xùn)練集410的示例501-504。我們用符號AM表示訓(xùn)練期間的運(yùn)動,并表示跟蹤期間估計出的運(yùn)動。下標(biāo)/指代訓(xùn)練集中的樣本,時間索引^指代跟蹤期間的估計出的運(yùn)動。在一些實施方式中,每個當(dāng)前圖像120用于在跟蹤期間更新訓(xùn)練集。這使得回歸函數(shù)適應(yīng)于外觀和照明的變化?;貧w函數(shù)/:9T4^(2)為仿射矩陣。因此,考慮仿射矩陣的結(jié)構(gòu)。用于線性運(yùn)動估計的常規(guī)方法使用運(yùn)動AM(p)的參數(shù)化,并在初始值附近線性化△M(p0+Ap)AM(p0)+"^^Ap。(5)因為常規(guī)變換是在單位矩陣附近,所以在AM(p。)-I處執(zhí)行線性化。常規(guī)方法通過估計增量Ap而前進(jìn)。常規(guī)方法有兩個主要優(yōu)點(diǎn)。首先,近似(approximation)對參數(shù)做出向量空間假設(shè)。第二,參數(shù)化是任意的,并且不考慮運(yùn)動的結(jié)構(gòu)。我們使用李群代數(shù)來從訓(xùn)練集410訓(xùn)練回歸函數(shù)/(410)。運(yùn)動變換AM(150)在李代數(shù)上建模為描述符。(130)的線性函數(shù)。李群一個d維簇是一個拓?fù)淇臻g,其與歐幾里德空間局部地類似。該簇上的每個點(diǎn)具有存在同胚的鄰域,該同胚將該鄰域映射到^??晌⒋貪M足平滑約束。因此,能夠定義該簇上的曲線的導(dǎo)數(shù)。該簇上點(diǎn)M處的導(dǎo)數(shù)位于向量空間中,該向量空間是該點(diǎn)處的切空間(tangentspace)。李群是具有可微簇的結(jié)構(gòu)的群G,從而群運(yùn)算、乘法以及逆是可微映射。對該群的單位元素I的切空間形成李代數(shù)g。我們用黑體大寫字母指代群上的點(diǎn),并用黑體小寫字母指代李代數(shù)上的向量。簇上的距離是通過連接這些點(diǎn)的曲線的長度來測量,并且最小長度曲線被稱為測地線。對于單位元素I,存在以向量msg開始的唯一測地線。指數(shù)映射exp:g—G將向量m映射到該測地線到達(dá)的點(diǎn)。如果exp(m)=M,則測地線的長度為yO(I,M)=||aw||。通常,指數(shù)映射是滿射(onto)而不是一對一的。因此,逆映射bg:G—g僅唯一限定在單位元素I的鄰域附近。如果對于任何MeG,存在幾個meg從而M^exp(m),則選擇log(M)作為具有最小范數(shù)的向量。左乘群元素的逆M":G—G將點(diǎn)M映射到I,并將M處的切空間映射到同構(gòu)(isomorhism)的李代數(shù)。利用該映射和測地線定義,通過下式測量兩個群元素之間的距離p(M!,M2Hllog(Mr'M2)l卜(6)我們在本發(fā)明的實施方式中使用的變換,例如仿射運(yùn)動A(2)、相似性變換S(2)以及歐幾里德運(yùn)動SE(2),是一般線性群GL(3,R)的封閉子群,該一般線性群GL(3,R)為3x3非奇異方陣的群。通過下式定義矩陣的指數(shù)映射和它的逆(對數(shù)映射)exp(m):^丄m"log(M)=S^^(M-1)"。(7)通常,指數(shù)映射不滿足等式exp(m,)exp(m2)-exp(m,+m2)。該映射通過以下的Baker-Campbell-Hausdorff公式由exp(m,)exp(m2"exp(5C7/(m,,m2))定義,Baker-Campbell-Hausdorff公式為^//(mpii^)-!^+m2+*[m1,ra2]+0(|(m1,m2)!3)(8)其中[邁,,m,;hm,i^-m2in,為李括號運(yùn)算。上面描述了仿射矩陣的結(jié)構(gòu)。該空間為6維簇。仿射群的李代數(shù)是以下矩陣的集合/"Uv、m=:(9)其中,U為2x2矩陣,并且ve5R2。通過選擇矩陣U中的每個元素和向量v作為規(guī)范正交基,矩陣m有時被稱作6維向量?;貧w函數(shù)訓(xùn)練在基于訓(xùn)練集410的訓(xùn)練(480)期間,估計回歸系數(shù)i2(470)?;貧w系數(shù)470將對象描述符o與運(yùn)動變換AM關(guān)聯(lián)起來。出于此描述目的,回歸系數(shù)Q(470)等價于回歸函數(shù)140。訓(xùn)練集410包括如上所述的描述符和運(yùn)動變換(《AMJ。仿射運(yùn)動矩陣不在向量空間上,并且兩個運(yùn)動之間的常規(guī)歐幾里德距離不是有效然而,仿射運(yùn)動確實位于可微簇上。在這種情況下,有意義的誤差函數(shù)是回歸估計AO和運(yùn)動變換AM,之間的測地線距離的平方和<formula>formulaseeoriginaldocumentpage13</formula>(10)令M,和M,為兩個運(yùn)動矩陣,并且令m,-log(M,)以及m,log(M2)。使用式(8)的BCH公式,對這兩個運(yùn)動矩陣之間的測地線距離的一階近<formula>formulaseeoriginaldocumentpage13</formula>(11)如果我們基于李代數(shù)選擇d規(guī)范正交,則我們可以確定矩陣范數(shù)為兩個向量之間的歐幾里德距離。根據(jù)式(8)的BCH公式和李括號運(yùn)算的定義,對于較小的變換來說,近似好,從而m,和m,接近于零,或者等價地,M,和M2接近于單位矩陣I。使用式(11),式(10)的誤差函數(shù)等同于最小化下式到一階項<formula>formulaseeoriginaldocumentpage13</formula>。(12)因為變換是在單位矩陣的小的鄰域內(nèi),所以近似足夠準(zhǔn)確。我們將回歸函數(shù)定義為Xo),(g(o)),(13)并且確定函數(shù)g:9Tw9^,該函數(shù)在李代數(shù)上對切矢量log(AM)進(jìn)行估計。我們將函數(shù)g建模為描述符的線性函數(shù)g(o)=orQ,(14)其中fl為回歸系數(shù)的mxd矩陣。令X為初始描述符的nxm矩陣,Y為到李代數(shù)的運(yùn)動的映射的nxd矩陣<table>tableseeoriginaldocumentpage14</column></row><table>這里,log(AM,)是d維向量形式。將式(13)和(14)代入式(12),我們得到/。=R[(XQ-Y)r(XQ-Y)〗,(16)其中跡(tr)替代了式(12)中的求和。跡是主對角線上元素的和。如果我們將誤差函數(shù)Ja對n求導(dǎo),則最小值為Q"X、)-'xrY。對于實時跟蹤,描述符的數(shù)量相對較少,例如n=200。因為描述符的數(shù)量小于特征空間的維數(shù),m=432,n<m,所以系統(tǒng)是欠定的(underdetermined),并且XTX變?yōu)橹忍澋?rankdeficient)。在這種情況下,估計使訓(xùn)練誤差為零。然而,該誤差并不推廣到未來的預(yù)測,這被稱為過擬合(overfitting)。為了避免過擬合,我們對回歸系數(shù)的大小提供附加的約束,-Y)r(Xf2-Y)〗+A||n|i2,(17)這就是嶺回歸。嶺回歸用于求解很差約束的線性回歸問題。誤差函數(shù)厶的最小值為Q—xrx+;ii)-'x7'Y,(18)其中I為mxm單位矩陣。正則系數(shù)A確定了回歸系數(shù)的收縮度。系數(shù)A的較大值使運(yùn)動穩(wěn)定,而較小值允許幀到幀的較大運(yùn)動。系數(shù)義的最優(yōu)值通過對訓(xùn)練序列的交叉驗證(crossvalidation)來選擇,而A在整個跟蹤中保持恒定?;貧w函數(shù)更新對象115的外觀可以隨時間而改變。場景中的照明量也可以改變。對于跟蹤自然界戶外環(huán)境中的對象尤其如此。因此,我們根據(jù)先前處理過的圖像和跟蹤區(qū)域來更新(450)訓(xùn)練集410。在我們的實施方式中,模型更新(450)是指重新估計回歸函數(shù)/,或者等價地重新估計回歸系數(shù)Q。在跟蹤步驟期間,如上所述,我們生成跟蹤區(qū)域160的幾個(例如k=2)隨機(jī)描述符。令X"和Yu為更新后的描述符和以如式(15)所述的矩陣形式儲存的運(yùn)動變換,并且Q'為先前的模型參數(shù)。在跟蹤每P個幀之后,我們通過最小化以下誤差函數(shù)來更新回歸函數(shù)的系數(shù)<formula>formulaseeoriginaldocumentpage15</formula>。(19)該誤差函數(shù)與式(17)類似。我們將誤差函數(shù)Ju對回歸系數(shù)Q求導(dǎo)。最小值為<formula>formulaseeoriginaldocumentpage15</formula>(20)參數(shù)/對允許回歸參數(shù)從上一次估計改變的量進(jìn)行控制。對象跟蹤圖6示出了我們的對象跟蹤方法的偽代碼。我們對回歸函數(shù)/(140)進(jìn)行訓(xùn)練。該跟蹤使用式(4)來估計對象從圖像到圖像的運(yùn)動(150),并使用式(3)更新(170)位置M。可以通過用回歸函數(shù)/重復(fù)運(yùn)動估計來改善跟蹤。當(dāng)估計出的運(yùn)動AM,變得等于單位矩陣(identity),或者對象在當(dāng)前估計出的位置處的似然度變得小于對象在前一位置處的似然度時,迭代結(jié)束。在時間t對象位于位置M處的似然度為<formula>formulaseeoriginaldocumentpage15</formula>(21)其中對象在前一位置處的描述符與對象在當(dāng)前位置處的描述符進(jìn)行比較。通常,每個圖像1或2次迭代足夠用于對對象進(jìn)行跟蹤。對象檢測圖7示出了根據(jù)本發(fā)明的實施方式來檢測目標(biāo)圖像702中的對象區(qū)域的方法。我們從包括訓(xùn)練區(qū)域710中的對象的(初始)訓(xùn)練圖像701開始。我們不知道對象在現(xiàn)實世界坐標(biāo)下或者關(guān)于目標(biāo)圖像中的對象姿態(tài)的相對姿態(tài)。對于姿態(tài),我們意指對象的3D位置和3D方位。例如,訓(xùn)練圖像中汽車的視圖可以為側(cè)面,而目標(biāo)圖像中相同汽車的視圖可以為正面。因為姿態(tài)可以不同,所以對象的大小在兩個圖像中也可以不同。我們從訓(xùn)練圖像701生成對象描述符715,例如描述符為如上述方位直方圖。另選地,可以使用其他描述符,例如外觀、統(tǒng)計。我們根據(jù)變換參數(shù)730將多個參數(shù)化變換720應(yīng)用于訓(xùn)練區(qū)域710,以產(chǎn)生變換后的區(qū)域740。典型地,存在數(shù)百個這些變換。每個變換使對象產(chǎn)生不同的姿態(tài)。如上所述,變換參數(shù)730被映射到李代數(shù)。我們?yōu)槊總€變換后的區(qū)域740確定(750)描述符751。我們將描述符751和參數(shù)730映射到李代數(shù),并如上針對圖4所述地訓(xùn)練(760)回歸函數(shù)(RF)761。我們將目標(biāo)圖像702劃分成多個窗口770。因為我們不知道目標(biāo)圖像中對象的大小和位置,所以存在許多不同大小和位置的窗口。對于每個窗口,我們確定(780)窗口描述符785,并通過矩陣乘法確定到該描述符的回歸函數(shù)761,以確定收斂的窗口。對于每個收斂的窗口790,我們確定窗口描述符792。我們測量(795)從目標(biāo)圖像702獲得的每個窗口描述符和從訓(xùn)練區(qū)域701獲得的對象描述符之間的相似性分?jǐn)?shù)。具有最高相似性分?jǐn)?shù)的窗口對應(yīng)于檢測到的對象的位置796。在其他維下的檢測和跟蹤上面用于對象檢測和跟蹤的方法可以擴(kuò)展到其他維。例如,我們可以檢測和跟蹤在3D空間中的3D對象。在相應(yīng)的更高或更低的維數(shù)下定義參數(shù)化變換和描述符。例如,可以通過表面圖(surfacemap)、體積數(shù)據(jù)或3D范圍數(shù)據(jù)定義3D對象。發(fā)明效果相對于常規(guī)的對象跟蹤,根據(jù)本發(fā)明的實施方式的檢測和跟蹤對象的方法具有以下優(yōu)點(diǎn)。本方法使用方位直方圖而不是常規(guī)方法中使用的像素強(qiáng)度來跟蹤運(yùn)動。當(dāng)運(yùn)動較大時,直方圖提供了精確的估計。并且,方位直方圖對對象的照明和外觀變化不敏感。本方法使用運(yùn)動群的李代數(shù),該李代數(shù)可以更好地估計非線性運(yùn)動。本方法使用嶺回歸來實時更新運(yùn)動模型。本發(fā)明可以用于跟蹤具有任何矩陣?yán)钊航Y(jié)構(gòu)運(yùn)動的對象。盡管已經(jīng)以優(yōu)選實施方式為例描述了本發(fā)明,但是應(yīng)當(dāng)理解,在本發(fā)明的精神和范圍內(nèi)可以做出各種其他改變和修改。因此,所附權(quán)利要求的目的是涵蓋落入本發(fā)明的精神和范圍內(nèi)的所有這種變化和修改。權(quán)利要求1.一種對圖像中的對象進(jìn)行定位的方法,該方法包括以下步驟將參數(shù)化變換的集合應(yīng)用于訓(xùn)練圖像中的區(qū)域,以確定變換后的區(qū)域的集合,其中所述參數(shù)化變換的參數(shù)被映射到李代數(shù),并且所述區(qū)域包括對象;確定針對每個變換后的區(qū)域的對象描述符;根據(jù)所述參數(shù)化變換的集合和所述對象描述符的集合來訓(xùn)練回歸函數(shù);從目標(biāo)圖像確定所述對象描述符;以及將所述回歸函數(shù)應(yīng)用于所述目標(biāo)圖像的所述對象描述符,以確定所述對象在所述目標(biāo)圖像中的位置。2.根據(jù)權(quán)利要求1所述的方法,該方法進(jìn)一步包括以下步驟-針對運(yùn)動對象的目標(biāo)圖像序列中的每個目標(biāo)圖像確定所述對象描述符;以及對每個對象描述符應(yīng)用所述回歸函數(shù)以確定所述運(yùn)動對象的所述位置。3.根據(jù)權(quán)利要求2所述的方法,該方法進(jìn)一步包括以下步驟根據(jù)所述運(yùn)動對象的所述位置來更新所述區(qū)域的位置。4.根據(jù)權(quán)利要求1所述的方法,其中所述參數(shù)化變換是仿射變換。5.根據(jù)權(quán)利要求1所述的方法,其中所述參數(shù)化變換是投影變換。6.根據(jù)權(quán)利要求2所述的方法,其中所述圖像對應(yīng)于表面圖。7.根據(jù)權(quán)利要求1所述的方法,其中每個圖像為體積數(shù)據(jù)集,并且所述位置為三維的。8.根據(jù)權(quán)利要求1所述的方法,其中所述參數(shù)通過矩陣對數(shù)運(yùn)算而被映射到所述李代數(shù)。9.根據(jù)權(quán)利要求1所述的方法,其中所述區(qū)域被映射到單位區(qū)域,以確定所述對象描述符。10.根據(jù)權(quán)利要求1所述的方法,其中所述對象描述符是方位直方圖。11.根據(jù)權(quán)利要求1所述的方法,其中所述對象描述符是協(xié)方差矩陣。12.根據(jù)權(quán)利要求2所述的方法,其中對所述應(yīng)用進(jìn)行重復(fù),直到所述運(yùn)動對象的所述位置的似然度小于所述對象的前一位置的似然度。13.根據(jù)權(quán)利要求1所述的方法,其中所述對象描述符和所述回歸函數(shù)是矩陣,并且所述應(yīng)用是矩陣乘法。14.根據(jù)權(quán)利要求2所述的方法,其中在時間t處所述區(qū)域的所述位置由位置變換矩陣M,來描述,并且在該時間t處所述對象的所述運(yùn)動由運(yùn)動變換AM,來描述,使得M,-M,—.AM,。15.根據(jù)權(quán)利要求14所述的方法,其中所述回歸函數(shù)為/,所述對象描述符為o(M-')e5T',其中m為所述對象描述符的維數(shù),并且所述運(yùn)動變換是<formula>formulaseeoriginaldocumentpage3</formula>。16.根據(jù)權(quán)利要求2所述的方法,該方法進(jìn)一步包括以下步驟針對每個目標(biāo)圖像更新所述回歸函數(shù)的系數(shù)。17.根據(jù)權(quán)利要求1所述的方法,該方法進(jìn)一步包括以下步驟將所述目標(biāo)圖像劃分成多個窗口;確定每個窗口的所述對象描述符;將所述回歸函數(shù)應(yīng)用于每個窗口的所述對象描述符,以確定每個窗口的收斂窗口;確定每個收斂窗口的窗口描述符;將所述區(qū)域的所述對象描述符與每個窗口描述符進(jìn)行比較,以確定每個收斂窗口的相似性分?jǐn)?shù);以及選擇與具有最高分?jǐn)?shù)的所述收斂窗口相關(guān)聯(lián)的所述窗口,作為所述對象在所述目標(biāo)圖像中的所述位置。18.—種對圖像中的對象進(jìn)行定位的系統(tǒng),該系統(tǒng)包括用于將參數(shù)化變換的集合應(yīng)用于訓(xùn)練圖像中的區(qū)域以確定變換后的區(qū)域的集合的裝置,其中所述參數(shù)化變換的參數(shù)被映射到李代數(shù),并且所述區(qū)域包括對象;用于確定針對每個變換后的區(qū)域的對象描述符的裝置;用于根據(jù)所述參數(shù)化變換的集合和映射到所述李代數(shù)的所述對象描述符的集合來訓(xùn)練回歸函數(shù)的裝置;用于從目標(biāo)圖像確定所述對象描述符的裝置;以及用于將所述回歸函數(shù)應(yīng)用于所述目標(biāo)圖像的所述對象描述符以確定所述對象在所述目標(biāo)圖像中的位置的裝置。全文摘要本發(fā)明涉及對圖像中的對象進(jìn)行定位的方法和系統(tǒng)。本發(fā)明描述了用于檢測和跟蹤圖像序列中的對象的方法和系統(tǒng)。對于每個圖像,本發(fā)明針對圖像序列中當(dāng)前圖像內(nèi)的跟蹤區(qū)域確定對象描述符,其中所述跟蹤區(qū)域?qū)?yīng)于對象在前一圖像中的位置。將回歸函數(shù)應(yīng)用于所述描述符以確定所述對象從所述前一圖像到所述當(dāng)前圖像的運(yùn)動,其中所述運(yùn)動具有矩陣?yán)钊航Y(jié)構(gòu)。使用所述對象的所述運(yùn)動來更新所述跟蹤區(qū)域的所述位置。文檔編號G06T7/20GK101398934SQ20081016581公開日2009年4月1日申請日期2008年9月23日優(yōu)先權(quán)日2007年9月27日發(fā)明者恩杰爾·C·圖澤爾,法提赫·M·波里克利申請人:三菱電機(jī)株式會社