專利名稱:通過跟蹤行人從視頻序列進行三維道路布局估計的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般涉及視頻監(jiān)控,并且更具體地說,涉及在三維(3D)場 景中的對象移動分析。
背景技術(shù):
視頻監(jiān)控系統(tǒng)用于為人們和場所提供安全保障。在早期系統(tǒng)中, 安全人員連續(xù)監(jiān)視視頻圖像。在長期觀察多個顯示屏時,人們經(jīng)常 感到疲勞,并經(jīng)常錯過在監(jiān)視場景的捕捉圖像中發(fā)生的關(guān)注事件。 為此, 一些視頻監(jiān)控系統(tǒng)僅在受監(jiān)視場景中發(fā)生變化時才捕捉圖像。 然而,這些系統(tǒng)仍需要安全人員的人工控制和觀察。最近,已開發(fā)出各種自動捕捉和分析圖像的技術(shù)。計算機視覺已 成為計算機科學研究的一個公認分支。然而,在開發(fā)監(jiān)控系統(tǒng)中自 動捕捉和分析圖像的可行應用方面,仍有大量工作需要進行。
從下面的本發(fā)明詳細說明中將明白本發(fā)明的特性和優(yōu)點,其中圖1是根據(jù)本發(fā)明一個實施例的處理系統(tǒng)框圖;圖2是根據(jù)本發(fā)明一個實施例示出一個對象從地平面投射到相機 平面的圖形;圖3是包括對象高度估計的場景樣本圖像;圖4是另一場景的樣本圖像;圖5是對應于圖4場景的樣本道路圖;圖6是對應于圖4場景的樣本3D道路圖;以及圖7是根據(jù)本發(fā)明一個實施例示出對象比例預測和道路圖檢測處 理的流程圖。
具體實施方式
本發(fā)明的實施例包括用于自動學習由單個未經(jīng)校準的攝像機觀察的室外場景三維(3D)結(jié)構(gòu)的方法和系統(tǒng)。具體而言,通過在時間上觀 察行人并從視頻畫面序列中行人的高度和位置估計道路參數(shù),可形 成行人經(jīng)過的道路和路徑的3D布局估計。真實的室外視頻實驗顯 示,對于相機噪聲、場景亮度變化、移動對象檢測中的可能錯誤、 道路覆蓋變化和相機抖動,本發(fā)明實施例表現(xiàn)魯棒。估計的3D道路 圖(達到一個比例因子)可用在需要校準相機與3D場景之間相對位置 的計算機視覺應用中,如一見頻監(jiān)控、人的活動識別和人的步態(tài)分析。說明書對本發(fā)明"一個實施例"或"實施例"的引用是指結(jié)合該實施 例描述的特定特性、結(jié)構(gòu)或特征包括在本發(fā)明的至少一個實施例中。 因此,在說明書通篇各個位置出現(xiàn)的"在一個實施例中"的短語不一定 全部指同一實施例。本發(fā)明處理兩個相互關(guān)連的問題所觀察場景上的對象比例預測 和道路圖估計。第 一個問題是如何估計場景中二維(2D)對象位置與對 象比例之間的對應關(guān)系。針對此目的,使用對象的運動軌跡,估計 將相機平面的相對位置反射到地平面的函數(shù)參數(shù)。本發(fā)明的實施例 包括預測場景中對象高度的準確和魯棒過程。僅在移動對象的軌跡是在道路平面(即,地平面)上時才可準確 地預測對象高度。本發(fā)明的實施例包括使用與場景中跟預測比例不 沖突的移動對象有關(guān)的信息進4亍場景中道路檢測的過程。視頻畫面 中對象的近似位置可使用幾種熟知的前景檢測技術(shù)之一進行估計(例 如,"從包含復雜背景的視頻進行前景對象檢測"(Liyuan Li, Weimin Huang, Irene Y.H. Gu和Qi Tian, "Foreground Object Detection from Videos Containing Complex Background" , Proceedings of the eleventh Association of Computing Machinery (ACM) International Conference on Multimedia, MM2003, 2003))。本發(fā)明實施例的道路圖才全測過程對 于估計位置、場景亮度變化(例如,在白天時)、圖像噪聲及道路覆蓋
變化(例如,在場景上下雨或下雪后)中出現(xiàn)的誤差表現(xiàn)魯棒。道路圖^r測過程無人管理,并能夠在相機移動、部分場景變化和其它所觀察環(huán)境改變的情況下進行自適應。在本發(fā)明作為 一部分包 括在內(nèi)的視頻監(jiān)控應用中,道路圖檢測過程無人管理,使得無需操 作人員或用戶控制該過程。如果相機位置改變或者發(fā)生其它環(huán)境改變(如光照條件的改變),則道路圖檢測過程能夠通過自動更新3D變 換參數(shù)而進行自適應。要產(chǎn)生正確的結(jié)果,該過程只需遠方場景的 由上至下的視圖。該過程基于如下假設(shè)移動對象是從對象(例如, 人)大小的已知統(tǒng)計分布繪出,并且場景中的所有道路位于同 一平面。 這些假設(shè)在大多數(shù)視頻監(jiān)控任務(wù)中得到滿足,如人的活動識別、人 的步態(tài)分析、對象地理位置估計以及車輛跟蹤和計數(shù)。地平面約束 經(jīng)常包含在現(xiàn)有監(jiān)控技術(shù)中。本發(fā)明的實施例組合了對象比例預測和道路圖檢測,以便產(chǎn)生在 單個相機捕捉的場景中道路3D布局的準確、可靠結(jié)果。圖1是根據(jù)本發(fā)明一個實施例的處理系統(tǒng)100框圖。視頻流102 包括由單個相機(未示出)捕捉的視頻畫面序列。序列中的每個畫面包 括一個像素位圖,位圖具有相^/L所捕捉的選定大小。視頻流的每個 畫面可由已知的前景對象4企測單元104處理,以便從畫面背景提取 每個視頻畫面前景中的對象(由"斑點"表示)。每個才企測的斑點在地平 面的3D場景中具有相關(guān)聯(lián)的足跡位置。在一個實施例中,前景對象 檢測單元實現(xiàn)"從包含復雜背景的視頻進行前景對象檢測"(Liyuan Li, Weimin Huang, Irene Y.H. Gu和Qi Tian, "Foreground Object Detection from Videos Containing Complex Background" , Proceedings of the eleventh Association of Computing Machinery (ACM) International Conference on Multimedia, MM2003, 2003)中所述的技術(shù)。然而,在 其它實施例中,可使用其它前景對象檢測過程。前景對象檢測單元104 將檢測的對象斑點106轉(zhuǎn)發(fā)到對象比例預測單元108和道路圖估計 單元110。前景對象檢測單元104也將從確定前景對象而得到的背景
圖像112轉(zhuǎn)發(fā)到道路圖估計單元110。對象比例檢測單元108分析所 捕捉場景中的對象斑點以估計其高度。道路圖估計單元110生成捕 捉場景道路圖的估計。前景對象檢測、對象比例預測和道路圖檢測 可在視頻流的每個視頻畫面上才丸行。對象比例預測單元和道路圖檢 測單元的結(jié)果組合在一起。以產(chǎn)生在視頻流中存在的場景道路114 上移動對象的比例圖。該比例圖可輸入到其它應用116,諸如視頻監(jiān) 控應用、內(nèi)容創(chuàng)建應用、3D重構(gòu)系統(tǒng)等等。對象比例預測108可在對象斑點上i^f于。對于在給定-見頻畫面中 前景對象檢測單元檢測到的每個斑點,對象比例預測單元部分基于 對應的斑點足跡來計算對象的估計高度。圖2是根據(jù)本發(fā)明一個實 施例示出一個對象^v地平面4殳射到相機平面的圖形。在此示例中,3D 場景中的對象(例如,人)在相對于場景地平面的點(fcc, te)具有"頭 部"。在場景由具有相機平面的相機捕捉時,對象在相機平面的(X, Y) 具有足跡,在(px,/ 力具有頭部。假設(shè),在相機(未示出)與捕才足的3D場景之間的一般透視變換根 據(jù)以下形式—,+ + ^ ^+V"iy2r + i y0其中,fcc、 (y、 te表示場景中對象頭部的3D世界坐標,A;ro ~及》及》 "Rjri ,及sr,凡》及zo A(J, 及"及》0' ^zxj凡"i za和i z0表示常量,并且px、戶;;表示相機平面中一個點(即,對象頭部)的坐標。我們假設(shè)場景中的所有移動對象都具有幾乎相同的高度。使用此 假設(shè),可以看到,根據(jù)式1,在相機平面中對象"頭部"的Y坐標 取決于相機平面中的其"腳部"位置(X, Y):W ^義+;^ + l (1)在不失一般性的情況下,我們假設(shè)場景中的移動對象為人。場景 中的每個人/在相機平面中具有相關(guān)聯(lián)的足跡位置0Y/"(/,17(/)和頭部y7
位置(/77/"(/)。使用N個人"腳部"位置CYZ^,17(/)的估計集合,N為正整 數(shù),通過將以下函數(shù)最小化可估計3D變換參數(shù); 7、 p2、 / 3、 /7么; 5:<formula>formula see original document page 8</formula>(2)為解決此最小化問題,在一個實施例中,可使用一種熟知的數(shù)值迭代優(yōu)化(如William H. Press等人所著的"Numerical Recipes in C: The Art of Scientific Computing,,(Cambridge University Press, 1992)所示) 來獲得初始解。在其它實施例中,可使用其它技術(shù)。要獲得(2)的初 始解,可使用SVD算法(如William H. Press等人所著的"Numerical Recipes in C: The Art of Scientific Computing,,(Cambridge University Press, 1992)所示)求解線性系統(tǒng)(3)。<formula>formula see original document page 8</formula>然而,在人足跡的數(shù)據(jù)集中經(jīng)常可能有噪聲。為減少人的位置估 計和大小估計的誤差影響,可使用離群點(outlier)去除過程來排除數(shù) 據(jù)集中的噪聲斑點。每個人斑點的高度(和比例)可通過由式(2)獲得的 最佳參數(shù)而使用式(l)來預測。則在一個實施例中,可從人"腳部"點(義A7, 集合中去除其預測高度與實際斑點高度有最大偏差的大約 P。/。的斑點。在一個實施例中,P可設(shè)為大約30。/。。在其它實施例中, 可使用其它值。太小的斑點和/或太大而與人無關(guān)的斑點可能出現(xiàn)最 大偏差。無離群點的人足跡數(shù)據(jù)集可用于使用式(2)再訓練模型(1)。在離群點去除后的對象比例預測單元108的輸出是視頻畫面中每 個剩余斑點的估計高度(^/^/-W)和位置(X/^/,}7(/)。此信息可在視頻 畫面上以可視方式表示。圖3是示出"典型"人的高度估計的示例。黑 線對應于^L頻畫面中對應位置的所估計人高度。白線表示^L頻畫面 中人斑點的真實(跟蹤)高度。道路圖檢測可由道路圖檢測單元110使用對象106斑點和背景圖 像112執(zhí)行。圖4是3D場景的樣本圖像。對象(即,人)"腳部"(義/^
位置的過濾集合可用于場景上的道路邊界估計。假設(shè),這些位置與 假設(shè)為均勻的道路具有相同顏色的像素。因此,假設(shè)對象是在道路 上行走的行人。區(qū)域增長過程可用于查找屬于道路表面的視頻畫面 的像素。該過程從第i個種子像素(此處是在(X/"(/,IT(/)的對象"腳部" 上的像素)開始填充一個連通的部分,其中該部分內(nèi)的所有像素具有 與種子像素顏色基本上類似的顏色。更正式地說,如果在估計背景圖像112中點(x,力的顏色滿足以下條件,則它將被視為屬于"道路,,<formula>formula see original document page 9</formula>其中,I指強度,I。 Ig、 Ib是估計背景圖像112中像素的顏色分 量,并且t是道路顏色變化參數(shù)(例如,t=20)。估計的背景圖像用于 從估計道路的場景中排除對象。由于道路邊界通常對應于圖像的邊 緣,因此區(qū)域增長在它達到圖像邊緣像素時便停止。這種處理可在 每個視頻畫面上執(zhí)行。在一個實施例中,可使用由J. Canny在"一種 邊緣才企測計算方法,,("A Computational Approach to Edge Detection", IEEE Trans. Patt. Analy. And Mach, Intell, 8(6): 679-698, 1986)中所述 的一種已知邊緣檢測器過程來查找這些邊緣(也在"3D計算機視覺初 步技術(shù)"("Introductory Techniques for 3-D Computer Vision" by Emanuele Trucco and Alessandro Verri , Prentice Hall , 1998, pp. 71-79) 中有所描述)。在其它實施例中,可使用其它邊緣檢測過程。為了降低對象"腳部"位置估計中的誤差影響,在一個實施例中, 可計數(shù)像素被歸類為"道路"的次數(shù)N,并且僅在N > MaxN * 0.1的情 況下才將像素視為屬于當前場景中道路像素類,其中MaxN是場景 視頻畫面所有像素中的N的最大值。因此,可從道路圖排除一些噪 聲像素。道路圖估計的此類離群點去除過程還允許用戶只觀察最"受 歡迎"的道路。要注意的是,該過程可以正確地分析覆蓋不均勻的場 景道路(例如,堤道)。
圖5是由道路圖檢測單元在處理十分鐘長樣本視頻流后所產(chǎn)生的對應于圖4場景的樣本道路圖。圖6是由道路圖檢測單元所產(chǎn)生的 對應于圖4場景的樣本3D道路圖。該道路圖包括對象比例信息,其 中深度信息范圍從暗色表示遠到亮色表示近。圖7是根據(jù)本發(fā)明一個實施例示出對象比例預測和道路圖檢測處 理的流程圖。;現(xiàn)頻流的每個畫面可輸入到對象比例預測單元108以 及道路圖檢測單元110。在框700,前景對象4企測單元104使用前景 估計;險測畫面中對象的位置。在一些情況下,對象包括畫面中人(例 如,行人)的表示。在框702,對象比例預測單元使用函數(shù)方程(2)估 計變換方程(l)的3D變換參數(shù)/ 入; 2、 / 3、 和p5。在框704,對 象比例預測單元使用式(l)預測對象的高度。接著,在框706,對象比 例預測單元確定是否已從對象的預測高度去除了離群點。如果離群 點尚未去除,則可在框708去除離群點。這為模型再訓練產(chǎn)生了對 象的過濾集合。處理隨后在框702繼續(xù)。如果離群點已經(jīng)去除,則 處理繼續(xù)到框710的道路圖檢測處理。在框710,道路圖檢測單元使用從前景對象檢測單元104獲得的 背景圖像和區(qū)域增長過程,填充從每個對象的足跡開始并在到達圖 像邊緣像素時停止的均勻顏色區(qū)域。此動作可對于對象數(shù)據(jù)集中的 每個對象進行,以生成道路圖。在框712,可從估計的道路圖去除離 群點。最后,在框714,可基于道路圖檢測單元110產(chǎn)生的道路圖, 估計道路上移動對象的高度圖(即,比例圖114)。本發(fā)明的實施例提出了一種在3D場景中估計典型對象比例的方 法和一種在攝像機觀察的場景中進行道路檢測的方法。本發(fā)明由于 其能夠在每個視頻畫面上再訓練,離群點去除處理及其自適應特征, 實現(xiàn)了全自動視頻監(jiān)控系統(tǒng)校準。本發(fā)明對于場景亮度變化(例如, 在白天期間)、攝像機噪聲及道路覆蓋變化(例如,在下雨或下雪后) 表現(xiàn)魯棒。本發(fā)明是無人管理式,并能夠在相機移動、部分場景變 化和其它所觀察環(huán)境改變的情況下進行自校準。本發(fā)明還自動估計
相機圖像平面中2D坐標與觀察場景道路的3D世界坐標之間的變換。 本發(fā)明的實施例可大大提高需要校準相機與3D場景之間相對位 置的許多計算機視覺應用的可靠性(諸如,人的活動分析、機器人視 覺、內(nèi)容創(chuàng)建、對象才企測和跟蹤、3D場景理解、視頻處理、3D重構(gòu) 及姿勢識別系統(tǒng))。本發(fā)明的實施例可使視頻監(jiān)控系統(tǒng)更自動化且更 可靠。例如,本發(fā)明可配置為在檢測到A在道路或路徑邊界外行走 時,或者檢測到的對象大小與預測的平均值有偏差時,生成警報。 雖然本文所述的操作可描述為順序過程,但一些操作實際上可并行或同時執(zhí)行。另外,在一些實施例中,操作的順序可重新安排, 并不脫離本發(fā)明的精神。本文所述的技術(shù)并不限于任一特定硬件或軟件配置;它們可在任 一計算或處理環(huán)境中具有適用性。該技術(shù)可用硬件、軟件或兩者的 組合實現(xiàn)。該技術(shù)可用諸如在移動或固定計算機、個人數(shù)字助理、 機頂盒、蜂窩電話和尋呼機及其它電子裝置等可編程機器上執(zhí)行的 程序?qū)崿F(xiàn),這些機器每個都包括處理器、可由處理器讀取的存儲介 質(zhì)(包括易失性和非易失性存儲器和/或存儲元件)、至少一個輸入裝置 以及一個或多個輸出裝置。程序代碼應用到使用輸入裝置輸入的數(shù) 據(jù),以執(zhí)行所述功能和生成輸出信息。輸出信息可應用到一個或多 個輸出裝置。本領(lǐng)域的技術(shù)人員可理解,本發(fā)明可通過各種計算機 系統(tǒng)配置實踐,包括微處理器系統(tǒng)、微型計算機、大型計算機及諸 如此類。本發(fā)明也可在分布式計算環(huán)境中實踐,在該環(huán)境中任務(wù)可 由通過通信網(wǎng)絡(luò)鏈接的遠程處理裝置執(zhí)行。每個程序可用面向過程或面向?qū)ο蟮母呒壘幊陶Z言實現(xiàn)以便與處 理系統(tǒng)通信。然而,程序在需要時可以匯編語言或機器語言實現(xiàn)。 在任一情況下,語言均可被編譯或解釋。程序指令可用于使編程有指令的通用或?qū)S锰幚硐到y(tǒng)執(zhí)行本文所 述的操作?;蛘?,操作可由包含用于執(zhí)行操作的硬件邏輯的特定硬 件組件執(zhí)行,或者由編程計算^L組件和,制硬件組件的任意組合執(zhí) 行。本文所述的方法可提供為一種計算機程序產(chǎn)品,其可包括上面 存儲有指令的機器可存取介質(zhì),而這些指令可用于對處理系統(tǒng)或其 它電子裝置編程以執(zhí)行該方法。本文中使用的術(shù)語"機器可存取介質(zhì),, 將包括能夠存儲或編碼由機器執(zhí)行的指令序列和使機器執(zhí)行本文所 述任一方法的任何介質(zhì)。術(shù)語"才幾器可存取介質(zhì)"因此應包括但不限于 固態(tài)存儲器、光盤和磁盤以及對數(shù)據(jù)信號編碼的載波。此外,在本 領(lǐng)域中以一種或另一種形式(例如,程序、過程、進程、應用、模塊、 邏輯等等)將軟件表述為采取動作或產(chǎn)生結(jié)果是常見的。此類表述只是表示處理系統(tǒng)執(zhí)行軟件使處理器執(zhí)行一個動作或產(chǎn)生一個結(jié)果的 一種簡寫方式。雖然本發(fā)明已參照說明性實施例進行了描述,但此說明書并無限 改以及本發(fā)明的其它實施例,均應視為在本發(fā)明的精神和范圍內(nèi)。
權(quán)利要求
1.一種分析在時間上捕捉3D場景的視頻畫面以自動生成所述3D場景的道路圖的方法,包括檢測所述視頻畫面中的對象位置;估計所述對象的3D變換參數(shù);至少部分基于所述3D變換參數(shù)預測所述對象的高度;以及使用所述對象位置估計所述3D場景的道路邊界以生成所述道路圖。
2. 如權(quán)利要求1所述的方法,還包括估計在所述道路圖的道路 上移動的對象的高度圖。
3. 如權(quán)利要求1所述的方法,還包括從預測的對象高度去除離 群點,并重復進行所述3D變換參數(shù)的估計和所述對象高度的預測。
4. 如權(quán)利要求1所述的方法,其中檢測對象位置包括將前景對 象檢測過程應用到所述視頻畫面。
5. 如權(quán)利要求1所述的方法,還包括從所述道路圖中去除離群 像素。
6. 如權(quán)利要求1所述的方法,其中估計道路邊界包括將區(qū)域增 長過程應用到對象位置以查找屬于所述3D場景中道路表面的所述視 頻畫面的j象素。
7. —種制品,包括包含指令的機器可存取介質(zhì),在執(zhí)行所述指 令時,通過以下步驟引起分析在時間上捕捉3D場景的^L頻畫面以自 動生成所述3D場景的道路圖檢測所述視頻畫面中的對象位置; 估計所述對象的3D變換參凄t;至少部分基于所述3D變換參數(shù)預測所述對象的高度;以及 使用所述對象位置估計所述3D場景的道路邊界以生成所述道路圖。
8. 如權(quán)利要求7所述的制品,還包括用于估計在所述道路圖的 道路上移動的對象的高度圖的指令。
9. 如權(quán)利要求7所述的制品,還包括用于從預測的對象高度去 除離群點并重復進行所述3D變換參數(shù)估計和所述對象高度預測的指 令。
10. 如權(quán)利要求7所述的制品,其中用于檢測對象位置的指令包 括用于將前景對象檢測過程應用到所述視頻畫面的指令。
11. 如權(quán)利要求7所述的制品,還包括用于從所述道路圖中去除 離群像素的指令。
12. 如權(quán)利要求7所述的制品,其中用于估計道路邊界的指令包 括用于將區(qū)域增長過程應用到對象位置以查找屬于所述3D場景中道 路表面的所述視頻畫面的像素的指令。
13. —種系統(tǒng),包括前景對象纟企測單元,分析3D場景的視頻畫面并4企測所述^見頻畫 面中的對象和對象位置;對象比例預測單元,估計所述對象的3D變換參數(shù)并至少部分基 于所述3D變換參數(shù)預測所述對象的高度;以及道路圖檢測單元,通過使用所述對象位置估計所述3D場景的道 路邊界來生成所述道路圖。
14. 如權(quán)利要求13所述的系統(tǒng),其中所述系統(tǒng)估計在所述道路 圖的道路上移動的對象的高度圖。
15. 如權(quán)利要求13所述的系統(tǒng),其中所述對象比例預測單元配 置為從預測的對象高度去除離群點,并重復進行所述3D變換參數(shù)的 估計和所述對象高度的預測。
16. 如權(quán)利要求13所述的系統(tǒng),其中所述道路圖4企測單元配置 為從所述道路圖中去除離群像素。
17. 如權(quán)利要求13所述的系統(tǒng),其中所述道路圖估計單元通過 將區(qū)域增長過程應用到對象位置以查找屬于所述3D場景中道路表面 的所述一見頻畫面的像素來估計道路邊界。
全文摘要
通過觀察行人并從視頻畫面序列中行人的大小和位置估計道路參數(shù),可實現(xiàn)對行人經(jīng)過的道路和路徑的3D布局估計。系統(tǒng)包括分析3D場景視頻畫面和檢測視頻畫面中對象和對象位置的前景對象檢測單元、估計對象3D變換參數(shù)并至少部分基于該參數(shù)預測對象高度的對象比例預測單元以及使用對象位置估計3D場景的道路邊界以生成道路圖的道路圖檢測單元。
文檔編號G06T17/05GK101167085SQ200580049502
公開日2008年4月23日 申請日期2005年4月18日 優(yōu)先權(quán)日2005年4月18日
發(fā)明者A·V·博夫林, K·V·羅迪烏什金 申請人:英特爾公司