專利名稱:通過圖像中固有的時變信息來分類對象的制作方法
技術(shù)領(lǐng)域:
本發(fā)明通常涉及計算機視覺,更具體而言,涉及通過圖像中固有的時變信息來分類對象。
通常,現(xiàn)有技術(shù)的識別和分類系統(tǒng)對靜態(tài)或動態(tài)圖像分別進行對象識別和分類。出于內(nèi)容公開目的,對象分類將包括對象識別和/或分類。因此,現(xiàn)有技術(shù)的分類系統(tǒng)作用于處于視頻序列中的靜態(tài)圖像或幀,以便對其中的對象進行分類。這些本領(lǐng)域已知的分類系統(tǒng)不采用視頻圖像中固有的時變信息,相反,它們試圖通過每次識別一個幀上的對象來分類對象。
盡管這些分類系統(tǒng)具有它們的優(yōu)點,但是它們具有下列缺點(a)因為對每個幀獨立地執(zhí)行分類,所以丟失了跨越各幀的對象之間的任何聯(lián)系;(b)由于因為獨立對待每個幀,所以不再維持跨越各幀的象素相關(guān)性,從而分類系統(tǒng)的總體性能不再健壯;(c)由于圖像中固有的噪聲和照明度的變化,導(dǎo)致它們顯示不出適度的衰減。
在第29屆Asilomar關(guān)于信號、系統(tǒng)和計算機的會議(AsilomarConference on Signals,Systems and Computers)上,Bruton等人的“Onthe Classification of Moving Objects in Image Sequences Using 3DAdaptive Recursive Tracking Fillters and Neural Networks”,已將通過繁忙十字路口的車輛軌跡分類。具體而言,該文章特別關(guān)注分類下列四類車輛軌跡-“車輛左轉(zhuǎn)”、“車輛從左道并入直行”、“車輛右轉(zhuǎn)”以及“車輛從右道并入直行”。用于實現(xiàn)此分類的策略如下(a)采用遞歸濾波器定位視頻幀中的對象,(b)采用相同濾波器跟蹤連續(xù)幀上的對象,(c)接著,從每幀中提取對象的形心和速率,(d)采用提取的速率并將其傳給時延神經(jīng)網(wǎng)絡(luò)(TDNN),以獲得靜態(tài)速度的簡檔,以及(e)利用該靜態(tài)速度簡檔,訓(xùn)練多層感知器(MLP)最終對這些軌跡進行分類。伴隨該分類方案存在兩個主要問題?,F(xiàn)有技術(shù)采用濾波器,具體而言,采用帶通濾波器來定位和跟蹤對象。帶通濾波器的參數(shù)以特設(shè)方式設(shè)置。然而,因為對于對象的定位和跟蹤,沒有考慮跨越各幀的象素的相互關(guān)聯(lián),所以這種系統(tǒng)的總體性能將由于跨越各幀的噪聲的不一致而衰減。從而,對跨越一組幀的背景模型的學(xué)習(xí)提供了有效定位和跟蹤感興趣對象的一種替換方法。而且,因為在不同時間期間獲取視頻圖像時,經(jīng)常發(fā)生總是改變視頻圖像中照明度的這種情況,所以對模型的學(xué)習(xí)變得特別重要。其次,由于照明度的變化,速度計算不是有效率的。因此,神經(jīng)網(wǎng)絡(luò)本身的總體精度將很差。
從而,本發(fā)明的目的在于提供對象分類的方法和設(shè)備,該對象分類克服了與現(xiàn)有技術(shù)有關(guān)的缺點。
因此,提出了一種用于對場景中的對象進行分類的方法。該方法包括捕獲場景的視頻數(shù)據(jù);定位視頻數(shù)據(jù)的視頻幀序列中的至少一個對象;將視頻幀序列中至少一個定位的對象輸入進時延神經(jīng)網(wǎng)絡(luò)中;以及基于時延神經(jīng)網(wǎng)絡(luò)的結(jié)果,將該至少一個對象分類。
優(yōu)選地,該定位包括在視頻幀序列上實現(xiàn)背景扣除(backgroundsubtraction)。
時延神經(jīng)網(wǎng)絡(luò)優(yōu)選是Elman網(wǎng)絡(luò)。Elman網(wǎng)絡(luò)優(yōu)選包括具有附加輸入狀態(tài)層的多層感知器(Multi-Layer Perception),其在先前的時間步從隱藏層接收激活(activation)的副本作為反饋。這種情況下,該分類包括遍歷(traverse)狀態(tài)層從而通過確定模型空間中匹配的狀態(tài)數(shù)量來查明總標(biāo)識(identity)。
還提供一種用于對場景中的對象進行分類的設(shè)備,所述設(shè)備包括至少一個照相機,用于捕獲場景的視頻數(shù)據(jù);檢測系統(tǒng),用于定位視頻數(shù)據(jù)的視頻幀序列中的至少一個對象,并將視頻幀序列中至少一個定位的對象輸入進時延神經(jīng)網(wǎng)絡(luò)中;以及處理器,用于基于時延神經(jīng)網(wǎng)絡(luò)的結(jié)果將該至少一個對象分類。
優(yōu)選地,檢測系統(tǒng)對視頻幀序列執(zhí)行背景扣除。
時延神經(jīng)網(wǎng)絡(luò)優(yōu)選是Elman網(wǎng)絡(luò)。Elman網(wǎng)絡(luò)優(yōu)選包括具有附加輸入狀態(tài)層的多層感知器,其在先前的時間步從隱藏層接收激活的副本作為反饋。這種情況下,通過遍歷狀態(tài)層,從而通過確定模型空間中匹配的狀態(tài)數(shù)量,來查明總標(biāo)識,處理器分類至少一個對象。
還提供一種用于執(zhí)行本發(fā)明的方法的計算機程序產(chǎn)品,以及一種用于在其中存儲計算機程序產(chǎn)品的程序存儲設(shè)備。
對于下面描述、后附權(quán)利要求、以及附圖,本發(fā)明設(shè)備及方法的這些和其它特征、方面及優(yōu)點,將變得更好理解。其中
圖1例示本發(fā)明優(yōu)選實施方法的流程圖。
圖2例示用于執(zhí)行本發(fā)明方法的系統(tǒng)的示意性說明。
雖然本發(fā)明可應(yīng)用于大量且不同類型的神經(jīng)網(wǎng)絡(luò),但仍發(fā)現(xiàn)其在Elman神經(jīng)網(wǎng)絡(luò)的環(huán)境中尤為有用。因此,在本發(fā)明的應(yīng)用性不局限于Elman神經(jīng)網(wǎng)絡(luò)的前提下,將在這種環(huán)境下描述本發(fā)明。
與每次一幀來分類視頻圖像中的對象相反,本發(fā)明的方法在視頻序列整體上進行標(biāo)記。這通過利用時延神經(jīng)網(wǎng)絡(luò)(TDNN)來實現(xiàn),例如Elman神經(jīng)網(wǎng)絡(luò),通過查看過去和當(dāng)前數(shù)據(jù)及它們固有的聯(lián)系作出決定來學(xué)習(xí)分類。因此,本發(fā)明的方法能夠通過基于視頻序列進行學(xué)習(xí)而不是基于視頻序列中離散的各幀進行學(xué)習(xí),來識別/分類對象。而且,本發(fā)明方法直接將被跟蹤的對象用作對TDNN的輸入,來代替如上述現(xiàn)有技術(shù)中已經(jīng)做到的從視頻數(shù)據(jù)中提取特征量度。簡言之,現(xiàn)有技術(shù)已采用TDNN,其輸入是從被跟蹤的對象中提取的特征。與現(xiàn)有技術(shù)相反,本發(fā)明的方法將被跟蹤的對象本身輸入給TDNN。
現(xiàn)將參照圖1描述現(xiàn)有技術(shù)的方法。圖1示出了說明本發(fā)明方法優(yōu)選實現(xiàn)的流程圖,在此通常用參考數(shù)字100標(biāo)注。本方法中,在步驟102,從至少一個照相機接收視頻輸入,該照相機從場景捕獲視頻圖像。接著,在步驟104,用背景模型來定位并跟蹤穿過照相機視野的視頻圖像中的對象。背景模擬以便跟蹤和定位視頻數(shù)據(jù)中的對象在本領(lǐng)域中已公知,例如在此其內(nèi)容引入作為參考的Gutta等人撰寫的題為“ClassificationOf Objects Through Model Ensembles”的美國專利申請NO.09/794,443;Elgammal等人2000年6月在愛爾蘭都柏林的歐洲計算機視覺會議(European Conference on Computer Vision)(ECCV)2000上撰寫的題為“Non-parametric Model for Backgroud Subtracton”;以及Raja等人1998年1月在中國香港第三屆亞洲計算機視覺會議論文集(第1卷,第607-614頁)中的“Segmentation and Tracking Using Colour MixtureModels”。
如果在場景的視頻數(shù)據(jù)中未定位移動的對象,則該方法沿著步驟106的“否”進行到“連續(xù)監(jiān)視視頻輸入”的步驟102。如果在場景的視頻數(shù)據(jù)中定位了移動的對象,則該方法沿著步驟106的“是”進行到“該定位的對象被直接輸入至?xí)r延神經(jīng)網(wǎng)絡(luò)(TDNN)中,優(yōu)選輸入至Elman神經(jīng)網(wǎng)絡(luò)(ENN)”的步驟108。其優(yōu)選實現(xiàn)方法是通過采用Elman神經(jīng)網(wǎng)絡(luò)[Dorffner G.,Neural Networks for Time Series Processing,NeuralNetworks 3(4),1998]。Elman網(wǎng)絡(luò)把兩個或更多視頻幀當(dāng)作輸入,并優(yōu)選把全部序列當(dāng)作輸入,而不是處理個別的各幀?;A(chǔ)假設(shè)是時變圖像可被描述為時間相關(guān)狀態(tài)的線性轉(zhuǎn)換,通過狀態(tài)矢量 給出x(t)→=Cs→(t)+ϵ→(t)---(1)]]>其中c是轉(zhuǎn)換矩陣。時間相關(guān)狀態(tài)矢量也可由如下線性模型描述s→(t)=As→(t-1)+Bη→(t)---(2)]]>其中A和B是矩陣, 是噪聲處理,正如上面的 。以該模型為基礎(chǔ)的基本假設(shè)是馬爾可夫(markov)假設(shè)一無論怎樣達到狀態(tài),該狀態(tài)都被標(biāo)識。如果進一步假設(shè)該狀態(tài)還取決于過去序列矢量,則忽略移動平均項 s→(t)=As→(t-1)+Dx→(t-1)---(3)]]>然后,獲得描述遞歸神經(jīng)網(wǎng)絡(luò)類型的公式,稱為Elman網(wǎng)絡(luò)。Elman網(wǎng)絡(luò)是具有附加層的多層感知器(MLP),該附加層稱為狀態(tài)層,其在先前的時間步從隱藏層接收激活的副本作為反饋。
一旦學(xué)習(xí)了該模型,識別就涉及遍歷非線性狀態(tài)空間模型,通過查找出模型空間中匹配的狀態(tài)數(shù)量,來確定總標(biāo)識。這種方法可以用在很多域內(nèi),例如在零售商店中檢測滑倒和摔倒事件、識別音樂中特別節(jié)拍/韻律、以及對居住/商業(yè)環(huán)境中的對象進行分類。
現(xiàn)在參照圖2,說明了用于實現(xiàn)本發(fā)明方法100的設(shè)備示意性實例。該設(shè)備通常用參考數(shù)字200標(biāo)注。設(shè)備200包括至少一個視頻照相機202,用于捕獲將要被分類的場景204的視頻數(shù)據(jù)。視頻照相機202優(yōu)選捕獲場景204的數(shù)字圖像數(shù)據(jù),或者可替換地,該設(shè)備還包括模數(shù)轉(zhuǎn)換器(未示出),以將視頻圖像數(shù)據(jù)轉(zhuǎn)換為數(shù)字格式。數(shù)字視頻圖像數(shù)據(jù)被輸入至檢測系統(tǒng)206,用于檢測其中的移動對象。優(yōu)選地,由檢測系統(tǒng)206檢測的任何移動對象輸入諸如個人計算機之類的處理器208中,用于分析移動對象圖像數(shù)據(jù),并根據(jù)如上所述的方法100,對每個提取的特征執(zhí)行分類分析。
本發(fā)明方法尤其適于通過計算機軟件程序?qū)崿F(xiàn),這種計算機軟件程序優(yōu)選包括與該方法的各自步驟相對應(yīng)的模塊。這種軟件當(dāng)然可包含在在計算機可讀性介質(zhì)中,例如集成芯片或外圍設(shè)備。
雖然已經(jīng)示出并描述了什么是本發(fā)明優(yōu)選實施例所要考慮的,但是理所應(yīng)當(dāng)要理解,在不脫離本發(fā)明精神的前提下,可以容易地作出形式上或細(xì)節(jié)上的各種修改和變化。因此,本發(fā)明并不是意在限于所描述和說明的精確形式,而應(yīng)是構(gòu)造為本發(fā)明覆蓋滿足后附權(quán)利要求范圍的所有修改。
權(quán)利要求
1.一種用于對場景(204)中的對象進行分類的方法,該方法包括捕獲場景(204)的視頻數(shù)據(jù);定位視頻數(shù)據(jù)的視頻幀序列中的至少一個對象;將視頻幀序列中至少一個定位的對象輸入進時延神經(jīng)網(wǎng)絡(luò)中;以及基于時延神經(jīng)網(wǎng)絡(luò)的結(jié)果,將該至少一個對象分類。
2.權(quán)利要求1的方法,其中,所述定位包括對視頻幀序列執(zhí)行背景扣除。
3.權(quán)利要求1的方法,其中,時延神經(jīng)網(wǎng)絡(luò)是Elman網(wǎng)絡(luò)。
4.權(quán)利要求3的方法,其中,Elman網(wǎng)絡(luò)包括具有附加輸入狀態(tài)層的多層感知器,其在先前的時間步從隱藏層接收激活的副本作為反饋。
5.權(quán)利要求4的方法,其中,所述分類包括遍歷狀態(tài)層,從而通過確定模型空間中匹配的狀態(tài)數(shù)量,來查明總標(biāo)識。
6.一種機器可讀的程序存儲設(shè)備,有形地包含了機器可執(zhí)行的指令程序,執(zhí)行用于分類場景(204)中對象的方法步驟,該方法包括捕獲場景(204)的視頻數(shù)據(jù);定位視頻數(shù)據(jù)的視頻幀序列中的至少一個對象;將視頻幀序列中至少一個定位的對象輸入進時延神經(jīng)網(wǎng)絡(luò)中;以及基于時延神經(jīng)網(wǎng)絡(luò)的結(jié)果,將該至少一個對象分類。
7.權(quán)利要求6的程序存儲設(shè)備,其中,所述定位包括對視頻幀序列執(zhí)行背景扣除。
8.權(quán)利要求6的程序存儲設(shè)備,其中,時延神經(jīng)網(wǎng)絡(luò)是Elman網(wǎng)絡(luò)。
9.權(quán)利要求8的程序存儲設(shè)備,其中,Elman網(wǎng)絡(luò)包括具有附加輸入狀態(tài)層的多層感知器,其在先前的時間步從隱藏層接收激活的副本作為反饋。
10.權(quán)利要求9的程序存儲設(shè)備,其中,所述分類包括遍歷狀態(tài)層,從而通過確定模型空間中匹配的狀態(tài)數(shù)量,來查明總標(biāo)識。
11.一種包含在計算機可讀介質(zhì)中的計算機程序產(chǎn)品,用于分類場景(204)中的對象,該計算機程序產(chǎn)品包括計算機可讀程序代碼裝置,用于捕獲場景(204)的視頻數(shù)據(jù);計算機可讀程序代碼裝置,用于定位視頻數(shù)據(jù)的視頻幀序列中的至少一個對象;計算機可讀程序代碼裝置,用于視頻幀序列中至少一個定位的對象輸入進時延神經(jīng)網(wǎng)絡(luò)中;以及計算機可讀程序代碼裝置,用于基于時延神經(jīng)網(wǎng)絡(luò)的結(jié)果將該至少一個對象分類。
12.權(quán)利要求11的計算機程序產(chǎn)品,其中,用于定位的計算機可讀程序代碼裝置包括用于對視頻幀序列執(zhí)行背景扣除的計算機可讀程序代碼裝置。
13.權(quán)利要求11的計算機程序產(chǎn)品,其中,時延神經(jīng)網(wǎng)絡(luò)是Elman網(wǎng)絡(luò)。
14.權(quán)利要求13的計算機程序產(chǎn)品,其中,Elman網(wǎng)絡(luò)包括具有附加輸入狀態(tài)層的多層感知器,其在先前的時間步從隱藏層接收激活的副本作為反饋。
15.權(quán)利要求14的計算機程序產(chǎn)品,其中,用于分類的計算機可讀程序代碼裝置包括計算機可讀程序代碼裝置,用于遍歷狀態(tài)層,從而通過確定模型空間中匹配的狀態(tài)數(shù)量,來查明總標(biāo)識。
16.一種用于對場景(204)中的對象進行分類的設(shè)備(200),該設(shè)備包括至少一個照相機(202),用于捕獲場景(204)的視頻數(shù)據(jù);檢測系統(tǒng)(206),用于定位視頻數(shù)據(jù)的視頻幀序列中的至少一個對象,并將視頻幀序列中至少一個定位的對象輸入進時延神經(jīng)網(wǎng)絡(luò)中;以及處理器(208),用于基于時延神經(jīng)網(wǎng)絡(luò)的結(jié)果對該至少一個對象分類。
17.權(quán)利要求16的設(shè)備,其中,檢測系統(tǒng)(206)對視頻幀序列執(zhí)行背景扣除。
18.權(quán)利要求16的設(shè)備,其中,時延神經(jīng)網(wǎng)絡(luò)是Elman網(wǎng)絡(luò)。
19.權(quán)利要求18的設(shè)備,其中,Elman網(wǎng)絡(luò)包括具有附加輸入狀態(tài)層的多層感知器,其在先前的時間步從隱藏層接收激活的副本作為反饋。
20.權(quán)利要求19的設(shè)備,其中,通過遍歷狀態(tài)層,從而通過確定模型空間中匹配的狀態(tài)數(shù)量來查明總標(biāo)識,處理器(206)分類至少一個對象。
全文摘要
提供一種用于對場景中的對象進行分類的方法,該方法包括捕獲場景的視頻數(shù)據(jù);定位視頻數(shù)據(jù)的視頻幀序列中的至少一個對象;將視頻幀序列中至少一個定位的對象輸入進時延神經(jīng)網(wǎng)絡(luò)中;以及基于時延神經(jīng)網(wǎng)絡(luò)的結(jié)果對該至少一個對象分類。
文檔編號G06K9/00GK1711560SQ200380103382
公開日2005年12月21日 申請日期2003年10月24日 優(yōu)先權(quán)日2002年11月15日
發(fā)明者S·古特塔, V·菲洛明, M·特拉科維 申請人:皇家飛利浦電子股份有限公司