專利名稱:用于自動表征一個或多個對象的行為的方法
技術領域:
本發(fā)明的實施方式涉及 一 種用于自動表征對象行為的計算機實 現(xiàn)的方法。
背景技術:
對果蠅黑腹果蠅的求偶行為的詳細分析是科學研究領域中常用 的主要行為示例。在研究中,其被用以向我們提供神經元功能的指示。 與實驗室中和野外測量的其他行為 一 樣,這包括由經過訓練的專家人 員進行的耗時且有些主觀的手工評分過程。這顯然是一個高代價且不 可靠的過程,在現(xiàn)代研究中希望將其最小化。
例如,WO 02/43352 ( Clever Sys )描述了如何使用視頻對對象行 為進行分類。專家必須首先定性地和定量地標識和分類標準對象的各 種行為,例如,老鼠的行為可以包括站、坐、躺、正常、反常等。 這是一個耗時的過程。在分析新的視頻剪輯時,系統(tǒng)首先獲取視頻圖 像背景,并且使用它來標識前景對象。對前景對象的分析可以在特征 空間中逐幀進行,其中特征包括質心、對象的主定向角、面積等。使
此方法的自動行為分析具有很多限制,并且期望解決這些問題, 以便如本發(fā)明概述的分析活動有機體或者其他移動對象的行為。
要解決的第 一個問題是如何有效地標識適當?shù)暮喕瘯r空數(shù)據(jù)集, 其中,可以將對象的視頻序列簡化到該數(shù)據(jù)集中,以便表征其交互。
第二個問題是在一個對象可能至少部分地遮擋另 一對象時如何 使用計算機在任意時刻自動地標識各個對象
發(fā)明內容
根據(jù)本發(fā)明的 一 個實施方式,提供一種用于自動表征對象行為的
方法,包括處理對象數(shù)據(jù)以獲取數(shù)據(jù)集,該數(shù)據(jù)集隨時間記錄針對 每個對象的測量參數(shù)集;提供學習輸入,其標識對象的測量參數(shù)集何 時與行為相關聯(lián);結合學習輸入來處理數(shù)據(jù)集,以確定在參數(shù)集的哪 些參數(shù)上的相應值的范圍表征行為;以及發(fā)送標識在參數(shù)集的哪些參 數(shù)上的相應值的范圍表征行為的信息,以便在使用所述特征參數(shù)及其 特征范圍來處理第二對象數(shù)據(jù)并且自動標識行為何時發(fā)生的過程中 使用。
這支持使用機器學習技術的動態(tài)表征,并且消除了對任何特定行 為的預定義模型的需要。
結合學習輸入的數(shù)據(jù)集的處理動態(tài)地確定在參數(shù)集的哪些參數(shù) 上的相應值的范圍表征了行為。由此,表征參數(shù)可以在處理期間動態(tài) 地改變,并且其不是預定的。
學習輸入僅需要標識行為何時發(fā)生。由此,專家的責任僅在于專 家應當指出行為何時發(fā)生。專家不必確定他們?yōu)槭裁凑J為行為發(fā)生。 由此將對行為分類的責任從專家身上轉移到了處理步驟。
對象數(shù)據(jù)可以是一個或多個視頻剪輯??蛇x地,對象數(shù)據(jù)可以是 隨時間記錄一個或多個對象的動作的其他數(shù)據(jù)。例如,其可以包括每 個對象的全球定位系統(tǒng)(GPS )坐標的序列。行為可以是移動對象(諸
如生物有機體)的交互。
結合學習輸入來處理數(shù)據(jù)集以確定在參數(shù)集的哪些參數(shù)上的相
應值的范圍表征交互可以包括使用學習系統(tǒng),例如但不限于基因算 法。
基因算法中使用的染色體可以包括用于測量參數(shù)集中每個參數(shù)
的基因,其可以打開或者關閉?;蛩惴ㄖ惺褂玫娜旧w可以包括指 定表征交互所需的參數(shù)簇(cluster)的數(shù)目的基因。基因算法中使用 的染色體可以包括指定評估染色體健康度(fitness )的時間段的基因。
間,以及將參數(shù)空間劃分為多少簇??梢允褂梦挥诖貎鹊臄?shù)據(jù)集的子集與交互所關聯(lián)的數(shù)據(jù)集的子集的相關程度來確定染色體的健康度。
根據(jù)本發(fā)明的一個實施方式,提供一種跟蹤一個或多個對象的方 法,包括處理第一數(shù)據(jù),以標識滿足第一準則或第一標準的連續(xù)數(shù)
據(jù)值的離散第一群組;處理第二后續(xù)數(shù)據(jù),以標識滿足第二準則或第 二標準的連續(xù)數(shù)據(jù)值的離散第二群組;在第 一群組和第二群組之間執(zhí) 行映射;使用映射來確定第二群組是代表單個對象還是代表多個對 象;在確定第二群組代表單個對象時,測量第二群組的一個或多個參 數(shù);在確定第二群組代表N (N>1 )個對象時,處理第二群組,以將 第二群組分解為滿足第二準則或第二標準的連續(xù)數(shù)據(jù)值的N個子群 組;測量子群組的一個或多個參數(shù);以及將多個子群組映射到多個對 象。
該方法將所有的社會和個體行為作為對象交互進行分類。使用了 一種針對所有行為類型的方法。
由于個體可能包含多個組件對象,則可以構建場景中的對象圖, 例如,場景可能包含兩個對象,每個對象由頭對象和身體對象組成。 這允許創(chuàng)建對象的層次,并且允許通過另一對象的組件或者完整對象 自身的組件來檢查完整對象的交互以及組件對象的交互。由組件對象 構成的完整對象繼承了組件對象的所有屬性,并且可以具有附加特 性,如果給出完整對象的對象類型(例如,老鼠,蒼蠅),則可以定 義該附加特性。
為了更好的理解本發(fā)明,現(xiàn)在將僅通過示例的方式來參考附圖, 附圖中
圖1A示意性地示出了跟蹤系統(tǒng);
圖1B示意性地示出了處理系統(tǒng)110;
圖2示意性地示出了跟蹤過程;
圖3A和圖3B示出了像素值的標記;
圖4示出了從跟蹤過程輸出的數(shù)據(jù)結構;以及圖5示意性地示出了設置和行為評價過程。
具體實施例方式
圖1A示出了適于執(zhí)行圖形捕獲和分析的跟蹤系統(tǒng)10。 該系統(tǒng)包括視頻相機2,存儲器緩沖器4,其用于在將相機提供 的視頻圖像傳遞給處理器6之前對視頻圖像進行緩沖。連接處理器6 以從存儲器8讀取和往存儲器8寫入。存儲器8存儲計算機程序指令 12。當計算機程序指令12加載入處理器6時,其控制系統(tǒng)10的操作。 計算機程序指令12提供使電子設備能夠執(zhí)行圖2中所示方法的邏輯 和例程。
計算機程序指令可以經由電磁載波信號達到系統(tǒng)10,或者可以從 物理實體(諸如計算機程序產品、存儲器設備或者諸如CD-ROM或 DVD的記錄介質)被復制到系統(tǒng)10,或者可以遠程服務器傳送到系 統(tǒng)10。
下文描述的跟蹤系統(tǒng)10已經針對在遠程位置的使用而設計。由 此,期望該系統(tǒng)具有輸出端口 14(諸如無線收發(fā)機),以用于經由低 帶寬傳輸來傳送數(shù)據(jù)結構40。還可以期望該系統(tǒng)實時操作,并且由此 可以期望降低處理器6產生數(shù)據(jù)結構40所需的計算量。
輸入文件格式3是^L頻文件或者一見頻流。所選擇的顏色方案可以 是RGB、 YUV、 YCC。
實現(xiàn)了幀丟棄。如果預期的幀數(shù)小于實際的幀數(shù),則將命令忽略 下一幀。這允許程序跟上流,并且避免損壞。然而,在丟棄幀時,其 導致視頻連續(xù)鏡頭(footage)的跳躍,這將在跟蹤時產生問題。為了 解決該問題,當命令丟棄幀時,存儲該幀并且不進行處理。在連續(xù)鏡 頭結束處,處理所有丟棄的幀,并且可以將結果插入結果數(shù)據(jù)。
圖1B示出了適于執(zhí)行圖5所示的數(shù)據(jù)設置和行為評估的處理系 統(tǒng)110。
該系統(tǒng)包括處理器106,其連接以從存儲器108讀取和往存儲器 108寫入。存儲器8存儲計算機程序指令112和數(shù)據(jù)結構40。當計算機程序指令112被載入處理器106時,其控制系統(tǒng)110的
操作。計算機程序指令112提供使電子設備能夠執(zhí)行圖5所示方法的
邏輯和例程。
計算機程序指令可以經由電磁載波信號到達系統(tǒng)110,或者可以 從物理實體(諸如計算機產品、存儲器設備或者諸如CD-ROM或DVD 的記錄介質)被復制到系統(tǒng)110,或者可以從遠程服務器傳送到系統(tǒng) 110。
系統(tǒng)110還包括用于與系統(tǒng)IO通信的無線收發(fā)器,以接收數(shù)據(jù) 結構40,處理器106繼而將數(shù)據(jù)結構40存儲在存儲器108中。
處理器106還連接至輸入裝置101,其他數(shù)據(jù)可以經由輸入裝置 101進入系統(tǒng)110。
盡管圖1A和圖1B中將系統(tǒng)10和110示為分離的實體,它們在 其他實施方式中可以集成。
圖2中示出了跟蹤過程20。提供給濾波階段22的輸入21可以是 視頻文件或者視頻流。在后一種情況下,將來自視頻相機存儲器緩沖 器的輸出提供給濾波器22。
在階段22,對圖像進行濾波,以便使用巻積來去除某些噪聲。核 (kernel)迭代地通過整個圖像,并且計算核在每個位置所覆蓋的像 素的力口斥又和。
下一階段24包括閾值化(也稱為量化)。這將圖像中感興趣的 像素(前景一個或多個對象)從背景中分離出來。這是將輸入圖像簡 化為二值圖像的過程(二值化)。針對閾值T來檢查每個像素(i,j), 并且如果像素的值大于T,則賦予其"真"值,如果像素的值小于T, 則賦予其"假"值。
<formula>formula see original document page 11</formula>
有多種方法可以獲取T值,在此將討論其中的一些。
平均閾值是最筒單的閾值化形式,其包括計算所有像素值的平均并且從中去除某常量C。
其中N是圖像中的像素總數(shù)。這種方法的優(yōu)點在于其非???,但是其 對于圖像上的光強變化不魯棒。
在適應性閾值中,窗口在圖像上迭代地通過。在每個位置,計算
該窗口內所包含的像素的平均值,并且減去常量C以給出閾值。
其具有以下優(yōu)點圖像上可以存在光強變化,并且將在整個圖像 上一致地標識對象。缺點在于當所檢查的像素數(shù)目很多時,其非常
十^^
當在恒定背景上進行試驗時,可以使用背景去除。將沒有前景對 象的背景的圖像作為B,將該圖像與可能包含前景對象的當前圖像結 合使用。在這種情況下,背景圖像將是測試區(qū)域,并且其他圖像將是 連續(xù)鏡頭的每 一 幀。以逐個像素為基礎將背景圖像從當前圖像中減 去。其效果是創(chuàng)建了僅包含前景對象的新圖像。
可選地,如果背景改變(例如,被安置在家籠試驗中),則可以 使用背景消除。這是取得每第N幀并且使用采樣幀來構建幀集的過 程。幀集具有固定的大小,并且在添加新幀時,按照先進先出的順序 刪除舊幀。當在幀集上對像素值進行平均時,刪除了移動對象,由此
保留了平均背景。
偽適應性閾值化是新穎的閾值化技術。該方法將大小為(hxw)的 圖像劃分為多個大小為(h/q(N))x(w/q(N))的窗口 N,繼而將這些窗口 中的每一個視作單獨的圖像,并且在子圖像內應用平均閾值化。由于 子圖像小于原始圖像,并非如上文所述的使用平均閾值化,而是在每 個子圖像中選擇k個隨機像素,并且對這些值進行平均以生成閾值(減 去常量)。<formula>formula see original document page 13</formula>
該算法對于遍及圖像上的光變化操作良好,并且窗口的最佳數(shù)目 是9到16之間。
適應性閣值化也操作良好,并且被分類為前景像素的背景噪聲的 量可以非常小,然而,其是耗時的。如果不希望為了速度而損失精度, 則適應性閾值化是優(yōu)選技術。然而,在可變光照的條件下,適應性閾 值化是優(yōu)選的,而在恒定光照的條件下,平均閾值化是優(yōu)選的。
下一階段是圖像凈化(cleaning)階段26。圖像凈化是去除在之 前的圖像處理之后可能保留下來的任何噪聲。在圖像凈化過程之后, 圖像中將僅留下較大的剛性(solid)區(qū)域。
腐蝕是這樣的過程其迭代地在整個圖像上取得像素的鄰域(該 像素周圍的像素),如果鄰域內的"真"像素數(shù)目小于閾值,則將該 像素設置為"假,,。其效果是從對象中去除了毛刺(spur)和突出, 并且還去除了少量噪聲。如果兩個區(qū)域幾乎接觸,則其具有將其分離 開的效果。其缺點在于丟失了前景對象的邊緣細節(jié)。
膨脹是腐蝕的逆。如果鄰域中的"真"像素數(shù)目大于某閾值,則 將該像素設置為"真"。其效果是填充前景對象中的空洞以及平滑邊 緣。然而,其也可能增加實際上是噪聲的小區(qū)域的大小。
腐蝕和膨脹可以一起使用,以平滑前景對象的邊緣,并從圖像中 去除不希望的小區(qū)域。
已經發(fā)現(xiàn),當濾波器22執(zhí)行平均巻積時,使用膨脹操作符是冗 余的,因為它們提供大致相同的效果。
下一階段是像素群組檢測,即階段28。在這種情況下,將像素群 組定義為與對象或者對象的重疊群組相關的、圖像中前景像素的連續(xù) 區(qū)域。標識像素群組,并為其指派唯一的標記。下面的算法遞歸地纟企查 每個像素的(4-8連通)鄰域,以確定是否已經為任何鄰居指派了標
記。如果還沒有指派,則將當前標記指派給像素;如果已經指派,則 算法將標記設置為相鄰標記的最低。
由此,如圖3B中所示的標記圖3A中所示的l象素。圖3B示出了 三個不同的像素群組。
偶爾在二值圖像中留下了不是前景對象的像素群組。對允許對象 的特征(例如,面積和/或偏心率)設置上界和下界。代表前景對象的 像素群組總是落在上界和下界之間。在像素群組檢測和標記過程中, 忽略特征范圍之外的任何像素群組。
像素群組檢測階段返回在當前幀中已經檢測到的像素群組的列
表,盡管由于遮擋這可能不是幀中的所有對象。 下一階段是遮擋事件檢測,即階段30。 將像素群組的邊界定義為包圍或者圍繞該群組的區(qū)域。 邊界可以是真實的包圍框,諸如由像素群組的最上點、最左點、
最右點和最下點定義的簡單矩形。這種方法的優(yōu)點在于,其計算非常
快。然而,這不是像素群組的形狀或者區(qū)域的良好表示,并且可能包
括相當?shù)谋尘皡^(qū)域。
從其主軸和朝向的角度看,邊界可以是經過擬合的上述包圍框。
這種方法的優(yōu)點在于所需計算仍然很簡單,并且結果矩形通常僅包
含較小比例的背景。
邊界還可以是最佳擬合像素群組的擬合邊界,諸如橢圓或者多邊
形。例如,可以使用標準優(yōu)化技術找到包圍像素群組的、具有最小面
積的橢圓。然而,所需的計算是復雜的,并且計算需要相當大量的時
/ftfe.( = G
■for each :pii:d G始7.1m邵e dc, if %力=true間。
可選地,可以使用主動輪廓模型來將邊界擬合至像素群組。擬合
像素群組邊界的另一方法是使用標準邊緣檢測例程(諸如Sobel濾波 器)提取邊緣,此后在所提取的邊緣上進行線段化,提供線的多邊形 表示。 一種線段化技術是挑選線上彼此相對的2個點(A, B),并 在這兩個點之間創(chuàng)建向量。當此線上距離向量最遠的點C超過某閾值 T時,則將向量分裂為兩個(AC, CB)。迭代地執(zhí)行該過程,直到 所提取的表示中不再有點遠于T。
盡管遮擋事件檢測通過利用對象的邊界標識了遮擋的開始和結 束,其他對象屬性(下面列出了其中的一些)提供了用于在遮擋期間 管理對象跟蹤的框 架。
標記這是對象的全局唯一標記,其隨時間標識對象。也即, 標記隨時間保持相同。
x, y:該對象的x和y坐標。
面禾口、 ^f象面禾口、
角度對象角度
矩形對象的邊界
包含包含當前與檢測到的對象相關聯(lián)的唯一標記的列表,或 者在其中不包含其他標記的情況下是其自己的標記。
被包含表明該對象是否被包含在另一對象的包含列表中的布 爾才示志。
可能可能被包含在此對象中的唯一標記的列表。其被用以處 理對包含多于兩個對象的邊界進行分裂所引起的模糊。
可以使用的其他屬性,該其他屬性包括但不限于偏心率、速度、 加速度、不同維度的大小。包含列表和可能列表還可以具有相關聯(lián)的 概率,例如,組件對象被包含在父對象中的某個概率。
可以通過使用與場景中的N個組件對象相對應的N個Kalman濾 波器來擴展遮擋期間的對象跟蹤。給定對象的信息歷史,Kalman濾 波器將給出當前幀中其信息的概率值。這可以在決策進行過程中使用,以便在發(fā)生大量合并和分裂操作時或者在幀間存在大量運動時改 進系統(tǒng)的可靠性。
Fuentes和Velastin提出的算法("People Tracking in surveillance applications", 2nd IEEE International Workshop on Performance Evaluation on Tracking and Surveillance, PETS 2001 )嘗試在幀之間匹 配邊界的包圍框。使其起作用的假設是與時間運動相比,空間運動 較小,也即,在連續(xù)的幀中,包圍框之間總是存在重疊。
如果定義兩個連續(xù)幀f(t)和f(t-l),則二者都可以包含不同數(shù)目的 邊界(將遮擋考慮在內),也即,邊界可以包含一個或多個對象。兩
個幀之間的對應關系由 一對匹配矩陣m;-'和m,'一,來定義。
矩陣m,"將來自當前幀的邊界匹配至先前幀的邊界。該矩陣具有
N個有序行和M個有序列,其中N代表當前幀中的邊界數(shù)目,并且
M代表先前幀中的邊界數(shù)目。行中的一個或多個"真"值表示與該
行相關聯(lián)的當前幀的邊界映射到與"真"值的一個或多個位置相關聯(lián)
的先前幀的邊界。
匹配串《'是向量的單個行,其中每個向量代表時刻f處幀中的邊
界,并且都針對該對象,每個向量代表在時刻處幀中相關聯(lián)的對
象。由此,在時刻t處在對應于特定邊界的位置出現(xiàn)多值向量表示多
個對象已經合并以形成該對象,并且向量標識組件對象。在多個位置
出現(xiàn)相同的向量表示由該向量所標識的邊界已經分裂。此外,在行中
出現(xiàn)多個"真"值表示邊界已經隨著時間分裂為多個對象。 使用匹配串,可以定義以下事件
合并i)UB '(i—丄)三BW) " 1《一i(i) - St丄 ') = /e. > ,9廣1(。=幻j ]
(417)
分裂S^— i) ; A(i)U玩.(fO " [力:)=j'UA' 、力)=《一1(》)- i J
進入新屮[StA)一iVj,5'r力)-0] (4.19) 離開^(卜'l)s離開"['5THj)—的 > 《"0 = M (4.20) 對應郞—1)=柳"= j , O = i) (4,21)
這些采用Fuentes和Velastin工作(2001 )的形式的才乘作允許在對象 進入或者離開時以及在邊界與另一邊界一對一匹配時檢測遮擋何時開始或者結束。
由此,另一事件可以定義為
不匹配S 不匹配<formula>formula see original document page 17</formula>
這聲明了如果對象正在離開和進入相同的幀,則這實際上是較差的
視頻連續(xù)鏡頭引起的錯誤,并且對象相互匹配,因為這比對象進入或
者離開連續(xù)鏡頭更有可能。
在遮擋事件檢測(階段3 0 )中,首先計算當前幀的對象的新邊界, 繼而通過計算該幀中的對象邊界與先前幀中的對象邊界之間的重疊, 來生成匹配矩陣和匹配串。隨后創(chuàng)建事件列表,并且對于這些事件, 在階段32中執(zhí)行相應的操作,以生成每個對象的附加信息。從單對 象像素群組中提取信息的過程34不同于從多對象像素群組中提取信 息的過程36。
在階段32,更新對象。然而,所執(zhí)行的更新操作取決于在階段 30檢測到的事件。
下面描述所允許的各種階段32事件??梢詾槊總€事件指派多個 事件何時對于對象或者對象集而言是可能的概率,可以通過檢查事件 的歷史和事件之間的關系來指派每個事件的概率。貫穿當前或者先前 數(shù)據(jù)集的持續(xù)期間,可以對其進行硬編碼或者學習。
OneOnOne(A, B):這聲明,來自先前幀的對象A匹配當前幀中 的邊界B。
如果對象A的包含列表變量僅包含一個條目,則將A的標記復 制到B的標記中。可以對對象B ^丸行像素群組分析方法34,以獲iF又 但不限于角度、面積和位置。
否則,如果包含列表變量具有多個條目(存在連續(xù)的遮擋),則 將A的包含列表和可能列表變量復制到B,并且執(zhí)行遮擋信息生成方 法36,以獲取像素群組中每個對象的角度和位置信息。從先前幀中的 相應對象繼承每個被包含列表對象面積,也即,并不嘗試計算被遮擋 對象的新面積。 合并(Merage) ([A,B], C):這聲明,來自先前幀的對象A和B 合并,以形成當前幀中的邊界C。
如果已經檢測到了合并,則結合A和B的包含列表變量(合并可 以包括多于兩個對象合并)。這創(chuàng)建了邊界C的包含列表變量,其代 表合并對象(由于邊界A或者B可能具有被包含的不止一個對象)。 接著使用遮擋信息生成方法36來針對C的包含列表創(chuàng)建角度和位置 信息,并且將該信息與相應的先前數(shù)據(jù)相匹配。
,人先前幀繼7 義每個對象面積,也即,并不嘗試計算被遮擋對象的 新面積。將每個合并對象的被包含的標志設置為"真"。
分裂(Split) (A, [B, C]):這聲明,來自先前幀的對象A已經 從單個邊界分裂為當前幀中的對象B和C。
在檢測到分裂時,將A中包含的對象總數(shù)定義為S(a),并且將A 分裂為的對象數(shù)目定義為N(s)?,F(xiàn)在假設一個分裂,這樣,假設B包 含(Sa-Na)個對象,并且假設C包含一個對象。C將其"可能"對象 變量設置為B的包含列表。
對于每個分裂對象,使用遮擋信息生成方法為B和C指派對象, 并且匹配至先前凄t才居。
如果對象A分裂為B和C但是對象A的包含列表變量沒有包含 覆蓋該分裂的足夠條目,也即(Sa<Ns),則參考對象A的可能變量。 可能變量的大小是P(a),促進分裂所需的額外對象的數(shù)目是(Ns-Sa)。 從對象A的可能變量中選擇(Sa〈Ns)個條目,并使用其來"補足數(shù)目"。 繼而從來自先前幀的所有其他對象的可能列表以及包含列表變量中 刪除這些條目。繼而如先前概括的完成分裂。最后,每個分裂對象將 其被包含的標志設置為"假"。
下面給出分裂操作的偽代碼{or<£wed.<7forest = FTNDCLOSEST(^A,poss《We, Sp^:*" "!-) cl o {:4 ,con* . :ns. acM( eredC'Z oses* ('£))
for : — 0 t,o (6U — iNrs—)
d o (5'fW:'i力故i.5"(《〕).da《ns ,a4.contft《ns (o 、 tiere cZCfZo se (《))) for《"(5U — iVs) to iVs
C o Sj》〖樹《考(《)= Sj 故始ig (0). cxmia《ns for each s G ,SpH始:rr,g
離開(Leave) (A):來自先前幀的對象A已離開。
如果已經檢測到了對象A離開,則將在其可能列表中、沒有在任 何其他對象可能列表中的任何條目添加到所有其他對象可能列表。這 涵蓋了對象A實際上包含多于一個對象的情況。
進入(Enter ) (A):當前幀中的邊界A是新的。
如果邊界A被檢測為進入,則為其指派新的標記,并且執(zhí)行像素 群組分析方法34,以獲取其面積、位置和角度以及多個其他參數(shù)。
如果邊界A實際上包含多于一個對象,則當其分裂時,將發(fā)現(xiàn)包 含列表和可能列表變量中沒有足夠的條目。在這種情況下,將分裂對 象視為新的。
不匹配(NoMatch) (A, B):來自先前幀的對象A與誰都不匹 配(正在離開),并且當前幀中的對象B與誰都不匹配(是新的), 因此,由于4交大的空間運動,々"殳A和B相互匹配。
如果已經沒有檢測到匹配,則找到沒有匹配的來自先前幀的所有 對象B(p)以及沒有匹配的來自當前幀的所有對象B(c),并且使用其中心點和最佳擬合算法將其指派給彼此。如OneOnOne匹配中一樣,將 信息從每個匹配的先前對象復制到當前對象。
豫;^^1^^^^才法34
該方法是可以用來獲取包含單個對象的像素群組的位置、面積和 角度信息的多種方法之一的示例。當已經在圖像中標識并標記了像素 群組時,必須提取所需的屬性??梢酝ㄟ^對屬于對象的像素的x和y 位置求和并且除以面積來簡單地找到位置。這給出了對象的平均x和 y位置??梢允褂镁€性參數(shù)模型或者基于向量的方法來找到角度。
線性參數(shù)模型是求解回歸問題的 一種方法,其試圖將線性模型擬 合至采樣數(shù)據(jù)集。這種方法的優(yōu)點在于,其給出了對象朝向的非常準 確的估計。缺點在于,與向量方法相比,計算所花費的時間較高。
基于向量的方法簡單地假設對象從頭到尾長于從側面到另 一側 面。首先找到中心,然后計算離中心最遠的點。使用這兩個點之間的 向量來確定對象的朝向。
遮祟7^感^成才法56
其用于獲取包含多個對象的像素群組中每個對象的位置和角度"息。
偽代碼是
算法B,4.1: CKX^lN^G"EN(n,只ece)
" .ea.m = KME.,4NS(He《10〗 for eacti附7- €.'爪eans
do / = KINDF冊THESTPorNTFROM(m(i) > i 忍ct)
a s' s' :爐meti亡=b estF it 》)
首先,將對象數(shù)目定義為對象A的包含列表的長度C(a)。在二值 圖像上,在對象A的邊界內執(zhí)行K^Length(C(a))的K-Means ( K均值 算法)。這生成了被包含對象的中心點(平均)P(n)。接下來,對于對象A中的每個點P(n),找到對象內距離P(n)的歐氏平方距離最長的 點D(n)。最后,使用最佳擬合指派方法將所有P值指派給D值。P 值和所指派的D值之間的向量的方向提供了角度數(shù)據(jù)。
現(xiàn)在,我們具有了針對已知為包含在邊界A中(以及由此包含在 邊界B中)的N個對象的數(shù)據(jù),必須將所計算的數(shù)據(jù)匹配至來自先 前幀的對象B中包含的數(shù)據(jù)。根據(jù)所計算的中心之間的平均距離,這 可以通過兩個方法之一來實現(xiàn)。首先,如果所計算的中心之間的平均 距離超過了某閾值T,則可以使用最佳擬合匹配算法將來自先前幀的 相應中心點匹配至當前幀。當平均距離小于T時,需要諸如alman濾 波器的預測方法。
來自階段32的輸出是諸如圖4中所示的數(shù)據(jù)結構40。對于視頻 的每個幀,其包括針對每個對象的條目。針對每個對象的條目包含信 息字段。
如果可以確保,貫穿數(shù)據(jù)集的每個幀中的對象數(shù)目是常量,則進 入和離開操作必定是錯誤引起的。因此,引入沖突解決例程作為事件 檢測階段30的部分是有益的,由此,可以通過不匹配事件來替代進 入和離開事件。在錯誤修正的最初一輪之后,繼而對經過濾波的事件
進行分析,以查看是否可以解決所有不匹配(也即,先前幀和當前幀 中是否有足夠的對象來滿足所有操作),如果不可以,則刪除無法滿 足的操作。
而且,該過程也可以是蓋然性的,其中,假設存在沖突,則在給 出關于沖突操作中所涉及對象(例如,來自Kalman濾波器)的預測 信息的過去經驗和可用信息的情況下可以為解決該沖突的操作指派概率。
來自跟蹤過程20的輸出(即數(shù)據(jù)結構40)可以在執(zhí)行該跟蹤過 程的位置進行處理,也可以乂人該位置遠程進行處理。》類評錄炎凝
跟蹤過程20產生的數(shù)據(jù)結構40被用以重構對象的交互。專家通 過標識他們認為其期望的行為得到滿足的連續(xù)鏡頭時段,來與注解器
(annotator)交互。將專家分類與來自數(shù)據(jù)結構40的相應參數(shù)值一 起存儲在日志文件中。日志文件是參數(shù)和值的已標記數(shù)據(jù)集(滿足或 者不滿足行為)。行為學習算法使用日志文件來生成對應于專家分類 過程的規(guī)則。
存》夢^^法
假設存在可以根據(jù)與一個或多個對象的某些行為相互聯(lián)系的對 象的交互而測量的某些參數(shù)。有可能無法根據(jù)連續(xù)鏡頭的單個幀來標 識行為,因為這些行為可能在有可能進行分類之前的時段被展示。如 果存在定義n維空間的n個參數(shù),則假設表征特定行為的不同方面 的數(shù)據(jù)點將形成不同的簇。每個簇可以是n維空間中的體積,或者是 某些m維子空間的體積(volume)。每個蔟代表針對所研究行為的特 定方面的4于為^見則。
圖4中所示的過程50的對象將接收流式數(shù)據(jù)結構40,并且實時 確定是否發(fā)生了預定的行為,如果是,則確定該行為涉及哪個或者哪 些對象。
設置過程52首先將行為的方面表征為不同的"行為"體積。行 為體積可以跨越其自己的n維空間的m維子空間。
評估過程54繼而處理接收到的參數(shù),以確定其是否落在行為體 積之內。如果是,則將認為接收的參數(shù)所代表的情況對應于該行為。
皮J誠
設置過程52將行為的方面表征為不同的"行為"體積。行為體 積可以3,越其自己的n維空間的m維子空間中。用于該方法的多個維 度降低過程包括但不限于基因算法、主成分分析、蓋然性PCA以 及因素分析。在基因算法的情況下,過程生成可能解的群體,每個解由基因的 染色體定義。染色體被定義為一組測量參數(shù)基因以及一組在基因算法 中控制健康度評分過程的基因。基因算法通常針對較好擬合的基因仿 真較長的壽命,并且還仿真提高的繁殖的可能性。還可以允許一些基 因突變。
控制評分過程的基因例如將簇的數(shù)目C規(guī)定為整數(shù)基因,并且將 檢測行為的時段F規(guī)定為整數(shù)基因。測量的參數(shù)基因可以是能夠打開 /關閉的布爾基因。
基因算法的優(yōu)點在于無需預先判斷哪些測量參數(shù)進行聚類或者
其如何進行聚類來表征所研究的行為,或者應當評估行為的時段。基
因算法本身將解決這些問題。
在基因算法的每次迭代中,從群體中隨機選擇(或者使用竟爭選 擇)染色體,并且隨機執(zhí)行三個操作之一。
.選擇將染色體移動到未改變的中間群體
突變隨機地改變染色體中的一個值,并且將其移動到中間群體 交叉選擇兩個染色體,并且沿著染色體的長度隨機挑選點,并 且在分裂點之后交換兩個染色體的所有的值。這生成了兩個孩子和兩 個父親。從這些孩子和父親中挑選多個以通過中間群體。具有最高健 康度的兩個結果染色體可以例如進入中間群體,并且丟棄其他兩個。 在每次迭代的結尾,評價中間群體中的每個染色體的健康度。 使用來自專家分類階段的日志文件51為每個染色體解指派健康 度記分。在可能的解染色體中,被打開(也即,具有"真"值)的b 個測量參數(shù)基因定義由所測量參數(shù)定義的n維參數(shù)空間的b維子空 間。
專家日志文件記錄有n維空間中的數(shù)據(jù)點以及專家是否認為每個 數(shù)據(jù)點位于行為期間,該專家日志文件被用來形成跨越n維參數(shù)空間 的b維子空間的C個簇。例如可以使用高斯分布或者擴展K-means 或者C-means ( C均值)算法來執(zhí)行聚類,但是不限于這些聚類方法。
高斯聚類將概率的"粒子(blob)"擬合到數(shù)據(jù)空間中,允許給予點其屬于存在的每個高斯分布的概率。這在分類情況下可能是有益 的,但是如果數(shù)據(jù)點落入任何高斯分布,其將被分類為行為。還是通 過高斯分布,必須確定置信區(qū)間,以便給出對可能導致復雜化
(complication )的數(shù)據(jù)的最佳擬合。
K-Means算法是使k個均值擬合n個數(shù)據(jù)點的一種方法。最初, 隨機地將數(shù)據(jù)集中的點指派到k個集合之一中,并且計算每個集合的 質心
繼而對每個點進行迭代,并且根據(jù)歐氏平方距離來計算距其最近的質 心。將每個點指派到與最近質心相關聯(lián)的集合中。
在每次迭代的結尾,重新計算集合的質心。繼續(xù)該過程,直到經 過了預定數(shù)目的迭代,或者直到在迭代期間沒有重新指派。下面給出
偽代碼
算法 .Bsais KMEANS(dofe,seHi,沐s)
<formula>formula see original document page 24</formula>K-means僅使均值擬合數(shù)據(jù)點,但是可以對其進行擴展,以給予 每個均值包圍框,并由此使其成為簇。其實現(xiàn)是通過檢查屬于特定 簇的所有點(也即,其到該點的最近均值)并且通過在每個維度中檢 查到該簇中的均值最遠的點來創(chuàng)建包圍框(在兩個維度中創(chuàng)建,在三維空間是立方體,在更多維空間中是超立方體)。這在每個維度中生 成一組閾值。忽略距離均值過遠(用戶通過閾值T定義)的屬于蔟的
任何點,以補償數(shù)據(jù)集中的異常值(噪聲數(shù)據(jù))。繼而將簇定義為n
維空間中的中心點以及每個維度中的容差。該容差是閾值,其表明參 數(shù)集的實例可以距離已定義中心點的其落入簇以及可被分類為行為 方面的最大歐氏距離。
可以添加閾值T,作為基因算法中使用的染色體的基因。此外,
也可以按照這種方式來學習分類的時間關系,并且在分類或者后處理 中對其加以-使用。
繼而使用所定義的C個簇來評估日志文件。將落入所定義簇C的、 來自日志文件的每個數(shù)據(jù)點標記為展現(xiàn)行為,并且將沒有落入任何所 定義簇C的每個數(shù)據(jù)點標記為沒有展現(xiàn)行為。
用于染色體的健康度函數(shù)在逐幀的基礎上基于在數(shù)據(jù)的過去F幀 上的求偶行為的算法分配與求偶行為的專家分配的相關性。相關性越 好,染色體擬合越好。
繼而找到中間群體的總健康度,并且使用輪盤算法來構造下一群 體。這將群體大小的一部分(染色體健康度/總健康度)指派給了中間 群體中的每個染色體。這確保在下一代中有更多的較好擬合解。
停止條件是最佳解與(用戶定義的)測試數(shù)據(jù)中的專家分類的百 分比相關性的(用戶定義的)多個迭代的集合。
基因算法的結果是單個最佳擬合的染色體或者最佳擬合的染色 體群組。此外,可以計算與這種染色體相關聯(lián)的蔟。
基因算法的優(yōu)點在于其是任意時間的算法,也即,其可以在任意 時間停止,并且可以返回有效的解,隨著其運行時間的增加,解將變 得更好。
對于蠅類,假定求偶交互將其自己表示為特定距離界限內的特定 方向的集合中的、相互朝向的對象。由此,可能需要的參數(shù)是相對距 離、兩個對象之間的角度以及對象之間的x和y距離。需要x和y距 離是因為在求偶行為中, 一 只蒼蠅可能跟隨另 一 只蒼蠅。由此,在蠅類示例中,假設但是不知道在發(fā)生求偶行為時采用特 定范圍值的一個或多個特定參數(shù),諸如面積、相對位置、相對朝向。 在該特定示例中,測量的參數(shù)基因是四個布爾基因,其代表四個
數(shù)據(jù)值x距離、y距離、相對距離和相對角度。評分過程基因是兩 個整數(shù)基因,其代表所期望的簇C的數(shù)目以及要考慮的過去數(shù)據(jù)的幀 數(shù)F。
設置過程52中的基因算法具有固定的數(shù)據(jù)點和行為分類,并產 生染色體和簇。
繼而可以固定最佳擬合的染色體及其相關聯(lián)的簇。繼而,在評價 過程54處,將來自數(shù)據(jù)結構40的輸入數(shù)據(jù)點減小為跨越最佳擬合染 色體的"打開"測量參數(shù)所跨越的空間的那些數(shù)據(jù)點,繼而進行檢測, 以查看它們是否位于相關聯(lián)的簇內。如果是,在輸出56中將其自動 分類為展現(xiàn)行為。
在對數(shù)據(jù)集進行分類之后,可以研究行為組件之間的關系。由于 專家標識高層行為,算法標識對象之間的關系,可以由不止一個組件 (學習的簇)來構成單個行為。這可以通過考慮所標識的組件之間的 時間關系來實現(xiàn)??梢允褂弥T如隱式馬爾可夫模型(Hidden Markov Model)的技術來計算時間點處的組件值的可能性(如果沒有匹配組 件則為0),以確定所指派的值是否合適。
可以進行后處理以作為來自算法的輸出的整體行為是布爾值(或 者概率)的列表??梢曰谒鶚俗R的行為對這些值進行平滑,以消除 不可能的時間關系。示例包括表示行為的時間長度或者正在表示的行 為中中斷的長度。這種技術的示例包括在數(shù)據(jù)值上通過包含高斯分布 的窗口,以便平滑數(shù)據(jù)值。
盡管已經在之前的段落中參考各種示例描述了本發(fā)明的實施方 式,應當意識到,在沒有脫離所要求的本發(fā)明范圍的情況下,可以對 給出的示例進行修改。例如,盡管跟蹤和行為分析是關于蒼蠅描述的, 但是其可以用于其他移動對象的跟蹤和行為分析,諸如獨立的生物有 機體、能夠獨立相對運動的動物、嚙齒動物、蠅類、斑馬魚和人。盡管在前文中努力關注那些被認為特別重要的發(fā)明特征,但是應 當理解,申請人要求保護此前參考附圖和/或在附圖中示出的任何可取 得專利的特征及其組合,不論是否對其進行過特別強調。
權利要求
1.一種用于自動表征一個或多個對象的行為的方法,包括處理對象數(shù)據(jù)以獲取數(shù)據(jù)集,所述數(shù)據(jù)集隨時間記錄針對每個對象的測量參數(shù)集;提供學習輸入,其標識對象的所述測量參數(shù)集何時與行為相關聯(lián);結合所述學習輸入來處理所述數(shù)據(jù)集,以確定所述參數(shù)集的哪些參數(shù)上的相應值的范圍表征所述行為;以及發(fā)送標識所述參數(shù)集的哪些參數(shù)上的相應值的范圍表征所述行為的信息,以便在使用所述特征參數(shù)及其特征范圍來處理第二對象數(shù)據(jù)并自動標識所述行為何時發(fā)生的過程中使用。
2. 根據(jù)權利要求1所述的方法,其中,所述獨立移動對象是能夠 獨立相對運動的動物。
3. 根據(jù)權利要求2所述的方法,其中,所述動物是嚙齒動物。
4. 根據(jù)權利要求2所述的方法,其中,所述動物是蠅類。
5. 根據(jù)權利要求2所述的方法,其中,所述動物是斑馬魚。
6. 根據(jù)權利要求2所述的方法,其中,所述動物是人。
7. 根據(jù)前述任一權利要求所述的方法,其中,結合所述學習輸入 來處理所述數(shù)據(jù)集以確定所述參數(shù)集的哪些參數(shù)上的相應值的范圍 表征所述行為包括使用學習機制。
8. 根據(jù)前述任一權利要求所述的方法,其中,結合所述學習輸入 來處理所述數(shù)據(jù)集以確定所述參數(shù)集的哪些參數(shù)上的相應值的范圍 表征所述行為包括使用基因算法。
9. 根據(jù)權利要求8所述的方法,其中,在所述基因算法中使用的 染色體包括針對所述測量參數(shù)集中每個參數(shù)的、可以打開或者關閉的 基因。
10. 根據(jù)權利要求8或者9所述的方法,其中,在所述基因算法 中使用的染色體包括指定表征所述行為所需的參數(shù)簇的數(shù)目的基因。
11. 根據(jù)權利要求8、 9或者10所述的方法,其中,在所述基因 算法中使用的染色體包括指定對染色體的健康度進行評估的時段的 基因。
12. 根據(jù)權利要求8到11中任一權利要求所述的方法,其中,來所述參數(shù)空間劃分為多少個簇,并且位于所述簇內的所述數(shù)據(jù)集的子 集與行為所關聯(lián)的所述數(shù)據(jù)集的子集的相關程度決定所述染色體的 健康度。
13. 根據(jù)前述任一權利要求所述的方法,其中,所述對象數(shù)據(jù)是視頻。
14. 根據(jù)前述任一權利要求所述的方法,其中,所述所表征的行 為是移動對象的交互。
15. —種計算機程序,用于執(zhí)行權利要求1到14中任一權利要求 所述方法中的步驟。
16. —種用于自動表征一個或多個對象的行為的系統(tǒng),包括 裝置,用于提供標識對象的測量參數(shù)集何時與行為相關聯(lián)的學習輸入;裝置,用于結合所述學習輸入來處理隨時間記錄針對每個對象的 所述測量參數(shù)集的數(shù)據(jù)集,以確定所述參數(shù)集的哪些參數(shù)上的相應值 的范圍表征所述行為;以及裝置,用于輸出標識所述參數(shù)集的哪些參數(shù)上的相應值的范圍表 征所述行為的信息。
17. —種跟蹤一個或多個對象的方法,包括處理第 一 數(shù)據(jù),以標識滿足第 一 準則或者第 一 標準的連續(xù)數(shù)據(jù)值 的離散的第一群組;處理第二后續(xù)數(shù)據(jù),以標識滿足第二準則或者第二標準的連續(xù)數(shù) 據(jù)值的離散的第二群組;在所述第一群組和所述第二群組之間執(zhí)行映射;使用所述映射來確定第二群組是代表單個對象還是代表多個對象;當確定第二群組代表單個對象時,測量所述第二群組的一個或多個參數(shù);當確定第二群組代表N (N>1)個對象時,處理第二群組,以將 所述第二群組分解為滿足所述第二準則或者第二標準的連續(xù)數(shù)據(jù)值的N個子群組;測量所述子群組的所述一個或多個參數(shù);以及 將所述多個子群組映射到所述多個對象。
18. 根據(jù)權利要求17所述的方法,其中,將所述多個子群組映射 到相應的對象是基于匹配所測量參數(shù)。
19. 根據(jù)權利要求18所述的方法,其中,所述所測量參數(shù)是距離。
20. 根據(jù)權利要求17到19中任一權利要求所述的方法,其中, 將所述多個子群組映射到相應的對象是基于匹配所測量參數(shù)的變化 率。
21. 根據(jù)權利要求17到20中任一權利要求所述的方法,其中, 將所述多個子群組映射到相應的對象是基于所測量參數(shù)的歷史。
22. 根據(jù)權利要求17到21中任一權利要求所述的方法,其中, 如果滿足第三準則或者標準,則將所述多個子群組映射到相應的對象 是根據(jù)第一方法,并且其中,如果滿足第四準則或者標準,則將所述 多個子群組映射到相應的對象是根據(jù)第二方法。
23. 根據(jù)權利要求22所述的方法,其中,所述第一方法使用第一 觀寸量參數(shù)。
24. 根據(jù)權利要求23所述的方法,其中,所述第二方法使用取決 于所述第 一 測量參數(shù)隨時間的變化的值。
25. 根據(jù)權利要求17到22中任一權利要求所述的方法,其中, 所述第一數(shù)據(jù)是第一視頻幀,所述第二數(shù)據(jù)是第二后續(xù)視頻幀,并且 所述數(shù)據(jù)值是像素值。
26. 根據(jù)權利要求25所述的方法,其中,只要所述第二幀中的子 群組到所述第一幀中對象的距離中最短的一個超過了閾值,將所述多個子群組映射到相應的對象就是基于對所述距離的測量,否則,其是 基于對移動對象的運動的測量,所述運動是從包括所述第一幀的先前 幀以及所述第二幀中的子群組至U所述移動對象的預測位置的距離而 導出的。
27. 根據(jù)權利要求25或者26中任一權利要求所述的方法,進一 步包括處理視頻幀以標識滿足準則或者標準的連續(xù)像素值的離散群 組,包括將大小為(hxw)的所述第一視頻幀劃分為多個窗口 ,并且對 每個窗口單獨地執(zhí)行平均閾值化。
28. 根據(jù)權利要求17到27中任一權利要求所述的方法,其中, 在所述第一群組和所述第二群組之間執(zhí)行映射包括標識"不匹配"事 件,在"不匹配"事件中,所述第一群組之一看似已經進入(或者離 開),并且所述第二群組之一看似已經同時離開(或者進入),并且 強制通過看似已經同時離開(或者進入)的所述第二群組之一來映射 看似已經進入(或者離開)的所述第一群組之一。
29. 根據(jù)權利要求17到28中任一權利要求所述的方法,進一步 包括根據(jù)與所述第一幀相比所述第二群組的一個或多個是否看似已 經進入或者離開,來解決所述第一群組和所述第二群組之間的映射中 的沖突。
30. 根據(jù)權利要求17到29中任一權利要求所述的方法,其中, 所述所測量參數(shù)包括面積、朝向、位置、速度中的一個或多個。
31. 根據(jù)權利要求17到30中任一權利要求所述的方法,其中, 所述第 一 準則/標準和所述第二準則/標準是相同的。
32. 根據(jù)權利要求1到30中任一權利要求所述的方法,其中,用 于標識連續(xù)像素值的離散群組的所述準則或者標準是動態(tài)的。
33. —種計算機程序,用于執(zhí)行權利要求17到32中任一權利要 求所述的方法。
34. —種用于跟蹤一個或多個對象的系統(tǒng),包括 處理器,其能夠進行操作以處理第 一 數(shù)據(jù),以標識滿足第 一 準則或者第 一 標準的連續(xù)數(shù)據(jù)值的離散的第一群組;外理第二后續(xù)數(shù)據(jù),以標識滿足第二準則或者第二標準的連續(xù)數(shù)據(jù)值的離散的第二群組;在所述第一群組和所述第二群組之間執(zhí)行映射;使用所述映射來確定第二群組是代表單個對象還是代表多個對象;當確定第二群組代表單個對象時,測量所述第二群組的一個或多 個參數(shù);當確定第二群組代表N (N>1)個對象時,處理所述第二群組, 以將所述第二群組分解為滿足所述第二準則或者第二標準的連續(xù)數(shù) 據(jù)值的N個子群組;測量所述子群組的所述一個或多個參數(shù);以及將所述多個子群組映射到所述多個對象。
全文摘要
通過以下步驟自動地表征一個或多個對象的行為處理對象數(shù)據(jù)以獲取數(shù)據(jù)集,該數(shù)據(jù)集隨時間記錄針對每個對象的測量參數(shù)集;提供學習輸入,其標識對象的測量參數(shù)集何時與行為相關聯(lián);結合學習輸入來處理數(shù)據(jù)集,以確定參數(shù)集的哪些參數(shù)上的相應值的范圍表征行為;以及發(fā)送標識參數(shù)集的哪些參數(shù)上的相應值的范圍表征行為的信息,以便在使用所述特征參數(shù)及其特征范圍來處理第二對象數(shù)據(jù)并自動標識所述行為何時發(fā)生的過程中使用。還公開了一種跟蹤一個或多個對象的方法。
文檔編號G06T7/20GK101410855SQ200680054053
公開日2009年4月15日 申請日期2006年3月28日 優(yōu)先權日2006年3月28日
發(fā)明者D·A·貝克, J·A·休厄德, J·D·阿姆斯特朗 申請人:愛丁堡大學評議會