用于處理視覺信息以檢測事件的系統(tǒng)和方法
【專利說明】用于處理視覺信息以檢測事件的系統(tǒng)和方法
[0001] 相關申請的交叉引用
[0002] 本申請要求享有2012年11月6日提交的美國臨時專利申請61/722, 885的優(yōu)先 權,其內容通過引用全部結合至此。
【背景技術】
[0003] -個或多個實施方式涉及處理視覺信息。
[0004] 已經開發(fā)出了多種處理技術,通過利用-舉例來說-混合高斯模型(MOG),分層貝 葉斯模型和隱馬爾可夫模型來檢測視頻中的特征。特征位于一個幀中,嘗試找到隨后相鄰 幀中的匹配特征,或者在相鄰幀之間執(zhí)行塊匹配。這些技術已經被證明因為計算復雜性而 耗時,還發(fā)現(xiàn)容易受光線變化、遮蔽、旋轉、比例差異和其他影響而產生誤差。
[0005] 此外,這些技術執(zhí)行從下而上法來尋找特征。這種方法基于區(qū)域來定位特征,舉例 來說,所述區(qū)域可以是預選的尺寸為nXn的固定塊。自下而上法還檢測,分割和跟蹤一個 特征,接下來嘗試檢測,分割和跟蹤數(shù)量越來越多更大數(shù)量的特征。當特征的數(shù)量變得巨大 時,無法以任何精確度來檢測或跟蹤對象。因此,自下而上法被證明對于很多應用而言是不 適合的。
【發(fā)明內容】
[0006] 根據(jù)本發(fā)明的一個實施方式,提供了一種以實現(xiàn)低誤差率的方式精確地檢測特征 和事件的方法。
[0007] 根據(jù)另一個實施方式,提供了一種用于實時檢測特征和事件的方法,該方法可以 被證明在緊急情況下、公共安全或其他應用中是有益的。
[0008] 根據(jù)另一個實施方式,提供了一種用于檢測視頻中的大量特征和事件而不隨著特 征或事件的數(shù)量增加損失精確度的方法。
[0009] 根據(jù)另一個實施方式,提供了一種用于以低誤差率檢測復雜場景或人群中的特征 和事件的方法。
[0010] 根據(jù)另一個實施方式,提供了一種利用趨勢和異常無監(jiān)督學習來檢測特征/事件 的方法。
[0011] 根據(jù)另一個實施方式,提供了一種利用相干統(tǒng)計法檢測特征和事件的方法,所述 相干統(tǒng)計法涉及對視覺信息中的特征進行自上而下分組和非離散跟蹤。
[0012] 根據(jù)另一個實施方式,提供了一種利用自上而下法檢測特征和事件的方法,所述 自上而下法是基于視覺信息中的運動邊緣的位置,而不是基于像素,更具體地,包括固定數(shù) 量像素的預選區(qū)域。
[0013] 根據(jù)另一個實施方式,提供了一種基于生成將在檢測視覺信息中的更高級運動邊 緣時使用的時空梯度(gradient)而定位運動邊緣的方法。
[0014] 根據(jù)另一個實施方式,提供了一種基于對運動邊緣而非預選的固定空間區(qū)域或預 選的固定時間長度(剪輯或長方體長度)進行定位而對視覺信息執(zhí)行事件檢測的方法。相 反,根據(jù)至少一個實施方式,使用了多分辨率空間表示。
[0015] 根據(jù)另一個實施方式,提供了一種基于對視覺信息中的運動邊緣或活動而非預選 的固定數(shù)量像素進行定位而執(zhí)行事件檢測的方法。
[0016] 根據(jù)另一個實施方式,提供了一種對視覺信息執(zhí)行事件檢測的方法,該方法利用 統(tǒng)計法尋找?guī)械奶卣鞯倪\動,無需匹配幀之間的特征。
[0017] 根據(jù)另一個實施方式,在維持完全時間分辨率的同時實施前面所提到的方法,由 此可以高精確度地檢測和測量事件的開始和結束。
[0018] 根據(jù)一個實施方式,處理信息的方法包括:接收包括至少一個運動中的對象的視 覺信息;定位所述視覺信息中的所述對象的至少一個空間邊緣;在N個幀上為所述至少一 個空間邊緣生成多個時空梯度,其中N> 3 ;根據(jù)所述時空梯度生成運動模糊圖像;對所述 運動模糊圖像執(zhí)行回歸分析,以確定所述對象在所述N個幀中的運動方向信息;基于所述 運動方向信息為所述N個幀生成場景活動向量;以及基于為所述N個幀生成的場景活動向 量在所述視覺信息中檢測事件。
[0019] 可以通過以下步驟生成所述時空梯度:獲得所述N個幀中的每一個的空間邊緣圖 像;以及基于所述空間邊緣圖像中的一個相應空間邊緣圖像和移動平均線確定所述時空梯 度。所述移動平均線是基于背景邊緣圖像的。
[0020] 可以通過以下步驟生成所述場景活動向量:將所述N個幀中的每一個劃分為塊; 確定每個塊的特征參數(shù);為每個塊生成場景活動向量;以及基于為所述N個幀的每個塊生 成的場景活動向量確定所述N個幀的場景活動向量。
[0021] 所述特征參數(shù)可以包括以下參數(shù)中的一個或多個:基于所述塊中的一個相應塊中 的非零方向值的和的第一參數(shù);基于所述塊中的一個相應塊中的主導方向的第二參數(shù);基 于所述塊中的一個相應塊中的主導顏色的第三參數(shù);基于所述塊中的一個相應塊中的運動 的平均速度的第四參數(shù);基于所述塊中的一個相應塊中的所述對象的運動方向的一致度或 均勻度的第五參數(shù);基于密度的第六參數(shù);或基于時頻的第七參數(shù)。
[0022] 根據(jù)另一個實施方式,用于處理信息的裝置包括被配置為存儲控制程序的存儲區(qū) 域和被配置為基于所述控制程序對視覺信息進行處理的控制器。所述控制器可以通過以 下步驟處理所述視覺信息:定位視覺信息中一個對象的至少一個空間邊緣;在N個幀上為 所述至少一個空間邊緣生成多個時空梯度,其中N> 3 ;根據(jù)所述時空梯度生成運動模糊圖 像;執(zhí)行回歸分析以確定所述對象在所述N個幀中的運動方向信息;基于所述運動方向信 息為所述N個幀生成場景活動向量;以及基于為所述N個幀生成的所述場景活動向量在所 述視覺信息中檢測事件。
[0023] 所述控制器可以通過以下步驟生成所述時空梯度:獲得所述N個幀中的每一個的 空間邊緣圖像;以及基于相應空間邊緣圖像和移動平均線確定所述時空梯度。
[0024] 所述控制器可以通過以下步驟生成所述場景活動向量:將所述N個幀中的每一個 劃分為塊;確定每個塊的特征參數(shù);為每個塊生成場景活動向量;以及基于為所述N個幀的 每個塊生成的場景活動向量確定所述N個幀的場景活動向量。
[0025] 根據(jù)另一個實施方式,提供了一種系統(tǒng)。該系統(tǒng)包括如上所述用于處理信息的裝 置,被配置為提供視覺信息的一個或多個視頻源,被配置為生成反饋信息的一個或多個反 饋裝置,以及被配置為呈現(xiàn)來自所述處理裝置的輸出的反饋生成器接口。所述反饋生成器 接口還被配置為控制所述反饋裝置以生成所述反饋信息。
[0026] 根據(jù)另一個實施方式,提供了一種非瞬時性計算機可讀介質。所述非瞬時性計算 機可讀介質存儲一組可執(zhí)行指令,當執(zhí)行時,所述指令將處理裝置被配置為執(zhí)行任意上述 的方法實施方式。
[0027] 另一個實施方式涉及一種計算機程序,該計算機程序適于執(zhí)行任意上述和/要求 保護的方法。舉例來說,計算機程序適于執(zhí)行包括以下步驟的方法:接收包括至少一個運動 中的對象的視覺信息;定位所述視覺信息中的所述對象的至少一個空間邊緣;在N個幀上 為所述至少一個空間邊緣生成多個時空梯度,其中N> 3 ;根據(jù)所述時空梯度生成運動模糊 圖像;對所述運動模糊圖像執(zhí)行回歸分析,以確定所述對象在所述N個幀中的運動方向信 息;基于所述運動方向信息為所述N個幀生成場景活動向量;以及基于為所述N個幀生成 的所述場景活動向量在所述視覺信息中檢測事件。
【附圖說明】
[0028] 根據(jù)下面的詳細描述和附圖,可以完全理解本發(fā)明,其中相似的元素用相似的附 圖標記表示,這只是以舉例方式進行說明,因此不對本發(fā)明構成限制。
[0029] 圖1顯示了用于處理視覺信息的裝置的一個實施方式。
[0030] 圖2顯示了用于處理包括視覺信息的信息的方法的實施方式中包括的操作。
[0031] 圖3顯示了用于為視頻幀生成時空梯度的方法的一個實施方式中包括的操作。
[0032] 圖4顯示了用于為視頻幀生成紋理差異圖像的方法的一個實施方式中包括的操 作。
[0033] 圖5顯示了用于為視頻幀生成場景活動向量的方法的一個實施方式中包括的操 作。
[0034] 圖6A至6D顯示了用于為場景活動向量生成場景參數(shù)的一個實施方式中包括的操 作。
[0035] 圖7A至7D顯示了用于為場景活動向量生成場景參數(shù)的另一個實施方式中包括的 操作。
[0036] 圖8顯示了如何基于為一段時間內的視頻幀生成的場景活動向量而檢測事件的 例子。
[0037] 圖9A顯TK了走廊場景的視頻幀,圖9B顯TK了利用光流技術為圖9A所TK視頻幀生 成的運動特征的例子,圖9C顯示了基于圖9A所示視頻幀中的空間圖像的位置而生成的運 動特征的例子。
[0038] 圖IOA顯示了走廊的視頻幀,該走廊上有多個人,將為這些人生成運動邊緣,圖 IOB顯示了走廊和相機位置的布局。
[0039] 圖IlA和IlB顯示了事件檢測的時間輪廓。
[0040] 圖12顯示了緊急情況下人群的視頻幀。
[0041] 圖13顯示了圖12所示視頻幀的可信度值。
[0042] 圖14A顯示了為視頻幀生成的分數(shù)的例子,圖14B顯示了視頻幀的場景活動向量。
[0043] 圖15顯示了幀的不同水平分區(qū)的例子。
[0044] 圖16顯示了圖15所示分開的水平的參數(shù)。
[0045] 圖17顯示了場景活動向量參數(shù)的例子。
[0046] 圖18顯示了為檢測多個視頻幀中的事件而生成的時空長方體的例子。
[0047] 圖19顯示了不同時間的場景活動向量分數(shù)。
[0048] 圖20顯示了不同日期的場景活動向量值。
[0049] 圖21顯示了游戲的一個實施方式的截圖。
[0050] 圖22顯示了互動式數(shù)字招牌應用。
[0051] 圖23顯示了用于實施互動式實施方式的系統(tǒng)的圖。
【具體實施方式】
[0052] 下面參考附圖更充分地描述各種示例實施方式,在附圖中出現(xiàn)時了某些示例實施 方式。
[0053] 雖然能夠對示例實施方式進行各種修改并且以替代形式實現(xiàn),但是在附圖中以舉 例方式顯示了這些實施方式,并在這里對其進行詳細描述。但是,應該理解,這不意味著示 例實施方式限制為所公開的特定形式。相反,示例實施方式涵蓋落入本公開的所有修改,等 價或替代。在整個對附圖的描述中,相似的數(shù)字表示相似的元素。
[0054] 雖然在這里會使用術語"第一","第二"等描述不同元素,但是這些元素不應受這 些術語限制。這些術語僅被用于將一個元素與另一個元素區(qū)分開。例如,在不超出本公開 的范圍的前提下,可以將第一元素稱為第二元素,同樣,可以將第二元素稱為第一元素。這 里使用的術語"和/或"包括相關列出項目中的一個或多個的任意和所有組合。
[0055] 當將一個元素稱為是與另一個元素"連接",或"耦合"時,它可以直接連接或耦合 至另一個元素,或者可以存在中介元素。相反,當將一個元素稱為是與另一個元素"直接連 接"或"直接耦合"時,不存在終結元素。用于描述元素之間的關系的其他詞語應該以類似 方式進行解釋(例如,"在……之間"與"直接在……之間","相鄰"與"直接相鄰"等。)
[0056] 這里使用的術語目的只是為了描述特定實施方式,不應理解為限制性的。除非另 有說明,單數(shù)形式"一","一個"和"所述"應該還包括復數(shù)形式。還應該理解,這里使用的 術語"包括","包含"指定存在所陳述的特征,整數(shù),步驟,操作,元素,和/或組件,但是不排 除存在或增加一個或多個其他特征,整數(shù),步驟,操作,元素,組件,和/或它們的分組。
[0057]需要注意,在一些替代實施方式中,功能/動作發(fā)生的順序可能以與圖中所示順 序不同。例如,連續(xù)心事的兩個圖可能實際上基本上同時地執(zhí)行,或者以相反順序執(zhí)行,這 取決于所涉及的功能/動作。
[0058] 除非另有限定,這里使用的所有術語(包括技術術語和科學術語)的意思與本領 域技術人員常規(guī)理解的意思相同。還應該理解,術語-例如,在常用字典中限定的