一種智能視頻監(jiān)控方法
【專利摘要】本發(fā)明提供了一種智能視頻監(jiān)控方法,包括:a)采集和保存共計T秒的視頻數(shù)據(jù)信號和音頻數(shù)據(jù)信號,b)將圖像數(shù)據(jù)劃分為訓練圖像數(shù)據(jù)和測試圖像數(shù)據(jù)以及將音頻數(shù)據(jù)劃分為訓練音頻數(shù)據(jù)和測試音頻數(shù)據(jù);c)判斷音頻數(shù)據(jù)中是否包含異常音頻數(shù)據(jù);d)對全部圖像數(shù)據(jù)以及全部音頻數(shù)據(jù)分別進行預處理;e)對經(jīng)預處理的全部訓練圖像數(shù)據(jù)建立全局背景模型;f)對經(jīng)預處理后的全部音頻數(shù)據(jù)中的異常音頻數(shù)據(jù)建立新的高斯混合模型;g)將步驟e得到的全局背景模型參數(shù)和步驟f得到的高斯混合模型參數(shù)融合構建一個聯(lián)合決策模型,用該聯(lián)合決策模型對預處理后的全部測試數(shù)據(jù)進行異常狀態(tài)判別。
【專利說明】一種智能視頻監(jiān)控方法
【技術領域】
[0001] 本發(fā)明屬于視頻監(jiān)控領域,具體涉及一種智能視頻監(jiān)控方法。
【背景技術】
[0002] 隨著計算機網(wǎng)絡與通信技術、多媒體技術的快速發(fā)展,很多犯罪活動的預謀和策 劃都是靠網(wǎng)絡來聯(lián)系和實現(xiàn)的,對網(wǎng)絡通信的監(jiān)控是安防監(jiān)控的重要組成部分。視頻監(jiān)控 以直觀、方便、可記錄、可查詢等特點日益受到重視,越來越多的視頻監(jiān)控系統(tǒng)應用于安全 領域。
[0003] 現(xiàn)有的視頻監(jiān)控系統(tǒng)存在一個很重要的缺陷:對視頻監(jiān)控內容只能靠人來判斷。 視頻監(jiān)控工作勞動強度很大,它對工作人員的注意力、警惕性、特別對異常的反應能力要求 很高,一般監(jiān)控過程中發(fā)生的失物都是由注意力不集中造成的?,F(xiàn)有的視頻監(jiān)控多用于事 后處理,即調查取證,并沒有充分發(fā)揮視頻監(jiān)控系統(tǒng)的主動性。
[0004] 伴隨著網(wǎng)絡技術數(shù)字視頻技術的飛速發(fā)展,監(jiān)控技術正向智能化方向不斷前進。 人們希望監(jiān)控以計算機為核心,融合多媒體技術、計算機技術和網(wǎng)絡技術,實現(xiàn)自動監(jiān)控和 異常報警,能夠替代人工值守,成為真正意義上的智能監(jiān)控。
[0005] 智能視頻監(jiān)控技術是計算機視覺和模式識別技術在視頻監(jiān)控領域的應用,是網(wǎng)絡 化視頻監(jiān)控領域的最前沿的應用模式之一。以數(shù)字視頻監(jiān)控系統(tǒng)為基礎,借助于計算機的 強大的數(shù)據(jù)處理功能,對海量視頻數(shù)據(jù)進行分析,過濾用戶不關心的信息,僅為監(jiān)控者提供 有用的關鍵信息。智能視頻監(jiān)控系統(tǒng)以普通的網(wǎng)絡視頻監(jiān)控為基礎,除了具備普通監(jiān)控系 統(tǒng)的功能外,最大的優(yōu)勢是能自動地全天候進行實時分析報警,徹底改變了以往完全由安 保人員對監(jiān)控畫面進行監(jiān)視和分析的模式。智能視頻監(jiān)控主要用在高級住宅小區(qū)、銀行、超 市、倉庫、博物館、監(jiān)獄等需要進行長期監(jiān)控的地點。
[0006] 智能視頻監(jiān)控技術的核心內容是對特定目標的自動檢測、跟蹤與行為識別,包括 運動目標檢測、目標跟蹤、目標分類、行為識別等4個方面內容。例如對人體的跟蹤:首先 從實時圖像序列(即視頻)中檢測出運動物體,再判定運動物體中的人體,然后跟蹤人體的 運動軌跡,并分析和選定有異常行為的人,如在車站,機場等遺留包裹的人,最后對行為異 常的人進行持續(xù)跟蹤。
[0007] 其中運動目標檢測和目標跟蹤屬于視覺低級處理部分,而目標分類和行為識別則 屬于中級和高級處理。對于視覺低級處理部分,運動目標檢測與目標跟蹤的視頻智能分析 技術已經(jīng)取得了一定的成果,目前市場上已經(jīng)有相應的產品,已經(jīng)在實際中得到較為廣泛 的應用。而對于目標分類和行為識別的技術研究發(fā)展相對緩慢。
[0008] 現(xiàn)有的行為識別方法包括模板匹配方法和狀態(tài)空間方法。
[0009] 模板匹配方法采用模板匹配技術的行為識別方法,首先將圖像序列轉換為一組靜 態(tài)形狀模式,然后在識別過程中,和預先存儲的行為標本相比較。模板匹配技術的優(yōu)點是計 算復雜度低、實現(xiàn)簡單,然而其缺點是:對于噪聲和運動時間間隔的變化是敏感的。
[0010] 狀態(tài)空間方法基于狀態(tài)空間模型的方法定義每個靜態(tài)姿勢作為一個狀態(tài),這些狀 態(tài)之間通過某種概率聯(lián)系起來。任何運動序列可以看作為這些靜態(tài)姿勢的不同狀態(tài)之間的 一次遍歷過程,在這些遍歷期間計算聯(lián)合概率,其最大值被選擇作為分類行為的標準。目 前,狀態(tài)空間模型已經(jīng)被廣泛地應用于時間序列的預測、估計和檢測,最有代表性的是HMM 模型。每個狀態(tài)中可用于識別的特征包括點、線或二維小區(qū)域。狀態(tài)空間方法雖然能克服 模板匹配的缺點,但通常會涉及到復雜的迭代運算,運算數(shù)據(jù)量大。
【發(fā)明內容】
[0011] 為了解決現(xiàn)有技術的缺點,本發(fā)明提供了一種智能視頻監(jiān)控方法,其包括:
[0012] a)同步采集共計T秒的視頻數(shù)據(jù)信號和音頻數(shù)據(jù)信號,并將視頻數(shù)據(jù)信號按照連 續(xù)多幀圖像數(shù)據(jù)的形式保存,將音頻數(shù)據(jù)信號按照wav的形式保存;
[0013] b)將圖像數(shù)據(jù)劃分為訓練圖像數(shù)據(jù)和測試圖像數(shù)據(jù)以及將音頻數(shù)據(jù)劃分為訓練 音頻數(shù)據(jù)和測試音頻數(shù)據(jù);
[0014] c)判斷訓練音頻數(shù)據(jù)和測試音頻數(shù)據(jù)中是否包含異常音頻數(shù)據(jù),如果有,提取出 異常音頻數(shù)據(jù)并另行保存,否則進行下一步;
[0015] d)對全部訓練圖像數(shù)據(jù)和測試圖像數(shù)據(jù)以及包括異常音頻數(shù)據(jù)在內的全部訓練 音頻數(shù)據(jù)和測試音頻數(shù)據(jù)分別進行預處理,并且對預處理后的全部訓練圖像數(shù)據(jù)和測試圖 像數(shù)據(jù)進行檢測和提取所有運動目標幀像素,對預處理后的音頻數(shù)據(jù)提取音頻特征;
[0016] e)對經(jīng)預處理后及運動目標幀像素提取后的全部訓練圖像數(shù)據(jù)建立全局背景模 型;
[0017] f)對經(jīng)預處理后及音頻特征提取后的全部訓練音頻數(shù)據(jù)中的異常音頻數(shù)據(jù)建立 新的高斯混合模型;
[0018] g)將步驟e得到的全局背景模型參數(shù)和步驟f得到的高斯混合模型參數(shù)融合構建 一個聯(lián)合決策模型,用該聯(lián)合決策模型對預處理后的全部測試數(shù)據(jù)進行異常狀態(tài)判別。
[0019] 本發(fā)明的方法解決了【背景技術】中列出的現(xiàn)有技術的缺點,即對于噪聲和運動時間 間隔的變化敏感和運算數(shù)據(jù)量大等問題,自動分析視頻監(jiān)控系統(tǒng)中的連續(xù)視頻數(shù)據(jù)并識別 異常目標,視頻監(jiān)控異常行為分析的效率和準確率高,實現(xiàn)自動監(jiān)控和異常報警,該方法不 局限于任何已知的視頻監(jiān)控系統(tǒng),也可以是任何基于視頻的目標行為識別系統(tǒng),通用性強。
【專利附圖】
【附圖說明】
[0020] 圖1是本發(fā)明的智能視頻監(jiān)控方法的流程圖。
【具體實施方式】
[0021] 本發(fā)明提供了一種智能視頻監(jiān)控方法,其包括步驟:
[0022] 步驟1 :同步采集共計T秒的視頻數(shù)據(jù)信號和音頻數(shù)據(jù)信號,并將視頻數(shù)據(jù)信號按 照連續(xù)多幀圖像數(shù)據(jù)的形式保存,將音頻數(shù)據(jù)信號按照wav的形式保存。
[0023] 其中,假如采集到的視頻數(shù)據(jù)信號為多幀RGB彩色圖像信號,則利用如下公式:灰 度值=0. 30R+0. 59G+0. 11B,將全部彩色圖像信號轉換為灰度圖像信號,其中R表示彩色圖 像的紅色分量,G表示彩色圖像的綠色分量,B表示彩色圖像的藍色分量。
[0024] 這里所述的T秒,可以根據(jù)實際應用情況來確定,例如T為100秒。
[0025] 步驟2 :將圖像數(shù)據(jù)劃分為訓練圖像數(shù)據(jù)和測試圖像數(shù)據(jù)以及將音頻數(shù)據(jù)劃分為 訓練音頻數(shù)據(jù)和測試音頻數(shù)據(jù)。
[0026] 對于T秒連續(xù)的圖像數(shù)據(jù),選取從頭開始共計?\秒的連續(xù)圖像數(shù)據(jù)作為訓練圖像 數(shù)據(jù),共計N tMin幀,其中0 < ?\ < Τ/2,其它圖像數(shù)據(jù)作為測試圖像數(shù)據(jù),共計Ntest幀。同 樣的,對于T秒連續(xù)的音頻數(shù)據(jù),選取從頭開始也為?\秒的連續(xù)音頻數(shù)據(jù)作為訓練音頻數(shù) 據(jù),共計N train幀,其中〇 < ?\ < Τ/2,其它音頻數(shù)據(jù)作為測試音頻數(shù)據(jù),共計Ntest幀。
[0027] 步驟3 :判斷訓練音頻數(shù)據(jù)和測試音頻數(shù)據(jù)中是否包含異常音頻數(shù)據(jù),如果有,提 取出異常音頻數(shù)據(jù)并另行保存,否則進行下一步。
[0028] 具體的,通過人主觀測聽所有訓練音頻數(shù)據(jù)和測試音頻數(shù)據(jù),當訓練音頻數(shù)據(jù)和/ 或測試音頻數(shù)據(jù)中包含異常音頻數(shù)據(jù),例如突發(fā)槍聲、人尖叫聲、汽車報警聲等,需要將訓 練音頻數(shù)據(jù)中的異常音頻數(shù)據(jù)提取出來并另行保存,其總幀數(shù)為Ν' train ;將測試音頻數(shù)據(jù)中 的異常音頻數(shù)據(jù)提取出來并另行保存,其總幀數(shù)為Ν' test。
[0029] 步驟4 :對全部訓練圖像數(shù)據(jù)和測試圖像數(shù)據(jù)以及包括異常音頻數(shù)據(jù)在內的全部 訓練音頻數(shù)據(jù)和測試音頻數(shù)據(jù)分別進行預處理,并且對預處理后的全部訓練圖像數(shù)據(jù)和測 試圖像數(shù)據(jù)進行檢測和提取所有運動目標幀像素,對預處理后的音頻數(shù)據(jù)提取音頻特征。
[0030] 其中,對圖像數(shù)據(jù)的預處理主要包括降噪處理。
[0031] 降噪處理采用基于空間域的中值濾波方法,將每幀灰度圖像的每個像素對應的灰 度值用該像素鄰域中的所有像素的中值替換,此處鄰域定義為以某個像素為中心點的方形 鄰域,其尺寸為3,即此像素為中心的9個像素點組成該鄰域,對9個像素的灰度值進行排序 并獲得中值,將中心像素的灰度用中值替換。
[0032] 對預處理之后的所有訓練圖像數(shù)據(jù)和測試圖像數(shù)據(jù),檢測每個圖像是否存在運動 目標幀,主要采用背景減法,將當前幀之前的連續(xù)1〇〇幀灰度圖像(若不夠1〇〇幀,則按照 實際幀數(shù))的平均值作為當前幀的背景圖像,將當前幀和其背景圖像相減,得到背景減后 的幀間差灰度矩陣,如果此矩陣的全部數(shù)值的絕對值的和小于某個自行設定的閾值,則認 為當前幀中無運動目標;如果此矩陣的全部數(shù)值的絕對值的和大于所述設定的閾值,則認 為當前幀中有運動目標。此處自行設定的閾值可以是0.01*當前幀像素個數(shù)之和。
[0033] 如果圖像數(shù)據(jù)中存在運動目標幀,則提取該運動目標幀的像素,方法是將上述運 動目標幀對應的背景減后的幀間差灰度矩陣中其數(shù)值大于所述設定的閾值的值用1替代, 將其他小于所述設定的閾值的值用〇替代,從而獲得一個二值的幀間差矩陣,每個幀間差 矩陣作為對應圖像的運動目標幀像素。
[0034] 對音頻數(shù)據(jù)的預處理主要包括預加重、分幀加窗、和端點檢測。
[0035] 預加重的目的是提升高頻部分,使得信號變得平坦,一般采用一階濾波器X (η)= X'(η)_μ*χ'(η-1)實現(xiàn),其中X'(η)為輸入的音頻時域信號,η為時間序列,μ =0.99, X (η)為預加重后輸出的音頻時域信號。
[0036] 分幀是將預加重后的音頻信號按照一定的幀長進行提取,一般幀長為20ms,幀移 為10ms,這里加窗采用矩形窗。
[0037] 端點檢測主要用來判斷音頻數(shù)據(jù)信號是否是語音信號,利用短時能量和短時過零 率兩個特征進行計算來判斷,其計算方法為:
[0038] 設音頻時域信號為x(n),其中η為離散時間序列,加窗進行分幀處理后得到的 第η巾貞語音信號表示為xn(m),其中m為離散時間序列,且有xn(m) = w(m)*x(n+m),其中
【權利要求】
1. 一種智能視頻監(jiān)控方法,其包括: a) 同步采集共計T秒的視頻數(shù)據(jù)信號和音頻數(shù)據(jù)信號,并將視頻數(shù)據(jù)信號按照連續(xù)多 幀圖像數(shù)據(jù)的形式保存,將音頻數(shù)據(jù)信號按照wav的形式保存; b) 將圖像數(shù)據(jù)劃分為訓練圖像數(shù)據(jù)和測試圖像數(shù)據(jù)以及將音頻數(shù)據(jù)劃分為訓練音頻 數(shù)據(jù)和測試音頻數(shù)據(jù); c) 判斷訓練音頻數(shù)據(jù)和測試音頻數(shù)據(jù)中是否包含異常音頻數(shù)據(jù),如果有,提取出異常 音頻數(shù)據(jù)并另行保存,否則進行下一步; d) 對全部訓練圖像數(shù)據(jù)和測試圖像數(shù)據(jù)以及包括異常音頻數(shù)據(jù)在內的全部訓練音頻 數(shù)據(jù)和測試音頻數(shù)據(jù)分別進行預處理,并且對預處理后的全部訓練圖像數(shù)據(jù)和測試圖像數(shù) 據(jù)進行檢測和提取所有運動目標幀像素,對預處理后的音頻數(shù)據(jù)提取音頻特征; e) 對經(jīng)預處理后及運動目標幀像素提取后的全部訓練圖像數(shù)據(jù)建立全局背景模型; f) 對經(jīng)預處理后及音頻特征提取后的全部訓練音頻數(shù)據(jù)中的異常音頻數(shù)據(jù)建立新的 高斯混合模型; g) 將步驟e得到的全局背景模型參數(shù)和步驟f得到的高斯混合模型參數(shù)融合構建一個 聯(lián)合決策模型,用該聯(lián)合決策模型對預處理后的全部測試數(shù)據(jù)進行異常狀態(tài)判別。
2. 根據(jù)權利要求1所述的智能視頻監(jiān)控方法,其中在步驟a)中,T = 100秒。
3. 根據(jù)權利要求1所述的智能視頻監(jiān)控方法,其中在步驟b)中,對于T秒連續(xù)的圖像 數(shù)據(jù),選取從頭開始共計1\秒的連續(xù)圖像數(shù)據(jù)作為訓練圖像數(shù)據(jù),其它圖像數(shù)據(jù)作為測試 圖像數(shù)據(jù),其中(ΚΚΤ/%同樣的,對于T秒連續(xù)的音頻數(shù)據(jù),選取從頭開始也為?\秒的連 續(xù)音頻數(shù)據(jù)作為訓練音頻數(shù)據(jù),其它音頻數(shù)據(jù)作為測試音頻數(shù)據(jù),其中(ΚΚΤΛ。
4. 根據(jù)權利要求1所述的智能視頻監(jiān)控方法,其中在步驟c)中,所述異常音頻數(shù)據(jù)是 指突發(fā)槍聲、人尖叫聲、或汽車報警聲。
5. 根據(jù)權利要求1所述的智能視頻監(jiān)控方法,其中在步驟d)中,所述對圖像數(shù)據(jù)的預 處理包括降噪處理,所述對音頻數(shù)據(jù)的預處理包括預加重、分幀加窗、和端點檢測。
6. 根據(jù)權利要求1所述的智能視頻監(jiān)控方法,其中在步驟d)中所述檢測和提取所有運 動目標幀像素的方法如下: 檢測每個圖像是否存在運動目標幀的方法為:將當前幀之前的連續(xù)100幀灰度圖像的 平均值作為當前幀的背景圖像,其中若不夠100幀則按照實際幀數(shù)的灰度圖像的平均值作 為當前幀的背景圖像,將當前幀和其背景圖像相減,得到背景減后的幀間差灰度矩陣,如果 此矩陣的全部數(shù)值的絕對值的和小于設定的閾值,則認為當前幀中無運動目標;如果此矩 陣的全部數(shù)值的絕對值的和大于所述設定的閾值,則認為當前幀中有運動目標; 提取運動目標幀像素的方法是:將運動目標幀對應的背景減后的幀間差灰度矩陣中其 數(shù)值大于所述設定的閾值的值用1替代,將其他小于所述設定的閾值的值用〇替代,從而獲 得一個二值的幀間差矩陣,每個幀間差矩陣作為對應圖像的運動目標幀像素; 所述提取音頻特征是提取梅爾頻率倒譜系數(shù)。
7. 根據(jù)權利要求6所述的智能視頻監(jiān)控方法,其中所述設定的閾值是0. 01*當前幀像 素個數(shù)之和。
8. 根據(jù)權利要求1所述的智能視頻監(jiān)控方法,其中在步驟e)中,建立全局背景模型的 方法為:通過對全部訓練圖像數(shù)據(jù)的運動目標幀像素進行訓練得到一個多混合分量的高斯 混合模型來實現(xiàn),具有Μ個多混合分量的全局背景模型用如下公式表示:
其中
代表每個預處理后及運動目標幀像素提取后的訓 練圖像數(shù)據(jù)構成的矢量;λ為高斯混合模型的分布參數(shù),Μ為高斯混合模型 的混合分量個數(shù),wm(m = 1,...,Μ)為每個混合分量對應的權值且
代表xt對應的第m個高斯分量,其 中參數(shù)λ m = {Wm,μ π,Σ J,μ m為第m個高斯分量的均值矢量,Σ m為第m個高斯分量的 協(xié)方差矩陣,T代表轉置,P(xt| λ)為每個高斯分量加權求和得到的預處理后及運動目標幀 像素提取后的訓練圖像構成的矢量xt的概率分布,參數(shù)λ π= Iwm,μπ,Σπ}的值采用公知 的期望最大化算法求得,參數(shù)的初始值為隨機數(shù)。
9.根據(jù)權利要求1所述的智能視頻監(jiān)控方法,其中在步驟f)中,建立新的高斯混合模 型的方法為: 首先對包括異常音頻數(shù)據(jù)在內的全部訓練音頻數(shù)據(jù)建立一個高斯混合模型,其方法是 將具有Μ個混合分量的高斯混合模型用如下公式表示:
其中
代表每個預處理后及音頻特征提取后的訓練音頻數(shù)據(jù)構成的矢 量,λ為高斯混合模型的分布參數(shù),Μ為高斯混合模型的混合分量個數(shù),
為 每個混合分量對應的權值且
代表xt對應的第m個高斯分量,其中
為第m個高斯分量的均值 矢量,
為第m個高斯分量的協(xié)方差矩陣,T代表轉置,
為每個高斯分量加權 求和得到的預處理后及音頻特征提取后的訓練音頻數(shù)據(jù)構成的矢量足的概率分布,參數(shù)
的值采用公知的期望最大化算法求得,參數(shù)的初始值為隨機數(shù); 隨后將預處理后及音頻特征提取后的全部訓練音頻數(shù)據(jù)中的異常音頻數(shù)據(jù)作為特征 矢量,以上述參數(shù)
為初始值,用已有的參數(shù)以及新的訓練樣本來進行參數(shù) 更新,構建一個新的高斯混合模型,其方法為:具有Μ個混合分量的高斯混合模型可以用如 下公式表示:
其中的參數(shù)
的值采用學習方法求得:設該參數(shù)的初始值為上述參數(shù)
隨后用如下迭代公式計算:
其中me [1,M],
代表每個預處理后及音頻特征提取后的全部訓練音 頻數(shù)據(jù)中的異常音頻數(shù)據(jù)構成的矢量,
是高斯混合模型的第m個混合分量的后 驗概率且
將
作為初始值代入上述迭代公式循 環(huán)計算得到.,令
并代入似然函數(shù)
中,L的值呈現(xiàn)單調遞增,不斷
循環(huán)計算
并代入似然函數(shù)中,直到似然函數(shù)L出現(xiàn)最大值時停止,此時的參數(shù)即為新的 高斯混合模型中參數(shù)
的值。
10.根據(jù)權利要求1所述的智能視頻監(jiān)控方法,其中在步驟g)中,所述構建聯(lián)合決策模 型是采用貝葉斯公式來進行的: 首先定義測試數(shù)據(jù)為Y= [AY1],其中Y°代表步驟d)中得到的預處理后的全部測試 圖像數(shù)據(jù),Y1代表步驟d)中得到的預處理后的包括異常音頻數(shù)據(jù)在內的全部測試音頻數(shù) 據(jù); 接著由如下貝葉斯公式判斷測試數(shù)據(jù)Y的類別: P (Modeli | Y) = P (Y | Model) P (Model) /P (Y) 其中i e {(^lhModeh表示非異常狀態(tài)模型,Model表示異常狀態(tài)模型,P (Model」Y) 為測試數(shù)據(jù)Υ屬于Υ°和屬于Υ1的概率,
,wm和λ m為步驟e) 中得到的參數(shù),
和
為步驟f)中得到的參數(shù),PWodeli) 為模型 Model 的先驗概率,P (Model。)= 1-P (Model^,P(Y) = 1 ; 所述異常狀態(tài)判別的方法為:當PWodel^YDPWodelilY)時判定Υ屬于非異常狀態(tài), 反之則判定Υ屬于異常狀態(tài)。
【文檔編號】G10L15/06GK104144328SQ201410372651
【公開日】2014年11月12日 申請日期:2014年7月31日 優(yōu)先權日:2014年7月31日
【發(fā)明者】陳國順, 楊毅, 夏明飛, 牛剛, 呂貴州, 張東, 韓寧, 牛滿科 申請人:中國人民解放軍63908部隊