一種聲視頻融合監(jiān)控方法
【專利摘要】本發(fā)明涉及一種聲視頻融合監(jiān)控方法,包括:采集聲頻與視頻信號(hào),對(duì)所采集的信號(hào)進(jìn)行調(diào)理;對(duì)經(jīng)過(guò)調(diào)理的信號(hào)做協(xié)同預(yù)處理;對(duì)所得到的信號(hào)是否同時(shí)包含聲頻信號(hào)與視頻信號(hào)加以判斷,當(dāng)同時(shí)包含兩種信號(hào)時(shí),對(duì)聲頻信號(hào)與視頻信號(hào)做融合分析,根據(jù)融合分析的結(jié)果查找出所述聲視頻信號(hào)中所包含的目標(biāo)信息,若僅包含聲頻信號(hào),對(duì)聲頻信號(hào)做獨(dú)立的分析與處理,得到所述聲頻信號(hào)中所包含的目標(biāo)信息;根據(jù)所得到的目標(biāo)信息決定是否需要對(duì)攝像機(jī)的姿態(tài)進(jìn)行調(diào)整,若需要調(diào)整,調(diào)整攝像機(jī)的姿態(tài),然后重新執(zhí)行;其中,所述對(duì)攝像機(jī)的姿態(tài)進(jìn)行調(diào)整包括調(diào)焦、補(bǔ)光、調(diào)整角度。
【專利說(shuō)明】一種聲視頻融合監(jiān)控方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及監(jiān)控領(lǐng)域,特別涉及一種聲視頻融合監(jiān)控方法。
【背景技術(shù)】
[0002]視頻監(jiān)控是監(jiān)控領(lǐng)域中的一種主要手段。傳統(tǒng)的視頻監(jiān)控主要基于低分辨率單眼視頻傳感器,面對(duì)日益復(fù)雜的動(dòng)態(tài)場(chǎng)景和智能實(shí)時(shí)預(yù)警的要求,其技術(shù)存在兩大挑戰(zhàn):第一,視頻傳感器存在視角較窄、易受遮擋的問(wèn)題,容易受到復(fù)雜氣象條件及光線強(qiáng)度的影響,例如風(fēng)雨雪霧天氣及晝夜變化;第二,視頻監(jiān)控基于連續(xù)大量的視頻數(shù)據(jù)流進(jìn)行檢測(cè)、定位與跟蹤的算法復(fù)雜度較高,尤其是基于高清視頻實(shí)現(xiàn)智能分析的實(shí)時(shí)性較差,成本與能耗也是問(wèn)題,這限制了高清視頻傳感器在監(jiān)控領(lǐng)域的應(yīng)用。
[0003]為了應(yīng)對(duì)這些挑戰(zhàn),國(guó)內(nèi)外針對(duì)視頻監(jiān)控的智能性和實(shí)時(shí)性開(kāi)展了廣泛研究,其中一種思路是基于視頻高級(jí)處理算法來(lái)擴(kuò)展和深化視頻的智能分析技術(shù),全景、立體攝像和3-D建模等方法在一定程度上彌補(bǔ)了單眼視頻傳感器視角較窄的缺陷;另外一種思路是基于多傳感器數(shù)據(jù)融合理論,利用來(lái)自同類或者異類多傳感器提取的特征實(shí)現(xiàn)面向目標(biāo)的智能化分析。近年來(lái)在視頻監(jiān)控領(lǐng)域已經(jīng)開(kāi)展了多攝像頭聯(lián)動(dòng)以及融合GPS、雷達(dá)、激光、紅外等異類信號(hào)的探索。
[0004]但是聲音作為自然界一個(gè)重要信號(hào),至今還沒(méi)有在監(jiān)控領(lǐng)域引起重視,主要受限于傳聲器陣列的技術(shù)滯后。隨著陣列和傳感技術(shù)的發(fā)展,基于傳聲器陣列的聲探測(cè)研究有了較大的進(jìn)展,已經(jīng)在醫(yī)療監(jiān)護(hù)、消費(fèi)電子、邊界防護(hù)、工業(yè)控制等領(lǐng)域開(kāi)展了應(yīng)用示范。由于基于傳聲器陣列的聲探測(cè)方法增強(qiáng)了對(duì)離散目標(biāo)和短時(shí)活動(dòng)的檢測(cè)、定位和跟蹤能力,具有低能耗、全天候、無(wú)遮擋、無(wú)盲區(qū)和實(shí)時(shí)性好的特點(diǎn),非常適合在監(jiān)控領(lǐng)域的應(yīng)用。但是由于監(jiān)控場(chǎng)景環(huán)境復(fù)雜、背景嘈雜,現(xiàn)有傳聲器陣列定位技術(shù)不能直接應(yīng)用于監(jiān)控場(chǎng)景分析。另外由于聲探測(cè)獲取的信息量相對(duì)較少,無(wú)法僅憑傳聲器陣列獨(dú)立滿足監(jiān)控領(lǐng)域的需求。目前還沒(méi)有一套適應(yīng)于監(jiān)控領(lǐng)域的聲視頻融合監(jiān)控的完整技術(shù)方案。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的目的在于克服單一視頻監(jiān)控視野較窄、易受環(huán)境影響、獲取信息量少等缺陷,從而提供一種基于傳聲器陣列與云臺(tái)攝像機(jī)的聲視頻融合監(jiān)控方法。
[0006]為了實(shí)現(xiàn)上述目的,本發(fā)明提供了一種聲視頻融合監(jiān)控方法,包括:
[0007]步驟I)、采集聲頻與視頻信號(hào),對(duì)所采集的信號(hào)進(jìn)行調(diào)理;
[0008]步驟2)、對(duì)步驟I)所得到的、經(jīng)過(guò)調(diào)理的信號(hào)做協(xié)同預(yù)處理;所述協(xié)同預(yù)處理包括對(duì)信號(hào)做壓縮、濾波、去噪與增強(qiáng);
[0009]步驟3)、對(duì)步驟2)所得到的信號(hào)是否同時(shí)包含聲頻信號(hào)與視頻信號(hào)加以判斷,當(dāng)同時(shí)包含兩種信號(hào)時(shí),執(zhí)行步驟4),若僅包含聲頻信號(hào),則執(zhí)行步驟5);
[0010]步驟4)、對(duì)聲頻信號(hào)與視頻信號(hào)做融合分析,根據(jù)融合分析的結(jié)果查找出所述聲視頻信號(hào)中所包含的目標(biāo)信息,然后執(zhí)行步驟6);
[0011]步驟5)、對(duì)聲頻信號(hào)做獨(dú)立的分析與處理,得到所述聲頻信號(hào)中所包含的目標(biāo)信息,然后執(zhí)行步驟6);
[0012]步驟6)、根據(jù)步驟4)或步驟5)所得到的目標(biāo)信息決定是否需要對(duì)攝像機(jī)的姿態(tài)進(jìn)行調(diào)整,若需要調(diào)整,調(diào)整攝像機(jī)的姿態(tài),然后重新執(zhí)行步驟I);其中,所述對(duì)攝像機(jī)的姿態(tài)進(jìn)行調(diào)整包括調(diào)焦、補(bǔ)光、調(diào)整角度。
[0013]上述技術(shù)方案中,還包括:
[0014]步驟7)、對(duì)當(dāng)前的聲視頻信號(hào)進(jìn)行模式識(shí)別,以獲取目標(biāo)事件的包括關(guān)鍵詞、時(shí)間、方位、類別、狀態(tài)在內(nèi)的語(yǔ)義信息;所述模式識(shí)別包括行為理解、判別控制和狀態(tài)評(píng)估,其中,所述行為理解通過(guò)運(yùn)動(dòng)特征的提取,獲取目標(biāo)事件的關(guān)鍵詞;所述判別控制根據(jù)行為理解的結(jié)果,進(jìn)一步獲取事件的時(shí)間、方位等信息,與對(duì)應(yīng)的關(guān)鍵詞閾值相比較,檢測(cè)判斷目標(biāo)事件的類別;所述狀態(tài)評(píng)估根據(jù)判別目標(biāo)事件的類別,依據(jù)類別的預(yù)設(shè)特征值估計(jì)目標(biāo)事件的重要度,根據(jù)估計(jì)結(jié)果給目標(biāo)事件設(shè)定警告等級(jí);
[0015]步驟8)、從經(jīng)過(guò)模式識(shí)別的聲視頻信號(hào)中抓取關(guān)鍵信息和核心片段,將多個(gè)片段拼接和編輯形成一個(gè)反映監(jiān)控信息的語(yǔ)義情報(bào),將這些語(yǔ)義情報(bào)壓縮后編碼,最后通過(guò)網(wǎng)絡(luò)實(shí)現(xiàn)傳輸。
[0016]上述技術(shù)方案中,所述的步驟4)包括:
[0017]步驟4-1)、從背景噪聲數(shù)據(jù)庫(kù)中抽取背景噪聲數(shù)據(jù),實(shí)現(xiàn)背景建模;其中,所述背景噪聲數(shù)據(jù)庫(kù)用于存儲(chǔ)多種氣象條件下、多種典型場(chǎng)景的背景噪聲;所述氣象條件包括風(fēng)、雨、雪、霧在內(nèi)的特殊氣象條件,所述典型場(chǎng)景包括呼救、鳴笛、碰撞、爆炸、鳴槍、低空飛行、人群聚集;
[0018]步驟4-2)、從目標(biāo)特征數(shù)據(jù)庫(kù)中抽取多種目標(biāo)特征信息,將這些目標(biāo)特征信息與步驟4-1)中所建立的背景噪聲模型相結(jié)合,得到虛擬目標(biāo)特征;其中,所述目標(biāo)特征數(shù)據(jù)庫(kù)用于存儲(chǔ)目標(biāo)的特征信息,所述特征包括聲頻或視頻信號(hào)的基本特征、變換域特征、統(tǒng)計(jì)特征、運(yùn)動(dòng)特征,以及這些特征在時(shí)間、空間、譜、相位等方面的信息;
[0019]步驟4-3)、對(duì)步驟2)生成的聲視頻信號(hào)與步驟4-2)生成的虛擬目標(biāo)特征進(jìn)行比對(duì),實(shí)現(xiàn)對(duì)步驟2)生成的聲視頻信號(hào)的目標(biāo)特征提??;
[0020]步驟4-4)、根據(jù)步驟4-3)得到的目標(biāo)特征提取結(jié)果利用貝葉斯分析進(jìn)行概率判斷,通過(guò)最大后驗(yàn)概率發(fā)現(xiàn)所采集的聲視頻信號(hào)中所包含的事件;
[0021]步驟4-5)、對(duì)步驟4-4)中所檢測(cè)到的目標(biāo)采用基于目標(biāo)特征和背景噪聲模型的波束形成和波達(dá)方向估計(jì)方法,依據(jù)聲信號(hào)傳播規(guī)律計(jì)算開(kāi)空間及封閉空間兩類環(huán)境條件下運(yùn)動(dòng)聲源目標(biāo)所具有的能量、相位及多普勒效應(yīng)以實(shí)現(xiàn)定位,確定該目標(biāo)的坐標(biāo)值;
[0022]步驟4-6 )、對(duì)經(jīng)過(guò)定位的目標(biāo)進(jìn)行跟蹤。
[0023]上述技術(shù)方案中,在所述的步驟4-3)與步驟4-4)之間,還包括多次執(zhí)行所述步驟4-1) 一步驟 4-3)。
[0024]上述技術(shù)方案中,在所述的步驟4-3)中,將聲視頻信號(hào)與虛擬目標(biāo)特征比對(duì)的結(jié)果是一組目標(biāo)特征值,將這些目標(biāo)特征值按照相似度從高到低進(jìn)行排序,排序結(jié)果中高于某一預(yù)先設(shè)定閾值的目標(biāo)特征值為聲視頻信號(hào)的目標(biāo)特征提取結(jié)果。
[0025]上述技術(shù)方案中,在所述的步驟4-6)中,所述跟蹤包括根據(jù)傳聲器陣列確定的坐標(biāo)值控制攝像機(jī)姿態(tài),實(shí)現(xiàn)調(diào)焦、補(bǔ)光、調(diào)整角度。
[0026]上述技術(shù)方案中,所述步驟5)包括:
[0027]步驟5-1)、從背景噪聲數(shù)據(jù)庫(kù)中抽取背景噪聲數(shù)據(jù),實(shí)現(xiàn)背景建模;從目標(biāo)特征數(shù)據(jù)庫(kù)中抽取目標(biāo)特征;
[0028]步驟5-2)、采用基于目標(biāo)特征和背景噪聲模型的波束形成和波達(dá)方向估計(jì)方法,依據(jù)聲信號(hào)傳播規(guī)律計(jì)算開(kāi)空間及封閉空間兩類環(huán)境條件下運(yùn)動(dòng)聲源目標(biāo)所具有的能量、相位及多普勒效應(yīng)對(duì)分布式目標(biāo)檢測(cè)、定位及跟蹤模型的貢獻(xiàn),從而對(duì)聲源目標(biāo)進(jìn)行優(yōu)化識(shí)別、分類、定位和跟蹤。
[0029]上述技術(shù)方案中,在所述的步驟6)中,重新執(zhí)行步驟I)的次數(shù)不超過(guò)3次。
[0030]本發(fā)明的優(yōu)點(diǎn)在于:
[0031]I)本發(fā)明將聲學(xué)特征信號(hào)作為參數(shù)引入視頻檢測(cè)與跟蹤算法,聲學(xué)信號(hào)處理具有算法復(fù)雜度小、實(shí)時(shí)性好的特點(diǎn),能夠提高視頻目標(biāo)識(shí)別與跟蹤算法的性能。
[0032]2)本發(fā)明提取融合聲頻與視頻兩種異類信號(hào)的復(fù)合特征,彌補(bǔ)傳統(tǒng)視頻監(jiān)控的缺點(diǎn),具有全天候、無(wú)遮擋、無(wú)盲區(qū)的檢測(cè)、定位與跟蹤能力,能夠提高監(jiān)控系統(tǒng)的反應(yīng)速度。
[0033]3)本發(fā)明對(duì)聲視頻數(shù)據(jù)進(jìn)行自動(dòng)分析和語(yǔ)義理解,抓取監(jiān)控場(chǎng)景中關(guān)鍵信息和核心片段,拼接和編輯形成一個(gè)反映監(jiān)控信息的語(yǔ)義情報(bào),壓縮編碼后通過(guò)網(wǎng)絡(luò)傳輸,能夠避免監(jiān)控網(wǎng)絡(luò)海量數(shù)據(jù)日益膨脹的問(wèn)題。
[0034]4)本發(fā)明將多通道聲視頻信號(hào)的采集、分析、計(jì)算和通信功能融為一體化裝置,解決傳聲器陣列尺寸過(guò)大不易安裝的問(wèn)題,同時(shí)支持無(wú)線傳輸及PLC功能,能夠避免連接線纜較多造成的成本較高等問(wèn)題。
【專利附圖】
【附圖說(shuō)明】
[0035]圖1是本發(fā)明的聲視頻融合監(jiān)控方法的流程圖;
[0036]圖2是對(duì)攝像機(jī)姿態(tài)進(jìn)行調(diào)整的示意圖。
【具體實(shí)施方式】
[0037]現(xiàn)結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步的描述。
[0038]本發(fā)明的聲視頻融合監(jiān)控方法基于傳聲器陣列所得到的聲音信號(hào)以及攝像機(jī)所得到的視頻信號(hào)實(shí)現(xiàn)對(duì)監(jiān)控場(chǎng)景的監(jiān)控。
[0039]在對(duì)本發(fā)明方法的實(shí)現(xiàn)步驟做詳細(xì)說(shuō)明之前,首先對(duì)本發(fā)明中所涉及的相關(guān)概念進(jìn)行描述。
[0040]目標(biāo)特征數(shù)據(jù)庫(kù):目標(biāo)指監(jiān)控場(chǎng)景中的突發(fā)異常事件,目標(biāo)特征數(shù)據(jù)庫(kù)用于存儲(chǔ)目標(biāo)的特征信息,所述特征包括聲頻或視頻信號(hào)的基本特征、變換域特征、統(tǒng)計(jì)特征、運(yùn)動(dòng)特征,以及這些特征在時(shí)間、空間、譜、相位等方面的信息(如均值、方差、倒頻譜、包絡(luò)等)。
[0041]背景噪聲數(shù)據(jù)庫(kù):背景噪聲數(shù)據(jù)庫(kù)用于存儲(chǔ)多種氣象條件下、多種典型場(chǎng)景的背景噪聲。所述氣象條件包括風(fēng)、雨、雪、霧等特殊氣象條件;所述典型場(chǎng)景包括呼救、鳴笛、碰撞、爆炸、鳴槍、低空飛行、人群聚集等。
[0042]下面結(jié)合附圖對(duì)本發(fā)明的方法做進(jìn)一步說(shuō)明。
[0043]參考圖1,本發(fā)明的方法包括以下步驟:
[0044]步驟I)、采集聲頻與視頻信號(hào),對(duì)所采集的信號(hào)進(jìn)行調(diào)理。
[0045]在本步驟中,視頻信號(hào)采用攝像機(jī)采集,聲頻信號(hào)采用傳聲器陣列采集。通常情況下,所采集的信號(hào)應(yīng)當(dāng)同時(shí)包含聲頻與視頻信號(hào),但由于傳聲器陣列或攝像機(jī)發(fā)生故障等原因,某些情況下,所采集的信號(hào)僅包含聲頻信號(hào)或僅包含視頻信號(hào),對(duì)于此類情況可繼續(xù)執(zhí)行后續(xù)操作。
[0046]步驟2)、對(duì)步驟I)所得到的、經(jīng)過(guò)調(diào)理的信號(hào)做協(xié)同預(yù)處理。
[0047]本步驟中,信號(hào)的協(xié)同預(yù)處理包括對(duì)信號(hào)依次做壓縮、濾波、去噪與增強(qiáng)等操作,這些操作的實(shí)現(xiàn)方式為本領(lǐng)域技術(shù)人員所公知,因此不在此處重復(fù)。
[0048]在步驟I)中,若采集的信號(hào)同時(shí)包含聲頻信號(hào)與視頻信號(hào),則對(duì)信號(hào)做壓縮、濾波時(shí)采用協(xié)同壓縮與協(xié)同濾波的方式,若采集的信號(hào)僅包含聲頻信號(hào)或視頻信號(hào),則按照對(duì)單一信號(hào)加以處理的方式進(jìn)行處理即可。
[0049]步驟3)、對(duì)步驟2)所得到的信號(hào)是否同時(shí)包含聲頻信號(hào)與視頻信號(hào)加以判斷,當(dāng)同時(shí)包含兩種信號(hào)時(shí),執(zhí)行步驟4),若僅包含聲頻信號(hào),則執(zhí)行步驟5)。
[0050]之前提到,監(jiān)控設(shè)備所采集的信號(hào)也存在僅包括視頻信號(hào)或僅包括聲頻信號(hào)的可能,對(duì)于僅包含視頻信號(hào)的情況,對(duì)視頻信號(hào)的分析與處理則不在本申請(qǐng)的范圍之內(nèi)。
[0051]步驟4)、對(duì)聲頻信號(hào)與視頻信號(hào)做融合分析,根據(jù)融合分析的結(jié)果查找出所述聲視頻信號(hào)中所包含的目標(biāo)信息,然后執(zhí)行步驟6 )。
[0052]步驟5)、對(duì)聲頻信號(hào)做獨(dú)立的分析與處理,得到所述聲頻信號(hào)中所包含的目標(biāo)信息,然后執(zhí)行步驟6)。
[0053]步驟6)、根據(jù)步驟4)或步驟5)所得到的目標(biāo)信息決定是否需要對(duì)攝像機(jī)的姿態(tài)進(jìn)行調(diào)整。參考圖2,在調(diào)整姿態(tài)時(shí),首先感知攝像機(jī)當(dāng)前的姿態(tài),然后根據(jù)傳聲器陣列所接收的聲頻信號(hào)所確定的聲源目標(biāo)的方向和距離信息,確定攝像機(jī)當(dāng)前姿態(tài)與目標(biāo)姿態(tài)之間的差異,從而實(shí)現(xiàn)姿態(tài)調(diào)整。所述姿態(tài)調(diào)整包括調(diào)焦、補(bǔ)光、調(diào)整角度等操作。
[0054]調(diào)整攝像機(jī)的姿態(tài)后,可重新執(zhí)行前述的步驟1),進(jìn)行信號(hào)重新采集或者補(bǔ)償采集,將所采集的結(jié)果按照如前步驟做協(xié)同預(yù)處理以及聲視頻融合分析,所得到的結(jié)果可用于進(jìn)一步調(diào)整攝像機(jī)的姿態(tài)。這一定位循環(huán)操作最多重復(fù)3次以保證算法收斂和速度,并且在跟蹤過(guò)程中自動(dòng)禁用。
[0055]以上是對(duì)本發(fā)明方法基本步驟的描述,作為一種優(yōu)選實(shí)現(xiàn)方式,在另一實(shí)施例中,本發(fā)明方法還包括:
[0056]步驟7)、對(duì)當(dāng)前的聲視頻信號(hào)進(jìn)行模式識(shí)別,以獲取目標(biāo)事件的關(guān)鍵詞、時(shí)間、方位、類別、狀態(tài)等語(yǔ)義信息;所述模式識(shí)別包括行為理解、判別控制和狀態(tài)評(píng)估,其中,所述行為理解主要通過(guò)運(yùn)動(dòng)特征的提取,獲取目標(biāo)事件的關(guān)鍵詞,比如撞車(chē)、爆炸等,所述判別控制主要是根據(jù)行為理解的結(jié)果,進(jìn)一步獲取事件的時(shí)間、方位等信息,與對(duì)應(yīng)的關(guān)鍵詞閾值相比較,檢測(cè)判斷目標(biāo)事件的類別;所述狀態(tài)評(píng)估主要是根據(jù)判別目標(biāo)事件的類別,依據(jù)類別的預(yù)設(shè)特征值估計(jì)目標(biāo)事件的重要度,根據(jù)估計(jì)結(jié)果給目標(biāo)事件設(shè)定警告等級(jí)。
[0057]步驟8)、從經(jīng)過(guò)模式識(shí)別的聲視頻信號(hào)中抓取關(guān)鍵信息和核心片段,將多個(gè)片段拼接和編輯形成一個(gè)反映監(jiān)控信息的語(yǔ)義情報(bào),將這些語(yǔ)義情報(bào)壓縮后編碼,最后通過(guò)網(wǎng)絡(luò)實(shí)現(xiàn)傳輸。
[0058]通過(guò)上述步驟7)和步驟8),監(jiān)控過(guò)程中所得到的聲視頻信號(hào)能夠在后續(xù)操作中較為方便地被檢索,提高了檢索效率,有助于監(jiān)控信息的進(jìn)一步利用。
[0059]下面對(duì)本發(fā)明方法中的相關(guān)步驟的具體實(shí)現(xiàn)做進(jìn)一步描述。
[0060]在所述的步驟4)中,對(duì)聲視頻信號(hào)做融合分析包含多個(gè)子步驟,包括:
[0061]步驟4-1)、從背景噪聲數(shù)據(jù)庫(kù)中抽取背景噪聲數(shù)據(jù),實(shí)現(xiàn)背景建模。
[0062]從之前對(duì)背景噪聲數(shù)據(jù)庫(kù)的描述可以知道,背景噪聲數(shù)據(jù)庫(kù)中包含有多種氣象條件下、多種典型場(chǎng)景的背景噪聲,在本步驟中,根據(jù)監(jiān)控時(shí)的外部條件,可從背景噪聲數(shù)據(jù)庫(kù)中選取對(duì)應(yīng)的背景噪聲數(shù)據(jù),利用該背景噪聲數(shù)據(jù)進(jìn)行建模。
[0063]步驟4-2)、從目標(biāo)特征數(shù)據(jù)庫(kù)中抽取多種目標(biāo)特征信息,將這些目標(biāo)特征信息與步驟4-1)中所建立的背景噪聲模型相結(jié)合,得到虛擬目標(biāo)特征。
[0064]步驟4-3)、對(duì)步驟2)生成的聲視頻信號(hào)與步驟4-2)生成的虛擬目標(biāo)特征進(jìn)行比對(duì),實(shí)現(xiàn)對(duì)步驟2)生成的聲視頻信號(hào)的目標(biāo)特征提取。
[0065]本步驟中將聲視頻信號(hào)與虛擬目標(biāo)特征比對(duì)的結(jié)果是一組目標(biāo)特征值,將這些目標(biāo)特征值按照相似度從高到低進(jìn)行排序,排序結(jié)果中高于某一預(yù)先設(shè)定閾值的目標(biāo)特征值就是聲視頻信號(hào)的目標(biāo)特征提取結(jié)果。
[0066]需要說(shuō)明的是,若本發(fā)明的方法應(yīng)用在資源有限的嵌入式操作系統(tǒng)上時(shí),未必能夠一次讀取目標(biāo)特征數(shù)據(jù)庫(kù)與背景噪聲數(shù)據(jù)庫(kù)中的所有信息,在這種情況下,步驟4-1)-步驟4-3)需要多次執(zhí)行,以得到更為準(zhǔn)確的目標(biāo)特征提取結(jié)果。
[0067]步驟4-4)、根據(jù)步驟4-3)得到的目標(biāo)特征提取結(jié)果利用貝葉斯分析進(jìn)行概率判斷,通過(guò)最大后驗(yàn)概率發(fā)現(xiàn)所采集的聲視頻信號(hào)中所包含的事件。
[0068]步驟4-5)、對(duì)步驟4-4)中所檢測(cè)到的目標(biāo)采用基于目標(biāo)特征和背景噪聲模型改進(jìn)的波束形成和波達(dá)方向估計(jì)方法,依據(jù)聲信號(hào)傳播規(guī)律計(jì)算開(kāi)空間及封閉空間兩類環(huán)境條件下運(yùn)動(dòng)聲源目標(biāo)所具有的能量,相位及多普勒效應(yīng)以實(shí)現(xiàn)定位,確定該目標(biāo)的坐標(biāo)值。
[0069]步驟4-6)、對(duì)經(jīng)過(guò)定位的目標(biāo)進(jìn)行跟蹤。所述跟蹤包括根據(jù)傳聲器陣列確定的坐標(biāo)值控制云臺(tái)攝像機(jī)姿態(tài),實(shí)現(xiàn)調(diào)焦、補(bǔ)光、調(diào)整角度等操作,保證在多目標(biāo)情況下能夠連續(xù)穩(wěn)定地捕捉指定目標(biāo)的視頻信息,并且實(shí)現(xiàn)多目標(biāo)之間的快速準(zhǔn)確切換。
[0070]在所述的步驟5)中,對(duì)聲頻信號(hào)做獨(dú)立的分析與處理包括:
[0071]步驟5-1)、從背景噪聲數(shù)據(jù)庫(kù)中抽取背景噪聲數(shù)據(jù),實(shí)現(xiàn)背景建模;從目標(biāo)特征數(shù)據(jù)庫(kù)中抽取目標(biāo)特征。
[0072]步驟5-2)、采用基于目標(biāo)特征和背景噪聲模型的波束形成和波達(dá)方向估計(jì)方法,依據(jù)聲信號(hào)傳播規(guī)律計(jì)算開(kāi)空間及封閉空間兩類環(huán)境條件下運(yùn)動(dòng)聲源目標(biāo)所具有的能量、相位及多普勒效應(yīng)對(duì)分布式目標(biāo)檢測(cè)、定位及跟蹤模型的貢獻(xiàn),從而對(duì)聲源目標(biāo)進(jìn)行優(yōu)化識(shí)別、分類、定位和跟蹤。
[0073]最后所應(yīng)說(shuō)明的是,以上實(shí)施例僅用以說(shuō)明本發(fā)明的技術(shù)方案而非限制。盡管參照實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)說(shuō)明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解,對(duì)本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換,都不脫離本發(fā)明技術(shù)方案的精神和范圍,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求范圍當(dāng)中。
【權(quán)利要求】
1.一種聲視頻融合監(jiān)控方法,包括: 步驟I)、采集聲頻與視頻信號(hào),對(duì)所采集的信號(hào)進(jìn)行調(diào)理; 步驟2)、對(duì)步驟I)所得到的、經(jīng)過(guò)調(diào)理的信號(hào)做協(xié)同預(yù)處理;所述協(xié)同預(yù)處理包括對(duì)信號(hào)做壓縮、濾波、去噪與增強(qiáng); 步驟3)、對(duì)步驟2)所得到的信號(hào)是否同時(shí)包含聲頻信號(hào)與視頻信號(hào)加以判斷,當(dāng)同時(shí)包含兩種信號(hào)時(shí),執(zhí)行步驟4),若僅包含聲頻信號(hào),則執(zhí)行步驟5); 步驟4)、對(duì)聲頻信號(hào)與視頻信號(hào)做融合分析,根據(jù)融合分析的結(jié)果查找出所述聲視頻信號(hào)中所包含的目標(biāo)信息,然后執(zhí)行步驟6); 步驟5)、對(duì)聲頻信號(hào)做獨(dú)立的分析與處理,得到所述聲頻信號(hào)中所包含的目標(biāo)信息,然后執(zhí)行步驟6); 步驟6)、根據(jù)步驟4)或步驟5)所得到的目標(biāo)信息決定是否需要對(duì)攝像機(jī)的姿態(tài)進(jìn)行調(diào)整,若需要調(diào)整,調(diào)整攝像機(jī)的姿態(tài),然后重新執(zhí)行步驟I);其中,所述對(duì)攝像機(jī)的姿態(tài)進(jìn)行調(diào)整包括調(diào)焦、補(bǔ)光、調(diào)整角度。
2.根據(jù)權(quán)利要求1所述的聲視頻融合監(jiān)控方法,其特征在于,還包括: 步驟7)、對(duì)當(dāng)前的聲視頻信號(hào)進(jìn)行模式識(shí)別,以獲取目標(biāo)事件的包括關(guān)鍵詞、時(shí)間、方位、類別、狀態(tài)在內(nèi)的語(yǔ)義信息;所述模式識(shí)別包括行為理解、判別控制和狀態(tài)評(píng)估,其中,所述行為理解通過(guò)運(yùn)動(dòng)特征的提取,獲取目標(biāo)事件的關(guān)鍵詞;所述判別控制根據(jù)行為理解的結(jié)果,進(jìn)一步獲取事件的時(shí)間、方位等信息,與對(duì)應(yīng)的關(guān)鍵詞閾值相比較,檢測(cè)判斷目標(biāo)事件的類別;所述狀態(tài)評(píng)估根據(jù)判別目標(biāo)事件的類別,依據(jù)類別的預(yù)設(shè)特征值估計(jì)目標(biāo)事件的重要度,根據(jù)估計(jì)結(jié)果給目標(biāo)事件設(shè)定警告等級(jí); 步驟8)、從經(jīng)過(guò)模式識(shí)別的聲視頻信號(hào)中抓取關(guān)鍵信息和核心片段,將多個(gè)片段拼接和編輯形成一個(gè)反映監(jiān)控信息的語(yǔ)義情報(bào),將這些語(yǔ)義情報(bào)壓縮后編碼,最后通過(guò)網(wǎng)絡(luò)實(shí)現(xiàn)傳輸。
3.根據(jù)權(quán)利要求1或2所述的聲視頻融合監(jiān)控方法,其特征在于,所述的步驟4)包括: 步驟4-1)、從背景噪聲數(shù)據(jù)庫(kù)中抽取背景噪聲數(shù)據(jù),實(shí)現(xiàn)背景建模;其中,所述背景噪聲數(shù)據(jù)庫(kù)用于存儲(chǔ)多種氣象條件下、多種典型場(chǎng)景的背景噪聲;所述氣象條件包括風(fēng)、雨、雪、霧在內(nèi)的特殊氣象條件,所述典型場(chǎng)景包括呼救、鳴笛、碰撞、爆炸、鳴槍、低空飛行、人群聚集; 步驟4-2)、從目標(biāo)特征數(shù)據(jù)庫(kù)中抽取多種目標(biāo)特征信息,將這些目標(biāo)特征信息與步驟4-1)中所建立的背景噪聲模型相結(jié)合,得到虛擬目標(biāo)特征;其中,所述目標(biāo)特征數(shù)據(jù)庫(kù)用于存儲(chǔ)目標(biāo)的特征信息,所述特征包括聲頻或視頻信號(hào)的基本特征、變換域特征、統(tǒng)計(jì)特征、運(yùn)動(dòng)特征,以及這些特征在時(shí)間、空間、譜、相位等方面的信息; 步驟4-3)、對(duì)步驟2)生成的聲視頻信號(hào)與步驟4-2)生成的虛擬目標(biāo)特征進(jìn)行比對(duì),實(shí)現(xiàn)對(duì)步驟2)生成的聲視頻信號(hào)的目標(biāo)特征提??; 步驟4-4)、根據(jù)步驟4-3)得到的目標(biāo)特征提取結(jié)果利用貝葉斯分析進(jìn)行概率判斷,通過(guò)最大后驗(yàn)概率發(fā)現(xiàn)所采集的聲視頻信號(hào)中所包含的事件; 步驟4-5)、對(duì)步驟4-4)中所檢測(cè)到的目標(biāo)采用基于目標(biāo)特征和背景噪聲模型的波束形成和波達(dá)方向估計(jì)方法,依據(jù)聲信號(hào)傳播規(guī)律計(jì)算開(kāi)空間及封閉空間兩類環(huán)境條件下運(yùn)動(dòng)聲源目標(biāo)所具有的能量、相位及多普勒效應(yīng)以實(shí)現(xiàn)定位,確定該目標(biāo)的坐標(biāo)值; 步驟4-6)、對(duì)經(jīng)過(guò)定位的目標(biāo)進(jìn)行跟蹤。
4.根據(jù)權(quán)利要求3所述的聲視頻融合監(jiān)控方法,其特征在于,在所述的步驟4-3)與步驟4-4)之間,還包括多次執(zhí)行所述步驟4-1) 一步驟4-3)。
5.根據(jù)權(quán)利要求3所述的聲視頻融合監(jiān)控方法,其特征在于,在所述的步驟4-3)中,將聲視頻信號(hào)與虛擬目標(biāo)特征比對(duì)的結(jié)果是一組目標(biāo)特征值,將這些目標(biāo)特征值按照相似度從高到低進(jìn)行排序,排序結(jié)果中高于某一預(yù)先設(shè)定閾值的目標(biāo)特征值為聲視頻信號(hào)的目標(biāo)特征提取結(jié)果。
6.根據(jù)權(quán)利要求3所述的聲視頻融合監(jiān)控方法,其特征在于,在所述的步驟4-6)中,所述跟蹤包括根據(jù)傳聲器陣列確定的坐標(biāo)值控制攝像機(jī)姿態(tài),實(shí)現(xiàn)調(diào)焦、補(bǔ)光、調(diào)整角度。
7.根據(jù)權(quán)利要求1或2所述的聲視頻融合監(jiān)控方法,其特征在于,所述步驟5)包括: 步驟5-1)、從背景噪聲數(shù)據(jù)庫(kù)中抽取背景噪聲數(shù)據(jù),實(shí)現(xiàn)背景建模;從目標(biāo)特征數(shù)據(jù)庫(kù)中抽取目標(biāo)特征; 步驟5-2)、采用基于目標(biāo)特征和背景噪聲模型的波束形成和波達(dá)方向估計(jì)方法,依據(jù)聲信號(hào)傳播規(guī)律計(jì)算開(kāi)空間及封閉空間兩類環(huán)境條件下運(yùn)動(dòng)聲源目標(biāo)所具有的能量、相位及多普勒效應(yīng)對(duì)分布式目標(biāo)檢測(cè)、定位及跟蹤模型的貢獻(xiàn),從而對(duì)聲源目標(biāo)進(jìn)行優(yōu)化識(shí)別、分類、定位和跟蹤。
8.根據(jù)權(quán)利要求1或2所述的聲視頻融合監(jiān)控方法,其特征在于,在所述的步驟6)中,重新執(zhí)行步驟I)的次數(shù)不超過(guò)3次。
【文檔編號(hào)】G06F17/30GK104243894SQ201310231183
【公開(kāi)日】2014年12月24日 申請(qǐng)日期:2013年6月9日 優(yōu)先權(quán)日:2013年6月9日
【發(fā)明者】陳孝良, 李曉東 申請(qǐng)人:中國(guó)科學(xué)院聲學(xué)研究所