專(zhuān)利名稱(chēng):一種公共場(chǎng)所異常聲音的識(shí)別與定位方法
技術(shù)領(lǐng)域:
本發(fā)明屬于音頻信號(hào)處理、模式識(shí)別和陣列信號(hào)處理技術(shù)領(lǐng)域。
背景技術(shù):
公共場(chǎng)所是指公眾從事社會(huì)生活的各種場(chǎng)所。在公共場(chǎng)所環(huán)境下人們?nèi)粘Ia(chǎn)活動(dòng)中所發(fā)生的各種危險(xiǎn)事件、交通事件、犯罪事件等等都與人們的生命財(cái)產(chǎn)安全息息相關(guān)。 目前,各地不同程度地建設(shè)了以視頻監(jiān)視為核心技術(shù)的公共場(chǎng)所視頻監(jiān)視平臺(tái),這為減少犯罪率,提高破案效率和取證的科學(xué)性發(fā)揮了積極的作用。但是,現(xiàn)有的視頻監(jiān)視平臺(tái)多實(shí)行重要場(chǎng)所、重要時(shí)間段人工監(jiān)視加錄像監(jiān)視方式。一般場(chǎng)所多實(shí)行視頻攝像機(jī)錄像監(jiān)視方式。大部分公共場(chǎng)所不可能實(shí)現(xiàn)M小時(shí)不間斷人工監(jiān)視,而突發(fā)異常事件有95%以上在人工不能實(shí)施有效監(jiān)視的情況下發(fā)生。由于大多數(shù)公共場(chǎng)合所發(fā)生的異常事件一般都伴隨有異常聲音的產(chǎn)生,如槍聲、爆炸聲、玻璃破碎聲、尖叫聲等,異常聲音的產(chǎn)生表明異常事件已發(fā)生或預(yù)示異常事件即將發(fā)生。為此,本發(fā)明通過(guò)對(duì)公共場(chǎng)所的聲音進(jìn)行分析,判定在該區(qū)域是否存在異常聲音,然后確定該異常聲音的方位,目的是引導(dǎo)視頻監(jiān)控系統(tǒng)對(duì)異常事件進(jìn)行實(shí)時(shí)跟蹤,在一定程度上緩解對(duì)重點(diǎn)單位和公共復(fù)雜場(chǎng)所人工監(jiān)視的壓力,提高公共監(jiān)控系統(tǒng)的智能化能力。本發(fā)明涉及兩個(gè)主要的理論及技術(shù)問(wèn)題一是異常聲音的分類(lèi)識(shí)別;二是異常聲音的定位。目前對(duì)異常聲音的識(shí)別與定位方法大多沿用傳統(tǒng)的語(yǔ)音處理方法。由于公共場(chǎng)所噪聲環(huán)境復(fù)雜,僅采用常用的聲音識(shí)別及定位方法很難取得好的效果。在異常聲音的特征提取部分,主要采用時(shí)域、頻域和倒譜域特征參數(shù)進(jìn)行特征描述。其中,時(shí)域特征有短時(shí)能量、短時(shí)過(guò)零率、短時(shí)自相關(guān)函數(shù)等;頻域分析有頻譜、功率譜、倒頻譜、頻譜包絡(luò)分析等; 倒譜域參數(shù)有線性預(yù)測(cè)參數(shù)、線性預(yù)測(cè)倒譜參數(shù)、mel頻率倒譜系數(shù)等。為了增強(qiáng)特征參數(shù)對(duì)于語(yǔ)音信號(hào)的表征力,研究人員還將各類(lèi)特征參數(shù)進(jìn)行融合,這些特征參數(shù)均基于對(duì)人的發(fā)聲機(jī)理研究得到的。但公共場(chǎng)所異常聲音包含一些典型的非語(yǔ)音信號(hào)如槍聲等。同時(shí)公共場(chǎng)所的噪聲環(huán)境也很復(fù)雜。所以,這些常用的方法在公共場(chǎng)所異常聲音特征提取中存在明顯不足。為此,提取能較好的反映公共場(chǎng)所異常聲音(包括語(yǔ)音信號(hào)和非語(yǔ)音信號(hào)) 的特征參數(shù)就成為解決公共場(chǎng)所異常聲音識(shí)別的關(guān)鍵。其次,語(yǔ)音識(shí)別中常用的分類(lèi)器如矢量量化技術(shù)、動(dòng)態(tài)時(shí)間規(guī)整、神經(jīng)網(wǎng)絡(luò)、高斯混合模型和隱含馬爾科夫模型都在不同的應(yīng)用領(lǐng)域顯示了各自的特點(diǎn)。通過(guò)分析,本發(fā)明將目前很有特色的基于聽(tīng)覺(jué)感知的稀疏分解理論,用于解決公共場(chǎng)所異常聲音特征提取及分類(lèi)識(shí)別中。在異常聲音定位部分,由于公共場(chǎng)所背景噪聲和反射干擾的影響變化甚至比傳聲器陣列的物理結(jié)構(gòu)差異帶來(lái)的變化大,這使得對(duì)公共場(chǎng)所異常聲音的定位方法也不能簡(jiǎn)單的采用傳統(tǒng)的聲源定位方法。目前一般的聲音定位方法有1)基于高分辨率譜估計(jì)的定位方法。這類(lèi)方法不受信號(hào)采樣率的限制,能夠有效對(duì)環(huán)境中多個(gè)聲源進(jìn)行準(zhǔn)確定位,但是這種方法需要獲得各個(gè)傳聲器信號(hào)的時(shí)空相關(guān)矩陣,而聲音信號(hào)是不平穩(wěn)的信號(hào),只能通過(guò)
4相關(guān)假設(shè)與估計(jì)來(lái)獲得相關(guān)矩陣。并且高分辨率譜估計(jì)方法計(jì)算復(fù)雜度較大,耗時(shí)較長(zhǎng),在實(shí)際異常聲源定位的應(yīng)用中受到一定的限制。幻基于最大輸出功率的可控波束形成定位方法。這類(lèi)方法在滿足最大似然準(zhǔn)則的前提下,通過(guò)搜索的方式,使傳聲器陣列所形成的波束對(duì)準(zhǔn)異常聲源,從而獲得最大輸出功率,在采用全部搜索的時(shí)候計(jì)算量非常大,若通過(guò)迭代方法來(lái)處理則對(duì)初始值的選擇異常敏感,在實(shí)際應(yīng)用中往往達(dá)不到預(yù)期的要求。3)基于到達(dá)時(shí)間差的定位方法。這類(lèi)方法首先進(jìn)行時(shí)延估計(jì),主要有基于廣義互相關(guān)的時(shí)延估計(jì)方法和基于自適應(yīng)濾波的時(shí)延估計(jì)方法。然后根據(jù)傳聲器陣列的物理結(jié)構(gòu)來(lái)估計(jì)異常聲源的空間位置。這種方法主要的優(yōu)點(diǎn)是簡(jiǎn)單、實(shí)用性較好。為此,本發(fā)明以這類(lèi)方法作為基礎(chǔ),結(jié)合公共場(chǎng)所噪聲環(huán)境及異常聲音的特點(diǎn),提出適用于公共場(chǎng)所異常聲音定位的解決方案??梢钥吹剑谀壳暗纳鐣?huì)背景及技術(shù)條件下,對(duì)公共場(chǎng)所異常聲音的識(shí)別及定位技術(shù)進(jìn)行深入的研究,不僅對(duì)維護(hù)國(guó)家安全、社會(huì)穩(wěn)定和公共安全有很重要的社會(huì)意義,同時(shí)對(duì)促進(jìn)異常聲音特征提取、識(shí)別及定位相關(guān)領(lǐng)域的理論及技術(shù)研究的發(fā)展有著積極的作用。
發(fā)明內(nèi)容
本發(fā)明的目的在于提出一種公共場(chǎng)所異常聲音識(shí)別及定位方法。該方法利用模式識(shí)別、陣列信號(hào)處理技術(shù),對(duì)公共場(chǎng)所產(chǎn)生的異常聲音進(jìn)行分析,確定是否為異常聲音,進(jìn)而確定是否存在異常事件。如有異常事件,迅速確定該異常事件發(fā)生的方向和位置。該方位信息可引導(dǎo)視頻監(jiān)控云臺(tái)進(jìn)行相應(yīng)動(dòng)作,對(duì)公共場(chǎng)所突發(fā)的異常事件進(jìn)行實(shí)時(shí)跟蹤、監(jiān)控。 提高公共場(chǎng)所監(jiān)控系統(tǒng)的智能化能力。本發(fā)明的主要內(nèi)容為判斷監(jiān)控區(qū)域是否存在異常聲音,對(duì)不同的異常聲音進(jìn)行分類(lèi)識(shí)別及對(duì)異常聲音進(jìn)行定位。所述異常聲音識(shí)別方法為將異常聲音的特征序列信號(hào)轉(zhuǎn)換為時(shí)頻譜的譜圖,然后通過(guò)獨(dú)立成分分析(ICA)、稀疏表示分類(lèi)(SRC)等圖像處理方法對(duì)異常聲音進(jìn)行分類(lèi)識(shí)別,具體步驟如下①對(duì)異常聲音的時(shí)序信號(hào)進(jìn)行短時(shí)傅里葉變換(short-time Fourier transform, STFT),使用漢明窗作為滑動(dòng)窗。傅里葉變換的長(zhǎng)度為2Nf點(diǎn),這樣每一幀的信號(hào)都可以得到長(zhǎng)度為Nf的頻譜,其聲壓值為PdB = 20 X Iog101 χ (1 :Nf)式中,χ為信號(hào)的頻譜值,PdB表示其聲壓值;將異常聲音的時(shí)頻表達(dá)沿頻率軸切分成Nb個(gè)圖像塊。將每個(gè)異常聲音樣本的圖像塊通過(guò)列堆棧轉(zhuǎn)換為向量,并把所有樣本得到的向量合并成為矩陣X e Rmxn,其中M是樣本聲譜圖的大小,N表示聲音樣本的數(shù)量。②將訓(xùn)練樣本X作為獨(dú)立成分分析的輸入矩陣,得到分離矩陣W,然后將X投影到 W張成的子空間構(gòu)成稀疏分解的冗余字典A。③將系統(tǒng)檢測(cè)到的異常聲音信號(hào)經(jīng)過(guò)步驟①的聲譜圖轉(zhuǎn)換后向W張成的子空間投影得到y(tǒng),可以由冗余字典A中原子線性表示,異常聲音信號(hào)的稀疏描述為X1 = argminlK subject to Ax = y計(jì)算殘差得到異常聲音信號(hào)的類(lèi)別結(jié)果ZOO=Ik-^ ,(勾Il2, i = 1,2,…,j。
上式中y為待檢測(cè)信號(hào)轉(zhuǎn)換后投影到子空間的表示,表示優(yōu)化問(wèn)題的解中第 i個(gè)樣本的系數(shù),而則表示由其重建的特征λ,則A表示原信號(hào)與重建新號(hào)的差距。顯然,y與λ的差距越小,i與待識(shí)別樣本就越接近,則可得到判定結(jié)果。所述公共場(chǎng)所異常聲音定位方法為根據(jù)公共場(chǎng)所異常聲音的特點(diǎn)對(duì)原始聲音信號(hào)進(jìn)行非線性變換,然后對(duì)傳統(tǒng)的時(shí)延估計(jì)方法中的HB加權(quán)函數(shù)進(jìn)行改進(jìn),使其適用于公共場(chǎng)所噪聲環(huán)境下異常聲音定位的要求,其步驟如下設(shè)兩個(gè)有間隔的傳聲器Hi1和m2接收到的信號(hào)X1 (n)、X2 (η)為
權(quán)利要求
1.一種公共場(chǎng)所異常聲音的識(shí)別與定位方法,所述本方法首先對(duì)公共場(chǎng)所獲取的聲音信號(hào)進(jìn)行分析,確定在該區(qū)域是否存在異常聲音,從而判別是否有異常事件發(fā)生;如果有異常事件發(fā)生,則快速確定異常事件發(fā)生的方向和位置,為視頻監(jiān)控系統(tǒng)提供快速、準(zhǔn)確的方位信息;所述方法分為異常聲音識(shí)別方法和異常聲音定位方法兩部分,其特征在于所述異常聲音識(shí)別方法為(1)首先是判定是否存在異常聲音;(2)然后將異常聲音的特征時(shí)序信號(hào)轉(zhuǎn)換為時(shí)頻域的譜圖,通過(guò)獨(dú)立成分分析(ICA)、 稀疏表示分類(lèi)(SRC)等圖像處理方法對(duì)異常聲音譜圖進(jìn)行分類(lèi)識(shí)別,具體步驟如下①對(duì)異常聲音的時(shí)序信號(hào)進(jìn)行短時(shí)傅里葉變換使用漢明窗作為滑動(dòng)窗,傅里葉變換的長(zhǎng)度為2Nf點(diǎn),這樣每一幀的信號(hào)都可以得到長(zhǎng)度為Nf的頻譜,其聲壓值為PdB = 20 X log10|x(l :Nf)式中,χ為一幀信號(hào)的頻譜值,PdB表示其聲壓值;將異常聲音的時(shí)頻表達(dá)沿頻率軸切分成Nb個(gè)圖像塊,將每個(gè)異常聲音樣本的圖像塊通過(guò)列堆棧轉(zhuǎn)換為向量,并把所有樣本得到的向量合并成為矩陣X e Rmxn,其中M是樣本聲譜圖的大小,N表示聲音樣本的數(shù)量;②將訓(xùn)練樣本X作為獨(dú)立成分分析的輸入矩陣,得到分離矩陣W,然后將X投影到W張成的子空間構(gòu)成稀疏分解的冗余字典A ;③將系統(tǒng)檢測(cè)到的異常聲音信號(hào)經(jīng)過(guò)步驟①的聲譜圖轉(zhuǎn)換后向W張成的子空間投影得到y(tǒng),可以由冗余字典A中原子線性表示,異常聲音信號(hào)的稀疏描述為X1 = argminjlxl subject to Ax = y計(jì)算殘差得到異常聲音信號(hào)的類(lèi)別結(jié)果= 1,2,…,j。上式中ι為待檢測(cè)信號(hào)轉(zhuǎn)換后投影到子空間的表示,《00表示優(yōu)化問(wèn)題的解中第i個(gè)樣本的系數(shù),而OO則表示由其重建的特征λ,則A表示原信號(hào)與重建新號(hào)的差距,顯然, y與λ的差距越小,i與待識(shí)別樣本就越接近,則可得到判定結(jié)果。
2.根據(jù)權(quán)利要求1所述的公共場(chǎng)所異常聲音的識(shí)別和定位方法,其特征在于所述公共場(chǎng)所異常聲音定位方法為根據(jù)公共場(chǎng)所異常聲音的特點(diǎn)對(duì)原始聲音信號(hào)進(jìn)行非線性變換,然后對(duì)傳統(tǒng)的時(shí)延估計(jì)方法中的HB加權(quán)函數(shù)進(jìn)行改進(jìn),使其適用于公共場(chǎng)所噪聲環(huán)境下異常聲音定位的要求,其步驟如下設(shè)兩個(gè)有間隔的傳聲器Hi1和m2接收到的信號(hào)X1 (η)、χ2 (η)為X1 (η) = αν^(η) + bx (η)x2(n) = a2s(n-Tu) + b2(n)其中,s(n)表示異常聲音信號(hào),&1、 表示聲波傳播衰減因子( < 1,i = 1,2), τ12 是傳聲器m2相對(duì)于Hi1接收信號(hào)的時(shí)間延遲,ID1 (η)和ID2 (η)為環(huán)境噪聲,即加性噪聲;①用非線性變換對(duì)接收信號(hào)X1 (η)和&(11)作預(yù)處理,即對(duì)給定的兩路傳聲器接收信號(hào) X1(Ii)和&(11)作反正切變換,以抑制分?jǐn)?shù)低階α分布噪聲中的脈沖部分 Y1 (η) = ψ[χλ ( )] = arctan[Axj ( )] r2 (η) = ψ[χ2 ( )] = arctan[Ax2 (η)]式中,arctant·]為反正切函數(shù),k為控制非線性變換程度的參數(shù),k>0,k值根據(jù)α值與信噪比的不同而變化,A(Ii)和1~2(11)為兩個(gè)輸入信號(hào)經(jīng)過(guò)反正切變換得到的結(jié)果; ②計(jì)算信號(hào)的自功率譜函數(shù)Φ^、,及互功率譜函數(shù); HB加權(quán)函數(shù)表示如下
3.根據(jù)權(quán)利要求1或2所述的公共場(chǎng)所異常聲音的識(shí)別與定位方法,其特征在于所述判定是否存在異常聲音的方法為采用雙閾值算法門(mén)限檢測(cè)到疑似異常聲音片段,用加窗平均周期方法(Welch)來(lái)估計(jì)信號(hào)的功率譜密度,將功率譜密度在3875-4250HZ范圍內(nèi)的變化率與預(yù)先設(shè)定的閾值比較,從而判定是否存在異常。
4.根據(jù)權(quán)利要求3所述的公共場(chǎng)所異常聲音的識(shí)別與定位方法,其特征在于所述用加窗平均周期方法(Welch)求取的聲音片段的功率譜密度圖在3875-4250hz的變化率。
全文摘要
本發(fā)明是用于公共場(chǎng)所異常聲音識(shí)別及定位方法,屬于音頻信號(hào)處理技術(shù)領(lǐng)域。該方法通過(guò)雙閾值算法和Welch法估計(jì)功率譜來(lái)判定公共場(chǎng)所是否存在異常聲音;然后將異常聲音特征時(shí)序信號(hào)轉(zhuǎn)換為時(shí)頻域的譜圖,利用聽(tīng)覺(jué)感知的稀疏編碼聲音識(shí)別技術(shù)解決異常聲音的特征提取及分類(lèi)識(shí)別問(wèn)題。為了抑制公共場(chǎng)所背景噪聲中脈沖噪聲對(duì)異常聲音定位的影響,引入非線性變換,增強(qiáng)異常聲音的互相關(guān)函數(shù)峰值能力。對(duì)傳統(tǒng)的HB加權(quán)函數(shù)進(jìn)行改進(jìn),降低由低信噪比帶來(lái)的權(quán)值變化。引入一種多幀數(shù)據(jù)加權(quán)處理,使新的HB加權(quán)廣義互相關(guān)算法更加適合于處理公共場(chǎng)所復(fù)雜聲學(xué)環(huán)境中的異常聲音定位能力。由于該方法結(jié)合基于聽(tīng)覺(jué)感知的稀疏編碼聲音識(shí)別技術(shù)和改進(jìn)的到達(dá)時(shí)間差的聲源定位技術(shù),可以更好的利用異常事件所伴隨的聲音信息,可以提高公共場(chǎng)所監(jiān)控系統(tǒng)的智能化水平。
文檔編號(hào)G10L19/02GK102522082SQ201110444850
公開(kāi)日2012年6月27日 申請(qǐng)日期2011年12月27日 優(yōu)先權(quán)日2011年12月27日
發(fā)明者仲建華, 劉鵬, 張智龍, 李偉紅, 湯海兵, 龔衛(wèi)國(guó) 申請(qǐng)人:重慶大學(xué)