專(zhuān)利名稱(chēng):一種分布式麥克風(fēng)的說(shuō)話人聚類(lèi)方法
技術(shù)領(lǐng)域:
本發(fā)明屬于語(yǔ)音技術(shù)領(lǐng)域,具體地涉及一種分布式麥克風(fēng)的說(shuō)話人聚類(lèi)方法。
背景技術(shù):
隨著網(wǎng)絡(luò)和通訊技術(shù)的不斷發(fā)展,利用現(xiàn)有的多媒體技術(shù)、網(wǎng)絡(luò)與通訊技術(shù)、分布 式處理技術(shù)等可以實(shí)現(xiàn)復(fù)雜聲學(xué)環(huán)境場(chǎng)景下的多人多方對(duì)話。傳統(tǒng)聲源輸入和錄音設(shè)備 包括頭戴式麥克風(fēng)、全向性和方向性單麥克風(fēng)、麥克風(fēng)陣列等。單麥克風(fēng)作為傳統(tǒng)聲源輸 入和錄音設(shè)備,具有體積小、價(jià)格低廉等優(yōu)點(diǎn),但不具備對(duì)環(huán)境噪聲處理以及聲源定位的能 力;麥克風(fēng)陣列由多個(gè)按照特定幾何位置擺放的麥克風(fēng)組成,對(duì)空間信號(hào)進(jìn)行時(shí)空域聯(lián)合 處理,其能力包括辨識(shí)與分離聲源、混響條件下的聲源定位、增強(qiáng)語(yǔ)音信號(hào)等。分布式麥克風(fēng)是由多個(gè)單麥克風(fēng)組成的聲音信號(hào)采集系統(tǒng),各個(gè)麥克風(fēng)由不同設(shè) 備控制,對(duì)麥克風(fēng)的排列和間距沒(méi)有任何限制,麥克風(fēng)采集的信號(hào)在時(shí)間域不完全同步。分 布式麥克風(fēng)結(jié)構(gòu)簡(jiǎn)單、使用方便、節(jié)約成本,符合多聲源多方向復(fù)雜對(duì)話場(chǎng)景的要求,可有 效地完成說(shuō)話人聚類(lèi)、識(shí)別及定位等多種應(yīng)用。與麥克風(fēng)陣列系統(tǒng)不同的是,分布式麥克風(fēng) 對(duì)麥克風(fēng)的位置和擺放沒(méi)有任何約束和限制,此外分布式麥克風(fēng)系統(tǒng)中的聲源和麥克風(fēng)位 置信息未知。對(duì)聲音信息進(jìn)行自動(dòng)分類(lèi)是語(yǔ)音信號(hào)處理領(lǐng)域的研究課題之一,說(shuō)話人分割 (Speaker Segmentation)和說(shuō)話人聚類(lèi)(Speaker Clustering)是其中的重要組成部分。 通常的方法是說(shuō)話人分割將整個(gè)測(cè)試語(yǔ)音分割成一系列語(yǔ)音片段,這些語(yǔ)音片段只屬于 某一特定說(shuō)話人;說(shuō)話人聚類(lèi)負(fù)責(zé)將分散的同屬于一個(gè)說(shuō)話人的語(yǔ)音歸為一類(lèi)。傳統(tǒng)的說(shuō)話人分割方法基本以高斯模型的窗移統(tǒng)計(jì)法為基礎(chǔ),采用不同的距離測(cè) 度選擇,通過(guò)基于貝葉斯的信息準(zhǔn)則進(jìn)行融合得到分割點(diǎn)。說(shuō)話人聚類(lèi)方法可以采用進(jìn)化 隱馬爾科夫(EHMM)計(jì)算方法,通過(guò)衡量路徑分?jǐn)?shù)更新分割結(jié)果。當(dāng)說(shuō)話人數(shù)目不限定時(shí), 可以采用分級(jí)聚類(lèi)的方法進(jìn)行說(shuō)話人聚類(lèi)。麥克風(fēng)陣列的說(shuō)話人聚類(lèi)方法主要利用說(shuō)話人的空間位置差異進(jìn)行分類(lèi)。主要原 理為將時(shí)延估計(jì)向量作為說(shuō)話人的空間特征,在GMM/HMM(高斯混合模型/隱馬爾可夫模 型)模型中對(duì)這些特征進(jìn)行整合和分類(lèi)。麥克風(fēng)陣列的時(shí)延估計(jì)算法主要包括GCC(廣義 互相關(guān))方法和LMS (最小均方誤差)方法。GCC(廣義互相關(guān))受混響影響比較嚴(yán)重,改 進(jìn)后產(chǎn)生了 CEP (倒譜預(yù)濾波)方法和基音加權(quán)的GCC(廣義互相關(guān))方法,EVD (特征值分 解)和基于ATF(聲學(xué)傳遞函數(shù))的時(shí)延估計(jì)方法則分別利用子空間的技術(shù)和傳遞函數(shù)比 來(lái)求解。但是麥克風(fēng)陣列系統(tǒng)計(jì)算時(shí)對(duì)各個(gè)設(shè)備之間采樣的誤差敏感,因此對(duì)音頻數(shù)據(jù)同 步性要求十分嚴(yán)格;而普通的多人多方會(huì)議場(chǎng)景中聲源個(gè)數(shù)未知、麥克風(fēng)位置未知、房間聲 學(xué)環(huán)境未知,即需要在時(shí)間和空間先驗(yàn)信息均缺失的場(chǎng)景下對(duì)聲音數(shù)據(jù)進(jìn)行處理。作為傳統(tǒng)聲源輸入和錄音設(shè)備的單麥克風(fēng),價(jià)格低廉、結(jié)構(gòu)簡(jiǎn)單,缺點(diǎn)是易受環(huán)境 干擾,且不能對(duì)聲源進(jìn)行定位;傳統(tǒng)麥克風(fēng)陣列系統(tǒng)已被廣泛研究,沒(méi)有商用化的主要原因 是專(zhuān)用硬件價(jià)格昂貴以及算法復(fù)雜度較高。
發(fā)明內(nèi)容
為了克服上述現(xiàn)有技術(shù)的缺點(diǎn),本發(fā)明的目的在于提出一種分布式麥克風(fēng)的說(shuō)話 人聚類(lèi)方法,以分布式麥克風(fēng)作為信號(hào)采集和輸出設(shè)備,計(jì)算語(yǔ)音信號(hào)片段的時(shí)延向量,通 過(guò)排除錯(cuò)誤數(shù)據(jù)提高時(shí)延估計(jì)精度,對(duì)時(shí)延向量采用聚類(lèi)算法將語(yǔ)音信號(hào)片段按說(shuō)話人身 份分別歸類(lèi),設(shè)備價(jià)格低廉,具有使用方便的優(yōu)勢(shì),可應(yīng)用于復(fù)雜聲學(xué)環(huán)境下的多人多方對(duì) 話場(chǎng)景。一種分布式麥克風(fēng)的說(shuō)話人聚類(lèi)方法,包括以下步驟第一步,對(duì)分布式麥克風(fēng)采集的信號(hào)進(jìn)行預(yù)處理首先對(duì)分布式麥克風(fēng)獲得的多路聲源信號(hào)進(jìn)行預(yù)處理,先對(duì)多路聲源信號(hào)分幀及 進(jìn)行快速傅立葉變換(FFT)變換,然后對(duì)多路聲源信號(hào)進(jìn)行端點(diǎn)檢測(cè),將信號(hào)分為聲源信 號(hào)和非聲源信號(hào)兩類(lèi),端點(diǎn)檢測(cè)的目的在于從數(shù)字語(yǔ)音信號(hào)中區(qū)分出語(yǔ)音信號(hào)和非語(yǔ)音信 號(hào),語(yǔ)音端點(diǎn)檢測(cè)方法可采用子帶頻譜熵算法,首先將每幀語(yǔ)音的頻譜劃分成η (η為大于 零的整數(shù))子帶,計(jì)算出每個(gè)子帶的頻譜熵,然后把相繼η幀的子帶頻譜熵經(jīng)過(guò)一組順序統(tǒng) 計(jì)濾波器獲得每幀的頻譜熵,根據(jù)頻譜熵的值對(duì)輸入的語(yǔ)音進(jìn)行分類(lèi),具體步驟為將每幀 的語(yǔ)音信號(hào)經(jīng)過(guò)快速傅立葉變換(FFT)之后得到它在功率譜上的Nfft個(gè)點(diǎn)Yi (0彡i彡Nfft), 每個(gè)點(diǎn)在頻譜域上的概率密度可用公式(1)表示
權(quán)利要求
1. 一種分布式麥克風(fēng)的說(shuō)話人聚類(lèi)方法,其特征在于包括以下步驟 第一步,對(duì)分布式麥克風(fēng)采集的信號(hào)進(jìn)行預(yù)處理首先對(duì)分布式麥克風(fēng)獲得的多路聲源信號(hào)進(jìn)行預(yù)處理,先對(duì)多路聲源信號(hào)分幀及進(jìn)行 快速傅立葉變換(FFT)變換,然后對(duì)多路聲源信號(hào)進(jìn)行端點(diǎn)檢測(cè),將信號(hào)分為聲源信號(hào)和 非聲源信號(hào)兩類(lèi),端點(diǎn)檢測(cè)的目的在于從數(shù)字語(yǔ)音信號(hào)中區(qū)分出語(yǔ)音信號(hào)和非語(yǔ)音信號(hào), 語(yǔ)音端點(diǎn)檢測(cè)方法可采用子帶頻譜熵算法,首先將每幀語(yǔ)音的頻譜劃分成η (η為大于零的 整數(shù))子帶,計(jì)算出每個(gè)子帶的頻譜熵,然后把相繼η幀的子帶頻譜熵經(jīng)過(guò)一組順序統(tǒng)計(jì)濾 波器獲得每幀的頻譜熵,根據(jù)頻譜熵的值對(duì)輸入的語(yǔ)音進(jìn)行分類(lèi),具體步驟為將每幀的語(yǔ) 音信號(hào)經(jīng)過(guò)快速傅立葉變換(FFT)之后得到它在功率譜上的Nfft個(gè)點(diǎn)Yi (0彡i彡Nfft),每 個(gè)點(diǎn)在頻譜域上的概率密度可用公式(1)表示
全文摘要
一種分布式麥克風(fēng)的說(shuō)話人聚類(lèi)方法,先對(duì)分布式麥克風(fēng)采集的信號(hào)進(jìn)行預(yù)處理,再對(duì)聲源信號(hào)片段采用時(shí)延估計(jì)法計(jì)算,得到對(duì)應(yīng)的時(shí)延估計(jì)向量,然后排除錯(cuò)誤數(shù)據(jù)并進(jìn)行說(shuō)話人分割,最后根據(jù)說(shuō)話人分割的結(jié)果進(jìn)行說(shuō)話人聚類(lèi),本發(fā)明以分布式麥克風(fēng)作為信號(hào)采集和輸出設(shè)備,計(jì)算語(yǔ)音信號(hào)片段的時(shí)延向量,通過(guò)排除錯(cuò)誤數(shù)據(jù)提高時(shí)延估計(jì)精度,對(duì)時(shí)延向量采用聚類(lèi)算法將語(yǔ)音信號(hào)片段按說(shuō)話人身份分別歸類(lèi),設(shè)備價(jià)格低廉,具有使用方便的優(yōu)勢(shì),可應(yīng)用于復(fù)雜聲學(xué)環(huán)境下的多人多方對(duì)話場(chǎng)景。
文檔編號(hào)G10L15/08GK102074236SQ20101056838
公開(kāi)日2011年5月25日 申請(qǐng)日期2010年11月29日 優(yōu)先權(quán)日2010年11月29日
發(fā)明者劉加, 楊毅 申請(qǐng)人:清華大學(xué)