两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

用于在語音信號處理中檢測語音片段的方法和裝置的制作方法

文檔序號:2824580閱讀:217來源:國知局
專利名稱:用于在語音信號處理中檢測語音片段的方法和裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及語音信號處理,尤其涉及用于檢測語音片段的方法和裝置。
背景技術(shù)
在涉及了包括語音分析、合成、語音識別、語音譯碼、語音編碼等的語音信號處理的技術(shù)領(lǐng)域中精確檢測語音信號的語音片段是非常重要的。
但是在用來檢測語音片段的典型檢測器的情況下,所述設(shè)備的結(jié)構(gòu)復(fù)雜、計算量大,并且不能執(zhí)行實時處理。
換句話說,例如,典型的語音片段檢測方法包括能量和零交叉速率檢測方法、通過獲取由名稱標(biāo)識的片段的逆譜系數(shù)以及當(dāng)前片段的逆譜距離來確定語音信號存在的方法、通過測量話音和噪聲信號間的相干性來確定語音信號存在的方法等等。
這些典型的語音信號檢測方法都是有問題的,例如,檢測語音片段的性能在實際應(yīng)用中并不突出、所述設(shè)備的結(jié)構(gòu)復(fù)雜、如果SNR(信噪比)較低則很難應(yīng)用所述方法以及如果通過外部環(huán)境突然改變檢測到背景噪聲則很難檢測到語音片段。
因此,在應(yīng)用諸如通信系統(tǒng)、移動通信系統(tǒng)、語音識別系統(tǒng)之類的語音信號處理的技術(shù)領(lǐng)域中,需要一種用于語音片段檢測的方法,使得就算是在背景噪聲突然改變、用于語音片段檢測的計算量較小并且期望進行實時處理的情況下,話音片段檢測的性能也能十分突出。

發(fā)明內(nèi)容
因此,本發(fā)明的目標(biāo)在于提供一種用于檢測語音信號處理設(shè)備的語音片段的方法和裝置,其中所述設(shè)備即使在嘈雜環(huán)境中也能精確檢測語音片段、對于語音片段檢測所需要的計算量較小,并且具有實時處理的能力。
為了完成上述目標(biāo),根據(jù)本發(fā)明提供了用于檢測語音信號處理設(shè)備的語音片段的裝置,所述裝置包括用于接收輸入信號的輸入部分;用于控制語音片段檢測全部操作的信號處理部分;用于在信號處理部分的控制下根據(jù)噪聲的頻率特性將輸入信號的臨界頻帶分成預(yù)定數(shù)目區(qū)域的臨界頻帶劃分部分;用于在信號處理部分的控制下通過劃分的區(qū)域計算自適應(yīng)信號閾值的信號閾值計算部分;用于在信號處理部分的控制下通過劃分的區(qū)域計算自適應(yīng)噪聲閾值的噪聲閾值計算部分;以及用于根據(jù)輸入信號每一區(qū)域的對數(shù)能量鑒別當(dāng)前幀(frame)是噪聲片段還是語音片段的片段鑒別部分。
為了完成上述目標(biāo),根據(jù)本發(fā)明提供了用于檢測語音信號處理設(shè)備的語音片段的裝置,所述裝置包括用于接收指示語音片段檢測的用戶控制命令的用戶界面部分;用于根據(jù)所述用戶控制命令接收輸入信號的輸入部分;以及處理器,它用于依據(jù)臨界頻帶的幀使輸入信號格式化、根據(jù)噪聲的頻率特性將每個幀的臨界頻帶劃分成預(yù)定數(shù)目的區(qū)域、按區(qū)域自適應(yīng)地計算信號閾值以及噪聲閾值、自適應(yīng)地比較每一區(qū)域?qū)?shù)能量與每一區(qū)域信號閾值和噪聲閾值,并且根據(jù)比較的結(jié)果鑒別每一幀的語音片段是語音片段還是噪聲片段。
為了完成上述目標(biāo),根據(jù)本發(fā)明提供了用于檢測語音信號處理設(shè)備的語音片段的方法,所述方法包括如下步驟根據(jù)噪聲的頻率特性將輸入信號的臨界頻帶劃分成預(yù)定數(shù)目的區(qū)域;比較按區(qū)域不同地設(shè)置的自適應(yīng)閾值以及按區(qū)域計算的對數(shù)能量,并且確定輸入信號是否是語音片段。
用于檢測語音片段的方法還包括通過使用按區(qū)域并且根據(jù)確定結(jié)果算出的對數(shù)能量的平均值和標(biāo)準(zhǔn)差對自適應(yīng)閾值進行更新的步驟。
自適應(yīng)閾值包括自適應(yīng)信號閾值和自適應(yīng)噪聲閾值。
為了完成上述目標(biāo),根據(jù)本發(fā)明提供了用于檢測語音信號處理設(shè)備的語音片段的方法,所述方法包括如下步驟按臨界頻帶的幀使所述輸入信號格式化;根據(jù)噪聲的頻率特性將當(dāng)前幀劃分成預(yù)定數(shù)目的區(qū)域;比較按當(dāng)前幀區(qū)域的信號閾值和噪聲閾值和按區(qū)域算出的對數(shù)能量;確定當(dāng)前幀是否是語音片段;并且通過使用每個區(qū)域的對數(shù)能量選擇性地更新所述信號閾值和噪聲閾值。


為了進一步理解本發(fā)明,作為說明書一部分的附圖示出了本發(fā)明的實施例并且連同說明一起解釋了本發(fā)明的原理。
在附圖中圖1是根據(jù)本發(fā)明示出了用于檢測語音信號處理設(shè)備的語音片段的典型方法的配置實例的視圖;圖2是根據(jù)本發(fā)明示出了根據(jù)噪聲的頻率特性用于確定臨界頻帶的劃分區(qū)域數(shù)目的典型方法的視圖;圖3是根據(jù)本發(fā)明示出了用于檢測語音信號處理設(shè)備的語音片段的典型方法實例的視圖;圖4是根據(jù)本發(fā)明示出了用于語音片段檢測的典型幀結(jié)構(gòu)的視圖。
具體實施例方式
通常情況下,人類的聽力的頻率范圍大約是從20Hz到20,000Hz,并且此范圍被稱為臨界頻帶。該臨界頻帶可根據(jù)諸如熟練程度和物理殘障情況擴展或縮減。上述臨界頻帶是考慮了人類聽覺特征的頻帶。
在本發(fā)明中,為了使用人類聽覺特征,通過考慮各種噪聲的頻率特性,將臨界頻帶劃分成特定數(shù)目的區(qū)域,為每一區(qū)域自適應(yīng)地算出信號閾值和噪聲閾值,并且通過比較每一區(qū)域的對數(shù)能量與每一區(qū)域的信號閾值和噪聲閾值來鑒別每一幀是語音片段還是噪聲片段。
圖1是根據(jù)本發(fā)明示出了用于檢測語音信號處理設(shè)備的語音片段的典型方法的配置實例的視圖。
根據(jù)本發(fā)明的用于檢測語音信號處理設(shè)備的語音片段的裝置可以包括用于輸入語音信號的輸入部分100;用于控制語音片段檢測全部操作的信號處理部分110;用于在信號處理部分110的控制下根據(jù)噪聲的頻率特性將輸入信號的臨界頻帶劃分成預(yù)定數(shù)目區(qū)域的臨界頻帶劃分部分130;用于在信號處理部分110的控制下按劃分的區(qū)域計算自適應(yīng)信號閾值的信號閾值計算部分170;用于在信號處理部分110的控制下按劃分的區(qū)域計算自適應(yīng)噪聲閾值的噪聲閾值計算部分160;以及用于根據(jù)輸入信號每一區(qū)域的對數(shù)能量鑒別當(dāng)前幀是噪聲片段還是語音片段的片段鑒別部分150。
所述語音信號可包括噪聲成分。
用于檢測語音片段的裝置還包括用于輸入指示語音片段檢測的控制信號的用戶界面部分180;用于輸出檢測到語音片段的輸出部分140;以及用于存儲語音片段檢測操作所需程序和數(shù)據(jù)的存儲器部分120。
所述用戶界面180可包括鍵盤和其他類型的輸入工具。
將在以下描述根據(jù)本發(fā)明配置的用于檢測語音信號處理設(shè)備的語音片段的裝置的操作。
在這里的語音信號處理設(shè)備可包括提供了語音片段檢測功能的各種設(shè)備,諸如具有語音識別功能的移動終端和語音識別設(shè)備等等。
在本發(fā)明中,根據(jù)各種類型噪聲的頻率特性將臨界頻帶劃分成特定數(shù)目的區(qū)域、比較按區(qū)域算出的對數(shù)能量與按區(qū)域設(shè)置的信號閾值和噪聲閾值,并且根據(jù)比較的結(jié)果檢測語音片段。
例如,如果用戶位于車輛環(huán)境中,則因為噪聲多數(shù)分布在低頻帶,所以根據(jù)本發(fā)明以1-2KHz的邊界將臨界頻帶劃分成兩個區(qū)域。如果用戶正在步行,那么就根據(jù)本發(fā)明將臨界頻帶劃分成三至四個區(qū)域。由此在本發(fā)明中,對臨界頻帶劃分的區(qū)域數(shù)目可以根據(jù)噪聲的頻率特性變化。因此本發(fā)明可以根據(jù)背景噪聲的頻率特性進一步改善語音片段檢測性能。
圖2是根據(jù)本發(fā)明示出了根據(jù)噪聲的頻率特性用于確定臨界頻帶的劃分區(qū)域數(shù)目的典型方法的視圖。
在期望檢測語音片段的情況下(S11),所述語音信號處理設(shè)備檢查用戶是否為了根據(jù)噪聲的頻率特性設(shè)置劃分區(qū)域的數(shù)目而請求設(shè)置噪聲環(huán)境的類型。當(dāng)用戶請求設(shè)置噪聲環(huán)境的類型時(S13),所述語音信號處理設(shè)備就輸出噪聲環(huán)境的類型(S15)。所述噪聲環(huán)境的類型可包括車輛環(huán)境、步行環(huán)境等等。
例如,當(dāng)用戶在車內(nèi)時,用戶可在語音信號處理設(shè)備提供的各選項中選擇車輛環(huán)境。當(dāng)用戶選擇了噪聲環(huán)境時(S17),語音信號處理設(shè)備就對應(yīng)于所選的噪聲環(huán)境設(shè)置區(qū)域的數(shù)目(S19)。
一旦設(shè)置了劃分區(qū)域的數(shù)目,語音信號處理設(shè)備就根據(jù)上述用于語音片段檢測的劃分區(qū)域設(shè)置數(shù)目對臨界頻帶作出劃分。
圖3是根據(jù)本發(fā)明示出了用于檢測語音信號處理設(shè)備的語音片段的典型方法實例的視圖。圖4是根據(jù)本發(fā)明示出了用于語音片段檢測的典型幀結(jié)構(gòu)的視圖。
當(dāng)施加工作電源時,語音信號處理設(shè)備通過載入來自存儲器部分120的操作程序、應(yīng)用程序和數(shù)據(jù)而進入就緒狀態(tài)。
在需要檢測語音片段的情況中(S21),語音信號處理設(shè)備的臨界頻帶劃分部分130就如圖4所示按幀對輸入信號進行格式化(S23)。每一幀都具有臨界頻帶的頻率信號。
臨界頻帶劃分部分130將每一幀細分為特定數(shù)目的區(qū)域(S25)。這時可根據(jù)圖2中設(shè)置的劃分區(qū)域的數(shù)目劃分每一幀,即臨界頻帶。在此將結(jié)合把一幀劃分成三個區(qū)域的實例進行描述。盡管如此,可以容易理解的是本發(fā)明也可應(yīng)用于把每一幀劃分為其他數(shù)目區(qū)域的情況。
首先,語音信號處理設(shè)備的信號閾值計算部分170和噪聲閾值計算部分160考慮在輸入信號的第一特定數(shù)目幀期間不包含語音信號的無聲片段,并且對于考慮為無聲片段的幀的第一特定數(shù)目而計算的每一區(qū)域,計算對數(shù)能量的初始平均值和初始標(biāo)準(zhǔn)差(S27)。如數(shù)學(xué)表達式1所示,信號閾值計算部分170通過使用對幀的特定數(shù)目算出的每一區(qū)域的對數(shù)能量的初始平均值和初始標(biāo)準(zhǔn)差,計算在無聲片段之后輸入的幀的每一區(qū)域的初始語音閾值。如數(shù)學(xué)表達式2所示,噪聲閾值計算部分160通過使用對幀的特定數(shù)目算出的每一區(qū)域的對數(shù)能量的初始平均值和初始標(biāo)準(zhǔn)差,計算在無聲片段之后輸入的幀的每一區(qū)域的初始噪聲閾值(S29)。
(數(shù)學(xué)表達式1)Ts1=μn1+αs1*δn1Ts2=μn2+αs2*δn2Tsk=μnk+αsk*δnk其中μ是平均值,δ是標(biāo)準(zhǔn)差的值,α是滯后值,而k是幀劃分區(qū)域的數(shù)目。
(數(shù)學(xué)表達式2)Tn1=μn1+βn1*δn1Tn2=μn2+βn2*δn2Tnk=μnk+βnk*δnk其中μ是平均值,δ是標(biāo)準(zhǔn)差的值,β是滯后值,而k是幀劃分區(qū)域的數(shù)目。
滯后值α和β由實驗確定,并且存儲在存儲器部分120內(nèi)。在本發(fā)明實例中,k等于3。
在移動終端等開機之后,存在至少持續(xù)100ms的無聲持續(xù)時間的趨勢,隨后就有語音輸入。如果在語音信號處理內(nèi)使用的幀是20ms,那么100ms的幀將被劃分為四至五個幀片段。因此,用于計算初始平均值和初始標(biāo)準(zhǔn)差的幀的第一特定數(shù)目可以是,例如,4或5。
例如,如果考慮為無聲片段的幀的數(shù)目是4,那么臨界頻帶劃分部分130把在四個幀(即第一至第四個幀)之后輸入的每個幀細分為三個區(qū)域。
其后,片段鑒別部分150按區(qū)域為每一幀計算對數(shù)能量。在第五次幀輸入的情況下(第五幀),片段鑒別部分150為第五幀的第一區(qū)域計算對數(shù)能量E1、為第五幀的第二區(qū)域計算對數(shù)能量E2,并且為第五幀的第三區(qū)域計算對數(shù)能量E3。
圖4是根據(jù)本發(fā)明示出了用于語音片段檢測的幀結(jié)構(gòu)的視圖。
片段鑒別部分150通過使用數(shù)學(xué)表達式3鑒別每一幀是語音片段還是噪聲片段。
(數(shù)學(xué)表達式3)IF(E1>Ts1OR E2>Ts2OR E3>Ts3)VOICE_ACTIVITY=語音片段ELSE IF(E1<Tn1OR E2<Tn2OR E3<Tn3)VOICE_ACTIVITY=噪聲片段ELSE VOICE_ACTIVITY=VOICE_ACTIVITY之前,其中E是對數(shù)能量,Ts是信號閾值,而Tn是噪聲閾值。
換句話說,片段鑒別部分150比較第五幀的每一區(qū)域的對數(shù)能量與其每一區(qū)域中的信號閾值Ts1和噪聲閾值Tn1。如果至少存在一個對數(shù)能量大于信號閾值的區(qū)域,那么片段鑒別部分150就確定第五幀是語音片段,并將其設(shè)置為語音片段。如果沒有對數(shù)能量大于語音閾值的區(qū)域,但是存在一個或多個對數(shù)能量小于噪聲閾值的區(qū)域,那么片段鑒別部分150就確定第五幀是噪聲片段,并將其設(shè)置為噪聲片段(S31)。
由此,當(dāng)完成對當(dāng)前幀(第五幀)是噪聲片段還是語音片段的鑒別時,信號處理部分110就可通過輸出部分140輸出當(dāng)前幀(S33)。
其后,如果當(dāng)前幀不是最后的幀(S35),那么信號處理部分110控制信號閾值計算部分170或噪聲閾值計算部分160從而可以更新信號閾值或噪聲閾值。
換句話說,在把當(dāng)前幀鑒別為語音片段的情況中(S37),信號閾值計算部分170在信號處理部分110的控制下使用如數(shù)學(xué)表達式4示出的方法重新計算每一區(qū)域的語音對數(shù)能量的平均值和標(biāo)準(zhǔn)差,并且使算出的語音對數(shù)能量的平均值和標(biāo)準(zhǔn)差適用于數(shù)學(xué)表達式1,從而為每一區(qū)域更新信號閾值(S39)。這時不更新噪聲閾值。
(數(shù)學(xué)表達式4)μs1(t)=γ*μs1(t-1)+(1-γ)*E1[E12]mean(t)=γ*[E12]mean(t-1)+(1-γ)*E12δs1(t)=root([E12]mean(t)-[μs1(t)]2)μs2(t)=γ*μs2(t-1)+(1-γ)*E2[E22]mean(t)=γ*[E22]mean(t-1)+(1-γ)*E22δs2(t)=root([E22]mean(t)-[μs2(t)]2)μs3(t)=γ*μs3(t-1)+(1-γ)*E3[E32]mean(t)=γ*[E32]mean(t-1)+(1-γ)*E32δs3(t)=root([E32]mean(t)-[μs3(t)]2)其中μ是語音對數(shù)能量的平均值,δ是標(biāo)準(zhǔn)差的值,t是幀時間的值,γ是作為實驗值的權(quán)值,而E1、E2和E3是相應(yīng)區(qū)域內(nèi)的語音對數(shù)能量值。
在鑒別當(dāng)前幀作為噪聲片段的情況中(S41),信號閾值計算部分170在信號處理部分110的控制下通過如數(shù)學(xué)表達式5所示的方法,為每一區(qū)域重新計算噪聲對數(shù)能量的平均值和標(biāo)準(zhǔn)差,并且使算出的噪聲對數(shù)能量的平均值和標(biāo)準(zhǔn)差適用于數(shù)學(xué)表達式2,從而為每一區(qū)域更新了信號閾值(S43)。
(數(shù)學(xué)表達式5)
μn2(t)=γ*μn2(t-1)+(1-γ)*E2[E22]mean(t)=γ*[E22]mean(t-1)+(1-γ)*E22δn2(t)=root([E22]mean(t)-[μn2(t)]2)μn3(t)=γ*μn3(t-1)+(1-γ)*E3[E32]mean(t)=γ*[E32]mean(t-1)+(1-γ)*E32δn3(t)=root([E32]mean(t)-[μn3(t)]2)其中μ是噪聲對數(shù)能量的平均值,δ是標(biāo)準(zhǔn)差的值,t是幀時間的值,γ是作為實驗值的權(quán)值,而E1、E2和E3是相應(yīng)區(qū)域內(nèi)噪聲對數(shù)能量值。
在數(shù)學(xué)表達式4和數(shù)學(xué)表達式5中,γ可以具有諸如0.95的值,并且存儲在存儲器部分120內(nèi)。在數(shù)學(xué)表達式4和數(shù)學(xué)表達式5中,使用遞歸的方法計算每一區(qū)域?qū)?shù)能量的平均值從而能夠算出自適應(yīng)于輸入信號的相應(yīng)閾值,并且通過遞歸方法對平均值的計算也有利于語音片段處理器的實時處理。
盡管如此,在步驟S31中,參見相應(yīng)幀每一區(qū)域的對數(shù)能量與每一區(qū)域信號閾值Ts1和噪聲閾值Ts1間的比較結(jié)果,如果不存在對數(shù)能量大于信號閾值的區(qū)域,并且也不存在對數(shù)能量小于噪聲閾值的區(qū)域,那么片段鑒別部分150就把前一幀鑒別出的片段應(yīng)用于相應(yīng)的幀(S45)。
換句話說,如果前一幀是語音片段,那么片段鑒別部分150就確定相應(yīng)幀(當(dāng)前幀)是語音片段,如果前一幀是噪聲片段,那么片段鑒別部分150就確定相應(yīng)幀是噪聲片段。
一旦鑒別出相應(yīng)幀(當(dāng)前幀)的片段類型,信號處理部分110就行進到步驟S35。
如上所述,本發(fā)明通過為檢測來自噪聲環(huán)境內(nèi)輸入信號輸入的語音片段而使用的快速實時處理,僅使用較小計算(操作)量就能夠精確檢測語音片段。
同時,下面將要描述根據(jù)本發(fā)明用于檢測語音信號處理設(shè)備的語音片段的典型裝置的另一個配置實例。
根據(jù)本發(fā)明用于檢測語音信號處理設(shè)備的語音片段的裝置包括用于接收指示語音片段檢測的用戶控制命令的用戶界面部分;用于根據(jù)所述用戶控制命令接收輸入信號的輸入部分;以及處理器,它用于依據(jù)臨界頻帶的幀使輸入信號格式化、根據(jù)噪聲的頻率特性將每個幀的臨界頻帶劃分成預(yù)定數(shù)目的區(qū)域、自適應(yīng)地按區(qū)域計算信號閾值以及噪聲閾值、自適應(yīng)地比較每一區(qū)域?qū)?shù)能量與每一區(qū)域信號閾值和噪聲閾值,并且根據(jù)比較的結(jié)果鑒別每一幀的語音片段是語音片段還是噪聲片段。
用于檢測語音片段的所述裝置還包括用于輸出已檢測語音片段的輸出部分;以及用于存儲語音片段檢測操作要求的程序和數(shù)據(jù)的存儲器部分。
能夠按參考圖2和圖3解釋的操作相同的(等效的或相似的)方法來執(zhí)行根據(jù)本發(fā)明配置的用于檢測語音信號處理設(shè)備的語音片段的裝置的操作。
如上所述,本發(fā)明可以僅使用較小的操作量而實時檢測從噪聲環(huán)境內(nèi)輸入信號輸入的語音片段。
本發(fā)明甚至可以在噪聲環(huán)境中精確檢測語音片段,因為它根據(jù)噪聲的頻率特性將臨界頻帶細分為預(yù)定數(shù)目的區(qū)域,并且檢測每一區(qū)域的語音片段。
本發(fā)明還可以通過根據(jù)噪聲環(huán)境區(qū)分臨界頻帶的多個劃分區(qū)域而根據(jù)噪聲的頻率特性更精確地檢測語音片段。
上述實施例和優(yōu)點僅是示意性的,并且不應(yīng)被解釋為對本發(fā)明的限制?,F(xiàn)有的教程也可方便地應(yīng)用于其他類型的裝置。本發(fā)明的描述旨在說明,并非限制權(quán)利要求的范圍。更多的可選、修改和變化對本領(lǐng)域普通技術(shù)人員來說都是顯而易見的。在權(quán)利要求中,方法加功能的條款旨在覆蓋在此描述的執(zhí)行所述功能的結(jié)構(gòu),并且不但覆蓋結(jié)構(gòu)性的等效物,也覆蓋等效的結(jié)構(gòu)。
權(quán)利要求
1.一種用于檢測語音信號的語音片段的裝置,所述裝置包括用于接收輸入信號的輸入部分;用于控制語音片段檢測的全部操作的信號處理部分;用于在信號處理部分的控制下根據(jù)噪聲的頻率特性將所述輸入信號的臨界頻帶分成特定數(shù)目區(qū)域的臨界頻帶劃分部分;用于在信號處理部分的控制下通過劃分的區(qū)域計算自適應(yīng)信號閾值的信號閾值計算部分;用于在信號處理部分的控制下通過劃分的區(qū)域計算自適應(yīng)噪聲閾值的噪聲閾值計算部分;以及用于根據(jù)所述輸入信號每一區(qū)域的對數(shù)能量鑒別當(dāng)前幀是噪聲片段還是語音片段的片段鑒別部分。
2.如權(quán)利要求1所述的裝置,其特征在于,還包括用于輸入指示語音片段檢測的控制信號的用戶界面部分;用于輸出檢測到的語音片段的輸出部分;以及用于存儲語音片段檢測操作所需程序和數(shù)據(jù)的存儲器部分。
3.如權(quán)利要求1所述的裝置,其特征在于,如果噪聲的頻率特性涉及車輛噪聲,那么將所述臨界頻帶劃分成的區(qū)域數(shù)目就是2。
4.如權(quán)利要求1所述的裝置,其特征在于,如果噪聲的頻率特性涉及步行時產(chǎn)生的外圍噪聲,那么將所述臨界頻帶劃分成的區(qū)域數(shù)目就是3或4。
5.如權(quán)利要求1所述的裝置,其特征在于,所述臨界頻帶劃分部分根據(jù)噪聲環(huán)境的類型將所述臨界頻帶分成不同數(shù)目的區(qū)域。
6.如權(quán)利要求1所述的裝置,其特征在于,所述信號處理部分檢查如果請求語音片段檢查,用戶請求是否要設(shè)置臨界頻帶劃分成的區(qū)域數(shù)目,并且根據(jù)用戶所選的噪聲環(huán)境類型設(shè)置聲臨界頻帶劃分成的區(qū)域數(shù)目。
7.如權(quán)利要求1所述的裝置,其特征在于,信號處理部分為了初始階段特定幀輸入數(shù)目而控制按區(qū)域計算能量對數(shù)的初始平均值和初始標(biāo)準(zhǔn)差的操作。
8.如權(quán)利要求7所述的裝置,其特征在于,初始階段幀輸入的數(shù)目是4或5。
9.如權(quán)利要求1所述的裝置,其特征在于,當(dāng)由片段鑒別部分鑒別出相應(yīng)幀是語音片段時,所述信號閾值計算部分為該幀的每一部分計算所述語音對數(shù)能量的平均值和標(biāo)準(zhǔn)差,并且通過使用算出的平均值和標(biāo)準(zhǔn)差來更新所述信號閾值。
10.如權(quán)利要求9所述的裝置,其特征在于,由以下數(shù)學(xué)表達式按區(qū)域更新信號閾值Tsk=μsk+αsk*δsk其中μ是所述幀第k個區(qū)域的語音對數(shù)能量的平均值,δ是所述幀第k個區(qū)域的語音對數(shù)能量的標(biāo)準(zhǔn)差的值,α是滯后值,Tsk是信號閾值,而k的最大值是所述幀劃分區(qū)域的數(shù)目。
11.如權(quán)利要求9所述的裝置,其特征在于,由如下數(shù)學(xué)表達式算出所述平均值和標(biāo)準(zhǔn)差的值μsk(t)=γ*μsk(t-1)+(1-γ)*Ek[Ek2]mean(t)=γ*[Ek2]mean(t-1)+(1-γ)*Ek2]]>δsk(t)=root([Ek2]mean(t)-[μsk(t)]2)]]>其中μsk(t-1)是前一幀第k個區(qū)域的語音對數(shù)能量的平均值,Ek是所述幀(當(dāng)前幀)第k個區(qū)域的語音對數(shù)能量,δsk(t)是所述幀第k個區(qū)域的語音對數(shù)能量的標(biāo)準(zhǔn)差的值,γ是加權(quán)值,而k的最大值是所述幀劃分區(qū)域的數(shù)目。
12.如權(quán)利要求1所述的裝置,其特征在于,當(dāng)由片段鑒別部分鑒別出相應(yīng)幀是噪聲片段時,所述信號閾值計算部分為該幀的每一部分計算所述噪聲對數(shù)能量的平均值和標(biāo)準(zhǔn)差,并且通過使用算出的平均值和標(biāo)準(zhǔn)差來更新所述信號閾值。
13.如權(quán)利要求12所述的裝置,其特征在于,由以下數(shù)學(xué)表達式按區(qū)域算出噪聲閾值Tnk=μnk+βnk*δnk其中μ是所述幀第k個區(qū)域的噪聲對數(shù)能量的平均值,δ是所述幀第k個區(qū)域的噪聲對數(shù)能量的標(biāo)準(zhǔn)差的值,βnk是所述幀第k個區(qū)域的滯后值,Tnk是噪聲閾值,而k的最大值是所述幀劃分區(qū)域的數(shù)目。
14.如權(quán)利要求12所述的裝置,其特征在于,由如下數(shù)學(xué)表達式算出所述平均值和標(biāo)準(zhǔn)差的值μnk(t)=γ*μnk(t-1)+(1-γ)*Ek[Ek2]mean(t)=γ*[Ek2]mean(t-1)+(1-γ)*Ek2]]>δnk(t)=root([Ek2]mean(t)-[μnk(t)]2)]]>其中μnk(t-1)是前一幀第k個區(qū)域的噪聲對數(shù)能量的平均值,Ek是所述幀(當(dāng)前幀)第k個區(qū)域的噪聲對數(shù)能量,δnk(t)是所述幀第k個區(qū)域的噪聲對數(shù)能量的標(biāo)準(zhǔn)差的值,γ是加權(quán)值,而k的最大值是所述幀劃分區(qū)域的數(shù)目。
15.如權(quán)利要求1所述的裝置,其特征在于,片段鑒別部分為所述輸入信號的所述幀的每一區(qū)域計算對數(shù)能量,并且如果存在至少一個具有的對數(shù)能量大于信號閾值的區(qū)域,就將該幀鑒別為語音片段。
16.如權(quán)利要求1所述的裝置,其特征在于,片段鑒別部分為述輸入信號的所述幀的每一區(qū)域計算對數(shù)能量,并且如果不存在具有的對數(shù)能量大于信號閾值的區(qū)域但是存在至少一個具有的對數(shù)能量小于噪聲閾值的區(qū)域,就將該幀鑒別為噪聲片段。
17.如權(quán)利要求1所述的裝置,其特征在于,片段鑒別部分為述輸入信號的所述幀的每一區(qū)域計算對數(shù)能量,并且在不存在具有的對數(shù)能量大于信號閾值的區(qū)域并且不存在具有的對數(shù)能量小于噪聲閾值的區(qū)域的情況下,對于所述幀應(yīng)用前一幀鑒別出的片段。
18.如權(quán)利要求1所述的裝置,其特征在于,所述片段鑒別部分通過如下表達式鑒別幀的片段IF(E1>Ts1OR E2>Ts2OR Ek>Tsk),那么鑒別所述幀為語音片段ELSE IF(E1<Tn1OR E2<Tn2OR Ek<Tnk),那么鑒別所述幀為噪聲片段ELSE,鑒別所述片段被前一幀所鑒別出的片段其中E是每一區(qū)域的對數(shù)能量,Ts是用于每一區(qū)域的信號閾值,Tn是用于每一區(qū)域的噪聲閾值,而k是所述幀劃分區(qū)域的數(shù)目。
19.一種用于檢測語音信號的語音片段的裝置,所述裝置包括用于接收指示語音片段檢測的用戶控制命令的用戶界面部分;用于根據(jù)所述用戶控制命令接收輸入信號的輸入部分;以及處理器,它用于通過所述臨界頻帶的幀使輸入信號格式化、根據(jù)噪聲的頻率特性將每個幀的臨界頻帶劃分成預(yù)定數(shù)目的區(qū)域、自適應(yīng)地按區(qū)域計算信號閾值以及噪聲閾值、自適應(yīng)地比較每一區(qū)域的對數(shù)能量與每一區(qū)域信號閾值和噪聲閾值,并且根據(jù)比較結(jié)果鑒別每一幀的語音片段是語音片段還是噪聲片段。
20.如權(quán)利要求19所述的裝置,其特征在于,所述處理器檢查在接收到用戶控制命令時是否需要對所述幀劃分區(qū)域的數(shù)目進行設(shè)置,并且根據(jù)用戶所選的噪聲環(huán)境類型設(shè)置所述臨界頻帶劃分成的區(qū)域數(shù)目。
21.如權(quán)利要求19所述的裝置,其特征在于,所述處理器為了初始階段幀輸入的預(yù)定數(shù)目而計算用于每一區(qū)域的對數(shù)能量的初始平均值和初始標(biāo)準(zhǔn)差,并且通過使用所述初始平均值和初始標(biāo)準(zhǔn)差計算初始信號閾值和初始噪聲閾值。
22.如權(quán)利要求19所述的裝置,其特征在于,所述處理器通過如下表達式鑒別當(dāng)前幀是語音片段還是噪聲片段IF(E1>Ts1OR E2>Ts2OR Ek>Tsk),那么鑒別所述幀為語音片段ELSE IF(E1<Tn1OR E2<Tn2OR Ek<Tnk),那么鑒別所述幀為噪聲片段ELSE,鑒別所述片段為前一幀所鑒別出的片段其中E是每一區(qū)域的對數(shù)能量,Ts是用于每一區(qū)域的信號閾值,Tn是用于每一區(qū)域的噪聲閾值,而k是所述幀劃分區(qū)域的數(shù)目。
23.如權(quán)利要求22所述的裝置,其特征在于,當(dāng)鑒別所述幀為語音片段時,所述處理器為該幀的每一區(qū)域計算所述語音對數(shù)能量的平均值和標(biāo)準(zhǔn)差,并且通過使用算出的平均值和標(biāo)準(zhǔn)差來更新所述信號閾值。
24.如權(quán)利要求22所述的裝置,其特征在于,當(dāng)鑒別所述幀為噪聲片段時,所述處理器為該幀的每一區(qū)域計算所述噪聲對數(shù)能量的平均值和標(biāo)準(zhǔn)差,并且通過使用算出的平均值和標(biāo)準(zhǔn)差來更新所述噪聲閾值。
25.一種檢測語音信號的語音片段的方法,所述方法包括根據(jù)噪聲的頻率特性將輸入信號的臨界頻帶劃分成預(yù)定數(shù)目的區(qū)域;比較按區(qū)域不同地設(shè)置的自適應(yīng)閾值與按區(qū)域計算的對數(shù)能量;以及確定輸入信號是否是語音片段。
26.如權(quán)利要求25所述的方法,其特征在于,還包括通過使用按區(qū)域計算出的所述對數(shù)能量的平均值和標(biāo)準(zhǔn)差以及根據(jù)確定結(jié)果來更新自適應(yīng)閾值的步驟。
27.如權(quán)利要求26所述的方法,其特征在于,所述自適應(yīng)閾值包括自適應(yīng)信號閾值和自適應(yīng)噪聲閾值。
28.如權(quán)利要求27所述的方法,其特征在于,當(dāng)確定輸入信號是語音片段時,處理器通過使用按區(qū)域算出的所述對數(shù)能量的平均值和標(biāo)準(zhǔn)差來更新所述自適應(yīng)信號閾值。
29.如權(quán)利要求28所述的方法,其特征在于,當(dāng)確定輸入信號是噪聲片段時,處理器通過使用按區(qū)域算出的所述對數(shù)能量的平均值和標(biāo)準(zhǔn)差來更新所述自適應(yīng)噪聲閾值。
30.如權(quán)利要求25所述的方法,其特征在于,還包括如下步驟為了初始階段輸入的幀的預(yù)定數(shù)目而計算用于每一區(qū)域?qū)?shù)能量的初始平均值和初始標(biāo)準(zhǔn)差;以及通過使用所述初始平均值和初始標(biāo)準(zhǔn)差為每一區(qū)域設(shè)置初始閾值。
31.一種用于檢測語音信號的語音片段的方法,所述方法包括按臨界頻帶的幀使所述輸入信號格式化;根據(jù)噪聲的頻率特性將當(dāng)前幀劃分成預(yù)定數(shù)目的區(qū)域;比較按當(dāng)前幀區(qū)域設(shè)置的信號閾值和噪聲閾值以及按區(qū)域算出的對數(shù)能量;確定當(dāng)前幀是否是語音片段;以及通過使用每個區(qū)域的對數(shù)能量選擇性地更新所述信號閾值和噪聲閾值。
32.如權(quán)利要求31所述的方法,其特征在于,所述方法還包括如下步驟通過使用為了在初始階段輸入的幀的預(yù)定數(shù)目按區(qū)域算出的對數(shù)能量的初始平均值和初始標(biāo)準(zhǔn)差,為每一區(qū)域設(shè)置初始信號閾值和初始噪聲閾值。
33.如權(quán)利要求32所述的方法,其特征在于,幀的預(yù)定數(shù)目是3或4。
34.如權(quán)利要求31所述的方法,其特征在于,如果噪聲的頻率特性是車輛噪聲的頻率特性,那么所述臨界頻帶的幀劃分成的區(qū)域數(shù)目就是2。
35.如權(quán)利要求31所述的方法,其特征在于,如果噪聲的頻率特性是步行時產(chǎn)生外圍噪聲的頻率特性,那么所述臨界頻帶的幀劃分成的區(qū)域數(shù)目就是3或4。
36.如權(quán)利要求31所述的方法,其特征在于,根據(jù)用戶輸入的噪聲環(huán)境類型設(shè)置由臨界頻帶的幀劃分成的區(qū)域數(shù)目。
37.如權(quán)利要求31所述的方法,其特征在于,如果存在至少一個其對數(shù)能量大于信號閾值的區(qū)域,那么片段鑒別部分就將所述幀鑒別為語音片段。
38.如權(quán)利要求31所述的方法,其特征在于,如果不存在其對數(shù)能量大于信號閾值的區(qū)域但是存在至少一個其對數(shù)能量小于噪聲閾值的區(qū)域,那么片段鑒別部分就將所述幀鑒別為噪聲片段。
39.如權(quán)利要求31所述的方法,其特征在于,如果不存在其對數(shù)能量大于信號閾值的區(qū)域并且不存在其對數(shù)能量小于噪聲閾值的區(qū)域,那么片段鑒別部分確定當(dāng)前幀的片段與前一幀的片段相同。
40.如權(quán)利要求31所述的方法,其特征在于,所述片段鑒別部分通過如下表達式鑒別當(dāng)前幀是語音片段還是噪聲片段IF(E1>Ts1OR E2>Ts2OR Ek>Tsk),那么鑒別所述幀為語音片段ELSE IF(E1<Tn1OR E2<Tn2OR Ek<Tnk),那么鑒別所述幀為噪聲片段ELSE鑒別所述片段為前一幀所鑒別出的片段其中E是每一區(qū)域的對數(shù)能量,Ts是用于每一區(qū)域的信號閾值,Tn是用于每一區(qū)域的噪聲閾值,而k是所述幀被劃分成的數(shù)目。
41.如權(quán)利要求31所述的方法,其特征在于,當(dāng)確定所述幀是語音片段時,所述信號閾值計算部分為該幀的每一部分計算所述語音對數(shù)能量的平均值和標(biāo)準(zhǔn)差,并且通過使用算出的平均值和標(biāo)準(zhǔn)差來更新所述信號閾值。
42.如權(quán)利要求41所述的方法,其特征在于,由以下數(shù)學(xué)表達式算出按區(qū)域更新的信號閾值Tsk=μsk+αsk*δsk其中μ是所述幀第k個區(qū)域的語音對數(shù)能量的平均值,δ是所述幀第k個區(qū)域的語音對數(shù)能量的標(biāo)準(zhǔn)差的值,α是滯后值,Tsk是信號閾值,而k的最大值是所述幀劃分區(qū)域的數(shù)目。
43.如權(quán)利要求41所述的方法,其特征在于,由如下數(shù)學(xué)表達式算出所述平均值和標(biāo)準(zhǔn)差的值μsk(t)=γ*μsk(t-1)+(1-γ)*Ek[Ek2]mean(t)=γ*[Ek2]mean(t-1)+(1-γ)*Ek2]]>δsk(t)=root([Ek2]mean(t)-[μsk(t)]2)]]>其中μsk(t-1)是前一幀第k個區(qū)域的語音對數(shù)能量的平均值,Ek是所述幀(當(dāng)前幀)第k個區(qū)域的語音對數(shù)能量,δsk(t)是所述幀第k個區(qū)域的語音對數(shù)能量的標(biāo)準(zhǔn)差的值,γ是加權(quán)值,而k的最大值是所述幀劃分區(qū)域的數(shù)目。
44.如權(quán)利要求31所述的方法,其特征在于,當(dāng)鑒別所述當(dāng)前幀為噪聲片段時,所述信號閾值計算部分為該幀的每一部分計算所述噪聲對數(shù)能量的平均值和標(biāo)準(zhǔn)差,并且通過使用算出的平均值和標(biāo)準(zhǔn)差來更新所述信號閾值。
45.如權(quán)利要求44所述的方法,其特征在于,由以下數(shù)學(xué)表達式算出按區(qū)域更新的信號閾值Tnk=μnk+βnk*δnk其中μ是所述幀第k個區(qū)域的噪聲對數(shù)能量的平均值,δ是所述幀第k個區(qū)域的噪聲對數(shù)能量的標(biāo)準(zhǔn)差的值,βnk是所述幀第k個區(qū)域的滯后值,Tnk是信號閾值,而k的最大值是所述幀劃分區(qū)域的數(shù)目。
46.如權(quán)利要求45所述的方法,其特征在于,由如下數(shù)學(xué)表達式算出所述平均值和標(biāo)準(zhǔn)差的值μnk(t)=γ*μnk(t-1)+(1-γ)*Ek[Ek2]mean(t)=γ*[Ek2]mean(t-1)+(1-γ)*Ek2]]>δnk(t)=root([Ek2]mean(t)-[μnk(t)]2)]]>其中μnk(t-1)是前一幀第k個區(qū)域的噪聲對數(shù)能量的平均值,Ek是所述幀(當(dāng)前幀)第k個區(qū)域的噪聲對數(shù)能量,δnk(t)是所述幀第k個區(qū)域的噪聲對數(shù)能量的標(biāo)準(zhǔn)差的值,γ是加權(quán)值,而k的最大值是所述幀劃分區(qū)域的數(shù)目。
全文摘要
一種用于檢測語音信號處理設(shè)備的語音片段的方法和裝置。根據(jù)噪聲的頻率特性將臨界頻帶劃分為特定數(shù)目的區(qū)域,按每一幀的區(qū)域設(shè)置自適應(yīng)信號閾值和自適應(yīng)噪聲閾值,并且通過比較按每一幀的區(qū)域算出的所述對數(shù)能量與按區(qū)域設(shè)置的信號閾值和噪聲閾值來確定每一幀是語音片段還是噪聲片段。這樣,即使在噪聲環(huán)境內(nèi)也可通過使用較小操作量而快速并精確地檢測語音片段。
文檔編號G10L11/00GK1805007SQ20051012679
公開日2006年7月19日 申請日期2005年11月21日 優(yōu)先權(quán)日2004年11月20日
發(fā)明者禹敬浩 申請人:Lg電子株式會社
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
萨迦县| 观塘区| 监利县| 永丰县| 瑞丽市| 鄂伦春自治旗| 昌邑市| 衡东县| 龙泉市| 太和县| 保亭| 旌德县| 盐山县| 宝清县| 濮阳市| 达拉特旗| 嘉义市| 德兴市| 高清| 赣州市| 吉木萨尔县| 柳林县| 霸州市| 怀安县| 富顺县| 康平县| 昆山市| 中江县| 陕西省| 沅江市| 夏津县| 金秀| 泰宁县| 宁河县| 东方市| 奈曼旗| 洞口县| 恭城| 泸溪县| 尚志市| 黎平县|