两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

生成音頻模型的方法、設備和檢測場景類別的方法、設備的制作方法

文檔序號:2823828閱讀:316來源:國知局
專利名稱:生成音頻模型的方法、設備和檢測場景類別的方法、設備的制作方法
技術領域
本發(fā)明涉及音頻識別技術,更具體地,涉及生成場景音頻模型的方法和設備,以及檢測音頻所源于的場景的類別的方法和設備。
背景技術
音頻識別技術允許從采集自特定場景的音頻信號中識別指示場景類別的信息。例如對于采集自海灘的音頻信號,從中識別出該音頻信號是采集自海灘的。音頻識別技術通常涉及兩個階段的處理。一個階段是訓練階段,另一個階段是檢測階段。在訓練階段,采集包含源于特定場景的音頻信號并且標記上相應的場景信息,從而獲得訓練樣本集。從訓練樣本集的每個樣本中提取出特征,從而獲得特征集。采用例如混合高斯模型、隱馬爾科夫模型等等的建模方法對特征集進行建模,從而得到場景音頻模型。在檢測階段,從作為檢測對象的音頻信號中提取特征,并且用通過訓練得到的場景音頻模型確定音頻信號是否采集自相應類別的場景。采集自場景的音頻信號會包含干擾噪聲。干擾噪聲會對訓練和檢測帶來不利的影響。為了弱化干擾噪聲的影響,通常增加訓練樣本的數(shù)量。這增大了訓練的成本。另一個措施是通過譜減法來進行音頻增強。例如在MBerouti的“Enhancement of Speech Corrupted by Acoustic Noise”,[C], ICASSP,19791208-211中提出了一種譜減法來進行音頻增強,以處理寬帶噪聲,其中采用調(diào)節(jié)噪聲功率譜大小的系數(shù)和增強語音功率譜的最小值的限制, 從而提高了譜減法的性能。但其修正系數(shù)和最小值根據(jù)經(jīng)驗確定,適應性較差。譜減法雖然在一定程度上能出去除部分的干擾噪聲,但是也會同時去除一些有用的譜特征。因此,也會對場景音頻模型的訓練帶來一些負面的影響。

發(fā)明內(nèi)容
本發(fā)明的一個實施例是一種生成場景音頻模型的設備,包括幅度譜計算裝置,針對同一類別的場景音頻的多個樣本中的每個樣本,計算所述樣本的每個分段的每個幀的幅度譜,其中所述每個幀的幅度譜包括各個頻率區(qū)間的幅度譜;突變識別裝置,在每個幀的幅度譜中識別滿足下述條件的一對頻率區(qū)間所述一對頻率區(qū)間的幅度譜之差超過預定程度,并且不存在幅度譜介于所述一對頻率區(qū)間的幅度譜之間的頻率區(qū)間;噪聲估計裝置,通過將每個幀的幅度譜中幅度譜小于所識別的一對頻率區(qū)間的幅度譜中的較大幅度譜的頻率區(qū)間的音頻信號識別為噪聲,估計在每個頻率區(qū)間上所述樣本的每個分段的噪聲功率; 濾波裝置,通過譜減法把所估計的噪聲功率從相應分段的相應頻率區(qū)間的幅度譜中去除; 特征提取裝置,從經(jīng)過所述濾波裝置處理的所述幅度譜中提取音頻特征;和訓練裝置,根據(jù)所提取的音頻特征訓練出場景音頻模型。本發(fā)明的一個實施例是一種生成場景音頻模型的方法,包括針對同一類別的場景音頻的多個樣本中的每個樣本,計算所述樣本的每個分段的每個幀的幅度譜,其中所述每個幀的幅度譜包括各個頻率區(qū)間的幅度譜;在每個幀的幅度譜中識別滿足下述條件的一對頻率區(qū)間所述一對頻率區(qū)間的幅度譜之差超過預定程度,并且不存在幅度譜介于所述一對頻率區(qū)間的幅度譜之間的頻率區(qū)間;通過將每個幀的幅度譜中幅度譜小于所識別的一對頻率區(qū)間的幅度譜中的較大幅度譜的頻率區(qū)間的音頻信號識別為噪聲,估計在每個頻率區(qū)間上所述樣本的每個分段的噪聲功率;通過譜減法把所估計的噪聲功率從相應分段的相應頻率區(qū)間的幅度譜中去除;從經(jīng)過所述濾波裝置處理的所述幅度譜中提取音頻特征;和根據(jù)所提取的音頻特征訓練出場景音頻模型。本發(fā)明的一個實施例是一種檢測音頻所源于的場景的類別的設備,包括幅度譜計算裝置,計算輸入音頻的每個分段的每個幀的幅度譜,其中所述每個幀的幅度譜包括各個頻率區(qū)間的幅度譜;突變識別裝置,在每個幀的幅度譜中識別滿足下述條件的一對頻率區(qū)間所述一對頻率區(qū)間的幅度譜之差超過預定程度,并且不存在幅度譜介于所述一對頻率區(qū)間的幅度譜之間的頻率區(qū)間;噪聲估計裝置,通過將每個幀的幅度譜中幅度譜小于所識別的一對頻率區(qū)間的幅度譜中的較大幅度譜的頻率區(qū)間的音頻信號識別為噪聲,估計在每個頻率區(qū)間上所述輸入音頻的每個分段的噪聲功率;濾波裝置,通過譜減法把所估計的噪聲功率從相應分段的相應頻率區(qū)間的幅度譜中去除;特征提取裝置,從經(jīng)過所述濾波裝置處理的所述幅度譜中提取音頻特征;和檢測裝置,利用場景音頻模型,根據(jù)所提取的音頻特征檢測所述輸入音頻所源于的場景的類別。本發(fā)明的一個實施例是一種檢測音頻所源于的場景的類別的方法,包括計算輸入音頻的每個分段的每個幀的幅度譜,其中所述每個幀的幅度譜包括各個頻率區(qū)間的幅度譜;在每個幀的幅度譜中識別滿足下述條件的一對頻率區(qū)間所述一對頻率區(qū)間的幅度譜之差超過預定程度,并且不存在幅度譜介于所述一對頻率區(qū)間的幅度譜之間的頻率區(qū)間; 通過將每個幀的幅度譜中幅度譜小于所識別的一對頻率區(qū)間的幅度譜中的較大幅度譜的頻率區(qū)間的音頻信號識別為噪聲,估計在每個頻率區(qū)間上所述輸入音頻的每個分段的噪聲功率;通過譜減法把所估計的噪聲功率從相應分段的相應頻率區(qū)間的幅度譜中去除;從經(jīng)過所述濾波裝置處理的所述幅度譜中提取音頻特征;和利用場景音頻模型,根據(jù)所提取的音頻特征檢測所述輸入音頻所源于的場景的類別。


參照下面結(jié)合附圖對本發(fā)明實施例的說明,會更加容易地理解本發(fā)明的以上和其它目的、特點和優(yōu)點。在附圖中,相同的或?qū)募夹g特征或部件將采用相同或?qū)母綀D標記來表示。在附圖中不必依照比例繪制出單元的尺寸和相對位置。圖1是示出根據(jù)本發(fā)明一個實施例的生成場景音頻模型的設備的示例性結(jié)構(gòu)的框圖。圖2是示出幅度譜計算裝置計算的幀的幅度譜的示例的示意圖。圖3是示出幅度譜計算裝置計算的分段的各個幀的幅度譜的示例的示意圖。圖4是示出在幀的幅度譜中尋找突變的方法的示例的示意圖。圖5是示出根據(jù)本發(fā)明一個實施例的生成場景音頻模型的方法的示例性過程的流程圖。圖6是示出根據(jù)本發(fā)明一個實施例的檢測音頻所源于的場景的類別的設備的示例性結(jié)構(gòu)的框圖。
圖7是示出根據(jù)本發(fā)明一個實施例的檢測音頻所源于的場景的類別的方法的示例性過程的流程圖。圖8是示出其中實現(xiàn)本發(fā)明的計算機的示例性結(jié)構(gòu)的框圖。
具體實施例方式本文中所用的術語,僅僅是為了描述特定的實施例,而不意圖限定本發(fā)明。本文中所用的單數(shù)形式的“一”和“該”,旨在也包括復數(shù)形式,除非上下文中明確地另行指出。還要知道,“包含”一詞在本說明書中使用時,說明存在所指出的特征、整體、步驟、操作、單元和/或組件,但是并不排除存在或增加一個或多個其它特征、整體、步驟、操作、單元和/或組件,以及/或者它們的組合。以下參照按照本發(fā)明實施例的方法、設備的流程圖和/或框圖描述本發(fā)明。應當注意,為了清楚的目的,附圖和說明中省略了與本發(fā)明無關的、本領域普通技術人員已知的部件和處理的表示和描述。流程圖和/或框圖的每個方框以及流程圖和/或框圖中各方框的組合,都可以由計算機程序指令實現(xiàn)。這些計算機程序指令可以提供給通用計算機、專用計算機或其它可編程數(shù)據(jù)處理裝置的處理器,從而生產(chǎn)出一種機器,使得通過計算機或其它可編程數(shù)據(jù)處理裝置執(zhí)行的這些指令,產(chǎn)生實現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的裝置。也可以把這些計算機程序指令存儲在能指令計算機或其它可編程數(shù)據(jù)處理裝置以特定方式工作的計算機可讀介質(zhì)中,這樣,存儲在計算機可讀介質(zhì)中的指令產(chǎn)生一個包括實現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的指令裝置(instruction means) 的制造品。也可以把計算機程序指令加載到計算機或其它可編程數(shù)據(jù)處理裝置上,使得在計算機或其它可編程數(shù)據(jù)處理裝置上執(zhí)行一系列操作步驟,以產(chǎn)生計算機實現(xiàn)的過程,從而在計算機或其它可編程裝置上執(zhí)行的指令就提供實現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的過程。應當明白,附圖中的流程圖和框圖,圖示了按照本發(fā)明各種實施例的系統(tǒng)、方法和計算機程序產(chǎn)品的可能實現(xiàn)的體系架構(gòu)、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程序段、或代碼的一部分,所述模塊、程序段、或代碼的一部分包含一個或多個用于實現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應當注意,在有些作為替換的實現(xiàn)中, 方框中所標注的功能也可以以不同于附圖中所標注的順序發(fā)生。例如,兩個接連地表示的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來實現(xiàn),或者可以用專用硬件與計算機指令的組合來實現(xiàn)。圖1是示出根據(jù)本發(fā)明一個實施例的生成場景音頻模型的設備100的示例性結(jié)構(gòu)的框圖,其中一個場景音頻模型用于檢測同一類別的特定場景。如圖1所示,設備100包括幅度譜計算裝置101、突變識別裝置102、噪聲估計裝置 103、濾波裝置104、特征提取裝置105和訓練裝置106。在開始訓練之前,從同一類別的特定場景采集多個音頻樣本(下文中簡稱為樣本)。幅度譜計算裝置101針對同一類別的場景音頻的多個樣本中的每個樣本,計算該樣本的每個分段的每個幀的幅度譜107,其中每個幀的幅度譜107包括各個頻率區(qū)間的幅度譜。樣本通常被采集為時域上的音頻流。幅度譜計算裝置101可以將樣本的音頻流劃分為具有相同時間間隔的音頻流片段(下文中簡稱為分段)。分段的時間間隔例如可以為 0. 5秒。進一步地,幅度譜計算裝置101可以將每個分段劃分為多個具有相同時間間隔的幀。幀的時間間隔例如可以為10到20毫秒。應當明白,上述分段和幀的具體時間間隔僅僅是示例??梢愿鶕?jù)訓練和檢測成本的限制、檢測性能的要求等因素來確定相適應的分段和幀時間間隔。幅度譜計算裝置101可以通過利用傅立葉變換將幀從時域變換到頻域來獲得幀的幅度譜107。進一步地,幅度譜計算裝置101可以將樣本的頻域劃分為多個寬度相同或不同的頻率區(qū)間。例如,假設樣本的頻域為0 8kHz,可以將該頻域劃分為512個寬度相同的頻率區(qū)間,每個頻率區(qū)間的寬度為16Hz。應當明白,上述頻率區(qū)間的具體劃分僅僅是示例。 可以根據(jù)場景音頻的頻域特性來確定頻率區(qū)間的劃分。相應地,幅度譜計算裝置101可以獲得表征頻率區(qū)間內(nèi)各頻率的幅度譜的概況的幅度譜,以作為該頻率區(qū)間的幅度譜。可以通過各種方式來獲得表征頻率區(qū)間內(nèi)各頻率的幅度譜的概況的幅度譜。例如,表征頻率區(qū)間內(nèi)各頻率的幅度譜的概況的幅度譜可以是頻率區(qū)間內(nèi)各頻率的幅度譜的均值、頻率區(qū)間內(nèi)最大幅度譜和最小幅度譜的中值、頻率區(qū)間內(nèi)最大幅度譜、最小幅度譜或頻率區(qū)間內(nèi)最大幅度譜和最小幅度譜之間的任意幅度譜,等等。圖2是示出幅度譜計算裝置101計算的幀的幅度譜的示例的示意圖。如圖2所示, 縱座標軸表示幅度譜,橫座標軸表示頻率區(qū)間。幀的幅度譜包括各個頻率區(qū)間1至η的相應幅度譜。圖3是示出幅度譜計算裝置101計算的分段的各個幀的幅度譜的示例的示意圖。 如圖3所示,對于每個頻率區(qū)間1至η,縱座標軸表示幅度譜,橫座標軸表示分段的各個幀。 不同頻率區(qū)間的相同橫座標位置的幅度譜構(gòu)成相應幀的幅度譜,例如粗線框內(nèi)的各個幅度譜構(gòu)成幀5的幅度譜。回到圖1,突變識別裝置102在每個幀的幅度譜中識別滿足下述條件的一對頻率區(qū)間這一對頻率區(qū)間的幅度譜之差超過預定程度,并且不存在幅度譜介于這一對頻率區(qū)間的幅度譜之間的頻率區(qū)間。上述條件也稱為突變條件。上述一對頻率區(qū)間的幅度譜從低到高的變化也稱為突變??梢酝ㄟ^各種方法來找到這樣的一對頻率區(qū)間。圖4是示出在幀的幅度譜中尋找突變的方法的示例的示意圖。如圖4所示,可以將幀的幅度譜中各個頻率區(qū)間的幅度譜從左至右按照從小到大的順序排序,其中頻率區(qū)間A的幅度譜最小,頻率區(qū)間B的幅度譜最大??梢栽u估在通過排序獲得的頻率區(qū)間的序列中各個相鄰頻率區(qū)間的幅度譜之差是否超過預定程度。如果超過預定程度,則將該相鄰頻率區(qū)間識別為滿足條件的一對頻率區(qū)間??梢愿鶕?jù)各種準則來確定一對頻率區(qū)間的幅度譜之差超過預定程度。例如,可以在一對頻率區(qū)間的幅度譜之差超過預定閾值的情況下,確定幅度譜之差超過預定程度。例如,可以在或一對頻率區(qū)間的幅度譜之差與幀的幅度譜中的最大幅度譜的比值超過預定閾值的情況下,確定幅度譜之差超過預定程度。在圖4所示的示例中,頻率區(qū)間xl和χ2的幅度譜之差超過預定程度,因而被識別為滿足條件的一對頻率區(qū)間。
回到圖1,噪聲估計裝置103通過將每個幀的幅度譜中幅度譜小于所識別的一對頻率區(qū)間(例如,圖4所示的頻率區(qū)間xl和x2)的幅度譜中的較大幅度譜(例如,圖4所示的頻率區(qū)間X2的幅度譜)的頻率區(qū)間(例如,圖4所示的頻率區(qū)間x2左邊的頻率區(qū)間) 的音頻信號識別為噪聲,估計在每個頻率區(qū)間上樣本的每個分段的噪聲功率。如上所述,噪聲估計裝置103能夠?qū)⒚總€幀的幅度譜中幅度譜小于所識別的一對頻率區(qū)間的幅度譜中的較大幅度譜的頻率區(qū)間的音頻信號識別為噪聲。因此,對于同一頻率區(qū)間,如果該頻率區(qū)間在一個幀的幅度譜中的幅度譜小于在該幀的幅度譜中識別的一對頻率區(qū)間的幅度譜中的較大幅度譜,則能夠確定這個幀中在該頻率區(qū)間上的噪聲功率。例如,在圖3所示的例子中,假設在幀5的幅度譜中,頻率區(qū)間3和2是所識別的一對頻率區(qū)間,頻率區(qū)間2的幅度譜是較大的幅度譜,并且頻率區(qū)間1的幅度譜小于頻率區(qū)間2的幅度譜,則能夠根據(jù)頻率區(qū)間1在幀5的幅度譜確定幀5中在頻率區(qū)間1上的噪聲功率。每個頻率區(qū)間上的噪聲通常具有在時域上保持基本穩(wěn)定的特性。在能夠確定相同頻率區(qū)間上分段的部分幀的噪聲功率的情況下,根據(jù)這樣的特性,能夠估計出整個分段中相同頻率區(qū)間上的噪聲功率。這允許通過譜減法把所估計的噪聲功率從相應分段的相應頻率區(qū)間的幅度譜,即該噪聲功率的估計所基于的分段的頻率區(qū)間的幅度譜中。可以通過各種方法來根據(jù)上述特性估計噪聲功率。例如,如果一個分段被劃分為 Nframe個幀,并且有Nbel。w個幀的頻率區(qū)間F的音頻信號被識別為噪聲,那么估計的噪聲可以
是 Abelow/Nbelow,其中 A
below 是這Ntel。w個幀的頻率區(qū)間F的幅度譜之和。濾波裝置104通過譜減法把所估計的噪聲功率從相應分段的相應頻率區(qū)間的幅度譜,即該噪聲功率的估計所基于的分段的頻率區(qū)間的幅度譜中去除。特征提取裝置105從經(jīng)過濾波裝置104處理的幅度譜中提取音頻特征。訓練裝置106根據(jù)所提取的音頻特征訓練出場景音頻模型。圖5是示出根據(jù)本發(fā)明一個實施例的生成場景音頻模型的方法500的示例性過程的流程圖,其中一個場景音頻模型用于檢測同一類別的特定場景。如圖5所示,方法500從步驟501開始。在步驟503,針對同一類別的場景音頻的多個樣本中的當前樣本,計算該樣本的當前分段的當前幀的幅度譜,其中幀的幅度譜包括各個頻率區(qū)間的幅度譜。樣本通常被采集為時域上的音頻流??梢詫颖镜囊纛l流劃分為具有相同時間間隔的分段。分段的時間間隔例如可以為0.5秒。進一步地,可以將每個分段劃分為多個具有相同時間間隔的幀。幀的時間間隔例如可以為10到20毫秒。應當明白,上述分段和幀的具體時間間隔僅僅是示例??梢愿鶕?jù)訓練和檢測成本的限制、檢測性能的要求等因素來確定相適應的分段和幀時間間隔??梢酝ㄟ^利用傅立葉變換將幀從時域變換到頻域來獲得幀的幅度譜。進一步地, 可以將樣本的頻域劃分為多個寬度相同或不同的頻率區(qū)間。例如,假設樣本的頻域為0 8kHz,可以將該頻域劃分為512個寬度相同的頻率區(qū)間,每個頻率區(qū)間的寬度為16Hz。應當明白,上述頻率區(qū)間的具體劃分僅僅是示例。可以根據(jù)場景音頻的頻域特性來確定頻率區(qū)間的劃分。相應地,可以獲得表征頻率區(qū)間內(nèi)各頻率的幅度譜的概況的幅度譜,以作為該頻率區(qū)間的幅度譜??梢酝ㄟ^各種方式來獲得表征頻率區(qū)間內(nèi)各頻率的幅度譜的概況的幅度譜。例如,表征頻率區(qū)間內(nèi)各頻率的幅度譜的概況的幅度譜可以是頻率區(qū)間內(nèi)各頻率的幅度譜的均值、頻率區(qū)間內(nèi)最大幅度譜和最小幅度譜的中值、頻率區(qū)間內(nèi)最大幅度譜、最小幅度譜或頻率區(qū)間內(nèi)最大幅度譜和最小幅度譜之間的任意幅度譜,等等。在步驟505,在當前幀的幅度譜中識別滿足下述條件的一對頻率區(qū)間這一對頻率區(qū)間的幅度譜之差超過預定程度,并且不存在幅度譜介于這一對頻率區(qū)間的幅度譜之間的頻率區(qū)間??梢愿鶕?jù)各種準則來確定一對頻率區(qū)間的幅度譜之差超過預定程度。例如,可以在一對頻率區(qū)間的幅度譜之差超過預定閾值的情況下,確定幅度譜之差超過預定程度。例如,可以在或一對頻率區(qū)間的幅度譜之差與幀的幅度譜中的最大幅度譜的比值超過預定閾值的情況下,確定幅度譜之差超過預定程度。在步驟507,確定是否計算了當前分段的所有幀的幅度譜。如果是,則方法500前進到步驟509,否則返回步驟503計算下一幀的幅度譜。在步驟509,通過將每個幀的幅度譜中幅度譜小于所識別的一對頻率區(qū)間的幅度譜中的較大幅度譜的頻率區(qū)間的音頻信號識別為噪聲,估計在每個頻率區(qū)間上樣本的當前分段的噪聲功率。如上所述,能夠?qū)⒚總€幀的幅度譜中幅度譜小于所識別的一對頻率區(qū)間的幅度譜中的較大幅度譜的頻率區(qū)間的音頻信號識別為噪聲。因此,對于同一頻率區(qū)間,如果該頻率區(qū)間在一個幀的幅度譜中的幅度譜小于在該幀的幅度譜中識別的一對頻率區(qū)間的幅度譜中的較大幅度譜,則能夠確定這個幀中在該頻率區(qū)間上的噪聲功率。每個頻率區(qū)間上的噪聲通常具有在時域上保持基本穩(wěn)定的特性。在能夠確定相同頻率區(qū)間上分段的部分幀的噪聲功率的情況下,根據(jù)這樣的特性,能夠估計出整個分段中相同頻率區(qū)間上的噪聲功率。這允許通過譜減法從分段中去除所估計的噪聲功率??梢酝ㄟ^各種方法來根據(jù)上述特性估計噪聲功率。例如,如果一個分段被劃分為 Nframe個幀,并且有Nbel。w個幀的頻率區(qū)間F的音頻信號被識別為噪聲,那么估計的噪聲可以
是 Abelow/Nbelow,其中 A
below 是這Ntel。w個幀的頻率區(qū)間F的幅度譜之和。在步驟511,通過譜減法把所估計的噪聲功率從相應分段的相應頻率區(qū)間的幅度譜,即該噪聲功率的估計所基于的分段的頻率區(qū)間的幅度譜中去除。在步驟513,確定是否對當前樣本的所有分段的幅度譜進行了濾波處理。如果是, 則方法500前進到步驟515,否則返回步驟503計算當前樣本的下一分段的各個幀的幅度
■i並曰O在步驟515,確定是否對所有樣本的幅度譜進行了濾波處理。如果是,則方法500 前進到步驟517,否則返回步驟503計算下一樣本的分段的幀的幅度譜。在步驟517,從經(jīng)過步驟511處理的幅度譜中提取音頻特征。在步驟519,根據(jù)所提取的音頻特征訓練出場景音頻模型。方法在步驟521結(jié)束。發(fā)明人通過觀察發(fā)現(xiàn),在噪聲與信號并存的情況下,信號加噪聲的幅度譜要比噪聲的幅度譜大很多。在本發(fā)明的上述和下面要描述的實施例中,通過找到幀的幅度譜中的突變并且將幅度譜低于突變后的幅度譜的頻率區(qū)間識別為噪聲信號主導的頻率區(qū)間,能夠更加準確地估計噪聲。相應地,經(jīng)過濾波的場景音頻能夠保留更加能夠表征場景音頻的譜特征。
因而,能夠去除干擾噪聲的影響,同時也能夠保留有用譜特征,從而保證模型訓練和檢測的高性能。在一個幀的幅度譜中,也可能識別不出滿足條件的一對頻率區(qū)間。在這樣的情況下,在結(jié)合圖1描述的設備和結(jié)合圖5描述的方法的進一步的實施例中,在噪聲估計裝置 103和步驟509的處理中,可以簡單地不將該幀的所有頻率區(qū)間的音頻信號估計為噪聲,也可以根據(jù)已知的譜減法來估計該幀的所有頻率區(qū)間上的噪聲功率。在一個幀的幅度譜中,也可能存在多對滿足突變條件的頻率區(qū)間。將幅度譜較低的突變涉及的頻率區(qū)間識別為一對頻率區(qū)間,會使得較少的頻率區(qū)間被識別為噪聲信號主導的(也就是說,較多的頻率區(qū)間被識別為音頻信號主導的)。將幅度譜較高的突變涉及的頻率區(qū)間識別為一對頻率區(qū)間,會使得較多的頻率區(qū)間被識別為噪聲信號主導的(也就是說,較少的頻率區(qū)間被識別為音頻信號主導的)。過多或過少的頻率區(qū)間被識別為噪聲信號主導的都不符合實際情況。在結(jié)合圖1描述的設備和結(jié)合圖5描述的方法的進一步的實施例中,在突變識別裝置102和步驟505的處理中,可以在存在滿足突變條件的多對頻率區(qū)間的情況下,選擇這樣的一對頻率區(qū)間在相應幀的幅度譜中,幅度譜小于該對頻率區(qū)間的幅度譜中的較大幅度譜的頻率區(qū)間的比例接近預定值。預定值可以根據(jù)經(jīng)驗來確定,也可以通過對場景音頻進行分析來獲得。在一個優(yōu)選實施例中,預定值可以是50 %至70 %的范圍內(nèi)的值,例如50%、60%或70%。在前面的實施例中,通過將分段的各幀的幅度譜中幅度譜小于滿足突變條件的一對頻率區(qū)間的幅度譜中的較大幅度譜的頻率區(qū)間識別為噪聲主導的。然而也可能存在即使識別出滿足突變條件的一對頻率區(qū)間,但幅度譜大于該對頻率區(qū)間的幅度譜中的較小幅度譜的頻率區(qū)間實際是噪聲主導的情形。在這樣的情況下,幅度譜大于該對頻率區(qū)間的幅度譜中的較小幅度譜的頻率區(qū)間的數(shù)目越多,則對噪聲功率的估計的誤差就越大。在結(jié)合圖1描述的設備和結(jié)合圖5描述的方法的進一步的實施例中,在噪聲估計裝置103和步驟 509的處理中,對于每個頻率區(qū)間,如果在每個分段的各個幀的幅度譜中,該頻率區(qū)間的幅度譜大于所識別的一對頻率區(qū)間的幅度譜中的較大幅度譜的次數(shù)較高,則隨著所述次數(shù)的增加,將該分段的噪聲功率估計得相對較低;如果在每個分段的各個幀的幅度譜中,該頻率區(qū)間的幅度譜大于所識別的一對頻率區(qū)間的幅度譜中的較大幅度譜的次數(shù)較低,則隨著所述次數(shù)的增加,將該分段的噪聲功率估計得相對較高。在一個分段的Nframe個幀中,通常認為如果同一頻率區(qū)間上音頻信號是居主導地位的,那么在Nftanre個幀的幅度譜中該頻率區(qū)間的幅度譜大于相應的所識別的一對頻率區(qū)間的幅度譜中的較大幅度譜的次數(shù)應在一個最低限之上。可以通過次數(shù)與Nftame的比值,或者次數(shù)與各個頻率區(qū)間的相應次數(shù)的最大值的比值是否超過一個閾值來確定是否在最低限之上。如果比值超過閾值,則確定次數(shù)較高,否則確定次數(shù)較低。如果確定次數(shù)較高,那么在相應頻率區(qū)間上音頻信號居主導地位的可能性就越高 (噪聲居主導地位的可能性就越低)。相應地,可以把該頻率區(qū)間上的噪聲功率估計得相對較低。估計得相對較低是指如果將該頻率區(qū)間上的噪聲功率估計為S,那么考慮到該頻率區(qū)間上音頻信號居主導地位的可能性更高,那么將噪聲功率估計S降低一個程度。次數(shù)越高, 那么該程度就越大。如果確定次數(shù)較低,那么在相應頻率區(qū)間上音頻信號居主導地位的可能性就越低(噪聲居主導地位的可能性就越高)。相應地,可以把該頻率區(qū)間上的噪聲功率估計得相對較低。估計得相對較低是指如果將該頻率區(qū)間上的噪聲功率估計為S,那么考慮到該頻率區(qū)間上噪聲信號居主導地位的可能性更高,那么將噪聲功率估計S增大一個程度。次數(shù)越高,那么該程度就越大。在一個進一步的實施例中,每個頻率區(qū)間η上每個樣本的每個分段的噪聲功率 NoiseAvgSpec[η]可以被估計為
‘ overAvgSpec
(η) > 0.9 · Max_NoverAvgSpec
NxNoiseA vgSpec[n]=-N frame(1 I NoverAvgSpec^n)) Max_NoverAvgSpec NxN frame(1 NoverAVgspec (η)) Max_NoverAvgSpec
’否則其中,Nx表示該分段的各個幀的幅度譜中幅度譜小于所識別的相應一對頻率區(qū)間的幅度譜中的較大幅度譜的頻率區(qū)間的幅度譜之和,NoverAvgSpec(n)表示該分段的各個幀的幅度譜中頻率區(qū)間η的幅度譜大于所識別的相應一對頻率區(qū)間的幅度譜中的較大幅度譜的次數(shù)之和,MAX_NoverAvgSpec表示各個頻率區(qū)間i針對該分段的N。VCTAvgSpe。⑴中的最大值。圖6是示出根據(jù)本發(fā)明一個實施例的檢測音頻所源于的場景的類別的設備600的示例性結(jié)構(gòu)的框圖。如圖6所示,設備600包括幅度譜計算裝置601、突變識別裝置602、噪聲估計裝置 603、濾波裝置604、特征提取裝置605和檢測裝置606。幅度譜計算裝置601計算輸入音頻的每個分段的每個幀的幅度譜107,其中每個幀的幅度譜107包括各個頻率區(qū)間的幅度譜。幅度譜計算裝置601可以將輸入音頻的音頻流劃分為具有相同時間間隔的分段。 分段的時間間隔例如可以為0. 5秒。進一步地,幅度譜計算裝置601可以將每個分段劃分為多個具有相同時間間隔的幀。幀的時間間隔例如可以為10到20毫秒。應當明白,上述分段和幀的具體時間間隔僅僅是示例??梢愿鶕?jù)訓練和檢測成本的限制、檢測性能的要求等因素來確定相適應的分段和幀時間間隔。幅度譜計算裝置601可以通過利用傅立葉變換將幀從時域變換到頻域來獲得幀的幅度譜107。進一步地,幅度譜計算裝置101可以將輸入音頻的頻域劃分為多個寬度相同或不同的頻率區(qū)間。例如,假設輸入音頻的頻域為0 8kHz,可以將該頻域劃分為512 個寬度相同的頻率區(qū)間,每個頻率區(qū)間的寬度為16Hz。應當明白,上述頻率區(qū)間的具體劃分僅僅是示例。可以根據(jù)場景音頻的頻域特性來確定頻率區(qū)間的劃分。相應地,幅度譜計算裝置601可以獲得表征頻率區(qū)間內(nèi)各頻率的幅度譜的概況的幅度譜,以作為該頻率區(qū)間的幅度譜。可以通過各種方式來獲得表征頻率區(qū)間內(nèi)各頻率的幅度譜的概況的幅度譜。例如,表征頻率區(qū)間內(nèi)各頻率的幅度譜的概況的幅度譜可以是頻率區(qū)間內(nèi)各頻率的幅度譜的均值、頻率區(qū)間內(nèi)最大幅度譜和最小幅度譜的中值、頻率區(qū)間內(nèi)最大幅度譜、最小幅度譜或頻率區(qū)間內(nèi)最大幅度譜和最小幅度譜之間的任意幅度譜,等等。突變識別裝置602在每個幀的幅度譜中識別滿足下述條件的一對頻率區(qū)間這一對頻率區(qū)間的幅度譜之差超過預定程度,并且不存在幅度譜介于這一對頻率區(qū)間的幅度譜之間的頻率區(qū)間。上述條件也稱為突變條件。上述一對頻率區(qū)間的幅度譜從低到高的變化也稱為突變??梢愿鶕?jù)各種準則來確定一對頻率區(qū)間的幅度譜之差超過預定程度。例如,可以在一對頻率區(qū)間的幅度譜之差超過預定閾值的情況下,確定幅度譜之差超過預定程度。例如,可以在或一對頻率區(qū)間的幅度譜之差與幀的幅度譜中的最大幅度譜的比值超過預定閾值的情況下,確定幅度譜之差超過預定程度。噪聲估計裝置603通過將每個幀的幅度譜中幅度譜小于所識別的一對頻率區(qū)間的幅度譜中的較大幅度譜的頻率區(qū)間的音頻信號識別為噪聲,估計在每個頻率區(qū)間上輸入音頻的每個分段的噪聲功率。如上所述,噪聲估計裝置603能夠?qū)⒚總€幀的幅度譜中幅度譜小于所識別的一對頻率區(qū)間的幅度譜中的較大幅度譜的頻率區(qū)間的音頻信號識別為噪聲。因此,對于同一頻率區(qū)間,如果該頻率區(qū)間在一個幀的幅度譜中的幅度譜小于在該幀的幅度譜中識別的一對頻率區(qū)間的幅度譜中的較大幅度譜,則能夠確定這個幀中在該頻率區(qū)間上的噪聲功率。每個頻率區(qū)間上的噪聲通常具有在時域上保持基本穩(wěn)定的特性。在能夠確定相同頻率區(qū)間上分段的部分幀的噪聲功率的情況下,根據(jù)這樣的特性,能夠估計出整個分段中相同頻率區(qū)間上的噪聲功率。這允許通過譜減法從分段中去除所估計的噪聲功率。可以通過各種方法來根據(jù)上述特性估計噪聲功率。例如,如果一個分段被劃分為 Nframe個幀,并且有Nbel。w個幀的頻率區(qū)間F的音頻信號被識別為噪聲,那么估計的噪聲可以是 Abelow/Nbelow,其中 A
below 是這Ntel。w個幀的頻率區(qū)間F的幅度譜之和。濾波裝置604通過譜減法把所估計的噪聲功率從相應分段的相應頻率區(qū)間的幅度譜,即該噪聲功率的估計所基于的分段的頻率區(qū)間的幅度譜中去除。特征提取裝置605從經(jīng)過濾波裝置604處理的幅度譜中提取音頻特征。檢測裝置606利用場景音頻模型,根據(jù)所提取的音頻特征檢測輸入音頻所源于的場景的類別。圖7是示出根據(jù)本發(fā)明一個實施例的檢測音頻所源于的場景的類別的方法的示例性過程的流程圖。如圖7所示,方法700從步驟701開始。在步驟703,計算輸入音頻的每個分段的每個幀的幅度譜,其中幀的幅度譜包括各個頻率區(qū)間的幅度譜??梢詫⑤斎胍纛l的音頻流劃分為具有相同時間間隔的分段。分段的時間間隔例如可以為0. 5秒。進一步地,可以將每個分段劃分為多個具有相同時間間隔的幀。幀的時間間隔例如可以為10到20毫秒。應當明白,上述分段和幀的具體時間間隔僅僅是示例。可以根據(jù)訓練和檢測成本的限制、檢測性能的要求等因素來確定相適應的分段和幀時間間隔。可以通過利用傅立葉變換將幀從時域變換到頻域來獲得幀的幅度譜。進一步地, 可以將輸入音頻的頻域劃分為多個寬度相同或不同的頻率區(qū)間。例如,假設輸入音頻的頻域為0 8kHz,可以將該頻域劃分為512個寬度相同的頻率區(qū)間,每個頻率區(qū)間的寬度為 16Hz。應當明白,上述頻率區(qū)間的具體劃分僅僅是示例。可以根據(jù)場景音頻的頻域特性來確定頻率區(qū)間的劃分。相應地,可以獲得表征頻率區(qū)間內(nèi)各頻率的幅度譜的概況的幅度譜, 以作為該頻率區(qū)間的幅度譜。可以通過各種方式來獲得表征頻率區(qū)間內(nèi)各頻率的幅度譜的概況的幅度譜。例如,表征頻率區(qū)間內(nèi)各頻率的幅度譜的概況的幅度譜可以是頻率區(qū)間內(nèi)各頻率的幅度譜的均值、頻率區(qū)間內(nèi)最大幅度譜和最小幅度譜的中值、頻率區(qū)間內(nèi)最大幅度譜、最小幅度譜或頻率區(qū)間內(nèi)最大幅度譜和最小幅度譜之間的任意幅度譜,等等。在步驟705,在當前幀的幅度譜中識別滿足下述條件的一對頻率區(qū)間這一對頻率區(qū)間的幅度譜之差超過預定程度,并且不存在幅度譜介于這一對頻率區(qū)間的幅度譜之間的頻率區(qū)間。可以根據(jù)各種準則來確定一對頻率區(qū)間的幅度譜之差超過預定程度。例如,可以在一對頻率區(qū)間的幅度譜之差超過預定閾值的情況下,確定幅度譜之差超過預定程度。例如,可以在或一對頻率區(qū)間的幅度譜之差與幀的幅度譜中的最大幅度譜的比值超過預定閾值的情況下,確定幅度譜之差超過預定程度。在步驟707,確定是否計算了當前分段的所有幀的幅度譜。如果是,則方法700前進到步驟709,否則返回步驟703計算下一幀的幅度譜。在步驟709,通過將每個幀的幅度譜中幅度譜小于所識別的一對頻率區(qū)間的幅度譜中的較大幅度譜的頻率區(qū)間的音頻信號識別為噪聲,估計在每個頻率區(qū)間上輸入音頻的當前分段的噪聲功率。如上所述,能夠?qū)⒚總€幀的幅度譜中幅度譜小于所識別的一對頻率區(qū)間的幅度譜中的較大幅度譜的頻率區(qū)間的音頻信號識別為噪聲。因此,對于同一頻率區(qū)間,如果該頻率區(qū)間在一個幀的幅度譜中的幅度譜小于在該幀的幅度譜中識別的一對頻率區(qū)間的幅度譜中的較大幅度譜,則能夠確定這個幀中在該頻率區(qū)間上的噪聲功率。每個頻率區(qū)間上的噪聲通常具有在時域上保持基本穩(wěn)定的特性。在能夠確定相同頻率區(qū)間上分段的部分幀的噪聲功率的情況下,根據(jù)這樣的特性,能夠估計出整個分段中相同頻率區(qū)間上的噪聲功率。這允許通過譜減法從分段中去除所估計的噪聲功率??梢酝ㄟ^各種方法來根據(jù)上述特性估計噪聲功率。例如,如果一個分段被劃分為 Nframe個幀,并且有Nbel。w個幀的頻率區(qū)間F的音頻信號被識別為噪聲,那么估計的噪聲可以
是 Abelow/Nbelow,其中 A
below 是這Ntel。w個幀的頻率區(qū)間F的幅度譜之和。在步驟711,通過譜減法把所估計的噪聲功率從相應分段的相應頻率區(qū)間的幅度譜,即該噪聲功率的估計所基于的分段的頻率區(qū)間的幅度譜中去除
在步驟713,確定是否對輸入音頻的所有分段的幅度譜進行了濾波處理。如果是, 則方法700前進到步驟715,否則返回步驟703計算輸入音頻的下一分段的各個幀的幅度
■i並曰O在步驟715,從經(jīng)過步驟711處理的幅度譜中提取音頻特征。在步驟717,利用場景音頻模型,根據(jù)所提取的音頻特征檢測輸入音頻所源于的場景的類別。方法在步驟719結(jié)束。發(fā)明人通過觀察發(fā)現(xiàn),在噪聲與信號并存的情況下,信號加噪聲的幅度譜要比噪聲的幅度譜大很多。在本發(fā)明的上述和下面要描述的實施例中,通過找到幀的幅度譜中的突變并且將幅度譜低于突變后的幅度譜的頻率區(qū)間識別為噪聲信號主導的頻率區(qū)間,能夠更加準確地估計噪聲。相應地,經(jīng)過濾波的場景音頻能夠保留更加能夠表征場景音頻的譜特征。
因而,能夠去除干擾噪聲的影響,同時也能夠保留有用譜特征,從而保證模型訓練和檢測的高性能。在一個幀的幅度譜中,也可能識別不出滿足條件的一對頻率區(qū)間。在這樣的情況下,在結(jié)合圖6描述的設備和結(jié)合圖7描述的方法的進一步的實施例中,在噪聲估計裝置 603和步驟709的處理中,可以簡單地不將該幀的所有頻率區(qū)間的音頻信號估計為噪聲,也可以根據(jù)已知的譜減法來估計該幀的所有頻率區(qū)間上的噪聲功率。在一個幀的幅度譜中,也可能存在多對滿足突變條件的頻率區(qū)間。將幅度譜較低的突變涉及的頻率區(qū)間識別為一對頻率區(qū)間,會使得較少的頻率區(qū)間被識別為噪聲信號主導的(也就是說,較多的頻率區(qū)間被識別為音頻信號主導的)。將幅度譜較高的突變涉及的頻率區(qū)間識別為一對頻率區(qū)間,會使得較多的頻率區(qū)間被識別為噪聲信號主導的(也就是說,較少的頻率區(qū)間被識別為音頻信號主導的)。過多或過少的頻率區(qū)間被識別為噪聲信號主導的都不符合實際情況。在結(jié)合圖6描述的設備和結(jié)合圖7描述的方法的進一步的實施例中,在突變識別裝置602和步驟705的處理中,可以在存在滿足突變條件的多對頻率區(qū)間的情況下,選擇這樣的一對頻率區(qū)間在相應幀的幅度譜中,幅度譜小于該對頻率區(qū)間的幅度譜中的較大幅度譜的頻率區(qū)間的比例接近預定值。預定值可以根據(jù)經(jīng)驗來確定,也可以通過對場景音頻進行分析來獲得。在一個優(yōu)選實施例中,預定值可以是50 %至70 %的范圍內(nèi)的值,例如50%、60%或70%。在前面的實施例中,通過將分段的各幀的幅度譜中幅度譜小于滿足突變條件的一對頻率區(qū)間的幅度譜中的較大幅度譜的頻率區(qū)間識別為噪聲主導的。然而也可能存在即使識別出滿足突變條件的一對頻率區(qū)間,但幅度譜大于該對頻率區(qū)間的幅度譜中的較小幅度譜的頻率區(qū)間實際是噪聲主導的情形。在這樣的情況下,幅度譜大于該對頻率區(qū)間的幅度譜中的較小幅度譜的頻率區(qū)間的數(shù)目越多,則對噪聲功率的估計的誤差就越大。在結(jié)合圖6描述的設備和結(jié)合圖7描述的方法的進一步的實施例中,在噪聲估計裝置603和步驟 709的處理中,對于每個頻率區(qū)間,如果在每個分段的各個幀的幅度譜中,該頻率區(qū)間的幅度譜大于所識別的一對頻率區(qū)間的幅度譜中的較大幅度譜的次數(shù)較高,則隨著所述次數(shù)的增加,將該分段的噪聲功率估計得相對較低;如果在每個分段的各個幀的幅度譜中,該頻率區(qū)間的幅度譜大于所識別的一對頻率區(qū)間的幅度譜中的較大幅度譜的次數(shù)較低,則隨著所述次數(shù)的增加,將該分段的噪聲功率估計得相對較高。在一個分段的Nframe個幀中,通常認為如果同一頻率區(qū)間上音頻信號是居主導地位的,那么在Nftame個幀的幅度譜中該頻率區(qū)間F的幅度譜大于相應的所識別的一對頻率區(qū)間的幅度譜中的較低幅度譜的次數(shù)應在一個最低限之上。可以通過次數(shù)與Nftame的比值,或者次數(shù)與各個頻率區(qū)間的相應次數(shù)的最大值的比值是否超過一個閾值來確定是否在最低限之上。如果比值超過閾值,則確定次數(shù)較高,否則確定次數(shù)較低。如果確定次數(shù)較高,那么在相應頻率區(qū)間上音頻信號居主導地位的可能性就越高 (噪聲居主導地位的可能性就越低)。相應地,可以把該頻率區(qū)間上的噪聲功率估計得相對較低。估計得相對較低是指如果將該頻率區(qū)間上的噪聲功率估計為S,那么考慮到該頻率區(qū)間上音頻信號居主導地位的可能性更高,那么將噪聲功率估計S降低一個程度。次數(shù)越高, 那么該程度就越大。如果確定次數(shù)較低,那么在相應頻率區(qū)間上音頻信號居主導地位的可能性就越低(噪聲居主導地位的可能性就越高)。相應地,可以把該頻率區(qū)間上的噪聲功率估計得相對較低。估計得相對較低是指如果將該頻率區(qū)間上的噪聲功率估計為S,那么考慮到該頻率區(qū)間上噪聲信號居主導地位的可能性更高,那么將噪聲功率估計S增大一個程度。次數(shù)越高,那么該程度就越大。在一個進一步的實施例中,每個頻率區(qū)間η上每個樣本的每個分段的噪聲功率 NoiseAvgSpec[η]可以被估計為
權(quán)利要求
1.一種生成場景音頻模型的設備,包括幅度譜計算裝置,針對同一類別的場景音頻的多個樣本中的每個樣本,計算所述樣本的每個分段的每個幀的幅度譜,其中所述每個幀的幅度譜包括各個頻率區(qū)間的幅度譜;突變識別裝置,在每個幀的幅度譜中識別滿足下述條件的一對頻率區(qū)間所述一對頻率區(qū)間的幅度譜之差超過預定程度,并且不存在幅度譜介于所述一對頻率區(qū)間的幅度譜之間的頻率區(qū)間;噪聲估計裝置,通過將每個幀的幅度譜中幅度譜小于所識別的一對頻率區(qū)間的幅度譜中的較大幅度譜的頻率區(qū)間的音頻信號識別為噪聲,估計在每個頻率區(qū)間上所述樣本的每個分段的噪聲功率;濾波裝置,通過譜減法把所估計的噪聲功率從相應分段的相應頻率區(qū)間的幅度譜中去除;特征提取裝置,從經(jīng)過所述濾波裝置處理的幅度譜中提取音頻特征;和訓練裝置,根據(jù)所提取的音頻特征訓練出場景音頻模型。
2.如權(quán)利要求1所述的設備,其中所述突變識別裝置進一步被配置為在存在滿足所述條件的多對頻率區(qū)間的情況下,選擇這樣的一對頻率區(qū)間在每個幀的幅度譜中,幅度譜小于該對頻率區(qū)間的幅度譜中的較大幅度譜的頻率區(qū)間的比例接近預定值。
3.如權(quán)利要求2所述的設備,其中所述預定值在50%至70%的范圍內(nèi)。
4.如權(quán)利要求1所述的設備,其中所述噪聲估計裝置進一步被配置為對于每個頻率區(qū)間,如果在每個分段的各個幀的幅度譜中,該頻率區(qū)間的幅度譜大于所識別的一對頻率區(qū)間的幅度譜中的較大幅度譜的次數(shù)較高,則隨著所述次數(shù)的增加,將該分段的噪聲功率估計得相對較低,并且如果在每個分段的各個幀的幅度譜中,該頻率區(qū)間的幅度譜大于所識別的一對頻率區(qū)間的幅度譜中的較大幅度譜的次數(shù)較低,則隨著所述次數(shù)的增加,將該分段的噪聲功率估計得相對較高。
5.如權(quán)利要求4所述的設備,其中每個頻率區(qū)間η上每個樣本的每個分段的噪聲功率 NoiseAvgSpec[η]為Γ, overA VgSpec(n)>0.9-Max_NoverAvgSpecNxNoiseA vgSpec[n]=‘Nfiame-OI I ^overAvgSpec (n)) Max_NoverAvgSpec NxNfiame-ONoverAvgSpec(n)) Max_NoverAvgSpec,否則其中,Nx表示所述分段的各個幀的幅度譜中幅度譜小于所識別的相應一對頻率區(qū)間的幅度譜中的較大幅度譜的頻率區(qū)間的幅度譜之和,NoverAvgSpec (η)表示所述分段的各個幀的幅度譜中頻率區(qū)間η的幅度譜大于所識別的相應一對頻率區(qū)間的幅度譜中的較大幅度譜的次數(shù)之和,MAX_NoverAvgSpec表示各個頻率區(qū)間η針對所述分段的N。VCTAvgSpe。(n)中的最大值。
6.如權(quán)利要求1所述的設備,其中所述幅度譜之差超過預定程度包括所述差超過預定閾值,或所述差與所述幀的幅度譜中的最大幅度譜的比值超過預定閾值。
7.—種生成場景音頻模型的方法,包括針對同一類別的場景音頻的多個樣本中的每個樣本,計算所述樣本的每個分段的每個幀的幅度譜,其中所述每個幀的幅度譜包括各個頻率區(qū)間的幅度譜;在每個幀的幅度譜中識別滿足下述條件的一對頻率區(qū)間所述一對頻率區(qū)間的幅度譜之差超過預定程度,并且不存在幅度譜介于所述一對頻率區(qū)間的幅度譜之間的頻率區(qū)間;通過將每個幀的幅度譜中幅度譜小于所識別的一對頻率區(qū)間的幅度譜中的較大幅度譜的頻率區(qū)間的音頻信號識別為噪聲,估計在每個頻率區(qū)間上所述樣本的每個分段的噪聲功率;通過譜減法把所估計的噪聲功率從相應分段的相應頻率區(qū)間的幅度譜中去除;從經(jīng)過所述濾波裝置處理的所述幅度譜中提取音頻特征;和根據(jù)所提取的音頻特征訓練出場景音頻模型。
8.如權(quán)利要求7所述的方法,其中所述一對頻率區(qū)間的識別包括在存在滿足所述條件的多對頻率區(qū)間的情況下,選擇這樣的一對頻率區(qū)間在每個幀的幅度譜中,幅度譜小于該對頻率區(qū)間的幅度譜中的較大幅度譜的頻率區(qū)間的比例接近預定值。
9.如權(quán)利要求8所述的方法,其中所述預定值在50%至70%的范圍內(nèi)。
10.如權(quán)利要求7所述的方法,其中所述估計包括對于每個頻率區(qū)間,如果在每個分段的各個幀的幅度譜中,該頻率區(qū)間的幅度譜大于所識別的一對頻率區(qū)間的幅度譜中的較大幅度譜的次數(shù)較高,則隨著所述次數(shù)的增加,將該分段的噪聲功率估計得相對較低,并且如果在每個分段的各個幀的幅度譜中,該頻率區(qū)間的幅度譜大于所識別的一對頻率區(qū)間的幅度譜中的較大幅度譜的次數(shù)較低,則隨著所述次數(shù)的增加,將該分段的噪聲功率估計得相對較高。
11.如權(quán)利要求10所述的方法,其中每個頻率區(qū)間η上每個樣本的每個分段的噪聲功率 NoiseAvgSpec [η]為‘ OverAvgSpec(n)>0.9-Max_NoverAvgSpecNxNoiseAvgSpec[n] = ·Nftame-OL I NoverAvgSpec (η)) Max_NoverAvgSpec NxNframe -0NoverAvgSpec (η)) Max—NoverAvgSpec,否則其中,Nx表示所述分段的各個幀的幅度譜中幅度譜小于所識別的相應一對頻率區(qū)間的幅度譜中的較大幅度譜的頻率區(qū)間的幅度譜之和,NoverAvgSpec (η)表示所述分段的各個幀的幅度譜中頻率區(qū)間η的幅度譜大于所識別的相應一對頻率區(qū)間的幅度譜中的較大幅度譜的次數(shù)之和,MAX_NoverAvgSpec表示各個頻率區(qū)間η針對所述分段的N。VCTAvgSpe。(n)中的最大值。
12.如權(quán)利要求7所述的方法,其中所述幅度譜之差超過預定程度包括所述差超過預定閾值,或所述差與所述幀的幅度譜中的最大幅度譜的比值超過預定閾值。
13.—種檢測音頻所源于的場景的類別的設備,包括幅度譜計算裝置,計算輸入音頻的每個分段的每個幀的幅度譜,其中所述每個幀的幅度譜包括各個頻率區(qū)間的幅度譜;突變識別裝置,在每個幀的幅度譜中識別滿足下述條件的一對頻率區(qū)間所述一對頻率區(qū)間的幅度譜之差超過預定程度,并且不存在幅度譜介于所述一對頻率區(qū)間的幅度譜之間的頻率區(qū)間;噪聲估計裝置,通過將每個幀的幅度譜中幅度譜小于所識別的一對頻率區(qū)間的幅度譜中的較大幅度譜的頻率區(qū)間的音頻信號識別為噪聲,估計在每個頻率區(qū)間上所述輸入音頻的每個分段的噪聲功率;濾波裝置,通過譜減法把所估計的噪聲功率從相應分段的相應頻率區(qū)間的幅度譜中去除;特征提取裝置,從經(jīng)過所述濾波裝置處理的所述幅度譜中提取音頻特征;和檢測裝置,利用場景音頻模型,根據(jù)所提取的音頻特征檢測所述輸入音頻所源于的場景的類別。
14.如權(quán)利要求13所述的設備,其中所述突變識別裝置進一步被配置為在存在滿足所述條件的多對頻率區(qū)間的情況下,選擇這樣的一對頻率區(qū)間在每個幀的幅度譜中,幅度譜小于該對頻率區(qū)間的幅度譜中的較大幅度譜的頻率區(qū)間的比例接近預定值。
15.如權(quán)利要求14所述的設備,其中所述預定值在50%至70%的范圍內(nèi)。
16.如權(quán)利要求13所述的設備,其中所述噪聲估計裝置進一步被配置為對于每個頻率區(qū)間,如果在每個分段的各個幀的幅度譜中,該頻率區(qū)間的幅度譜大于所識別的一對頻率區(qū)間的幅度譜中的較大幅度譜的次數(shù)較高,則隨著所述次數(shù)的增加,將該分段的噪聲功率估計得相對較低,并且如果在每個分段的各個幀的幅度譜中,該頻率區(qū)間的幅度譜大于所識別的一對頻率區(qū)間的幅度譜中的較大幅度譜的次數(shù)較低,則隨著所述次數(shù)的增加,將該分段的噪聲功率估計得相對較高。
17.如權(quán)利要求16所述的設備,其中每個頻率區(qū)間η上每個分段的噪聲功率 NoiseAvgSpec[η]為NxNoiseAvgSpec[n] 二 ‘Nframe.(I ι NoverAvgSpec (n)) MaX_N overAvgSpec NxNftame ·(][ ^overAvgSpec (11)) Max_N overAvgSpecOverAvgSpec,否則其中,Nx表示所述分段的各個幀的幅度譜中幅度譜小于所識別的相應一對頻率區(qū)間的幅度譜中的較大幅度譜的頻率區(qū)間的幅度譜之和,NoverAvgSpec (η)表示所述分段的各個幀的幅度譜中頻率區(qū)間η的幅度譜大于所識別的相應一對頻率區(qū)間的幅度譜中的較大幅度譜的次數(shù)之和,MAX_NoverAvgSpec表示各個頻率區(qū)間η針對所述分段的N。VCTAvgSpe。(n)中的最大值。
18.如權(quán)利要求13所述的設備,其中所述幅度譜之差超過預定程度包括所述差超過預定閾值,或所述差與所述幀的幅度譜中的最大幅度譜的比值超過預定閾值。
19.一種檢測音頻所源于的場景的類別的方法,包括計算輸入音頻的每個分段的每個幀的幅度譜,其中所述每個幀的幅度譜包括各個頻率區(qū)間的幅度譜;在每個幀的幅度譜中識別滿足下述條件的一對頻率區(qū)間所述一對頻率區(qū)間的幅度譜之差超過預定程度,并且不存在幅度譜介于所述一對頻率區(qū)間的幅度譜之間的頻率區(qū)間;通過將每個幀的幅度譜中幅度譜小于所識別的一對頻率區(qū)間的幅度譜中的較大幅度譜的頻率區(qū)間的音頻信號識別為噪聲,估計在每個頻率區(qū)間上所述輸入音頻的每個分段的噪聲功率;通過譜減法把所估計的噪聲功率從相應分段的相應頻率區(qū)間的幅度譜中去除;從經(jīng)過所述濾波裝置處理的所述幅度譜中提取音頻特征;和利用場景音頻模型,根據(jù)所提取的音頻特征檢測所述輸入音頻所源于的場景的類別。
20.如權(quán)利要求19所述的方法,其中所述一對頻率區(qū)間的識別包括在存在滿足所述條件的多對頻率區(qū)間的情況下,選擇這樣的一對頻率區(qū)間在每個幀的幅度譜中,幅度譜小于該對頻率區(qū)間的幅度譜中的較大幅度譜的頻率區(qū)間的比例接近預定值。
21.如權(quán)利要求20所述的方法,其中所述預定值在50%至70%的范圍內(nèi)。
22.如權(quán)利要求19所述的方法,其中所述估計包括對于每個頻率區(qū)間,如果在每個分段的各個幀的幅度譜中,該頻率區(qū)間的幅度譜大于所識別的一對頻率區(qū)間的幅度譜中的較大幅度譜的次數(shù)較高,則隨著所述次數(shù)的增加,將該分段的噪聲功率估計得相對較低,并且如果在每個分段的各個幀的幅度譜中,該頻率區(qū)間的幅度譜大于所識別的一對頻率區(qū)間的幅度譜中的較大幅度譜的次數(shù)較低,則隨著所述次數(shù)的增加,將該分段的噪聲功率估計得相對較高。
23.如權(quán)利要求22所述的方法,其中每個頻率區(qū)間η上每個分段的噪聲功率 NoiseAvgSpec[η]為
24.如權(quán)利要求19所述的方法,其中所述幅度譜之差超過預定程度包括所述差超過預定閾值,或所述差與所述幀的幅度譜中的最大幅度譜的比值超過預定閾值。
全文摘要
生成音頻模型的方法、設備和檢測場景類別的方法、設備。檢測音頻所源于的場景的類別的設備包含幅度譜計算裝置,計算音頻的每個分段的每個幀的幅度譜;突變識別裝置,在每個幀的幅度譜中識別滿足下述條件的一對頻率區(qū)間其幅度譜之差超過預定程度,且不存在介于其間的幅度譜;噪聲估計裝置,通過將幅度譜小于所識別的一對頻率區(qū)間的較大幅度譜的頻率區(qū)間的音頻信號識別為噪聲,估計每個頻率區(qū)間上每個分段的噪聲功率;濾波裝置,通過譜減法把所估計的噪聲功率從相應分段的相應頻率區(qū)間的幅度譜中去除;特征提取裝置,從濾波的幅度譜中提取音頻特征;和檢測裝置,利用場景音頻模型,根據(jù)音頻特征檢測輸入音頻所源于的場景的類別。
文檔編號G10L15/02GK102411930SQ20101029248
公開日2012年4月11日 申請日期2010年9月21日 優(yōu)先權(quán)日2010年9月21日
發(fā)明者劉昆 申請人:索尼公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
嘉禾县| 新晃| 松潘县| 上虞市| 紫云| 永修县| 内丘县| 阿鲁科尔沁旗| 云和县| 徐州市| 四子王旗| 潍坊市| 博兴县| 东至县| 武定县| 涞源县| 土默特左旗| 无棣县| 大足县| 平顺县| 昆明市| 志丹县| 乐都县| 江西省| 尤溪县| 鸡泽县| 色达县| 河北区| 乐都县| 九江市| 潮州市| 额尔古纳市| 浮山县| 白朗县| 宜春市| 巫溪县| 辽源市| 阜新| 安新县| 大同市| 河曲县|