两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

音頻信號(hào)處理設(shè)備、音頻信號(hào)處理方法和程序的制作方法

文檔序號(hào):2832967閱讀:221來(lái)源:國(guó)知局
專利名稱:音頻信號(hào)處理設(shè)備、音頻信號(hào)處理方法和程序的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及音頻信號(hào)處理設(shè)備、音頻信號(hào)處理方法及程序。更詳細(xì)地,本發(fā)明涉及執(zhí)行例如針對(duì)每一個(gè)聲音源來(lái)分離其中混合有多個(gè)信號(hào)的信號(hào)的處理的音頻信號(hào)處理設(shè)備、音頻信號(hào)處理方法及程序。本發(fā)明涉及例如在來(lái)自各種聲音源的聲音(例如,語(yǔ)音和雜音)被混合輸入的環(huán)境中選擇并分離來(lái)自特定聲音源的聲音(例如,與用戶的語(yǔ)音相對(duì)應(yīng)的音頻命令)的信號(hào)處理設(shè)備、信號(hào)處理方法和程序。
背景技術(shù)
在諸如信息處理設(shè)備和家用電器之類的近來(lái)的 設(shè)備中,存在設(shè)有作為音頻輸入單元的麥克風(fēng)的那些設(shè)備,這些設(shè)備辨識(shí)出從麥克風(fēng)輸入的用戶語(yǔ)音并基于辨識(shí)結(jié)果來(lái)執(zhí)行各種動(dòng)作。S卩,這些設(shè)備通過(guò)分析來(lái)將用戶所講的詞解析為音頻命令,以根據(jù)命令來(lái)執(zhí)行處理。雖然在按音頻命令執(zhí)行處理的設(shè)備中要求執(zhí)行準(zhǔn)確的音頻辨識(shí),但結(jié)果是,在生成各種雜音和噪聲的環(huán)境中,除用戶語(yǔ)音之外,信號(hào)還將來(lái)自各種聲音源的噪聲混合到要經(jīng)由作為音頻輸入單元的麥克風(fēng)輸入的音頻信號(hào)中。為了從這種混合信號(hào)中提取出用戶語(yǔ)音,在許多設(shè)備中,經(jīng)由麥克風(fēng)的輸入信號(hào)被輸入到執(zhí)行聲音源分離處理以執(zhí)行分離用戶語(yǔ)音的處理的信號(hào)處理單元。之后,基于分離提取的用戶語(yǔ)音來(lái)執(zhí)行命令解析。作為公開了聲音源分離處理的現(xiàn)有技術(shù),例如有日本未實(shí)審專利申請(qǐng)公布No. 2006-238409和日本未實(shí)審專利申請(qǐng)公布No. 2008-134298。這些專利文件公開了基于獨(dú)立分量分析(ICA)的聲音源分離處理。但是,在該聲音源分離處理中存在簡(jiǎn)單配置不足以完成分離處理功能的問題,以及針對(duì)高分離功能的處理負(fù)荷和處理時(shí)間增加,從而作為設(shè)備的成本也增加的問題。為了在一般的家用電器等中提供聲音源分離功能,需要將處理負(fù)荷和成本抑制為較低。另外,由于過(guò)去的聲音源分離處理獨(dú)立地具有作為分離模塊的、在前期階段的分離處理和在后期階段的分離處理,所以具有如下問題很難執(zhí)行整體優(yōu)化,例如使用辨識(shí)所需的特征量的信息來(lái)執(zhí)行分離處理。

發(fā)明內(nèi)容
希望提供帶有簡(jiǎn)單配置并且還使能執(zhí)行整體優(yōu)化并使能更高準(zhǔn)確性的聲音源分離的音頻信號(hào)處理設(shè)備、音頻信號(hào)處理方法和程序。本發(fā)明的一個(gè)實(shí)施例是音頻信號(hào)處理設(shè)備,包括時(shí)間頻率分析單元,對(duì)輸入音頻信號(hào)執(zhí)行時(shí)間頻率分析;基底分解單元,輸入學(xué)習(xí)數(shù)據(jù)并通過(guò)應(yīng)用總基底頻率來(lái)對(duì)從時(shí)間頻率分析單元輸入的對(duì)輸入音頻信號(hào)的時(shí)間頻率分析結(jié)果執(zhí)行基底分解以生成輸入音頻信號(hào)的基底活動(dòng),所述學(xué)習(xí)數(shù)據(jù)是基于包括來(lái)自多個(gè)聲音源的聲音的學(xué)習(xí)用音頻信號(hào)來(lái)預(yù)先生成的并且由與各個(gè)聲音源相對(duì)應(yīng)的基底頻率組成,所述總基底頻率組合有與各個(gè)聲音源相對(duì)應(yīng)的基底頻率;以及命令識(shí)別單元,輸入來(lái)自基底分解單元的基底活動(dòng),以通過(guò)對(duì)所輸入的基底活動(dòng)執(zhí)行識(shí)別處理來(lái)執(zhí)行命令識(shí)別。此外,在本發(fā)明一個(gè)實(shí)施例的音頻信號(hào)處理設(shè)備中,學(xué)習(xí)數(shù)據(jù)是基于包括具有與要被識(shí)別為命令的聲音相對(duì)應(yīng)的基底頻率的目標(biāo)聲音和不是識(shí)別對(duì)象的非目標(biāo)聲音的學(xué)習(xí)用音頻信號(hào)來(lái)生成的學(xué)習(xí)數(shù)據(jù),并且基底分解單元通過(guò)應(yīng)用組合有與所述目標(biāo)聲音相對(duì)應(yīng)的基底頻率和與所述非目標(biāo)聲音相對(duì)應(yīng)的基底頻率的總基底頻率,來(lái)對(duì)從時(shí)間頻率分析單元輸入的對(duì)所述輸入音頻信號(hào)的時(shí)間頻率分析結(jié)果執(zhí)行基底分解,以生成針對(duì)所述輸入音頻信號(hào)的基底活動(dòng)。此外,在本發(fā)明一個(gè)實(shí)施例的音頻信號(hào)處理設(shè)備中,時(shí)間頻率分析單元對(duì)輸入音頻信號(hào)執(zhí)行時(shí)間頻率分析,生成時(shí)間頻率譜,并進(jìn)一步基于該時(shí)間頻率譜來(lái)計(jì)算功率譜,以將該功率譜作為時(shí)間頻率分析結(jié)果來(lái)提供給基底分解單元。此外,在本發(fā)明一個(gè)實(shí)施例的音頻信號(hào)處理設(shè)備中,基底分解單元從時(shí)間頻率分析單元輸入基于輸入音頻信號(hào)生成的功率譜,并通過(guò)對(duì)所輸入的功率譜應(yīng)用總基底頻率來(lái) 執(zhí)行基底分解以生成針對(duì)輸入音頻信號(hào)的基底活動(dòng)。此外,在本發(fā)明一個(gè)實(shí)施例的音頻信號(hào)處理設(shè)備中,命令識(shí)別單元執(zhí)行如下處理從基底分解單元輸入基底活動(dòng),并通過(guò)在所輸入的基底活動(dòng)和預(yù)先設(shè)定的閾值之間執(zhí)行比較處理來(lái)判定命令和非命令。此外,在本發(fā)明一個(gè)實(shí)施例的音頻信號(hào)處理設(shè)備中,音頻信號(hào)處理設(shè)備具有學(xué)習(xí)處理單元,該學(xué)習(xí)處理單元基于包括來(lái)自多個(gè)聲音源的聲音的學(xué)習(xí)用音頻信號(hào)來(lái)生成由與各個(gè)聲音源相對(duì)應(yīng)的基底頻率組成的學(xué)習(xí)數(shù)據(jù),并且基底分解單元通過(guò)應(yīng)用由學(xué)習(xí)處理單元生成的學(xué)習(xí)數(shù)據(jù)來(lái)生成輸入音頻信號(hào)的基底活動(dòng)。此外,本發(fā)明的另一個(gè)實(shí)施例是一種音頻信號(hào)處理設(shè)備,包括學(xué)習(xí)處理單元,預(yù)先計(jì)算對(duì)音頻命令的正負(fù)判斷所需的特征量;和分析處理單元,使用在學(xué)習(xí)處理單元中學(xué)習(xí)到的特征量來(lái)執(zhí)行聲音源分離處理。此外,在本發(fā)明一個(gè)實(shí)施例的音頻信號(hào)處理設(shè)備中,在學(xué)習(xí)處理單元中計(jì)算出的、對(duì)音頻命令的正負(fù)判斷所需的特征量是如下一種正負(fù)判斷處理所需的特征量該正負(fù)判斷處理是對(duì)與在分析處理單元中的音頻命令辨識(shí)處理中執(zhí)行的音頻命令相對(duì)應(yīng)的目標(biāo)聲音和不與所述音頻命令相對(duì)應(yīng)的非目標(biāo)聲音進(jìn)行辨別的處理。此外,本發(fā)明的又一個(gè)實(shí)施例是一種在音頻信號(hào)處理設(shè)備中從輸入音頻信號(hào)執(zhí)行命令識(shí)別處理的音頻信號(hào)處理方法,該方法包括時(shí)間頻率分析,通過(guò)時(shí)間頻率分析單元對(duì)輸入音頻信號(hào)執(zhí)行時(shí)間頻率分析;基底分解,通過(guò)基底分解單元輸入學(xué)習(xí)數(shù)據(jù)并通過(guò)應(yīng)用總基底頻率來(lái)對(duì)從時(shí)間頻率分析單元輸入的對(duì)輸入音頻信號(hào)的時(shí)間頻率分析結(jié)果執(zhí)行基底分解以生成針對(duì)輸入音頻信號(hào)的基底活動(dòng),所述學(xué)習(xí)數(shù)據(jù)是基于包括來(lái)自多個(gè)聲音源的聲音的學(xué)習(xí)用音頻信號(hào)來(lái)預(yù)先生成的并且由與各個(gè)聲音源相對(duì)應(yīng)的基底頻率組成,所述總基底頻率組合有與各個(gè)聲音源相對(duì)應(yīng)的基底頻率;以及命令識(shí)別,通過(guò)命令識(shí)別單元來(lái)輸入在基底分解中生成的基底活動(dòng),以通過(guò)對(duì)所輸入的基底活動(dòng)執(zhí)行識(shí)別處理來(lái)執(zhí)行命令識(shí)別。此外,本發(fā)明又一個(gè)實(shí)施例是一種在音頻信號(hào)處理設(shè)備中從輸入音頻信號(hào)執(zhí)行命令識(shí)別處理的音頻信號(hào)處理方法,該方法包括學(xué)習(xí)處理,通過(guò)學(xué)習(xí)處理單元來(lái)預(yù)先計(jì)算對(duì)音頻命令的正負(fù)判斷所需的特征量;和分析處理,通過(guò)分析處理單元使用在學(xué)習(xí)處理中學(xué)習(xí)到的特征量來(lái)執(zhí)行聲音源分離處理。此外,本發(fā)明又一個(gè)實(shí)施例是一種致使在音頻信號(hào)處理設(shè)備中執(zhí)行從輸入音頻信號(hào)的命令識(shí)別處理的程序,該程序包括時(shí)間頻率分析,致使時(shí)間頻率分析單元對(duì)輸入音頻信號(hào)執(zhí)行時(shí)間頻率分析;基底分解,致使基底分解單元輸入學(xué)習(xí)數(shù)據(jù)并通過(guò)應(yīng)用總基底頻率來(lái)對(duì)從時(shí)間頻率分析單元輸入的對(duì)輸入音頻信號(hào)的時(shí)間頻率分析結(jié)果執(zhí)行基底分解以生成針對(duì)輸入音頻信號(hào)的基底活動(dòng),所述學(xué)習(xí)數(shù)據(jù)是基于包括來(lái)自多個(gè)聲音源的聲音的學(xué)習(xí)用音頻信號(hào)來(lái)預(yù)先生成的并且由與各個(gè)聲音源相對(duì)應(yīng)的基底頻率組成,所述總基底頻率組合有與各個(gè)聲音源相對(duì)應(yīng)的基底頻率;以及命令識(shí)別,致使命令識(shí)別單元輸入在基底分解中生成的基底活動(dòng),以通過(guò)對(duì)所輸入的基底活動(dòng)執(zhí)行識(shí)別處理來(lái)執(zhí)行命令識(shí)別。本發(fā)明一個(gè)實(shí)施例的程序是能夠由計(jì)算機(jī)可讀格式的存儲(chǔ)介質(zhì)或者通信介質(zhì)提供給例如能夠執(zhí)行各種程序代碼的圖像處理設(shè)備或計(jì)算機(jī)系統(tǒng)的程序。以計(jì)算機(jī)可讀的格式提供這種程序,這允許了在信息處理設(shè)備或計(jì)算機(jī)系統(tǒng)上適于該程序的處理。
本發(fā)明實(shí)施例的其他目的、特性和優(yōu)點(diǎn)將從基于后面描述的本發(fā)明的實(shí)施例和附圖進(jìn)行的更詳細(xì)描述中明了。本說(shuō)明書中的系統(tǒng)是多個(gè)設(shè)備的邏輯集合配置,但是其不限于各個(gè)配置設(shè)備都在相同殼體中的那些。本發(fā)明一個(gè)實(shí)施例的配置使得設(shè)備和方法能夠高度準(zhǔn)確地從混合有多個(gè)聲音的音頻信號(hào)中分離出特定聲音源的命令。具體而言,例如,基于包括來(lái)自多個(gè)聲音源的聲音的學(xué)習(xí)用音頻信號(hào)來(lái)生成由與各個(gè)聲音源相對(duì)應(yīng)的基底頻率組成的學(xué)習(xí)數(shù)據(jù)以生成其中組合有與各個(gè)聲音源相對(duì)應(yīng)的基底頻率的總基底頻率。此外,對(duì)輸入音頻信號(hào)執(zhí)行時(shí)間頻率分析以生成時(shí)間頻率分析結(jié)果。對(duì)針對(duì)該輸入音頻信號(hào)的時(shí)間頻率分析結(jié)果執(zhí)行應(yīng)用了總基底頻率的基底分解以生成輸入音頻信號(hào)的基底活動(dòng)。最后,對(duì)所生成的基底活動(dòng)執(zhí)行識(shí)別處理以執(zhí)行命令識(shí)別?;趯W(xué)習(xí)數(shù)據(jù)的聲音源分離處理使能了高度準(zhǔn)確的命令識(shí)別。


圖I圖示出了音頻信號(hào)處理設(shè)備的配置示例;圖2圖不出了在時(shí)間頻率分析單兀中執(zhí)行的時(shí)間頻率分析處理;圖3圖示出了將一個(gè)矩陣分解成兩個(gè)矩陣的處理示例;以及圖4圖示出了在圖I所示的上半部分的學(xué)習(xí)處理單元中學(xué)習(xí)到基底之后在下半部分的分析處理單元中組合使用所學(xué)習(xí)到的基底的示例。
具體實(shí)施例方式以下參考附圖來(lái)詳細(xì)描述本發(fā)明的實(shí)施例的音頻信號(hào)處理設(shè)備、音頻信號(hào)處理方法和程序。該描述按照如下小標(biāo)題來(lái)給出。I.有關(guān)音頻信號(hào)處理設(shè)備的整體配置2.有關(guān)音頻信號(hào)處理設(shè)備的每一個(gè)配置單元中的處理2. I.有關(guān)時(shí)間頻率分析單元
2. 2.有關(guān)基底學(xué)習(xí)單元2. 3.有關(guān)基底分解單元2. 4.有關(guān)命令識(shí)別單元I.有關(guān)音頻信號(hào)處理設(shè)備的整體配置首先,參考圖I描述根據(jù)本發(fā)明一個(gè)實(shí)施例的音頻信號(hào)處理設(shè)備的整體配置。
圖I圖示了根據(jù)本發(fā)明一個(gè)實(shí)施例的音頻信號(hào)處理設(shè)備100的示例。圖I所示的音頻信號(hào)處理設(shè)備100是輸入用戶的詞以執(zhí)行從用戶的詞辨識(shí)音頻命令(給設(shè)備的命令)的處理的設(shè)備。圖I所示的音頻信號(hào)處理設(shè)備100具有的配置設(shè)有學(xué)習(xí)處理單元110,其預(yù)先計(jì)算音頻命令的正負(fù)判斷所需的特征量;和分析處理單元120,其使用在學(xué)習(xí)處理單元110中學(xué)習(xí)到的特征量來(lái)執(zhí)行聲音源分離處理。在學(xué)習(xí)處理單元110中計(jì)算出的、音頻命令的正負(fù)判斷所需的特征量例如是如下正負(fù)判斷處理所需的特征量該正負(fù)判斷處理是對(duì)與要在分析處理單元120中的音頻命令辨識(shí)處理中執(zhí)行的音頻命令相對(duì)應(yīng)的目標(biāo)聲音和不與音頻命令相對(duì)應(yīng)的非目標(biāo)聲音進(jìn)行辨別的處理。如圖I所示,音頻信號(hào)處理設(shè)備100具有在上半部分中的學(xué)習(xí)處理單元110和在下半部分中的分析處理單元120。上半部分中的學(xué)習(xí)處理單元110預(yù)先在特征量空間中執(zhí)行對(duì)目標(biāo)聲音和非目標(biāo)聲音的基底學(xué)習(xí),以將學(xué)習(xí)結(jié)果作為學(xué)習(xí)數(shù)據(jù)提供給分析處理單元120。利用從學(xué)習(xí)處理單元110提供來(lái)的在特征量空間中對(duì)目標(biāo)聲音和非目標(biāo)聲音的基底學(xué)習(xí)結(jié)果,分析處理單元120輸入包括作為實(shí)際分析對(duì)象的用戶語(yǔ)音的聲音,并從輸入聲音中分離出作為目標(biāo)的用戶語(yǔ)音以基于分離結(jié)果來(lái)執(zhí)行命令識(shí)別處理。如圖I所示,學(xué)習(xí)處理單元110具有時(shí)間頻率分析單元111和基底學(xué)習(xí)單元112。分析處理單元120也具有時(shí)間頻率分析單元121、基底分解單元122和命令識(shí)別單元 123。將描述學(xué)習(xí)處理單元110中的處理和分析處理單元120中的處理的概要。學(xué)習(xí)處理單兀110輸入由目標(biāo)聲音和非目標(biāo)聲音組成的學(xué)習(xí)用音頻信號(hào)51以在時(shí)間頻率分析單元111中對(duì)該學(xué)習(xí)用音頻信號(hào)51執(zhí)行時(shí)間頻率分析。此外,基底學(xué)習(xí)單元112使用時(shí)間頻率分析結(jié)果來(lái)執(zhí)行學(xué)習(xí)處理以生成基底頻率BI (k,p)和基底頻率B2(k,p)作為學(xué)習(xí)結(jié)果,基底頻率BI (k,p)是目標(biāo)聲音的基底頻率矩陣Wl的元素,而基底頻率B2 (k,P)是非目標(biāo)聲音的基底頻率矩陣W2的元素。它們被提供給分析處理單元120作為學(xué)習(xí)數(shù)據(jù)。分析處理單元120輸入包括用戶語(yǔ)音(=目標(biāo)聲音)和噪聲(=非目標(biāo)聲音)的輸入音頻信號(hào)81,其中用戶語(yǔ)音包括作為提取對(duì)象的命令。時(shí)間頻率分析單元121對(duì)輸入音頻信號(hào)81執(zhí)行時(shí)間頻率分析以將分析結(jié)果提供給基底分解單元122?;追纸鈫卧?22通過(guò)應(yīng)用從時(shí)間頻率分析單元121輸入的時(shí)間頻率分析結(jié)果和從學(xué)習(xí)處理單兀Iio的基底學(xué)習(xí)單兀112輸入的學(xué)習(xí)數(shù)據(jù)(即,與目標(biāo)聲音和非目標(biāo)聲音相對(duì)應(yīng)的基底頻率數(shù)據(jù))來(lái)執(zhí)行基底分解以獲得基底活動(dòng)H(p,I)。此外,命令識(shí)別單元123對(duì)從基底分解單元122提供來(lái)的基底活動(dòng)H(p,I)執(zhí)行識(shí)別處理以獲取命令82。作為識(shí)別結(jié)果的命令82被提供給下一階段中的數(shù)據(jù)處理單元以基于該命令來(lái)執(zhí)行數(shù)據(jù)處理。下面描述每一個(gè)配置單元中的處理的細(xì)節(jié)。2.有關(guān)音頻信號(hào)處理設(shè)備的每一個(gè)配置單元中的處理(2. I.有關(guān)時(shí)間頻率分析單元)如圖I所示,在學(xué)習(xí)處理單元110和分析處理單元120兩者的處理單元中都設(shè)定了時(shí)間頻率分析單元。圖I所示的學(xué)習(xí)處理單元110中的時(shí)間頻率分析單元111輸入由目標(biāo)聲音和非目標(biāo)聲音組成的學(xué)習(xí)用音頻信號(hào)51以對(duì)該學(xué)習(xí)用音頻信號(hào)51執(zhí)行時(shí)間頻率分析。分析處理單元120中的時(shí)間頻率分析單元121對(duì)包括含有作為提取對(duì)象的命令的用戶語(yǔ)音(=目標(biāo)聲音)和除用戶語(yǔ)音之外的不是命令提取對(duì)象的噪聲(=非目標(biāo)聲音)的輸入音頻信號(hào)81執(zhí)行時(shí)間頻率分析。優(yōu)選地,在包括與分析處理單元120所輸入的音頻信號(hào)類似的用戶語(yǔ)音(=目標(biāo)聲音)和除用戶語(yǔ)音之外的噪聲(=非目標(biāo)聲音)的音頻信號(hào)中設(shè)定作為學(xué)習(xí)處理單元110中的學(xué)習(xí)對(duì)象來(lái)輸入的學(xué)習(xí)用音頻信號(hào)51。參考圖2來(lái)描述在學(xué)習(xí)處理單元110的時(shí)間頻率分析單元111和分析處理單元120的時(shí)間頻率分析單元121中執(zhí)行的時(shí)間頻率分析處理。時(shí)間頻率分析單兀111和時(shí)間頻率分析單兀121對(duì)所輸入的首頻信號(hào)的時(shí)間頻率信息進(jìn)行分析。經(jīng)由麥克風(fēng)等輸入的輸入信號(hào)被假定為X。圖2的頂部示出了輸入信號(hào)X的示例。橫軸是時(shí)間(或者樣本數(shù)目),縱軸是幅度。輸入信號(hào)X是其中混合有來(lái)自各種聲音源的聲音的信號(hào)。輸入到學(xué)習(xí)處理單元110中的時(shí)間頻率分析單元111的輸入信號(hào)X是由目標(biāo)聲音和非目標(biāo)聲音組成的學(xué)習(xí)用音頻信號(hào)51。輸入到分析處理單元120中的時(shí)間頻率分析單元121的輸入信號(hào)X是包括含有作為提取對(duì)象的命令的用戶語(yǔ)音(=目標(biāo)聲音)和噪聲(=非目標(biāo)聲音)的輸入音頻信號(hào)81。首先,對(duì)輸入信號(hào)X執(zhí)行固定大小的幀分割以獲得輸入幀信號(hào)x(n,I)。這是圖2中的步驟SlOl的處理。在圖2所示的示例中,幀分割的大小是N,并且每個(gè)幀的偏移量(sf)是幀的大小N的50%,以用于設(shè)定各個(gè)幀的重疊。此外,預(yù)定窗口函數(shù)w被與輸入幀信號(hào)X (η, I)相乘以獲得應(yīng)用了窗口函數(shù)的信號(hào)wx(n, I)。作為窗口函數(shù),例如漢明窗口(Hamming window)可以適用。應(yīng)用了窗口函數(shù)的信號(hào)wx(η, I)被用下面的表達(dá)式I來(lái)表不。權(quán)利要求
1.一種音頻信號(hào)處理設(shè)備,包括 時(shí)間頻率分析單元,對(duì)輸入音頻信號(hào)執(zhí)行時(shí)間頻率分析; 基底分解單元,輸入學(xué)習(xí)數(shù)據(jù)并通過(guò)應(yīng)用總基底頻率來(lái)對(duì)從所述時(shí)間頻率分析單元輸入的對(duì)所述輸入音頻信號(hào)的時(shí)間頻率分析結(jié)果執(zhí)行基底分解以生成針對(duì)所述輸入音頻信號(hào)的基底活動(dòng),所述學(xué)習(xí)數(shù)據(jù)是基于包括來(lái)自多個(gè)聲音源的聲音的學(xué)習(xí)用音頻信號(hào)來(lái)預(yù)先生成的并且由與各個(gè)聲音源相對(duì)應(yīng)的基底頻率組成,所述總基底頻率組合有與各個(gè)聲音源相對(duì)應(yīng)的基底頻率;以及 命令識(shí)別單元,輸入來(lái)自所述基底分解單元的基底活動(dòng),以通過(guò)對(duì)所輸入的基底活動(dòng)執(zhí)行識(shí)別處理來(lái)執(zhí)行命令識(shí)別。
2.根據(jù)權(quán)利要求I所述的音頻信號(hào)處理設(shè)備,其中 所述學(xué)習(xí)數(shù)據(jù)是基于學(xué)習(xí)用音頻信號(hào)來(lái)生成的學(xué)習(xí)數(shù)據(jù),所述學(xué)習(xí)用音頻信號(hào)包括具 有與要被識(shí)別為命令的聲音相對(duì)應(yīng)的基底頻率的目標(biāo)聲音和不是識(shí)別對(duì)象的非目標(biāo)聲音,并且 所述基底分解單元通過(guò)應(yīng)用組合有與所述目標(biāo)聲音相對(duì)應(yīng)的基底頻率和與所述非目標(biāo)聲音相對(duì)應(yīng)的基底頻率的總基底頻率,來(lái)對(duì)從所述時(shí)間頻率分析單元輸入的對(duì)所述輸入音頻信號(hào)的時(shí)間頻率分析結(jié)果執(zhí)行基底分解,以生成針對(duì)所述輸入音頻信號(hào)的基底活動(dòng)。
3.根據(jù)權(quán)利要求I所述的音頻信號(hào)處理設(shè)備,其中,所述時(shí)間頻率分析單元對(duì)所述輸入音頻信號(hào)執(zhí)行時(shí)間頻率分析,生成時(shí)間頻率譜,并進(jìn)一步基于該時(shí)間頻率譜來(lái)計(jì)算功率譜,以將該功率譜作為所述時(shí)間頻率分析結(jié)果來(lái)提供給所述基底分解單元。
4.根據(jù)權(quán)利要求3所述的音頻信號(hào)處理設(shè)備,其中,所述基底分解單元從所述時(shí)間頻率分析單元輸入基于所述輸入音頻信號(hào)生成的所述功率譜,并通過(guò)對(duì)所輸入的功率譜應(yīng)用所述總基底頻率來(lái)執(zhí)行基底分解以生成針對(duì)所述輸入音頻信號(hào)的基底活動(dòng)。
5.根據(jù)權(quán)利要求I所述的音頻信號(hào)處理設(shè)備,其中,所述命令識(shí)別單元執(zhí)行如下處理從所述基底分解單元輸入所述基底活動(dòng),并通過(guò)在所輸入的基底活動(dòng)和預(yù)先設(shè)定的閾值之間執(zhí)行比較處理來(lái)判定命令和非命令。
6.根據(jù)權(quán)利要求I所述的音頻信號(hào)處理設(shè)備,其中 所述音頻信號(hào)處理設(shè)備具有學(xué)習(xí)處理單元,該學(xué)習(xí)處理單元基于包括來(lái)自多個(gè)聲音源的聲音的所述學(xué)習(xí)用音頻信號(hào)來(lái)生成由與各個(gè)聲音源相對(duì)應(yīng)的基底頻率組成的所述學(xué)習(xí)數(shù)據(jù),并且 所述基底分解單元通過(guò)應(yīng)用由所述學(xué)習(xí)處理單元生成的所述學(xué)習(xí)數(shù)據(jù)來(lái)生成所述輸入音頻信號(hào)的基底活動(dòng)。
7.一種音頻信號(hào)處理設(shè)備,包括 學(xué)習(xí)處理單元,預(yù)先計(jì)算對(duì)音頻命令的正負(fù)判斷所需的特征量;和 分析處理單元,使用在所述學(xué)習(xí)處理單元中學(xué)習(xí)到的特征量來(lái)執(zhí)行聲音源分離處理。
8.根據(jù)權(quán)利要求7所述的音頻信號(hào)處理設(shè)備,其中,在所述學(xué)習(xí)處理單元中計(jì)算出的、對(duì)所述音頻命令的正負(fù)判斷所需的特征量是如下一種正負(fù)判斷處理所需的特征量該正負(fù)判斷處理是對(duì)與在所述分析處理單元中的音頻命令辨識(shí)處理中執(zhí)行的音頻命令相對(duì)應(yīng)的目標(biāo)聲音和不與所述音頻命令相對(duì)應(yīng)的非目標(biāo)聲音進(jìn)行辨別的處理。
9.一種在音頻信號(hào)處理設(shè)備中從輸入音頻信號(hào)執(zhí)行命令識(shí)別處理的音頻信號(hào)處理方法,該方法包括 時(shí)間頻率分析,通過(guò)時(shí)間頻率分析單元對(duì)輸入音頻信號(hào)執(zhí)行時(shí)間頻率分析; 基底分解,通過(guò)基底分解單元輸入學(xué)習(xí)數(shù)據(jù)并通過(guò)應(yīng)用總基底頻率來(lái)對(duì)從所述時(shí)間頻率分析單元輸入的對(duì)所述輸入音頻信號(hào)的時(shí)間頻率分析結(jié)果執(zhí)行基底分解以生成針對(duì)所述輸入音頻信號(hào)的基底活動(dòng),所述學(xué)習(xí)數(shù)據(jù)是基于包括來(lái)自多個(gè)聲音源的聲音的學(xué)習(xí)用音頻信號(hào)來(lái)預(yù)先生成的并且由與各個(gè)聲音源相對(duì)應(yīng)的基底頻率組成,所述總基底頻率組合有與各個(gè)聲音源相對(duì)應(yīng)的基底頻率;以及 命令識(shí)別,通過(guò)命令識(shí)別單元來(lái)輸入在所述基底分解中生成的基底活動(dòng),以通過(guò)對(duì)所輸入的基底活動(dòng)執(zhí)行識(shí)別處理來(lái)執(zhí)行命令識(shí)別。
10.一種在音頻信號(hào)處理設(shè)備中從輸入音頻信號(hào)執(zhí)行命令識(shí)別處理的音頻信號(hào)處理方法,該方法包括 學(xué)習(xí)處理,通過(guò)學(xué)習(xí)處理單元來(lái)預(yù)先計(jì)算對(duì)音頻命令的正負(fù)判斷所需的特征量;和分析處理,通過(guò)分析處理單元使用在所述學(xué)習(xí)處理中學(xué)習(xí)到的特征量來(lái)執(zhí)行聲音源分離處理。
11.一種致使在音頻信號(hào)處理設(shè)備中執(zhí)行從輸入音頻信號(hào)的命令識(shí)別處理的程序,該程序包括 時(shí)間頻率分析,致使時(shí)間頻率分析單元對(duì)輸入音頻信號(hào)執(zhí)行時(shí)間頻率分析; 基底分解,致使基底分解單元輸入學(xué)習(xí)數(shù)據(jù)并通過(guò)應(yīng)用總基底頻率來(lái)對(duì)從所述時(shí)間頻率分析單元輸入的對(duì)所述輸入音頻信號(hào)的時(shí)間頻率分析結(jié)果執(zhí)行基底分解以生成針對(duì)所述輸入音頻信號(hào)的基底活動(dòng),所述學(xué)習(xí)數(shù)據(jù)是基于包括來(lái)自多個(gè)聲音源的聲音的學(xué)習(xí)用音頻信號(hào)來(lái)預(yù)先生成的并且由與各個(gè)聲音源相對(duì)應(yīng)的基底頻率組成,所述總基底頻率組合有與各個(gè)聲音源相對(duì)應(yīng)的基底頻率;以及 命令識(shí)別,致使命令識(shí)別單元輸入在所述基底分解中生成的基底活動(dòng),以通過(guò)對(duì)所輸入的基底活動(dòng)執(zhí)行識(shí)別處理來(lái)執(zhí)行命令識(shí)別。
全文摘要
本發(fā)明涉及音頻信號(hào)處理設(shè)備、音頻信號(hào)處理方法和程序。音頻信號(hào)處理設(shè)備包括時(shí)間頻率分析單元,對(duì)輸入音頻信號(hào)執(zhí)行時(shí)間頻率分析;基底分解單元,輸入學(xué)習(xí)數(shù)據(jù)并通過(guò)應(yīng)用總基底頻率來(lái)對(duì)從所述時(shí)間頻率分析單元輸入的對(duì)所述輸入音頻信號(hào)的時(shí)間頻率分析結(jié)果執(zhí)行基底分解以生成針對(duì)所述輸入音頻信號(hào)的基底活動(dòng),所述學(xué)習(xí)數(shù)據(jù)是基于包括來(lái)自多個(gè)聲音源的聲音的學(xué)習(xí)用音頻信號(hào)來(lái)預(yù)先生成的并且由與各個(gè)聲音源相對(duì)應(yīng)的基底頻率組成,所述總基底頻率組合有與各個(gè)聲音源相對(duì)應(yīng)的基底頻率;以及命令識(shí)別單元,輸入來(lái)自基底分解單元的基底活動(dòng),以通過(guò)對(duì)所輸入的基底活動(dòng)執(zhí)行識(shí)別處理來(lái)執(zhí)行命令識(shí)別。
文檔編號(hào)G10L21/00GK102637435SQ201210027300
公開日2012年8月15日 申請(qǐng)日期2012年2月2日 優(yōu)先權(quán)日2011年2月9日
發(fā)明者光藤祐基, 西口正之 申請(qǐng)人:索尼公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
西畴县| 龙江县| 庆云县| 宜良县| 上饶县| 延边| 双城市| 临漳县| 黄大仙区| 灵宝市| 东阿县| 广州市| 丹凤县| 时尚| 大洼县| 邢台县| 大邑县| 恩平市| 马公市| 县级市| 白玉县| 开鲁县| 甘孜县| 金坛市| 凤山县| 肃宁县| 九龙县| 奉化市| 夹江县| 纳雍县| 湘阴县| 崇信县| 西充县| 南溪县| 高邮市| 和林格尔县| 长垣县| 景德镇市| 那曲县| 望城县| 巴东县|