使用具有時間演化信息的基底函數(shù)來分解音樂信號的制作方法

文檔序號：2832868閱讀：394來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：使用具有時間演化信息的基底函數(shù)來分解音樂信號的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及音頻信號處理。
背景技術(shù)：
便攜式裝置(例如，智能手機(jī)、上網(wǎng)本、便攜式計算機(jī)、平板計算機(jī))或電子游戲機(jī)上的許多音樂應(yīng)用程序可供單個用戶使用。在這些情況下，裝置的用戶哼唱旋律、演唱歌曲或演奏樂器，同時裝置記錄所得音頻信號。所記錄的信號接著可由應(yīng)用程序來分析其音高/音調(diào)升降曲線，并且用戶可以選擇處理操作，例如，糾正或以其它方式變更升降曲線，用不同音高或樂器音色來對信號進(jìn) 行上混操作(upmix)等。此類應(yīng)用程序的實例包含QUSIC應(yīng)用程序(QUALCOMM公司，圣地亞哥(San Diego), CA);例如吉他英雄(Guitar Hero)和搖滾樂隊(Rock Band) (Harmonix音樂系統(tǒng),劍橋，MA)等的電子游戲；以及卡拉0K、單人樂隊(one-man-band)及其它記錄應(yīng)用程序。許多電子游戲(例如，吉他英雄、搖滾樂隊)和音樂會音樂場景可能涉及多個樂器和歌手同時演出。當(dāng)前市售游戲和音樂制作系統(tǒng)要求順序地或在具有緊密定位的麥克風(fēng)的情況下演奏這些情形，以能夠單獨地對這些情形進(jìn)行分析、后處理及上混操作。這些約束可在音樂制作的情況下限制控制干擾和/或記錄空間效應(yīng)的能力，且可在電子游戲的情況下導(dǎo)致受限制的用戶體驗。

發(fā)明內(nèi)容
一種根據(jù)一般配置分解音頻信號的方法包含針對所述音頻信號的多個時間片段中的每一者，計算在頻率范圍內(nèi)的對應(yīng)信號表示。這種方法還包含基于所述多個所計算的信號表示和多個基底函數(shù)計算激活系數(shù)的向量。在這種方法中，所述向量的每一激活系數(shù)對應(yīng)于所述多個基底函數(shù)中的不同基底函數(shù)，且所述多個基底函數(shù)中的每一者包括在所述頻率范圍內(nèi)的第一對應(yīng)信號表示，和不同于所述第一對應(yīng)信號表示的在所述頻率范圍內(nèi)的第二對應(yīng)信號表示。還揭示具有有形特征的計算機(jī)可讀存儲媒體(例如，非瞬時媒體)，所述有形特征使讀取所述特征的機(jī)器執(zhí)行此種方法?！N用于根據(jù)一般配置分解音頻信號的設(shè)備包含用于針對所述音頻信號的多個時間片段中的每一者計算在頻率范圍內(nèi)的對應(yīng)信號表示的裝置；及用于基于所述多個所計算的信號表示和多個基底函數(shù)計算激活系數(shù)的向量的裝置。在這種設(shè)備中，所述向量的每一激活系數(shù)對應(yīng)于所述多個基底函數(shù)中的不同基底函數(shù)，且所述多個基底函數(shù)中的每一者包括在所述頻率范圍內(nèi)的第一對應(yīng)信號表示，和不同于所述第一對應(yīng)信號表示的在所述頻率范圍內(nèi)的第二對應(yīng)信號表示。一種用于根據(jù)另一一般配置分解音頻信號的設(shè)備包含經(jīng)配置以針對所述音頻信號的多個時間片段中的每一者計算在頻率范圍內(nèi)的對應(yīng)信號表示的變換模塊；及經(jīng)配置以基于所述多個所計算的信號表示和多個基底函數(shù)計算激活系數(shù)的向量的系數(shù)向量計算器。在這種設(shè)備中，所述向量的每一激活系數(shù)對應(yīng)于所述多個基底函數(shù)中的不同基底函數(shù)，且所述多個基底函數(shù)中的每一者包括在所述頻率范圍內(nèi)的第一對應(yīng)信號表示，和不同于所述第一對應(yīng)信號表示的在所述頻率范圍內(nèi)的第二對應(yīng)信號表示。

圖1A展示了根據(jù)一般配置的方法MlOO的流程圖。圖1B展示了方法MlOO的實施方案M200的流程圖。圖1C展示了根據(jù)一般配置的用于分解音頻信號的設(shè)備MF100的方框圖。圖1D展示了根據(jù)另一一般配置的用于分解音頻信號的設(shè)備AlOO的方框圖。圖2A展示了方法MlOO的實施方案M300的流程圖。圖2B展示了設(shè)備AlOO的實施方案A300的方框圖。圖2C展示了設(shè)備AlOO的另一實施方案A310的方框圖。圖3A展示了方法M200的實施方案M400的流程圖。圖3B展示了方法M200的實施方案M500的流程圖。圖4A展示了方法MlOO的實施方案M600的流程圖。圖4B展示了設(shè)備AlOO的實施方案A700的方框圖。圖5展示了設(shè)備AlOO的實施方案A800的方框圖。圖6展示了基底函數(shù)庫存的第二實例。圖7展示了具有和聲鳴響的語音的聲譜圖。圖8展示了在圖6的庫存中的圖7的聲譜圖的稀疏表示。圖9圖解說明模型Bf=y。圖10展示由方法MlOO產(chǎn)生的分離結(jié)果的曲線圖。圖11圖解說明圖9的模型的修改B’ f=y。圖12展示了在鋼琴和長笛的音調(diào)的未定期間基底函數(shù)的時域演化的曲線圖。圖13展示了由方法M400產(chǎn)生的分離結(jié)果的曲線圖。圖14展示了在音調(diào)F5處的鋼琴和長笛的基底函數(shù)的曲線圖(左)和在音調(diào)F5處的鋼琴和長笛的預(yù)加重基底函數(shù)的曲線圖(右)。圖15圖解說明多個聲源在活躍的情形。圖16圖解說明源緊密地挨在一起且一個源位于另一源之后的情形。圖17圖解說明分析個別空間集群的結(jié)果。圖18展示了基底函數(shù)庫存的第一實例。圖19展示了吉他音調(diào)的聲譜圖。圖20展示了在圖18的庫存中的圖19的聲譜圖的稀疏表示。
圖21展示了將開始檢測方法應(yīng)用于兩個不同復(fù)合信號實例的結(jié)果的聲譜圖。圖22到圖25表明將基于開始檢測的后處理應(yīng)用于第一復(fù)合信號實例的結(jié)果。圖26到圖32表明將基于開始檢測的后處理應(yīng)用于第二復(fù)合信號實例的結(jié)果。圖33到圖39是表明將基于開始檢測的后處理應(yīng)用于第一復(fù)合信號實例的結(jié)果的聲譜圖。圖40到圖46是表明將基于開始檢測的后處理應(yīng)用于第二復(fù)合信號實例的結(jié)果的聲譜圖。圖47A展示了評估應(yīng)用于鋼琴-長笛測試實例的開始檢測方法的性能的結(jié)果。圖47B展示了通信裝置D20的方框圖。圖48展示了手機(jī)HlOO的正視圖、后視圖和側(cè)視圖。
具體實施方式
揭示了使用基底函數(shù)庫存和稀疏恢復(fù)技術(shù)來分解音頻信號，其中基底函數(shù)庫存包含與音調(diào)的未定期間音符的頻譜改變有關(guān)的信息。此類分解可用以支持信號的分析、編碼、再現(xiàn)和/或合成。本文中展示了對包含來自和聲(即，非打擊)和打擊樂器的聲音的混合物的音頻信號的定量分析的實例。除非由其上下文明確限制，否則本文中使用術(shù)語“信號”來指示其普通意義中的任一者，包括在電線、總線或其它傳輸媒體上表達(dá)的存儲器位置(或存儲器位置集合)的狀態(tài)。除非由其上下文明確限制，否則本文中使用術(shù)語“產(chǎn)生”來指示其普通意義中的任一者，例如計算或以其它方式產(chǎn)生。除非由其上下文明確限制，否則本文中使用術(shù)語“計算”來指示其普通意義中的任一者，例如計算、評估、平滑和/或從多個值中進(jìn)行選擇。除非由其上下文明確限制，否則使用術(shù)語“獲得”來指示其普通意義中的任一者，例如計算、導(dǎo)出、接收(例如，從外部裝置)和/或檢索(例如，從存儲元件陣列)。除非由其上下文明確限制，否則使用術(shù)語“選擇”來指示其普通意義中的任一者，例如識別、指示、應(yīng)用和/或使用兩者或兩者以上的集合中的不到全部的至少一者。在術(shù)語“包括”用于本描述及權(quán)利要求書中的情況下，其不排除其它元件或操作。術(shù)語“基于”(如“A基于B”)用以指示其普通意義中的任一者，包含情況⑴“從……導(dǎo)出”(例如，“B是A的前驅(qū)體”)，(ii) “至少基于”(例如，“A至少基于B”)及在特定上下文中適當(dāng)?shù)那闆r下(iii) “等于”(例如，“A等于B”)。類似地，術(shù)語“響應(yīng)于”用以指示其普通意義中的任一者，包含“至少響應(yīng)于”。對多麥克風(fēng)音頻傳感裝置的麥克風(fēng)的“位置”的參考指示麥克風(fēng)的聲學(xué)敏感面的中心的位置，除非上下文以其它方式指示。根據(jù)特定上下文，術(shù)語“信道”有時用以指示信號路徑，且在其它時候指示由此路徑攜帶的信號。除非以其它方式指示，否則術(shù)語“系列”用以指示兩個或兩個以上項目的序列。術(shù)語“對數(shù)”用以指示以十為底數(shù)的對數(shù)，但此運算延伸到其它底數(shù)(例如，底數(shù)二)屬于本發(fā)明的范圍內(nèi)。術(shù)語“頻率分量”用以指示信號的一組頻率或頻帶當(dāng)中的一者，例如信號的頻域表示的樣本(例如，通過快速傅里葉變換產(chǎn)生)或信號的子帶(例如，巴克(Bark)標(biāo)度或梅爾(mel)標(biāo)度子帶)。除非另外指出，否則對具有特定特征的設(shè)備的操作的任何揭示內(nèi)容還明確地希望揭示具有類似特征的方法(且反之亦然)，且對根據(jù)特定配置的設(shè)備的操作的任何揭示內(nèi)容還明確地希望揭示根據(jù)類似配置的方法(且反之亦然)。術(shù)語“配置”可參考方法、設(shè)備和/或系統(tǒng)來使用，如其特定上下文所指示。術(shù)語“方法”、“過程”、“程序”和“技術(shù)”被一般地且可互換地使用，除非特定上下文以其它方式指示。術(shù)語“設(shè)備”和“裝置”也被一般地且可互換地使用，除非特定上下文以其它方式指示。術(shù)語“元件”和“模塊”通常用以指示較大配置的一部分。除非其上下文明確地限制，否則術(shù)語“系統(tǒng)”在本文中用以指示其普通意義中的任一者，包含“交互以服務(wù)共同目的的元素的群組”。任何以引用的方式并入有文獻(xiàn)的一部分還應(yīng)理解為并入有所述部分內(nèi)所提及的術(shù)語或變量的定義(在此類定義出現(xiàn)在文獻(xiàn)的其它地方的情況下)，及所并入有部分中所提及的任何圖式。除非開始由定冠詞引入，否則用以修飾權(quán)利要求元素的序數(shù)術(shù)語(例如，“第一”、“第二”、“第三”等)自身并不指示權(quán)利要求元素相對于彼此的任何優(yōu)先級或次序，而是僅區(qū)別權(quán)利要求元素與具有同一名稱(但使用序數(shù)術(shù)語)的另一權(quán)利要求元素。除非其上下文明確地限制，否則術(shù)語“多個”在本文中用以指示大于一的整數(shù)量。如本文中所描述的方法可經(jīng)配置以將所捕獲的信號作為一系列片段來處理。典型片段長度范圍在約五或十毫秒到約四十或五十毫秒之間，且片段可重疊(例如，鄰近片段重疊25%或50%)或不重疊。在一個特定實例中，信號被分成各自具有十毫秒長度的一系列不重疊片段或“幀”。由此種方法進(jìn)行處理的片段還可以是由不同操作進(jìn)行處理的較大片段的片段(即，“子幀”)，或反之亦然?？尚枰獙σ魳穲鼍斑M(jìn)行分解，以從兩個或兩個以上樂器和/或聲音信號的混合物中提取個別音調(diào)/音高輪廓。潛在使用實例包含用多個麥克風(fēng)錄制音樂會/電子游戲場景，通過空間/稀疏恢復(fù)處理來分解樂器和聲音，提取音高/音調(diào)輪廓，部分地或完全地用經(jīng)糾正的音高/音調(diào)輪廓來對個別源進(jìn)行上混操作。此類操作可用以使音樂應(yīng)用程序(例如，Qualcomm的QUSIC應(yīng)用程序、例如搖滾樂隊或吉他英雄等的電子游戲)的能力延伸到多演奏者/歌唱者情形?？尚枰挂魳窇?yīng)用程序能夠處理特定的情形，在所述特定的情形中，一個以上歌手在活躍和/或多個樂器同時演奏(例如，如圖15中所示)?？尚枰四芰σ灾С謱嶋H音樂錄制情形(多音高場景)。盡管用戶可能想要單獨地編輯且重新合成每一源的能力，但產(chǎn)生音軌可能需要同時記錄所述源。本發(fā)明描述可用以允許實現(xiàn)多個源可同時活躍的音樂應(yīng)用程序的使用實例的方法。此種方法可經(jīng)配置以使用基于基底函數(shù)庫存的稀疏恢復(fù)(例如，稀疏分解)技術(shù)來分析音頻混合信號?？尚枰ㄟ^找到基底函數(shù)集合的激活系數(shù)的最稀疏向量(例如，使用有效稀疏恢復(fù)算法)，來將混合信號頻譜分解成源分量?？墒褂眉せ钕禂?shù)向量(例如，與基底函數(shù)集合一起)來重構(gòu)混合信號，或重構(gòu)混合信號的選定部分(例如，來自一個或一個以上選定樂器)。還可需要對稀疏系數(shù)向量進(jìn)行后處理(例如，根據(jù)量值和時間支持)。圖1A展示了根據(jù)一般配置的分解音頻信號的方法MlOO的流程圖。方法MlOO包含任務(wù)T100，所述任務(wù)TlOO基于來自音頻信號的幀的信息，計算在頻率范圍內(nèi)的對應(yīng)信號表示。方法MlOO還包含任務(wù)T200，所述任務(wù)T200基于由任務(wù)TlOO計算的信號表示和多個基底函數(shù)，來計算激活系數(shù)的向量，其中激活系數(shù)中的每一者對應(yīng)于多個基底函數(shù)中的不同基底函數(shù)?？蓪嵤┤蝿?wù)TlOO以將信號表示計算為頻域向量。此向量的每一元素可指示可根據(jù)梅爾或巴克標(biāo)度獲得的一組子帶中的對應(yīng)者的能量。然而，通常使用例如快速傅里葉變換(FFT)或短時傅里葉變換(STFT)等的離散傅里葉變換(DFT)來計算此向量。此向量可具有(例如)64、128、256、512或1024個分格的長度。在一實例中，音頻信號具有8kHz的采樣率，且對于長度為32毫秒的每一幀，0到4kHz頻帶由256分格的頻域向量表示。在另一實例中，對音頻信號的重疊片段使用經(jīng)修改的離散余弦變換(MDCT)來計算信號表示。在另一實例中，實施任務(wù)TlOO以將信號表示計算為倒譜系數(shù)(例如，梅爾倒頻譜系數(shù)或MFCC)的向量，所述向量表示幀的短期功率譜。在此情況下，可實施任務(wù)TlOO以計算此向量，計算的方式是將梅爾標(biāo)度濾波器組應(yīng)用于幀的DFT頻域向量的量值，求得濾波器輸出的對數(shù)，及求得對數(shù)值的DCT。例如，在標(biāo)題為“STQ:DSR--前端特征提取算法；壓縮算法(STQ:DSR - Front-end feature extraction algorithm; compressionalgorithm)，，的ETSI文獻(xiàn)ES201108(歐洲電信標(biāo)準(zhǔn)協(xié)會，2000)中所描述的極光標(biāo)準(zhǔn)(Aurora standard)中描述了此程序(procedure)。樂器通常具有界限清楚的音色。樂器的音色可由其頻譜包絡(luò)(例如，頻率范圍內(nèi)能量的分布)描述，使得可使用編碼個別樂器的頻譜包絡(luò)的基底函數(shù)庫存來建模不同樂器的音色范圍。每一基底函數(shù)包括在頻率范圍內(nèi)的對應(yīng)信號表示?？尚枰诵┬盘柋硎局械拿恳徽呔哂信c由任務(wù)T100計算的信號表示相同的形式。舉例來說，每一基底函數(shù)可為長度為64、128、256、512或1024分格的頻域向量?；蛘撸恳换缀瘮?shù)可為倒譜域向量，例如MFCC的向量等。在另一實例中，每一基底函數(shù)為小波域向量。基底函數(shù)庫存A可包含每一樂器n (例如，鋼琴、長笛、吉他、鼓等)的基底函數(shù)集合An。舉例來說，樂器的音色通常是依賴于音高的，使得每一樂器n的基底函數(shù)集合An通常將包含在某所要音高范圍內(nèi)的每一音高的至少一基底函數(shù)，所述音高范圍可在樂器之間變化。對應(yīng)于調(diào)諧到(例如)半音階的樂器的基底函數(shù)集合可包含每八音度十二個音高中的每一音高的不同基底函數(shù)。鋼琴的基底函數(shù)集合可包含鋼琴的每一基調(diào)的不同基底函數(shù)，總計八十八個基底函數(shù)。在另一實例中，每一樂器的基底函數(shù)集合包含在所要音高范圍(例如，五個八音度(例如，56個音高)或六個八音度(例如，67個音高)等)中的每一音高的不同基底函數(shù)。這些基底函數(shù)集合An可不相交，或兩個或兩個以上集合可共享一個或一個以上基底函數(shù)。圖6展示了特定和聲樂器的十四個基底函數(shù)的集合的曲線圖(音高指數(shù)對頻率)的實例，其中所述集合的每一基底函數(shù)編碼在不同對應(yīng)音高處的樂器的音色。在音樂信號的上下文中，人類話音可被視為樂器，使得庫存可包含一個或一個以上人類話音模型中的每一者的基底函數(shù)集合。圖7展示了具有和聲鳴響的語音的聲譜圖(以Hz為單位的頻率對以樣本為單位的時間)，且圖8展示了此信號在圖6中所示的和聲基底函數(shù)集合中的表
/Jn o基底函數(shù)的庫存可基于從特別記錄的個別樂器記錄中獲知的通用樂器音高數(shù)據(jù)庫，和/或基于分離的混合物流(例如，使用例如獨立分量分析(ICA)、期望最大化(EM)等的分離方案)。基于由任務(wù)T100計算的信號表示且基于來自庫存A的多個基底函數(shù)B，任務(wù)T200計算激活系數(shù)的向量。此向量的每一系數(shù)對應(yīng)于多個基底函數(shù)B中的不同基底函數(shù)。舉例來說，任務(wù)T200可經(jīng)配置以計算向量，使得所述向量根據(jù)多個基底函數(shù)B指示信號表示的最有可能模型。圖9圖解說明此模型Bf=y，其中多個基底函數(shù)B為矩陣，使得B的列為個別基底函數(shù)，f為基底函數(shù)激活系數(shù)的列向量，且y為所記錄的混合信號的幀的列向量(例如，呈聲譜圖頻率向量形式的五、十或二十毫秒的幀)。任務(wù)T200可經(jīng)配置以通過求解線性編程問題來恢復(fù)音頻信號的每一幀的激活系數(shù)向量?？捎靡郧蠼獯藛栴}的方法的實例包含非負(fù)矩陣因式分解(NNMF)。可配置基于NNMF的單信道參考方法以使用期望最大化(EM)更新規(guī)則(例如，如下文所描述)，來同時計算基底函數(shù)和激活系數(shù)。可需要通過找到已知或部分已知基底函數(shù)空間中的最稀疏激活系數(shù)向量，將音頻混合信號分解成個別樂器(其可包含一個或一個以上人類話音)。舉例來說，可配置任務(wù)T200以使用已知樂器基底函數(shù)的集合通過找到基底函數(shù)庫存中的最稀疏激活系數(shù)向量(例如，使用有效稀疏恢復(fù)算法)，將輸入信號表示分解成源分量(例如，一個或一個以上個別樂器)。已知地是，對線性方程的欠定系統(tǒng)(S卩，具有多于方程的未知數(shù)的系統(tǒng))的最小LI范數(shù)解常常也是對所述系統(tǒng)的最稀疏解?？扇缦聢?zhí)行通過LI范數(shù)的最小化而進(jìn)行的稀疏恢復(fù)。假定目標(biāo)向量&是具有K〈N個非零項(即，“K稀疏”)的長度為N的稀疏向量，且對于大小約為K的集合，投影矩陣(S卩，基底函數(shù)矩陣)A是非相干的(類似隨機(jī))。觀測到
信號y=Af。。接著，求解服從于Af=y min/||/|iW (其中l(wèi)/^定義為;^f=1|./；|)將精確地恢復(fù)
f。。此外，可通過求解易處理的程序，從M ^ KdogA/個非相干量度中恢復(fù)量度的數(shù)目M大約等于有效分量的數(shù)目。一種方法是使用來自壓縮傳感的稀疏恢復(fù)算法。在壓縮傳感(也稱作“經(jīng)壓縮傳感”)信號恢復(fù)Ox=y的一實例中，y是長度為M的觀測到的信號向量，X是具有K〈N個非零項(即，“K稀疏模型”)的長度為N的稀疏向量(其為y的精簡表示)，且O是大小為MXN的隨機(jī)投影矩陣。隨機(jī)投影O不是滿秩的，但其對于稀疏/可壓縮信號模型以高幾率可逆(即，隨機(jī)投影O求解了病態(tài)求逆問題)。圖10展示了由方法MlOO的稀疏恢復(fù)實施方案產(chǎn)生的分離結(jié)果的曲線圖(音高指數(shù)對幀指數(shù))。在此情況下，輸入混合信號包含演奏音調(diào)序列C5-F5-G5-G#5-G5-F5-C5-D#5的鋼琴和演奏音調(diào)序列C6-A#5-G#5-G5的長笛。鋼琴的經(jīng)分離的結(jié)果以虛線展示(音高序列0-5-7-8-7-5-0-3)，且長笛的經(jīng)分離的結(jié)果以實線展示(音高序列12_10_8_7)?？烧J(rèn)為激活系數(shù)向量f包含每一樂器n的子向量4，所述子向量fn包含對應(yīng)基底函數(shù)集合An的激活系數(shù)?？瑟毩⒌靥幚泶诵菲魈囟せ钭酉蛄?例如，在后處理操作中)。舉例來說，可需要強(qiáng)加一個或一個以上稀疏性約束(例如，向量元素的至少一半為零，樂器特定子向量中的非零元素的數(shù)目不超過最大值等)。激活系數(shù)向量的處理可包含編碼每一幀的每一非零激活系數(shù)的指數(shù)編號，編碼每一非零激活系數(shù)的指數(shù)和值，或編碼整個稀疏向量?？墒褂么诵畔?例如，在另一時間和/或位置)來使用所指示的活躍基底函數(shù)再現(xiàn)混合信號，或僅再現(xiàn)混合信號的特定部分(例如，僅再現(xiàn)由特定樂器演奏的音調(diào))。由樂器產(chǎn)生的音頻信號可建模為被稱作音調(diào)的一系列事件。演奏音調(diào)的和聲樂器的聲音可在時間上分成不同區(qū)域:舉例來說，開始階段(也被稱作起奏)、固定階段(也被稱作維持)和偏移階段(也被稱作釋放)。對音調(diào)(ADSR)的時間包絡(luò)的另一描述包含在起奏與維持之間的額外衰減階段。在此上下文中，音調(diào)的持續(xù)時間可定義為從起奏階段的開始到釋放階段的結(jié)束(或到終止音調(diào)的另一事件，例如同一根弦上的另一音調(diào)的開始等)的時間間隔。假定音調(diào)具有單一音高，但還可以實施庫存以建模具有單一起奏和多個音高的音調(diào)(例如，如由例如顫音或滑音等的音高彎曲效應(yīng)所產(chǎn)生)。一些樂器(例如，鋼琴、吉他或豎琴)可以在被稱作和弦的事件中一次產(chǎn)生一個以上音調(diào)。由不同樂器產(chǎn)生的音調(diào)可在維持階段期間具有類似音色，使得可能難以在此時段識別哪一樂器正在演奏。然而，可預(yù)期音調(diào)的音色在階段之間變化。舉例來說，識別活躍樂器可能在起奏或釋放階段期間比在維持階段期間更為容易。圖12展示了鋼琴(虛線)和長笛(實線)的八音度C5到C6中的十二個不同音高的基底函數(shù)的時域演化的曲線圖(音高指數(shù)對時域幀指數(shù))?？煽闯?例如)鋼琴基底函數(shù)的起奏與維持階段之間的關(guān)系顯著不同于長笛基底函數(shù)的起奏與維持階段之間的關(guān)系。為了增加激活系數(shù)向量將指示適當(dāng)基底函數(shù)的可能性，可能需要最大化基底函數(shù)之間的差異。舉例來說，可能需要使基底函數(shù)包含與音調(diào)的隨時間推移的頻譜改變有關(guān)的信息?？赡苄枰陔S時間推移的音色改變來選擇基底函數(shù)。此方法可包含將與音調(diào)的音色的此時域演化有關(guān)的信息編碼成基底函數(shù)庫存。舉例來說，特定樂器n的基底函數(shù)的集合An可包含每一音高處的兩個或兩個以上對應(yīng)信號表不，使得此些信號表不中的每一者對應(yīng)于音調(diào)的演化中的不同時間(例如，起奏階段一個信號表不，維持階段一個信號表不，且釋放階段一個信號表示)。可從演奏音調(diào)的樂器的記錄的對應(yīng)幀中提取此些基底函數(shù)。圖1C展示了根據(jù)一般配置的用于分解音頻信號的設(shè)備MF100的方框圖。設(shè)備MF100包含用于基于來自音頻信號的幀的信息計算在頻率范圍內(nèi)的對應(yīng)信號表示的裝置FlOO (例如，如本文中參考任務(wù)TlOO所描述)。設(shè)備MF100還包含裝置F200，所述裝置F200用于基于由裝置FlOO計算的信號表示和多個基底函數(shù)，來計算激活系數(shù)的向量，其中激活系數(shù)中的每一者對應(yīng)于多個基底函數(shù)中的不同基底函數(shù)(例如，如本文中參考任務(wù)T200所描述)。圖1D展示了根據(jù)另一一般配置的用于分解音頻信號的設(shè)備AlOO的方框圖，所述設(shè)備AlOO包含變換模塊100和系數(shù)向量計算器200。變換模塊100經(jīng)配置以基于來自音頻信號的幀的信息計算在頻率范圍內(nèi)的對應(yīng)信號表示(例如，如本文中參考任務(wù)TlOO所描述)。系數(shù)向量計算器200經(jīng)配置以基于由變換模塊100計算的信號表示和多個基底函數(shù)，來計算激活系數(shù)的向量，其中激活系數(shù)中的每一者對應(yīng)于多個基底函數(shù)中的不同基底函數(shù)(例如，如本文中參考任務(wù)T200所描述)。圖1B展示了方法MlOO的實施方案M200的流程圖，其中基底函數(shù)庫存包含針對每一樂器的每一音高的多個信號表示。此些多個信號表示中的每一者描述在頻率范圍內(nèi)的多個不同能量分布(例如，多個不同音色)。庫存還可經(jīng)配置以包含針對不同時間相關(guān)模態(tài)的不同多個信號表示。在一個這樣的實例中，庫存包含在每一音高處用弓拉弦的多個信號表不，和在每一音高處撥弦(例如，撥奏)的不同的多個信號表不。方法M200包含任務(wù)TlOO (在此實例中，任務(wù)T100A和T100B)的多個例子，其中每一例子基于來自音頻信號的對應(yīng)不同幀的信息，計算在頻率范圍內(nèi)的對應(yīng)信號表示?？纱痈鞣N信號表示，且同樣，每一基底函數(shù)可為多個信號表示的串接。在此實例中，任務(wù)T200將混合幀的串接與每一音高處的信號表示的串接相匹配。圖11展示了圖S5的模型Bf=y的修改B’ f=y的實例，其中混合信號y的幀pl、p2被串接以用于匹配?？蓸?gòu)造庫存以使得從訓(xùn)練信號的連續(xù)幀中獲得每一音高處之多個信號表示。在其它實施方案中，可能需要使每一音高處的多個信號表不橫跨較大的時間窗(例如，包含時間上分離而非連續(xù)的幀)。舉例來說，可能需要使每一音高處的多個信號表示包含來自起奏階段、維持階段與釋放階段當(dāng)中的至少兩者的信號表示。通過包含關(guān)于音調(diào)的時域演化的更多信息，可增加不同音調(diào)的基底函數(shù)集合之間的差異。在左邊，圖14展示了音調(diào)F5處的鋼琴的基底函數(shù)(虛線)和音調(diào)F5處的長笛的基底函數(shù)(實線)的曲線圖(振幅對頻率)。可看出指示此特定音高處的樂器的音色的此些基底函數(shù)極為類似。因此，實踐中可預(yù)期所述基底函數(shù)之間的某一程度的不匹配。為了得到更穩(wěn)健的分離結(jié)果，可能需要最大化庫存的基底函數(shù)之間的差異。長笛的實際音色含有比鋼琴的實際音色多的高頻能量，但圖14的左曲線圖中所示的基底函數(shù)未編碼此信息。在右邊，圖14展示了音調(diào)F5處的鋼琴的基底函數(shù)(虛線)和音調(diào)F5處的長笛的基底函數(shù)(實線)的另一曲線圖(振幅對頻率)。在此情況下，除了已預(yù)加重源信號的高頻區(qū)域之外，從與左曲線圖中的基底函數(shù)相同的源信號導(dǎo)出基底函數(shù)。因為鋼琴源信號含有顯著少于長笛源信號的高頻能量，所以右曲線圖中所示的基底函數(shù)之間的差異明顯大于左曲線圖中所示的基底函數(shù)之間的差異。圖2A展示了方法MlOO的實施方案M300的流程圖，所述實施方案M300包含加重片段的高頻的任務(wù)T300。在此實例中，任務(wù)TlOO經(jīng)布置以計算在預(yù)加重之后的片段的信號表示。圖3A展示了包含任務(wù)T300的多個例子T300A、T300B的方法M200的實施方案M400的流程圖。在一實例中，預(yù)加重任務(wù)T300增加了高于200Hz的能量對總能量的比率。圖2B展示了設(shè)備AlOO的實施方案A300的方框圖，所述實施方案A300包含經(jīng)布置以在變換模塊100的上游對音頻信號執(zhí)行高頻加重的預(yù)加重濾波器300 (例如，高通濾波器，例如一階高通濾波器等)。圖2C展示了設(shè)備AlOO的另一實施方案A310的方框圖，在所述實施方案A310中，預(yù)加重濾波器300經(jīng)布置以對變換系數(shù)執(zhí)行高頻預(yù)加重。在此些情況下，還可能需要對多個基底函數(shù)B執(zhí)行高頻預(yù)加重(例如，高通濾波)。圖13展示了由方法M300對于與圖10的分離結(jié)果相同的輸入混合信號產(chǎn)生的分離結(jié)果的曲線圖(音高指數(shù)對幀指數(shù))。音符可包含賦色效應(yīng)，例如，顫音和/或顫聲等。顫音是具有通常在四或五赫茲到七、八、十或十二赫茲的范圍中的調(diào)制率的頻率調(diào)制。歸因于顫音的音高改變對于歌唱者來說可在0.6到2個半音程之間變化，且對于管樂器和弦樂器來說通常小于+/-0.5半音程(例如，對于弦樂器來說，在0.2與0.35半音程之間)。顫聲是通常具有類似調(diào)制率的振幅調(diào)制?？赡茈y以在基底函數(shù)庫存中建模此類效應(yīng)?？赡苄枰獧z測此類效應(yīng)的存在。舉例來說，顫音的存在可由在4Hz到8Hz的范圍中的頻域峰值來指示。還可能需要記錄所檢測到的效應(yīng)的水平的量度(例如，作為此峰值的能量)，這是因為可使用此特性來在再現(xiàn)期間還原所述效應(yīng)。對于顫聲檢測和量化，可在時域中執(zhí)行類似處理。一旦效應(yīng)已被檢測到且可能經(jīng)量化，就可能需要通過針對顫音使頻率在時間上平滑或針對顫聲使振幅在時間上平滑，來移除調(diào)制。圖4B展示了設(shè)備AlOO的實施方案A700的方框圖，所述實施方案A700包含調(diào)制水平計算器MLC。計算器MLC經(jīng)配置以計算且可能記錄如上文所描述的音頻信號的片段中的所檢測到的調(diào)制的量度(例如，在時域或頻域中所檢測到的調(diào)制峰值的能量)。本發(fā)明描述可用以允許實現(xiàn)多個源可同時活躍的音樂應(yīng)用程序的使用實例的方法。在此情況下，可能需要在計算激活系數(shù)向量之前使源分離(如果有可能的話)。為了實現(xiàn)此目的，提出了多信道和單信道技術(shù)的組合。圖3B展示了方法MlOO的實施方案M500的流程圖，所述實施方案M500包含將信號分離成空間集群的任務(wù)T500。任務(wù)T500可經(jīng)配置以將源隔離成盡可能多的空間集群。在一實例中，任務(wù)T500使用多麥克風(fēng)處理來將所記錄的聲學(xué)情形分離成盡可能多的空間集群。此處理可基于麥克風(fēng)信號之間的增益差和/或相位差，其中可跨越整個頻帶來評估此類差或在多個不同頻率子帶或頻率分格中的每一者處評估此類差。單獨的空間分離方法可能不足以實現(xiàn)所要的分離水平。舉例來說，一些源可能太靠近麥克風(fēng)陣列或以其它方式次最佳地相對于麥克風(fēng)陣列布置(例如，多個小提琴手和/或和聲樂器可位于一個角落；打擊樂器樂手通常位于后面)。在典型樂隊情形下，源可能緊密地挨在一起或甚至在其它源之后(例如，如圖16中所示)，使得單獨使用空間信息來處理由處于相對于樂隊的同一大體方向的麥克風(fēng)陣列捕獲的信號可能無法將所有的源彼此相區(qū)分。任務(wù)TlOO和T200使用如本文中所描述的單信道基于基底函數(shù)庫存的稀疏恢復(fù)(例如，稀疏分解)技術(shù)來分析個別空間集群以分離個別樂器(如圖17中所示)。為了便于計算處理，可能需要多個基底函數(shù)B顯著地小于基底函數(shù)庫存A?？赡苄枰獙τ诮o定分離任務(wù)從大庫存開始縮減庫存。在一實例中，此減小可通過以下方式來執(zhí)行:確定片段是包含來自打擊樂器的聲音還是包含來自和聲樂器的聲音，及從庫存中選擇適當(dāng)?shù)亩鄠€基底函數(shù)B以用于匹配。與和聲聲音的水平線相反，打擊樂器傾向于具有類似脈沖的聲譜圖(例如，垂直線)。在聲譜圖中，和聲樂器的特征通?？蔀槟骋换疽舾吆拖嚓P(guān)聯(lián)的音色，及此和聲模式的對應(yīng)較高頻率延伸。因此，在另一實例中，可能需要通過僅分析此些頻譜的較低八音度來減小計算任務(wù)，這是因為可基于低頻副本來預(yù)測其較高頻率副本。在匹配之后，可將活躍基底函數(shù)外推到較高頻率，且從混合信號減去，以獲得可以編碼和/或進(jìn)一步分解的殘余信號。還可通過用戶在圖形用戶接口中的選擇和/或通過基于第一輪稀疏恢復(fù)或最大可能性擬合預(yù)先分類最有可能的樂器和/或音高來執(zhí)行此減小。舉例來說，可執(zhí)行第一輪稀疏恢復(fù)操作以獲得經(jīng)恢復(fù)的稀疏系數(shù)的第一集合，且基于此第一集合，可對于另一輪稀疏恢復(fù)操作縮減可適用的音調(diào)基底函數(shù)。一個減小方法包含通過測量某些音程中的稀疏性得分，來檢測某些樂器音調(diào)的存在。此方法可包含基于最初音高估計來改進(jìn)一個或一個以上基底函數(shù)的頻譜形狀，及使用改進(jìn)的基底函數(shù)作為方法MlOO中的多個B。減小方法可經(jīng)配置以通過測量投影到對應(yīng)基底函數(shù)中的音樂信號的稀疏性得分來識別音高。在給定最佳音高得分的情況下，可使基底函數(shù)的振幅形狀最優(yōu)化，以識別樂器音調(diào)。接著可使用活躍基底函數(shù)的減小的集合作為方法MlOO中的多個B。圖18展示了可用于第一輪方法中的稀疏和聲信號表示的基底函數(shù)庫存的實例。圖19展示了吉他音調(diào)的聲譜圖(以Hz為單位的頻率對以樣本為單位的時間)，且圖20展示了圖18中所示的基底函數(shù)集合中此聲譜圖的稀疏表示(基底函數(shù)數(shù)目以幀為單位的時間)。圖4A展示了包含此第一輪庫存減小的方法MlOO的實施方案M600的流程圖。方法M600包含任務(wù)T600，所述任務(wù)T600計算在非線性頻域(例如，其中鄰近元素之間的頻率距離隨頻率而增加，如按梅爾或巴克標(biāo)度)中的片段的信號表示。在一實例中，任務(wù)T600經(jīng)配置以使用常數(shù)Q變換來計算非線性信號表示。方法M600還包含任務(wù)1700，所述任務(wù)1700基于非線性信號表示和多個類似非線性基底函數(shù)，計算激活系數(shù)的第二向量?；趤碜缘诙せ钕禂?shù)向量的信息(例如，來自激活的基底函數(shù)的恒等式，其可指示活躍音高范圍)，任務(wù)T800選擇用于任務(wù)T200中的多個基底函數(shù)B。明確地注意到方法M200、M300和M400還可經(jīng)實施以包含此些任務(wù)T600、T700和T800。圖5展示了設(shè)備AlOO的實施方案A800的方框圖，所述實施方案A800包含經(jīng)配置以從基底函數(shù)的較大集合中(例如，從庫存中)選擇多個基底函數(shù)的庫存減小模塊IRM。模塊IRM包含第二變換模塊110，第二變換模塊110經(jīng)配置以計算非線性頻域中的片段的信號表示(例如，根據(jù)常數(shù)Q變換)。模塊IRM還包含第二系數(shù)向量計算器，第二系數(shù)向量計算器經(jīng)配置以基于非線性頻域中的所計算的信號表示和如本文中所描述的第二多個基底函數(shù)，計算激活系數(shù)的第二向量。模塊IRM還包含基底函數(shù)選擇器，基底函數(shù)選擇器經(jīng)配置以基于如本文中所描述的來自第二激活系數(shù)向量的信息，從基底函數(shù)的庫存當(dāng)中選擇多個基底函數(shù)。可能需要方法MlOO包含開始檢測(例如，檢測音符的開始)和后處理，以改進(jìn)和聲樂器稀疏系數(shù)?？烧J(rèn)為激活系數(shù)向量f包含每一樂器n的對應(yīng)子向量fn，所述子向量fn包含樂器特定基底函數(shù)集合Bn的激活系數(shù)，且可獨立地處理此些子向量。圖21到圖46圖解說明了將此方案用于復(fù)合信號實例I (在同一八音度下演奏的鋼琴和長笛)和復(fù)合信號實例2 (伴隨打擊樂器在同一八音度下演奏的鋼琴和長笛)的音樂分解的方面。一般開始檢測方法可基于頻譜量值(例如，能量差)。舉例來說，此種方法可包含基于頻譜能量和/或峰值斜率找到峰值。圖21展示了將此種方法分別應(yīng)用于復(fù)合信號實例I (在同一八音度下演奏的鋼琴和長笛)和復(fù)合信號實例2 (伴隨打擊樂器在同一八音度下演奏的鋼琴和長笛)的結(jié)果的聲譜圖(以Hz為單位的頻率對以幀為單位的時間)，其中垂直線指示所檢測到的開始?？赡苓€需要檢測每一個別樂器的開始。舉例來說，在和聲樂器當(dāng)中的檢測開始的方法可基于時間的對應(yīng)系數(shù)差。在一個這樣的實例中，如果當(dāng)前幀的樂器n的系數(shù)向量(子向量fn)的最高量值元素的指數(shù)不等于先前幀的樂器n的稀疏向量的最高量值元素的指數(shù)，那么觸發(fā)和聲樂器n的開始檢測。可對于每一樂器，重復(fù)進(jìn)行此操作?？赡苄枰獔?zhí)行和聲樂器的稀疏系數(shù)向量的后處理。舉例來說，對于和聲樂器，可能需要保持對應(yīng)子向量的具有高量值和/或滿足指定的標(biāo)準(zhǔn)(例如，足夠尖)的起奏輪廓的系數(shù)，和/或移除(例如，歸零)殘余系數(shù)。對于每一和聲樂器，可能需要在每一開始幀處(例如，當(dāng)指示了開始檢測時)對系數(shù)向量進(jìn)行后處理，使得保持具有支配量值和可接受起奏時間的系數(shù)，且使殘余系數(shù)歸零?？筛鶕?jù)例如時間平均量值等的標(biāo)準(zhǔn)來評估起奏時間。在一個這樣的實例中，如果系數(shù)的當(dāng)前平均值小于系數(shù)的過去平均值(例如，如果在當(dāng)前窗(例如，從幀(t-5)到幀(t+4))中的系數(shù)的值的總和小于在過去窗(例如，從幀(t-15)到幀(t-6))中的系數(shù)的值的總和)，那么使當(dāng)前幀t的樂器的每一系數(shù)歸零(即，起奏時間不可被接受)。在每一開始幀處的和聲樂器的系數(shù)向量的此后處理還可包含保持具有最大量值的系數(shù)，且使其它系數(shù)歸零。對于每一和聲樂器，在每一非開始幀處，可能需要對系數(shù)向量進(jìn)行后處理，以便只保持在先前幀中值非零的系數(shù)，且使向量的其它系數(shù)歸零。圖22到圖25表明將基于開始檢測的后處理應(yīng)用于復(fù)合信號實例I (演奏同一八音度的鋼琴和長笛)的結(jié)果。在此些圖中，垂直軸是稀疏系數(shù)指數(shù)，水平軸是以幀為單位的時間，且垂直線指示特定幀，在所述特定幀處指示了開始檢測。圖22和圖23分別展示了在后處理之前和之后的鋼琴稀疏系數(shù)。圖24和圖25分別展示了在后處理之前和之后的長笛稀疏系數(shù)。圖26到圖30表明將基于開始檢測的后處理應(yīng)用于復(fù)合信號實例2 (伴隨打擊樂器在同一八音度下演奏的鋼琴和長笛)的結(jié)果。在此些圖中，垂直軸是稀疏系數(shù)指數(shù)，水平軸是以幀為單位的時間，且垂直線指示特定幀，在所述特定幀處指示了開始檢測。圖26和圖27分別展示了在后處理之前和之后的鋼琴稀疏系數(shù)。圖28和圖29分別展示了在后處理之前和之后的長笛稀疏系數(shù)。圖30展示了鼓稀疏系數(shù)。圖31到圖39是表明將如本文中所描述的開始檢測方法應(yīng)用于復(fù)合信號實例
1(在同一八音度下演奏的鋼琴和長笛)的結(jié)果的聲譜圖。圖31展示了原始復(fù)合信號的聲譜圖。圖32展示了在無后處理的情況下重構(gòu)的鋼琴分量的聲譜圖。圖33展示了在具有后處理的情況下重構(gòu)的鋼琴分量的聲譜圖。圖34展示了通過使用EM算法獲得的庫存所建模的鋼琴。圖35展示了原始鋼琴。圖36展示了在無后處理的情況下重構(gòu)的長笛分量的聲譜圖。圖37展示了在具有后處理的情況下重構(gòu)的長笛分量的聲譜圖。圖38展示了通過使用EM算法獲得的庫存所建模的長笛。圖39展示了原始長笛分量的聲譜圖。圖40到圖46是表明將如本文中所描述的開始檢測方法應(yīng)用于復(fù)合信號實例
2(在同一八音度下演奏的鋼琴和長笛以及鼓)的結(jié)果的聲譜圖。圖40展示了原始復(fù)合信號的聲譜圖。圖41展示了在無后處理的情況下重構(gòu)的鋼琴分量的聲譜圖。圖42展示了在具有后處理的情況下重構(gòu)的鋼琴分量的聲譜圖。圖43展示了在無后處理的情況下重構(gòu)的長笛分量的聲譜圖。圖44展示了在具有后處理的情況下重構(gòu)的長笛分量的聲譜圖。圖45和圖46分別展示了經(jīng)重構(gòu)的鼓分量和原始鼓分量的聲譜圖。圖47A展示了使用由文森特(Vincent)等人描述的評估尺度(盲音頻源分離中的性能測量，IEEE Trans.ASSP，第14卷，第4期，2006年7月，第1462到1469頁)來評估應(yīng)用于鋼琴-長笛測試情況的如本文中所描述的開始檢測方法的性能的結(jié)果。信號干擾比(SIR)是對不想要的源的抑制的量度，且定義為IOlogltlO IstmgeJ I2/ IeinterfI I2)。信號偽影比(SAR)是已由分離過程引入的偽影(例如，音樂噪聲等)的量度，且定義為101og1Q(| |starget+einterfl I2/ IeartifI I2)。信號失真比(SDR)是性能的總體量度，這是因為SDR考慮以上標(biāo)準(zhǔn)兩者，且定義為101og1(l( I |Sta_| I2/ eartif+einterf| I2)此定量評估展示了具有可接受的偽影產(chǎn)生水平的穩(wěn)健源分離。
EM算法可用以產(chǎn)生最初基底函數(shù)矩陣和/或更新基底函數(shù)矩陣(例如，基于激活系數(shù)向量)。現(xiàn)描述EM方法的更新規(guī)則的實例。在給定聲譜圖Vft的情況下，希望對于每一時間幀估計頻譜基底向量P(f Iz)和加權(quán)向量Pt (z)。此些分布提供了矩陣分解。如下應(yīng)用EM算法:首先，隨機(jī)地初始化加權(quán)向量Pt (Z)和頻譜基底向量P(f|z)。接著，在以下步驟之間重復(fù)直到收斂為止:1)期望(E)步驟-在給定頻譜基底向量P(f |z)和加權(quán)向量Pt(Z)的情況下，估計后驗分布Pt(z|f)。此估計可表達(dá)如下:
權(quán)利要求
1.一種分解音頻信號的方法，所述方法包括: 針對所述音頻信號的多個時間片段中的每一者，計算在頻率范圍內(nèi)的對應(yīng)信號表示；及基于所述多個所計算的信號表示和多個基底函數(shù)計算激活系數(shù)的向量，其中所述向量的每一激活系數(shù)對應(yīng)于所述多個基底函數(shù)中的不同基底函數(shù)，且其中所述多個基底函數(shù)中的每一者包括在所述頻率范圍內(nèi)的第一對應(yīng)信號表示，和不同于所述第一對應(yīng)信號表不的在所述頻率范圍內(nèi)的第二對應(yīng)信號表不。
2.根據(jù)權(quán)利要求1所述的方法，其中對于所述多個片段中的至少一者，(A)在高于200赫茲的頻率下的總能量與(B)在所述頻率范圍內(nèi)的總能量的比率在所述所計算的對應(yīng)信號表示中比在所述對應(yīng)片段中高。
3.根據(jù)權(quán)利要求1和2中任一權(quán)利要求所述的方法，其中對于所述多個片段中的至少一者，所述所計算的對應(yīng)信號表示中的調(diào)制的水平低于所述對應(yīng)片段中的所述調(diào)制的水平，所述調(diào)制是振幅調(diào)制與音高調(diào)制當(dāng)中的至少一者。
4.根據(jù)權(quán)利要求3所述的方法，其中對于所述多個片段中的所述至少一者，所述計算所述對應(yīng)信號表示包括記錄所述調(diào)制的所述水平的量度。
5.根據(jù)權(quán)利要求1到4中任一權(quán)利要求所述的方法，其中所述向量的所述激活系數(shù)的至少百分之五十為零值。
6.根據(jù)權(quán)利要求1到5中任一權(quán)利要求所述的方法，其中所述計算激活系數(shù)的所述向量包括計算形式為Bf=y的線性方程系統(tǒng)的解，其中y是包含所述多個所計算的信號表示的向量，B是包含所述多個基底函數(shù)的矩陣，且f是激活系數(shù)的所述向量。
7.根據(jù)權(quán)利要求1到6中任一權(quán)利要求所述的方法，其中所述計算激活系數(shù)的所述向量包括最小化激活系數(shù)的所述向量的LI范數(shù)。
8.根據(jù)權(quán)利要求1到7中任一權(quán)利要求所述的方法，其中在所述音頻信號中，所述多個片段中的至少一者通過所述音頻信號的不在所述多個片段當(dāng)中的至少一個片段而與所述多個片段中的每一其它片段隔開。
9.根據(jù)權(quán)利要求1到8中任一權(quán)利要求所述的方法，其中對于所述多個基底函數(shù)中的每一基底函數(shù): 所述第一對應(yīng)信號表不描述在所述頻率范圍內(nèi)的對應(yīng)樂器的第一音色，且所述第二對應(yīng)信號表示描述在所述頻率范圍內(nèi)的所述對應(yīng)樂器的不同于所述第一音色的第二音色。
10.根據(jù)權(quán)利要求9所述的方法，其中對于所述多個基底函數(shù)中的每一基底函數(shù): 所述第一音色是在對應(yīng)音調(diào)的第一時間間隔期間的音色，且所述第一音色是在所述對應(yīng)音調(diào)的不同于所述第一時間間隔的第二時間間隔期間的首色。
11.根據(jù)權(quán)利要求1到10中任一權(quán)利要求所述的方法，其中對于所述多個片段中的每一者，所述對應(yīng)信號表示是基于對應(yīng)頻域向量。
12.根據(jù)權(quán)利要求1到11中任一權(quán)利要求所述的方法，其中所述方法包括在所述計算激活系數(shù)的所述向量之前，且基于來自所述多個片段中的至少一者的信息，從基底函數(shù)的較大集合中選擇所述多個基底函數(shù)。
13.根據(jù)權(quán)利要求1到12中任一權(quán)利要求所述的方法，其中所述方法包括: 對于所述多個片段中的至少一者，計算在非線性頻域中的對應(yīng)信號表示；及在所述計算激活系數(shù)的所述向量之前，且基于在所述非線性頻域中的所述所計算的信號表示和第二多個基底函數(shù)，計算激活系數(shù)的第二向量，其中所述第二多個基底函數(shù)中的每一者包括在所述非線性頻域中的對應(yīng)信號表示。
14.根據(jù)權(quán)利要求13所述的方法，其中所述方法包括基于來自激活系數(shù)的所述所計算的第二向量的信息，從基底函數(shù)庫存當(dāng)中選擇所述多個基底函數(shù)。
15.一種用于分解音頻信號的設(shè)備，所述設(shè)備包括: 用于針對所述音頻信號的多個時間片段中的每一者計算在頻率范圍內(nèi)的對應(yīng)信號表示的裝置；及用于基于所述多個所計算的信號表示和多個基底函數(shù)計算激活系數(shù)的向量的裝置，其中所述向量的每一激活系數(shù)對應(yīng)于所述多個基底函數(shù)中的不同基底函數(shù)，且其中所述多個基底函數(shù)中的每一者包括在所述頻率范圍內(nèi)的第一對應(yīng)信號表示，和不同于所述第一對應(yīng)信號表不的在所述頻率范圍內(nèi)的第二對應(yīng)信號表不。
16.根據(jù)權(quán)利要求15所述的設(shè)備，其中對于所述多個片段中的至少一者，(A)在高于200赫茲的頻率下的總能量與(B)在所述頻率范圍內(nèi)的總能量的比率在所述所計算的對應(yīng)信號表示中比在所述對應(yīng)片段中高。
17.根據(jù)權(quán)利要求15所述的設(shè)備，其中對于所述多個片段中的至少一者，所述所計算的對應(yīng)信號表示中的調(diào)制的水平低于所述對應(yīng)片段中的所述調(diào)制的水平，所述調(diào)制是振幅調(diào)制與音高調(diào)制當(dāng)中的至少一者。
18.根據(jù)權(quán)利要求17所述的設(shè)備，其中所述用于計算所述對應(yīng)信號表示的裝置包括用于對于所述多個片段中的所述至少一者記錄所述調(diào)制的所述水平的量度的裝置。
19.根據(jù)權(quán)利要求15所述的設(shè)備，其中所述向量的所述激活系數(shù)的至少百分之五十為零值。
20.根據(jù)權(quán)利要求15所述的設(shè)備，其中所述用于計算激活系數(shù)的所述向量的裝置包括用于計算形式為Bf=y的線性方程系統(tǒng)的解的裝置，其中y是包含所述多個所計算的信號表示的向量，B是包含所述多個基底函數(shù)的矩陣，且f是激活系數(shù)的所述向量。
21.根據(jù)權(quán)利要求15所述的設(shè)備，其中所述用于計算激活系數(shù)的所述向量的裝置包括用于最小化激活系數(shù)的所述向量的LI范數(shù)的裝置。
22.根據(jù)權(quán)利要求15所述的設(shè)備，其中在所述音頻信號中，所述多個片段中的至少一者通過所述音頻信號的不在所述多個片段當(dāng)中的至少一個片段而與所述多個片段中的每一其它片段隔開。
23.根據(jù)權(quán)利要求15所述的設(shè)備，其中對于所述多個基底函數(shù)中的每一基底函數(shù): 所述第一對應(yīng)信號表不描述在所述頻率范圍內(nèi)的對應(yīng)樂器的第一音色，且所述第二對應(yīng)信號表示描述在所述頻率范圍內(nèi)的所述對應(yīng)樂器的不同于所述第一音色的第二音色。
24.根據(jù)權(quán)利要求23所述的設(shè)備，其中對于所述多個基底函數(shù)中的每一基底函數(shù): 所述第一音色是在對應(yīng)音調(diào)的第一時間間隔期間的音色，且所述第一音色是在所述對應(yīng)音調(diào)的不同于所述第一時間間隔的第二時間間隔期間的首色。
25.根據(jù)權(quán)利要求15所述的設(shè)備，其中對于所述多個片段中的每一者，所述對應(yīng)信號表示是基于對應(yīng)頻域向量。
26.根據(jù)權(quán)利要求15所述的設(shè)備，其中所述設(shè)備包括用于在所述計算激活系數(shù)的所述向量之前且基于來自所述多個片段中的至少一者的信息從基底函數(shù)的較大集合中選擇所述多個基底函數(shù)的裝置。
27.根據(jù)權(quán)利要求15所述的設(shè)備，其中所述用于從基底函數(shù)的較大集合中選擇所述多個基底函數(shù)的裝置包括: 用于對于所述多個片段中的至少一者計算在非線性頻域中的對應(yīng)信號表示的裝置；及用于在所述計算激活系數(shù)的所述向量之前且基于在所述非線性頻域中的所述所計算的信號表示和第二多個基底函數(shù)計算激活系數(shù)的第二向量的裝置，其中所述第二多個基底函數(shù)中的每一者包括在所述非線性頻域中的對應(yīng)信號表示。
28.根據(jù)權(quán)利要求27所述的設(shè)備，其中所述設(shè)備包括用于基于來自激活系數(shù)的所述所計算的第二向量的信息從基底函數(shù)庫存當(dāng)中選擇所述多個基底函數(shù)的裝置。
29.一種用于分解音頻信號的設(shè)備，所述設(shè)備包括: 變換模塊，其經(jīng)配置以針對所述音頻信號的多個時間片段中的每一者計算在頻率范圍內(nèi)的對應(yīng)信號表不；及系數(shù)向量計算器，其經(jīng)配置以基于所述多個所計算的信號表示和多個基底函數(shù)計算激活系數(shù)的向量，其中所述向量的每一激活系數(shù)對應(yīng)于所述多個基底函數(shù)中的不同基底函數(shù)，且其中所述多個基底函數(shù)中的每一者包括在所述頻率范圍內(nèi)的第一對應(yīng)信號表示，和不同于所述第一對應(yīng)信號表不的在所述頻率范圍內(nèi)的第二對應(yīng)信號表不。
30.根據(jù)權(quán)利要求29所述的設(shè)備，其中對于所述多個片段中的至少一者，(A)在高于200赫茲的頻率下的總能量與(B)在所述頻率范圍內(nèi)的總能量的比率在所述所計算的對應(yīng)信號表示中比在所述對應(yīng)片段中高。
31.根據(jù)權(quán)利要求29所述的設(shè)備，其中對于所述多個片段中的至少一者，所述所計算的對應(yīng)信號表示中的調(diào)制的水平低于所述對應(yīng)片段中的所述調(diào)制的水平，所述調(diào)制是振幅調(diào)制與音高調(diào)制當(dāng)中的至少一者。
32.根據(jù)權(quán)利要求31所述的設(shè)備，其中所述設(shè)備包含調(diào)制水平計算器，所述調(diào)制水平計算器經(jīng)配置以對于所述多個片段中的所述至少一者計算所述調(diào)制的所述水平的量度。
33.根據(jù)權(quán)利要求29所述的設(shè)備，其中所述向量的所述激活系數(shù)的至少百分之五十為零值。
34.根據(jù)權(quán)利要求29所述的設(shè)備，其中所述系數(shù)向量計算器經(jīng)配置以計算形式為Bf=y的線性方程系統(tǒng)的解，其中I是包含所述多個所計算的信號表示的向量，B是包含所述多個基底函數(shù)的矩陣，且f是激活系數(shù)的所述向量。
35.根據(jù)權(quán)利要求29所述的設(shè)備，其中所述系數(shù)向量計算器經(jīng)配置以最小化激活系數(shù)的所述向量的LI范數(shù)。
36.根據(jù)權(quán)利要求29所述的設(shè)備，其中在所述音頻信號中，所述多個片段中的至少一者通過所述音頻信號的不在所述多個片段當(dāng)中的至少一個片段而與所述多個片段中的每一其它片段隔開。
37.根據(jù)權(quán)利要求29所述的設(shè)備，其中對于所述多個基底函數(shù)中的每一基底函數(shù): 所述第一對應(yīng)信號表不描述在所述頻率范圍內(nèi)的對應(yīng)樂器的第一音色，且所述第二對應(yīng)信號表示描述在所述頻率范圍內(nèi)的所述對應(yīng)樂器的不同于所述第一音色的第二音色。
38.根據(jù)權(quán)利要求37所述的設(shè)備，其中對于所述多個基底函數(shù)中的每一基底函數(shù): 所述第一音色是在對應(yīng)音調(diào)的第一時間間隔期間的音色，且所述第一音色是在所述對應(yīng)音調(diào)的不同于所述第一時間間隔的第二時間間隔期間的首色。
39.根據(jù)權(quán)利要求29所述的設(shè)備，其中對于所述多個片段中的每一者，所述對應(yīng)信號表示是基于對應(yīng)頻域向量。
40.根據(jù)權(quán)利要求29所述的設(shè)備，其中所述設(shè)備包括經(jīng)配置以在所述計算激活系數(shù)的所述向量之前且基于來自所述多個片段中的至少一者的信息從基底函數(shù)的較大集合中選擇所述多個基底函數(shù)的庫存減小模塊。
41.根據(jù)權(quán)利要求29所述的設(shè)備，其中所述庫存減小模塊包括: 第二變換模塊，其經(jīng)配置以對于所述多個片段中的至少一者計算在非線性頻域中的對應(yīng)信號表不；及第二系數(shù)向量計算器，其經(jīng)配置以在所述計算激活系數(shù)的所述向量之前且基于在所述非線性頻域中的所述所計算的信號表示和第二多個基底函數(shù)計算激活系數(shù)的第二向量，其中所述第二多個基底函數(shù)中的每一者包括在所述非線性頻域中的對應(yīng)信號表示。
42.根據(jù)權(quán)利要求41所述的設(shè)備，其中所述設(shè)備包括經(jīng)配置以基于來自激活系數(shù)的所述所計算的第二向量的信息從基底函數(shù)庫存當(dāng)中選擇所述多個基底函數(shù)的基底函數(shù)選擇器。
43.一種機(jī)器可讀存儲媒體，所述機(jī)器可讀存儲媒體包括在由機(jī)器讀取時致使所述機(jī)器執(zhí)行根據(jù)權(quán)利要求1到14中任一權(quán)利要求所述的方法的有形特征。
全文摘要
本發(fā)明揭示使用基底函數(shù)庫存和稀疏恢復(fù)技術(shù)分解多源信號。
文檔編號G10L25/48GK103189915SQ201180051682
公開日2013年7月3日申請日期2011年10月25日優(yōu)先權(quán)日2010年10月25日
發(fā)明者埃里克·維瑟, 郭尹義, 朱默飛, 劉尚憶, 金萊軒, 辛鐘元申請人:高通股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：埃里克·維瑟;郭尹義;朱默飛;劉尚憶;金萊軒;辛鐘元
技術(shù)所有人：高通股份有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

使用具有時間演化信息的基底函數(shù)來分解音樂信號的制作方法