對音頻信號進行排序的制作方法

文檔序號：2821460閱讀：382來源：國知局

專利名稱：對音頻信號進行排序的制作方法
技術領域：
本發(fā)明涉及用于對多個音頻信號進行排序的方法和系統(tǒng)，尤其涉及音樂軌道(music track)的排序。
考慮包括音樂軌道的音頻信號。通常消費者希望選擇一組音樂軌道，并將它們排序為合適的收聽序列。通常，這些任務都由音樂發(fā)型商或者藝術家處理，例如通過在專輯(聚乙烯唱片、音頻CD等等)上將一組所述軌道排序為預定播放序列。新的發(fā)行模式(例如因特網下載)和存儲模式(包括隨機存取被存儲為數(shù)字文件的音樂軌道的能力)已經將選擇和排列的任務從發(fā)型商或者藝術家處轉移到了終端用戶。在一個層次上，對所選音樂軌道的任意定序是可能的，例如使用CD播放器的洗牌(shuffle)(隨機化)播放特征。這項技術的一個優(yōu)點為其在生成不同于預定播放序列的序列方面的易用性(單按鈕操作)；然而，所最終生成的序列是任意的。一些CD播放器使用選擇和排序音樂軌道的裝置。在更多時間和勞動的代價下，其允許由用戶來確定所要定制的序列。更近以來，例如數(shù)字音樂自動電唱機這樣的產品允許用戶組建或許包含好幾百個表現(xiàn)用戶大體上的口味的音樂軌道的庫。于是產生了從可能很多的音樂軌道中選擇一組供播放的軌道的問題。有各種技術可用于選擇這樣的一組，比如從用戶人工挑選軌道到自動選擇，這例如是通過使用分類(藝術家、標題、流派或類似分類標準)。然而，仍然存在一個缺點，即必須對音樂軌道進行適當?shù)呐判?也稱為“播放列表”)；這不僅需要用戶的時間和勞動，而且需要技巧來獲得匹配用戶偏好的排序。
惠普(Hewlett Packard)的歐洲專利申請EP1162621公開了一種自動地確定一組歌曲的序列的方法，該方法是根據所述歌曲的主要節(jié)拍(節(jié)奏)的重復速率和用于最終生成的編輯的理想時間圖，并且其中相鄰歌曲的終端部分交疊。該方法的一個缺點是，序列中相鄰歌曲之間的兼容性沒有被明確的解決，這對于給定序列可能會產生相鄰歌曲之間的不和諧的過渡，尤其在相鄰歌曲交疊的情況下。
本發(fā)明的一個目的是改進已知的技術。
依照本發(fā)明，提供了一種用于將多個音頻信號排序成一個序列的方法，包括-接收用戶偏好；-分析所述多個音頻信號以提取內在特征；以及-不依賴用戶地基于所提取的特征和用戶偏好的比較來將所述多個音頻信號中的至少兩個音頻信號排序成一個序列，以使得序列中的相鄰信號是和諧的。
根據另一方面，提供了一種用于將多個音頻信號排序成一個序列的系統(tǒng)，包括-適于接收用戶偏好的接收設備；-適于存儲音頻信號的存儲設備；-數(shù)據處理器，適于分析所述多個音頻信號以提取內在特征，以及不依賴用戶地基于所提取的特征和用戶偏好的比較來將所述多個音頻信號中的至少兩個音頻信號排序成一個序列，以使得序列中的相鄰信號是和諧的。
由于本發(fā)明，不依賴用戶地將音頻信號排序成一個序列成為可能。音頻信號可以是模擬的或者數(shù)字的。
有利的是，多個音頻信號根據用戶偏好而被識別。適宜的是，被提取的內在特征為音樂的特征，包括音樂音調和低音音符幅度。優(yōu)選地，序列中的相鄰音頻信號具有相關的音樂音調。理想的是，所述相關的音樂音調根據平調音階(Equal Tempered Scale)來確定。
可選地，該方法根據所述序列輸出所述至少兩個音頻信號，例如作為向用戶的音頻呈現(xiàn)。有利的是，當前輸出信號同序列中的緊隨的信號被交叉衰落(crossfade)，以便呈現(xiàn)連續(xù)的輸出。適宜的是，交叉衰落是依賴于當前信號和序列中的緊隨信號的各自的低音音符幅度來執(zhí)行的。優(yōu)選地，在交叉衰落的時間區(qū)間內，每一音頻信號的低音音符幅度小于對應音頻信號的最大低音幅度的七分之一。
本發(fā)明的一個優(yōu)點是序列的相鄰音頻信號之間的和諧的過渡，甚至當相鄰音頻信號的部分有交疊時也是如此。此外，該序列可以通過用戶最少的勞動被生成，例如用戶借助簡單的接口來簡單地選擇模式或者流派風格，以便為各種場合(例如派對或者浪漫的夜晚)建立經排序的音頻信號的集合。在保留和諧過渡的同時，本發(fā)明也可以根據序列的整體簡檔來排序音頻信號，例如通過根據音樂音調來選擇音樂軌道，從而允許在序列中經歷合適的音調過渡。
參考附圖，本發(fā)明的各實施例將僅以舉例的方式被描述，其中

圖1為用來將多個音頻信號排序成一個序列的方法的流程圖；圖2為在圖1的方法中使用的一組典型的相關音樂音調的示意圖；圖3a為當前輸出信號的示意圖，其與序列中緊隨的信號交叉衰落；圖3b為對音頻信號的交叉衰落間隔的確定的示意圖；圖4為用于將多個音頻信號排序成一個序列的系統(tǒng)的示意圖；圖5為圖4系統(tǒng)的第一應用的示意圖，其被實現(xiàn)為數(shù)字音樂自動電唱機，用于將多個音頻信號排序成一個序列；以及圖6為圖4系統(tǒng)的第二應用的示意圖，其由網絡服務提供商實現(xiàn)，用于將多個音頻信號排序成一個序列。
使用于此的術語“和諧”意味著序列中相鄰音頻信號之間存在足夠的相容性，這樣相鄰音頻信號之間的過渡就不會不和諧。適宜的是，包含于相鄰音頻信號中的特定特征的相似性有助于和諧性；這種特征的例子包括音高、電平和傳輸速率。
圖1表示用來將多個音頻信號排序成一個序列的方法的流程圖。該方法從102開始，并且接收(104)用戶的偏好。所述多個音頻信號可以全部都是對本方法而言目前可以通過例如存儲、如服務器之類的網絡實體等等而獲得的音頻信號?？蛇x擇地(如以虛線框表示的那樣)，所述多個音頻信號被識別(106)為當前可獲得的音頻信號的子集。該子集可以根據包括例如流派、藝術家、標題等等的分類被識別。優(yōu)選的是，所述多個音頻信號根據用戶偏好被識別。用戶可以人工地識別所述多個音頻信號；優(yōu)選地，該識別根據用戶的偏好而自動地被執(zhí)行，因而減少了時間和勞動。任何適當?shù)淖詣踊淖R別都可以被使用，例如根據用戶偏好選擇一個或者多個分類，并基于所選擇的一個或多個分類來識別多個音頻信號。在本申請人的英國專利申請0303970.8(PHGB030014)中，公開了一種從一組音頻信號中識別一個音頻信號的方法。所述音頻信號被分析以提取特征。基于用戶偏好和所提取的特征的比較，音頻信號接著被識別。
在多個音頻信號的識別之后，所述方法接著分析(108)所述多個音頻信號以提取內在特征。任何音頻信號都可以包含一個或多個特征，其在本質上附屬于或關聯(lián)于該音頻信號。這類特征在這里稱為“內在”特征，并且例如同關聯(lián)于音頻信號的元數(shù)據相區(qū)別，因為這樣的元數(shù)據是同其所關聯(lián)的音頻信號分離的。音頻信號的內在特征包括音樂的特征。特別地，所述方法提取并利用包括音樂音調、音樂節(jié)奏和低音音符幅度的音樂特征，其在下面被進一步討論。該方法接著繼續(xù)，其基于所提取特征和用戶偏好的比較來將多個音頻信號中的至少兩個音頻信號排序(110)成一個序列，以使得序列中相鄰的信號為和諧的。在任何特定的例子中，最終產生的序列可以包括所有已識別的多個音頻信號或者僅僅包括這些音頻信號的一個子集，這依賴于所提取的特征同代表用戶偏好的那些特征之間的對應性。用戶偏好可以包括任何適用于同所提取的音頻信號的特征相比較的信息。該類信息的例子包括以任意方式組合的典型的音頻信號；情緒、流派、藝術家等等的指示；序列的整體簡檔。
在序列中，相鄰音頻信號是和諧的。對音樂的音頻信號來說，和諧意味著存在于相鄰音頻信號中的對應類型特征的數(shù)值必須是音樂上相容的。一個例子是，其中每一相鄰音頻信號的各自的音樂音調是相關的。在本申請人的英國申請0229940.2(PHGB020248)中，公開了一種用于確定諸如音樂軌道的音頻信號的音調的方法。音頻信號的各部分被分析以識別音樂的音符和其在每一部分中的相關聯(lián)的強度。接著，從已識別的音樂音符中，作為所述音符的各自強度的函數(shù)而確定第一音符。從已識別的音樂音符中，再作為第一音符的函數(shù)選擇至少兩個另外的音符。音頻信號的音調接著基于所選擇音符的各自的強度的比較被確定。一旦音頻信號的序列被確定，所述方法可選擇地(由虛線框表示)輸出(112)至少兩個根據該序列的音頻信號。
圖2表示在圖1的方法中使用的一組典型的相關音樂音調的示意圖。在使用圖1的方法被排序成序列的音頻信號包括音樂內容的情形下，優(yōu)選地，音頻信號的排序被安排成使得序列的相鄰音頻信號是和諧的，從而其各自的音樂音調是相關的。理想的是，相關的音樂音調根據對大多數(shù)西方音樂來說通用的平調音階來確定。圖2表示平調音階中的一些音調。大調被表示于包含214、204、202、206、218的行中，小調被表示于包含216、210、208、212、220的行中。
考慮在特定音頻信號序列中的一個音頻信號為C大調的音樂軌道。在圖2中，虛線框200包含平調音階的所有由音樂理論確定為同C大調202緊密相關的音調。假定C大調信號的相鄰的音頻信號為音樂軌道，那么優(yōu)選地該相鄰信號在相同的或者緊密相關的音調中，在這個例子中，該相同或緊密相關的音調包括任何在虛線框200中所包含的音調F大調204，C大調202，G大調206，D小調210，A小調208或者E小調212。假設該相鄰信號具有D小調，那么該D小調信號(再一次假定其下一信號為音樂軌道)的下一個相鄰音頻信號的音調為相同的或者緊密相關的，因而是以下音調中的任何一個G小調216，D小調210，A小調208，Bb大調214，F(xiàn)大調240或者C大調202。除相關的音樂音調之外，可以使用其它的特征以確保序列中相鄰信號為和諧的，例如音樂節(jié)奏和低音音符幅度。
圖3a表示當前輸出信號的示意圖，其與序列中緊隨的信號交叉衰落。交叉衰落通過把所輸出序列中的相鄰音頻信號交疊一段時間來允許音頻信號的連續(xù)輸出，在這段時間中所述信號被混合。第一音頻信號302和第二音頻信號304為序列中的連續(xù)信號。當?shù)谝灰纛l信號302被輸出時，在某一時間點306上，其與第二音頻信號304發(fā)生交叉衰落，該交叉衰落接著在隨后的時間308完成，這樣，在該時間后，僅有第二音頻信號304被輸出；該交叉衰落的持續(xù)時間顯示于310。交叉衰落可以依賴于序列中當前信號和緊隨信號的各自的低音音符幅度來執(zhí)行。這是因為當這些信號的節(jié)奏不匹配時，交叉衰落優(yōu)選地發(fā)生在兩個信號都沒有顯著的低音幅度的時間段內，適宜的是當每個音頻信號的低音幅度小于對應音頻信號的最大低音幅度的七分之一時發(fā)生交叉衰落。
圖3b顯示對音頻信號的交叉衰落間隔的確定的示意圖。此“交叉衰落間隔”為音頻信號中的一個時間間隔，在(全部或者部分的)該時間間隔期間，同另一適當信號的交叉衰落被優(yōu)選地執(zhí)行。典型地，一個音頻信號將具有至少兩個這樣的間隔，一個基本上位于信號開始，另一個基本上位于信號結束；交叉衰落間隔也可以在信號中的其它地方被識別。圖3b顯示根據音頻信號的低音音符幅度來確定交叉衰落間隔。方框320、324各描述(并不成比例)音頻信號的幅度響應曲線322、326。曲線322表示音頻信號中的一個音頻范圍的最大幅度相對于時間(位于橫軸上)的曲線圖，所述頻率范圍例如50-20,000赫茲。曲線326表示一個音頻子范圍的最大幅度相對于時間的曲線圖，所述頻率子范圍例如低音頻率50-600赫茲。時間點328表示音頻信號可聽部分的開始，這是幅度升高到大于零的時間點。時間點330表示音頻信號的可聽部分的明顯的低音內容的開始，這是低音幅度大于音頻信號的最大低音幅度的預定數(shù)量334的時間點。已經發(fā)現(xiàn)，音頻信號的合適的預定數(shù)量334是其最大低音幅度的七分之一。時間間隔332(點328和330之間)表示交叉衰落可以發(fā)生于其中的最大間隔(在這個所描述的例子中，是在音頻信號的開始部分期間)。給定任意兩個合適的音頻信號，在每個信號中可以確定一個或者多個這樣的間隔，其中有可能發(fā)生信號間的交叉衰落。
圖4表示用于將多個音頻信號排序成一個序列的系統(tǒng)的示意圖。該系統(tǒng)包括數(shù)據處理器400、接收設備406和存儲設備408，它們都通過數(shù)據和通信總線410互連?？蛇x擇地(如圖4中的虛線框所示)，該系統(tǒng)也包括音頻輸入設備402和輸出設備404；這些設備也被連接到總線410上。數(shù)據處理器包括CPU 412，其在保存于非易失性程序存儲設備416中的軟件程序的控制下運行，并使用易失性存儲設備418以來保存程序執(zhí)行的臨時結果。該數(shù)據處理器還包括音頻信號分析器414，其用于分析音頻信號以提取特征；作為替代，該功能也可以由受軟件控制的CPU執(zhí)行。存儲設備408通常存儲許多音頻信號，例如用戶的整個音樂庫。保存于存儲設備中的全部音頻信號、或者其中包括多個音頻信號的一部分音頻信號(子集)被分析；對于要被分析的所存儲的多個音頻信號的識別可以由數(shù)據處理器400根據用戶偏好確定，正如前面所討論的那樣。在那些已分析的音頻信號中，隨后可以基于所提取的特征和用戶偏好之間的比較而將其中的兩個或多個不依賴于用戶地排序成一個序列，以使得序列中相鄰的信號為和諧的。接收設備406是任何能夠接收用戶偏好的合適設備；其例子包括用戶接口和網絡接口。后者可以是有線的或者無線的(它的一個例子關于下面的圖6描述)。用戶偏好本身可以是從一個簡單的調用到更加復雜的偏好，其例如指定情緒、主題和/或者將被識別的多個音頻信號的標識。可選擇地，音頻輸入設備402用于接收音頻信號，數(shù)據處理器400接著安排來將所述音頻信號存儲在存儲設備408中。能夠接收音頻信號的合適的音頻輸入設備的例子包括廣播電臺調諧器(例如AM、FM、電纜、衛(wèi)星)、因特網接入設備(例如PC中的因特網瀏覽器裝置)、有線或者無線網絡接口(例如用于接入計算機網絡和因特網)和調制解調器(例如電纜、撥號、寬帶等等)。同樣可選擇地，輸出設備404被提供于所述系統(tǒng)中，然后在數(shù)據處理器400的控制下，所述輸出設備依照所述序列輸出多個音頻信號中的至少兩個音頻信號。輸出信號可以是模擬的或者數(shù)字的格式。優(yōu)選地，輸出設備404能夠將序列中的當前輸出信號與緊隨的信號交叉衰落。可代替地，輸出設備的功能也可以由數(shù)據處理器400執(zhí)行。
圖5表示總體示為500的圖4系統(tǒng)的第一應用的示意圖，其被實現(xiàn)為數(shù)字音樂自動電唱機，用于將多個音頻信號排序成一個序列。該自動電唱機包括從用戶接口508接收用戶偏好510的處理器502。該用戶接口可以允許用戶通過單擊鍵盤來輸入用戶偏好，例如選擇諸如“派對”、“浪漫”之類的預設流派類型或者其它預定的偏好。這樣的用戶接口提供了在便攜式產品中的容易的使用和緊湊的實現(xiàn)方式。響應于接收到的用戶偏好，處理器502接著從庫504中讀取音頻信號506，如早先討論的那樣執(zhí)行分析和排序，并輸出音頻信號512至輸出設備514，該輸出設備在處理器502的控制下執(zhí)行音頻信號的交叉衰落。充當音頻信號輸入設備的接口518可以用于從自動電唱機外部的源接收另外的音頻信號，例如從外部PC或者調諧器接收。合適的接口的例子包括有線接口(如RS232、以太網、USB、火線、S/PDIF)和無線接口(如IrDA、藍牙、ZigBee、IEEE802.11、HiperLAN)。音頻信號可以是模擬的或者數(shù)字的。合適的數(shù)字音頻信號格式的例子包括AES/EBU、CD音頻、WAV、AIFF和MP3。更加復雜的用戶偏好的確定也可以利用另一種產品的用戶接口來實現(xiàn)，該另一種產品例如是可通過接口518連接到自動電唱機500的PC；接著可以使用該接口將用戶偏好加載到自動電唱機中，在這種情況下，該接口充當接收設備。通過接口載送的內容516因此可以包括音頻信號和/或用戶偏好。此外，接口518可以借助于如上所述的一個或者多個接口類型來實現(xiàn)，例如IrDA(舉例來說，用于傳送用戶偏好)和模擬音頻的組合；作為替代，單一接口(例如USB)可以支持將音頻信號和用戶偏好從外部系統(tǒng)傳輸?shù)阶詣与姵獧C。
圖6為圖4系統(tǒng)的第二應用的示意圖，其由網絡服務提供商實現(xiàn)，用于將多個音頻信號排序成一個序列。響應于用戶偏好624，系統(tǒng)602可以從音頻輸入設備610(由音頻信號庫612和適于通過廣播和前述的網絡傳送裝置從源接收音頻信號的調諧器614構成)中讀取音頻信號616。服務器606分析和排序這些音頻信號，并將其轉發(fā)至輸出設備608，該輸出設備在服務器606的控制下執(zhí)行音頻信號的交叉衰落，并將輸出信號轉換成適合傳輸?shù)街T如PC/pda 630的終端用戶設備或者無線電628(或者由其接收)的格式(例如TCP/IP上的HTTP或者RF調制)。這樣，服務提供商可以根據用戶偏好624生成和輸出經排序的音頻信號序列626。這樣的用戶偏好可以是單獨的偏好或者由服務提供商從一組已接收的單獨偏好中得出的集合偏好；后一情況在僅有有限帶寬可用于傳送音頻信號至終端用戶時尤為有用，例如在通過無線電廣播傳送時。在此例中，用戶使用移動電話618確定偏好；該偏好接著作為SMS消息620通過GSM網絡622被轉發(fā)。服務提供商使用GSM接收機604接收SMS消息；在由GSM接收機解碼SMS消息之后，用戶偏好624被轉發(fā)至服務器606。
前述的方法和實現(xiàn)方式僅以舉例的方式呈現(xiàn)并且代表對一系列方法和實現(xiàn)方式的選擇，其可以容易地由本領域技術人員識別以利用本發(fā)明的各優(yōu)點。
在如上的描述中并參考圖1，公開了一種用于將多個音頻信號排序成一個序列的方法，包括接收(104)用戶偏好；分析(108)多個音頻信號以提取內在特征；以及不依賴于用戶地基于所提取的特征和用戶偏好之間的比較而將所述多個音頻信號中的至少兩個排序(110)成一個序列，以使得序列中相鄰的信號是和諧的。所述多個音頻信號可以根據用戶偏好被識別(106)。經排序的音頻信號可以被輸出(112)。
權利要求
1.一種用于將多個音頻信號排序成一個序列的方法，包括-接收(104)用戶偏好；-分析(108)所述多個音頻信號以提取內在特征；以及-不依賴用戶地基于已提取的特征和用戶偏好的比較來將所述多個音頻信號中的至少兩個音頻信號排序(110)成一個序列，以使得序列中的相鄰信號是和諧的。
2.如權利要求1中所述的方法，其中所述多個音頻信號依照用戶偏好被識別(106)。
3.如權利要求1或者2中所述的方法，其中所提取的內在特征是音樂的特征。
4.如權利要求3中所述的方法，其中所述序列中的相鄰音頻信號具有相關的音樂音調。
5.如權利要求4中所述的方法，其中所述相關的音樂音調(200)根據平調音階被確定。
6.如任一前述權利要求中所述的方法，還包括根據所述序列輸出(112)所述至少兩個音頻信號。
7.如權利要求6中所述的方法，其中當前的輸出信號(302)被與序列中緊隨的信號(304)交叉衰落，以呈現(xiàn)連續(xù)的輸出。
8.如權利要求7中所述的方法，其中所述交叉衰落依賴于當前信號和序列中緊隨的信號的各自的低音音符幅度。
9.如權利要求8中所述的方法，其中在所述交叉衰落的時間間隔期間，每個音頻信號的低音音符幅度小于對應音頻信號的最大低音幅度的七分之一。
10.一種用于將多個音頻信號排序成一個序列的系統(tǒng)，包括-適于接收用戶偏好的接收設備(406)；-適于存儲音頻信號的存儲設備(408)；-數(shù)據處理器(400)，適于分析所述多個音頻信號以提取內在特征，以及不依賴用戶地基于所提取的特征和用戶偏好的比較來將所述多個音頻信號中的至少兩個音頻信號排序成一個序列，以使得序列中的相鄰信號是和諧的。
11.如權利要求10中所述的系統(tǒng)，其中所述數(shù)據處理器(400)適于根據用戶偏好識別所述多個音頻信號。
12.如權利要求10或者11中所述的系統(tǒng)，還包括適于接收音頻信號的音頻輸入設備(402)，其中數(shù)據處理器(400)適于存儲所接收的音頻信號。
13.如權利要求10到12的任一條中所述的系統(tǒng)，還包括適于根據所述序列輸出所述多個音頻信號中的至少兩個音頻信號的輸出設備(404)，其中數(shù)據處理器(400)適于控制所述輸出設備。
14.如權利要求13中所述的系統(tǒng)，其中所述輸出設備適于將當前的輸出信號與序列中緊隨的信號交叉衰落。
15.包括適于執(zhí)行如權利要求1到9中的任一條所述的方法的軟件的記錄載體。
16.被配置用于執(zhí)行如權利要求1到9中的任一條所述的方法步驟的軟件應用。
17.一種包括數(shù)據處理器的系統(tǒng)，所述數(shù)據處理器在操作中由如權利要求16中所述的軟件應用指導。
全文摘要
一種用于將多個音頻信號排序成一個序列的方法，包括接收(104)用戶偏好；分析(108)所述多個音頻信號以提取內在特征；以及不依賴用戶地基于所提取的特征和用戶偏好的比較來將所述多個音頻信號中的至少兩個音頻信號排序(110)成一個序列，以使得序列中的相鄰信號是和諧的。所述多個音頻信號可以根據用戶偏好被識別(106)。經排序的音頻信號可以被輸出(112)。
文檔編號G10H3/00GK1729507SQ200380106829
公開日2006年2月1日申請日期2003年12月10日優(yōu)先權日2002年12月20日
發(fā)明者D·A·埃維斯, C·托爾內申請人:皇家飛利浦電子股份有限公司

完整全部詳細技術資料下載