專利名稱:用于對音樂進行分類的方法
技術領域:
本發(fā)明涉及一種用于對音樂進行分類的方法。本發(fā)明尤其涉及一種用于自動檢測音樂基調(mood)的方法。
最近幾年中出現(xiàn)了所謂的移動音樂播放器,由于這些移動音樂播放器仍在增大允許存儲非常大數(shù)量的存儲項的存儲能力,所以這些移動音樂播放器能夠提供可比較的大量音樂或可比較的大量音樂片段。但是,這些移動音樂播放器就對所存儲的音樂片段的選擇和分類過程而言有時不太方便。有時,要由這種移動音樂播放器的用戶進行的音樂片段的分類和/或選擇過程變得困難。
因此,本發(fā)明的目的是提供一種用于對音樂進行分類的方法,該方法能夠以簡單的方式可靠地提供未分類的音樂片段的分類。
該目的通過根據(jù)獨立權利要求1的第一解決方案和根據(jù)獨立權利要求31的第二解決方案的用于對音樂進行分類的方法來實現(xiàn)。用于對音樂進行分類的本發(fā)明方法的優(yōu)選實施方案在從屬權利要求的范圍內。該目的此外通過分別根據(jù)權利要求41、42和43的用于對音樂進行分類的系統(tǒng)、相應的計算機程序產(chǎn)品以及計算機可讀存儲介質來實現(xiàn)。
根據(jù)該目的的第一解決方案的用于對音樂進行分類的本發(fā)明方法包括以下步驟(a)提供音樂分類數(shù)據(jù),這些音樂分類數(shù)據(jù)描述有限數(shù)量的音樂種類的離散和有限集合,(b)提供要分類的未分類的音樂片段,以及(c)針對所述音樂種類集合的所述音樂種類中的每一個導出關于所述要分類的未分類的音樂片段的相應Gish距離值,從而得到有限數(shù)量的Gish距離值的離散和有限集合,其中所述有限數(shù)量的Gish距離值的有限集合描述所述要分類的未分類的音樂片段與所述有限數(shù)量的音樂種類的離散和有限集合的關系。
另外,可以包括一個另外的步驟(d),根據(jù)該步驟,在所述Gish距離值集合中,確定至少一個最小Gish距離值,并且因此確定所述音樂種類集合中的對應于所述最小Gish距離值的顯著的最小化音樂種類。
此外,可以包括步驟(e)將所述最小化音樂種類選擇為所述要分類的未分類的音樂片段的特征種類。
因此,本發(fā)明的一個主要思想是從所提供的音樂種類中導出關于所述未分類的音樂片段的相應Gish距離值,以及從由此所收集的Gish距離值集合中得到關于所述未分類的音樂片段的相應Gish距離值。
另外,可以優(yōu)選地得到最小Gish距離值并且由此得到表征該未分類的音樂片段的、使Gish距離值最小化的音樂種類形式的顯著特征種類。
根據(jù)本發(fā)明的優(yōu)選實施方案,Gish距離值根據(jù)等式(1)來計算Dj:=D(s.cj)def=log(L(s|m(s))·L(cj|m(cj))L(s+cj|m(s+cj)))---(1)]]>其中j=1,...,n。在等式(1)中,s表示要分類的未分類的音樂片段或其一部分。符號+表示相應音樂片段或其部分的拼接操作。符號cj(其中j=1,...,n)表示相應音樂種類或其代表或其代表的一部分。符號m(·)表示關于相應音樂片段的相應模型或模型構建操作。符號L(x|y)表示當給出模型y時觀察到音樂片段x、數(shù)據(jù)集x、或其一部分x的似然性。
優(yōu)選的是將高斯密度模型用作模型m(·)。
優(yōu)選地,只使用一個單個全協(xié)方差高斯密度。
另外地或替代地,可以將多變量模型用作模型m(·)。
根據(jù)本發(fā)明的一個優(yōu)選的并且有利的實施方案,所述提供所述音樂分類數(shù)據(jù)的步驟(a)是或包括接收和/或產(chǎn)生所述音樂分類數(shù)據(jù)或其一部分的過程或所述過程的一部分。
另外地或作為一種替代方案,所述提供要分類的未分類的音樂片段的步驟(b)可以包括尤其從外部源接收所述要分類的未分類的音樂片段或其一部分的過程或所述過程的一部分。
所述音樂分類數(shù)據(jù)和/或模型m(·)可以基于完整的歌曲或完整的音樂片段或基于其特征部分。
另外的優(yōu)點是所述導出所述Gish距離值的步驟(c)和/或所述檢測所述最小Gish距離值的步驟(d)構建或包括將所述要分類的未分類的音樂片段或其所述相應部分與多個或全部音樂種類進行比較并且由此在由所述音樂分類數(shù)據(jù)所限定的并且尤其是由所述音樂種類所限定的基調空間中定位所述未分類的音樂片段或其所述相應部分的過程。
根據(jù)本發(fā)明的另一有利的實施方案,用于對音樂進行分類的本發(fā)明方法包括提供歌曲分類數(shù)據(jù)的步驟(f),這些歌曲分類數(shù)據(jù)描述所述要分類的未分類的音樂片段或其相應部分與所述音樂種類之間的關系并且因此根據(jù)所述音樂種類對所述未分類的音樂片段或其相應部分進行分類。
根據(jù)本發(fā)明的另一優(yōu)選實施方案,可以對所述音樂片段和/或其部分進行采樣。
在這種情況下,可以使用大約22kHz的采樣頻率。
此外,因此所述音樂片段和/或其部分可以被分割成幀。
在這種情況下,可以使用大約32ms的幀長度。
另外地或替代地,可以使用約為50ms的幀速率。
另外地或替代地,可以在計算相應的FFT之前對每一幀加漢明窗。
根據(jù)另一優(yōu)選的并且有利的實施方案,從相應的FET可以得出相應的功率譜,并且可以將該相應的功率譜向量用作特征向量計算的基礎。
在這種情況下,所述特征向量可以被梅爾刻度彎曲(melscalewarped)。
優(yōu)選地,可以使用30個梅爾刻度系數(shù)。
而且,所述梅爾刻度系數(shù)可以被對數(shù)化(logarithmized)。
在這種情況下,所述對數(shù)化的梅爾刻度系數(shù)可以經(jīng)受離散傅里葉反變換。
從所述對數(shù)化的梅爾刻度系數(shù)的離散傅里葉反變換可以得出每一幀的(尤其是13個)倒頻譜系數(shù)的集合。
從所述每一幀的倒頻譜系數(shù)的集合可以計算出一個或任意多個頻譜中心、頻譜流量和頻譜滑動。
所述頻譜中心的、所述頻譜流量的和/或所述頻譜滑動的方差可以被計算。
在這種情況下,所述頻譜中心的、所述頻譜流量的和/或所述頻譜滑動的所述方差可以在具有Q個相鄰幀的窗口的范圍內被計算,其中尤其是Q的范圍是5-20。
有利地,所述方差被視作參數(shù)。
根據(jù)另一優(yōu)選實施方案,根據(jù)所述Gish距離值集合,導出所述要分類的音樂片段或其所述部分的、尤其是具有至少三個數(shù)的n元組形式的音樂分類數(shù)據(jù)。
本發(fā)明第一方法的另一有利實施方案包括(f)為要分類的給定音樂片段獲得/提供代表所述音樂片段或其所述部分的基調的、具有至少三個數(shù)的n元組形式的音樂分類數(shù)據(jù)以及(g)從所述音樂分類數(shù)據(jù)的所述n元數(shù)組中確定代表所述音樂片段或其所述部分的基調的一對二維坐標值的步驟。
根據(jù)所述目的的第二解決方案的用于對音樂進行分類的本發(fā)明方法包括(f)為要分類的給定音樂片段獲得/提供代表所述音樂片段或其所述部分的基調的、具有至少三個數(shù)的n元組形式的音樂分類數(shù)據(jù)以及(g)從所述音樂分類數(shù)據(jù)的所述n元數(shù)組中確定代表所述音樂片段或其所述部分的基調的一對二維坐標值的步驟。
另外地或替代地,笛卡爾坐標和/或極坐標可以被用作二維坐標值。
此外,三個一組的數(shù)可以被用作所述n元數(shù)組。
優(yōu)選地,所述三個一組的數(shù)由所述音樂片段或其所述部分的三個基調值構成。
在這種情況下,根據(jù)所述音樂片段或其所述部分,所述基調值分別被選擇用于對基調“高興的”、“悲傷的”和“積極的(aggressive)”進行分類。
在本發(fā)明方法的優(yōu)選實施方案中,根據(jù)下式確定作為二維坐標值的笛卡爾坐標x=j·cos(π/6)-s·cos(π/6) (1a)y=α-j·sin(π/6)-s·sin(π/6)(1b)-其中x,y分別表示所述第一和第二笛卡爾坐標值,以及-其中j,s,a分別表示所述音樂片段或其所述部分的所述音樂分類數(shù)據(jù)的、尤其是標準化形式的并且此外尤其是分別相對于所述基調“高興的”、“悲傷的”和“積極的”的所述第一個、第二個和第三個數(shù)。
根據(jù)本發(fā)明方法的另一實施方案,根據(jù)下式確定作為二維坐標值的極坐標r=x2+y2---(2a)]]>φ=12π·arctan(y/x)---(2b)]]>-其中r,φ分別表示極半徑和極角坐標值,以及-其中x,y表示尤其是根據(jù)等式(1a)、(1b)的二維笛卡爾坐標值。
根據(jù)尤其是標準化形式的二維坐標值,可以產(chǎn)生描述顏色的一個或多個顏色值,這些值描述所述音樂片段或其所述部分的基調。
在這種情況下,這個顏色值和/或這些顏色值可以根據(jù)HSV系統(tǒng)來確定。
尤其是,這個顏色值和/或這些顏色值可以根據(jù)所述HSV系統(tǒng)按下式來確定h=φ (3a)s=r(3b)v=1.0,(3c)-其中h,s,v分別表示HSV顏色值色調、飽和度、和值,以及-其中r,φ分別表示尤其是根據(jù)等式(2a)、(2b)的二維極半徑和極角坐標值。
根據(jù)本發(fā)明的另一方面,提供了一種用于對音樂進行分類的系統(tǒng),該系統(tǒng)被適配和/或被布置并且該系統(tǒng)包含裝置,以便實現(xiàn)用于對音樂進行分類的本發(fā)明方法及其步驟。
根據(jù)本發(fā)明的另一方面,提供了一種包括計算機程序裝置的計算機程序產(chǎn)品,該計算機程序產(chǎn)品被布置和/或被適配,以便當它在數(shù)字信號處理裝置或計算機上被執(zhí)行時實現(xiàn)用于對音樂進行分類的本發(fā)明方法或用于對音樂進行分類的本發(fā)明步驟。
本發(fā)明的又一方面是提供一種包含本發(fā)明計算機程序產(chǎn)品的計算機可讀存儲介質。
在下文中,通過參考下列評論,本發(fā)明的這些和其它方面將變得更加清楚
本發(fā)明尤其涉及用于自動檢測音樂基調的方法和裝置。
隨著提供用于非常多的音樂片段的巨大存儲能力、但具有不允許包含屏幕或鍵盤的形狀因素和尺寸的移動音樂播放器的發(fā)展,音樂選擇問題變得越來越重要。在許多調查中,用戶已表現(xiàn)出將他們的心情或音樂基調用作音樂選擇的選擇標準的偏愛。但是,音樂基調是到目前為止需要人工標記的概念,如果大規(guī)模地執(zhí)行,則人工標記是極其麻煩和昂貴的。我們提出一種系統(tǒng),該系統(tǒng)能夠自動地確定任何音樂片段的基調并自動地為音樂分配基調標簽。
自動從音樂得出基調的大多數(shù)嘗試均限于符號數(shù)據(jù)(例如音樂的MIDI表示)。但是,大多數(shù)音樂不能以符號形式得到,因此這種方法的可用性非常有限。微軟研究中心的Dan Liu、Lie Lu和Hong-JiangZhang創(chuàng)建了(據(jù)我們所知)唯一的處理古典音樂的這種系統(tǒng)。與我們的系統(tǒng)相比,他們的系統(tǒng)使用基調的Thayer模型并且采用分級結構,這使用戶適應已經(jīng)訓練過的系統(tǒng)變得不可能并且也使得引入新的基調種類變得非常困難[1]。
目前沒有從大的歌曲集(數(shù)據(jù)庫)中選出一首歌的快速且可靠的方法。分級的、基于列表選擇的、基于選擇并點擊的圖形范例的方法需要幾種基本操作并且麻煩,而語音命令選擇是直接且簡單的,但具有高的語音識別誤差率。另外,在許多情況下,用戶對為新音樂體驗而研究給定的數(shù)據(jù)庫有強烈的興趣,而這在選擇已知的音樂片段的情況下不能以任何選擇范例來實現(xiàn)。
本發(fā)明的一個目的是簡化用于瀏覽音樂數(shù)據(jù)庫并從該音樂數(shù)據(jù)庫中選擇歌曲的容易且直觀的方法,而無需昂貴且費時地為該數(shù)據(jù)庫中的歌曲人工創(chuàng)建元數(shù)據(jù)。
這種能夠自動地確定音樂基調的系統(tǒng)能被分解成三個子系統(tǒng)選擇學習集,創(chuàng)建基調模型,以及利用預先計算出的基調模型確定給定音樂的基調。主要的發(fā)明步驟在第三子系統(tǒng)中,而一些附加的相關的和新穎的擴展在第一子系統(tǒng)中。
在所述第一子系統(tǒng)中,代表基調的學習集被選擇。在最簡單的形式中,這能夠通過為每個所期望的基調類別選擇一些音樂片段來完成。例如,如果期望有三種基調類別[高興的、積極的、悲傷的],則這可以通過為這三個類別中的每一個選擇多首(例如N=10)歌曲來完成10首高興的歌曲、10首悲傷的歌曲、和10首積極的歌曲。在最簡單的方案中,這是所需要的全部。然而,將整首歌曲視為給定基調的代表會使人誤解。例如,雖然許多歌曲的一些部分(在許多情況下開頭)相當悲傷,可是主要部分是積極的(合唱部分,或就與該歌曲的剩余部分的平均相似性而言最有代表性的部分,或包含歌唱的部分),它們仍被歸類為積極的。因此,有利的是僅從歌曲中提取一部分以便創(chuàng)建基調模型,而不是取整首歌。然而,如果實現(xiàn)了這種方案,那么重要的是在所述第三子系統(tǒng)中使用相同的方案,其中將未知歌曲與該基調模型進行比較;因此,只能使用用于提取歌曲的相關部分的自動裝置。尤其是,在SSG的早期的專利申請中已經(jīng)描述了一種提取音樂的相關部分的系統(tǒng),并且本發(fā)明的教導能夠被用于此目的。在另一從屬權利要求中,應當注意,每種情緒的音樂片段的選擇將最終決定整個系統(tǒng)的工作方式,因此,該選擇能夠由用戶訪問以便使該系統(tǒng)適配于其個人品位。例如,在這種情況下,用戶能夠例如將一首歌添加到任一類別中,然后該系統(tǒng)將重新訓練模型。這允許用戶在該系統(tǒng)中實現(xiàn)他或她自己的基調感覺(用戶適配),而無需以任何方式改變所述系統(tǒng)的結構。
所述三個子系統(tǒng)中的第二子系統(tǒng)根據(jù)先前所確定的音樂片段集(根據(jù)在所述第一子系統(tǒng)中所使用的提取方法,該音樂片段集可以是由系統(tǒng)開發(fā)者或用戶手選的音樂片段的部分或全部)計算基調模型。音樂被采樣(已經(jīng)證明22kHz的采樣頻率足夠了),因此如果應減少存儲,那么44.1kHz的立體聲片段能夠被下采樣為22kHz,并且立體聲通道能夠被組合成一個單通道,并分割成32ms長的幀,其中幀速率為50ms。當然可以使用其它幀速率和幀長度。對每一幀加漢明窗,并計算FFT。根據(jù)該FFT得出功率譜。該功率譜向量用作特征向量計算的基礎。首先,像在語音識別中一樣,將它們梅爾刻度彎曲(參見相關文獻)為30個梅爾刻度系數(shù)、對數(shù)化,并計算反DFT變換,從而產(chǎn)生每一幀的具有13個倒頻譜系數(shù)的集合。其次,計算所述頻譜中心、頻譜流量和/或頻譜滑動,并且它們在具有Q個相鄰幀的窗口的范圍內的方差被視作參數(shù),其中Q的典型值的范圍為5-20。頻譜中心、頻譜流量和頻譜滑動均在文獻[2]中被解釋。
針對每個種類(悲傷、高興等等),得到這樣所計算的參數(shù)向量,并且根據(jù)它以最大似然形式計算一個單個全協(xié)方差高斯密度。所產(chǎn)生的正態(tài)分布用作基調識別器的三個子系統(tǒng)中的第三子系統(tǒng)的基調模型。
所述三個子系統(tǒng)中的第三子系統(tǒng)獲得基調模型(每個都是多變量高斯密度)的集合和未知的音樂片段,并通過比較每個基調模型和從該未知音樂片段導出的基調模型的相似性來計算該未知音樂片段的基調。為了實現(xiàn)這一點,首先在前兩個子系統(tǒng)中將該未知音樂片段處理為訓練集音樂如果合適,則在所述第一子系統(tǒng)中提取出其最相關的部分,然后在所述第二子系統(tǒng)中進行預處理并在所述第三子系統(tǒng)中計算多變量高斯密度。結果就是未知歌曲的多變量高斯密度。使用該模型和預先計算出的基調模型,利用所謂的Gish距離D來計算未知模型和基調模型之間的距離D(s1,s2)def=log(L(s1|m(s1))·L(s2|m(s2))L(s1+s2|m(s1+s2)))·---(2)]]>其中符號L(sX|m(sX))表示對于X=1,2,觀察到sX的給定多變量高斯密度模型m(sX)的數(shù)據(jù)序列sX的似然性。符號m(s1+s2)表示為歌曲或音樂片段或聲音s1和s2的拼接所創(chuàng)建的模型。符號s1+s2表示歌曲或音樂片段或聲音s1和s2的拼接。如果如迄今為止所提出的那樣為單個高斯正態(tài)密度m或單個高斯正態(tài)密度模型m計算等式(2),那么存在一個有效的公式,其中當s1是未知歌曲并且s2是當前基調的訓練集歌曲的所有相關部分或歌曲的拼接時,無需存儲這些歌曲或音樂片段或聲音s1和s2。當然,可以使用其它模型來計算等式(2)中的項。然而,在這種情況下,公式的評價是明顯更繁重的。
在針對所有基調模型評價了等式(2)之后,選擇所產(chǎn)生的三個距離中的最小距離并將產(chǎn)生了該最小距離的基調模型選擇作為音樂片段的暫定基調。也可以并且非常有用的是根據(jù)到所述基調模型的距離建立標準化向量。根據(jù)例如三種基調,所產(chǎn)生的三維向量在“基調空間”中給出一個坐標,該基調空間可被用于利用一個或多個基調軸來導航并定位歌曲。所產(chǎn)生的空間是高度不均勻分布的,各個維完全不獨立,因此有利的是在目標空間中計算使變換(PCA,或Karhunen-Loewe變換)標準化并且對數(shù)化的方差,利用大的測試歌曲集來計算該變換。在坐標變換之后,所產(chǎn)生的空間能夠適當?shù)乇挥糜谠谝魳坊{空間中導航。還必須記住的是,Euclidean距離即使在變換后的空間中也不是一個量度,因為它由于等式(2)的Gish距離的特性而不總是滿足三角不等式。
所提出的本發(fā)明允許在相對短的時間內并利用適度的計算資源自動生成具有非常高的質量的音樂基調標記。所述系統(tǒng)能夠被擴展為僅集中于音樂的部分,并且基調個人觀念的個性化是容易的,以便能夠處理任何給定音樂片段的個人感覺差異。基調空間能夠自動地被構建,該基調空間允許在該基調空間內定位歌曲并且該基調空間因此能夠被用于音樂選擇。
問題為了將所提供的歌曲基調數(shù)據(jù)(每首歌曲的至少三個、尤其是無限的、無符號的數(shù))轉換為線性可視界面。
解決方案概述從“庫”(歌曲集)中為每首歌曲輸入三個“基調”值;這些值在內部被稱為“高興的”、“悲傷的”和“積極的”。根據(jù)該庫中的最大和最小值將這些值標準化,因此各自具有
的值,并被存儲在數(shù)據(jù)庫中。
接著,通過首先將這三個“基調”值轉換成笛卡爾坐標并且然后從笛卡爾坐標轉換成極坐標,將每首歌曲映射到一種顏色上。
從歌曲“基調”值到笛卡爾坐標的轉換利用下面的公式來完成x=j·cos(π/6)-s·cos(π/6)和y=α-j·sin(π/6)-s·sin(π/6),其中“x”是橫坐標,“y”是縱坐標,“j”是歌曲“高興的”值,“s”是歌曲“悲傷的”值,“a”是歌曲“積極的”值。
從笛卡爾坐標到極坐標的轉換利用下面的(標準)公式來完成r=x2+y2]]>以及φ=12π·arctan(y/x),]]>其中“r”是半徑,“φ”是弧度角,“x”是橫坐標,“y”是縱坐標。
半徑值通過所述庫被標準化到范圍
。然后利用HSV顏色系統(tǒng)將這個標準化的極坐標映射為一種顏色。所述HSV顏色系統(tǒng)用3個值來定義顏色;這些值是色度
、飽和度
和值
。
值顏色通過下面的公式來確定h=φ,s=r,v=1.0,其中“h”是色度,“s”是飽和度,“v”是值,“r”是半徑,“φ”是弧度角。
總結通過將歌曲的三個“基調”值映射到二維中、然后映射到顏色空間中,可以用色度(即歌曲“基調”)和飽和度(即歌曲“基調”強度)來對歌曲庫進行導航。較飽和的顏色指示具有高強度的特定“基調”的歌曲。它還允許用戶利用僅僅使用2個輸入值的界面以簡單的方式對所述庫進行導航。
本發(fā)明的這些和其它方面將通過參考附圖進一步進行論述。
圖1是描述用于對音樂進行分類的本發(fā)明方法的一個優(yōu)選實施方案的一些基本特征的流程圖。
圖2、3是用于說明二維和彩色映射的基本思想的二維和著色表示。
圖1的用于對音樂進行分類的本發(fā)明方法的示意性描述的實施方案包括連續(xù)的第一至第五處理步驟(a)-(e)。
在第一步驟(a)中,提供音樂分類數(shù)據(jù)MCD。這些音樂分類數(shù)據(jù)可以至少部分地由音樂種類c1,...,cn的集合Γ來給出。在最簡單的情況下,這些音樂種類c1,...,cn可以是音樂的樣本片段,每個樣本片段都是不同的音樂基調或音樂種類的實例。所述音樂分類數(shù)據(jù)還可以基于對樣本片段或對給定種類c1,...,cn的狹義評價和分類過程。這種狹義評價在上面已經(jīng)描述過了。
在接著的第二步驟(b)中,提供必須按照用于對音樂進行分類的本發(fā)明方法來分類的未分類的音樂片段s。
根據(jù)該未分類的音樂片段s,在接著的第三步驟(c)中,導出Gish距離值Dj=D(s,cj)(其中j=1,...,n)的集合ΓΓ={D1,...,Dn}。
在接著的第四步驟(d)中,將最小Gish距離值Djmin檢測為所述集合Γ的最小值Djmin=min{D1,...,Dn}。
最后,在第五步驟(e)中,不同的音樂種類cjmin被檢測并被選擇為要分類的所述未分類的音樂片段s的表征種類cs。cjmin是來自音樂種類c1,...,cn的集合Γ的不同種類,針對該種類獲得所述最小Gish距離值Djmin。該未分類的音樂片段s能夠被稱為不同分類音樂種類cjmin的下一相鄰種類,反之亦然。還可以根據(jù)所檢測到的Gish距離值的相應閾值條件通過包含一定數(shù)量的下一相鄰種類的Γ的子集對所述未分類的音樂片段s進行分類。在這種情況下,基于多個音樂種類的表征可以更完善,并且可以包含用于要分類的音樂片段s的更好的信息和分類。
圖1和2是用于說明二維和彩色映射的基本思想的二維和著色表示。
參考符號cj 音樂種類,j=1,...,ncjmin 最小化音樂種類cs 特征種類Dj Gish距離值,j=1,…,nDjmin 最小Gish距離值MCD音樂分類數(shù)據(jù)s 要分類的未分類的音樂片段SCD歌曲分類數(shù)據(jù)Γ 音樂種類集合Δ Gish距離值集合所引用的文獻[1]Dan Liu,Lie Lu,H.J.Zhang在Proceedings ISMIR 2003中發(fā)表的Automatic Mood Detection from Acoustic Music Data,Baltimore,MD。George Tzanetakis和Perry Cook在IEEE Transactions onspeech and audio processing中發(fā)表的Musical GenreClassification of Audio Signals,第10卷,第5期,2002年7月。
權利要求
1.用于對音樂進行分類的方法,包括以下步驟(a)提供音樂分類數(shù)據(jù)(MCD),這些音樂分類數(shù)據(jù)描述有限數(shù)量(n)的音樂種類(c1...,cn)的離散和有限集合(Γ),(b)提供要分類的未分類的音樂片段(s),(c)針對所述音樂種類的集合(Γ)的所述音樂種類(c1...,cn)中的每一個,導出關于所述要分類的未分類的音樂片段(s)的相應Gish距離值(D1...,Dn),從而得到有限數(shù)量(n)的Gish距離值(D1...,Dn)的離散和有限集合(Δ),其中所述有限數(shù)量(n)的Gish距離值(D1...,Dn)的有限集合(Δ)描述所述要分類的未分類的音樂片段(s)與所述有限數(shù)量(n)的音樂種類(c1...,cn)的離散和有限集合(Γ)的關系。
2.根據(jù)權利要求1的方法,進一步包括步驟(d)在所述Gish距離值(D1...,Dn)的集合(Γ)中檢測至少一個最小Gish距離值(Djmin),并且尤其是由此在音樂種類(c1...,cn)的集合(Γ)中確定對應于所述最小Gish距離值(Djmin)的顯著的最小化音樂種類(cjmin)。
3.根據(jù)權利要求2的方法,進一步包括步驟(e)將所述最小化音樂種類(cjmin)選擇作為所述要分類的未分類的音樂片段(s)的特征種類(cs)。
4.根據(jù)前述權利要求中的任何一個的方法,-其中所述Gish距離值(D1...,Dn)根據(jù)等式(1)來計算Dj:=D(s,cj)def=log(L(s|m(s))·L(cj|m(cj))L(s+cj|m(s+cj)))---(1)]]>其中j=1...,n,-其中s表示要分類的未分類的音樂片段或其一部分,-其中“+”表示相應音樂片段的拼接操作,-其中對于j=1...,n,cj表示相應音樂種類或其代表或代表的一部分,-其中m(·)表示關于相應音樂片段的相應模型或模型構建操作,以及-其中L(x|y)表示當給出模型y時觀察到音樂片段、數(shù)據(jù)集x或其一部分x的似然性。
5.根據(jù)權利要求4的方法,其中高斯密度模型被用作模型m(·)。
6.根據(jù)前述權利要求4或5中的任何一個的方法,其中只使用一個單個全協(xié)方差高斯密度。
7.根據(jù)前述權利要求4-6中的任何一個的方法,其中多變量模型被用作模型m(·)。
8.根據(jù)前述權利要求中的任何一個的方法,其中所述提供所述音樂分類數(shù)據(jù)(MCD)的步驟(a)是或包括接收和/或產(chǎn)生所述音樂分類數(shù)據(jù)(MCD)或其一部分的過程或所述過程的一部分。
9.根據(jù)前述權利要求中的任何一個的方法,其中所述提供要分類的未分類的音樂片段(s)的步驟(b)包括尤其是從外部源接收所述要分類的未分類的音樂片段(s)或其一部分的過程或所述過程的一部分。
10.根據(jù)前述權利要求中的任何一個的方法,其中所述音樂分類數(shù)據(jù)(MCD)和/或模型m(·)基于完整的歌曲或音樂片段或基于其特征部分。
11.根據(jù)前述權利要求中的任何一個的方法,其中所述導出所述Gish距離值(D1...,Dn)的步驟(c)和/或所述檢測所述最小Gish距離值(Djmin)的步驟(d)建立或包含將所述要分類的未分類的音樂片段(s)或其所述相應部分與多個或全部音樂種類(c1...,cn)進行比較、并由此在由所述音樂分類數(shù)據(jù)(MCD)并且尤其是由所述音樂種類(c1...,cn)所限定的基調空間中定位所述未分類的音樂片段(s)或其所述相應部分的過程。
12.根據(jù)前述權利要求中的任何一個的方法,包括提供歌曲分類數(shù)據(jù)(SCD)并由此根據(jù)所述音樂種類(c1...,cn)對所述未分類的音樂片段(s)或其相應部分進行分類的步驟(f),這些歌曲分類數(shù)據(jù)描述所述要分類的未分類的音樂片段(s)或其相應部分與所述音樂種類(c1...,cn)的關系。
13.根據(jù)前述權利要求中的任何一個的方法,其中對所述音樂片段和/或其部分進行采樣。
14.根據(jù)權利要求13的方法,其中使用大約22kHz的采樣頻率。
15.根據(jù)前述權利要求13和14中的任何一個的方法,其中將所述音樂片段和/或其部分分割成幀。
16.根據(jù)權利要求15的方法,其中使用大約32ms的幀長度。
17.根據(jù)前述權利要求15和16中的任何一個的方法,其中使用大約50ms的幀速率。
18.根據(jù)前述權利要求15-17中的任何一個的方法,其中在計算相應的FFT之前對每一幀加漢明窗。
19.根據(jù)前述權利要求中的任何一個的方法,-其中從相應的FFT得出相應的功率譜,以及-其中相應的功率譜向量被用作特征向量計算的基礎。
20.根據(jù)權利要求19的方法,其中所述特征向量被梅爾刻度彎曲。
21.根據(jù)權利要求20的方法,其中使用30個梅爾刻度系數(shù)。
22.根據(jù)權利要求21的方法,其中所述梅爾刻度系數(shù)被對數(shù)化。
23.根據(jù)權利要求22的方法,其中所述對數(shù)化的梅爾刻度系數(shù)經(jīng)受離散傅里葉反變換。
24.根據(jù)權利要求23的方法,其中從所述對數(shù)化的梅爾刻度系數(shù)的所述離散傅里葉反變換得出每一幀的尤其13個倒頻譜系數(shù)的集合。
25.根據(jù)權利要求24的方法,其中根據(jù)每一幀的所述倒頻譜系數(shù)集合來計算頻譜中心、頻譜流量和頻譜滑動中的一個或任意多個。
26.根據(jù)權利要求25的方法,其中計算所述頻譜中心的、所述頻譜流量的和/或所述頻譜滑動的方差。
27.根據(jù)權利要求26的方法,-其中所述頻譜中心的、所述頻譜流量的和/或所述頻譜滑動的所述方差在具有Q個相鄰幀的窗口的范圍內被計算,-其中尤其是Q的范圍是5-20。
28.根據(jù)前述權利要求26或27中的任何一個的方法,其中所述方差被視作參數(shù)。
29.根據(jù)前述權利要求中的任何一個的方法,其中根據(jù)所述Gish距離值(D1...,Dn)的集合(Δ),得出所述要分類的音樂片段(s)或其所述部分的、尤其是具有至少三個數(shù)的n元組形式的音樂分類數(shù)據(jù)(MCD)。
30.根據(jù)權利要求29的方法,還包括以下步驟(f)為要分類的給定音樂片段(s)獲得/提供代表所述音樂片段(s)或其所述部分的基調的、具有至少三個數(shù)的n元組形式的音樂分類數(shù)據(jù)(MCD),(g)根據(jù)所述音樂分類數(shù)據(jù)(MCD)的所述n元數(shù)組確定代表所述音樂片段(s)或其所述部分的基調的一對二維坐標值(x,y;r,φ)。
31.用于對音樂進行分類的方法,包括以下步驟(f)為要分類的給定音樂片段(s)獲得/提供代表所述音樂片段(s)或其所述部分的基調的、具有至少三個數(shù)的n元組形式的音樂分類數(shù)據(jù)(MCD),(g)根據(jù)所述音樂分類數(shù)據(jù)(MCD)的所述n元數(shù)組確定代表所述音樂片段(s)或其所述部分的基調的一對二維坐標值(x,y;r,φ)。
32.根據(jù)前述權利要求30或31中的任何一個的方法,其中笛卡爾坐標(x,y)和/或極坐標(r,φ)被用作二維坐標值(x,y;r,φ)。
33.根據(jù)前述權利要求30-32中的任何一個的方法,其中三個一組的數(shù)(j,s,a)被用作所述n元數(shù)組。
34.根據(jù)權利要求33的方法,其中所述三個一組的數(shù)(j,s,a)由所述音樂片段(s)或其所述部分的三個基調值(j,s,a)構成。
35.根據(jù)權利要求34的方法,其中根據(jù)所述音樂片段(s)或其所述部分,所述基調值(j,s,a)分別被選擇用于對基調“高興的”、“悲傷的”和“積極的”進行分類。
36.根據(jù)前述權利要求30-35中的任何一個的方法,-其中根據(jù)下式來確定作為二維坐標值的笛卡爾坐標(x,y)x=j·cos(π/6)-s·cos(π/6) (1a)y=a-j·sin(π/6)-s·sin(π/6) (1b)-其中x,y分別表示所述第一和第二笛卡爾坐標值,以及-其中j,s,a分別表示所述音樂片段(s)或其所述部分的所述音樂分類數(shù)據(jù)(MCD)的、尤其是標準化形式的并且此外尤其是分別根據(jù)所述基調“高興的”、“悲傷的”和“積極的”的所述第一個、第二個和第三個數(shù)。
37.根據(jù)前述權利要求31-36中的任何一個的方法,-其中根據(jù)下式來確定作為二維坐標值的極坐標(r,φ)r=x2+y2---(2a)]]>φ=12π·arctan(y/x)---(2b)]]>-其中r,φ分別表示極半徑和極角坐標值,以及-其中x,y表示尤其是根據(jù)等式(1a)、(1b)的二維笛卡爾坐標值。
38.根據(jù)前述權利要求31-37中的任何一個的方法,其中根據(jù)尤其是標準化形式的二維坐標值(x,y;r,φ),產(chǎn)生描述顏色的一個顏色或多個顏色值(h,s,v),這些顏色值描述所述音樂片段(s)或其所述部分的基調。
39.根據(jù)權利要求38的方法,其中所述一個顏色和/或多個顏色值(h,s,v)根據(jù)HSV系統(tǒng)來確定。
40.根據(jù)前述權利要求38和39中的任何一個的方法,-其中所述一個顏色和/或多個顏色值(h,s,v)根據(jù)HSV系統(tǒng)按下式來確定h=φ, (3a)s=r , (3b)v=1.0,(3c)-其中h,s,v分別表示HSV顏色值色度、飽和度、和值,以及-其中r,φ分別表示尤其是根據(jù)等式(2a)、(2b)的二維極半徑和極角坐標值。
41.用于對音樂進行分類的系統(tǒng),該系統(tǒng)被適配和/或被布置并且該系統(tǒng)包含裝置,以便實現(xiàn)根據(jù)權利要求1-40中的任何一個的用于對音樂進行分類的方法及其步驟。
42.計算機程序產(chǎn)品,包括計算機裝置,該計算機程序產(chǎn)品被布置和/或被適配,以便當它在數(shù)字信號處理裝置或計算機上被執(zhí)行時實現(xiàn)根據(jù)權利要求1-40中的任何一個的用于對音樂進行分類的方法或根據(jù)權利要求41的用于對音樂進行分類的系統(tǒng)。
43.計算機可讀存儲介質,包括根據(jù)權利要求42的計算機程序產(chǎn)品。
全文摘要
提出了一種用于對音樂進行分類的方法,包括以下步驟提供音樂分類數(shù)據(jù)(MCD),提供要分類的未分類的音樂片段(s),針對所述音樂分類數(shù)據(jù)(MCD)中的每個音樂種類(c1,...,cn)導出相應的Gish距離值(D1,...,Dn),其中有限數(shù)量(n)的Gish距離值(D1,...,Dn)的有限集合(Δ)描述所述要分類的未分類的音樂片段(s)與有限數(shù)量(n)的音樂種類(c1,...,cn)的離散和有限集合(Γ)的關系。替代地,為要分類的給定音樂片段(s)獲得代表所述音樂片段(s)的基調的、具有至少三個數(shù)的n元組形式的音樂分類數(shù)據(jù)(MCD)。根據(jù)所述音樂分類數(shù)據(jù)(MCD)的所述n元數(shù)組確定代表所述音樂片段(s)的基調的一對二維坐標值。
文檔編號G06F17/30GK1985302SQ200580023228
公開日2007年6月20日 申請日期2005年7月8日 優(yōu)先權日2004年7月9日
發(fā)明者T·坎普, M·托洛斯 申請人:索尼德國有限責任公司