專利名稱:聲音分類裝置、方法、程序及集成電路的制作方法
技術領域:
本發(fā)明涉及多媒體內(nèi)容的處理技術,特別涉及利用了多媒體內(nèi)容所包含的聲音的分類技術。
背景技術:
近年來,帶運動圖像拍攝功能的便攜式電話機、數(shù)字視頻攝像機等的普及,使得個人用戶能夠持有龐大數(shù)量的多媒體內(nèi)容(在此設為帶聲音的運動圖像。以下僅稱作運動圖像。)。因此,日益需要有能夠高效地檢索運動圖像的手段。作為檢索運動圖像的方法,有如下的方法預先對運動圖像賦予標題或分類到多個類別中的某個中,通過該標題或類別進行檢索。此外,還有如下的方法預先對運動圖像制作縮略圖,通過并排顯示運動圖像的縮略圖,用戶能夠通過目視觀察而容易查找。但是,在這些方法中,需要進行對運動圖像預先賦予適當?shù)臉祟}、分類到類別中、 制作縮略圖等操作,會花費工時。然而,作為與運動圖像的分類有關的技術,公開了著眼于聲音來從體育的運動圖像中提取精華(highlight)部分的技術(參照專利文獻1)。在專利文獻1的技術中,從運動圖像所包含的聲音的短時間(30ms程度)的各區(qū)間提取特征,將表示特定特征(鼓掌、歡呼等)的聲音持續(xù)了一定時間以上的期間分類為精華部分。此外,作為與聲音的分類有關的技術,公開了以討論聲音為對象對未知說話者的發(fā)聲進行分類的技術(參照非專利文獻1)。在非專利文獻1的技術中,預先準備好多個說話者的特征數(shù)據(jù),通過聲音與各特征數(shù)據(jù)之間類似度進行聚類,由此對說話者的發(fā)聲區(qū)間進行分類。若使用上述兩種技術,則能夠?qū)\動圖像所包含的聲音中的哪個部分(例如幾毫秒至幾秒程度的長度的部分)是什么聲音進行分類。例如,若使用專利文獻1的技術,則激烈的鼓掌持續(xù)了規(guī)定時間以上的部分能夠被分類為活動高潮的精華部分。此外,若使用非專利文獻1的技術,則能夠?qū)τ懻撀曇糁心膫€部分是誰在發(fā)言進行分類?,F(xiàn)有技術文獻專利文獻專利文獻1 特開2004-258659號公報非專利文獻非專利文獻1 秋田祐哉、河原達也、“多數(shù)話者 〒> &用^亡討論音聲的教師話者〃 > * > 7”、電子情報通信學會論文誌2004/2Vol. J87-D-IINO. 2、 pp.495-50
發(fā)明內(nèi)容
發(fā)明所要解決的問題
這些現(xiàn)有技術是從混入有各種聲音的聲音中提取隸屬于特定分類(特定的說話者或精華場景)的部分的技術。然而,不是對該聲音是與什么樣的活動或狀況有關的聲音進行分類的技術。在此提到的活動和狀況是指例如宴會、會議、體育等。因此,即使針對運動圖像所包含的聲音應用這些技術來對該運動圖像進行分類, 也不能夠進行適當?shù)姆诸悺1景l(fā)明鑒于上述問題點,其目的在于,為了對運動圖像進行分類來減少檢索的繁瑣性,提供一種適當?shù)貙烊胗懈鞣N聲音的聲音進行分類以能夠通過聲音對運動圖像進行分類的裝置、方法、程序及集成電路。用于解決問題的手段為了解決上述問題,本發(fā)明所涉及的聲音分類裝置具備取得單元,取得音頻信號;區(qū)間特征提取單元,針對所述音頻信號所包含的規(guī)定時間長度的多個區(qū)間的各個區(qū)間, 提取作為與聲音的頻率分布有關的特征的區(qū)間特征;基準區(qū)間特征存儲單元,存儲有多個基準區(qū)間特征,該基準區(qū)間特征是與所述區(qū)間特征進行比較的基準;計算單元,針對所述多個區(qū)間的各個區(qū)間,將所述區(qū)間特征與各個所述基準區(qū)間特征進行比較,計算表示該區(qū)間特征與該基準區(qū)間特征之間的相關程度的區(qū)間類似度;綜合特征提取單元,針對所述音頻信號提取綜合特征,該綜合特征是基于在所述多個區(qū)間的各個區(qū)間中計算出的多個區(qū)間類似度的、與多個區(qū)間有關的特征;基準綜合特征存儲單元,存儲有1個以上的基準綜合特征,該基準綜合特征是與所述綜合特征進行比較的基準;以及分類單元,比較所述音頻信號的綜合特征和所述基準綜合特征,基于其結果,對該音頻信號進行分類。發(fā)明效果根據(jù)具有上述結構的聲音分類裝置,求出表示音頻信號的各區(qū)間與什么樣的聲音以何種程度相關的區(qū)間類似度,從多個區(qū)間各自的區(qū)間類似度提取綜合特征。這樣提取的綜合特征表示音頻信號所包含的各種聲音混入的方式,能夠反映成為音頻信號來源的活動或狀況。并且,通過比較綜合特征和作為分類基準的數(shù)據(jù)的基準綜合特征,進行分類。通過這樣將多個區(qū)間的特征綜合地用于分類,能夠適當對混入有各種聲音的聲音進行分類。
圖1是表示本發(fā)明的實施方式1所涉及的影像記錄裝置的功能結構及周邊裝置的圖。圖2是表示聲音分類部的功能結構的圖。圖3是音響特征的結構及從各區(qū)間提取的音響特征的例子。圖4是音響特征字典的數(shù)據(jù)結構及內(nèi)容例。圖5是區(qū)間特征的結構及從各區(qū)間提取的區(qū)間特征的例子。圖6是區(qū)間特征字典的數(shù)據(jù)結構及內(nèi)容例。圖7是與各區(qū)間中的各區(qū)間特征之間的區(qū)間類似度的例子。圖8是各區(qū)間的代表區(qū)間特征的例子。圖9是綜合特征的數(shù)據(jù)結構及內(nèi)容例。圖10是綜合特征字典的數(shù)據(jù)內(nèi)容及結構例。
圖11是每個類別的綜合類似度及分類結果的例子。圖12是表示運動圖像記錄處理的流程圖。圖13是表示聲音分類處理的流程圖。圖14是表示運動圖像顯示處理的流程圖。圖15是表示實施方式2所涉及的影像記錄裝置的功能結構圖。圖16是基準制作部的功能結構圖。圖17是表示基準制作處理的流程圖。圖18是表示音響特征字典制作處理的流程圖。圖19是表示區(qū)間特征字典制作處理的流程圖。圖20是表示綜合特征字典制作處理的流程圖。
具體實施例方式以下,作為本發(fā)明的實施方式,參照附圖來說明通過帶聲音的運動圖像(以下僅稱作“運動圖像”)所包含的音頻信號對運動圖像進行分類的影像記錄裝置。<1.實施方式1><1-1.概要 >圖1示出了本發(fā)明的實施方式1所涉及的影像記錄裝置100及其周邊裝置。記錄介質(zhì)110記錄有運動圖像的文件組,顯示裝置120顯示從影像記錄裝置100輸出的影像。在此,文件組是1個以上文件的集合。影像記錄裝置100從記錄介質(zhì)110取得運動圖像的文件組,并對所取得的文件組進行記錄。對所記錄的文件組的各運動圖像,通過該運動圖像所包含的音頻信號分類到類別中。在此,類別是指分類目標。并且,影像記錄裝置100接受用戶的操作,將與分類結果對應的影像輸出至顯示裝置120?;谝纛l信號的分類如下述那樣進行。首先,按照分類對象的音頻信號的規(guī)定時間長度(例如IOms)的每個區(qū)間進行音響分析來提取區(qū)間特征(參照圖幻。比較所提取的區(qū)間特征和預先確定的各基準區(qū)間特征 (參照圖6),來計算類似度(參照圖7)。并且,針對各區(qū)間求出類似度最高的基準區(qū)間特征 (參照圖8)。以下,設定將規(guī)定時間長度的區(qū)間稱作短時間區(qū)間。此外,設定將類似度最高的基準區(qū)間特征稱作代表區(qū)間特征。在此,區(qū)間特征用于表示音頻信號的短時間區(qū)間以什么程度具有什么樣的聲音。 此外,基準區(qū)間特征是與區(qū)間特征進行比較的基準,各基準區(qū)間特征是相互不同的。接著,使用針對各短時間區(qū)間求出的代表區(qū)間特征,提取與音頻信號的多個短時間區(qū)間相關的1個特征即綜合特征(參照圖9)。在此,綜合特征,被表示為針對各基準區(qū)間特征表示該基準區(qū)間特征成為代表區(qū)間特征的短時間區(qū)間在全部短時間區(qū)間之中以何種程度被包含的含有度?;鶞蕝^(qū)間特征的含有度,通過對該基準區(qū)間特征成為代表區(qū)間特征的短時間區(qū)間的個數(shù)進行計數(shù),作為該個數(shù)相對于分類對象的音頻信號所包含的短時間區(qū)間的總數(shù)的比例計算。并且,通過對分類對象的音頻信號中的綜合特征和作為預先確定的分類基準而被使用的每個類別的基準綜合特征(參照圖10)進行比較,從而對該音頻信號進行分類,將其分類結果作為包含有該音頻信號的運動圖像的分類。<1-2.結構 ><1-2-1.整體的結構>影像記錄裝置100作為硬件具有取得運動圖像的文件組的輸入裝置、輸出影像的輸出端子、接受用戶的操作的按鈕、存儲數(shù)據(jù)和程序的存儲器、以及執(zhí)行程序的處理器。如圖1所示,影像記錄裝置100具有輸入部101、內(nèi)容存儲部102、聲音提取部103、 聲音分類部104、分類信息存儲部105、輸出部106及操作部107。輸入部101、聲音提取部103、輸出部106及操作部107的功能,通過處理器執(zhí)行在
存儲器中保存的程序來實現(xiàn)。內(nèi)容存儲部102及分類信息存儲部105通過存儲器來實現(xiàn)。輸入部101具有可拆裝記錄介質(zhì)110的輸入裝置,具有從所安裝的記錄介質(zhì)110 取得運動圖像的文件組的功能。進而,輸入部101將所取得的文件組保存于內(nèi)容存儲部 102。內(nèi)容存儲部102是對輸入部101取得的文件組進行存儲的存儲器的區(qū)域。聲音提取部103具有從在內(nèi)容存儲部102中保存的運動圖像的文件提取音頻信號的功能。此外,對編碼的音頻信號進行解碼。聲音分類部104具有對由聲音提取部103提取的音頻信號進行分類的功能。作為分類的結果,將用于對包含有對象音頻信號的運動圖像的文件進行確定的文件名和分類目標的分類ID建立對應地保存于分類信息存儲部105。分類信息存儲部105是對聲音分類部104對音頻信號進行分類的結果進行存儲的存儲器的區(qū)域。輸出部106具有輸出端子,具有對顯示裝置120輸出影像的功能。操作部107具有按鈕等,具有接受來自用戶的操作的功能。<1-2-2.聲音分類部104的結構>以下,進一步詳細地說明聲音分類部104。圖2是聲音分類部104的功能結構圖。聲音分類部104具有音響特征提取部201、基準音響特征存儲部202、區(qū)間特征提取部203、基準區(qū)間特征存儲部204、區(qū)間類似度計算部205、綜合特征提取部206、基準綜合特征存儲部207及分類部208。音響特征提取部201、區(qū)間特征提取部203、區(qū)間類似度計算部205、綜合特征提取部206及分類部208的功能,通過處理器執(zhí)行在存儲器中保存的程序來實現(xiàn)?;鶞室繇懱卣鞔鎯Σ?02、基準區(qū)間特征存儲部204及基準綜合特征存儲部207通過存儲器來實現(xiàn)。音響特征提取部201具有按照由聲音提取部103提取的音頻信號的每個短時間區(qū)間,來提取用于區(qū)間特征提取的音響特征301的功能。音響特征301的數(shù)據(jù)結構及提取結果的例子如圖3所示。作為音響特征301,能夠使用 MFCC(Mel-Frequency Cepstral Coefficients Mel (嘜)頻率倒譜系數(shù))。若使用MFCC,則音響特征301能夠表示為具有規(guī)定維數(shù)的矢量。以下,以沈維的情況為例進行說明。如圖3所示,音響特征301被表示為具有MOl 似6這沈維成分的矢量。該圖的例子中,示出了正在從5000ms的音頻信號的各區(qū)間提取音響特征301的中途經(jīng)過的狀況。 提取了從0 IOms的短時間區(qū)間起至1000 IOlOms的短時間區(qū)間為止的音響特征301, 4990 5000ms的短時間區(qū)間還未提取音響特征301。基準音響特征存儲部202是對區(qū)間特征提取部203所使用的音響特征字典400的數(shù)據(jù)進行保存的存儲器的區(qū)域。圖4是音響特征字典400的數(shù)據(jù)結構及內(nèi)容例。如該圖所示,音響特征字典400 由基準音響特征401和音響ID402(標識符,IDentifier)的組合構成。另外,在圖中為了便于說明而示出了與基準音響特征401對應的名稱(最左端的一列),但是實際上不需要將名稱包含在音響特征字典400中。在此,基準音響特征401是用于區(qū)間特征提取部203將其與各單個時間區(qū)間的音響特征301進行比較的數(shù)據(jù),具有與音響特征301的結構相當?shù)慕Y構。在此,基準音響特征 401被表示為與音響特征301相同的具有MOl IC6這沈維成分的矢量?;鶞室繇懱卣?401表示短時間區(qū)間中響起的聲音(歡呼或笛聲等)的特征。此外,音響ID402是用于識別各基準音響特征401的ID,與各基準音響特征401 —
對一地建立了對應。在圖4的例子中,音響特征字典400中包含有“歡呼”或“笛聲”等、音響ID402為 AOOl AlOO的100個基準音響特征401。例如,“歡呼”的基準音響特征401是根據(jù)對歡呼進行錄音而得的音頻信號制作出的數(shù)據(jù)。音響特征字典400被預先制作并被保存在基準音響特征存儲部202中,并且不被變更。以下,在以圖4所示的音響特征字典400所包含的基準音響特征401為例的情況下,設為通過音響ID402來稱呼該基準音響特征401。例如,將由“A001”的音響ID402來識別的基準音響特征401稱作“基準音響特征A001”。區(qū)間特征提取部203具有按每個短時間區(qū)間來提取區(qū)間特征501的功能。區(qū)間特征501的數(shù)據(jù)結構及提取結果的例如圖5所示。區(qū)間特征501是表示在音頻信號的每個短時間區(qū)間中以什么程度含有什么聲音的數(shù)據(jù),由音響特征301與基準音響特征401之間的類似度構成。類似度能夠根據(jù)表示音響特征301的矢量和表示基準音響特征401的矢量之間的歐幾里得距離等來求出。以下, 設為將音響特征301與基準音響特征401之間的類似度稱作音響類似度。如圖5所示,區(qū)間特征501由其與音響特征字典400所具有的各基準音響特征 401(在此為基準音響特征AOOl 基準音響特征A100)之間的音響類似度構成。區(qū)間特征 501被表示為具有上述的各音響類似度作為成分的100維的矢量。該圖的例子示出了正在從5000ms的音頻信號的各區(qū)間提取區(qū)間特征501的中途經(jīng)過的狀況。提取了從0 IOms的短時間區(qū)間起止1000 IOlOms的短時間區(qū)間為止的區(qū)間特征501,4990 5000ms的短時間區(qū)間還未提取區(qū)間特征501?;鶞蕝^(qū)間特征存儲部204是對區(qū)間類似度計算部205所使用的區(qū)間特征字典600 的數(shù)據(jù)進行保存的存儲器的區(qū)域。
圖6是區(qū)間特征字典600的數(shù)據(jù)結構及內(nèi)容例。如該圖所示,區(qū)間特征字典600 由基準區(qū)間特征601和特征ID602的組合構成。另外,在圖中為了便于說明而示出了與各基準區(qū)間特征601對應的名稱(最左端的一列),但是實際上不需要將名稱包含在區(qū)間特征字典600中。在此,基準區(qū)間特征601是區(qū)間類似度計算部205將其與各單個時間區(qū)間的區(qū)間特征501進行比較的數(shù)據(jù),具有與區(qū)間特征501的結構相當?shù)慕Y構。在此,基準區(qū)間特征601 與區(qū)間特征501同樣地,由相當于其與音響特征字典400所具有的各基準音響特征401之間的音響類似度的數(shù)據(jù)構成?;鶞蕝^(qū)間特征601與區(qū)間特征501同樣地,被表示為100維
的矢量?;鶞蕝^(qū)間特征601表示短時間區(qū)間中的狀況(音樂在響起、在室外等)。此外,特征ID602是用于識別各基準區(qū)間特征601的ID,與各基準區(qū)間特征601 —
對一地建立了對應。在圖6的例子中,在區(qū)間特征字典600中包內(nèi)含有“音樂”、“室外”等、特征ID602 為FOOl FlOO的100個基準區(qū)間特征601。例如,“音樂”的基準區(qū)間特征601是由對音
樂進行錄音而得的音頻信號制作出的數(shù)據(jù)。區(qū)間特征字典600被預先制作并被保存在基準區(qū)間特征存儲部204中,并且不被變更。以下,在以圖6所示的區(qū)間特征字典600所包含的基準區(qū)間特征601為例的情況下,設為通過特征ID602來稱呼該基準區(qū)間特征601。例如,將由“F001”的特征ID602識別的基準區(qū)間特征601稱作“基準區(qū)間特征FOO1”。區(qū)間類似度計算部205具有按每個短時間區(qū)間計算區(qū)間特征提取部203提取的區(qū)間特征501與各基準區(qū)間特征601之間的類似度的功能。在此,設為將區(qū)間特征501與基準區(qū)間特征601之間的類似度稱為區(qū)間類似度。圖7是區(qū)間類似度計算部205計算的區(qū)間類似度的例子。如該圖所示,區(qū)間類似度是按每個短時間區(qū)間對基準區(qū)間特征FOOl 基準區(qū)間特征FlOO進行計算的。該圖的例子示出了正在對5000ms的音頻信號的各區(qū)間中的區(qū)間類似度進行計算的中途經(jīng)過的狀況。計算了 0 IOms的短時間區(qū)間起止1000 IOlOms的短時間區(qū)間為止的區(qū)間類似度, 4990 5000ms的短時間區(qū)間還未計算區(qū)間類似度。區(qū)間類似度計算部205還根據(jù)計算區(qū)間類似度的結果,按照音頻信號的每個短時間區(qū)間判定與該短時間區(qū)間之間的區(qū)間類似度最高的基準區(qū)間特征即代表區(qū)間特征。代表區(qū)間特征能夠認為是對處理對象的短時間區(qū)間中的狀況進行分類的特征。圖8是區(qū)間類似度計算部205判定出的代表區(qū)間特征的例子。在該圖的例子中, 0 IOms的短時間區(qū)間中,圖7中區(qū)間類似度最高的基準區(qū)間特征FOOl被判定為代表區(qū)間特征。并且,針對其他短時間區(qū)間也同樣地,將區(qū)間類似度最高的基準區(qū)間特征判定為代表區(qū)間特征。綜合特征提取部206具有基于區(qū)間類似度計算部205針對各短時間區(qū)間求出的代表區(qū)間特征提取綜合特征901的功能。綜合特征901的數(shù)據(jù)結構及內(nèi)容例如圖9所示。綜合特征901是與多個短時間區(qū)間相關的特征,表示音頻信號在整體上處于什么狀況(宴會或會議等)。
在此,綜合特征901設為由針對各基準區(qū)間特征表示該基準區(qū)間特征為代表區(qū)間特征的短時間區(qū)間在音頻信號所包含的全部短時間區(qū)間之中占據(jù)什么程度的比例的含有度構成。如圖9所示,綜合特征901由針對區(qū)間特征字典600所具有的各基準區(qū)間特征 601 (在此為基準區(qū)間特征FOOl 基準區(qū)間特征F100)的含有度構成。綜合特征901被表示為具有上述的各含有度作為成分的100維的矢量。基準綜合特征存儲部207是對分類部208所使用的綜合特征字典1000的數(shù)據(jù)進行保存的存儲器的區(qū)域。圖10是綜合特征字典1000的數(shù)據(jù)結構及內(nèi)容例。如該圖所示,綜合特征字典1000 由基準綜合特征1001和分類ID1002的組合構成。另外,在圖中為了便于說明示出了與各基準綜合特征1001對應的名稱(最左端的一列),但是實際上不需要將名稱包含在綜合特征字典1000中。在此,基準綜合特征1001是用于分類部208將其與音頻信號的綜合特征901進行比較的數(shù)據(jù),具有與綜合特征901的結構相當?shù)慕Y構。基準綜合特征1001與綜合特征901 同樣地,被表示為100維的矢量。此外,分類ID1002是用于識別各基準綜合特征1001的ID,與各基準綜合特征 1001 一對一建立了對應。各個基準綜合特征1001和分類ID1002與分類目標的類別建立了對應。在圖10的例子中,在綜合特征字典1000中包含有“宴會”或“會議”等、分類ID1002 為COOl ClOO的100個基準綜合特征1001。例如,“宴會”的基準綜合特征1001是由將
宴會的場景進行錄音而得的音頻信號制作出的數(shù)據(jù)。綜合特征字典1000被預先制作并被保存在基準綜合特征存儲部207中,并且不被變更。分類部208具有基于綜合特征提取部206從音頻信號提取的綜合特征901來對該音頻信號進行分類的功能。具體地說,對音頻信號的綜合特征901和在基準綜合特征存儲部207中保存的各基準綜合特征1001進行比較來計算類似度,分類到類似度最高的類別。 以下,設為將綜合特征901與基準綜合特征1001之間的類似度稱作綜合類似度。分類部208還將包含有分類對象的音頻信號的文件與分類的結果的分類ID1002 建立對應地保存于分類信息存儲部105。<1-3.動作〉以下,詳細地說明影像記錄裝置100的動作。影像記錄裝置100的動作大體被分為運動圖像記錄處理和運動圖像顯示處理。此夕卜,運動圖像記錄處理中包含有聲音分類處理。運動圖像記錄處理是從記錄介質(zhì)110取得運動圖像并記錄在自裝置內(nèi),并對各個運動圖像進行分類的處理。運動圖像記錄處理是在將記錄介質(zhì)110安裝在影像記錄裝置 100上的狀態(tài)下,受理了由用戶進行的表示將保存在記錄介質(zhì)110中的運動圖像記錄到影像記錄裝置100的意思的操作時進行的。聲音分類處理是為了對運動圖像進行分類,而將從該運動圖像提取的聲音進行分類的處理。并且,設為聲音的分類結果被直接用于運動圖像的分類。
1
運動圖像顯示處理是基于聲音分類處理的結果來顯示運動圖像的處理。運動圖像顯示處理是在從用戶受理了對運動圖像的顯示進行指示的操作時進行的。<1-3-1.運動圖像記錄處理〉以下,根據(jù)圖12所示的流程圖來說明處理。首先,由輸入部101從記錄介質(zhì)110取得由用戶進行了表示將記錄在記錄介質(zhì)110 中的運動圖像輸入影像記錄裝置100中的意思的指示的1以上運動圖像的文件,并保存于內(nèi)容存儲部102(步驟S1201)。接著,從保存在內(nèi)容存儲部102中的運動圖像的文件組取得1個未分類的運動圖像,聲音提取部103從該運動圖像提取音頻信號(步驟S12(^)。在此,所謂未分類的運動圖像是指,在分類信息存儲部105中未保存有該運動圖像的分類結果的運動圖像。步驟S1202 中取得取得的運動圖像最開始全部處于未分類的狀態(tài)。然后,聲音分類部104對由聲音提取部103提取的音頻信號進行聲音分類處理 (步驟S120;3)。在該聲音分類處理中,在分類信息存儲部105中保存對該運動圖像進行分類的結果。若聲音分類處理結束,則從保存在內(nèi)容存儲部102中的運動圖像的文件組中,判定是否有未分類的運動圖像(步驟S1204)。在沒有未分類的運動圖像的情況下(步驟S1204 否),即全部運動圖像都被進行了分類的情況下,結束運動圖像記錄處理。在有未分類的運動圖像的情況下(步驟S1204: 是),返回至步驟S1202。<1-3-2.聲音分類處理〉以下,根據(jù)圖13所示流程圖,說明對從1個運動圖像提取的1個音頻信號進行的聲音分類處理。在此,設為將分類對象的音頻信號稱作音頻信號A。在該處理中,針對音頻信號A所包含的全部短時間區(qū)間,求出與各個基準區(qū)間特征601之間的區(qū)間類似度,根據(jù)其結果,提取音頻信號A的綜合特征901來進行分類。首先,將關于各基準區(qū)間特征的含有區(qū)間數(shù)全部設為0(步驟S1301)。在此,基準區(qū)間特征的含有區(qū)間數(shù)是,在從開始該聲音分類處理起作為處理對象的短時間區(qū)間之中、該基準區(qū)間特征成為代表區(qū)間特征的短時間區(qū)間的個數(shù)。含有區(qū)間數(shù)被用作含有度的計算。接著,判定在音頻信號A所包含的短時間區(qū)間之中是否存在從這次聲音分類處理開始起還未作為處理對象的短時間區(qū)間(步驟S1302)。在存在的情況下(步驟S1302 是),選擇未處理的短時間區(qū)間之中的1個,作為處理對象的短時間區(qū)間(步驟S1303)。以下,設為將該步驟中選擇的短時間區(qū)間稱作短時間區(qū)間S。在此,設為短時間區(qū)間S是從音頻信號A的最初的IOms的區(qū)間起依次進行選擇的區(qū)間。例如,從開始這次聲音分類處理起,在第一次的步驟S1303中選擇最初的0 IOms 的區(qū)間,在第二次的步驟S1303中選擇10 20ms的區(qū)間。音響特征提取部201從短時間區(qū)間S提取音響特征301(步驟S1304)。在此,通過針對短時間區(qū)間S計算MFCC,來提取音響特征301。在圖3中示出了將步驟1304的處理進行到了 1000 IOlOms的中途經(jīng)過的例子。
區(qū)間特征提取部203計算短時間區(qū)間S的音響特征301與保存在基準音響特征存儲部202中的音響特征字典400的各基準音響特征401之間的音響類似度,由此提取短時間區(qū)間S的區(qū)間特征501 (步驟S1305)。音響類似度的計算能夠使用利用了表示音響特征301的矢量與表示基準音響特征401的矢量之間的歐幾里得距離的方法。例如,能夠利用以歐幾里得距離為變量的高斯函數(shù)來計算。圖5示出了將步驟1305的處理進行到了 1000 IOlOms的中途經(jīng)過的例子。區(qū)間類似度計算部205計算短時間區(qū)間S的區(qū)間特征501與保存在基準區(qū)間特征存儲部204中的區(qū)間特征字典600的各基準區(qū)間特征601之間的區(qū)間類似度(步驟S1306)。區(qū)間類似度的計算能夠使用利用了表示區(qū)間特征501的矢量與表示基準區(qū)間特征601的矢量之間的歐幾里得距離的方法。例如,能夠利用以歐幾里得距離為變量的高斯函數(shù)來計算。圖7示出了將步驟1306的處理進行到了 1000 IOlOms的中途經(jīng)過的例子。然后,將與短時間區(qū)間S之間的區(qū)間類似度最高的基準區(qū)間特征選出,作為短時間區(qū)間S的代表區(qū)間特征。在成為最高區(qū)間類似度的基準區(qū)間特征有多個的情況下,根據(jù)規(guī)定的條件來選出1個基準區(qū)間特征(例如特征ID602的數(shù)值部分較小的一方)。圖8示出了將步驟1307的處理進行到了 1000 IOlOms的中途經(jīng)過的例子。綜合特征提取部206對由區(qū)間類似度計算部205選出的代表區(qū)間特征即基準區(qū)間特征的含有區(qū)間數(shù)加一(步驟S1307)。若步驟S1307結束,則為了對下一個短時間區(qū)間進行處理而返回至步驟S1302。在步驟S1302中,在判定為不存在未處理的區(qū)間的情況下(步驟S1302 否)、即就全部區(qū)間而言每個區(qū)間的處理都結束了的情況下,進行以下的處理。首先,綜合特征提取部206計算各基準區(qū)間特征的音頻信號A中的含有度,由此提取音頻信號A的綜合特征901 (步驟S1308)。在此,含有度作為將含有區(qū)間數(shù)除以音頻信號 A的短時間區(qū)間的總數(shù)而得的值被計算出。圖9示出了步驟1308中提取綜合特征901的結果的例子。接著,分類部208計算由綜合特征提取部206提取的綜合特征901與保存在基準綜合特征存儲部207中的綜合特征字典1000的各基準綜合特征1001之間的綜合類似度, 分類到與綜合類似度最高的基準綜合特征對應的類別中(步驟S1309)。在成為最高綜合類似度的基準綜合特征有多個的情況下,根據(jù)規(guī)定條件來選出1個基準綜合特征(例如,分類 ID1002的數(shù)值部分較小的一方),分類到與所選出的基準綜合特征對應的類別中。圖11示出了步驟S1309中進行綜合類似度的計算的結果和分類結果的例子。最后,分類部208將包含有音頻信號A的運動圖像的文件名和所分類的類別的分類ID建立對應地保存在分類信息存儲部105中(步驟S1310)。<1-3-3.運動圖像顯示處理〉以下,根據(jù)圖14所示的流程圖說明運動圖像顯示處理。若從用戶受理了指示運動圖像的顯示的操作,則輸出部106使顯示裝置120顯示催促用戶輸入所要顯示的類別的畫面,操作部107接受輸入(步驟S1401)。在此,設為顯示類別一覽,從一覽選擇類別,由此能夠進行輸入。
若由用戶輸入了所要顯示的類別,則根據(jù)與類別對應的分類ID,從保存在分類信息存儲部105中的數(shù)據(jù)檢索隸屬于該類別的文件(步驟S1402)。作為檢索的結果,輸出部106輸出隸屬于用戶選擇的類別的文件的運動圖像,使顯示裝置120再現(xiàn)該運動圖像(步驟S1403)。<2.實施方式2>作為本發(fā)明的實施方式2,來說明將實施方式1的影像記錄裝置100變形為在自裝置內(nèi)制作音響特征字典400、區(qū)間特征字典600及綜合特征字典1000的影像記錄裝置 IOOa0另外,以下設為將音響特征字典400、區(qū)間特征字典600及綜合特征字典1000集中稱為基準數(shù)據(jù)。<2-1.概要〉在實施方式1的影像記錄裝置100中,基準數(shù)據(jù)被預先制作,而不在自裝置內(nèi)部進行制作和變更。在實施方式2的影像記錄裝置IOOa中,使用用戶所輸入的運動圖像所包含的音頻信號來制作這些基準數(shù)據(jù)。由此,能夠進行與用戶所記錄的運動圖像的趨勢更加匹配的分類。<2-2.結構〉影像記錄裝置IOOa的結構如圖15的功能結構圖所示,除了影像記錄裝置100之夕卜,還具備基準制作部1501,其他與影像記錄裝置100同樣?;鶞手谱鞑?501具有由保存在內(nèi)容存儲部102中的運動圖像所包含的音頻信號來制作基準數(shù)據(jù)的功能。所制作的基準數(shù)據(jù)保存在聲音分類部104所包含的基準音響特征存儲部202、基準區(qū)間特征存儲部204及基準綜合特征存儲部207中。以下,更詳細地說明基準制作部1501。圖16是基準制作部1501的功能結構圖。如該圖所示,基準制作部1501包括基準聲音存儲部1601、音響特征提取部201a、 區(qū)間特征提取部203a、區(qū)間類似度計算部20 、綜合特征提取部206a、基準音響特征制作部1602、基準區(qū)間特征制作部1603及基準綜合特征制作部1604。音響特征提取部201a、區(qū)間特征提取部203a、區(qū)間類似度計算部20 、綜合特征提取部206a、基準音響特征制作部1602、基準區(qū)間特征制作部1603及基準綜合特征制作部 1604,通過處理器執(zhí)行在存儲器中保存的程序來實現(xiàn)。基準聲音存儲部1601是對用于制作基準數(shù)據(jù)而使用的多個音頻信號進行存儲的存儲器的區(qū)域。基準聲音存儲部1601中預先保存有用于制作用戶使用前的初始狀態(tài)的基準數(shù)據(jù)的多個音頻信號。設為預先保存的音頻信號的數(shù)量是基準綜合特征制作部1604制作的基準綜合特征的數(shù)量以上。并且,若用戶對影像記錄裝置IOOa輸入運動圖像,則進一步保存該運動圖像所包含的音頻信號。音響特征提取部201a、區(qū)間特征提取部203a、區(qū)間類似度計算部20 及綜合特征提取部206a除了基于保存在基準聲音存儲部1601中的音頻信號進行處理之外,還分別具有與聲音分類部104所包含的音響特征提取部201、區(qū)間特征提取部203、區(qū)間類似度計算部205及綜合特征提取部206完全相同的功能。基準音響特征制作部1602具有根據(jù)音響特征提取部201a提取音響特征的結果來制作音響特征字典400的功能。所制作的音響特征字典400保存在聲音分類部104所包含的基準音響特征存儲部202中。基準區(qū)間特征制作部1603具有根據(jù)區(qū)間特征提取部203a提取區(qū)間特征的結果來制作區(qū)間特征字典600的功能。所制作的區(qū)間特征字典600保存在聲音分類部104所包含的基準區(qū)間特征存儲部204中?;鶞示C合特征制作部1604具有根據(jù)綜合特征提取部206a提取綜合特征的結果來制作綜合特征字典1000的功能。所制作的綜合特征字典1000保存在聲音分類部104所包含的基準綜合特征存儲部207中。<2-3.動作〉以下,說明影像記錄裝置IOOa的動作。另外,關于與實施方式1的影像記錄裝置 100相同的動作的部分,省略說明。影像記錄裝置IOOa的動作是,對運動圖像記錄處理的一部分進行變更,追加了基準制作處理的動作。<2-3-1.運動圖像記錄處理〉運動圖像記錄處理(圖1 如下述那樣變更。在實施方式1中,在取得運動圖像(步驟S1201)時,將所取得的運動圖像保存在內(nèi)容存儲部102中。在實施方式2中,還從該運動圖像提取音頻信號,在基準制作部1501 所包含的基準聲音存儲部1601中保存該音頻信號。<2-3-2.基準制作處理〉基準制作處理是制作基準數(shù)據(jù)的處理?;鶞手谱魈幚碓诓僮鞑?07接受了由用戶進行的表示指示基準制作的意思的操作時進行。以下,根據(jù)圖17所示的流程圖說明基準制作處理?;鶞室繇懱卣髦谱鞑?602進行制作音響特征字典400并保存在基準音響特征存儲部202中的音響特征字典制作處理(步驟S1701)?;鶞蕝^(qū)間特征制作部1603進行制作區(qū)間特征字典600并保存在基準區(qū)間特征存儲部204中的區(qū)間特征字典制作處理(步驟S1702)?;鶞示C合特征制作部1604進行制作綜合特征字典1000并保存在基準綜合特征存儲部207中的綜合特征字典制作處理(步驟S1703)。然后,針對保存在內(nèi)容存儲部102中的全部運動圖像的文件,聲音提取部103進行音頻信號的提取,聲音分類部104進行聲音分類處理(步驟S1704)。<2-3-3.音響特征字典制作處理〉音響特征字典制作處理是上述的基準制作處理的一部分。以下,根據(jù)圖18所示的流程圖說明音響特征字典制作處理。首先,音響特征提取部201a從保存在基準聲音存儲部1601中的全部音頻信號的全部短時間區(qū)間提取音響特征(步驟S1801)。
接著,將所提取的全部音響特征作為分類對象,進行聚類(步驟S1802)。聚類(clustering)是將大量數(shù)據(jù)分類為被稱作群集(cluster)的數(shù)據(jù)集合的方法。在此,設為作為聚類的方法使用k-means法。在k-means法中,預先決定要生成的群集的數(shù)量k (例如100),根據(jù)設為分類對象的大量數(shù)據(jù)(在此為音響特征)自動地生成k個群集。并且,將分類對象的全部數(shù)據(jù)分類在k個群集中的某個中。然后,基于對音響特征進行聚類的結果,制作音響特征字典400(步驟S1803)。在此,將隸屬于各群集的音響特征的平均值分別作為基準音響特征401,來計算k 個基準音響特征401。并且,計算出的k個基準音響特征401分別與音響ID402建立對應, 制作具有k個基準音響特征401的音響特征字典400。音響ID402按照開始這次音響特征字典制作處理起生成各群集的順序,將從AOOl 起對“A”附加3位連續(xù)編號而得的ID建立了對應。例如,與第25個生成的群集對應的音響ID402是A025,根據(jù)該群集計算出的基準音響特征401與A025的音響ID402建立了對應。最后,在基準音響特征存儲部202中保存新制作的音響特征字典400(步驟 S1804)。在此,在基準音響特征存儲部202中已經(jīng)保存了音響特征字典400的情況下,利用新制作的音響特征字典400進行更新。<2-3-4.區(qū)間特征字典制作處理〉區(qū)間特征字典制作處理是上述的基準制作處理的一部分。以下,根據(jù)圖19所示的流程圖說明區(qū)間特征字典制作處理。首先,區(qū)間特征提取部203a提取在基準聲音存儲部1601中保存的全部音頻信號的全部短時間區(qū)間的區(qū)間特征(步驟S1901)。各單個時間區(qū)間的區(qū)間特征的提取中,使用音響特征提取部201a所提取的音響特征和在上述的音響特征字典制作處理中制作出的音響特征字典400。接著,將所提取的全部區(qū)間特征作為分類對象進行聚類(步驟S19(^)。在此,設為使用k-means法,將群集的數(shù)量設為k = 100,進行聚類。然后,基于對區(qū)間特征進行聚類的結果,來制作區(qū)間特征字典600(步驟S1903)。在此,將隸屬于各群集的區(qū)間特征的平均值分別作為基準區(qū)間特征601,計算k個基準區(qū)間特征601。并且,使計算出的k個基準區(qū)間特征601分別與特征ID602建立對應, 制作具有k個基準區(qū)間特征601的區(qū)間特征字典600。特征ID602是按照從這次區(qū)間特征字典制作處理起生成各群集的順序,將從FOOl 開始對“F”附加3位連續(xù)編號而得的ID建立了對應。例如,與第50個生成的群集對應的特征ID602為F050,根據(jù)該群集計算出的基準區(qū)間特征601與F050的特征ID602建立了對應。最后,在基準區(qū)間特征存儲部204中保存新制作的區(qū)間特征字典600(步驟 S1904)。在此,在基準區(qū)間特征存儲部204中已經(jīng)保存了區(qū)間特征字典600的情況下,利用新制作的區(qū)間特征字典600進行更新。<2-3-5.綜合特征字典制作處理〉綜合特征字典制作處理是上述的基準制作處理的一部分。
以下,根據(jù)圖20所示的流程圖說明綜合特征字典制作處理。首先,綜合特征提取部206a提取在基準聲音存儲部1601中保存的全部音頻信號的綜合特征(步驟S2001)。各音頻信號的綜合特征的提取中,使用區(qū)間類似度計算部20 計算出的各個音頻信號中的每個短時間區(qū)間的區(qū)間類似度。此外,區(qū)間類似度計算部20 使用區(qū)間特征提取部203a所提取的區(qū)間特征和在上述的區(qū)間特征字典制作處理中制作出的區(qū)間特征字典600,來計算每個短時間區(qū)間的區(qū)間類似度。接著,將所提取的全部綜合特征作為分類對象進行聚類(步驟S20(^)。在此,設為使用k-means法,將群集數(shù)量設為k = 100,進行聚類。然后,基于對綜合特征進行聚類的結果,來制作綜合特征字典1000(步驟S2003)。在此,將隸屬于各群集的綜合特征的平均值分別作為基準綜合特征1001,來計算 k個基準綜合特征1001。并且,將計算出的k個基準綜合特征1001分別與分類ID1002建立對應,來制作具有k個基準綜合特征1001的綜合特征字典1000。分類ID1002是按照從開始這次綜合特征字典制作處理起生成各群集的順序,將從COOl開始對“C”附加3位連續(xù)編號而得的ID建立了對應。例如,與第75個生成的類對應的分類ID1002為C075,根據(jù)該類計算出的基準綜合特征1001與C075的分類ID1002建立了對應。最后,在基準綜合特征存儲部207中保存新制作的綜合特征字典1000(步驟 S1904)。在此,在基準綜合特征存儲部207中已經(jīng)保存了綜合特征字典1000的情況下,利用新制作的綜合特征字典1000進行更新。< 補充 >以上,基于實施方式說明了本發(fā)明所涉及的聲音分類裝置,但是本發(fā)明當然不限定于上述的實施方式所示出的聲音分類裝置。(1)本發(fā)明也能夠?qū)⒂捎糜谑孤曇舴诸愌b置的處理器及與該處理器連接的各種電路執(zhí)行實施方式所示的聲音分類的處理等(參照圖6 9)的程序代碼構成的控制程序,記錄在記錄介質(zhì)中或者經(jīng)由各種通信路徑等進行流通發(fā)布。這樣的記錄介質(zhì)有IC卡、硬盤、 光盤、軟盤、ROM等。流通、發(fā)布的控制程序通過保存在可讀出到處理器的存儲器等中來供利用,通過該處理器執(zhí)行該控制程序來實現(xiàn)各實施方式所示的功能。另外,也可以是,將控制程序的一部分經(jīng)由各種網(wǎng)絡發(fā)送給與聲音分類裝置不同的可執(zhí)行程序執(zhí)行的裝置(處理器),使該不同的可執(zhí)行程序的裝置執(zhí)行該控制程序的一部分。(2)構成聲音分類裝置的結構要素的一部或者全部可以作為1個或多個集成電路 (IC、LSI等)被安裝,也可以在聲音分類裝置的結構要素中再加上其他要素來集成電路化 (單片化)。(3)在實施方式1、2中作為影像記錄裝置的結構要素說明了聲音分類裝置,但是也可以是聲音記錄裝置的結構要素,也可以是從外部裝置取得音頻信號并輸出分類結果的類別名稱等的聲音分類裝置。也就是說,只要是進行音頻信號的分類的裝置即可。(4)在實施方式1、2中設為從記錄介質(zhì)取得運動圖像的文件組,但是取得的單元不限于使用記錄介質(zhì)的方法。也可以從無線電或有線的廣播、網(wǎng)絡等取得。此外,也可以是,聲音分類裝置具備麥克等錄音裝置,取得使用該錄音裝置錄音得到的音頻信號。(5)在實施方式1、2中區(qū)間特征提取部基于音響特征提取部所提取的音響特征和在基準音響特征存儲部中保存的音響特征字典進行區(qū)間特征的提取,但是只要是提取與頻率分布相關的特征的方法即可,不限于該情況。例如,也可以是,省略音響特征提取部和基準音響特征存儲部,區(qū)間特征提取部作為區(qū)間特征提取與音響特征相當?shù)奶卣鳌T谠撉闆r下,保存在基準區(qū)間特征存儲部中的區(qū)間特征字典也成為與音響特征字典相當?shù)臄?shù)據(jù)。(6)在實施方式1、2中內(nèi)容存儲部、分類信息存儲部、基準特征存儲部、基準區(qū)間特征存儲部及基準綜合特征存儲部通過存儲器來實現(xiàn),但是聲音分類裝置只要是可讀寫的存儲裝置即可,不限于該情況。例如,可以是硬盤或軟盤等,也可以不是內(nèi)置在聲音分類裝置中的存儲裝置而是外裝的存儲裝置。(7)在實施方式1、2中設為使顯示裝置輸出影像,但是不限于此。例如,也可以是, 對運動圖像的文件賦予表示該運動圖像的分類結果的元數(shù)據(jù),將該文件輸出至外部存儲裝置。也就是說,只要進行使用了分類結果的輸出即可。(8)在實施方式1、2中設為操作部通過按鈕等接受來自用戶的操作,但是只要是出于某種契機來進行各種處理即可,不限于此。例如,可以通過遙控器接受來自用戶的操作,也可以不依賴于來自用戶的操作而是檢測安裝了記錄介質(zhì)的情況自動地進行各種處理。(9)在實施方式1、2中設為作為音響特征使用MFCC,但是只要是與能夠從音頻信號的短時間區(qū)間提取的頻率相關的特征即可,不必限定于MFCC。例如,也可以是表示短時間區(qū)間的頻譜的特征。(10)在實施方式1、2中設為分類結果保存在分類信息存儲部中,但是也可以是, 在寫入分類對象的文件的元數(shù)據(jù)的區(qū)域中保存分類信息,與運動圖像文件一起保存在內(nèi)容存儲部中。此外,也可以代替分類ID,而使用與各類別對應的類別名稱的字符串。(11)在實施方式1中,音響特征字典、區(qū)間特征字典及綜合特征字典都是被預先確定的并且不被變更的,但是也可以被變更。例如,也可以從網(wǎng)絡下載這些數(shù)據(jù)來進行更新。(12)在實施方式1、2中,為了求出含有度而求出含有區(qū)間數(shù),將含有區(qū)間數(shù)除以處理對象的音頻信號的區(qū)間數(shù)(全部區(qū)間數(shù))來計算含有度,但是也可以通過其它方法計算含有度。例如,也可以是,將對含有區(qū)間數(shù)加一的處理(圖13的步驟S1307)置換為使含有度增加全部區(qū)間數(shù)的倒數(shù)(1/全區(qū)間數(shù))的處理,省略步驟S1308。若這樣設置,則在針對處理對象的音頻信號的全部區(qū)間結束了步驟S1307的階段,含有度等于含有區(qū)間數(shù)相對于全部區(qū)間數(shù)的比例。此外,各基準區(qū)間特征的含有度只要是表示在處理對象的音頻信號中該基準區(qū)間特征成為代表區(qū)間特征的區(qū)間占有什么程度的值即可,不必限于將含有區(qū)間數(shù)除以全部區(qū)間數(shù)的值。例如,含有度也可以是將含有區(qū)間數(shù)相對于全部區(qū)間數(shù)的比例按每個基準區(qū)間特征賦予權重的值。
作為加權的方法,也可以使用如下的方法按每個基準區(qū)間特征求出逆向文檔頻率(IDF Jnverse Document Frequency),利用IDF值對各比例加權,作為TF_IDF(條件頻率-逆向文檔步頁率Term Frequency-Inverse Document Frequency)值,求出含有度。(13)在實施方式1、2中描述了音頻信號的各短時間區(qū)間是連續(xù)的區(qū)間的情況,但是各短時間區(qū)間也可以是分別一部分重疊,也可以在各短時間區(qū)間之間具有不被用于區(qū)間特征檢測的期間。例如,也可以是,使短時間區(qū)間分別重疊ans,而成為0 10ms、8 18ms、16 26ms>24 34ms."。此外,也可以是,使各短時間區(qū)間之間分別間隔20ms,而成為0 1 Oms、30 40ms>60 70ms." ο(14)在實施方式2中,基準音響特征制作部、基準區(qū)間特征制作部及基準綜合特征制作部都是使用保存在基準聲音存儲部中的相同的音頻信號來分別進行基準數(shù)據(jù)的制作,但是也可以分別使用不同音頻信號。例如,也可以是,基準音響特征制作部中使用的音頻信號是對“笛聲”或“說話聲” 等的單個音源的聲音進行錄音而得的信號,基準區(qū)間特征制作部及基準綜合特征制作部中使用的音頻信號是對“宴會”或“會議”等混有來自各種音源的聲音的聲音進行錄音的信號。此外,也可以是,分別由用戶來選擇基準音響特征制作部中使用的音頻信號、基準區(qū)間特征制作部中使用的音頻信號及基準綜合特征制作部中使用的音頻信號。(15)在實施方式2中,基準音響特征制作部、基準區(qū)間特征制作部及基準綜合特征制作部所制作的基準數(shù)據(jù)都是100個,但是也可以是100個以外的數(shù)量。此外,也可以制作分別不同數(shù)量的基準數(shù)據(jù),也可以不預先決定要制作的數(shù)量,而是動態(tài)地決定制作基準數(shù)據(jù)的數(shù)量。(16)在實施方式2中,設為在基準聲音存儲部中預先保存有基準制作用的音頻信號,但是不必須要預先保存。例如,也可以是只保存從用戶輸入的運動圖像提取的音頻信號。(17)在實施方式2中作為聚類的方法使用了 k-means法,但是也可以是其他聚類方法。作為k-means法以外的聚類方法,有離差平方和法(Ward' s method)等。(18)在實施方式1、2中通過以音響特征與基準音響特征之間的歐幾里得距離為變量的高斯函數(shù)來計算音響類似度,但是只要是表示音響特征與基準音響特征之間的相關關系的值即可,不限于該情況。例如,可以直接使用音響特征與基準音響特征之間的歐幾里得距離。在該情況下, 音響類似度的值越小則音響類似度越高。同樣地,關于區(qū)間類似度也是,不限于通過以區(qū)間特征與基準區(qū)間特征之間的歐幾里得距離為變量的高斯函數(shù)來進行計算。此外,關于綜合類似度也是,不限于通過以綜合特征與基準綜合特征之間的歐幾里得距離為變量的高斯函數(shù)來進行計算。(19)在實施方式1、2中,基準音響特征具有與音響特征的結構相當?shù)慕Y構,但是只要是能夠與音響特征進行比較的結構即可,不必限于與音響特征相同的結構。在變更基準音響特征的結構的情況下,使音響類似度的計算方法與基準音響特征的結構相對應地進行變更。例如,也可以是,設為基準音響特征由與音響特征的結構相當?shù)木哂蠱Ol 似6這 26維成分的矢量和高斯函數(shù)的離散值構成的結構,使用歐幾里得距離和離散值,通過高斯函數(shù)來計算音響類似度。此外,也可以是,設為基準音響特征具有上述矢量和離散值的多個組合,通過 GMM(Gaussian Mixture Model 高斯混合模型)來計算音響類似度。(20)在實施方式1中,以根據(jù)對“歡呼”或“笛聲”等進行錄音而得的音頻信號制作出的數(shù)據(jù)為例說明了基準音響特征,但是,基準音響特征只要是能夠與音響特征比較的數(shù)據(jù)即可,制作方法任意。例如,也可以是如實施方式1所說明的那樣,通過收集歡呼的音頻信號并根據(jù)該音頻信號制作“歡呼”的基準聲音特征等的、收集預先被分類的音頻信號并按照其每個分類來制作基準聲音特征的“有教師”的方法,來進行制作。此外,也可以是如實施方式2的影像記錄裝置IOOa那樣,通過收集原來未被分類的音頻信號,利用聚類等自動地進行分類,按照其每個分類來制作基準聲音特征的“沒有教師”的方法,來進行制作。同樣地,關于基準區(qū)間特征、基準綜合特征也是,制作方法任意,可以通過“有教師”的方法來制作,也可以通過“沒有教師”的方法來制作。(21)以下,進行一步說明本發(fā)明的一實施方式所涉及的聲音分類裝置的結構及其變形例、效果。(a)本發(fā)明的一實施方式所涉及的聲音分類裝置具備取得單元,取得音頻信號; 區(qū)間特征提取單元,針對所述音頻信號所包含的規(guī)定時間長度的多個區(qū)間的各個區(qū)間,提取作為與聲音的頻率分布有關的特征的區(qū)間特征;基準區(qū)間特征存儲單元,存儲有多個基準區(qū)間特征,該基準區(qū)間特征是與所述區(qū)間特征進行比較的基準;計算單元,針對所述多個區(qū)間的各個區(qū)間,將所述區(qū)間特征與各個所述基準區(qū)間特征進行比較,計算表示該區(qū)間特征與該基準區(qū)間特征之間的相關程度的區(qū)間類似度;綜合特征提取單元,針對所述音頻信號提取綜合特征,該綜合特征是基于在所述多個區(qū)間的各個區(qū)間中計算出的多個區(qū)間類似度的、與多個區(qū)間有關的特征;基準綜合特征存儲單元,存儲有1個以上的基準綜合特征, 該基準綜合特征是與所述綜合特征進行比較的基準;以及分類單元,比較所述音頻信號的綜合特征和所述基準綜合特征,基于其結果,對該音頻信號進行分類。根據(jù)具有上述結構的聲音分類裝置,求出表示音頻信號的各區(qū)間與什么聲音以何種程度相關的區(qū)間類似度,從多個區(qū)間各自的區(qū)間類似度提取綜合特征。并且,通過比較綜合特征和作為分類基準的數(shù)據(jù)的基準綜合特征來進行分類。由此,通過將多個區(qū)間的特征綜合地用于分類,能夠適當?shù)貙烊胗懈鞣N聲音的聲音進行分類。(b)也可以是,在(a)記載的聲音分類裝置中,所述綜合特征提取單元針對所述音頻信號,按每個基準區(qū)間特征,計算表示在該音頻信號中與該基準區(qū)間特征之間的區(qū)間類似度比與其他全部基準區(qū)間特征之間的區(qū)間類似度高的區(qū)間占有何種程度的含有度,并提取由各基準區(qū)間特征的該音頻信號中的所述含有度構成的綜合特征。通過這樣使用含有度,能夠根據(jù)表示在音頻信號中與哪個基準區(qū)間特征對應的聲音含有什么程度的時間的基準來進行分類。
(c)也可以是,在(b)記載的聲音分類裝置中,所述綜合特征提取單元基于與該基準區(qū)間特征之間的區(qū)間類似度比與其他全部基準區(qū)間特征之間的區(qū)間類似度高的區(qū)間的總數(shù)相對于該音頻信號所包含的區(qū)間的總數(shù)的比例,來計算各基準區(qū)間特征的所述音頻信號中的所述含有度。通過這樣計算含有度,含有度成為不依賴音頻信號的長度的比例。因而,基準區(qū)間特征的數(shù)據(jù)能夠不考慮分類對象的音頻信號的長度地使用恒定基準。(d)也可以是,在(C)記載的聲音分類裝置中,所述基準區(qū)間特征存儲單元還存儲有相對于各基準區(qū)間特征的、在該基準區(qū)間特征的所述含有度的計算中使用的系數(shù),所述綜合特征提取單元將基準區(qū)間特征的所述含有度計算為所述比例與所述系數(shù)之積。通過這樣計算含有度,能夠?qū)Ω骰鶞蕝^(qū)間特征被包含的比例進行加權。通過重要度低的基準區(qū)間特征較低地設定系數(shù),重要度較高的基準區(qū)間特征較高地設定系數(shù),能夠重視重要高的基準區(qū)間特征地求出綜合特征。(e)也可以是,在(b)記載的聲音分類裝置中,所述區(qū)間特征提取單元具備音響特征提取部,針對所述多個區(qū)間的各個區(qū)間,提取表示該區(qū)間所含有的聲音的MFCC即mel 頻率倒譜系數(shù)的音響特征;以及基準音響特征存儲部,存儲有多個基準音響特征,該基準音響特征是與所述音響特征進行比較的基準;所述區(qū)間特征是由音響類似度構成的數(shù)據(jù),該音響類似度表示針對所述區(qū)間分別計算出的音響特征與所述基準音響特征存儲部所存儲的基準音響特征各自之間的相關程度,所述區(qū)間特征提取單元針對所述多個區(qū)間的各個區(qū)間,基于所述音響特征提取部所提取的音響特征和所述基準音響特征存儲部所存儲的基準音響特征,來提取該區(qū)間的區(qū)間特征。通過這樣設置,能夠使用基于MFCC的特征來進行分類。MFCC特別能夠較好地表現(xiàn)人聲等的特征。(f)也可以是,在(b)記載的聲音分類裝置中,所述區(qū)間特征提取單元具備音響特征提取部,針對所述多個區(qū)間的各個區(qū)間,提取表示該區(qū)間所包含的聲音的頻譜的音響特征;以及基準音響特征存儲部,存儲有多個基準音響特征,該基準音響特征是與所述音響特征進行比較的基準;所述區(qū)間特征是由音響類似度構成的數(shù)據(jù),該音響類似度表示針對所述區(qū)間分別計算出的音響特征與所述基準音響特征存儲部所存儲的基準音響特征各自之間的相關程度;所述區(qū)間特征提取單元針對所述多個區(qū)間的各個區(qū)間,基于所述音響特征提取部所提取的音響特征和所述基準音響特征存儲部所存儲的基準音響特征,來提取該區(qū)間的區(qū)間特征。通過這樣設置,能夠使用基于頻譜的特征進行分類。頻譜能夠良好地表現(xiàn)聲音的高度等的特征。(g)也可以是,在(e)記載的聲音分類裝置中,所述基準綜合特征存儲單元使基準綜合特征與音頻信號的分類目標即類別建立對應地存儲有多個,所述分類單元比較所述音頻信號的綜合特征和多個相互不同的所述基準綜合特征,針對所述基準綜合特征分別求出表示該綜合特征與該基準綜合特征之間的相關程度的綜合類似度,分類至與該綜合特征之間的綜合類似度最高的基準綜合特征所對應的類別中。通過這樣設置,能夠?qū)⒁纛l信號分類至多個類別中的某個中。(h)也可以是,在(e)記載的聲音分類裝置中,還具備聲音存儲單元,存儲多個音頻信號;以及制作單元,基于從存儲在所述聲音存儲單元中的各音頻信號提取的綜合特征來制作基準綜合特征,并保存在所述基準綜合特征存儲單元中。通過這樣設置,即使在基準綜合特征存儲單元中沒有預先準備基準綜合特征,也能夠使用基準制作用的音頻信號來制作基準綜合特征。此外,即使在基準綜合特征存儲單元中預先準備了基準綜合特征的情況下,若使用用戶所持有的音頻信號來制作基準綜合特征,則能夠制作與該用戶相匹配的成為分類基準的基準綜合特征。(i)也可以是,在(e)記載的所述聲音分類裝置中,還具備基準區(qū)間特征制作單元,基于所述聲音存儲單元存儲的各音頻信號所包含的各區(qū)間提取的區(qū)間特征來制作基準區(qū)間特征,并保存在所述基準區(qū)間特征存儲單元中。通過這樣設置,即使在基準區(qū)間特征存儲單元中沒有預先準備基準區(qū)間特征,也能夠使用基準制作用的音頻信號來制作基準區(qū)間特征。此外,在基準區(qū)間特征存儲單元中預先準備了基準區(qū)間特征的情況下,若使用用戶所持有的音頻信號來制作基準區(qū)間特征,則能夠制作與該用戶相匹配的基準區(qū)間特征。但是,在該情況下,還需要與基準區(qū)間特征相對應地制作基準綜合特征。工業(yè)實用性本發(fā)明所涉及的聲音分類裝置能夠用于帶運動圖像拍攝功能的移動電話、數(shù)字視頻攝像機、影像記錄裝置等。附圖標記說明100影像記錄裝置103聲音提取部104聲音分類部105分類信息存儲部201音響特征提取部202基準音響特征存儲部203區(qū)間特征提取部204基準區(qū)間特征存儲部205區(qū)間類似度計算部206綜合特征提取部207基準綜合特征存儲部208分類部1501基準制作部1601基準聲音存儲部1602基準音響特征制作部1603基準區(qū)間特征制作部1604基準綜合特征制作部
權利要求
1.一種聲音分類裝置,其特征在于,具備 取得單元,取得音頻信號;區(qū)間特征提取單元,針對所述音頻信號所包含的規(guī)定時間長度的多個區(qū)間的各個區(qū)間,提取作為與聲音的頻率分布有關的特征的區(qū)間特征;基準區(qū)間特征存儲單元,存儲有多個基準區(qū)間特征,該基準區(qū)間特征是與所述區(qū)間特征進行比較的基準;計算單元,針對所述多個區(qū)間的各個區(qū)間,將所述區(qū)間特征與各個所述基準區(qū)間特征進行比較,計算表示該區(qū)間特征與該基準區(qū)間特征之間的相關程度的區(qū)間類似度;綜合特征提取單元,針對所述音頻信號提取綜合特征,該綜合特征是基于在所述多個區(qū)間的各個區(qū)間中計算出的多個區(qū)間類似度的、與多個區(qū)間有關的特征;基準綜合特征存儲單元,存儲有1個以上的基準綜合特征,該基準綜合特征是與所述綜合特征進行比較的基準;以及分類單元,比較所述音頻信號的綜合特征和所述基準綜合特征,基于其結果,對該音頻信號進行分類。
2.如權利要求1所述的聲音分類裝置,其特征在于, 所述綜合特征提取單元針對所述音頻信號,按每個基準區(qū)間特征計算含有度,該含有度表示與該基準區(qū)間特征之間的區(qū)間類似度比與其他全部基準區(qū)間特征之間的區(qū)間類似度高的區(qū)間以何種程度包含在該音頻信號中,提取由各基準區(qū)間特征在該音頻信號中的所述含有度構成的綜合特征。
3.如權利要求2所述的聲音分類裝置,其特征在于,所述綜合特征提取單元基于與該基準區(qū)間特征之間的區(qū)間類似度比與其他全部基準區(qū)間特征之間的區(qū)間類似度高的區(qū)間的總數(shù)相對于該音頻信號所包含的區(qū)間的總數(shù)的比例,來計算各基準區(qū)間特征在所述音頻信號中的所述含有度。
4.如權利要求3所述的聲音分類裝置,其特征在于,所述基準區(qū)間特征存儲單元還存儲有與各基準區(qū)間特征對應的、在計算該基準區(qū)間特征的所述含有度中使用的系數(shù),所述綜合特征提取單元將基準區(qū)間特征的所述含有度計算為所述比例與所述系數(shù)之積。
5.如權利要求2所述的聲音分類裝置,其特征在于, 所述區(qū)間特征提取單元具備音響特征提取部,針對所述多個區(qū)間的各個區(qū)間,提取表示該區(qū)間所含有的聲音的 MFCC即嘜頻率倒譜系數(shù)的音響特征;以及基準音響特征存儲部,存儲有多個基準音響特征,該基準音響特征是與所述音響特征進行比較的基準;所述區(qū)間特征是由音響類似度構成的數(shù)據(jù),該音響類似度表示針對所述各個區(qū)間計算的音響特征與所述基準音響特征存儲部所存儲的各個基準音響特征之間的相關程度,所述區(qū)間特征提取單元針對所述多個區(qū)間的各個區(qū)間,基于所述音響特征提取部所提取的音響特征和所述基準音響特征存儲部所存儲的基準音響特征,來提取該區(qū)間的區(qū)間特征。
6.如權利要求2所述的聲音分類裝置,其特征在于, 所述區(qū)間特征提取單元具備音響特征提取部,針對所述多個區(qū)間的各個區(qū)間,提取表示該區(qū)間所包含的聲音的頻譜的音響特征;以及基準音響特征存儲部,存儲有多個基準音響特征,該基準音響特征是與所述音響特征進行比較的基準;所述區(qū)間特征是由音響類似度構成的數(shù)據(jù),該音響類似度表示針對所述各個區(qū)間計算的音響特征與所述基準音響特征存儲部所存儲的各個基準音響特征之間的相關程度;所述區(qū)間特征提取單元針對所述多個區(qū)間的各個區(qū)間,基于所述音響特征提取部所提取的音響特征和所述基準音響特征存儲部所存儲的基準音響特征,來提取該區(qū)間的區(qū)間特征。
7.如權利要求5所述的聲音分類裝置,其特征在于,所述基準綜合特征存儲單元與音頻信號的分類目標即類別建立對應地存儲有多個基準綜合特征,所述分類單元比較所述音頻信號的綜合特征和多個相互不同的所述基準綜合特征,針對各個所述基準綜合特征,求出表示該綜合特征與該基準綜合特征之間的相關程度的綜合類似度,分類至與該綜合特征之間的綜合類似度最高的基準綜合特征所對應的類別中。
8.如權利要求5所述的聲音分類裝置,其特征在于, 所述聲音分類裝置還具備聲音存儲單元,存儲多個音頻信號;以及制作單元,基于從所述聲音存儲單元存儲的各音頻信號中提取的綜合特征來制作基準綜合特征,并保存在所述基準綜合特征存儲單元中。
9.如權利要求8所述的聲音分類裝置,其特征在于, 所述聲音分類裝置還具備基準區(qū)間特征制作單元,基于從所述聲音存儲單元存儲的各音頻信號所包含的各區(qū)間中提取的區(qū)間特征來制作基準區(qū)間特征,并保存在所述基準區(qū)間特征存儲單元中。
10.一種聲音分類方法,其特征在于,包括 取得步驟,取得音頻信號;區(qū)間特征提取步驟,針對所述音頻信號所包含的規(guī)定時間長度的多個區(qū)間的各個區(qū)間,提取作為與聲音的頻率分布有關的特征的區(qū)間特征;計算步驟,針對所述多個區(qū)間的各個區(qū)間,比較所述區(qū)間特征和作為與所述區(qū)間特征進行比較的基準的多個基準區(qū)間特征中的各個基準區(qū)間特征,計算表示該區(qū)間特征與該基準區(qū)間特征之間的相關程度的區(qū)間類似度;綜合特征提取步驟,針對所述音頻信號提取綜合特征,該綜合特征是基于在所述多個區(qū)間的各個區(qū)間中計算出的多個區(qū)間類似度的、與多個區(qū)間有關的特征;以及分類步驟,比較所述音頻信號的綜合特征和作為與所述綜合特征進行比較的基準的1 個以上的基準綜合特征,基于其結果,對該音頻信號進行分類。
11.一種聲音分類程序,其特征在于,使計算機執(zhí)行包含如下步驟的處理取得步驟,取得音頻信號;區(qū)間特征提取步驟,針對所述音頻信號所包含的規(guī)定時間長度的多個區(qū)間的各個區(qū)間,提取作為與聲音的頻率分布有關的特征的區(qū)間特征;計算步驟,針對所述多個區(qū)間的各個區(qū)間,比較所述區(qū)間特征和作為與所述區(qū)間特征進行比較的基準的多個基準區(qū)間特征中的各個基準區(qū)間特征,計算表示該區(qū)間特征與該基準區(qū)間特征之間的相關程度的區(qū)間類似度;綜合特征提取步驟,針對所述音頻信號提取綜合特征,該綜合特征是基于在所述多個區(qū)間的各個區(qū)間中計算出的多個區(qū)間類似度的、與多個區(qū)間有關的特征;以及分類步驟,比較所述音頻信號的綜合特征和作為與所述綜合特征進行比較的基準的1 個以上的基準綜合特征,基于其結果,對該音頻信號進行分類。
12.—種記錄介質(zhì),記錄有使計算機執(zhí)行包含如下步驟的處理的程序取得步驟,取得音頻信號;區(qū)間特征提取步驟,針對所述音頻信號所包含的規(guī)定時間長度的多個區(qū)間的各個區(qū)間,提取作為與聲音的頻率分布有關的特征的區(qū)間特征;計算步驟,針對所述多個區(qū)間的各個區(qū)間,比較所述區(qū)間特征和作為與所述區(qū)間特征進行比較的基準的多個基準區(qū)間特征中的各個基準區(qū)間特征,計算表示該區(qū)間特征與該基準區(qū)間特征之間的相關程度的區(qū)間類似度;綜合特征提取步驟,針對所述音頻信號提取綜合特征,該綜合特征是基于在所述多個區(qū)間的各個區(qū)間中計算出的多個區(qū)間類似度的、與多個區(qū)間有關的特征;以及分類步驟,比較所述音頻信號的綜合特征和作為與所述綜合特征進行比較的基準的1 個以上的基準綜合特征,基于其結果,對該音頻信號進行分類。
13.一種集成電路,其特征在于,具備 取得單元,取得音頻信號;區(qū)間特征提取單元,針對所述音頻信號所包含的規(guī)定時間長度的多個區(qū)間的各個區(qū)間,提取作為與聲音的頻率分布有關的特征的區(qū)間特征;基準區(qū)間特征存儲單元,存儲有多個基準區(qū)間特征,該基準區(qū)間特征是與所述區(qū)間特征進行比較的基準;計算單元,針對所述多個區(qū)間的各個區(qū)間,將所述區(qū)間特征與各個所述基準區(qū)間特征進行比較,計算表示該區(qū)間特征與該基準區(qū)間特征之間的相關程度的區(qū)間類似度;綜合特征提取單元,針對所述音頻信號提取綜合特征,該綜合特征是基于在所述多個區(qū)間的各個區(qū)間中計算出的多個區(qū)間類似度的、與多個區(qū)間有關的特征;基準綜合特征存儲單元,存儲有1個以上的基準綜合特征,該基準綜合特征是與所述綜合特征進行比較的基準;以及分類單元,比較所述音頻信號的綜合特征和所述基準綜合特征,基于其結果,對該音頻信號進行分類。
全文摘要
使用音頻信號對運動圖像進行分類。取得音頻信號,針對取得的音頻信號所包含的規(guī)定時間長度的多個區(qū)間的各個區(qū)間,提取作為與聲音的頻率分布有關的特征的區(qū)間特征,對提取的區(qū)間特征和各個基準區(qū)間特征進行比較,計算表示區(qū)間特征和基準區(qū)間特征之間的相關程度的區(qū)間類似度。針對取得的音頻信號,提取基于在多個區(qū)間的各個區(qū)間中計算出的多個區(qū)間類似度的、與多個區(qū)間有關的特征即綜合特征,比較提取的綜合特征和基準綜合特征,基于其結果對該音頻信號進行分類。然后,將該分類結果用于運動圖像的分類。
文檔編號G10L25/48GK102473411SQ20118000286
公開日2012年5月23日 申請日期2011年3月15日 優(yōu)先權日2010年5月17日
發(fā)明者小沼知浩, 石田明 申請人:松下電器產(chǎn)業(yè)株式會社