專利名稱:信息處理裝置和方法、程序及記錄介質(zhì)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種信息處理裝置和方法、 一種程序以及一種記錄介質(zhì), 具體地講,涉及允許提取數(shù)據(jù)特征的信息處理裝置和方法、程序以及記錄 介質(zhì)。
背景技術(shù):
以預(yù)定方式處理信息和從數(shù)據(jù)中提取表示數(shù)據(jù)特征的特征量的技術(shù)是 公知的。在這些技術(shù)中,表示按時(shí)間順序連續(xù)的預(yù)定區(qū)域的數(shù)據(jù)的特征的 特征量可以被提取。在相關(guān)技術(shù)參考中,在使用聲音識(shí)別處理的結(jié)果的信息處理的執(zhí)行過 程中,對(duì)其執(zhí)行聲音識(shí)別處理的目標(biāo)是變化的。聲音識(shí)別處理的聲音識(shí)別 環(huán)境設(shè)置根據(jù)目標(biāo)而改變。此后,根據(jù)改變后的設(shè)置對(duì)改變后的目標(biāo)執(zhí)行 聲音識(shí)別處理(例如,見日本專利特許公開2005-195834)。發(fā)明內(nèi)容然而,當(dāng)數(shù)據(jù)被預(yù)劃分成多個(gè)區(qū)域并提取每個(gè)區(qū)域的特征時(shí),將難以 考慮前面的區(qū)域(或多個(gè)區(qū)域)對(duì)當(dāng)前區(qū)域的影響。當(dāng)盡量增加最終獲得的特征量的分辨率時(shí),有必要增加將被劃分的數(shù) 據(jù)的重疊。結(jié)果,處理量與分辨率成比例地增加。當(dāng)數(shù)據(jù)實(shí)時(shí)輸入時(shí),由于每當(dāng)存儲(chǔ)了預(yù)定量的數(shù)據(jù)就執(zhí)行處理,所以
從數(shù)據(jù)中提取特征的算法越復(fù)雜,在數(shù)據(jù)被輸入之后直到最終獲得特征量 的時(shí)間延遲就越長。換言之,通過區(qū)域的數(shù)據(jù)被輸入的時(shí)間和數(shù)據(jù)被處理的時(shí)間之和獲得 在數(shù)據(jù)被輸入之后直到最終獲得的特征量被輸出的時(shí)間延遲(等待時(shí) 間)。因此,從數(shù)據(jù)中提取特征的算法越復(fù)雜,處理數(shù)據(jù)所需的時(shí)間就越 長,即,時(shí)間延遲(等待時(shí)間)越長。此外,當(dāng)從表示連續(xù)量的數(shù)據(jù)中直接提取特征時(shí),有必要設(shè)計(jì)專用模型和更多的教師數(shù)據(jù)(teacher data)用來學(xué)習(xí)特征提取設(shè)備的參數(shù)。在相 關(guān)技術(shù)中,沒有使用通用特征提取設(shè)備。此外,沒有用少量教師數(shù)據(jù)來學(xué) 習(xí)參數(shù)??紤]到上面的問題,期望提供允許數(shù)據(jù)的特征被容易且快速地提取的 技術(shù)。根據(jù)本發(fā)明的實(shí)施例,提供了一種信息處理裝置。該信息處理裝置包 括分析部分、連續(xù)特征量提取部分、分割部分、區(qū)域特征量提取部分和目 標(biāo)特征量評(píng)估部分。分析部分在預(yù)定頻帶的每個(gè)中按時(shí)間順序連續(xù)地分析 按時(shí)間順序連續(xù)的聲音數(shù)據(jù)。連續(xù)特征量提取部分從所述分析部分的分析 結(jié)果中提取連續(xù)特征量,所述連續(xù)特征量是按時(shí)間順序連續(xù)的特征量。分 割部分將所述連續(xù)特征量分割成多個(gè)區(qū)域,所述多個(gè)區(qū)域中的每個(gè)具有預(yù) 定的長度。區(qū)域特征量提取部分從所述連續(xù)特征量被分割成的多個(gè)區(qū)域中 的每個(gè)中提取區(qū)域特征量,所述區(qū)域特征量是由一個(gè)標(biāo)量或向量表示的特 征量。目標(biāo)特征量評(píng)估部分從所述區(qū)域特征量的每個(gè)中評(píng)估目標(biāo)特征量, 所述目標(biāo)特征量是表示聲音數(shù)據(jù)的一個(gè)特征的特征量??梢酝ㄟ^學(xué)習(xí)由按時(shí)間順序連續(xù)的聲音數(shù)據(jù)和表示在連續(xù)特征量被分 割成的多個(gè)區(qū)域中的每個(gè)區(qū)域中表示聲音數(shù)據(jù)的一個(gè)正確特征的特征量構(gòu) 成的教師數(shù)據(jù)來預(yù)創(chuàng)建目標(biāo)特征量評(píng)估部分。分析部分可以將按時(shí)間順序連續(xù)的聲音數(shù)據(jù)按時(shí)間順序連續(xù)地分析成 每個(gè)八音階的12平均律的音程(musical interval)的聲音。連續(xù)特征量提取部分可以從作為所述分析部分的分析結(jié)果獲得的并且表示每個(gè)八音階的 12平均律(12 equal temperament)的音程的能量的數(shù)據(jù)中提取連續(xù)特征
目標(biāo)特征量評(píng)估部分可以評(píng)估將音樂或談話標(biāo)識(shí)為聲音數(shù)據(jù)的特征的 目標(biāo)特征量。信息處理裝置還可包括平滑部分,用于通過獲得目標(biāo)特征量的滑動(dòng)平 均值來平滑目標(biāo)特征量。信息處理裝置還可包括存儲(chǔ)部分,用于將標(biāo)識(shí)由所評(píng)估的目標(biāo)特征量 表示的特征的標(biāo)記添加到聲音數(shù)據(jù),并存儲(chǔ)已經(jīng)添加了標(biāo)記的聲音數(shù)據(jù)。信息處理裝置還可包括算法創(chuàng)建部分,用于根據(jù)GA (遺傳算法)或 GP (遺傳規(guī)劃)創(chuàng)建從按時(shí)間順序連續(xù)的聲音數(shù)據(jù)中提取連續(xù)特征量的算 法。根據(jù)本發(fā)明的實(shí)施例,提供了一種信息處理方法。在預(yù)定頻帶的每個(gè) 中按時(shí)間順序連續(xù)地分析按時(shí)間順序連續(xù)的聲音數(shù)據(jù)。從分析結(jié)果中提取 連續(xù)特征量,所述連續(xù)特征量是按時(shí)間順序連續(xù)的特征量。所述連續(xù)特征 量被分割成多個(gè)區(qū)域,所述多個(gè)區(qū)域中的每個(gè)具有預(yù)定的長度。從所述連 續(xù)特征量被分割成的多個(gè)區(qū)域中的每個(gè)中提取區(qū)域特征量,所述區(qū)域特征 量是由一個(gè)標(biāo)量或向量表示的特征量。根據(jù)所述區(qū)域特征量的每個(gè)評(píng)估目 標(biāo)特征量,所述目標(biāo)特征量是表示聲音數(shù)據(jù)的一個(gè)特征的特征量。根據(jù)本發(fā)明的實(shí)施例,提供了一種由計(jì)算機(jī)執(zhí)行的程序。在預(yù)定頻帶 的每個(gè)中按時(shí)間順序連續(xù)地分析按時(shí)間順序連續(xù)的聲音數(shù)據(jù)。從分析步驟 的分析結(jié)果中提取連續(xù)特征量,所述連續(xù)特征量是按時(shí)間順序連續(xù)的特征 量。將所述連續(xù)特征量分割成多個(gè)區(qū)域,所述多個(gè)區(qū)域中的每個(gè)具有預(yù)定 的長度。從所述連續(xù)特征量被分割成的多個(gè)區(qū)域中的每個(gè)中提取區(qū)域特征 量,所述區(qū)域特征量是由一個(gè)標(biāo)量或向量表示的特征量。根據(jù)所述區(qū)域特 征量的每個(gè)評(píng)估目標(biāo)特征量,所述目標(biāo)特征量是表示聲音數(shù)據(jù)的一個(gè)特征 的特征量。根據(jù)本發(fā)明的實(shí)施例,提供了一種記錄介質(zhì),在所述記錄介質(zhì)上記錄 了由計(jì)算機(jī)執(zhí)行的程序。在預(yù)定頻帶的每個(gè)中按時(shí)間順序連續(xù)地分析按時(shí) 間順序連續(xù)的聲音數(shù)據(jù)。從分析結(jié)果中提取連續(xù)特征量,所述連續(xù)特征量 是按時(shí)間順序連續(xù)的特征量。所述連續(xù)特征量被分割成多個(gè)區(qū)域,所述多 個(gè)區(qū)域中的每個(gè)具有預(yù)定的長度。從所述連續(xù)特征量被分割成的多個(gè)區(qū)域 中的每個(gè)中提取區(qū)域特征量,所述區(qū)域特征量是由一個(gè)標(biāo)量或向量表示的 特征量。根據(jù)所述區(qū)域特征量的每個(gè)評(píng)估目標(biāo)特征量,所述目標(biāo)特征量是 表示聲音數(shù)據(jù)的一個(gè)特征的特征量。根據(jù)本發(fā)明的實(shí)施例,在預(yù)定頻帶的每個(gè)中按時(shí)間順序連續(xù)地分析按 時(shí)間順序連續(xù)的聲音數(shù)據(jù)。從分析結(jié)果中提取連續(xù)特征量,所述連續(xù)特征 量是按時(shí)間順序連續(xù)的特征量。所述連續(xù)特征量被分割成多個(gè)區(qū)域,所述 多個(gè)區(qū)域中的每個(gè)具有預(yù)定的長度。從所述連續(xù)特征量被分割成的多個(gè)區(qū) 域中的每個(gè)中提取區(qū)域特征量,所述區(qū)域特征量是由一個(gè)標(biāo)量或向量表示 的特征量。從所述區(qū)域特征量的每個(gè)中評(píng)估目標(biāo)特征量,所述目標(biāo)特征量 是表示聲音數(shù)據(jù)的一個(gè)特征的特征量。根據(jù)本發(fā)明的實(shí)施例,可以從數(shù)據(jù)中提取特征。 根據(jù)本發(fā)明的實(shí)施例,可以容易且快速地從數(shù)據(jù)中提取特征。 通過下面對(duì)如附圖所示出的本發(fā)明的優(yōu)選實(shí)施方式的詳細(xì)描述,本發(fā) 明的這些和其它目的、特征和優(yōu)點(diǎn)將變得更加明顯。
結(jié)合附圖,從下面的詳細(xì)描述中,將更全面地理解本發(fā)明,其中類似 的標(biāo)號(hào)表示類似的元件,其中圖1是描述從具有預(yù)定長度的連續(xù)數(shù)據(jù)的每部分中獲得特征的示意圖;圖2是示出根據(jù)本發(fā)明示例性實(shí)施例的信息處理裝置的結(jié)構(gòu)的方框圖;圖3是描述提取目標(biāo)特征量的處理的流程圖; 圖4是描述提取連續(xù)特征量的示意圖; 圖5是描述分割連續(xù)特征量的示意圖; 圖6是描述提取區(qū)域特征量的示意圖; 圖7是描述評(píng)估目標(biāo)特征量的示意圖;圖8是描述確定在單位時(shí)間間隔處聲音數(shù)據(jù)是音樂還是談話的示意 圖;圖9是示出根據(jù)本發(fā)明實(shí)施例的信息處理裝置的另一結(jié)構(gòu)的方框圖; 圖IO是描述將標(biāo)記添加到聲音數(shù)據(jù)的處理的流程圖;圖11是描述時(shí)間-音程數(shù)據(jù)的示意圖;圖12是描述從時(shí)間-音程數(shù)據(jù)中提取連續(xù)音樂特征量的示意圖;圖13是描述分割連續(xù)音樂特征量的示意圖;圖14是描述提取區(qū)域特征量的示意圖;圖15是描述確定幀是音樂還是談話的示意圖;圖16是描述每幀是音樂還是談話的確定結(jié)果被平滑的示意圖;圖17是示出已經(jīng)添加了標(biāo)記的示例性聲音數(shù)據(jù)的示意圖;圖18是描述算法創(chuàng)建部分的處理概要的示意圖;圖19是描述算法創(chuàng)建部分的處理概要的示意圖;圖20是描述算法創(chuàng)建部分的處理概要的示意圖;圖21是示出算法創(chuàng)建部分的功能結(jié)構(gòu)的方框圖;圖22是描述算法創(chuàng)建處理的流程圖;圖23是描述示例性算法創(chuàng)建處理的示意圖;圖24是描述執(zhí)行用基因(gene)表示的處理的示意圖;圖25是描述評(píng)價(jià)基因的示意圖;圖26是示出個(gè)人計(jì)算機(jī)的示例性結(jié)構(gòu)的方框圖。
具體實(shí)施方式
接著,將描述本發(fā)明的實(shí)施例。本發(fā)明的組成部分和本發(fā)明的該說明 書中描述的實(shí)施例之間的關(guān)系如下。這部分中的描述表示支持說明書中闡 述的發(fā)明的實(shí)施例被描述于該說明書中。因此,即使一些實(shí)施例沒有在這 部分中作為與本發(fā)明的組成部分相對(duì)應(yīng)的實(shí)施例被描述,也不意味著這些 實(shí)施例不與該組成部分相對(duì)應(yīng)。相反,即使實(shí)施例在這部分中作為組成部 分被描述,也不意味著這些實(shí)施例不與組成部分之外的部分相對(duì)應(yīng)。根據(jù)本發(fā)明的實(shí)施例,信息處理裝置包括分析部分(例如,在圖9中 示出的時(shí)間-音程分析部分81)、連續(xù)特征量提取部分(例如,在圖9中
示出的連續(xù)音樂特征量提取部分82)、分割部分(例如,在圖9中示出的幀分割部分83)、區(qū)域特征量提取部分(例如,在圖9中示出的區(qū)域特征 量提取部分84)、以及目標(biāo)特征量評(píng)估部分(例如,在圖9中示出的音樂 /談話確定部分85)。分析部分在預(yù)定頻帶的每一個(gè)中按時(shí)間順序連續(xù)分 析按時(shí)間連續(xù)的聲音數(shù)據(jù)。連續(xù)特征量提取部分從分析部分的分析結(jié)果中 提取作為按時(shí)間順序連續(xù)的特征量的連續(xù)特征量。分割部分將連續(xù)特征量 分割成多個(gè)區(qū)域,每個(gè)區(qū)域具有預(yù)定的長度。區(qū)域特征量提取部分從連續(xù) 特征量被分割成的區(qū)域的每一個(gè)中提取作為由一個(gè)標(biāo)量或向量表示的特征 量的區(qū)域特征量。目標(biāo)特征量評(píng)估部分從區(qū)域特征量的每一個(gè)中評(píng)估作為 表示聲音數(shù)據(jù)的一個(gè)特征的特征量的目標(biāo)特征量。信息處理裝置還可包括平滑部分(例如,在圖9中示出的數(shù)據(jù)平滑部 分86),該平滑部分通過獲得目標(biāo)特征量的滑動(dòng)平均值來平滑目標(biāo)特征信息處理裝置還可包括存儲(chǔ)部分(例如,在圖9中示出的聲音存儲(chǔ)部 分87),該存儲(chǔ)部分將標(biāo)記添加到聲音數(shù)據(jù)并存儲(chǔ)添加了標(biāo)記的聲音數(shù) 據(jù),所述標(biāo)記標(biāo)識(shí)由所評(píng)價(jià)的目標(biāo)特征量表示的特征。信息處理裝置還可包括算法創(chuàng)建部分(例如,在圖18中示出的算法 創(chuàng)建部分101),該算法創(chuàng)建部分創(chuàng)建根據(jù)GA (遺傳算法)或GP (遺傳 規(guī)劃)創(chuàng)建從按時(shí)間順序連續(xù)的聲音數(shù)據(jù)中提取連續(xù)的特征量的算法。根據(jù)本發(fā)明的實(shí)施例,在信息處理方法和程序中,在每個(gè)預(yù)定頻帶中 按時(shí)間順序連續(xù)地分析按時(shí)間順序連續(xù)的聲音數(shù)據(jù)(例如,在圖10中所 示的步驟S51)。從分析結(jié)果中提取作為按時(shí)間順序連續(xù)的特征量的連續(xù) 特征量(例如,在圖10中所示的步驟S52)。連續(xù)的特征量被分割成多個(gè) 區(qū)域,每個(gè)區(qū)域具有預(yù)定的長度(例如,在圖10中所示的步驟S53)。從 連續(xù)特征量被分割成的多個(gè)區(qū)域的每個(gè)區(qū)域中提取作為由一個(gè)標(biāo)量或向量 表示的特征量的區(qū)域特征量(例如,在圖10中所示的步驟S54)。從區(qū)域 特征量的每個(gè)中評(píng)估作為表示聲音數(shù)據(jù)的一個(gè)特征的特征量的目標(biāo)特征量 (例如,在圖10中所示的步驟S55)。首先,如圖1所示,將描述將自動(dòng)特征提取算法應(yīng)用于作為按時(shí)間順
序連續(xù)的數(shù)據(jù)的連續(xù)數(shù)據(jù)并根據(jù)該算法從連續(xù)數(shù)據(jù)中以預(yù)定長度的間隔獲 得特征的技術(shù)。例如,從連續(xù)輸入的作為例如波形數(shù)據(jù)的連續(xù)數(shù)據(jù)中以預(yù) 定長度的間隔獲得作為A、 B和C之一的特征。圖2是示出根據(jù)本發(fā)明實(shí)施例的信息處理裝置11的結(jié)構(gòu)的方框圖。 信息處理裝置11從連續(xù)數(shù)據(jù)中以預(yù)定長度的間隔提取特征。信息處理裝置11由連續(xù)特征量提取部分31、連續(xù)特征分割部分32、區(qū)域特征量提取 部分33和目標(biāo)特征量評(píng)估部分34組成。連續(xù)特征量提取部分31獲得作為從外部輸入的按時(shí)間連續(xù)的數(shù)據(jù)的 連續(xù)數(shù)據(jù)并且從所獲得的連續(xù)數(shù)據(jù)中提取作為按時(shí)間順序連續(xù)的特征量的 連續(xù)特征量。連續(xù)特征量提取部分31從連續(xù)數(shù)據(jù)中提取至少一個(gè)連續(xù)特 征量。連續(xù)特征量提取部分31將所提取的連續(xù)特征量相繼提供到連續(xù)特 征分割部分32。換言之,作為按時(shí)間順序連續(xù)的特征量的連續(xù)特征量按它們被提取的 次序被提供到連續(xù)特征分割部分32。連續(xù)特征分割部分32將從連續(xù)特征量提取部分31提供的連續(xù)特征量 的每一個(gè)分割成多個(gè)區(qū)域,每個(gè)區(qū)域具有預(yù)定的長度。換言之,連續(xù)特性 分割部分32創(chuàng)建連續(xù)特征量中每個(gè)的至少一個(gè)區(qū)域。連續(xù)特征分割部分 32按連續(xù)特征量中的每個(gè)特征量被分割成多個(gè)區(qū)域的次序?qū)⑦B續(xù)特征量中 的每一個(gè)的區(qū)域相繼提供到區(qū)域特征量提取部分33。區(qū)域特征量提取部分33從連續(xù)特征量中的每個(gè)特征量被連續(xù)特征分 割部分32分割成的區(qū)域的每一個(gè)中提取作為由一個(gè)標(biāo)量或向量表示的特 征量的區(qū)域特征量。換言之,區(qū)域特征量提取部分33從連續(xù)特征量中的 每個(gè)特征量的區(qū)域的每一個(gè)中提取至少一個(gè)區(qū)域特征量。區(qū)域特征量提取 部分33按區(qū)域特征量被提取的次序?qū)⑺崛〉膮^(qū)域特征量提供給目標(biāo)特 征量評(píng)估部分34。目標(biāo)特征量評(píng)估部分34評(píng)估在具有預(yù)定長度的每個(gè)區(qū)域中最終將獲 得的目標(biāo)特征量。換言之,目標(biāo)特征量評(píng)估部分34從區(qū)域特征量提取部 分33提取的區(qū)域特征量中評(píng)估目標(biāo)特征量,所述目標(biāo)特征量是在每個(gè)具 有預(yù)定長度的區(qū)域中表示數(shù)據(jù)的一個(gè)特征的特征量。目標(biāo)特征量評(píng)估部分34輸出已經(jīng)被目標(biāo)特征量評(píng)估部分34評(píng)估的目標(biāo)特征量。接著,參照?qǐng)D3所示的流程圖,將描述提取目標(biāo)特征量的處理。在步 驟Sll,信息處理裝置11的連續(xù)特征量提取部分31從作為從外部輸入的按時(shí)間順序連續(xù)的數(shù)據(jù)的連續(xù)數(shù)據(jù)中提取至少一個(gè)連續(xù)變化的連續(xù)特征例如,如圖4所示,連續(xù)特征量提取部分31從連續(xù)數(shù)據(jù)中提取連續(xù) 變化的三個(gè)連續(xù)特征量,例如連續(xù)特征量1、連續(xù)特征量2和連續(xù)特征量 3。更具體地講,當(dāng)連續(xù)數(shù)據(jù)是聲音數(shù)據(jù)時(shí),連續(xù)特征量提取部分31從 連續(xù)數(shù)據(jù)中提取表示每個(gè)時(shí)刻的聲音音量的連續(xù)特征量1、表示每個(gè)時(shí)刻 的12平均律的音程的聲音(例如,Do、 Re或Mi的聲音)的連續(xù)特征量 2、以及表示每個(gè)時(shí)刻的右聲道信號(hào)和左聲道信號(hào)的平衡的連續(xù)特征量3。當(dāng)連續(xù)數(shù)據(jù)是運(yùn)動(dòng)圖像數(shù)據(jù)時(shí),連續(xù)特征量提取部分31從連續(xù)數(shù)據(jù) 中提取表示每個(gè)時(shí)刻運(yùn)動(dòng)圖像的亮度的連續(xù)特征量1、表示每個(gè)時(shí)刻運(yùn)動(dòng) 量的連續(xù)特征量2、和表示每個(gè)時(shí)刻運(yùn)動(dòng)圖像的顏色的連續(xù)特征量3。連續(xù)特征量提取部分31按連續(xù)特征量被提取的次序?qū)⑺崛〉倪B續(xù) 特征量相繼提供到連續(xù)特征分割部分32。在步驟S12,連續(xù)特征分割部分32將至少一個(gè)連續(xù)特征量分割成多個(gè) 區(qū)域,所述多個(gè)區(qū)域中的每個(gè)具有預(yù)定的長度。例如,連續(xù)特征分割部分32將例如連續(xù)數(shù)據(jù)的連續(xù)特征量1、連續(xù)特 征量2和連續(xù)特征量3之類的連續(xù)特征量中的每一個(gè)劃分成多個(gè)區(qū)域,所 述多個(gè)區(qū)域中的每個(gè)具有由圖5中所示的相鄰垂直線表示的預(yù)定長度,并 且連續(xù)特征分割部分32將例如連續(xù)特征量1、連續(xù)特征量2和連接特征量 3之類的連續(xù)特征量的每一個(gè)分割成多個(gè)區(qū)域,所述多個(gè)區(qū)域中的每個(gè)具 有預(yù)定的長度。多個(gè)連續(xù)特征量以它們?cè)谙嗤奈恢靡韵嗤拈L度被分割的方式被分割。本示例中,長度可以基于時(shí)間、連續(xù)數(shù)據(jù)的數(shù)據(jù)量、或者連續(xù)數(shù)據(jù)的 預(yù)定單位(例如,幀)。
連續(xù)特征分割部分32可以將每個(gè)連續(xù)特征量分割成每個(gè)區(qū)域具有預(yù) 定長度的多個(gè)區(qū)域,使得每個(gè)分割區(qū)域與相鄰的分割區(qū)域重疊。更具體地講,例如,連續(xù)特征分割部分32將從作為聲音數(shù)據(jù)的連續(xù) 數(shù)據(jù)中提取的表示每個(gè)時(shí)刻的聲音音量的連續(xù)特征量1、表示每個(gè)時(shí)刻12 平均律的音程的聲音的連續(xù)特征量2、以及表示每個(gè)時(shí)刻右聲道信號(hào)和左 聲道信號(hào)的平衡的連續(xù)特征量3分割成多個(gè)區(qū)域,每個(gè)區(qū)域具有5秒、10 秒或15秒長度的聲音數(shù)據(jù)。作為替代,例如,連續(xù)特征分割部分32將從作為運(yùn)動(dòng)圖像數(shù)據(jù)的連 續(xù)數(shù)據(jù)中提取的表示每個(gè)時(shí)刻的運(yùn)動(dòng)圖像亮度的連續(xù)特征量1、表示每個(gè) 時(shí)刻的運(yùn)動(dòng)量的連續(xù)特征量2、以及表示每個(gè)時(shí)刻運(yùn)動(dòng)圖像的顏色的連續(xù) 特征量3分割成多個(gè)區(qū)域,每個(gè)區(qū)域具有30幀、150幀或300幀長度的運(yùn) 動(dòng)圖像數(shù)據(jù)。連續(xù)特征分割部分32將連續(xù)特征量己經(jīng)被分割成的多個(gè)區(qū)域按它們 被分割的次序提供到區(qū)域特征量提取部分33。在步驟S13,區(qū)域特征量提取部分33提取與已經(jīng)被分割成各多個(gè)區(qū)域 的至少一個(gè)連續(xù)特征量相對(duì)應(yīng)的由一個(gè)標(biāo)量或向量表示的至少一個(gè)區(qū)域特 征量,所述多個(gè)區(qū)域的每一個(gè)具有預(yù)定的長度。例如,區(qū)域特征量提取部分33將至少一種預(yù)定的處理應(yīng)用于連續(xù)特 征量中的每個(gè)特征量被分割成的多個(gè)區(qū)域中的每一個(gè),以從連續(xù)特征量的 每個(gè)中提取作為由至少一個(gè)標(biāo)量或向量表示的特征量的至少一個(gè)區(qū)域特征一個(gè)區(qū)域特征量將一個(gè)區(qū)域的特征表示為一個(gè)標(biāo)量或一個(gè)向量。 例如,如圖6所示,區(qū)域特征量提取部分33從作為聲音數(shù)據(jù)的連續(xù)數(shù)據(jù)中提取的表示第一區(qū)域的每個(gè)時(shí)刻的聲音音量的連續(xù)特征量1的平均 值。因此,區(qū)域特征量提取部分33提取0.2作為第一區(qū)域的區(qū)域特征量。 相似地,區(qū)域特征量提取部分33獲得從作為聲音數(shù)據(jù)的連續(xù)數(shù)據(jù)中提取 的表示第二和第三區(qū)域的每個(gè)時(shí)刻的聲音音量的連續(xù)特征量1的平均值。 因此,區(qū)域特征量提取部分33提取-0.05和0.05分別作為第二和第三區(qū)域 的區(qū)域特征量。
此外,區(qū)域特征量提取部分33獲得從作為聲音數(shù)據(jù)的連續(xù)數(shù)據(jù)中提 取的表示第一、第二和第三區(qū)域的每個(gè)時(shí)刻的聲音音量的連續(xù)特征量1的方差。結(jié)果,區(qū)域特征量提取部分33提取0.2、 0.15和0.1,分別作為第 一、第二和第三區(qū)域的區(qū)域特征量。此外,區(qū)域特征量提取部分33獲得從作為聲音數(shù)據(jù)的連續(xù)數(shù)據(jù)中提 取的表示第一、第二和第三區(qū)域中的每個(gè)時(shí)刻的聲音音量的連續(xù)特征量1 的梯度。因此,區(qū)域特征量提取部分33提取0.3、 -0.2和0.0,分別作為第 一、第二和第三區(qū)域的區(qū)域特征量。相似地,區(qū)域特征量提取部分33提取表示第四區(qū)域和后面區(qū)域的連 續(xù)特征量1的平均值、方差和梯度的區(qū)域特征量。此外,區(qū)域特征量提取部分33提取從作為聲音數(shù)據(jù)的連續(xù)數(shù)據(jù)中提 取的各個(gè)區(qū)域的表示連續(xù)特征量2的平均值、方差和梯度的區(qū)域特征量以 及表示連續(xù)特征量3的平均值、方差和梯度的區(qū)域特征量,所述連續(xù)特征 量2表示各個(gè)時(shí)刻12平均律的音程的聲音,所述連續(xù)特征量3表示各個(gè)時(shí) 刻右聲道信號(hào)和左聲道信號(hào)的平衡。當(dāng)連續(xù)數(shù)據(jù)是運(yùn)動(dòng)圖像數(shù)據(jù)時(shí),區(qū)域特征量提取部分33提取從連續(xù) 數(shù)據(jù)中提取的各個(gè)區(qū)域的表示連續(xù)特征量1、連續(xù)特征量2和連續(xù)特征量 3的平均值、方差和梯度的區(qū)域特征量,所述連續(xù)特征量1表示各個(gè)時(shí)刻 運(yùn)動(dòng)圖像的亮度,所述連續(xù)特征量2表示各個(gè)時(shí)刻的運(yùn)動(dòng)量,所述連續(xù)特 征量3表示各個(gè)時(shí)刻的運(yùn)動(dòng)圖像的顏色。在步驟S14,目標(biāo)特征量評(píng)估部分34根據(jù)區(qū)域特征量評(píng)估每個(gè)區(qū)域的目標(biāo)特征量。此后,處理完成。換言之,在步驟S14,目標(biāo)特征量評(píng)估部分34評(píng)估最終將從在步驟 S13提取的每個(gè)區(qū)域的區(qū)域特征量中提取的目標(biāo)特征量。例如,如圖7所 示,當(dāng)已經(jīng)提取例如區(qū)域特征量1至區(qū)域特征量7之類的區(qū)域特征量時(shí), 例如己經(jīng)提取0.2作為區(qū)域特征量1、 0.2作為區(qū)域特征量2、 0.3作為區(qū)域 特征量3、 -0.5作為區(qū)域特征量4、 1.23作為區(qū)域特征量5、 0.42作為區(qū)域 特征量6、以及0.11作為區(qū)域特征量7時(shí),目標(biāo)特征量評(píng)估部分34根據(jù)區(qū) 域特征量1至7評(píng)估目標(biāo)特征量。14 當(dāng)連續(xù)數(shù)據(jù)是聲音數(shù)據(jù)時(shí),目標(biāo)特征量表示聲音的有無、預(yù)定儀器性 能的有無、噪聲的有無等等。當(dāng)連續(xù)數(shù)據(jù)是運(yùn)動(dòng)圖像數(shù)據(jù)時(shí),目標(biāo)特征量表示人(群)的有無、預(yù) 定物體的有無、物體的預(yù)定運(yùn)動(dòng)的有無(例如,物體是否在跳舞)等等。因此,在步驟S14,目標(biāo)特征量評(píng)估部分34評(píng)估作為如下特征量的目 標(biāo)特征量,所述特征量表示來自每個(gè)區(qū)域中的區(qū)域特征量的數(shù)據(jù)的一個(gè)特 征。換言之,目標(biāo)特征量評(píng)估部分34將預(yù)定的處理施加到每個(gè)區(qū)域中的 區(qū)域特征量,并評(píng)估每個(gè)區(qū)域中的目標(biāo)特征量。例如,目標(biāo)特征量評(píng)估部分34通過學(xué)習(xí)由區(qū)域特征量和目標(biāo)特征量 構(gòu)成的教師數(shù)據(jù)來預(yù)創(chuàng)建,所述目標(biāo)特征量表示每個(gè)區(qū)域中的數(shù)據(jù)的一個(gè) 正確特征。換言之,目標(biāo)特征量評(píng)估部分34通過學(xué)習(xí)由每個(gè)區(qū)域中按時(shí) 間順序連續(xù)的數(shù)據(jù)和目標(biāo)特征量構(gòu)成的教師數(shù)據(jù)來預(yù)創(chuàng)建,從所述按時(shí)間 順序連續(xù)的數(shù)據(jù)中提取區(qū)域特征量,所述目標(biāo)特征量表示每個(gè)區(qū)域中整個(gè) 數(shù)據(jù)的一個(gè)正確特征。例如,根據(jù)如回歸、分類、SVM (支持向量機(jī))、或GP (遺傳規(guī) 劃)等技術(shù)通過機(jī)器學(xué)習(xí)教師數(shù)據(jù)來創(chuàng)建目標(biāo)特征量評(píng)估部分34。以這樣的方式,可以提取預(yù)定區(qū)域中的連續(xù)數(shù)據(jù)的特征。從按時(shí)間順序連續(xù)的連續(xù)數(shù)據(jù)中提取按時(shí)間順序連續(xù)的連續(xù)特征量。 從連續(xù)特征量中分割具有預(yù)定長度的區(qū)域。從已經(jīng)從連續(xù)特征量中分割的 連續(xù)特征量的區(qū)域中提取作為由一個(gè)標(biāo)量或向量表示的特征量的區(qū)域特征 量。目標(biāo)特征量是表示每個(gè)區(qū)域中連續(xù)數(shù)據(jù)的一個(gè)特征的特征量。因此, 可以容易且快速地在每個(gè)區(qū)域中提取連續(xù)數(shù)據(jù)的特征。接著,將更具體地描述本發(fā)明的實(shí)施例。如圖8所示,自動(dòng)音樂/談話確定算法應(yīng)用于作為按時(shí)間順序連續(xù)的數(shù) 據(jù)的聲音數(shù)據(jù)的輸入,以在每個(gè)單位時(shí)間中確定聲音數(shù)據(jù)是音樂還是談話 并輸出每個(gè)單位時(shí)間中聲音數(shù)據(jù)是音樂或談話的結(jié)果。例如,在具有預(yù)定長度聲音的聲音數(shù)據(jù)的每個(gè)單位時(shí)間,表示聲音波 形的波形數(shù)據(jù)的聲音數(shù)據(jù)的確定結(jié)果被輸出為談話(T)、談話(T)、談
話(T)、談話(T)、音樂(M)、音樂(M)、音樂(M)、音樂 (M)、音樂(M)和音樂(M)。圖9是示出根據(jù)本發(fā)明實(shí)施例的信息處理裝置51的結(jié)構(gòu)的方框圖。 在每個(gè)單位時(shí)間,信息處理裝置51確定輸入的聲音數(shù)據(jù)是音樂還是談 話。信息處理裝置51由時(shí)間-音程分析部分81、連續(xù)音樂特征量提取部分 82、幀分割部分83、區(qū)域特征量提取部分84、音樂/談話確定部分85、數(shù) 據(jù)平滑部分86和聲音存儲(chǔ)部分87構(gòu)成。時(shí)間-音程分析部分81在預(yù)定頻帶的每個(gè)中按時(shí)間順序連續(xù)地分析按 時(shí)間連續(xù)的聲音數(shù)據(jù)。例如,時(shí)間-音程分析部分81在每個(gè)八音階的12平 均律的音程和時(shí)間兩個(gè)軸上分析按時(shí)間順序連續(xù)的聲音數(shù)據(jù)。時(shí)間-音程分 析部分81獲得表示每個(gè)八音階的12平均律的音程的能量并且作為分析結(jié) 果按時(shí)間順序連續(xù)的時(shí)間-音程數(shù)據(jù),并將時(shí)間-音程數(shù)據(jù)按其被分析的次 序提供到連續(xù)音樂特征量提取部分82。按時(shí)間順序連續(xù)的時(shí)間-音程數(shù)據(jù) 被提供到連續(xù)音樂特征量提取部分82,使得它們按它們被分析的次序在時(shí) 間上連續(xù)。連續(xù)音樂特征量提取部分82從時(shí)間-音程數(shù)據(jù)中提取作為按時(shí)間順序 連續(xù)的特征量的連續(xù)音樂特征量,所述時(shí)間-音程數(shù)據(jù)是從時(shí)間-音程分析 部分81提供的按時(shí)間順序連續(xù)的數(shù)據(jù)。連續(xù)音樂特征量提取部分82將所 提取的連續(xù)音樂特征量按其被提取的次序提供到幀分割部分83。作為按時(shí) 間順序連續(xù)的特征量的連續(xù)音樂特征量被提供到幀分割部分83,使得它們 按被其提取的次序在時(shí)間上連續(xù)。幀分割部分83將從連續(xù)音樂特征量提取部分82提供的連續(xù)音樂特征 量分割成多個(gè)幀,所述多個(gè)幀中的每個(gè)具有預(yù)定的長度。幀分割部分83 將已經(jīng)被分割成幀的連續(xù)音樂特征量作為基于幀的連續(xù)音樂特征量按其被 分割成幀的次序提供到區(qū)域特征量提取部分84。區(qū)域特征量提取部分84從基于幀的連續(xù)音樂特征量中提取作為每幀 中由一個(gè)標(biāo)量或向量表示的特征量的區(qū)域特征量。區(qū)域特征量提取部分84 將所提取的區(qū)域特征量按它們被提取的次序提供到音樂/談話確定部分 85。
音樂/談話確定部分85根據(jù)由區(qū)域特征量提取部分84提取的區(qū)域特征 量的每個(gè)評(píng)估目標(biāo)特征量,所述目標(biāo)特征量是聲音數(shù)據(jù)的每一幀的特征并表示用于標(biāo)識(shí)音樂或談話的特征。換言之,音樂/談話確定部分85評(píng)估每幀中將音樂或談話標(biāo)識(shí)為聲音數(shù)據(jù)的一個(gè)特征的目標(biāo)特征量。音樂/談話確定部分85將表示所獲得的標(biāo)識(shí)音樂或談話每幀的特征的 基于幀的音樂/談話確定結(jié)果作為評(píng)估結(jié)果提供到數(shù)據(jù)平滑部分86。數(shù)據(jù)平滑部分86獲得從音樂/談話確定部分85提供的基于幀的音樂/ 談話確定結(jié)果的滑動(dòng)平均值,并根據(jù)所獲得的滑動(dòng)平均值平滑目標(biāo)特征 量。數(shù)據(jù)平滑部分86獲得連續(xù)音樂/談話確定結(jié)果作為平滑結(jié)果,并將連 續(xù)音樂/談話確定結(jié)果提供到聲音存儲(chǔ)部分87。聲音存儲(chǔ)部分87根據(jù)從數(shù)據(jù)平滑部分86提供的連續(xù)音樂/談話確定結(jié) 果創(chuàng)建標(biāo)識(shí)音樂或談話的標(biāo)記,并將所創(chuàng)建的標(biāo)記添加到聲音數(shù)據(jù)。聲音 存儲(chǔ)部分87例如將被標(biāo)記的聲音數(shù)據(jù)存儲(chǔ)到記錄介質(zhì)(未示出)。換言之,聲音存儲(chǔ)部分87將表示被評(píng)估的目標(biāo)特征量的標(biāo)記添加到 聲音數(shù)據(jù),并存儲(chǔ)得到的被標(biāo)記的聲音數(shù)據(jù)。聲音存儲(chǔ)部分87可以用這樣的方式存儲(chǔ)被標(biāo)記的聲音數(shù)據(jù),使得聲 音存儲(chǔ)部分87將被標(biāo)記的聲音數(shù)據(jù)記錄到通過網(wǎng)絡(luò)連接到信息處理裝置 11的服務(wù)器(未示出)。圖IO是描述將標(biāo)記添加到聲音數(shù)據(jù)的處理的流程圖。在步驟S51,時(shí) 間-音程分析部分81在時(shí)間和每個(gè)八音階的12平均律的音程兩個(gè)軸分析按 時(shí)間順序連續(xù)的聲音數(shù)據(jù)的波形,并根據(jù)分析結(jié)果創(chuàng)建時(shí)間-音程數(shù)據(jù)。例如,如圖11所示,在步驟S51,時(shí)間-音程分析部分81將聲音數(shù)據(jù) 劃分成多個(gè)八音階分量,并獲得每個(gè)八音階的12平均律的音樂電平的能 量,在每個(gè)八音階的12平均律的音程和時(shí)間兩個(gè)軸上分析聲音數(shù)據(jù),并 根據(jù)分析結(jié)果創(chuàng)建時(shí)間-音程數(shù)據(jù)。更具體地講,當(dāng)聲音數(shù)據(jù)是立體聲數(shù)據(jù)時(shí),時(shí)間-音程分析部分81獲 得聲音數(shù)據(jù)的右聲道數(shù)據(jù)和左聲道數(shù)據(jù)中的每個(gè)的多個(gè)八音階中的每個(gè)的 12平均律的音程的能量,并添加從每個(gè)八音階的左聲道數(shù)據(jù)獲得的能量和 從右聲道數(shù)據(jù)獲得的能量,以創(chuàng)建時(shí)間-音程數(shù)據(jù)。
時(shí)間-音程分析部分81創(chuàng)建作為按時(shí)間順序連續(xù)的數(shù)據(jù)的時(shí)間-音程數(shù) 據(jù)。時(shí)間-音程分析部分81將所創(chuàng)建的時(shí)間-音程數(shù)據(jù)按它們創(chuàng)建的次序提供到連續(xù)音樂特征量提取部分82。在步驟S52,連續(xù)音樂特征量提取部分82從時(shí)間-音程數(shù)據(jù)中提取多 個(gè)連續(xù)音樂特征量。例如,在步驟S52,連續(xù)音樂特征量提取部分82從表示每個(gè)八音階的 12平均律的音程的能量的時(shí)間-音程數(shù)據(jù)中提取按時(shí)間順序變化的連續(xù)的 音樂特征量,例如連續(xù)音樂特征量1、連續(xù)音樂特征量2和連續(xù)音樂特征 量3。例如,如圖12所示,連續(xù)音樂特征量提取部分82從表示每個(gè)八音 階的12平均律的音程的能量的時(shí)間-音程數(shù)據(jù)中提取表示每個(gè)時(shí)刻音樂范 圍的電平比的連續(xù)音樂特征量1、表示每個(gè)時(shí)刻右聲道和左聲道的電平差 或能量差的連續(xù)音樂特征量2、以及表示諸如例如起音(attack)、衰減 (decay)、維持(sustain)、消逝(release)等包絡(luò)參數(shù)的連續(xù)音樂特征 量3。作為替代,例如,連續(xù)音樂特征量提取部分82從表示每個(gè)八音階的 12平均律的音程的能量的時(shí)間-音程數(shù)據(jù)中提取表示每個(gè)時(shí)刻的節(jié)奏比的 連續(xù)音樂特征量1、表示每個(gè)時(shí)刻的聲音數(shù)目的連續(xù)音樂特征量2、和表 示每個(gè)時(shí)刻的和聲結(jié)構(gòu)的連續(xù)音樂特征量3。此外,連續(xù)音樂特征量提取部分82可以從表示每個(gè)八音階的12平均律的音程的能量的時(shí)間-音程數(shù)據(jù)中提取表示聲音密度、音程變化等的連續(xù) 音樂特征量。連續(xù)音樂特征量提取部分82將所提取的連續(xù)音樂特征量按它們被提 取的次序提供到幀分割部分83。在步驟S53,幀分割部分83將連續(xù)音樂特征量中的每個(gè)劃分成多個(gè)幀并獲得基于幀的連續(xù)音樂特征量。例如,如圖13所示,幀分割部分83將例如連續(xù)音樂特征量1、連續(xù) 音樂特征量2和連續(xù)音樂特征量3之類的連續(xù)音樂特征量中的每個(gè)劃分成 多個(gè)幀。本示例中,幀是由圖13中所示的垂直線表示的時(shí)刻和由與該垂 直線相鄰的垂直線表示的時(shí)刻之間的時(shí)間段。幀是具有預(yù)定長度的時(shí)間 段。
幀分割部分83將例如連續(xù)音樂特征量1、連續(xù)音樂特征量2、和連續(xù)
音樂特征量3之類的連續(xù)音樂特征量分割成多個(gè)幀。
幀分割部分83將多個(gè)連續(xù)音樂特征量分割成多個(gè)幀,使得它們?cè)谙?同的位置以相同的長度被分割。
幀分割部分83將劃分成多個(gè)幀的基于幀的連續(xù)音樂特征量按它們被 劃分的次序提供到區(qū)域特征量提取部分84。
在步驟S54,區(qū)域特征量提取部分84計(jì)算所劃分的基于幀的連續(xù)音樂 特征量的平均值和方差,以在每幀中提取區(qū)域特征量。
區(qū)域特征量提取部分84將至少一個(gè)預(yù)定的處理應(yīng)用于基于幀的連續(xù) 音樂特征量中的每個(gè)并從基于幀的連續(xù)音樂特征量的每個(gè)中提取作為由至 少一個(gè)標(biāo)量或向量表示的特征量的區(qū)域特征量。
例如,如圖14所示,區(qū)域特征量提取部分84獲得表示每個(gè)時(shí)刻每個(gè) 音樂范圍的電平比的基于幀的連續(xù)音樂特征量1的第一幀的平均值。因 此,區(qū)域特征量提取部分84提取0.2作為第一幀的區(qū)域特征量。相似地, 區(qū)域特征量提取部分84獲得表示每個(gè)時(shí)刻每個(gè)音樂范圍的電平比的基于 幀的連續(xù)音樂特征量1的第二和第三幀的平均值。因此,區(qū)域特征量提取 部分84提取-0.05和0.05分別作為第二和第三幀的區(qū)域特征量。
此外,區(qū)域特征量提取部分84獲得表示每個(gè)時(shí)刻每個(gè)音樂范圍的電 平比的基于幀的連續(xù)音樂特征量1的第一、第二和第三幀的方差。因此, 區(qū)域特征量提取部分84提取0.2、 0.15和0.1分別作為第一、第二和第三 幀的區(qū)域特征量。
區(qū)域特征量提取部分84提取表示基于幀的連續(xù)音樂特征量1的第四 幀和后面幀的平均值或方差的區(qū)域特征量。
此外,例如,如圖14所示,區(qū)域特征量提取部分84獲得表示每個(gè)時(shí) 刻右聲道和作聲道的能量差或電平差的基于幀的連續(xù)音樂特征量的第一幀 的平均值。因此,區(qū)域特征量提取部分84獲得0.1作為第一幀的區(qū)域特征 量。相似地,區(qū)域特征量提取部分84獲得基于幀的連續(xù)音樂特征量2的 第二和第三幀的平均值。因此,區(qū)域特征量提取部分84提取0.4和0.5分 別作為第二和第三幀的區(qū)域特征量。
此外,區(qū)域特征量提取部分84獲得表示每個(gè)時(shí)刻右聲道和左聲道的 能量差或電平差的基于幀的連續(xù)音樂特征量2的第一、第二和第三幀的方
差。因此,區(qū)域特征量提取部分84提取0.3、 -0,2和0.0分別作為第一、 第二和第三幀的區(qū)域特征量。
相似地,區(qū)域特征量提取部分84提取表示基于幀的連續(xù)音樂特征量2 的第四幀和后面幀的平均值或方差的區(qū)域特征量。
區(qū)域特征量提取部分84從基于幀的連續(xù)音樂特征值3的幀中提取區(qū) 域特征量。
區(qū)域特征量提取部分84將所提取的區(qū)域特征量提供到音樂/談話確定 部分85。
在步驟S55,音樂/談話確定部分85根據(jù)區(qū)域特征量確定每幀是音樂 還是談話。
例如,音樂/談話確定部分85將由預(yù)創(chuàng)建的目標(biāo)特征量提取公式表示 的相對(duì)簡(jiǎn)單的運(yùn)算(例如,四則算術(shù)運(yùn)算、指數(shù)運(yùn)算等)應(yīng)用于已經(jīng)被輸 入的區(qū)域特征量中的至少一個(gè)區(qū)域特征量,并獲得基于幀的音樂/談話確定 結(jié)果作為運(yùn)算結(jié)果,所述基于幀的音樂/談話確定結(jié)果是表示音樂的概率的 目標(biāo)特征量。音樂/談話確定部分85預(yù)存儲(chǔ)目標(biāo)特征量提取公式。
當(dāng)目標(biāo)特征量表示音樂的概率并且預(yù)定區(qū)域的目標(biāo)特征量為0.5或更 大時(shí),音樂/談話確定部分85輸出表明幀為音樂的基于幀的音樂/談話確定 結(jié)果。當(dāng)目標(biāo)特征量表示音樂的概率并且預(yù)定區(qū)域的目標(biāo)特征量小于0.5 時(shí),音樂/談話確定部分85輸出表明幀是談話的基于幀的音樂/談話確定結(jié) 果。
例如,如圖15所示,當(dāng)例如區(qū)域特征量l至區(qū)域特征量7之類的區(qū)域 特征量已在每幀中被提取時(shí),音樂/談話確定部分85根據(jù)作為區(qū)域特征量 1的0.2、作為區(qū)域特征量2的0.2、作為區(qū)域特征量3的0.3、作為區(qū)域特 征量4的-0.5、作為區(qū)域特征量5的1.23、作為區(qū)域特征量6的0.42以及 作為區(qū)域特征量7的0.11確定該幀是音樂還是談話。
例如,通過學(xué)習(xí)由每幀中的區(qū)域特征量和正確表示每幀是音樂還是談 話的目標(biāo)特征量構(gòu)成的教師數(shù)據(jù)來預(yù)創(chuàng)建音樂/談話確定部分85。換言
之,通過使用由每幀中按時(shí)間順序連續(xù)的聲音數(shù)據(jù)和正確表示每幀是音樂 還是談話的目標(biāo)特征量構(gòu)成的教師數(shù)據(jù)學(xué)習(xí)目標(biāo)特征量提取公式來預(yù)創(chuàng)建 音樂/談話確定部分85,從所述按時(shí)間順序連續(xù)的聲音數(shù)據(jù)中提取區(qū)域特
通過遺傳地學(xué)習(xí)由按時(shí)間連續(xù)的聲音數(shù)據(jù)和正確地表明每幀是音樂還 是談話的目標(biāo)特征量構(gòu)成的教師數(shù)據(jù)來預(yù)創(chuàng)建預(yù)存儲(chǔ)在音樂/談話確定部分
85中的目標(biāo)特征量提取公式。
學(xué)習(xí)創(chuàng)建目標(biāo)特征量提取公式的算法的示例包括回歸、分類、SVM (支持向量機(jī))、和GP (遺傳規(guī)劃)。
音樂/談話確定部分85將表示每幀是音樂還是談話的確定結(jié)果的基于 幀的音樂/談話確定結(jié)果提供到數(shù)據(jù)平滑部分86。
在步驟S56,數(shù)據(jù)平滑部分86平滑每幀是音樂還是談話的確定結(jié)果。 例如,數(shù)據(jù)平滑部分86對(duì)每幀是音樂還是談話的確定結(jié)果進(jìn)行濾 波,以平滑確定結(jié)果。更具體地說,數(shù)據(jù)平滑部分86由滑動(dòng)平均濾波器 構(gòu)成。在步驟S56,數(shù)據(jù)平滑部分86獲得幀的音樂/談話確定結(jié)果的滑動(dòng) 平均值,來平滑音樂/談話確定結(jié)果。
在圖16中,21幀的基于幀的音樂/談話確定結(jié)果為談話(T)、談話 (T)、談話(T)、談話(T)、談話(T)、談話(T)、談話(T)、 談話(T)、談話(T)、音樂(M)、音樂(M)、音樂(M)、談話 (T)、音樂(M)、音樂(M)、音樂(M)、談話(T)、音樂 (M)、音樂(M)、音樂(M)、音樂(M)。因此,第十三幀和第十 七幀是談話(T),第十二幀、第十四幀、第十六幀和第十八幀是音樂 (M)。接著,將描述這種情形。
當(dāng)每幀的長度充分減小時(shí),預(yù)定數(shù)目的談話幀連續(xù)或預(yù)定數(shù)目的音樂 幀連續(xù)。換言之,音樂幀的前面和后面不是談話幀。相似地,談話幀的前 面和后面不是音樂幀。因此,如圖16中示出的第一序列所表示地,21幀 排列成這樣的次序談話(T)、談話(T)、談話(T)、談話(T)、 談話(T)、談話(T)、談話(T)、談話(T)、談話(T)、音樂 (M)、音樂(M)、音樂(M)、音樂(M)、音樂(M)、音樂
(M)、音樂(M)、音樂(M)、音樂(M)、音樂(M)、音樂 (M)、音樂(M)。換言之,由圖16中示出的第二序列所表示的基于幀 的音樂/談話確定結(jié)果包含在第十三幀和第十七幀處的談話幀的確定錯(cuò)誤。
數(shù)據(jù)平滑部分86獲得幀的音樂/談話確定結(jié)果的滑動(dòng)平均值,來平滑 音樂/談話確定結(jié)果。結(jié)果,數(shù)據(jù)平滑部分86獲得21幀序列的連續(xù)音樂/ 談話確定結(jié)果談話(T)、談話(T)、談話(T)、談話(T)、談話
(T)、談話(T)、談話(T)、談話(T)、談話(T)、音樂(M)、 音樂(M)、音樂(M)、談話(T)、音樂(M)、音樂(M)、音樂 (M)、談話(T)、音樂(M)、音樂(M)、音樂(M)、音樂 (M),這里,第十三幀和第十七幀是音樂(M)。
因此,通過平滑確定結(jié)果,可以有效地對(duì)錯(cuò)誤進(jìn)行濾波。
數(shù)據(jù)平滑部分86將通過獲得基于幀的音樂/談話確定結(jié)果的運(yùn)動(dòng)平均 值而平滑的連續(xù)音樂/談話確定結(jié)果提供到聲音存儲(chǔ)部分87。
在步驟S57,聲音存儲(chǔ)部分87將標(biāo)識(shí)音樂或談話的標(biāo)記添加到聲音數(shù) 據(jù)的每幀,并存儲(chǔ)被標(biāo)記的聲音數(shù)據(jù)。此后,處理完成。
例如,如圖17所示,聲音存儲(chǔ)部分87將標(biāo)識(shí)音樂或談話的標(biāo)記添加 到聲音數(shù)據(jù)的每幀。換言之,聲音存儲(chǔ)部分87將標(biāo)識(shí)音樂的標(biāo)記添加到 作為連續(xù)音樂/談話確定結(jié)果的被確定為音樂的聲音數(shù)據(jù)幀,并將標(biāo)識(shí)談話 的標(biāo)記添加到作為連續(xù)音樂/談話確定結(jié)果的被確定為談話的聲音數(shù)據(jù)幀。 聲音存儲(chǔ)部分87將添加了標(biāo)識(shí)音樂或談話的標(biāo)記的聲音數(shù)據(jù)記錄和存儲(chǔ) 到例如硬盤或光盤之類的記錄介質(zhì)。
當(dāng)再現(xiàn)已經(jīng)添加了標(biāo)識(shí)音樂或談話的標(biāo)記的音樂數(shù)據(jù)時(shí),參照標(biāo)記, 只有聲音數(shù)據(jù)的音樂區(qū)域或談話區(qū)域可以被再現(xiàn)。相反,當(dāng)再現(xiàn)已經(jīng)添加 了標(biāo)識(shí)音樂或談話的標(biāo)記的聲音數(shù)據(jù)時(shí),參照標(biāo)記,可以以這樣的方式再 現(xiàn)聲音數(shù)據(jù)只有音樂區(qū)域或談話區(qū)域被相繼從聲音數(shù)據(jù)中跳過。
如上所述,當(dāng)已經(jīng)提取了由于時(shí)間恒定而導(dǎo)致受連續(xù)數(shù)據(jù)的過去值影 響的連續(xù)特征量時(shí),可以獲得考慮了連續(xù)數(shù)據(jù)的過去區(qū)域?qū)Ξ?dāng)前區(qū)域的影 響的目標(biāo)特征量。
在獲得目標(biāo)特征量的處理中,大部分算術(shù)運(yùn)算用于提取連續(xù)特征量。
因此,與連續(xù)特征量被分割的重疊范圍的增加相對(duì)應(yīng)的時(shí)間分辨率的提高 沒有大幅增加處理的算術(shù)運(yùn)算。換言之,目標(biāo)特征量的時(shí)間分辨率可以以 比以前更加簡(jiǎn)單的結(jié)構(gòu)提高,而不需要增加處理中的算術(shù)運(yùn)算。
在輸入連續(xù)數(shù)據(jù)的同時(shí)可以提取連續(xù)特征量。因此,在這個(gè)實(shí)施例中 連續(xù)數(shù)據(jù)輸入之后直到獲得特征的等待時(shí)間比現(xiàn)有技術(shù)中連續(xù)數(shù)據(jù)被劃分 成多個(gè)區(qū)域并從多個(gè)區(qū)域中提取特征的等待時(shí)間小。
不管是根據(jù)現(xiàn)有技術(shù)的連續(xù)數(shù)據(jù)被劃分成多個(gè)區(qū)域并從多個(gè)區(qū)域中提 取特征的情況還是根據(jù)本發(fā)明的這個(gè)實(shí)施例的從連續(xù)數(shù)據(jù)中提取連續(xù)特征 量、將所提取的連續(xù)特征量劃分成多個(gè)區(qū)域、然后從多個(gè)區(qū)域中獲得特征 的情況,連續(xù)數(shù)據(jù)被輸入之后直到最終將要獲得的特征量被輸出的時(shí)間延 遲(等待時(shí)間)都通過將用于輸入?yún)^(qū)域數(shù)據(jù)的時(shí)間段和用于處理數(shù)據(jù)的時(shí) 間段相加來給出。
當(dāng)連續(xù)數(shù)據(jù)被劃分成多個(gè)區(qū)域并從多個(gè)區(qū)域中提取特征時(shí),用于輸入 區(qū)域數(shù)據(jù)的時(shí)間段小于用于處理數(shù)據(jù)的時(shí)間段。
相反,當(dāng)從連續(xù)數(shù)據(jù)中提取連續(xù)特征量、將連續(xù)特征量劃分成多個(gè)區(qū) 域、并從多個(gè)區(qū)域中提取特征時(shí),雖然用于區(qū)域數(shù)據(jù)的時(shí)間段與將連續(xù)數(shù) 據(jù)劃分成多個(gè)區(qū)域并從多個(gè)區(qū)域中提取特征的情況下的時(shí)間段幾乎相同, 但是用于處理數(shù)據(jù)的時(shí)間段小。
因此,當(dāng)從連續(xù)數(shù)據(jù)提取連續(xù)特征量、將所提取的連續(xù)特征量劃分成 多個(gè)區(qū)域、然后從多個(gè)區(qū)域中獲得特征時(shí),時(shí)間延遲(等待時(shí)間)可以比 將連續(xù)數(shù)據(jù)劃分成多個(gè)區(qū)域并從多個(gè)區(qū)域中提取特征的情況下的時(shí)間延遲 小。
此外,作為目標(biāo)特征量評(píng)估部分34或音樂/談話確定部分85,可以使 用簡(jiǎn)單的結(jié)構(gòu),所述簡(jiǎn)單的結(jié)構(gòu)根據(jù)由標(biāo)量或向量表示的區(qū)域特征量獲得 表示正確數(shù)據(jù)的目標(biāo)特征量。因此,可以通過普通機(jī)器學(xué)習(xí)處理或統(tǒng)計(jì)分
析處理中所使用的各種類型算法之一來創(chuàng)建目標(biāo)特征量評(píng)估部分34或音 樂/談話確定部分85,而不需要根據(jù)目標(biāo)問題準(zhǔn)備特定的模型。
此外,可以通過學(xué)習(xí)連續(xù)數(shù)據(jù)和由每個(gè)時(shí)刻(取樣點(diǎn))添加了表示一 個(gè)正確特征的標(biāo)記的連續(xù)數(shù)據(jù)構(gòu)成的教師數(shù)據(jù)來自動(dòng)創(chuàng)建用于從連續(xù)數(shù)據(jù)
中提取連續(xù)特征量并存儲(chǔ)于在圖1所示的連續(xù)特征量提取部分31或圖9所示的時(shí)間-音程分析部分81和連續(xù)音樂特征量提取部分82的連續(xù)特征量提取算法。接著,參照?qǐng)D18至圖25,將描述自動(dòng)創(chuàng)建連續(xù)特征量提取算法的處理。當(dāng)自動(dòng)創(chuàng)建連續(xù)特征量提取算法時(shí),圖18所示的算法創(chuàng)建部分101 重新設(shè)置于圖2所示的信息處理裝置11或圖9所示的信息處理裝置51 中。算法創(chuàng)建部分101自動(dòng)創(chuàng)建連續(xù)特征量提取算法,所述連續(xù)特征量提 取算法從由外部輸入的連續(xù)數(shù)據(jù)中自動(dòng)提取連續(xù)特征量。具體地講,如圖19所示,算法創(chuàng)建部分101通過輸入連續(xù)數(shù)據(jù)和由 連續(xù)數(shù)據(jù)的每個(gè)時(shí)刻表示一個(gè)正確特征的標(biāo)記構(gòu)成的教師數(shù)據(jù)根據(jù)GA (遺傳算法)或GP (遺傳規(guī)劃)執(zhí)行機(jī)器學(xué)習(xí)處理,創(chuàng)建作為機(jī)器學(xué)習(xí) 處理的結(jié)果創(chuàng)建連續(xù)特征量提取算法,并輸出所創(chuàng)建的連續(xù)特征量提取算 法。更具體地講,如圖20所示,算法創(chuàng)建部分101創(chuàng)建各種濾波器(功 能)的組合,根據(jù)作為所創(chuàng)建的濾波器的組合的結(jié)果輸出的連續(xù)特征量評(píng) 價(jià)連續(xù)數(shù)據(jù)中每個(gè)標(biāo)記表示的特征的精確等級(jí),并根據(jù)GA (遺傳算法) 或GP (遺傳規(guī)劃)從濾波器的無限組合中檢索輸出連續(xù)特征量的濾波器 的組合,利用所述連續(xù)特征量能夠以更高的精度評(píng)價(jià)連續(xù)數(shù)據(jù)的特征。圖21是示出算法創(chuàng)建部分101的功能結(jié)構(gòu)的方框圖。算法創(chuàng)建部分 101由第一代基因創(chuàng)建部分121、基因評(píng)價(jià)部分122以及第二代或后代基 因創(chuàng)建部分123構(gòu)成。第一代基因創(chuàng)建部分121創(chuàng)建表示濾波器的各種組合的第一代基因?;蛟u(píng)價(jià)部分122評(píng)價(jià)精度等級(jí),在所述精度等級(jí)中,可以根據(jù)由第 一代基因創(chuàng)建部分121或者第二代或后代基因創(chuàng)建部分123創(chuàng)建的每個(gè)基 因表示的濾波處理從教師數(shù)據(jù)的連續(xù)數(shù)據(jù)中提取的連續(xù)特征量來評(píng)估由教 師數(shù)據(jù)的標(biāo)記表示的連續(xù)數(shù)據(jù)的特征?;蛟u(píng)價(jià)部分122由執(zhí)行部分 141、評(píng)價(jià)部分142和教師數(shù)據(jù)存儲(chǔ)部分143構(gòu)成。執(zhí)行部分141輸入存儲(chǔ)在教師數(shù)據(jù)存儲(chǔ)部分143中的教師數(shù)據(jù)的連續(xù)24
數(shù)據(jù),相繼執(zhí)行由各個(gè)基因表示的濾波處理,并提取輸入連續(xù)數(shù)據(jù)的連續(xù) 特征量。執(zhí)行部分141將所提取的連續(xù)特征量提供到評(píng)價(jià)部分142。如后面將參照?qǐng)D22所描述的那樣,評(píng)價(jià)部分142計(jì)算表示所評(píng)估的精度等級(jí)的評(píng)價(jià)值,在所述精度等級(jí)中,可以根據(jù)由第一代基因創(chuàng)建部分121或者第二代或后代基因創(chuàng)建部分123創(chuàng)建的每個(gè)基因的執(zhí)行部分141 從教師數(shù)據(jù)的連續(xù)數(shù)據(jù)中提取的連續(xù)特征量來評(píng)估由教師數(shù)據(jù)的標(biāo)記表示 的連續(xù)數(shù)據(jù)的特征。評(píng)價(jià)部分142將所評(píng)價(jià)的基因和表示評(píng)價(jià)值的信息提 供到第二代或后代基因創(chuàng)建部分123的選擇部分151、互換部分152和突 變部分153。此外,評(píng)價(jià)部分142命令隨機(jī)創(chuàng)建部分154創(chuàng)建預(yù)定數(shù)目的 基因。評(píng)價(jià)部分142確定評(píng)價(jià)值已經(jīng)變穩(wěn)定并且基因的進(jìn)化已經(jīng)收斂后, 評(píng)價(jià)部分M2將這些基因和它們的評(píng)價(jià)值提供到選擇部分151。教師數(shù)據(jù)存儲(chǔ)部分143存儲(chǔ)從外部輸入的教師數(shù)據(jù)。第二代或后代基因創(chuàng)建部分123創(chuàng)建第二代或后代基因。如上所述, 第二代或后代基因創(chuàng)建部分123由選擇部分151、互換部分152、突變部 分153以及隨機(jī)創(chuàng)建部分154構(gòu)成。如后面將參照?qǐng)D22所描述的,選擇部分151根據(jù)通過評(píng)價(jià)部分142獲 得的評(píng)價(jià)值選擇從當(dāng)代繼承到下一代的基因,并將所選擇的基因作為下一 代基因提供到基因評(píng)價(jià)部分122。選擇部分151確定基因的進(jìn)化已經(jīng)收斂 后,選擇部分151從具有較高評(píng)價(jià)值的基因中選擇預(yù)定數(shù)目的基因,并輸 出由所選擇的基因表示的濾波器組合作為連續(xù)特征量提取算法。如后面將參照?qǐng)D22所描述的,互換部分152通過改變從當(dāng)代的具有較高評(píng)價(jià)值的基因中選擇的兩個(gè)基因所表示的濾波器的一部分來將兩個(gè)基 因互換?;Q部分152將已經(jīng)互換的基因作為下一代基因提供到基因評(píng)價(jià) 部分122。如后面將參照?qǐng)D22所描述的,突變部分153通過隨機(jī)改變從當(dāng)代的 具有較高評(píng)價(jià)值的基因中隨機(jī)選擇的基因的濾波器的一部分來突變基因。 轉(zhuǎn)變部分153將突變的基因作為下一代基因提供到基因評(píng)價(jià)部分122。如后面將參照?qǐng)D22所描述的,隨機(jī)創(chuàng)建部分154通過隨機(jī)組合各種 類型的濾波器來創(chuàng)建新的基因。隨機(jī)創(chuàng)建部分154將所創(chuàng)建的基因作為下
一代基因提供到基因評(píng)價(jià)部分122。構(gòu)成由算法生產(chǎn)部分101創(chuàng)建的基因的濾波器是實(shí)時(shí)輸入的時(shí)間序列 數(shù)據(jù),即用于連續(xù)數(shù)據(jù)的濾波器。這些濾波器的示例包括算術(shù)運(yùn)算濾波器 (用于四則算術(shù)運(yùn)算、指數(shù)運(yùn)算、微分運(yùn)算、積分運(yùn)算、以及絕對(duì)值運(yùn)算)、LPF (低通濾波器)、HPF (高通濾波器)、BPF (帶通濾波器)、 IIR (無限脈沖響應(yīng))濾波器、FIR (有限脈沖響應(yīng))濾波器、均衡聲音音 量的實(shí)時(shí)電平最大化器、追蹤音程的音調(diào)追蹤器以及創(chuàng)建連續(xù)數(shù)據(jù)包絡(luò)的 電平計(jì)。基因以濾波器被設(shè)置的形式來表示,所述濾波器按它們被執(zhí)行的次序 來設(shè)置,例如"音調(diào)追蹤器—微分濾波器—絕對(duì)值濾波器(ABS) —LPF,。圖22是描述由算法創(chuàng)建部分101執(zhí)行的算法創(chuàng)建處理的流程圖。 接著,如圖23所示,將舉例說明參照?qǐng)D9描述的在每個(gè)單位時(shí)刻確 定輸入的聲音數(shù)據(jù)是音樂還是談話的信息處理裝置51中,算法創(chuàng)建部分 101創(chuàng)建從聲音數(shù)據(jù)中提取連續(xù)音樂特征量的連續(xù)音樂特征量提取算法的 處理。換言之,將舉例說明算法創(chuàng)建部分101創(chuàng)建與圖9所示的時(shí)間-音程 分析部分81和連續(xù)音樂特征量提取部分82相對(duì)應(yīng)的連續(xù)特征量提取算法 的處理。在步驟S101中,第一代基因創(chuàng)建部分121創(chuàng)建第一代基因。具體地 講,第一代基因創(chuàng)建部分121通過隨機(jī)組合用于實(shí)時(shí)輸入的時(shí)間序列數(shù)據(jù) (即,連續(xù)數(shù)據(jù))的各種類型的濾波器來創(chuàng)建預(yù)定數(shù)目的基因。第一代基 因創(chuàng)建部分121將所創(chuàng)建的基因提供到基因評(píng)價(jià)部分122。在步驟S102中,執(zhí)行部分141從第一代基因創(chuàng)建部分121提供的基 因中選擇還沒被評(píng)價(jià)的一個(gè)基因。在這種情況下,執(zhí)行部分141從第一代 基因創(chuàng)建部分121創(chuàng)建的第一代基因中選擇還沒被評(píng)價(jià)的一個(gè)基因作為評(píng) 價(jià)目標(biāo)。在步驟S103中,執(zhí)行部分141選擇還沒被處理的一片教師數(shù)據(jù)。具 體地講,執(zhí)行部分141從存儲(chǔ)在教師數(shù)據(jù)存儲(chǔ)部分143中的教師數(shù)據(jù)中選 擇一片還沒被作為當(dāng)前評(píng)價(jià)目標(biāo)的基因處理的教師數(shù)據(jù)。
在步驟S104中,執(zhí)行部分141利用作為評(píng)價(jià)目標(biāo)的基因提取所選擇 的教師數(shù)據(jù)的連續(xù)特征量。具體地講,執(zhí)行部分141通過輸入所選擇的教 師數(shù)據(jù)的連續(xù)數(shù)據(jù)并相繼執(zhí)行由作為評(píng)價(jià)目標(biāo)的基因表示的濾波器的處理 來提取所選擇的教師數(shù)據(jù)的連續(xù)特征量。當(dāng)創(chuàng)建連續(xù)音樂特征量提取算法時(shí),如圖24所示,通過對(duì)作為教師數(shù)據(jù)的聲音數(shù)據(jù)執(zhí)行由作為評(píng)價(jià)目標(biāo)的基因表示的處理,即通過相繼執(zhí)行 由作為評(píng)價(jià)目標(biāo)的基因表示的濾波處理,提取波形作為連續(xù)音樂特征量, 所述波形的聲音數(shù)據(jù)已被濾波。執(zhí)行部分141將所提取的連續(xù)特征量提供到評(píng)價(jià)部分142。 在步驟S105中,執(zhí)行部分141確定是否所有教師數(shù)據(jù)已經(jīng)被處理。 當(dāng)存儲(chǔ)在教師數(shù)據(jù)存儲(chǔ)部分143中的教師數(shù)據(jù)中存在這樣的教師數(shù)據(jù)—— 對(duì)于作為評(píng)價(jià)目標(biāo)的基因來講,還未從所述教師數(shù)據(jù)中提取連續(xù)特征量一 一時(shí),執(zhí)行部分141確定還沒處理完所有教師數(shù)據(jù)。此后,流程返回步驟 S103。此后,重復(fù)步驟S103至步驟S105,直到在步驟S105處理完所有教 師數(shù)據(jù)。當(dāng)步驟S105中的確定結(jié)果表明所有教師數(shù)據(jù)已經(jīng)被處理時(shí),流程前 進(jìn)至步驟S106。在步驟S106,評(píng)價(jià)部分142評(píng)價(jià)基因。當(dāng)連續(xù)音樂特征量提取算法創(chuàng)建時(shí),如圖25所示,評(píng)價(jià)部分142從 濾波后的波形中計(jì)算表示特征量的精度等級(jí)的評(píng)價(jià)值,所述特征量表示由 教師數(shù)據(jù)的標(biāo)記表示的連續(xù)數(shù)據(jù)的特征,即作為信息處理裝置51的目標(biāo) 特征量表示音樂或談話的特征量,所述濾波后的波形是根據(jù)作為評(píng)價(jià)目標(biāo) 的基因提取的連續(xù)音樂特征量。接著,將舉例說明計(jì)算評(píng)價(jià)值的方法。當(dāng)教師數(shù)據(jù)的標(biāo)記的值(即,表示連續(xù)數(shù)據(jù)的特征的特征量)由連續(xù) 的數(shù)值表示時(shí),例如,以正確的數(shù)據(jù)序列表示的特征量是由0.0到1.0的 范圍內(nèi)的連續(xù)數(shù)值表示的音樂的速度感,例如,Pearson相關(guān)系數(shù)的絕對(duì)值 被用作基因的評(píng)價(jià)值。具體地講,假定教師數(shù)據(jù)的標(biāo)記的值用變量X表 示,且相應(yīng)的連續(xù)特征量的值用變量Y表示,變量X和變量Y的相關(guān)系 數(shù)f通過下面的公式(1)獲得。f (變量X和變量Y的協(xié)方差)/{(變量X的標(biāo)準(zhǔn)差)x (變: 標(biāo)準(zhǔn)差)}Y的廠=-(1)這里,7是X的平均值,F(xiàn)是Y的平均值。從連續(xù)數(shù)據(jù)提取的連續(xù)特征量的值與由教師數(shù)據(jù)的標(biāo)記表示的連續(xù)數(shù) 據(jù)的特征量的值的相關(guān)性越弱,相關(guān)系數(shù)r越接近0。相反,相關(guān)性越 強(qiáng),相關(guān)系數(shù)r越接近l.O或-l.O。換言之,很可能利用根據(jù)由作為評(píng)價(jià)目 標(biāo)的基因表示的濾波器組合提取的連續(xù)特征量評(píng)估的連續(xù)數(shù)據(jù)的特征量的 精度越高,相關(guān)系數(shù)r越接近于l.O或-l.O,而精度越低,相關(guān)系數(shù)r越接 近于0。當(dāng)教師數(shù)據(jù)的標(biāo)記的值(即,表示連續(xù)數(shù)據(jù)的特征的特征量)被分為 預(yù)定的類時(shí),如上面所舉例說明的,目標(biāo)特征量被分類成談話或音樂或者 聲音存在狀態(tài)或聲音缺失狀態(tài),那么例如,F(xiàn)isher判別比(FDR)被用作 評(píng)價(jià)值。例如,當(dāng)目標(biāo)特征量被分為兩類時(shí),換言之,當(dāng)目標(biāo)特征量用二進(jìn)制 值表示時(shí),在由作為評(píng)價(jià)目標(biāo)的基因表示的處理中提取的連續(xù)特征量的值 根據(jù)教師數(shù)據(jù)的相應(yīng)標(biāo)記的值被分成兩組,所述組由組X和組Y表示,從 而,通過下面的公式(2)獲得FDR。FDR= (X的平均值-Y的平均值)2/{ (X的標(biāo)準(zhǔn)差+Y的標(biāo)準(zhǔn)差)} ...(2)在作為評(píng)價(jià)目標(biāo)的基因表示的處理中提取的連續(xù)特征量的值和所述值 所屬的組的相關(guān)性越弱,即在作為評(píng)價(jià)目標(biāo)的基因表示的處理中提取的連 續(xù)特征量的值和由教師數(shù)據(jù)的標(biāo)記表示的特征量的相關(guān)性越弱,F(xiàn)DR的值 越小。相反,在作為評(píng)價(jià)目標(biāo)的基因表示的處理中提取的連續(xù)特征量的值 和所述值所屬的組的相關(guān)性越強(qiáng),即在作為評(píng)價(jià)目標(biāo)的基因表示的處理中 提取的連續(xù)特征量的值和由教師數(shù)據(jù)的標(biāo)記表示的特征量的相關(guān)性越強(qiáng), FDR的值越大。換言之,很可能FDR值越大,利用根據(jù)由作為評(píng)價(jià)目標(biāo)的基因表示的濾波器組合提取的連續(xù)特征量評(píng)估的連續(xù)數(shù)據(jù)的特征量的精度越高,反之,F(xiàn)DR值越小,精度越低。計(jì)算基因的評(píng)價(jià)值的上述方法是示例性的。更確切地說,優(yōu)選使用具 有在由基因表示的處理中提取的連續(xù)特征量和由教師數(shù)據(jù)的標(biāo)記表示的特 征量的適當(dāng)方法。當(dāng)計(jì)算數(shù)目由于存在連續(xù)特征量的多個(gè)樣本而增加時(shí),如果必要,可 以對(duì)連續(xù)特征量的樣品數(shù)目十中抽一 。在步驟S107中,評(píng)價(jià)部分142確定是否所有的基因已經(jīng)被評(píng)價(jià)。當(dāng) 步驟S107的確定結(jié)果表明還沒完成所有基因的評(píng)價(jià)時(shí),流程返回步驟 S102。重復(fù)步驟S102至步驟S107,直到步驟S107的確定結(jié)果表明所有基 因已經(jīng)被評(píng)價(jià)。當(dāng)步驟S107的確定結(jié)果表明所有基因己經(jīng)被評(píng)價(jià)時(shí),在這種情況 下,第一代的所有基因已經(jīng)被評(píng)價(jià),流程前進(jìn)到步驟S108。在步驟S108中,評(píng)價(jià)部分142將上代基因的評(píng)價(jià)值與當(dāng)前代基因的 評(píng)價(jià)值作比較。在這種情況下,由于第一代基因正被評(píng)價(jià)并且上代基因的 評(píng)價(jià)值還沒被存儲(chǔ),所以評(píng)價(jià)部分142存儲(chǔ)第一代基因的評(píng)價(jià)值的最大值 作為當(dāng)前基因的評(píng)價(jià)值。在步驟S109中,評(píng)價(jià)部分142確定預(yù)定代中評(píng)價(jià)值是否已經(jīng)被更 新。在這種情況下,由于步驟S108中評(píng)價(jià)值已經(jīng)改變,所以流程前進(jìn)到 步驟SllO。在步驟S110中,選擇部分151選擇基因。具體地講,評(píng)價(jià)部分142 將當(dāng)代的所有基因和表示這些基因的評(píng)價(jià)值的信息提供到選擇部分151。 選擇部分151從具有較高評(píng)價(jià)值的基因中選擇預(yù)定數(shù)目的基因,并將所選 擇的基因作為下一代基因提供到基因評(píng)價(jià)部分122。在步驟S111中,互換部分152將基因互換。具體地講,評(píng)價(jià)部分142 將當(dāng)代的所有基因和表示這些基因的評(píng)價(jià)值的信息提供到互換部分152。 互換部分152從具有的評(píng)價(jià)值比預(yù)定值高的基因中隨機(jī)選擇兩個(gè)基因,并 在所選擇的基因之間互換濾波器。因此,互換部分152通過重新組合由基 因表示的濾波器來互換兩個(gè)基因?;Q部分152互換預(yù)定數(shù)目的基因并將 已經(jīng)互換的基因作為下一代基因提供到基因評(píng)價(jià)部分122。在步驟S112中,突變部分153突變基因。具體地講,評(píng)價(jià)部分142 將當(dāng)代的所有基因和表示這些基因的評(píng)價(jià)值的信息提供到突變部分153。 突變部分153通過從具有的評(píng)價(jià)值比預(yù)定值高的基因中隨機(jī)選擇預(yù)定數(shù)目 的基因并且隨機(jī)改變所選擇所基因的濾波器的一部分來突變基因。突變部 分153將所突變的基因作為下一代基因提供到基因評(píng)價(jià)部分122。在步驟S113中,隨機(jī)創(chuàng)建部分154隨機(jī)創(chuàng)建基因。具體地講,評(píng)價(jià) 部分142命令隨機(jī)創(chuàng)建部分154創(chuàng)建預(yù)定數(shù)目的基因。隨機(jī)創(chuàng)建部分154 在與第一代基因創(chuàng)建部分121相同的處理中隨機(jī)地創(chuàng)建預(yù)定數(shù)目的基因。 隨機(jī)創(chuàng)建部分154將所創(chuàng)建的基因作為下一代基因提供到基因評(píng)價(jià)部分 122。此后,流程返回到步驟S102。重復(fù)步驟S102至步驟S107,直到在步 驟S107確定第二代的所有基因已經(jīng)被評(píng)價(jià)。當(dāng)步驟S107的確定結(jié)果表明所有基因已經(jīng)被評(píng)價(jià)時(shí),即第二代的所 有基因已經(jīng)被評(píng)價(jià)時(shí),流程前進(jìn)到步驟S108。在步驟S108,在這種情況下,評(píng)價(jià)部分142將已經(jīng)存儲(chǔ)的上一代基因 的評(píng)價(jià)值(即,第一代基因的評(píng)價(jià)值)與第二代基因的評(píng)價(jià)值中的最大值 作比較。當(dāng)?shù)诙虻脑u(píng)價(jià)值中的最大值大于第一代基因的評(píng)價(jià)值時(shí), 評(píng)價(jià)部分142用第二代基因的評(píng)價(jià)值的最大值更新當(dāng)前基因的評(píng)價(jià)值。當(dāng) 第二代基因的評(píng)價(jià)值中的最大值等于或小于第一代基因的評(píng)價(jià)值時(shí),評(píng)價(jià) 部分142不用第二代基因的評(píng)價(jià)值的最大值更新當(dāng)前基因的評(píng)價(jià)值,而使用當(dāng)前基因的評(píng)價(jià)值。重復(fù)步驟S102至步驟S113,直到在步驟S109確定在預(yù)定數(shù)目代中評(píng) 價(jià)值沒被更新。換言之,創(chuàng)建并評(píng)價(jià)新一代基因,將上一代基因的評(píng)價(jià)值 和新一代基因的評(píng)價(jià)值的最大值作比較,當(dāng)新一代基因的評(píng)價(jià)值的最大值 大于上一代的基因的評(píng)價(jià)值時(shí),更新當(dāng)代基因的評(píng)價(jià)值,直到在預(yù)定數(shù)目 的代中基因的評(píng)價(jià)值沒被更新。當(dāng)步驟 S109中的確定結(jié)果表明在預(yù)定數(shù)目的代中基因的評(píng)價(jià)值沒被 更新時(shí),即基因的評(píng)價(jià)值是穩(wěn)定的并且基因的進(jìn)化已經(jīng)收斂時(shí),流程前進(jìn) 到步驟S114。作為替代,在步驟S109,可以確定當(dāng)代基因的評(píng)價(jià)值的最大值是否等于或大于預(yù)定的閾值。在這種情況下,當(dāng)步驟S109中的確定結(jié)果表明當(dāng)代基因的評(píng)價(jià)值的最大值小于預(yù)定的閾值時(shí),即利用由當(dāng)代基因表示的濾波器的組合評(píng)估的特征量的精度不滿足期望值時(shí),流程前進(jìn)到步驟suo。相反,當(dāng)步驟S109的確定結(jié)果表明當(dāng)代基因的評(píng)價(jià)值的最大值等于或大 于預(yù)定的閾值時(shí),即利用由當(dāng)代基因表示的濾波器的組合評(píng)價(jià)的特征量的 精度滿足期望值時(shí),流程前進(jìn)到步驟SU4。在步驟S114中,選擇部分151選擇用于連續(xù)特征量提取算法的基 因。此后,算法創(chuàng)建處理完成。具體地講,評(píng)價(jià)部分142將當(dāng)代的所有基 因和這些基因的評(píng)價(jià)值提供到選擇部分151。選擇部分151從當(dāng)代的所有 基因中選擇預(yù)定數(shù)目的(至少一個(gè))具有最大評(píng)價(jià)值的基因,并輸出由所 選擇的基因表示的濾波器的組合作為連續(xù)特征量提取算法。作為替代,在步驟S114,可以從當(dāng)代的所有基因中選擇具有的評(píng)價(jià)值 比預(yù)定的閾值高的所有基因,并且可以輸出由所選擇的基因表示的濾波器 的組合作為連續(xù)特征量提取算法。通過這樣的方式,創(chuàng)建圖2所示的信息處理裝置11或圖9所示的信息 處理裝置51中使用的從連續(xù)數(shù)據(jù)中提取連續(xù)特征量的連續(xù)特征量提取算 法。由于連續(xù)特征量提取算法根據(jù)GA或GP自動(dòng)創(chuàng)建,所以可以從比手 動(dòng)創(chuàng)建的算法更多的濾波器組合中獲得提取更適于評(píng)估目標(biāo)特征量的連續(xù) 特征量的濾波器的組合。因此,可以期望提高目標(biāo)特征量的評(píng)估精度。在圖2所示的信息處理裝置11或圖9所示的信息處理裝置51中,可 以僅由算法創(chuàng)建部分101創(chuàng)建提取連續(xù)特征量的連續(xù)特征量提取算法?;?者,可以手動(dòng)創(chuàng)建連續(xù)特征量提取算法。或者,可以并列使用算法創(chuàng)建部 分101創(chuàng)建的連續(xù)特征量提取算法和手動(dòng)創(chuàng)建的連續(xù)特征量提取算法。在前面的描述中,舉例說明了處理例如聲音數(shù)據(jù)或運(yùn)動(dòng)圖像數(shù)據(jù)之類 的連續(xù)數(shù)據(jù)的信息處理裝置。然而,作為實(shí)施例,本發(fā)明可應(yīng)用于記錄和 再現(xiàn)聲音數(shù)據(jù)或運(yùn)動(dòng)圖像數(shù)據(jù)的記錄/再現(xiàn)裝置、記錄聲音數(shù)據(jù)或運(yùn)動(dòng)圖像 數(shù)據(jù)的記錄裝置、再現(xiàn)聲音數(shù)據(jù)或運(yùn)動(dòng)圖像數(shù)據(jù)的再現(xiàn)裝置等等。更具體 地講,作為實(shí)施例,本發(fā)明可以應(yīng)用于具有內(nèi)置光盤驅(qū)動(dòng)器或硬盤的記錄 播放器、具有內(nèi)置半導(dǎo)體存儲(chǔ)器的便攜式記錄器或播放器、數(shù)字視頻相 機(jī)、移動(dòng)電話等等。在前面的描述中,目標(biāo)特征量表示最終將獲得的特征例如音樂或談 話?;蛘?,目標(biāo)特征量可以是表示諸如音樂或談話的概率之類的最終將獲 得的特征的概率的值。當(dāng)通過學(xué)習(xí)處理創(chuàng)建目標(biāo)特征量提取公式并根據(jù)目標(biāo)特征量提取公式 執(zhí)行算術(shù)運(yùn)算時(shí),可以提取數(shù)據(jù)的特征。當(dāng)在每個(gè)預(yù)定的頻帶中按時(shí)間順 序連續(xù)地分析按時(shí)間順序連續(xù)的聲音數(shù)據(jù)時(shí),從分析結(jié)果中提取連續(xù)特征 量作為按時(shí)間順序連續(xù)的特征量,將連續(xù)特征量分割成多個(gè)區(qū)域,所述區(qū) 域中的每個(gè)具有預(yù)定的長度,從每個(gè)區(qū)域中提取作為由-一個(gè)標(biāo)量或向量表 示的特征量的區(qū)域特征量,并從區(qū)域特征量中評(píng)估作為表示聲音數(shù)據(jù)的一 個(gè)特征的特征量的目標(biāo)特征量,因而可以容易并快速地提取聲音數(shù)據(jù)的特 征??梢酝ㄟ^硬件或軟件執(zhí)行前面的處理序列。當(dāng)通過軟件執(zhí)行處理序列 時(shí),構(gòu)成軟件的程序內(nèi)置于計(jì)算機(jī)的專用硬件中或者從程序記錄介質(zhì)安裝 到例如通用個(gè)人計(jì)算機(jī)中,通用個(gè)人計(jì)算機(jī)根據(jù)其上安裝的各種程序執(zhí)行 各種類型的功能。圖26是示出根據(jù)程序執(zhí)行前述處理序列的個(gè)人計(jì)算機(jī)的示例性結(jié)構(gòu)的方框圖。CPU (中央處理單元)201根據(jù)存儲(chǔ)在ROM (只讀存儲(chǔ)器) 202或者存儲(chǔ)部分208中的程序執(zhí)行各種類型的處理。必要時(shí),RAM (隨 機(jī)存取存儲(chǔ)器)203存儲(chǔ)使得CPU 201執(zhí)行處理的程序、數(shù)據(jù)等。通過總 線204將CPU 201 、 ROM 202和RAM 203相互連接。輸入輸出接口 205也通過總線204連接到CPU 201。由鍵盤、鼠標(biāo)、 麥克風(fēng)等構(gòu)成的輸入部分206和由顯示器、揚(yáng)聲器等構(gòu)成的輸出部分207 連接到輸入輸出接口 205。 CPU 201根據(jù)從輸入部分206輸入的命令執(zhí)行 各種類型的處理。CPU 201將處理結(jié)果輸出到輸出部分207。
連接到輸入輸出接口 205的存儲(chǔ)部分208例如由硬盤構(gòu)成。存儲(chǔ)部分208存儲(chǔ)使CPU 201執(zhí)行處理的程序和各種類型的數(shù)據(jù)。通信部分209通 過例如因特網(wǎng)或局域網(wǎng)之類的網(wǎng)絡(luò)與外部設(shè)備通信?;蛘撸绦蚩赏ㄟ^通信部分209獲得,并存儲(chǔ)在存儲(chǔ)部分208中。當(dāng)例如磁盤、光盤、磁-光盤、半導(dǎo)體存儲(chǔ)器等可移除介質(zhì)211附接到 連接于輸入輸出接口 205的驅(qū)動(dòng)器210時(shí),驅(qū)動(dòng)器210使得可移除介質(zhì) 211被讀取并從中獲得程序、數(shù)據(jù)等。必要時(shí),所獲得的程序和數(shù)據(jù)被傳 送到存儲(chǔ)部分208并存儲(chǔ)在存儲(chǔ)部分208中。如圖26所示,存儲(chǔ)安裝到計(jì)算機(jī)并被計(jì)算機(jī)執(zhí)行的程序的程序記錄 介質(zhì)由可移除介質(zhì)211構(gòu)成,可移除介質(zhì)211是封裝介質(zhì)例如磁盤(包括 軟盤)、光盤(包括CD-ROM (壓縮盤-只讀存儲(chǔ)器)、DVD (數(shù)字通用 盤)、磁-光盤)、或者半導(dǎo)體存儲(chǔ)器、臨時(shí)或永久存儲(chǔ)程序的ROM 202、或者構(gòu)成存儲(chǔ)部分208的硬盤。必要時(shí),程序通過例如路由器或調(diào) 制解調(diào)器之類的作為接口的通信部分209或者通過例如周域網(wǎng)、因特網(wǎng)、 或數(shù)字衛(wèi)星廣播之類的有線或無線通信介質(zhì)存儲(chǔ)到程序記錄介質(zhì)。本說明書中,描述存儲(chǔ)在程序記錄介質(zhì)中的程序的步驟以它們被描述 的次序按時(shí)間順序被處理。或者,這些步驟可以并列或分離地執(zhí)行。本領(lǐng)域技術(shù)人員應(yīng)該明白,根據(jù)設(shè)計(jì)要求和其它因素可以作出各種修 改、組合、子組合和變更,只要它們?cè)谒綑?quán)利要求或其等同物的范圍之 內(nèi)。
權(quán)利要求
1.一種信息處理裝置,包括分析裝置,用于在預(yù)定頻帶的每個(gè)中按時(shí)間順序連續(xù)地分析按時(shí)間順序連續(xù)的聲音數(shù)據(jù);連續(xù)特征量提取裝置,用于從所述分析裝置的分析結(jié)果中提取連續(xù)特征量,所述連續(xù)特征量是按時(shí)間順序連續(xù)的特征量;分割裝置,用于將所述連續(xù)特征量分割成多個(gè)區(qū)域,所述多個(gè)區(qū)域中的每個(gè)具有預(yù)定的長度;區(qū)域特征量提取裝置,用于從所述連續(xù)特征量被分割成的多個(gè)區(qū)域中的每個(gè)中提取區(qū)域特征量,所述區(qū)域特征量是由一個(gè)標(biāo)量或向量表示的特征量;以及目標(biāo)特征量評(píng)估裝置,用于根據(jù)所述區(qū)域特征量的每個(gè)評(píng)估目標(biāo)特征量,所述目標(biāo)特征量是表示聲音數(shù)據(jù)的一個(gè)特征的特征量。
2. 如權(quán)利要求1所述的信息處理裝置,其中,通過學(xué)習(xí)由按時(shí)間順序連續(xù)的聲音數(shù)據(jù)和表示在所述連續(xù)特征 量被分割成的多個(gè)區(qū)域中的每個(gè)區(qū)域中表示聲音數(shù)據(jù)的一個(gè)正確特征的特 征量構(gòu)成的教師數(shù)據(jù)來預(yù)創(chuàng)建所述目標(biāo)特征量評(píng)估裝置。
3. 如權(quán)利要求1所述的信息處理裝置,其中,所述分析裝置將按時(shí)間順序連續(xù)的聲音數(shù)據(jù)作為每個(gè)八音階的 12平均律的音程的聲音按時(shí)間順序連續(xù)地進(jìn)行分析,并且其中,所述連續(xù)特征量提取裝置從作為所述分析裝置的分析結(jié)果獲得 的并且表示每個(gè)八音階的12平均律的音程的能量的數(shù)據(jù)中提取連續(xù)特征
4. 如權(quán)利要求1所述的信息處理裝置,其中,所述目標(biāo)特征量評(píng)估裝置評(píng)估將音樂或談話標(biāo)識(shí)為聲音數(shù)據(jù)的 特征的目標(biāo)特征量。
5. 如權(quán)利要求1所述的信息處理裝置,還包括平滑裝置,用于通過獲得目標(biāo)特征量的滑動(dòng)平均值來平滑目標(biāo)特征
6. 如權(quán)利要求1所述的信息處理裝置,還包括存儲(chǔ)裝置,用于將標(biāo)識(shí)由所評(píng)估的目標(biāo)特征量表示的特征的標(biāo)記添加 到聲音數(shù)據(jù),并存儲(chǔ)已經(jīng)添加了標(biāo)記的聲音數(shù)據(jù)。
7. 如權(quán)利要求1所述的信息處理裝置,還包括算法創(chuàng)建裝置,用于根據(jù)GA (遺傳算法)或GP (遺傳規(guī)劃)創(chuàng)建從 按時(shí)間順序連續(xù)的聲音數(shù)據(jù)中提取連續(xù)特征量的算法。
8. —種信息處理方法,包括下面的步驟在預(yù)定頻帶的每個(gè)中按時(shí)間順序連續(xù)地分析按時(shí)間順序連續(xù)的聲音數(shù)據(jù);從所述分析步驟的分析結(jié)果中提取連續(xù)特征量,所述連續(xù)特征量是按時(shí)間順序連續(xù)的特征量;將所述連續(xù)特征量分割成多個(gè)區(qū)域,所述多個(gè)區(qū)域中的每個(gè)具有預(yù)定 的長度;從所述連續(xù)特征量被分割成的多個(gè)區(qū)域中的每個(gè)中提取區(qū)域特征量, 所述區(qū)域特征量是由一個(gè)標(biāo)量或向量表示的特征量;以及根據(jù)所述區(qū)域特征量的每個(gè)評(píng)估目標(biāo)特征量,所述目標(biāo)特征量是表示 聲音數(shù)據(jù)的一個(gè)特征的特征量。
9. 一種由計(jì)算機(jī)執(zhí)行的程序,所述程序包括下面的步驟 在預(yù)定頻帶的每個(gè)中按時(shí)間順序連續(xù)地分析按時(shí)間順序連續(xù)的聲音數(shù)據(jù);從分析步驟的分析結(jié)果中提取連續(xù)特征量,所述連續(xù)特征量是按時(shí)間 順序連續(xù)的特征量;將所述連續(xù)特征量分割成多個(gè)區(qū)域,所述多個(gè)區(qū)域中的每個(gè)具有預(yù)定 的長度;從所述連續(xù)特征量被分割成的多個(gè)區(qū)域中的每個(gè)中提取區(qū)域特征量, 所述區(qū)域特征量是由一個(gè)標(biāo)量或向量表示的特征量;以及根據(jù)所述區(qū)域特征量的每個(gè)評(píng)估目標(biāo)特征量,所述目標(biāo)特征量是表示 聲音數(shù)據(jù)的一個(gè)特征的特征量。
10. —種記錄介質(zhì),所述記錄介質(zhì)上記錄了由計(jì)算機(jī)執(zhí)行的程序,所 述程序包括下面的步驟在預(yù)定頻帶的每個(gè)中按時(shí)間順序連續(xù)地分析按時(shí)間順序連續(xù)的聲音數(shù)據(jù);從所述分析步驟的分析結(jié)果中提取連續(xù)特征量,所述連續(xù)特征量是按 時(shí)間順序連續(xù)的特征量;將所述連續(xù)特征量分割成多個(gè)區(qū)域,所述多個(gè)區(qū)域中的每個(gè)具有預(yù)定 的長度;從所述連續(xù)特征量被分割成的多個(gè)區(qū)域中的每個(gè)中提取區(qū)域特征量, 所述區(qū)域特征量是由一個(gè)標(biāo)量或向量表示的特征量;以及從所述區(qū)域特征量的每個(gè)中評(píng)估目標(biāo)特征量,所述目標(biāo)特征量是表示 聲音數(shù)據(jù)的一個(gè)特征的特征量。
11. 一種信息處理裝置,包括分析部分,所述分析部分在預(yù)定頻帶的每個(gè)中按時(shí)間順序連續(xù)地分析 按時(shí)間順序連續(xù)的聲音數(shù)據(jù);連續(xù)特征量提取部分,所述連續(xù)特征量提取部分從所述分析部分的分 析結(jié)果中提取連續(xù)特征量,所述連續(xù)特征量是按時(shí)間順序連續(xù)的特征量;分割部分,所述分割部分將所述連續(xù)特征量分割成多個(gè)區(qū)域,所述多 個(gè)區(qū)域中的每個(gè)具有預(yù)定的長度;區(qū)域特征量提取部分,所述區(qū)域特征量提取部分從所述連續(xù)特征量被 分割成的多個(gè)區(qū)域中的每個(gè)中提取區(qū)域特征量,所述區(qū)域特征量是由一個(gè) 標(biāo)量或向量表示的特征量;以及目標(biāo)特征量評(píng)估部分,所述目標(biāo)特征量評(píng)估部分根據(jù)所述區(qū)域特征量 的每個(gè)評(píng)估目標(biāo)特征量,所述目標(biāo)特征量是表示聲音數(shù)據(jù)的一個(gè)特征的特
全文摘要
公開了一種信息處理裝置。分析部分在預(yù)定頻帶的每個(gè)中按時(shí)間順序連續(xù)地分析按時(shí)間順序連續(xù)的聲音數(shù)據(jù)。連續(xù)特征量提取部分從所述分析部分的分析結(jié)果中提取連續(xù)特征量,所述連續(xù)特征量是按時(shí)間順序連續(xù)的特征量。分割部分將所述連續(xù)特征量分割成多個(gè)區(qū)域,所述多個(gè)區(qū)域中的每個(gè)具有預(yù)定的長度。區(qū)域特征量提取部分從所述連續(xù)特征量被分割成的多個(gè)區(qū)域中的每個(gè)中提取區(qū)域特征量,所述區(qū)域特征量是由一個(gè)標(biāo)量或向量表示的特征量。目標(biāo)特征量評(píng)估部分根據(jù)所述區(qū)域特征量的每個(gè)評(píng)估目標(biāo)特征量,所述目標(biāo)特征量是表示聲音數(shù)據(jù)的一個(gè)特征的特征量。
文檔編號(hào)G10L21/00GK101165779SQ20071016289
公開日2008年4月23日 申請(qǐng)日期2007年10月22日 優(yōu)先權(quán)日2006年10月20日
發(fā)明者小林由幸 申請(qǐng)人:索尼株式會(huì)社