两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

用元數(shù)據(jù)標記音頻信號的方法和系統(tǒng)的制作方法

文檔序號:2821465閱讀:179來源:國知局
專利名稱:用元數(shù)據(jù)標記音頻信號的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種根據(jù)音頻信號所提取的特征來處理音頻信號的方法和系統(tǒng)。本發(fā)明特別具有,而不是專有,應用于確定和提取音頻信號的音樂特征例如節(jié)拍和調(diào)性的系統(tǒng)。這些提取的特征都轉(zhuǎn)譯成元數(shù)據(jù)。
背景技術(shù)
控制環(huán)境的周圍環(huán)境系統(tǒng)可從例如我們的美國專利申請公開號US2002/0169817得知,它公開了一種真實世界(real-world)反映系統(tǒng),具有一組裝置,安排每一個裝置提供一個或多個真實世界(real-world)參數(shù),例如音頻和視頻特征。安排至少一個裝置來接收置標語言的指令集合形式的真實世界描述,并根據(jù)描述來運行該裝置。語言中所表達的總括被本地服務器或分布式瀏覽器之一打斷以操作該設備來向用戶再現(xiàn)真實世界感受。
美國專利申請公開號US2002/0169012公開了一種操作一組裝置的方法,包括了接收一個信號,例如至少是電腦程序中的一個博弈世界模型的一部分。該信號通過分析產(chǎn)生置標語言的一組指令集合形式的真實世界描述,該組裝置根據(jù)該描述進行操作。
最好是提供一種從音頻信號中自動產(chǎn)生置標語言指令集合的方法。

發(fā)明內(nèi)容
根據(jù)本發(fā)明的第一方面,提供了一種處理音頻信號的方法,包括接收音頻信號,從該音頻信號提取特征,將提取的特征轉(zhuǎn)譯成元數(shù)據(jù),該元數(shù)據(jù)包括置標語言的一組指令集合。
根據(jù)本發(fā)明的第二方面,提供了一種處理音頻信號的系統(tǒng),包括接收音頻信號的輸入裝置,從該音頻信號提取特征和將該提取的特征轉(zhuǎn)譯成元數(shù)據(jù)的處理器,該元數(shù)據(jù)包括置標語言的一組指令集合。
由本發(fā)明,可能由基于音頻信號內(nèi)容的音頻信號元數(shù)據(jù)自動產(chǎn)生,并且可用于周圍環(huán)境系統(tǒng)的控制。
該方法有利地進一步包括方便地儲存元數(shù)據(jù)。這使得用戶可以選擇再次使用輸出了的元數(shù)據(jù),例如將其傳送到一不具有從音頻信號提取特征的處理能力的地址。優(yōu)選地,存儲過程包括將元數(shù)據(jù)和與之聯(lián)系的時間數(shù)據(jù)一同存儲,該時間數(shù)據(jù)與指令集合中的每個置標語言項的接收到的音頻信號相聯(lián)系,定義了起始時間和持續(xù)時間。將時間數(shù)據(jù)以及與原始音頻信號同步的元數(shù)據(jù)一同存儲,當元數(shù)據(jù)與音頻信號一起再次使用時,該元數(shù)據(jù)就限定了一個時間相關(guān)的體驗,但這同樣匹配于原始音頻信號。
有利地,該方法進一步包括了將指令集合傳送到一瀏覽器的步驟,還進一步具有接收置標語言資源的步驟。優(yōu)選地,該方法進一步具有與接收到的音頻信號同步再現(xiàn)置標語言資源的步驟。這樣,元數(shù)據(jù)就直接用于提供周圍環(huán)境。瀏覽器接收該指令集合和置標語言資源,并按照指令集合指示,與輸出音頻同步地再現(xiàn)該資源。
在一個優(yōu)選實施例中,從音頻信號中提取的特征包括節(jié)拍、調(diào)性、音量中的一個或多個。這些特征定義了一個廣泛的意義,音頻信號的各方面。它們指示了如下事態(tài)如情緒,它可以用于定義元數(shù)據(jù),該元數(shù)據(jù)將會確定周圍環(huán)境以增加音頻信號。


本發(fā)明將僅以舉例的方式加以描述,并參照以下附圖圖1是處理音頻信號的系統(tǒng)的示意圖,圖2是一音頻信號的處理方法的流程圖,圖3是元數(shù)據(jù)與相關(guān)聯(lián)的時間數(shù)據(jù)一同存儲的示意圖。
具體實施例方式
圖1示出了一個處理音頻信號的系統(tǒng)100的示意圖。系統(tǒng)100具有處理器(CPU)102,通過通用數(shù)據(jù)總線108連接到存儲器(ROM)104和存儲器(RAM)106。載體112上的計算機代碼或軟件110可載入RAM106中(或可選地提供在ROM104中),該代碼使處理器102執(zhí)行體現(xiàn)處理方法的指令。此外,處理器102連接到存儲器114、輸出裝置116,118以及輸入裝置122。還提供一用戶接口(UI)120。
該系統(tǒng)100可以具體化為一個常見的家用個人計算機(PC),輸出裝置116可以是計算機監(jiān)視器或者顯示器的形式。存儲器114可以是通過網(wǎng)絡連接可訪問的遠程數(shù)據(jù)庫??蛇x的,如果系統(tǒng)100具體體現(xiàn)在一家庭網(wǎng)絡中,則輸出裝置116,118可以在家庭的各處分布,它們還包括例如置于墻上的平板顯示器,計算機控制的家庭照明單元,以及/或音頻揚聲器。處理器102和輸出裝置116,118之間的連接可以是無線的(例如通過無線發(fā)送標準WiFi或藍牙來通信)以及/或有線的(例如通過有線標準以太網(wǎng),USB來通信)。
系統(tǒng)100接收一輸入的音頻信號(例如CD上的音軌),從中抽取音樂特征。在這個實施例中,通過PC的內(nèi)部輸入裝置122如CD/DVD或硬盤驅(qū)動器來提供音頻信號。此外,還可通過家庭網(wǎng)絡娛樂系統(tǒng)(Hi-Fi,家庭影院等)的連接來接收音頻信號。本領(lǐng)域普通技術(shù)人員會意識到確切的硬件/軟件配置以及音頻信號的提供機制并不重要,系統(tǒng)100能夠獲得這些信號即可。
從音頻信號中提取音樂特征已在論文“Querying largecollections of the music for similarity”(Matt Welsh et al,UCBerkeley Technical Report UCB/CSD-00-1096 November 1999。)中有記述,該論文描述了如何將例如平均節(jié)拍,音量,噪音,以及音調(diào)轉(zhuǎn)換通過對輸入音頻信號加以分析而得出。美國專利US5038658描述了一種確定音頻信號的調(diào)性的方法。
輸入裝置122用于接收音頻信號,處理器102用于提取音頻信號的特征并將這些特征轉(zhuǎn)譯成元數(shù)據(jù),該元數(shù)據(jù)具有置標語言的指令集合。處理器102接收該音頻信號并提取如上所述的音樂特征如音量,節(jié)拍,以及調(diào)性。當處理器102從音頻信號中提取了音頻信號的音樂特征時,處理器102將這些特征轉(zhuǎn)譯成元數(shù)據(jù)。該元數(shù)據(jù)將是一個明顯的符號形式,例如<夏天>或<朦朧池塘>。該處理器102中的轉(zhuǎn)譯引擎以運行規(guī)定的算法系列來產(chǎn)生元數(shù)據(jù)或者是以“神經(jīng)系統(tǒng)”排列形式來根據(jù)提取的特征產(chǎn)生元數(shù)據(jù)。得到的元數(shù)據(jù)是置標語言的一組指令集合的形式。
系統(tǒng)100進一步具有一個瀏覽器124(如圖2所示),它分布于一組裝置之中,瀏覽器被設置成接收置標語言的指令集合,還接收置標語言資源,并據(jù)此控制這組裝置。由瀏覽器124控制的該組裝置可以包括輸出裝置116和118,且/或可以包括遠離該系統(tǒng)的其它裝置。這些裝置一起構(gòu)成了一個周圍環(huán)境系統(tǒng),不同的輸出裝置116,118都適應于置標語言以及設計用于傳送真實世界感受的指令集合。
這種語言的一個例子是物理置標語言(PML),這在上述的尚未授權(quán)的申請中有記載。PML包括一種方法,作者可以與最終用戶交流并再現(xiàn)感受,這樣,最終用戶就可以體會到在真實物理空間中的某種程度地沉浸的感覺。例如,PML使消費設備如音頻系統(tǒng)和照明系統(tǒng)能夠接收主網(wǎng)絡設備的指令(例如,指令可以嵌入在DVD視頻流中),其使這些設備的照明或聲音輸出得到修改。因此電影中的黑暗場景使得消費者的家也適當變暗。
PML總的來說是一個高級描述置標語言,可以以與真實世界事件關(guān)聯(lián)的描述符在XML中實現(xiàn),例如,<森林>。因此,PML使得家中的設備以標準化的方式為消費者提升感受。
瀏覽器124接收指令集合,其包括例如<夏天>和<傍晚>。瀏覽器還接收置標語言資源126,它是對于指令集合中每個成員的至少一個資源。因此對于<夏天>來說,可能存在包含靜止圖像的視頻文件和包含顏色清晰度的文件。對于<傍晚>來說,可能存在包含顏色數(shù)據(jù)、靜止圖像和/或運功視頻的類似的文件。當原始音樂被播放(或者重播)時,瀏覽器124再現(xiàn)這些相關(guān)聯(lián)的置標語言資源126,這樣就根據(jù)集合中每個設備的性能由每個設備再現(xiàn)顏色和圖像。
圖2總結(jié)了音頻信號的處理方法,其包括接收音頻信號200,從音頻信號中提取特征202,以及將提取的特征轉(zhuǎn)譯成元數(shù)據(jù)204,該元數(shù)據(jù)具有置標語言的一組指令集合。通過圖1中的輸入裝置122從CD中接收音頻信號。提取音頻信號的音樂特征的步驟202,以及將該特征轉(zhuǎn)譯成元數(shù)據(jù)的轉(zhuǎn)譯步驟204是由圖1中的系統(tǒng)中的處理器102執(zhí)行的。特征提取202的輸出是有關(guān)接收到的音頻信號的元描述(metadescription)。元描述的結(jié)構(gòu)取決于處理器102所采用的提取系統(tǒng)的性質(zhì)。一個相對簡單的提取系統(tǒng)將返回一描述,如調(diào)性A小調(diào);平均音量8/10;標準音量偏差+/-2。一個更復雜的系統(tǒng)則會返回關(guān)于音頻信號的詳細信息,包括所處理的音樂片斷內(nèi)特征隨時間內(nèi)的變化。
該方法進一步包括存儲元數(shù)據(jù)的步驟206。這在圖3中示出。該存儲步驟可包括存儲元數(shù)據(jù)302以及與之關(guān)聯(lián)的時間數(shù)據(jù)304。在返回時間相關(guān)的數(shù)據(jù)的步驟202中采用一個先進的特征提取系統(tǒng)的情況下,從轉(zhuǎn)譯器輸出的元數(shù)據(jù)也可以是時間相關(guān)的。
例如,組成音頻信號的一段音樂中可能存在規(guī)定的情緒變化。轉(zhuǎn)譯器可以用項<夏天>和<秋天>來對其進行表示,伴隨著當音樂中的<夏天>結(jié)束和<秋天>開始時規(guī)定的一個點。存儲的時間數(shù)據(jù)146可以規(guī)定與指令集合中的每個置標語言項的接收到的音頻信號相關(guān)的開始時間和持續(xù)時間。圖3所用的例子中,所示<夏天>項具有一為0的開始時間(S),音樂片斷開始之后的持續(xù)時間(D),以秒計時,有120秒。所示另外兩項具有轉(zhuǎn)譯器所規(guī)定的不同的起始時間和持續(xù)時間。圖3中,箭頭306指示轉(zhuǎn)譯器的輸出。
該方法進一步包括將指令集合傳送到208瀏覽器124。相對于圖1中所討論的,該瀏覽器124也可接收(步驟210)置標語言資源126。該瀏覽器可與接收到的音頻信號同步再現(xiàn)(步驟212)置標語言資源126。
權(quán)利要求
1.一種處理音頻信號的方法,包括接收(200)音頻信號,從該音頻信號中提取(202)特征,將提取的特征轉(zhuǎn)譯(204)成元數(shù)據(jù)(302),該元數(shù)據(jù)(302)包括置標語言的指令集合。
2.如權(quán)利要求1所述的方法,進一步包括存儲(206)該元數(shù)據(jù)(302)。
3.如權(quán)利要求2所述的方法,其中存儲(206)步驟還包括將元數(shù)據(jù)(302)與相關(guān)聯(lián)的時間數(shù)據(jù)(304)進行存儲(206)的步驟。
4.如權(quán)利要求3所述的方法,其中時間數(shù)據(jù)(304)定義了和指令集合中的每一個置標語言項(302)的接收到的音頻信號相關(guān)的起始時間和持續(xù)時間。
5.如以上任一項權(quán)利要求所述的方法,進一步包括將指令集合傳送給(208)瀏覽器(124)。
6.如以上任一項權(quán)利要求所述的方法,進一步包括接收(210)置標語言資源(126)。
7.如權(quán)利要求5和6所述的方法,進一步包括與接收到的音頻信號同步地再現(xiàn)(212)置標語言資源(126)。
8.根據(jù)以上任一項權(quán)利要求所述的方法,其中從音頻信號提取的特征包括節(jié)拍,調(diào)性以及音量中的一個或多個。
9.一種處理音頻信號的系統(tǒng),包括接收音頻信號的輸入裝置(122),從音頻信號中提取特征并將提取的特征轉(zhuǎn)譯成元數(shù)據(jù)(302)的處理器(102),該元數(shù)據(jù)(302)包括置標語言的指令集合。
10.如權(quán)利要求9所述的系統(tǒng),還進一步包括用于存儲元數(shù)據(jù)的存儲裝置(114)。
11.如權(quán)利要求9或10所述的系統(tǒng),還進一步包括用于輸出接收到的音頻信號的輸出裝置(116,118)。
12.如權(quán)利要求9,10或11所述的系統(tǒng),還進一步包括分布在一組設備中的瀏覽器(124),該瀏覽器(124)用于接收置標語言的指令集合以及置標語言資源(126),并從而控制該組設備。
全文摘要
一種處理音頻信號的方法,包括接收音頻信號,從音頻信號中提取特征,將所提取的特征轉(zhuǎn)譯成元數(shù)據(jù)。該原數(shù)據(jù)包括一個置標語言的指令集合。還公開了一種處理該音頻信號的系統(tǒng),它具有一個接收音頻信號的輸入裝置,一個從音頻信號中提取特征并將提取的特征轉(zhuǎn)譯成元數(shù)據(jù)的處理器。
文檔編號G10L25/48GK1732510SQ200380107409
公開日2006年2月8日 申請日期2003年12月10日 優(yōu)先權(quán)日2002年12月24日
發(fā)明者D·A·埃弗斯, R·S·科爾, C·托恩 申請人:皇家飛利浦電子股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
迭部县| 当雄县| 即墨市| 麦盖提县| 霍林郭勒市| 永善县| 雷山县| 灯塔市| 灵武市| 门头沟区| 池州市| 曲阜市| 岳阳县| 武乡县| 葫芦岛市| 石棉县| 昌平区| 汕尾市| 宜丰县| 阿坝| 专栏| 咸阳市| 中江县| 皋兰县| 义马市| 凤山县| 高碑店市| 汤原县| 龙州县| 明水县| 桑日县| 昭通市| 侯马市| 瓮安县| 乌海市| 竹山县| 原平市| 西畴县| 八宿县| 新化县| 开封市|