两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

測(cè)量相似度的方法和設(shè)備的制造方法

文檔序號(hào):9598815閱讀:337來(lái)源:國(guó)知局
測(cè)量相似度的方法和設(shè)備的制造方法
【專利說(shuō)明】
[0001] 本申請(qǐng)是申請(qǐng)人于2011年8月19日向中國(guó)專利局提交的申請(qǐng)?zhí)枮?201110243107. 5,發(fā)明名稱為"測(cè)量?jī)?nèi)容一致性的方法和設(shè)備、測(cè)量相似度的方法和設(shè)備" 的發(fā)明專利申請(qǐng)的分案申請(qǐng)。
技術(shù)領(lǐng)域
[0002] 本發(fā)明一般涉及音頻信號(hào)處理。更具體地,本發(fā)明的實(shí)施例涉及用于測(cè)量音頻部 分之間的內(nèi)容一致性的方法和設(shè)備,以及用于測(cè)量音頻分段之間的內(nèi)容相似度的方法和設(shè) 備。
【背景技術(shù)】
[0003] 內(nèi)容一致性度量用于測(cè)量音頻信號(hào)內(nèi)或音頻信號(hào)間的內(nèi)容一致性。該度量涉 及計(jì)算兩個(gè)音頻分段之間的內(nèi)容一致性(content coherence)(內(nèi)容相似度(content similarity)或內(nèi)容一致性(content consistence)),并用作判斷這些分段是否屬于相同 的語(yǔ)義聚類或這兩個(gè)分段之間是否存在真實(shí)的邊界的基礎(chǔ)。
[0004] 已經(jīng)提出了測(cè)量?jī)蓚€(gè)長(zhǎng)窗口之間的內(nèi)容一致性的方法。根據(jù)這種方法,將每個(gè)長(zhǎng) 窗口劃分為多個(gè)短音頻分段(音頻元素),并且基于交疊相似度鏈接的整體思路,通過(guò)計(jì)算 從左窗口和右窗口獲得的所有分段對(duì)之間的語(yǔ)義相似性而獲得內(nèi)容一致性度量。可通過(guò)測(cè) 量音頻分段之間的內(nèi)容相似度或通過(guò)其對(duì)應(yīng)的音頻元素類來(lái)計(jì)算語(yǔ)義相似性(例如,參見(jiàn) L.Lu 及 A. Hanjalic. "Text-Like Segmentation of General Audio for Content-Based Retrieval, "IEEE Trans, on Multimedia,vol.ll,no.4, 658-669,2009,其通過(guò)引用合并于 此以用于全部目的)。
[0005] 可以基于兩個(gè)音頻分段之間的特征比較來(lái)計(jì)算內(nèi)容相似度。已經(jīng)提出了諸如K-L 散度(Kullback-Leibler divergence,KLD)的各種度量,以測(cè)量?jī)蓚€(gè)音頻分段之間的內(nèi)容 相似度。
[0006] 這一部分描述的方案是可能請(qǐng)求保護(hù)的方案,而不一定是先前已構(gòu)思或已請(qǐng)求保 護(hù)的方案。因此,除非另行表明,否則不應(yīng)只是由于這些方案被包括在這一部分中就假定這 一部分中描述的任何方案只能作為現(xiàn)有技術(shù)。類似地,除非另行表明,否則不應(yīng)基于這一部 分而假定任何現(xiàn)有技術(shù)中已經(jīng)意識(shí)到相對(duì)于一個(gè)或多個(gè)方案而確定的問(wèn)題。

【發(fā)明內(nèi)容】

[0007] 根據(jù)本發(fā)明一個(gè)實(shí)施例,提供一種測(cè)量第一音頻部分與第二音頻部分之間的內(nèi)容 一致性的方法。針對(duì)第一音頻部分中的每個(gè)音頻分段,確定第二音頻部分中預(yù)定數(shù)目的音 頻分段。第一音頻部分中的該音頻分段與所確定的音頻分段之間的內(nèi)容相似度高于第一音 頻部分中的該音頻分段與第二音頻部分中的所有其它音頻分段之間的內(nèi)容相似度。計(jì)算第 一音頻部分中的該音頻分段與所確定的音頻分段之間的內(nèi)容相似度的平均值。將第一內(nèi)容 一致性計(jì)算為,針對(duì)第一音頻部分中的各音頻分段而計(jì)算的各平均值的平均值、最小值或 最大值。
[0008] 根據(jù)本發(fā)明一個(gè)實(shí)施例,提供一種用于測(cè)量第一音頻部分與第二音頻部分之間的 內(nèi)容一致性的設(shè)備。設(shè)備包含相似度計(jì)算器和一致性計(jì)算器。針對(duì)第一音頻部分中的每個(gè) 音頻分段,相似度計(jì)算器確定第二音頻部分中預(yù)定數(shù)目的音頻分段。第一音頻部分中的該 音頻分段與所確定的音頻分段之間的內(nèi)容相似度高于第一音頻部分中的該音頻分段與第 二音頻部分中的所有其它音頻分段之間的內(nèi)容相似度。相似度計(jì)算器也計(jì)算第一音頻部分 中的該音頻分段與所確定的音頻分段之間的內(nèi)容相似度的平均值。一致性計(jì)算器將第一內(nèi) 容一致性計(jì)算為,針對(duì)第一音頻部分中的各音頻分段而計(jì)算的各平均值的平均值、最小值 或最大值。
[0009] 根據(jù)本發(fā)明一個(gè)實(shí)施例,提供一種測(cè)量?jī)蓚€(gè)音頻分段之間的內(nèi)容相似度的方法。 從所述音頻分段中提取第一特征向量。第一特征向量中的每一個(gè)中的所有特征值都是非負(fù) 的并被歸一化,使得特征值的和為1。根據(jù)特征向量,基于狄里克雷分布生成用于計(jì)算內(nèi)容 相似度的統(tǒng)計(jì)模型?;谒傻慕y(tǒng)計(jì)模型計(jì)算內(nèi)容相似度。
[0010] 根據(jù)本發(fā)明一個(gè)實(shí)施例,提供一種用于測(cè)量?jī)蓚€(gè)音頻分段之間的內(nèi)容相似度的設(shè) 備。設(shè)備包含特征生成器、模型生成器和相似度計(jì)算器。特征生成器從音頻分段中提取第 一特征向量。第一特征向量中的每一個(gè)中的所有特征值都是非負(fù)的并被歸一化,使得特征 值的和為1。模型生成器根據(jù)特征向量,基于狄里克雷分布生成用于計(jì)算內(nèi)容相似度的統(tǒng)計(jì) 模型。相似度計(jì)算器基于所生成的統(tǒng)計(jì)模型計(jì)算內(nèi)容相似度。
[0011] 下面參考附圖描述本發(fā)明的進(jìn)一步特征及優(yōu)點(diǎn)以及本發(fā)明各個(gè)實(shí)施例的結(jié)構(gòu)及 操作。應(yīng)注意,本發(fā)明不限于在此描述的具體實(shí)施例。在此呈現(xiàn)這些實(shí)施例僅用于說(shuō)明性 目的?;谶@里包含的教導(dǎo),對(duì)本領(lǐng)域技術(shù)人員而言,另外的實(shí)施例將是明顯的。
【附圖說(shuō)明】
[0012] 在附圖的各圖中通過(guò)示例來(lái)圖解本發(fā)明,但這些示例不對(duì)本發(fā)明產(chǎn)生限制,附圖 中類似的附圖標(biāo)記表示類似的元件,其中:
[0013] 圖1是圖示根據(jù)本發(fā)明實(shí)施例的用于測(cè)量?jī)?nèi)容一致性的示例設(shè)備的框圖;
[0014] 圖2是用于圖示第一音頻部分中的音頻分段與第二音頻部分中的音頻分段的子 集之間的內(nèi)容相似度的示意圖;
[0015] 圖3是圖示根據(jù)本發(fā)明實(shí)施例的測(cè)量?jī)?nèi)容一致性的示例方法的流程圖;
[0016] 圖4是圖示根據(jù)圖3方法的進(jìn)一步實(shí)施例的測(cè)量?jī)?nèi)容一致性的示例方法的流程 圖;
[0017] 圖5是圖示根據(jù)本發(fā)明實(shí)施例的相似度計(jì)算器的示例的框圖;
[0018] 圖6是用于圖示通過(guò)采用統(tǒng)計(jì)模型來(lái)計(jì)算內(nèi)容相似度的示例方法的流程圖;
[0019] 圖7是圖示用于實(shí)施本發(fā)明的各實(shí)施例的示例性系統(tǒng)的框圖。
【具體實(shí)施方式】
[0020] 下面參考附圖描述本發(fā)明實(shí)施例。應(yīng)注意,為清楚起見(jiàn),在附圖和描述中省略了關(guān) 于本領(lǐng)域技術(shù)人員已知但是對(duì)理解本發(fā)明而言并非必需的組件和過(guò)程的陳述和描述。
[0021] 本領(lǐng)域的技術(shù)人員可以理解,本發(fā)明的各方面可以被實(shí)施為系統(tǒng)(例如在線數(shù) 字媒體商店、云計(jì)算服務(wù)、流媒體服務(wù)、電信網(wǎng)絡(luò)等)、裝置(例如蜂窩電話、便攜媒體播放 器、個(gè)人計(jì)算機(jī)、電視機(jī)頂盒、或數(shù)字錄像機(jī)、或任意其它媒體播放器)、方法或計(jì)算機(jī)程序 產(chǎn)品。因此,本發(fā)明的各方面可以采取以下形式:完全硬件實(shí)施例、完全軟件實(shí)施例(包括 固件、駐留軟件、微代碼等)或組合軟件部分與硬件部分的實(shí)施例,本文可以一般地稱之為 "電路"、"模塊"或"系統(tǒng)"。此外,本發(fā)明的各方面可以采取體現(xiàn)為一個(gè)或多個(gè)計(jì)算機(jī)可讀 介質(zhì)的計(jì)算機(jī)程序產(chǎn)品的形式,該計(jì)算機(jī)可讀介質(zhì)上體現(xiàn)有計(jì)算機(jī)可讀程序代碼。
[0022] 可以使用一個(gè)或多個(gè)計(jì)算機(jī)可讀介質(zhì)的任何組合。計(jì)算機(jī)可讀介質(zhì)可以是計(jì)算機(jī) 可讀信號(hào)介質(zhì)或計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)例如可以是(但不限于)電 的、磁的、光的、電磁的、紅外線的、或半導(dǎo)體的系統(tǒng)、設(shè)備或裝置、或前述各項(xiàng)的任何適當(dāng)?shù)?組合。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的更具體的例子(非窮舉的列表)包括以下:有一個(gè)或多個(gè)導(dǎo) 線的電連接、便攜式計(jì)算機(jī)磁盤(pán)、硬盤(pán)、隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(R0M)、可擦式 可編程只讀存儲(chǔ)器(EPROM或閃存)、光纖、便攜式緊湊磁盤(pán)只讀存儲(chǔ)器(CD-ROM)、光存儲(chǔ)裝 置、磁存儲(chǔ)裝置、或前述各項(xiàng)的任何適當(dāng)?shù)慕M合。在本文語(yǔ)境中,計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以 是任何含有或存儲(chǔ)供指令執(zhí)行系統(tǒng)、設(shè)備或裝置使用的或與指令執(zhí)行系統(tǒng)、設(shè)備或裝置相 聯(lián)系的程序的有形介質(zhì)。
[0023] 計(jì)算機(jī)可讀信號(hào)介質(zhì)可以包括例如在基帶中或作為載波的一部分傳播的、其中帶 有計(jì)算機(jī)可讀程序代碼的數(shù)據(jù)信號(hào)。這樣的傳播信號(hào)可以采取任何適當(dāng)?shù)男问?,包括但?限于電磁的、光的或其任何適當(dāng)?shù)慕M合。
[0024] 計(jì)算機(jī)可讀信號(hào)介質(zhì)可以是不同于計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的、能夠傳達(dá)、傳播或傳 輸供指令執(zhí)行系統(tǒng)、設(shè)備或裝置使用的或與指令執(zhí)行系統(tǒng)、設(shè)備或裝置相聯(lián)系的程序的任 何一種計(jì)算機(jī)可讀介質(zhì)。
[0025] 體現(xiàn)在計(jì)算機(jī)可讀介質(zhì)中的程序代碼可以采用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括但不限 于無(wú)線、有線、光纜、射頻等等、或上述各項(xiàng)的任何適當(dāng)?shù)慕M合。
[0026] 用于執(zhí)行本發(fā)明各方面的操作的計(jì)算機(jī)程序代碼可以以一種或多種程序設(shè)計(jì) 語(yǔ)言的任何組合來(lái)編寫(xiě),所述程序設(shè)計(jì)語(yǔ)言包括面向?qū)ο蟮某绦蛟O(shè)計(jì)語(yǔ)言,諸如Java、 Smalltalk、C++之類,還包括常規(guī)的過(guò)程式程序設(shè)計(jì)語(yǔ)言,諸如"C"程序設(shè)計(jì)語(yǔ)言或類似的 程序設(shè)計(jì)語(yǔ)言。程序代碼可以完全地在用戶的計(jì)算機(jī)上執(zhí)行、部分地在用戶的計(jì)算機(jī)上執(zhí) 行、作為一個(gè)獨(dú)立的軟件包執(zhí)行、部分在用戶的計(jì)算機(jī)上并且部分在遠(yuǎn)程計(jì)算機(jī)上執(zhí)行、或 者完全在遠(yuǎn)程計(jì)算機(jī)或服務(wù)器上執(zhí)行。在后一種情形中,遠(yuǎn)程計(jì)算機(jī)可以通過(guò)任何種類的 網(wǎng)絡(luò),包括局域網(wǎng)(LAN)或廣域網(wǎng)(WAN),連接到用戶的計(jì)算機(jī),或者,可以(例如利用因特 網(wǎng)服務(wù)提供商來(lái)通過(guò)因特網(wǎng))連接到外部計(jì)算機(jī)。
[0027] 以下參照按照本發(fā)明實(shí)施例的方法、設(shè)備(系統(tǒng))和計(jì)算機(jī)程序產(chǎn)品的流程圖和/ 或框圖來(lái)描述本發(fā)明的各個(gè)方面。應(yīng)當(dāng)理解,流程圖和/或框圖的每個(gè)方框以及流程圖和 /或框圖中各方框的組合都可以由計(jì)算機(jī)程序指令實(shí)現(xiàn)。這些計(jì)算機(jī)程序指令可以提供給 通用計(jì)算機(jī)、專用計(jì)算機(jī)或其它可編程數(shù)據(jù)處理設(shè)備的處理器以生產(chǎn)出一種機(jī)器,使得通 過(guò)計(jì)算機(jī)或其它可編程數(shù)據(jù)處理裝置執(zhí)行的這些指令產(chǎn)生用于實(shí)現(xiàn)流程圖和/或框圖中 的方框中規(guī)定的功能/操作的裝置。
[0028] 也可以把這些計(jì)算機(jī)程序指令存儲(chǔ)在能夠指引計(jì)算機(jī)或其它可編程數(shù)據(jù)處理設(shè) 備以特定方式工作的計(jì)算機(jī)可讀介質(zhì)中,使得存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)中的指令產(chǎn)生一個(gè)包 括實(shí)現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的指令的制造品。
[0029] 也可以把計(jì)算機(jī)程序指令加載到計(jì)算機(jī)、其它可編程數(shù)據(jù)處理設(shè)備或其它裝置 上,導(dǎo)致在計(jì)算機(jī)或其它可編程數(shù)據(jù)處理設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的 過(guò)程,使得在計(jì)算機(jī)或其它可編程設(shè)備上執(zhí)行的指令提供實(shí)現(xiàn)流程圖和/或框圖中的方框 中規(guī)定的功能/操作的過(guò)程。
[0030] 圖1是圖示根據(jù)本發(fā)明實(shí)施例的用于測(cè)量?jī)?nèi)容一致性的示例設(shè)備100的框圖。
[0031] 如圖1所示,設(shè)備100包括相似度計(jì)算器101和一致性計(jì)算器102。
[0032] 諸如對(duì)話或會(huì)議中的說(shuō)話人改變檢測(cè)及聚類、音樂(lè)電臺(tái)中的歌曲分割、歌曲中的 副歌邊界細(xì)化、復(fù)合音頻信號(hào)中的音頻場(chǎng)景檢測(cè)以及音頻檢索的各種音頻信號(hào)處理應(yīng)用可 能涉及測(cè)量音頻信號(hào)之間的內(nèi)容一致性。例如,在音樂(lè)電臺(tái)中的歌曲分割的應(yīng)用中,音頻信 號(hào)被分割為多個(gè)部分,每個(gè)部分包含一致的內(nèi)容。再例如,在對(duì)話或會(huì)議中的說(shuō)話人改變檢 測(cè)及聚類的應(yīng)用中,與相同說(shuō)話人相關(guān)聯(lián)的音頻部分被分組為一個(gè)聚類,每個(gè)聚類包含一 致的內(nèi)容??梢詼y(cè)量音頻部分中的各分段之間的內(nèi)容一致性,以判斷音頻部分是否含有一 致的內(nèi)容??梢詼y(cè)量各音頻部分之間的內(nèi)容一致性,以判斷這些音頻部分中的內(nèi)容是否一 致。
[0033] 在本說(shuō)明書(shū)中,術(shù)語(yǔ)"分段"和"部分"均指代音頻信號(hào)的連續(xù)部分。在一個(gè)較大 部分被分為多個(gè)較小部分的語(yǔ)境中,術(shù)語(yǔ)"部分"指代那個(gè)較大部分,而術(shù)語(yǔ)"分段"指代那 些較小部分中的一個(gè)。
[0034] 可以由兩個(gè)分段(部分)之間的距離值或相似度值來(lái)表示內(nèi)容一致性。較大的距 離值或較小的相似度值表明較低的內(nèi)容一致性,而較小的距離值或較大的相似度值表明較 高的內(nèi)容一致性。
[0035] 可以根據(jù)設(shè)備100測(cè)量的內(nèi)容一致性來(lái)對(duì)音頻信號(hào)進(jìn)行預(yù)定處理。該預(yù)定處理取 決于應(yīng)用。
[0036] 音頻部分的長(zhǎng)度可以取決于要分割或分組的對(duì)象內(nèi)容的語(yǔ)義等級(jí)。較高的語(yǔ)義等 級(jí)可能要求較大長(zhǎng)度的音頻部分。例如,在關(guān)注音頻場(chǎng)景(例如歌曲、天氣預(yù)報(bào)和動(dòng)作場(chǎng) 景)的情況下,語(yǔ)義等級(jí)高,且測(cè)量較長(zhǎng)的音頻部分之間的內(nèi)容一致性。較低的語(yǔ)義等級(jí)可 能要求較小長(zhǎng)度的音頻部分。例如,在基本音頻形態(tài)(例如話音、音樂(lè)和噪聲)之間的邊 界檢測(cè)和說(shuō)話人改變檢測(cè)的應(yīng)用中,語(yǔ)義等級(jí)低,且測(cè)量較短的音頻部分之間的內(nèi)容一致 性。在音頻部分包括音頻分段的示例情況下,音頻部分之間的內(nèi)容一致性涉及較高的語(yǔ)義 等級(jí),而音頻分段之間的內(nèi)容一致性涉及較低的語(yǔ)義等級(jí)。
[0037] 針對(duì)第一音頻部分中的每個(gè)音頻分段Slil,相似度
當(dāng)前第1頁(yè)1 2 3 4 5 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
西藏| 拜城县| 车险| 马关县| 大同县| 潮州市| 郓城县| 尉氏县| 灵寿县| 综艺| 德化县| 施甸县| 额尔古纳市| 松滋市| 巴楚县| 拜泉县| 师宗县| 十堰市| 弋阳县| 财经| 泸溪县| 巴楚县| 南陵县| 郧西县| 延寿县| 阳新县| 浪卡子县| 达州市| 驻马店市| 五峰| 凤山县| 竹山县| 胶南市| 娱乐| 拉萨市| 邻水| 五大连池市| 句容市| 师宗县| 疏附县| 商河县|