專利名稱:提取視頻和音頻信號(hào)內(nèi)容的特征以提供信號(hào)的可靠識(shí)別的制作方法
技術(shù)領(lǐng)域:
本發(fā)明總的來(lái)說(shuō)涉及視頻和音頻信號(hào)的處理,且更具體地說(shuō)涉 及從視頻信號(hào)和音頻信號(hào)提取特征以識(shí)別信號(hào)的處理。在本公開(kāi)中, 術(shù)語(yǔ)"視頻信號(hào)"和"視頻內(nèi)容"是指表示意在用于視覺(jué)感知的圖像 的信號(hào)和內(nèi)容,且術(shù)語(yǔ)"音頻信號(hào)"和"音頻內(nèi)容,,是指表示意在用
于聽(tīng)覺(jué)感知的聲音的信號(hào)和內(nèi)容。
背景技術(shù):
比如那些嘗試檢測(cè)由視頻和音頻信號(hào)傳送的盜版內(nèi)容或者那些 嘗試再同步分離的視頻和音頻信號(hào)的應(yīng)用通常依靠于檢查信號(hào)內(nèi)容以 識(shí)別信號(hào)的處理。對(duì)于這些應(yīng)用中的很多來(lái)說(shuō),重要的是即使那些信 號(hào)的內(nèi)容已經(jīng)被無(wú)意地或者有意地修改也能獲得信號(hào)的可靠識(shí)別,以 使得仍然能夠由人類觀察員將修改的內(nèi)容識(shí)別為基本上與原始內(nèi)容相 同。如果在原始信號(hào)的內(nèi)容和修改的信號(hào)的內(nèi)容之間的察覺(jué)的差異很 小,那么優(yōu)選地,該識(shí)別處理能夠從彼此非常類似的原始和修改的信 號(hào)提取識(shí)別特征。
對(duì)信號(hào)內(nèi)容的無(wú)意識(shí)的修改的實(shí)例包括在傳輸信道中和在存儲(chǔ) 介質(zhì)上向信號(hào)插入或添加噪聲。對(duì)視頻信號(hào)的故意的修改的實(shí)例包括 亮度和顏色修改,比如對(duì)比度/亮度調(diào)節(jié)、伽馬校正、亮度直方圖均 衡化、色彩飽和度調(diào)節(jié)和用于白平衡的彩色校正,包括幾何修改,比 如圖像裁剪和調(diào)整大小、圖像旋轉(zhuǎn)和翻轉(zhuǎn)、伸展、斑點(diǎn)去除、模糊、 銳化和邊緣增強(qiáng),且包括比如有損壓縮的編碼技術(shù)。對(duì)音頻信號(hào)的故 意的修改的實(shí)例包括放大、均衡化、動(dòng)態(tài)范圍修改、信道上混頻、時(shí) 標(biāo)修改、頻語(yǔ)成型和有損數(shù)據(jù)壓縮。
發(fā)明內(nèi)容
本發(fā)明的目的是提供可用于即使已經(jīng)由比如如上所述的那些機(jī) 制修改了信號(hào)的內(nèi)容,也能獲得視頻和音頻信號(hào)的可靠識(shí)別的識(shí)別處 理。
該目的由以下將要描述的本發(fā)明實(shí)現(xiàn)。
通過(guò)參考以下說(shuō)明和附圖可以更好地理解本發(fā)明的各種特征和 其優(yōu)選實(shí)施例,在附圖中,類似的參考標(biāo)號(hào)表示幾個(gè)圖中的類似的元 件。提出以下說(shuō)明和附圖的內(nèi)容僅作為實(shí)例,且其不應(yīng)該被理解為表 示對(duì)本發(fā)明的范圍的限制。
圖1是可以用于獲得視頻和音頻信號(hào)的可靠識(shí)別的系統(tǒng)的示意 性框圖。
圖2是可以用于獲得視頻信號(hào)的可靠識(shí)別的系統(tǒng)的示意性框圖。
圖3是可以用于獲得音頻信號(hào)的可靠識(shí)別的系統(tǒng)的示意性框圖。
圖4A- 4C是可以用于產(chǎn)生表示視頻內(nèi)容的兩個(gè)幀之間的差異的
相異點(diǎn)測(cè)量的處理的示意性框圖。
圖5A - 5B是在低分辨率圖像中的 一組中間值的示意性框圖。 圖6是可以用于產(chǎn)生音頻內(nèi)容的分段的時(shí)頻表示的處理的示意
性框圖。
圖7是在低分辨率時(shí)頻表示中的一組中間值的示意性框圖。
圖8是捕捉用于同步視頻/音頻流的基準(zhǔn)簽名和對(duì)準(zhǔn)信息的裝置
的示意性框圖。
圖9是恢復(fù)對(duì)視頻/音頻流的同步的裝置的示意性框圖。
圖10是圖示視頻/音頻流中的時(shí)間延遲的示意性框圖。
圖11是管理用于視頻或者音頻內(nèi)容的副本的檢測(cè)的簽名數(shù)據(jù)庫(kù)
的裝置的示意性框圖。圖12是可以用于實(shí)現(xiàn)本發(fā)明的各種方面的裝置的示意性框圖。
具體實(shí)施方式
A簡(jiǎn)介
圖1是檢查視頻/音頻信號(hào)3的分段3a到3d的內(nèi)容以獲得信號(hào) 的可靠識(shí)別的示例性系統(tǒng)300的示意性框圖。視頻簽名發(fā)生器100獲 得識(shí)別視頻內(nèi)容的一組視頻簽名(SV) 199b到199d并且音頻簽名發(fā) 生器200獲得識(shí)別音頻內(nèi)容的一組音頻簽名(SA) 299a到299d。在 如圖所示的實(shí)例中,視頻和音頻內(nèi)容的各個(gè)簽名對(duì)應(yīng)于視頻/音頻信 號(hào)的分段。在接下來(lái)的幾段中進(jìn)一步討論該具體的實(shí)例,其中視頻/ 音頻信號(hào)的每個(gè)分段傳送一幀視頻內(nèi)容和一段音頻內(nèi)容。視頻/音頻 分段、視頻幀、音頻分段和簽名之間的該具體的對(duì)應(yīng)性僅是作為實(shí)例 呈現(xiàn)的。其他配置是可能的。
圖2是視頻簽名發(fā)生器100的示意性框圖。相異點(diǎn)測(cè)量處理器 120檢查在視頻幀的序列內(nèi)的兩個(gè)視頻幀la, lb的內(nèi)容,并產(chǎn)生表 示全部?jī)蓚€(gè)幀或者兩個(gè)幀的一部分之間的相異點(diǎn)的一個(gè)或多個(gè)測(cè)量的 中間值。如果每個(gè)視頻幀的內(nèi)容由表示離散畫面元素或者像素的強(qiáng)度 的值的陣列表示,例如,中間值可以是多組像素的強(qiáng)度的平均值或者 標(biāo)準(zhǔn)偏差之間的差的陣列。視頻簽名處理器170將散列函數(shù)應(yīng)用于中 間值以產(chǎn)生識(shí)別^見(jiàn)頻幀的內(nèi)容的^L頻簽名(SV) 199b。
圖3是音頻簽名發(fā)生器200的示意性框圖。時(shí)頻表示處理器210 檢查分段序列內(nèi)的音頻分段2b的內(nèi)容,并產(chǎn)生表示分段中的音頻內(nèi) 容的頻譜分量的全部或者一部分的頻語(yǔ)值。如果該分段的音頻內(nèi)容由 表示離散樣本的幅度的值表示,例如,頻譜值可以是通過(guò)塊 (block)時(shí)域到頻域轉(zhuǎn)換產(chǎn)生的時(shí)頻表示內(nèi)的一組系數(shù)。中間值處 理器250檢查多組頻譜值并從每組中頻諉值的強(qiáng)度導(dǎo)出中間值。音頻 簽名處理器270將散列函數(shù)應(yīng)用于該中間值以產(chǎn)生識(shí)別該音頻分段的 內(nèi)容的音頻簽名(SA) 299b。
B.視頻簽名發(fā)生器可以以多種方式實(shí)現(xiàn)視頻簽名發(fā)生器100的組件。優(yōu)選的實(shí)現(xiàn)
產(chǎn)生對(duì)幾乎沒(méi)有或沒(méi)有感知影響的視頻內(nèi)容的修改相對(duì)不敏感的簽 名。如果對(duì)視頻內(nèi)容的修改對(duì)感知的圖像沒(méi)有重要的作用,那么優(yōu)選 地這些修改也對(duì)產(chǎn)生的簽名沒(méi)有重要的作用。在兩個(gè)視頻簽名之間的 差的某些測(cè)量與在從其產(chǎn)生簽名的兩個(gè)內(nèi)容之間的差的測(cè)量相稱。以 下討論幾個(gè)示例性實(shí)現(xiàn)。
以下討論的實(shí)現(xiàn)計(jì)算表示視頻幀之間的相異點(diǎn)的一個(gè)或多個(gè)測(cè) 量的中間值,因?yàn)橄喈慄c(diǎn)測(cè)量的使用增加了產(chǎn)生的簽名對(duì)運(yùn)動(dòng)及原始 內(nèi)容中其他變化的靈敏度,但是消除或者減少了對(duì)隨后的處理的修改 (比如改變亮度或者對(duì)比度的修改、在不同彩色空間之間轉(zhuǎn)換或者應(yīng) 用彩色校正的修改)的靈敏度。
可以對(duì)于—見(jiàn)頻內(nèi)容的任何兩個(gè)幀la、 lb計(jì)算中間值。這兩個(gè)幀 可以是幀序列內(nèi)的相鄰的視頻幀,或者它們可以由一個(gè)或多個(gè)插入幀 彼此分開(kāi)。如果兩個(gè)幀分開(kāi)指定時(shí)間間隔而不是分開(kāi)指定數(shù)目的插入 幀,則對(duì)于這兩個(gè)幀計(jì)算的中間值通常對(duì)由改變^f見(jiàn)頻幀速率的編碼處 理所引起的修改更有抵抗力。
l.相異點(diǎn)測(cè)量處理器
在圖4A到4C中圖示了相異點(diǎn)測(cè)量處理器120的幾個(gè)示例性實(shí) 現(xiàn)。參考圖4A,組件122a形成來(lái)自視頻幀la的一個(gè)或多個(gè)^f象素 組,且組件124a從這些像素組的每一個(gè)提取一個(gè)或多個(gè)特征,并計(jì) 算表示每個(gè)特征的值R。組件122b形成來(lái)自視頻幀lb的一個(gè)或多個(gè) 像素組,且組件124b從這些像素組的每一個(gè)提取一個(gè)或多個(gè)特征, 并計(jì)算表示每個(gè)特征的值R。組件126計(jì)算表示在兩個(gè)^L頻幀la, lb中對(duì)于相應(yīng)的特征和相應(yīng)的像素組的值R之間的相異點(diǎn)測(cè)量的中 間值Q。
a)像素組形成
組件122a和122b可以以基本上可要求的任意方式形成像素 組。以下討論幾個(gè)選擇。如果需要,用于產(chǎn)生視頻簽名的視頻幀中的 信息可以僅限于全部圖像的一部分以避免由將信箱(letterbox)或者
14圖形添加到圖像的邊緣或者角的任意處理產(chǎn)生的變化。這可以以多種 方式實(shí)現(xiàn),比如通過(guò)在特征抽取之前裁剪圖像、通過(guò)在計(jì)算表示提取
的特征的值R的陣列之后裁剪它們、或通過(guò)裁剪根據(jù)值R計(jì)算的相 異值的陣列。優(yōu)選地,這通過(guò)在特征抽取之前裁剪圖像來(lái)實(shí)現(xiàn)。
對(duì)于比如電視的視頻應(yīng)用,適當(dāng)?shù)牟眉暨x擇圖像的中央部分以 使得插入在接近圖像邊緣的視頻內(nèi)容中的任何標(biāo)識(shí)或其它圖形對(duì)象不 影響提取的特征。裁剪還可以消除由于逐行掃描和隔行掃描格式之間 的轉(zhuǎn)換和高清晰度(HD)和標(biāo)準(zhǔn)清晰度(SD)格式之間的轉(zhuǎn)換而對(duì) 圖像進(jìn)行的修改。在下面段落中討論對(duì)于一個(gè)具體的HD到SD格式 轉(zhuǎn)換的裁剪。
如果具有1080 x 1920像素分辨率的HD格式的原始視頻內(nèi)容被 轉(zhuǎn)換為具有480x640像素分辨率的SD格式,例如,可以裁剪原始 圖像以選擇保留在轉(zhuǎn)換后圖像中的原始圖像的中央部分。適當(dāng)?shù)牟眉?從原始HD格式圖像的左手邊緣去除240個(gè)像素,且從右手邊緣去除 240個(gè)像素,以獲得具有與SD格式圖像相同縱橫比的具有1080 x 1440像素分辨率的圖像。可以調(diào)整裁剪的區(qū)域以去除圖像的附加區(qū) 域,可以以如上所述的標(biāo)識(shí)或圖形對(duì)象《務(wù)改該附加區(qū)域。
時(shí)可能發(fā)生的修改的靈敏度。例如,在電視應(yīng)用中,可以將圖像下采 樣到120 x 160像素分辨率,這對(duì)于HD和SD格式,以及對(duì)于逐行 掃描和隔行掃描格式是方便的選擇??梢酝ㄟ^(guò)檢查與視頻內(nèi)容一起傳 送的參數(shù)或者其他元數(shù)據(jù)以確定以視頻幀傳送的圖像的水平和垂直分 辨率,響應(yīng)于這些分辨率選擇因數(shù),和以等于該因數(shù)的量下采樣圖 像,來(lái)實(shí)現(xiàn)該下采樣。對(duì)于這里討論的實(shí)例,對(duì)于裁剪的HD格式圖 像選擇的因數(shù)等于9,且對(duì)于SD格式圖像選擇的因數(shù)等于4。
例如,假定原始視頻信號(hào)的內(nèi)容是HD格式的,具有1080 x 1920 # 素分辨率。如上所述,可以將該內(nèi)容裁剪為具有1080 x 1440 像素分辨率的圖像,且然后以因數(shù)9將其下采樣為120 x 160像素的 分辨率??梢詮脑摰头直媛蕡D像提取特征。進(jìn)一步假定原始視頻信號(hào)被轉(zhuǎn)換為具有480 x 640像素分辨率的SD格式。該轉(zhuǎn)換的圖像可以 被以因數(shù)4下采樣到120 x 160像素的分辨率,這允許從轉(zhuǎn)換的信號(hào) 提取出與對(duì)于原始信號(hào)所提取的基本上相同的特征。相同的下采樣可 用于適應(yīng)從SD到HD格式的轉(zhuǎn)換和逐行掃描與隔行掃描格式之間的 轉(zhuǎn)換。如果使用適當(dāng)?shù)南虏蓸?,特征提取處理和隨后的簽名產(chǎn)生處理 對(duì)根據(jù)格式之間的轉(zhuǎn)換發(fā)生的修改不敏感。如果視頻信號(hào)以其中在兩個(gè)場(chǎng)中布置視頻幀的隔行掃描格式傳 送內(nèi)容,在提取特征之前其可以被轉(zhuǎn)換為逐行掃描格式。做為選擇 的,可以通過(guò)僅從隔行掃描幀中僅一個(gè)場(chǎng)提取特征來(lái)實(shí)現(xiàn)掃描格式的 選擇的更大的獨(dú)立性。例如,可以僅從幀中的第一個(gè)場(chǎng)或者僅從幀中 的第二個(gè)場(chǎng)提取出特征。將忽略在其他場(chǎng)中的視頻內(nèi)容。該處理避免 在提取特征之前轉(zhuǎn)換成逐行掃描格式的需要。在一個(gè)實(shí)現(xiàn)中,在具有120 x 160像素分辨率的下采樣圖像中形 成像素組。參考圖5A,例如,像素組是大小均勻的且是GX個(gè)像素 寬和GY個(gè)像素高。選擇組的水平尺寸GX以使得K GX=RH,且 選擇組的垂直尺寸GY以使得L . GY=RV,其中RH和RV分別是 每個(gè)視頻幀中圖像的水平和垂直尺寸。值的一個(gè)適當(dāng)?shù)倪x擇是 GX=8, GY=8, K=15且L=20。這描述下采樣圖像中組的15 x 20的 陣列,每個(gè)組具有8x8像素的尺寸。可以通過(guò)在具有響應(yīng)于視頻幀中的圖像格式而調(diào)整的尺寸的原 始圖像中形成像素組來(lái)獲得類似的結(jié)果。繼續(xù)上述實(shí)例,將HD格式 圖像裁剪為1080 x 1440像素的尺寸,且在裁剪的圖像中形成具有72 x72的尺寸的像素組。這產(chǎn)生像素組的15x20的陣列。對(duì)于SD格 式的圖像,在具有32 x 32像素的尺寸的原始圖像中形成像素組,這 產(chǎn)生像素組的15x20的陣列。圖5B中示出大小不均勻的像素組。6x4的較小的像素組陣列 構(gòu)成圖像的中央部分。 一組較大的像素組包圍中央部分中的組。這個(gè) 類型的布置可以有益地用于這樣的視頻幀信息在每個(gè)圖像的中央部 分中的內(nèi)容在感知上更重要。像素組可以實(shí)質(zhì)上是任何尺寸或者形狀的。例如,圖5B所示的 圖像的中央部分由以較寬的線所繪的矩形包圍,其可以構(gòu)成單個(gè)像素 組且圖像的剩余部分可以構(gòu)成另一像素組。
優(yōu)選地,將像素低通濾波以對(duì)由作為視頻內(nèi)容修改的結(jié)果可能 發(fā)生的像素組排列中的任意變化所引起的改變降低靈敏度。在像素組 形成處理期間可以執(zhí)行該濾波一次或多次。例如,可以在上述的下采 樣操作之前,在下采樣操作之后立即進(jìn)行,和/或在像素組的形成之 后立即對(duì)像素進(jìn)行低通濾波。應(yīng)該選擇濾波器的尺寸以平衡一方面對(duì) 于排列的變化的抵抗力和另一方面對(duì)于視頻內(nèi)容的變化的靈敏度之間 的折中。較大的濾波器增加對(duì)于排列的變化的抵抗力。較小的濾波器 增加對(duì)于視頻內(nèi)容的變化的靈敏度。如果將低通濾波器應(yīng)用于上述的 120 x 160的下采樣圖像,經(jīng)驗(yàn)研究表明可以通過(guò)使用所有濾波器抽 頭系數(shù)等于1的3x3二維濾波器來(lái)獲得好的結(jié)果。
以下特征提取的討論涉及圖5A所示的示例性分組。
b)特征提取
組件124a和124b從每個(gè)像素組提取一個(gè)或多個(gè)特征并計(jì)算表 示每個(gè)特征的值R。
如果每個(gè)視頻幀傳送單色圖像,可以從表示各個(gè)像素強(qiáng)度的數(shù) 據(jù)e提取特征。例如,如果每個(gè)視頻幀傳送包括由紅、綠和藍(lán) (RGB)值表示的像素的彩色圖像,可以從表示每個(gè)紅、綠和藍(lán)像 素分量的數(shù)據(jù)e提取單獨(dú)的特征。做為選擇地,可以從表示像素亮度 或者輝度(從表示紅、綠和藍(lán)分量的數(shù)據(jù)導(dǎo)出的)的數(shù)據(jù)e提取出特 征。
可以提取的一個(gè)特征是平均像素強(qiáng)度。可以根據(jù)以下表達(dá)式獲 得表示該特征的值RAVE:
^^(^) = 7^7^ S £ e(") fof0"<《;0S/<Z (1)
其中,RAVE /) -像素組/)中的像素的平均強(qiáng)度; e (" 乂) -組內(nèi)的像素(/, 乂)的強(qiáng)度;
17GX-以像素?cái)?shù)目表示的像素組的寬度; GY-以像素?cái)?shù)目表示的像素組的高度; K二以組的數(shù)目表示的圖像的水平分辨率,且 L-以組的數(shù)目表示的圖像的垂直分辨率。
可以提取的另一特征是像素強(qiáng)度的標(biāo)準(zhǔn)偏差。做為選擇地,可 以使用標(biāo)準(zhǔn)偏差的方差或者平方。可以根據(jù)以下表達(dá)式獲得表示標(biāo)準(zhǔn) 偏差的值RsD:
其中RSD/)=像素組/)中的像素強(qiáng)度的標(biāo)準(zhǔn)偏差。 可以提取的另一特征是像素強(qiáng)度的直方圖。通過(guò)對(duì)于在可能強(qiáng)
度范圍內(nèi)的每個(gè)強(qiáng)度對(duì)具有特定的強(qiáng)度的像素的數(shù)目計(jì)數(shù),可以獲得
表示該特征的一組值Rhist。
又一個(gè)特征是頻鐠的幅度和/或相位。通過(guò)將二維傅里葉變換應(yīng)
用于像素強(qiáng)度的組可以獲得表示頻譜的一組值rspectrum。
沒(méi)有特定的特征對(duì)本發(fā)明是關(guān)鍵的,但是,經(jīng)驗(yàn)結(jié)果表明,像 素強(qiáng)度的平均值和標(biāo)準(zhǔn)偏差對(duì)于許多應(yīng)用是好的選擇。
如果需要,對(duì)于后續(xù)處理可以按組排列表示提取的特征的值
R。例如,根據(jù)頻率或者相位,由一組值rspectrum表示的頻譜特征
可以纟皮組織成組。
此外,可以從計(jì)算出的值R提取出特征。例如,可以計(jì)算平均 強(qiáng)度RAVE或者頻鐠值Rspectrum的標(biāo)準(zhǔn)偏差。 c)相異點(diǎn)測(cè)量計(jì)算
組件126可以以多種方式計(jì)算表示相異點(diǎn)測(cè)量E的中間值Q。 測(cè)量的選擇在原則上對(duì)本發(fā)明不是關(guān)鍵的,但是取決于由組件124a 和124b提取的特征,某些測(cè)量的性能更好。可能需要經(jīng)驗(yàn)研究來(lái)做 出適當(dāng)?shù)倪x擇;然而,已經(jīng)發(fā)現(xiàn)以下將要描述的兩個(gè)測(cè)量在很寬的應(yīng) 用范圍內(nèi)給出好的結(jié)果。
一個(gè)相異點(diǎn)測(cè)量是表示在兩個(gè)不同幀中相應(yīng)的像素組的相應(yīng)特
征的值R之間的差異的絕對(duì)值。可以根據(jù)以下表達(dá)式計(jì)算該測(cè)量,,,/2) = | ^0M,/;) —W(*,/,/2)| for 02*</:; 02/<丄 (3a)
其中E U, /, //, /2)=像素組(A:, /)中幀//和/2之間的相 異點(diǎn);且
R (A:, /, a:)=表示幀x中像素組(A:, /)的所提取特征的值。 如果所提取的特征由具有兩個(gè)或多個(gè)元素的值表示,例如,表 示頻鐠特征的Rspectrum表示幅度,可以根據(jù)表示對(duì)于在兩個(gè)不同幀 中相應(yīng)的組的相應(yīng)特征的值R中元素之間的差的絕對(duì)值之和來(lái)計(jì)算 相異點(diǎn)測(cè)量??梢愿鶕?jù)以下表達(dá)式計(jì)算該測(cè)量
£"(t/,y;,/2) = !E| W(^M,z,/i) —A(^/,z,/2)| for 0^A:<A:; 0^/<丄 (3b)
其中R (A:, /, z, x)=幀x中像素組(A:, /)的值R中的元素Z。
如果需要,可以根據(jù)如下的類似表達(dá)式計(jì)算幀中兩個(gè)或多個(gè)像 素組的相異點(diǎn)的復(fù)合測(cè)量
五a/2卜zsi;i豐"乂)-豐",/2)1 (3c)
其中E (//, =在幀/7和/2之間的相異點(diǎn)的復(fù)合測(cè)量;且
選擇A:和/之和的極限來(lái)包括所需的組。該特定的實(shí)例假定值R 具有多于一個(gè)元素。如果值僅具有一個(gè)元素,省略對(duì)z的求和。
另一相異點(diǎn)測(cè)量是表示在兩個(gè)不同幀中相應(yīng)的像素組的相應(yīng)特 征的值R之間的差的平方??梢愿鶕?jù)以下表達(dá)式計(jì)算該測(cè)量
五(^/,乂,/2) = (^(^,,)一W(f ,/2))2 for 0SA:〈/i:; 0《/<£ (4a)
如果提取的特征由具有兩個(gè)或多個(gè)元素的值表示,可以根據(jù)表 示兩個(gè)不同幀中相應(yīng)像素組的相應(yīng)特征的值及中元素之間的差的平 方和計(jì)算相異點(diǎn)測(cè)量??梢愿鶕?jù)以下表達(dá)式計(jì)算該測(cè)量
五(、人y;,/2)-2](W(A,/,z,y;) —W(A:,/,z,/2))2 for 0SA:〈《;0S/<£ (4b)
如果需要,可以根據(jù)如下表達(dá)式計(jì)算幀中兩個(gè)或多個(gè)像素組的 相異點(diǎn)的復(fù)合測(cè)量
/2) = Hi;(,,")-豐".,2))2 (4c)其中選擇A:和/之和的限制以包括所需的組。該特定的實(shí)例假定值及 具有多于一個(gè)元素。如果這些值僅具有一個(gè)元素,則省略對(duì)z求和。
在一個(gè)實(shí)現(xiàn)中,設(shè)置中間值Q等于計(jì)算的相異點(diǎn)的測(cè)量E。以 下討論備選方案。
d)備選實(shí)現(xiàn)
如果在平均像素強(qiáng)度之間的差僅是用于生成簽名的相異點(diǎn)測(cè) 量,則可以如圖4B和4C所示實(shí)現(xiàn)相異點(diǎn)測(cè)量處理器120。在這些實(shí) 現(xiàn)中,從視頻幀la和lb提取出像素強(qiáng)度或者平均強(qiáng)度,計(jì)算提取的 特征之間的相異點(diǎn)測(cè)量并且將該相異點(diǎn)測(cè)量分成組以用于隨后的簽名 生成。
在圖4B和4C所示的示例性實(shí)現(xiàn)中,視頻內(nèi)容的幀由離散像素 的陣列表示,相異點(diǎn)測(cè)量處理器120通過(guò)計(jì)算在兩個(gè)視頻幀中相應(yīng)的 像素之間的差,獲得差圖像,每個(gè)差圖像包括差分元素A的陣列。例 如,如果每個(gè)視頻幀傳送包括由紅、綠和藍(lán)(RGB)值表示的像素 的彩色圖像,則可以根據(jù)在相應(yīng)的像素的各個(gè)紅、綠和藍(lán)色值之間的 差計(jì)算差分元素。優(yōu)選地,根據(jù)從紅、綠和藍(lán)值導(dǎo)出的相應(yīng)像素的亮 度或者輝度之間的絕對(duì)差計(jì)算差分元素。如果每個(gè)視頻幀傳送單色圖 像,則可以根據(jù)相應(yīng)像素的強(qiáng)度之間的差計(jì)算差分元素。
如果需要,差分元素可以僅限于全部圖像的一部分以避免由添 加信箱或者圖形到圖像的邊緣或者角部的任何處理所產(chǎn)生的變化。這 可以通過(guò)在計(jì)算差分元素之前裁剪圖像,或通過(guò)在已經(jīng)計(jì)算差分元素 的陣列之后裁剪差分元素的陣列來(lái)實(shí)現(xiàn)。
還可以如上所述地改變差圖# 的分辨率以用于像素組形成。這 可以通過(guò)在計(jì)算差分元素之前修改視頻幀中的數(shù)據(jù),或通過(guò)在已經(jīng)計(jì) 算差分元素之后修改差分元素來(lái)進(jìn)行。
參考如圖4C所示的實(shí)現(xiàn),組件123計(jì)算在視頻幀la和視頻幀 lb中的相應(yīng)的像素值之間的差,且組件125從像素差的絕對(duì)值獲得 一組差分元素A。組件127執(zhí)行裁剪和下采樣。裁剪操作通過(guò)去除差 圖像的接近頂部、底部、右側(cè)和左側(cè)邊緣的差分元素,而僅保留差圖像的中心部分。下采樣操作對(duì)裁剪的差圖像進(jìn)行下采樣以產(chǎn)生具有
120 x 160像素的指定尺寸的差分元素的陣列,而無(wú)論輸入視頻幀的 格式如何。該特定的尺寸僅是示例性的。組件128將差分元素A形成 為組,并計(jì)算每個(gè)組中差分元素的平均值。如果需要,可以如上所述 地組合下采樣和組形成操作。
可以以其他次序執(zhí)行計(jì)算差值、下采樣、裁剪和形成組的操 作。例如,可以通過(guò)首先下采樣兩個(gè)視頻幀的內(nèi)容、裁剪兩個(gè)下采樣 的圖像、形成裁剪的圖像的像素組、計(jì)算每組中像素的平均強(qiáng)度、以 及隨后計(jì)算兩個(gè)圖像中相應(yīng)的平均強(qiáng)度之間的差,來(lái)計(jì)算差分元素 △。
參考圖4C所示的組形成操作128,將差分元素A分組到差圖像 的多個(gè)區(qū)域中,其中每個(gè)區(qū)域?yàn)镚X個(gè)元素寬和GY個(gè)元素高。通過(guò) 計(jì)算每個(gè)區(qū)域中元素的平均強(qiáng)度,從差分元素A的強(qiáng)度導(dǎo)出中間值 Q。這些中間值構(gòu)成分辨率為KxL個(gè)中間值的差圖像的低分辨率表 示。這類似于上述的如圖5A和5B所示的像素組的形成。以下段落 中描述的示例性實(shí)現(xiàn)使用低分辨率圖像,其中的像素以與圖5A所示 的像素組同樣的方式布置。可以根據(jù)以下表達(dá)式獲得中間值<formula>formula see original document page 21</formula>
其中Q (A:, /)=低分辨率圖像中的中間值; GX-以元素的數(shù)目表示的差分元素組的寬度; GY-以元素的數(shù)目表示的差分元素組的高度; K-該低分辨率圖像的水平分辨率; L-該低分辨率圖像的垂直分辨率;和 △ (/, _/ )=差分元素。
選擇組的水平尺寸GX以使得K . GX = RH,且選擇組的垂直 尺寸GY以使得L GY = RV,其中RH和RV分別是該差圖像的水 平和垂直分辨率。對(duì)于上述在具有120 x 160分辨率的下采樣的差圖 像中產(chǎn)生元素的示例性實(shí)現(xiàn),用于組的一個(gè)適當(dāng)?shù)某叽缡?x8像 素,這提供具有120/8 x 160/8 = 15 x 20的分辨率的低分辨率圖像。通過(guò)使用低分辨率中間值Q來(lái)產(chǎn)生視頻簽名而不是使用高分辨率差分 元素,所產(chǎn)生的視頻簽名對(duì)改變視頻信號(hào)內(nèi)容的細(xì)節(jié)但是保持平均強(qiáng) 度的處理較不敏感。
2.視頻簽名處理器
在以下段落中描述的視頻簽名處理器170的實(shí)現(xiàn)從中間值Q的 KxL的陣列(從如圖5A所示的值R的陣列或從如上所述與如圖4C 所示的處理器結(jié)合的差分元素A的KxL的陣列獲得的)產(chǎn)生視頻簽 名。
視頻簽名處理器170將散列函數(shù)應(yīng)用于中間值Q的KxL的陣 列以產(chǎn)生一組N個(gè)散列位。這些散列位構(gòu)成識(shí)別視頻幀的內(nèi)容的視 頻簽名(SV)。優(yōu)選地,散列函數(shù)對(duì)中間值的變化相對(duì)不敏感但是 可能對(duì)可以使用的任何散列密鑰的變化敏感。不像輸出隨著甚至其輸 入的一個(gè)位的變化而顯著地變化的典型密碼散列函數(shù),用于本申請(qǐng)的 優(yōu)選的散列函數(shù)提供對(duì)于輸入中間值的小變化僅發(fā)生小變化的輸出。 這允許產(chǎn)生的視頻簽名對(duì)于視頻信號(hào)內(nèi)容的小變化僅略微地變化。
一個(gè)適當(dāng)?shù)纳⒘泻瘮?shù)使用一組N個(gè)基矩陣來(lái)產(chǎn)生一組N個(gè)散列 位?;仃嘝j到Pjv是隨機(jī)取值的矩陣元素的KxL陣列??梢愿鶕?jù) 以下表達(dá)式產(chǎn)生每個(gè)基矩陣Pn的矩陣元素pn :
p,'(A:,/)-RGN-Afor 1S"A^, 0"< AT, 02/<丄 (6)
其中pn U, /) -基矩陣Pn的矩陣元素U,/); RNG-隨機(jī)數(shù)發(fā)生器的輸出;且
》"-對(duì)于每個(gè)中間矩陣由RNG產(chǎn)生的數(shù)字的均值。發(fā)生器RNG 產(chǎn)生在范圍[O, 1中均勻分布的隨機(jī)或者偽隨機(jī)值??梢杂缮⒘忻荑€ 初始化發(fā)生器的初始狀態(tài),由此允許更加密碼地保證散列函數(shù)和產(chǎn)生 的視頻簽名。
通過(guò)首先將中間值Q投影到N個(gè)基矩陣的每個(gè)上獲得該組N個(gè) 散列位,這可以表示為
AT—險(xiǎn)
侖=0 r=&
其中Hf中間值到基矩陣Pn上的投影。隨后通過(guò)比較每個(gè)投影與全部投影的中值,并且如果投影等于 或者超過(guò)閾值則將散列位設(shè)置為第 一值,和如果投影小于閾值則將散 列位設(shè)置為第二值來(lái)獲得散列位。這可以被表示為 <formula>formula see original document page 23</formula>F -全部投影Hn的中值。 C.音頻簽名發(fā)生器
可以以多種方式實(shí)現(xiàn)音頻簽名發(fā)生器200的組件。優(yōu)選的實(shí)現(xiàn) 產(chǎn)生對(duì)幾乎沒(méi)有或沒(méi)有感知影響的音頻內(nèi)容的修改相對(duì)不敏感的簽 名。如果對(duì)音頻內(nèi)容的修改對(duì)感知的聲音沒(méi)有重要的作用,那么優(yōu)選 地這些修改也對(duì)產(chǎn)生的簽名沒(méi)有重要的作用。兩個(gè)音頻簽名之間的差 異的某些測(cè)量與在產(chǎn)生簽名的兩個(gè)內(nèi)容之間的差異的測(cè)量相稱。以下 討論幾個(gè)適當(dāng)?shù)膶?shí)現(xiàn)。
l.時(shí)頻表示處理器
在由表示離散樣本的幅度的值表示音頻信號(hào)的分段的示例性實(shí) 現(xiàn)中,時(shí)頻表示處理器210從通過(guò)將時(shí)域到頻域轉(zhuǎn)換應(yīng)用到每個(gè)分段 內(nèi)音頻樣本的重疊塊的序列而產(chǎn)生的變換系數(shù)荻得一組頻譜值。如果 需要,頻譜值可以限于音頻內(nèi)容的全部帶寬的僅一部分以避免由改變 音頻內(nèi)容的頻譜形狀的任何處理產(chǎn)生的變化。例如,可以通過(guò)排除那 些由表示最低頻率和最高頻率譜分量的變換產(chǎn)生的變換系數(shù),或通過(guò) 在應(yīng)用變換之前對(duì)音頻內(nèi)容進(jìn)行帶通濾波,來(lái)獲得受限的表示。
在圖6中示意性地圖示了由時(shí)頻表示處理器210的示例性實(shí)現(xiàn) 執(zhí)行的操作。在該實(shí)現(xiàn)中,將音頻內(nèi)容2a的分段劃分為r個(gè)重疊塊 BLOCK-l到BLOCK-T的序列。每個(gè)分段的長(zhǎng)度是個(gè)樣本且每 個(gè)塊的長(zhǎng)度是丄J5個(gè)樣本。相鄰的塊的開(kāi)始之間的偏移是被稱為塊步 長(zhǎng)的多個(gè)樣本Z5。將塊變換應(yīng)用于每個(gè)塊的樣本以產(chǎn)生一組頻譜 值。圖6圖示由變換20將一個(gè)塊BLOCK-2變換為一組頻鐠值25a 的變換操作。在該特定的實(shí)現(xiàn)中,在分段2a中的所有r個(gè)塊已經(jīng)被轉(zhuǎn)換為各個(gè)組的頻譜值之后,處理在下一分段2b的塊中繼續(xù)。相鄰 的分段的開(kāi)始之間的偏移是被稱為分段步長(zhǎng)的多個(gè)樣本ZS1。
時(shí)頻表示的時(shí)間分辨率是分段長(zhǎng)度、塊長(zhǎng)度和塊步長(zhǎng)的函數(shù), 這可以纟皮如下表示
其中T-每個(gè)分段中的時(shí)間分辨率或者塊的數(shù)目; LS-以樣本為單位的每個(gè)分段的長(zhǎng)度; LB-以樣本為單位的每個(gè)塊的長(zhǎng)度;且 ZB-塊步長(zhǎng)。
通常通過(guò)塊的長(zhǎng)度或者用于產(chǎn)生頻鐠值的變換的長(zhǎng)度確定頻率 分辨率。
在以下討論的同步視頻和音頻內(nèi)容的一個(gè)應(yīng)用中,音頻內(nèi)容被 分為等于三個(gè)視頻幀的長(zhǎng)度的分段。對(duì)于某些電視應(yīng)用,三個(gè)視頻幀 跨越的時(shí)間間隔大約是100毫秒。如果音頻采樣速率是48kHz,那么 音頻分段長(zhǎng)度是4,800個(gè)樣本。選擇塊長(zhǎng)度為256個(gè)樣本且選擇塊步 長(zhǎng)為32個(gè)樣本。對(duì)于該實(shí)現(xiàn),每個(gè)音頻分段具有T=142個(gè)塊;因 此,時(shí)頻表示的時(shí)間分辨率等于142。將256點(diǎn)的快速傅里葉變換 (FFT)應(yīng)用于樣本的每個(gè)塊以產(chǎn)生129個(gè)頻鐠值;因此,時(shí)頻表示 的頻率分辨率等于129。將分段步長(zhǎng)選擇為512個(gè)樣本或者大約10.7 毫秒。
2.中間值處理器
中間值處理器250檢查頻語(yǔ)值的組并從每個(gè)組中的頻語(yǔ)值的強(qiáng) 度導(dǎo)出中間值。
在示例性實(shí)現(xiàn)中,將頻i普值S分組到其中每個(gè)區(qū)域是GF個(gè)頻 譜值寬和GT個(gè)塊長(zhǎng)的時(shí)間-頻率區(qū)域中。通過(guò)計(jì)算每個(gè)區(qū)域中頻譜 值的平均強(qiáng)度,從頻i普值的強(qiáng)度導(dǎo)出中間值Q。這些中間值構(gòu)成具有 KxL個(gè)中間值的分辨率的低分辨率時(shí)頻表示。這在圖7中示意性地 圖示出。可以根據(jù)以下表達(dá)式獲得中間值,=7fWZ Z外,力forO"《0"〈Z (9)
其中Q (A, /)=以低分辨率表示的中間值; GF-以值的數(shù)目表示的頻譜值組的寬度; GT-以塊的數(shù)目表示的頻譜值組的長(zhǎng)度; K—氐分辨率表示的頻率分辨率; L-低分辨率表示的時(shí)間分辨率;和 S (/, y) -頻語(yǔ)值。
選擇組的尺寸GF以使得K GF = RT,且選擇組的尺寸GT以 使得L GT = RT,其中RF和RT分別是低分辨率表示的頻率和時(shí) 間分辨率。對(duì)于上述和以下討論的示例性實(shí)現(xiàn),組的一個(gè)適當(dāng)?shù)某叽?是GF = 6且GT = 14,這提供129/6 x 142/14 20 x 10個(gè)中間值的低 分辨率表示。通過(guò)使用低分辨率中間值Q而不是高分辨率時(shí)頻表示 來(lái)產(chǎn)生音頻簽名,所產(chǎn)生的音頻簽名對(duì)改變頻譜內(nèi)容的細(xì)節(jié)但是保留 平均頻鐠級(jí)別的處理較不敏感。
可以以其他方式執(zhí)行計(jì)算時(shí)頻表示和中間值的操作。例如,可 以通過(guò)減少塊長(zhǎng)度和轉(zhuǎn)換長(zhǎng)度并增加頻譜值組的長(zhǎng)度GT以獲得相同 的時(shí)間分辨率,來(lái)獲得具有較低頻分辨率的一組頻譜值。如果需要, 在頻譜兩端可以改變組的寬度GF。如果高頻頻譜分量對(duì)于產(chǎn)生的簽 名被認(rèn)為比較低頻分量較不重要,則可以通過(guò)對(duì)于較高頻增加組的寬 度來(lái)實(shí)現(xiàn)該相對(duì)的重要性。
3.音頻簽名處理器
音頻簽名處理器270將散列函數(shù)應(yīng)用于中間值Q的KxL陣列 以產(chǎn)生一組N個(gè)散列位。這些散列位構(gòu)成識(shí)別音頻分段的內(nèi)容的音 頻簽名(SA)。這可以以與上述用于視頻簽名的相同方式進(jìn)行。
D.應(yīng)用
上述討論的視頻和音頻簽名發(fā)生器可以用于多種應(yīng)用,包括恢 復(fù)在視頻和音頻內(nèi)容流之間的丟失的同步的應(yīng)用和檢測(cè)視頻和音頻內(nèi) 容的副本的應(yīng)用。如下描述用于這些應(yīng)用的示例性實(shí)現(xiàn)。1.視頻/音頻同步
通常當(dāng)記錄或者創(chuàng)建視頻和音頻內(nèi)容流時(shí)將視頻和音頻內(nèi)容流 彼此同步,但是在隨后的處理期間同步可能丟失。例如,在電視廣播 系統(tǒng)中,通常在將同步的視頻和音頻流裝配在一起用于傳輸之前,將 它們分成兩個(gè)不同路徑以用于信號(hào)處理。兩個(gè)路徑中的不同處理延遲 可能引起失去同步??梢詫⒘魇謩?dòng)地重新同步但是這是令人厭煩的且 易于造成人為誤差。上述簽名發(fā)生器可用于自動(dòng)地恢復(fù)同步。例如, 在廣播系統(tǒng)中,可以在系統(tǒng)中任一點(diǎn)恢復(fù)同步,包括在發(fā)射器恰好在 廣播之前或在接收器恰好在收聽(tīng)之前。
類似上述的技術(shù)用于在已知要將視頻/音頻流同步時(shí)從視頻和音 頻內(nèi)容流產(chǎn)生簽名。也捕捉指定在這些簽名下面的視頻和音頻內(nèi)容之 間的對(duì)準(zhǔn)的對(duì)準(zhǔn)信息。將這些視頻和音頻簽名和對(duì)準(zhǔn)信息提供給負(fù)責(zé) 恢復(fù)兩個(gè)流之間的同步的"重同步裝置"。該重同步裝置在已經(jīng)處理 視頻和音頻內(nèi)容流且已經(jīng)失去彼此的同步之后接收這些流,與當(dāng)前對(duì) 準(zhǔn)信息一起產(chǎn)生新的簽名,將新產(chǎn)生的簽名和當(dāng)前對(duì)準(zhǔn)信息與原始簽 名和對(duì)準(zhǔn)信息相關(guān),并調(diào)整當(dāng)前對(duì)準(zhǔn)直到實(shí)現(xiàn)適當(dāng)?shù)耐?。以下更?細(xì)地描述進(jìn)行上述處理的一個(gè)方式。
a)示例性實(shí)現(xiàn)概述
圖8是根據(jù)同步的視頻和音頻流產(chǎn)生視頻和音頻簽名和對(duì)準(zhǔn)信 息的捕捉裝置350的示意性框圖。在這里同步的視頻和音頻內(nèi)容和流 被稱為基準(zhǔn)內(nèi)容和基準(zhǔn)流。從基準(zhǔn)流獲得的簽名和對(duì)準(zhǔn)信息在這里分 別被稱為基準(zhǔn)簽名和基準(zhǔn)對(duì)準(zhǔn)信息。由視頻簽名發(fā)生器100獲得視頻 簽名,且將其沿著路徑190傳遞用于隨后由重同步裝置使用。由音頻 簽名發(fā)生器200獲得音頻簽名,且將其沿著路徑290傳遞用于隨后由 重同步裝置使用??梢杂糜诋a(chǎn)生視頻和音頻簽名的技術(shù)是如上所述 的。
捕捉裝置350還捕捉可以以多種方式表示的對(duì)準(zhǔn)信息。例如, 可以通過(guò)將特定的視頻簽名與音頻簽名相關(guān)聯(lián)來(lái)暗示對(duì)準(zhǔn)信息,其中 從基本上同時(shí)開(kāi)始的視頻內(nèi)容的幀和音頻內(nèi)容的分段產(chǎn)生該兩個(gè)簽名。在此背景下,如果人類觀察者難以辨認(rèn)哪個(gè)內(nèi)容在另一個(gè)之前, 則視頻和音頻內(nèi)容的開(kāi)始時(shí)間被認(rèn)為基本上相同。作為另一實(shí)例,對(duì) 準(zhǔn)信息可以由與視頻和音頻簽名相關(guān)聯(lián)的時(shí)間戳或者時(shí)移表示,并指
定基礎(chǔ)(underlying)視頻內(nèi)容和音頻內(nèi)容的相對(duì)時(shí)序。如果提供顯 式的對(duì)準(zhǔn)信息,則將其沿著路徑3卯傳遞以用于隨后由重同步裝置使 用。對(duì)準(zhǔn)信息的具體類型不是關(guān)鍵的。以下討論的實(shí)例與對(duì)準(zhǔn)信息是 隱式的假定一致。可以容易地改變這些實(shí)例以說(shuō)明可能伴隨簽名的任 意顯式的時(shí)間戳或者時(shí)移。
圖9是可以用于恢復(fù)視頻和音頻內(nèi)容流之間的同步的重同步裝 置400的示意性框圖。該重同步裝置400包括根據(jù)從路徑33接收到 的視頻和音頻內(nèi)容流產(chǎn)生視頻和音頻簽名的視頻簽名發(fā)生器100和音 頻簽名發(fā)生器200。這些流的內(nèi)容可能已經(jīng)由多種處理有意和無(wú)意地 修改,且可能不適當(dāng)?shù)乇舜送?。這些視頻和音頻內(nèi)容和流在這里4皮 稱為當(dāng)前內(nèi)容和當(dāng)前流。從當(dāng)前流產(chǎn)生的簽名在這里被稱為當(dāng)前簽 名。
內(nèi)容延遲計(jì)算器410比較當(dāng)前視頻簽名與基準(zhǔn)視頻簽名,并估 計(jì)基準(zhǔn)視頻內(nèi)容和當(dāng)前視頻內(nèi)容的被視為相應(yīng)的幀的基礎(chǔ)幀 (underlying frame)之間的相對(duì)時(shí)序差異。內(nèi)容延遲計(jì)算器420比 較當(dāng)前音頻簽名與基準(zhǔn)音頻簽名,并估計(jì)基準(zhǔn)音頻內(nèi)容和當(dāng)前音頻內(nèi) 容的被視為相應(yīng)的分段的基礎(chǔ)分段(underlying segment)之間的相 對(duì)時(shí)序差異。對(duì)于比如廣播的應(yīng)用,基準(zhǔn)簽名和對(duì)準(zhǔn)信息應(yīng)該在當(dāng)前 流到達(dá)之前被傳送到內(nèi)容延遲計(jì)算器,以使得足夠的信息可以用來(lái)實(shí) 時(shí)恢復(fù)同步。
相對(duì)延遲計(jì)算器430使用這些相對(duì)時(shí)序差異來(lái)計(jì)算調(diào)整任一當(dāng) 前流或者兩個(gè)當(dāng)前流以實(shí)現(xiàn)適當(dāng)?shù)耐剿枰难舆t量。將表示該延 遲的信息沿著路徑4卯傳遞以由其他設(shè)備使用來(lái)實(shí)現(xiàn)該延遲。例如, 假定相對(duì)視頻時(shí)序差異指示基準(zhǔn)視頻幀超前相應(yīng)當(dāng)前視頻幀四秒,且 相對(duì)音頻時(shí)序差異指示基準(zhǔn)音頻分段超前相應(yīng)音頻分段五秒。相對(duì)延 遲計(jì)算器430可以對(duì)于當(dāng)前視頻流計(jì)算延遲量等于一秒以實(shí)現(xiàn)適當(dāng)?shù)?br>
27同步。
b)內(nèi)容延遲計(jì)算器
如上所述的兩個(gè)內(nèi)容延遲計(jì)算器比較基準(zhǔn)簽名和當(dāng)前簽名的序 列并估計(jì)在基礎(chǔ)視頻/音頻內(nèi)容之間的相對(duì)時(shí)序差異??梢砸远喾N方
式實(shí)現(xiàn)這些計(jì)算器。以下段落描述使用漢明距離(Hamming distance)函數(shù)的一個(gè)實(shí)玉見(jiàn)。
假定通過(guò)施加由符號(hào)5 v表示的處理延遲的信號(hào)處理路徑從基準(zhǔn) 視頻流獲得當(dāng)前視頻流。進(jìn)一步假定通過(guò)施加由符號(hào)5A表示的處理 延遲的信號(hào)處理路徑從基準(zhǔn)音頻流獲得當(dāng)前音頻流。內(nèi)容延遲計(jì)算器 410比較基準(zhǔn)視頻簽名SVREF和當(dāng)前視頻簽名SVcuRR并產(chǎn)生視頻處 理延遲的估計(jì)值s v??梢詮墓烙?jì)的延遲s v獲得基準(zhǔn)^L頻流和當(dāng)前視i 頻流之間的相對(duì)時(shí)序差異。內(nèi)容延遲計(jì)算器420比較基準(zhǔn)音頻簽名
SA肌f和當(dāng)前音頻簽名SAcuRR并產(chǎn)生音頻處理延遲的估計(jì)值s a???br>
以從估計(jì)的延遲sA獲得基準(zhǔn)音頻流和當(dāng)前音頻流之間的相對(duì)時(shí)序差 異。
在以下段落中描述可以用于估計(jì)處理延遲的一個(gè)技術(shù)。在視頻 和音頻之間沒(méi)有造成區(qū)別,因?yàn)榭梢砸酝瑯拥姆绞接?jì)算視頻處理延遲
估計(jì)值S v和音頻處理延遲估計(jì)值s A。
內(nèi)容延遲計(jì)算器接收兩組簽名。 一組是由(SREF(i"表示的基準(zhǔn)簽
名的序列,且第二組是由(ScURR(i"表示的當(dāng)前簽名的序列。相關(guān)器
在兩個(gè)序列的范圍內(nèi)進(jìn)行搜索以查找一個(gè)窗口,在該窗口中的簽名組
具有最高相關(guān)度的窗口。這可以通過(guò)首先計(jì)算以下分?jǐn)?shù)來(lái)進(jìn)行
Z)(附,/) = g HD [S臟(/ +力,S函(W)〗for 1化F, / - C/ ' + C/ (10)
其中D (柳,/)=對(duì)于流之間的特定的對(duì)準(zhǔn)計(jì)算的分?jǐn)?shù); HD [/ , c]-在簽名r和c之間的漢明距離; F-在該組基準(zhǔn)簽名{SREF(i)}中的簽名的數(shù)目; 11=相關(guān)器的搜索范圍;和
\¥=表示為簽名數(shù)量的相關(guān)窗口的長(zhǎng)度。漢明距離等于其中兩個(gè) 簽名不同的位的位置的數(shù)目??梢詮膍的值導(dǎo)出估計(jì)的處理延遲,其中建立在相關(guān)窗口內(nèi)的 基準(zhǔn)簽名和當(dāng)前簽名之間的最接近匹配。這可以被表示為
《=arg min[Z)(m,!')] for !.-t/^wS/ + (7 (11)
如果不存在處理延遲,那么s產(chǎn)i。如果估計(jì)的延遲是三個(gè)幀或者三個(gè) 分段,那么s產(chǎn)i+3。對(duì)應(yīng)于簽名S肌F(i)的幀或者分段的相對(duì)時(shí)序差 異是在Sj和i之間的偏移。對(duì)于視頻幀i的相對(duì)時(shí)序差異在這里被表 示為dv(i),且對(duì)于音頻分段i的相對(duì)時(shí)序差異在這里被表示為
da(i)。
在用于電視的一個(gè)實(shí)現(xiàn)中,內(nèi)容延遲計(jì)算器410對(duì)視頻幀使用 值W=10和U=45,且內(nèi)容延遲計(jì)算器420對(duì)音頻分段使用值W=23 和U=47。用于視頻和音頻延遲計(jì)算器的F值分別是在基準(zhǔn)流中視頻 幀和音頻分段的數(shù)目。
相對(duì)延遲計(jì)算器430使用視頻和音頻流的相對(duì)時(shí)序差異來(lái)計(jì)算 任一當(dāng)前流或者兩個(gè)當(dāng)前流的延遲量以實(shí)現(xiàn)適當(dāng)?shù)耐?。這在圖10 中示意性地圖示。示出在基準(zhǔn)視頻流1中的基準(zhǔn)視頻幀lb和在基準(zhǔn) 音頻流2中的基準(zhǔn)音頻分段2b同步。用于視頻流1的信號(hào)處理81和 用于音頻流2的信號(hào)處理82將不同延遲引入到兩個(gè)流中。結(jié)果,當(dāng) 前^f見(jiàn)頻流31中的當(dāng)前視頻幀lb和當(dāng)前音頻流32中的當(dāng)前音頻分段 2b不再同步。當(dāng)前視頻幀lb被延遲了 dv且當(dāng)前音頻分段2b被延遲 了 da。對(duì)恢復(fù)同步所需要的延遲adj的調(diào)節(jié)量等于(dv-da)。如果 如圖所示dv大于da,那么可以通過(guò)將音頻分段延遲調(diào)節(jié)量adj來(lái)恢 復(fù)同步。如果dv小于da,那么可以通過(guò)將視頻幀延遲調(diào)節(jié)量adj來(lái) 恢復(fù)同步??梢曰旧弦孕枰娜我夥绞窖舆t流,但是一個(gè)方式是在 具有足夠容量的先進(jìn)先出(FIFO)緩存器中存儲(chǔ)和檢索流內(nèi)容以提 供對(duì)延遲的調(diào)節(jié)。
2.副本的檢測(cè)
即使已經(jīng)由包括如上所述的處理的多種處理對(duì)內(nèi)容進(jìn)行了修 改,從視頻和音頻內(nèi)容產(chǎn)生的簽名也可用于識(shí)別該內(nèi)容。即使被修改 也能可靠地確定指定的視頻內(nèi)容或者音頻內(nèi)容是否是基準(zhǔn)視頻內(nèi)容或者音頻內(nèi)容的副本的能力可用于多種應(yīng)用。在下面列表中簡(jiǎn)要地描述
幾個(gè)實(shí)例
未授權(quán)的副本的檢測(cè)對(duì)等服務(wù)器的網(wǎng)絡(luò)可以促進(jìn)內(nèi)容的分 布,但是它們還增加檢測(cè)專有內(nèi)容的未授權(quán)的或者盜版的副本的困 難,因?yàn)樵趯?duì)等服務(wù)器之間可存在內(nèi)容的許多副本。機(jī)構(gòu)可以通過(guò)產(chǎn) 生用于可從網(wǎng)絡(luò)獲得的全部?jī)?nèi)容的簽名,并相對(duì)于基準(zhǔn)簽名的數(shù)據(jù)庫(kù) 檢查這些簽名,來(lái)自動(dòng)地確定在網(wǎng)絡(luò)中是否存在任何未授權(quán)的副本。
廣播的確認(rèn)與廣播網(wǎng)絡(luò)簽訂合同以分發(fā)指定的視頻和音頻 內(nèi)容的商行可以通過(guò)從由廣播接收機(jī)接收的信號(hào)產(chǎn)生簽名并將這些簽 名與指定內(nèi)容的基準(zhǔn)簽名比較,來(lái)確認(rèn)滿足合同條款。
接收的識(shí)別提供用于廣播網(wǎng)絡(luò)的標(biāo)稱值的商行可以通過(guò)從 接收的信號(hào)產(chǎn)生簽名和將那些簽名相對(duì)于基準(zhǔn)簽名進(jìn)行比較,來(lái)識(shí)別 由接收器接收的內(nèi)容。
圖11是可以用于實(shí)現(xiàn)比如那些在先前列表中提到的應(yīng)用的多種 應(yīng)用的系統(tǒng)的示意性框圖。視頻簽名發(fā)生器100和音頻簽名發(fā)生器 200根據(jù)從路徑31接收到的內(nèi)容的基準(zhǔn)視頻/音頻流來(lái)產(chǎn)生基準(zhǔn)視頻 簽名和基準(zhǔn)音頻簽名。將該產(chǎn)生的基準(zhǔn)視頻簽名存儲(chǔ)在視頻簽名數(shù)據(jù) 庫(kù)(VSIG DB) 180中,且將產(chǎn)生的基準(zhǔn)音頻簽名存儲(chǔ)在音頻簽名數(shù) 據(jù)庫(kù)(ASIG DB) 280中??梢耘c可以有助于應(yīng)用實(shí)現(xiàn)的其他信息一 起存儲(chǔ)基準(zhǔn)簽名。例如,可以與基礎(chǔ)內(nèi)容本身或者與識(shí)別關(guān)于內(nèi)容的 信息(比如內(nèi)容擁有者、內(nèi)容許可證條目、內(nèi)容的標(biāo)題或內(nèi)容的文字 說(shuō)明)的數(shù)據(jù)一起存儲(chǔ)基準(zhǔn)簽名。每個(gè)基準(zhǔn)簽名具有數(shù)據(jù)庫(kù)檢索密 鑰??梢砸砸蟮娜我夥绞綄?dǎo)出該密鑰。優(yōu)選地,該密鑰基于或者從 基準(zhǔn)簽名本身導(dǎo)出。
可以相對(duì)于由存儲(chǔ)在視頻和音頻數(shù)據(jù)庫(kù)中的信息表示的基準(zhǔn)內(nèi) 容檢查任意指定視頻內(nèi)容或者音頻內(nèi)容的標(biāo)識(shí)。要被檢查標(biāo)識(shí)的內(nèi)容 在這里被稱為測(cè)試內(nèi)容。可以通過(guò)使得視頻簽名發(fā)生器101根據(jù)從路 徑33接收到的測(cè)試視頻內(nèi)容來(lái)產(chǎn)生測(cè)試視頻簽名,并將測(cè)試視頻簽 名傳送到視頻搜索引擎185,從而檢查該測(cè)試視頻內(nèi)容的標(biāo)識(shí)。視頻
30搜索引擎185嘗試在確切地或緊密匹配測(cè)試視頻簽名的視頻簽名數(shù)據(jù) 庫(kù)180中找到基準(zhǔn)視頻簽名??梢酝ㄟ^(guò)使得音頻簽名發(fā)生器201根據(jù) 從路徑33接收到的測(cè)試音頻內(nèi)容產(chǎn)生測(cè)試音頻簽名,并將該測(cè)試音 頻簽名傳送到音頻搜索引擎285,來(lái)檢查測(cè)試音頻內(nèi)容的標(biāo)識(shí)。音頻 搜索引擎285嘗試在確切地或緊密匹配測(cè)試音頻簽名的音頻簽名數(shù)據(jù) 庫(kù)280中找到基準(zhǔn)音頻簽名。
在一個(gè)實(shí)現(xiàn)中,搜索引擎計(jì)算測(cè)試簽名和存儲(chǔ)在數(shù)據(jù)庫(kù)中的基 準(zhǔn)簽名之間的漢明距離,并搜索最接近測(cè)試視頻簽名的序列的基準(zhǔn)簽 名的序列。在以上表達(dá)式10和11中示出的計(jì)算或它們的某些變型可 以用于進(jìn)行搜索。如果在兩個(gè)簽名序列之間的距離小于某閾值,則與 測(cè)試簽名的序列相關(guān)聯(lián)的測(cè)試內(nèi)容被認(rèn)為是與匹配基準(zhǔn)簽名的序列相 關(guān)聯(lián)的基準(zhǔn)內(nèi)容的確切或修改的副本。經(jīng)驗(yàn)結(jié)果建議使用表示大約兩 秒內(nèi)容的簽名的序列可以對(duì)于多種視頻和音頻內(nèi)容獲得好的結(jié)果。
E.實(shí)現(xiàn)
可以以包括用于由計(jì)算機(jī)或者一些其它裝置執(zhí)行的軟件的多種 方式實(shí)現(xiàn)包括本發(fā)明的各種方面的裝置,該裝置包括更專用的部件, 比如連接到類似于在通用計(jì)算機(jī)中建立的部件的部件的數(shù)字信號(hào)處理 器(DSP)電路。圖12是可以用于實(shí)現(xiàn)本發(fā)明的方面的裝置70的示 意性框圖。處理器72提供計(jì)算資源。RAM 73是由處理器72使用用 于處理的系統(tǒng)隨機(jī)存取存儲(chǔ)器(RAM) 。 ROM 74表示用于存儲(chǔ)操 作裝置70需要的且可能用于執(zhí)行本發(fā)明的各種方面的程序的某種形 式的永久存儲(chǔ)器,比如只讀存儲(chǔ)器(ROM) 。 I/O控制75表示通過(guò) 通信信道76, 77接收和發(fā)送信號(hào)的接口電路。在所示的實(shí)施例中, 全部主系統(tǒng)部件連接到總線71,其可以表示多于一個(gè)物理或者邏輯 總線;但是,總線體系結(jié)構(gòu)不是實(shí)現(xiàn)本發(fā)明必需的。
在由通用計(jì)算機(jī)系統(tǒng)實(shí)現(xiàn)的實(shí)施例中,可以包括另外的部件用 于接口連接比如鍵盤或者鼠標(biāo)和顯示器的裝置,并用于控制具有比如 磁帶或者磁盤,或者光學(xué)介質(zhì)的存儲(chǔ)介質(zhì)的存儲(chǔ)裝置78。該存儲(chǔ)介 質(zhì)可以用于記錄用于操作系統(tǒng)、實(shí)用程序和應(yīng)用程序的指令的程序,且可以包括實(shí)現(xiàn)本發(fā)明的各個(gè)方面的程序。
能夠由以包括離散邏輯部件、集成電路、 一個(gè)或多個(gè)ASIC和/ 或程序控制的處理器的多種方式實(shí)現(xiàn)的部件執(zhí)行實(shí)踐本發(fā)明的各個(gè)方 面所需要的功能。其中實(shí)現(xiàn)這些部件的方式對(duì)本發(fā)明來(lái)說(shuō)不重要。
可以通過(guò)多種機(jī)器可讀的介質(zhì)傳送本發(fā)明的軟件實(shí)現(xiàn),比如從 超聲波到紫外線頻率的全頻譜上的基帶或者調(diào)制的通信路徑,或者使 用實(shí)質(zhì)上任何記錄技術(shù)傳送信息的存儲(chǔ)介質(zhì),包括磁帶、磁卡或者磁 盤,光卡或者光盤,和在包括紙張的介質(zhì)上的可檢測(cè)的標(biāo)記。
權(quán)利要求
1. 一種用于產(chǎn)生識(shí)別視頻信號(hào)的內(nèi)容的簽名的方法,其中,該方法包括從表示由視頻信號(hào)的視頻幀序列內(nèi)的第一視頻幀傳送的圖像中像素的數(shù)據(jù),提取第一組一個(gè)或多個(gè)特征,并且計(jì)算表示該第一組特征的第一值;從表示由視頻信號(hào)的視頻幀序列內(nèi)的第二視頻幀傳送的圖像中像素的數(shù)據(jù),提取第二組一個(gè)或多個(gè)特征,其中,第二組特征中的每個(gè)特征在第一組特征中具有相應(yīng)的特征,并且計(jì)算表示該第二組特征的第二值,其中,表示第二組特征中相應(yīng)特征的第二值對(duì)應(yīng)于表示第一組特征中對(duì)應(yīng)于該相應(yīng)特征的特征的第一值;產(chǎn)生中間值的陣列,其中,該陣列中的每個(gè)中間值表示在第二值和對(duì)應(yīng)的第一值之間的一個(gè)或多個(gè)相異點(diǎn)測(cè)量;和通過(guò)將散列函數(shù)應(yīng)用于所述中間值來(lái)產(chǎn)生識(shí)別視頻信號(hào)的內(nèi)容的簽名。
2. 如權(quán)利要求1所述的方法,包括從像素組提取所述第一組特征 和所述第二特征,每個(gè)像素組表示由所述第一和第二視頻幀傳送的圖 4象之一的相應(yīng)區(qū)域。
3. 如權(quán)利要求2所述的方法,其中,所述第一和第二組特征表示 在相應(yīng)像素組內(nèi)像素強(qiáng)度的平均值。
4. 如權(quán)利要求2所述的方法,其中,所述第一和第二組特征表示 在相應(yīng)像素組內(nèi)像素強(qiáng)度的標(biāo)準(zhǔn)偏差。
5. 如權(quán)利要求1或2所述的方法,其中,所述第一和第二組特征 表示像素的強(qiáng)度且相應(yīng)的相異點(diǎn)測(cè)量是所述第二值和對(duì)應(yīng)的笫一值之 間的絕對(duì)差。
6. 如權(quán)利要求5所述的方法,包括 將多個(gè)相異點(diǎn)測(cè)量分組為差圖像的多個(gè)區(qū)域;和 產(chǎn)生每個(gè)中間值以表示相應(yīng)區(qū)域中相異點(diǎn)測(cè)量的平均值。
7. 如權(quán)利要求1到6中任意一個(gè)所述的方法,包括僅對(duì)表示由第 一和第二視頻幀傳送的圖像的中央部分的像素提取第一組特征和第二 組特征。
8. 如權(quán)利要求1到7中任意一個(gè)所述的方法,包括確定由第 一和第二視頻幀傳送的圖像的水平和垂直分辨率; 響應(yīng)于所述分辨率選擇因數(shù);和以等于該因數(shù)的量下采樣數(shù)據(jù)、相異點(diǎn)測(cè)量或者中間值,以減 小中間值陣列的垂直和水平分辨率。
9. 如權(quán)利要求1到8中任意一個(gè)所述的方法,包括對(duì)于幀序列中 多對(duì)幀的每一對(duì)產(chǎn)生簽名。
10. 如權(quán)利要求1到9中任意一個(gè)所述的方法,其中,散列函數(shù) 對(duì)中間值的應(yīng)用包括將中間值投影到一組隨機(jī)向量上,且其中,從中 間值到相應(yīng)隨機(jī)向量上的投影導(dǎo)出簽名的每個(gè)分量。
11. 如斥又利要求10所述的方法,其中,該組隨4幾向量中的每個(gè)相應(yīng)向量具有向量元素,所述向量元素 具有從對(duì)于相應(yīng)向量的全部向量元素,在從0到1的范圍內(nèi)均勻分布 的隨機(jī)變量與均勻分布的隨機(jī)變量的平均值之間的差獲得的值;從中間值與相應(yīng)向量的向量元素的內(nèi)積獲得中間值到相應(yīng)隨機(jī) 向量上的投影;和如果中間值到對(duì)應(yīng)的隨機(jī)向量上的投影大于閾值,則簽名的每 個(gè)分量具有第一值,或者如果中間值到對(duì)應(yīng)的隨機(jī)向量上的投影小于 閾值,則簽名的每個(gè)分量具有第二值,其中,所述閾值等于中間值到 該組隨機(jī)向量上的投影的中位數(shù)。
12. —種用于產(chǎn)生識(shí)別音頻信號(hào)的內(nèi)容的方法,其中,該方法包括獲得音頻信號(hào)塊的序列內(nèi)的一組塊的時(shí)頻表示,其中,該時(shí)頻 表示包括多組頻鐠值,每組頻鐠值表示在該組塊中的相應(yīng)塊中的音頻 信號(hào)的頻語(yǔ)分量的至少一部分;從在相應(yīng)組頻鐠值內(nèi)以一個(gè)或多個(gè)頻譜值的組排列的頻譜值的強(qiáng)度導(dǎo)出中間值;和通過(guò)將散列函數(shù)應(yīng)用于所述中間值來(lái)產(chǎn)生識(shí)別音頻信號(hào)的內(nèi)容 的簽名。
13. 如權(quán)利要求12所述的方法,其中,通過(guò)將時(shí)頻變換應(yīng)用于該組塊中的每個(gè)音頻信號(hào)塊以獲得相應(yīng) 組頻i普值來(lái)獲得所述時(shí)頻表示;和通過(guò)計(jì)算相應(yīng)組頻語(yǔ)值內(nèi)的一組中的一個(gè)或多個(gè)頻譜值的平均 強(qiáng)度來(lái)導(dǎo)出相應(yīng)中間值。
14. 如權(quán)利要求12或13所述的方法,包括對(duì)于在塊的序列內(nèi)多 組塊中的每組塊產(chǎn)生簽名。
15. 如權(quán)利要求12到14中任意一個(gè)所述的方法,其中,所述多 組頻語(yǔ)值具有隨頻率而變的多個(gè)頻譜值。
16. 如權(quán)利要求15所述的方法,其中,用于較高頻率的頻鐠值組 具有較多的頻譜值。
17. 如權(quán)利要求12到16中任意一個(gè)所述的方法,其中,散列函 數(shù)對(duì)中間值的應(yīng)用包括將中間值投影到一組隨機(jī)向量上,且其中,從 中間值到相應(yīng)隨機(jī)向量上的投影導(dǎo)出簽名的每個(gè)分量。
18. 如權(quán)利要求17所述的方法,其中,該組隨才幾向量中的每個(gè)相應(yīng)向量具有向量元素,該向量元素具 有從對(duì)于相應(yīng)向量的全部向量元素,在從0到1的范圍內(nèi)均勻分布的隨機(jī)變量與均勻分布的隨機(jī)變量的平均值之間的差獲得的值;從中間值與相應(yīng)向量的向量元素的內(nèi)積獲得中間值到相應(yīng)隨機(jī)向量上的投影;和如果中間值到對(duì)應(yīng)的隨機(jī)向量上的投影大于閾值,則簽名的每個(gè)分量具有第 一值,或者如果中間值到對(duì)應(yīng)的隨機(jī)向量上的投影小于閾值,則簽名的每個(gè)分量具有第二值,其中,所述閾值等于中間值到該組隨機(jī)向量上的投影的中位數(shù)。
19. 一種用于產(chǎn)生識(shí)別視頻信號(hào)的內(nèi)容的簽名的設(shè)備,其中,該 設(shè)備包括用于從表示由視頻信號(hào)的視頻幀序列內(nèi)的第 一視頻幀傳送的圖 像中像素的數(shù)據(jù),提取第一組一個(gè)或多個(gè)特征,并且計(jì)算表示該第一組特征的第一值的裝置;用于從表示由視頻信號(hào)的視頻幀序列內(nèi)的第二視頻幀傳送的圖 像中像素的數(shù)據(jù),提取第二組一個(gè)或多個(gè)特征,并且計(jì)算表示該第二 組特征的第二值的裝置,其中,第二組特征中的每個(gè)特征在第一組特 征中具有相應(yīng)的特征,其中,表示第二組特征中相應(yīng)特征的第二值對(duì) 應(yīng)于表示笫一組特征中對(duì)應(yīng)于該相應(yīng)特征的特征的第一值;用于產(chǎn)生中間值的陣列的裝置,其中,該陣列中的每個(gè)中間值 表示在第二值和對(duì)應(yīng)的第一值之間的一個(gè)或多個(gè)相異點(diǎn)測(cè)量;和用于通過(guò)將散列函數(shù)應(yīng)用于所述中間值來(lái)產(chǎn)生識(shí)別視頻信號(hào)的 內(nèi)容的簽名的裝置。
20. 如權(quán)利要求19所述的設(shè)備,包括用于從像素組提取所述第一 組特征和所述第二特征的裝置,每個(gè)像素組表示由所述第一和第二視 頻幀傳送的圖像之一的相應(yīng)區(qū)域。
21. 如權(quán)利要求20所述的設(shè)備,其中,所述笫一和第二組特征表 示在相應(yīng)像素組內(nèi)像素強(qiáng)度的平均值。
22. 如權(quán)利要求20所述的設(shè)備,其中,所述第一和第二組特征表 示在相應(yīng)像素組內(nèi)像素強(qiáng)度的標(biāo)準(zhǔn)偏差。
23. 如權(quán)利要求19或20所述的設(shè)備,其中,所述第一和第二組 特征表示像素的強(qiáng)度且相應(yīng)的相異點(diǎn)測(cè)量是所述第二值和對(duì)應(yīng)的第一 值之間的絕對(duì)差。
24. 如權(quán)利要求23所述的設(shè)備,包括用于將多個(gè)相異點(diǎn)測(cè)量分組為差圖像的多個(gè)區(qū)域的裝置;和 用于產(chǎn)生每個(gè)中間值以表示相應(yīng)區(qū)域中相異點(diǎn)測(cè)量的平均值的裝置。
25. 如權(quán)利要求19到24中任意一個(gè)所述的設(shè)備,包括用于僅對(duì) 表示由第一和第二視頻幀傳送的圖像的中央部分的像素提取第一組特 征和第二組特征的裝置。
26. 如權(quán)利要求19到25中任意一個(gè)所述的設(shè)備,包括 用于確定由第一和第二視頻幀傳送的圖像的水平和垂直分辨率的裝置;用于響應(yīng)于所述分辨率選擇因數(shù)的裝置;和 用于以等于該因數(shù)的量下采樣數(shù)據(jù)、相異點(diǎn)測(cè)量或者中間值, 以減小中間值陣列的垂直和水平分辨率的裝置。
27. 如權(quán)利要求19到26中任意一個(gè)所述的設(shè)備,包括用于對(duì)于 幀序列中多對(duì)幀的每一對(duì)產(chǎn)生簽名的裝置。
28. 如權(quán)利要求19到27中任意一個(gè)所述的設(shè)備,其中,散列函 數(shù)對(duì)中間值的應(yīng)用包括將中間值投影到一組隨機(jī)向量上,且其中,從 中間值到相應(yīng)隨機(jī)向量上的投影導(dǎo)出簽名的每個(gè)分量。
29. 如權(quán)利要求28所述的設(shè)備,其中,該組隨機(jī)向量中的每個(gè)相應(yīng)向量具有向量元素,所述向量元素 具有從對(duì)于相應(yīng)向量的全部向量元素,在從0到1的范圍內(nèi)均勻分布 的隨機(jī)變量與均勻分布的隨機(jī)變量的平均值之間的差獲得的值;從中間值與相應(yīng)向量的向量元素的內(nèi)積獲得中間值到相應(yīng)隨機(jī) 向量上的投影;和如果中間值到對(duì)應(yīng)的隨機(jī)向量上的投影大于閾值,則簽名的每 個(gè)分量具有第 一值,或者如果中間值到對(duì)應(yīng)的隨機(jī)向量上的投影小于 闞值,則簽名的每個(gè)分量具有第二值,其中,所述閾值等于中間值到 該組隨機(jī)向量上的投影的中位數(shù)。
30. —種用于產(chǎn)生識(shí)別音頻信號(hào)的內(nèi)容的設(shè)備,其中,該設(shè)備包括用于獲得音頻信號(hào)塊的序列內(nèi)的一組塊的時(shí)頻表示的裝置,其 中,該時(shí)頻表示包括多組頻鐠值,每組頻鐠值表示在該組塊中的相應(yīng) 塊中的音頻信號(hào)的頻語(yǔ)分量的至少一部分;用于從在相應(yīng)組頻鐠值內(nèi)以一個(gè)或多個(gè)頻鐠值的組排列的頻鐠 值的強(qiáng)度導(dǎo)出中間值的裝置;和用于通過(guò)將散列函數(shù)應(yīng)用于所述中間值來(lái)產(chǎn)生識(shí)別音頻信號(hào)的內(nèi)容的簽名的裝置。
31. 如權(quán)利要求30所述的設(shè)備,其中,通過(guò)將時(shí)頻變換應(yīng)用于該組塊中的每個(gè)音頻信號(hào)塊以獲得相應(yīng) 組頻語(yǔ)值來(lái)獲得所述時(shí)頻表示;和通過(guò)計(jì)算相應(yīng)組頻鐠值內(nèi)的一組中的一個(gè)或多個(gè)頻^普值的平均 強(qiáng)度來(lái)導(dǎo)出相應(yīng)中間值。
32. 如權(quán)利要求30或31所述的設(shè)備,包括用于對(duì)于在塊的序列 內(nèi)多組塊中的每組塊產(chǎn)生簽名的裝置。
33. 如權(quán)利要求30到32中任意一個(gè)所述的設(shè)備,其中,所述多 組頻i普值具有隨頻率而變的多個(gè)頻譜值。
34. 如權(quán)利要求33所述的設(shè)備,其中,用于較高頻率的頻譜值組 具有較多的頻鐠值。
35. 如權(quán)利要求30到34中任意一個(gè)所述的設(shè)備,其中,散列函 數(shù)對(duì)中間值的應(yīng)用包括將中間值投影到一組隨機(jī)向量上,且其中,從 中間值到相應(yīng)隨機(jī)向量上的投影導(dǎo)出簽名的每個(gè)分量。
36. 如權(quán)利要求35所述的設(shè)備,其中,該組隨機(jī)向量中的每個(gè)相應(yīng)向量具有向量元素,該向量元素具 有從對(duì)于相應(yīng)向量的全部向量元素,在從0到1的范圍內(nèi)均勻分布的 隨機(jī)變量與均勻分布的隨機(jī)變量的平均值之間的差獲得的值;從中間值與相應(yīng)向量的向量元素的內(nèi)積獲得中間值到相應(yīng)隨機(jī) 向量上的投影;和如果中間值到對(duì)應(yīng)的隨機(jī)向量上的投影大于閾值,則簽名的每 個(gè)分量具有第一值,或者如果中間值到對(duì)應(yīng)的隨機(jī)向量上的投影小于 閾值,則簽名的每個(gè)分量具有第二值,其中,所述閾值等于中間值到 該組隨機(jī)向量上的投影的中位數(shù)。
37. —種存儲(chǔ)介質(zhì),記錄可由裝置執(zhí)行以完成用于產(chǎn)生識(shí)別視頻 信號(hào)的內(nèi)容的簽名的方法的指令的程序,其中,該方法包括從表示由視頻信號(hào)的視頻幀序列內(nèi)的第一視頻幀傳送的圖像中 像素的數(shù)據(jù),提取第一組一個(gè)或多個(gè)特征,并且計(jì)算表示該第一組特征的笫一值;從表示由視頻信號(hào)的視頻幀序列內(nèi)的第二視頻幀傳送的圖像中 像素的數(shù)據(jù),提取第二組一個(gè)或多個(gè)特征,其中,第二組特征中的每 個(gè)特征在第一組特征中具有相應(yīng)的特征,并且計(jì)算表示該第二組特征 的第二值,其中,表示第二組特征中相應(yīng)特征的第二值對(duì)應(yīng)于表示第 一組特征中對(duì)應(yīng)于該相應(yīng)特征的特征的第一值;產(chǎn)生中間值的陣列,其中,該陣列中的每個(gè)中間值表示在第二 值和對(duì)應(yīng)的第一值之間的一個(gè)或多個(gè)相異點(diǎn)測(cè)量;和通過(guò)將散列函數(shù)應(yīng)用于所述中間值來(lái)產(chǎn)生識(shí)別視頻信號(hào)的內(nèi)容 的簽名。
38. 如權(quán)利要求37所述的存儲(chǔ)介質(zhì),其中,該方法包括從像素組 提取所述第 一組特征和所述第二特征,每個(gè)像素組表示由所述第一和 第二視頻幀傳送的圖像之一的相應(yīng)區(qū)域。
39. 如權(quán)利要求38所述的存儲(chǔ)介質(zhì),其中,所述第一和第二組特 征表示在相應(yīng)像素組內(nèi)像素強(qiáng)度的平均值。
40. 如權(quán)利要求38所述的存儲(chǔ)介質(zhì),其中,所述第一和第二組特 征表示在相應(yīng)像素組內(nèi)像素強(qiáng)度的標(biāo)準(zhǔn)偏差。
41. 如權(quán)利要求37或38所述的存儲(chǔ)介質(zhì),其中,所述第一和第 二組特征表示像素的強(qiáng)度且相應(yīng)的相異點(diǎn)測(cè)量是所述第二值和對(duì)應(yīng)的 第一值之間的絕對(duì)差。
42. 如權(quán)利要求41所述的存儲(chǔ)介質(zhì),其中,該方法包括 將多個(gè)相異點(diǎn)測(cè)量分組為差圖像的多個(gè)區(qū)域;和 產(chǎn)生每個(gè)中間值以表示相應(yīng)區(qū)域中相異點(diǎn)測(cè)量的平均值。
43. 如權(quán)利要求37到42中任意一個(gè)所述的存儲(chǔ)介質(zhì),其中,該 方法包括僅對(duì)表示由第一和第二視頻幀傳送的圖像的中央部分的像素 提取第一組特征和第二組特征。
44. 如權(quán)利要求37到43中任意一個(gè)所述的存儲(chǔ)介質(zhì),其中,該 方法包括確定由第一和第二視頻幀傳送的圖像的水平和垂直分辨率;響應(yīng)于所述分辨率選擇因數(shù);和以等于該因數(shù)的量下采樣數(shù)據(jù)、相異點(diǎn)測(cè)量或者中間值,以減 小中間值陣列的垂直和水平分辨率。
45. 如權(quán)利要求37到44中任意一個(gè)所述的存儲(chǔ)介質(zhì),其中,該 方法包括對(duì)于幀序列中多對(duì)幀的每一對(duì)產(chǎn)生簽名。
46. 如權(quán)利要求37到45中任意一個(gè)所述的存儲(chǔ)介質(zhì),其中,散 列函數(shù)對(duì)中間值的應(yīng)用包括將中間值投影到一組隨機(jī)向量上,且其 中,從中間值到相應(yīng)隨機(jī)向量上的投影導(dǎo)出簽名的每個(gè)分量。
47. 如權(quán)利要求46所述的存儲(chǔ)介質(zhì),其中,該組隨才幾向量中的每個(gè)相應(yīng)向量具有向量元素,所述向量元素 具有從對(duì)于相應(yīng)向量的全部向量元素,在從0到1的范圍內(nèi)均勻分布 的隨機(jī)變量與均勻分布的隨機(jī)變量的平均值之間的差獲得的值;從中間值與相應(yīng)向量的向量元素的內(nèi)積獲得中間值到相應(yīng)隨機(jī) 向量上的投影;和如果中間值到對(duì)應(yīng)的隨機(jī)向量上的投影大于閾值,則簽名的每 個(gè)分量具有第一值,或者如果中間值到對(duì)應(yīng)的隨機(jī)向量上的投影小于 閾值,則簽名的每個(gè)分量具有第二值,其中,所述閾值等于中間值到 該組隨機(jī)向量上的投影的中位數(shù)。
48. —種存儲(chǔ)介質(zhì),記錄可由裝置執(zhí)行以完成用于產(chǎn)生識(shí)別音頻 信號(hào)的內(nèi)容的方法的指令的程序,其中,該方法包括獲得音頻信號(hào)塊的序列內(nèi)的一組塊的時(shí)頻表示,其中,該時(shí)頻 表示包括多組頻鐠值,每組頻i普值表示在該組塊中的相應(yīng)塊中的音頻 信號(hào)的頻i普分量的至少 一部分;從在相應(yīng)組頻鐠值內(nèi)以一個(gè)或多個(gè)頻鐠值的組排列的頻譜值的 強(qiáng)度導(dǎo)出中間值;和通過(guò)將散列函數(shù)應(yīng)用于所述中間值來(lái)產(chǎn)生識(shí)別音頻信號(hào)的內(nèi)容 的簽名。
49. 如權(quán)利要求48所述的存儲(chǔ)介質(zhì),其中,通過(guò)將時(shí)頻變換應(yīng)用于該組塊中的每個(gè)音頻信號(hào)塊以獲得相應(yīng)組頻謙值來(lái)獲得所述時(shí)頻表示;和通過(guò)計(jì)算相應(yīng)組頻譜值內(nèi)的一組中的一個(gè)或多個(gè)頻i脊值的平均強(qiáng)度來(lái)導(dǎo)出相應(yīng)中間值。
50. 如權(quán)利要求48或者49所述的存儲(chǔ)介質(zhì),其中,該方法包括 對(duì)于在塊的序列內(nèi)多組塊中的每組塊產(chǎn)生簽名。
51. 如權(quán)利要求48到50中任意一個(gè)所述的存儲(chǔ)介質(zhì),其中,所 述多組頻譜值具有隨頻率而變的多個(gè)頻i普值。
52. 如權(quán)利要求51所述的存儲(chǔ)介質(zhì),其中,用于較高頻率的頻譜 值組具有較多的頻語(yǔ)值。
53. 如權(quán)利要求48到52中任意一個(gè)所述的存儲(chǔ)介質(zhì),其中,散 列函數(shù)對(duì)中間值的應(yīng)用包括將中間值投影到一組隨機(jī)向量上,且其 中,從中間值到相應(yīng)隨機(jī)向量上的投影導(dǎo)出簽名的每個(gè)分量。
54. 如權(quán)利要求53所述的存儲(chǔ)介質(zhì),其中,該組隨機(jī)向量中的每個(gè)相應(yīng)向量具有向量元素,該向量元素具 有從對(duì)于相應(yīng)向量的全部向量元素,在從O到1的范圍內(nèi)均勻分布的 隨機(jī)變量與均勻分布的隨機(jī)變量的平均值之間的差獲得的值;從中間值與相應(yīng)向量的向量元素的內(nèi)積獲得中間值到相應(yīng)隨才幾 向量上的投影;和如果中間值到對(duì)應(yīng)的隨機(jī)向量上的投影大于閾值,則簽名的每 個(gè)分量具有第一值,或者如果中間值到對(duì)應(yīng)的隨機(jī)向量上的投影小于 閾值,則簽名的每個(gè)分量具有第二值,其中,所述閾值等于中間值到 該組隨機(jī)向量上的投影的中位數(shù)。
全文摘要
通過(guò)產(chǎn)生在視頻內(nèi)容幀中像素的相應(yīng)組的特征之間的相異點(diǎn)測(cè)量,和通過(guò)產(chǎn)生音頻分段的低分辨率時(shí)頻表示,從內(nèi)容產(chǎn)生可用于識(shí)別視頻和音頻視頻內(nèi)容的簽名。通過(guò)將散列函數(shù)應(yīng)用于從相異點(diǎn)測(cè)量導(dǎo)出的中間值和應(yīng)用于低分辨率時(shí)頻表示來(lái)產(chǎn)生簽名。所產(chǎn)生的簽名可以用于多種應(yīng)用,比如恢復(fù)視頻和音頻內(nèi)容流之間的同步和識(shí)別原始視頻和音頻內(nèi)容的副本。盡管存在對(duì)內(nèi)容的有意的和無(wú)意的修改,所產(chǎn)生的簽名仍可以提供可靠的識(shí)別。
文檔編號(hào)G06T1/00GK101548294SQ200780044083
公開(kāi)日2009年9月30日 申請(qǐng)日期2007年11月29日 優(yōu)先權(quán)日2006年11月30日
發(fā)明者B·D·林科, C·鮑爾, E·吉塞爾, K·B·特里, R·拉達(dá)克里希南, 金炯淑 申請(qǐng)人:杜比實(shí)驗(yàn)室特許公司