两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

音視頻拷貝檢測(cè)方法及裝置的制造方法

文檔序號(hào):10624773閱讀:311來源:國知局
音視頻拷貝檢測(cè)方法及裝置的制造方法
【專利摘要】本發(fā)明涉及一種音視頻拷貝檢測(cè)方法及裝置,其方法包括:獲取音視頻圖像,對(duì)音視頻圖像進(jìn)行解碼及預(yù)處理,對(duì)得到的音視頻圖像的音頻部分和視頻幀進(jìn)行特征提取,得到對(duì)應(yīng)的音頻特征和視頻幀的圖像特征;對(duì)音視頻圖像對(duì)應(yīng)的音頻特征和視頻幀的圖像特征進(jìn)行融合,得到音視頻融合特征;基于預(yù)設(shè)的參考視頻的特征庫,對(duì)音視頻融合特征進(jìn)行匹配,得到幀集匹配結(jié)果;基于幀集匹配結(jié)果以及參考視頻,對(duì)音視頻圖像進(jìn)行拷貝判定及定位。本發(fā)明利用音視頻相結(jié)合的方法,不僅增強(qiáng)了視頻拷貝檢測(cè)系統(tǒng)的健壯性,而且通過將音視頻特征進(jìn)行融合,大大加快了拷貝檢測(cè)系統(tǒng)的執(zhí)行效率,通過音視頻共同分析,提高了拷貝片段定位精度。
【專利說明】
音視頻拷貝檢測(cè)方法及裝置
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種音視頻拷貝檢測(cè)方法及裝置。
【背景技術(shù)】
[0002]在對(duì)視頻圖像進(jìn)行拷貝檢測(cè)時(shí),現(xiàn)有方案主要是采用偏向基于內(nèi)容的視頻拷貝檢測(cè)方法。目前主要有基于視頻關(guān)鍵幀的圖像特征的視頻拷貝檢測(cè)方案和基于音視頻特征檢測(cè)結(jié)果相結(jié)合的視頻拷貝檢測(cè)方案,其中:
[0003]基于視頻關(guān)鍵幀的圖像特征的視頻拷貝檢測(cè)方案,主要過程包括:視頻解碼及預(yù)處理、視頻圖像特征提取、特征索引和檢索、拷貝判定及定位,最終判定查詢視頻是否構(gòu)成拷貝,對(duì)于判定為拷貝的視頻,判斷拷貝片段的頭尾,從而標(biāo)記這部分片段為拷貝片段。但是,這種實(shí)現(xiàn)方案由于沒有將音頻信息納入視頻拷貝檢測(cè)方案,而音頻信息對(duì)于視頻的畫面內(nèi)容是一個(gè)重要的補(bǔ)充,由此,不僅削弱了視頻拷貝檢測(cè)系統(tǒng)的健壯性,而且對(duì)于拷貝片段的定位準(zhǔn)確性不高,特別是當(dāng)視頻畫面變化不大的情況下。
[0004]基于音視頻特征檢測(cè)結(jié)果相結(jié)合的視頻拷貝檢測(cè)方案,相比基于視頻關(guān)鍵幀的圖像特征的視頻拷貝檢測(cè)方案,該方案包含了音頻特征,從而可以充分利用音頻查詢速度快、準(zhǔn)確性較高的特點(diǎn)。然而,因?yàn)橐粢曨l特征本質(zhì)上不相同,現(xiàn)有的拷貝檢測(cè)方案往往是通過音視頻分別進(jìn)行視頻拷貝檢測(cè),并在結(jié)果層面進(jìn)行融合,從而判定查詢視頻是否是拷貝視頻。然而,在結(jié)果層面對(duì)拷貝檢測(cè)進(jìn)行融合需要提取較多的特征,并且需要大部分的特征都完成整個(gè)拷貝檢測(cè)流程,因而時(shí)間開銷較大,并且增加了相應(yīng)的算法復(fù)雜度。

【發(fā)明內(nèi)容】

[0005]本發(fā)明實(shí)施例提供一種音視頻拷貝檢測(cè)方法及裝置,旨在提高視頻拷貝檢測(cè)效率和精度。
[0006]本發(fā)明實(shí)施例提出一種音視頻拷貝檢測(cè)方法,包括:
[0007]獲取音視頻圖像,對(duì)所述音視頻圖像進(jìn)行解碼及預(yù)處理,得到所述音視頻圖像的音頻部分和視頻幀;
[0008]對(duì)所述音視頻圖像的音頻部分和視頻幀進(jìn)行特征提取,得到所述音視頻圖像對(duì)應(yīng)的音頻特征和視頻幀的圖像特征;
[0009]對(duì)所述音視頻圖像對(duì)應(yīng)的音頻特征和視頻幀的圖像特征進(jìn)行融合,得到所述音視頻圖像的音視頻融合特征;
[0010]基于預(yù)設(shè)的參考視頻的特征庫,對(duì)所述音視頻融合特征進(jìn)行匹配,得到所述音視頻圖像的幀集匹配結(jié)果;
[0011]基于所述音視頻圖像的幀集匹配結(jié)果以及參考視頻,對(duì)所述音視頻圖像進(jìn)行拷貝判定及定位。
[0012]本發(fā)明實(shí)施例還提出一種音視頻拷貝檢測(cè)裝置,包括:
[0013]解碼及預(yù)處理模塊,用于獲取音視頻圖像,對(duì)所述音視頻圖像進(jìn)行解碼及預(yù)處理,得到所述音視頻圖像的音頻部分和視頻幀;
[0014]特征提取模塊,用于對(duì)所述音視頻圖像的音頻部分和視頻幀進(jìn)行特征提取,得到所述音視頻圖像對(duì)應(yīng)的音頻特征和視頻幀的圖像特征;
[0015]融合模塊,用于對(duì)所述音視頻圖像對(duì)應(yīng)的音頻特征和視頻幀的圖像特征進(jìn)行融合,得到所述音視頻圖像的音視頻融合特征;
[0016]匹配模塊,用于基于預(yù)設(shè)的參考視頻的特征庫,對(duì)所述音視頻融合特征進(jìn)行匹配,得到所述音視頻圖像的幀集匹配結(jié)果;
[0017]拷貝判定模塊,用于基于所述音視頻圖像的幀集匹配結(jié)果以及參考視頻,對(duì)所述音視頻圖像進(jìn)行拷貝判定及定位。
[0018]本發(fā)明實(shí)施例提出的一種音視頻拷貝檢測(cè)方法及裝置,通過獲取音視頻圖像,對(duì)所述音視頻圖像進(jìn)行解碼及預(yù)處理,得到所述音視頻圖像的音頻部分和視頻幀;對(duì)所述音視頻圖像的音頻部分和視頻幀進(jìn)行特征提取,得到所述音視頻圖像對(duì)應(yīng)的音頻特征和視頻幀的圖像特征;對(duì)所述音視頻圖像對(duì)應(yīng)的音頻特征和視頻幀的圖像特征進(jìn)行融合,得到所述音視頻圖像的音視頻融合特征;基于預(yù)設(shè)的參考視頻的特征庫,對(duì)所述音視頻融合特征進(jìn)行匹配,得到所述音視頻圖像的幀集匹配結(jié)果;基于所述音視頻圖像的幀集匹配結(jié)果以及參考視頻,對(duì)所述音視頻圖像進(jìn)行拷貝判定及定位,從而利用音視頻相結(jié)合的方法,不僅增強(qiáng)了視頻拷貝檢測(cè)系統(tǒng)的健壯性,而且通過將音視頻特征進(jìn)行融合,大大加快了拷貝檢測(cè)系統(tǒng)的執(zhí)行效率,通過音視頻共同分析,提高了拷貝片段定位精度。
【附圖說明】
[0019]圖1是本發(fā)明音視頻拷貝檢測(cè)裝置的硬件結(jié)構(gòu)示意圖;
[0020]圖2是本發(fā)明音視頻拷貝檢測(cè)方法第一實(shí)施例的流程示意圖;
[0021]圖3是本發(fā)明實(shí)施例中音頻子帶能量差特征提取流程示意圖;
[0022]圖4是本發(fā)明實(shí)施例中提取音視頻圖像的視頻幀的圖像DCT特征的流程示意圖;
[0023]圖5是本發(fā)明實(shí)施例中圖像特征和音頻特征融合示意圖;
[0024]圖6是本發(fā)明實(shí)施例中涉及的simhash匹配算法示例圖;
[0025]圖7是本發(fā)明實(shí)施例中涉及的匹配算法設(shè)計(jì)示意圖;
[0026]圖8是本發(fā)明實(shí)施例中涉及的拷貝定位及擴(kuò)展示意圖;
[0027]圖9是本發(fā)明音視頻拷貝檢測(cè)方法第二實(shí)施例的流程示意圖;
[0028]圖10是本發(fā)明音視頻拷貝檢測(cè)裝置第一實(shí)施例的功能模塊示意圖;
[0029]圖11是本發(fā)明音視頻拷貝檢測(cè)裝置第二實(shí)施例的功能模塊示意圖。
[0030]為了使本發(fā)明的技術(shù)方案更加清楚、明了,下面將結(jié)合附圖作進(jìn)一步詳述。
【具體實(shí)施方式】
[0031]應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0032]本發(fā)明實(shí)施例的主要解決方案是:將視頻的音頻信息納入視頻拷貝檢測(cè)方案,利用音視頻相結(jié)合的方法,不僅可以增強(qiáng)視頻拷貝檢測(cè)系統(tǒng)的健壯性,而且通過將音視頻特征進(jìn)行融合,大大加快拷貝檢測(cè)系統(tǒng)的執(zhí)行效率,通過音視頻共同分析,提高拷貝片段定位精度。
[0033]具體地,本發(fā)明實(shí)施例考慮到,現(xiàn)有的視頻拷貝檢測(cè)方案,要么僅采用基于視頻關(guān)鍵幀的圖像特征的視頻拷貝檢測(cè)方案,不僅削弱了視頻拷貝檢測(cè)系統(tǒng)的健壯性,而且對(duì)于拷貝片段的定位準(zhǔn)確性不高;要么采用基于音視頻特征檢測(cè)結(jié)果相結(jié)合的視頻拷貝檢測(cè)方案,然而,在結(jié)果層面對(duì)拷貝檢測(cè)進(jìn)行融合需要提取較多的特征,并且需要大部分的特征都完成整個(gè)拷貝檢測(cè)流程,因而增加了時(shí)間開銷,而相應(yīng)的算法復(fù)雜度與數(shù)據(jù)集成線性相關(guān),從而增加了算法復(fù)雜度。
[0034]本實(shí)施例方案將視頻的音頻信息納入視頻拷貝檢測(cè)方案,利用音視頻相結(jié)合的方法,通過音視頻解碼及預(yù)處理、音視頻特征提取、音視頻特征融合、拷貝判定及定位等處理過程,不僅可以增強(qiáng)視頻拷貝檢測(cè)系統(tǒng)的健壯性,而且通過將音視頻特征進(jìn)行融合,大大加快拷貝檢測(cè)系統(tǒng)的執(zhí)行效率,通過音視頻共同分析,提高拷貝片段定位精度。
[0035]具體地,本發(fā)明實(shí)施例音視頻拷貝檢測(cè)方案涉及的音視頻拷貝檢測(cè)裝置的硬件結(jié)構(gòu)可以如圖1所示,該檢測(cè)裝置可以承載于PC端,也可以承載于手機(jī)、平板電腦、便攜式手持設(shè)備等移動(dòng)終端或者其他具有音視頻拷貝檢測(cè)功能的電子設(shè)備中,比如媒體播放設(shè)備。
[0036]如圖1所示,該檢測(cè)裝置可以包括:處理器1001,例如CPU,網(wǎng)絡(luò)接口 1004,用戶接口 1003,存儲(chǔ)器1005,通信總線1002,攝像頭1006。其中,通信總線1002用于實(shí)現(xiàn)檢測(cè)裝置的這些組件之間的連接通信。用戶接口 1003可以包括顯示屏(Display)、輸入單元比如鍵盤(Keyboard),可選用戶接口 1003還可以包括標(biāo)準(zhǔn)的有線接口、無線接口。網(wǎng)絡(luò)接口1004可選的可以包括標(biāo)準(zhǔn)的有線接口、無線接口(如W1-FI接口)。存儲(chǔ)器1005可以是高速RAM存儲(chǔ)器,也可以是穩(wěn)定的存儲(chǔ)器(non-volatile memory),例如磁盤存儲(chǔ)器。存儲(chǔ)器1005可選的還可以是獨(dú)立于前述處理器1001的存儲(chǔ)裝置。
[0037]可選地,該檢測(cè)裝置在承載于移動(dòng)終端時(shí),還可以包括RF(Radi0 Frequency,射頻)電路,傳感器、音頻電路、WiFi模塊等等。其中,傳感器比如光傳感器、運(yùn)動(dòng)傳感器以及其他傳感器。具體地,光傳感器可包括環(huán)境光傳感器及接近傳感器,其中,環(huán)境光傳感器可根據(jù)環(huán)境光線的明暗來調(diào)節(jié)顯示屏的亮度,接近傳感器可在移動(dòng)終端移動(dòng)到耳邊時(shí),關(guān)閉顯示屏和/或背光。作為運(yùn)動(dòng)傳感器的一種,重力加速度傳感器可檢測(cè)各個(gè)方向上(一般為三軸)加速度的大小,靜止時(shí)可檢測(cè)出重力的大小及方向,可用于識(shí)別移動(dòng)終端姿態(tài)的應(yīng)用(比如橫豎屏切換、相關(guān)游戲、磁力計(jì)姿態(tài)校準(zhǔn))、振動(dòng)識(shí)別相關(guān)功能(比如計(jì)步器、敲擊)等;當(dāng)然,該檢測(cè)裝置還可配置陀螺儀、氣壓計(jì)、濕度計(jì)、溫度計(jì)、紅外線傳感器等其他傳感器,在此不再贅述。
[0038]本領(lǐng)域技術(shù)人員可以理解,圖1中示出的裝置結(jié)構(gòu)并不構(gòu)成對(duì)該檢測(cè)裝置的限定,可以包括比圖示更多或更少的部件,或者組合某些部件,或者不同的部件布置。
[0039]如圖1所示,作為一種計(jì)算機(jī)存儲(chǔ)介質(zhì)的存儲(chǔ)器1005中可以包括操作系統(tǒng)、網(wǎng)絡(luò)通信模塊、用戶接口模塊以及音視頻拷貝檢測(cè)應(yīng)用程序。
[0040]在圖1所示的檢測(cè)裝置中,網(wǎng)絡(luò)接口 1004主要用于連接后臺(tái)管理平臺(tái),與后臺(tái)管理平臺(tái)進(jìn)行數(shù)據(jù)通信;用戶接口 1003主要用于連接客戶端,與客戶端進(jìn)行數(shù)據(jù)通信;而處理器1001可以用于調(diào)用存儲(chǔ)器1005中存儲(chǔ)的音視頻拷貝檢測(cè)應(yīng)用程序,并執(zhí)行以下操作:
[0041]獲取音視頻圖像,對(duì)所述音視頻圖像進(jìn)行解碼及預(yù)處理,得到所述音視頻圖像的音頻部分和視頻幀;
[0042]對(duì)所述音視頻圖像的音頻部分和視頻幀進(jìn)行特征提取,得到所述音視頻圖像對(duì)應(yīng)的音頻特征和視頻幀的圖像特征;
[0043]對(duì)所述音視頻圖像對(duì)應(yīng)的音頻特征和視頻幀的圖像特征進(jìn)行融合,得到所述音視頻圖像的音視頻融合特征;
[0044]基于預(yù)設(shè)的參考視頻的特征庫,對(duì)所述音視頻融合特征進(jìn)行匹配,得到所述音視頻圖像的幀集匹配結(jié)果;
[0045]基于所述音視頻圖像的幀集匹配結(jié)果以及參考視頻,對(duì)所述音視頻圖像進(jìn)行拷貝判定及定位。
[0046]在一個(gè)實(shí)施例中,處理器1001調(diào)用存儲(chǔ)器1005中存儲(chǔ)的音視頻拷貝檢測(cè)應(yīng)用程序可以執(zhí)行以下操作:
[0047]對(duì)所述音視頻圖像的音頻部分的音頻幀進(jìn)行濾波,并通過傅里葉變換轉(zhuǎn)化到頻率域的能量;
[0048]將得到的頻率域能量按照對(duì)數(shù)關(guān)系劃分成若干處于預(yù)定頻率范圍的子帶;
[0049]計(jì)算相鄰子帶之間的能量的絕對(duì)值的差,得到音頻幀的音頻子帶能量差特征;
[0050]按照預(yù)定間隔進(jìn)行音頻幀的采樣,得到所述音視頻圖像的音頻部分的音頻子帶能量差特征。
[0051]在一個(gè)實(shí)施例中,處理器1001調(diào)用存儲(chǔ)器1005中存儲(chǔ)的音視頻拷貝檢測(cè)應(yīng)用程序可以執(zhí)行以下操作:
[0052]對(duì)所述音視頻圖像的視頻幀,將其圖像轉(zhuǎn)化為灰度圖像并進(jìn)行壓縮處理;
[0053]對(duì)壓縮處理后的灰度圖像分成若干子塊;
[0054]計(jì)算每一子塊的DCT能量值;
[0055]比較相鄰兩個(gè)子塊之間的DCT能量值,得到所述視頻幀的圖像DCT特征;
[0056]依據(jù)上述處理過程,得到所述音視頻圖像的視頻幀的圖像DCT特征。
[0057]在一個(gè)實(shí)施例中,處理器1001調(diào)用存儲(chǔ)器1005中存儲(chǔ)的音視頻拷貝檢測(cè)應(yīng)用程序可以執(zhí)行以下操作:
[0058]設(shè)定所述音頻特征為每秒M個(gè)32比特的特征,視頻幀的圖像特征為每秒η個(gè)32比特的特征,其中,η為視頻的幀率,η小于或等于60 ;
[0059]將一個(gè)視頻幀對(duì)應(yīng)到若干幀音頻幀的方式來進(jìn)行特征拼接,得到每秒產(chǎn)生M個(gè)64比特的音視頻融合特征,其中,每一個(gè)音視頻融合特征都對(duì)應(yīng)一個(gè)單獨(dú)的音頻幀的音頻特征,相鄰的Μ/η個(gè)音視頻融合特征對(duì)應(yīng)相同的一個(gè)視頻幀的圖像特征。
[0060]在一個(gè)實(shí)施例中,處理器1001調(diào)用存儲(chǔ)器1005中存儲(chǔ)的音視頻拷貝檢測(cè)應(yīng)用程序可以執(zhí)行以下操作:
[0061]從預(yù)設(shè)的參考視頻的特征庫中獲取匹配表;
[0062]對(duì)于每一音視頻融合特征,從所述匹配表中查詢與所述音視頻融合特征之間的漢明距離不超過預(yù)設(shè)閾值的特征,作為所述音視頻融合特征的相似特征;
[0063]獲取音視頻融合特征的相似特征,得到所述音視頻圖像的幀集匹配結(jié)果。
[0064]在一個(gè)實(shí)施例中,處理器1001調(diào)用存儲(chǔ)器1005中存儲(chǔ)的音視頻拷貝檢測(cè)應(yīng)用程序可以執(zhí)行以下操作:
[0065]對(duì)所述相似特征對(duì)應(yīng)的參考視頻的音視頻幀進(jìn)行時(shí)間擴(kuò)展,得到所述音視頻圖像中對(duì)應(yīng)的音視頻幀相比所述參考視頻構(gòu)成的相似片段;
[0066]基于所述相似片段,計(jì)算所述音視頻圖像中對(duì)應(yīng)的音視頻幀與參考視頻的相似度;
[0067]若所述相似度大于設(shè)定閾值,則判斷所述音視頻圖像構(gòu)成拷貝,并記錄所述音視頻圖像的相似片段的起始位置和終止位置。
[0068]在一個(gè)實(shí)施例中,處理器1001調(diào)用存儲(chǔ)器1005中存儲(chǔ)的音視頻拷貝檢測(cè)應(yīng)用程序可以執(zhí)行以下操作:
[0069]在所述參考視頻的特征庫中創(chuàng)建所述匹配表。
[0070]本實(shí)施例通過上述方案,具體通過獲取音視頻圖像,對(duì)所述音視頻圖像進(jìn)行解碼及預(yù)處理,得到所述音視頻圖像的音頻部分和視頻幀;對(duì)所述音視頻圖像的音頻部分和視頻幀進(jìn)行特征提取,得到所述音視頻圖像對(duì)應(yīng)的音頻特征和視頻幀的圖像特征;對(duì)所述音視頻圖像對(duì)應(yīng)的音頻特征和視頻幀的圖像特征進(jìn)行融合,得到所述音視頻圖像的音視頻融合特征;基于預(yù)設(shè)的參考視頻的特征庫,對(duì)所述音視頻融合特征進(jìn)行匹配,得到所述音視頻圖像的幀集匹配結(jié)果;基于所述音視頻圖像的幀集匹配結(jié)果以及參考視頻,對(duì)所述音視頻圖像進(jìn)行拷貝判定及定位,從而利用音視頻相結(jié)合的方法,不僅增強(qiáng)了視頻拷貝檢測(cè)系統(tǒng)的健壯性,而且通過將音視頻特征進(jìn)行融合,大大加快了拷貝檢測(cè)系統(tǒng)的執(zhí)行效率,通過音視頻共同分析,提高了拷貝片段定位精度。
[0071]基于上述硬件結(jié)構(gòu),提出本發(fā)明音視頻拷貝檢測(cè)方法實(shí)施例。
[0072]如圖2所示,本發(fā)明第一實(shí)施例提出一種音視頻拷貝檢測(cè)方法,包括:
[0073]步驟SlOl,獲取音視頻圖像,對(duì)所述音視頻圖像進(jìn)行解碼及預(yù)處理,得到所述音視頻圖像的音頻部分和視頻幀;
[0074]具體地,首先,獲取需要進(jìn)行拷貝檢測(cè)的音視頻圖像,該音視頻圖像可以從本地獲取,也可以通過網(wǎng)絡(luò)從外部獲取。
[0075]對(duì)獲取的音視頻圖像進(jìn)行解碼及預(yù)處理,提取視頻的音頻,并降采樣到單聲道5512.5Hz ;逐幀提取視頻的每一幀,從而得到音視頻圖像的音頻部分和每一幀的視頻幀。
[0076]步驟S102,對(duì)所述音視頻圖像的音頻部分和視頻幀進(jìn)行特征提取,得到所述音視頻圖像對(duì)應(yīng)的音頻特征和視頻幀的圖像特征;
[0077]該部分主要是對(duì)于一個(gè)視頻對(duì)應(yīng)的音頻和全部視頻幀進(jìn)行特征提取。因?yàn)橐纛l特征本身容易用二進(jìn)制比特來表示,所以往往采用二進(jìn)制的索引或LSH來加速查詢。本發(fā)明所提取的音頻特征為音頻子帶能量差特征,提取的視頻幀的圖像特征為DCT(DiscreteCosine Transform,離散余弦變換)特征。
[0078]其中,對(duì)所述音視頻圖像的音頻部分進(jìn)行特征提取,得到所述音視頻圖像對(duì)應(yīng)的音頻特征的過程包括:
[0079]對(duì)所述音視頻圖像的音頻部分的每一音頻幀進(jìn)行濾波,并通過傅里葉變換轉(zhuǎn)化到頻率域的能量;將得到的頻率域能量按照對(duì)數(shù)關(guān)系劃分成若干處于預(yù)定頻率范圍的子帶;計(jì)算相鄰子帶之間的能量的絕對(duì)值的差,得到每一音頻幀的音頻子帶能量差特征;按照預(yù)定間隔進(jìn)行音頻幀的采樣,得到所述音視頻圖像的音頻部分的音頻子帶能量差特征。
[0080]更為具體地,本實(shí)施例音頻子帶能量差特征的提取流程如圖3所示:
[0081]該音頻子帶能量差特征的提取涉及的算法的主要步驟是:
[0082]首先,將每0.37秒的時(shí)域音頻波形信息(音頻幀)經(jīng)過漢寧窗(Hanning Window)濾波后通過傅里葉變換轉(zhuǎn)化到頻率域的能量;
[0083]其次,將得到的頻率域能量按照對(duì)數(shù)關(guān)系(Bark等級(jí))劃分成33個(gè)位于人耳聽覺范圍(300Hz?2000Hz)的子帶,并且計(jì)算相鄰幀(間隔11毫秒)相鄰子帶之間的能量的絕對(duì)值的差,從而對(duì)每一個(gè)音頻幀都可以得到一個(gè)32比特的音頻特征。
[0084]其中的“I”代表當(dāng)前音頻幀某相鄰兩個(gè)子帶的能量差大于下一個(gè)音頻幀對(duì)應(yīng)的相鄰子帶的能量差,否則為O。
[0085]具體過程如下:
[0086]在圖3中,輸入內(nèi)容是一段音頻;輸出內(nèi)容是這段音頻對(duì)應(yīng)的若干個(gè)(η個(gè))音頻特征。
[0087]其中,F(xiàn)raming:分幀,S卩:將該音頻片段切分為若干個(gè)(η個(gè))音頻幀。本實(shí)例中按照每秒采集M = 2048個(gè)音頻幀(其他實(shí)例中M還可以為其他設(shè)定值),每個(gè)音頻幀包含
0.37秒的音頻內(nèi)容(相鄰音頻幀之間有2047/2048的重疊)。
[0088]Fourier Transform:傅里葉變換,用于將時(shí)域的波形信息(原始音頻)轉(zhuǎn)換為頻率域的不同頻段波的能量信息,便于進(jìn)行分析處理。
[0089]ABS:取波能量信息的絕對(duì)值(即:只考慮振幅,不考慮振動(dòng)方向)。
[0090]Band Divis1n:分帶,將整個(gè)頻率域在300Ηζ_2000Ηζ之間分成33個(gè)互不重疊的頻率帶(按照對(duì)數(shù)關(guān)系進(jìn)行劃分,即:頻率越低,該頻率所屬頻率帶范圍越小)。這樣,可以得到原始音頻在這些不同頻率帶上的能量。
[0091]Energy Computat1n:計(jì)算每一個(gè)音頻幀在這33個(gè)頻率帶上的能量值(每個(gè)音頻幀得到33個(gè)能量值)。
[0092]Bit Derivat1n:導(dǎo)出比特:對(duì)上述的33個(gè)能量值進(jìn)行依次比較(第i個(gè)子帶的能量和第i+Ι個(gè)子帶的能量進(jìn)行比較)得到32個(gè)能量值的差值。比較當(dāng)前音頻幀a和下一個(gè)音頻幀b之間這32個(gè)能量值差值的大小。假設(shè)a的第j個(gè)能量值差值比b的第j個(gè)能量值差值大,則a的第j位特征為1,否則,a的第j位特征為O。這樣可以得到a與b之間32個(gè)能量值差值的大小關(guān)系,即為音頻幀a的32比特的特征。
[0093]本發(fā)明采用了這種音頻特征,并且按照1/2048秒的間隔進(jìn)行音頻幀的采樣,從而對(duì)于每一秒的音頻片段都會(huì)生成2048個(gè)32比特的音頻特征。
[0094]對(duì)所述音視頻圖像的視頻幀進(jìn)行特征提取,得到音視頻圖像對(duì)應(yīng)的視頻幀的圖像特征的過程可以包括:
[0095]對(duì)所述音視頻圖像的每一視頻幀,將其圖像轉(zhuǎn)化為灰度圖像并進(jìn)行壓縮處理;對(duì)壓縮處理后的灰度圖像分成若干子塊;計(jì)算每一子塊的DCT能量值;比較相鄰兩個(gè)子塊之間的DCT能量值,得到所述視頻幀的圖像DCT特征;依據(jù)上述處理過程,得到所述音視頻圖像的視頻幀的圖像DCT特征。
[0096]更為具體地,本實(shí)施例提取音視頻圖像的視頻幀的圖像DCT特征的流程如圖4所示:
[0097]針對(duì)互聯(lián)網(wǎng)視頻畫面總體變化幅度不大的特點(diǎn),本發(fā)明實(shí)施例選用了一種高效的圖像全局特征來作為視頻幀的圖像特征:DCT特征。
[0098]DCT特征的算法思想是:將圖像分割成若干個(gè)子塊,通過比較相鄰的子塊之間的能量高低,從而得到整幅圖像的能量分布情況。具體的算法步驟是:
[0099]首先,將彩色圖像轉(zhuǎn)化為灰度圖像并壓縮(改變寬高比)到寬64像素、高32像素。
[0100]然后,將灰度圖像分成32子塊(如圖4所示的O?31),每一塊包含8x8像素的圖像。
[0101]對(duì)于每一個(gè)子塊,計(jì)算該子塊的DCT能量值。選擇最高能帶的能量值的絕對(duì)值代表該子塊的能量。
[0102]最后,計(jì)算相鄰子塊能量值相對(duì)大小并得到一個(gè)32比特的特征。如果第i子塊的能量大于第i+Ι子塊的能量,則第i比特位為1,否則為O。特別地:第31子塊和第O子塊進(jìn)行比較。
[0103]通過上述過程,每一個(gè)視頻幀都將得到一個(gè)32比特的圖像DCT特征。
[0104]步驟S103,對(duì)所述音視頻圖像對(duì)應(yīng)的音頻特征和視頻幀的圖像特征進(jìn)行融合,得到所述音視頻圖像的音視頻融合特征;
[0105]在經(jīng)過上述過程得到了視頻對(duì)應(yīng)的音頻特征和視頻幀的圖像特征后,將得到的圖像特征和音頻特征進(jìn)行融合。具體的融合方法如圖5所示(其中:縱軸為時(shí)間軸)。
[0106]如圖5所示,在本實(shí)施例中,設(shè)定音頻特征為每秒M= 2048(該值可以設(shè)定)個(gè)32比特的特征,而視頻幀的圖像特征為每秒η個(gè)32比特的特征(η為視頻的幀率,η —般不超過 60) ο
[0107]因而,本實(shí)施例通過將一個(gè)視頻幀對(duì)應(yīng)到若干音頻幀的方式來進(jìn)行特征拼接,即:每秒產(chǎn)生2048個(gè)64比特的音視頻融合特征,其中,每一個(gè)融合特征都對(duì)應(yīng)一個(gè)單獨(dú)的音頻幀的特征,而相鄰的2048/η個(gè)音視頻融合特征對(duì)應(yīng)相同的一個(gè)視頻幀的圖像DCT特征。
[0108]通過上述對(duì)音視頻圖像對(duì)應(yīng)的音頻特征和視頻幀的圖像特征進(jìn)行融合,得到音視頻圖像的音視頻融合特征。
[0109]步驟S104,基于預(yù)設(shè)的參考視頻的特征庫,對(duì)所述音視頻融合特征進(jìn)行匹配,得到所述音視頻圖像的幀集匹配結(jié)果;
[0110]本實(shí)施例預(yù)先設(shè)定有參考視頻的特征庫,在參考視頻的特征庫中創(chuàng)建有匹配表,以方便待檢測(cè)視頻相應(yīng)特征可以快速進(jìn)行檢索。
[0111]在對(duì)音視頻融合特征進(jìn)行匹配時(shí),首先,從預(yù)設(shè)的參考視頻的特征庫中獲取匹配表;對(duì)于每一音視頻融合特征,從所述匹配表中查詢符合預(yù)設(shè)條件的特征,作為音視頻融合特征的相似特征。比如從所述匹配表中查詢與音視頻融合特征之間的漢明距離不超過預(yù)設(shè)閾值(比如3)的特征,作為所述音視頻融合特征的相似特征;獲取所有音視頻融合特征的相似特征,得到所述音視頻圖像的幀集匹配結(jié)果。
[0112]更為具體地,本實(shí)施例考慮到:
[0113]對(duì)于一個(gè)查詢視頻(需要進(jìn)行拷貝檢測(cè)的視頻)和一個(gè)參考視頻,如果通過逐幀比較兩者特征的相似度,所需要的時(shí)間復(fù)雜度與這兩個(gè)視頻都成正比,因而不利于擴(kuò)展到大規(guī)模數(shù)據(jù)庫的情況。因此,本發(fā)明基于已有的simhash技術(shù),提出了一種基于音視頻融合特征的索引及查詢的匹配策略。
[0114]其中,Simhash索引的基本目的是:在眾多64比特的特征庫中,對(duì)于查詢的一個(gè)64比特特征,快速查找到與這個(gè)64比特特征的漢明距離小于或等于3的所有特征(即64比特中最多有3比特與該特征不同)。該算法的原理示意圖如圖6所示。對(duì)于64比特?cái)?shù)據(jù),若限定漢明距離為3,那么將64比特劃分成4個(gè)16比特,必定存在一個(gè)16比特與查詢特征完全一致。類似的,在剩余的48比特中,一定存在一個(gè)12比特的分塊與查詢特征完全一致。通過兩次索引查找匹配之后,可以在剩下的36比特中,枚舉最多3個(gè)有差異的位,從而可以大大降低原有的算法的復(fù)雜度。
[0115]本發(fā)明使用的64比特音視頻融合特征同樣具有simhash —樣的查詢特性,即:需要找到與某個(gè)64位特征最多相差3比特的所有特征(認(rèn)為這兩個(gè)特征是相關(guān)的)。此外,還有如下的限定條件:即:這兩個(gè)相關(guān)特征的前32位最多相差2比特,且這兩個(gè)特征的后32位最多相差2比特?;诖耍緦?shí)施例仿照simhash的做法,但是將索引表個(gè)數(shù)擴(kuò)展到24個(gè),具體擴(kuò)展方法如圖7所示:
[0116]如圖7所示的匹配算法設(shè)計(jì)中,考慮后32位最多I比特差異的情況,則前32位最多有16比特差異,那么對(duì)于圖7而言,A、B、C、D中至少有2塊完全一致,并且E、F中至少有一塊完全一致,因此可以構(gòu)建一個(gè)32比特完全一致的匹配表。這樣的查詢表一共有C (4, 2)*C(2, I) *2,因?yàn)橐部赡芮?2比特最多差2位。因此,可以一共構(gòu)建了 24個(gè)子表,作為創(chuàng)建的匹配表,用來快速查詢音視頻融合特征。
[0117]然后,通過查詢上述構(gòu)建的匹配表,獲取音視頻融合特征的相似特征,得到特征檢索的結(jié)果。
[0118]步驟S105,基于所述音視頻圖像的幀集匹配結(jié)果以及參考視頻,對(duì)所述音視頻圖像進(jìn)行拷貝判定及定位。
[0119]根據(jù)上述過程中得到的特征檢索的結(jié)果,并結(jié)合視頻拷貝片段定位方法,從而判定查詢視頻是否為拷貝視頻。如果判定查詢視頻是拷貝視頻,則給出相應(yīng)的拷貝片段定位。
[0120]本實(shí)施例考慮到:對(duì)于兩個(gè)視頻,如果計(jì)算這兩個(gè)視頻之間個(gè)幀之間的相似度,則會(huì)得到圖8中最右邊所示的相似度矩陣。從而,找到兩個(gè)視頻相似片段的目標(biāo)也就轉(zhuǎn)化成了在相似度矩陣中找到相似度高于一定閾值的線段,然而這種處理方式時(shí)間開銷加大。
[0121]本實(shí)施例中對(duì)音視頻圖像進(jìn)行拷貝判定及定位的原理是:通過上述匹配算法,可以找到相似度矩陣中最亮的一些點(diǎn)(代表這些點(diǎn)相似度最高),如圖8中最左邊所示的亮點(diǎn),并且通過這些點(diǎn)進(jìn)行時(shí)間擴(kuò)展,從而可以得到圖8中間所示的相似片段(即可能的拷貝片段),之后通過閾值進(jìn)行篩選,從而可以判定某兩個(gè)視頻是否構(gòu)成拷貝,且如果構(gòu)成拷貝,則可以記錄該相似片段的起始位置和終止位置分布時(shí)刻。
[0122]具體地,在對(duì)音視頻圖像進(jìn)行拷貝判定及定位時(shí),首先對(duì)上述過程獲取的相似特征對(duì)應(yīng)的參考視頻的音視頻幀(對(duì)應(yīng)圖8最左邊圖所示的亮點(diǎn))進(jìn)行時(shí)間擴(kuò)展,得到所述參考視頻的參考視頻片段,對(duì)所述相似特征對(duì)應(yīng)的音視頻圖像中的音視頻幀進(jìn)行時(shí)間擴(kuò)展,得到所述音視頻圖像中相比所述參考視頻構(gòu)成的相似片段(如圖8中間圖所示);計(jì)算所述音視頻圖像中所述相似片段與所述參考視頻片段之間的相似度,即計(jì)算音視頻圖像中相似片段對(duì)應(yīng)的音視頻幀與參考視頻片段對(duì)應(yīng)的音視頻幀的相似度,對(duì)得到的各音視頻幀的相似度取平均值;若所述相似度大于設(shè)定閾值,則判斷所述音視頻圖像構(gòu)成拷貝,并記錄所述音視頻圖像的相似片段的起始位置和終止位置。
[0123]也就是說,在計(jì)算音視頻圖像中相似片段對(duì)應(yīng)的音視頻幀與參考視頻的相似度時(shí),對(duì)該相似片段中的每一幀(包括64比特的特征)與參照視頻片段對(duì)應(yīng)幀進(jìn)行特征對(duì)比,計(jì)算相似度,之后取平均值,將此平均值與預(yù)設(shè)閾值比較,若相似度大于設(shè)定閾值,則判斷所述音視頻圖像構(gòu)成拷貝,并記錄所述音視頻圖像的相似片段的起始位置和終止位置。
[0124]舉例如下:
[0125]若相似片段中,查詢視頻的10-20秒之間的100幀(即一個(gè)音視頻序列)對(duì)應(yīng)參考視頻的30-40秒之間的100幀,則將查詢視頻的10-20秒之間的100幀中的每一幀對(duì)應(yīng)與參考視頻的30-40秒之間的100幀中的每一幀進(jìn)行比對(duì),分別計(jì)算每一幀的相似度,比如第一幀64比特中,有50比特的特征與參考視頻幀相同,則該第一幀的相似度SI =50/64?0.78125 ;以此原理,得到第二幀的相似度S2,……,100幀的相似度S100,對(duì)各相似度取平均值,得到相似片段中,查詢視頻與參考視頻的相似度,假設(shè)為0.95,將其與設(shè)定閾值(設(shè)為0.9)比較,由此可以判斷查詢視頻構(gòu)成拷貝,并記錄該相似片段的起始位置和終止位置。
[0126]在上述拷貝判定和定位過程中,一個(gè)查詢視頻可能存在多個(gè)相似片段的情形,可以將該多個(gè)相似片段串起來記錄。
[0127]需要說明的是,本實(shí)施例上述過程中,在根據(jù)幀集匹配結(jié)果來判斷查詢視頻是否是參考視頻庫中某個(gè)視頻的拷貝時(shí),也可以使用其他算法來實(shí)現(xiàn),比如:霍夫變換、SmithWaterman算法、Blast算法、時(shí)域金字塔算法等。通過這些算法找到查詢視頻與某個(gè)參考視頻最相似的一段序列,并通過閾值來判定是否構(gòu)成拷貝。對(duì)于判定為拷貝的視頻,判斷拷貝片段的頭尾,從而標(biāo)記這部分片段為拷貝片段。
[0128]本實(shí)施例通過上述方案,利用音視頻相結(jié)合的方法,不僅增強(qiáng)了視頻拷貝檢測(cè)系統(tǒng)的健壯性,而且通過將音視頻特征進(jìn)行融合,大大加快了拷貝檢測(cè)系統(tǒng)的執(zhí)行效率,通過音視頻共同分析,提高了拷貝片段定位精度。
[0129]如圖9所示,本發(fā)明第二實(shí)施例提出一種音視頻拷貝檢測(cè)方法,基于上述實(shí)施例,在獲取音視頻圖像的步驟之前,還包括:
[0130]步驟S100,在所述參考視頻的特征庫中創(chuàng)建所述匹配表。
[0131]具體地,創(chuàng)建匹配表,是為了方便待檢測(cè)視頻相應(yīng)特征可以快速進(jìn)行檢索。
[0132]匹配表是基于參考視頻創(chuàng)建的,具體創(chuàng)建過程如下:
[0133]首先,收集參考視頻片段,對(duì)參考視頻片段進(jìn)行音視頻解碼及預(yù)處理,得到參考視頻的音頻部分和視頻幀。
[0134]然后,對(duì)參考視頻的音頻部分和視頻幀進(jìn)行特征提取,得到參考視頻的音頻特征和視頻幀的圖像特征。
[0135]之后,對(duì)參考視頻進(jìn)行音視頻特征融合,得到參考視頻的音視頻融合特征。
[0136]最后,基于該參考視頻的音視頻融合特征創(chuàng)建匹配表,以供后續(xù)的查詢視頻進(jìn)行特征索引檢索匹配。
[0137]其中,在基于該參考視頻的音視頻融合特征創(chuàng)建匹配表時(shí),基于以下原理:
[0138]考慮到:對(duì)于一個(gè)查詢視頻(需要進(jìn)行拷貝檢測(cè)的視頻)和一個(gè)參考視頻,如果通過逐幀比較兩者特征的相似度,所需要的時(shí)間復(fù)雜度與這兩個(gè)視頻都成正比,因而不利于擴(kuò)展到大規(guī)模數(shù)據(jù)庫的情況。因此,本發(fā)明基于已有的simhash技術(shù),提出了一種基于音視頻融合特征的索引及查詢的匹配策略。
[0139]其中,Simhash索引的基本目的是:在眾多64比特的特征庫中,對(duì)于查詢的一個(gè)64比特特征,快速查找到與這個(gè)64比特特征的漢明距離小于或等于3的所有特征(即64比特中最多有3比特與該特征不同)。該算法的示意圖如圖6所示。對(duì)于64比特?cái)?shù)據(jù),若限定漢明距離為3,那么將64比特劃分成4個(gè)16比特,必定存在一個(gè)16比特與查詢特征完全一致。類似的,在剩余的48比特中,一定存在一個(gè)12比特的分塊與查詢特征完全一致。通過兩次索引查找匹配之后,可以在剩下的36比特中,枚舉最多3個(gè)有差異的位,從而可以大大降低原有的算法的復(fù)雜度。
[0140]本發(fā)明使用的64比特音視頻融合特征同樣具有simhash —樣的查詢特性,即:需要找到與某個(gè)64位特征最多相差3比特的所有特征(認(rèn)為這兩個(gè)特征是相關(guān)的)。此外,還有如下的限定條件:即:這兩個(gè)相關(guān)特征的前32位最多相差2比特,且這兩個(gè)特征的后32位最多相差2比特?;诖耍緦?shí)施例仿照simhash的做法,但是將索引表個(gè)數(shù)擴(kuò)展到24個(gè),具體擴(kuò)展方法如圖7所示:
[0141]如圖7所示的匹配算法設(shè)計(jì)中,考慮后32位最多I比特差異的情況,則前32位最多有16比特差異,那么對(duì)于圖7而言,A、B、C、D中至少有2塊完全一致,并且E、F中至少有一塊完全一致,因此可以構(gòu)建一個(gè)32比特完全一致的匹配表。這樣的查詢表一共有C (4, 2)*C(2, I) *2,因?yàn)橐部赡芮?2比特最多差2位。因此,可以一共構(gòu)建了 24個(gè)子表,作為創(chuàng)建的匹配表,用來快速查詢音視頻融合特征。
[0142]對(duì)應(yīng)地,提出本發(fā)明實(shí)施例音視頻拷貝檢測(cè)裝置的功能模塊實(shí)施例。
[0143]如圖10所示,本發(fā)明第一實(shí)施例提出一種音視頻拷貝檢測(cè)裝置,包括:解碼及預(yù)處理模塊201、特征提取模塊202、融合模塊203、匹配模塊204及拷貝判定模塊205,其中:
[0144]解碼及預(yù)處理模塊201,用于獲取音視頻圖像,對(duì)所述音視頻圖像進(jìn)行解碼及預(yù)處理,得到所述音視頻圖像的音頻部分和視頻幀;
[0145]特征提取模塊202,用于對(duì)所述音視頻圖像的音頻部分和視頻幀進(jìn)行特征提取,得到所述音視頻圖像對(duì)應(yīng)的音頻特征和視頻幀的圖像特征;
[0146]融合模塊203,用于對(duì)所述音視頻圖像對(duì)應(yīng)的音頻特征和視頻幀的圖像特征進(jìn)行融合,得到所述音視頻圖像的音視頻融合特征;
[0147]匹配模塊204,用于基于預(yù)設(shè)的參考視頻的特征庫,對(duì)所述音視頻融合特征進(jìn)行匹配,得到所述音視頻圖像的幀集匹配結(jié)果;
[0148]拷貝判定模塊205,用于基于所述音視頻圖像的幀集匹配結(jié)果以及參考視頻,對(duì)所述音視頻圖像進(jìn)行拷貝判定及定位。
[0149]具體地,首先,獲取需要進(jìn)行拷貝檢測(cè)的音視頻圖像,該音視頻圖像可以從本地獲取,也可以通過網(wǎng)絡(luò)從外部獲取。
[0150]對(duì)獲取的音視頻圖像進(jìn)行解碼及預(yù)處理,提取視頻的音頻,并降采樣到單聲道5512.5Hz ;逐幀提取視頻的每一幀,從而得到音視頻圖像的音頻部分和每一幀的視頻幀。
[0151]之后,對(duì)所述音視頻圖像的音頻部分和視頻幀進(jìn)行特征提取,得到所述音視頻圖像對(duì)應(yīng)的音頻特征和視頻幀的圖像特征。
[0152]該部分主要是對(duì)于一個(gè)視頻對(duì)應(yīng)的音頻和全部視頻幀進(jìn)行特征提取。因?yàn)橐纛l特征本身容易用二進(jìn)制比特來表示,所以往往采用二進(jìn)制的索引或LSH來加速查詢。本發(fā)明所提取的音頻特征為音頻子帶能量差特征,提取的視頻幀的圖像特征為DCT(DiscreteCosine Transform,離散余弦變換)特征。
[0153]其中,對(duì)所述音視頻圖像的音頻部分進(jìn)行特征提取,得到所述音視頻圖像對(duì)應(yīng)的音頻特征的過程包括:
[0154]對(duì)所述音視頻圖像的音頻部分的每一音頻幀進(jìn)行濾波,并通過傅里葉變換轉(zhuǎn)化到頻率域的能量;將得到的頻率域能量按照對(duì)數(shù)關(guān)系劃分成若干處于預(yù)定頻率范圍的子帶;計(jì)算相鄰子帶之間的能量的絕對(duì)值的差,得到每一音頻幀的音頻子帶能量差特征;按照預(yù)定間隔進(jìn)行音頻幀的采樣,得到所述音視頻圖像的音頻部分的音頻子帶能量差特征。
[0155]更為具體地,本實(shí)施例音頻子帶能量差特征的提取流程如圖3所示:
[0156]該音頻子帶能量差特征的提取涉及的算法的主要步驟是:
[0157]首先,將每0.37秒的時(shí)域音頻波形信息(音頻幀)經(jīng)過漢寧窗(Hanning Window)濾波后通過傅里葉變換轉(zhuǎn)化到頻率域的能量;
[0158]其次,將得到的頻率域能量按照對(duì)數(shù)關(guān)系(Bark等級(jí))劃分成33個(gè)位于人耳聽覺范圍(300Hz?2000Hz)的子帶,并且計(jì)算相鄰幀(間隔11毫秒)相鄰子帶之間的能量的絕對(duì)值的差,從而對(duì)每一個(gè)音頻幀都可以得到一個(gè)32比特的音頻特征。
[0159]其中的“I”代表當(dāng)前音頻幀某相鄰兩個(gè)子帶的能量差大于下一個(gè)音頻幀對(duì)應(yīng)的相鄰子帶的能量差,否則為O。
[0160]具體過程如下:
[0161]在圖3中,輸入內(nèi)容是一段音頻;輸出內(nèi)容是這段音頻對(duì)應(yīng)的若干個(gè)(η個(gè))音頻特征。
[0162]其中,F(xiàn)raming:分幀,即:將該音頻片段切分為若干個(gè)(η個(gè))音頻幀。實(shí)例中按照每秒采集2048個(gè)音頻幀,每個(gè)音頻幀包含0.37秒的音頻內(nèi)容(相鄰音頻幀之間有2047/2048 的重疊)。
[0163]Fourier Transform:傅里葉變換,用于將時(shí)域的波形信息(原始音頻)轉(zhuǎn)換為頻率域的不同頻段波的能量信息,便于進(jìn)行分析處理。
[0164]ABS:取波能量信息的絕對(duì)值(即:只考慮振幅,不考慮振動(dòng)方向)。
[0165]Band Divis1n:分帶,將整個(gè)頻率域在300Ηζ_2000Ηζ之間分成33個(gè)互不重疊的頻率帶(按照對(duì)數(shù)關(guān)系進(jìn)行劃分,即:頻率越低,該頻率所屬頻率帶范圍越小)。這樣,可以得到原始音頻在這些不同頻率帶上的能量。
[0166]Energy Computat1n:計(jì)算每一個(gè)音頻幀在這33個(gè)頻率帶上的能量值(每個(gè)音頻幀得到33個(gè)能量值)。
[0167]Bit Derivat1n:導(dǎo)出比特:對(duì)上述的33個(gè)能量值進(jìn)行依次比較(第i個(gè)子帶的能量和第i+Ι個(gè)子帶的能量進(jìn)行比較)得到32個(gè)能量值的差值。比較當(dāng)前音頻幀a和下一個(gè)音頻幀b之間這32個(gè)能量值差值的大小。假設(shè)a的第j個(gè)能量值差值比b的第j個(gè)能量值差值大,則a的第j位特征為1,否則,a的第j位特征為O。這樣可以得到a與b之間32個(gè)能量值差值的大小關(guān)系,即為音頻幀a的32比特的特征。
[0168]本發(fā)明采用了這種音頻特征,并且按照1/2048秒的間隔進(jìn)行音頻幀的采樣,從而對(duì)于每一秒的音頻片段都會(huì)生成2048個(gè)32比特的音頻特征。
[0169]對(duì)所述音視頻圖像的視頻幀進(jìn)行特征提取,得到音視頻圖像對(duì)應(yīng)的視頻幀的圖像特征的過程可以包括:
[0170]對(duì)所述音視頻圖像的每一視頻幀,將其圖像轉(zhuǎn)化為灰度圖像并進(jìn)行壓縮處理;對(duì)壓縮處理后的灰度圖像分成若干子塊;計(jì)算每一子塊的DCT能量值;比較相鄰兩個(gè)子塊之間的DCT能量值,得到所述視頻幀的圖像DCT特征;依據(jù)上述處理過程,得到所述音視頻圖像的視頻幀的圖像DCT特征。
[0171]更為具體地,本實(shí)施例提取音視頻圖像的視頻幀的圖像DCT特征的流程如圖4所示:
[0172]針對(duì)互聯(lián)網(wǎng)視頻畫面總體變化幅度不大的特點(diǎn),本發(fā)明實(shí)施例選用了一種高效的圖像全局特征來作為視頻幀的圖像特征:DCT特征。
[0173]DCT特征的算法思想是:將圖像分割成若干個(gè)子塊,通過比較相鄰的子塊之間的能量高低,從而得到整幅圖像的能量分布情況。具體的算法步驟是:
[0174]首先,將彩色圖像轉(zhuǎn)化為灰度圖像并壓縮(改變寬高比)到寬64像素、高32像素。
[0175]然后,將灰度圖像分成32子塊(如圖4所示的O?31),每一塊包含8x8像素的圖像。
[0176]對(duì)于每一個(gè)子塊,計(jì)算該子塊的DCT能量值。選擇最高能帶的能量值的絕對(duì)值代表該子塊的能量。
[0177]最后,計(jì)算相鄰子塊能量值相對(duì)大小并得到一個(gè)32比特的特征。如果第i子塊的能量大于第i+Ι子塊的能量,則第i比特位為1,否則為O。特別地:第31子塊和第O子塊進(jìn)行比較。
[0178]通過上述過程,每一個(gè)視頻幀都將得到一個(gè)32比特的圖像DCT特征。
[0179]在經(jīng)過上述過程得到了視頻對(duì)應(yīng)的音頻特征和視頻幀的圖像特征后,將得到的圖像特征和音頻特征進(jìn)行融合。具體的融合方法如圖5所示(其中:縱軸為時(shí)間軸)。
[0180]如圖5所示,在本實(shí)施例中,設(shè)定音頻特征為每秒M= 2048(該值可以設(shè)定)個(gè)32比特的特征,而視頻幀的圖像特征為每秒η個(gè)32比特的特征(η為視頻的幀率,η —般不超過 60) ο
[0181]因而,本實(shí)施例通過將一個(gè)視頻幀對(duì)應(yīng)到若干音頻幀的方式來進(jìn)行特征拼接,即:每秒產(chǎn)生2048個(gè)64比特的音視頻融合特征,其中,每一個(gè)融合特征都對(duì)應(yīng)一個(gè)單獨(dú)的音頻幀的特征,而相鄰的2048/η個(gè)音視頻融合特征對(duì)應(yīng)相同的一個(gè)視頻幀的圖像DCT特征。
[0182]通過上述對(duì)音視頻圖像對(duì)應(yīng)的音頻特征和視頻幀的圖像特征進(jìn)行融合,得到音視頻圖像的音視頻融合特征。
[0183]之后,基于預(yù)設(shè)的參考視頻的特征庫,對(duì)所述音視頻融合特征進(jìn)行匹配,得到所述音視頻圖像的幀集匹配結(jié)果。
[0184]本實(shí)施例預(yù)先設(shè)定有參考視頻的特征庫,在參考視頻的特征庫中創(chuàng)建有匹配表,以方便待檢測(cè)視頻相應(yīng)特征可以快速進(jìn)行檢索。
[0185]在對(duì)音視頻融合特征進(jìn)行匹配時(shí),首先,從預(yù)設(shè)的參考視頻的特征庫中獲取匹配表;對(duì)于每一音視頻融合特征,從所述匹配表中查詢符合預(yù)設(shè)條件的特征,作為音視頻融合特征的相似特征。比如從所述匹配表中查詢與音視頻融合特征之間的漢明距離不超過預(yù)設(shè)閾值(比如3)的特征,作為所述音視頻融合特征的相似特征;獲取音視頻融合特征的相似特征,得到所述音視頻圖像的幀集匹配結(jié)果。
[0186]更為具體地,本實(shí)施例考慮到:
[0187]對(duì)于一個(gè)查詢視頻(需要進(jìn)行拷貝檢測(cè)的視頻)和一個(gè)參考視頻,如果通過逐幀比較兩者特征的相似度,所需要的時(shí)間復(fù)雜度與這兩個(gè)視頻都成正比,因而不利于擴(kuò)展到大規(guī)模數(shù)據(jù)庫的情況。因此,本發(fā)明基于已有的simhash技術(shù),提出了一種基于音視頻融合特征的索引及查詢的匹配策略。
[0188]其中,Simhash索引的基本目的是:在眾多64比特的特征庫中,對(duì)于查詢的一個(gè)64比特特征,快速查找到與這個(gè)64比特特征的漢明距離小于或等于3的所有特征(即64比特中最多有3比特與該特征不同)。該算法的原理示意圖如圖6所示。對(duì)于64比特?cái)?shù)據(jù),若限定漢明距離為3,那么將64比特劃分成4個(gè)16比特,必定存在一個(gè)16比特與查詢特征完全一致。類似的,在剩余的48比特中,一定存在一個(gè)12比特的分塊與查詢特征完全一致。通過兩次索引查找之后,可以在剩下的36比特中,枚舉最多3個(gè)有差異的位,從而可以大大降低原有的算法的復(fù)雜度。
[0189]本發(fā)明使用的64比特音視頻融合特征同樣具有simhash —樣的查詢特性,即:需要找到與某個(gè)64位特征最多相差3比特的所有特征(認(rèn)為這兩個(gè)特征是相關(guān)的)。此外,還有如下的限定條件:即:這兩個(gè)相關(guān)特征的前32位最多相差2比特,且這兩個(gè)特征的后32位最多相差2比特?;诖?,本實(shí)施例仿照simhash的做法,但是將索引表個(gè)數(shù)擴(kuò)展到24個(gè),具體擴(kuò)展方法如圖7所示:
[0190]如圖7所示的匹配算法設(shè)計(jì)中,考慮后32位最多I比特差異的情況,則前32位最多有16比特差異,那么對(duì)于圖7而言,A、B、C、D中至少有2塊完全一致,并且E、F中至少有一塊完全一致,因此可以構(gòu)建一個(gè)32比特完全一致的匹配表。這樣的查詢表一共有C (4, 2)*C(2, I) *2,因?yàn)橐部赡芮?2比特最多差2位。因此,可以一共構(gòu)建了 24個(gè)子表,作為創(chuàng)建的匹配表,用來快速查詢音視頻融合特征。
[0191]然后,通過查詢上述構(gòu)建的匹配表,獲取音視頻融合特征的相似特征,得到特征檢索的結(jié)果。
[0192]根據(jù)上述過程中得到的特征檢索的結(jié)果,并結(jié)合視頻拷貝片段定位方法,從而判定查詢視頻是否為拷貝視頻。如果判定查詢視頻是拷貝視頻,則給出相應(yīng)的拷貝片段定位。
[0193]本實(shí)施例考慮到:對(duì)于兩個(gè)視頻,如果計(jì)算這兩個(gè)視頻之間每一個(gè)幀之間的相似度,則會(huì)得到圖8中最右邊所示的相似度矩陣。從而,找到兩個(gè)視頻相似片段的目標(biāo)也就轉(zhuǎn)化成了在相似度矩陣中找到相似度高于一定閾值的線段,然而這種處理方式時(shí)間開銷加大。
[0194]本實(shí)施例中對(duì)音視頻圖像進(jìn)行拷貝判定及定位的原理是:通過上述索引算法,可以找到相似度矩陣中最亮的一些點(diǎn)(代表這些點(diǎn)相似度最高),如圖8中最左邊所示的亮點(diǎn),并且通過這些點(diǎn)進(jìn)行時(shí)間擴(kuò)展,從而可以得到圖8中間所示的相似片段(即可能的拷貝片段),之后通過閾值進(jìn)行篩選,從而可以判定某兩個(gè)視頻是否構(gòu)成拷貝,且如果構(gòu)成拷貝,則可以記錄該相似片段的起始位置和終止位置分布時(shí)刻。
[0195]具體地,在對(duì)音視頻圖像進(jìn)行拷貝判定及定位時(shí),首先對(duì)上述過程獲取的相似特征對(duì)應(yīng)的參考視頻的音視頻幀(對(duì)應(yīng)圖8最左邊圖所示的亮點(diǎn))進(jìn)行時(shí)間擴(kuò)展,得到所述參考視頻的參考視頻片段,對(duì)所述相似特征對(duì)應(yīng)的音視頻圖像中的音視頻幀進(jìn)行時(shí)間擴(kuò)展,得到所述音視頻圖像中相比所述參考視頻構(gòu)成的相似片段(如圖8中間圖所示);計(jì)算所述音視頻圖像中所述相似片段與所述參考視頻片段之間的相似度,即計(jì)算音視頻圖像中相似片段對(duì)應(yīng)的音視頻幀與參考視頻片段對(duì)應(yīng)的音視頻幀的相似度,對(duì)得到的各音視頻幀的相似度取平均值;若所述相似度大于設(shè)定閾值,則判斷所述音視頻圖像構(gòu)成拷貝,并記錄所述音視頻圖像的相似片段的起始位置和終止位置。
[0196]也就是說,在計(jì)算音視頻圖像中相似片段對(duì)應(yīng)的音視頻幀與參考視頻的相似度時(shí),對(duì)該相似片段中的每一幀(包括64比特的特征)與參照視頻片段對(duì)應(yīng)幀進(jìn)行特征對(duì)比,計(jì)算相似度,之后取平均值,將此平均值與預(yù)設(shè)閾值比較,若相似度大于設(shè)定閾值,則判斷所述音視頻圖像構(gòu)成拷貝,并記錄所述音視頻圖像的相似片段的起始位置和終止位置。
[0197]舉例如下:
[0198]若相似片段中,查詢視頻的10-20秒之間的100幀(即一個(gè)音視頻序列)對(duì)應(yīng)參考視頻的30-40秒之間的100幀,則將查詢視頻的10-20秒之間的100幀中的每一幀對(duì)應(yīng)與參考視頻的30-40秒之間的100幀中的每一幀進(jìn)行比對(duì),分別計(jì)算每一幀的相似度,比如第一幀64比特中,有50比特的特征與參考視頻幀相同,則該第一幀的相似度SI =50/64?0.78125 ;以此原理,得到第二幀的相似度S2,……,100幀的相似度S100,對(duì)各相似度取平均值,得到相似片段中,查詢視頻與參考視頻的相似度,假設(shè)為0.95,將其與設(shè)定閾值(設(shè)為0.9)比較,由此可以判斷查詢視頻構(gòu)成拷貝,并記錄該相似片段的起始位置和終止位置。
[0199]在上述拷貝判定和定位過程中,一個(gè)查詢視頻可能存在多個(gè)相似片段的情形,可以將該多個(gè)相似片段串起來記錄。
[0200]需要說明的是,本實(shí)施例上述過程中,在根據(jù)幀集匹配結(jié)果來判斷查詢視頻是否是參考視頻庫中某個(gè)視頻的拷貝時(shí),也可以使用其他算法來實(shí)現(xiàn),比如:霍夫變換、SmithWaterman算法、Blast算法、時(shí)域金字塔算法等。通過這些算法找到查詢視頻與某個(gè)參考視頻最相似的一段序列,并通過閾值來判定是否構(gòu)成拷貝。對(duì)于判定為拷貝的視頻,判斷拷貝片段的頭尾,從而標(biāo)記這部分片段為拷貝片段。
[0201]本實(shí)施例通過上述方案,利用音視頻相結(jié)合的方法,不僅增強(qiáng)了視頻拷貝檢測(cè)系統(tǒng)的健壯性,而且通過將音視頻特征進(jìn)行融合,大大加快了拷貝檢測(cè)系統(tǒng)的執(zhí)行效率,通過音視頻共同分析,提高了拷貝片段定位精度。
[0202]如圖11所示,本發(fā)明第二實(shí)施例提出一種音視頻拷貝檢測(cè)裝置,基于上述實(shí)施例,還包括:
[0203]創(chuàng)建模塊200,用于在所述參考視頻的特征庫中創(chuàng)建所述匹配表。
[0204]具體地,創(chuàng)建匹配表,是為了方便待檢測(cè)視頻相應(yīng)特征可以快速進(jìn)行檢索。
[0205]匹配表是基于參考視頻創(chuàng)建的,具體創(chuàng)建過程如下:
[0206]首先,收集參考視頻片段,對(duì)參考視頻片段進(jìn)行音視頻解碼及預(yù)處理,得到參考視頻的音頻部分和視頻幀。
[0207]然后,對(duì)參考視頻的音頻部分和視頻幀進(jìn)行特征提取,得到參考視頻的音頻特征和視頻幀的圖像特征。
[0208]之后,對(duì)參考視頻進(jìn)行音視頻特征融合,得到參考視頻的音視頻融合特征。
[0209]最后,基于該參考視頻的音視頻融合特征創(chuàng)建匹配表,以供后續(xù)的查詢視頻進(jìn)行特征索引檢索。
[0210]其中,在基于該參考視頻的音視頻融合特征創(chuàng)建匹配表時(shí),基于以下原理:
[0211]考慮到:對(duì)于一個(gè)查詢視頻(需要進(jìn)行拷貝檢測(cè)的視頻)和一個(gè)參考視頻,如果通過逐幀比較兩者特征的相似度,所需要的時(shí)間復(fù)雜度與這兩個(gè)視頻都成正比,因而不利于擴(kuò)展到大規(guī)模數(shù)據(jù)庫的情況。因此,本發(fā)明基于已有的simhash技術(shù),提出了一種基于音視頻融合特征的索引及查詢策略。
[0212]其中,Simhash索引的基本目的是:在眾多64比特的特征庫中,對(duì)于查詢的一個(gè)64比特特征,快速查找到與這個(gè)64比特特征的漢明距離小于或等于3的所有特征(即64比特中最多有3比特與該特征不同)。該算法的示意圖如圖6所示。對(duì)于64比特?cái)?shù)據(jù),若限定漢明距離為3,那么將64比特劃分成4個(gè)16比特,必定存在一個(gè)16比特與查詢特征完全一致。類似的,在剩余的48比特中,一定存在一個(gè)12比特的分塊與查詢特征完全一致。通過兩次索引查找之后,可以在剩下的36比特中,枚舉最多3個(gè)有差異的位,從而可以大大降低原有的算法的復(fù)雜度。
[0213]本發(fā)明使用的64比特音視頻融合特征同樣具有simhash —樣的查詢特性,即:需要找到與某個(gè)64位特征最多相差3比特的所有特征(認(rèn)為這兩個(gè)特征是相關(guān)的)。此外,還有如下的限定條件:即:這兩個(gè)相關(guān)特征的前32位最多相差2比特,且這兩個(gè)特征的后32位最多相差2比特?;诖?,本實(shí)施例仿照simhash的做法,但是將索引表個(gè)數(shù)擴(kuò)展到24個(gè),具體擴(kuò)展方法如圖7所示:
[0214]如圖7所示的匹配算法設(shè)計(jì)中,考慮后32位最多I比特差異的情況,則前32位最多有16比特差異,那么對(duì)于圖7而言,A、B、C、D中至少有2塊完全一致,并且E、F中至少有一塊完全一致,因此可以構(gòu)建一個(gè)32比特完全一致的匹配表。這樣的查詢表一共有C (4, 2)*C(2, I) *2,因?yàn)橐部赡芮?2比特最多差2位。因此,可以一共構(gòu)建了 24個(gè)子表,作為創(chuàng)建的匹配表,用來快速查詢音視頻融合特征。
[0215]本發(fā)明實(shí)施例音視頻拷貝檢測(cè)方法及裝置,通過獲取音視頻圖像,對(duì)所述音視頻圖像進(jìn)行解碼及預(yù)處理,得到所述音視頻圖像的音頻部分和視頻幀;對(duì)所述音視頻圖像的音頻部分和視頻幀進(jìn)行特征提取,得到所述音視頻圖像對(duì)應(yīng)的音頻特征和視頻幀的圖像特征;對(duì)所述音視頻圖像對(duì)應(yīng)的音頻特征和視頻幀的圖像特征進(jìn)行融合,得到所述音視頻圖像的音視頻融合特征;基于預(yù)設(shè)的參考視頻的特征庫,對(duì)所述音視頻融合特征進(jìn)行匹配,得到所述音視頻圖像的幀集匹配結(jié)果;基于所述音視頻圖像的幀集匹配結(jié)果以及參考視頻,對(duì)所述音視頻圖像進(jìn)行拷貝判定及定位,從而利用音視頻相結(jié)合的方法,不僅增強(qiáng)了視頻拷貝檢測(cè)系統(tǒng)的健壯性,而且通過將音視頻特征進(jìn)行融合,大大加快了拷貝檢測(cè)系統(tǒng)的執(zhí)行效率,通過音視頻共同分析,提高了拷貝片段定位精度。
[0216]還需要說明的是,在本文中,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者裝置不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者裝置所固有的要素。在沒有更多限制的情況下,由語句“包括一個(gè)……”限定的要素,并不排除在包括該要素的過程、方法、物品或者裝置中還存在另外的相同要素。
[0217]上述本發(fā)明實(shí)施例序號(hào)僅僅為了描述,不代表實(shí)施例的優(yōu)劣。
[0218]通過以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到上述實(shí)施例方法可借助軟件加必需的通用硬件平臺(tái)的方式來實(shí)現(xiàn),當(dāng)然也可以通過硬件,但很多情況下前者是更佳的實(shí)施方式?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)(如R0M/RAM、磁碟、光盤)中,包括若干指令用以使得一臺(tái)終端設(shè)備(可以是手機(jī),計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述的方法。
[0219]以上所述僅為本發(fā)明的優(yōu)選實(shí)施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā)明說明書及附圖內(nèi)容所作的等效結(jié)構(gòu)或流程變換,或直接或間接運(yùn)用在其它相關(guān)的技術(shù)領(lǐng)域,均同理包括在本發(fā)明的專利保護(hù)范圍內(nèi)。
【主權(quán)項(xiàng)】
1.一種音視頻拷貝檢測(cè)方法,其特征在于,包括: 獲取音視頻圖像,對(duì)所述音視頻圖像進(jìn)行解碼及預(yù)處理,得到所述音視頻圖像的音頻部分和視頻幀; 對(duì)所述音視頻圖像的音頻部分和視頻幀進(jìn)行特征提取,得到所述音視頻圖像對(duì)應(yīng)的音頻特征和視頻幀的圖像特征; 對(duì)所述音視頻圖像對(duì)應(yīng)的音頻特征和視頻幀的圖像特征進(jìn)行融合,得到所述音視頻圖像的音視頻融合特征; 基于預(yù)設(shè)的參考視頻的特征庫,對(duì)所述音視頻融合特征進(jìn)行匹配,得到所述音視頻圖像的幀集匹配結(jié)果; 基于所述音視頻圖像的幀集匹配結(jié)果以及參考視頻,對(duì)所述音視頻圖像進(jìn)行拷貝判定及定位。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)所述音視頻圖像的音頻部分進(jìn)行特征提取,得到所述音視頻圖像對(duì)應(yīng)的音頻特征的步驟包括: 對(duì)所述音視頻圖像的音頻部分的音頻幀進(jìn)行濾波,并通過傅里葉變換轉(zhuǎn)化到頻率域的會(huì); 將得到的頻率域能量按照對(duì)數(shù)關(guān)系劃分成若干處于預(yù)定頻率范圍的子帶; 計(jì)算相鄰子帶之間的能量的絕對(duì)值的差,得到音頻幀的音頻子帶能量差特征; 按照預(yù)定間隔進(jìn)行音頻幀的采樣,得到所述音視頻圖像的音頻部分的音頻子帶能量差特征。3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)所述音視頻圖像的視頻幀進(jìn)行特征提取,得到所述音視頻圖像對(duì)應(yīng)的視頻幀的圖像特征的步驟包括: 對(duì)所述音視頻圖像的每一視頻幀,將其圖像轉(zhuǎn)化為灰度圖像并進(jìn)行壓縮處理; 對(duì)壓縮處理后的灰度圖像分成若干子塊; 計(jì)算每一子塊的DCT能量值; 比較相鄰兩個(gè)子塊之間的DCT能量值,得到所述視頻幀的圖像DCT特征; 依據(jù)上述處理過程,得到所述音視頻圖像的視頻幀的圖像DCT特征。4.根據(jù)權(quán)利要求1、2或3所述的方法,其特征在于,所述對(duì)所述音視頻圖像對(duì)應(yīng)的音頻特征和視頻幀的圖像特征進(jìn)行融合,得到所述音視頻圖像的音視頻融合特征的步驟包括: 設(shè)定所述音頻特征為每秒M個(gè)32比特的特征,視頻幀的圖像特征為每秒η個(gè)32比特的特征,其中,η為視頻的幀率,η小于或等于60 ; 將一個(gè)視頻幀對(duì)應(yīng)到若干幀音頻幀的方式來進(jìn)行特征拼接,得到每秒產(chǎn)生M個(gè)64比特的音視頻融合特征,其中,每一個(gè)音視頻融合特征都對(duì)應(yīng)一個(gè)單獨(dú)的音頻幀的音頻特征,相鄰的Μ/η個(gè)音視頻融合特征對(duì)應(yīng)相同的一個(gè)視頻幀的圖像特征。5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于預(yù)設(shè)的參考視頻的特征庫,對(duì)所述音視頻融合特征進(jìn)行匹配,得到所述音視頻圖像的幀集匹配結(jié)果的步驟包括: 從預(yù)設(shè)的參考視頻的特征庫中獲取匹配表; 對(duì)于每一音視頻融合特征,從所述匹配表中查詢與所述音視頻融合特征之間的漢明距離不超過預(yù)設(shè)閾值的特征,作為所述音視頻融合特征的相似特征; 獲取音視頻融合特征的相似特征,得到所述音視頻圖像的幀集匹配結(jié)果。6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述基于所述音視頻圖像的幀集匹配結(jié)果以及參考視頻,對(duì)所述音視頻圖像進(jìn)行拷貝判定及定位的步驟包括: 對(duì)所述相似特征對(duì)應(yīng)的參考視頻的音視頻幀進(jìn)行時(shí)間擴(kuò)展,得到所述參考視頻的參考視頻片段,對(duì)所述相似特征對(duì)應(yīng)的音視頻圖像中的音視頻幀進(jìn)行時(shí)間擴(kuò)展,得到所述音視頻圖像中相比所述參考視頻構(gòu)成的相似片段; 計(jì)算所述音視頻圖像中所述相似片段與所述參考視頻片段之間的相似度; 若所述相似度大于設(shè)定閾值,則判斷所述音視頻圖像構(gòu)成拷貝,并記錄所述音視頻圖像的相似片段的起始位置和終止位置。7.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述獲取音視頻圖像的步驟之前,還包括: 在所述參考視頻的特征庫中創(chuàng)建所述匹配表。8.一種音視頻拷貝檢測(cè)裝置,其特征在于,包括: 解碼及預(yù)處理模塊,用于獲取音視頻圖像,對(duì)所述音視頻圖像進(jìn)行解碼及預(yù)處理,得到所述音視頻圖像的音頻部分和視頻幀; 特征提取模塊,用于對(duì)所述音視頻圖像的音頻部分和視頻幀進(jìn)行特征提取,得到所述首視頻圖像對(duì)應(yīng)的首頻特征和視頻幀的圖像特征; 融合模塊,用于對(duì)所述音視頻圖像對(duì)應(yīng)的音頻特征和視頻幀的圖像特征進(jìn)行融合,得到所述音視頻圖像的音視頻融合特征; 匹配模塊,用于基于預(yù)設(shè)的參考視頻的特征庫,對(duì)所述音視頻融合特征進(jìn)行匹配,得到所述音視頻圖像的幀集匹配結(jié)果; 拷貝判定模塊,用于基于所述音視頻圖像的幀集匹配結(jié)果以及參考視頻,對(duì)所述音視頻圖像進(jìn)行拷貝判定及定位。9.根據(jù)權(quán)利要求8所述的裝置,其特征在于, 所述特征提取模塊,還用于對(duì)所述音視頻圖像的音頻部分的音頻幀進(jìn)行濾波,并通過傅里葉變換轉(zhuǎn)化到頻率域的能量;將得到的頻率域能量按照對(duì)數(shù)關(guān)系劃分成若干處于預(yù)定頻率范圍的子帶;計(jì)算相鄰子帶之間的能量的絕對(duì)值的差,得到音頻幀的音頻子帶能量差特征;按照預(yù)定間隔進(jìn)行音頻幀的采樣,得到所述音視頻圖像的音頻部分的音頻子帶能量差特征。10.根據(jù)權(quán)利要求8所述的裝置,其特征在于, 所述特征提取模塊,還用于對(duì)所述音視頻圖像的視頻幀,將其圖像轉(zhuǎn)化為灰度圖像并進(jìn)行壓縮處理;對(duì)壓縮處理后的灰度圖像分成若干子塊;計(jì)算每一子塊的DCT能量值;比較相鄰兩個(gè)子塊之間的DCT能量值,得到所述視頻幀的圖像DCT特征;依據(jù)上述處理過程,得到所述音視頻圖像的視頻幀的圖像DCT特征。11.根據(jù)權(quán)利要求8、9或10所述的裝置,其特征在于, 所述融合模塊,還用于設(shè)定所述音頻特征為每秒M個(gè)32比特的特征,視頻幀的圖像特征為每秒η個(gè)32比特的特征,其中,η為視頻的幀率,η小于或等于60 ;將一個(gè)視頻幀對(duì)應(yīng)到若干幀音頻幀的方式來進(jìn)行特征拼接,得到每秒產(chǎn)生M個(gè)64比特的音視頻融合特征,其中,每一個(gè)音視頻融合特征都對(duì)應(yīng)一個(gè)單獨(dú)的音頻幀的音頻特征,相鄰的Μ/η個(gè)音視頻融合特征對(duì)應(yīng)相同的一個(gè)視頻幀的圖像特征。12.根據(jù)權(quán)利要求8所述的裝置,其特征在于, 所述匹配模塊,還用于從預(yù)設(shè)的參考視頻的特征庫中獲取匹配表;對(duì)于每一音視頻融合特征,從所述匹配表中查詢與所述音視頻融合特征之間的漢明距離不超過預(yù)設(shè)閾值的特征,作為所述音視頻融合特征的相似特征;獲取音視頻融合特征的相似特征,得到所述音視頻圖像的幀集匹配結(jié)果。13.根據(jù)權(quán)利要求12所述的裝置,其特征在于, 所述拷貝判定模塊,還用于對(duì)所述相似特征對(duì)應(yīng)的參考視頻的音視頻幀進(jìn)行時(shí)間擴(kuò)展,得到所述參考視頻的參考視頻片段,對(duì)所述相似特征對(duì)應(yīng)的音視頻圖像中的音視頻幀進(jìn)行時(shí)間擴(kuò)展,得到所述音視頻圖像中相比所述參考視頻構(gòu)成的相似片段;計(jì)算所述音視頻圖像中所述相似片段與所述參考視頻片段之間的相似度;若所述相似度大于設(shè)定閾值,則判斷所述音視頻圖像構(gòu)成拷貝,并記錄所述音視頻圖像的相似片段的起始位置和終止位置。14.根據(jù)權(quán)利要求12所述的裝置,其特征在于,還包括: 創(chuàng)建模塊,用于在所述參考視頻的特征庫中創(chuàng)建所述匹配表。
【文檔編號(hào)】G06F17/30GK105989000SQ201510041044
【公開日】2016年10月5日
【申請(qǐng)日】2015年1月27日
【發(fā)明人】錢夢(mèng)仁
【申請(qǐng)人】騰訊科技(深圳)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
定结县| 沂水县| 都昌县| 吴忠市| 石楼县| 鄯善县| 闸北区| 吴旗县| 沁源县| 雅安市| 绥棱县| 定陶县| 丹阳市| 突泉县| 梓潼县| 罗源县| 东台市| 上林县| 和静县| 阿尔山市| 准格尔旗| 普洱| 武清区| 合肥市| 扎鲁特旗| 任丘市| 琼结县| 禹州市| 上蔡县| 灵川县| 沽源县| 渑池县| 平乡县| 郸城县| 蕲春县| 秀山| 宝山区| 吉木萨尔县| 西吉县| 阜南县| 黄山市|