量總量的比值小于或者等于第二閾值時,確定兩個待檢測視頻為不相似視頻。其中,預設第二閾值可以根據(jù)需要預先設定。
[0085]假設兩個待檢測視頻分別為第一視頻和第二視頻,分別對應第一圖片庫和第二圖片庫,第一圖片庫中包含3張圖片A、B、C,第二圖片庫中包含兩張圖片D和E,預設第一閾值為5,預設第二閾值為50%。則相似視頻的檢測過程具體如下,確定A?E五張圖片中每張圖片的hash特征值;將第一圖片庫中的圖片分別與第二圖片庫中的每張圖片對比,則對比數(shù)量總量為6,即共有圖片A與圖片D、圖片A與圖片E、圖片B與圖片D、圖片B與圖片E、圖片C與圖片D、圖片C與圖片E六組圖片需要對比,確定六組對比圖片之間的漢明距離分別為4,4,5,4,6,4;將得到的六個漢明距離分別與預設第一閾值對比,根據(jù)步驟S103可知,共有圖片A與圖片D、圖片A與圖片E、圖片B與圖片E、圖片C與圖片E四組圖片為相似圖片,第一圖片庫和第二圖片庫中相似圖片的組數(shù)與所述對比數(shù)量總量的比值為4/6,該比值大于預設第二閾值,因此可以確定第一視頻和第二視頻為相似視頻。
[0086]應用本發(fā)明實施例提供的技術(shù)方案,在進行相似視頻檢測時,根據(jù)第一預設規(guī)則,從兩個待檢測視頻中分別提取多張?zhí)卣鲌D片作為第一圖片庫和第二圖片庫;確定所述第一圖片庫和第二圖片庫中每張圖片的hash特征值及所述第一圖片庫中每張圖片和第二圖片庫中每張圖片之間的漢明距離,針對每個漢明距離,判斷所述漢明距離是否小于預設第一閾值,如果是,確定對應該漢明距離的所述第一圖片庫和第二圖片庫中的圖片為一組相似圖片;統(tǒng)計所述第一圖片庫和第二圖片庫中相似圖片的組數(shù),并判斷所述第一圖片庫和第二圖片庫中相似圖片的組數(shù)與對比數(shù)量總量的比值是否大于預設第二閾值,如果是,則確定所述兩個待檢測視頻為相似視頻,其中所述對比數(shù)量總量為所述第一圖片庫中的圖片數(shù)量和第二圖片庫中的圖片數(shù)量的乘積。所述方法通過對比視頻中的圖片是否相似,并根據(jù)相似圖片在對比圖片總量中的比例來判斷兩個待檢測視頻是否為相似視頻,因此,提高了相似視頻的檢測效率。
[0087]基于上述實施例,在本發(fā)明的一個實施例中,所述確定所述第一圖片庫和第二圖片庫中每張圖片的hash特征值,包括:
[0088]將所述第一圖片庫和第二圖片庫中每張圖片,按照預設值進行尺度變換,并對尺度變換后的所述第一圖片庫和第二圖片庫中每張圖片做離散余弦變換DCT,獲取所述第一圖片庫和第二圖片庫中每張圖片的hash特征值。
[0089]具體的,對第一圖片庫和第二圖片庫中每張圖片進行尺度變換的預設值可以根據(jù)經(jīng)驗值進行設定,當該預設值小于圖片的實際大小時,可以減少計算的數(shù)據(jù)量,提高相似視頻的檢測效率。
[0090]在本發(fā)明實施例中,該預設值可以為32X32像素大小。具體過程包括:將第一圖片庫和第二圖片庫中每張圖片縮小為32X32像素的圖片;對縮小后的每張圖片做DCT變換,可以實現(xiàn)在保證質(zhì)量的前提下對圖片的數(shù)據(jù)進行壓縮,進一步提高圖片的處理效率;由于進行DCT變換后的每張圖片包含低頻部分和高頻部分,圖片的低頻部分更能體現(xiàn)出圖片的結(jié)構(gòu)特性,因此,取每張圖片的低頻部分,按照預設值的窗口計算每張圖片的hash特征值。在本發(fā)明實施例中,設置每張圖片的hash特征值為64位,所以取每張圖片的低頻部分,按照8X 8的窗口計算每張圖片的hash特征值。
[0091]基于上述實施例,在本發(fā)明的一個實施例中,所述根據(jù)第一預設規(guī)則,從兩個待檢測視頻中分別提取多張?zhí)卣鲌D片作為第一圖片庫和第二圖片庫,包括:根據(jù)預設的時間間隔從兩個待檢測視頻中分別提取多張?zhí)卣鲌D片作為第一圖片庫和第二圖片庫。
[0092]具體的,預先設置一個時間間隔值,例如5ms,當然也可以是2ms或者I Oms,該時間間隔可以根據(jù)需要進行設置。針對兩個待檢測視頻,每隔5ms從視頻中提取出一張?zhí)卣鲌D片,這樣可以提取出多張?zhí)卣鲌D片,可以確定第一圖片庫和第二圖片庫。
[0093]在本發(fā)明實施例中,確定所述兩個待檢測視頻為相似視頻后,為了進一步提高檢測的準確性,可以采用以下三種方式中的任意一種方式,進一步對兩個待檢測視頻進行檢測。
[0094]第一種方式包括:根據(jù)第二預設規(guī)則,從兩個待檢測視頻中分別提取多張?zhí)卣鲌D片作為第一圖片庫和第二圖片庫;采用局部二值模式LBP算法,分別確定所述第一圖片庫和第二圖片庫中每張圖片上每個像素點的LBP值,并根據(jù)每個像素點的LBP值繪制LBP值直方圖;將所述第一圖片庫中每張圖片和第二圖片庫中每張圖片的LBP值直方圖進行重疊,針對每對圖片確定重疊區(qū)域中像素點的數(shù)量,并確定重疊區(qū)域中像素點的數(shù)量的平均值,根據(jù)所述平均值及所述圖片像素點的數(shù)量,確定所述第一圖片庫和第二圖片庫的相似度;判斷所述相似度是否大于預設第三閾值,如果是,確定所述兩個待檢測視頻為相似視頻。
[0095]在本發(fā)明的一個實施例中,計算的每張圖片的hash特征值主要能夠反映圖片的結(jié)構(gòu)特征,而通過局部二值模式LBP算法獲得的關(guān)于LBP值及與其對應的像素點數(shù)量的LBP值直方圖在一定程度上能夠有效表征圖片本身的內(nèi)容信息,基于內(nèi)容信息對兩個待檢測視頻進行比對,進一步提高了相似視頻檢測的準確性。
[0096]第二種方式包括:根據(jù)第三預設規(guī)則,從兩個待檢測視頻中分別提取多張?zhí)卣鲌D片作為第一圖片庫和第二圖片庫;采用結(jié)構(gòu)相似性SSIM算法,確定所述第一圖片庫中每張圖片和第二圖片庫中每張圖片之間的每個SSIM值,并根據(jù)所述多個SSIM值,計算所述第一圖片庫和第二圖片庫的相似度;判斷所述相似度是否大于預設第四閾值,如果是,確定所述兩個待檢測視頻為相似視頻。
[0097]結(jié)構(gòu)相似性SS頂算法考慮了圖片之間像素的亮度、對比度以及結(jié)構(gòu)相似性,對相似圖片的識別更準確,進而能夠進一步提高視頻檢測的準確性。
[0098]第三種方式包括:根據(jù)第四預設規(guī)則,從兩個待檢測視頻中分別提取多張?zhí)卣鲌D片作為第一圖片庫和第二圖片庫;采用加速健壯特征SURF算法,確定所述第一圖片庫和第二圖片庫中每張圖片上的多個極值點,針對第一圖片庫中的每張圖片的每個極值點,計算該極值點和第二圖片庫中每張圖片的每個極值點之間的歐式距離,若所述歐式距離的最小值小于預設第五閾值,則確定第二圖片庫的圖片中存在與該極值點匹配的極值點,并記錄第一圖片庫中的該極值點;統(tǒng)計記錄的第一圖片庫中的極值點的數(shù)量;判斷所述數(shù)量是否大于預設數(shù)量閾值,如果是,則確定所述兩個待檢測視頻為相似視頻。
[0099]加速健壯特征SURF算法考慮了圖片之間的多個穩(wěn)定的極值點,基于這些極值點可以更準確地檢測圖片之間的相似度,而且不受圖片旋轉(zhuǎn)的影響,因此,可以進一步提高相似視頻檢測的準確性。
[0100]圖2為本發(fā)明實施例提供的一種盜版視頻的檢測方法的流程示意圖,所述方法包括以下步驟:
[0101]步驟S201:獲取待檢測視頻。
[0102]在實際應用中,可以采用網(wǎng)絡爬蟲技術(shù)獲得被監(jiān)控網(wǎng)站的一個或多個視頻作為待檢測視頻。
[0103]步驟S202:根據(jù)第一預設規(guī)則,從待檢測視頻中提取多張?zhí)卣鲌D片作為第二圖片庫。
[0104]第二圖片庫是通過根據(jù)第一預設規(guī)則從待檢測視頻中提取多張?zhí)卣鲌D片確定的,第一預設規(guī)則可以有多種,例如可以通過分析待檢測視頻的關(guān)鍵幀,將待檢測視頻的所有關(guān)鍵幀對應的圖片作為第二圖片庫,也可以是從待檢測視頻中隨機選取多張?zhí)卣鲌D片作為第二圖片庫。
[0105]步驟S203:確定第一圖片庫和第二圖片庫中每張圖片的hash特征值,其中所述第一圖片庫為從正版視頻中提取出的多張?zhí)卣鲌D片構(gòu)成的。
[0106]在本發(fā)明實施例中,從正版視頻中提取多張?zhí)卣鲌D片組成的第一圖片庫已提前保存,則第一圖片庫中的圖片數(shù)量已經(jīng)確定,從正版視頻中提取圖片的規(guī)則也是確定的。獲取第二圖片庫中每張圖片的規(guī)則可以與獲取第一圖片庫中每張圖片的規(guī)則相同,也可以不同。
[0107]圖片的hash特征值的長度可以需要進行設定,在本發(fā)明實施例中,設置每張圖片的hash特征值的長度為64位。
[0108]步驟S204:根據(jù)所述第一圖片庫和第二圖片庫中每張圖片的hash特征值,確定所述第一圖片庫中每張圖片和第二圖片庫中每張圖片之間的每個漢明距離,針對每個漢明距離,判斷所述漢明距離是否小于預設第一閾值,如果是,確定對應該漢明距離的所述第一圖片庫和第二圖片庫中的圖片為一組相似圖片。
[0109]本發(fā)明實施例中,將第一圖片庫中的圖片與第二圖片庫中的每張圖片進行對比,根據(jù)兩張對比的圖片的hash特征值,確定兩張對比的圖片之間的漢明距離。當該漢明距離小于預設第一閾值時,確定這兩張對比的圖片是一組相似圖片;當該漢明距離大于或者等于預設第一閾值時,確定這兩張對比的圖片不是一組相似圖片。其中,預設第一閾值可以根據(jù)需要預先設定。
[0110]步驟S205:統(tǒng)計所述第一圖片庫和第二圖片庫中相似圖片的組數(shù),并判斷所述第一圖片庫和第二圖片庫中相似圖片的組數(shù)與對比數(shù)量總量的比值是否大于預設第二閾值,如果是,則確定所述待檢測視頻為盜版視頻,其中所述對比數(shù)量總量為所述第一圖片庫中的圖片數(shù)量和第二圖片庫中的圖片數(shù)量的乘積。
[0111]本發(fā)明實施例中,通過統(tǒng)計所述第一圖片庫和第二圖片庫中相似圖片的組數(shù),計算第一圖片庫和第二圖片庫中相似圖片的組數(shù)與對比數(shù)量總量的比值,可以確定第一圖片庫和第二圖片庫中相似圖片在對比圖片的總量中占的比例,將此比例與預設閾值的比較,可以判斷待檢測視頻是否為盜版視頻。具體的,當?shù)谝粓D片庫和第二圖片庫中相似圖片的組數(shù)與對比數(shù)量總量的比值大于第二閾值時,確定所述待檢測視頻為盜版視頻;當?shù)谝粓D片庫和第二圖片庫中相似圖片的組數(shù)與對比數(shù)量總量的比值小于或者等于第二閾值時,確定所述待檢測視頻不是盜版視頻。其中,預設第二閾值可以根據(jù)需要預先設定。
[0112]假設第一圖片庫中包含3張圖片A、B、C,第二圖片庫中包含兩張圖片D和E,預設第一閾值為5,預設第二閾值為50%,則盜版視頻的檢測過程具體如下,確定A?E五張圖片中每張圖片的hash特征值;將第二圖片庫中的圖片分別與第一圖片庫中的每張圖片比對,則對比數(shù)量總量為6,即共有圖片D與圖片A、圖片D與圖片B、圖片D與圖片C、圖片E與圖片A、圖片E與圖片B、圖片E與圖片C六組圖片需要對比,確定六組對比圖片之間的漢明距離分別為4,4,5,4,6,4,將得到的六個漢明距離分別與預設第一閾值對比,根據(jù)步驟S204可知,共有圖片D與圖片A、圖片D與圖片B、圖片E與圖片A、圖片E與圖片C四組圖片為相似圖片,第一圖片庫和第二圖片庫中相似圖片的組數(shù)與所述對比數(shù)