一種基于近鄰保持重構(gòu)的視頻關(guān)鍵幀摘要提取方法
【技術(shù)領域】
[0001] 本發(fā)明涉及視頻關(guān)鍵幀摘要提取方法的技術(shù)領域,特別是基于近鄰重構(gòu)的視頻關(guān) 鍵幀摘要提取方法。
【背景技術(shù)】
[0002] 隨著數(shù)碼相機和攝像機在日常生活中的普及,人們總是淹沒在萬維網(wǎng)成千上萬的 視頻數(shù)據(jù)中。為了幫助用戶管理和瀏覽這些數(shù)量龐大的視頻,研宄者們通過定義最重要和 最適宜的內(nèi)容來將整段的視頻數(shù)據(jù)壓縮成為視頻摘要。一個簡單而有效的基于內(nèi)容的視頻 摘要方法是基于關(guān)鍵幀提取的視頻摘要,該方法為視頻索引、視頻瀏覽和視頻檢索等應用 提供了合適的抽象摘要。每個視頻關(guān)鍵幀是一個能夠表示視頻無聲內(nèi)容的靜態(tài)圖片,所以 后續(xù)可以被其他圖片處理算法所分析利用。通過瀏覽幾張最重要的關(guān)鍵幀,用戶可以快速 了解整個視頻,從而可以花費較少的時間從成千上萬個視頻中找到自己感興趣的那一個。 尤其是在今天,各種在線電影都會為用戶提供重點時刻的關(guān)鍵幀以方便用戶播放影片時可 以跳過不感興趣的片段同時又不錯過重要的內(nèi)容,為用戶提供了方便有效的播放導航功 能。由于電影數(shù)據(jù)量太過龐大而使得人工標注變得過于費時且不切實際,所以自動關(guān)鍵幀 提取成為了近年來的研宄熱門。
[0003]研宄者們已經(jīng)提出了一些基于關(guān)鍵幀提取的視頻摘要方法。然而,他們都面臨同 樣一個問題,那就是原本充滿視頻信息流、音頻信息流甚至文本信息流的整個視頻與幾張 靜態(tài)關(guān)鍵幀圖片之間的信息鴻溝問題。傳統(tǒng)的基于關(guān)鍵正提取的視頻摘要技術(shù)主要關(guān)注于 關(guān)鍵幀之間的區(qū)別并且往往采用聚類的方式得到關(guān)鍵幀。據(jù)我們所知,只有很少的研宄從 數(shù)據(jù)重構(gòu)的角度考慮視頻摘要。而且,視頻中的幀流信息能量(informationenergy)總是 呈現(xiàn)波浪狀。這是因為隨著時間的推移,視頻中的重要內(nèi)容幀和過渡內(nèi)容幀總是交替出現(xiàn) 導致的。而線性重構(gòu)則無法體現(xiàn)這一時間上的結(jié)構(gòu)以及視頻幀的局部聚集性,所以直接將 線性重構(gòu)應用于視頻摘要無法有效地提取出高質(zhì)量的關(guān)鍵幀摘要。我們提出了一種全新的 方法,即近鄰保持重構(gòu),該方法為原視頻的每一幀構(gòu)建一個能夠保持其近鄰結(jié)構(gòu)重構(gòu)模型, 并通過最小化整個視頻與重構(gòu)模型之間的誤差來找到最優(yōu)的關(guān)鍵幀集合作為原視頻的關(guān) 鍵幀摘要。我們認為從一個視頻中選擇幾個幀圖片作為高質(zhì)量的關(guān)鍵幀摘要的話,這些幀 圖片應該要能夠最佳重構(gòu)原視頻。因此,原視頻與重構(gòu)模型之間的重構(gòu)誤差天然成為了衡 量關(guān)鍵幀質(zhì)量的標準,即重構(gòu)誤差越小,關(guān)鍵幀摘要質(zhì)量越好。從空間的角度考慮,我們提 出的近鄰保持重構(gòu)算法旨在選擇出那些能夠張成原視頻幀空間內(nèi)部的固有子空間的幀集 合,因此這些幀也能夠覆蓋原視頻的核心信息。
【發(fā)明內(nèi)容】
[0004]本發(fā)明要克服現(xiàn)有技術(shù)的上述缺點,提出一種基于近鄰保持重構(gòu)的視頻關(guān)鍵幀摘 要提取方法,以幫助用戶管理和瀏覽互聯(lián)網(wǎng)上數(shù)量龐大的視頻數(shù)據(jù)。
[0005] 一種基于近鄰保持重構(gòu)的視頻關(guān)鍵幀摘要提取方法,包括:
[0006] 1)從視頻數(shù)據(jù)庫中獲取視頻,作為待抽取關(guān)鍵幀摘要的目標視頻;
[0007] 2)針對每個目標視頻,抽取該視頻中的每一張幀圖片,作為該視頻關(guān)鍵幀摘要的 備選圖片庫;
[0008] 3)獲取備選圖片庫中每張幀圖片的全局特征和局部特征,并以此將每張幀圖片表 示為一個向量;
[0009] 4)計算幀圖片之間的相似度,并以此得到幀圖片之間的近鄰關(guān)系;
[0010] 5)利用近鄰保持重構(gòu)算法,從備選圖片庫中挑選出既包含視頻主要內(nèi)容又具有最 小冗余信息的最優(yōu)關(guān)鍵幀圖片;
[0011] 6)將挑選出來的關(guān)鍵幀圖片提取出來,組成該目標視頻的摘要。
[0012] 步驟3)所述的獲取備選圖片庫中每張幀圖片的全局特征和局部特征,并以此將 每張幀圖片表不為一個向量,包括:
[0013] 31)提取圖片的顏色直方圖,得到256維的全局特征;
[0014] 32)提取圖片的SIFT特征點,并聚類得到500維的局部特征;
[0015] 33)將兩種特征合并得到756維的圖片特征向量。
[0016] 步驟4)所述的計算幀圖片之間的相似度,包括:
[0017] 41)設第i張幀圖片向量為Vi,第j張幀圖片向量為vj;
[0018] 42)這兩張幀圖片之間的相似度^為:
【主權(quán)項】
1. 一種基于近鄰保持重構(gòu)的視頻關(guān)鍵幀摘要提取方法,包括: 1) 從視頻數(shù)據(jù)庫中獲取視頻,作為待抽取關(guān)鍵幀摘要的目標視頻; 2) 針對每個目標視頻,抽取該視頻中的每一張幀圖片,作為該視頻關(guān)鍵幀摘要的備選 圖片庫; 3) 獲取備選圖片庫中每張幀圖片的全局特征和局部特征,并以此將每張幀圖片表示為 一個向量; 4) 計算幀圖片之間的相似度,并以此得到幀圖片之間的近鄰關(guān)系; 5) 利用近鄰保持重構(gòu)算法,從備選圖片庫中挑選出既包含視頻主要內(nèi)容又具有最小冗 余信息的最優(yōu)關(guān)鍵幀圖片; 6) 將挑選出來的關(guān)鍵幀圖片提取出來,組成該目標視頻的摘要。
2. 如權(quán)利要求1所述的一種基于近鄰保持重構(gòu)的視頻關(guān)鍵幀摘要提取方法,其特征在 于:步驟3)所述的獲取備選圖片庫中每張幀圖片的全局特征和局部特征,并以此將每張幀 圖片表不為一個向量,包括: 31) 提取圖片的顏色直方圖,得到256維的全局特征; 32) 提取圖片的SIFT特征點,并聚類得到500維的局部特征; 33) 將兩種特征合并得到756維的圖片特征向量。
3. 如權(quán)利要求1所述的的一種基于近鄰保持重構(gòu)的視頻關(guān)鍵幀摘要提取方法,其特征 在于:步驟4)所述的計算幀圖片之間的相似度,包括: 41) 設第i張幀圖片向量為Vi,第j張幀圖片向量為vj; 42) 這兩張幀圖片之間的相似度Wij為
4. 如權(quán)利要求1所述的一種基于近鄰保持重構(gòu)的視頻關(guān)鍵幀摘要提取方法,其特征在 于:步驟4)中所述的幀圖片之間的近鄰關(guān)系,包括: 43) 針對第i張幀圖片,找到與其相似度最高的另外40張幀圖片作為它的近鄰,并記錄 第i張幀圖片與它的每個近鄰的相似度的值; 44) 遍歷所有的幀圖片,找到它們的近鄰并記錄相似度的值。
5. 如權(quán)利要求1所述的一種基于近鄰保持重構(gòu)的視頻關(guān)鍵幀摘要提取方法,其特征在 于:步驟5)中所述的近鄰保持重構(gòu)算法,包括: 51) 若目標視頻包含η張幀圖片,用{V# = 1,2,···,η}表示,即;要提取的目標摘要包 含m(m < η)張關(guān)鍵幀圖片,用{xk|k = S1, S2,…,S1J表示,其中每張關(guān)鍵幀圖片都來自目 標視頻的原有幀,即分^仏€{¥# = 1乂~71},丨81,82,~,\}是摘要關(guān)鍵幀~^父在 原視頻幀圖片集合V中的編號; 52) 設原視頻幀圖片Vi經(jīng)關(guān)鍵幀摘要圖片集重構(gòu)后為f i (X),其中矩陣X的每一行是一 個xk,則最小化如下近鄰保持函數(shù)可以保持原視頻幀圖片之間的近鄰結(jié)構(gòu): Σ J|f"x)-f^x) I I2Wij; 因為構(gòu)成摘要的這些關(guān)鍵幀圖片是從原視頻幀圖片中選出來的,即X C= 其中矩陣 V的每一行是一個Vi,所以當這些關(guān)鍵幀被選定時,這幾張關(guān)鍵幀圖片的重構(gòu)尤其要精確; 為了體現(xiàn)這一點,給定摘要關(guān)鍵幀Xk時,設其對應的重構(gòu)幀為f k(x),則近鄰保持函數(shù)修改 如下:
其中λ是控制兩個加法因子的權(quán)重變量; 根據(jù)近鄰保持函數(shù),則我們可以得到近鄰保持重構(gòu)的表達式如下: F = λ (L+ λ Mr1MV 其中矩陣F的每一行是一Afi(X);并引入一個大小為ηΧη的對角矩陣M作為標識; 當i e {Sl,S2,…,sm}時,M矩陣的第i個對角元素為1,其余元素都為0;這樣的M矩陣可 以用來標識第i個原視頻幀圖片是否被選擇成為摘要關(guān)鍵幀; 經(jīng)過數(shù)學上的等價轉(zhuǎn)換,可以得到原視頻V和近鄰保持重構(gòu)F之間的重構(gòu)誤差如下:
53)最小化如上式所示的重構(gòu)誤差,得到最優(yōu)的M,并根據(jù)M的非零對角線元素挑選出 既包含視頻主要內(nèi)容又具有最小冗余信息的最優(yōu)關(guān)鍵幀圖片。
【專利摘要】基于近鄰保持重構(gòu)的視頻關(guān)鍵幀摘要提取方法:從視頻數(shù)據(jù)庫中獲取視頻,作為待抽取關(guān)鍵幀摘要的目標視頻;針對每個目標視頻,抽取該視頻中的每一張幀圖片,作為該視頻關(guān)鍵幀摘要的備選圖片庫;獲取備選圖片庫中每張幀圖片的全局特征和局部特征,并以此將每張幀圖片表示為一個向量;計算幀圖片之間的相似度,并以此得到幀圖片之間的近鄰關(guān)系;利用近鄰保持重構(gòu)算法,從備選圖片庫中挑選出既包含視頻主要內(nèi)容又具有最小冗余信息的最優(yōu)關(guān)鍵幀圖片;將挑選出來的關(guān)鍵幀圖片提取出來,組成該目標視頻的摘要。
【IPC分類】G06F17-30, H04N21-8549
【公開號】CN104683885
【申請?zhí)枴緾N201510058003
【發(fā)明人】陳純, 何占盈, 卜佳俊, 高珊
【申請人】浙江大學
【公開日】2015年6月3日
【申請日】2015年2月4日