本發(fā)明涉及圖像處理,特別涉及一種視頻智能拆條方法、系統(tǒng)、可讀存儲(chǔ)介質(zhì)及計(jì)算機(jī)。
背景技術(shù):
1、隨著人們生活水平的提高和科技的飛速發(fā)展,視頻數(shù)據(jù)已經(jīng)成為人們生活中必不可少的數(shù)據(jù)之一,其具備有龐大的數(shù)據(jù)量。
2、然而,目前的視頻拆條方法需要訓(xùn)練視頻生成模型,其需要大量標(biāo)注的訓(xùn)練樣本,從而使得視頻剪輯和內(nèi)容拆分工作量大,且易出錯(cuò)。并且,該方式的衡量指標(biāo)單一,未考慮到多維匹配機(jī)制,存在較多冗余關(guān)鍵幀。此外,主要基于傳統(tǒng)圖像處理方法對(duì)圖像的底層細(xì)節(jié)信息進(jìn)行處理,缺乏高維語義信息的匹配,因此,為了提高訓(xùn)練效率和數(shù)據(jù)質(zhì)量,需要一種自動(dòng)化的視頻處理算法,自動(dòng)剪輯拆分同時(shí)整理歸類視頻數(shù)據(jù)。
技術(shù)實(shí)現(xiàn)思路
1、基于此,本發(fā)明的目的是提供一種視頻智能拆條方法、系統(tǒng)、可讀存儲(chǔ)介質(zhì)及計(jì)算機(jī),以至少解決上述技術(shù)中的不足。
2、本發(fā)明提出一種視頻智能拆條方法,包括:
3、獲取輸入視頻的視頻幀序列,并在所述視頻幀序列中引入位置編碼;
4、基于所述輸入視頻的圖像參數(shù)為引入位置編碼后的視頻幀序列分配多個(gè)不重疊的窗口,并在每個(gè)所述窗口內(nèi)計(jì)算自注意力機(jī)制,以得到對(duì)應(yīng)的關(guān)鍵幀序列;
5、構(gòu)建若干相似度評(píng)價(jià)指標(biāo),并根據(jù)各所述相似度評(píng)價(jià)指標(biāo)所對(duì)應(yīng)的指標(biāo)閾值計(jì)算出預(yù)設(shè)的圖像模板庫中模板圖像與所述關(guān)鍵幀序列之間的低維相似度;
6、利用深度神經(jīng)網(wǎng)絡(luò)模型對(duì)所述模板圖像和所述關(guān)鍵幀序列進(jìn)行特征提取,以分別獲得所述模板圖像的特征圖和所述關(guān)鍵幀序列的特征圖;
7、計(jì)算出所述模板圖像的特征圖和所述關(guān)鍵幀序列的特征圖之間的高維相似度,并基于所述低維相似度和所述高維相似度對(duì)所述關(guān)鍵幀序列進(jìn)行定位,以實(shí)現(xiàn)所述輸入視頻的視頻拆條。
8、進(jìn)一步的,獲取輸入視頻的視頻幀序列,并在所述視頻幀序列中引入位置編碼的步驟包括:
9、獲取輸入視頻的視頻幀序列,并根據(jù)所述視頻幀序列進(jìn)行逐幀分析,以得到所述視頻幀序列所對(duì)應(yīng)的時(shí)序信息;
10、根據(jù)所述時(shí)序信息生成對(duì)應(yīng)的位置編碼,并將所述位置編碼引入所述視頻幀序列中。
11、進(jìn)一步的,基于所述輸入視頻的圖像參數(shù)為引入位置編碼后的視頻幀序列分配多個(gè)不重疊的窗口,并在每個(gè)所述窗口內(nèi)計(jì)算自注意力機(jī)制,以得到對(duì)應(yīng)的關(guān)鍵幀序列的步驟包括:
12、獲取所述輸入視頻的圖像尺寸,并根據(jù)所述圖像尺寸構(gòu)建引入位置編碼后的視頻幀序列的窗口尺寸;
13、根據(jù)所述窗口尺寸為所述引入位置編碼后的視頻幀序列進(jìn)行窗口分配,以使所述輸入視頻的圖像區(qū)域被至少一窗口覆蓋,并在每個(gè)所述窗口內(nèi)計(jì)算自注意力機(jī)制,以得到對(duì)應(yīng)的關(guān)鍵幀序列。
14、進(jìn)一步的,所述自注意力的計(jì)算公式為:
15、;
16、式中,為查詢矩陣,為鍵矩陣,為值矩陣,為的轉(zhuǎn)置矩陣,是鍵的維數(shù)。
17、進(jìn)一步的,所述相似性評(píng)價(jià)指標(biāo)包括結(jié)構(gòu)相似性指標(biāo)、峰值信噪比指標(biāo)以及互信息指標(biāo),所述結(jié)構(gòu)相似性指標(biāo)的表達(dá)式為:
18、;
19、;
20、;
21、;
22、式中,分別表示圖像模板庫中模板圖像和關(guān)鍵幀序列,均大于0,表示亮度比較,表示對(duì)比度比較,表示結(jié)構(gòu)比較,分別表示的平均值,分別表示的標(biāo)準(zhǔn)差,表示的協(xié)方差,、、分別為常數(shù)。
23、本發(fā)明還提出一種視頻智能拆條系統(tǒng),包括:
24、編碼引入模塊,用于獲取輸入視頻的視頻幀序列,并在所述視頻幀序列中引入位置編碼;
25、窗口分配模塊,用于基于所述輸入視頻的圖像參數(shù)為引入位置編碼后的視頻幀序列分配多個(gè)不重疊的窗口,并在每個(gè)所述窗口內(nèi)計(jì)算自注意力機(jī)制,以得到對(duì)應(yīng)的關(guān)鍵幀序列;
26、指標(biāo)構(gòu)建模塊,用于構(gòu)建若干相似度評(píng)價(jià)指標(biāo),并根據(jù)各所述相似度評(píng)價(jià)指標(biāo)所對(duì)應(yīng)的指標(biāo)閾值計(jì)算出預(yù)設(shè)的圖像模板庫中模板圖像與所述關(guān)鍵幀序列之間的低維相似度;
27、特征提取模塊,用于利用深度神經(jīng)網(wǎng)絡(luò)模型對(duì)所述模板圖像和所述關(guān)鍵幀序列進(jìn)行特征提取,以分別獲得所述模板圖像的特征圖和所述關(guān)鍵幀序列的特征圖;
28、視頻拆條模塊,用于計(jì)算出所述模板圖像的特征圖和所述關(guān)鍵幀序列的特征圖之間的高維相似度,并基于所述低維相似度和所述高維相似度對(duì)所述關(guān)鍵幀序列進(jìn)行定位,以實(shí)現(xiàn)所述輸入視頻的視頻拆條。
29、進(jìn)一步的,所述編碼引入模塊包括:
30、逐幀分析單元,用于獲取輸入視頻的視頻幀序列,并根據(jù)所述視頻幀序列進(jìn)行逐幀分析,以得到所述視頻幀序列所對(duì)應(yīng)的時(shí)序信息;
31、編碼引入單元,用于根據(jù)所述時(shí)序信息生成對(duì)應(yīng)的位置編碼,并將所述位置編碼引入所述視頻幀序列中。
32、進(jìn)一步的,所述窗口分配模塊包括:
33、窗口構(gòu)建單元,用于獲取所述輸入視頻的圖像尺寸,并根據(jù)所述圖像尺寸構(gòu)建引入位置編碼后的視頻幀序列的窗口尺寸;
34、窗口分配單元,用于根據(jù)所述窗口尺寸為所述引入位置編碼后的視頻幀序列進(jìn)行窗口分配,以使所述輸入視頻的圖像區(qū)域被至少一窗口覆蓋,并在每個(gè)所述窗口內(nèi)計(jì)算自注意力機(jī)制,以得到對(duì)應(yīng)的關(guān)鍵幀序列。
35、本發(fā)明還提出一種可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述的視頻智能拆條方法。
36、本發(fā)明還提出一種計(jì)算機(jī),包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述的視頻智能拆條方法。
37、本發(fā)明當(dāng)中的視頻智能拆條方法、系統(tǒng)、可讀存儲(chǔ)介質(zhì)及計(jì)算機(jī),采用視頻場景分類方法確定視頻的起始和結(jié)束幀,進(jìn)而獲取其對(duì)應(yīng)的時(shí)刻,大幅降低候選關(guān)鍵幀數(shù)量,其次,從圖像低層細(xì)節(jié)信息角度出發(fā),結(jié)合ssim,psnr,互信息三個(gè)衡量指標(biāo),同時(shí)考慮關(guān)鍵幀和模板圖像之間結(jié)構(gòu)、亮度、對(duì)比度和像素值以及信息量的低維相似程度;從圖像高層語義信息角度出發(fā),由深度預(yù)訓(xùn)練模型提出到富含圖像語義信息的特征圖進(jìn)行對(duì)比,獲取高維相似程度,同時(shí)結(jié)合低維和高維相似度,有效提升關(guān)鍵幀定位精度,進(jìn)而實(shí)現(xiàn)視頻拆條。
1.一種視頻智能拆條方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的視頻智能拆條方法,其特征在于,獲取輸入視頻的視頻幀序列,并在所述視頻幀序列中引入位置編碼的步驟包括:
3.根據(jù)權(quán)利要求1所述的視頻智能拆條方法,其特征在于,基于所述輸入視頻的圖像參數(shù)為引入位置編碼后的視頻幀序列分配多個(gè)不重疊的窗口,并在每個(gè)所述窗口內(nèi)計(jì)算自注意力機(jī)制,以得到對(duì)應(yīng)的關(guān)鍵幀序列的步驟包括:
4.根據(jù)權(quán)利要求1所述的視頻智能拆條方法,其特征在于,所述自注意力的計(jì)算公式為:
5.根據(jù)權(quán)利要求1所述的視頻智能拆條方法,其特征在于,所述相似性評(píng)價(jià)指標(biāo)包括結(jié)構(gòu)相似性指標(biāo)、峰值信噪比指標(biāo)以及互信息指標(biāo),所述結(jié)構(gòu)相似性指標(biāo)的表達(dá)式為:
6.一種視頻智能拆條系統(tǒng),其特征在于,包括:
7.根據(jù)權(quán)利要求6所述的視頻智能拆條系統(tǒng),其特征在于,所述編碼引入模塊包括:
8.根據(jù)權(quán)利要求6所述的視頻智能拆條系統(tǒng),其特征在于,所述窗口分配模塊包括:
9.一種可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至5任一所述的視頻智能拆條方法。
10.一種計(jì)算機(jī),包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至5任一所述的視頻智能拆條方法。