本發(fā)明涉及視頻壓縮和重建領(lǐng)域,尤其是涉及了一種基于遞歸卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮感知視頻重建的方法。
背景技術(shù):
視頻壓縮和重建常用于物理與生物科學(xué)的研究、視頻監(jiān)控、遙感技術(shù)、社交網(wǎng)絡(luò)等領(lǐng)域,在物理與生物科學(xué)的研究上,高速攝像機(jī)被用來記錄傳統(tǒng)相機(jī)所不能記載的高速率事件特征,它能記錄高速事件的高分辨率靜止圖像,例如,跟蹤“可忽略的運(yùn)動(dòng)模糊和圖像失真?zhèn)斡啊钡谋馇?。視頻監(jiān)控中,可對(duì)監(jiān)控視頻中感興趣的區(qū)域進(jìn)行重建,對(duì)特定人物或車牌的圖像進(jìn)行增強(qiáng)提高辨識(shí)度。但是,若幀率為10kfps的攝像機(jī)拍攝分辨率為1080P的高清視頻,那么每秒可以產(chǎn)生大約500GB的數(shù)據(jù),這對(duì)現(xiàn)有的傳輸和存儲(chǔ)技術(shù)構(gòu)成了巨大的挑戰(zhàn),如何高效地傳輸和存儲(chǔ)這些大容量視頻是目前研究的熱點(diǎn)。
本發(fā)明提出了一種基于遞歸卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮感知視頻重建的方法,利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)來提取時(shí)空特征,包括背景、對(duì)象細(xì)節(jié)、和運(yùn)動(dòng)信息,達(dá)到了更好的重建質(zhì)量。具體地,隨機(jī)編碼器并行運(yùn)行,利用較多的測量編碼視頻里的首幀,同時(shí)利用較少的測量編碼剩余幀,對(duì)于每個(gè)壓縮測量,有特定的CNN從中提取空間特征,長短記憶(LSTM)網(wǎng)絡(luò)聚集了由每個(gè)CNN提取的所有特征,和隱藏狀態(tài)的推斷運(yùn)動(dòng)一起形成重建。本發(fā)明突破了將視頻視為一系列獨(dú)立圖像的傳統(tǒng)處理方式的局限,通過RNN將時(shí)間信息應(yīng)用于重建過程,從而生成更多精確的模型,除此之外本方法還在保持較好的原始視頻視覺細(xì)節(jié)的基礎(chǔ)上,提高了壓縮比并且減少了數(shù)據(jù)傳輸?shù)膶拵?,提高了視頻重建質(zhì)量,支持高幀率的視頻應(yīng)用。
技術(shù)實(shí)現(xiàn)要素:
針對(duì)現(xiàn)有方法在高壓縮比下難以保證視頻重建質(zhì)量的問題,本發(fā)明的目的在于提供一種基于遞歸卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮感知視頻重建的方法,超越了傳統(tǒng)方法的限制,提高CS攝像機(jī)的壓縮比(CR),并且提高了視頻重建質(zhì)量,同時(shí)減少了數(shù)據(jù)傳輸?shù)膸?,使得可以支持高幀率的視頻應(yīng)用。
為解決上述問題,本發(fā)明提供一種基于遞歸卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮感知視頻重建的方法,其主要內(nèi)容包括:
(一)壓縮感知網(wǎng)絡(luò)(CSNet);
(二)CSNet算法結(jié)構(gòu);
(三)卷積神經(jīng)網(wǎng)絡(luò)(CNN);
(四)長短期記憶(LSTM)網(wǎng)絡(luò);
(五)CSNet網(wǎng)絡(luò)訓(xùn)練;
(六)壓縮感知視頻重建。
其中,所述的壓縮感知網(wǎng)絡(luò)(CSNet),是一種深度神經(jīng)網(wǎng)絡(luò),可以從隨機(jī)測量中了解視覺表示,用于壓縮感知視頻重建,是一種端到端的訓(xùn)練和非迭代模型,結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)(CNN)和遞歸神經(jīng)網(wǎng)絡(luò)(RNN),從而利用時(shí)空特征進(jìn)行視頻重建,這個(gè)網(wǎng)絡(luò)結(jié)構(gòu)可以接收伴有多級(jí)壓縮比(CR)的隨機(jī)測量,分別地提供了背景信息和對(duì)象細(xì)節(jié),達(dá)到更好的重建質(zhì)量。
其中,所述的CSNet算法結(jié)構(gòu),該結(jié)構(gòu)包含三個(gè)模塊:用于測量的隨機(jī)編碼、用于視覺特征提取的CNN聚類、用于時(shí)間重建的LSTM,隨機(jī)編碼器并行運(yùn)行,利用較多的測量編碼視頻里的首幀,同時(shí)利用較少的測量編碼剩余幀,可以接受多級(jí)壓縮比(CR)測量,通過此算法,關(guān)鍵幀和非關(guān)鍵幀(主要貢獻(xiàn)運(yùn)動(dòng)信息的其余幀)分別被壓縮,遞歸神經(jīng)網(wǎng)絡(luò)(RNN)推算出運(yùn)動(dòng)信息,且將這些信息與通過卷積神經(jīng)系統(tǒng)(CNN)提取的視覺特征相結(jié)合,合成高質(zhì)量的幀,高效的信息融合,能使壓縮感知(CS)視頻應(yīng)用的保真度和壓縮比(CR)之間得達(dá)到最優(yōu)的平衡。
其中,所述的卷積神經(jīng)網(wǎng)絡(luò)(CNN),該網(wǎng)絡(luò)對(duì)圖像進(jìn)行壓縮測量和外放重建,把時(shí)間壓縮和空間壓縮結(jié)合在一起以最大化壓縮比,設(shè)計(jì)一個(gè)較大的CNN來處理關(guān)鍵幀,因?yàn)殛P(guān)鍵幀含有高熵信息,同時(shí),設(shè)計(jì)一個(gè)較小的CNN來處理非關(guān)鍵幀,為了減少系統(tǒng)的延遲以及簡化網(wǎng)絡(luò)結(jié)構(gòu),使用圖像塊作為輸入,此時(shí),由CNN生成的所有特征圖的大小和圖像塊相同,特征圖的數(shù)量單調(diào)下降,此網(wǎng)絡(luò)輸入是由壓縮測量組成的m維向量,在CNN之前有一個(gè)全層,它使用這些測量生成一個(gè)二維特征圖。
進(jìn)一步地,所述的時(shí)間壓縮,為獲得更高的壓縮比(CR),將包含T幀的每個(gè)視頻補(bǔ)丁分成K個(gè)關(guān)鍵幀和(T-K)個(gè)非關(guān)鍵幀,關(guān)鍵幀經(jīng)過低壓縮比(CR)壓縮,非關(guān)鍵幀經(jīng)過高壓縮比(CR)壓縮,使得關(guān)鍵幀的測量信息可以再次被用來重建非關(guān)鍵幀,此可看作時(shí)間壓縮。
其中,所述的長短期記憶(LSTM)網(wǎng)絡(luò),用于時(shí)間重建,為獲得一個(gè)端到端訓(xùn)練的、以及計(jì)算有效的模型,不對(duì)原始輸入進(jìn)行預(yù)處理,并且利用一個(gè)LSTM網(wǎng)絡(luò)提取重建必不可少的運(yùn)動(dòng)特征,從而估計(jì)視頻的光流,合成的LSTM網(wǎng)絡(luò)被用于運(yùn)動(dòng)外推、空間視覺特征和運(yùn)動(dòng)的聚集,以達(dá)到視頻重建。
進(jìn)一步地,所述的LSTM網(wǎng)絡(luò)訓(xùn)練過程,其特征在于,在LSTM網(wǎng)絡(luò)的訓(xùn)練過程中,起初的LSTM的M-輸入提取處理關(guān)鍵幀的CNN數(shù)據(jù),其余的(T-M)提取處理非關(guān)鍵幀的CNN輸出,對(duì)于每個(gè)LSTM單位,它將會(huì)收到關(guān)鍵幀的視覺特征,這些視覺特征用于背景重建、恢復(fù)對(duì)象的當(dāng)前幀、以及運(yùn)動(dòng)估計(jì)的最后幾個(gè)幀。
其中,所述的CSNet網(wǎng)絡(luò)訓(xùn)練,分為兩個(gè)階段,第一個(gè)階段,預(yù)訓(xùn)練背景CNN,并且從K關(guān)鍵幀里提取視覺特征,第二個(gè)階段,給模型更多的自由來提取構(gòu)建對(duì)象所需的基本塊,然后從零開始訓(xùn)練(T-M)較小CNN,這些對(duì)象CNN和預(yù)訓(xùn)練背景CNN通過一個(gè)合成的LSTM結(jié)合,三個(gè)網(wǎng)絡(luò)一起訓(xùn)練,為減少訓(xùn)練所需的參數(shù)數(shù)量,只有關(guān)鍵幀CNN的最后幾層被結(jié)合,所以這些圖層的輸入是特征映射而不是測量,將平均歐氏損失作為損失函數(shù),即
此處,W和b是網(wǎng)絡(luò)權(quán)值和偏置,xi和yi是每個(gè)圖像塊和它的CS測量,一個(gè)隨機(jī)高斯矩陣被用于CS編碼。
其中,所述的壓縮感知視頻重建,建立基于信息的當(dāng)前幀,利用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)提取運(yùn)動(dòng)特征,卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取視覺特征,融合二者所提取的信息,利用LSTM網(wǎng)絡(luò)聚集提取的所有特征,將其和隱藏狀態(tài)的推斷運(yùn)動(dòng)組合形成重建。
附圖說明
圖1是本發(fā)明一種基于遞歸卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮感知視頻重建的方法的系統(tǒng)流程圖。
圖2是本發(fā)明一種基于遞歸卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮感知視頻重建的方法的框架整體結(jié)構(gòu)。
圖3是本發(fā)明一種基于遞歸卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮感知視頻重建的方法的CSNet網(wǎng)絡(luò)訓(xùn)練示意圖。
圖4是本發(fā)明一種基于遞歸卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮感知視頻重建的方法的壓縮感知視頻重建流程圖。
具體實(shí)施方式
需要說明的是,在不沖突的情況下,本申請中的實(shí)施例及實(shí)施例中的特征可以相互結(jié)合,下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步詳細(xì)說明。
圖1是本發(fā)明一種基于遞歸卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮感知視頻重建的方法的系統(tǒng)流程圖。主要包括壓縮感知網(wǎng)絡(luò)(CSNet)、CSNet算法結(jié)構(gòu)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、長短期記憶(LSTM)網(wǎng)絡(luò)、CSNet網(wǎng)絡(luò)訓(xùn)練、壓縮感知視頻重建。
其中,所述的壓縮感知網(wǎng)絡(luò)(CSNet),是一種深度神經(jīng)網(wǎng)絡(luò),可以從隨機(jī)測量中了解視覺表示,用于壓縮感知視頻重建,是一種端到端的訓(xùn)練和非迭代模型,結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)(CNN)和遞歸神經(jīng)網(wǎng)絡(luò)(RNN),從而利用時(shí)空特征進(jìn)行視頻重建,這個(gè)網(wǎng)絡(luò)結(jié)構(gòu)可以接收伴有多級(jí)壓縮比(CR)的隨機(jī)測量,分別地提供了背景信息和對(duì)象細(xì)節(jié),達(dá)到更好的重建質(zhì)量。
其中,所述的CSNet算法結(jié)構(gòu),該結(jié)構(gòu)包含三個(gè)模塊:用于測量的隨機(jī)編碼、用于視覺特征提取的CNN聚類、用于時(shí)間重建的LSTM,隨機(jī)編碼器并行運(yùn)行,利用較多的測量編碼視頻里的首幀,同時(shí)利用較少的測量編碼剩余幀,可以接受多級(jí)壓縮比(CR)測量,通過此算法,關(guān)鍵幀和非關(guān)鍵幀(主要貢獻(xiàn)運(yùn)動(dòng)信息的其余幀)分別被壓縮,遞歸神經(jīng)網(wǎng)絡(luò)(RNN)推算出運(yùn)動(dòng)信息,且將這些信息與通過卷積神經(jīng)系統(tǒng)(CNN)提取的視覺特征相結(jié)合,合成高質(zhì)量的幀,高效的信息融合,能使壓縮感知(CS)視頻應(yīng)用的保真度和壓縮比(CR)之間得達(dá)到最優(yōu)的平衡。
其中,所述的卷積神經(jīng)網(wǎng)絡(luò)(CNN),該網(wǎng)絡(luò)對(duì)圖像進(jìn)行壓縮測量和外放重建,把時(shí)間壓縮和空間壓縮結(jié)合在一起以最大化壓縮比,設(shè)計(jì)一個(gè)較大的CNN來處理關(guān)鍵幀,因?yàn)殛P(guān)鍵幀含有高熵信息,同時(shí),設(shè)計(jì)一個(gè)較小的CNN來處理非關(guān)鍵幀,為了減少系統(tǒng)的延遲以及簡化網(wǎng)絡(luò)結(jié)構(gòu),使用圖像塊作為輸入,此時(shí),由CNN生成的所有特征圖的大小和圖像塊相同,特征圖的數(shù)量單調(diào)下降,此網(wǎng)絡(luò)輸入是由壓縮測量組成的m維向量,在CNN之前有一個(gè)全層,它使用這些測量生成一個(gè)二維特征圖。為獲得更高的壓縮比(CR),將包含T幀的每個(gè)視頻補(bǔ)丁分成K個(gè)關(guān)鍵幀和(T-K)個(gè)非關(guān)鍵幀,關(guān)鍵幀經(jīng)過低壓縮比(CR)壓縮,非關(guān)鍵幀經(jīng)過高壓縮比(CR)壓縮,使得關(guān)鍵幀的測量信息可以再次被用來重建非關(guān)鍵幀,此可看作時(shí)間壓縮。
其中,所述的長短期記憶(LSTM)網(wǎng)絡(luò),用于時(shí)間重建,為獲得一個(gè)端到端訓(xùn)練的、以及計(jì)算有效的模型,不對(duì)原始輸入進(jìn)行預(yù)處理,并且利用一個(gè)LSTM網(wǎng)絡(luò)提取重建必不可少的運(yùn)動(dòng)特征,從而估計(jì)視頻的光流,合成的LSTM網(wǎng)絡(luò)被用于運(yùn)動(dòng)外推、空間視覺特征和運(yùn)動(dòng)的聚集,以達(dá)到視頻重建。在LSTM網(wǎng)絡(luò)的訓(xùn)練過程中,起初的LSTM的M-輸入提取處理關(guān)鍵幀的CNN數(shù)據(jù),其余的(T-M)提取處理非關(guān)鍵幀的CNN輸出,對(duì)于每個(gè)LSTM單位,它將會(huì)收到關(guān)鍵幀的視覺特征,這些視覺特征用于背景重建、恢復(fù)對(duì)象的當(dāng)前幀、以及運(yùn)動(dòng)估計(jì)的最后幾個(gè)幀。
其中,所述的CSNet網(wǎng)絡(luò)訓(xùn)練,分為兩個(gè)階段,第一個(gè)階段,預(yù)訓(xùn)練背景CNN,并且從K關(guān)鍵幀里提取視覺特征,第二個(gè)階段,給模型更多的自由來提取構(gòu)建對(duì)象所需的基本塊,然后從零開始訓(xùn)練(T-M)較小CNN,這些對(duì)象CNN和預(yù)訓(xùn)練背景CNN通過一個(gè)合成的LSTM結(jié)合,三個(gè)網(wǎng)絡(luò)一起訓(xùn)練,為減少訓(xùn)練所需的參數(shù)數(shù)量,只有關(guān)鍵幀CNN的最后幾層被結(jié)合,所以這些圖層的輸入是特征映射而不是測量,將平均歐氏損失作為損失函數(shù),即
此處,W和b是網(wǎng)絡(luò)權(quán)值和偏置,xi和yi是每個(gè)圖像塊和它的CS測量,一個(gè)隨機(jī)高斯矩陣被用于CS編碼。
其中,所述的壓縮感知視頻重建,建立基于信息的當(dāng)前幀,利用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)提取運(yùn)動(dòng)特征,卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取視覺特征,融合二者所提取的信息,利用LSTM網(wǎng)絡(luò)聚集提取的所有特征,將其和隱藏狀態(tài)的推斷運(yùn)動(dòng)組合形成重建。
圖2是本發(fā)明一種基于遞歸卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮感知視頻重建的方法的框架整體結(jié)構(gòu)圖。壓縮視頻幀通過壓縮感知獲得。重建是通過CSNet執(zhí)行,CSNet由背景CNN、對(duì)象CNN、以及合成的LSTM組成。每T幀里,前M幀和剩余的(T-M)幀分別由低CR和高CR進(jìn)行壓縮。背景CNN首先被預(yù)訓(xùn)練,然后,剩下背景CNN層和模型的剩余部分一起訓(xùn)練。
圖3是本發(fā)明一種基于遞歸卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮感知視頻重建的方法的CSNet網(wǎng)絡(luò)訓(xùn)練示意圖。網(wǎng)絡(luò)訓(xùn)練過程分為兩個(gè)階段,其中圖a為背景CNN的預(yù)訓(xùn)練,圖b為CNN和合成的LSTM的聯(lián)合訓(xùn)練。第一個(gè)階段,預(yù)訓(xùn)練背景CNN,且從K個(gè)關(guān)鍵幀里提取視覺特征,如圖a所示;第二個(gè)階段,給模型更多的自由來提取構(gòu)建對(duì)象所需的基本塊,我們從零開始訓(xùn)練(T-M)小CNNs,這些對(duì)象CNN和預(yù)訓(xùn)練背景CNN通過一個(gè)合成的LSTM結(jié)合,三個(gè)網(wǎng)絡(luò)一起訓(xùn)練,如圖b所示。為減少訓(xùn)練所需的參數(shù)數(shù)量,只有關(guān)鍵幀CNN的最后幾層被結(jié)合,所以層的輸入是特征映射而不是測量。
圖4是本發(fā)明一種基于遞歸卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮感知視頻重建的方法的壓縮感知視頻重建流程圖。建立基于信息的當(dāng)前幀,利用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)提取運(yùn)動(dòng)特征,卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取視覺特征,融合二者所提取的信息,利用LSTM網(wǎng)絡(luò)聚集提取的所有特征,將其和隱藏狀態(tài)的推斷運(yùn)動(dòng)組合形成重建。
對(duì)于本領(lǐng)域技術(shù)人員,本發(fā)明不限制于上述實(shí)施例的細(xì)節(jié),在不背離本發(fā)明的精神和范圍的情況下,能夠以其他具體形式實(shí)現(xiàn)本發(fā)明。此外,本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍,這些改進(jìn)和變型也應(yīng)視為本發(fā)明的保護(hù)范圍。因此,所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本發(fā)明范圍的所有變更和修改。