一種基于遞歸卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮感知視頻重建的方法與流程

文檔序號(hào)：12789931閱讀：954來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

一種基于遞歸卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮感知視頻重建的方法與流程

本發(fā)明涉及視頻壓縮和重建領(lǐng)域，尤其是涉及了一種基于遞歸卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮感知視頻重建的方法。

背景技術(shù)：

視頻壓縮和重建常用于物理與生物科學(xué)的研究、視頻監(jiān)控、遙感技術(shù)、社交網(wǎng)絡(luò)等領(lǐng)域，在物理與生物科學(xué)的研究上，高速攝像機(jī)被用來記錄傳統(tǒng)相機(jī)所不能記載的高速率事件特征，它能記錄高速事件的高分辨率靜止圖像，例如，跟蹤“可忽略的運(yùn)動(dòng)模糊和圖像失真?zhèn)斡啊钡谋馇?。視頻監(jiān)控中，可對(duì)監(jiān)控視頻中感興趣的區(qū)域進(jìn)行重建，對(duì)特定人物或車牌的圖像進(jìn)行增強(qiáng)提高辨識(shí)度。但是，若幀率為10kfps的攝像機(jī)拍攝分辨率為1080P的高清視頻，那么每秒可以產(chǎn)生大約500GB的數(shù)據(jù)，這對(duì)現(xiàn)有的傳輸和存儲(chǔ)技術(shù)構(gòu)成了巨大的挑戰(zhàn)，如何高效地傳輸和存儲(chǔ)這些大容量視頻是目前研究的熱點(diǎn)。

本發(fā)明提出了一種基于遞歸卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮感知視頻重建的方法，利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)來提取時(shí)空特征，包括背景、對(duì)象細(xì)節(jié)、和運(yùn)動(dòng)信息，達(dá)到了更好的重建質(zhì)量。具體地，隨機(jī)編碼器并行運(yùn)行，利用較多的測量編碼視頻里的首幀，同時(shí)利用較少的測量編碼剩余幀，對(duì)于每個(gè)壓縮測量，有特定的CNN從中提取空間特征，長短記憶(LSTM)網(wǎng)絡(luò)聚集了由每個(gè)CNN提取的所有特征，和隱藏狀態(tài)的推斷運(yùn)動(dòng)一起形成重建。本發(fā)明突破了將視頻視為一系列獨(dú)立圖像的傳統(tǒng)處理方式的局限，通過RNN將時(shí)間信息應(yīng)用于重建過程，從而生成更多精確的模型，除此之外本方法還在保持較好的原始視頻視覺細(xì)節(jié)的基礎(chǔ)上，提高了壓縮比并且減少了數(shù)據(jù)傳輸?shù)膶拵?，提高了視頻重建質(zhì)量，支持高幀率的視頻應(yīng)用。

技術(shù)實(shí)現(xiàn)要素：

針對(duì)現(xiàn)有方法在高壓縮比下難以保證視頻重建質(zhì)量的問題，本發(fā)明的目的在于提供一種基于遞歸卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮感知視頻重建的方法，超越了傳統(tǒng)方法的限制，提高CS攝像機(jī)的壓縮比(CR)，并且提高了視頻重建質(zhì)量，同時(shí)減少了數(shù)據(jù)傳輸?shù)膸?，使得可以支持高幀率的視頻應(yīng)用。

為解決上述問題，本發(fā)明提供一種基于遞歸卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮感知視頻重建的方法，其主要內(nèi)容包括：

(一)壓縮感知網(wǎng)絡(luò)(CSNet)；

(二)CSNet算法結(jié)構(gòu)；

(三)卷積神經(jīng)網(wǎng)絡(luò)(CNN)；

(四)長短期記憶(LSTM)網(wǎng)絡(luò)；

(五)CSNet網(wǎng)絡(luò)訓(xùn)練；

(六)壓縮感知視頻重建。

其中，所述的壓縮感知網(wǎng)絡(luò)(CSNet)，是一種深度神經(jīng)網(wǎng)絡(luò)，可以從隨機(jī)測量中了解視覺表示，用于壓縮感知視頻重建，是一種端到端的訓(xùn)練和非迭代模型，結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)(CNN)和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)，從而利用時(shí)空特征進(jìn)行視頻重建，這個(gè)網(wǎng)絡(luò)結(jié)構(gòu)可以接收伴有多級(jí)壓縮比(CR)的隨機(jī)測量，分別地提供了背景信息和對(duì)象細(xì)節(jié)，達(dá)到更好的重建質(zhì)量。

其中，所述的CSNet算法結(jié)構(gòu)，該結(jié)構(gòu)包含三個(gè)模塊：用于測量的隨機(jī)編碼、用于視覺特征提取的CNN聚類、用于時(shí)間重建的LSTM，隨機(jī)編碼器并行運(yùn)行，利用較多的測量編碼視頻里的首幀，同時(shí)利用較少的測量編碼剩余幀，可以接受多級(jí)壓縮比(CR)測量，通過此算法，關(guān)鍵幀和非關(guān)鍵幀(主要貢獻(xiàn)運(yùn)動(dòng)信息的其余幀)分別被壓縮，遞歸神經(jīng)網(wǎng)絡(luò)(RNN)推算出運(yùn)動(dòng)信息，且將這些信息與通過卷積神經(jīng)系統(tǒng)(CNN)提取的視覺特征相結(jié)合，合成高質(zhì)量的幀，高效的信息融合，能使壓縮感知(CS)視頻應(yīng)用的保真度和壓縮比(CR)之間得達(dá)到最優(yōu)的平衡。

進(jìn)一步地，所述的時(shí)間壓縮，為獲得更高的壓縮比(CR)，將包含T幀的每個(gè)視頻補(bǔ)丁分成K個(gè)關(guān)鍵幀和(T-K)個(gè)非關(guān)鍵幀，關(guān)鍵幀經(jīng)過低壓縮比(CR)壓縮，非關(guān)鍵幀經(jīng)過高壓縮比(CR)壓縮，使得關(guān)鍵幀的測量信息可以再次被用來重建非關(guān)鍵幀，此可看作時(shí)間壓縮。

進(jìn)一步地，所述的LSTM網(wǎng)絡(luò)訓(xùn)練過程，其特征在于，在LSTM網(wǎng)絡(luò)的訓(xùn)練過程中，起初的LSTM的M-輸入提取處理關(guān)鍵幀的CNN數(shù)據(jù)，其余的(T-M)提取處理非關(guān)鍵幀的CNN輸出，對(duì)于每個(gè)LSTM單位，它將會(huì)收到關(guān)鍵幀的視覺特征，這些視覺特征用于背景重建、恢復(fù)對(duì)象的當(dāng)前幀、以及運(yùn)動(dòng)估計(jì)的最后幾個(gè)幀。

其中，所述的CSNet網(wǎng)絡(luò)訓(xùn)練，分為兩個(gè)階段，第一個(gè)階段，預(yù)訓(xùn)練背景CNN，并且從K關(guān)鍵幀里提取視覺特征，第二個(gè)階段，給模型更多的自由來提取構(gòu)建對(duì)象所需的基本塊，然后從零開始訓(xùn)練(T-M)較小CNN，這些對(duì)象CNN和預(yù)訓(xùn)練背景CNN通過一個(gè)合成的LSTM結(jié)合，三個(gè)網(wǎng)絡(luò)一起訓(xùn)練，為減少訓(xùn)練所需的參數(shù)數(shù)量，只有關(guān)鍵幀CNN的最后幾層被結(jié)合，所以這些圖層的輸入是特征映射而不是測量，將平均歐氏損失作為損失函數(shù)，即

此處，W和b是網(wǎng)絡(luò)權(quán)值和偏置，x_i和y_i是每個(gè)圖像塊和它的CS測量，一個(gè)隨機(jī)高斯矩陣被用于CS編碼。

其中，所述的壓縮感知視頻重建，建立基于信息的當(dāng)前幀，利用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)提取運(yùn)動(dòng)特征，卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取視覺特征，融合二者所提取的信息，利用LSTM網(wǎng)絡(luò)聚集提取的所有特征，將其和隱藏狀態(tài)的推斷運(yùn)動(dòng)組合形成重建。

附圖說明

圖1是本發(fā)明一種基于遞歸卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮感知視頻重建的方法的系統(tǒng)流程圖。

圖2是本發(fā)明一種基于遞歸卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮感知視頻重建的方法的框架整體結(jié)構(gòu)。

圖3是本發(fā)明一種基于遞歸卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮感知視頻重建的方法的CSNet網(wǎng)絡(luò)訓(xùn)練示意圖。

圖4是本發(fā)明一種基于遞歸卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮感知視頻重建的方法的壓縮感知視頻重建流程圖。

具體實(shí)施方式

需要說明的是，在不沖突的情況下，本申請中的實(shí)施例及實(shí)施例中的特征可以相互結(jié)合，下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步詳細(xì)說明。

圖1是本發(fā)明一種基于遞歸卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮感知視頻重建的方法的系統(tǒng)流程圖。主要包括壓縮感知網(wǎng)絡(luò)(CSNet)、CSNet算法結(jié)構(gòu)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、長短期記憶(LSTM)網(wǎng)絡(luò)、CSNet網(wǎng)絡(luò)訓(xùn)練、壓縮感知視頻重建。

其中，所述的卷積神經(jīng)網(wǎng)絡(luò)(CNN)，該網(wǎng)絡(luò)對(duì)圖像進(jìn)行壓縮測量和外放重建，把時(shí)間壓縮和空間壓縮結(jié)合在一起以最大化壓縮比，設(shè)計(jì)一個(gè)較大的CNN來處理關(guān)鍵幀，因?yàn)殛P(guān)鍵幀含有高熵信息，同時(shí)，設(shè)計(jì)一個(gè)較小的CNN來處理非關(guān)鍵幀，為了減少系統(tǒng)的延遲以及簡化網(wǎng)絡(luò)結(jié)構(gòu)，使用圖像塊作為輸入，此時(shí)，由CNN生成的所有特征圖的大小和圖像塊相同，特征圖的數(shù)量單調(diào)下降，此網(wǎng)絡(luò)輸入是由壓縮測量組成的m維向量，在CNN之前有一個(gè)全層，它使用這些測量生成一個(gè)二維特征圖。為獲得更高的壓縮比(CR)，將包含T幀的每個(gè)視頻補(bǔ)丁分成K個(gè)關(guān)鍵幀和(T-K)個(gè)非關(guān)鍵幀，關(guān)鍵幀經(jīng)過低壓縮比(CR)壓縮，非關(guān)鍵幀經(jīng)過高壓縮比(CR)壓縮，使得關(guān)鍵幀的測量信息可以再次被用來重建非關(guān)鍵幀，此可看作時(shí)間壓縮。

其中，所述的長短期記憶(LSTM)網(wǎng)絡(luò)，用于時(shí)間重建，為獲得一個(gè)端到端訓(xùn)練的、以及計(jì)算有效的模型，不對(duì)原始輸入進(jìn)行預(yù)處理，并且利用一個(gè)LSTM網(wǎng)絡(luò)提取重建必不可少的運(yùn)動(dòng)特征，從而估計(jì)視頻的光流，合成的LSTM網(wǎng)絡(luò)被用于運(yùn)動(dòng)外推、空間視覺特征和運(yùn)動(dòng)的聚集，以達(dá)到視頻重建。在LSTM網(wǎng)絡(luò)的訓(xùn)練過程中，起初的LSTM的M-輸入提取處理關(guān)鍵幀的CNN數(shù)據(jù)，其余的(T-M)提取處理非關(guān)鍵幀的CNN輸出，對(duì)于每個(gè)LSTM單位，它將會(huì)收到關(guān)鍵幀的視覺特征，這些視覺特征用于背景重建、恢復(fù)對(duì)象的當(dāng)前幀、以及運(yùn)動(dòng)估計(jì)的最后幾個(gè)幀。

此處，W和b是網(wǎng)絡(luò)權(quán)值和偏置，x_i和y_i是每個(gè)圖像塊和它的CS測量，一個(gè)隨機(jī)高斯矩陣被用于CS編碼。

圖2是本發(fā)明一種基于遞歸卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮感知視頻重建的方法的框架整體結(jié)構(gòu)圖。壓縮視頻幀通過壓縮感知獲得。重建是通過CSNet執(zhí)行，CSNet由背景CNN、對(duì)象CNN、以及合成的LSTM組成。每T幀里，前M幀和剩余的(T-M)幀分別由低CR和高CR進(jìn)行壓縮。背景CNN首先被預(yù)訓(xùn)練，然后，剩下背景CNN層和模型的剩余部分一起訓(xùn)練。

圖3是本發(fā)明一種基于遞歸卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮感知視頻重建的方法的CSNet網(wǎng)絡(luò)訓(xùn)練示意圖。網(wǎng)絡(luò)訓(xùn)練過程分為兩個(gè)階段，其中圖a為背景CNN的預(yù)訓(xùn)練，圖b為CNN和合成的LSTM的聯(lián)合訓(xùn)練。第一個(gè)階段，預(yù)訓(xùn)練背景CNN，且從K個(gè)關(guān)鍵幀里提取視覺特征，如圖a所示；第二個(gè)階段，給模型更多的自由來提取構(gòu)建對(duì)象所需的基本塊，我們從零開始訓(xùn)練(T-M)小CNNs，這些對(duì)象CNN和預(yù)訓(xùn)練背景CNN通過一個(gè)合成的LSTM結(jié)合，三個(gè)網(wǎng)絡(luò)一起訓(xùn)練，如圖b所示。為減少訓(xùn)練所需的參數(shù)數(shù)量，只有關(guān)鍵幀CNN的最后幾層被結(jié)合，所以層的輸入是特征映射而不是測量。

圖4是本發(fā)明一種基于遞歸卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮感知視頻重建的方法的壓縮感知視頻重建流程圖。建立基于信息的當(dāng)前幀，利用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)提取運(yùn)動(dòng)特征，卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取視覺特征，融合二者所提取的信息，利用LSTM網(wǎng)絡(luò)聚集提取的所有特征，將其和隱藏狀態(tài)的推斷運(yùn)動(dòng)組合形成重建。

對(duì)于本領(lǐng)域技術(shù)人員，本發(fā)明不限制于上述實(shí)施例的細(xì)節(jié)，在不背離本發(fā)明的精神和范圍的情況下，能夠以其他具體形式實(shí)現(xiàn)本發(fā)明。此外，本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍，這些改進(jìn)和變型也應(yīng)視為本發(fā)明的保護(hù)范圍。因此，所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本發(fā)明范圍的所有變更和修改。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：夏春秋
技術(shù)所有人：深圳市唯特視科技有限公司
我是此專利的發(fā)明人

上一篇：機(jī)器人頭部組件的制作方法與工藝
上一篇：一種視頻探頭故障檢測裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測試系統(tǒng)設(shè)計(jì) 2.汽車檢測系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

卷積神經(jīng)網(wǎng)絡(luò)局部感知相關(guān)技術(shù)

卷積神經(jīng)網(wǎng)絡(luò)相關(guān)技術(shù)

cnn卷積神經(jīng)網(wǎng)絡(luò)詳解相關(guān)技術(shù)

卷積神經(jīng)網(wǎng)絡(luò)算法相關(guān)技術(shù)

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于遞歸卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮感知視頻重建的方法與流程