两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于深度卷積特征多通道金字塔池化的動(dòng)作識(shí)別方法與流程

文檔序號:12670426閱讀:1051來源:國知局

本發(fā)明涉及計(jì)算機(jī)視覺領(lǐng)域,更具體地,涉及一種基于深度卷積特征多通道金字塔池化的動(dòng)作識(shí)別方法。



背景技術(shù):

科技的發(fā)展使得攝像設(shè)備得到了普及,數(shù)量巨大的視頻數(shù)據(jù)也隨之產(chǎn)生。同時(shí),針對視頻的應(yīng)用也應(yīng)運(yùn)而生:智能視頻監(jiān)控、視頻數(shù)據(jù)分類、高級人機(jī)交互等。在這些應(yīng)用中,針對人的動(dòng)作進(jìn)行理解是最核心的關(guān)注點(diǎn),也是人們研究的核心內(nèi)容。

由于人體動(dòng)作識(shí)別有很大的潛在價(jià)值,所以此課題作為一個(gè)研究熱點(diǎn)已經(jīng)持續(xù)了至少十年時(shí)間,很多種方法都被提出,例如:基于密集軌跡(DT)的方法、基于時(shí)空興趣點(diǎn)的方法以及基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的方法等。其中,基于CNN的方法研究的人數(shù)最多,這種方法能夠取得目前最好的結(jié)果。然而,大多數(shù)深層CNN網(wǎng)絡(luò)都將單張卷積圖看成一個(gè)整體來用,而卷積圖中的局部信息往往被忽略,所以,我們的動(dòng)作識(shí)別研究將會(huì)針對基于深度卷積特征多通道金字塔池化的動(dòng)作識(shí)別方法以提取深度特征中的局部信息。

基于卷積神經(jīng)網(wǎng)絡(luò)的方法的主要思想是:首先,對視頻采用多層的卷積層、池化層和全連接層,提取視頻的描述子特征;接下來將這些特征放入分類器中進(jìn)行分類,以完成最終的識(shí)別過程。很多學(xué)者在這個(gè)基礎(chǔ)上進(jìn)行了探索和改進(jìn)。Annane等人提出了一種雙流卷積網(wǎng)絡(luò)用于動(dòng)作識(shí)別,包括空間流和時(shí)間流網(wǎng)絡(luò),空間流用于提取視頻幀的表觀特征,時(shí)間流用于提取視頻連續(xù)幀的運(yùn)動(dòng)特征,將二者進(jìn)行融合,以此提升識(shí)別效果。Wang等人將深度卷積特征和人工特征進(jìn)行融合,學(xué)習(xí)到深度特征和人工特征這兩種不同類型特征的優(yōu)勢。以上方法都取得了較好的效果,但是現(xiàn)存的基于深度網(wǎng)絡(luò)的研究通常將單張深度特征圖作為一個(gè)整體來使用而忽略了深度特征中的局部信息,而這種線索對于提高基于深度網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率是有幫助的。



技術(shù)實(shí)現(xiàn)要素:

為了克服上述現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種基于深度卷積特征多通道金字塔池化的動(dòng)作識(shí)別方法。該方法將視頻數(shù)據(jù)集的視頻作為輸入,進(jìn)行視頻特征提取和識(shí)別,最后輸出視頻的分類結(jié)果,該方法具有簡單易實(shí)現(xiàn),識(shí)別效果好的特點(diǎn)。

為了達(dá)到上述目的,本發(fā)明采用的技術(shù)方案是:

一種基于深度卷積特征多通道金字塔池化的動(dòng)作識(shí)別方法,包括以下步驟:

(1)輸入待識(shí)別的視頻,采用two-stream深度網(wǎng)絡(luò)模型得到多通道深度卷積圖;其中two-stream網(wǎng)絡(luò)模型包括空間流(spatial-stream)深度網(wǎng)絡(luò)模型和時(shí)間流(temporal-stream)深度網(wǎng)絡(luò)模型。

具體是:對輸入視頻的每一幀采用空間流網(wǎng)絡(luò),得到幀的表觀特征;對輸入視頻的每連續(xù)M幀,利用時(shí)間流網(wǎng)絡(luò)模型得到運(yùn)動(dòng)特征;其中空間流網(wǎng)絡(luò)和時(shí)間流網(wǎng)絡(luò)模型均包含5個(gè)卷積層,3個(gè)池化層,以及3個(gè)全連接層;

(2)對空間流深度網(wǎng)絡(luò)模型和時(shí)間流深度網(wǎng)絡(luò)模型得到的多通道深度特征圖采用4層空間金字塔結(jié)構(gòu),得到的每個(gè)局部塊用最大池化方法計(jì)算該塊的最大值表達(dá),獲取特征圖在不同尺度下的局部信息;

(3)將深度特征圖中在相同時(shí)空位置的多通道局部塊的表達(dá)連接起來,形成視頻的特征描述子;

(4)對步驟(3)提取的描述子特征采用局部級聯(lián)描述子向量方法(VLAD)進(jìn)行特征建模,形成該視頻最終的向量表示;

(5)采用支持向量機(jī)(SVM)進(jìn)行特征分類,最終輸出分類結(jié)果,獲取視頻的動(dòng)作識(shí)別結(jié)果,該方法在YouTube人體行為數(shù)據(jù)集上實(shí)現(xiàn)了93.1%的準(zhǔn)確率。

本發(fā)明基于深度卷積神經(jīng)網(wǎng)絡(luò)方法,并且通過探索深度特征圖中的局部信息,提出了一種新的深度特征多通道金字塔池化描述子,它能夠有效地獲取特征圖在不同尺度下的局部信息,并且結(jié)合了局部級聯(lián)描述子向量,顯著提高了動(dòng)作識(shí)別的準(zhǔn)確率。

優(yōu)選的,步驟(1)中,空間流和時(shí)間流深度網(wǎng)絡(luò)模型將視頻每幀作為輸入,對原始圖像做多層的卷積和池化操作,得到每層的輸出都是多個(gè)通道的深度特征圖,獲取更具抽象的圖像特征表達(dá)。

優(yōu)選的,步驟(2)中,選取空間流深度網(wǎng)絡(luò)模型的第5層卷積層的輸出特征圖以及時(shí)間流深度網(wǎng)絡(luò)模型的第4層卷積層的輸出特征圖來進(jìn)行空間金字塔的操作,對多通道深度特征圖采用4層金字塔結(jié)構(gòu),其中4層金字塔結(jié)構(gòu)為(1×1,2×2,3×3,4×4),其中第一層(1×1)對應(yīng)的是整個(gè)多通道深度特征圖,第4層(4×4)對應(yīng)的是多通道深度特征圖最大尺度下的局部塊,因此通過金字塔結(jié)構(gòu)得到多通道深度特征圖位于不同尺度下的局部塊,對每個(gè)局部塊采用最大池化方法,計(jì)算塊中最大值作為該局部塊的特征表示。

優(yōu)選的,步驟(3)中,由于每個(gè)通道上的特征圖包含的是不同圖像信息,故將所有通道上的特征圖中同一空間位置的塊的特征串聯(lián)起來,形成該塊的多通道特征描述子。

優(yōu)選的,步驟(4)中,描述子特征表示為{x1,...xi,...xd},d表示局部塊的描述子特征的維數(shù),對描述子特征{x1,...xi,...xd},假設(shè)利用k-means聚類已經(jīng)學(xué)習(xí)得到的碼本(codebook)和k個(gè)中心(c1,...cj,...ck),采用局部級聯(lián)描述子向量方法(VLAD)對特征進(jìn)行特征建模,具體過程如下:

(5-1)描述子特征的每一維xi賦給碼本(codebook)中離該描述子特征最近的聚類中心cj,然后得到量化后的索引:NN(xi)=argminj||xi-cj||

(5-2)將所有離聚類中心cj最近的描述子特征,計(jì)算這些描述子特征和中心cj的差的累積和,獲得子向量:

(5-3)將各子向量uj連接起來,得到k×d維的向量表示u=[u1...uk];

(5-4)對向量u先采用“power-law”歸一化處理,即:

vj=|vj|α×sign(vj),j=1...k×d,α=0.2

隨后用2范數(shù)歸一化(L2-normalized),最終得到該描述子特征的VLAD表示。

本發(fā)明相對于現(xiàn)有技術(shù)具有如下的優(yōu)點(diǎn)及效果:

1、本發(fā)明提出了一種新的描述子特征來充分獲取不同尺度下的深度信息。

2、本發(fā)明對不同通道下的卷積圖的相同區(qū)域做池化連接,可以得到該區(qū)域的不同方面的信息,比如邊緣或者紋理。

3、本發(fā)明將局部級聯(lián)描述子結(jié)合深度特征進(jìn)行識(shí)別,提升了識(shí)別效果。

附圖說明

圖1為本發(fā)明的總體流程圖。

具體實(shí)施方式

為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。此外,下面所描述的本發(fā)明各個(gè)實(shí)施方式中所涉及到的技術(shù)特征只要彼此之間未構(gòu)成沖突就可以相互組合。

附圖給出了本發(fā)明的操作過程,如1圖所示,一種基于深度卷積特征多通道金字塔池化的動(dòng)作識(shí)別方法,包括以下步驟:

(1)輸入待識(shí)別的視頻,采用two-stream深度網(wǎng)絡(luò)模型得到多通道深度卷積圖;其中two-stream網(wǎng)絡(luò)模型包括空間流(spatial-stream)深度網(wǎng)絡(luò)模型和時(shí)間流(temporal-stream)深度網(wǎng)絡(luò)模型。

具體是:對輸入視頻的每一幀采用空間流網(wǎng)絡(luò),得到幀的表觀特征;對輸入視頻的每連續(xù)M幀,利用時(shí)間流網(wǎng)絡(luò)模型得到運(yùn)動(dòng)特征。其中空間流網(wǎng)絡(luò)和時(shí)間流網(wǎng)絡(luò)模型均包含5個(gè)卷積層,3個(gè)池化層,以及3個(gè)全連接層;

(2)對空間流深度網(wǎng)絡(luò)模型和時(shí)間流深度網(wǎng)絡(luò)模型得到的多通道深度特征圖采用4層空間金字塔結(jié)構(gòu),得到的每個(gè)局部塊用最大池化方法計(jì)算該塊的最大值表達(dá),獲取特征圖在不同尺度下的局部信息;

(3)將深度特征圖中在相同時(shí)空位置的多通道局部塊的表達(dá)連接起來,形成視頻的特征描述子;

(4)對步驟(3)提取的描述子特征采用局部級聯(lián)描述子向量方法(VLAD)進(jìn)行特征建模,形成該視頻最終的向量表示;

(5)采用支持向量機(jī)(SVM)進(jìn)行特征分類,最終輸出動(dòng)作視頻的識(shí)別準(zhǔn)確率。

步驟(1)中的具體過程如下:空間流和時(shí)間流深度網(wǎng)絡(luò)模型將視頻每幀作為輸入,對原始圖像做多層的卷積和池化操作,得到每層的輸出都是多個(gè)通道的深度特征圖,獲取更具抽象的圖像特征表達(dá)。

步驟(2)中的具體過程如下:選取空間流網(wǎng)絡(luò)第5層卷積層的輸出特征圖以及時(shí)間流網(wǎng)絡(luò)第4層卷積層的輸出特征圖來進(jìn)行空間金字塔的操作,對特征圖采用4層金字塔結(jié)構(gòu)(1×1,2×2,3×3,4×4),其中第一層(1×1)對應(yīng)的是整個(gè)特征圖,而第4層(4×4)對應(yīng)的是最大尺度下的局部塊。因此通過金字塔結(jié)構(gòu)得到特征圖位于不同尺度下的局部塊。對每個(gè)局部塊采用最大池化方法,計(jì)算塊中最大值作為該局部塊的特征表示。

步驟(3)中的具體過程如下:由于每個(gè)通道上的特征圖包含的是不同圖像信息,故將所有通道上的特征圖中同一空間位置的塊的特征串聯(lián)起來,形成該塊的多通道特征描述子。

步驟(4)中的具體過程如下:描述子特征表示為{x1,...xi,...xd},d表示局部塊的描述子特征的維數(shù),對描述子特征{x1,...xi,...xd},假設(shè)利用k-means聚類已經(jīng)學(xué)習(xí)得到的碼本(codebook)和k個(gè)中心(c1,...cj,...ck),采用局部級聯(lián)描述子向量方法(VLAD)對特征進(jìn)行特征建模,具體過程如下:

(5-1)描述子特征的每一維xi賦給碼本(codebook)中離該描述子特征最近的聚類中心cj,然后得到量化后的索引:NN(xi)=argminj||xi-cj||

(5-2)將所有離聚類中心cj最近的描述子特征,計(jì)算這些描述子特征和中心cj的差的累積和,獲得子向量:

(5-3)將各子向量uj連接起來,得到k×d維的向量表示u=[u1...uk];

(5-4)對向量u先采用“power-law”歸一化處理,即:

vj=|vj|α×sign(vj),j=1...k×d,α=0.2

隨后用2范數(shù)歸一化(L2-normalized),最終得到該描述子特征的VLAD表示。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
济宁市| 德惠市| 墨玉县| 崇礼县| 通河县| 扶余县| 广饶县| 大同市| 六安市| 吉林市| 芦溪县| 馆陶县| 雷州市| 淮南市| 克东县| 三明市| 柘荣县| 长顺县| 澜沧| 罗田县| 调兵山市| 清苑县| 绥芬河市| 江山市| 临泉县| 隆安县| 宜昌市| 横峰县| 乡城县| 津南区| 芦溪县| 武冈市| 青海省| 龙川县| 阿城市| 哈尔滨市| 孟连| 鞍山市| 康马县| 虞城县| 邓州市|