1.一種基于深度卷積特征多通道金字塔池化的動作識別方法,其特征在于,包括以下步驟:
(1)輸入待識別的視頻,采用two-stream深度網(wǎng)絡(luò)模型得到多通道深度卷積圖;其中two-stream網(wǎng)絡(luò)模型包括空間流(spatial-stream)深度網(wǎng)絡(luò)模型和時間流(temporal-stream)深度網(wǎng)絡(luò)模型。
具體是:對輸入視頻的每一幀采用空間流網(wǎng)絡(luò),得到幀的表觀特征;對輸入視頻的每連續(xù)M幀,利用時間流網(wǎng)絡(luò)模型得到運動特征;其中空間流網(wǎng)絡(luò)和時間流網(wǎng)絡(luò)模型均包含5個卷積層,3個池化層,以及3個全連接層;
(2)對空間流深度網(wǎng)絡(luò)模型和時間流深度網(wǎng)絡(luò)模型得到的多通道深度特征圖采用4層空間金字塔結(jié)構(gòu),得到的每個局部塊用最大池化方法計算該局部塊的最大值表達,獲取特征圖在不同尺度下的局部信息;
(3)將深度特征圖中在相同時空位置的多通道局部塊的表達連接起來,形成視頻的特征描述子;
(4)對步驟(3)提取的描述子特征采用局部級聯(lián)描述子向量方法(VLAD)進行特征建模,形成該視頻最終的向量表示;
(5)采用支持向量機(SVM)進行特征分類,最終輸出分類結(jié)果,獲取視頻的動作識別結(jié)果。
2.根據(jù)權(quán)利要求1所述的深度卷積特征多通道金字塔池化的動作識別方法,其特征在于,所述步驟(1)中,空間流網(wǎng)絡(luò)模型和時間流深度網(wǎng)絡(luò)模型將視頻每幀作為輸入,對原始圖像做多層的卷積和池化操作,得到每層的輸出都是多個通道的深度特征圖,獲取更具抽象的圖像特征表達。
3.根據(jù)權(quán)利要求1所述的深度卷積特征多通道金字塔池化的動作識別方法,其特征在于,所述步驟(2)中,選取空間流網(wǎng)絡(luò)模型的第5層卷積層的輸出特征圖以及時間流網(wǎng)絡(luò)模型的第4層卷積層的輸出卷積圖來進行空間金字塔的操作,對多通道卷積圖采用4層金字塔結(jié)構(gòu),其中4層金字塔結(jié)構(gòu)為(1×1,2×2,3×3,4×4),其中第一層(1×1)對應(yīng)的是整個多通道特征圖,第4層(4×4)對應(yīng)的是多通道特征圖最大尺度下的局部塊,因此通過金字塔結(jié)構(gòu)得到多通道特征圖位于不同尺度下的局部塊,對每個局部塊采用最大池化方法,計算塊中最大值作為該局部塊的特征表示。
4.根據(jù)權(quán)利要求1所述的深度卷積特征多通道金字塔池化的動作識別方法,其特征在于,所述步驟(3)中,由于每個通道上的特征圖包含的是不同圖像信息,故將所有通道上的特征圖中同一空間位置的局部塊的特征串聯(lián)起來,形成該塊的多通道特征描述子。
5.根據(jù)權(quán)利要求1所述的深度卷積特征多通道金字塔池化的動作識別方法,其特征在于,所述步驟(4)中,描述子特征表示為{x1,...xi,...xd},d表示局部塊的描述子特征的維數(shù),對描述子特征{x1,...xi,...xd},假設(shè)利用k-means聚類已經(jīng)學習得到的碼本(codebook)和k個中心(c1,...cj,...ck),采用局部級聯(lián)描述子向量方法(VLAD)對特征進行特征建模,具體過程如下:
(5-1)描述子特征的每一維xi賦給碼本(codebook)中離該描述子特征最近的聚類中心cj,然后得到量化后的索引:NN(xi)=arg minj||xi-cj||,
(5-2)確定所有離聚類中心cj最近的描述子特征,計算這些描述子特征和中心cj的差的累積和,獲得子向量:
(5-3)將各子向量uj連接起來,得到k×d維的向量表示u=[u1...uk];
(5-4)對向量u先采用“power-law”歸一化處理,即:
vj=|vj|α×sign(vj),j=1...k×d,α=0.2
隨后用2范數(shù)歸一化(L2-normalized),最終得到該描述子特征的VLAD表示。