基于特征變換和詞典學習的多特征動作識別方法
【專利摘要】本發(fā)明公開了一種基于特征變換和詞典學習的多特征動作識別方法,實現(xiàn)了對基于多特征動作識別的不同特征內在關系的挖掘。具體包含以下步驟:(1)視頻預處理,(2)不同特征提取,(3)碼書構建和基于“詞袋”方法的特征歸一化,(4)基于特征變換和詞典學習的模型構建,(5)基于多特征重建和特征變換的動作識別模型構建,(6)基于稀疏表征的動作識別。本發(fā)明的優(yōu)點是通過對特征變換和詞典同時進行學習,充分挖掘不同特征的內在關聯(lián)特性,實現(xiàn)人體動作的高效識別。
【專利說明】基于特征變換和詞典學習的多特征動作識別方法
【技術領域】
[0001] 本發(fā)明屬于計算機視覺和模式識別【技術領域】,涉及一種基于特征變換和詞典學習 的多特征動作識別方法,用于挖掘不同特征的內在的關聯(lián)性,在人體動作識別領域,驗證了 特征變換和詞典學習的有效性。
【背景技術】
[0002] 基于視覺的人體動作識別是計算機視覺和模式識別領域的一個極具挑戰(zhàn)性的研 究熱點,并因其在智能監(jiān)控、便捷的人機交互、數(shù)字娛樂等領域的潛在應用受到學術界和工 業(yè)界的密切關注。早期的很多研究提出了許多不同的算法,它們大體可以分為兩類:1)特 征層,有許多研究者提出了很多不同的人體動作檢測和描述方法,例如,運動歷史直方圖、 運動能量圖像、STIP特征、MoSIFT、DSTIP、3D-SIFT和GIST等不同特征;2)分類器層,同樣, 有許多研究者針對動作本身所具有的特性,設計了許多不同的分類器,例如,支持向量機、 稀疏化分類器、條件隨機場、隱馬爾科夫隨機場和深度神經(jīng)網(wǎng)絡等。然而,由于早期的人體 動作識別大多是在可人為控制的特定實驗環(huán)境下進行,即通過固定或控制光照、視角、距離 和被關注對象位置等外因來簡化問題,從而提高動作識別的準確率。但是,隨著應用的不斷 推廣,在可控環(huán)境下的現(xiàn)有研究成果往往無法適應于實際的多樣化需求。當前的真實應用 系統(tǒng)往往存在嚴重的遮擋、視角變化和被關注對象位置變化等多種外因帶來的影響,因此, 通過單視角或單特征無法準確的描述對應的動作,因此,研究者常常通過多攝像頭監(jiān)控系 統(tǒng)的搭建和多特征的提取來提高人體動作識別的性能。因此,挖掘人體動作的視覺特性,融 合多視角或多特征信息,成為當前研究熱點。
[0003] 在計算機視覺和模式識別相關研究領域中,特征融合一直是最活躍的研究領域之 一。由于不同特征能夠從不同方面更為全面的表征對應的動作,它們之間存在一定的互補 特性。研究者們常常通過前期融合或后期融合對這些特征進行融合,雖然能夠在一定程度 上提高識別性能,但是該提高非常有限,無法充分挖掘不同特征之間的內在關聯(lián)特性,且維 數(shù)的增加也使得識別更為困難。
【發(fā)明內容】
[0004] 本發(fā)明的目的是解決針對基于多特征的動作識別中,常用方法無法充分挖掘不同 特征的內在關聯(lián)性的問題,提供一種高效的基于特征變換和詞典學習的多特征動作識別方 法,用于充分地挖掘多特征的內在關聯(lián),并在人體動作識別中進行了驗證。
[0005] 本發(fā)明提供的基于特征變換和詞典學習的多特征動作識別方法,用于挖掘多特征 的內在的關聯(lián)性,從而為高效的人體動作識別提供幫助,該方法具體包含以下步驟:
[0006] 第1、視頻預處理
[0007] 由于從設備中采集的深度數(shù)據(jù)包括許多噪聲、空洞,所以需要使用平滑和修補算 法過濾噪聲和修補空洞;對于經(jīng)過上述處理的數(shù)據(jù),由于含有復雜的背景,這些背景會對后 續(xù)的處理造成干擾,所以需要根據(jù)距離信息先將人體和背景進行分割,并盡可能的保留人 體;
[0008] 第2、不同特征提取
[0009] 針對不同動作的深度圖像序列,分別提取GIST特征和DSTIP時空興趣點特征,并 保存對應的結果;
[0010] 第3、碼書構建和特征的歸一化
[0011] 由于不同視頻中所提取的DSTIP時空興趣點數(shù)目不一樣,為了能夠進行歸一化, 首先,采用K-means方法訓練對應的碼書,其次,采用"詞袋"方法對這些時空興趣點進行歸 一化,并保存對應的結果,同時,對GIST特征采用L2方法對其進行歸一化,作為對應動作的 最后特征;
[0012] 第4、特征變換和詞典學習正則項制定及模型構建
[0013] 在第3步處理后的特征基礎上,為了挖掘不同特征的內在關系,因此,為不同特征 同時學習詞典對,且不同特征的稀疏表征系數(shù)之間滿足矩陣變換關系,同時,使得矩陣系數(shù) 盡可能的小,因此,構建模型如下:
【權利要求】
1. 一種基于特征變換和詞典學習的多特征動作識別方法,用于挖掘不同特征的內在關 聯(lián)特性,以實現(xiàn)高效率的動作識別,其特征在于該方法具體包含以下步驟: 第1、視頻預處理 由于從設備中采集的深度數(shù)據(jù)包括許多噪聲、空洞,所以需要使用平滑和修補算法過 濾噪聲和修補空洞;對于經(jīng)過上述處理的數(shù)據(jù),由于含有復雜的背景,這些背景會對后續(xù)的 處理造成干擾,所以需要根據(jù)距離信息先將人體和背景進行分割,并盡可能的保留人體; 第2、不同特征提取 針對不同動作的深度圖像序列,分別提取GIST特征和DSTIP時空興趣點特征,并保存 對應的結果; 第3、碼書構建和特征的歸一化 由于不同視頻中所提取的DSTIP時空興趣點數(shù)目不一樣,為了能夠進行歸一化,首先, 采用K-means方法訓練對應的碼書,其次,采用"詞袋"方法對這些時空興趣點進行歸一化, 并保存對應的結果,同時,對GIST特征采用Ll方法對其進行歸一化,作為對應動作的最后 特征; 第4、特征變換和詞典學習正則項制定及模型構建 在第3步處理后的特征基礎上,為了挖掘不同特征的內在關系,因此,為不同特征同時 學習詞典對,且不同特征的稀疏表征系數(shù)之間滿足矩陣變換關系,同時,使得矩陣系數(shù)盡可 能的小,因此,構建模型如下:
其中,Di和Dj分別表示對應特征i和特征j的詞典,F(xiàn)i和h分別表示訓練集中對應特征i和特征j的矩陣,X表示Fi使用詞典Di對其進行重建時,對應的重建系數(shù)矩陣,而Y表示 Fj使用詞典Dj對其進行重建時,對應的重建系數(shù)矩陣;W表示特征變換矩陣,表示使用兩種 不同特征對樣本進行重建時,不同的重建系數(shù)矩陣不一定要完全相同,但是必須滿足Y--X =W*Y,這樣不同特征之間的關系通過變換矩陣進行刻畫; 第5、基于多特征重建和特征變換的動作識別模型構建 在第4步獲得的特征變換矩陣W和詞典Di和Dj的基礎上,利用詞典對對測試樣本進行 表征,計算對應的表征系數(shù),同時,要求表征系數(shù)之間盡可能的滿足特征變換矩陣,這樣,獲 得的表征系數(shù)具有較好的區(qū)分性,其具體的模型如下:
其中,Di和Dj分別表示對應特征i和特征j的詞典,&和&分別表示測試樣本對應的 特征i和特征j,X表示A使用詞典Di對其進行重建時,對應的重建系數(shù),而y表示&使用 詞典對其進行重建時,對應的重建系數(shù);W表示特征變換矩陣,表示使用兩種不同特征對 樣本進行重建時,不同的重建系數(shù)應該盡可能的滿足y-y=x*W; 第6、基于稀疏表征的動作識別 根據(jù)第5步獲得的特征表征系數(shù),采用不同類的表征系數(shù)分別重建測試樣本,計算對 應的殘差;當采用某類表征系數(shù)重建樣本殘差最小時,該測試樣本的類別即判斷為對應的 類。
【文檔編號】G06K9/66GK104463242SQ201410632838
【公開日】2015年3月25日 申請日期:2014年11月12日 優(yōu)先權日:2014年11月12日
【發(fā)明者】張樺, 高贊, 張燕, 汪日偉, 徐光平, 薛彥兵 申請人:天津理工大學