本發(fā)明屬于圖像視頻處理領(lǐng)域,尤其涉及一種時(shí)序性聚類(lèi)的人體運(yùn)動(dòng)視頻分割方法。
背景技術(shù):
在《Temporal Subspace Clustering for Human Motion Segmentation》這篇文獻(xiàn)中,作者提出在每一幀視頻中提取人體圖像的二值模板,通過(guò)距離變換形成距離變換圖,由K均值聚類(lèi)形成初步的聚類(lèi)結(jié)果,將二值形式的聚類(lèi)結(jié)果作為視頻幀的特征。隨后,作者在最小平方回歸子空間聚類(lèi)方法的基礎(chǔ)上添加了一個(gè)與編碼矩陣相關(guān)的拉普拉斯正則約束,用于形成視頻幀特征時(shí)間關(guān)系的模型,通過(guò)交替方向乘子法求解出字典和編碼矩陣。最后在編碼矩陣上的圖切方法將連續(xù)視頻切割成包含獨(dú)立動(dòng)作的視頻段。實(shí)驗(yàn)顯示該方法在人體運(yùn)動(dòng)視頻段切割的準(zhǔn)確率和歸一化互信息指標(biāo)上有著較好的性能。
但是由于該方法采用了交替方向乘子法這類(lèi)迭代求解的算法,在時(shí)間耗費(fèi)上比較大,因此視頻段切割的速度比較慢。另外該方法需要通過(guò)編碼矩陣的時(shí)間拉普拉斯項(xiàng)來(lái)描述視頻幀在時(shí)間上的關(guān)系,對(duì)于視頻幀時(shí)間上的相關(guān)性描述較為復(fù)雜。
技術(shù)實(shí)現(xiàn)要素:
針對(duì)上述技術(shù)問(wèn)題,本發(fā)明提出一種時(shí)序性聚類(lèi)的人體運(yùn)動(dòng)視頻分割方法,更為全面地描述視頻幀之間的關(guān)系,并提高計(jì)算效率。
為達(dá)到上述目的,本發(fā)明采用的技術(shù)方案為:
一種時(shí)序性聚類(lèi)的人體運(yùn)動(dòng)視頻分割方法,具體包括以下幾個(gè)部分:視頻幀的特征提取,視頻幀特征之間關(guān)系的建模,相關(guān)性矩陣的求解,相關(guān)性矩陣上的圖切。
視頻幀特征提?。狠斎雝幀視頻,對(duì)每一視頻幀進(jìn)行背景減操作,提取出人體圖像與背景圖像,形成二值圖,其中人體圖像區(qū)域用白色表示,背景圖像區(qū)域用黑色圖像表示;對(duì)視頻幀計(jì)算距離變換圖,將距離變換圖按列展開(kāi)為一個(gè)列向量:對(duì)t幀視頻上所獲取的距離變換圖展開(kāi)的列向量進(jìn)行K均值聚類(lèi),得到每一幀視頻的二值形式的類(lèi)標(biāo)簽向量,將類(lèi)標(biāo)簽向量作為這些視頻幀的特征輸出。K均值聚類(lèi)的類(lèi)數(shù)量取值如下:當(dāng)t<=50時(shí),類(lèi)數(shù)量就取值t,當(dāng)t>50,類(lèi)的數(shù)量一般取值為50。
視頻幀特征之間關(guān)系的建模:輸入視頻幀的特征集合{x1,x2,…,xt},其中xi表示第i幀視頻幀中所得到的二值形式的類(lèi)標(biāo)簽向量,也即該幀視頻的特征,這些特征構(gòu)成一個(gè)特征矩陣X=x1,x2,…,xt]。為了描述視頻幀特征之間的關(guān)系,構(gòu)建一個(gè)相關(guān)性矩陣M融合相似性度量和特征時(shí)序鄰近性。矩陣M可以通過(guò)以下函數(shù)對(duì)M進(jìn)行最小化得到:
同時(shí)滿(mǎn)足M≥0 (1)
Tr(AM)是計(jì)算矩陣AM的跡,λ是一個(gè)為正數(shù)的正則參數(shù)。通過(guò)對(duì)式(1)進(jìn)行求導(dǎo),可以得到關(guān)于M的約束方程,并以此求解得到相關(guān)性矩陣M
A則充當(dāng)一個(gè)與時(shí)序相關(guān)的權(quán)值矩陣。其矩陣的行數(shù)、列數(shù)和矩陣XTX一致,另外0表示行數(shù)、列數(shù)和矩陣XTX一致的元素都為0的零矩陣;
max運(yùn)算表示M中每個(gè)元素的取值取對(duì)應(yīng)元素值與0值之間的最大值。
相關(guān)性矩陣上的圖切:在獲得相關(guān)性矩陣M后,對(duì)其執(zhí)行圖切算法,可以獲得視頻幀特征的聚類(lèi)結(jié)果,并以此作為視頻幀的分割結(jié)果,也即聚類(lèi)結(jié)果中的每一個(gè)類(lèi)都包含一個(gè)獨(dú)立動(dòng)作所有的視頻幀。
其中,相關(guān)性矩陣M一方面包含了視頻幀特征之間的相似性度量,另一方面度量了視頻幀特征在時(shí)序上的鄰近性,為描述了視頻幀特征在相似性和時(shí)序鄰近性上的關(guān)系。
A充當(dāng)一個(gè)與時(shí)序相關(guān)的權(quán)值矩陣。A每個(gè)元素的取值如下式所表示:
上式中,i、k分別表示矩陣中行索引、列索引。ε取值為10-6。τ為時(shí)間窗口長(zhǎng)度,τ取值為5~17。在上式中,權(quán)值A(chǔ)的設(shè)置使得在時(shí)序上相鄰的元素在計(jì)算相似度時(shí)可以賦予更大的權(quán)值。
本發(fā)明具有以下有益效果:本發(fā)明解決了人體運(yùn)動(dòng)視頻分割中視頻幀中人體運(yùn)動(dòng)特征相似性與時(shí)序性的融合問(wèn)題,提高了分割精度,同時(shí)在計(jì)算視頻幀關(guān)系時(shí)由于不需要進(jìn)行迭代計(jì)算,因此提升了計(jì)算效率。
附圖說(shuō)明
圖1為本發(fā)明實(shí)施例的人體運(yùn)動(dòng)視頻分割方法流程圖。
具體實(shí)施方式
為了便于本領(lǐng)域技術(shù)人員的理解,下面結(jié)合實(shí)施例與附圖對(duì)本發(fā)明作進(jìn)一步的說(shuō)明。
人體運(yùn)動(dòng)視頻段切割方法主要依賴(lài)于視頻幀的相關(guān)性描述,大多數(shù)基于聚類(lèi)的切割方法在構(gòu)建視頻幀相關(guān)性描述時(shí),往往只考慮視頻幀在特征上的相似性,而很少考慮視頻幀在時(shí)間上的相關(guān)性。本實(shí)施例在保留視頻幀之間相似性度量的同時(shí),還加入了視頻幀在時(shí)序上鄰近性的度量,因此能夠更為全面地描述視頻幀之間的關(guān)系。另外,提升視頻切割的速度也是關(guān)鍵。
如圖1所示的人體運(yùn)動(dòng)視頻分割方法流程:輸入一段包含人體運(yùn)動(dòng)的視頻,將每一幀彩色視頻圖像與相應(yīng)的靜態(tài)背景圖像做減法,完成背景減除處理操作,獲得人體圖像區(qū)域,并將所提取的人體圖像區(qū)域標(biāo)定為白色,背景區(qū)域標(biāo)定為黑色,獲得一個(gè)二值圖像,對(duì)二值圖像進(jìn)行距離變換得到距離變換圖。將所有視頻幀的距離變換圖按列展開(kāi),形成列向量集合,在其基礎(chǔ)上使用K均值聚類(lèi)算法獲得二值形式的類(lèi)標(biāo)簽向量,該向量中用1表示其所屬的類(lèi),0表示其不屬于相應(yīng)的類(lèi)。
類(lèi)標(biāo)簽向量[0,0,1,0]T表示,相應(yīng)的特征可以歸為第三類(lèi),而不屬于其它類(lèi)。
將類(lèi)標(biāo)簽向量作為視頻幀的特征,在這些視頻幀的特征基礎(chǔ)上進(jìn)行相關(guān)性矩陣M的求解。按照式2:
得到關(guān)于相關(guān)性矩陣M的解,上式中,A每個(gè)元素的取值如下式所表示:
上式中,i、k分別表示矩陣中行索引、列索引。ε取值為10-6。在權(quán)值矩陣τ的設(shè)置上,在本實(shí)施例中其取值為τ=9。
在得到相關(guān)性矩陣M后,對(duì)其執(zhí)行圖切算法,從而獲得相應(yīng)特征的聚類(lèi)結(jié)果,進(jìn)一步按照聚類(lèi)結(jié)果將相應(yīng)的視頻切分為包含人體獨(dú)立動(dòng)作的視頻段。
以上的實(shí)施例僅為說(shuō)明本發(fā)明的技術(shù)思想,不能以此限定本發(fā)明的保護(hù)范圍,凡是按照本發(fā)明提出的技術(shù)思想,在技術(shù)方案基礎(chǔ)上所做的任何改動(dòng),均落入本發(fā)明保護(hù)范圍之內(nèi)。