視頻聚類方法及檢測方法
【專利摘要】本發(fā)明提供一種視頻聚類方法及檢測方法,其中,所述聚類方法包括:a.獲取待聚類視頻的集合,并進一步獲取與每個所述待聚類視頻相適應(yīng)的文本信息;b.對每個所述待聚類視頻,抽取視頻特征c.根據(jù)所述待聚類視頻的集合及其視頻特征構(gòu)造一N分圖;d.對所述待聚類視頻的集合進行初始化聚類以獲得初始的視頻聚類以及初始的視頻特征聚類,將初始化聚類獲得的聚類中心添加到所述N分圖中,作為隱藏結(jié)點,計算所述視頻聚類與所述視頻特征聚類之間的權(quán)重矩陣并形成初始的關(guān)系簇網(wǎng)絡(luò);e.迭代更新所述文本特征、所述視頻聚類、所述視頻特征聚類以及所述關(guān)系簇網(wǎng)絡(luò)以獲得最優(yōu)關(guān)系簇網(wǎng)絡(luò);以及f.根據(jù)獲得的最優(yōu)關(guān)系簇網(wǎng)絡(luò)進行聚類跟蹤或視頻檢測。
【專利說明】視頻聚類方法及檢測方法
【技術(shù)領(lǐng)域】
[0001]涉及多媒體處理領(lǐng)域及信息處理領(lǐng)域,具體地說是話題檢測與跟蹤技術(shù)中的視頻話題檢測與跟蹤技術(shù)。
【背景技術(shù)】
[0002]話題檢測與跟蹤是一項面向多媒體信息流進行未知話題探測和已知話題跟蹤的信息處理技術(shù)。視頻話題檢測與跟蹤希望將大量視頻中同一話題的視頻自動聚類,實現(xiàn)按話題查找、組織和利用來自多種媒體的信息,提高用戶的檢索效率。由于話題檢測與跟蹤相對于信息檢索、信息挖掘和信息抽取等自然語言處理技術(shù)具備很多共性,并面向大規(guī)模視頻語料,是當前多媒體處理領(lǐng)域的研究熱點之一。網(wǎng)絡(luò)視頻主要包括文本特征和視覺特征兩方面。然而由于網(wǎng)絡(luò)視頻內(nèi)容主要由非專業(yè)人士進行拍攝整理,視頻質(zhì)量良莠不齊,網(wǎng)絡(luò)視頻的話題檢測與跟蹤還存在微博視頻文本信息稀疏、存在噪聲、視覺特征質(zhì)量不高、話題漂移等問題。
[0003]現(xiàn)有的話題檢測與跟蹤方法主要應(yīng)用于新聞領(lǐng)域,且針對文本特征的話題檢測與跟蹤較為成熟。在話題檢測領(lǐng)域中,如向量空間模型、語言概率模型的應(yīng)用較為廣泛。其中向量空間模型較為直接常用,但是模型忽略視頻對象各特征之間的關(guān)聯(lián)關(guān)系。概率語言模型具有一定的理論基礎(chǔ),但是容易引入噪聲。在多維度特征融合的模型中,向量空間模型亦可添加相應(yīng)的視覺特征,通過抽取底層視覺近鄰副本結(jié)合文本特征,構(gòu)成多維度的視頻話題模型。另外,亦有采取圖模型對話題特征進行表示,但其應(yīng)用尚屬探索階段,可以進行進一步的研究。話題跟蹤領(lǐng)域主要有基于查詢、分類、聚類等方法,另外在話題跟蹤過程中又可分為話題模型可調(diào)節(jié)與話題模型不可調(diào)節(jié)兩大類方法。
【發(fā)明內(nèi)容】
[0004]本發(fā)明提供一種生成最優(yōu)關(guān)系簇網(wǎng)路的視頻聚類方法,其特征在于,包括:a.獲取待聚類視頻的集合,并進一步獲取與每個所述待聚類視頻相適應(yīng)的文本信息;b.對每個所述待聚類視頻,抽取視頻特征,所述文本特征以及所述視覺特征組成所述待聚類視頻的視頻特征,其中,所述抽取視頻特征包括:對所述待聚類視頻的文本信息進行數(shù)據(jù)處理并抽取相應(yīng)的文本特征;對所述待聚類視頻的視頻數(shù)據(jù)進行分割并抽取所述待聚類視頻的視覺特征;c.根據(jù)所述待聚類視頻的集合及其視頻特征構(gòu)造一 N分圖;d.對所述待聚類視頻的集合進行初始化聚類以獲得初始的視頻聚類以及初始的視頻特征聚類,將初始化聚類獲得的聚類中心添加到所述N分圖中,作為隱藏結(jié)點,計算所述視頻聚類與所述視頻特征聚類之間的權(quán)重矩陣并形成初始的關(guān)系簇網(wǎng)絡(luò);e.迭代更新所述文本特征、所述視頻聚類、所述視頻特征聚類以及所述關(guān)系簇網(wǎng)絡(luò),當此次迭代更新的關(guān)系簇網(wǎng)絡(luò)與所述N分圖的距離小于第一閾值時,則停止迭代以獲得最優(yōu)關(guān)系簇網(wǎng)絡(luò);以及f.根據(jù)獲得的最優(yōu)關(guān)系簇網(wǎng)絡(luò)進行聚類跟蹤或視頻檢測,其中,所述聚類跟蹤包括:輸入一視頻特征,并與所述最優(yōu)關(guān)系簇網(wǎng)絡(luò)的視頻特征聚類進行匹配,以獲取屬于與所述視頻特征相適應(yīng)的視頻特征聚類的視頻的集合;所述視頻檢測包括:輸入一視頻,根據(jù)所述視頻的文本特征與視覺特征與所述最優(yōu)關(guān)系簇網(wǎng)絡(luò)進行匹配和聚類以獲得所述視頻所屬的視頻特征聚類。
[0005]優(yōu)選地,所述抽取所述文本信息的文本特征包括:對所述文本信息進行分詞;利用詞頻-逆向文件頻率加權(quán)法計算所述文本信息分詞后每個詞的文本權(quán)重;以及將文本權(quán)重不小于第二閾值的詞作為所述文本信息的關(guān)鍵詞,其中,所述文本信息的文本特征包括所述關(guān)鍵詞以及相應(yīng)的文本權(quán)重。
[0006]優(yōu)選地,所述文本權(quán)重根據(jù)如下公式計算并更新:
[0007]TFIDFt=TFt*log(N/DFt),
[0008]其中,TFIDFt為詞t的文本權(quán)重,N表示全部視頻聚類的個數(shù),DFt表示包含詞t的視頻聚類的個數(shù),TFt是詞t在與所述文本信息相適應(yīng)的待聚類視頻所屬的視頻聚類中出現(xiàn)的頻數(shù),
[0009]其中,利用K-means聚類方法對所述待聚類視頻進行初始聚類以初始化所述文本權(quán)重。
[0010]優(yōu)選地,所述抽取所述待聚類視頻的視覺特征包括:分割所述待聚類視頻的鏡頭,獲取所述鏡頭變換的視頻幀;通過κ-means聚類方法對所述視頻幀根據(jù)顏色灰度值進行迭代聚類以獲取第一個數(shù)個關(guān)鍵幀,所述視覺特征包括所述關(guān)鍵幀以及相適應(yīng)的16維灰度值表示,其中,所述第一個數(shù)根據(jù)貝葉斯信息準則確定。
[0011]優(yōu)選地,所述N分圖根據(jù)如下模型構(gòu)造:
【權(quán)利要求】
1.一種生成最優(yōu)關(guān)系簇網(wǎng)路的視頻聚類方法,其特征在于,包括: a.獲取待聚類視頻的集合,并進一步獲取與每個所述待聚類視頻相適應(yīng)的文本信息; b.對每個所述待聚類視頻,抽取視頻特征,所述文本特征以及所述視覺特征組成所述待聚類視頻的視頻特征,其中, 所述抽取視頻特征包括: 對所述待聚類視頻的文本信息進行數(shù)據(jù)處理并抽取相應(yīng)的文本特征; 對所述待聚類視頻的視頻數(shù)據(jù)進行分割并抽取所述待聚類視頻的視覺特征; c.根據(jù)所述待聚類視頻的集合及其視頻特征構(gòu)造一N分圖; d.對所述待聚類視頻的集合進行初始化聚類以獲得初始的視頻聚類以及初始的視頻特征聚類,將初始化聚類獲得的聚類中心添加到所述N分圖中,作為隱藏結(jié)點,計算所述視頻聚類與所述視頻特征聚類之間的權(quán)重矩陣并形成初始的關(guān)系簇網(wǎng)絡(luò); e.迭代更新所述文本特征、所述視頻聚類、所述視頻特征聚類以及所述關(guān)系簇網(wǎng)絡(luò),當此次迭代更新的關(guān)系簇網(wǎng)絡(luò)與所述N分圖的距離小于第一閾值時,則停止迭代以獲得最優(yōu)關(guān)系簇網(wǎng)絡(luò);以及 f.根據(jù)獲得的最優(yōu)關(guān)系簇網(wǎng)絡(luò)進行聚類跟蹤或視頻檢測,其中, 所述聚類跟蹤包括:輸入一視頻特征,并與所述最優(yōu)關(guān)系簇網(wǎng)絡(luò)的視頻特征聚類進行匹配,以獲取屬于與所述視頻特征相適應(yīng)的視頻特征聚類的視頻的集合; 所述視頻檢測包括:輸入一視頻,根據(jù)所述視頻的文本特征與視覺特征與所述最優(yōu)關(guān)系簇網(wǎng)絡(luò)進行匹配和聚類以獲得所述視頻所屬的視頻特征聚類。
2.根據(jù)權(quán)利要求1所述的聚類方法,其特征在于,所述抽取所述文本信息的文本特征包括: 對所述文本信息進行分詞; 利用詞頻-逆向文件頻率加權(quán)法計算所述文本信息分詞后每個詞的文本權(quán)重;以及 將文本權(quán)重不小于第二閾值的詞作為所述文本信息的關(guān)鍵詞,其中,所述文本信息的文本特征包括所述關(guān)鍵詞以及相應(yīng)的文本權(quán)重。
3.根據(jù)權(quán)利要求2所述的聚類方法,其特征在于,所述文本權(quán)重根據(jù)如下公式計算并更新:
TFIDFt=TFt*log(N/DFt), 其中,TFIDFt為詞t的文本權(quán)重,N表示全部視頻聚類的個數(shù),DFt表示包含詞t的視頻聚類的個數(shù),TFt是詞t在與所述文本信息相適應(yīng)的待聚類視頻所屬的視頻聚類中出現(xiàn)的頻數(shù), 其中,利用K-means聚類方法對所述待聚類視頻進行初始聚類以初始化所述文本權(quán)重。
4.根據(jù)權(quán)利要求1所述的聚類方法,其特征在于,所述抽取所述待聚類視頻的視覺特征包括: 分割所述待聚類視頻的鏡頭,獲取所述鏡頭變換的視頻幀; 通過K-means聚類方法對所述視頻幀根據(jù)顏色灰度值進行迭代聚類以獲取第一個數(shù)個關(guān)鍵幀,所述視覺特征包括所述關(guān)鍵幀以及相適應(yīng)的16維灰度值表示,其中,所述第一個數(shù)根據(jù)貝葉斯信息準則確定。
5.根據(jù)權(quán)利要求1所述的聚類方法,其特征在于, 所述N分圖根據(jù)如下模型構(gòu)造:
其中,V表示所述待聚類視頻的集合,PnI^i表示所述視頻特征的集合,,E表示N分圖中的邊的集合,也就是所述待聚類視頻與所述視頻特征之間的邊的集合,矩陣Mn表示每條邊上的權(quán)重, 所述關(guān)系簇網(wǎng)絡(luò)根據(jù)如下模型構(gòu)造:
其中,V表示所述待聚類視頻的集合,Cv表示所述視頻聚類的集合,(Sn)^i表示所述視頻特征的集合,,ICn^t11表示N-1個視頻特征聚類的集合,Εκ?表示關(guān)系簇網(wǎng)絡(luò)中的邊,也就是所述待聚類視頻與所述視頻聚類之間的邊、所述視頻聚類與所述視頻特征聚類之間的邊、所述視頻特征聚類與所述視頻特征之間的邊, 其中,邊上的權(quán)重由權(quán)重矩陣進行表示: Wv表示所述待聚類視頻與所述視頻聚類之間的邊的權(quán)重,若一待聚類視頻能聚類到一視頻聚類,則所述待聚類視頻與所述視頻聚類之間的邊上的權(quán)重為I ;若一待聚類視頻不能聚類到一視頻聚類,則所述待聚類視頻與所述視頻聚類之間的邊上的權(quán)重為O ; 表示所述視頻特征與所述視頻特征聚類之間的邊的權(quán)重,若一視頻特征能聚類到一視頻特征聚類,則所述視頻特征與所述視頻特征聚類之間的邊上的權(quán)重為I;若一視頻特征不能聚類到一視頻特征聚類,則所述視頻特征與所述視頻特征聚類之間的邊上的權(quán)重為O; Wvn表示所述視頻聚類與所述視頻特征聚類之間的權(quán)重。
6.根據(jù)權(quán)利要求5所述的聚類方法,其特征在于, 所述更新所述視頻特征聚類包括: 對于每個所述視頻特征,將所述視頻特征歸入一視頻特征聚類中,當所述N分圖與當前關(guān)系簇網(wǎng)絡(luò)之間的距離最小時,將所述視頻特征歸入相應(yīng)的視頻特征聚類之中, 更新所述視頻聚類與所述視頻特征聚類之間的權(quán)重矩陣; 所述更新所述待聚類視頻聚類包括: 對于每個所述待聚類視頻,將所述待聚類視頻歸入一視頻聚類中,當所述N分圖與當前關(guān)系簇網(wǎng)絡(luò)之間的距離最小時,將所述待聚類視頻歸入相應(yīng)的視頻聚類之中, 更新所述視頻聚類與所述視頻特征聚類之間的權(quán)重矩陣。
7.根據(jù)權(quán)利要求6所述的聚類方法,其特征在于,所述視頻聚類與所述視頻特征聚類之間的權(quán)重矩陣根據(jù)如下公式計算和更新:
其中,WpvJ是一視頻聚類c;與視頻特征聚類(:?之間的邊的權(quán)重,|c||是聚類到視頻聚類C〗中所述待聚類視頻的個數(shù),|c||是聚類到視頻特征聚類中所述視頻特征的個數(shù),其中,矩陣中的元素表示視頻聚類Cg中的待聚類視頻與視頻特征聚類中的視頻特征之間的邊的權(quán)重。
8.根據(jù)權(quán)利要求7所述的聚類方法,其特征在于,所述N分圖與所述關(guān)系簇網(wǎng)絡(luò)之間的距離根據(jù)如下公式計算:
D(G, Gecn)是所述N分圖與所述關(guān)系簇網(wǎng)絡(luò)之間的距離,Mn是所述N分圖中各邊的權(quán)重,WMvn以及Wn是所述關(guān)系簇網(wǎng)絡(luò)中各邊的權(quán)重,α η表示第η個視頻特征在視頻聚類過程中所占的權(quán)重比。
9.根據(jù)權(quán)利要求1所述的聚類方法,其特征在于,步驟e之后還包括: 對所述最優(yōu)關(guān)系簇網(wǎng)絡(luò)中的所述視頻聚類進行排序,其中,所述視頻聚類基于熱度進行排序, 對所述最優(yōu)關(guān)系簇網(wǎng)絡(luò)中每一視頻聚類中的所述待聚類視頻進行排序,其中,通過以下三種方式中的一種或多種進行排序: 基于時間的排序; 基于所述待聚類視頻與其所述的視頻聚類的相關(guān)度的排序;或者 基于熱度的排序。
10.一種視頻檢測方法,其特征在于,包括: A.獲待檢測視頻,并進一步獲取所述待檢測視頻相適應(yīng)的文本信息; B.對所述待檢測視頻,抽取所述文本信息的文本特征,抽取所述待檢測視頻的視覺特征,其中,所述文本特征以及所述視覺特征組成所述待檢測視頻的視頻特征; C.根據(jù)所述待檢測視頻及其視頻特征更新根據(jù)權(quán)利要求1-9任一種所述的聚類方法生成的N分圖以及相應(yīng)的最優(yōu)關(guān)系族網(wǎng)絡(luò); D.根據(jù)所述待檢測視頻初始化至與所述待檢測視頻距離最小的視頻聚類,更新所述視頻聚類與所述視頻特征聚類之間的權(quán)重矩陣;以及 E.迭代更新所述文本特征、所述視頻聚類、所述視頻特征聚類以及所述關(guān)系簇網(wǎng)絡(luò),當此次迭代更新的關(guān)系簇網(wǎng)絡(luò)與所述N分圖的距離小于第三閾值時,則停止迭代以獲得更新的最優(yōu)關(guān)系簇網(wǎng)絡(luò)并輸出所述待檢測視頻所屬的視頻聚類。
11.根據(jù)權(quán)利要求10所述的檢測方法,其特征在于, 所述N分圖與關(guān)系簇網(wǎng)絡(luò)的距離公式為:
其中,D(G, Gecn)是所述N分圖與所述關(guān)系簇網(wǎng)絡(luò)之間的距離,Mn是所述N分圖中各邊的權(quán)重,WMvn以及Wn是所述關(guān)系簇網(wǎng)絡(luò)中各邊的權(quán)重,α η表示第η個視頻特征在視頻聚類過程中所占的權(quán)重比,Cl,是其他視頻特征的種類數(shù),DT(Vp,cp是第τ種視頻特征之間的距離函數(shù),β τ表示第τ個視頻特征在視頻聚類過程中所占的權(quán)重比, 所述待檢測視頻與所述視頻聚類的距離公式為:
其中,D(VpCg)是所述待檢測視頻與所述視頻聚類的距離,Dn(vp, 表示第η個視頻特征中所述待檢測視頻與所述視頻聚類的距離,α η表示第η個視頻特征在視頻聚類過程中所占的權(quán)重比,CU是其他視頻特征的種類數(shù),DT(Vp, C;)是第τ種視頻特征之間的距離函數(shù),β τ表示第τ個視頻特征在視頻聚類過程中所占的權(quán)重比, 其中,第τ種視頻特征包括如下視頻特征中的一種或多種: 基于用戶反饋時間的視頻特征;或者 基于用戶反饋次數(shù)的視頻特征。
【文檔編號】G06F17/30GK104182421SQ201310202454
【公開日】2014年12月3日 申請日期:2013年5月27日 優(yōu)先權(quán)日:2013年5月27日
【發(fā)明者】呂釗, 楊東強 申請人:華東師范大學(xué)