基于圖像語義注釋的視頻濃縮對象檢索方法
【專利摘要】本發(fā)明公開一種基于圖像語義注釋的視頻濃縮對象分類方法及方法。它是利用碼本模型運動檢測檢測出運動對象,使用GrabCut分割出運動對象,然后通過分析對象的類型、顏色、運動特征,經(jīng)約簡后給予對象語義注釋,這使得視頻濃縮對象的檢索條件更加豐富,提高了檢索目標(biāo)的效率。
【專利說明】基于圖像語義注釋的視頻濃縮對象檢索方法 所屬技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及一種視頻濃縮方法,尤其涉及一種是基于圖像語義注釋的視頻濃縮對 象檢索方法。
【背景技術(shù)】
[0002] 目前,公知的視頻濃縮對象檢索可分為顏色、類型、運動方向,但是視頻濃縮結(jié)果 中的對象顏色并不是單一的,運動方向也是多角度的,因此在組合條件和具體條件下檢索 視頻濃縮對象時,檢索結(jié)果有遺漏和偏差。
[0003] CN104699810A中提出的目標(biāo)分類,其中顏色分類為目標(biāo)主色的RGB值。該方法只針 對目標(biāo)的主色,而本方法基于目標(biāo)顏色占比綜合主色和次色來對目標(biāo)的顏色分類。這樣能 更精準(zhǔn)地根據(jù)目標(biāo)的顏色特征來檢索出所要查找的目標(biāo)。
[0004] 基于圖像語義注釋的視頻濃縮對象分類方法它是利用碼本模型運動檢測檢測出 運動對象,使用GrabCut分割出運動對象,然后通過分析對象的類型、顏色、運動特征,經(jīng)約 簡后給予對象語義注釋,這使得視頻濃縮對象的檢索條件更加豐富,提高了檢索目標(biāo)的效 率。
[0005] 為了解決視頻濃縮結(jié)果檢索時分類不準(zhǔn)確、存在遺漏的問題,本發(fā)明對視頻濃縮 中的運動對象進行語義注釋,豐富了對象特征的類別,支持更豐富的檢索條件,使視頻濃縮 技術(shù)應(yīng)用更廣泛。
[0006] -種基于語義圖像檢索的視頻濃縮對象檢索方法包括:運動目標(biāo)的檢測計算單 元;運動目標(biāo)的提取計算單元;對于運動對象進行語義注釋的計算單元;對運動對象進行語 義檢索的計算單元。
[0007] 優(yōu)選的,在上述的一種基于語義圖像檢索的視頻濃縮對象檢索方法,所述的對于 運動對象進行語義注釋的計算單元:對運動對象外形特征分類的分類器計算單元;對運動 對象顏色特征分類的分類器計算單元;對運動對象運動特征分類的分類器計算單元。
[0008] 優(yōu)選的,在上述的一種基于語義圖像檢索的視頻濃縮對象檢索方法,其特征在于, 包括如下步驟:
[0009] A.數(shù)據(jù)矢量量化編碼;
[0010] B.碼本模型運動檢測;
[0011] C.對運動對象進行語義注釋;
[0012] D.對運動對象進行語義檢索。
[0013] 優(yōu)選的,在上述的一種基于語義圖像檢索的視頻濃縮對象檢索方法,所述步驟A包 括如下步驟:
[0014] A1.對原始數(shù)據(jù)分割成大小相同的塊,每個小塊包含了許多像素;
[0015] A2.形成由左至右、由上而下地串成一個向量;
[0016] A3.收集具有代表性的向量制作出碼本,找出其中跟此小塊最接近的碼字的索引 值代替此小塊,組成一張索引表;將此作為原始數(shù)據(jù)壓縮的結(jié)果。
[0017] 優(yōu)選的,在上述的一種基于語義圖像檢索的視頻濃縮對象檢索方法,所述步驟B包 括如下步驟:
[0018] B1.在視頻幀的每一個像素位置,為該位置建立了包含了一個或多個碼字的碼本; 視頻序列中一個像素點的訓(xùn)練序列為乂={>1,^一別},該像素對應(yīng)的碼本為0={(31,(^--cl},每個碼字Ci為二元組結(jié)構(gòu)ci =〈vi,Ui>;v:i: = <R,G,B>,vi對應(yīng)該碼字的累積RGB三通道的 平均顏色值;U;二fi( I),其中各個參數(shù)分別表示碼字對應(yīng)像素的最小、最大亮度值,碼 字出現(xiàn)的字?jǐn)?shù),碼字在訓(xùn)練中未出現(xiàn)的最大間隔時間以及第一次和最后一次訪問的時間;
[0019] B2.檢測像素運動情況;對于t時刻待檢測的像素,將當(dāng)前像素值Xt與對應(yīng)的碼本 進行比較,如果沒有相匹配的碼字,則創(chuàng)建一個新的碼字UL =〈I,I,l,t_l,t,t>添加到其碼 本中;如果匹配的碼字有多個,則根據(jù)顏色相似度和亮度范圍確定匹配最好的碼字并更新 碼本,公式如下
[0020] itm = {min{ 1,1 t}, max{l,lt},fm + l, max{Ymft -
[0021] B3.當(dāng)訓(xùn)練結(jié)束后,為每個碼字Cl更新未訪問的最大時間間隔1^為
[0022] T i=max{ T i,N_qi+pi_l}。
[0023] 優(yōu)選的,在上述的一種基于語義圖像檢索的視頻濃縮對象檢索方法,所述的步驟C 包括如下分類:
[0024] C1:運動對象的外形特征注釋;
[0025] C2:運動對象的顏色特征注釋;
[0026] C3:運動對象的運動特征注釋;
[0027]優(yōu)選的,在上述的一種基于語義圖像檢索的視頻濃縮對象檢索方法,所述的C1運 動對象的外形特征注釋,選擇面積、寬高比、占空比和第1、2個Hu不變矩,作為提取的對象的 特征,包括如下步驟:
[0028]步驟一:對對象區(qū)域的面積、對象區(qū)域的寬高比、對象區(qū)域的占空比、Hu不變矩中 第1、2個Hu不變矩定義,假設(shè)存在對象區(qū)域,(x,y)表示像素點的坐標(biāo);
[0029]對象區(qū)域的面積定義為:R中的像素點總數(shù),公式如下:
[0031]即對象區(qū)域的零階矩;
[0032]對象區(qū)域的寬高比定義為:
[0034] 其中,
[0035] RW=max{x | (x,y) GR}_min{x | (x,y) GR}
[0036] RH=max{y | (x,y) GR}-min{y | (x,y) GR}
[0037] 對象區(qū)域的占空比,即對象區(qū)域的面積與外接矩形面積之比,可表示為:
[0039] Hu不變矩中第1、2個Hu不變矩定義如下:
[0040] <}) i=n2〇+n〇2
[0041 ] #2 = (jj20 + ?|02)2 + 4?!^
[0042] 完成定義。
[0043]步驟二:采用支持向量機(SVM)分類器進行視頻對象分類,以驗證選擇的對象特征 的有效性;在訓(xùn)練集線性可分情形下,構(gòu)造一個最優(yōu)超平面(? x)+b = 0,使這個超平面滿 足約束條件yi[( w ? x)+b]彡 1,i = l,2,'" ? 1;
[0044]同時使下面的函數(shù)取得最小值
[0046] 通過求解最優(yōu)化問題可得最優(yōu)超平面的形式如下:
[0048]其中SV是支持向量,af是拉格朗日乘子,bo為最優(yōu)超平面的偏置;在訓(xùn)練集線性不 可分時,我們引進松弛因子L彡〇及懲罰參數(shù)C;在約束yi [ ( ? ? x) +b ]多1,i = 1,2,….1下最 小化函數(shù)
[0050]可得最優(yōu)超平面,有了最優(yōu)超平面,分類規(guī)則或分類函數(shù)只要取
[0052]即可。
[0053]優(yōu)選的,在上述的一種基于語義圖像檢索的視頻濃縮對象檢索方法,所述的C2運 動對象的顏色特征注釋,利用了圖像的顏色矩、基于灰度共生矩陣的紋理特征和形狀的七 階不變距來提取圖像的底層視覺特征,結(jié)合粗糙集對生成的特征進行選擇,根據(jù)顏色特征 并以紋理特征輔助,對目標(biāo)進行語義注釋,包括如下步驟:
[0054] 步驟一:顏色特征提取,采用顏色的一階中心距、二階中心距、三階中心距表達(dá)圖 像顏色的分布,公式如下:
[0055] 一階距:
[0061]其中,P0是第i個像素的某個顏色分量;一階距定義了每個顏色分量的平均強度, 二階和三階距分別定義了顏色分量的方差和偏斜度;
[0062]步驟二:紋理特征提取,采用灰度共生矩陣方法來表示紋理特征,構(gòu)造一個基于像 素間方向和距離的共生矩陣,來提取能量、熵、慣性矩、相關(guān)性等統(tǒng)計量作為圖像的紋理特 征,灰度共生矩陣表示為口(1,」,(1,0),它描述了在0方向上,相隔(1個像素的距離,灰度值分 別為i和j的像素對數(shù)量;
[0063]能量:
[0065] 當(dāng)p(i,j)的數(shù)值分布較集中于主對角線附近時,對應(yīng)的ASM值較大;否則,ASM的值 較??;
[0066] 熵:
[0068]當(dāng)圖像紋理比較粗糙時,各p(i,j)的值較集中并且相差較大,當(dāng)圖像紋理比較細(xì) 時,各的值較集中并且相差較大,當(dāng)圖像紋理比較細(xì)時,各P( i,j)的值比較分散且相差不 大;
[0069] 慣性矩:
[0071]由于p(i,j)主要集中在主對角線附近,所以對于粗紋理來說i-j的值較小,因此對 應(yīng)的C0N值比較小;相反,細(xì)紋理的C0N比較大;
[0072] 相關(guān)性:
[0074]當(dāng)矩陣像元值相差很大時,則相關(guān)值??;反之,當(dāng)矩陣元素均勻相等時,相關(guān)值就 大;
[0075]步驟三:形狀特征提取,采用不變距作為基于區(qū)域的形狀特征,以兼顧整個形狀區(qū) 域內(nèi)的所有像素;通過變換不敏感的幾個矩來說明區(qū)域的固有特征,七個不變距來描述形 狀的特征,定義如下:
[0076] <}) i = li2.o+li〇.2
[0077] <}) 2= (ii2.〇-y〇.2)2+4lii.i2
[0078] <}> 3= (ii3.〇-3lil.2)2+(ii〇.3-3li2.l)2
[0079] <}> 4= (ii3.0+iil.2)2+(y〇.3+ii2.l)2
[0080] <}> 5 = (ii3.0_3lil.2) (ii3.0+iil.2) [ (ii3.0+iil.2)2-3(li2.1+ii0.3)2] + (3li2.1-ii〇.3) (ii2.1+y〇.3) [3 (y3.0+yi.2)2-(y2.i+y0.3)2]
[0081 ] <}> 6= (y2.〇-y〇.2) [ (y3.0+yi.2)2-(y0.3+y2.i)2]+4iii.i(ii3.〇+yi.2) (y〇.3+ii2.1)
[0082] <}> 7 = (3li2.1-y〇.3) (ii3.0+yi.2) [ (ii3.0+yi.2)2-3(li0.3+y2.1)2] + (3li2.1-y〇.3) (ii2.1+y〇.3) [3 (y3.0+yi.2)2-(y2.i+y0.3)]
[0083] 其中yP,q= S (x,y)eR(x-xc)p(y-yc) q; (xc,yc)是對象的中心;
[0084] 步驟四:使用粗糙集約簡,降低樣本維數(shù),減少樣本個數(shù),降低后期語義識別的復(fù) 雜度;
[0085]通過原始數(shù)據(jù)集建立系統(tǒng)決策表,S=(U,A,V,f)其中C為條件屬集;D為決策屬性 集;
[0086] 通過K均值聚類的離散化方法對原始數(shù)據(jù)中連續(xù)型數(shù)據(jù)離散化,得到樣本決策表;
[0087] 利用基于屬性重要性的屬性約簡方法來對樣本決策表進行約簡,得出最終的約簡 結(jié)果;
[0088] 先統(tǒng)計未約簡前由訓(xùn)練樣本構(gòu)成的分類模型對預(yù)測樣本的準(zhǔn)確率,在用約簡后的 條件屬性直接作為訓(xùn)練樣本和預(yù)測樣本再一次構(gòu)造一個分類模型,計算出分類的準(zhǔn)確率;
[0089] 通過實驗驗證選擇徑向基核函數(shù),對約簡后的樣本集利用網(wǎng)格搜索法和粒子群優(yōu) 化算法兩種方法來確定最優(yōu)的優(yōu)化算法和核函數(shù)的參數(shù)(C,Y );
[0090] 用約簡后的樣本、核函數(shù)及其最優(yōu)參數(shù)來構(gòu)造分類面,通過分類模型來實現(xiàn)對測 試集的準(zhǔn)確分類;
[0091] 統(tǒng)計約簡后的準(zhǔn)確率和用網(wǎng)格搜索法和粒子群優(yōu)化算法對參數(shù)優(yōu)化后的準(zhǔn)確率, 對兩者進行比較。
[0092] 優(yōu)選的,在上述的一種基于語義圖像檢索的視頻濃縮對象檢索方法,所述的C3運 動對象的運動特征注釋,使用運動矢量直方圖來提取局部運動特征,步驟如下:
[0094] 先從運動估計的全局運動模型中計算出每一像素點的全局運動矢量,再與當(dāng)前的 局部運動矢量合并,作為下一次迭代的初始值輸入;得到相鄰幀的局部運動矢量場后,取一 個運動矢量幅度閾值T m,大于此閾值的像素點定為運動像素點;然后將運動矢量的可能方 向量化為n個等間距的間隔,對于每一個運動像素點,根據(jù)它的運動矢量方向找到對應(yīng)的方 向量化間隔,然后把該量化間隔的計數(shù)器加1;最后得出局部運動特征;
[0095] 上式中,g(x,y,t)表示t時刻在(x,y)點的灰度值
分別表示灰度圖像和沿x 和y方向的梯度,2"和%表示第n次迭代后運動矢量在一個小鄰域內(nèi)的平均值,通過對鄰近 點的插值來得到?jīng)](X + t + 1)的計算;
[0096] 本方法的運動特征分類標(biāo)準(zhǔn)為運動角度每5度為一個單位,針對不同角度的運動 特征建立標(biāo)準(zhǔn)運動特征直方圖;在得出運動目標(biāo)的運動特征后,使用SVM分類器對目標(biāo)運動 特征直方圖和標(biāo)準(zhǔn)直方圖匹配,通過計算目標(biāo)運動特征直方圖和標(biāo)準(zhǔn)直方圖的相似度,進 行不同運動方向上的分類。
[0097] 優(yōu)選的,在上述的一種基于語義圖像檢索的視頻濃縮對象檢索方法,所述的D對運 動對象進行語義檢索包括如下分類:
[0098] D1.目標(biāo)類型檢索:根據(jù)目標(biāo)的類型特征分為人、車、非機動車、其他四類;基于檢 索選定的條件,輸出高于檢索條件閾值的目標(biāo);
[0099] D2.目標(biāo)顏色檢索:目標(biāo)顏色檢索可設(shè)定主色和次色;因為目標(biāo)顏色不一定是單一 的,檢索其中一種不能準(zhǔn)確輸出整體相似度較高的目標(biāo);所以目標(biāo)顏色檢索過程結(jié)合粗糙 集和目標(biāo)各種顏色的權(quán)重來綜合檢索,將檢索條件和目標(biāo)的語義注釋進行比對得出結(jié)果;
[0100] D3.目標(biāo)運動特征檢索:定義兩個相同長度直方圖序列的相似度是它們各個對應(yīng) 直方圖的相似度之和,當(dāng)目標(biāo)視頻片段和標(biāo)準(zhǔn)運動特征直方圖的原始視頻片段長度不同 時,分別為N和M,設(shè)N>M,則先將較短的序列{hKN)}與長序列{hKM)}中取不同時間起點的同 長度序列計算相似度,然后求所有相似度的最大值,如下式
[0102 ]上式得出了兩個不同長度序列的相似度,而且計算出短序列與長序列中最相似運 動的對應(yīng)位置;
[0103] 根據(jù)檢索條件得出類型、顏色、運動方向、運動速度的各項分值后,根據(jù)各項所占 權(quán)重,求出加權(quán)分?jǐn)?shù)。
【附圖說明】
[0104] 圖1是矢量量化編碼示意圖;
[0105] 圖2是碼本模型檢測流程圖;
[0106] 圖3是GrabCut算法前景背景分割效果圖;
[0107]圖4是提取視頻中的運動目標(biāo)和SVM的原理圖;
[0108] 圖5是對運動對象顏色特征分類的計算流程圖;
[0109] 圖6是對運動對象運動特征分類效果圖;
[0110] 圖7是對于運動對象特檢索分?jǐn)?shù)計算單元流程圖;
[0111] 圖8是系統(tǒng)整體流程圖。
【具體實施方式】
[0112] 下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完 整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于 本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他 實施例,都屬于本發(fā)明保護的范圍。
[0113] 本發(fā)明公開一種基于語義圖像檢索的視頻濃縮對象檢索方法包括:運動目標(biāo)的檢 測計算單元;運動目標(biāo)的提取計算單元;對于運動對象進行語義注釋的計算單元;對運動對 象進行語義檢索的計算單元。
[0114] 其中,上述的一種基于語義圖像檢索的視頻濃縮對象檢索方法,包括:對于運動對 象進行語義注釋的計算單元:對運動對象外形特征分類的分類器計算單元;對運動對象顏 色特征分類的分類器計算單元;對運動對象運動特征分類的分類器計算單元。
[0115] 如圖8所示,本發(fā)明公開的一種基于語義圖像檢索的視頻濃縮對象檢索方法,首先 對像素進行矢量量化編碼;然后利用碼本模型檢測出運動目標(biāo);通過GrabCut分離前景背 景;分析運動對象的特征,對運動對象進行語義注釋;按照檢索條件完成視頻濃縮對象的檢 索。
[0116] 如圖1所示,對像素進行矢量量化編碼,把原始數(shù)據(jù)分割成大小相同的塊,每個小 塊包含了許多像素;形成由左至右、由上而下地串成一個向量;收集具有代表性的向量制作 出碼本,找出其中跟此小塊最接近的碼字的索引值代替此小塊,組成一張索引表;將此作為 原始數(shù)據(jù)壓縮的結(jié)果。
[0117] 如圖2所示,在上述的運動目標(biāo)的檢測計算單元,利用碼本模型檢測出運動目標(biāo), 在視頻幀的每一個像素位置,為該位置建立了包含了一個或多個碼字的碼本;
[0118] 視頻序列中一個像素點的訓(xùn)練序列為乂={^,^~別},該像素對應(yīng)的碼本為0 = {ci,C2…cl},每個碼字Ci為二元組結(jié)構(gòu)c.i =〈Vj.UiK'Vi .=. <R,dvi對應(yīng)該碼字的累積RGB三 通道的平均顏色值。% =其中各個參數(shù)分別表示碼字對應(yīng)像素的最小、最大亮 度值,碼字出現(xiàn)的字?jǐn)?shù),碼字在訓(xùn)練中未出現(xiàn)的最大間隔時間以及第一次和最后一次訪問 的時間。
[0119] 檢測像素運動情況;對于t時刻待檢測的像素,將當(dāng)前像素值Xt與對應(yīng)的碼本進行 比較,如果沒有相匹配的碼字,則創(chuàng)建一個新的碼字UL =〈I,I,l,t_l,t,t>添加到其碼本 中;如果匹配的碼字有多個,則根據(jù)顏色相似度和亮度范圍確定匹配最好的碼字并更新碼 本,公式如下
[0120] um = {min{l, lt}, max{l, lt}, fm + 1, max{Ym, t - qm}, pm, t)
[0121] 當(dāng)訓(xùn)練結(jié)束后,為每個碼字Cl更新未訪問的最大時間間隔1^為
[0122] T i=max{ T i,N_qi+pi_l}。
[0123] 如圖3中(a)所示,使用GrabCut算法分割前景背景,該算法利用了圖像中的顏色信 息和邊界信息,只要少量的用戶交互操作即可得到比較好的分割結(jié)果。如圖3中(b)所示,在 通過深度學(xué)習(xí)算法訓(xùn)練后,可更完整體提取出目標(biāo)和背景相似的部分。
[0124] GrabCut 函數(shù)說明:
[0125] 函數(shù)原型:
[0126] void cv::grabCut(const Mat&img,Mat&mask,Rect rect,
[0127] Mat&bgdModel,Mat&fgdModel,
[0128] int iterCount,int mode)
[0129] 其中:
[0130] img一一待分割的源圖像,必須是8位3通道(CV_8UC3)圖像,在處理的過程中不會 被修改;
[0131] mask一一掩碼圖像,如果使用掩碼進行初始化,那么mask保存初始化掩碼信息;在 執(zhí)行分割的時候,也可以將用戶交互所設(shè)定的前景與背景保存到mask中,然后再傳入 GrabCut函數(shù);在處理結(jié)束之后,mask中會保存結(jié)果。mask只能取以下四種值:
[0132] GCD_BGD(=0),背景;
[0133] GCD_FGD( = 1),前景;
[0134] GCD_PR_BGD(=2),可能的背景;
[0135] GCD_PR_FGD(=3),可能的前景。
[0136] 如果沒有手工標(biāo)記⑶或者(X:D_FGD,那么結(jié)果只會有GCD_PR_B⑶或GCD_PR_ FGD;
[0137] rect一一用于限定需要進行分割的圖像范圍,只有該矩形窗口內(nèi)的圖像部分才被 處理;
[0138] bgdModel--背景模型,如果為null,函數(shù)內(nèi)部會自動創(chuàng)建一個bgdMode 1 ; bgdMode 1必須是單通道浮點型(CV_32FC1)圖像,且行數(shù)只能為1,列數(shù)只能為13x5;
[0139] f gdModel--前景模型,如果為null,函數(shù)內(nèi)部會自動創(chuàng)建一個f gdMode 1 ; fgdModel必須是單通道浮點型(CV_32FC1)圖像,且行數(shù)只能為1,列數(shù)只能為13x5;
[0140] iterCount--迭代次數(shù),必須大于0;
[0141] mode--用于指示grabCut函數(shù)進行什么操作,可選的值有:
[0142] GC_INIT_WITH_RECT( =0),用矩形窗初始化GrabCut;
[0143] GC_INIT_WITH_MASK( = 1),用掩碼圖像初始化GrabCut;
[0144] GC_EVAL(=2),執(zhí)行分割。
[0145] 完成目標(biāo)與背景的分離。
[0146] 對運動目標(biāo)進行語義注釋分為三類:運動對象的外形特征注釋;運動對象的顏色 特征注釋;運動對象的運動特征注釋。
[0147] 如圖4所示,在上述的運動對象的外形特征注釋,選擇面積、寬高比、占空比和第1、 2個Hu不變矩,作為提取的對象的特征,包括如下步驟:
[0148] 步驟一:對對象區(qū)域的面積、對象區(qū)域的寬高比、對象區(qū)域的占空比、Hu不變矩中 第1、2個Hu不變矩定義,假設(shè)存在對象區(qū)域,(x,y)表示像素點的坐標(biāo);
[0149] 對象區(qū)域的面積定義為:R中的像素點總數(shù),公式如下:
[0151] 即對象區(qū)域的零階矩;
[0152] 對象區(qū)域的寬高比定義為:
[0154] 其中,
[0155] RW=max{x | (x,y) GR}-min{x | (x,y) GR}
[0156] RH=max{y | (x,y) GR}-min{y | (x,y) GR}
[0157] 對象區(qū)域的占空比,即對象區(qū)域的面積與外接矩形面積之比,可表示為:
[0159] Hu不變矩中第1、2個Hu不變矩定義如下:
[0160] <}> i=n2〇+n〇2
[0161 ] ^>2 = (?/20 + %2)2 + 4?/^
[0162] 完成定義,結(jié)果如圖4中(a)所示。
[0163] 步驟二:如圖4中(b)所示,采用支持向量機(SVM)分類器進行視頻對象分類,以驗 證選擇的對象特征的有效性;在訓(xùn)練集線性可分情形下,構(gòu)造一個最優(yōu)超平面(《? x)+b = 〇,使這個超平面滿足約束條件71[(?*1)+13]彡1,1 = 1,2,~.1;
[0164] 同時使下面的函數(shù)取得最小值
[0166] 通過求解最優(yōu)化問題可得最優(yōu)超平面的形式如下:
[0168]其中SV是支持向量,a丨;5是拉格朗日乘子,bo為最優(yōu)超平面的偏置;在訓(xùn)練集線性不 可分時,我們引進松弛因子L彡〇及懲罰參數(shù)C;在約束yi [ ( ? ? x) +b ]多1,i = 1,2,….1下最 小化函數(shù)
[0170]可得最優(yōu)超平面,有了最優(yōu)超平面,分類規(guī)則或分類函數(shù)只要取
[0172] 即可。
[0173] 如圖5所示,在上述的運動對象的顏色特征注釋,利用了圖像的顏色矩、基于灰度 共生矩陣的紋理特征和形狀的七階不變距來提取圖像的底層視覺特征,結(jié)合粗糙集對生成 的特征進行選擇,根據(jù)顏色特征并以紋理特征輔助,對目標(biāo)進行語義注釋,包括如下步驟:
[0174] 步驟一:顏色特征提取,采用顏色的一階中心距、二階中心距、三階中心距表達(dá)圖 像顏色的分布,公式如下:
[0175] -階距:
[0181]其中,po是第i個像素的某個顏色分量;一階距定義了每個顏色分量的平均強度, 二階和三階距分別定義了顏色分量的方差和偏斜度;
[0182]步驟二:紋理特征提取,采用灰度共生矩陣方法來表示紋理特征,構(gòu)造一個基于像 素間方向和距離的共生矩陣,來提取能量、熵、慣性矩、相關(guān)性等統(tǒng)計量作為圖像的紋理特 征,灰度共生矩陣表示為口(1,」,(1,0),它描述了在0方向上,相隔(1個像素的距離,灰度值分 別為i和j的像素對數(shù)量;
[0183]能量:
[0185] 當(dāng)p(i,j)的數(shù)值分布較集中于主對角線附近時,對應(yīng)的ASM值較大;否則,ASM的值 較??;
[0186] 熵:
[0188] 當(dāng)圖像紋理比較粗糙時,各p( i,j )的值較集中并且相差較大,當(dāng)圖像紋理比較細(xì) 時,各的值較集中并且相差較大,當(dāng)圖像紋理比較細(xì)時,各P( i,j)的值比較分散且相差不 大;
[0189] 慣性矩:
[0191] 由于p(i,j)主要集中在主對角線附近,所以對于粗紋理來說i-j的值較小,因此對 應(yīng)的C0N值比較小;相反,細(xì)紋理的C0N比較大;
[0192] 相關(guān)性:
[0194] 當(dāng)矩陣像元值相差很大時,則相關(guān)值??;反之,當(dāng)矩陣元素均勻相等時,相關(guān)值就 大;
[0195] 步驟三:形狀特征提取,采用不變距作為基于區(qū)域的形狀特征,以兼顧整個形狀區(qū) 域內(nèi)的所有像素;通過變換不敏感的幾個矩來說明區(qū)域的固有特征,七個不變距來描述形 狀的特征,定義如下:
[0196] <}) l = li2.0+li〇.2
[0197] 2= (ii2.〇-y〇.2)2+4lil.l2
[0198] 3= (ii3.〇-3lil.2)2+(y〇.3-3li2.1)2
[0199] 4= (y3.〇+yi.2)2+(y〇.3+y2.i)2
[0200] 5 = (ii3.〇-3lil.2) (ii3.0+yi.2) [ (ii3.0+yi.2)2-3(li2.1+y0.3)2] + (3li2.1-y〇.3) (ii2.1+y〇.3) [3 (y3.0+yi.2)2-(y2.i+y0.3)2]
[0201 ] 6= (ii2.〇-y〇.2) [ (y3.0+yi.2)2-(y0.3+ii2.1)2]+4lil.l(li3.0+yi.2) (y〇.3+ii2.1)
[0202] 7 = (3li2.1-y〇.3) (ii3.0+yi.2) [ (ii3.0+yi.2)2-3(li0.3+y2.1)2] + (3li2.1-y〇.3) (ii2.1+y〇.3) [3 (y3.0+yi.2)2-(y2.i+y0.3)]
[0203] 其中yp,q= E(x,y)eR(x-xc)p(y-yc) q; (xc,yc)是對象的中心;
[0204] 步驟四:使用粗糙集約簡,降低樣本維數(shù),減少樣本個數(shù),降低后期語義識別的復(fù) 雜度;
[0205] 通過原始數(shù)據(jù)集建立系統(tǒng)決策表,S=(U,A,V,f)其中C為條件屬集;D為決策屬性 集;
[0206] 通過K均值聚類的離散化方法對原始數(shù)據(jù)中連續(xù)型數(shù)據(jù)離散化,得到樣本決策表;
[0207] 利用基于屬性重要性的屬性約簡方法來對樣本決策表進行約簡,得出最終的約簡 結(jié)果;
[0208] 先統(tǒng)計未約簡前由訓(xùn)練樣本構(gòu)成的分類模型對預(yù)測樣本的準(zhǔn)確率,在用約簡后的 條件屬性直接作為訓(xùn)練樣本和預(yù)測樣本再一次構(gòu)造一個分類模型,計算出分類的準(zhǔn)確率;
[0209] 通過實驗驗證選擇徑向基核函數(shù),對約簡后的樣本集利用網(wǎng)格搜索法和粒子群優(yōu) 化算法兩種方法來確定最優(yōu)的優(yōu)化算法和核函數(shù)的參數(shù)(C,Y );
[0210] 用約簡后的樣本、核函數(shù)及其最優(yōu)參數(shù)來構(gòu)造分類面,通過分類模型來實現(xiàn)對測 試集的準(zhǔn)確分類;
[0211] 統(tǒng)計約簡后的準(zhǔn)確率和用網(wǎng)格搜索法和粒子群優(yōu)化算法對參數(shù)優(yōu)化后的準(zhǔn)確率, 對兩者進行比較。
[0212 ]如圖6所示,在上述的運動對象的運動特征注釋,使用運動矢量直方圖來提取局部 運動特征,步驟如下:
[0214] 先從運動估計的全局運動模型中計算出每一像素點的全局運動矢量,再與當(dāng)前的 局部運動矢量合并,作為下一次迭代的初始值輸入;得到相鄰幀的局部運動矢量場后,取一 個運動矢量幅度閾值T m,大于此閾值的像素點定為運動像素點;然后將運動矢量的可能方 向量化為n個等間距的間隔,對于每一個運動像素點,根據(jù)它的運動矢量方向找到對應(yīng)的方 向量化間隔,然后把該量化間隔的計數(shù)器加1;最后得出局部運動特征;
[0215] 上式中,g(x,y,t)表示t時刻在(x,y)點的灰度值,
別表示灰度圖像和沿x 和y方向的梯度,和4表示第n次迭代后運動矢量在一個小鄰域內(nèi)的平均值,通過對鄰近 點的插值來得到PO + j +馬,t + 1)的計算;
[0216] 本方法的運動特征分類標(biāo)準(zhǔn)為運動角度每5度為一個單位,針對不同角度的運動 特征建立標(biāo)準(zhǔn)運動特征直方圖;在得出運動目標(biāo)的運動特征后,使用SVM分類器對目標(biāo)運動 特征直方圖和標(biāo)準(zhǔn)直方圖匹配,通過計算目標(biāo)運動特征直方圖和標(biāo)準(zhǔn)直方圖的相似度,進 行不同運動方向上的分類。
[0217] 如圖7所示,在上述對運動對象進行語義檢索包括如下分類:
[0218] 1.目標(biāo)類型檢索:根據(jù)目標(biāo)的類型特征分為人、車、非機動車、其他四類;基于檢索 選定的條件,輸出高于檢索條件閾值的目標(biāo);
[0219] 2 .目標(biāo)顏色檢索:目標(biāo)顏色檢索可設(shè)定主色和次色;因為目標(biāo)顏色不一定是單一 的,檢索其中一種不能準(zhǔn)確輸出整體相似度較高的目標(biāo);所以目標(biāo)顏色檢索過程結(jié)合粗糙 集和目標(biāo)各種顏色的權(quán)重來綜合檢索,將檢索條件和目標(biāo)的語義注釋進行比對得出結(jié)果;
[0220] 3.目標(biāo)運動特征檢索:定義兩個相同長度直方圖序列的相似度是它們各個對應(yīng)直 方圖的相似度之和,當(dāng)目標(biāo)視頻片段和標(biāo)準(zhǔn)運動特征直方圖的原始視頻片段長度不同時, 分別為N和M,設(shè)N>M,則先將較短的序列{hKN)}與長序列{hKM)}中取不同時間起點的同長 度序列計算相似度,然后求所有相似度的最大值,如下式
[0222 ]上式得出了兩個不同長度序列的相似度,而且計算出短序列與長序列中最相似運 動的對應(yīng)位置;
[0223]根據(jù)檢索條件得出類型、顏色、運動方向、運動速度的各項分值后,根據(jù)各項所占 權(quán)重,求出加權(quán)分?jǐn)?shù),按分?jǐn)?shù)排序結(jié)果并輸出。
【主權(quán)項】
1. 一種基于語義圖像檢索的視頻濃縮對象檢索方法,其特征在于,包括:運動目標(biāo)的檢 測計算單元;運動目標(biāo)的提取計算單元;對于運動對象進行語義注釋的計算單元;對運動對 象進行語義檢索的計算單元。2. 基于權(quán)利要求1所述的一種基于語義圖像檢索的視頻濃縮對象檢索方法,其特征在 于,所述的對于運動對象進行語義注釋的計算單元:對運動對象外形特征分類的分類器計 算單元;對運動對象顏色特征分類的分類器計算單元;對運動對象運動特征分類的分類器 計算單元。3. 基于權(quán)利要求1所述的一種基于語義圖像檢索的視頻濃縮對象檢索方法,其特征在 于,包括如下步驟: A. 數(shù)據(jù)矢量量化編碼; B. 碼本模型運動檢測; C. 對運動對象進行語義注釋; D. 對運動對象進行語義檢索。4. 基于權(quán)利要求3所述的一種基于語義圖像檢索的視頻濃縮對象檢索方法,其特征在 于,所述步驟A包括如下步驟: A1.對原始數(shù)據(jù)分割成大小相同的塊,每個小塊包含了許多像素; A2.形成由左至右、由上而下地串成一個向量; A3.收集具有代表性的向量制作出碼本,找出其中跟此小塊最接近的碼字的索引值代 替此小塊,組成一張索引表;將此作為原始數(shù)據(jù)壓縮的結(jié)果。5. 基于權(quán)利要求3所述的一種基于語義圖像檢索的視頻濃縮對象檢索方法,其特征在 于,所述步驟B包括如下步驟: B1.在視頻幀的每一個像素位置,為該位置建立了包含了一個或多個碼字的碼本;視頻 序列中一個像素點的訓(xùn)練序列為)(={^1,12一幼},該像素對應(yīng)的碼本為(:={〇 1,〇2一(^},每 個碼字ci為二元組結(jié)構(gòu)Ci = <Vi,Ui>; Vi = ,Vi對應(yīng)該碼字的累積RGB三通道的平均顏 色值;Ui =〈Hfi.Yi》,其中各個參數(shù)分別表示碼字對應(yīng)像素的最小、最大亮度值,碼字出現(xiàn) 的字?jǐn)?shù),碼字在訓(xùn)練中未出現(xiàn)的最大間隔時間以及第一次和最后一次訪問的時間; B2.檢測像素運動情況;對于t時刻待檢測的像素,將當(dāng)前像素值Xt與對應(yīng)的碼本進行比 較,如果沒有相匹配的碼字,則創(chuàng)建一個新的碼字ul =〈I,1,1,t-l,t,t>添加到其碼本中; 如果匹配的碼字有多個,則根據(jù)顏色相似度和亮度范圍確定匹配最好的碼字并更新碼本, 公式如下B3.當(dāng)訓(xùn)練結(jié)束后,為每個碼字Cl更新未訪問的最大時間間隔Y :為 y i=max{ y i,N_qi+pi_l} 〇6. 基于權(quán)利要求3所述的一種基于語義圖像檢索的視頻濃縮對象檢索方法,其特征在 于,所述的步驟C包括如下分類: C1:運動對象的外形特征注釋; C2:運動對象的顏色特征注釋; C3:運動對象的運動特征注釋。7.基于權(quán)利要求6所述的一種基于語義圖像檢索的視頻濃縮對象檢索方法,其特征在 于,所述的C1運動對象的外形特征注釋,選擇面積、寬高比、占空比和第1、2個Hu不變矩,作 為提取的對象的特征,包括如下步驟: 步驟一:對對象區(qū)域的面積、對象區(qū)域的寬高比、對象區(qū)域的占空比、Hu不變矩中第1、2 個Hu不變矩定義,假設(shè)存在對象區(qū)域,(x,y)表示像素點的坐標(biāo); 對象區(qū)域的面積定義為:R中的像素點總數(shù),公式如下:即對象區(qū)域的零階矩; 對象區(qū)域的寬高比定義為:其中, Rff=max{x | (x ,y) G R}-min{x | (x ,y) G R} RH=max{y| (x,y) GR}-min{y | (x,y)GR} 對象區(qū)域的占空比,即對象區(qū)域的面積與外接矩形面積之比,可表示為:Hu不變矩中第1、2個Hu不變矩定義如下: i=n2〇+n〇2 中2 =(心)+ %2)2 + 丄 完成定義; 步驟二:采用支持向量機(SVM)分類器進行視頻對象分類,以驗證選擇的對象特征的有 效性;在訓(xùn)練集線性可分情形下,構(gòu)造一個最優(yōu)超平面(《 ? x)+b = 0,使這個超平面滿足約 束條件yi[(w ?x)+b]彡l,i = l,2,"、l; 同時使下面的函數(shù)取得最小值通過求解最優(yōu)化問題可得最優(yōu)超平面的形式如下:其中SV是支持向量,af是拉格朗日乘子,bQ為最優(yōu)超平面的偏置;在訓(xùn)練集線性不可分 時,我們引進松弛因子L彡〇及懲罰參數(shù)C;在約束yi [ ( ? ? x) +b]多1,i = 1,2,….1下最小化 函數(shù)可得最優(yōu)超平面,有了最優(yōu)超平面,分類規(guī)則或分類函數(shù)只要取即可。8.基于權(quán)利要求6所述的一種基于語義圖像檢索的視頻濃縮對象檢索方法,其特征在 于,所述的C2運動對象的顏色特征注釋,利用了圖像的顏色矩、基于灰度共生矩陣的紋理特 征和形狀的七階不變距來提取圖像的底層視覺特征,結(jié)合粗糙集對生成的特征進行選擇, 根據(jù)顏色特征并以紋理特征輔助,對目標(biāo)進行語義注釋,包括如下步驟: 步驟一:顏色特征提取,采用顏色的一階中心距、二階中心距、三階中心距表達(dá)圖像顏 色的分布,公式如下:其中,P〇是第i個像素的某個顏色分量;一階距定義了每個顏色分量的平均強度,二階和 三階距分別定義了顏色分量的方差和偏斜度; 步驟二:紋理特征提取,采用灰度共生矩陣方法來表示紋理特征,構(gòu)造一個基于像素間 方向和距離的共生矩陣,來提取能量、熵、慣性矩、相關(guān)性等統(tǒng)計量作為圖像的紋理特征,灰 度共生矩陣表示為?(^(1,0),它描述了在0方向上,相隔(1個像素的距離,灰度值分別為1 和j的像素對數(shù)量; 能量:當(dāng)P( i,j)的數(shù)值分布較集中于主對角線附近時,對應(yīng)的ASM值較大;否則,ASM的值較 ??; 熵:當(dāng)圖像紋理比較粗糙時,各P(i,j)的值較集中并且相差較大,當(dāng)圖像紋理比較細(xì)時,各 的值較集中并且相差較大,當(dāng)圖像紋理比較細(xì)時,各P( i,j)的值比較分散且相差不大; 慣性矩: 由于P(i,j)主要集中在主對角線附近,所以對于粗紋理來說i-j的值較小,因此對應(yīng)的 CON值比較小;相反,細(xì)紋理的CON比較大;相關(guān)性:當(dāng)矩陣像元值相差很大時,則相關(guān)值小;反之,當(dāng)矩陣元素均勻相等時,相關(guān)值就大; 步驟三:形狀特征提取,采用不變距作為基于區(qū)域的形狀特征,以兼顧整個形狀區(qū)域內(nèi) 的所有像素;通過變換不敏感的幾個矩來說明區(qū)域的固有特征,七個不變距來描述形狀的 特征,定義如下: l = li2.0+li〇.2 傘 2= (y2.〇-y〇.2)2+4iii.i2 傘 3= (ii3.〇-3lil.2)2+(y〇.3-3li2.1)2 <i>4= (y3.〇+yi.2)2+(y〇.3+y2.i)2 傘 5= (ii3.〇-3lil.2) (ii3.0+yi.2) [ (ii3.0+yi.2)2-3(li2.1+y〇.3)2] + (3li2.1-y〇.3) (ii2.1+y〇.3) [3(ii3.0 +yi.2)2-(y2.i+y〇.3)2] 6 = (ii2.〇-y〇.2) [ (y3.0+yi.2)2-(y〇.3+ii2.1)2]+4lil.l(li3.0+yi.2) (y〇.3+ii2.1) 7 = (3ii2.1-y〇.3) (ii3.0+yi.2) [ (ii3.0+yi.2)2-3(li〇.3+y2.1)2] + (3li2.1-y〇.3) (ii2.1+y〇.3) [3(ii3.0 +yi.2)2-(y2.i+y〇.3)] 其中yp,q= E(x,y)eR(x-xc)p(y-yc) q; (xc,yc)是對象的中心; 步驟四:使用粗糙集約簡,降低樣本維數(shù),減少樣本個數(shù),降低后期語義識別的復(fù)雜度; 通過原始數(shù)據(jù)集建立系統(tǒng)決策表,S = (U,A,V,f)其中C為條件屬集;D為決策屬性集; 通過K均值聚類的離散化方法對原始數(shù)據(jù)中連續(xù)型數(shù)據(jù)離散化,得到樣本決策表; 利用基于屬性重要性的屬性約簡方法來對樣本決策表進行約簡,得出最終的約簡結(jié) 果; 先統(tǒng)計未約簡前由訓(xùn)練樣本構(gòu)成的分類模型對預(yù)測樣本的準(zhǔn)確率,在用約簡后的條件 屬性直接作為訓(xùn)練樣本和預(yù)測樣本再一次構(gòu)造一個分類模型,計算出分類的準(zhǔn)確率; 通過實驗驗證選擇徑向基核函數(shù),對約簡后的樣本集利用網(wǎng)格搜索法和粒子群優(yōu)化算 法兩種方法來確定最優(yōu)的優(yōu)化算法和核函數(shù)的參數(shù)(c,Y ); 用約簡后的樣本、核函數(shù)及其最優(yōu)參數(shù)來構(gòu)造分類面,通過分類模型來實現(xiàn)對測試集 的準(zhǔn)確分類; 統(tǒng)計約簡后的準(zhǔn)確率和用網(wǎng)格搜索法和粒子群優(yōu)化算法對參數(shù)優(yōu)化后的準(zhǔn)確率,對兩 者進行比較。9.基于權(quán)利要求6所述的一種基于語義圖像檢索的視頻濃縮對象檢索方法,其特征在 于,所述的C3運動對象的運動特征注釋,使用運動矢量直方圖來提取局部運動特征,步驟如 下:先從運動估計的全局運動模型中計算出每一像素點的全局運動矢量,再與當(dāng)前的局部 運動矢量合并,作為下一次迭代的初始值輸入;得到相鄰幀的局部運動矢量場后,取一個運 動矢量幅度閾值1,大于此閾值的像素點定為運動像素點;然后將運動矢量的可能方向量 化為n個等間距的間隔,對于每一個運動像素點,根據(jù)它的運動矢量方向找到對應(yīng)的方向量 化間隔,然后把該量化間隔的計數(shù)器加1;最后得出局部運動特征; 上式中,g(x,y,t)表示t時刻在(x,y)點的灰度值,分別表示灰度圖像和沿x和y 方向的梯度,《^和%表示第n次迭代后運動矢量在一個小鄰域內(nèi)的平均值,通過對鄰近點的 插值來得到?jīng)](x +五n.,y十&,:t +丄)的計算; 本方法的運動特征分類標(biāo)準(zhǔn)為運動角度每5度為一個單位,針對不同角度的運動特征 建立標(biāo)準(zhǔn)運動特征直方圖;在得出運動目標(biāo)的運動特征后,使用SVM分類器對目標(biāo)運動特征 直方圖和標(biāo)準(zhǔn)直方圖匹配,通過計算目標(biāo)運動特征直方圖和標(biāo)準(zhǔn)直方圖的相似度,進行不 同運動方向上的分類。10.基于權(quán)利要求3所述的一種基于語義圖像檢索的視頻濃縮對象檢索方法,其特征在 于,所述的D對運動對象進行語義檢索包括如下分類: D1.目標(biāo)類型檢索:根據(jù)目標(biāo)的類型特征分為人、車、非機動車、其他四類;基于檢索選 定的條件,輸出高于檢索條件閾值的目標(biāo); D2.目標(biāo)顏色檢索:目標(biāo)顏色檢索可設(shè)定主色和次色;因為目標(biāo)顏色不一定是單一的, 檢索其中一種不能準(zhǔn)確輸出整體相似度較高的目標(biāo);所以目標(biāo)顏色檢索過程結(jié)合粗糙集和 目標(biāo)各種顏色的權(quán)重來綜合檢索,將檢索條件和目標(biāo)的語義注釋進行比對得出結(jié)果; D3.目標(biāo)運動特征檢索:定義兩個相同長度直方圖序列的相似度是它們各個對應(yīng)直方 圖的相似度之和,當(dāng)目標(biāo)視頻片段和標(biāo)準(zhǔn)運動特征直方圖的原始視頻片段長度不同時,分 別為N和M,設(shè)N>M,則先將較短的序列{lu (N)}與長序列{lu (M)}中取不同時間起點的同長度 序列計算相似度,然后求所有相似度的最大值,如下式上式得出了兩個不同長度序列的相似度,而且計算出短序列與長序列中最相似運動的 對應(yīng)位置; 根據(jù)檢索條件得出類型、顏色、運動方向、運動速度的各項分值后,根據(jù)各項所占權(quán)重, 求出加權(quán)分?jǐn)?shù)。
【文檔編號】G06F17/30GK106055653SQ201610381555
【公開日】2016年10月26日
【申請日】2016年6月1日
【發(fā)明人】夏春秋
【申請人】深圳市唯特視科技有限公司