基于視覺屬性的社會事件識別方法
【專利摘要】本發(fā)明公開了一種基于視覺屬性的社會事件識別方法,該方法包括:步驟101,從訓練事件視頻集中的視頻中提取視覺屬性,所述視覺屬性用于描述與視頻對應(yīng)的事件相關(guān)的屬性;其中,所述訓練事件視頻中的每個視頻對應(yīng)一個已知事件類別;步驟102,基于提升的迭代模型,訓練得到視覺屬性分類器,并利用所述視覺屬性分類器訓練得到多個事件弱分類器;步驟103,基于上述得到的視覺屬性分類器以及多個事件弱分類器對待分類事件視頻進行分類。本發(fā)明針對傳統(tǒng)的基于屬性的視頻事件識別方法中需要大量人工給定的語義標簽問題,提出了自動的視覺屬性挖掘方法;另外針對視頻事件識別中視覺屬性復雜多變的問題,本發(fā)明對同一種視覺屬性建立了多種特征表示。
【專利說明】基于視覺屬性的社會事件識別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于社會媒體(social media)挖掘和視頻分析領(lǐng)域,具體涉及基于圖像分 享網(wǎng)站和視頻分享網(wǎng)站的視覺屬性的社會事件的識別方法。
【背景技術(shù)】
[0002] 隨著手機、數(shù)字攝像頭以及Flickr、Youtube等社交媒體的不斷普及,人們變得更 容易從網(wǎng)絡(luò)上獲取和分享信息。這使得發(fā)生在人們周圍的社會事件以更快的速度傳播并隨 之產(chǎn)生了大量與事件相關(guān)的不同模態(tài)的媒體數(shù)據(jù),例如圖像、文本和視頻。根據(jù)大量多媒體 數(shù)據(jù)來理解特定社會事件可以更好地幫助人們?yōu)g覽、搜索和監(jiān)控社會事件。但由于社會事 件的復雜多變,如何有效地挖掘媒體數(shù)據(jù)來理解社會事件仍然是一個難題。
[0003] 近年來,已有大量利用各種媒體數(shù)據(jù)的社會事件識別和檢測的方法被提出。針對 MediaEval公布的多媒體事件檢測問題,圖像的文本描述,標簽、地理位置以及時間標記等 數(shù)據(jù)被廣泛用于事件的理解與檢測。這些方法所關(guān)注的社會事件是發(fā)生在特定時間、地點 的一類事件,例如"發(fā)生在西班牙巴塞羅拉和意大利羅馬的所有足球事件"。還有一些方法 借助社交網(wǎng)站、博客、維基以及搜索引擎中的大量文本信息來挖掘更為抽象的社會事件,例 如"拉里?佩奇和謝爾蓋·布林在1998年創(chuàng)立了谷歌公司"。除此之外,還有大量的方法被 提出用于檢測和識別視頻中的事件。例如在多媒體事件檢測(MED)數(shù)據(jù)集中,視頻事件主 要是關(guān)于"生日聚會","做蛋糕"以及"攀巖"等。由于包含在圖像和視頻中的視覺語義信 息不易被提取和利用,目前的事件識別方法難以在視頻事件中獲得好的效果。為了改進對 視頻的社會事件的理解和識別,目前有大量的方法依賴于屬性來描述視頻中的事件。
[0004] 目前基于屬性的視頻事件識別方法可以分為三個主要步驟。(1)人工標定視覺樣 本(圖像或視頻)的屬性,這些屬性是人為選定的最能體現(xiàn)事件特征的語義信息。(2)利用 包含屬性標記的視頻或圖像樣本訓練屬性分類器。(3)利用屬性分類器進一步得到視頻的 屬性描述特征向量。最終將根據(jù)視頻的屬性描述特征向量來進行事件分類。盡管目前基于 屬性的方法可以得到好的效果,但仍然存在大量問題。一方面是標定屬性需要耗費大量人 力成本。另一方面是給定屬性對應(yīng)的單個分類器不足以描述事件對應(yīng)的復雜多變的視覺外 觀。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的是通過自動挖掘視覺屬性,得到對視頻中的事件更有效的特征描述 方式,進而可以得到更好的分類效果。針對事件復雜多變的視覺外觀,用多種特征來描述給 定的視覺屬性,可以更全面的表達事件的視覺外觀。
[0006] 為實現(xiàn)上述目的,本發(fā)明提供一種基于視覺屬性的社會事件識別方法,該方法包 括以下步驟:
[0007] 步驟101,從訓練事件視頻集中的視頻中提取視覺屬性,所述視覺屬性用于描述與 視頻對應(yīng)的事件相關(guān)的屬性;其中,所述訓練事件視頻中的每個視頻對應(yīng)一個已知事件類 別;
[0008] 步驟102,基于提升的迭代模型,訓練得到視覺屬性分類器,并利用所述視覺屬性 分類器訓練得到多個事件弱分類器;
[0009] 步驟103,基于上述得到的視覺屬性分類器以及多個事件弱分類器對待分類事件 視頻進行分類。
[0010] 本發(fā)明的有益效果:本發(fā)明通過自動挖掘視覺屬性,減少了傳統(tǒng)基于視覺屬性的 事件識別方法中需要人工標定屬性的耗費。基于提升的多特征屬性表示方法可以有效地表 示視頻事件中復雜多變的視覺外觀。
【專利附圖】
【附圖說明】
[0011] 圖1是本發(fā)明基于視覺屬性的社會事件識別方法的流程圖;
【具體實施方式】
[0012] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明白,以下結(jié)合具體實施例,并參照 附圖,對本發(fā)明進一步詳細說明。
[0013] 圖1為本發(fā)明提出的基于視覺屬性的社會事件識別方法的流程圖,所述方法通過 自動挖掘視覺屬性得到可以識別社會事件的關(guān)鍵視覺屬性,這些視覺屬性被進一步提升來 更好地表示社會事件,最終視頻事件被表示為視覺屬性的特征向量。如圖1所示,所述方法 包括三個部分:1)視覺屬性提取,2)視覺屬性提升,3)基于視覺屬性的社會事件識別。具 體來說,所述方法包括以下步驟:
[0014] 步驟101,視覺語義屬性提取,所述視覺語義屬性表示描述特定事件相關(guān)的物體, 場景,行為等視覺語義;物體可以是人、車或者動物等;場景可能是體育場、教堂等,行為主 要是人的行為活動,比如擁抱、握手等。
[0015] 所述步驟101進一步包括以下步驟:
[0016] 步驟1011,從訓練事件視頻集中的每一個事件視頻的文本描述中提取語義單詞和 詞組;其中,所述訓練事件視頻集中的每一個事件視頻對應(yīng)一個特定的社會事件,即每個事 件視頻具有一個事件類別;所述訓練事件視頻集中的所有事件視頻對應(yīng)預(yù)定數(shù)目個社會事 件,所述預(yù)定數(shù)目小于訓練視頻集中的視頻個數(shù)。
[0017] 設(shè)
【權(quán)利要求】
1. 一種基于視覺屬性的社會事件識別方法,其特征在于,該方法包括以下步驟: 步驟101,從訓練事件視頻集中的視頻中提取視覺屬性,所述視覺屬性用于描述與視頻 對應(yīng)的事件相關(guān)的屬性;其中,所述訓練事件視頻中的每個視頻對應(yīng)一個已知事件類別; 步驟102,基于提升的迭代模型,訓練得到視覺屬性分類器,并利用所述視覺屬性分類 器訓練得到多個事件弱分類器; 步驟103,基于上述得到的視覺屬性分類器以及多個事件弱分類器對待分類事件視頻 進行分類。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟101進一步包括以下步驟: 步驟1011,從所述訓練事件視頻集中每個視頻的文本描述中提取語義單詞和詞組; 步驟1012,收集所述語義單詞和詞組對應(yīng)的圖像,根據(jù)視覺信息計算語義單詞和詞組 的視覺表示力,結(jié)合語義單詞或詞組的語義粘滯性,從語義單詞和詞組中選出多個視覺屬 性。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,設(shè)
為一個視頻的文本描述,1?被分割 為多個語義或者詞組單元
其中sei表示一個語義單元;視頻的 文本描述分割問題可以進一步表示為一個優(yōu)化問題
這里
其中Stc表示衡量分割詞組粘滯性的函數(shù)。
4. 根據(jù)權(quán)利要求2所述的方法,其特征在于,一個分割詞組se被選為視覺屬性的概率 是由se的語義粘滯性和視覺表示力共同決定的: Score (se) = Stc (se) Vflickr (se) 這里Vflidff是se的視覺表示力,是通過收集得到的與其對應(yīng)的圖像集的視覺相似性來 計算得到:
其中,1%是當se作為檢索詞時,從圖像共享網(wǎng)站搜索得到的圖像集;Cent (U表示1% 的重心;sim()表示圖像的相似度。
5. 根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟102具體通過迭代執(zhí)行以下三個步 驟: 步驟1021 :學習領(lǐng)域適應(yīng)的共有特征表示,該步驟中利用權(quán)重分布采樣所有視頻對應(yīng) 的圖像幀集合和輔助圖像集中的圖像;并利用去噪自編碼器學習所采樣的樣本圖像的共有 特征表示;其中,所述輔助圖像集是利用所述訓練事件視頻集中所有視頻對應(yīng)的已知事件 類別名稱作為關(guān)鍵詞從圖像共享網(wǎng)站檢索得到; 步驟1022 :利用所學習得到的領(lǐng)域適應(yīng)的共有特征表示,訓練得到與所述視覺屬性對 應(yīng)的多個屬性分類器,并利用所述屬性分類器更新所述視頻集中所有視頻對應(yīng)的圖像幀以 及輔助圖像集中圖像的權(quán)重; 步驟1023 :利用所有視覺屬性分類器對訓練視頻集中的每個視頻進行描述以構(gòu)造每 個視頻的視覺屬性特征向量,然后利用視覺屬性特征向量訓練得到事件視頻弱分類器;, 訓練得到事件視頻弱分類器,并利用所述事件視頻弱分類器進一步更新訓練視頻集中所有 視頻對應(yīng)的圖像幀的權(quán)重。
6. 如權(quán)利要求5所述的方法,其特征在于,步驟1021中,去噪自編碼器利用加了噪聲后 的特征恢復得到原來的特征,其重構(gòu)誤差如下表示:
其中,
是指去噪自編碼器的重構(gòu)誤差,w表示將所述訓練視頻集中所有視頻對應(yīng) 的圖像幀和輔助圖像集中的圖像幀映射成共有特征表示的映射矩陣;s表示采樣得到的樣 本個數(shù),r表示對每個樣本加噪聲的次數(shù);Xi是第i個樣本的原始特征,
是對第i個樣本 的原始特征第j次加噪聲以后的特征; 通過上述重構(gòu)誤差方程可以求得映射矩陣W的解析解,具體如下表示:
其中,X = [Xl,. . .,xs]表示采樣得到的樣本集合,
另外是由
加噪聲
后的特征向量組成;E表示期望。
7. 如權(quán)利要求6所述的方法,其特征在于,步驟1022中,屬性分類器的分類誤差如下表 示:
其中,
表示分類誤差,I表示符號函數(shù),如果括弧中的條件滿足,則函數(shù)值為1,否則函 數(shù)值為0 ;Xi表示第i個樣本的特征,即
中的第i個樣本的特征向量;g(Xi)表 示將Xi的特征映射為共有特征表示后的特征;flgUi))表示第c個屬性分類器; 利用訓練得到的分類器如下更新視頻集和輔助圖像集中圖像的權(quán)重:
其中,屯表示第i個圖像的權(quán)重,image (c)表示第c個屬性分類器對應(yīng)的視頻包含的 所有幀圖像;α ^表示權(quán)重更新率。
8. 如權(quán)利要求7所述的方法,其特征在于,步驟1023中每個視頻的所述視覺屬性特征 向量如下構(gòu)建: 利用所有屬性分類器對所述訓練視頻集中每個視頻對應(yīng)的圖像幀得到分類輸出值,這 些分類輸出值構(gòu)成圖像幀的視覺屬性特征向量,將一個視頻對應(yīng)的所有幀圖像對應(yīng)的視覺 屬性特征向量進行池化得到該視頻的視覺屬性特征向量。
9. 如權(quán)利要求5所述的方法,其特征在于,步驟1023中,事件視頻弱分類器的分類誤差 和權(quán)重如下計算:
其中,e表示事件視頻弱分類器的分類誤差,'表示第j個視頻,h表示訓練事件視頻集 中第j個視頻的事件類別;h(vP表示對視頻'訓練得到的事件視頻弱分類器,α表示事 件視頻弱分類器h(\)的權(quán)重
表示第j個視頻的權(quán)重,K表示事件類別的個數(shù)。
10.如權(quán)利要求8所述的方法,其特征在于,步驟103具體包括: 對于待識別視頻,利用映射矩陣W計算其對應(yīng)的圖像幀的特征表示; 將所述特征表示作為所述屬性分類器的輸入,進而得到待識別視頻的視覺屬性特征向 量; 將所述待識別視頻的視覺屬性特征向量作為所有事件視頻弱分類器的輸入,對所述待 識別視頻進行分類。
【文檔編號】G06F17/30GK104142995SQ201410370304
【公開日】2014年11月12日 申請日期:2014年7月30日 優(yōu)先權(quán)日:2014年7月30日
【發(fā)明者】徐常勝, 楊小汕, 張?zhí)熘? 申請人:中國科學院自動化研究所