專利名稱:一種視頻情感信息提取方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)視頻理解與分析,特別涉及視頻情感信息的提取。
背景技術(shù):
隨著數(shù)字技術(shù)的發(fā)展,視頻數(shù)據(jù)也開始呈現(xiàn)爆炸性增長的趨勢,電視、電影、家用攝像設(shè)備正在不斷地提供更多的視頻數(shù)據(jù)。在這種背景下,利用計(jì)算機(jī)從龐大的視頻數(shù)據(jù)信息中挖掘特定的信息成為一個熱點(diǎn)問題。
視頻的情感分析指的是利用計(jì)算機(jī)自動分析視頻可能給觀眾情感上帶來的主觀反應(yīng)。比如區(qū)分影片中恐怖的、緊張激烈的、浪漫的等不同的感情元素。對視頻的情感屬性的分析可以幫助觀眾快速的從視頻數(shù)據(jù)庫中找到自己感興趣的視頻,滿足不同觀眾對視頻多樣化的要求。
視頻的情感屬性通??梢杂眯r(valence)和興奮度(arousal)兩個維度表示。效價指情緒的負(fù)面性或正面性,從不高興到高興;興奮度指情緒的激烈程度,從十分平靜到極度激動。圖1是一個情感空間的示意圖,例如,對于“極度恐懼”的情感,從效價緯度上來看,它屬于負(fù)面情緒,從興奮度緯度上來看,它屬于激烈的情緒。
視頻所表達(dá)的上述情感屬性可以由視頻中的一些底層特征如顏色、運(yùn)動、聲音等來表示。當(dāng)建立了視頻的情感模型后,可以繪制出效價及興奮度沿視頻時間的曲線圖,來表達(dá)視頻的情感屬性。圖2為視頻情感曲線隨時間的分布圖,在該圖中,顯示了興奮度以及效價隨視頻時間的變化情況。不少文獻(xiàn)都采用上述的視頻底層特征進(jìn)行視頻情感信息提取,如Hanjalic博士在″Affective Video Content Representationand Modeling″文章中便采用底層特征建立效價及興奮度模型。在他的工作中,當(dāng)情感曲線被繪制后,采用設(shè)定閾值的方法獲得某段視頻的情感描述。其他人的工作通常也是基于某時刻的情感特征,而不是把一段視頻整個的情感信息用一個特征描述。而如果想要分析視頻的情感特性的話,應(yīng)該對整段視頻提取一個情感特征,則多個視頻樣本可以在某特征空間中對應(yīng)一個樣本點(diǎn)的集合。如果僅僅是將獲得的效價和興奮度向量羅列的話,依采樣頻率的不同,一段一個小時的視頻通常可以表示成數(shù)千至上萬維的情感特征。這樣,就需要找到一種特征壓縮的方法,對情感特征進(jìn)行降維。
發(fā)明內(nèi)容
本發(fā)明的目的是克服現(xiàn)有的視頻情感提取方法中,所得到的情感特征維數(shù)過高的缺陷,從而提供一種可降維的視頻情感信息提取方法。
為了實(shí)現(xiàn)上述目的,本發(fā)明提供了一種視頻情感信息提取方法,具體包括以下步驟 步驟10)、選擇目標(biāo)視頻片斷; 步驟20)、為步驟10)所選擇的目標(biāo)視頻建立情感的興奮度模型; 步驟30)、為步驟10)所選擇的目標(biāo)視頻建立情感的效價模型; 步驟40)、將步驟30)所建立的情感效價模型的正值映射到一個維度,將情感效價模型的負(fù)值映射到另一個維度,然后將情感效價模型的正值、負(fù)值、情感興奮度模型三個分量映射到三維空間,得到情感的三維特征; 步驟50)、對步驟40)中映射到三維空間的情感模型進(jìn)行壓縮,得到情感三維模型的壓縮模型。
上述技術(shù)方案中,在所述的步驟20)中,所述的情感的興奮度模型的計(jì)算公式如公式(1)所示, 其中,i表示時刻,α是為不同特征所賦的權(quán)值,Mij表示前述的運(yùn)動強(qiáng)度、鏡頭變換頻率、音頻能量特征。
所述的對運(yùn)動強(qiáng)度特征的計(jì)算如公式(2)所示, 其中,|vp|為運(yùn)動向量長度,F(xiàn)為一平滑函數(shù)。該公式說明了運(yùn)動強(qiáng)度特征可用當(dāng)前時刻所有運(yùn)動向量的平均幅度表示。
所述的對鏡頭變換頻率特征的計(jì)算公式如公式(3)所示 Ms=F(e(1-(E-B))/δ) (3) 其中,E表示鏡頭結(jié)束幀,B表示鏡頭開始幀,δ為常數(shù),F(xiàn)為一平滑函數(shù)。所述的對音頻能量特征的計(jì)算如公式(4)所示, 其中,e(n)為短時音頻能量,e為采樣區(qū)間平均能量,N為某時刻音頻采樣長度,F(xiàn)為一平滑函數(shù)。
在所述的步驟30)中,對所述的情感效價按公式(5)計(jì)算 Vi=Risign(β1Mp+β2Mc)+λ(β1Mp+β2Mc) (5) 其中,Ri表示情感的興奮度模型,sign為符號函數(shù),β為權(quán)值,Mp為音頻頻率特征,Mc代表顏色特征。
所述的音頻頻率特征是當(dāng)前頻率p(n)與無感情時的音頻頻率常數(shù)N的差,對該特征的計(jì)算如公式(6)所示 Mp=F(p(n)-N) (6) 對所述的顏色特征Mc的計(jì)算如公式(7)所示 Mc=F(0.69b+0.22s)(7) 其中b代表當(dāng)前時刻視頻幀的主顏色區(qū)域的亮度,s代表當(dāng)前時刻視頻幀的主顏色區(qū)域的飽和度。
上述技術(shù)方案中,在所述的步驟50)中,所述的對映射到三維空間的情感模型進(jìn)行壓縮的具體實(shí)現(xiàn)步驟包括 步驟51)、對步驟40)中得到的情感三維特征中的每個點(diǎn)建立模型; 步驟52)、對步驟51)所建立的模型做最大似然估計(jì)得到情感壓縮模型。
在所述的步驟51)中,用A表示情感三維特征,用矩陣e表示情感三維模型的壓縮模型,其中每個點(diǎn)服從均值和方差為{μ,φ)的高斯分布,所述的為情感三維特征上的點(diǎn)Ai建立模型的過程如公式(11)所示 其中,T代表e到A的映射。
在所述的步驟52)中,所述的對模型做最大似然估計(jì)的計(jì)算如公式(13)所示 其中,q(T)為映射分布的估計(jì)值。
本發(fā)明的優(yōu)點(diǎn)在于 提出了一種視頻情感信息的提取方法,與現(xiàn)有方法相比,除了建立了情感模型,還利用產(chǎn)生式模型得到了視頻經(jīng)過壓縮后的情感特征,為進(jìn)一步的視頻情感研究提供了幫助。
圖1是二維情感空間的示意圖; 圖2是視頻情感屬性沿時間的曲線圖; 圖3為視頻情感信息提取的過程; 圖4為本發(fā)明的視頻情感信息提取方法的流程圖。
具體實(shí)施例方式 下面結(jié)合附圖和具體實(shí)施方式
對本發(fā)明作進(jìn)一步詳細(xì)描述。
圖3是視頻情感信息提取的基本過程,對于一段視頻,分別根據(jù)興奮度特征建立興奮度模型,根據(jù)效價特征建立效價模型。在建立興奮度模型時,所采用的興奮度特征包括運(yùn)動強(qiáng)度、鏡頭變換頻率、聲音能量特征,在建立效價模型時,所采用的效價特征包括音頻頻率特征和顏色特征。在得到效價模型后,還要將該模型中的正負(fù)值分別映射到兩個維度,得到正效價模型和負(fù)效價模型。對所得到的興奮度模型、正效價模型、負(fù)效價模型進(jìn)行壓縮,得到視頻情感的壓縮模型。
下面對視頻情感信息的提取做進(jìn)一步的說明,如圖4所示,本發(fā)明的視頻情感提取方法具體包含以下步驟 步驟10、選擇目標(biāo)視頻片斷;在后續(xù)步驟中,從所選擇的目標(biāo)視頻片斷提取視頻情感特征; 步驟20、為目標(biāo)視頻建立情感的興奮度模型;在建立情感的興奮度模型時,采用了運(yùn)動強(qiáng)度(用平均運(yùn)動向量表達(dá))、鏡頭變換頻率、聲音能量等特征。所建立的興奮度模型的計(jì)算公式如公式(1)所示, 其中,i表示時刻,α是為不同特征所賦的權(quán)值,Mij表示前述的運(yùn)動強(qiáng)度、鏡頭變換頻率、音頻能量等特征。具體計(jì)算如下 對運(yùn)動強(qiáng)度特征的計(jì)算如公式(2)所示, 其中,|vp|為運(yùn)動向量長度,F(xiàn)為一平滑函數(shù)。該公式說明了運(yùn)動強(qiáng)度特征可用當(dāng)前時刻所有運(yùn)動向量的平均幅度表示。
對鏡頭變換頻率特征的計(jì)算公式如公式(3)所示 Ms=F(e(1-(E-B))/δ) (3) 其中,E表示鏡頭結(jié)束幀,B表示鏡頭開始幀,δ為常數(shù),F(xiàn)為一平滑函數(shù)。對音頻能量特征的計(jì)算如公式(4)所示, 其中,e(n)為短時音頻能量,e為采樣區(qū)間平均能量,N為某時刻音頻采樣長度,F(xiàn)為一平滑函數(shù)。
步驟30、為目標(biāo)視頻建立情感的效價模型; 與Hanjalic的工作類似,為了獲得效價和興奮度的匹配,按如下公式計(jì)算情感效價 Vi=Risign(β1Mp+β2Mc)+λ(β1Mp+β2Mc) (5) 其中,sign為符號函數(shù),β為權(quán)值,Mp為音頻頻率特征,Mc代表顏色特征。
音頻頻率特征是當(dāng)前頻率p(n)與無感情時的音頻頻率常數(shù)N的差,對該特征的計(jì)算如公式(6)所示 Mp=F(p(n)-N)(6) 顏色特征Mc的計(jì)算如公式(7)所示 Mc=F(0.69b+0.22s) (7) 其中b代表當(dāng)前時刻視頻幀的主顏色區(qū)域的亮度,s代表當(dāng)前時刻視頻幀的主顏色區(qū)域的飽和度。
步驟40、將步驟20和步驟30中得到的情感興奮度模型和情感效價模型映射到三維空間中。在本步驟的映射過程中,由于情感效價模型具有正負(fù)兩種值,為了后續(xù)處理的方便,需要將情感效價的值映射到兩個維度,一個維度表示效價的正分量,一個維度表示效價的負(fù)分量,情感效價映射的實(shí)現(xiàn)如公式(8)、公式(9)所示 上述情感效價的正負(fù)分量連同情感興奮度一維坐標(biāo),得到在時刻i的一個三元組{Ri,Vpi,Vni},該三元組用Ai表示。為了可視化的方便,可將該三元組按公式(10)排列在一個矩陣X中 Xj,i=An(i-1)+j(10) 將矩陣X映射到RGB空間中,則可以得到一個視頻情感圖。在視頻情感圖中,每個點(diǎn)的顏色表示了視頻當(dāng)前情感位于情感空間的位置,而紋理則表示了視頻中的各種情感如何在時間軸上分布。
步驟50、對步驟40中映射到三維空間的情感模型進(jìn)行壓縮,得到情感壓縮模型。在本步驟中,假定情感三維模型中的每一點(diǎn)由情感壓縮模型中的某一點(diǎn)映射產(chǎn)生,并假定情感壓縮模型中的任一點(diǎn)獨(dú)立產(chǎn)生且符合高斯分布。然后通過最大似然估計(jì)就可得到情感壓縮模型。
在具體實(shí)現(xiàn)時,對情感三維特征A的每個點(diǎn)建模。假設(shè)情感三維模型的壓縮模型為一矩陣e,其中每個點(diǎn)服從均值和方差為{μ,φ}的高斯分布.情感三維特征上的點(diǎn)Ai的計(jì)算如公式(11)所示 其中,T代表e到A的映射。
假設(shè)情感三維模型上的點(diǎn)是獨(dú)立產(chǎn)生的,那么聯(lián)合分布可以表示為下式 然后利用最大似然估計(jì)就可以得到情感壓縮模型 這里q(T)為映射分布的估計(jì)值。
通過本步驟實(shí)現(xiàn)對情感模型的壓縮后,可將一段視頻中數(shù)萬維的情感特征的維數(shù)壓縮到數(shù)百維,有利于對視頻情感做進(jìn)一步分析。
最后所應(yīng)說明的是,以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案而非限制。盡管參照實(shí)施例對本發(fā)明進(jìn)行了詳細(xì)說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解,對本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換,都不脫離本發(fā)明技術(shù)方案的精神和范圍,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求范圍當(dāng)中。
權(quán)利要求
1. 一種視頻情感信息提取方法,具體包括以下步驟
步驟10)、選擇目標(biāo)視頻片斷;
步驟20)、為步驟10)所選擇的目標(biāo)視頻建立情感的興奮度模型;
步驟30)、為步驟10)所選擇的目標(biāo)視頻建立情感的效價模型;
步驟40)、將步驟30)所建立的情感效價模型的正值映射到一個維度,將情感效價模型的負(fù)值映射到另一個維度,然后將情感效價模型的正值、負(fù)值、情感興奮度模型三個分量映射到三維空間,得到情感的三維特征;
步驟50)、對步驟40)中映射到三維空間的情感模型進(jìn)行壓縮,得到情感三維模型的壓縮模型。
2. 根據(jù)權(quán)利要求1所述的視頻情感信息提取方法,其特征在于,在所述的步驟20)中,所述的情感的興奮度模型的計(jì)算公式如公式(1)所示,
其中,i表示時刻,α是為不同特征所賦的權(quán)值,Mij表示前述的運(yùn)動強(qiáng)度、鏡頭變換頻率、音頻能量特征。
3. 根據(jù)權(quán)利要求2所述的視頻情感信息提取方法,其特征在于,所述的對運(yùn)動強(qiáng)度特征的計(jì)算如公式(2)所示,
其中,|vp|為運(yùn)動向量長度,F(xiàn)為一平滑函數(shù)。該公式說明了運(yùn)動強(qiáng)度特征可用當(dāng)前時刻所有運(yùn)動向量的平均幅度表示。
4. 根據(jù)權(quán)利要求2所述的視頻情感信息提取方法,其特征在于,所述的對鏡頭變換頻率特征的計(jì)算公式如公式(3)所示
Ms=F(e(1-(E-B))/δ)(3)
其中,E表示鏡頭結(jié)束幀,B表示鏡頭開始幀,δ為常數(shù),F(xiàn)為一平滑函數(shù)。
5. 根據(jù)權(quán)利要求2所述的視頻情感信息提取方法,其特征在于,所述的對音頻能量特征的計(jì)算如公式(4)所示,
其中,e(n)為短時音頻能量,e為采樣區(qū)間平均能量,N為某時刻音頻采樣長度,F(xiàn)為一平滑函數(shù)。
6. 根據(jù)權(quán)利要求2所述的視頻情感信息提取方法,其特征在于,在所述的步驟30)中,對所述的情感效價按公式(5)計(jì)算
Vi=Risign(β1Mp+β2Mc)+λ(β1Mp+β2Mc) (5)
其中,Ri表示情感的興奮度模型,sign為符號函數(shù),β為權(quán)值,Mp為音頻頻率特征,Mc代表顏色特征。
7. 根據(jù)權(quán)利要求6所述的視頻情感信息提取方法,其特征在于,所述的音頻頻率特征是當(dāng)前頻率p(n)與無感情時的音頻頻率常數(shù)N的差,對該特征的計(jì)算如公式(6)所示
Mp=F(p(n)-N) (6)
8. 根據(jù)權(quán)利要求6所述的視頻情感信息提取方法,其特征在于,對所述的顏色特征Mc的計(jì)算如公式(7)所示
Mc=F(0.69b+0.22s) (7)
其中b代表當(dāng)前時刻視頻幀的主顏色區(qū)域的亮度,s代表當(dāng)前時刻視頻幀的主顏色區(qū)域的飽和度。
9. 根據(jù)權(quán)利要求1所述的視頻情感信息提取方法,其特征在于,在所述的步驟50)中,所述的對映射到三維空間的情感模型進(jìn)行壓縮的具體實(shí)現(xiàn)步驟包括
步驟51)、對步驟40)中得到的情感三維特征中的每個點(diǎn)建立模型;
步驟52)、對步驟51)所建立的模型做最大似然估計(jì)得到情感壓縮模型。
10. 根據(jù)權(quán)利要求9所述的視頻情感信息提取方法,其特征在于,在所述的步驟51)中,用A表示情感三維特征,用矩陣e表示情感三維模型的壓縮模型,其中每個點(diǎn)服從均值和方差為{μ,φ}的高斯分布,所述的為情感三維特征上的點(diǎn)Ai建立模型的過程如公式(11)所示
其中,T代表e到A的映射。
11. 根據(jù)權(quán)利要求9所述的視頻情感信息提取方法,其特征在于,在所述的步驟52)中,所述的對模型做最大似然估計(jì)的計(jì)算如公式(13)所示
其中,q(T)為映射分布的估計(jì)值。
全文摘要
本發(fā)明公開了一種視頻情感信息提取方法,包括以下步驟選擇目標(biāo)視頻片斷;為所選擇的目標(biāo)視頻建立情感的興奮度模型;為所選擇的目標(biāo)視頻建立情感的效價模型;將所建立的情感效價模型的正值映射到一個維度,將情感效價模型的負(fù)值映射到另一個維度,然后將情感效價模型的正值、負(fù)值、情感興奮度模型三個分量映射到三維空間,得到情感的三維特征;對映射到三維空間的情感模型進(jìn)行壓縮,得到情感三維模型的壓縮模型。
文檔編號G06T7/00GK101241595SQ200710063610
公開日2008年8月13日 申請日期2007年2月6日 優(yōu)先權(quán)日2007年2月6日
發(fā)明者照 趙, 蔣樹強(qiáng), 黃慶明 申請人:中國科學(xué)院計(jì)算技術(shù)研究所