用于概括未知視頻內(nèi)容的方法

文檔序號：6422222閱讀：222來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：用于概括未知視頻內(nèi)容的方法
技術(shù)領(lǐng)域：
本發(fā)明通常涉及計算機(jī)化視頻處理，具體涉及用于概括視頻內(nèi)容的方法和系統(tǒng)。
背景技術(shù)：
數(shù)據(jù)挖掘是從大規(guī)模數(shù)據(jù)庫和Internet中提取信息。數(shù)據(jù)挖掘已經(jīng)應(yīng)用于市場、金融、傳感器和生物數(shù)據(jù)的分析。數(shù)據(jù)挖掘不應(yīng)當(dāng)與對數(shù)據(jù)進(jìn)行搜索以得到已知模式的模式匹配混為一談。
基本上，數(shù)據(jù)挖掘是發(fā)現(xiàn)數(shù)據(jù)中“有興趣的”和以前未知的模式。有興趣的模式通常是根據(jù)特定模式的重新出現(xiàn)頻率來定義的。因為數(shù)據(jù)挖掘并不假設(shè)任何預(yù)定的模式，所以它常常被描述為無監(jiān)督的學(xué)習(xí)。
數(shù)據(jù)挖掘從大量數(shù)據(jù)中推導(dǎo)出規(guī)則、趨勢、規(guī)律和相關(guān)。數(shù)據(jù)挖掘常?；谌斯ぶ悄?AI)、基于記憶的推理(MBR)、關(guān)聯(lián)規(guī)則生成、決策樹(DT)、神經(jīng)元分析、統(tǒng)計分析、聚類和時間序列分析。
聚類在數(shù)據(jù)中識別出相關(guān)信息的同類組。現(xiàn)有技術(shù)的聚類假定數(shù)據(jù)中間的關(guān)系是已知的。聚類已經(jīng)在統(tǒng)計學(xué)、模式識別和機(jī)器學(xué)習(xí)方面進(jìn)行了廣泛的研究。聚類應(yīng)用的例子包含市場分析中的顧客群劃分、傳感數(shù)據(jù)中信號數(shù)據(jù)庫的子類識別。
聚類技術(shù)在廣義上能夠分成劃分(positional)技術(shù)和分層(hiearchical)技術(shù)。劃分聚類將數(shù)據(jù)分成K個聚類，使得每個聚類中的數(shù)據(jù)都比其它不同聚類中的數(shù)據(jù)彼此更相似。K的值能夠由用戶進(jìn)行賦值，或通過迭代確定以使聚類準(zhǔn)則最小。
分層聚類是劃分的嵌套序列。凝聚(agglomerative)分層聚類將數(shù)據(jù)置于原子聚類中，然后將這些原子聚類合并成越來越大的聚類，直至所有數(shù)據(jù)均在單一大聚類中。分裂(divisive)分層聚類則顛倒這一過程，其中從一個聚類中的所有數(shù)據(jù)開始，并將這個聚類細(xì)分成更小的聚類，例如見Jain等人的“數(shù)據(jù)聚類算法”Prentice Hall，1988，Piramuthu等人的“SOM神經(jīng)網(wǎng)絡(luò)與分層聚類方法之比較”，EuropeanJournal of Operational Research，93(2)402-417，1996年9月，Michaud的“四種聚類技術(shù)”，F(xiàn)GCS Journal，Special Issue on DataMining，1997，和Zait等人的“聚類方法的比較研究”，F(xiàn)GCS Journal，Special Issue on Data Mining，1997。
大部分?jǐn)?shù)據(jù)挖掘方法減少輸入數(shù)據(jù)的維數(shù)。在高維數(shù)據(jù)空間中形成的聚類不可能是有意義的聚類，因為在高維數(shù)據(jù)空間任意位置的預(yù)期平均點(diǎn)密度較低。減少數(shù)據(jù)維數(shù)的已知技術(shù)包含主成分分析(PCA)、因子分析、奇異值分解(SVD)和小波。主成分分析也被稱為Karhunen-Loeve展開，其求解出能夠說明數(shù)據(jù)特征方差的較低維表示，而因子分析則求出數(shù)據(jù)特征中的相關(guān)性。Jain等人在“特征選擇算法評估，技術(shù)報告”，計算機(jī)科學(xué)系，密執(zhí)安州立大學(xué)，East Lansing，Mich.，1996中描述了用于圖像分析領(lǐng)域的技術(shù)。
用于分析顧客購買模式的流行數(shù)據(jù)挖掘技術(shù)是對不明顯關(guān)聯(lián)或關(guān)聯(lián)規(guī)則的識別。明顯關(guān)聯(lián)的例子是購買嬰兒代乳品的顧客也同時會購買尿布。然而，1992年發(fā)現(xiàn)在傍晚時間人們會經(jīng)常一起購買啤酒和尿布。這樣的關(guān)聯(lián)是不明顯關(guān)聯(lián)的典型例子。正常情況下，人們不會將尿布和啤酒聯(lián)系為強(qiáng)相關(guān)的購買項目，因為啤酒通常不被認(rèn)為是嬰兒代乳品。這樣的方法也被稱為購物籃分析法(market-basketanalysis)。
關(guān)聯(lián)定義如下。如果有具有n個項I1，...，In的集合和選擇這n項中的一個子集的事務(wù)，例如數(shù)據(jù)庫或操作，則在兩項Ii和Ij之間的關(guān)聯(lián)被定義為規(guī)則R，用于被選入該子集的兩項Ii和Ij中的任何事務(wù)。規(guī)則R的條件被定義為Ii項的出現(xiàn)。規(guī)則R的結(jié)果被定義為Ij項的出現(xiàn)。規(guī)則R的支持度被定義為具有項Ii和Ij的事務(wù)的百分比。規(guī)則R的組合被定義為同一事務(wù)中Ii和Ij都出現(xiàn)。規(guī)則R的置信度被定義為組合的支持度與條件支持度之比。最后，規(guī)則R的改進(jìn)被定義為該規(guī)則的支持度與條件Ii的支持度和結(jié)果Ij的支持度的乘積之比。
當(dāng)關(guān)聯(lián)的支持度和置信度都很高時，關(guān)聯(lián)就是強(qiáng)的。例如，對于雜貨店的交易，牛奶與每個其它售出的物品有很強(qiáng)的相關(guān)性，因此支持度很高，因為大部分交易將牛奶作為其中一項。然而，對于例如像賀卡這樣的某些項，置信度很低，因為這些都不是被頻繁購買的項目。
最后，關(guān)聯(lián)的改進(jìn)也需要很強(qiáng)，因為小于1的改進(jìn)表明條件沒有預(yù)測出比使用其本身組合的原始概率具有任何更好精度的組合。因此即使該規(guī)則的支持度和置信度都很高，但如果相應(yīng)的改進(jìn)不大于1，則該規(guī)則沒有提供比純隨機(jī)更好的優(yōu)勢。下面，我們將描述視頻特性的“標(biāo)簽聚類”的關(guān)聯(lián)的使用，而不是顧客的“購買項”。
時間序列分析根據(jù)數(shù)據(jù)的時間間隔的函數(shù)將數(shù)據(jù)值關(guān)聯(lián)。例如，時間序列分析已經(jīng)用于發(fā)現(xiàn)股票價格、銷售量、氣候數(shù)據(jù)和EKG分析中的模式。通常假定存在產(chǎn)生時間序列的基礎(chǔ)確定性過程，并且該過程不是隨機(jī)的。然而真實世界現(xiàn)象的時間序列數(shù)據(jù)經(jīng)常與不確定性數(shù)據(jù)，例如不可避免的隨機(jī)噪聲相互混雜。
通常，使用例如歐幾里得距離或其某種變型的相似度測量對時間序列進(jìn)行比較。然而，歐幾里得距離測量往往不可靠。較健壯的相似度測量是基于動態(tài)時間翹曲(DTW)技術(shù)，見Berndt等人的“發(fā)現(xiàn)時間序列中的模式動態(tài)規(guī)劃方法”，知識發(fā)現(xiàn)和數(shù)據(jù)挖掘進(jìn)展，AAA/MIT Press，Menlo Park，CA.pp.229-248，1966。DTW試圖通過有選擇性地伸展和收縮時間軸來對準(zhǔn)時間序列數(shù)據(jù)。
直至現(xiàn)在，大多數(shù)數(shù)據(jù)挖掘技術(shù)已經(jīng)把目光聚焦在文本數(shù)據(jù)、數(shù)值數(shù)據(jù)和線性(一維)信號上。然而，現(xiàn)在海量的信息容易以具有空間和時間維度的多維圖像、電影和視頻的形式獲取。
某些現(xiàn)有技術(shù)對視頻進(jìn)行初步的內(nèi)容分析。最常見的方法是使用一組標(biāo)記樣本訓(xùn)練專家系統(tǒng)，因此這些技術(shù)是基于監(jiān)督學(xué)習(xí)的，而不是基于無監(jiān)督的數(shù)據(jù)挖掘，見Xu等人的“足球視頻中的分割和結(jié)構(gòu)分析算法和系統(tǒng)”，IEEE國際多媒體會議及其博覽會，東京，日本，2001年8月22-25，Xu等人在2001年4月20日提交的美國專利申請09/839,924，“域特定視頻中的高級結(jié)構(gòu)分析和事件檢測的方法和系統(tǒng)”，Naphade等人的“概率多媒體對象(multijects)多媒體系統(tǒng)中的索引和檢索新方法”，1998年第五屆IEEE圖像處理國際會議論文集，第三卷，pp.536-540。
現(xiàn)有無監(jiān)督視頻分析技術(shù)大部分是內(nèi)容中立的(content neutral)。例如，已經(jīng)通過從識別出的分段中選擇關(guān)鍵幀對視頻進(jìn)行概括。該分段通過檢測場景或“快照”的變化，例如，音量的減弱或突然變化來確定出來。場景所描述的是非實質(zhì)性的。所選擇的特定幀通常是按照某種準(zhǔn)則能夠良好地代表快照中的其它幀。其它技術(shù)利用攝像機(jī)角度或視場的變化，例如鏡頭的縮放。這樣的內(nèi)容中立技術(shù)已經(jīng)取得了適度的成功，并要求補(bǔ)充的內(nèi)容特定的技術(shù)，以得到語義上滿意的性能。
然而，一般來說，與基于內(nèi)容的視頻挖掘相關(guān)的問題沒有充分地加以理解。
例如，不清楚如果不進(jìn)行相當(dāng)大的修改，是否能夠?qū)⒅姆诸惡突貧w樹(CART)應(yīng)用于視頻挖掘中。CART方法將獨(dú)立的變量分成小組的數(shù)據(jù)集，并將常值函數(shù)賦給該小數(shù)據(jù)集。在分類樹中，常值函數(shù)是一種取有限小值集合，例如是和否、或低、中和高的函數(shù)。在回歸樹中，響應(yīng)的平均值適于賦給連接較少(small connected)的數(shù)據(jù)集。
因此，希望提供一種用于挖掘從場景中探測的多維時間序列數(shù)據(jù)，即通過攝像機(jī)獲取的幀序列-視頻的系統(tǒng)和方法。視頻挖掘?qū)τ谝曨l中發(fā)現(xiàn)有興趣的模式方面特別有用，其中例如編輯模型、新聞視頻特征或體育視頻模式等等的域和內(nèi)容的先驗?zāi)Ｐ筒蝗菀撰@取。

發(fā)明內(nèi)容
一個方法概括未知視頻內(nèi)容。首先，選擇視頻的低水平特征。然后，根據(jù)低水平特征，將視頻劃分成分段。
將分段分組成不相交(disjoint)的聚類，其中，每個聚類包含有相似的分段。根據(jù)低水平特征對聚類加標(biāo)記，并分配表征聚類的參數(shù)。
發(fā)現(xiàn)標(biāo)記中的高水平模式，并使用這些模式從視頻中提取幀，以形成未知視頻內(nèi)容的內(nèi)容自適應(yīng)摘要。

圖1是根據(jù)本發(fā)明的視頻挖掘方法100的流程圖；圖2是高爾夫視頻的時間序列圖；圖3是本發(fā)明使用的點(diǎn)跨距矩陣(point cross-distance matrix)；圖4是具有重復(fù)模式的點(diǎn)跨距矩陣；圖5是準(zhǔn)對角最小成本路徑的圖表；圖6是具有閾值角度的最小路徑的圖表。
具體實施例方式
圖1示出的是根據(jù)本發(fā)明的視頻挖掘方法100的步驟。本發(fā)明對于挖掘視頻特別有用，其中內(nèi)容中的模式不是先驗已知的，例如監(jiān)視或家庭視頻。發(fā)現(xiàn)的模式可以用于視頻的“盲(blind)”概括?！懊ぁ备爬ǖ囊馑际侵覆槐匦枰来爬ǖ囊曨l的內(nèi)容或類型。我們的方法對于例如廣播新聞、體育報道、電影放映等等經(jīng)過仔細(xì)準(zhǔn)備的視頻同樣有用。因此我們的方法允許對內(nèi)容和產(chǎn)品風(fēng)格存在不同差異的視頻進(jìn)行盲概括(blind summarization)。
我們從任意的、也許是未知內(nèi)容和產(chǎn)品風(fēng)格的視頻101開始。該視頻包含可視和音頻數(shù)據(jù)。首先我們選擇110該內(nèi)容的低級特征102，例如特征組可以由運(yùn)動活性(motion activity)、色彩、音頻、文本等等構(gòu)成，例如MPEG-7描述符?？梢杂靡粋€或多個選擇的特征102進(jìn)行挖掘，每個挖掘輪次的結(jié)果可以組合以推斷160輸入視頻101的更高級理解。我們使用所選擇的特征產(chǎn)生視頻101的時間序列200。
圖2是基于運(yùn)動活性的高爾夫比賽視頻的時間序列200的例子。圖2畫出的是高爾夫視頻中運(yùn)動活性的水平，它是時間的函數(shù)。根據(jù)幀數(shù)在x軸201標(biāo)明時間，沿y軸202標(biāo)明運(yùn)動活性，它是自前一幀以來宏塊中移動的像素的平均數(shù)。未加工(raw)的運(yùn)動活性用曲線203來表示。我們將運(yùn)動活性數(shù)據(jù)劃分為高211、中212和低213水平的運(yùn)動活性。
我們觀察后跟運(yùn)動活性陡峭上升的低運(yùn)動活性的長伸展，并且用尖峰標(biāo)記上升沿，如圖所示。這樣的尖峰對應(yīng)于擊球。直到擊球時，運(yùn)動活性通常很低。在擊球期間和緊接在擊球之后，攝像機(jī)迅速地跟隨球的運(yùn)動，因此產(chǎn)生了運(yùn)動活性的“上升沿”。
根據(jù)我們的發(fā)明，視頻101的幀序列中的運(yùn)動活性構(gòu)成時間序列。視頻幀的色彩直方圖是另一個多維時間序列。視頻中的時間序列數(shù)據(jù)也可以包含例如語義標(biāo)記(例如，MPEG-7描述符)和音頻信號的符號值。
我們的方法100基于視頻的時間序列200測量130低水平特征的相似表示，例如運(yùn)動情形中的高、中或低，居主導(dǎo)的藍(lán)、綠或褐色可以是另一種表示。我們提供了“軟”匹配，其中小的差異不會使匹配無效。如上所述，我們通過數(shù)據(jù)平滑或限定低水平特征102的閾值來做到這一點(diǎn)。如果使用了多個特征，該時間序列數(shù)據(jù)可以進(jìn)行加權(quán)處理。例如，在最終結(jié)果中，可以賦給色彩比運(yùn)動活性更大的權(quán)重。在推斷160期間低水平特征之間的聯(lián)系是松散的，因此，我們寧愿將我們的數(shù)據(jù)挖掘技術(shù)分別應(yīng)用到每個特征中，并通過融合160通過對所選擇的低水平特征102進(jìn)行視頻挖掘而分別得到的聚類數(shù)據(jù)151，推斷出更高水平的模式161。
與只尋找具有指定分辨率的相似對的現(xiàn)有技術(shù)相反，我們的匹配尋找140大時間序列(例如從視頻獲得的時間序列200)中所有時間分辨率下的所有可能匹配對。
為了在時間序列S(i)200中挖掘所有的時間模式103，我們需要具有各種尺寸w的多分辨率窗口w∶S(1∶w)，S(2∶w+1)，...，S(N-w+1∶N)。
應(yīng)當(dāng)注意的是，我們不是顯式地構(gòu)建多分辨率窗口w。相反，我們的窗口w是通過跨距矩陣300進(jìn)行隱式定義的，我們所做的是求出這些隱式定義的窗口。這使得我們能夠在所有分辨率下求出所有的匹配。下面將更詳細(xì)地描述我們的隱式窗口發(fā)現(xiàn)技術(shù)。
我們測量130時間序列數(shù)據(jù)200之間的所有點(diǎn)跨距(pointcross-distance)300，以發(fā)現(xiàn)140最小距離400，并且因此將該視頻101聚類150。問題是如何求出相似度，其中多分辨率窗口具有不同尺寸。
如圖3所示，我們使用點(diǎn)距矩陣300解決這個問題。尺寸為w的兩個窗口之間的距離301測量如下Dw(xi,xj)=Σk=0w-1(xi+k-xj+k)2.]]>于是，D1(xi，xj)＝(xi+k-xj+k)2，并且Dw(xi,xj)=Σk=0w-1D1(xi+k,xj+k)---(1)]]>圖3示出的是點(diǎn)距矩陣300的例子，其中一個窗口301是xi-xi+w，另一個窗口302是xj-xj+w。線301表示方程(1)。曲線311和312分別表示時間序列200。即，同一時間序列是沿x軸和y軸，換句話說，測量是自相關(guān)的。
點(diǎn)距矩陣300可以被搜索以得到點(diǎn)跨距較短的對角線。在圖3的表示中，按灰度級對距離進(jìn)行著色(render)，其中較短的距離比較長的距離更亮一些，因此，所有距離是0的主對角線是白的，因為測量是自相關(guān)的。
作為一個優(yōu)點(diǎn)，矩陣300不限于任何給定的窗口尺寸w。因此，可以求出具有短距離值的所有可能路徑，其中短是針對某個閾值距離值TD而言的。如果使用時間翹曲(time warping)，路徑能夠“接近”或基本斜至圖3的主對角線。
如圖4所示，我們通過使用適于我們的視頻內(nèi)容挖掘的多定標(biāo)(multi-scale)技術(shù)(例如小波)對時間序列進(jìn)行子抽樣來進(jìn)行多分辨率分析。這產(chǎn)生平滑矩陣400。我們的方法自動地在不同窗口尺寸w上進(jìn)行匹配，以揭示出時間序列中所有重復(fù)的時間模式401-402。
動態(tài)時間翹曲(DTW)用于在一定的限度內(nèi)“伸展”和“壓縮”時間，以允許具有不同時間長度的視頻的相似分段之間具有良好對準(zhǔn)。就分段來說，我們的意思是指幀序列。動態(tài)規(guī)劃可以用于求出提供最佳匹配的分段的時間翹曲。DTW求出一定約束條件(i，j)，1≤I≤N，1≤j≤M下的柵格中的最佳路徑，其中N和M是兩個分段的長度，每個柵格點(diǎn)(i，j)分別是兩個分段的第i點(diǎn)和第j點(diǎn)之間的距離。
我們使用動態(tài)規(guī)劃求出點(diǎn)跨距矩陣中的點(diǎn)對之間的最小成本路徑。希望路徑基本上對角，即基本上與主對角線310平行。此外，我們希望路徑通過矩陣中的低跨距值，其中低由某個閾值TD來定義。在圖3和4中，這些路徑是白的，或準(zhǔn)白的對角曲線分段。
最小成本的可能定義是沿該路徑的跨距值的平均值。我們也對允許的路徑提出某些約束，即路徑500保持對角方向的取向，見圖5。一種可能的約束集合是沿著路徑的每一步可以是下移一步、右移一步，或?qū)且苿右徊?，如圖所示。
此外，如圖6所示，對角線與路徑兩個端點(diǎn)間的連線之間的閾值角應(yīng)當(dāng)小于α°，其中0≤α≤45°。這樣的路徑成本準(zhǔn)則和約束可以通過動態(tài)規(guī)劃來表達(dá)，以求出點(diǎn)跨距矩陣中兩點(diǎn)之間的最小成本有效路徑。
即使不是精確對角的，那些獲得的有效路徑仍然指定時間序列中兩個相應(yīng)子序列的動態(tài)時間翹曲。因此，我們使用動態(tài)規(guī)劃求出兩個子序列之間的良好匹配的適當(dāng)時間翹曲，并且求出跨距矩陣中兩點(diǎn)之間的最小成本路徑。
動態(tài)規(guī)劃允許我們求出矩陣中兩個給定點(diǎn)之間的最小成本路徑。我們感興趣的是求出矩陣中所有可能點(diǎn)對之間的最小成本路徑，并選出成本低于給定閾值的路徑。
做到這一點(diǎn)的強(qiáng)力方式(brute force way)是針對每個可能的點(diǎn)對執(zhí)行動態(tài)規(guī)劃過程。因為跨距矩陣是對稱的，即時間序列的第i個樣本和第j個樣本之間的距離等于第j個樣本和第i個樣本之間的距離，我們只需要處理矩陣的上半部分，其中只有N2/2個點(diǎn)和N4/4個點(diǎn)對。然而，處理步驟的數(shù)量可以減少以增加我們的方法的效率。
首先，如圖6所示，我們要求對角線與通過該路徑兩端點(diǎn)間的連線之間的角度小于α°。因此，對于每個點(diǎn)，我們求出到這樣的點(diǎn)的最小成本路徑，該點(diǎn)位于與對角線603成+α601度的線和與對角線603成-α602度的線之間。而且，我們提出路徑上所有點(diǎn)應(yīng)當(dāng)具有低于閾值T的值的約束條件。在這種情形下，我們可以對整個矩陣限定閾值，并且求出只在高于閾值的點(diǎn)集之間的最小成本路徑。
在已經(jīng)求出所有這樣的點(diǎn)之間的最小路徑成本之后，我們將端點(diǎn)彼此接近的較短路徑合并成較長路徑。我們也合并其中一個是另一個的超集的路徑。我們?nèi)サ魞啥它c(diǎn)間的歐幾里得距離短于一定長度的路徑。保留的路徑集為我們提供多分辨率下視頻的所有相似子序列對。
在現(xiàn)有技術(shù)中，進(jìn)行使用動態(tài)時間翹曲(例如，使用動態(tài)規(guī)劃求出跨距矩陣中的最小成本路徑)相似以查詢較大時間序列中的給定時間序列模式，見Park等人“序列數(shù)據(jù)庫中不同長度相似子序列的有效搜索”，數(shù)據(jù)工程國際會議(ICDE)，pp.23-32，2000。
我們的技術(shù)也可以用于在語音分析環(huán)境中求出兩個序列之間的良好對準(zhǔn)，見Sakoe等人的“口語識別的動態(tài)規(guī)劃算法優(yōu)化”，IEEETrans.Acoust.，Speech，Signal Process.，ASSP 26，pp.43-49，1978，并且可用于基因和蛋白質(zhì)序列分析，見Aach等人的“使用時間翹曲算法對準(zhǔn)基因表達(dá)時間序列”，Bioinformatics，17495-508，2001。然而，那些方法只求出給定的跨距矩陣中具有給定起始點(diǎn)的一條路徑，相反，我們求出所有的路徑。
在現(xiàn)有技術(shù)中，時間序列中子序列的自相似性通常通過使用固定窗口大小w，并且算出原始序列上移動窗之間的跨距來進(jìn)行計算，見Agrawal等人“序列數(shù)據(jù)庫中的有效相似性搜索”，第四屆數(shù)據(jù)組織和算法基礎(chǔ)國際會議論文集，和“計算機(jī)科學(xué)的講義注釋”，730，SpringerVerlag，p.，69-84。
跨距矩陣的其它現(xiàn)有技術(shù)使用具有點(diǎn)圖的形式，其中矩陣元素是1或0，表明恰好匹配或沒有匹配。它們已經(jīng)被用于定量分析并作為可視工具，見Church等人的“點(diǎn)圖探測數(shù)百萬行文本和代碼的自相似性的程序”，計算和圖形學(xué)統(tǒng)計期刊，2(2)153-174，1993，或用于沿對角線分割自相似區(qū)域，但不自動求出相似子序列對，見Jeffry，“求解主題邊界的自動算法”，第32屆計算語言學(xué)學(xué)會年會論文集，1994。我們的方法可以用于任何這樣的應(yīng)用中。
哈夫(Hough)變換可以用于將多個短路徑合并成曲線。哈夫變換將矩陣400中特定形狀的特征分離出來。由于不能進(jìn)行特征的簡單分析描述，我們可使用哈夫變換。作為一個優(yōu)點(diǎn)，哈夫變換容忍特征邊界描述中的差距(gap)，并相對地不受數(shù)據(jù)中噪聲的影響。此外，哈夫變換對于發(fā)現(xiàn)特征的全局描述特別有用，其中解類別的數(shù)量不是先驗已知的，正如這里的情形那樣。
我們使用Hough變換的動機(jī)在于每個輸入距離特征指示出它對全局一致性模式的貢獻(xiàn)。我們通過將特征空間量化為有限區(qū)間或累加器單元來實現(xiàn)Hough變換，其中隨著這條路徑上的累加器單元的遞加，累加器單元顯示出離散化的路徑。累加器陣列的結(jié)果峰強(qiáng)有力地表示出特征空間中存在相應(yīng)路徑的證據(jù)。我們使用Hough變換識別出最佳擬合一組給定的邊的路徑。
當(dāng)然，應(yīng)當(dāng)理解的是，可以利用使用時間序列的自相關(guān)性尋找匹配分段的其它技術(shù)。例如，可以使用點(diǎn)積(dot product)的技術(shù)。在這種情形中，該積的大小表明相似程度。對于例如連續(xù)幀的色彩直方圖的多維時間序列，可以使用直方圖交會法(histogram intersection)。
使用DTW求出匹配窗口之后，我們將相似分段分組并標(biāo)記150成聚類151。對于分段，我們的意思是指視頻中直接對應(yīng)于具有相似特征的窗口的幀序列。因此，使用時間序列數(shù)據(jù)對相似分段的識別基本上允許我們將該視頻進(jìn)行劃分并將相似的分段分組成聚類。
我們同等使用術(shù)語“標(biāo)記”和“項”，如上述針對關(guān)聯(lián)所定義的那樣。當(dāng)我們稱之為聚類時，我們的意思是指聚類經(jīng)過了標(biāo)記，例如，高運(yùn)動活性的幀的聚類，或視頻聲道中噪聲很大的聚類。通過使用利用不同特征所獲得的關(guān)聯(lián)和標(biāo)記152的融合，允許我們推斷160聚類151中的高水平模式。因此這些模式可以用于將視頻101盲概括170成摘要171。概括基本上按照高水平模式161提取視頻中所選取的幀。
在步驟160中，我們求出聚類的標(biāo)記之間的關(guān)聯(lián)。一種類型的關(guān)聯(lián)是尋找時間相關(guān)的“標(biāo)記”。相關(guān)性可以是同時的，也可以是時間偏移的，例如許多運(yùn)動和大噪聲表明在娛樂視頻中的“動作”事件，或許多之后接著鼓掌歡迎和歡呼的運(yùn)動表明在體育視頻中的“得分”事件。
我們發(fā)現(xiàn)標(biāo)記之間的關(guān)聯(lián)如下。每個聚類的標(biāo)記被認(rèn)為等價于上述的“項”。因此，我們產(chǎn)生含有標(biāo)記Li的出現(xiàn)的條件和含有標(biāo)記Lj的出現(xiàn)的結(jié)果。在這種情形下，時間軸上的每個點(diǎn)具有相應(yīng)的事務(wù)，它含有與多于一個視頻特征102相對應(yīng)的標(biāo)記。
例如，我們能夠擁有兩組標(biāo)記，第一組與高、中、低的運(yùn)動活性的描述相對應(yīng)，第二組與音頻語義類別有關(guān)，其中標(biāo)記將表明例如觀眾掌聲、歡呼聲、音樂等等的音頻類別中的成員關(guān)系。于是，我們能夠發(fā)現(xiàn)在體育視頻中高運(yùn)動活性和觀眾掌聲/歡呼聲之間的關(guān)聯(lián)。應(yīng)當(dāng)注意的是，即使使用了更復(fù)雜的標(biāo)記，仍然能夠通過直接計算求出這種關(guān)聯(lián)。也可求出標(biāo)記組合之間的復(fù)合關(guān)聯(lián)。
因此，強(qiáng)關(guān)聯(lián)可以幫助我們發(fā)現(xiàn)視頻101中相應(yīng)的常見和非常見模式，因為模式越常見，支持度就越高。
因此，視頻101的摘要171含有常見和非常見事件的組合，這取決于用戶的需要。在一個極端的例子中，摘要171含有具有強(qiáng)關(guān)聯(lián)的稀有事件。在另一個極端的例子中，摘要含有具有強(qiáng)關(guān)聯(lián)的常見事件。
因此，聚類150通過基于上述的距離度量將所有相似分段聚類來開始。對部分重疊的分段進(jìn)行劃分，使得它們或者具有同樣的重疊，或者完全不重疊。聚類對可以使用凝聚過程進(jìn)行合并以形成更大的聚類。我們定義集合S含有至少一個相似聚類對中的所有分段。于是，集合SC∪S是整個視頻101，集合SC是集合S的補(bǔ)集。對聚類進(jìn)行標(biāo)記，例如A，B，C，...，且A∪B∪C...＝S。集合SC可以被認(rèn)為是“廢棄”的聚類，即對于A、B和C等等不是“有意義的”。
因此，聚類150產(chǎn)生各種長度和各種相互距離的非重疊分段的集合S。每個聚類151具有下列相關(guān)參數(shù)聚類的緊密性，即聚類中分段的相似程度；聚類中分段的數(shù)目；聚類中分段的總長度(幀或時間)；分段的最接近點(diǎn)之間的平均距離(表明整個視頻中分段的散布)。
聚類中每個分段具有下列參數(shù)到其它聚類中心的平均距離，它表明分段在包含其的聚類中的代表性；及其長度(幀或時間)。
因此，概括成本函數(shù)C172可以在所需要的摘要長度，待包含在摘要171中的所選分段的集合R的總長度，(即，RS)，S中每個分段和R中最靠近分段之間的平均距離之間折衷一個絕對差。這表明集合R(概括171)表示集合S的適合程度，當(dāng)然集合S是整個視頻101。我們可以增加一個項以在時間上支持R的緊密性，或者相反。因此摘要171是集合S的子集R，其使成本函數(shù)172最小化。
于是摘要可以用于例如“智能”快進(jìn)和倒退的視頻控制的新特征，以及在面臨沒有任何先驗域知識時進(jìn)行的即刻重新定位。
應(yīng)當(dāng)明白，可以在本發(fā)明的宗旨和范圍內(nèi)對其進(jìn)行各種其它的調(diào)整和修正。因此，附加的權(quán)利要求的目的是涵蓋本發(fā)明的真正宗旨和范圍內(nèi)的所有這樣的變化和修正。
權(quán)利要求
1.一種用于概括未知視頻內(nèi)容的方法，包括步驟選擇視頻的低水平特征；根據(jù)低水平特征將視頻劃分成分段；將分段分組成多個不相交的聚類，每個聚類包含相似的分段；根據(jù)低水平特征標(biāo)記多個聚類；發(fā)現(xiàn)標(biāo)記中的高水平模式；和根據(jù)高水平模式從視頻中提取幀，以形成未知視頻內(nèi)容的內(nèi)容自適應(yīng)摘要。
2.根據(jù)權(quán)利要求1的方法，其中，摘要是基于常見和不常見模式的組合。
3.根據(jù)權(quán)利要求1的方法，其中，視頻內(nèi)容的制作風(fēng)格是未知的。
4.根據(jù)權(quán)利要求1的方法，其中，視頻包括可視和音頻數(shù)據(jù)。
5.根據(jù)權(quán)利要求1的方法，其中，從包括運(yùn)動活性，顏色，文本，音頻，語義描述符及其組合的組中選擇低水平特征。
6.根據(jù)權(quán)利要求1的方法，還包括步驟基于視頻的選定低水平特征由視頻產(chǎn)生時間序列數(shù)據(jù)；和對時間序列數(shù)據(jù)進(jìn)行自相關(guān)以確定相似分段。
7.根據(jù)權(quán)利要求6的方法，還包括步驟平滑時間序列數(shù)據(jù)。
8.根據(jù)權(quán)利要求6的方法，還包括步驟對時間序列數(shù)據(jù)加權(quán)。
9.根據(jù)權(quán)利要求1的方法，還包括步驟通過關(guān)聯(lián)，將多個聚類相關(guān)聯(lián)，以推斷出高水平模式。
10.根據(jù)權(quán)利要求1的方法，其中，以多個時間分辨率發(fā)現(xiàn)所有相似分段。
11.根據(jù)權(quán)利要求6的方法，還包括步驟對點(diǎn)跨距矩陣中的時間序列數(shù)據(jù)進(jìn)行自相關(guān)，以測量表示分段相似性的點(diǎn)跨距。
12.根據(jù)權(quán)利要求11的方法，其中，通過點(diǎn)跨距矩陣中基本上對角的線來表示點(diǎn)跨距。
13.根據(jù)權(quán)利要求6的方法，還包括步驟對時間序列數(shù)據(jù)進(jìn)行時間翹曲以發(fā)現(xiàn)相似分段。
14.根據(jù)權(quán)利要求13的方法，其中，通過動態(tài)規(guī)劃執(zhí)行時間翹曲。
15.根據(jù)權(quán)利要求1的方法，還包括步驟在時間上對標(biāo)記進(jìn)行相關(guān)。
16.根據(jù)權(quán)利要求15的方法，其中，時間相關(guān)是同時的。
17.根據(jù)權(quán)利要求1的方法，還包括步驟生成標(biāo)記出現(xiàn)的條件和結(jié)果，以發(fā)現(xiàn)高水平模式。
18.根據(jù)權(quán)利要求9的方法，其中，強(qiáng)關(guān)聯(lián)與常見和不常見模式相對應(yīng)。
19.根據(jù)權(quán)利要求1的方法，其中，分組還包括步驟將重疊的分段進(jìn)行劃分，以使重疊分段具有相同的重疊或沒有重疊。
20.根據(jù)權(quán)利要求1的方法，還包括步驟為每個聚類分配參數(shù)，聚類參數(shù)包括聚類緊密度，聚類中分段的數(shù)量，按幀測量的聚類中分段的總長度，和分段的最接近點(diǎn)之間的平均距離，用于表示視頻中分段的散布。
21.根據(jù)權(quán)利要求1的方法，還包括步驟估計成本函數(shù)，以確定所需的摘要長度。
全文摘要
一個方法概括未知視頻內(nèi)容。首先，選擇視頻的低水平特征。然后，根據(jù)低水平特征將視頻劃分成分段。將分段分組成不相交的聚類，其中，每個聚類包含有相似的分段。根據(jù)低水平特征對聚類加標(biāo)記，并指派表征聚類的參數(shù)。發(fā)現(xiàn)標(biāo)記中的高水平模式，并使用這些模式從視頻中提取幀，從而形成未知視頻內(nèi)容的內(nèi)容自適應(yīng)摘要。
文檔編號G06F17/30GK1685344SQ20038010007
公開日2005年10月19日申請日期2003年10月15日優(yōu)先權(quán)日2002年11月1日
發(fā)明者阿賈伊·迪瓦卡瑞恩, 卡迪爾·A·佩凱爾申請人:三菱電機(jī)株式會社

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：阿賈伊·迪瓦卡瑞恩、卡迪爾·A·佩凱爾
技術(shù)所有人：三菱電機(jī)株式會社
我是此專利的發(fā)明人

上一篇：用于挖掘視頻內(nèi)容的方法
上一篇：用于確定移動數(shù)據(jù)載體能量存儲器的能量狀態(tài)的裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

用于概括未知視頻內(nèi)容的方法