两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

產(chǎn)生合成關(guān)鍵幀的方法和使用該方法的視頻瀏覽系統(tǒng)的制作方法

文檔序號:6654843閱讀:713來源:國知局
專利名稱:產(chǎn)生合成關(guān)鍵幀的方法和使用該方法的視頻瀏覽系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及基于內(nèi)容的多媒體搜索系統(tǒng),具體涉及能夠在具有固定尺寸的屏幕上顯示大量信息的合成關(guān)鍵幀產(chǎn)生方法和使用該方法的視頻瀏覽系統(tǒng)。
隨著近年來圖像/視頻處理技術(shù)的發(fā)展,用戶可以在所希望的時間搜索/過濾和瀏覽所希望視頻內(nèi)容(或運(yùn)動圖像,例如電影,戲劇,記錄片節(jié)目等)的所希望部分。
用于非線性視頻瀏覽或搜索的基本技術(shù)包括鏡頭分段(shotsegmentation)和鏡頭群集(shot clustering)。這些技術(shù)用于分析和搜索或?yàn)g覽多媒體內(nèi)容。
在圖像/視頻處理技術(shù)中,鏡頭(shot)是由一個攝像機(jī)在不間斷情況下所獲得的一個視頻幀序列,鏡頭是用于構(gòu)建和分析一個視頻的基本單位。場景(scene)是視頻中一個有意義的組成單元,即,是故事發(fā)展中的一個重要單元。一個場景包括多個鏡頭。
同時,視頻索引系統(tǒng)利用鏡頭分段引擎和鏡頭群集引擎在結(jié)構(gòu)上分析視頻內(nèi)容并檢測鏡頭和場景。視頻索引系統(tǒng)還根據(jù)所檢測的鏡頭和場景提取能夠代表一個分段的關(guān)鍵幀或關(guān)鍵區(qū),并提供用于概括該視頻流或直接移動到該視頻流中所希望位置的工具。


圖1顯示一般視頻流的結(jié)構(gòu)信息。參見圖1,一個視頻流由一系列場景構(gòu)成,場景是與視頻類型無關(guān)的邏輯故事單位,每個場景包括多個子場景或鏡頭,每個鏡頭包括一系列的幀。
大多數(shù)視頻索引系統(tǒng)從視頻流提取鏡頭并根據(jù)所提取的鏡頭檢測場景,從而索引該視頻流的結(jié)構(gòu)信息。即,視頻索引系統(tǒng)提取關(guān)鍵幀(為了很好地代表一個單位分段而從視頻流提取的視頻幀)或關(guān)鍵區(qū),和索引數(shù)據(jù),以用于概括/搜索/瀏覽視頻內(nèi)容。
圖2顯示根據(jù)現(xiàn)有技術(shù)在新聞內(nèi)容中錨定幀(anchor frame)與關(guān)鍵區(qū)之間的關(guān)系。錨定幀F(xiàn)-an中的新聞圖標(biāo)由用于概括一個新聞分段的一個圖像或多個字符構(gòu)成,代表錨定鏡頭(anchor shot)或相應(yīng)新聞文章的內(nèi)容。當(dāng)選擇該新聞圖標(biāo)作為關(guān)鍵區(qū)Reg-k時,它成為代表該相應(yīng)分段的單元。即,關(guān)鍵區(qū)Reg-k意味著一個能夠簡明地代表特定分段的內(nèi)容(例如文本,人物面孔,新聞圖標(biāo))的區(qū)域。
圖3顯示一個常規(guī)的非線性視頻瀏覽界面,其包括視頻重放窗口V-VD;關(guān)鍵幀窗口V-Fk,其一維地顯示代表每個鏡頭或每個場景的關(guān)鍵幀;樹形內(nèi)容表(TOC)窗口V-TOC,用于向用戶直接提供視頻流的結(jié)構(gòu)信息。此處,樹形TOC的每個節(jié)點(diǎn)(ND)是代表低層樹中所包含內(nèi)容的鏡頭和場景,并且其表示一個關(guān)鍵幀。因此,該界面允許用戶能夠輕松地移動到一個視頻的所希望部分或選擇和瀏覽該視頻流中的所希望部分,而無需觀看全部內(nèi)容。
但是,上述常規(guī)視頻瀏覽系統(tǒng)利用關(guān)鍵幀或關(guān)鍵區(qū)來代表部分序列以便檢索/概括/瀏覽視頻,因而具有以下問題。
1)該常規(guī)系統(tǒng)無法在具有固定尺寸的屏幕上顯示較大量信息。在非線性視頻瀏覽系統(tǒng)和通用多媒體訪問應(yīng)用(UMA)中使用的常規(guī)關(guān)鍵幀和關(guān)鍵區(qū)被用作一種手段,以通過圖像向用戶傳送視頻流的概括內(nèi)容。但是,基于在具有固定尺寸的屏幕上顯示的少量關(guān)鍵幀或關(guān)鍵區(qū),用戶無法了解視頻流的全部內(nèi)容。一個鏡頭包括顯示時間為幾秒到幾十秒的視頻幀,一個場景由多個鏡頭構(gòu)成,盡管這取決于視頻中包含的節(jié)目的類型或特性。在一個鏡頭較長或變化很大的情況下,不適于用一個關(guān)鍵幀代表這個鏡頭。因此,應(yīng)該為一個鏡頭或場景設(shè)置多個關(guān)鍵幀。
此外,對于無法一次在具有固定尺寸的屏幕上顯示很多關(guān)鍵幀的電視機(jī)或便攜式終端,在向其提供較大量的關(guān)鍵幀以便代表鏡頭和/或場景的全部內(nèi)容的情況下,因?yàn)橛脩舨坏貌粸g覽這么多的關(guān)鍵幀,因此必須多次操作他/她的輸入裝置??梢詼p少關(guān)鍵幀的數(shù)量來解決這個問題。但是,如上所述,在此情況下,少量的關(guān)鍵幀無法代表視頻流的內(nèi)容。因此,需要一種能夠在具有固定尺寸的屏幕上顯示大量信息的高效用戶界面。
2)很難將一個包括多個鏡頭或子場景的場景的內(nèi)容選擇作為一個關(guān)鍵幀。即,通常難以選擇一個簡明地代表了一個場景的內(nèi)容的關(guān)鍵幀。
因此,需要一種概括具有分層結(jié)構(gòu)(hierarchical structure)的視頻流的新方法,以允許上層結(jié)構(gòu)的關(guān)鍵幀很好地反映下層結(jié)構(gòu)中包含的內(nèi)容。
因此,本發(fā)明的一個目的是提供一種產(chǎn)生合成關(guān)鍵幀的方法,能夠在具有固定尺寸的屏幕上代表很多信息。
本發(fā)明的另一個目的是提供一種描述通過組合關(guān)鍵幀或關(guān)鍵區(qū)邏輯地或物理地形成的合成關(guān)鍵幀的方法。
本發(fā)明的另一個目的是提供一種利用合成關(guān)鍵幀分層地概括視頻的方法。
本發(fā)明的另一個目的是提供一種利用合成關(guān)鍵幀的視頻瀏覽界面。
本發(fā)明的另一個目的是提供一種利用合成關(guān)鍵幀的非線性視頻瀏覽方法。
本發(fā)明的另一個目的是提供一種利用合成關(guān)鍵幀的數(shù)據(jù)管理方法。
為了實(shí)現(xiàn)本發(fā)明的目的,提供一種產(chǎn)生合成關(guān)鍵幀的方法,包括以下步驟從第一源接收一視頻流,并將其劃分成有意義的區(qū)段(section);選擇代表一所劃分區(qū)段的一個或多個關(guān)鍵幀或關(guān)鍵區(qū);組合所選擇的關(guān)鍵幀或關(guān)鍵區(qū)以產(chǎn)生一個合成關(guān)鍵幀。
為了實(shí)現(xiàn)本發(fā)明的目的,提供一種描述合成關(guān)鍵幀數(shù)據(jù)的方法,包括以下步驟將視頻流劃分成有意義的區(qū)段,并將代表每個區(qū)段內(nèi)容的關(guān)鍵幀或關(guān)鍵區(qū)合成為一個圖像,以產(chǎn)生一合成關(guān)鍵幀;描述該合成關(guān)鍵幀的組成單元中包含的關(guān)鍵幀/關(guān)鍵區(qū)的列表。
為了實(shí)現(xiàn)本發(fā)明的目的,還提供一種描述合成關(guān)鍵幀數(shù)據(jù)的方法,包括以下步驟將視頻流劃分成有意義的區(qū)段,并將代表每個區(qū)段內(nèi)容的關(guān)鍵幀或關(guān)鍵區(qū)合成為一個圖像,以產(chǎn)生一合成關(guān)鍵幀;產(chǎn)生該合成關(guān)鍵幀的組成單元中包含的關(guān)鍵幀或關(guān)鍵區(qū),或關(guān)鍵幀和關(guān)鍵區(qū)的組合,并物理地存儲該組合以描述該合成關(guān)鍵幀。
為了實(shí)現(xiàn)本發(fā)明的目的,提供一種利用合成關(guān)鍵幀的分層視頻概括方法,包括以下步驟將視頻流劃分成有意義的區(qū)段,并將代表每個區(qū)段內(nèi)容的關(guān)鍵幀或關(guān)鍵區(qū)合成為一個圖像以產(chǎn)生一合成關(guān)鍵幀;將該合成關(guān)鍵幀分配給一關(guān)鍵圖像定位器(1ocator),一用于描述低層概括結(jié)構(gòu)的分層概括列表,和該視頻流的結(jié)構(gòu)信息。
為了實(shí)現(xiàn)本發(fā)明的目的,提供一種用于提供視頻瀏覽界面的方法,包括以下步驟將視頻流劃分成有意義的區(qū)段,并將代表每個區(qū)段內(nèi)容的關(guān)鍵幀或關(guān)鍵區(qū)合成為一個圖像,以產(chǎn)生一合成關(guān)鍵幀;將一用戶界面提供給一預(yù)定顯示器以瀏覽與所產(chǎn)生的合成關(guān)鍵幀有關(guān)的視頻。
為了實(shí)現(xiàn)本發(fā)明的目的,還提供一種非線性視頻瀏覽方法,包括以下步驟將視頻流劃分成有意義的區(qū)段,并將代表每個區(qū)段內(nèi)容的關(guān)鍵幀或關(guān)鍵區(qū)合成為一個圖像以產(chǎn)生一關(guān)鍵幀;將一用戶界面提供給一預(yù)定顯示器以瀏覽與所產(chǎn)生的合成關(guān)鍵幀有關(guān)的視頻;根據(jù)用戶的輸入選擇該合成關(guān)鍵幀;重放由所選擇的合成關(guān)鍵幀代表的分段。
通過以下參照附圖的詳細(xì)說明,可以對本發(fā)明及其附帶的優(yōu)點(diǎn)有更好的理解,在附圖中相同符號表示相同的或相似的單元,其中圖1顯示一般視頻流的結(jié)構(gòu)信息;圖2顯示現(xiàn)有技術(shù)中一錨定幀與一新聞圖標(biāo)之間的關(guān)系;圖3顯示常規(guī)的非線性視頻瀏覽界面;圖4A和4B是用于解釋根據(jù)本發(fā)明的合成關(guān)鍵幀概念的示意圖;圖5A顯示根據(jù)本發(fā)明的分段定位器的描述結(jié)構(gòu);圖5B顯示根據(jù)本發(fā)明的圖像定位器的描述結(jié)構(gòu);圖6顯示根據(jù)本發(fā)明的關(guān)鍵幀定位器的描述結(jié)構(gòu);圖7顯示根據(jù)本發(fā)明的關(guān)鍵區(qū)定位器的描述結(jié)構(gòu);圖8顯示根據(jù)本發(fā)明的合成關(guān)鍵幀信息的描述結(jié)構(gòu);圖9顯示根據(jù)本發(fā)明的合成關(guān)鍵幀的組成單元的布置形式的描述結(jié)構(gòu);圖10顯示根據(jù)本發(fā)明的新聞視頻的結(jié)構(gòu);圖11顯示根據(jù)本發(fā)明的新聞標(biāo)題的合成關(guān)鍵幀;圖12A和12B顯示根據(jù)本發(fā)明的詳細(xì)新聞區(qū)段的合成關(guān)鍵幀;圖13A和13B顯示根據(jù)本發(fā)明的從足球比賽視頻產(chǎn)生的合成關(guān)鍵幀;圖14顯示根據(jù)本發(fā)明的視頻的結(jié)構(gòu)信息和分層合成關(guān)鍵幀;
圖15顯示根據(jù)本發(fā)明的用于分層視頻流概括的分層圖像概括單元的描述結(jié)構(gòu);圖16顯示根據(jù)本發(fā)明的利用合成關(guān)鍵幀的視頻瀏覽界面;圖17顯示將根據(jù)本發(fā)明的合成關(guān)鍵幀應(yīng)用到UMA的例子;圖18是顯示利用被應(yīng)用于UMA的根據(jù)本發(fā)明的合成關(guān)鍵幀進(jìn)行信息通信的方法的流程圖例子。
下面將參照附圖中顯示的例子對本發(fā)明的優(yōu)選實(shí)施例進(jìn)行詳細(xì)說明。
圖4A和4B是用于解釋根據(jù)本發(fā)明的合成關(guān)鍵幀概念的示意圖。參見圖4A,在將視頻流劃分成預(yù)定數(shù)目的分段Sgt1,Sgt2,…,Sgti,Sgti+1時,通過組合來自幀F(xiàn)l,Fm,Fn的關(guān)鍵幀或關(guān)鍵區(qū)Reg-k產(chǎn)生根據(jù)本發(fā)明的合成關(guān)鍵幀,其中這些幀是在一個分段Sgti內(nèi)的預(yù)定時間點(diǎn)tl,tm,tn提取的。參見圖4B,在將視頻流劃分成預(yù)定數(shù)目的分段Sgt1,Sgt2,…,Sgtj,Sgtj+1時,通過組合來自幀F(xiàn)o,Fp,Fq,Fr和從外部源提供的外部幀F(xiàn)ext的關(guān)鍵幀或關(guān)鍵區(qū)Reg-k產(chǎn)生本發(fā)明的合成關(guān)鍵幀,其中這些幀F(xiàn)o,Fp,Fq,Fr是在一個分段Sgtj+1內(nèi)的預(yù)定時間點(diǎn)to,tp,tq,tr提取的。
與現(xiàn)有技術(shù)中的關(guān)鍵幀不同,本發(fā)明的合成關(guān)鍵幀不是已經(jīng)在視頻流中物理地產(chǎn)生的幀,因?yàn)闉榱吮硎疽曨l流中的一特定分段,該合成關(guān)鍵幀是通過組合具有有意義信息的區(qū)域或關(guān)鍵幀來產(chǎn)生的。
圖5A和5B分別顯示根據(jù)本發(fā)明的分段定位器和圖像定位器的描述結(jié)構(gòu)。參見圖5A,用于指定視頻流中的分段的分段定位器包括分段ID,媒體URL或用于指定視聽分段的實(shí)際分段數(shù)據(jù),以及諸如分段開始/結(jié)束時間或長度等的分段時間信息,分段注釋的描述信息,和相關(guān)分段列表。
此處,相關(guān)分段列表用于代表各分段之間的概要/詳細(xì)內(nèi)容、原因/結(jié)果關(guān)系的描述,并且該列表的組成部分包括各種變量,例如分段定位器或用于引用分段定位器的標(biāo)識符。
參見圖5B,用于指定圖像的圖像定位器包括固有ID,圖像URL,或用于指定圖像的圖像數(shù)據(jù)。圖像定位器可以具有這樣一種結(jié)構(gòu),該結(jié)構(gòu)能夠描述諸如與圖像相關(guān)的分段列表和注釋這樣的信息。
圖6顯示根據(jù)本發(fā)明的關(guān)鍵幀定位器的描述結(jié)構(gòu)。如圖6所示,關(guān)鍵幀定位器包括圖像定位器;以及一代表性分段定位器,用于指示哪個分段是由相應(yīng)關(guān)鍵幀代表的;逼真度值(fidelity value),用于指示由關(guān)鍵幀代表相應(yīng)分段時的忠實(shí)程度。
圖7顯示根據(jù)本發(fā)明的關(guān)鍵區(qū)定位器的描述結(jié)構(gòu),其是一個邏輯或物理的關(guān)鍵區(qū)描述結(jié)構(gòu)。
邏輯關(guān)鍵區(qū)描述結(jié)構(gòu)包括ID,圖像定位器,與圖像定位器指定的圖像的關(guān)鍵區(qū)相應(yīng)的區(qū)域信息(region area information)。它還包括代表性分段定位器,用于指示哪個分段是由相應(yīng)關(guān)鍵區(qū)代表的;逼真度值,用于指示由關(guān)鍵區(qū)代表相應(yīng)分段時的忠實(shí)程度;用于其它注釋的描述信息;相關(guān)分段列表,用于指定與關(guān)鍵區(qū)相關(guān)的分段。該邏輯關(guān)鍵區(qū)描述結(jié)構(gòu)利用元數(shù)據(jù)(metadata)描述關(guān)鍵區(qū)。
物理關(guān)鍵區(qū)描述結(jié)構(gòu)包括固有ID;區(qū)域數(shù)據(jù);代表性分段定位器,用于指示哪個分段是由相應(yīng)關(guān)鍵區(qū)代表的(如果需要);逼真度值;描述;相關(guān)分段列表。對于利用根據(jù)本發(fā)明的合成關(guān)鍵幀的視頻瀏覽界面,必須已經(jīng)物理地產(chǎn)生了合成關(guān)鍵幀或者必須在針對視頻流的基于內(nèi)容的數(shù)據(jù)區(qū)中邏輯地描述該合成關(guān)鍵幀。
圖8顯示根據(jù)本發(fā)明的合成關(guān)鍵幀信息的描述結(jié)構(gòu),其具有邏輯描述結(jié)構(gòu)和物理描述結(jié)構(gòu)。
如圖8所示,邏輯合成關(guān)鍵幀描述結(jié)構(gòu)包括各種變量,例如ID;代表性分段定位器,用于指定由合成關(guān)鍵幀代表的分段;作為該合成關(guān)鍵幀的組成單元的關(guān)鍵幀列表和關(guān)鍵區(qū)列表;逼真度,用于指示由合成關(guān)鍵幀代表該分段時的忠實(shí)程度;布置信息,用于指示該合成關(guān)鍵幀的組成單元的布置狀態(tài)。
物理合成關(guān)鍵幀描述結(jié)構(gòu)包括各種變量,例如ID;圖像定位器,用于指定實(shí)際合成關(guān)鍵幀;代表性分段定位器,用于指定由合成關(guān)鍵幀代表的分段;逼真度,用于指示由合成關(guān)鍵幀代表該分段時的忠實(shí)程度;與合成關(guān)鍵幀相關(guān)的關(guān)鍵區(qū)列表;布置信息,用于指示該合成關(guān)鍵幀的組成單元的布置狀態(tài)。
此處,如圖8所示,構(gòu)建關(guān)鍵幀列表的關(guān)鍵幀單元包括關(guān)鍵幀定位器,用于指定一相應(yīng)關(guān)鍵幀;逼真度,用于指示該相應(yīng)關(guān)鍵幀在合成關(guān)鍵幀結(jié)構(gòu)中代表的有意義信息的重要程度。此外,構(gòu)建關(guān)鍵區(qū)列表的關(guān)鍵區(qū)單元包括關(guān)鍵區(qū)定位器,用于指定一相應(yīng)關(guān)鍵區(qū);逼真度信息,用于指示該相應(yīng)關(guān)鍵區(qū)在合成關(guān)鍵幀結(jié)構(gòu)中代表的有意義信息的重要程度??梢宰詣踊蚴謩犹崛”普娑?。關(guān)于以下信息獲得自動提取的逼真度,例如關(guān)鍵區(qū)的持續(xù)時間、對象、音頻等的大小,和這些信息項(xiàng)的匹配級。
圖9顯示根據(jù)本發(fā)明的合成關(guān)鍵幀的組成單元的布置信息的描述結(jié)構(gòu)。該描述結(jié)構(gòu)由一種標(biāo)記語言(markup language)(例如HTML和XML)表示。因?yàn)楹铣申P(guān)鍵幀的組成單元可以被布置為重疊的,該布置描述結(jié)構(gòu)包括關(guān)于第一層(層=0)、第二層(層=1)等等的層信息;關(guān)于每個層中包含的關(guān)鍵幀或關(guān)鍵區(qū)在屏幕上顯示或?qū)⒁@示的位置的信息。
下面將說明把根據(jù)本發(fā)明的合成關(guān)鍵幀結(jié)構(gòu)和合成關(guān)鍵幀產(chǎn)生方法應(yīng)用于一廣播節(jié)目的例子。A)從新聞視頻產(chǎn)生的合成關(guān)鍵幀圖10顯示根據(jù)本發(fā)明的新聞視頻的結(jié)構(gòu)。該新聞視頻一般地由以下區(qū)段構(gòu)成標(biāo)題新聞區(qū)段NS-HL,詳細(xì)新聞區(qū)段NS-DT,概括新聞區(qū)段和天氣/體育區(qū)段。還可以加入商業(yè)廣告區(qū)段。每個區(qū)段進(jìn)一步包括子區(qū)段。區(qū)段對應(yīng)于視頻流結(jié)構(gòu)中的一個場景。例如,標(biāo)題新聞區(qū)段NS-HL可以被劃分成標(biāo)題項(xiàng)HL-it,詳細(xì)新聞區(qū)段NS-DT可以被分類為新聞項(xiàng)DT-it。此處,這些項(xiàng)可以由關(guān)鍵幀形成。每個新聞項(xiàng)DT-it基本上被劃分成錨定場景(anchor scene)Scn-an和片段場景(episode scene)Scn-ep。
圖11顯示根據(jù)本發(fā)明產(chǎn)生標(biāo)題新聞區(qū)段NS-HL的合成關(guān)鍵幀的過程的例子。
標(biāo)題新聞區(qū)段NS-HL由五個標(biāo)題項(xiàng)HL-it構(gòu)成。這些標(biāo)題項(xiàng)由23個鏡頭構(gòu)成,運(yùn)行時間大約是59秒。利用分別在時間點(diǎn)t1,t2,t3,t4和t5提取的關(guān)鍵幀F(xiàn)1,F2,F3,F4和F5概括五個標(biāo)題項(xiàng)。因此,根據(jù)本發(fā)明的一個合成關(guān)鍵幀F(xiàn)sk是以如下方式產(chǎn)生的從所要組合的關(guān)鍵幀F(xiàn)1,F2,F3,F4和F5提取由文本構(gòu)成的關(guān)鍵區(qū)Reg1,Reg2,Reg3,Reg4和Reg5。該合成關(guān)鍵幀可以在具有固定尺寸的屏幕上一次顯示標(biāo)題新聞區(qū)段NS-HL的全部內(nèi)容。
反之,常規(guī)視頻索引系統(tǒng)必須選擇代表該標(biāo)題新聞區(qū)段的幾個關(guān)鍵幀,例如,因?yàn)樗鼘⒅辽僖粋€關(guān)鍵幀分配給單個鏡頭或場景。此外,其無法在屏幕上一次顯示標(biāo)題區(qū)段的全部內(nèi)容。
圖12A和12B顯示根據(jù)本發(fā)明的詳細(xì)新聞區(qū)段的合成關(guān)鍵幀。圖12A表示從一個由21個鏡頭構(gòu)成的54秒長的新聞項(xiàng)NS-it形成的合成關(guān)鍵幀F(xiàn)sk,圖12B表示從一個由21個鏡頭構(gòu)成的107秒長的新聞項(xiàng)NS-it提取的合成關(guān)鍵幀F(xiàn)sk。即,可以不同地形成對應(yīng)于一個新聞節(jié)目的新聞項(xiàng)的合成關(guān)鍵幀。當(dāng)合成關(guān)鍵幀被布置或分配到TOC界面中的相應(yīng)節(jié)點(diǎn)時,TOC界面的下層結(jié)構(gòu)的內(nèi)容可以被一次顯示。反之,常規(guī)視頻索引系統(tǒng)必須提取用于單個新聞項(xiàng)的大量關(guān)鍵幀,其無法在屏幕上同時顯示這些關(guān)鍵幀。B)從體育視頻產(chǎn)生的合成關(guān)鍵幀除了新聞以外,還需要根據(jù)體育新聞中基于分段的概括來概括視頻流。例如,足球視頻流由大量視頻幀構(gòu)成,因此運(yùn)行時間很長。因此,為了概括足球視頻流,應(yīng)該由大量關(guān)鍵幀來代表一個鏡頭,并且一個關(guān)鍵幀難以代表一個由多個鏡頭構(gòu)成的場景。
圖13A和13B顯示根據(jù)本發(fā)明從足球比賽視頻產(chǎn)生的合成關(guān)鍵幀。
圖13A表示從一個由9個鏡頭構(gòu)成的運(yùn)行時間是65秒的場景產(chǎn)生的合成關(guān)鍵幀F(xiàn)sk,圖13B表示從一個由9個鏡頭構(gòu)成的運(yùn)行時間是53秒的場景產(chǎn)生的合成關(guān)鍵幀F(xiàn)sk。
雖然一個場景中包含的各個鏡頭具有不同的內(nèi)容,根據(jù)本發(fā)明的合成關(guān)鍵幀F(xiàn)sk可以給出一個組合了代表該場景全部內(nèi)容的關(guān)鍵幀或關(guān)鍵區(qū)的圖像,而不選擇代表一個場景的一個關(guān)鍵幀。因此,該合成關(guān)鍵幀F(xiàn)sk可以概括該場景的全部內(nèi)容。
可以利用娛樂、記錄片、現(xiàn)場訪談、教育、廣告和家庭購物節(jié)目以及參考圖11,12A,12B,13A和13B說明的新聞和體育視頻節(jié)目的關(guān)鍵幀或關(guān)鍵區(qū)來產(chǎn)生本發(fā)明的合成關(guān)鍵幀。
同時,如果描述了合成關(guān)鍵幀的組成單元(例如關(guān)鍵區(qū)或關(guān)鍵幀)的布置信息,用戶不僅能夠利用該合成關(guān)鍵幀瀏覽相應(yīng)視頻,而且能夠利用這些組成單元進(jìn)行非線性視頻瀏覽。例如,由于通過組合從標(biāo)題新聞區(qū)段提取的關(guān)鍵幀的關(guān)鍵區(qū)Reg1,Reg2,Reg3,Reg4,Reg5來產(chǎn)生圖11中顯示的合成關(guān)鍵幀,用戶選擇該合成關(guān)鍵幀的一個關(guān)鍵區(qū)(例如Reg1),使得他/她可以瀏覽對應(yīng)于所選擇關(guān)鍵區(qū)的標(biāo)題新聞項(xiàng)或詳細(xì)新聞項(xiàng)。
圖14顯示根據(jù)本發(fā)明的視頻流的結(jié)構(gòu)信息和分層概括該結(jié)構(gòu)信息的合成關(guān)鍵幀。在圖14中,各個節(jié)點(diǎn)對應(yīng)于代表一個節(jié)目、鏡頭和場景的多個幀。節(jié)點(diǎn)Na,Nb,Nc和Nd是代表低層內(nèi)容的合成關(guān)鍵幀。為了概括低層結(jié)構(gòu),可以將低層的關(guān)鍵區(qū)或關(guān)鍵幀用于高層結(jié)構(gòu)的合成關(guān)鍵幀。因此,用戶可以利用在所希望層的視頻分層結(jié)構(gòu)和合成關(guān)鍵幀來搜索/瀏覽視頻流。如果為節(jié)點(diǎn)Na,Nb,Nc,和Nd選擇一個關(guān)鍵幀或關(guān)鍵區(qū),用戶在不瀏覽低層的情況下將無法完全理解低層結(jié)構(gòu)和內(nèi)容。但是利用合成關(guān)鍵幀,用戶無需確切地瀏覽低層就可以輕松理解低層的結(jié)構(gòu)和內(nèi)容。
必須定義分層圖像概括單元以便概括具有分層結(jié)構(gòu)的視頻流。圖15顯示根據(jù)本發(fā)明的用于分層視頻流概括的分層圖像概括單元的描述結(jié)構(gòu)。分層圖像概括單元的描述結(jié)構(gòu)是一種遞歸結(jié)構(gòu),包括各種變量,例如關(guān)鍵圖像定位器;子分層圖像概括單元的列表;概括層信息;逼真度,指示由相應(yīng)合成關(guān)鍵幀代表低層結(jié)構(gòu)時的忠實(shí)程度。此處,關(guān)鍵圖像定位器是一種能夠指定關(guān)鍵幀、關(guān)鍵區(qū)、和合成關(guān)鍵幀的數(shù)據(jù)結(jié)構(gòu),并且子分層圖像概括單元的列表描述一個低層概括結(jié)構(gòu),該列表中的每個單元是一個分層圖像概括單元。例如,當(dāng)子分層圖像概括單元的列表中的單元數(shù)目是“0”時,其對應(yīng)于最低節(jié)點(diǎn)(葉節(jié)點(diǎn)),并且意味著不存在更低的概括單元。
圖16顯示根據(jù)本發(fā)明的利用合成關(guān)鍵幀的非線性視頻瀏覽界面。該視頻瀏覽界面包括視頻顯示窗口V-VD,關(guān)鍵幀/關(guān)鍵區(qū)窗口V-Fk/Reg,和合成關(guān)鍵幀窗口V-Fsk。視頻顯示窗口V-VD和關(guān)鍵幀/關(guān)鍵區(qū)窗口V-Fk/Reg與圖3所示的一般非線性視頻瀏覽界面中的相應(yīng)窗口具有相同功能。合成關(guān)鍵幀窗口V-Fsk利用合成關(guān)鍵幀在屏幕上顯示視頻概括,使得用戶可以選擇該合成關(guān)鍵幀或者包含在該合成關(guān)鍵幀中的關(guān)鍵幀或關(guān)鍵區(qū),以便輕松地移動到對應(yīng)于該關(guān)鍵幀或關(guān)鍵區(qū)的區(qū)段。如圖16所示,合成關(guān)鍵幀窗口V-Fsk可以以一維顯示,或者以TOC樹形結(jié)構(gòu)顯示。
同時,根據(jù)本發(fā)明的合成關(guān)鍵幀可以在UMA應(yīng)用中使用。此處,UMA是一種具有改進(jìn)的信息傳輸性能的設(shè)備,其可以將任何多媒體信息處理為最適用于用戶環(huán)境的形式,適應(yīng)于用戶環(huán)境中的各種變化,以使用戶能夠便利地使用該信息。具體地說,基于用戶終端或?qū)⒂脩艚K端連接到服務(wù)器的網(wǎng)絡(luò)環(huán)境,用戶只能得到有限的信息。例如,用戶使用的裝置可能不支持運(yùn)動圖像而支持靜止圖像,或者不支持視頻而支持音頻。此外,根據(jù)網(wǎng)絡(luò)連接方法/介質(zhì),由于通過網(wǎng)絡(luò)的數(shù)據(jù)傳輸能力的不足,會存在對預(yù)定時間段內(nèi)能夠發(fā)送到用戶裝置的數(shù)據(jù)量的限制。UMA利用用戶環(huán)境中數(shù)量較少的尺寸被減小的關(guān)鍵幀,將視頻流轉(zhuǎn)換并發(fā)送到由于裝置/網(wǎng)絡(luò)的限制條件而無法接收和顯示該視頻流的用戶。由此,UMA可以幫助用戶理解該視頻流中包含的內(nèi)容。
在應(yīng)用于UMA后,本發(fā)明的合成關(guān)鍵幀可以用于提供大量有意義信息并同時減少所要發(fā)送的關(guān)鍵幀的數(shù)量,以便降低所要傳送的數(shù)據(jù)量。
圖17顯示將根據(jù)本發(fā)明的合成關(guān)鍵幀應(yīng)用于UMA的例子。該應(yīng)用包括服務(wù)器S,產(chǎn)生根據(jù)本發(fā)明的合成關(guān)鍵幀;終端T,用于從服務(wù)器S接收合成關(guān)鍵幀,并將預(yù)定請求信號發(fā)送到服務(wù)器。如上所述,合成關(guān)鍵幀F(xiàn)sk由文本、關(guān)鍵區(qū)和關(guān)鍵幀構(gòu)成。
圖18是顯示利用被應(yīng)用于UMA的根據(jù)本發(fā)明的合成關(guān)鍵幀接收信息的方法的流程圖。參見圖18,當(dāng)合成關(guān)鍵幀F(xiàn)sk被從服務(wù)器S發(fā)送到用戶終端T時,用戶對應(yīng)于它希望瀏覽的部分選擇該合成關(guān)鍵幀或其一個組成部分,然后請求服務(wù)器傳送相應(yīng)部分的音頻(ST1)。當(dāng)服務(wù)器S將該音頻發(fā)送到用戶時,用戶接收該音頻,而當(dāng)該音頻不是他/她希望的信息時,用戶不再瀏覽包含在該合成關(guān)鍵幀中的內(nèi)容。但是,如果他/她希望有更多的信息,則請求對應(yīng)于該相應(yīng)區(qū)段的更多關(guān)鍵幀(ST2)。由此,用戶可以更多地瀏覽該合成關(guān)鍵幀的內(nèi)容,并且還可以請求該視頻以便瀏覽視頻流(ST3)。
在將合成關(guān)鍵幀應(yīng)用于UMA的情況下,用戶可以選擇希望的部分并輕松地瀏覽它,從而可以節(jié)省通信成本。此外,服務(wù)器可以容易地將關(guān)于多媒體流內(nèi)容的信息發(fā)送到具有有限功能的裝置。
如上所述,通過組合用于代表視頻流的特定區(qū)段或分段的關(guān)鍵幀或關(guān)鍵區(qū)來產(chǎn)生本發(fā)明的合成關(guān)鍵幀,從而在受限制的裝置上顯示大量信息。此外,合成關(guān)鍵幀可以一維地或分層地概括視頻流,并且它可以用于非線性視頻瀏覽。而且,本發(fā)明的合成關(guān)鍵幀可以應(yīng)用于具有有限性能的終端或發(fā)送裝置的UMA,并且它可以應(yīng)用于所有視頻類型。本發(fā)明的利用合成關(guān)鍵幀的視頻概括方法可以有效地概括視頻的內(nèi)容,因?yàn)槠淅煤铣申P(guān)鍵幀在具有固定尺寸的屏幕上充分地顯示鏡頭或場景的內(nèi)容。
雖然已經(jīng)例示和說明了包括優(yōu)選實(shí)施例在內(nèi)的特定實(shí)施例,但是本領(lǐng)域技術(shù)人員可以知道,在不偏離僅由所附權(quán)利要求定義的本發(fā)明精神和范圍的情況下,可以進(jìn)行各種修改。
權(quán)利要求
1.一種產(chǎn)生合成關(guān)鍵幀的方法,包括以下步驟從一第一源接收視頻流并將其劃分成有意義的區(qū)段;選擇代表所劃分區(qū)段的一個或多個關(guān)鍵幀或關(guān)鍵區(qū);組合所選擇關(guān)鍵幀或關(guān)鍵區(qū)以產(chǎn)生一個合成關(guān)鍵幀。
2.根據(jù)權(quán)利要求1的產(chǎn)生合成關(guān)鍵幀的方法,其中所述劃分步驟包括以下步驟從一第二源接收一視頻流并將其劃分成有意義的區(qū)段。
3.根據(jù)權(quán)利要求1的產(chǎn)生合成關(guān)鍵幀的方法,其中所述選擇步驟還包括以下步驟選擇從第二源輸出的一個或多個關(guān)鍵幀或關(guān)鍵區(qū)。
4.根據(jù)權(quán)利要求1的產(chǎn)生合成關(guān)鍵幀的方法,其中所述區(qū)段是分段的單位。
5.一種描述合成關(guān)鍵幀數(shù)據(jù)的方法,包括以下步驟將視頻流劃分成有意義的區(qū)段,并將代表每個區(qū)段內(nèi)容的關(guān)鍵幀或關(guān)鍵區(qū)合成為一個圖像以產(chǎn)生合成關(guān)鍵幀;描述該合成關(guān)鍵幀的組成單元中包含的關(guān)鍵幀和/或關(guān)鍵區(qū)的列表。
6.根據(jù)權(quán)利要求5的描述合成關(guān)鍵幀數(shù)據(jù)的方法,其中所述描述步驟包括ID,用于標(biāo)識該合成關(guān)鍵幀;代表性分段定位器,描述該合成關(guān)鍵幀代表的分段的時間信息;關(guān)鍵幀列表或關(guān)鍵區(qū)列表,用于標(biāo)識該合成關(guān)鍵幀的單元;其中所述描述步驟還可以包括逼真度值,指示由該合成關(guān)鍵幀代表該分段時的忠實(shí)程度;當(dāng)將關(guān)鍵幀或關(guān)鍵區(qū)顯示為該合成關(guān)鍵幀的組成單元時關(guān)于每個組成單元的布置的信息。
7.根據(jù)權(quán)利要求6的描述合成關(guān)鍵幀數(shù)據(jù)的方法,其中關(guān)于布置的信息包括組成單元的二維位置信息或者作為組成單元的三維位置信息的層信息。
8.根據(jù)權(quán)利要求5的描述合成關(guān)鍵幀數(shù)據(jù)的方法,其中,當(dāng)合成關(guān)鍵幀包括關(guān)鍵幀列表時,關(guān)鍵幀列表的每個單元具有一關(guān)鍵幀定位器作為關(guān)鍵幀描述單元結(jié)構(gòu),并且當(dāng)合成關(guān)鍵幀包括關(guān)鍵區(qū)列表時,關(guān)鍵區(qū)列表的每個單元具有一關(guān)鍵區(qū)定位器作為關(guān)鍵區(qū)描述單元結(jié)構(gòu)。
9.根據(jù)權(quán)利要求8的描述合成關(guān)鍵幀數(shù)據(jù)的方法,其中關(guān)鍵幀定位器包括一圖像定位器,可包含對于一所存儲圖像的位置、注釋和相關(guān)分段,作為用于指定關(guān)鍵幀的數(shù)據(jù);分段定位器,用于指示由相應(yīng)關(guān)鍵幀代表的分段的信息;以及逼真度值,指示由關(guān)鍵幀代表該分段時的忠實(shí)程度。
10.根據(jù)權(quán)利要求8的描述合成關(guān)鍵幀數(shù)據(jù)的方法,其中關(guān)鍵區(qū)定位器作為用于描述關(guān)鍵區(qū)的數(shù)據(jù)結(jié)構(gòu),是邏輯或物理地指定所存儲位置或分段數(shù)據(jù)的信息,其中關(guān)鍵區(qū)定位器包括固有ID,用于標(biāo)識關(guān)鍵區(qū);圖像定位器和用于定位該區(qū)域的區(qū)域信息或用于定位該區(qū)域的區(qū)域數(shù)據(jù);代表性分段定位器;其中關(guān)鍵區(qū)定位器可以另外包括逼真度值,指示由關(guān)鍵區(qū)代表該分段時的忠實(shí)程度;注釋;和與關(guān)鍵區(qū)相關(guān)分段的列表。
11.根據(jù)權(quán)利要求5的描述合成關(guān)鍵幀數(shù)據(jù)的方法,其中,當(dāng)合成關(guān)鍵幀包括關(guān)鍵幀列表時,關(guān)鍵幀列表的每個組成單元具有逼真度作為關(guān)鍵幀描述單元結(jié)構(gòu),該逼真度指示由相應(yīng)關(guān)鍵幀代表合成關(guān)鍵幀中的有意義內(nèi)容時的忠實(shí)程度,并且當(dāng)合成關(guān)鍵幀包括關(guān)鍵區(qū)列表時,關(guān)鍵區(qū)列表的每個組成單元具有一逼真度值作為關(guān)鍵區(qū)描述單元結(jié)構(gòu),該逼真度值指示由相應(yīng)關(guān)鍵區(qū)代表合成關(guān)鍵幀中的有意義內(nèi)容時的忠實(shí)程度。
12.一種描述合成關(guān)鍵幀數(shù)據(jù)的方法,包括以下步驟將視頻流劃分成有意義的區(qū)段,并將代表每個區(qū)段內(nèi)容的關(guān)鍵幀或關(guān)鍵區(qū)合成為一個圖像,以產(chǎn)生一合成關(guān)鍵幀;產(chǎn)生該合成關(guān)鍵幀的組成單元中包含的關(guān)鍵幀或關(guān)鍵區(qū),或關(guān)鍵幀和關(guān)鍵區(qū)的組合,并物理地存儲該組合以描述該合成關(guān)鍵幀。
13.根據(jù)權(quán)利要求12的描述合成關(guān)鍵幀數(shù)據(jù)的方法,其中合成關(guān)鍵幀描述包括ID,用于標(biāo)識該合成關(guān)鍵幀;圖像定位器,用于指定所存儲的合成關(guān)鍵幀文件;ID,用于標(biāo)識該合成關(guān)鍵幀;代表性分段定位器,描述該合成關(guān)鍵幀代表的分段的時間信息;關(guān)鍵區(qū)列表,用于標(biāo)識合成關(guān)鍵幀的單元;其中所述描述可以另外包括逼真度值,指示合成關(guān)鍵幀包括關(guān)于由其代表的分段的區(qū)段信息時的忠實(shí)程度;關(guān)于作為合成關(guān)鍵幀的組成單元的關(guān)鍵幀和關(guān)鍵區(qū)的布置的信息。
14.根據(jù)權(quán)利要求12的描述合成關(guān)鍵幀數(shù)據(jù)的方法,其中合成關(guān)鍵幀組成單元的關(guān)鍵區(qū)列表的每個單元具有關(guān)鍵幀定位器或關(guān)鍵區(qū)定位器。
15.根據(jù)權(quán)利要求14的描述合成關(guān)鍵幀數(shù)據(jù)的方法,其中關(guān)鍵區(qū)定位器作為用于描述關(guān)鍵區(qū)的數(shù)據(jù)結(jié)構(gòu),是邏輯/物理地指定所存儲位置或分段數(shù)據(jù)的信息,關(guān)鍵區(qū)定位器包括固有ID,用于標(biāo)識關(guān)鍵區(qū);圖像定位器和用于定位該區(qū)域的區(qū)域信息或用于定位該區(qū)域的區(qū)域數(shù)據(jù);代表性分段定位器;其中關(guān)鍵區(qū)定位器可以另外包括逼真度值,指示由關(guān)鍵區(qū)代表該分段時的忠實(shí)程度;注釋;與關(guān)鍵區(qū)相關(guān)分段的列表。
16.根據(jù)權(quán)利要求13的描述合成關(guān)鍵幀數(shù)據(jù)的方法,其中關(guān)鍵區(qū)列表的每個單元包括逼真度值作為關(guān)鍵區(qū)描述單元結(jié)構(gòu),該逼真度值指示由相應(yīng)關(guān)鍵區(qū)代表合成關(guān)鍵幀中的有意義內(nèi)容時的忠實(shí)程度。
17.根據(jù)權(quán)利要求13的描述合成關(guān)鍵幀數(shù)據(jù)的方法,其中關(guān)于布置的信息包括組成單元的二維位置信息或作為組成單元的三維位置信息的層信息。
18.一種利用合成關(guān)鍵幀的分層視頻概括方法,包括以下步驟將視頻流劃分成有意義的區(qū)段,并將代表每個區(qū)段內(nèi)容的關(guān)鍵幀或關(guān)鍵區(qū)合成為一個圖像,以產(chǎn)生一合成關(guān)鍵幀;將合成關(guān)鍵幀分配給一關(guān)鍵圖像定位器,一用于描述低層概括結(jié)構(gòu)的分層概括列表,和視頻流的結(jié)構(gòu)信息。
19.根據(jù)權(quán)利要求18的利用合成關(guān)鍵幀的分層視頻概括方法,其中關(guān)鍵圖像定位器是一個利用關(guān)鍵區(qū)定位器、關(guān)鍵幀定位器和合成關(guān)鍵幀定位器來指定圖像的數(shù)據(jù)結(jié)構(gòu)。
20.根據(jù)權(quán)利要求18的利用合成關(guān)鍵幀的分層視頻概括方法,其中每個分層概括結(jié)構(gòu)由特定分段的代表性圖像代表。
21.根據(jù)權(quán)利要求18的利用合成關(guān)鍵幀的分層視頻概括方法,其中低層的分層概括列表的每個組成單元使用分層/遞歸概括結(jié)構(gòu)作為低層的分層概括結(jié)構(gòu)。
22.根據(jù)權(quán)利要求18的利用合成關(guān)鍵幀的分層視頻概括方法,其中分層概括結(jié)構(gòu)具有概括層信息。
23.根據(jù)權(quán)利要求18的利用合成關(guān)鍵幀的分層視頻概括方法,其中分層概括結(jié)構(gòu)包括一逼真度值,其指示由低層的分層概括列表代表一個部分時的忠實(shí)程度。
24.一種用于提供視頻瀏覽界面的方法,包括將視頻流劃分成有意義的區(qū)段,并將代表每個區(qū)段內(nèi)容的關(guān)鍵幀或關(guān)鍵區(qū)合成為一個圖像,以產(chǎn)生一合成關(guān)鍵幀;將一用戶界面提供給一預(yù)定顯示器,以瀏覽與所產(chǎn)生的合成關(guān)鍵幀相關(guān)的視頻。
25.根據(jù)權(quán)利要求24的用于提供視頻瀏覽界面的方法,其中用戶界面以窗口的形式提供合成關(guān)鍵幀。
26.根據(jù)權(quán)利要求24的用于提供視頻瀏覽界面的方法,其中按時間順序布置合成關(guān)鍵幀,和以樹形布置合成關(guān)鍵幀。
27.根據(jù)權(quán)利要求24的用于提供視頻瀏覽界面的方法,其中將合成關(guān)鍵幀分配給TOC形式的各個節(jié)點(diǎn)。
28.一種非線性視頻瀏覽方法,包括以下步驟將視頻流劃分成有意義的區(qū)段,并將代表每個區(qū)段內(nèi)容的關(guān)鍵幀或關(guān)鍵區(qū)合成為一個圖像,以產(chǎn)生一合成關(guān)鍵幀;將一用戶界面提供給一預(yù)定顯示器,以瀏覽與所產(chǎn)生的合成關(guān)鍵幀相關(guān)的視頻;根據(jù)用戶的輸入選擇合成關(guān)鍵幀;重放由所選擇的合成關(guān)鍵幀代表的分段。
29.根據(jù)權(quán)利要求28的非線性視頻瀏覽方法,其中重放步驟重放與關(guān)鍵幀的內(nèi)容的組成單元(關(guān)鍵區(qū)或關(guān)鍵幀)或由用戶輸入選擇的關(guān)鍵幀相關(guān)的分段。
全文摘要
提供了一種產(chǎn)生合成關(guān)鍵幀的方法,能夠在受限裝置上顯示大量信息。還提供一種利用合成關(guān)鍵幀的視頻瀏覽系統(tǒng)。產(chǎn)生合成關(guān)鍵幀的方法包括以下步驟:從一第一源接收一視頻流并將其劃分成有意義的區(qū)段;選擇代表一所劃分區(qū)段的一個或多個關(guān)鍵幀或關(guān)鍵區(qū);組合所選擇關(guān)鍵幀或關(guān)鍵區(qū)以產(chǎn)生一個合成關(guān)鍵幀。
文檔編號G06F3/048GK1312643SQ0110912
公開日2001年9月12日 申請日期2001年3月8日 優(yōu)先權(quán)日2000年3月8日
發(fā)明者田星培, 鄭燦義, 尹慶老 申請人:Lg電子株式會社
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
牙克石市| 临潭县| 博爱县| 巴塘县| 上饶县| 林西县| 济南市| 洪江市| 嘉禾县| 托里县| 茌平县| 泸水县| 大理市| 抚远县| 台江县| 定南县| 社会| 长治市| 石首市| 繁昌县| 原阳县| 府谷县| 改则县| 绩溪县| 敦煌市| 左权县| 临夏市| 临城县| 屯门区| 同德县| 玉树县| 尉氏县| 沙湾县| 临颍县| 宝坻区| 长子县| 阜康市| 永安市| 香格里拉县| 孟津县| 平塘县|