專利名稱:交互式的觀察點視頻系統(tǒng)和過程的制作方法
技術領域:
本發(fā)明涉及視頻的生成和呈現(xiàn),尤其涉及用于生成和呈現(xiàn)一交互式觀察點視頻的系統(tǒng)和過程,在所述視頻中用戶能在隨意改變觀察點的同時觀看到動態(tài)的場景。
背景技術:
幾年來,電視業(yè)和電影長片的觀看者一直以來都在觀看“停幀”效應,所述停幀效應用來創(chuàng)建時間停止且攝像機觀察點變化的幻象。最早的商業(yè)應用是使用基于膠片的系統(tǒng),該系統(tǒng)在沿著軌道排列的不同的靜態(tài)攝像機之間快速跳躍,以便通過一段時間的停頓給出移動的幻象。
在它首先出現(xiàn)時,該效應是新鮮的并且十分驚人,但不久它就在許多產(chǎn)品中被仿效,最著名的仿效可能是在題為“駭客帝國(Matrix)”的電影中所見的“子彈時間”效應。不幸的是,這一效應是一次性的、預先計劃的事件。觀察點軌道在時間前已計劃好,并且用了許多工時來產(chǎn)生期望的內插視圖。較新的系統(tǒng)是基于視頻攝像機陣列,但仍依賴于使許多攝像機避免軟件視圖內插。
因此,現(xiàn)有的系統(tǒng)不會使用戶能在觀看基于動態(tài)圖像的場景的同時、交互式地改變到任何期望的觀察點。過去,對于基于圖像的呈現(xiàn)(IBR)的大多數(shù)工作包括呈現(xiàn)靜態(tài)場景,兩種最常用的技術是光場呈現(xiàn)[12]和Lumigraph[8]。它們在高質量呈現(xiàn)方面的成功源于使用大量的采樣圖像并且啟示了該領域中的大量工作。這一創(chuàng)新工作的一種令人鼓舞的可能擴展包括在觀看視頻的同時交互式地控制觀察點。用戶交互式地控制視頻觀察點的能力大大提高了觀察體驗、使這種不同的應用成為新的觀察點即時重放、改變了舞臺上的觀察點并且隨意創(chuàng)建“停幀”視覺效應。
然而,由于同步大量的攝像機以及捕獲和保存圖像的困難(和成本),因此把IBR擴展到動態(tài)場景并非輕而易舉。不僅要克服在捕獲、顯示和呈現(xiàn)來自多個觀察點的動態(tài)場景時的困難,而且能做到這一點交互式地產(chǎn)生進一步的復雜性。目前,實現(xiàn)這一目標所作的嘗試并不十分令人滿意。
關于交互式觀察點視頻系統(tǒng)的基于視頻的呈現(xiàn)方面,一種捕獲和呈現(xiàn)動態(tài)場景的最早嘗試在Kanade等人鎖住的“Virtualized Reality system”[11]中提及,其中包含了沿著5米的網(wǎng)格球頂排列的51個攝像機。每個攝像機的分辨率為512×512,捕獲速率為30fps。它們基于場景流公式[18]使用三位象素著色[15]的形式在每個時間幀處提取一全局表面表示。不幸的是,因為低分辨率、匹配誤差以及對象邊界的不適當處理而使結果看上去不切實際。
Carranza等人[3]使用了分布在一房間周圍朝中心看的七個同步攝像機來捕獲3D人類運動。每個攝像機都為CIF分辨率(320×240),并且以15fps進行捕獲。它們事先使用了3D人類模型在每個時間幀處計算3D形態(tài)。
Yang等人[21]為了捕獲動態(tài)的場景而設計了一個8×8的攝像機網(wǎng)格(每個都為320×320)。它們僅發(fā)送組成期望的虛擬視圖所必要的射線,而非保存和呈現(xiàn)數(shù)據(jù)。在它們的系統(tǒng)中,攝像機未同步鎖相,而是依賴于六臺PC間的內部時鐘。攝像機捕獲速率為15fps,交互式觀察速率為18fps。
作為對保存動態(tài)光場的概念的驗證,Wilburn等人[20]表面,可能同步六個攝像機(30fps下,640×480),并且實時地壓縮和保存全部圖像數(shù)據(jù)。它們后來連接了128個攝像機。
如果場景幾何形狀未知或者僅僅是近似地知道,則對于逼真呈現(xiàn)而言需要許多圖像。如果幾何形狀準確已知,則可能減少對圖像數(shù)量[8]的要求。提取場景幾何形狀的一種實際方式是通過立體系統(tǒng),已經(jīng)為靜態(tài)場景[14]提出了許多立體算法。然而,在用動態(tài)場景采用立體技術方面只有很少的嘗試。作為Virtualized Realitywork[11]的一部分,Vedula等人[18]提出了一種使用2D光學流和3D場景形態(tài)來提取3D運動(即場景形態(tài)在時間上的對應關系)的算法。在他們的方法中,他們使用與三位象素著色[15]相似的表決方案,其中所使用的度量是一假設的三位象素位置與3D流公式的適配程度。
Zhang和Kambhamettu[22]也在他們的結構中集成了3D場景流和結構。他們的3D擬似運動模型以空間正則化在本地使用,并且使用色彩分段保留了不連續(xù)性。Tao等人[17]假設場景是分段的平面。他們還假設各個平面小塊有恒定的速度,以便約束動態(tài)景深圖(depth map)估計。
在更精心的努力下,Carceroni和Hutulakos[2]在有已知照明位置的非嚴格運動下恢復了分段連續(xù)的幾何形狀以及反射率(Phong模型)。他們把空間離散化為表面元(“surfel”),并且通過位置、方向和反射參數(shù)執(zhí)行搜索以便使和所觀察圖像的一致性最大化。
在關注常規(guī)的本地窗口匹配時,Zhang等人[23]使用跨過空間和時間的匹配窗口。這一方法的優(yōu)點在于,亮度恒定性與時間的相關性較小。
活動測距技術也應用于移動的場景。Hall-Holt和Rusinkiewicz[9]使用隨時間變化的投影的邊界編碼的色條信號圖。市場上也有一種稱為ZCamTM的商用系統(tǒng),由以色列的3DV Systems公司制造,是一種結合廣播視頻攝像機使用的距離探測視頻攝像機外接附件。然而,它是一種昂貴的系統(tǒng),并且僅提供單一的景深,因此它較不適用于多觀察點的視頻。
然而,盡管在立體和基于圖像的呈現(xiàn)方面的所有提高,仍舊很難交互式地呈現(xiàn)高質量的、高分辨率的動態(tài)場景視圖。本發(fā)明以一種效能成本劃算的方式解決了這一問題。
注意到在前面的段落中,以及在該說明書的其它部份,描述是指由一對括號內包含的數(shù)字編號所標識的各個單獨出版物。例如,這一引用可以通過引用“索引[1]”或僅僅用“[1]”來標識。多個引用會由包含多于一個編號的一對括號來標識,例如[2,3]。在具體實施方式
部份后面可以找到包括與各個編號相對應的出版物一列索引。
發(fā)明內容
本發(fā)明針對一種系統(tǒng)和過程,用于首先生成、其次呈現(xiàn)和顯示一交互式的觀察點視頻,其中用戶能在隨意操作(停頓、減慢或倒轉)時間和改變觀察點的同時觀看一動態(tài)的場景。由于可以空時地采用不同的軌道,因此沒有兩個觀察體驗需要相同。通常,這是用使用少量攝像機來捕獲一場景的高質量視頻流的系統(tǒng)和過程來完成的。這不僅降低了與捕獲視頻流相關聯(lián)的成本,所述視頻流是通過現(xiàn)有的方法從多個觀察點呈現(xiàn)場景所需的,而且它還使捕獲系統(tǒng)可便攜、因而是有利的。接著采用一種多視圖的3D重構和遮蔽技術來從視頻幀創(chuàng)建分層的顯示,分層表示能夠有效地壓縮并交互式地回放所捕獲的動態(tài)場景,而同時能進行實時的呈現(xiàn)。
更具體地說,交互式觀察點視頻生成系統(tǒng)具有一視頻捕獲子系統(tǒng),該子系統(tǒng)包括用于捕獲多個視頻流的視頻攝像機庫、以及用于同步視頻流的同步設備。總體上說,視頻流可以表征為同時期捕獲的視頻幀的順序組,各組描述了一場景的不同觀察點。捕獲子系統(tǒng)也可以包括用于在處理前保存視頻流的存儲設備。
視頻攝像機以并行的方式排列,使得各個攝像機從一不同的觀察點觀看該場景。各個攝像機的視野與任一相鄰攝像機的視野重疊了一個規(guī)定量(例如,每個攝像機的30度水平視野相對于兩個相鄰攝像機間的4-8度旋轉)。各個攝像機相對于場景的目標對象或區(qū)域的距離、高度和水平位置被設立,以便形成連接攝像機各個觀察點的期望路徑。該路徑可以是例如,水平或垂直角、或是從一端到另一端向上或向外掠的弧度。該路徑的重要性在于,觀察交互式觀察點視頻的用戶能夠選擇一觀察點來觀察路徑上任何地方的所捕獲場景,即使它與攝像機位置之一不相符。
視頻攝像機可以是高分辨率的攝像機,因為這會提高所生成的交互式觀察點視頻的質量。此外,攝像機會有同步鎖相特征以便與同步視頻流。而且會是有利的是,如果攝像機能把元數(shù)據(jù)添加到各個所生成的視頻幀,則便于處理視頻流。該元數(shù)據(jù)會是例如攝像機的當前設置和曝光等級、以及時標。
除了攝像機和同步設備以外,捕獲子系統(tǒng)包括一計算設備,該計算設備運行一個用于計算與各個視頻流相關聯(lián)的幾何和光度參數(shù)的攝像機校準程序。而且,視頻流的類型可以是可由計算機控制的類型。如果這樣,上述計算設備也可用來運行一視頻捕獲程序,所述視頻捕獲程序基于預先設立的菜單或響應于用戶輸入來開啟和關閉攝像機、并且調節(jié)它們的設置。
交互式觀察點視頻生成系統(tǒng)還采用上述計算設備或一不同的計算設備來運行一視頻生成程序。通常,該生成程序用來首先產(chǎn)生在來自同步視頻流的每組同時期幀內描述的場景的3D重構。在生成程序所測試的實施例中,為此采用一種基于分段的重構技術。對于每組同時期的幀,使用所產(chǎn)生的重構來為組中的每個幀計算一差異圖。重構也可以用來在該組幀的所有攝像機視圖間計算對應關系。這些對應關系然后可用于平衡組中幀之間的光度參數(shù)。而且,對于所考慮的組中的每個幀而言,有效景深(significant depth)不連續(xù)性的區(qū)域基于其差異圖來標識。在這些區(qū)域內計算前景和背景信息。使用這一信息,可以為每個幀建立一分開的主層和邊界層。主層由具有不同值的像素以及來自景深不連續(xù)性周圍區(qū)域的背景信息組成,所述像素不顯示超過規(guī)定閾值的景深不連續(xù)性。邊界層由在景深不連續(xù)性超過所述閾值的附近區(qū)域內的前景信息組成。這樣,產(chǎn)生了各個幀的分層表示。主層由該層中各個像素的色彩和景深來表征。然而,邊界層不僅表征為各個像素的色彩和景深,還表征為該層中各個像素的不透明度值。注意到在視頻生成程序的所測試的實施例中,把邊界層擴大為包含與顯示出超過閾值的景深不連續(xù)性的像素毗鄰的規(guī)定數(shù)量的像素。這用來防止在下面將簡述的呈現(xiàn)過程期間出現(xiàn)“攻擊”。
交互式觀察點視頻生成呈現(xiàn)還可以包括壓縮上述的分層表示以便與視頻的傳輸和/或存儲。該壓縮可以采用時間或空間的壓縮技術,或在測試實施例中采用組合的時間和空間壓縮方法。更進一步,所述生成程序可能有用于創(chuàng)建文件的文件生成程序模塊,所述文件包括交互式觀察點視頻幀的分層表示以及前面計算的校準數(shù)據(jù)。
注意到,也可以采用視頻生成程序來從計算機生成的視頻流、而不是實際視頻攝像機所捕獲的幀中創(chuàng)建一交互式觀察點視頻。該情況下,校準數(shù)據(jù)會由生成程序直接提供。
用來播放交互式觀察點視頻的上述程序和顯示系統(tǒng)具有一用戶接口子系統(tǒng),所述用戶接口子系統(tǒng)用于輸入用戶觀察點選擇并且把所呈現(xiàn)的交互式觀察點視頻幀顯示給用戶。為此,系統(tǒng)包括某一類型的輸入設備,用戶采用該輸入設備不斷輸入觀察點選擇,還包括用來向用戶顯示所呈現(xiàn)的交互式觀察點視頻幀的顯示設備。此外,用戶接口子系統(tǒng)可以包括一圖形用戶接口,該圖形用戶接口使用戶能經(jīng)由輸入設備圖解地指出觀察點。
呈現(xiàn)和顯示系統(tǒng)進一步包括呈現(xiàn)程序在其上運行的一計算設備。該呈現(xiàn)程序用來呈現(xiàn)交互式觀察點視頻的每個幀。通常,對于所呈現(xiàn)的每個幀,這包括首先標識當前的用戶專用觀察點。為了從所標識的觀察點呈現(xiàn)交互式觀察點視頻的當前幀,接著標識從與被播放的視頻當前時間部份相關聯(lián)的一組同時期幀所需要的幀。這一般必須使用校準數(shù)據(jù)來確定與當前組中各個幀相關的觀察點,并且確定當前用戶選擇的觀察點是否與幀觀察點之一相一致或落在兩個幀之間。當所標識的觀察點與視頻幀之一的觀察點相一致時,該幀被標識為呈現(xiàn)場景所需的幀。當所標識的觀察點落在兩個視頻幀的觀察點之間時,這兩個幀都被標識為呈現(xiàn)場景所需的幀。
一旦表示了所需的幀,就獲得與這些幀相對應的分層表示。這至少必須從交互式觀察點視頻數(shù)據(jù)中僅僅提取所需的幀數(shù)據(jù)。如果如上所述視頻數(shù)據(jù)包含在文件內,則它一般需要被解碼。為此可以采用呈現(xiàn)程序的選擇性解碼模塊。而且,如果已經(jīng)壓縮了分層的幀數(shù)據(jù),解碼器模塊就負責解壓縮恢復特定幀所需的視頻數(shù)據(jù)部份,所述特定幀是從期望觀察點呈現(xiàn)場景所需的幀。
經(jīng)解碼的幀數(shù)據(jù)用來從目前被用戶指定的觀察點呈現(xiàn)交互式觀察點視頻的下一個幀。如果指定的觀察點與和已解碼幀相關聯(lián)的觀察點相一致,則這是直截了當?shù)倪^程。然而,如果期望的觀察點落在兩幀之間,則牽涉到更多的呈現(xiàn)過程。在呈現(xiàn)過程的一個實施例中,對于兩個輸入幀的每一個,必須首先把考慮中的輸入幀的主層投射到與當前用戶專用觀察點相對應的虛擬視圖,然后還把考慮中的輸入幀的邊界層投射到虛擬視圖。把所投射的邊界層和所投射的主層混合,以便創(chuàng)建交互式觀察點視頻的最終形式幀。注意到,所投射層的混合包括以以下程度的正比例對每個層加權,所述程度是與該層相關的觀察點與當前用戶專用觀察點的接近程度。
注意到,呈現(xiàn)過程還可以包括把在所輸入的分層幀表示內未發(fā)現(xiàn)的對象插入所呈現(xiàn)的幀。這些對象可以是計算機生成的或是基于圖像的。
除了剛才所述的好處外,本發(fā)明的其它優(yōu)點將從結合附圖的以下詳細描述中變得顯而易見。
參照以下描述、所附權利要求以及附圖,將能更好地理解本發(fā)明的特定特征、方面和優(yōu)點,附圖中圖1是組成用于實現(xiàn)本發(fā)明的示例性系統(tǒng)的通用計算設備的一示意圖。
圖2是一描述了根據(jù)本發(fā)明的交互式觀察點視頻捕獲系統(tǒng)硬件配置的示例性圖3是一根據(jù)本發(fā)明為交互式觀察點視頻生成程序的一個實施例示出一般計算機程序模塊結構的框圖。
圖4A和4B是一根據(jù)本發(fā)明的交互式觀察點視頻生成過程的一實施例的流程圖。
圖5是一根據(jù)本發(fā)明用于交互式觀察點視頻呈現(xiàn)程序一實施例的一般計算機程序模塊的框圖。
圖6(a)-(c)是一系列圖像,其示出根據(jù)本發(fā)明的交互式觀察點視頻呈現(xiàn)過程的結果示例。圖6(a)和(c)表示了在兩個觀察點處從兩個相鄰的視頻攝像機同時期捕獲的幀。圖6(b)是當用戶專用觀察點處在與圖6(a)和(c)的圖像相關的觀察點之間時所呈現(xiàn)的幀的例子。
圖7示出來自根據(jù)本發(fā)明創(chuàng)建的交互式觀察點視頻的一幀的一圖像,其中插入了跳霹靂舞者的額外副本。
圖8是描述根據(jù)本發(fā)明的交互式觀察點視頻呈現(xiàn)過程一實施例的流程圖。
具體實施例方式
在以下本發(fā)明優(yōu)選實施例的描述中,參照了作為說明書一部分的附圖,附圖中示出其中能實現(xiàn)本發(fā)明的特定實施例??梢岳斫猓梢允褂闷渌鼘嵤├⒆鞒鼋Y構上的變化,而不背離本發(fā)明的范圍。
1.0交互式觀察點視頻能在觀看視頻的同時交互式地控制觀察點是基于圖像的呈現(xiàn)的全新應用。本發(fā)明的系統(tǒng)和過程如下提供這一能力通過使用多個同步視頻流與新穎的基于圖像建模和呈現(xiàn)技術的組合,以交互式的觀察點控制來呈現(xiàn)動態(tài)的場景。由于根據(jù)空時操作的可能性,任何中間視圖可以在任何時刻合成,因此本發(fā)明的方法被稱為交互式觀察點視頻。
本發(fā)明的交互式觀察點視頻系統(tǒng)和過程的一個關鍵優(yōu)點在于提供了最高可能質量的視圖內插幀來提高觀察體驗,即使使用了較少的攝像機來捕獲所觀察的場景。這不容易實現(xiàn)。在光場呈現(xiàn)論文[12]中提出的一種方法是僅僅基于輸入和虛擬攝像機的相對位置來對射線簡單地重新采樣。然而,如Lumigraph[8]和后續(xù)工作所說明的,為場景幾何位置使用3D頂替者或代理會大大改進內插視圖的質量。另一種方法是創(chuàng)建單個紋理圖的3D模型[11],但這一般和使用多個參考視圖相比產(chǎn)生較差的結果。
本發(fā)明的系統(tǒng)和過程采用了幾何位置輔助的基于圖像的呈現(xiàn)方法,該方法要求一3D代理。一種可能性是使用單個全局多面體模型,例如在Lumigraph和Unstructed Lumigraph論文中[1]。另一種可能性是使用分層景深圖像[16]中的每像素景深、Facade[6]中的偏移景深或者具有景深的子畫面[16]。通常,為每個參考視圖[13,7,10]使用不同的局部幾何位置代理能產(chǎn)生較高質量的結果,因而采用該方法。
為了獲得固定數(shù)量的輸入圖像的最高可能質量,使用了每像素的景深圖。這些景深圖由將要簡要描述的新穎的3D重構技術產(chǎn)生。然而,即使有多個景深圖,在生成新視圖時仍然顯示出呈現(xiàn)的人造效應,即由于前景到背景轉換的突發(fā)性而造成的混疊(參差不齊)、以及由于混合的像素而造成的污染色,所述混疊和污染色在新的背景或對象上合成時變得可見。
這些問題用唯一的雙層表示來解決。該表示通過首先在景深圖di中定位景深不連續(xù)性而生成,在本發(fā)明一實施例中,還在像素周圍創(chuàng)建邊界色條。然后使用貝葉斯遮蔽[5]的一種變化來估計邊界層和主層的色彩、景深和不透明度(α值)。為了減少數(shù)據(jù)大小,如下簡述,可以隨意地壓縮多個經(jīng)α遮蔽的景深圖像。
在呈現(xiàn)時,選擇與虛擬視圖最為接近的兩個參考視圖。每個視圖如下獨立地呈現(xiàn)通過使用相關的景深圖來扭曲其雙層中的每一層,并且在主層上合成邊界層。然后,兩個經(jīng)扭曲的視圖基于它們的接近性被混合成新的視圖?;蛘撸瑏碜愿鱾€視圖的主層和邊界層可以被獨立地呈現(xiàn),然后被混合在一起。下面將給出這一過程的詳細描述。
下面章節(jié)將給出本發(fā)明的交互式觀察點視頻系統(tǒng)和過程的細節(jié)。首先給出適用于實現(xiàn)本發(fā)明系統(tǒng)的可編程部份的計算環(huán)境。這后面是用于捕獲和同步多個視頻的交互式觀察點視頻捕獲子系統(tǒng)的描述。然后給出交互式觀察點視頻系統(tǒng)程序的描述。
1.1計算環(huán)境在描述本發(fā)明的優(yōu)選實施例以前,將給出其中能實現(xiàn)本發(fā)明各部份的適當計算環(huán)境的簡要、一般描述。圖1說明了一適當計算系統(tǒng)環(huán)境100的例子。計算系統(tǒng)環(huán)境100僅僅是適當計算環(huán)境的一個例子,而不限制本發(fā)明的用途或功能的范圍。計算環(huán)境100也不應被視為與示例性操作環(huán)境100中所示的任一個組件或組件組合有任何相關性或有關的要求。
本發(fā)明可以用許多其它的通用或專用計算系統(tǒng)環(huán)境或配置來操作。本發(fā)明適用的公知計算系統(tǒng)、環(huán)境和/或配置的例子包括、但不限于個人計算機、服務器電腦、手持或膝上型設備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、置頂盒、可編程消費者電子設備、網(wǎng)絡PC、微型計算機、大型計算機、包括上述系統(tǒng)或設備的任一個的分布式計算環(huán)境等等。
本發(fā)明可以用計算機可執(zhí)行指令的一般上下文來描述,比如由計算機執(zhí)行的程序模塊。一般而言,程序模塊包括例程、程序、對象、組件、數(shù)據(jù)結構等,它們執(zhí)行特定任務或實現(xiàn)特定的抽象數(shù)據(jù)類型。本發(fā)明還可以實際用于分布式計算環(huán)境中,其中由通過通信網(wǎng)絡或其它數(shù)據(jù)傳輸媒質連接的遠程處理設備來執(zhí)行任務。在分布式計算環(huán)境中,程序模塊及其它數(shù)據(jù)可以位于本地和遠程存儲媒質中,包括內存存儲設備。
參考圖1,用于實現(xiàn)本發(fā)明的示例性系統(tǒng)包括形式為計算機110的一通用計算設備。計算機110的組件可以包括但不限于處理單元120、系統(tǒng)內存130、及把包括系統(tǒng)內存在內的各種系統(tǒng)組件耦合至處理單元120的系統(tǒng)總線121。系統(tǒng)總線121可以是多種類型總線結構的任一種,包括內存總線或內存控制器、外圍設備總線、及使用任一多種總線結構的本地總線。通過示例但非限制,這種結構包括工業(yè)標準結構(ISA)總線、微通道結構(MCA)總線、增強型ISA(EISA)總線、視頻電子標準聯(lián)盟(VESA)本地總線及外圍組件互連(PCI)總線(也稱為Mezzanine總線)。
計算機110一般包括數(shù)種計算機可讀媒質。計算機可讀媒質可以是能由計算機110訪問的任何可用媒質并包括易失性和非易失性的媒質、可移動和不可移動媒質。通過示例但非限制,計算機可讀媒質可以包括計算機存儲媒質和通信媒質。計算機存儲媒質包括易失性和非易失性、可移動和不可移動媒質,它們以用于存儲諸如計算機可讀指令、數(shù)據(jù)結構、程序模塊或其它數(shù)據(jù)這樣的信息的任意方法或技術來實現(xiàn)。計算機存儲媒質包括但不限于RAM、ROM、EEPROM、閃存或其它存儲技術、CD-ROM、數(shù)字化通用光盤(DVD)或其它光盤存儲器、磁帶盒、磁帶、磁盤存儲器或其它磁性存儲設備、或用于存儲期望信息并能由計算機110訪問的任意其它媒質。通信媒質一般在諸如載波或其它傳輸機制這樣的已調數(shù)據(jù)信號中包含計算機可讀指令、數(shù)據(jù)結構、程序模塊或其它數(shù)據(jù),并且包括任意信息傳遞媒質。術語“已調數(shù)據(jù)信號”意指其一個或多個特性以對信號內信息進行編碼的方式被設置或改變的信號。通過示例但非限制,通信媒質包括諸如有線網(wǎng)絡或直接線連接這樣的有線媒質、以及諸如聲音、RF、紅外這樣的無線媒質及其它無線媒質。上述的任意組合應該包含在計算機可讀媒質的范圍內。
系統(tǒng)內存130包括計算機存儲媒質,其形式為易失性和/或非易失性內存,比如只讀內存(ROM)131和隨機存取內存(RAM)132?;据斎?輸出系統(tǒng)133(BIOS)一般存儲在ROM 131內,它包含例如在啟動期間幫助在計算機110內的組件間傳輸信息的基本例程。RAM 132一般包含數(shù)據(jù)和/或程序模塊,它們可以立即訪問并且/或者當前由處理單元120在其上操作。通過示例但非限制,圖1說明了操作系統(tǒng)134、應用程序135、其它程序模塊136和程序數(shù)據(jù)137。
計算機110還可以包括其它可移動/不可移動、易失性/非易失性計算機存儲媒質。僅僅通過示例,圖1說明了一對不可移動、非易失性磁性媒質進行讀寫的硬驅141、對可移動、非易失性磁盤152進行讀寫的磁盤驅動器151、以及對可移動、非易失性光盤156進行讀寫的光盤驅動器155,比如CD ROM或其它光學媒質。示例性操作環(huán)境中可用的其它可移動/不可移動、易失性/非易失性計算存儲媒質包括、但不限于磁帶盒、閃存卡、數(shù)字通用盤、數(shù)字視頻磁帶、固態(tài)RAM、固態(tài)ROM等等。硬驅141一般通過如接口140這樣的不可移動存儲器接口與系統(tǒng)總線121相連,且磁盤驅動器151和光盤驅動器155一般用如接口150這樣的可移動存儲器接口與系統(tǒng)總線121相連。
上面討論并在圖1中說明的驅動器和它們的相關計算機存儲媒質為計算機110提供了計算機可讀指令、數(shù)據(jù)結構、程序模塊和其它數(shù)據(jù)的存儲。在圖1中,例如,所述硬驅141存儲操作系統(tǒng)144、應用程序145、其它程序模塊146和程序數(shù)據(jù)147。注意到這些組件或者可與操作系統(tǒng)134、應用程序135、其它程序模塊136和程序數(shù)據(jù)137相同,或者與它們不同。這里為操作系統(tǒng)144、應用程序145、其它程序模塊146和程序數(shù)據(jù)147給出不同數(shù)字以說明它們至少是不同的副本。用戶可以通過諸如鍵盤162和指示設備161這樣的輸入設備把命令和信息輸入到計算機20中,輸入設備通常稱為鼠標、軌跡球或觸板。其它輸入設備(未示出)可以包括麥克風、游戲桿、游戲板、衛(wèi)星式轉盤、掃描儀等等。這些和其它輸入設備經(jīng)常通過與系統(tǒng)總線121耦合的用戶輸入接口160與處理單元120相連,但也可以用其它接口和總線結構連接,比如并行端口、游戲端口或通用串行總線(USB)。監(jiān)視器191或其它類型的顯示設備也通過諸如視頻接口190這樣的接口與系統(tǒng)總線121相連。除了監(jiān)視器之外,計算機還可以包括其它外部設備,如揚聲器197和打印機196,它們可以通過輸出外設接口190連接。也可以包括能捕獲一圖像序列193的攝像機192(比如數(shù)字/電子的靜態(tài)或視頻攝像機、或者膠片/照片掃描儀)作為個人計算機110的輸入設備。而且,盡管僅描述了一個攝像機,然而可以包括多個攝像機作為個人計算機110的輸入設備。來自一個或多個攝像機的圖像193經(jīng)由適當?shù)臄z像機接口194被輸入個人計算機110。該接口194連到系統(tǒng)總線121,從而能把圖像路由到且保存在RAM 132中,或者與計算機110相關聯(lián)的其它數(shù)據(jù)存儲設備之一中。然而注意到,圖像數(shù)據(jù)也可以從任一上述的計算機可讀媒質被輸入到計算機110中,而無需使用攝像機192。
計算機110可以工作在網(wǎng)絡化環(huán)境中,該環(huán)境使用與諸如遠程計算機180這樣的一個或多個遠程計算機之間的邏輯連接。遠程計算機180可以是一個人計算機、一服務器、一路由器、一網(wǎng)絡PC、一對等設備或其它公共網(wǎng)絡節(jié)點,并且一般包括上述與計算機110有關的許多或全部元件,盡管圖1中僅說明了內存存儲設備181。圖1所述的邏輯連接包括局域網(wǎng)(LAN)171和廣域網(wǎng)(WAN)173,但可以還包括其它網(wǎng)絡。這種網(wǎng)絡環(huán)境在辦公室、企業(yè)范圍計算機網(wǎng)絡、企業(yè)內部網(wǎng)和互聯(lián)網(wǎng)中是常見的。
當用于LAN網(wǎng)絡環(huán)境中時,計算機110通過網(wǎng)絡接口或適配器170與LAN 171相連。當用于WAN網(wǎng)絡環(huán)境中時,計算機110一般包括用于在諸如互聯(lián)網(wǎng)這樣的WAN 173上建立通信的調制解調器172或其它裝置。調制解調器172可以是內部或外部的,它可以通過用戶輸入接口160或其它適當機制與系統(tǒng)總線121相連。在網(wǎng)絡化環(huán)境中,關于計算機110所述的程序模塊或其部分可以存儲在遠程內存存儲設備中。通過示例但非限制,圖1說明了駐留在內存設備181上的遠程應用程序185??梢岳斫猓揪W(wǎng)絡連接是示例性的,也可以使用在計算機間建立通信連接的其它裝置。
現(xiàn)在已討論了示例性的操作環(huán)境,該說明章節(jié)的其余部份將會致力于描述交互式的觀察點視頻系統(tǒng)硬件、程序模塊結構和模塊本身。
1.2交互式的觀察點視頻捕獲系統(tǒng)通常,交互式觀察點視頻捕獲系統(tǒng)包括捕獲上述多個視頻流所需的硬件和支持軟件。捕獲系統(tǒng)硬件包括以并行方式(side-by-side)排列的視頻攝像機的庫。此外,攝像機的具有會聚的配置,使得各個攝像機的視野與相鄰攝像機的視野重疊一個規(guī)定量(例如30度)。攝像機相對于目標對象或區(qū)域的方向根據(jù)期望的結果而變化。換言之,各個攝像機離開目標對象或區(qū)域的距離或者其相對于目標的高度和/或水平位置會發(fā)生變化。例如,一種有用的布局是把攝像機置于水平的弧度上,如圖2所示。這會導致用戶能從連接這些攝像機的水平弧度上的任何有利位置觀看到場景。因此,用戶會覺得他們能在目標周圍的弧度上水平地移動。攝像機庫的另一種可采用的配置是垂直弧度。這會導致用戶能從有利位置觀看到場景,看上去像是用戶升到目標對象或區(qū)域以上。攝像機無需全部水平或垂直排列。例如,攝像機可以在基本上水平的配置中對角排列,但從一端向上掠到另一端。這會使觀看者有這樣的印象他或她能同時在水平移動和上升時觀看到對象。通常,通過沿著期望的路徑排列攝像機可以創(chuàng)建任何觀察路徑。
攝像機可以是任何適當?shù)囊曨l攝像機,然而數(shù)字視頻攝像機是優(yōu)選的。如果不采用數(shù)字攝像機,則每個視頻幀在執(zhí)行進一步處理前將需要被數(shù)字化,所述進一步處理在后續(xù)章節(jié)內描述。此外,雖然視頻攝像機無需是高分辨率的攝像機,然而如果采用高分辨率的攝像機將會提高所產(chǎn)生的交互式觀察點視頻的質量。更進一步的是,為了幫助同步視頻流,如果攝像機的類型是可由計算機遠程控制的類型將會是有利的,計算機可以遠程控制攝像機啟動和停止以及調節(jié)攝像機設置。因此,用戶能通過計算機同時控制所有的攝像機。而且,會期望有同步鎖相能力的攝像機以便于同步它們的視頻饋入。如果每個攝像機把元數(shù)據(jù)加到各個視頻幀對于將來處理是有利的,所述元數(shù)據(jù)表示當前的攝像機設置和曝光時間以及時標。
再次參照圖2,示出了本發(fā)明的視頻捕獲系統(tǒng)硬件的示例性配置。該例中,八個攝像機200沿著水平弧度排列。使用高分辨率(例如1024×768)的彩色攝像機來以15fps捕獲視頻,鏡頭為8mm,產(chǎn)生約為30度的水平視野。
本發(fā)明視頻捕獲系統(tǒng)的另一關鍵特征是能實時捕獲來自攝像機的同步視頻流。為了完成這一任選,能接收和同步來自攝像機的單獨饋入的設備是有利的,比如用于保存同步視頻流數(shù)據(jù)的設備。在圖2所示的示例配置中,全部輸入視頻的實時同步和存儲由兩個集線器單元202和硬驅庫204進行處理。每個集線器202同步來自四個攝像機的饋入,并且通過光纖電纜把四個未經(jīng)壓縮的視頻流導入硬驅庫204。兩個集線器202經(jīng)由FireWire電纜被同步,以確保全部八個視頻饋入是同步的。在系統(tǒng)的另一種實現(xiàn)中,每個攝像機可以擁有其自身的記錄設備,比如DV帶、VHS帶等等。然后在記錄后把視頻轉移到硬盤。
上述計算機206運行一個為控制多個攝像機而設計的視頻捕獲程序。實質上,視頻捕獲程序可以是能同時開啟和關閉多個視頻攝像機、以及調節(jié)各個攝像機的攝像機設置(例如曝光時間、白平衡、焦距等)的任何常規(guī)程序。實踐中,適當?shù)臄z像機設置會在捕獲會話前用標準方法來確定,視頻捕獲程序會用來把所有的攝像機都調節(jié)到這些設置。捕獲程序也在預先設立的時間、或者在用戶命令輸入時,同時開啟全部攝像機。同樣,捕獲程序在預先設立的時間、或者在用戶命令輸入時,同時停止全部攝像機。
除了視頻流的捕獲和存儲以外,交互式觀察點視頻捕獲系統(tǒng)也包括攝像機校準程序,該程序可以在用于控制攝像機的同一臺計算機或者一臺不同的計算機上運行。攝像機在每個捕獲會話前被校準,以便獲得3D重構所必要的全部攝像機屬性。這些屬性包括幾何(例如固有和外在的攝像機參數(shù))參數(shù)以及光度(例如曝光時間、白平衡、漸暈)參數(shù)。在所測試的實施例中,幾何攝像機參數(shù)用Zhang[24]的校準技術獲得。該過程一般包括移動一校準模式,所述校準模式已經(jīng)被安裝在各個攝像機前的平面上。由描述校準模式的各個攝像機所生成的視頻流然后被分析,以便恢復上述的攝像機屬性。攝像機參數(shù)和視頻流一起被保存并被提供給下面將描述的交互式觀察點視頻生成程序。
1.3交互式觀察點視頻系統(tǒng)程序交互式觀察點視頻系統(tǒng)也包括用于生成交互式觀察點視頻并將其呈現(xiàn)給用戶用以回放的計算機程序。下面將描述組成這些程序的每一個的結構和程序模塊。
1.3.1交互式觀察點視頻生成程序結構參照圖3,由上述視頻捕獲系統(tǒng)生成的視頻流312以及攝像機校準數(shù)據(jù)312首先被送入3D重構模塊進行處理。3D重構模塊300的用途是為每一組同時期捕獲的視頻幀內的每個幀,生成高質量的照片一致的對應關系以及差異圖。此外,一旦對應關系已知,重構模塊300就可以平衡每一組幀的光度參數(shù)。
每個所生成的差異圖都由遮蔽模塊(matting module)302處理。一般而言,遮蔽模塊302負責基于其差異圖在一幀內標識出有效景深不連續(xù)性的區(qū)域。該信息接著被提供給分層表示模塊304,在本發(fā)明系統(tǒng)的一個實施例中,分層表示模塊304生成了一主層和一邊界層,所述主層由這樣的像素組成所述像素與一幀內未顯示出有效景深不連續(xù)性和背景信息的區(qū)域是景深不連續(xù)性周圍的區(qū)域相關聯(lián),所述邊界層由從與有效景深不連續(xù)性的區(qū)域相關聯(lián)的像素而來的前景信息組成。因此,為了來自各個攝像機的視頻流的每一個幀創(chuàng)建了雙層表示。
雙層視頻幀表示接著被任選地提供給壓縮模塊306。雖然數(shù)據(jù)壓縮是任選的,但注意到,由上述攝像機庫中每一個攝像機所生成的每幀的雙層會表示一顯著的數(shù)據(jù)量(例如對于以15fps記錄了1秒的8個攝像機約為未經(jīng)壓縮的800MB)。因此,任何數(shù)據(jù)壓縮都會有助于其發(fā)送和/或存儲。這一模塊的任選特性在圖3中通過使用虛線框來表示。
雙層視頻幀表示,無論是否經(jīng)壓縮,都接著被傳送給文件生成模塊308。此外,前面獲得的攝像機校準數(shù)據(jù)314被提供給文件生成模塊308。實質上,文件生成模塊308對雙層視頻幀表示和校準數(shù)據(jù)進行編碼,以便直接發(fā)送到上述的交互式觀察點視頻呈現(xiàn)程序供處理,或者發(fā)送到存儲器用于將來發(fā)送到呈現(xiàn)程序。在本發(fā)明一實施例中,攝像機校準數(shù)據(jù)314位于視頻文件標題中。
注意到,雖然上述交互式觀察點視頻生成程序的優(yōu)選操作模式是采用被捕獲場景的基于圖像的表示,然而也可能取而代之地使用3D計算機成像來實現(xiàn)本發(fā)明的系統(tǒng)和過程。在該替代實施例中,3D重構模塊被刪除,取而代之地經(jīng)由3D計算機成像模塊310把計算機生成的視頻幀輸入遮蔽模塊302。這樣,也不需要前面所述的捕獲系統(tǒng)。同樣,這里成像模塊310的任選特性在圖3中通過使用虛線框來表示。
代替攝像機捕獲的幀而輸入的合成幀仍會顯示出前面結合實時視頻流的描述而描述的相同屬性。此外,會為了各個合成的視頻流而非實際攝像機校準數(shù)據(jù),把虛擬攝像機參數(shù)信息輸入到文件生成模塊中。合成幀和攝像機參數(shù)數(shù)據(jù)然后會以和基于圖像的數(shù)據(jù)相同的方式被處理。這樣,為說明本發(fā)明的其余描述,關于被提供給分層表示模塊的幀數(shù)據(jù)是基于圖像的還是合成的不會作出區(qū)別。同樣,關于攝像機是真實還是虛擬的、以及攝像機參數(shù)是被計算的還是被合成的也不會作出區(qū)別。
1.3.1.13D重構模塊在開發(fā)視圖內插所用的立體視覺過程時所需要的準確性要求與3D重構所使用的標準立體算法的準確性要求不同。特別是,與內插圖像強度值的誤差相比,差異的誤差并不重要。例如,與高紋理區(qū)域內相同的差異誤差相比,在低紋理區(qū)域(比如白墻)內的多像素差異誤差會導致內插圖像內少得多的強度誤差。特別是,場景中的邊緣或直線需要被正確地呈現(xiàn)。
傳統(tǒng)的立體算法區(qū)域產(chǎn)生差異不連續(xù)性周圍的錯誤結果。不幸的是,這種誤差在內插場景中產(chǎn)生了一些最顯著的人造效應,因為差異不連續(xù)性一般符合強度邊緣。為此,用于視圖內插的立體算法必須正確地匹配包括差異不連續(xù)性在內的強度邊緣周圍的像素。
最近已經(jīng)提出了一種稱為基于分段立體的立體視覺的新方法。這些方法在立體計算前把圖像分段成可能有相似或平坦差異的區(qū)域。然后為每個分段強加一平坦性約束。Tao等人[17]使用了一平面約束,而Zhang和Kambhamettu[22]使用了用于本地支持的分段。這些方法在準確處理差異不連續(xù)性時顯示出令人期望的結果。
雖然可以采用上述基于分段的立體算法來完成3D重構任務,然而本發(fā)明的測試實施例采用了一種新的基于分段的方法。該新方法是題為“Color Segmentation-Based Stereo Reconstruction System And Process”的待批申請的主題,該專利被轉讓給共同受讓人。該待審的專利申請?zhí)峤挥冢撸撸?,轉讓序列號為____。
1.3.1.2遮蔽模塊在立體計算期間,假設每個像素都有唯一的差異。通常不是這樣,因為對象邊界上的一些像素會接收來自背景和前景區(qū)域兩者的作用。然而,如果在基于圖像的呈現(xiàn)期間使用了原始的混合像素色彩,則會產(chǎn)生可見的人造效應。
為了解決這一問題,在景深不連續(xù)性的附近表示了小的區(qū)域,所述小區(qū)域被定義為大于λ像素(例如4像素)的任何差異上漲。更具體地說,使用遮蔽來為這些區(qū)域內的每個像素找到前景和背景信息。前景信息被保存在邊界層內,而背景信息以及從不在景深不連續(xù)性的λ像素內的像素而來的信息被保存在主層內。為了防止在下述的呈現(xiàn)過程期間出現(xiàn)攻擊,擴大了邊界遮蔽(例如向前景像素區(qū)域內部一像素)。該像素標記信息然后被傳遞到分層表示模塊。
雖然上述遮蔽任務可以用任何適當?shù)某R?guī)遮蔽技術來完成,然而本發(fā)明的測試實施例采用了一種新方法。該新方法是題為“A System And Process For GeneratingA Two-Layer,3D Representation Of A Scene”的待批申請的主題,該申請被轉讓給本發(fā)明的共同受讓人。該待審的專利申請?zhí)峤挥冢撸撸?,轉讓序列號為____。
1.3.1.3分層表示模塊分層表示模塊擁有與各個幀相關的數(shù)據(jù)、以及由遮蔽模塊生成的像素標記信息,并且為邊界遮蔽估計色彩、景深和不透明度(即α值)。這可以用遮蔽技術來完成,比如貝葉斯圖像遮蔽[5]。注意到[5]未估計景深,而是僅估計了色彩和不透明度。景深可以通過使用前景和背景像素區(qū)域內附近景深的α加權平均來估計。所產(chǎn)生的前景像素數(shù)據(jù)被指定為所處理幀的邊界層。接著,背景像素數(shù)據(jù)以及從不在邊界遮蔽內的其余像素而來的像素數(shù)據(jù)一起用來組成該幀的主層。
因而,分層表示模塊的輸出是從每一個上述攝像機而來的視頻流每一個幀的邊界層,所述輸出表示了層內的各個像素、像素的色彩BC、景深BD以及不透明度α。此外,為每個幀輸出一主層,標識了該層內的各個像素、像素的色彩MC、景深MD。
雖然上述分層任務可以用任何適當?shù)某R?guī)分層技術來完成,然而本發(fā)明的測試實施例采用了一種新方法。該新方法是題為“A System And Process For GeneratingA Two-Layer,3D Representation Of A Scene”的待批申請的主題,該申請被轉讓給本發(fā)明的共同受讓人。該待審的專利申請?zhí)峤挥冢撸撸?,轉讓序列號為____。
1.3.1.4壓縮模塊壓縮可任選地使用,用來把與本發(fā)明相關的大數(shù)集減少為一可管理的尺寸,并且用于支持較快的回放。本發(fā)明有利的是采用任何常規(guī)的基于時間的壓縮方案,例如MPEG-4(ISO/IEC 14496)。然而,由于每個攝像機是同一場景的捕獲部份,因此存在一個機會,通過使用攝像機間的(即空間的)冗余來壓縮數(shù)據(jù)。時間預測使用來自前一幀的運動補償?shù)墓烙嫞臻g預測使用一參考攝像機的紋理和差異圖,所述紋理和差異圖根據(jù)壓縮被轉換成空間相鄰攝像機的觀察點。例如,MPEG-4包含一種壓縮立體數(shù)據(jù)的標準,其使用了相鄰觀察點的相似性。因此,通常使用時間或空間冗余的編解碼器適用于該任務。然而,通過組合兩種壓縮方法可以達到最大程度的壓縮。
雖然上述組合壓縮方案可以用現(xiàn)有的時間和空間壓縮技術來實現(xiàn),然而本發(fā)明的測試實施例采用了一種新的集成方法。該新方法是題為“A System And ProcessFor Compressing And Decompressing Multiple,Layered,Video Streams EmployingSpatial And Temporal Encoding”的待批申請的主題,該申請被轉讓給本發(fā)明的共同受讓人。該待審的專利申請?zhí)峤挥冢撸撸?,轉讓序列號為____。
1.3.2交互式觀察點視頻生成過程上述程序結構可用來執(zhí)行以下過程,在圖4A-B所示的本發(fā)明一實施例中生成一交互式觀察點視頻。首先,從上述視頻捕獲系統(tǒng)輸入同步的視頻流(過程動作400)。然后執(zhí)行3D重構來計算所有攝像機視圖間的對應關系、以及來自輸入視頻流的每組同時期捕獲的視頻幀內每一個幀的差異圖(過程動作402)。此外,一旦對應關系已知,就平衡每組幀的光度參數(shù)(過程動作404)。
接著以規(guī)定的順序選擇每一個幀(過程動作406)。更具體地說,這必須選擇每組到來的同時期捕獲視頻幀內的每一個幀(以任一期望順序)、然后對于所輸入的下一組幀也執(zhí)行同樣操作依此類推。對于每個所選的幀,有效景深不連續(xù)性的區(qū)域基于其差異圖來標識(過程動作408)。該信息用來生成一邊界層和一主層,所述邊界層由從與具有有效景深不連續(xù)性的區(qū)域相關聯(lián)的像素而來的前景信息組成,所述主層由其余信息組成(過程動作410)。然后確定是否有前面未選擇的幀剩余待處理(過程動作412)。如果是,就重復過程動作406到412,直到處理了所有幀為止。這樣,最終為每一個幀創(chuàng)建了雙層表示。如果沒有剩余供選擇的幀,則生成過程繼續(xù)任選地壓縮視頻幀數(shù)據(jù)(過程動作414)。這可以用例如時間(即在同時期捕獲的幀的各組之間)和空間(即在同一組內的各幀之間)壓縮技術來完成。注意到,這一最后動作的任選特性在圖4中用一虛線框來表示。無論幀數(shù)據(jù)是否被壓縮,下一過程動作416都是生成一交互式觀察點視頻,所述視頻包含從視頻捕獲系統(tǒng)提供的分層視頻幀表示以及攝像機校準數(shù)據(jù)。
注意到,在上述交互式觀察點視頻生成過程中,從視頻捕獲系統(tǒng)輸入的基于圖像的視頻流可以被上述計算機生成的視頻數(shù)據(jù)所代替。在這一情況下,攝像機校準數(shù)據(jù)也會用同一類型的虛擬數(shù)據(jù)來代替。
1.3.3交互式觀察點視頻呈現(xiàn)程序結構參照圖5,上述文件生成模塊所生成的交互式觀察點視頻文件504首先被送入選擇性解碼模塊500。一般而言,選擇性解碼模塊500僅解碼到來的文件中為從觀看視頻的用戶所選的有利位置呈現(xiàn)該視頻的當前幀所需的那些部份。更具體地說,模塊500對呈現(xiàn)模塊502所標識的文件部份進行解碼(下面將描述),以便恢復與從期望觀察點呈現(xiàn)場景所需的特定視頻幀相關聯(lián)的分層視頻幀數(shù)據(jù)。這樣,必須解碼可能的最少量數(shù)據(jù),從而加速該過程并且提供了實時的呈現(xiàn)能力。
經(jīng)解碼的分層幀數(shù)據(jù)被提供給呈現(xiàn)模塊502。一般而言,該模塊502擁有幀數(shù)據(jù)并且從用戶所指定的有利位置為用戶正在觀看的當前視頻部份呈現(xiàn)一場景視圖。這包括首先獲得當前用戶輸入506、然后生成期望的視圖。
1.3.3.1選擇性解碼模塊選擇性解碼模塊的目的是僅解碼從當前用戶所選的有利位置呈現(xiàn)視頻中所捕獲的場景所需要的信息。實際上,這必須對與被呈現(xiàn)視頻中當前時間位置相關的同時期捕獲幀的組中的幀進行解碼,所述被呈現(xiàn)的視頻必須被解碼以便獲得從特定用戶選擇的有利位置呈現(xiàn)當前視頻部份中所述的場景視圖所需的分層視頻幀數(shù)據(jù)。如果這一有利位置符合攝像機之一所捕獲的場景視圖,則僅需要解碼與該幀相關的數(shù)據(jù)。然而,如果期望的觀察點落在兩個攝像機視圖之間的某處,則必須解碼與這兩個相鄰攝像機均相關的幀數(shù)據(jù)以便從期望的觀察點呈現(xiàn)場景。
從期望的有利位置呈現(xiàn)場景所需的特定幀由呈現(xiàn)模塊(下面將描述)來標識。一旦被標識,就用適當?shù)慕獯a技術對與所標識的幀相關聯(lián)的分層視頻幀數(shù)據(jù)進行解碼,所述適當?shù)慕獯a技術可應用于在上述壓縮和文件生成模塊中采用的壓縮和編碼方案類型。在本發(fā)明測試實施例中采用上述集成方法的情況下,解碼像在以下待批申請中所述那樣完成該申請題為“A System And Process For Compressing AndDecompressing Multiple,Layered,Video Streams Employing Spatial And TemporalEncoding”。該待審的專利申請?zhí)峤挥冢撸撸?,轉讓序列號為____。
除了對來自交互式觀察點視頻文件的幀數(shù)據(jù)進行解碼以外,解碼模塊還解碼上述的攝像機校準數(shù)據(jù)。如上所述,該數(shù)據(jù)會在文件標題中或作為元數(shù)據(jù)。
1.3.3.2呈現(xiàn)模塊呈現(xiàn)模塊的任務是首先處理與期望被呈現(xiàn)的場景觀察點有關的用戶輸入,并且標識與被呈現(xiàn)的視頻當前時間部份相關的該組同時期捕獲幀內的幀,所述幀是呈現(xiàn)期望視圖所需的幀。為了完成這一任務,用交互式觀察點視頻文件中包含的上述攝像機校準數(shù)據(jù)來初始化呈現(xiàn)模塊。該校準數(shù)據(jù)包括用于捕獲與被觀察視頻相關的場景的各個視頻攝像機的位置和觀察點信息。給出這一信息后,呈現(xiàn)模塊就計算攝像機觀察點的位置。如上所述,用戶能沿著連接攝像機觀察的路徑指定任一觀察點,兩個最外面的攝像機表示可能觀察點選擇的端點。如上所述,所選的觀察點可以符合由攝像機之一所捕獲的場景視圖(或者從一虛擬攝像機位置合成的視圖)。在這一情況下,只有與該攝像機相關的“當前”幀被標識為是呈現(xiàn)期望視圖所需的。然而,通常情況下會是觀察點落在兩個相鄰攝像機的觀察點之間。在這后一種情況下,呈現(xiàn)模塊標識出與這兩個相鄰攝像機相關的的當前幀。
對于用戶輸入來說,該信息可以以任何適當?shù)姆绞将@得,比如通過某一類型的用于輸入和處理用戶觀察點選擇的用戶界面。例如,該界面可以包括用于在顯示設備(例如計算機監(jiān)視器、顯示屏、3D電視機等等)上向用戶顯示的圖形用戶界面(GUI)。該GUI會包括某一圖形排列,該圖形排列使用戶能在可能的觀察點中間、表示出他希望觀看被呈現(xiàn)的當前視頻部份的視頻中捕獲的場景的觀察點。用戶也可以在視頻播放時改變期望的觀察點。這些選擇會通過用戶使用任一標準輸入設備(例如鼠標、游戲桿、視覺跟蹤設備等等)與GUI相接而作出。
一旦已經(jīng)標識了呈現(xiàn)期望視圖所需的幀,呈現(xiàn)模塊就指示選擇性解碼模塊來解碼所需的幀數(shù)據(jù)。選擇性解碼模塊的幀數(shù)據(jù)輸出由各個所提供幀的5個數(shù)據(jù)平面所組成主層色彩、主層景深、邊界層α遮蔽、邊界層色彩以及邊界層景深。在期望的觀察點符合攝像機觀察點之一時,僅使用該攝像機的主層和邊界層數(shù)據(jù)平面來重構場景。然而,在期望觀察點落在兩個攝像機觀察點之間時,呈現(xiàn)過程就更加復雜。在本發(fā)明呈現(xiàn)模塊的一個實施例中,其中要求來自兩個攝像機觀察點的數(shù)據(jù)來從用戶指定的觀察點呈現(xiàn)一場景視圖,來自各個攝像機的主層和邊界層數(shù)據(jù)被投射到期望的觀察點。這可以用常規(guī)的呈現(xiàn)方法以及交互式觀察點視頻文件中提供的攝像機校準數(shù)據(jù)來完成。然后,所投射的主層和邊界層混合以生成最終幀。這里還是采用常規(guī)的混合方法,其中每層對于最終視圖的作用都是按照相關攝像機的觀察點離開期望觀察點的接近程度的比例加權的。換言之,如果期望觀察點相對于另一攝像機觀察點較接近于攝像機觀察點之一,則與較接近的攝像機相關的投射層比另一個加權得更多。
雖然可以采用常規(guī)的視圖投射和呈現(xiàn)技術來完成上述呈現(xiàn)任務,然而本發(fā)明的測試實施例采用了一種新方法。該新方法是題為“An Interactive,Real-TimeRendering System And Process For Virtual Viewpoint Video”的待批申請的主題,該申請被轉讓給共同受讓人。該待審的專利申請?zhí)峤挥冢撸撸撸D讓序列號為___。還注意到,上述呈現(xiàn)過程可以用圖形處理單元、軟件呈現(xiàn)技術或其兩者來完成。圖6(a)-(c)示出上述呈現(xiàn)過程的結果示例。圖6(a)和(c)表示了從位于不同觀察點的兩個相鄰視頻攝像機同時期捕獲的幀。圖6(b)是在用戶指定的觀察點處在與圖6(a)和(c)的圖像相關的觀察點之間時所呈現(xiàn)的幀示例。
如上所述,上述交互式觀察點視頻生成程序的優(yōu)選操作模式是采用被捕獲場景的基于圖像的表示。然而,另外把合成元素引入所呈現(xiàn)的場景并不超過本發(fā)明的范圍。因此,在呈現(xiàn)模塊的一個實施例中(如圖5所示),把3D對象數(shù)據(jù)508輸入呈現(xiàn)模塊用于結合到當前被呈現(xiàn)的幀內。在一實施例中,該輸入會包括從與所選觀察點對應的一觀察點呈現(xiàn)動畫對象所必要的數(shù)據(jù);以及用于把對象結合在被呈現(xiàn)幀內一預先設立位置的定位信息。對象可以隨時間而改變形狀(即以便在不同的被呈現(xiàn)幀內具有不同的外觀),或者具有靜態(tài)的外觀。而且,被呈現(xiàn)幀內結合對象的位置可以隨時間而變化(即以便在不同的被呈現(xiàn)幀內有不同的位置),或者可以位于各個連續(xù)被呈現(xiàn)幀內的同一位置。
基于圖像的對象也可以在呈現(xiàn)過程期間被插入場景。例如,圖7示出按照本發(fā)明創(chuàng)建的交互式觀察點視頻中的一個幀,其中已經(jīng)插入了霹靂舞者的額外副本。這一效應這樣實現(xiàn)首先用一景深閾值來“拖拽”舞者的遮蔽、然后使用z-阻尼把所“拖拽”的子畫面插入原始視頻中。
1.3.4交互式觀察點視頻呈現(xiàn)過程可以采用上述呈現(xiàn)程序結構來執(zhí)行以下過程,以便在圖8所示的本發(fā)明一實施例中呈現(xiàn)交互式的觀察點視頻。一般而言,對于所呈現(xiàn)視頻的每一個幀而言,當前用戶指定的觀察點首先被輸入(過程動作800)。然而注意到,可以僅輸入所指定觀察點的變化,而不是每次呈現(xiàn)視頻的一個新幀時都輸入觀察點。該情況下,除非已經(jīng)接收到觀察點的變化,否則會假設上一次指定的觀察點仍舊有效,并且會用于呈現(xiàn)視頻的當前幀。
一旦設立了用戶指定的觀察點,下一過程動作802就是標識與被呈現(xiàn)視頻的當前幀相關的該組同時期捕獲的輸入幀內的幀,所標識的幀是生成期望視圖所需的幀。然后解碼所標識的幀(過程動作804)。
接著,用經(jīng)解碼的視頻數(shù)據(jù)來呈現(xiàn)交互式觀察點視頻的當前幀(過程動作806)。該幀會描述與從用戶目前指定的觀察點所見的視頻當前時間部份相關的場景。如果期望觀察點落在用于捕獲場景的兩個相鄰攝像機的觀察點之間,這可能要求合成該幀。注意到,可以任意地修改上述過程以便也在上述呈現(xiàn)過程期間把計算機生成的或基于圖像的對象插入該場景,然而這一動作未在圖8中示出。
2.0可能的應用交互式觀察點視頻系統(tǒng)和過程可以有多種應用。在其基本級別,用戶能播放視頻并且在他們觀看時連續(xù)地改變他們的觀察點。因此,交互式觀察點視頻使用戶能像交互式3D媒質一樣體驗視頻。這很可能改變觀看動態(tài)事件的方式并且提高游戲的逼真度。所關注的動態(tài)事件的例子有體育比賽(棒球、籃球、滑板、網(wǎng)球等等)、教育片(怎樣打高爾夫、武術等等)以及表演(Cirque de Soleil、芭蕾、現(xiàn)代舞等等)。而且,如果有足夠的帶寬可用,則視頻可以被廣播或多播傳送,從而給出一種可被描述為3D電視的視覺體驗。
然而,本發(fā)明不限于在觀看視頻時改變觀察點。它也可用于產(chǎn)生諸如空時操作等多種特殊效應。例如,用戶可以使視頻停住,并且從多個觀察點觀看所述的場景。用戶也可以在從一個或多個觀察點觀看所述場景時播放該視頻,然后倒轉視頻并從不同觀察點觀看該場景。再比如,視頻可以以任何速度向前或向后播放,而同時根據(jù)需要改變觀察點。
交互式觀察點的上述特征不僅對于業(yè)余觀看者是有用的,而且對于電視和電影工業(yè)特別有用。為了代替確定要捕獲那部份場景以及提早從哪個觀察點捕獲的辛苦過程,其中還可能會丟失最期望的快照,可以使用本發(fā)明的系統(tǒng)和過程。例如,一場景會首先被捕獲作為一交互式觀察點視頻。接著,電影制作者會觀看該視頻并且為每一個快照(甚至逐幀地)選擇對于最終電影期望的觀察點。而且,上述對象插入特性也是對于電影制作者有利的一項工具。因此,這里給出的技術使我們更接近于把基于圖像的(和基于視頻的)呈現(xiàn)作為將來媒體創(chuàng)作和傳送的整體部份。
3.0參考書目[1]Buehler,C.,Bosse,M.,McMillan,L.,Gortler,S.J.,和Cohen,M.F.著作,2001年,“Unstructured lumigraph rendering”,發(fā)表于SIGGRAPH會刊2001(8月),第425-432頁。
Carceroni,R.L.和Kutulakos,K.N.著作,2001年,“Multi-view Scenecapture by surfel samplingFrom video streams to non-grid 3D motion,shape andreflectance”,發(fā)表于第八屆國際計算機影像會議(ICCV 2001),第II冊,第60-67頁。
Carranza,J.,Theobalt,C.,Magnor,M.A.和Seidel,H.-P.著作,2003年,“Free-viewpoint video of human actors”,發(fā)表于ACM圖形學報22,3(7月),第569-577頁。
Chang,C.-L.等人著作,2003年,“Inter-view wavelet compression oflight fields with disparity-compensated lifting”,發(fā)表于可視通信和圖像處理雜志(VCIP 2003)。
Chuang,Y.-Y.等人著作,2001年,“A Bayesian approach to digitalmatting”,發(fā)表于計算機圖像和模式識別會議(CVPR’2001),第II冊,第264-271頁。
Debevec,P.E.,Taylor,C.J.和Malik,J.著作,1996年,“Modeling andrendering architecture from photographsA hybrid geometry-and image-basedapproach”,發(fā)表于計算機圖形學雜志(SIGGRAPH’96)(8月),第11-20頁。
Debevec,P.E.,Yu,Y.和Borshukov,G.D.著作,1998年,“Efficientview-dependent image-based rendering with projective texture-mapping”,發(fā)表于Eurographics Rendering Workshop雜志1998,第105-116頁。
Gorler,S.J.,Grzeszczuk,R.,Szeliski,R.和Cohen,M.F.著作,1996年,“The lumigraph”,發(fā)表于計算機圖形學(SIGGRAPH’96)會刊,ACMSIGGRAPH,第43-54頁。
Hall-Holt,O.和Rusinkiewicz,S.著作,2001年,“Stripe boundary codesfor real-time structured-light range scanning of moving objects”,發(fā)表于第八屆國際計算機影像會議(ICCV 2001),第II冊,第359-366頁。
Heigl,B.等人著作,1999年,“Plenoptic modeling and rendering fromimage sequences taken by hand-held camera”,發(fā)表于DAGM’99,第94-101頁。
Kanade,T.,Rander,P.W.和Narayanan,P.J.著作,1997年,“Virtualized realityconstructing virtual worlds from real scenes”,發(fā)表于IEEE多媒體雜志1,1(1月-3月),第34-47頁。
Levoy,M.和Hanrahan,P.著作,1996年,“Light field rendering”,發(fā)表于計算機圖形學(SIGGRAPH’96)會刊,ACM SIG-GRAPH,第31-42頁。
Pulli,K.等人著作,1997年,“View-based renderingVisualizing realobjects from scanned range and color data”,發(fā)表于第八屆Eurographics Workshopon Rendering會刊。
Scharstein,D.和Szeliski,R.著作,2002年,“A taxonomy and evaluationof dense two-frame stereo correspondence algorithms”,發(fā)表于國際計算機影像雜志47,1(5月),第7-42頁。
Seitz,S.M.和Dyer,C.M.著作,1997年,“Photorealistic scenereconstruction by voxel coloring”,發(fā)表于計算機影像和模式識別會議(CVPR’97),第1067-1073頁。
Shade,J.,Gortler,S.,He,L.-W.和Szeliski,R.著作,1998年,“Layereddepth images”,發(fā)表于計算機圖形學(SIGGRAPH’98)會刊,ACM SIGGRAPH,Orlando,第231-242頁。
Tao,H.,Sawhney,H.和Kumar,R.著作,2001年,“A global matchingframework for stereo computation”,發(fā)表于第八屆國際計算機影像會議(ICCV2001),第I冊,第532-539頁。
Vedula,S.,Baker,S.,Seitz,S.和Kanade,T.著作,2000年,“Shape andmotion carving in 6D”,發(fā)表于計算機影像和模式識別會議(CVPR’2000),第II冊,第592-598頁。
Wexler,Y.,F(xiàn)itzgibbon,A.和Zisserman,A.著作,2002年,“Bayesianestimation of layers from multiple images”,發(fā)表于第七屆歐洲計算機影像會議(ECCV 2002),第III冊,第487-501頁。
Wilburn,B.,Smulski,M.,Lee,H.H.K.和Horowitz,M.著作,2002年,“The light field video camera”,發(fā)表于SPIE電子成像媒體處理器雜志,第4674冊,第29-36頁。
Yang,J.C.,Everett,M.,Buehler,C.和McMillan,L.著作,2002年,“Areal-time distributed light field camera”,發(fā)表于Eurographics Workshop onRendering雜志,P.Debevec和S.Gibson,Eds,第77-85頁。
Zhang,Y.和Kambhamettu,C.著作,2001年,“On 3D scene flow andstructure estimation”,發(fā)表于計算機影像和模式識別會議(CVPR’2001),第II冊,第778-785頁。
Zhang,L.,Curless,B.和Seitz,S.M.著作,2003年,“Spacetime stereoShape recovery for dynamic scenes”,發(fā)表于計算機影像和模式識別會議,第367-374頁。
Zhang,Z.著作,2000年,“A flexible new technique fbr cameracalibration”,發(fā)表于模式分析和機器智能的IEEE學報22,11,第1330-1334頁。
權利要求
1.一種用于生成交互式觀察點視頻的計算機實現(xiàn)過程,包括使用計算機來執(zhí)行以下過程動作輸入多個同步視頻流和校準數(shù)據(jù),其中每個視頻流都描述了同一場景的一部分,所述校準數(shù)據(jù)定義了與每個視頻流相關的幾何和光度參數(shù);以及對于來自同步視頻流的每組同時期幀,生成所述場景的一3D重構,使用所述重構來為該組同時期幀內的每個幀計算一差異圖,以及對于該組同時期幀內的每個幀,基于差異圖來標識有效景深不連續(xù)性的區(qū)域,生成一主層和一邊界層以便為所考慮的幀生成一分層表示,所述主層包括與一幀內不顯示出超過規(guī)定閾值的景深不連續(xù)性的區(qū)域相關聯(lián)的像素信息、以及來自景深不連續(xù)性超過該閾值的區(qū)域的背景像素信息,所述邊界層包括與景深不連續(xù)性超過該閾值的區(qū)域相關聯(lián)的前景像素信息。
2.如權利要求1所述的過程,其特征在于,還包括以下過程動作使用重構來計算所有攝像機視圖間的對應關系;以及一旦計算了對應關系就平衡每一組幀的光度參數(shù)。
3.如權利要求1所述的過程,其特征在于,還包括以下過程動作壓縮為交互式觀察點視頻的幀生成的分層表示以便于視頻的傳輸和/或存儲。
4.如權利要求3所述的過程,其特征在于,所述壓縮分層表示的過程動作包括在同時期的幾組交互式觀察點視頻幀之間使用時間壓縮技術。
5.如權利要求4所述的過程,其特征在于,所述壓縮分層表示的過程動作包括在同一同時期組的幀內的交互式觀察點視頻幀之間使用空間壓縮技術。
6.如權利要求3所述的過程,其特征在于,所述壓縮分層表示的過程動作包括在同一同時期組的幀內的交互式觀察點視頻幀之間使用空間壓縮技術。
7.如權利要求1所述的過程,其特征在于,還包括以下過程動作生成一交互式觀察點視頻文件,所述文件包括從所輸入的視頻流的幀和所述校準數(shù)據(jù)生成的分層表示。
8.如權利要求1所述的過程,其特征在于,所述多個同步視頻流和校準數(shù)據(jù)從多個視頻攝像機所捕獲的圖像幀導出。
9.如權利要求1所述的過程,其特征在于,所述多個同步視頻流和校準數(shù)據(jù)是計算機生成的。
10.如權利要求1所述的過程,其特征在于,所述生成場景的3D重構的過程動作包括以下動作采用基于分段的重構技術。
11.如權利要求1所述的過程,其特征在于,所述生成主層的過程動作包括為所述層中的每個像素設立色彩和景深的動作,其中生成邊界層的過程動作包括為所述層中的每個像素設立色彩、景深和不透明度的動作。
12.如權利要求1所述的過程,其特征在于,所述生成邊界層的過程動作包括以下動作擴大所述層以包含與顯示出超過閾值的景深不連續(xù)性的像素相鄰的規(guī)定數(shù)量的像素。
13.一種計算機可讀介質,其具有用于執(zhí)行權利要求1所述過程動作的計算機可執(zhí)行指令。
14.一種用于生成交互式觀察點視頻的系統(tǒng),包括視頻捕獲子系統(tǒng),包括用于捕獲多個視頻流的多個視頻攝像機,用于同步視頻流以創(chuàng)建同時期捕獲的視頻幀的一系列組,每組均描述了同一場景的一部分,一個或多個通用計算設備;具有可由所述一個或多個通用計算設備的至少一個執(zhí)行的程序模塊的第一計算機程序,所述模塊包括用于計算與每個視頻流相關的幾何和光度參數(shù)的攝像機校準模塊;以及具有可由所述一個或多個通用計算設備的至少一個執(zhí)行的程序模塊的第二計算機程序,所述模塊包括
3D重構模塊,該模塊從同步視頻流中生成在每組同時期幀內描述的場景的3D重構,并且使用所述重構為該組同時期幀內的每個幀計算一差異圖,遮蔽模塊,該模塊為每組同時期幀內的每個幀、基于幀的差異圖來標識有效景深不連續(xù)性的區(qū)域,分層表示模塊,該模塊為每組同時期幀內的每個幀生成一主層和一邊界層以為所考慮的幀產(chǎn)生一分層表示,所述主層包括與一幀內不顯示出超過規(guī)定閾值的景深不連續(xù)性的區(qū)域相關聯(lián)的像素信息以及來自景深不連續(xù)性超過該閾值的區(qū)域的背景像素信息,所述邊界層包括與景深不連續(xù)性超過該閾值的區(qū)域相關聯(lián)的前景像素信息。
15.如權利要求14所述的系統(tǒng),其特征在于,所述多個視頻攝像機以并行方式排列,使得每個攝像機都從一不同的觀察點觀看一場景。
16.如權利要求15所述的系統(tǒng),其特征在于,每個攝像機的視野與任一相鄰攝像機的視野重疊了一個規(guī)定量。
17.如權利要求15所述的系統(tǒng),其特征在于,設立各個攝像機相對于場景的目標對象或區(qū)域的距離、高度和水平位置,以形成連接了攝像機觀察點的規(guī)定路徑。
18.如權利要求17所述的系統(tǒng),其特征在于,所述規(guī)定路徑基本是水平的弧度。
19.如權利要求17所述的系統(tǒng),其特征在于,所述規(guī)定路徑基本是垂直的弧度。
20.如權利要求17所述的系統(tǒng),其特征在于,所述規(guī)定路徑是從一端掠到另一端的基本水平的弧度。
21.如權利要求14所述的系統(tǒng),其特征在于,一個或多個視頻攝像機是高分辨率的攝像機。
22.如權利要求14所述的系統(tǒng),其特征在于,所述視頻攝像機包括一同步鎖相特征。
23.如權利要求14所述的系統(tǒng),其特征在于,每個視頻攝像機把元數(shù)據(jù)加到它所生成的每個視頻幀,所述元數(shù)據(jù)包括當前的攝像機設置以及攝像機的曝光程度以及一時標。
24.如權利要求14所述的系統(tǒng),其特征在于,所述攝像機的類型是可經(jīng)由所述一個或多個計算設備遠程控制的攝像機,其中所述系統(tǒng)還包括具有可由所述一個或多個通用計算設備的至少一個可執(zhí)行的程序模塊的第三計算機程序,其中所述模塊包括用于控制多個視頻攝像機來同時打開或關閉并且調節(jié)它們的攝像機設置的視頻捕獲程序模塊。
25.如權利要求14所述的系統(tǒng),其特征在于,所述視頻捕獲子系統(tǒng)還包括用于在處理前保存視頻流的存儲設備。
26.如權利要求14所述的系統(tǒng),其特征在于,所述第二計算機程序還包括用于壓縮為交互式觀察點視頻幀生成的分層表示以便于視頻的傳輸和/或存儲的壓縮程序模塊。
27.如權利要求14所述的系統(tǒng),其特征在于,所述第二計算機程序還包括一交互式觀察點視頻文件生成程序模塊,該模塊用于創(chuàng)建一文件,所述文件包括從輸入的視頻流的幀以及校準模塊的輸出生成的分層表示。
28.一種用于從包括視頻幀分層表示和校準數(shù)據(jù)在內的數(shù)據(jù)呈現(xiàn)交互式觀察點視頻的計算機實現(xiàn)過程,所述視頻幀從一系列的同時期捕獲視頻幀的組中生成,每組都描述了同一場景的一部分,所述校準數(shù)據(jù)包括與各個視頻幀的捕獲相關聯(lián)的幾何參數(shù),所述過程包括使用計算機來為要被呈現(xiàn)的交互式觀察點視頻的每個幀執(zhí)行以下的過程動作標識當前用戶指定的觀察點;標識一組同時期捕獲幀中與被呈現(xiàn)的視頻當前時間部份相對應的幀,所標識的幀是從所標識的觀察點呈現(xiàn)其中描述的場景所需的幀;輸入所標識的視頻幀的分層表示;以及使用所輸入的分層幀表示從用戶當前指定的觀察點呈現(xiàn)交互式觀察點視頻的幀。
29.如權利要求28所述的過程,其特征在于,所述視頻幀數(shù)據(jù)被壓縮,其中輸入所標識視頻幀或數(shù)個幀的分層表示的過程動作包括對為了獲得所標識視頻幀的分層表示所必要的視頻幀數(shù)據(jù)部份進行解碼。
30.如權利要求28所述的過程,其特征在于,標識一組同時期捕獲幀中與被呈現(xiàn)的視頻當前時間部份相對應的幀或數(shù)幀、所標識的幀是從所標識的觀察點呈現(xiàn)其中描述的場景所需的幀,以上過程動作包括使用校準數(shù)據(jù)來確定與從中生成分層表示的每一個視頻幀相關聯(lián)的觀察點;每當所標識的觀察點符合從中生成分層表示的一個視頻幀的觀察點時,把該幀標識為呈現(xiàn)場景所需的唯一幀;以及每當所標識的觀察點落在從中生成分層表示的兩個視頻幀的觀察點之間時,把兩個幀都標識為呈現(xiàn)場景所需的幀。
31.如權利要求28所述的過程,其特征在于,所述呈現(xiàn)交互式觀察點視頻的幀的過程動作包括每當所標識的觀察點落在與該組同時期捕獲幀內的兩個輸入幀相關聯(lián)的觀察點之間時,從所述兩個輸入幀生成交互式觀察點視頻幀,所述兩個輸入幀與使用相關的校準數(shù)據(jù)呈現(xiàn)的視頻的當前時間部份相對應。
32.如權利要求31所述的過程,其特征在于,每個輸入幀的分層表示包括一主層和一邊界層,所述主層包括與一幀內不顯示出超過規(guī)定閾值的景深不連續(xù)性的區(qū)域相關聯(lián)的像素信息、以及來自景深不連續(xù)性超過該閾值的區(qū)域的背景像素信息,所述邊界層包括與景深不連續(xù)性超過該閾值的區(qū)域相關聯(lián)的前景像素信息,其中從與被呈現(xiàn)的視頻當前時間部份相對應的該組同時期捕獲幀的兩個輸入幀生成交互式觀察點視頻幀的過程動作包括以下動作對于依次的兩個輸入幀的每一個,把所考慮的輸入幀的主層投射到與當前用戶指定的觀察點相對應的視景,以及把所考慮的輸入幀的邊界層投射到與當前用戶指定的觀察點相對應的視景;混合兩個所產(chǎn)生的投射層組以創(chuàng)建交互式觀察點視頻的最終幀。
33.如權利要求32所述的過程,其特征在于,所述混合兩個所產(chǎn)生的投射層組的過程動作包括以下動作混合所投射的層,使得每個層和與用于創(chuàng)建所投射層的輸入層相關聯(lián)的觀察點與當前用戶指定觀察點的接近程度成正比。
34.如權利要求28所述的過程,其特征在于,所述呈現(xiàn)交互式觀察點視頻的幀的過程動作還包括把未在輸入的分層幀表示中發(fā)現(xiàn)的對象插入被呈現(xiàn)的幀。
35.一種計算機可讀介質,其具有用于執(zhí)行權利要求28所述過程動作的計算機可執(zhí)行指令。
36.一種使用包括視頻幀分層表示和校準數(shù)據(jù)在內的數(shù)據(jù)呈現(xiàn)和顯示交互式觀察點視頻的系統(tǒng),所述視頻幀從一系列的同時期捕獲視頻幀的組中生成,每組都描述了同一場景的一部分,所述校準數(shù)據(jù)定義了與各個視頻幀的捕獲相關聯(lián)的幾何參數(shù),所述系統(tǒng)包括用于輸入用戶觀察點選擇并把所呈現(xiàn)的交互式觀察點視頻幀顯示給用戶的用戶界面子系統(tǒng),包括用戶輸入觀察點選擇所采用的輸入設備,用于向用戶顯示所呈現(xiàn)的交互式觀察點視頻幀的顯示設備;通用計算設備;具有可由通用計算設備執(zhí)行的程序模塊的計算機程序,所述模塊包括選擇性解碼模塊,該模塊為了要被呈現(xiàn)和顯示的交互式觀察點視頻的每個幀對與視頻幀分層表示相關聯(lián)的指定數(shù)據(jù)進行解碼,呈現(xiàn)模塊,該模塊為了被呈現(xiàn)和顯示的交互式觀察點視頻的每個幀標識當前用戶選擇的觀察點;向選擇性解碼模塊指出從所標識觀察點呈現(xiàn)所述場景需要一組同時期捕獲的幀內的哪些幀,所指出的幀與被呈現(xiàn)和被顯示的視頻當前時間部份相對應;從選擇性解碼模塊得到經(jīng)解碼的幀數(shù)據(jù);以及使用經(jīng)解碼的幀數(shù)據(jù)從用戶當前選擇的觀察點呈現(xiàn)交互式觀察點視頻的幀。
37.如權利要求36所述的系統(tǒng),其特征在于,用戶界面子系統(tǒng)還包括一圖形用戶界面,該圖形用戶界面使用戶能在可能的觀察點中間圖解地表示出期望觀看場景的觀察點。
全文摘要
一種用于生成、然后呈現(xiàn)和顯示一交互式觀察點視頻的系統(tǒng)和過程,在所述交互式觀察點視頻中,用戶能在隨意操縱(停頓、減慢或倒轉)時間并改變觀察點的同時觀看到動態(tài)的場景。通常,交互式觀察點視頻用少量攝像機生成以捕獲多個視頻流。采用了多視圖的3D重構和遮蔽技術來創(chuàng)建視頻幀的分層表示,這能在允許實時呈現(xiàn)的同時,既能進行有效的壓縮、又能對所捕獲的動態(tài)場景進行交互式回放。
文檔編號G06T15/20GK1717064SQ20051008209
公開日2006年1月4日 申請日期2005年6月28日 優(yōu)先權日2004年6月28日
發(fā)明者C·濟特尼克三世, M·游伊頓戴爾, R·采里斯基, S·文德爾, 江勝明 申請人:微軟公司