用于在部分已知環(huán)境中定位相機和3d重建的方法
【專利摘要】本發(fā)明涉及一種用于定位相機和用于所述相機所處的靜態(tài)環(huán)境的3D重建的方法,所述環(huán)境包括3D模型是已知的感興趣對象,所述方法包括以下步驟:a)計算初始重建和所述環(huán)境中的所述相機的初始姿態(tài);b)通過將所述環(huán)境的3D圖元與每個新圖像的2D圖元相匹配并通過三角測量重建環(huán)境的3D圖元,來針對每個新圖像計算所述相機的姿態(tài);以及c)通過使多個圖像上的重投影誤差最小化,同時優(yōu)化所述相機的姿態(tài)和所述3D圖元。該3D模型是所述感興趣對象的幾何描述,所述重投影誤差僅包括兩種項,即,與受所述3D模型約束的圖元相關聯(lián)的第一種項和與除所述對象之外的環(huán)境的圖元相關聯(lián)的第二種項,且優(yōu)化步驟包括將圖元與環(huán)境或與3D模型相關聯(lián)的子步驟。
【專利說明】用于在部分已知環(huán)境中定位相機和3D重建的方法
【技術領域】
[0001]本發(fā)明領域是部分已知環(huán)境的3D重建以及在相機移動所在的環(huán)境中通過觀測定位相機;“部分已知環(huán)境”這一表述應理解成意味包括已知3D幾何模型的感興趣對象的環(huán)境,對象以外的環(huán)境是未知的。
【背景技術】
[0002]估算相機軌跡被尤其應用于增強現(xiàn)實應用,其合并在真實場景的數(shù)字圖像中的虛擬對象。使用單個相機的增強現(xiàn)實系統(tǒng)的主要困難在于如何盡可能準確地估算真實場景(或者真實環(huán)境)與3D虛擬信息之間的3D配準,以獲得逼真的合并。該3D配準在任何情況下都需要確定相機的姿態(tài),也就是說相對于場景的固定參考系的其位置和其取向。
[0003]相對于3D場景的相機姿態(tài)估算是一熱點研究課題。
[0004]大多數(shù)現(xiàn)有方法,尤其是跟蹤3D對象,只考慮場景的已知部分,在這種情況下是感興趣對象的3D建模部分。在這些方法中,可以區(qū)分那些基于模型或“基于模型跟蹤”的方法和那些基于學習的方法。
[0005]基于模型的方法包括:通過對于由相機拍攝的每個圖像,將投影的3D模型邊緣和圖像中所檢測到的邊緣之間的距離最小化,來計算相機的6個姿態(tài)參數(shù)。由VincentLepetit 和 Pascal Fua 發(fā)表在 FTCGV,2005 上的公開出版物 “Monocular model_based3dtracking of rigid objects:A survey”描述了這種方法的一個范例。這些方法的主要限制是他們只在當對象在圖像序列中一直可見時有效。為了獲得精確的姿態(tài),感興趣對象還必需占據(jù)圖像的好部分,或者換言之,讓他們“靠近”相機。此外,相機的移動必須小到能夠確保3D跟蹤。
[0006]基于學習的方法需要一個所謂的初步學習階段,其包括學習對象的光度方面(gp外觀)。該階段包括通過從圖像中提取的紋理描述符來豐富對象的3D模型。兩種學習類型是可行的:
[0007]-將已知位置的編碼標記放置在對象周圍,以便從幾個角度估算相機姿態(tài)。編碼標記(又稱編碼目標)是已知大小的光學標記,其在圖像中很容易被檢測到并且通過其編碼被識別。對于這些角度中的每一個,從圖像中提取感興趣點并且以周圍的紋理為特征,并然后直接與3D點相關聯(lián),3D點通過來自相機視角的單一投影對應于對象上的感興趣點,3D點借助編碼目標點而對于這些角度中的每一個而言是已知的。由Juri Platonov、HaukeHeibel、Peter Meier 和 Bert Grollmann 發(fā)表在 ISMAR, 2006 上的公開出版物 “A mobilemarker I ess AR system for maintenance and repair” 提出了一個范例。
[0008]-通過對視頻序列的2D點進行匹配以及使用SfM重建技術來估算大量3D點,縮寫SfM代表“Structure from Motion”。然后,在對象的3D模型上對該大量3D點進行離線半自動重新對準,以獲得屬于該模型的3D點,通過從該圖像中提取的描述符來豐富該大量 3D 點。可以引用 P.Lothe、S.Bourgeois、F.Dekeyser、E.Royer 和 M.Dhome,他們發(fā)表在 CVPR, 2009 上的公開出版物 “Towards geographical referencing of monocularslam reconstruction using3d city models:Application to real-time accuratevision-based localization”描述了該方法的一個范例。一旦進行該學習階段,通過使用描述符的似然準則將從當前圖像中提取的2D點與對象的3D點相關聯(lián),來執(zhí)行在線姿態(tài)的計算。
[0009]這些方法中的兩個主要限制在于,一方面,他們需要初步學習階段,而另一方面,他們對在學習階段與姿態(tài)計算階段之間(磨損對象,照明條件的變化)的對象的光度外觀的改變非常敏感。此外,這些方法只對有強紋理對象有效。
[0010]總體上說,這些只考慮對象已知部分的方法的主要限制在于他們只在對象在圖像序列中一直可見時有效。如果對象被完全遮蔽或者從相機視場中消失,這些方法就無法再計算相機的姿態(tài)。
[0011]這些方法還受到“抖動”(由從一個圖像到下一個中所計算姿態(tài)的不穩(wěn)定性而引起的在增強現(xiàn)實中的顫動),并且為了獲得精確的姿態(tài)估算,感興趣對象必需占據(jù)圖像大量的空間。在實踐中,估算相機姿態(tài)時不考慮有關環(huán)境的信息。
[0012]其它方法考慮在完全未知的環(huán)境中移動的相機。SfM類型或者SLAM“SimultaneousLocalization And Mapping”類型的方法在不具有任何所觀測場景的幾何結構的先驗知識的情況下,估算相機的移動。已經提出了離線然后在線的方法。他們是非常穩(wěn)定的,因為他們使用所在位置的整個所觀測到的場景,他們包括逐漸估算相機軌跡和場景的幾何結構。為此,這些算法利用了多視圖關系(視圖即圖像)以估計相機的移動,可具有場景的3D重建(以3D圖元的稀疏云的形式:點、直線段等)。一般會執(zhí)行附加的優(yōu)化步驟,其包括同時細化相機姿態(tài)和重建的3D場景。后一步驟被稱為光束法平差(bundle adjustment)。SLAM型算法的主要缺點是它們受到誤差累積,并因此受到軌跡隨時間漂移的影響。因此不能在其原始形態(tài)中考慮它們在始終需要大的3D配準精度的應用(范例:增強現(xiàn)實)中的使用。而且,在單目情況下,在任意比例 尺上進行重建;可以僅通過增加關于場景度量的附加信息來知道實際比例尺;還在不與場景對象相聯(lián)系的任意參考系中進行重建。
[0013]最后,最近以來,一些方法試圖依次組合這兩種方法。已經提出了依次使用基于模型的方法然后使用SfM技術的方法,以估計移動相機在部分已知環(huán)境中的姿態(tài)。Bleser等人在ISMAR,2006中的文章“Online camera pose estimation in partially known anddynamic scenes”中利用模型的幾何約束對參考系和SLAM算法的重建的比例尺進行初始化。然后通過不再考慮3D模型的SLAM類型的“常規(guī)”方法來計算相機的位置。
[0014]不能保證初始化期間的精確度,因為這是在單個視圖上完成的,此外,該方法仍然受到數(shù)字誤差累積和比例尺因子漂移的影響。如前所述,基于SLAM或SfM類型的方法的位置不允許中期和長期的精確定位:漂移問題等。
[0015]V.Gay-Bellile, P.Lothe, S.Bourgeois, E.Royer 和 S.Naudet-Collette 在 ISMAR,2010 年中的文章 “Augmented Reality in Large Environments !Application to AidedNavigation in Urban Context”組合了 SLAM技術和使用預先學習的重新定位技術。因此能夠利用SLAM在對象不再可見時計算相機的姿態(tài)并利用重新定位避免漂移。然而,這種方法需要基于學習的方法類型的初步學習階段。
[0016]后兩種方法依次使用該模型的約束,然后使用環(huán)境的那些約束。
[0017]類似地,Lothe等人在 CVPR,2010 的文章 “Real-Time Vehicle GlobalLocalisation with a Single Camera in Dense Urban Areas !Exploitation of Coarse3DCity Models”中提出了依次使用環(huán)境約束,然后使用模型約束的方法。在這種情況下,進行環(huán)境的第一次重建,然后,在第二階段中,使用基于剛性迭代最近點(ICP)類型的方法的處理來在模型上對重建進行重新對準。它包括:在可能的時候(也就是說在該模型提供充分的幾何約束時),僅利用模型的信息重新對準相機的軌跡。這種方法的主要缺點在于,為了在模型3D配準步驟中保全多視圖約束,它們向該過程中包括的所有相機應用相似變換,這是在實踐中要做出的大假設。與基于模型的方法的相同缺點也存在:在幾乎未或根本未觀測到感興趣對象時,缺少精確度和魯棒性。而且,由于這種方法以兩個相繼步驟來執(zhí)行,所以不是最優(yōu)的,不會確保每個時刻的準確實時位置:在后驗步驟中利用模型做出校正,因此給針對當前圖像校正的姿態(tài)提供了時間延遲,使得該方法不適于諸如增強現(xiàn)實的應用。
[0018]因此,至今仍然需要一種用于定位相機并對相機移動所處的靜態(tài)環(huán)境進行3D重建的方法,該方法在精確度、魯棒性、穩(wěn)定性方面同時滿足所有上述要求,并實時地這樣做。
【發(fā)明內容】
[0019]根據(jù)本發(fā)明,在SLAM型算法的優(yōu)化階段期間,在部分已知環(huán)境中定位相機和環(huán)境的3D重建同時結合環(huán)境已知部分的幾何約束以及環(huán)境已知和未知部分的多視圖約束。
[0020]通過具有兩種項的單一成本函數(shù)來計算相機的姿態(tài)和構成環(huán)境的重建的3D圖元,該成本函數(shù)將由屬于感興趣對象的圖元(=環(huán)境的已知部分)的3D模型的幾何形狀所約束的優(yōu)化方程和屬于環(huán)境未知部分的圖元的常規(guī)優(yōu)化方程相結合。
[0021]更具體地,本發(fā)明的主題是一種用于定位相機和用于靜態(tài)環(huán)境的3D重建的方法,該相機在該靜態(tài)環(huán)境中移動,并且所述相機形成該靜態(tài)環(huán)境的圖像,該環(huán)境包括3D模型是已知的感興趣對象,所述方法包括以下步驟:
[0022]-a/計算初始重 建和環(huán)境中所述相機的初始姿態(tài),
[0023]-b/通過將環(huán)境的3D圖元與每個新圖像的2D圖元相匹配并通過三角測量重建環(huán)境的3D圖元,針對每個新圖像計算相機的姿態(tài),
[0024]-c/通過使多個圖像上的重投影誤差最小化,同時優(yōu)化相機的姿態(tài)和3D圖元。
[0025]本發(fā)明的主要特征在于,3D模型是感興趣對象的幾何描述,重投影誤差僅包括兩種項,即與受3D模型約束的圖元相關的第一種項和與除對象之外的環(huán)境中的圖元相關的第二種項,并且優(yōu)化步驟包括將圖元與環(huán)境或與3D模型相關聯(lián)的子步驟。
[0026]與SLAM或SfM型常規(guī)方法相比,這種方式提高了細化的魯棒性以及重建所有環(huán)境以及甚至利用大尺寸(眾多3D圖元和眾多場景視圖)場景(=環(huán)境)定位相機的精確度。這是因為我們的系統(tǒng)并入了來自3D幾何模型的絕對信息。此外,獲得的重建符合實際比例尺(借助3D模型獲得)。
[0027]最后,與基于模型的跟蹤方法相比,提出的方案更令人滿意,因為它不必連續(xù)看到場景的感興趣對象。在實踐中,即使未觀測到關注的對象(或如果其占據(jù)圖像的小部分),相機也能夠始終位于其移動所處的環(huán)境中。因此該方法對于部分甚至全部遮蔽都是完全魯棒性的。還實現(xiàn)了相機定位的更好穩(wěn)定性。
[0028]最后,與相繼使用兩種信息的方法相比,確保兩種約束在每個時刻都是同時產生的。然后利用更魯棒性的方法獲得相機和3D重建的更精確位置。[0029]該方法與現(xiàn)有技術相比的主要差別在于:
[0030]-不需要任何預備學習階段,
[0031]-不需要在相機的整個軌跡中將(已知3D模型的)感興趣對象保持在相機視野中,或者換言之,不需要在每幅圖像中看到對象,
[0032]-對遮蔽和相機/對象距離的較大變化是魯棒性的,
[0033]-能夠自然地細化近似初始姿態(tài),
[0034]-提高環(huán)境3D重建的精度,
[0035]-對有紋理或無紋理對象都有效,
[0036]-確保兩個相繼姿態(tài)之間高度的穩(wěn)定性(沒有抖動,對于例如增強現(xiàn)實應用而言,該抖動常常是破壞性的),
[0037]-使得能夠同時重建環(huán)境和對象,這避免了顫動和不精確效應。
[0038]最后,獲得了一種非常精確、魯棒性且穩(wěn)定性的定位系統(tǒng)。
[0039]根據(jù)本發(fā)明的一個特征,利用呈現(xiàn)拒絕閾值的魯棒性估計器,通過根據(jù)該拒絕閾值自適應控制每種項的影響,來執(zhí)行優(yōu)化步驟。優(yōu)選地,重投影誤差的每種項都關聯(lián)于與魯棒性估計器的所述拒絕閾值相關的拒絕閾值,兩個拒絕閾值(cl,c2)等于基于3D模型對殘余估計的該估計器的拒絕閾值。這樣能夠有利于該模型帶來的約束,同時保存由環(huán)境圖元帶來的多圖像約束。
[0040]可以利用大小已知且相對于該對象的參考系的平面之一來定位的目標(也稱為標記器)半自動地執(zhí)行初始姿態(tài)的計算,目標是位于平面之間且可以在圖像中識別的一組3D圖元,這使得能夠固定三個自由度,并通過向模型上反向投影2D圖元來獲得初始重建。
[0041]根據(jù)本發(fā)明的一個特征,基于感興趣對象的3D模型約束的圖元和除對象之外的環(huán)境的圖元,執(zhí)行針對每個新圖像計算相機姿態(tài)的步驟。
[0042]所述優(yōu)化步驟之后可以為三角測量步驟,其中圖元不受3D模型的約束。
[0043]在當前圖像和上一關鍵圖像之間配對的圖元數(shù)量低于最小值時,僅針對所選擇的關鍵圖像執(zhí)行優(yōu)化和/或重建步驟。
[0044]優(yōu)選利用局部光束法平差來有利地執(zhí)行優(yōu)化步驟,這樣能夠獲得實時方法。
[0045]根據(jù)研究對象是否有紋理和/或無紋理,來選擇受3D模型約束的圖元。
【專利附圖】
【附圖說明】
[0046]在閱讀結合附圖給出并作為非限制性范例給出的以下詳細描述時,本發(fā)明的其它特征和優(yōu)點將變得明顯,附圖中:
[0047]圖1示意性示出了根據(jù)現(xiàn)有技術來定位相機和3D重建的方法的主要步驟,
[0048]圖2示意性示出了根據(jù)本發(fā)明來定位相機和3D重建的方法的主要步驟。
【具體實施方式】
[0049]本發(fā)明基于一種并入與場景中對象模型的知識相關的幾何約束的改進SfM型的方法。場景,也稱為環(huán)境,是靜態(tài)的,并且對象在場景中不改變位置,盡管在由相機輸入圖像序列(視頻)期間可以修改其自身,在視頻期間感興趣對象的元素可能被移動或去除。
[0050]以下描述是在定位相機(其軌跡的估計)和對其移動所處的3D環(huán)境的建模(或重建)的語境中給出的。
[0051]在下文中,對于環(huán)境,將在其已知部分(即對象模型)和環(huán)境的未知部分(其為模型之外的環(huán)境)之間得出區(qū)別。
[0052]本發(fā)明基于SfM方法。該SfM方法在其原始版本中與由E.Mouragnon, M.Lhuillier, M.Dhome, F.Dekeyser 和 P.Sayd 在 CVPR,2006 中的文章“Real timelocalization and3d reconstruction”中提出的相同,該方法用于感興趣點,但可以應用于不同類型的圖元。在其原始版本中,結合圖1描述的這種常規(guī)SfM方法包括以下四個步驟:初始化(步驟A)、定位(步驟B)、重建(步驟D)、優(yōu)化(步驟E)。應當直接注意,可以相繼地或并行地執(zhí)行最后三個步驟。
[0053]該初始化包括執(zhí)行所觀測場景的第一次3D重建以及計算相機的第一姿態(tài)(位置和旋轉)。
[0054]該定位(也稱為3D跟蹤)包括根據(jù)已經重建的場景的3D圖元與當前圖像的2D圖元的相關性計算相機的姿態(tài)。
[0055]該3D重建包括:將在先圖像(2D跟蹤)的圖元與當前圖像中檢測到的圖元相匹配,從而允許通過3D三角測量對圖元(尤其是新圖元)進行3D重建。
[0056]該優(yōu)化使得能夠細化3D場景重建和所估計的相機軌跡。該優(yōu)化基于使非線性成本函數(shù)(在這種情況下為重投影誤差)最小化,從而能夠將圖像中重投影的重建性圖元與圖像中觀測到的那些圖元最好地匹配??梢允褂枚喾N方法,可以提到的其中一種是光束法平差。此外,還可以通過使圖像中的2D誤差最小化來使用基于核面幾何學的方法,并根據(jù)該方法首先優(yōu)化軌跡, 在第二時間優(yōu)化場景的重建。
[0057]出于實時性能的目的,3D重建和優(yōu)化步驟并不對于所有圖像執(zhí)行,而僅對于被稱為“關鍵圖像”的特定圖像執(zhí)行(步驟C)。通過獲得相機姿態(tài)之間相對位移與圖像中匹配的圖元數(shù)量之間的折中,以本領域技術人員的已知常規(guī)方式來選擇它們,以有利于通過三角測量執(zhí)行的3D重建。這相當于在當前圖像和上一關鍵圖像之間的匹配圖元數(shù)量低于最小值時選擇關鍵圖像。
[0058]通常,利用光束法平差執(zhí)行該優(yōu)化階段,這能夠同時優(yōu)化軌跡和重建。通過光束法平差進行優(yōu)化使得重投影誤差之和(即投影的3D圖元和所檢測的2D圖元的距離之和)最小化。
[0059]利用以下表示,將詳述基于光束法平差的優(yōu)化階段。
[0060]矢量被表達為統(tǒng)一的坐標。例如,q = (x,y,w)T,其中T被移項,且=在比例因子
之內相等。要細化的場景重建包括N個3D點和相機的m個姿態(tài)對于姿態(tài)
Ck,相機中觀測的3D點Qi被表示為qi,k,且觀測相機指數(shù)Qi的集合表示為K。與相機姿態(tài)
Ck相關聯(lián)的投影矩陣匕由巧=/^,丨(/5|-^.;)給出,其中K為固有參數(shù)的矩陣,而(Rk;tk)是在
時刻k的相機姿態(tài)的參數(shù)。常規(guī)的光束法平差使得能夠同時細化描述所觀測場景的3D點和相機姿態(tài)。它使得圖像中3D點的投影與其觀測之間的平方距離之和最小化。這種幾何距離被稱為重投影誤差ε。要優(yōu)化的參數(shù)是N個3D點的三個坐標和相機m個姿態(tài)的六個非固有參數(shù)。于是參數(shù)的總數(shù)為3N+6m。成本函數(shù)由下式給出:
【權利要求】
1.一種用于定位相機和用于靜態(tài)環(huán)境的3D重建的方法,所述相機在所述靜態(tài)環(huán)境中移動,并且所述相機形成所述靜態(tài)環(huán)境的圖像,該環(huán)境包括3D模型是已知的感興趣對象,所述方法包括以下步驟: -a/計算初始重建和所述環(huán)境中所述相機的初始姿態(tài), -b/通過將所述環(huán)境的3D圖元與每個新圖像的2D圖元相匹配并通過三角測量重建所述環(huán)境的3D圖元,來針對每個新圖像計算所述相機的姿態(tài), -c/通過使多個圖像上的重投影誤差最小化,同時優(yōu)化所述相機的姿態(tài)和所述3D圖元, 其特征在于,所述3D模型是所述感興趣對象的幾何描述,所述重投影誤差僅包括兩種項,即與受所述3D模型約束的圖元相關的第一種項和與除所述對象之外的環(huán)境的圖元相關的第二種項,且優(yōu)化步驟包括將圖元與環(huán)境或與所述3D模型相關聯(lián)的子步驟。
2.根據(jù)前述權利要求所述的用于定位相機和用于靜態(tài)環(huán)境的3D重建的方法,其特征在于,利用呈現(xiàn)拒絕閾值的魯棒性估計器,通過根據(jù)所述拒絕閾值自適應控制每種項的影響,來執(zhí)行所述優(yōu)化步驟。
3.根據(jù)前述權利要求所述的用于定位相機和用于靜態(tài)環(huán)境的3D重建的方法,其特征在于,重投影誤差的每種項都關聯(lián)于與所述魯棒性估計器的所述拒絕閾值相關的拒絕閾值,兩個拒絕閾值(cl,c2)等于基于所述3D模型對殘余估計的所述估計器的拒絕閾值。
4.根據(jù)前述權利要求之一所述的用于定位相機和用于靜態(tài)環(huán)境的3D重建的方法,其特征在于,利用大小已知并相對于所述對象的參考系的平面之一來定位的目標半自動地執(zhí)行所述初始姿態(tài)的計算,目標是位于它們之間并在圖像中可識別的一組3D圖元,且通過向所述模型上反向投影所述2D圖元來獲得所述初始重建。
5.根據(jù)前述權利要求之一所述的用于定位相機和用于靜態(tài)環(huán)境的3D重建的方法,其特征在于,基于受所述3D模型約束的圖元和除所述對象之外的所述環(huán)境的圖元,來執(zhí)行針對每個新圖像計算所述相機的姿態(tài)的步驟。
6.根據(jù)前述權利要求之一所述的用于定位相機和用于靜態(tài)環(huán)境的3D重建的方法,其特征在于,所述優(yōu)化步驟之后為三角測量步驟,其中圖元不受所述3D模型的約束。
7.根據(jù)前述權利要求之一所述的用于定位相機和用于靜態(tài)環(huán)境的3D重建的方法,其特征在于,在當前圖像和上一關鍵圖像之間匹配的圖元數(shù)量低于最小值時,僅針對選擇的關鍵圖像執(zhí)行所述3D重建步驟和/或所述優(yōu)化步驟。
8.根據(jù)前述權利要求之一所述的用于定位相機和用于靜態(tài)環(huán)境的3D重建的方法,其特征在于,利用局部光束法平差執(zhí)行所述優(yōu)化步驟。
9.根據(jù)前述權利要求之一所述的用于定位相機和用于靜態(tài)環(huán)境的3D重建的方法,其特征在于,所述圖像來自實時視頻流和事先錄制的視頻。
10.根據(jù)前述權利要求之一所述的用于定位相機和用于靜態(tài)環(huán)境的3D重建的方法,其特征在于,所述感興趣對象在特定圖像中不可見,或者在圖像之間被修改。
11.根據(jù)前述權利要求之一所述的用于定位相機和用于靜態(tài)環(huán)境的3D重建的方法,其特征在于,根據(jù)所述對象是否有紋理和/或無紋理,來選擇受所述3D模型約束的圖元。
【文檔編號】G06T7/00GK103635937SQ201280032553
【公開日】2014年3月12日 申請日期:2012年5月29日 優(yōu)先權日:2011年5月30日
【發(fā)明者】M·塔瑪祖斯蒂, S·布儒瓦, M·多姆, V·蓋伊-貝利勒, S·諾代 申請人:原子能和輔助替代能源委員會