表示和搜索圖像中的對象的方法和裝置的制作方法

文檔序號：7963649閱讀：144來源：國知局

專利名稱：表示和搜索圖像中的對象的方法和裝置的制作方法
技術領域：
本發(fā)明涉及用于表示圖像中的對象的方法和裝置，尤其是用于例如在多媒體數據庫中搜索的方法和裝置。本發(fā)明還涉及用于搜索圖像中的對象的方法和裝置。
眾所周知，利用出現(xiàn)在圖像中的對象的表示，例如在圖像庫中存儲靜止或視頻圖像。表示用在搜索方法中使包含感興趣的對象的圖像能夠被檢索。表示可能基于對象的各種特征，包括色彩、紋理和形狀。
已知各種用于表示圖像中對象的形狀的方法。已知方法包括鏈碼法、四元樹法以及曲率標度空間表示法。
為了在圖像搜索系統(tǒng)中進行搜索，用戶通過向系統(tǒng)提供所找對象的草圖或圖像，或者通過選擇存儲在系統(tǒng)中的對象的視圖，從而輸入查詢。然后系統(tǒng)導出或獲取查詢對象的表示，并且把查詢表示與存儲在數據庫中的圖像表示通過適當的匹配方法進行比較。把最接近的匹配結果顯示在顯示器上。
在大多數情況下，出現(xiàn)在視頻圖像中的對象是三維實物在二維像平面上的投影。因而，出現(xiàn)在圖像中的對象的二維形狀或輪廓以及可見對象表面的色彩和紋理取決于諸如觀察位置、觀察角度以及攝相機和光學系統(tǒng)參數之類的因素。因此，對象具有與不同視圖相關的諸如輪廓、形狀、色彩、紋理等不同的特征。
將本申請的共同待審的專利申請PCT/GB00/01662通過引用結合于此，該申請公開了一種用于表示出現(xiàn)在圖像中的對象的方法和裝置，其中，導出對象在多個不同二維視圖中的表示并使之相關而構成對象表示。所述表示最好是對象形狀的表示，但是也可以是例如不同視圖中的色彩或紋理的表示。
當對靜止圖像或電影等中的對象運用上述方法時，會有與圖像相關的若干形狀或其它描述符來表示與不同視圖相關的對象特征。但是，通常這些視圖中任何一個在原始圖像中都是可見的。其中一些特征可能與對象的不可見部分相關，而且僅用于描述對象的三維屬性。
如果無法確定對象的多個視圖中哪些可見、哪些不可見，搜索方法就不能準確地找到指定視圖。例如，利用側視圖搜索描述汽車的圖像，還會找到汽車的頂視圖和正視圖。
本發(fā)明的思想在于使用可見性標記，標明哪些描述符實際上是關于這些描述符所鏈接到的圖像或電影內的可見特征。
因此，本發(fā)明提供一種表示圖像中出現(xiàn)的對象的方法，所述方法包括導出對象的多個視圖描述符，各視圖描述符對應于對象的不同視圖；以及指明何時視圖對應于圖像中出現(xiàn)的對象的一個視圖。
在PCT/GB00/01662中公開的發(fā)明中，形狀描述符與一段多媒體內容內出現(xiàn)的對象相關。這些描述符描述了不同視圖中對象的形狀。這些視圖可以是多媒體素材中或者可見的或者不可見的?？梢娦詷擞洿鎯@種可見性信息。
當得到各個視圖的可見性數據時，所述搜索方法能夠在需要時濾出不可見視圖內的對象。
下面參照附圖描述本發(fā)明的實施例，圖中

圖1是根據本發(fā)明的一個實施例的系統(tǒng)的框圖；圖2是說明視頻序列中對象的表示的示意圖；圖3是說明靜止圖像中對象的表示的示意圖；圖4是說明第一搜索方法的結果的示意圖；圖5是說明第二搜索方法的結果的示意圖。
圖1中表示根據本發(fā)明的實施例的系統(tǒng)。所述系統(tǒng)包括控制單元2，比如用于控制系統(tǒng)操作的計算機；顯示單元4，比如監(jiān)視器，它與控制單元2相連，用于顯示包括圖像和文本的輸出；以及指示裝置6，比如鼠標，用于向控制單元2輸入指令。所述系統(tǒng)還包括圖像數據庫8，它存儲多個靜止圖像的數字形式，并且以視頻序列的形式存儲圖像組；以及描述符數據庫10，它存儲關于圖像數據庫8中存儲的靜止圖像和視頻序列的每一個中出現(xiàn)的對象的描述符信息，下文會詳細描述。圖像數據庫8和描述符數據庫10各連接到控制單元2。
在本實施例中，系統(tǒng)的各要素在單個位置上提供，如圖像庫，其中系統(tǒng)的各部分是永久地鏈接的。
下面描述根據本發(fā)明的實施例導出對象的描述符的方法。首先，就具有相對簡單形狀的對象(本例中為圓柱形對象)描述本方法。
在本例中，在圖像數據庫8中存儲的視頻序列中，圓柱形對象出現(xiàn)兩次。參照圖2，在第一次出現(xiàn)時，對象輪廓對應于視圖1，這是從側面看的視圖，在第二次出現(xiàn)時，對象輪廓對應于視圖3，這是從側面上方看的透視圖。
數據庫索引器(indexer)識別出這兩個輪廓是同一對象的，并且對應于這些輪廓的三維對象是圓柱體。對于視圖1和視圖3中的每一個，導出采用曲率標度空間(CSS)表示的形狀描述符。而且，數據庫索引器選擇被認為是代表該對象的任何附加視圖，即使它們未出現(xiàn)在所考慮的視頻序列中。在本例中，選擇視圖2作為代表，視圖2是從上方看的圓柱體的視圖。還獲取該視圖的CSS表示。
論文“通過曲率標度空間的健壯和有效的形狀索引”(由FarzinMokhtarian，Sadegh Abbassi和Josef Kittler發(fā)表，見于Proc.BritishMachine Vision Conference，第53-62頁，Edinburgh，UK1996)描述了一種曲率標度空間表示的方法，現(xiàn)將其通過引用結合于此。簡言之，表示形狀的輪廓的曲線通過平滑該曲線而得到演化。在演化的多個不同階段上考慮曲線。更明確地說，在演化的各階段上，在曲率函數中識別曲率過零點。通過將來自演化的所有階段的過零點組合，得到曲率過零點的曲線圖。該曲線圖的一條軸對應于σ，它表示曲線的演化參數，另一條軸對應于曲線弧長參數u。形狀則由曲線圖中輪廓的最大值的位置來表示。
對于每個視圖，形成視圖描述符，包括適當的CSS表示。視圖描述符可包括其他信息，諸如PCT/GB00/01662中描述的全程參數，或者相應可見表面的色彩/紋理屬性。
將視圖形狀描述符組合而形成3D對象形狀描述符。此外，可見性標記與對象描述符相關，指示在視頻序列中的至少一幀中給定視圖是否是可見的。在本實例中，可見性標記構成各視圖描述符的一部分。因此，這里，視圖1和視圖3的視圖描述符均包括可見性標記“1”，指示該視圖在視頻的一幀中是可見的，視圖2的視圖描述符具有可見性標記“0”，指示該視圖在任何幀中都不可見。
對于出現(xiàn)在圖像數據庫8中的圖像或圖像組中的所有感興趣的對象，以上述方式得到3D對象形狀描述符。
作為另一實例，參照圖3，對圖片中出現(xiàn)的汽車導出三個視圖。對各視圖中的汽車輪廓，按照上述方式獲得包括CSS表示的相應的視圖描述符。第一視圖對應于圖片中的視圖，因而，相關的視圖描述符具有可見性標記“1”，指明這是一個可見視圖。另兩個視圖的視圖描述符具有可見性標記“0”，指明它們對應于圖片中未示出的視圖。在本例中，當從圖片中抽取輪廓時，確定可見性標記。換言之，如果一個形狀是直接從圖片中抽取的，則它得到可見性標記“1”，但如果該形狀是通過索引器選擇的，則它具有可見性標記“0”。另外，可見性標記可以在后來通過查看來手工添加。
各視圖描述符還具有參考指針，指示它出現(xiàn)在哪個圖像中或者哪個視頻序列中的哪一幀中，還指示它是圖像或幀中的哪個對象，例如，一個對象的視圖可能具有指針，指示它出現(xiàn)在視頻181的幀1000中，它是第3號對象。
描述符數據庫10存儲關于圖像數據庫8中存儲的圖像和視頻序列中的對象的3D對象形狀描述符。
在上述實施例中，對于出現(xiàn)在視頻序列中的對象，對整個序列導出一組視圖描述符，并且用視圖描述符來指示相關視圖是否出現(xiàn)在該序列的至少一幀中。在另一實施例中，分別處理各幀。更具體地說，對出現(xiàn)在幀中的對象導出一組視圖描述符，并且可見性標記指示相關視圖是否出現(xiàn)在該幀中，而不管它是否出現(xiàn)在該序列的另一幀中。在另一備選實施例中，對出現(xiàn)在視頻序列中的對象導出一組視圖描述符，而且對各幀導出并存儲一組相應的可見性標記。
在搜索圖像中的對象的方法中使用可見性標記，如下所述。
用戶通過輸入查詢發(fā)起搜索。該查詢是利用指示裝置6在顯示單元4上畫出一個或多個形狀輪廓而輸入的。然后，控制單元2對查詢視圖導出CSS視圖描述符?；蛘?，用戶可在由控制單元2在顯示單元4上顯示的形狀菜單中選擇一個或多個查詢形狀而輸入查詢。在這種情況下，描述符數據庫10中可能已有視圖描述符。用戶還通過檢查一個框來指示是否搜索應當限制在與查詢視圖相同的視圖中。如果不這樣限定搜索，則基本上按照PCT/GB00/01662中描述的，通過確定查詢對象描述符與描述符數據庫10中存儲的對象描述符(下文稱為模型對象描述符)之間的相似性，執(zhí)行搜索和匹配程序。
簡言之，在比較器中，對于所考慮的模型對象描述符，將各個查詢視圖描述符與各個模型視圖描述符相比，使用匹配函數導出視圖相似性度量。第i個查詢視圖描述符與第j個模型視圖描述符的比較產生視圖相似性度量Si，j。當有一個以上的查詢視圖時，取視圖相似性度量的中值作為對象相似性度量S。
匹配程序產生n個相似性度量S，其中n是描述符數據庫中的3D對象描述符的數量。然后，從指示最接近匹配的最小值開始對n個相似性度量進行排序。然后選擇m個最小值，其中m是用戶選擇的值或者由控制單元的設置所確定的值，而且在顯示單元4上顯示包括對象的相應的m個圖像(其中的一些可以是視頻序列中的圖像)。
如果搜索限制在與查詢視圖相同的視圖，則在搜索過程中濾出不可見模型視圖。這可以通過利用匹配函數來匹配查詢視圖描述符與模型視圖描述符來完成，其中該模型視圖描述符指明相應的視圖在圖像中是可見的。換言之，當利用匹配函數計算相似性度量時，具有可見性標記“0”的模型視圖描述符被省去?；蛘?，可以對所有模型視圖描述符計算視圖相似性度量，但是從進一步處理中省去關于可見性標記為零的模型視圖描述符的結果?；蛘?，當選擇供顯示的搜索結果時，可以考慮該可見性標記。當顯示匹配程序的結果時，在視頻序列的情況下，顯示包含匹配視圖的幀。
圖4表示PCT/GB00/01662中公開的多視圖搜索方法如何尋找和返回同樣形狀但不是與查詢項相同的視圖的結果。圖5從另一方面說明各視圖描述符內的可見性標記如何能幫助返回同樣形狀而且是與查詢項相同的視圖的結果。
根據本發(fā)明的系統(tǒng)可以例如設置在圖像庫中?；蛘撸瑪祿炜梢赃h離系統(tǒng)的控制單元，通過臨時連接(如電話線)或網絡(比如因特網)連接到控制單元?？梢岳缭谟谰么鎯ζ骰虮銛y式數據存儲媒體、如CD-ROM或DVD中設置圖像和描述符數據庫。
所述系統(tǒng)的各部件、如選擇器和比較器可以軟件或硬件形式設置。盡管本發(fā)明以計算機系統(tǒng)的形式來描述，但是它可以用其它形式、如利用專用芯片來實現(xiàn)。
已經給出表示對象的2D形狀的方法和計算表示兩形狀之間相似性的值的方法的特定實例，但是，可以使用任何適當的這類方法。
構成完整或準完整形狀描述的對象的各種視圖可以由制片人來提供。例如，在包括汽車的電影中，制片人可以安排拍攝20個不同的汽車場景，用以在數據庫中為該電影編索引?；蛘?，可以在序列中的對象的所有不同視圖之間設置鏈接，使這些視圖能夠被找到，序列中未出現(xiàn)的任何有用視圖的形狀可以例如在包括對象的第一視圖的數據時提供。
本發(fā)明還可用于例如為驗證目的而匹配各對象的圖像，或者用于濾波。
本發(fā)明適用于單個圖像、圖像序列中的圖像(如電影或視頻中的圖像)、或者以某種方式(如在同一網頁上)相聯(lián)系的圖像集。
在上述實施例中，視圖描述符是從不同視圖中的對象形狀導出的?？梢詮膶ο蟮钠渌卣鳌⒈热缁蛘叽嫘螤罨蛘咦鳛樾螤畹囊徊糠值纳驶蚣y理導出。對象的各種特征如形狀、色彩、紋理可以單獨或結合起來構成視圖描述符的基礎，并且視圖描述符可以基于不同視圖的不同特征。
權利要求
1.一種產生表示在一個圖像或一組圖像中出現(xiàn)的對象的數據的方法，該方法包括導出所述對象的多個視圖描述符，每個視圖描述符對應于所述對象的一個不同視圖，還包括將所述視圖描述符同信息相聯(lián)系以產生所述數據，該信息指明相應的視圖是否對應于所述圖像或所述圖像組中出現(xiàn)的所述對象的一個視圖，其中，至少一個視圖描述符包括所述相應視圖中所述對象的形狀的一個表示。
2.如權利要求1所述的方法，其特征在于所述信息是一個標記，該標記指明所述相應的視圖是否出現(xiàn)在所述圖像或所述圖像組中至少一個圖像中。
3.如權利要求1所述的方法，其特征在于包括對于各個視圖描述符，為所述圖像或所述圖像組中的每個圖像指明所述相應的視圖是否對應于所述圖像中出現(xiàn)的所述對象的一個視圖。
4.如權利要求1所述的方法，其特征在于，所述圖像組是圖像序列。
5.如權利要求4所述的方法，其特征在于，所述圖像序列是來自一段視頻信號或電影。
6.如權利要求1所述的方法，其特征在于，所述包括所述相應視圖中所述對象的形狀的一個表示的視圖描述符是利用曲率標度空間表示導出的。
7.如權利要求1所述的方法，其特征在于，該方法是用于為搜索的目的而給圖像或圖像組編索引。
8.一種用來控制系統(tǒng)操作的控制單元，該系統(tǒng)適于產生表示一個圖像或圖像組中出現(xiàn)的對象的數據，其中，該控制單元導出所述對象的多個視圖描述符，各個視圖描述符對應于所述對象的不同視圖，還包括將所述視圖描述符同信息相聯(lián)系以產生所述數據，該信息指明所述相應的視圖是否對應于所述圖像或所述圖像組中出現(xiàn)的所述對象的一個視圖，其中，至少一個視圖描述符包括所述相應視圖中所述對象的形狀的一個表示。
9.一種適于產生表示圖像中出現(xiàn)的對象的數據的系統(tǒng)，該系統(tǒng)包括如權利要求8所述的控制單元。
10.如權利要求9所述的系統(tǒng)，該系統(tǒng)包括連接到所述控制單元的存儲裝置，用來存儲諸圖像和/或諸圖像的表示。
11.如權利要求10所述的系統(tǒng)，其中所述存儲裝置是圖像數據庫和/或描述符數據庫。
12.如權利要求9所述的系統(tǒng)，包括連接于所述控制單元的顯示單元，用來顯示輸出，和/或包括將指令輸入到所述控制單元的設備。
全文摘要
一種表示圖像中出現(xiàn)的對象的方法，該方法包括導出所述對象的多個視圖描述符，各個視圖描述符對應于所述對象的不同視圖，并將兩個或兩個以上視圖描述符相聯(lián)系，所述方法包括為各個視圖描述符指示何時相應的視圖對應于圖像中出現(xiàn)的對象的視圖。
文檔編號H04N5/91GK1896993SQ200610093458
公開日2007年1月17日申請日期2001年7月6日優(yōu)先權日2000年7月7日
發(fā)明者M·博伯, J·庫珀申請人:三菱電機株式會社

完整全部詳細技術資料下載