用于匹配可視對象組件的系統(tǒng)和方法
【專利摘要】本發(fā)明公開用于對公共圖像組件(例如,子區(qū)域)的出現(xiàn)建模以便改進(jìn)可視對象識別的系統(tǒng)和方法。在一個示例中,可以將查詢圖像與對象的訓(xùn)練圖像進(jìn)行匹配??梢源_定在訓(xùn)練圖像內(nèi)的如下匹配的區(qū)域,查詢圖像與該匹配的區(qū)域匹配,并且可以進(jìn)行確定匹配的區(qū)域是否位于訓(xùn)練圖像的標(biāo)注的圖像組件內(nèi)。在匹配的區(qū)域僅與圖像組件匹配時,可以標(biāo)識與組件關(guān)聯(lián)的標(biāo)注。在另一示例中,可以標(biāo)注在多個訓(xùn)練圖像全集內(nèi)的子區(qū)域作為包括關(guān)聯(lián)信息(例如,元數(shù)據(jù))的公共圖像組件。可以在匹配過程中權(quán)值下調(diào)在對象的許多訓(xùn)練圖像中出現(xiàn)的匹配子區(qū)域以減少與包括公共圖像組件的查詢圖像的可能錯誤匹配。
【專利說明】用于匹配可視對象組件的系統(tǒng)和方法
[0001]相關(guān)申請的交叉引用
[0002]本申請要求于2011年7月13日提交的第13/182,076號美國申請的優(yōu)先權(quán),其通過引用將內(nèi)容結(jié)合于此。
【技術(shù)領(lǐng)域】
[0003]本公開內(nèi)容涉及對象識別并且例如涉及對象組件的識別。
【背景技術(shù)】
[0004]識別對象的能力可以在許多應(yīng)用中使用。盡管人類可以容易標(biāo)識在圖像或者視頻內(nèi)的給定的對象,但是相同任務(wù)可能對于計算機(jī)視覺系統(tǒng)更復(fù)雜。已經(jīng)開發(fā)許多方式和技術(shù)以嘗試使用計算機(jī)視覺系統(tǒng)來識別對象。一個示例包括使用訓(xùn)練或者參考圖像的集合來訓(xùn)練識別引擎或者匹配器。
[0005]匹配器可以具有用于識別對象的訓(xùn)練圖像集合的知識。例如,訓(xùn)練全集可以包含對象集合的圖像而對象的可視出現(xiàn)有一個或者多個圖像以及包含標(biāo)識對象的元數(shù)據(jù)。給定待識別的對象的圖像,匹配器可以取回與對象相似的訓(xùn)練圖像并且確定匹配。經(jīng)??梢苑祷仄ヅ涞挠?xùn)練圖像的對應(yīng)元數(shù)據(jù)、比如識別的對象的類型、名稱、標(biāo)題等。此外,也可以標(biāo)識訓(xùn)練圖像的如下匹配的區(qū)域,對象的圖像與該匹配區(qū)域匹配。
【發(fā)明內(nèi)容】
[0006]本公開內(nèi)容可以公開用于學(xué)習(xí)和匹配可視對象組件的系統(tǒng)和方法以及其它方面。
[0007]在一個示例中,提供一種用于標(biāo)識與查詢圖像匹配的標(biāo)注的圖像組件的方法。該方法包括但不限于接收查詢圖像。該方法還包括使用可視對象識別模塊來匹配查詢圖像與對象??梢晫ο笞R別模塊可以例如被配置用于利用來自多個訓(xùn)練圖像全集的信息以匹配查詢圖像與對象的訓(xùn)練圖像。該方法也包括使用可視對象識別模塊來確定在訓(xùn)練圖像內(nèi)的如下匹配的區(qū)域,查詢圖像與該匹配的區(qū)域匹配。此外,該方法還包括確定匹配的區(qū)域是否位于訓(xùn)練圖像的標(biāo)注的圖像組件內(nèi)。在一個示例中,標(biāo)注的圖像組件可以是訓(xùn)練圖像的子區(qū)域,該子區(qū)域包括描述子區(qū)域的關(guān)聯(lián)標(biāo)注。該方法還包括在匹配的區(qū)域位于訓(xùn)練圖像的標(biāo)注的圖像組件內(nèi)時標(biāo)識與標(biāo)注的圖像組件關(guān)聯(lián)的標(biāo)注。
[0008]在另一示例中,提供一種具有在其上存儲的指令的非瞬態(tài)計算機(jī)可讀介質(zhì)。指令可以可由計算設(shè)備執(zhí)行。指令可以可被執(zhí)行用于接收查詢圖像,并且使用可視對象識別模塊來匹配查詢圖像與對象??梢晫ο笞R別模塊可以例如被配置用于利用來自多個訓(xùn)練圖像全集的信息以匹配查詢圖像與對象的訓(xùn)練圖像。指令還可以可被執(zhí)行用于使用可視對象識別模塊來確定在訓(xùn)練圖像內(nèi)的如下匹配的區(qū)域,查詢圖像與該匹配的區(qū)域匹配。指令也可以可被執(zhí)行用于確定匹配的區(qū)域是否位于訓(xùn)練圖像的標(biāo)注的圖像組件內(nèi)。標(biāo)注的圖像組件可以例如是訓(xùn)練圖像的子區(qū)域,并且可以包括描述子區(qū)域的關(guān)聯(lián)標(biāo)注。根據(jù)可執(zhí)行指令,可以在匹配的區(qū)域位于訓(xùn)練圖像的標(biāo)注的圖像組件內(nèi)時,標(biāo)識與標(biāo)注的圖像組件關(guān)聯(lián)的標(biāo)注。
[0009]在另一示例中,提供一種系統(tǒng)。該系統(tǒng)包括存儲器和耦合到存儲器的處理器。該系統(tǒng)還包括在存儲器中存儲的可由處理器執(zhí)行的指令。指令可以可被執(zhí)行用于接收查詢圖像,并且使用可視對象識別模塊來匹配查詢圖像與對象??梢晫ο笞R別模塊可以例如被配置用于利用來自多個訓(xùn)練圖像全集的信息以匹配查詢圖像與對象的訓(xùn)練圖像。指令還可以可被執(zhí)行用于使用可視對象識別模塊來確定在訓(xùn)練圖像內(nèi)的如下匹配的區(qū)域,查詢圖像與該匹配的區(qū)域匹配。指令也可以可被執(zhí)行用于確定匹配的區(qū)域是否位于訓(xùn)練圖像的標(biāo)注的圖像組件內(nèi)。標(biāo)注的圖像組件可以例如是訓(xùn)練圖像的子區(qū)域并且可以包括描述子區(qū)域的關(guān)聯(lián)標(biāo)注。根據(jù)可執(zhí)行指令,可以在匹配的區(qū)域位于訓(xùn)練圖像的標(biāo)注的圖像組件內(nèi)時標(biāo)識與標(biāo)注的圖像組件關(guān)聯(lián)的標(biāo)注。
[0010]前文
【發(fā)明內(nèi)容】
僅為示例而未旨在于以任何方式限制。除了以上描述的示例方面、實施例和特征之外,更多方面、實施例和特征將通過參照附圖和以下具體描述而變得清楚。
【專利附圖】
【附圖說明】
[0011]圖1圖示示例系統(tǒng)。
[0012]圖2是根據(jù)這里描述的至少一些實施例的用于匹配查詢圖像與標(biāo)注的圖像組件的方法的示例框圖。
[0013]圖3A圖示查詢圖像和匹配的訓(xùn)練圖像的示例。
[0014]圖3B圖不查詢圖像和匹配的訓(xùn)練圖像的另一不例。
[0015]圖4是根據(jù)這里描述的至少一些實施例的用于發(fā)現(xiàn)和標(biāo)注對象組件的示例框圖。
[0016]圖5A是可能對象組件關(guān)系的示例有向非循環(huán)圖。
[0017]圖5B圖示標(biāo)注對象組件的示例。
[0018]圖6是根據(jù)這里描述的至少一些實施例的用于向公共圖像組件指派加權(quán)因子的方法的示例框圖。
[0019]圖7A圖示公共圖像組件的示例。
[0020]圖7B圖示公共圖像組件的另一示例。
[0021]圖8是圖示在根據(jù)這里描述的至少一些實施例布置的計算系統(tǒng)中使用的示例計算設(shè)備的功能框圖。
[0022]圖9是圖示根據(jù)這里呈現(xiàn)的至少一些實施例布置的示例計算機(jī)程序產(chǎn)品的概念部分視圖的示意圖,該計算機(jī)程序產(chǎn)品包括用于在計算設(shè)備上執(zhí)行計算機(jī)過程的計算機(jī)程序。
【具體實施方式】
[0023]在以下具體描述中,參照附圖,這些附圖形成該描述的部分。在附圖中,除非上下文另有明示,相似符號通常標(biāo)識相似組件。在具體描述、附圖和權(quán)利要求中描述的示例實施例無意于限制??梢岳闷渌鼘嵤├⑶铱梢赃M(jìn)行其它改變而未脫離這里呈現(xiàn)的主題內(nèi)容的范圍。將容易理解,可以在廣泛多種不同配置中布置、替換、組合、分離和設(shè)計本發(fā)明的如這里一般描述并且在附圖中圖示的方面,這里明確地設(shè)想所有這些配置。
[0024]本公開內(nèi)容可以包括用于自動學(xué)習(xí)和匹配可視對象組件的系統(tǒng)和方法以及其它方面。系統(tǒng)和方法可以涉及對公共圖像組件(例如,子區(qū)域)的出現(xiàn)建模以便改進(jìn)可視對象識別。
[0025]在一個示例中,可以接收并且使用可視對象識別模塊來匹配查詢圖像與對象??梢晫ο笞R別模塊可以被配置用于利用例如來自多個訓(xùn)練圖像全集的信息以匹配查詢圖像與對象的一個或者多個訓(xùn)練圖像。可視對象識別模塊也可以確定在訓(xùn)練圖像內(nèi)的如下匹配的區(qū)域,查詢圖像與該匹配的區(qū)域匹配。另外,可以進(jìn)行確定匹配的區(qū)域是否位于訓(xùn)練圖像的標(biāo)注的圖像組件內(nèi)。作為示例,標(biāo)注的圖像組件可以是訓(xùn)練圖像的子區(qū)域,該子區(qū)域包括描述子區(qū)域的標(biāo)注。
[0026]在一個示例中,在匹配的區(qū)域僅與圖像組件(或者圖像的對象的一部分)而不是圖像的整個對象匹配時,可以標(biāo)識并且向用戶返回與該組件關(guān)聯(lián)的標(biāo)注。例如,在匹配的區(qū)域位于訓(xùn)練圖像的標(biāo)注的圖像組件內(nèi)時,可以標(biāo)識與標(biāo)注的圖像組件關(guān)聯(lián)的標(biāo)注。此外,在位于標(biāo)注的圖像組件內(nèi)的匹配的區(qū)域的百分比小于百分比閾值時,可以標(biāo)識與訓(xùn)練圖像的整體關(guān)聯(lián)的標(biāo)注。
[0027]在另一示例中,可以接收多個訓(xùn)練圖像全集??梢栽诙鄠€訓(xùn)練圖像全集之中執(zhí)行跨全集圖像區(qū)域匹配以發(fā)現(xiàn)公共圖像組件??梢詫⒃诙鄠€訓(xùn)練圖像全集內(nèi)的匹配的區(qū)域標(biāo)注為在訓(xùn)練圖像內(nèi)的包括關(guān)聯(lián)信息(例如,元數(shù)據(jù))的子區(qū)域。
[0028]在又一示例中,可以調(diào)整對可視對象識別模塊的匹配過程有影響的加權(quán)因子。例如,可以在匹配過程中權(quán)值下調(diào)在對象的許多訓(xùn)練圖像中頻繁出現(xiàn)的公共圖像組件以減少與包括公共圖像組件的查詢圖像的可能錯誤匹配。
[0029]現(xiàn)在參照附圖,圖1圖示示例系統(tǒng)100。系統(tǒng)100的一個或者多個部分可以用來執(zhí)行用于學(xué)習(xí)和匹配可視對象組件的方法。系統(tǒng)100可以包括耦合到存儲器104的處理器102。此外,系統(tǒng)100可以包括都可以耦合到處理器102和存儲器104的多個訓(xùn)練圖像全集106、查詢圖像108和可視對象識別模塊110。
[0030]處理器102可以是耦合到存儲器104的任何類型的處理器、比如微處理器、數(shù)字信號處理器(DSP)、多核處理器等。存儲器104可以是任何類型的存儲器、比如易失性存儲器如隨機(jī)存取存儲器(RAM)、動態(tài)隨機(jī)存取存儲器(DRAM)、靜態(tài)隨機(jī)存取存儲器(SRAM)或者非易失性存儲器如只讀存儲器(ROM)、閃存、磁或者光盤或者緊致盤只讀存儲器(CD-ROM)以及用來在暫時或者持久基礎(chǔ)上存儲數(shù)據(jù)或者程序的其它設(shè)備。在一個示例中,存儲器104可以包括非瞬態(tài)計算機(jī)可讀介質(zhì)。
[0031]在一個實施例中,多個訓(xùn)練圖像全集106可以包括或者描述對象集合。對于每個對象,可以有包含對象的可視出現(xiàn)的一個或者多個訓(xùn)練圖像以及與對象關(guān)聯(lián)的元數(shù)據(jù)(例如,類型、名稱等)。
[0032]在一些示例中,可以處理在多個訓(xùn)練圖像全集106內(nèi)的信息用于由可視對象識別模塊110使用。例如,可以計算原始圖像數(shù)據(jù)用于在匹配例程內(nèi)比較圖像相似度。備選地,取代匹配原始圖像數(shù)據(jù)(或者除了匹配原始圖像數(shù)據(jù)還)可以基于圖像模板執(zhí)行匹配。匹配圖像模板可以是一種例如在確定圖像相似度方面比匹配原始圖像數(shù)據(jù)更有效的方法。
[0033]在一個示例中,對于每個圖像(例如,多個訓(xùn)練圖像全集106的訓(xùn)練圖像和查詢圖像108),可以提取用于圖像興趣點的描述,并且可以構(gòu)建圖像模板。描述符可以包括從在圖像興趣點周圍的局部像素提取的信息。圖像興趣點可以是在圖像中的如下點,該點可以具有清晰定義(例如,可以在數(shù)學(xué)上被良好建立)、可以在圖像空間中具有良好定義的位置、可以具有在局部信息內(nèi)容方面豐富的局部圖像結(jié)構(gòu)并且在圖像域中的局部和全局?jǐn)_動之下穩(wěn)定。例如,圖像興趣點可以是拐角、在圖像內(nèi)的位置、斑點等并且可以使用光學(xué)字符識別(OCR)、邊緣檢測技術(shù)、分析預(yù)定位置以及其它可能性來定位。在一些示例中,模板可以包括圖像的提取的信息和在圖像中的所有興趣點的描述符集合。
[0034]查詢圖像108可以是或者包括一個或者多個用戶提交的一個或者多個圖像。查詢圖像108可以是任何尺寸、形狀和/或形式。相似地,查詢圖像108可以是二維(例如,相片、圖形、圖片)或者三維(例如,直方圖)。查詢圖像108可以由光學(xué)設(shè)備(相機(jī)、鏡、透鏡等)捕獲或者另外由系統(tǒng)或者用戶輸入(例如,在輸入表面上可視素描繪制或者另外表現(xiàn))。在一個示例中,查詢圖像108可以是從活動圖像或者視頻捕獲的一幀或者多幀。
[0035]在一些示例中,查詢圖像108可以包括為了執(zhí)行基于內(nèi)容的圖像取回而提供的圖像??梢苑治鰜碜圆樵儓D像108內(nèi)的內(nèi)容,并且可以返回與查詢圖像108的內(nèi)容匹配的一個或者多個訓(xùn)練圖像。例如查詢圖像108的內(nèi)容可以是指顏色、形狀、紋理或者從圖像推導(dǎo)的其它信息。在一些示例中,查詢圖像108可以包括用戶提交的圖像,該圖像包含元數(shù)據(jù)、比如關(guān)鍵字、標(biāo)簽或者與圖像關(guān)聯(lián)的其它描述。
[0036]可視對象識別模塊110可以包括或者被配置用于根據(jù)一個或者多個編程指令、例如,計算機(jī)可執(zhí)行和/或邏輯實施的指令操作以執(zhí)行功能或者步驟。此外,可視對象識別模塊110可以是被接線用于執(zhí)行一個或者多個編程指令的電路裝置。
[0037]在一個示例中,可視對象識別模塊110可以具有訪問并且與多個訓(xùn)練圖像全集106的訓(xùn)練圖像集合交互。給定查詢圖像108,可視對象識別模塊110可以取回和輸出與可視對象識別模塊110相似的訓(xùn)練圖像。此外,對于每個相似訓(xùn)練圖像,可以提供匹配分?jǐn)?shù)。例如,可以基于在查詢圖像108與訓(xùn)練圖像之間的多個匹配的描述符、在查詢圖像108的原始圖像數(shù)據(jù)與訓(xùn)練圖像之間的計算的相似度或者其它潛在圖像比較算法或者方法中的一項或者多項的組合計算匹配分?jǐn)?shù)。另外,可視對象識別模塊110可以輸出匹配的訓(xùn)練圖像的對應(yīng)元數(shù)據(jù)。
[0038]圖2是根據(jù)這里描述的至少一些實施例的用于匹配查詢圖像與標(biāo)注的圖像組件的方法200的示例框圖。圖2中所示方法200呈現(xiàn)例如圖1的系統(tǒng)100可以使用的方法的一個實施例。方法200可以包括如塊201-213中的一個或者多個塊所示一個或者多個操作、功能或者動作。雖然按照依次順序圖示塊,但是也可以并行和/或按照與這里描述的順序不同的順序執(zhí)行這些塊。也可以根據(jù)方法的希望的實現(xiàn)方式將各種塊組合成更少塊、劃分成附加塊和/或從方法去除。
[0039]此外,對于方法200以及這里公開的其它過程和方法,流程圖示出當(dāng)前實施例的一個可能實現(xiàn)方式的功能和操作。就這一點而言,每個塊可以代表程序代碼模塊、段或者部分,該程序代碼模塊、段或者部分包括可由處理器執(zhí)行的用于實施過程中的具體邏輯功能或者步驟的一個或者多個指令。程序代碼可以存儲于任何類型的計算機(jī)可讀介質(zhì)、如例如包括盤或者硬驅(qū)動的存儲設(shè)備上。計算機(jī)可讀介質(zhì)可以包括非瞬態(tài)計算機(jī)可讀介質(zhì)、如例如將數(shù)據(jù)存儲短時間段的計算機(jī)可讀介質(zhì)如寄存器存儲器、處理器高速緩存和隨機(jī)存取存儲器(RAM)。計算機(jī)可讀介質(zhì)也可以例如包括非瞬態(tài)介質(zhì)、比如輔助或者持久長期存儲裝置如只讀存儲器(ROM)、光或者磁盤、緊致只讀存儲器(CD-ROM)。計算機(jī)可讀介質(zhì)也可以是任何其它易失性或者非易失性存儲系統(tǒng)。計算機(jī)可讀介質(zhì)可以例如視為計算機(jī)可讀存儲介質(zhì)或者有形存儲設(shè)備。
[0040]此外,對于方法200以及這里公開的其它過程和方法,圖2中的每個塊可以代表被接線用于執(zhí)行過程中的具體邏輯功能的電路裝置。
[0041]初始地,在塊201,方法200包括接收查詢圖像。查詢圖像可以是從用戶接收查詢圖像的系統(tǒng)收集和存儲的圖像。在一個示例中,查詢圖像可以是用戶提交的如下圖像,希望有用于該圖像的信息。用戶可以提交查詢圖像以便例如確定與查詢圖像匹配的圖像或者確定關(guān)于查詢圖像的信息。與查詢圖像匹配的圖像可以包括元數(shù)據(jù),該元數(shù)據(jù)與可以向用戶輸出的匹配的圖像關(guān)聯(lián)和/或描述這些匹配的圖像。此外,查詢圖像可以是包括多個圖像的查詢。
[0042]查詢圖像可以是一個或者多個圖像文件格式。例如查詢圖像可以是由在矢量圖形顯示器中顯示時光柵化成像素的像素或者矢量數(shù)據(jù)組件的圖像文件。示例圖像文件格式包括JPEG、JPEG2000、TIFF、RAW、PNG、GIF、BMP以及其它可能圖像文件格式。相似地,可以使用多種圖像壓縮技術(shù)來壓縮查詢圖像。在一些示例中,方法200包括解壓查詢圖像用于結(jié)合方法200和/或公開的其它系統(tǒng)和方法使用。
[0043]在塊203,方法200包括使用可視對象識別模塊來匹配查詢圖像與對象。給定查詢圖像,可視對象識別模塊可以取回和輸出與查詢圖像匹配的一個或者多個訓(xùn)練圖像??梢晫ο笞R別模塊可以利用來自多個訓(xùn)練圖像全集的信息。例如多個訓(xùn)練圖像全集可以包括與多個對象關(guān)聯(lián)的一個或者多個訓(xùn)練圖像。
[0044]在一個示例中,查詢圖像可以是對象的與對象的在訓(xùn)練全集內(nèi)的訓(xùn)練圖像不同的圖像。查詢圖像可以例如與對象的照射有變化的來自訓(xùn)練全集的多個對象的訓(xùn)練圖像匹配??梢砸呀?jīng)在與對象的在對象的訓(xùn)練圖像內(nèi)的照射比較的不同照明設(shè)置之下捕獲查詢圖像。相似地,在另一示例中,查詢圖像可以是對象的姿態(tài)或者形狀與對象的在給定的訓(xùn)練圖像中的姿態(tài)或者形狀比較有變化的對象的圖像。
[0045]在另一示例中,可視對象識別模塊可以匹配查詢圖像的一個區(qū)域或者多個區(qū)域與一個或者多個訓(xùn)練圖像。例如,可以處理查詢圖像以從查詢圖像去除背景信息或者拆分成分離對象的多個區(qū)域。在一個示例中,在訓(xùn)練圖像與查詢圖像之間的相似圖像描述符的數(shù)目可以在閾值以上。因而,可以確定訓(xùn)練圖像為與查詢圖像的匹配。用于圖像匹配的其它示例方法和技術(shù)包括模板匹配、歸一化互相關(guān)或者多變量互相關(guān)。
[0046]在更多另一示例中,匹配分?jǐn)?shù)可以與在查詢圖像與多個對象的一個或者多個訓(xùn)練圖像(或者一個或者多個訓(xùn)練圖像的一個或者多個匹配的區(qū)域)之間的匹配關(guān)聯(lián)。匹配分?jǐn)?shù)可以例如指示在查詢圖像與匹配訓(xùn)練圖像(或者訓(xùn)練圖像的匹配的區(qū)域)之間的相似度水平??梢曰谄ヅ浞?jǐn)?shù)對匹配區(qū)分優(yōu)先級或者排行。在一個示例中,可以選擇與最大匹配分?jǐn)?shù)關(guān)聯(lián)的訓(xùn)練圖像作為與查詢圖像的匹配。在另一示例中,可以基于在查詢圖像與訓(xùn)練圖像之間的匹配的描述符的數(shù)目計算相似度。然而,也設(shè)想其它確定相似度的方法。在一個示例中,圖像距離測量可以比較兩個圖像在各種維度、比如顏色、紋理、形狀和其它維度中的相似度。例如,可以比較圖像的顏色直方圖,其中通過量化在圖像內(nèi)的顏色并且對每個顏色的像素數(shù)目計數(shù)來計算顏色直方圖。在另一示例中,基于強(qiáng)度的方法可以用來使用相關(guān)度度量來比較在查詢圖像中的圖案和訓(xùn)練圖像。[0047]在塊205,方法200包括使用可視對象識別模塊來確定在訓(xùn)練圖像內(nèi)的如下匹配的區(qū)域,查詢圖像與該匹配的區(qū)域匹配。例如,可視對象識別模塊也可以輸出與查詢圖像和一個或者多個匹配訓(xùn)練圖像管的匹配的區(qū)域和/或匹配的描述符。在一個示例中,可以通過在相似度或者匹配質(zhì)量水平在閾值以上的匹配的描述符周圍形成邊界(例如,矩形、圓形或者自由形式的形狀)來確定匹配的區(qū)域。也可以在圖像描述符級應(yīng)用以上參照確定在圖像之間的相似度(例如,圖像距離測量、顏色方法、基于強(qiáng)度的方法等)描述的各種方法。在另一示例中,查詢圖像可以僅與訓(xùn)練圖像的部分匹配。相似地,可以通過在匹配的描述符周圍形成邊界來確定在訓(xùn)練圖像內(nèi)的匹配的區(qū)域。在又一示例中,可以確定多個匹配的區(qū)域。
[0048]在塊207,方法200包括確定匹配的區(qū)域是否位于訓(xùn)練圖像的標(biāo)注的圖像組件內(nèi)。標(biāo)注的圖像組件可以例如是訓(xùn)練圖像的子區(qū)域,該子區(qū)域包括描述子區(qū)域的標(biāo)注。此外,訓(xùn)練圖像可以包括多個標(biāo)注的圖像組件,并且可以進(jìn)行確定匹配的區(qū)域是否位于一個或者多個標(biāo)注的圖像組件內(nèi)。
[0049]在一個示例中,容差可以用于確定匹配的區(qū)域是否位于標(biāo)注的圖像組件內(nèi)。如果匹配的區(qū)域主要落在標(biāo)注的圖像組件內(nèi),則可以確定匹配的圖像位于標(biāo)注的圖像組件內(nèi)。例如,可以基于位于標(biāo)注的圖像組件內(nèi)的匹配的區(qū)域的百分比進(jìn)行確定。相似地,可以基于位于標(biāo)注的圖像組件內(nèi)的匹配的區(qū)域的匹配描述符的數(shù)目進(jìn)行確定。
[0050]在塊209,可以基于在塊207的確定進(jìn)行判決。如果確定匹配的區(qū)域位于訓(xùn)練圖像的標(biāo)注的圖像組件內(nèi),則可以執(zhí)行方法200的塊211。備選地,如果確定匹配的區(qū)域未位于標(biāo)注的圖像組件內(nèi),則可以執(zhí)行方法200的塊213。例如,匹配的區(qū)域可以與訓(xùn)練圖像的整體或者訓(xùn)練圖像的多個區(qū)域匹配。
[0051]在塊211,方法200包括標(biāo)識與標(biāo)注的圖像組件關(guān)聯(lián)的標(biāo)注。因而,可以響應(yīng)于接收查詢圖像來返回標(biāo)注。可以確定查詢圖像是與圖像組件的匹配,并且可以標(biāo)識和輸出該組件的元數(shù)據(jù)而不是匹配訓(xùn)練圖像描繪的對象的元數(shù)據(jù)。
[0052]在一個示例中,可以在位于標(biāo)注的圖像組件內(nèi)的匹配的區(qū)域的百分比大于百分比閾值時標(biāo)識與標(biāo)識的圖像組件關(guān)聯(lián)的標(biāo)注。例如,百分比閾值可以是50%、75%、90%或者在75%以上。類似地,可以在標(biāo)注的圖像組件內(nèi)的匹配的區(qū)域的描述符的數(shù)目在數(shù)目閾值以上時標(biāo)識與標(biāo)注的圖像組件關(guān)聯(lián)的標(biāo)注。
[0053]在塊213,方法200包括標(biāo)識與訓(xùn)練圖像的整體關(guān)聯(lián)的標(biāo)注。因而,可以響應(yīng)于接收查詢圖像來返回標(biāo)注??梢源_定查詢圖像是作為整體與訓(xùn)練圖像的匹配,并且可以標(biāo)識和輸出訓(xùn)練圖像描繪的對象的元數(shù)據(jù)。
[0054]在一個示例中,可以在位于標(biāo)注的圖像組件內(nèi)的匹配的區(qū)域的百分比小于百分比閾值時標(biāo)識與訓(xùn)練圖像的整體關(guān)聯(lián)的標(biāo)注。類似地,可以在標(biāo)注的圖像組件內(nèi)的匹配的區(qū)域的描述符的數(shù)目在數(shù)目閾值以上時標(biāo)識與訓(xùn)練圖像的整體關(guān)聯(lián)的標(biāo)注。
[0055]根據(jù)方法200的示例,可以從客戶端設(shè)備接收查詢圖像??梢栽诳梢赃M(jìn)行確定例如匹配的區(qū)域位于訓(xùn)練圖像的標(biāo)注的圖像組件內(nèi)時向客戶端設(shè)備發(fā)送與訓(xùn)練圖像的圖像組件關(guān)聯(lián)的標(biāo)識的標(biāo)注。
[0056]圖3A圖示查詢圖像301a和匹配的訓(xùn)練圖像303的示例。例如,可視識別模塊可以匹配查詢圖像301a與訓(xùn)練圖像303??梢曌R別模塊也可以確定在訓(xùn)練圖像303內(nèi)的匹配的區(qū)域,查詢圖像301a (或者查詢圖像301a的區(qū)域)與該匹配的區(qū)域匹配。[0057]在一個示例中,可以進(jìn)行確定匹配的區(qū)域305a是否位于訓(xùn)練圖像303的標(biāo)注的圖像組件307內(nèi)。標(biāo)注的圖像組件307可以是訓(xùn)練圖像303的子區(qū)域并且可以包括描述子區(qū)域的關(guān)聯(lián)組件標(biāo)注309。例如標(biāo)注的圖像組件307可以是在關(guān)于蘇打的書籍的封面上的蘇打罐的圖像。標(biāo)注的圖像組件307的組件標(biāo)注309可以是描述在蘇打罐上的標(biāo)志的元數(shù)據(jù)。
[0058]雖然圖3A中的匹配的區(qū)域305a可以包括標(biāo)注的圖像組件307,但是匹配的區(qū)域305a如圖所示并沒有位于標(biāo)注的圖像組件307內(nèi)(或者基本上位于標(biāo)注的圖像組件307內(nèi))。因而,系統(tǒng)、比如圖1的系統(tǒng)100響應(yīng)于接收查詢圖像301a可以返回與訓(xùn)練圖像303的全部描述的對象(例如,標(biāo)題為“關(guān)于蘇打的書籍”的書籍)關(guān)聯(lián)的對象標(biāo)注311。在這一示例中,可以標(biāo)識對象標(biāo)注311而不是組件標(biāo)注309。
[0059]圖3B圖示查詢圖像301b和匹配的訓(xùn)練圖像303的另一示例。例如,可視對象識別模塊可以將查詢圖像301b與訓(xùn)練圖像303進(jìn)行匹配??梢晫ο笞R別模塊也可以確定在訓(xùn)練圖像303內(nèi)的匹配的區(qū)域305b,查詢圖像301b (或者查詢圖像301b的區(qū)域)與該匹配的區(qū)域匹配。
[0060]在一個示例中,可以進(jìn)行確定匹配的區(qū)域305b是否位于訓(xùn)練圖像303的標(biāo)注的圖像組件307內(nèi)。圖3B中的匹配的區(qū)域305b可以落在標(biāo)注的圖像組件307內(nèi)(或者基本上在標(biāo)注的圖像組件307內(nèi))。因而,系統(tǒng)(比如,圖1的系統(tǒng)100)響應(yīng)于接收查詢圖像301b可以返回與標(biāo)注的對象組件307關(guān)聯(lián)的組件標(biāo)注309??梢苑祷亟M件并標(biāo)注309而不是對象標(biāo)注311。因此,可以匹配查詢圖像301b與對象組件(或者與對象組件關(guān)聯(lián)、例如蘇打的信息)而不是與具有描繪查詢圖像301b的子區(qū)域的對象(或者與對象、例如書籍關(guān)聯(lián)的信息)不正確地匹配。
[0061]圖4是根據(jù)這里描述的至少一些實施例的用于發(fā)現(xiàn)和標(biāo)注對象組件的方法400的示例框圖。圖4中所示方法400呈現(xiàn)例如圖1的系統(tǒng)100可以使用的方法的一個實施例。方法400可以包括如塊401-405中的一個或者多個塊所示一個或者多個操作、功能或者動作。雖然按照依次順序圖示塊,但是也可以并行和/或按照與這里描述的順序不同的順序執(zhí)行這些塊。也可以根據(jù)方法的希望的實現(xiàn)方式將各種塊組合成更少塊、劃分成附加塊和/或從方法去除。每個塊可以代表程序代碼模塊、段或者部分,該程序代碼模塊、段或者部分包括可由處理器執(zhí)行的用于實施過程中的具體邏輯功能或者步驟的一個或者多個指令。此夕卜,圖4中的每個塊可以代表被接線用于執(zhí)行過程中的具體邏輯功能的電路裝置。
[0062]初始地,在塊401,方法400接收多個訓(xùn)練圖像全集。多個訓(xùn)練圖像全集可以描述對象集合。對于每個對象,可以有包含對象的可視出現(xiàn)的一個或者多個訓(xùn)練圖像以及與對象關(guān)聯(lián)的元數(shù)據(jù)(例如,類型、名稱等)。多個訓(xùn)練圖像全集可以由可視對象識別模塊用來匹配圖像。例如,可以基于在多個訓(xùn)練圖像全集內(nèi)的圖像訓(xùn)練可視對象識別模塊。
[0063]在塊403,方法400包括執(zhí)行在多個訓(xùn)練圖像全集之中的跨全集圖像區(qū)域匹配??梢园l(fā)現(xiàn)和標(biāo)識在多個訓(xùn)練圖像全集的多于一個圖像中出現(xiàn)的公共對象組件。公共對象組件可以例如包括在多個訓(xùn)練圖像全集內(nèi)代表的不同對象上出現(xiàn)的標(biāo)志、著名藝術(shù)作品、在具體字體中的字母等??梢员容^多個訓(xùn)練圖像全集以確定相似度,并且可以確定具有在閾值以上的相似度水平的對象組件為公共對象組件。
[0064]在一個示例中,匹配器或者可視對象識別模塊可以由多個訓(xùn)練圖像全集的所有訓(xùn)練圖像構(gòu)建??梢允褂闷ヅ淦鱽砥ヅ涿總€訓(xùn)練圖像以標(biāo)識在多于一個訓(xùn)練圖像中出現(xiàn)的公共子結(jié)構(gòu)。例如,可以基于在多個訓(xùn)練圖像全集的匹配訓(xùn)練圖像的圖像描述符之間的相似度確定在匹配訓(xùn)練圖像內(nèi)的匹配的區(qū)域。在另一示例中,光學(xué)字符識別(OCR)可以可以用來檢測在訓(xùn)練圖像內(nèi)的文字??梢员容^與訓(xùn)練圖像關(guān)聯(lián)的識別的字符,并且可以基于在訓(xùn)練圖像之間比較識別的字符來確定公共圖像組件。
[0065]在塊405,方法400包括對于在多個訓(xùn)練圖像全集內(nèi)的匹配的區(qū)域標(biāo)注匹配的區(qū)域作為在訓(xùn)練圖像內(nèi)的包括關(guān)聯(lián)信息的子區(qū)域。例如,匹配器可以標(biāo)識在與第二訓(xùn)練圖像匹配的第一訓(xùn)練圖像內(nèi)的匹配的區(qū)域。與第二訓(xùn)練圖像關(guān)聯(lián)的標(biāo)注可以與第一訓(xùn)練圖像的匹配的區(qū)域關(guān)聯(lián)。相似地,匹配器可以標(biāo)識在第一訓(xùn)練圖像中的與第二訓(xùn)練圖像的如下子區(qū)域匹配的匹配區(qū)域,組件標(biāo)注與該子區(qū)域關(guān)聯(lián)。第二訓(xùn)練圖像的組件標(biāo)注可以與第一訓(xùn)練圖像的匹配的區(qū)域關(guān)聯(lián)。
[0066]圖5A是可能對象組件關(guān)系的示例有向非循環(huán)圖500。在圖5A中圖示頂點和有向邊的匯集。然而,頂點和有向邊并非為了限制并且是作為對結(jié)構(gòu)建模的示例而提供的。與這里描述的系統(tǒng)和方法關(guān)聯(lián)的結(jié)構(gòu)可以脫離圖5A中所示示例并且可以包括比所示更多或者更少的頂點和/或有向邊。
[0067]圖5A包括代表訓(xùn)練全集501a_d的頂點或者節(jié)點。訓(xùn)練全集501a_d可以分別包括標(biāo)志(501 a )、一件藝術(shù)作品(50 Ib )、地標(biāo)(501 c )和書籍(501 d )的訓(xùn)練圖像。
[0068]此外,訓(xùn)練全集501a_d可以由有向邊503a_e連接。從第一訓(xùn)練全集到第二全集的有向邊503a_e可以代表來自第一訓(xùn)練全集的圖像(或者圖像的部分)在來自第二全集的圖像內(nèi)存在。例如,有向邊503a可以代表來自訓(xùn)練全集501a (例如,標(biāo)志)的圖像在來自訓(xùn)練全集501c (例如,地標(biāo))的圖像內(nèi)的存在。相似地,來自訓(xùn)練全集501d的書籍封面的圖像可以包括標(biāo)志、一件藝術(shù)作品或者地標(biāo)圖像。
[0069]在一個示例中,可視對象識別模塊可以對于每個有向邊503a_e將第一訓(xùn)練全集的訓(xùn)練圖像與第二訓(xùn)練全集的訓(xùn)練圖像進(jìn)行匹配。如果發(fā)現(xiàn)匹配(如在圖5B的示例中那樣),則可以用來自第一訓(xùn)練全集的訓(xùn)練圖像的元數(shù)據(jù)標(biāo)注來自第二訓(xùn)練全集的訓(xùn)練圖像的匹配區(qū)域。
[0070]圖5B圖示標(biāo)注對象組件的示例??梢栽谟?xùn)練全集501a_d之中執(zhí)行跨全集圖像區(qū)域匹配。在一個示例中,可以匹配來自第一訓(xùn)練全集的訓(xùn)練圖像(或者訓(xùn)練圖像的子區(qū)域)與第二訓(xùn)練全集的訓(xùn)練圖像。例如,來自訓(xùn)練全集501d的第一訓(xùn)練圖像507d可以與來自訓(xùn)練全集501a的第二訓(xùn)練圖像507a匹配。第一訓(xùn)練圖像507d和第二訓(xùn)練圖像507a可以各自包括關(guān)聯(lián)信息。第一訓(xùn)練圖像507d可以包括關(guān)聯(lián)元數(shù)據(jù)705d,而第二訓(xùn)練圖像507a可以包括關(guān)聯(lián)元數(shù)據(jù)509a。
[0071]可以針對匹配來確定在第一訓(xùn)練圖像507d內(nèi)的匹配的區(qū)域511。作為示例,第一訓(xùn)練圖像507d可以是書籍封面的圖像,并且匹配的區(qū)域511可以是書籍封面的如下組件,該組件包括標(biāo)志的圖像。在一個示例中,可以標(biāo)注匹配的區(qū)域511作為在第一訓(xùn)練圖像507d內(nèi)的包括關(guān)聯(lián)信息的子區(qū)域。例如,可以用元數(shù)據(jù)509a標(biāo)注匹配的區(qū)域511。
[0072]在另一示例中,可以針對匹配來確定在第一訓(xùn)練圖像507d內(nèi)的多個匹配的區(qū)域??梢詷?biāo)注多個匹配的區(qū)域作為在第一訓(xùn)練圖像507d內(nèi)的包括關(guān)聯(lián)信息的子區(qū)域。
[0073]圖6是根據(jù)這里描述的至少一些實施例的用于向公共圖像組件指派加權(quán)因子的方法600的示例框圖。圖6中所示方法600呈現(xiàn)例如圖1的系統(tǒng)100可以使用的方法的一個實施例。方法600可以包括如塊601-607中的一個或者多個塊所示一個或者多個操作、功能或者動作。雖然按照依次順序圖示塊,但是也可以并行和/或按照與這里描述的順序不同的順序執(zhí)行這些塊。也可以根據(jù)方法的希望的實現(xiàn)方式將各種塊組合成更少塊、劃分成附加塊和/或從方法去除。每個塊可以代表程序代碼模塊、段或者部分,該程序代碼模塊、段或者部分包括可由處理器執(zhí)行的用于實施過程中的具體邏輯功能或者步驟的一個或者多個指令。此外,圖6中的每個塊可以代表被接線用于執(zhí)行過程中的具體邏輯功能的電路裝置。
[0074]初始地,在步驟601,方法600包括執(zhí)行在多個訓(xùn)練圖像全集之中的跨全集匹配以標(biāo)識在多于一個訓(xùn)練圖像中出現(xiàn)的公共圖像組件。可以發(fā)現(xiàn)和標(biāo)識在多個訓(xùn)練圖像全集的多于一個訓(xùn)練圖像中出現(xiàn)的公共對象組件。
[0075]公共對象組件可以例如包括在多個訓(xùn)練圖像全集內(nèi)代表的不同對象上出現(xiàn)的標(biāo)志、著名藝術(shù)作、在具體字體中的字母等。在訓(xùn)練圖像內(nèi)的文字可以是公共圖像組件??蛇x地,在多個訓(xùn)練圖像內(nèi)的文字可以在相似字體中。在多個訓(xùn)練圖像中出現(xiàn)的公共對象組件的其它來源包括:在不同對象的圖像中重用的庫存(Stock)圖像;公共圖案、比如網(wǎng)格、星型、圓圈等;以及公共部分、比如在兩件不同藝術(shù)作品的圖像中使用的相似畫面。
[0076]在一個示例中,匹配器或者可視對象識別模塊可以由多個訓(xùn)練圖像全集的所有訓(xùn)練圖像構(gòu)建??梢允褂闷ヅ淦鱽砥ヅ涿總€訓(xùn)練圖像以標(biāo)識在多于一個訓(xùn)練圖像中出現(xiàn)的公共子結(jié)構(gòu)。
[0077]在另一示例中,光學(xué)字符識別(OCR)可以用來檢測在訓(xùn)練圖像內(nèi)的文字??梢员容^與訓(xùn)練圖像關(guān)聯(lián)的識別的字符,并且可以基于在訓(xùn)練圖像之間比較識別的字符來確定公共圖像組件。
[0078]在又一示例中,匹配器或者可視對象識別模塊可以由庫存圖像數(shù)據(jù)庫構(gòu)建。匹配器可以用來檢測在訓(xùn)練圖像中的重用的圖像子結(jié)構(gòu)作為公共圖像組件。
[0079]在塊603,方法600包括標(biāo)識在多于一個訓(xùn)練圖像中出現(xiàn)的圖像描述符??梢源_定在公共圖像組件內(nèi)的相似圖像描述符。例如,可以用附加信息標(biāo)注在多于一個訓(xùn)練圖像中出現(xiàn)的公共圖像組件內(nèi)的圖像描述符,該附加信息指示圖像描述符可以是公共圖像組件的部分。在另一示例中,可以用附加信息標(biāo)注在公共圖像組件內(nèi)的圖像描述符,該附加信息指示圖像描述符在其中出現(xiàn)的訓(xùn)練圖像的數(shù)目。
[0080]在又一示例中,可以通過檢查圖像、標(biāo)識圖像中的包括區(qū)別區(qū)域的圖像興趣點(例如,拐角、文字、邊緣等),并且向圖像興趣點指派標(biāo)識符來確定圖像描述符。在一個實例中,圖像描述符包括落在圖像的圖像興趣點(或者圖像子區(qū)域)內(nèi)的像素的數(shù)值表示。在一個示例中,圖像描述符包括圖像中的內(nèi)容的可視特征的描述,這些可視特征比如是包括形狀、顏色或者文字以及其它特性的特性。可以壓縮圖像描述符,并且可以比較壓縮的圖像描述符以標(biāo)識相似圖像描述符。
[0081]例如,一種用于壓縮圖像描述符的技術(shù)包括乘積量化。圖像描述符可以包括多個浮點數(shù)(例如,稱為描述符的維度)??梢詧?zhí)行乘積量化以將維度劃分成組(比如均勻劃分的組)并且使用K個范本之一來量化或者代表每組維度??梢赃x擇范本以最小化在描述符維度與最近鄰居范本之間的平方距離之和??梢詮臒o監(jiān)督聚類算法、如比如k均值學(xué)習(xí)范本。k均值聚類算法可以包括一種以將η個觀測分割成k個聚類的聚類分析方法,其中每個觀測屬于具有最近均值的聚類。k均值聚類算法可以嘗試發(fā)現(xiàn)數(shù)據(jù)中的自然聚類的中心。
[0082]在一個示例中,其中描述符具有100個維度(并且因此可以包括100個浮點值),乘積量化可以包括將100個維度劃分成組,并且每組可以包括四至五個維度。因此,可以將100個維度劃分成每組有5個維度的20組(例如,組I包括維度#1-5,組2包括維度#6-10,以此類推)。乘積量化使用范本來分離地代表每組。
[0083]在一個示例中,可以在代碼簿內(nèi)提供范本列表。標(biāo)識并且選擇與維度組最接近的范本以代表該組。在以上示例中,包括維度#1-5 (例如,五個浮點值)的組I可以由單個范本代表。因此,取代代表或者存儲五個浮點值,單個范本可以用來代表和存儲維度組。使用這一方法,包括劃分成20組的100個維度的描述符可以由使用20個范本的數(shù)據(jù)表示來代表。因此,可以將描述符從100個數(shù)據(jù)點的數(shù)據(jù)表示壓縮成20個數(shù)據(jù)點??梢钥缭絻蓚€或者更多潛在匹配訓(xùn)練圖像的圖像描述符比較20個數(shù)據(jù)點。在一個示例中,如果來自第一訓(xùn)練圖像的圖像描述符與來自第二訓(xùn)練圖像的圖像描述符匹配,則可以用附加數(shù)據(jù)點標(biāo)注圖像描述符,該附加數(shù)據(jù)點指示圖像描述符可以與另一訓(xùn)練圖像匹配。相似地,如果可以發(fā)現(xiàn)圖像描述符與更多訓(xùn)練圖像的圖像描述符相似,則可以增加附加數(shù)據(jù)點。
[0084]在塊605,方法600包括向與公共圖像組件關(guān)聯(lián)的圖像描述符指派加權(quán)因子。取代同等對待圖像中的所有描述符,可以向在圖像內(nèi)的圖像描述符中的每個圖像描述符指派加權(quán)因子。加權(quán)因子可以影響在訓(xùn)練圖像的一個或者多個圖像描述符之間的匹配分?jǐn)?shù)或者相似度測量。在一個示例中,降低在公共圖像組件內(nèi)的圖像描述符的加權(quán)因子可以具有將(完全地或者部分地)來自公共圖像組件的匹配分?jǐn)?shù)的效果。因此,可以根據(jù)來自公共圖像組件的匹配的部分以可變程度抑制匹配。
[0085]在一個示例中,與圖像的所有圖像描述符關(guān)聯(lián)的加權(quán)因子可以是I。此外,可以指派與被確定與公共圖像組件關(guān)聯(lián)的描述符關(guān)聯(lián)的加權(quán)因子指派加權(quán)因子alpha,其中alpha少于I。加權(quán)因子alpha的值可以是固定或者預(yù)定值。在其它示例中,加權(quán)因子alpha的值可以是變量,該變量依賴于系統(tǒng)或者方法的一個或者多個因子。
[0086]在一個示例中,可以實驗地確定加權(quán)因子alpha的值。可以將系列加權(quán)因子值用于加權(quán)因子alpha對驗證集合執(zhí)行多個匹配實驗。驗證集合可以例如是在多個訓(xùn)練圖像全集內(nèi)的包括一個或者多個公共圖像組件的查詢圖像集合??梢源_定與多個匹配實驗的結(jié)果關(guān)聯(lián)的匹配準(zhǔn)確度??梢詫τ趤碜韵盗屑訖?quán)因子alpha值的每個加權(quán)因子alpha值確定匹配準(zhǔn)確度??梢酝ㄟ^分析對于查詢圖像集合接收的結(jié)果來確定匹配準(zhǔn)確度??梢赃x擇和使用與產(chǎn)生最大匹配準(zhǔn)確度的加權(quán)因子對應(yīng)的alpha值用于公共圖像組件的圖像描述符。
[0087]在另一示例中,可以使用詞項頻率-反文檔頻率(TF-1DF)公式來確定用于在多個訓(xùn)練圖像全集內(nèi)的訓(xùn)練圖像的圖像描述符的加權(quán)因子。例如,可以使用以下公式來確定用于訓(xùn)練圖像的圖像描述符的加權(quán)因子:
[0088](l/x)*log(D/d),
[0089]其中X是在訓(xùn)練圖像中的圖像描述符的總數(shù),D是在多個訓(xùn)練圖像全集中的訓(xùn)練圖像的總數(shù),并且d是圖像描述符在其中出現(xiàn)的訓(xùn)練圖像的總數(shù)。
[0090]在塊607,方法600包括基于加權(quán)因子確定調(diào)整的匹配分?jǐn)?shù)。存在關(guān)于如何可以應(yīng)用描述符的權(quán)值以獲得調(diào)整匹配分?jǐn)?shù)的多種發(fā)送。一個可能示例包括基于以下公式確定在原有匹配分?jǐn)?shù)給定時的調(diào)整匹配分?jǐn)?shù):
【權(quán)利要求】
1.一種方法,包括: 接收查詢圖像; 使用可視對象識別模塊來將所述查詢圖像與對象進(jìn)行匹配,其中所述可視對象識別模塊被配置用于利用來自多個訓(xùn)練圖像全集的信息以將所述查詢圖像與所述對象的訓(xùn)練圖像進(jìn)行匹配; 使用所述可視對象識別模塊來確定在所述訓(xùn)練圖像內(nèi)的如下匹配的區(qū)域,所述查詢圖像與所述匹配的區(qū)域匹配; 確定所述匹配的區(qū)域是否位于所述訓(xùn)練圖像的標(biāo)注的圖像組件內(nèi),其中所述標(biāo)注的圖像組件是所述訓(xùn)練圖像的子區(qū)域并且具有描述所述子區(qū)域的關(guān)聯(lián)的標(biāo)注;并且 在所述匹配的區(qū)域位于所述訓(xùn)練圖像的所述標(biāo)注的圖像組件內(nèi)時,標(biāo)識與所述標(biāo)注的圖像組件關(guān)聯(lián)的標(biāo)注。
2.根據(jù)權(quán)利要求1所述的方法,還包括在位于所述標(biāo)注的圖像組件內(nèi)的所述匹配的區(qū)域的百分比大于百分比閾值時標(biāo)識與所述標(biāo)注的圖像組件關(guān)聯(lián)的所述標(biāo)注。
3.根據(jù)權(quán)利要求1所述的方法,還包括在位于所述標(biāo)注的圖像組件內(nèi)的所述匹配的區(qū)域的百分比小于百分比閾值時標(biāo)識與所述訓(xùn)練圖像的整體關(guān)聯(lián)的標(biāo)注。
4.根據(jù)權(quán)利要求1所述的方法,還包括: 從客戶端設(shè)備接收所述查詢圖像;并且 向所述客戶端設(shè)備發(fā)送與所述圖像組件關(guān)聯(lián)的標(biāo)識的所述標(biāo)注。
5.根據(jù)權(quán)利要求1所述的方法,還包括: 接收所述多個訓(xùn)練圖像全集,其中所述多個訓(xùn)練圖像全集包括多個對象的多個訓(xùn)練圖像,其中一個或者多個訓(xùn)練圖像包括與所述多個對象有關(guān)的元數(shù)據(jù); 在所述多個訓(xùn)練圖像全集之中執(zhí)行跨全集圖像區(qū)域匹配;并且對于在所述多個訓(xùn)練圖像全集內(nèi)的匹配的區(qū)域,將所述匹配的區(qū)域標(biāo)注為在所述訓(xùn)練圖像內(nèi)的包括關(guān)聯(lián)的信息的子區(qū)域。
6.根據(jù)權(quán)利要求1所述的方法,還包括: 將所述查詢圖像與所述多個對象的一個或者多個訓(xùn)練圖像進(jìn)行匹配; 確定在所述一個或者多個訓(xùn)練圖像內(nèi)的如下匹配的區(qū)域,所述查詢圖像與所述匹配的區(qū)域匹配; 確定指示在所述查詢圖像與所述匹配的區(qū)域之間的相似度水平的匹配分?jǐn)?shù);并且 選擇與最大匹配分?jǐn)?shù)關(guān)聯(lián)的所述訓(xùn)練圖像作為與所述查詢圖像的匹配。
7.根據(jù)權(quán)利要求6所述的方法,還包括: 在所述多個訓(xùn)練圖像全集之中執(zhí)行跨全集匹配以標(biāo)識在多于一個訓(xùn)練圖像中出現(xiàn)的公共圖像組件; 標(biāo)識在多于一個訓(xùn)練圖像中出現(xiàn)的圖像描述符,其中圖像描述符包括與在訓(xùn)練圖像內(nèi)的圖像興趣點關(guān)聯(lián)的信息; 向與所述公共圖像組件關(guān)聯(lián)的圖像描述符指派加權(quán)因子,其中所述加權(quán)因子影響在所述查詢圖像與所述匹配的區(qū)域之間的所述匹配分?jǐn)?shù);并且基于所述加權(quán)因子確定調(diào)整的匹配分?jǐn)?shù)。
8.根據(jù)權(quán)利要求7所述的方法,其中所述公共圖像組件包括在多個訓(xùn)練圖像內(nèi)標(biāo)識的以下各項中的一項或者多項: 相似文字、相似字體、相似圖案和庫存圖像。
9.根據(jù)權(quán)利要求7所述的方法,還包括: 使用一系列加權(quán)因子對驗證集合執(zhí)行多個匹配實驗,其中所述驗證集合是包括所述共同圖像組件中的一個或者多個共同圖像組件的查詢圖像集合; 確定與使用所述一系列加權(quán)因子來執(zhí)行的所述多個匹配實驗的結(jié)果關(guān)聯(lián)的匹配準(zhǔn)確度;并且 選擇產(chǎn)生最大匹配準(zhǔn)確度的所述加權(quán)因子。
10.根據(jù)權(quán)利要求6所述的方法,還包括: 向所述訓(xùn)練圖像的圖像描述符指派加權(quán)因子,其中圖像描述符包括與在訓(xùn)練圖像內(nèi)的圖像興趣點關(guān)聯(lián)的信息;并且 基于所述加權(quán)因子從所述可視對象識別模塊確定調(diào)整的匹配分?jǐn)?shù)。
11.根據(jù)權(quán)利要求10所述的方法,其中使用以下公式來計算所述加權(quán)因子: (l/x)*log(D/d), 其中X是在所述訓(xùn)練圖像中的圖像描述符的總數(shù),D是在所述多個訓(xùn)練圖像全集中的訓(xùn)練圖像的總數(shù),并且d是所述圖像描述符在其中出現(xiàn)的訓(xùn)練圖像的總數(shù)。
12.根據(jù)權(quán)利要求10所述的方法,還包括所述可視對象識別模塊使用以下公式來計算所述調(diào)整的匹配分?jǐn)?shù):
S,_ Smatched
^image , 其中S’是調(diào)整的匹配分?jǐn)?shù),S是未向圖像描述符指派加權(quán)因子而計算的匹配分?jǐn)?shù),dwfflatched是在訓(xùn)練圖像內(nèi)的匹配的圖像描述符的加權(quán)因子之和,并且Ckimage是在所述訓(xùn)練圖像內(nèi)的圖像描述符的加權(quán)因子之和。
13.根據(jù)權(quán)利要求7所述的方法,其中執(zhí)行跨全集匹配還包括: 使用光學(xué)字符識別(OCR)以識別在所述多個訓(xùn)練圖像全集中的字符;并且 比較識別的所述字符以標(biāo)識在多于一個訓(xùn)練圖像中出現(xiàn)的公共圖像組件。
14.一種其中存儲有指令的非瞬態(tài)計算機(jī)可讀介質(zhì),所述指令由計算設(shè)備可執(zhí)行以使所述計算設(shè)備執(zhí)行以下功能: 接收查詢圖像; 使用可視對象識別模塊將所述查詢圖像與對象進(jìn)行匹配,其中所述可視對象識別模塊被配置用于利用來自多個訓(xùn)練圖像全集的信息以將所述查詢圖像與所述對象的訓(xùn)練圖像進(jìn)行匹配; 使用所述可視對象識別模塊來確定在所述訓(xùn)練圖像內(nèi)的如下匹配的區(qū)域,所述查詢圖像與所述匹配的區(qū)域匹配; 確定所述匹配的區(qū)域是否位于所述訓(xùn)練圖像的標(biāo)注的圖像組件內(nèi),其中所述標(biāo)注的圖像組件是所述訓(xùn)練圖像的子區(qū)域并且具有描述所述子區(qū)域的關(guān)聯(lián)的標(biāo)注;并且 在所述匹配的區(qū)域位于所述訓(xùn)練圖像的所述標(biāo)注的圖像組件內(nèi)時,標(biāo)識與所述標(biāo)注的圖像組件關(guān)聯(lián)的標(biāo)注。
15.根據(jù)權(quán)利要求14所述的計算機(jī)可讀介質(zhì),還包括用于執(zhí)行以下功能的指令:接收多個訓(xùn)練圖像全集,其中所述多個訓(xùn)練圖像全集包括多個對象的多個訓(xùn)練圖像,其中一個或者多個訓(xùn)練圖像包括與所述多個對象有關(guān)的元數(shù)據(jù); 在所述多個訓(xùn)練圖像全集之中執(zhí)行跨全集圖像區(qū)域匹配;并且對于在所述多個訓(xùn)練圖像全集內(nèi)的匹配的區(qū)域,將所述匹配的區(qū)域標(biāo)注為在所述訓(xùn)練圖像內(nèi)的包括關(guān)聯(lián)的信息的子區(qū)域。
16.根據(jù)權(quán)利要求14所述的計算機(jī)可讀介質(zhì),還包括用于執(zhí)行以下功能的指令: 將所述查詢圖像與所述多個對象的一個或者多個訓(xùn)練圖像進(jìn)行匹配; 確定在所述一個或者多個訓(xùn)練圖像內(nèi)的如下匹配的區(qū)域,所述查詢圖像與所述匹配的區(qū)域匹配; 在所述多個訓(xùn)練圖像全集之中執(zhí)行跨全集匹配以標(biāo)識在多于一個訓(xùn)練圖像中出現(xiàn)的公共圖像組件; 標(biāo)識在多于一個訓(xùn)練圖像中出現(xiàn)的圖像描述符,其中圖像描述符包括與在訓(xùn)練圖像內(nèi)的圖像興趣點關(guān)聯(lián)的信息; 向與所述公共圖像組件關(guān)聯(lián)的圖像描述符指派加權(quán)因子,其中所述加權(quán)因子影響在所述查詢圖像與所述匹配的區(qū)域之間的匹配分?jǐn)?shù); 基于所述加權(quán)因子確定匹配分?jǐn)?shù);并且 選擇與最大匹配分 數(shù)關(guān)聯(lián)的所述訓(xùn)練圖像作為與所述查詢圖像的匹配。
17.—種系統(tǒng),包括: 存儲器; 處理器,其耦合到所述存儲器;以及 指令,其存儲在所述存儲器中并且由所述處理器可執(zhí)行以執(zhí)行以下功能: 接收查詢圖像; 使用可視對象識別模塊將所述查詢圖像與對象進(jìn)行匹配,其中所述可視對象識別模塊被配置用于利用來自多個訓(xùn)練圖像全集的信息以將所述查詢圖像與所述對象的訓(xùn)練圖像進(jìn)行匹配; 使用所述可視對象識別模塊來確定在所述訓(xùn)練圖像內(nèi)的如下匹配的區(qū)域,所述查詢圖像與所述匹配的區(qū)域匹配; 確定所述匹配的區(qū)域是否位于所述訓(xùn)練圖像的標(biāo)注的圖像組件內(nèi),其中所述標(biāo)注的圖像組件是所述訓(xùn)練圖像的子區(qū)域并且具有描述所述子區(qū)域的關(guān)聯(lián)的標(biāo)注;并且 在所述匹配的區(qū)域位于所述訓(xùn)練圖像的所述標(biāo)注的圖像組件內(nèi)時,標(biāo)識與所述標(biāo)注的圖像組件關(guān)聯(lián)的標(biāo)注。
18.根據(jù)權(quán)利要求17所述的系統(tǒng),還包括用于以下的指令: 接收所述多個訓(xùn)練圖像全集,其中所述多個訓(xùn)練圖像全集包括多個對象的多個訓(xùn)練圖像,其中一個或者多個訓(xùn)練圖像包括與所述多個對象有關(guān)的元數(shù)據(jù); 在所述多個訓(xùn)練圖像全集之中執(zhí)行跨全集圖像區(qū)域匹配;并且對于在所述多個訓(xùn)練圖像全集內(nèi)的匹配的區(qū)域,將所述匹配的區(qū)域標(biāo)注為在所述訓(xùn)練圖像內(nèi)的包括關(guān)聯(lián)的信息的子區(qū)域。
19.根據(jù)權(quán)利要求17所述的系統(tǒng),還包括用于以下的指令: 將所述查詢圖像與所述多個對象的一個或者多個訓(xùn)練圖像進(jìn)行匹配;確定在所述一個或者多個訓(xùn)練圖像內(nèi)的如下匹配的區(qū)域,所述查詢圖像與所述匹配的區(qū)域匹配; 在所述多個訓(xùn)練圖像全集之中執(zhí)行跨全集匹配以標(biāo)識在多于一個訓(xùn)練圖像中出現(xiàn)的公共圖像組件; 標(biāo)識在多于一個訓(xùn)練圖像中出現(xiàn)的圖像描述符,其中圖像描述符包括與在訓(xùn)練圖像內(nèi)的圖像興趣點關(guān)聯(lián)的信息; 向與所述公共圖像組件關(guān)聯(lián)的圖像描述符指派加權(quán)因子,其中所述加權(quán)因子影響在所述查詢圖像與所述匹配的區(qū)域之間的匹配分?jǐn)?shù); 基于所述加權(quán)因子確定匹配分?jǐn)?shù);并且 選擇與最大匹配分?jǐn)?shù)關(guān)聯(lián)的所述訓(xùn)練圖像作為與所述查詢圖像的匹配。
20.根據(jù)權(quán)利要求17所述的系統(tǒng),其中所述查詢圖像僅與所述訓(xùn)練圖像的一部分匹配。
【文檔編號】G06T7/00GK103959330SQ201280044305
【公開日】2014年7月30日 申請日期:2012年6月12日 優(yōu)先權(quán)日:2011年7月13日
【發(fā)明者】李源, H·亞當(dāng) 申請人:谷歌公司