對象識別方法和設(shè)備的制作方法
【專利摘要】本發(fā)明公開了對象識別方法和設(shè)備。該設(shè)備包含提取單元,被配置用于對于預(yù)先定義的對象屬性的集合中的每一對象屬性對,基于該對象屬性對的相異性提取對象區(qū)域的對應(yīng)于該對象屬性對的特征;以及識別單元,被配置用于基于所提取的對象區(qū)域的特征識別對象區(qū)域的對象屬性。
【專利說明】對象識別方法和設(shè)備
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及用于圖像中的對象識別的方法和設(shè)備。更具體而言,本發(fā)明涉及用于 識別圖像中的對象區(qū)域的對象屬性的方法和設(shè)備。
【背景技術(shù)】
[0002] 近年來,圖像中的對象檢測/識別普及地應(yīng)用于圖像處理、計(jì)算機(jī)視覺和模式識 別的領(lǐng)域,并且在其中起到重要的作用,對象可以是人臉、手、身體等中的任一種。
[0003] -種常見的對象檢測/識別是檢測和識別圖像中的臉部。在臉部識別中,通常實(shí) 現(xiàn)包含至少一個(gè)臉部圖像的圖像中的每一臉部的屬性(諸如,表情)的識別,并且存在多種 用于實(shí)現(xiàn)這樣的臉部識別的技術(shù)。
[0004] 下文將以圖像中包含的臉部的臉部表情識別為例來解釋現(xiàn)有技術(shù)中的用于圖像 中的臉部屬性識別的當(dāng)前技術(shù)。用于臉部表情識別的方法的基本原理遵循圖1所示的框 架。
[0005] 更具體而言,對于輸入的臉部圖像,臉部表情識別方法首先獲得圖像中包含的臉 部區(qū)域(臉部檢測),然后根據(jù)在臉部區(qū)域中提取的臉部特征點(diǎn)將可能處于不同姿態(tài)的對應(yīng) 于該臉部區(qū)域的臉部對齊(臉部配準(zhǔn))。然后,該方法提取經(jīng)對齊的臉部圖像的特征(特征提 取),并且最終根據(jù)所提取的特征確定臉部的對應(yīng)于該臉部區(qū)域的表情。
[0006] 對于特征提取,一些方法關(guān)注于臉部圖像中的顯著區(qū)域(salient region),這里 如圖2所示,顯著區(qū)域指的是臉部圖像中的通常被視為代表臉部的特性部分的區(qū)域(諸如 眼睛區(qū)域、鼻子區(qū)域、嘴部區(qū)域等)。
[0007] 在這樣的情況中,分別提取四個(gè)顯著區(qū)域的特征(S卩,左眼區(qū)域特if _,右眼區(qū) 域特征fgg,鼻子區(qū)域特征和嘴部區(qū)域特征f ?),并且通過將這四個(gè)顯著區(qū)域特征連 結(jié)到一起來表示臉部的特征(f,&),從而,
[0008]f總=f左眼+f右眼+f鼻子+f嘴
[0009] 特征被用于預(yù)測對應(yīng)于臉部圖像的臉部的表情。
[0010] 通常,這樣的基于臉部區(qū)域中的顯著區(qū)域的方法提取顯著區(qū)域的特征而不是臉部 圖像的整個(gè)區(qū)域的特征,然后根據(jù)所提取的特征來預(yù)測臉部的表情,如示出現(xiàn)有技術(shù)中的 基于臉部圖像中的顯著區(qū)域的臉部表情識別的流程圖的圖3的左部所示。圖3的右部示意 性地示出這樣的基于顯著區(qū)域的臉部表情識別方法的示例,其中,在檢測到臉部圖像中的 若干臉部特征點(diǎn)之后,四個(gè)顯著區(qū)域(即,左眼區(qū)域、右眼區(qū)域、鼻子區(qū)域和嘴部區(qū)域)被相 應(yīng)地定位。
[0011] Industrial Technology Research Institute(TW)名下的美國專利申請 US2012/0169895A1公開了一種用于基于臉部圖像中的顯著區(qū)域捕獲臉部表情的方法。該方 法分別從四個(gè)顯著區(qū)域捕獲圖像中的人臉的顯著區(qū)域特征以生成目標(biāo)特征向量,然后將該 目標(biāo)特征向量與多個(gè)先前存儲的特征向量進(jìn)行比較以生成參數(shù)值。當(dāng)參數(shù)值高于閾值時(shí), 該方法選擇圖像之一作為目標(biāo)圖像?;谠撃繕?biāo)圖像,可進(jìn)一步執(zhí)行臉部表情識別和分類 過程。例如,識別目標(biāo)圖像以獲得臉部表情狀態(tài),并且根據(jù)臉部表情狀態(tài)對圖像進(jìn)行分類。
[0012] 作為顯著區(qū)域的替代,其它類型的臉部圖像的代表性區(qū)域可被用于進(jìn)行臉部屬性 識別。
[0013] Mitsubishi electric research laboratories, INC 名下的美國專利申請 US2010/0111375A1公開了一種基于臉部圖像中包含的子塊(patch)的集合來識別圖像中 的臉部屬性的方法。更具體而言,該方法將臉部圖像分割成一組子塊,并且將每個(gè)子塊與原 型子塊逐一比較以確定匹配的原型子塊,并且根據(jù)與匹配的原型子塊相關(guān)聯(lián)的屬性集合來 確定臉部的一組屬性。這里,在該方法中提取的該子塊集合可等同于顯著區(qū)域中的各部分。
[0014] Renesas Electronics Corporation 名下的美國專利申請 US 2012/0076418A1 公 開了一種臉部屬性估計(jì)方法和設(shè)備。該方法從臉部區(qū)域中提取特定區(qū)域,并且設(shè)定該特定 區(qū)域中的小區(qū)域。然后,該方法利用相似性計(jì)算方法來逐一計(jì)算該小區(qū)域與所存儲的臉部 組成部分中的每一個(gè)之間的相似性,以確定臉部屬性。這里,除了特定區(qū)域的數(shù)量之外,在 該方法中使用的特定區(qū)域可等同于顯著區(qū)域。
[0015] 現(xiàn)有技術(shù)中的上述方法通常從顯著區(qū)域或者其等同區(qū)域(諸如,臉部圖像中的多 個(gè)子塊或者一個(gè)小的特定區(qū)域)提取特征,并且將所提取的特征與對應(yīng)于多個(gè)已知的臉部 屬性的一組預(yù)先定義的特征中的每一個(gè)進(jìn)行比較(即,一對一比較),以便進(jìn)行臉部屬性識 別。
[0016] 此外,要被識別的臉部圖像中的被定位的顯著區(qū)域或等同區(qū)域在識別期間沒有改 變,因此在識別期間對于所有的比較,僅存在一個(gè)且恒定的得自臉部圖像的特征向量。艮P, 僅有一個(gè)來自臉部圖像的特征向量被用于與對應(yīng)于多個(gè)已知臉部屬性的多個(gè)先前存儲的 特征向量中的每一個(gè)進(jìn)行比較。
[0017] 但是,在識別期間對于所有的一對一比較使用要被識別的臉部區(qū)域的一個(gè)恒定特 征可能不夠高效以至于不能準(zhǔn)確地識別臉部區(qū)域。
[0018] 應(yīng)指出,一些顯著區(qū)域可能對于一些類型的表情不具有區(qū)別性 (discriminative)。例如,對于悲傷表情和中性表情,鼻子區(qū)域就不存在很大的區(qū)別,因此, 鼻子區(qū)域?qū)τ诒瘋砬楹椭行员砬榈淖R別不具有區(qū)別性。另一個(gè)問題是顯著區(qū)域中的一些 部分不具有區(qū)別性。例如,對于悲傷表情和中性表情,眼睛區(qū)域的眉毛部分不具有區(qū)別性。 也就是說,如果所定位的顯著區(qū)域以及由此從該區(qū)域提取的特征對于與預(yù)先定義的臉部屬 性的集合的比較是恒定的,則一些區(qū)域以及區(qū)域的一些部分可能對于在一些表情對中的一 些類型的表情的識別是冗余的。
[0019] 如上所述,仍需要一種能夠基于來自圖像中的臉部區(qū)域中的更具區(qū)別性的特征準(zhǔn) 確識別臉部區(qū)域的屬性的方法。
【發(fā)明內(nèi)容】
[0020] 本發(fā)明是針對于圖像中的對象的識別被開發(fā)的,并且旨在解決如上所述的問題。
[0021] 根據(jù)本發(fā)明的一個(gè)方面,提供了一種用于識別圖像中的對象區(qū)域的方法,該方法 包含提取步驟,用于對于預(yù)先定義的對象屬性的集合中的每一對象屬性對,基于該對象屬 性對的相異性提取對象區(qū)域的對應(yīng)于該對象屬性對的特征;以及識別步驟,用于基于所提 取的對象區(qū)域的特征識別對象區(qū)域的對象屬性。
[0022] 根據(jù)本發(fā)明的另一方面,提供了一種用于識別圖像中的對象區(qū)域的設(shè)備,包含:提 取單元,被配置用于對于預(yù)先定義的對象屬性的集合中的每一對象屬性對,基于該對象屬 性對的相異性提取對象區(qū)域的對應(yīng)于該對象屬性對的特征;以及識別單元,被配置用于基 于所提取的對象區(qū)域的特征識別對象區(qū)域的對象屬性。
[0023] 根據(jù)本發(fā)明的方法和設(shè)備對于預(yù)先定義的對象屬性的集合中的每一對象屬性對, 基于該對象屬性對的相異性提取對象區(qū)域的對應(yīng)于該對象屬性對的特征,并且將該特征用 于對象識別。因此,識別效率和準(zhǔn)確率可提高。
[0024] 參照附圖閱讀示例性實(shí)施例的以下說明,本發(fā)明的其它特征將變得十分明顯。
【專利附圖】
【附圖說明】
[0025] 并入說明書中并且構(gòu)成說明書的一部分的附圖示出了本發(fā)明的實(shí)施例,并且與描 述一起用于解釋本發(fā)明的原理。在附圖中,相似的附圖標(biāo)記指示相似的項(xiàng)目。
[0026] 圖1示出現(xiàn)有技術(shù)中的臉部表情識別的典型過程。
[0027] 圖2示出臉部中的典型顯著區(qū)域。
[0028] 圖3是示出現(xiàn)有技術(shù)中的臉部表情識別方法的流程圖。
[0029] 圖4是示出可實(shí)現(xiàn)本發(fā)明的實(shí)施例的計(jì)算機(jī)系統(tǒng)的示例性硬件配置的框圖。
[0030] 圖5是示出根據(jù)本發(fā)明的對象屬性識別方法的流程圖。
[0031] 圖6是示出根據(jù)本發(fā)明的對象屬性識別設(shè)備的框圖。
[0032] 圖7是解釋臉部圖像中的臉部區(qū)域的示圖。
[0033] 圖8示意性地示出臉部區(qū)域中的特征點(diǎn)。
[0034] 圖9是示出提取步驟中的過程的流程圖。
[0035]
[0036] 圖10示意性地示出臉部區(qū)域中的器官區(qū)域的定位。
[0037] 圖11示意性地示出臉部表情對的示例。
[0038] 圖12是示意性地示出臉部表情對的模板的確定的流程圖。
[0039] 圖13示出若干示例性平均圖像。
[0040] 圖14不出對于臉部表情對中的每一表情的被相應(yīng)分割的圖像。
[0041] 圖15示出從對于臉部表情對中的每一表情的分割圖像獲得的臉部表情對的模 板。
[0042] 圖16示出依賴于臉部表情對的模板的針對臉部表情對的臉部區(qū)域中的相異像素 塊的定位。
[0043] 圖17是示出特征提取步驟中的過程的流程圖。
[0044] 圖18是示出識別步驟的一種實(shí)現(xiàn)中的過程的流程圖。
[0045] 圖19是示出識別步驟的另一種實(shí)現(xiàn)中的過程的流程圖。
【具體實(shí)施方式】
[0046] 下文將參照附圖詳細(xì)描述本發(fā)明的實(shí)施例。
[0047] 應(yīng)注意,在附圖中相似的附圖標(biāo)記和字母指示相似的項(xiàng)目,并且因此一旦一個(gè)項(xiàng) 目在一個(gè)附圖中被定義,則對于隨后的附圖無需再對其進(jìn)行論述。
[0048] 首先將解釋本公開的上下文中所使用的某些術(shù)語的含義。
[0049] 在本公開的上下文中,圖像將指的是多種類型的圖像,諸如彩色圖像、灰度圖像 等。由于本發(fā)明的處理主要針對灰度圖像執(zhí)行,因此除非另外聲明,否則本公開中的圖像將 指的是包含多個(gè)像素的灰度圖像。
[0050] 應(yīng)指出,本發(fā)明的解決方案也可應(yīng)用于其它類型的圖像(諸如彩色圖像),只要這 樣的圖像可被轉(zhuǎn)換成灰度圖像并且本發(fā)明的處理可針對經(jīng)轉(zhuǎn)換的灰度圖像執(zhí)行即可。
[0051] 圖像通??砂辽僖粋€(gè)對象圖像,并且對象圖像通常包含對象區(qū)域,因此在本 公開的上下文中,對象圖像和對象區(qū)域彼此等同并且可替代地使用。常見的圖像中的對象 是圖像中的臉部。
[0052] 圖像中的對象區(qū)域的特征通常是代表這樣的對象區(qū)域的特性的特征,并且通???以是顏色特征、紋理特征、形狀特征等。常用的特征是顏色特征,其是代表圖像的全局性特 征并且通常可通過基于各顏色區(qū)段(color bin)的顏色直方圖被獲得。圖像的特征通常被 以向量的形式獲得,向量的每一成分對應(yīng)于一顏色區(qū)段。
[0053] 對象屬性指的是可對應(yīng)于不同條件的對象的表觀狀態(tài),并且對象屬性可屬于不同 的類別。以臉部為例,臉部屬性的類別可以是選自包含臉部表情、當(dāng)臉部為人臉時(shí)對應(yīng)于該 臉部的人的性別以及人的年齡的組中的一種,臉部屬性類別不因此受限,并且還可以是其 它類別。當(dāng)臉部屬性對應(yīng)于臉部表情時(shí),臉部屬性可以是一種表情(例如,悲傷、微笑、大笑 等)。
[0054] 當(dāng)然,對象屬性并不因此受限,例如,對象可以是人身體,并且對象屬性可對應(yīng)于 當(dāng)人在奔跑、站立、下跪或者平躺等時(shí)的不同身體狀態(tài)。
[0055] 對象屬性對是由包含于預(yù)先定義的對象屬性的集合中的任何預(yù)先定義的數(shù)量的 對象屬性構(gòu)成的對,在該集合中所有對象屬性可在某一類別集合中進(jìn)行區(qū)分,并且該集合 可被預(yù)先制備,該預(yù)先定義的對象屬性的集合可形成至少一個(gè)對象屬性對,各對象屬性對 具有相同數(shù)量的對象屬性。
[0056] 對象屬性對中包含的對象屬性可被從該預(yù)先定義的對象屬性的集合中任意選擇, 并且在這樣的情況中,該預(yù)先定義的對象屬性的集合可包含個(gè)對象屬性對,其中n是該 集合中的對象屬性的數(shù)量,并且t是對象屬性對中包含的對象屬性的數(shù)量。
[0057] 優(yōu)選地,對象屬性對中包含的對象屬性的數(shù)量可以是2。
[0058] 優(yōu)選地,對象屬性對中的對象屬性可以是如下這樣的對象屬性,即該對象屬性之 間的差別大并且甚至是相反的。例如,以臉部為例,對象屬性對可特別地由大笑表情和哭表 情構(gòu)成,從而對于這樣的對象屬性對所提取的部分更加具有區(qū)別性。
[0059] 在本公開中,術(shù)語"第一"、"第二"等僅僅用于區(qū)分元素或者步驟,而不是要指示時(shí) 間順序、優(yōu)先選擇或者重要性。
[0060] 圖4是示出可實(shí)施本發(fā)明的實(shí)施例的計(jì)算機(jī)系統(tǒng)1000的硬件配置的框圖。
[0061] 如圖4所示,計(jì)算機(jī)系統(tǒng)包括計(jì)算機(jī)1110。計(jì)算機(jī)1110包括處理單元1120、系統(tǒng) 存儲器1130、不可移除非易失性存儲器接口 1140、可移除非易失性存儲器接口 1150、用戶 輸入接口 1160、網(wǎng)絡(luò)接口 1170、視頻接口 1190、和輸出外圍接口 1195,它們通過系統(tǒng)總線 1121連接。
[0062] 系統(tǒng)存儲器1130包括ROM (只讀存儲器)1131和RAM (隨機(jī)存取存儲器)1132。 BIOS (基本輸入輸出系統(tǒng))1133駐留在R0M1131中。操作系統(tǒng)1134、應(yīng)用程序1135、其它 程序模塊1136和一些程序數(shù)據(jù)1137駐留在RAM1132中。
[0063] 不可移除非易失性存儲器1141 (諸如硬盤)連接到不可移除非易失性存儲器接口 1140。不可移除非易失性存儲器1141例如可存儲操作系統(tǒng)1144、應(yīng)用程序1145、其它程序 模塊1146以及一些程序數(shù)據(jù)1147。
[0064] 可移除非易失性存儲器(例如軟盤驅(qū)動器1151和⑶-ROM驅(qū)動器1155)連接到可移 除非易失性存儲器接口 1150。例如,軟盤1152可插入軟盤驅(qū)動器1151,并且⑶(緊致盤) 1156可插入⑶-ROM驅(qū)動器1155。
[0065] 諸如鼠標(biāo)1161和鍵盤1162的輸入設(shè)備連接到用戶輸入接口 1160。
[0066] 計(jì)算機(jī)1110可通過網(wǎng)絡(luò)接口 1170連接到遠(yuǎn)程計(jì)算機(jī)1180。例如,網(wǎng)絡(luò)接口 1170 可經(jīng)局域網(wǎng)1171連接到遠(yuǎn)程計(jì)算機(jī)1180??商鎿Q地,網(wǎng)絡(luò)接口 1170可連接到調(diào)制解調(diào)器 (調(diào)制器一解調(diào)器)1172,并且調(diào)制解調(diào)器1172經(jīng)廣域網(wǎng)1173連接到遠(yuǎn)程計(jì)算機(jī)1180。
[0067] 遠(yuǎn)程計(jì)算機(jī)1180可包括諸如硬盤的存儲器1181,其存儲遠(yuǎn)程應(yīng)用程序1185。
[0068] 視頻接口 1190連接到監(jiān)視器1191。
[0069] 輸出外圍接口 1195連接到打印機(jī)1196和揚(yáng)聲器1197。
[0070] 圖4所示的計(jì)算機(jī)系統(tǒng)僅是說明性的,并且決不打算限制本發(fā)明、其應(yīng)用或者使 用。
[0071]圖4所示的計(jì)算機(jī)系統(tǒng)可對于任一實(shí)施例被實(shí)現(xiàn)為孤立計(jì)算機(jī),或者設(shè)備中的處 理系統(tǒng),其中可去除一個(gè)或多個(gè)不必要的組件或者可添加一個(gè)或多個(gè)附加的組件。
[0072] 下文將參照圖5描述根據(jù)本發(fā)明的基本實(shí)施例的對象識別方法,圖5示出根據(jù)本 發(fā)明的基本實(shí)施例的方法中的過程。
[0073] 在步驟S100 (下文被稱為提取步驟)中,對于預(yù)先定義的對象屬性的集合中的每 一對象屬性對,基于該對象屬性對的相異性(dissimilarity)提取對象區(qū)域的對應(yīng)于該對 象屬性對的特征。
[0074] 如上所述,該預(yù)先定義的對象屬性的集合的所有對象屬性屬于同一類別,并且對 象屬性對可由該預(yù)先定義的對象屬性的集合中包含的任何預(yù)定數(shù)量的(諸如,兩個(gè))對象屬 性構(gòu)成。
[0075] 作為替代,對象屬性對可以是在它們之間滿足預(yù)定關(guān)系的預(yù)定數(shù)量的(諸如,兩 個(gè))對象屬性。
[0076] 在一種實(shí)現(xiàn)中,對象區(qū)域可以是已經(jīng)被對齊(al ign )的對象區(qū)域,并且對象區(qū)域的 對齊可被以多種方式(諸如基于在對象區(qū)域中檢測到的特征點(diǎn))實(shí)現(xiàn)。應(yīng)指出,對象區(qū)域是 否對齊對于提取操作的實(shí)現(xiàn)而言不是必需的。
[0077] 在步驟S200 (下文被稱為識別步驟)中,基于所提取的對象區(qū)域的特征識別對象 區(qū)域的對象屬性。
[0078] 在一種實(shí)現(xiàn)中,提取步驟中的過程可包含用于定位該對象區(qū)域中的對應(yīng)于該對象 屬性對的模板的至少一個(gè)塊的過程(定位步驟),該模板表征該對象屬性對之間的相異性; 以及用于基于所定位的至少一個(gè)塊提取該對象區(qū)域的對應(yīng)于該對象屬性對的特征的過程 (特征提取步驟)。
[0079] 這里,模板可被視為對象屬性對的表征對象屬性之間的相異性的相異性模板,并 且通常由對象屬性對中包含的對象屬性的圖像之間的至少一個(gè)相異像素塊形成。實(shí)際上, 每一相異像素塊可對應(yīng)于對象屬性對中包含的預(yù)定數(shù)量的對象屬性的圖像之間的對應(yīng)像 素塊,該對應(yīng)像素塊位于各圖像的對應(yīng)位置并且具有對應(yīng)的大小,其中各個(gè)圖像中的相異 像素塊的位置和大小可依賴于預(yù)定的規(guī)則(諸如,在各個(gè)圖像具有不同的大小時(shí)依賴于各 個(gè)對象屬性的圖像的大小之間的比率)彼此映射。
[0080] 優(yōu)選地,對象區(qū)域的圖像以及對象屬性對中包含的對象屬性可被預(yù)處理(諸如,被 對齊),以便具有相同大小,并且在此情況下,模板中的相異像素塊中的每一個(gè)可對應(yīng)于對 象屬性對中包含的預(yù)定數(shù)量的對象屬性的圖像之間的對應(yīng)像素塊,該對應(yīng)像素塊位于各個(gè) 圖像中的相同位置并且具有相同大小。
[0081] 因此,從該對象區(qū)域中針對該對象屬性對定位的至少一個(gè)塊可以是根據(jù)相異像素 塊的這樣的位置和大小而被定位的像素塊,只要像素塊可根據(jù)預(yù)定的規(guī)則相互映射即可, 并且優(yōu)選地該像素塊具有相同的位置和大小。
[0082] 每一像素塊的大小可被任意設(shè)定,而不會影響本發(fā)明的解決方案的實(shí)現(xiàn)。
[0083] 在一種實(shí)現(xiàn)中,對象屬性對的模板可通過如下方式實(shí)現(xiàn):將分別對應(yīng)于該對象屬 性對中包含的兩個(gè)對象屬性的兩個(gè)平均對象區(qū)域圖像劃分成彼此對應(yīng)的多個(gè)塊;提取與每 一對象屬性對應(yīng)的每一被劃分的平均對象區(qū)域圖像的多個(gè)塊中的每一個(gè)的特征;確定這兩 個(gè)被劃分的平均對象區(qū)域圖像中的對應(yīng)塊的特征之間的相似性;并且選擇這兩個(gè)被劃分的 平均對象區(qū)域圖像中的這樣的塊以形成模板,該塊之間的相似性低于預(yù)先定義的閾值。 [0084] 這里,對應(yīng)劃分指的是對象屬性對中的對象屬性的各個(gè)圖像可被按對應(yīng)的模式 劃分,從而一個(gè)對象屬性圖像中的經(jīng)劃分的塊中的每一個(gè)可根據(jù)預(yù)定規(guī)則被映射到另一對 象屬性圖像中的經(jīng)劃分的塊中的每一個(gè)。優(yōu)選地,對象屬性對中的對象屬性的各個(gè)圖像具 有相同大小,因而用于各圖像的劃分模式相同并且具有相同的標(biāo)度,從而一個(gè)對象屬性圖 像中的經(jīng)劃分的塊與另一對象屬性圖像中的對應(yīng)的經(jīng)劃分的塊具有相同的位置和大小。劃 分模式可以是任何模式,諸如網(wǎng)格等。
[0085] 對象屬性對的模板可被預(yù)先制備和存儲,或者可在提取操作期間被制備。獲得對 象屬性對的模板的操作可被包含在提取步驟中,或者可不被包含在提取步驟中。
[0086] 對應(yīng)于對象屬性的平均對象區(qū)域圖像可被以多種方式預(yù)先制備,并且在一般性實(shí) 現(xiàn)中,可通過將對應(yīng)于同一對象屬性的具有相同大小的多個(gè)相似對象區(qū)域圖像進(jìn)行平均來 被制備。
[0087] 優(yōu)選地,定位過程可基于對象區(qū)域中包含的輔助區(qū)域(auxiliary region)來執(zhí) 行,以便進(jìn)一步提高操作效率。輔助區(qū)域可被以多種方式(諸如,依賴于對象區(qū)域中的被標(biāo) 識的特征點(diǎn)的位置)定位。在這樣的情況中,定位過程可定位輔助區(qū)域中的對應(yīng)于表征對象 屬性對的相異性的模板的至少一個(gè)塊,并且表征對象屬性對的相異性的模板也可基于對象 屬性對中的對象屬性的圖像中的這樣的輔助區(qū)域被確定,而不是基于對象屬性對中的對象 屬性的圖像的整體被確定。
[0088] 在一種實(shí)現(xiàn)中,特征提取過程可包含從在對象區(qū)域中定位的至少一個(gè)塊中的每一 個(gè)中提取特征,并且將所提取的各個(gè)塊的特征連結(jié)作為對象區(qū)域的特征。因此,最終提取的 特征通常表現(xiàn)為向量的形式,向量中的每一個(gè)分量對應(yīng)于每一塊。
[0089] 在識別步驟的過程中,對象屬性的識別可被以多種方式實(shí)現(xiàn)。
[0090] 在一種實(shí)現(xiàn)中,識別可被以所謂的"一對一(one against one)"方式實(shí)現(xiàn),在此方 式中,對于預(yù)先定義的對象屬性的集合,對象屬性可在輪中進(jìn)行投票,其中n是該集合中 包含的對象屬性的數(shù)量,并且t是對象屬性對中包含的對象屬性的數(shù)量并且優(yōu)選地為2。具 有最高得分的對象屬性將被確定為對象屬性。
[0091] 更具體而言,該識別過程可包含標(biāo)識步驟,用于對于預(yù)先定義的對象屬性的集合 中的每一對象屬性對,基于對象區(qū)域的對應(yīng)于該對象屬性對的特征標(biāo)識與該對象區(qū)域?qū)?yīng) 的該對象屬性對中包含的兩個(gè)對象屬性中的一個(gè)對象屬性,并且將該對象區(qū)域所對應(yīng)的對 象屬性的得分增加預(yù)定值,其中,該預(yù)先定義的對象屬性的集合中所包含的全部對象屬性 具有相同的初始得分;以及屬性確定步驟,用于確定該預(yù)先定義的對象屬性的集合中的具 有最高得分的對象屬性為該對象區(qū)域的對象屬性。
[0092] 在另一種實(shí)現(xiàn)中,識別可被以所謂的"一勝一(one beating one)"方式實(shí)現(xiàn),其 中,在預(yù)先定義的對象屬性的集合中包含的預(yù)先定義的對象屬性的數(shù)量為n的情況下,對 象屬性可在n-1輪中被確定,其中在一輪中僅有對于一個(gè)對象屬性對勝出的屬性將前進(jìn)至 下一輪,并且最終勝出的屬性將被確定為對象屬性。
[0093] 更具體而言,該識別過程可包含標(biāo)識步驟,用于對于預(yù)先定義的對象屬性的集合 中的一個(gè)對象屬性對,基于對象區(qū)域的對應(yīng)于該一個(gè)對象屬性對的特征標(biāo)識與該對象區(qū)域 對應(yīng)的該一個(gè)對象屬性對中包含的兩個(gè)對象屬性中的一個(gè)對象屬性,以及屬性確定步驟, 用于基于該對象區(qū)域所對應(yīng)的對象屬性以及該預(yù)先定義的對象屬性的集合中的除該一個(gè) 對象屬性對之外的剩余對象屬性確定該對象區(qū)域的對象屬性,其中,如果剩余對象屬性的 數(shù)量等于〇,則該對象區(qū)域所對應(yīng)的對象屬性被確定為該對象區(qū)域的對象屬性,否則將該對 象區(qū)域所對應(yīng)的對象屬性以及該預(yù)先定義的對象屬性的集合中的除該一個(gè)對象屬性對之 外的剩余對象屬性重新歸組為新的對象屬性集合,并且對于該新的對象屬性集合依次執(zhí)行 該標(biāo)識步驟和屬性確定步驟。
[0094] 應(yīng)指出,上述方法可每次對于可包含至少一個(gè)對象區(qū)域的圖像中的一個(gè)對象區(qū)域 執(zhí)行,并且可重復(fù)與對象區(qū)域的數(shù)量相同的次數(shù),其中一個(gè)對象區(qū)域僅包含一個(gè)要被識別 的對象。
[0095] 圖6是示出根據(jù)本發(fā)明的對象識別設(shè)備的框圖。
[0096] 用于圖像中的對象區(qū)域的識別的設(shè)備600可包含提取單元601,被配置為對于預(yù) 先定義的對象屬性的集合中的每一對象屬性對,基于該對象屬性對的相異性提取對象區(qū)域 的對應(yīng)于該對象屬性對的特征;以及識別單元602,被配置為基于所提取的對象區(qū)域的特 征識別對象區(qū)域的對象屬性。
[0097] 優(yōu)選地,提取單元601可包含定位單元601-1,被配置用于定位該對象區(qū)域中的對 應(yīng)于該對象屬性對的模板的至少一個(gè)塊,該模板表征該對象屬性對之間的相異性;以及特 征提取單元601-2,被配置用于基于所定位的至少一個(gè)塊提取該對象區(qū)域的對應(yīng)于該對象 屬性對的特征。
[0098] 優(yōu)選地,該定位單元601-1可包含被配置用于依賴于對象區(qū)域中的被標(biāo)識的特征 點(diǎn)的位置定位對象區(qū)域中的輔助區(qū)域的單元;以及被配置用于定位輔助區(qū)域中的對應(yīng)于對 象屬性對的表征對象屬性對之間的相異性的模板的至少一個(gè)塊的單元。
[0099] 優(yōu)選地,特征提取單元601-2可包含被配置用于從對象區(qū)域中的該至少一個(gè)塊中 的每一個(gè)中提取特征的單元,以及被配置用于將所提取的各個(gè)塊的特征連結(jié)作為對象區(qū)域 的特征的單元。
[0100] 優(yōu)選地,該識別單元602可包含標(biāo)識單元602-1,被配置用于對于預(yù)先定義的對象 屬性的集合中的每一對象屬性對,基于對象區(qū)域的對應(yīng)于該對象屬性對的特征標(biāo)識與該對 象區(qū)域?qū)?yīng)的該對象屬性對中包含的兩個(gè)對象屬性中的一個(gè)對象屬性,并且將該對象區(qū)域 所對應(yīng)的對象屬性的得分增加預(yù)定值,其中,該預(yù)先定義的對象屬性的集合中所包含的全 部對象屬性具有相同的初始得分;以及屬性確定單元602-2,被配置用于確定該預(yù)先定義 的對象屬性的集合中的具有最高得分的對象屬性為該對象區(qū)域的對象屬性。
[0101] 附加地或者作為替代,該識別單元602可包含標(biāo)識單元602-3,被配置用于對于預(yù) 先定義的對象屬性的集合中的一個(gè)對象屬性對,基于對象區(qū)域的對應(yīng)于該一個(gè)對象屬性對 的特征標(biāo)識與該對象區(qū)域?qū)?yīng)的該一個(gè)對象屬性對中包含的兩個(gè)對象屬性中的一個(gè)對象 屬性,以及屬性確定單元602-4,被配置用于基于該對象區(qū)域所對應(yīng)的對象屬性以及該預(yù) 先定義的對象屬性的集合中的除該一個(gè)對象屬性對之外的剩余對象屬性確定該對象區(qū)域 的對象屬性,其中,如果剩余對象屬性的數(shù)量等于〇,則該對象區(qū)域所對應(yīng)的對象屬性被確 定為該對象區(qū)域的對象屬性,否則將該對象區(qū)域所對應(yīng)的對象屬性以及該預(yù)先定義的對象 屬性的集合中的除該一個(gè)對象屬性對之外的剩余對象屬性重新歸組為新的對象屬性集合, 并且對于該新的對象屬性集合依次執(zhí)行該標(biāo)識操作和屬性確定操作。
[0102] 表征對象屬性對之間的相異性的模板可與設(shè)備600分離地被如上所述地預(yù)先形 成并且存儲。附加地或者作為替代,設(shè)備600可包含被配置用于以上述方式形成對象屬性 對的表征該對象屬性對之間的相異性的模板的單元。
[0103][有利的技術(shù)效果]
[0104] 總而言之,本發(fā)明提供了一種新的用于圖像中的對象區(qū)域的對象屬性的識別的思 路,其中引入了對象屬性對的概念以改進(jìn)對象區(qū)域的特征提取和識別。
[0105] 更具體而言,對象屬性對中包含的對象屬性之間的相異性被用于針對對象屬性對 提取對象區(qū)域中的相異像素塊,并且所提取的對象區(qū)域的特征被用于確定對象區(qū)域與對象 屬性對中的哪一對象屬性相對應(yīng)。因此,對象區(qū)域的特征的提取和識別被逐對地執(zhí)行,由 此,識別效率和準(zhǔn)確性可被提高。
[0106] 應(yīng)指出,對象區(qū)域的這樣的相異像素塊對于在每一輪中用作比較基礎(chǔ)的預(yù)先定義 的對象屬性的集合中的每一對象屬性對被確定和提取,并且可反映對象屬性對中包含的對 象屬性之間的相異性。此外,這樣的被提取的部分可在識別期間被適應(yīng)性地改變,即,對象 區(qū)域的相異像素塊可依賴于每一輪比較中的對比物而改變,而不是保持恒定。
[0107] 因此,對象區(qū)域的可能對于對象屬性對是公共的而不是區(qū)別性的一些部分可不被 提取,并且所提取的部分可更準(zhǔn)確地反映對象屬性對中包含的對象屬性之間的相異性,并 且有助于準(zhǔn)確地確定對象區(qū)域?qū)?yīng)于對象屬性對中包含的對象屬性中的哪一個(gè),從而對象 區(qū)域的對象屬性可被更準(zhǔn)確地確定。
[0108] 下文,為了有助于透徹理解本發(fā)明的實(shí)現(xiàn),使用臉部作為要被識別的對象的例子 以便解釋本發(fā)明的解決方案的示例性實(shí)現(xiàn)。應(yīng)指出,本發(fā)明的解決方案還可應(yīng)用于其他類 型的對象。
[0109] 對于要被識別的圖像中的臉部區(qū)域,其屬性可屬于多種類別。例如,臉部屬性的類 別可以是選自包含臉部表情、當(dāng)臉部為人臉時(shí)的與該臉部對應(yīng)的人的性別以及年齡的組中 的一種。當(dāng)然,臉部屬性的類別并不因此受限,并且可以是除上述類別之外的其它類別。 [0110][示例 1]
[0111] 下文,將描述根據(jù)本發(fā)明的用于識別圖像中的臉部區(qū)域的臉部屬性(諸如,臉部表 情)的過程。
[0112] 一般來說,對于其表情要被識別的輸入圖像中的臉部區(qū)域,針對預(yù)先定義的臉部 表情的集合中的每一臉部表情對,基于該臉部表情對中包含的臉部表情之間的相異性提取 該臉部區(qū)域的對應(yīng)于該臉部表情對的特征,然后基于所提取的臉部區(qū)域的特征來識別該臉 部區(qū)域的臉部表情。當(dāng)輸入的圖像中存在多個(gè)臉部時(shí),此過程被重復(fù)與臉部的數(shù)量相同的 次數(shù)。
[0113] 下文將描述此過程的細(xì)節(jié)。
[0114] 最初,對于可包含至少一個(gè)臉部的輸入圖像,檢測該輸入圖像中的臉部區(qū)域,通常 一個(gè)臉部區(qū)域?qū)?yīng)于圖像中的一個(gè)臉部。圖7示出從輸入圖像中檢測到的矩形的臉部區(qū) 域。
[0115] 優(yōu)選地,在將檢測到的臉部區(qū)域用于特征提取之前,臉部區(qū)域通常被分別對齊,并 且該對齊可被以多種方式執(zhí)行。
[0116] 在一種實(shí)現(xiàn)中,臉部區(qū)域基于從臉部圖像提取的預(yù)定數(shù)量的特征點(diǎn)被對齊,其中 特征點(diǎn)的數(shù)量可基于操作者的經(jīng)驗(yàn)被設(shè)定,并且不限于某些特定數(shù)量。特征點(diǎn)提取方法 可以是諸如 Xudong Cao, Yichen Wei, Fang Wen, Jian Sun. Face alignment by explicit shape regression CVPR, 2012,以及D. Cristinacce and T. F. Cootes. Boosted regression active shape models. BMVC, 2007中公開的ASM。應(yīng)指出,特征點(diǎn)提取方法并不因此受限, 并且可以是本領(lǐng)域中已知的任何其它方法。
[0117] 圖8示意性地示出從臉部區(qū)域提取7個(gè)特征點(diǎn),并且如圖8所示,這7個(gè)特征點(diǎn)為: 兩個(gè)眼睛中的每一個(gè)的兩個(gè)眼角、鼻尖、以及嘴部的兩個(gè)嘴角。
[0118] 對齊可被如下地執(zhí)行。應(yīng)指出,以下的在本領(lǐng)域中已知的用于對齊的過程僅僅是 示例性的,并且對齊還可通過其他過程來執(zhí)行。
[0119] 在對齊時(shí),被提取的7個(gè)特征點(diǎn)的平均位置根據(jù)預(yù)定數(shù)量的人工標(biāo)記的樣本被計(jì) 算。假定存在n個(gè)標(biāo)記的樣本,七個(gè)點(diǎn)Pi (Xi, yj (i=l?7)的平均位置被計(jì)算如下:
【權(quán)利要求】
1. 一種設(shè)備,包含: 提取單元,被配置用于對于預(yù)先定義的對象屬性的集合中的每一對象屬性對,基于該 對象屬性對的相異性提取對象區(qū)域的對應(yīng)于該對象屬性對的特征;W及 識別單元,被配置用于基于所提取的對象區(qū)域的特征識別對象區(qū)域的對象屬性。
2. 根據(jù)權(quán)利要求1所述的設(shè)備,其中,預(yù)先定義的對象屬性的所述集合中的所有對象 屬性屬于同一類別,并且其中,對象屬性對由預(yù)先定義的對象屬性的所述集合中包含的任 兩個(gè)對象屬性構(gòu)成。
3. 根據(jù)權(quán)利要求1所述的設(shè)備,其中,所述對象區(qū)域是臉部區(qū)域,并且所述對象屬性是 臉部屬性,W及 其中,所述臉部屬性的類別是選自包含臉部表情、當(dāng)臉部為人臉時(shí)對應(yīng)于該臉部的人 的性別W及年齡的組中的一種。
4. 根據(jù)權(quán)利要求1所述的設(shè)備,其中,所述對象區(qū)域是已經(jīng)基于對象區(qū)域中被標(biāo)識的 特征點(diǎn)對齊的對象區(qū)域。
5. 根據(jù)權(quán)利要求1所述的設(shè)備,其中,所述提取單元包含: 定位單元,被配置用于定位該對象區(qū)域中的對應(yīng)于該對象屬性對的模板的至少一個(gè) 塊,該模板表征該對象屬性對之間的相異性;W及 特征提取單元,被配置用于基于所定位的至少一個(gè)塊提取該對象區(qū)域的對應(yīng)于該對象 屬性對的特征。
6. 根據(jù)權(quán)利要求5所述的設(shè)備,其中,所述定位單元包含: 被配置用于依賴于對象區(qū)域中的被標(biāo)識的特征點(diǎn)的位置定位對象區(qū)域中的輔助區(qū)域 的單元;W及 被配置用于定位所述輔助區(qū)域中的對應(yīng)于對象屬性對的表征對象屬性對之間的相異 性的模板的至少一個(gè)塊的單元。
7. 根據(jù)權(quán)利要求5或6所述的設(shè)備,其中,對象屬性對的表征所述對象屬性對之間的相 異性的所述模板通過如下方式形成: 將分別對應(yīng)于該對象屬性對中包含的兩個(gè)對象屬性的兩個(gè)平均對象區(qū)域圖像劃分成 彼此對應(yīng)的多個(gè)塊; 提取與每一對象屬性對應(yīng)的每一被劃分的平均對象區(qū)域圖像的多個(gè)塊中的每一個(gè)的 特征; 確定該兩個(gè)被劃分的平均對象區(qū)域圖像中的對應(yīng)塊的特征之間的相似性;并且 選擇該兩個(gè)被劃分的平均對象區(qū)域圖像中的如下該樣的塊W形成模板,塊之間的相似 性低于預(yù)先定義的闊值。
8. 根據(jù)權(quán)利要求5所述的設(shè)備,其中,所述特征提取單元包含: 被配置用于從對象區(qū)域中的該至少一個(gè)塊中的每一個(gè)中提取特征的單元,W及 被配置用于將所提取的各個(gè)塊的特征連結(jié)作為對象區(qū)域的特征的單元。
9. 根據(jù)權(quán)利要求1所述的設(shè)備,其中,所述識別單元包含: 標(biāo)識單元,被配置用于對于預(yù)先定義的對象屬性的集合中的每一對象屬性對,基于對 象區(qū)域的對應(yīng)于該對象屬性對的特征標(biāo)識該對象區(qū)域與該對象屬性對中包含的兩個(gè)對象 屬性中的哪一個(gè)對象屬性相對應(yīng),并且將該對象區(qū)域所對應(yīng)的對象屬性的得分增加預(yù)定 值,其中,該預(yù)先定義的對象屬性的集合中所包含的全部對象屬性具有相同的初始得分;w 及 屬性確定單元,被配置用于確定該預(yù)先定義的對象屬性的集合中的具有最高得分的對 象屬性為該對象區(qū)域的對象屬性。
10. 根據(jù)權(quán)利要求1所述的設(shè)備,其中,所述識別單元包含: 標(biāo)識單元,被配置用于對于預(yù)先定義的對象屬性的集合中的一個(gè)對象屬性對,基于對 象區(qū)域的對應(yīng)于該一個(gè)對象屬性對的特征標(biāo)識該對象區(qū)域與該一個(gè)對象屬性對中包含的 兩個(gè)對象屬性中的哪一個(gè)對象屬性相對應(yīng),W及 屬性確定單元,被配置用于基于該對象區(qū)域所對應(yīng)的對象屬性W及該預(yù)先定義的對象 屬性的集合中的除該一個(gè)對象屬性對之外的剩余對象屬性確定該對象區(qū)域的對象屬性, 其中,如果剩余對象屬性的數(shù)量等于0,則該對象區(qū)域所對應(yīng)的對象屬性被確定為該對 象區(qū)域的對象屬性, 否則,將該對象區(qū)域所對應(yīng)的對象屬性W及該預(yù)先定義的對象屬性的集合中的除該一 個(gè)對象屬性對之外的剩余對象屬性重新歸組為新的對象屬性集合,并且對于該新的對象屬 性集合相繼地執(zhí)行該標(biāo)識操作和屬性確定操作。
11. 一種方法,包含: 對于預(yù)先定義的對象屬性的集合中的每一對象屬性對,基于該對象屬性對的相異性提 取對象區(qū)域的對應(yīng)于該對象屬性對的特征;W及 基于所提取的對象區(qū)域的特征識別對象區(qū)域的對象屬性。
【文檔編號】G06K9/00GK104346601SQ201310320936
【公開日】2015年2月11日 申請日期:2013年7月26日 優(yōu)先權(quán)日:2013年7月26日
【發(fā)明者】王喜順, 陳曾, 李獻(xiàn), 溫東超, 朱福國 申請人:佳能株式會社