一種基于標(biāo)簽轉(zhuǎn)移及l(fā)stm模型的人像語(yǔ)義分析的方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于目標(biāo)檢測(cè)與圖片識(shí)別領(lǐng)域,涉及一種基于標(biāo)簽轉(zhuǎn)移及LSTM(時(shí)間遞歸 神經(jīng)網(wǎng)絡(luò))模型的人像圖片語(yǔ)義分析的方法。
【背景技術(shù)】
[0002] 人像圖片語(yǔ)義分析在視頻監(jiān)控,虛擬現(xiàn)實(shí),圖片搜索,機(jī)器學(xué)習(xí)等領(lǐng)域有廣泛的應(yīng) 用,也是計(jì)算機(jī)視覺(jué)和模式識(shí)別領(lǐng)域的重要研究方向。常見(jiàn)的方法分為2種,一種是管道式 的方法,將人像語(yǔ)義分析分成人像的標(biāo)注,和自然語(yǔ)言描述的生成2個(gè)部分。其中常見(jiàn)的方 法有基于行人檢測(cè)提取包含人像的部位,基于圖片的分割和CRF(條件隨機(jī)場(chǎng))模型完成人 像的部位標(biāo)注,然后基于RNN(遞歸神經(jīng)網(wǎng)絡(luò))構(gòu)建語(yǔ)言模型,生成自然語(yǔ)言描述。另一種是 直達(dá)式的,直接將圖片直接轉(zhuǎn)化成自然語(yǔ)言的描述。常見(jiàn)的方法有基于深度學(xué)習(xí)的卷積神 經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)構(gòu)建模型的方法。方法一的優(yōu)點(diǎn)在于將整個(gè)分析過(guò)程細(xì)分到人像分 害J,人像特征提取和部位標(biāo)注,自然語(yǔ)言描述生成這幾個(gè)部分,每個(gè)部分可以獨(dú)立調(diào)試,并 且每個(gè)部分可以很方便地更換算法,不會(huì)影響到其他部分的調(diào)試。缺點(diǎn)在于每個(gè)部分的誤 差都會(huì)對(duì)最終結(jié)果造成影響,最終結(jié)果需要反復(fù)調(diào)試。第二種方法的優(yōu)點(diǎn)在于不需要細(xì)分 到以上提到的幾個(gè)部分,然后利用卷積神經(jīng)網(wǎng)絡(luò)在圖片特征提取的優(yōu)勢(shì),更好的利用這些 特征完成語(yǔ)義描述,缺點(diǎn)在于調(diào)試的難度大大增加。
[0003] 人像圖片語(yǔ)義描述目前的研究大多關(guān)注于圖片的整體描述,即人像和背景環(huán)境的 描述,沒(méi)有對(duì)人像進(jìn)行細(xì)粒度的描述。為了使得描述更加細(xì)粒度,有必要對(duì)人像進(jìn)行細(xì)粒度 的分析和語(yǔ)義描述。
[0004] LSTM(時(shí)間遞歸神經(jīng)網(wǎng)絡(luò))模型采用了特殊隱式單元被證明比傳統(tǒng)的RNNs(遞歸神 經(jīng)網(wǎng)絡(luò))更加有效。目前LSTM(時(shí)間遞歸神經(jīng)網(wǎng)絡(luò))網(wǎng)絡(luò)或者相關(guān)的門(mén)控單元同樣用于編碼 和解碼網(wǎng)絡(luò),并且在機(jī)器翻譯中表現(xiàn)良好。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的內(nèi)容在于提供一種基于標(biāo)簽轉(zhuǎn)移及時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)模型的人像圖片 細(xì)粒度語(yǔ)義分析的方法。主要是為單幅圖片中的人像提供語(yǔ)言描述,是一中從圖片到文本 的方法。
[0006] 為了實(shí)現(xiàn)上訴方法的目的,本發(fā)明采用的技術(shù)方案如下:
[0007] 基于標(biāo)簽轉(zhuǎn)移及LSTM模型的人像圖片細(xì)粒度語(yǔ)義分析的方法,包含三個(gè)模塊:人 像檢測(cè)模塊、人像主要部位標(biāo)注模塊、自然描述語(yǔ)言生成模塊。其包含以下步驟:
[0008] 1)采用BING顯著性檢測(cè)算法預(yù)處理圖片,提取可能包含人像的候選矩形區(qū)域,每 個(gè)矩形區(qū)域都會(huì)相應(yīng)的得分,得分越高,表示該矩形區(qū)域含有物體的可能性越大。候選區(qū)域 的數(shù)目大概2000個(gè);
[0009] 2)提取候選矩形區(qū)域的左上和右下角的坐標(biāo)信息,利用I0U算法計(jì)算相似矩陣,然 后在利用圖譜聚類算法聚類。
[0010] 相似矩陣的計(jì)算公式為:
[0011] 其中:r(i,j)表示區(qū)域i和區(qū)域j的相似度,s(i),s(j)表示位置信息,si,sj表示區(qū) 域i和區(qū)域j的面積,st表示區(qū)域i和區(qū)域j的重疊面積。
[0012] st的計(jì)算公式為:st = |min(xil ·xjl)_max(xi0,xj0) | * |min(yil,yjl)_max(yi0, xi〇)
[0013]其中:xil,xi〇,yjl,yj〇分另Ij為區(qū)域i和區(qū)域j的左上角和右下角的坐標(biāo);
[0014] 3)根據(jù)形狀特征對(duì)聚類之后的候選矩形區(qū)域進(jìn)行篩選,減少候選數(shù)目,并計(jì)算篩 選過(guò)后的平均面積,去除低于平均面積的區(qū)域,然后選擇每類中得分最高的2個(gè)區(qū)域合并, 得到最終的候選區(qū)域;
[0015] 4)對(duì)合并之后的區(qū)域提取H0G(方向梯度直方圖)特征,利用SVM(支持向量機(jī))進(jìn)行 人像檢測(cè),確定區(qū)域是否含有人像;
[0016] 5)提取包含人像的矩形區(qū)域進(jìn)行超像素分割,然后提取超像素的紋理,顏色,和位 置特征,迭代地合并顏色,紋理相近的超像素區(qū)域;
[0017] 6)將訓(xùn)練樣本庫(kù)中的人像圖片的分割圖歸一化到相同的尺寸,然后選取每個(gè)標(biāo)簽 對(duì)應(yīng)區(qū)域重疊度達(dá)90%的部分作為該標(biāo)簽的標(biāo)準(zhǔn)區(qū)域,制作人像標(biāo)準(zhǔn)分割標(biāo)注模板,然后 根據(jù)模板區(qū)域與包含人像的區(qū)域歸一化到同樣尺寸,然后根據(jù)初步分割區(qū)域與模板區(qū)域的 位置信息為每個(gè)分割區(qū)域提供預(yù)標(biāo)注。
[0018] 預(yù)標(biāo)注公式^
I表示區(qū)i標(biāo)注為標(biāo)簽j的可能性大小。
[0019] 其中Si表示第i個(gè)區(qū)域,Lj表示第j個(gè)標(biāo)簽,表示區(qū)域i和標(biāo)簽j所在區(qū)域的位 置相關(guān)性,表示區(qū)域i和所有標(biāo)簽區(qū)域的相關(guān)性。
[0020] p(|)的計(jì)算公式為
i,s(lj)表示區(qū)域i、標(biāo)簽j所在區(qū)域的位置信 息。
[0021] 的計(jì)算公式為:
[0022]然后把L(Si,Lj)作為特征向量,利用SVM(支持向量機(jī))分類對(duì)人像分割區(qū)域分類, 將模板標(biāo)注轉(zhuǎn)移到待識(shí)別區(qū)域,并合并標(biāo)簽相同的區(qū)域,完成人像分割區(qū)域的標(biāo)注;
[0023] 7)將訓(xùn)練圖片人像的語(yǔ)義描述作為訓(xùn)練樣本,訓(xùn)練LSTM(時(shí)間遞歸神經(jīng)網(wǎng)絡(luò))模 型;
[0024] 8)根據(jù)人像分割區(qū)域的標(biāo)注,并提取該區(qū)域的顏色特征,得到標(biāo)注詞組,然后加入 語(yǔ)義描述輔助詞組,通過(guò)LSTM(時(shí)間遞歸神經(jīng)網(wǎng)絡(luò))模型得到人像的自然語(yǔ)義描述。
[0025] 與傳統(tǒng)方法和現(xiàn)有的研究方向相比,本發(fā)明通過(guò)顯著性檢測(cè)的方法提取到可能存 在人像的候選區(qū)域,并通過(guò)聚類分析,結(jié)合形態(tài)學(xué)信息進(jìn)行一步的刷選,很大程度上減少了 提取包含人像區(qū)域的計(jì)算量。在人像細(xì)粒度分割部分,采用了超像素分割和選擇性分區(qū)域 合并的方法,保證了每個(gè)區(qū)域合并的之后的特征一致。在標(biāo)注模塊,設(shè)計(jì)了一個(gè)基于位置信 息的標(biāo)簽轉(zhuǎn)移的方法,計(jì)算出每個(gè)區(qū)域和每個(gè)標(biāo)簽之間的概率,并利用SVM(支持向量機(jī))分 類,提供了一種新的高效標(biāo)注方法。通過(guò)加入LSTM(時(shí)間遞歸神經(jīng)網(wǎng)絡(luò))自然語(yǔ)言生成模塊, 將人像圖片細(xì)粒度分析標(biāo)注轉(zhuǎn)化成自然語(yǔ)句,更加直觀。
【附圖說(shuō)明】
[0026]圖1為本發(fā)明的模塊劃分圖。
[0027]圖2為本發(fā)明的流程示意圖。
[0028] 圖3為本發(fā)明人像區(qū)域提取后的效果圖。
[0029] 圖4為本發(fā)明人像細(xì)粒度標(biāo)注示意圖。
[0030] 圖5為本發(fā)明自然語(yǔ)言描述生成效果圖。
【具體實(shí)施方式】
[0031] 下面將結(jié)合本發(fā)明中的附圖,對(duì)本發(fā)明的技術(shù)方案進(jìn)行清晰,完整的解釋。
[0032] 本發(fā)明的內(nèi)容在于提供一種基于標(biāo)簽轉(zhuǎn)移及時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)模型的人像圖片 細(xì)粒度語(yǔ)義分析的方法。該方法為單幅圖片中的人像提供細(xì)粒度的語(yǔ)言描述,是一中從圖 片到文本的方法。包含三個(gè)部分,人像區(qū)域提取部分,人像細(xì)粒度標(biāo)注部分,自然語(yǔ)言描述 生成部分。圖1是發(fā)明的模塊劃分圖。
[0033]在測(cè)試過(guò)程中,首先通過(guò)顯著性檢測(cè)和聚類分析預(yù)測(cè)出可能是人像的候選區(qū)域。 然后對(duì)候選區(qū)域進(jìn)行人像檢測(cè),得到包含人像的最終區(qū)域。然后,在用超像素分割和選擇性 分區(qū)域合并的方法,將人像劃分成不同的區(qū)域。再利用基于位置信息的標(biāo)簽轉(zhuǎn)移的方法,對(duì) 劃分的區(qū)域進(jìn)行預(yù)標(biāo)注,把標(biāo)注信息作為特征向量,構(gòu)建SVM(支持向量機(jī))分類器,完成最 后的標(biāo)注。最后根據(jù)標(biāo)注信息生成詞組,利用LSTM(時(shí)間遞歸神經(jīng)網(wǎng)絡(luò))模型生成自然描述 語(yǔ)言。圖2是本發(fā)明的流程示意圖。如圖2所示,本發(fā)明包含以下步驟:
[0034]步驟1,對(duì)單幅圖片,利用BING顯著性檢測(cè)的方法得到可能包含物體的候選矩形區(qū) 域,大概2000多個(gè)。每個(gè)區(qū)域都有相對(duì)應(yīng)的得分和左上角和右下角的坐標(biāo)信息,得分越高說(shuō) 明這個(gè)矩形區(qū)域包含物體的可能性越大;
[0035]步驟2,提取候選矩形區(qū)域的左上和右下角的坐標(biāo)信息,利用I0U算法計(jì)算相似矩 陣,然后在利用圖譜算法聚類,初步劃分為10類。
[0036]相似矩陣的計(jì)算公式^
[0037]其中:r(i,j)表示區(qū)域i和區(qū)域j的相似度,s(i),s(j)表示位置信息,si,sj表示區(qū) 域i和區(qū)域j的面積,st表示區(qū)域i和區(qū)域j的重疊面積。
[0038] st的計(jì)算公式為:st = |min(xil ·xjl)_max(xi0,xj0) | * |min(yil,yjl)_max(yi0, xi〇)
[0039]其中:xil,xi0,yjl,yj0分別為區(qū)域i和區(qū)域j的左上角和右下角的坐標(biāo);
[0040]步驟3,根據(jù)候選區(qū)域的形狀特征進(jìn)行篩選,保留長(zhǎng)寬比在1/