两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于在線示例分類器精化的多示例檢測(cè)網(wǎng)絡(luò)及其訓(xùn)練方法與流程

文檔序號(hào):11920858閱讀:247來(lái)源:國(guó)知局

本發(fā)明屬于計(jì)算機(jī)視覺(jué)技術(shù)中弱監(jiān)督目標(biāo)檢測(cè)技術(shù)領(lǐng)域,更具體地,涉及一種基于在線示例分類器精化的多示例檢測(cè)網(wǎng)絡(luò)及其訓(xùn)練方法。



背景技術(shù):

目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)技術(shù)領(lǐng)域中弱監(jiān)督的重要課題,對(duì)于人眼來(lái)說(shuō),目標(biāo)檢測(cè)是再簡(jiǎn)單不過(guò)的任務(wù),但是對(duì)于計(jì)算機(jī)來(lái)說(shuō),它看到的是一些值為0-255的數(shù)組,很難判斷和得到高層語(yǔ)義概念,也不清楚目標(biāo)到底在圖像中的哪個(gè)區(qū)域。圖像中的目標(biāo)可能出現(xiàn)在任何位置,目標(biāo)的形態(tài)可能存在各種各樣的變化,圖像的背景千差萬(wàn)別,這些因素導(dǎo)致目標(biāo)檢測(cè)并不是一個(gè)容易解決的任務(wù)。得益于深度學(xué)習(xí)——主要是卷積神經(jīng)網(wǎng)絡(luò)和候選區(qū)域算法,它們的應(yīng)用大大提高了目標(biāo)檢測(cè)的精度。

在訓(xùn)練目標(biāo)檢測(cè)網(wǎng)絡(luò)的過(guò)程中,往往需要提前準(zhǔn)備大量的具有標(biāo)簽的數(shù)據(jù),尤其是標(biāo)記了目標(biāo)位置的數(shù)據(jù)。但相比于圖像級(jí)別的標(biāo)簽(即只標(biāo)注了圖像中是否含有目標(biāo)),獲取目標(biāo)位置級(jí)別的標(biāo)簽往往需要更多的人力來(lái)進(jìn)行標(biāo)注。只使用圖像級(jí)別的數(shù)據(jù)來(lái)訓(xùn)練目標(biāo)檢測(cè)網(wǎng)絡(luò)稱為基于弱監(jiān)督學(xué)習(xí)的目標(biāo)檢測(cè)。多示例學(xué)習(xí)是典型的弱監(jiān)督學(xué)習(xí)(在多示例學(xué)習(xí)中,訓(xùn)練數(shù)據(jù)的標(biāo)簽只有正和負(fù)兩種,被標(biāo)記的目標(biāo)對(duì)象可以看作是一個(gè)數(shù)據(jù)包,稱為正包和負(fù)包。正包中至少有一個(gè)樣本的標(biāo)簽為正,負(fù)包中所有樣本的標(biāo)簽都為負(fù))。

實(shí)際中要獲得所有數(shù)據(jù)的標(biāo)簽是很困難的,為龐大的數(shù)據(jù)庫(kù)標(biāo)記是非常耗時(shí)耗力的,特別是目標(biāo)檢測(cè)問(wèn)題中存在巨大的目標(biāo)候選區(qū)域集,要獲得每個(gè)候選區(qū)域的位置和標(biāo)簽,通過(guò)人工的方式基本是無(wú)法完成的,因此基于弱監(jiān)督的目標(biāo)識(shí)別是計(jì)算機(jī)視覺(jué)領(lǐng)域中的難點(diǎn)之一。



技術(shù)實(shí)現(xiàn)要素:

針對(duì)弱監(jiān)督目標(biāo)檢測(cè)問(wèn)題的困難,本發(fā)明提供了一種基于在線示例分類器精化的多示例檢測(cè)網(wǎng)絡(luò)及其訓(xùn)練方法,其目的在于僅依賴于圖像標(biāo)簽的訓(xùn)練圖片數(shù)據(jù)集,訓(xùn)練得到目標(biāo)示例的位置,將候選區(qū)域選取和卷積神經(jīng)網(wǎng)絡(luò)分類融合到一起,將網(wǎng)絡(luò)分類和精化也融合到一起,從而生成端到端的多示例檢測(cè)網(wǎng)絡(luò)以進(jìn)行目標(biāo)檢測(cè)。該方法訓(xùn)練速度快檢測(cè)精度高,不需要人工標(biāo)注目標(biāo)的位置和標(biāo)簽,適用于弱監(jiān)督問(wèn)題。

為了解決上述技術(shù)問(wèn)題,按照本發(fā)明一個(gè)方面,提供了一種基于在線示例分類器精化的多示例檢測(cè)網(wǎng)絡(luò)訓(xùn)練方法,包括下述步驟:

(1)確定訓(xùn)練圖片集,所述訓(xùn)練數(shù)據(jù)集包括訓(xùn)練圖片的集合,以及每張訓(xùn)練圖片的類別標(biāo)簽,所述類別標(biāo)簽用于表示該訓(xùn)練圖中包含哪一類或多類目標(biāo)示例;并選擇每張訓(xùn)練圖片中的多個(gè)候選區(qū)域;

(2)獲得所述訓(xùn)練圖片集中訓(xùn)練圖片的卷積特征圖,并將訓(xùn)練圖片的各候選區(qū)域在其原始訓(xùn)練圖片中的位置映射到該訓(xùn)練圖片的卷積層特征圖上,得到訓(xùn)練圖片的各候選區(qū)域的卷積特征;

(3)將訓(xùn)練圖片的各候選區(qū)域的卷積特征輸入到全連接層中,得到訓(xùn)練圖片的各候選區(qū)域的特征向量;

(4)構(gòu)建一個(gè)基準(zhǔn)示例分類器,并根據(jù)所述訓(xùn)練圖片的各候選區(qū)域的特征向量和所述基準(zhǔn)示例分類器構(gòu)建多個(gè)精化示例分類器,通過(guò)更新每個(gè)候選區(qū)域得分的權(quán)重,進(jìn)行在線示例分類器精化;

(5)合并整個(gè)網(wǎng)絡(luò)中的損失函數(shù),包含基準(zhǔn)示例分類器的損失函數(shù)和K個(gè)精化示例分類器的損失函數(shù),訓(xùn)練端到端的多示例檢測(cè)網(wǎng)絡(luò)。

本發(fā)明的一個(gè)實(shí)施例中,所述步驟(4)具體包括:

(4.1)首先構(gòu)建基準(zhǔn)示例分類器,所述基準(zhǔn)示例分類器為基礎(chǔ)的多示例目標(biāo)檢測(cè)網(wǎng)絡(luò),訓(xùn)練圖片的各候選區(qū)域的特征向量計(jì)算各候選區(qū)域的得分,并根據(jù)各候選區(qū)域的得分計(jì)算訓(xùn)練圖片的分?jǐn)?shù),利用圖片的標(biāo)簽信息和由候選區(qū)域得分計(jì)算的圖片分?jǐn)?shù)來(lái)訓(xùn)練基準(zhǔn)示例分類器;

(4.2)利用圖像候選區(qū)域的特征向量和上述的基準(zhǔn)示例分類器,構(gòu)建多個(gè)精化示例分類器,所述精化示例分類器將步驟(4.1)訓(xùn)練的基準(zhǔn)示例分類器中候選區(qū)域的分?jǐn)?shù)結(jié)果作為第一個(gè)精化示例分類器中候選區(qū)域的分?jǐn)?shù)的權(quán)重系數(shù),將k-1次訓(xùn)練的精化示例分類器中候選區(qū)域的分?jǐn)?shù)結(jié)果作為第k個(gè)訓(xùn)練的精化示例分類器中候選區(qū)域的分?jǐn)?shù)的權(quán)重,通過(guò)更新每個(gè)候選區(qū)域得分的權(quán)重,進(jìn)行在線示例分類器精化,所述k為精化示例分類器的個(gè)數(shù)。

本發(fā)明的一個(gè)實(shí)施例中,所述步驟(4.1)具體包括:

(4.1.1)將訓(xùn)練圖片的所有候選區(qū)域的特征向量輸入兩個(gè)全連接層,得到兩個(gè)C維度大小的向量Xc和Xd,其中C為類別標(biāo)簽的數(shù)目,其中Xc和Xd∈RC*|R|,|R|為每張圖片的候選區(qū)域的數(shù)目;

(4.1.2)將Xc和Xd分別輸入兩個(gè)softmax層,經(jīng)過(guò)該兩個(gè)softmax層后,得到每個(gè)候選區(qū)域的兩組分?jǐn)?shù)σ(Xc)和σ(Xd),σ(Xc)表示每個(gè)候選區(qū)域占標(biāo)簽類別中某個(gè)類別的概率分?jǐn)?shù),σ(Xd)表示每個(gè)候選區(qū)域占該圖片做出標(biāo)簽貢獻(xiàn)的概率分?jǐn)?shù),σ(Xc)和σ(Xd)的取值范圍為(0,1);兩者逐點(diǎn)乘積得到該候選區(qū)域的分?jǐn)?shù)XR

其中兩個(gè)softmax層,表示為:

XR表示為:

XR=σ(Xc)⊙σ(Xd)。

(4.1.3)將該訓(xùn)練圖片所有候選區(qū)域的分?jǐn)?shù)加和表示為該訓(xùn)練圖片的分?jǐn)?shù)表示為:

每張圖片的分?jǐn)?shù)是求和池化的結(jié)果,其取值范圍為(0,1),該分?jǐn)?shù)表示該圖片被分類為類別c的概率;

(4.1.4)利用(4.1.3)得到的圖片分?jǐn)?shù),采用標(biāo)準(zhǔn)的多分類交叉熵?fù)p失函數(shù)訓(xùn)練基準(zhǔn)示例分類器;損失函數(shù)表示為:

其中Y為訓(xùn)練圖片的類別標(biāo)簽,記為:

Y=[y1,y2,…,yC]T∈RC*1

其中,yc的值為1或0表示該圖片中包括或不包括目標(biāo)c,總共有C個(gè)目標(biāo)類別。

本發(fā)明的一個(gè)實(shí)施例中,所述步驟(4.2)具體包括:

(4.2.1)將所有候選區(qū)域的特征向量輸入到一個(gè)全連接層,得到C+1維度大小的向量XRk,記為:

其中,j表示第j個(gè)候選區(qū)域,k表示第k次精化訓(xùn)練,精化訓(xùn)練的分類器的類別為{C+1};

(4.2.2)將(4.2.1)得到的C+1維度大小的向量XRk輸入到一個(gè)softmax層,得到每個(gè)候選區(qū)域的分?jǐn)?shù),取值范圍為(0,1),該分?jǐn)?shù)表示該候選區(qū)域占{C+1}類別的概率分?jǐn)?shù);

(4.2.3)根據(jù)候選區(qū)域的分?jǐn)?shù)確定每個(gè)候選區(qū)域的類別;

(4.2.4)利用損失函數(shù):

經(jīng)過(guò)多次精化訓(xùn)練逐漸逼近目標(biāo)示例的位置,訓(xùn)練各精化示例分類器。

其中,為所述訓(xùn)練圖片集的所有候選區(qū)域的標(biāo)簽集:

權(quán)重系數(shù)為第k-1個(gè)精化示例分類器訓(xùn)練的分?jǐn)?shù)結(jié)果,

本發(fā)明的一個(gè)實(shí)施例中,所述步驟(5)具體為:

將(4.1.4)的基準(zhǔn)示例分類器的損失函數(shù)和(4.2.4)的K個(gè)精化示例分類器的損失函數(shù)合并,得到多示例檢測(cè)網(wǎng)絡(luò)的損失函數(shù)如下:

該優(yōu)化損失函數(shù),將基準(zhǔn)示例分類器訓(xùn)練和分類器精化兩個(gè)階段融合到一個(gè)網(wǎng)絡(luò)中。

本發(fā)明的一個(gè)實(shí)施例中,所述步驟(4.2.3)具體為:

選擇訓(xùn)練圖片的|R|個(gè)候選區(qū)域的分?jǐn)?shù)XRk中分?jǐn)?shù)最大的那個(gè)候選區(qū)域,用該訓(xùn)練圖片的類別標(biāo)簽來(lái)標(biāo)記該候選區(qū)域的類別;

選擇與分?jǐn)?shù)最大的那個(gè)候選區(qū)域的覆蓋率大于設(shè)定覆蓋率閾值的鄰近候選區(qū)域,并用該訓(xùn)練圖片的類別標(biāo)簽來(lái)標(biāo)記這些鄰近候選區(qū)域的類別。

本發(fā)明的一個(gè)實(shí)施例中,在更新權(quán)重系數(shù)的過(guò)程中,當(dāng)鄰近候選區(qū)域與當(dāng)前分?jǐn)?shù)最大的候選區(qū)域的IoU最大時(shí),將該最大分?jǐn)?shù)賦給該鄰近候選區(qū)域的權(quán)重。

本發(fā)明的一個(gè)實(shí)施例中,所述步驟(1)中選擇每張訓(xùn)練圖片中的多個(gè)候選區(qū)域,具體為:

采用Selective Search方法為每張訓(xùn)練圖片選取可能為目標(biāo)位置的候選區(qū)域。

本發(fā)明的一個(gè)實(shí)施例中,在所述步驟(2)中將訓(xùn)練圖片的各候選區(qū)域在其原始訓(xùn)練圖片中的位置映射到該訓(xùn)練圖片的卷積層特征圖上,具體為:

將訓(xùn)練圖片的卷積特征圖及訓(xùn)練圖片的各候選區(qū)域輸入到具有SPP-NET網(wǎng)絡(luò)結(jié)構(gòu)的卷積層,從而將訓(xùn)練圖片的各候選區(qū)域在其原始訓(xùn)練圖片中的位置映射到該訓(xùn)練圖片的卷積層特征圖上,得到訓(xùn)練圖片的各候選區(qū)域的卷積特征。

按照本發(fā)明的另一方面,還提供了一種如上述方法訓(xùn)練得到的基于在線示例分類器精化的多示例檢測(cè)網(wǎng)絡(luò)。

總體而言,通過(guò)本發(fā)明所構(gòu)思的以上技術(shù)方案與現(xiàn)有技術(shù)相比,本發(fā)明具有以下技術(shù)效果:

(1)本發(fā)明適用于多示例及弱監(jiān)督的問(wèn)題,僅依賴具有圖像標(biāo)簽的數(shù)據(jù)集檢測(cè)目標(biāo)示例,而不需要人工對(duì)圖像中一個(gè)或多個(gè)目標(biāo)示例的位置和標(biāo)簽進(jìn)行標(biāo)注;

(2)現(xiàn)有的目標(biāo)檢測(cè)往往采用迭代策略優(yōu)化網(wǎng)絡(luò),每次迭代都需要訓(xùn)練一次模型,訓(xùn)練耗時(shí)長(zhǎng);本發(fā)明將多示例分類器的訓(xùn)練和分類器的精化整合在一起,只需要訓(xùn)練一個(gè)模型,減少了訓(xùn)練時(shí)間提高了訓(xùn)練效率;

(3)本發(fā)明提出的多示例檢測(cè)網(wǎng)絡(luò)是端到端的,將目標(biāo)候選區(qū)域的選取和卷積神經(jīng)網(wǎng)絡(luò)的分類融合到了一起,無(wú)論在速度上還是精度上都得到了很好的提升。

附圖說(shuō)明

圖1是本發(fā)明基于在線示例分類器精化的多示例檢測(cè)網(wǎng)絡(luò)訓(xùn)練方法的原理示意圖。

具體實(shí)施方式

為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。此外,下面所描述的本發(fā)明各個(gè)實(shí)施方式中所涉及到的技術(shù)特征只要彼此之間未構(gòu)成沖突就可以相互組合。

以下首先就本發(fā)明的技術(shù)術(shù)語(yǔ)進(jìn)行解釋和說(shuō)明:

弱監(jiān)督目標(biāo)檢測(cè)(Weakly Supervised Object Detection,WSOD):一類計(jì)算機(jī)視覺(jué)中的研究課題,目標(biāo)檢測(cè)是識(shí)別并定位輸入圖像中已知特定的某個(gè)或多個(gè)物體,可分為目標(biāo)定位和目標(biāo)分類兩部分。弱監(jiān)督目標(biāo)檢測(cè)網(wǎng)絡(luò)中,一般只具有圖像級(jí)別的標(biāo)簽,但沒(méi)有目標(biāo)候選區(qū)域的標(biāo)簽。只使用圖像級(jí)別的數(shù)據(jù)來(lái)訓(xùn)練目標(biāo)檢測(cè)網(wǎng)絡(luò)稱為基于弱監(jiān)督學(xué)習(xí)的目標(biāo)檢測(cè)。

多示例學(xué)習(xí)(Multiple Instance Learning,MIL):在多示例學(xué)習(xí)中,訓(xùn)練數(shù)據(jù)的標(biāo)簽只有兩種,正和負(fù),被標(biāo)記的目標(biāo)是一個(gè)數(shù)據(jù)包,稱為正包和負(fù)包。正包中至少有一個(gè)樣本的標(biāo)簽為正,負(fù)包中所有樣本的標(biāo)簽都為負(fù)。多示例學(xué)習(xí)是典型的弱監(jiān)督學(xué)習(xí)。

卷積神經(jīng)網(wǎng)絡(luò)(Concolutional Neural Network,CNN):一種可用于圖像分類、回歸等任務(wù)的神經(jīng)網(wǎng)絡(luò)。網(wǎng)絡(luò)通常由卷積層、降采樣層和全連接層構(gòu)成。卷積層和降采樣層負(fù)責(zé)提取圖像的特征,全連接層負(fù)責(zé)分類或回歸。網(wǎng)絡(luò)的參數(shù)包括卷積核以及全連接層的參數(shù)及偏置,參數(shù)可以通過(guò)反向傳導(dǎo)算法,從數(shù)據(jù)中學(xué)習(xí)得到。

本發(fā)明基于在線示例分類器精化的多示例檢測(cè)網(wǎng)絡(luò)包括以下步驟:

(1)確定訓(xùn)練圖片集,所述訓(xùn)練數(shù)據(jù)集包括訓(xùn)練圖片的集合,以及每張訓(xùn)練圖片的類別標(biāo)簽,所述類別標(biāo)簽用于表示該訓(xùn)練圖中包含哪一類或多類目標(biāo)示例;并選擇每張訓(xùn)練圖片中的多個(gè)候選區(qū)域;

具體地,所述數(shù)據(jù)集包括訓(xùn)練圖片集合和每張訓(xùn)練圖片的類別標(biāo)簽(即整個(gè)網(wǎng)絡(luò)的訓(xùn)練標(biāo)簽),該類別標(biāo)簽表示該訓(xùn)練圖片中包含哪一類或多類示例,但不用標(biāo)注示例在訓(xùn)練圖片中的具體位置。所述候選區(qū)域可以采用Selective Search方法為每張訓(xùn)練圖片選取可能為目標(biāo)位置的候選區(qū)域,每張訓(xùn)練圖片的候選區(qū)域的數(shù)目記為|R|,例如|R|可以取值為2000。

(2)獲得所述訓(xùn)練圖片集中訓(xùn)練圖片的卷積特征圖,并將訓(xùn)練圖片的各候選區(qū)域在其原始訓(xùn)練圖片中的位置映射到該訓(xùn)練圖片的卷積層特征圖上,得到訓(xùn)練圖片的各候選區(qū)域的卷積特征;

具體地,將訓(xùn)練圖片原始和該訓(xùn)練圖片的所有候選區(qū)域輸入到卷積層中,得到各候選區(qū)域的卷積特征。所述卷積層是采用SPP-NET的網(wǎng)絡(luò)結(jié)構(gòu),任意給一張圖像輸入進(jìn)來(lái),經(jīng)過(guò)卷積操作得到卷積特征,將候選區(qū)域在原圖的位置映射到卷積層特征圖上。例如,當(dāng)卷積層網(wǎng)絡(luò)為VGG16時(shí),窗口大小設(shè)為7*7,共有512個(gè)特征圖,在原圖的卷積特征圖上摳出每個(gè)候選區(qū)域?qū)?yīng)的特征圖,并通過(guò)上/下采樣將它的大小調(diào)整為7*7,可以得到49*512維度大小的卷積特征,將這個(gè)作為全連接層的輸入進(jìn)行后續(xù)操作。

(3)將訓(xùn)練圖片的各候選區(qū)域的卷積特征輸入到全連接層中,得到訓(xùn)練圖片的各候選區(qū)域的特征向量。

具體地,利用(2)中得到的固定長(zhǎng)度的卷積層特征經(jīng)過(guò)2個(gè)全連接層,得到更高語(yǔ)義層的特征向量。例如,當(dāng)網(wǎng)絡(luò)為VGG16時(shí),49*512維度大小的卷積層特征經(jīng)過(guò)2個(gè)全連接層,最終得到4096維度大小的特征向量。

(4)根據(jù)得到的候選區(qū)域的特征向量,構(gòu)建一個(gè)基準(zhǔn)示例分類器和K個(gè)精化示例分類器,對(duì)多示例目標(biāo)檢測(cè)網(wǎng)絡(luò)進(jìn)行訓(xùn)練和在線示例分類器精化,以確定示例目標(biāo)的位置。

(4.1)首先構(gòu)建基礎(chǔ)的MIDN(Multiple Instance Detection Network,多示例目標(biāo)檢測(cè)網(wǎng)絡(luò)),即一個(gè)基準(zhǔn)示例分類器,利用訓(xùn)練圖片候選區(qū)域的得分,計(jì)算每張訓(xùn)練圖片的分?jǐn)?shù),通過(guò)交叉熵計(jì)算損失函數(shù),訓(xùn)練該基準(zhǔn)示例分類器。具體如下:

(4.1.1)根據(jù)上述網(wǎng)絡(luò),每張訓(xùn)練圖片產(chǎn)生|R|個(gè)候選區(qū)域,每個(gè)候選區(qū)域得到4096維度的特征,將所有候選區(qū)域的特征經(jīng)過(guò)兩個(gè)全連接層,得到兩個(gè)C維度大小的向量,C為圖片類別的數(shù)目。由該兩個(gè)全連接層得到的向量記為Xc和Xd,其中Xc,Xd∈RC*|R|(|R|為每張圖片的候選區(qū)域的數(shù)目);

(4.1.2)根據(jù)(4.1.1)中得到的特征向量,計(jì)算得到每個(gè)候選區(qū)域以及每張訓(xùn)練圖片的分?jǐn)?shù);

將Xc和Xd分別輸入兩個(gè)softmax層,表示為:

經(jīng)過(guò)該兩個(gè)softmax層后,得到每個(gè)候選區(qū)域的兩組分?jǐn)?shù)。σ(Xc)表示每個(gè)候選區(qū)域占某個(gè)類別的概率分?jǐn)?shù),σ(Xd)表示每個(gè)候選區(qū)域占該訓(xùn)練圖片做出標(biāo)簽貢獻(xiàn)的概率分?jǐn)?shù),σ(Xc)和σ(Xd)的取值范圍為(0,1)。兩者的逐點(diǎn)乘積得到該候選區(qū)域的分?jǐn)?shù)XR,表示為:

XR=σ(Xc)⊙σ(Xd)

(4.1.3)將該訓(xùn)練圖片所有候選區(qū)域的分?jǐn)?shù)加和表示為該訓(xùn)練圖片的分?jǐn)?shù)表示為:

每張訓(xùn)練圖片的分?jǐn)?shù)是求和池化的結(jié)果,其取值范圍為(0,1),該分?jǐn)?shù)表示該訓(xùn)練圖片被分類為類別c的概率;

(4.1.4)為了訓(xùn)練一個(gè)基準(zhǔn)的示例分類器,采用標(biāo)準(zhǔn)的多分類交叉熵?fù)p失函數(shù)。假定訓(xùn)練圖片集的類別標(biāo)簽為Y,記為:

Y=[y1,y2,…,yC]T∈RC*1

其中,yc的值為1或0表示該訓(xùn)練圖片中包括或不包括目標(biāo)c,總共有C個(gè)目標(biāo)類別。利用(4.1.3)得到的圖片分?jǐn)?shù)計(jì)算和訓(xùn)練示例分類器,損失函數(shù)表示為:

利用訓(xùn)練圖片的標(biāo)簽信息和由候選區(qū)域得分計(jì)算的圖片分?jǐn)?shù)來(lái)訓(xùn)練基準(zhǔn)示例分類器。

(4.2)利用圖像候選區(qū)域的特征向量和上述的基準(zhǔn)示例分類器,構(gòu)建多個(gè)精化示例分類器,通過(guò)更新每個(gè)候選區(qū)域得分的權(quán)重,進(jìn)行在線示例分類器精化。

(4.2.1)根據(jù)(3)得到的訓(xùn)練圖片的所有|R|個(gè)候選區(qū)域的特征向量和(4.1)訓(xùn)練的基準(zhǔn)的示例分類器,來(lái)訓(xùn)練K個(gè)其他分類器,在線調(diào)整和更新候選區(qū)域的標(biāo)簽分?jǐn)?shù)。將所有候選區(qū)域的特征向量輸入到一個(gè)全連接層,得到C+1維度大小的向量XRk,記為:

其中,j表示第j個(gè)候選區(qū)域,k表示第k次精化訓(xùn)練,精化訓(xùn)練的分類器的類別為{C+1},C和(4.1.1)中的C一致,表示該數(shù)據(jù)集的圖片類別的數(shù)目,這里增加了一個(gè)背景的類別(第C+1類)以更精準(zhǔn)的區(qū)分和判斷每個(gè)候選區(qū)域的標(biāo)簽;

(4.2.2)根據(jù)(4.2.1)得到的向量,計(jì)算每個(gè)候選區(qū)域的分?jǐn)?shù):

將(4.2.1)得到的C+1維度大小的向量XRk輸入到一個(gè)softmax層,得到每個(gè)候選區(qū)域的分?jǐn)?shù),取值范圍為(0,1),該分?jǐn)?shù)表示該候選區(qū)域占{C+1}類別的概率分?jǐn)?shù);

(4.2.3)為了訓(xùn)練K個(gè)精化示例分類器,需要確定每個(gè)候選區(qū)域的類別標(biāo)簽。給定一張圖片,其標(biāo)簽類別為c,由之前得到該圖片的|R|個(gè)候選區(qū)域的分?jǐn)?shù)XRk,選擇最大的那個(gè)候選區(qū)域,設(shè)定其標(biāo)簽也為c。接著計(jì)算該候選區(qū)域與其鄰近候選區(qū)域的IoU(覆蓋率),例如當(dāng)值大于0.5時(shí),設(shè)定這些鄰近候選區(qū)域的標(biāo)簽也為c,否則將這些不鄰近的候選區(qū)域的標(biāo)簽設(shè)為背景;

(4.2.4)為了訓(xùn)練K個(gè)精化示例分類器,更好地更新確定每個(gè)候選區(qū)域的標(biāo)簽,需要定義合適的損失函數(shù)。

標(biāo)準(zhǔn)損失函數(shù)如下:

其中,表示第k次精化訓(xùn)練中第r個(gè)候選區(qū)域?qū)儆赾類別的概率分?jǐn)?shù),表示該候選區(qū)域的真實(shí)標(biāo)簽。該圖像集的所有候選區(qū)域的標(biāo)簽集表示為:

定義新的損失函數(shù)如下:

其中,新的損失函數(shù)與標(biāo)準(zhǔn)損失函數(shù)相比,多了一項(xiàng)權(quán)重系數(shù)即為上一次訓(xùn)練的分?jǐn)?shù)結(jié)果,為了充分利用訓(xùn)練的結(jié)果,將(4.1)訓(xùn)練的基準(zhǔn)示例分類器中候選區(qū)域的分?jǐn)?shù)結(jié)果作為第一個(gè)精化示例分類器中候選區(qū)域的分?jǐn)?shù)的權(quán)重系數(shù),將第k-1個(gè)訓(xùn)練的精化示例分類器中候選區(qū)域的分?jǐn)?shù)結(jié)果作為第k個(gè)訓(xùn)練的精化示例分類器中候選區(qū)域的分?jǐn)?shù)的權(quán)重。在更新權(quán)重過(guò)程中,當(dāng)鄰近候選區(qū)域與當(dāng)前分?jǐn)?shù)最大的候選區(qū)域的IoU最大時(shí),將該最大分?jǐn)?shù)賦給該鄰近候選區(qū)域的權(quán)重,通過(guò)多次精化訓(xùn)練,可以逐漸逼近目標(biāo)示例的位置。

(5)合并整個(gè)網(wǎng)絡(luò)中的損失函數(shù),包含基準(zhǔn)示例分類器的損失函數(shù)和K個(gè)精化示例分類器的損失函數(shù),訓(xùn)練端到端的多示例檢測(cè)網(wǎng)絡(luò)。

將(4.1.4)的基準(zhǔn)示例分類器的損失函數(shù)和(4.2.4)的K個(gè)精化示例分類器的損失函數(shù)合并,得到該網(wǎng)絡(luò)的損失函數(shù)如下:

該優(yōu)化損失函數(shù),將基準(zhǔn)示例分類器訓(xùn)練和分類器精化兩個(gè)階段融合到一個(gè)網(wǎng)絡(luò)中,訓(xùn)練是端到端的。

本領(lǐng)域的技術(shù)人員容易理解,以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
滦南县| 昆明市| 宽甸| 湖口县| 桓台县| 罗甸县| 阳江市| 长春市| 河津市| 阳春市| 华安县| 新乡县| 望谟县| 含山县| 荆州市| 隆昌县| 阿巴嘎旗| 汶川县| 嵊州市| 安徽省| 全椒县| 筠连县| 股票| 五河县| 卢氏县| 南城县| 石泉县| 福安市| 海城市| 黄龙县| 庄河市| 松原市| 新沂市| 凤庆县| 吉林省| 平湖市| 武山县| 当阳市| 望城县| 洛南县| 江华|