本發(fā)明涉及圖像轉(zhuǎn)化領(lǐng)域,尤其是涉及了一種基于變分自動(dòng)編碼器和生成對(duì)抗網(wǎng)絡(luò)的圖像轉(zhuǎn)化方法。
背景技術(shù):
伴隨著攝影技術(shù)的出現(xiàn)、電視和電影的普及、廣告、報(bào)紙書刊、互聯(lián)網(wǎng)等眾多以圖像為主的社會(huì)媒介飛速發(fā)展,與圖像相關(guān)的技術(shù)日趨顯出其重要性。將圖像從一個(gè)域映射到另一個(gè)域(圖像到圖像轉(zhuǎn)換)具有廣泛的應(yīng)用。例如,海上環(huán)境可見度差,常常有霧霾等,通過圖像轉(zhuǎn)化提前預(yù)知環(huán)境的相關(guān)情況,將對(duì)海上交通管理、捕魚等海上作業(yè)提供便利;實(shí)現(xiàn)圖像從白天到夜晚的轉(zhuǎn)化、從晴天到雨天的轉(zhuǎn)化等,使人們提前預(yù)知環(huán)境,方便出行或?qū)嵤┢渌ぷ鳎粚D像轉(zhuǎn)化成相應(yīng)的彩色圖像,以便更好地顯示和觀察。然而,現(xiàn)有的大多數(shù)圖像到圖像轉(zhuǎn)化方法都是基于監(jiān)督學(xué)習(xí),需要由兩個(gè)對(duì)應(yīng)的圖像對(duì)組成的訓(xùn)練數(shù)據(jù)集,但是對(duì)于許多應(yīng)用來說難以獲得所需的圖像對(duì),因此給轉(zhuǎn)化造成不便。
本發(fā)明提出了一種基于變分自動(dòng)編碼器和生成對(duì)抗網(wǎng)絡(luò)的圖像轉(zhuǎn)化方法,使用無監(jiān)督圖像到圖像轉(zhuǎn)化(unit)網(wǎng)絡(luò)框架學(xué)習(xí)兩個(gè)圖像域之間的雙向轉(zhuǎn)化功能,其包括vae和vae,用它們對(duì)每個(gè)圖像域進(jìn)行建模,對(duì)抗訓(xùn)練目標(biāo)與權(quán)重共享約束相互作用,在兩個(gè)域中產(chǎn)生相應(yīng)的圖像,將轉(zhuǎn)化圖像與各個(gè)域中的輸入圖像相關(guān)聯(lián),訓(xùn)練網(wǎng)絡(luò)聯(lián)合解決圖像重構(gòu)流和圖像轉(zhuǎn)化流的問題。本發(fā)明提出無監(jiān)督圖像到圖像轉(zhuǎn)化框架,使兩個(gè)域中沒有任何聯(lián)系的圖像完成轉(zhuǎn)化;不需要對(duì)應(yīng)圖像組成的訓(xùn)練數(shù)據(jù)集即可完成,提高了效率和實(shí)用性,該方法還可拓展到無監(jiān)督的語言轉(zhuǎn)化。
技術(shù)實(shí)現(xiàn)要素:
針對(duì)圖像轉(zhuǎn)化不便的問題,本發(fā)明的目的在于提供一種基于變分自動(dòng)編碼器和生成對(duì)抗網(wǎng)絡(luò)的圖像轉(zhuǎn)化方法,使用無監(jiān)督圖像到圖像轉(zhuǎn)化(unit)網(wǎng)絡(luò)框架學(xué)習(xí)兩個(gè)圖像域之間的雙向轉(zhuǎn)化功能,其包括vae和vae,用它們對(duì)每個(gè)圖像域進(jìn)行建模,對(duì)抗訓(xùn)練目標(biāo)與權(quán)重共享約束相互作用,在兩個(gè)域中產(chǎn)生相應(yīng)的圖像,將轉(zhuǎn)化圖像與各個(gè)域中的輸入圖像相關(guān)聯(lián),訓(xùn)練網(wǎng)絡(luò)聯(lián)合解決圖像重構(gòu)流和圖像轉(zhuǎn)化流的問題。
為解決上述問題,本發(fā)明提供一種基于變分自動(dòng)編碼器和生成對(duì)抗網(wǎng)絡(luò)的圖像轉(zhuǎn)化方法,其主要內(nèi)容包括:
(一)變分自動(dòng)編碼器(vae);
(二)權(quán)重共享;
(三)生成對(duì)抗網(wǎng)絡(luò)(gan);
(四)學(xué)習(xí)。
其中,所述的無監(jiān)督圖像到圖像翻譯(unit)網(wǎng)絡(luò),該框架包括變分自動(dòng)編碼器(vae)和生成對(duì)抗網(wǎng)絡(luò)(gan);它由6個(gè)子網(wǎng)絡(luò)組成:包括兩個(gè)域圖像編碼器e1和e2,兩個(gè)域圖像生成器g1和g2,以及兩個(gè)域?qū)硅b別器d1和d2;令x1和x2為兩個(gè)不同的圖像域;在受監(jiān)督的圖像到圖像轉(zhuǎn)化問題中,從聯(lián)合分布
其中,所述的變分自動(dòng)編碼器(vae),編碼器-發(fā)生器對(duì){e1,g1}構(gòu)成了vae1的x1域的vae;對(duì)于輸入圖像x1∈x1,vae1首先通過編碼器e1映射到潛在空間
類似地,{e2,g2}構(gòu)成x2域的vae:vae2;編碼器e2輸出平均矢量e2,μ(x1)和方差矢量
進(jìn)一步地,所述的采樣,采樣操作z1~q1(z1|x1)可以通過
其中,所述的權(quán)重共享,為了使兩個(gè)vae中的表示相關(guān)聯(lián),強(qiáng)制執(zhí)行權(quán)重共享約束;基于兩個(gè)域中一對(duì)相應(yīng)圖像的高級(jí)表示,共享提取兩個(gè)域中的輸入圖像的高級(jí)表示e1和e2最后幾層的權(quán)重;類似地,共享解碼高級(jí)表示,重建輸入圖像g1和g2前幾層的權(quán)重。
進(jìn)一步地,所述的潛在代碼,相同的潛碼可以被解碼,在兩個(gè)域中輸出兩個(gè)不相關(guān)的圖像;通過對(duì)抗訓(xùn)練,分別將兩個(gè)域中的一對(duì)相應(yīng)圖像分別映射到e1和e2的公共潛在代碼,并將潛在的代碼映射到兩個(gè)對(duì)應(yīng)的圖像中,分別為g1和g2。
進(jìn)一步地,所述的共享潛在空間,x1和x2的共享潛在空間能完成圖像到圖像的轉(zhuǎn)化;通過應(yīng)用g2(z1~q1(z1|x1))將x1中的圖像x1轉(zhuǎn)換為x2中的圖像;將這樣的信息處理流稱為圖像轉(zhuǎn)化流;兩個(gè)圖像轉(zhuǎn)化流存在于unit框架中:x1→x2和x2→x1;兩個(gè)流與圖像重建流聯(lián)合訓(xùn)練;一旦確保一對(duì)相應(yīng)的圖像被映射到相同的潛伏碼,并且相同的潛碼解碼成一對(duì)對(duì)應(yīng)的圖像,則(x1,g2(z1~q1(z1|x1)))將形成一對(duì)相應(yīng)的圖像。
其中,所述的生成對(duì)抗網(wǎng)絡(luò)(gan),一個(gè)unit網(wǎng)絡(luò)使用兩個(gè)對(duì)抗性的鑒別器:d1和d2;對(duì)于從第一個(gè)域數(shù)據(jù)集采樣的圖像,d1應(yīng)輸出為“正確”,而對(duì)于由g1生成的圖像,則應(yīng)輸出為“錯(cuò)誤”;由g1生成的圖像可以是相同的域重建圖像
其中,所述的學(xué)習(xí),訓(xùn)練unit網(wǎng)絡(luò)可以通過聯(lián)合解決vae1,vae2,gan1和gan2的圖像重構(gòu)流和圖像轉(zhuǎn)化流的學(xué)習(xí)問題:
訓(xùn)練vae通常通過最小化負(fù)對(duì)數(shù)似然函數(shù)的變化上界來完成;
vae對(duì)象函數(shù)由上式給出。
進(jìn)一步地,所述的重建圖像,超參數(shù)λ1和λ2控制目標(biāo)函數(shù)的權(quán)重,kl代表kullback-leibler(kl)發(fā)散函數(shù);使用由
(4)和(5)中的目標(biāo)函數(shù)與標(biāo)準(zhǔn)gan目標(biāo)函數(shù)不同,因?yàn)樯傻膱D像來自兩個(gè)不同的分布;對(duì)于(4),兩個(gè)分布是q1(z1|x1)(x1中的輸入圖像的重建圖像的分布)和q2(z2|x2)(x2中的輸入圖像的轉(zhuǎn)換圖像的分布);優(yōu)化(4)鼓勵(lì)g1輸出從類似于x1圖像的分布中抽取的圖像;類似地,優(yōu)化(5)鼓勵(lì)g2從x2輸出類似圖像的q1(z1|x1)和q2(z2|x2)采樣的圖像。
附圖說明
圖1是本發(fā)明一種基于變分自動(dòng)編碼器和生成對(duì)抗網(wǎng)絡(luò)的圖像轉(zhuǎn)化方法的系統(tǒng)框架圖。
圖2是本發(fā)明一種基于變分自動(dòng)編碼器和生成對(duì)抗網(wǎng)絡(luò)的圖像轉(zhuǎn)化方法的無監(jiān)督圖像到圖像翻譯(unit)網(wǎng)絡(luò)框架。
圖3是本發(fā)明一種基于變分自動(dòng)編碼器和生成對(duì)抗網(wǎng)絡(luò)的圖像轉(zhuǎn)化方法的轉(zhuǎn)化實(shí)例。
具體實(shí)施方式
需要說明的是,在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相互結(jié)合,下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步詳細(xì)說明。
圖1是本發(fā)明一種基于變分自動(dòng)編碼器和生成對(duì)抗網(wǎng)絡(luò)的圖像轉(zhuǎn)化方法的系統(tǒng)框架圖。主要包括變分自動(dòng)編碼器(vae),權(quán)重共享,生成對(duì)抗網(wǎng)絡(luò)(gan),學(xué)習(xí)。
變分自動(dòng)編碼器(vae),編碼器-發(fā)生器對(duì){e1,g1}構(gòu)成了vae1的x1域的vae;對(duì)于輸入圖像x1∈x1,vae1首先通過編碼器e1映射到潛在空間
類似地,{e2,g2}構(gòu)成x2域的vae:vae2;編碼器e2輸出平均矢量e2,μ(x1)和方差矢量
采樣操作z1~q1(z1|x1)可以通過
權(quán)重共享,為了使兩個(gè)vae中的表示相關(guān)聯(lián),強(qiáng)制執(zhí)行權(quán)重共享約束;基于兩個(gè)域中一對(duì)相應(yīng)圖像的高級(jí)表示,共享提取兩個(gè)域中的輸入圖像的高級(jí)表示e1和e2最后幾層的權(quán)重;類似地,共享解碼高級(jí)表示,重建輸入圖像g1和g2前幾層的權(quán)重。
相同的潛碼可以被解碼,在兩個(gè)域中輸出兩個(gè)不相關(guān)的圖像;通過對(duì)抗訓(xùn)練,分別將兩個(gè)域中的一對(duì)相應(yīng)圖像分別映射到e1和e2的公共潛在代碼,并將潛在的代碼映射到兩個(gè)對(duì)應(yīng)的圖像中,分別為g1和g2。
x1和x2的共享潛在空間能完成圖像到圖像的轉(zhuǎn)化;通過應(yīng)用g2(z1~q1(z1|x1))將x1中的圖像x1轉(zhuǎn)換為x2中的圖像;將這樣的信息處理流稱為圖像轉(zhuǎn)化流;兩個(gè)圖像轉(zhuǎn)化流存在于unit框架中:x1→x2和x2→x1;兩個(gè)流與圖像重建流聯(lián)合訓(xùn)練;一旦確保一對(duì)相應(yīng)的圖像被映射到相同的潛伏碼,并且相同的潛碼解碼成一對(duì)對(duì)應(yīng)的圖像,則(x1,g2(z1~q1(z1|x1)))將形成一對(duì)相應(yīng)的圖像。
生成對(duì)抗網(wǎng)絡(luò)(gan),一個(gè)unit網(wǎng)絡(luò)使用兩個(gè)對(duì)抗性的鑒別器:d1和d2;對(duì)于從第一個(gè)域數(shù)據(jù)集采樣的圖像,d1應(yīng)輸出為“正確”,而對(duì)于由g1生成的圖像,則應(yīng)輸出為“錯(cuò)誤”;由g1生成的圖像可以是相同的域重建圖像
學(xué)習(xí),訓(xùn)練unit網(wǎng)絡(luò)可以通過聯(lián)合解決vae1,vae2,gan1和gan2的圖像重構(gòu)流和圖像轉(zhuǎn)化流的學(xué)習(xí)問題:
訓(xùn)練vae通常通過最小化負(fù)對(duì)數(shù)似然函數(shù)的變化上界來完成;
vae對(duì)象函數(shù)由上式給出。
重建圖像,超參數(shù)λ1和λ2控制目標(biāo)函數(shù)的權(quán)重,kl代表kullback-leibler(kl)發(fā)散函數(shù);使用由
(4)和(5)中的目標(biāo)函數(shù)與標(biāo)準(zhǔn)gan目標(biāo)函數(shù)不同,因?yàn)樯傻膱D像來自兩個(gè)不同的分布;對(duì)于(4),兩個(gè)分布是q1(z1|x1)(x1中的輸入圖像的重建圖像的分布)和q2(z2|x2)(x2中的輸入圖像的轉(zhuǎn)換圖像的分布);優(yōu)化(4)鼓勵(lì)g1輸出從類似于x1圖像的分布中抽取的圖像;類似地,優(yōu)化(5)鼓勵(lì)g2從x2輸出類似圖像的q1(z1|x1)和q2(z2|x2)采樣的圖像。
圖2是本發(fā)明一種基于變分自動(dòng)編碼器和生成對(duì)抗網(wǎng)絡(luò)的圖像轉(zhuǎn)化方法的無監(jiān)督圖像到圖像翻譯(unit)網(wǎng)絡(luò)框架。該框架包括變分自動(dòng)編碼器(vae)和生成對(duì)抗網(wǎng)絡(luò)(gan);它由6個(gè)子網(wǎng)絡(luò)組成:包括兩個(gè)域圖像編碼器e1和e2,兩個(gè)域圖像生成器g1和g2,以及兩個(gè)域?qū)硅b別器d1和d2;令x1和x2為兩個(gè)不同的圖像域;在受監(jiān)督的圖像到圖像轉(zhuǎn)化問題中,從聯(lián)合分布
圖3是本發(fā)明一種基于變分自動(dòng)編碼器和生成對(duì)抗網(wǎng)絡(luò)的圖像轉(zhuǎn)化方法的轉(zhuǎn)化實(shí)例。其實(shí)現(xiàn)了無監(jiān)督日間圖像到夜間圖像的轉(zhuǎn)化,夜間圖像到日間圖像的轉(zhuǎn)化,熱像到rgb圖像的轉(zhuǎn)化,rgb圖像到熱像的轉(zhuǎn)化,晴天圖像到雨天圖像的轉(zhuǎn)化,以及雨天圖像到晴天圖像的轉(zhuǎn)化。
對(duì)于本領(lǐng)域技術(shù)人員,本發(fā)明不限制于上述實(shí)施例的細(xì)節(jié),在不背離本發(fā)明的精神和范圍的情況下,能夠以其他具體形式實(shí)現(xiàn)本發(fā)明。此外,本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍,這些改進(jìn)和變型也應(yīng)視為本發(fā)明的保護(hù)范圍。因此,所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本發(fā)明范圍的所有變更和修改。