本發(fā)明涉及圖像生成材質(zhì)貼圖領域,具體為基于cbam和對抗網(wǎng)絡的單圖像材質(zhì)恢復方法。
背景技術:
1、在現(xiàn)實世界中,物體表面的視覺效果受到諸如光照條件、表面幾何和材料屬性等因素的影響,為了達到更真實的渲染效果,這使得從單一圖像生成高質(zhì)量的svbrdf貼圖成為一個具有挑戰(zhàn)性且急需解決的問題。最近,從移動設備(比如手機)捕捉的圖像生成材質(zhì)貼圖的方法越來越受到人們的青睞,與傳統(tǒng)方法相比該類方法可以有效減少成本和提高效率。
2、本發(fā)明提出了一種端到端方法用于從單一圖像準確估計svbrdf材料參數(shù)。與現(xiàn)有的一些基于卷積神經(jīng)網(wǎng)絡的方法不同,這些方法只使用基于像素的損失函數(shù)(如l1?loss)用于優(yōu)化網(wǎng)絡參數(shù),這些方法在應對具有復雜特征的材質(zhì)時表現(xiàn)不足,因此本發(fā)明提出的方法通過引入一種新的聯(lián)合損失函數(shù)來突破這一限制。本發(fā)明引入的聯(lián)合損失函數(shù)通過加入感知損失來使網(wǎng)絡能基于材質(zhì)圖片的高級語義特征來優(yōu)化參數(shù),不僅如此,還加入了能捕捉全局結構和形狀特征的損失函數(shù)用于鼓勵網(wǎng)絡生成在整體結構上與目標圖片相似的結果,這使得網(wǎng)絡可以不過分關注輸入圖片像素級別的差異,從而提高了估計的svbrdf的感知準確性和視覺合理性。
3、此外,本方法引入了一種基于空間域和通道域的注意力機制模塊cbam,與以往的一些基于cnn的方法相比,注意力模塊的加入有效提高了網(wǎng)絡對于各個特征的細分能力,從而幫助網(wǎng)絡關注于更重要的特征,比如高光、陰影的變化或紋理模式,同時減小圖像中無關和干擾特征的影響??偟膩碚f,該注意力機制的引入顯著提高了網(wǎng)絡的性能和其對于復雜細節(jié)特征的提取能力,從而在整體上幫助提高svbrdf估計的準確性。
4、為了進一步提高生成結果的真實度,本方法在網(wǎng)絡結構上引入了條件生成對抗網(wǎng)絡(cgan)。cgan由于在網(wǎng)絡的輸入中引入了額外的約束,可以使其在訓練過程中能獲得更具體的信息,也更能滿足本發(fā)明的任務需求。在本發(fā)明的實現(xiàn)中,輸入的目標圖像作為本方法中的約束條件,和生成器生成的svbrdf材質(zhì)貼圖一起加入到判別器的訓練過程中,從而實現(xiàn)更有效的對抗訓練。為了提高每種材質(zhì)貼圖精準度,本方法引入了多個判別器,每個判別器負責判別對應的svbrdf材質(zhì)貼圖。這種多判別器設定提高了網(wǎng)絡的整體擬合能力,并努力確保生成的結果與期望屬性相吻合。通過充分利用有條件的對抗訓練和多鑒別器,本方法提高了生成的svbrdf貼圖的質(zhì)量和精準度,產(chǎn)生了更真實的渲染結果,為此公開了一種從單一圖像準確估計表面外觀svbrdf材質(zhì)貼圖方法。
技術實現(xiàn)思路
1、本發(fā)明提出一種新的聯(lián)合損失函數(shù):通過引入一種新的聯(lián)合損失函數(shù),將像素級損失與感知損失結合起來,從而學習高級語義特征和像素級的信息,并引入基于人類感知的損失,進一步提高了估計的質(zhì)量,引入基于空間域和通道域的注意力機制:這個注意力機制幫助網(wǎng)絡提高對重要特征的關注度,并減少對較不重要特征的關注,增強了網(wǎng)絡捕捉相關圖像細節(jié)的能力,建立了基于cgan的端到端框架:通過設計整體的cnn結構并引入cgan,使網(wǎng)絡能夠生成更準確、符合期望的svbrdf材質(zhì)貼圖。
2、為實現(xiàn)上述目的,本發(fā)明提供如下技術方案:基于cbam和對抗網(wǎng)絡的單圖像材質(zhì)恢復方法,其方法包括以下步驟:
3、s1、網(wǎng)絡結構
4、通過將要估計和訓練的材質(zhì)參數(shù)輸入到生成器(generator)中,生成器將生成的svbrdf材質(zhì)貼圖用隨機光照渲染成新的用于判別的圖像,多個判別器(discriminator)分別判定每個材質(zhì)貼圖和渲染圖像的真實性,輸入圖像同樣也作為cgan的限定條件加入到判別器的判別依據(jù)中。整個流程通過本發(fā)明設定的聯(lián)合損失函數(shù)來優(yōu)化網(wǎng)絡參數(shù)。
5、(1)生成器
6、本方法的生成器主要由編碼器(encoder)和解碼器(decoder)組成,編碼器和解碼器的每一層之間一一對應,共有8個相應的層級,而在相應的層之間采用了拼接操作以傳遞特征提取的結果。這個設計在多層網(wǎng)絡提取之后最小化特征。
7、(2)判別器
8、判別器由三個獨立的層判別器組合起來形成一個具有多尺度判別功能的聯(lián)合判別器,通過中間的平均池化層對層判別器的結果進行下采樣,而每個獨立的層判別器分別對不同大小的圖像特征來判別輸入特征的真實性,然后將三個層判別器的結果綜合起來,作為最后的判定結果;
9、s2、cbam注意力模塊
10、注意力機制在深度學習中獲得了廣泛的關注,本方法使用了同時對空間特征和通道特征施加影響的cbam來幫助網(wǎng)絡優(yōu)化參數(shù),cbam作為一個輕量級模塊,它有效對空間和通道的信息施加影響,而且非常適合集成到基于cnn的架構中,并廣泛應用于各種圖像和視覺處理領域,通過有效利用輸入特征的空間和通道信息,cbam進一步增強了cnn網(wǎng)絡的特征提取能力。實驗結果表明,cbam從多個角度有效地增強了中間特征,同時抑制了無關的中間特征。這使得cbam非常適合本發(fā)明的任務,比如輸入的樣本圖片包含一些干擾,例如曝光過度的高光和飽和度不足的陰影,這給cnn提取有用信息帶來了挑戰(zhàn)。因此,通過引入cbam顯著提高網(wǎng)絡的性能和效率。
11、對于輸入特征圖f,該特征經(jīng)過通道注意力模塊mc以獲得通道特征圖。該通道特征圖與f的乘積表示為f1,隨后,將f1輸入到空間注意力模塊ms中獲取空間特征圖,該空間特征圖與f1的乘積得到f2,f2作為經(jīng)過調(diào)整后的特征圖輸入到下一層級的網(wǎng)絡中,整個過程用式(1-1)和式(1-2)來描述,表示逐元素點乘。
12、
13、在通道注意力模塊中,輸入特征圖f同時經(jīng)過最大池化層和平均池化層,隨后,兩個池化操作的結果進入mlp層,隨后將兩種提取后的特征組合起來,并輸入到sigmoid層以獲得通道注意力權重圖,該權重圖與原來的輸入特征進行逐元素點成后獲得通道注意力特征圖f1;
14、s3、聯(lián)合損失函數(shù)
15、損失函數(shù)對于提高網(wǎng)絡學習的有效性和效率起著至關重要的作用。以前的方法通常依賴于基于像素的l1?loss,通過直接比較生成結果與真實結果之間的差異來優(yōu)化網(wǎng)絡,然而,這種方法限制了網(wǎng)絡獲取利用更深層次結構特征的能力。
16、為了打破這個限制,本發(fā)明提出了一種新的聯(lián)合損失函數(shù),它將不同方面的感知損失和像素損失結合起來,同時引入了基于圖像結構性相似度的損失函數(shù),通過引入這種聯(lián)合損失函數(shù),網(wǎng)絡能夠在優(yōu)化參數(shù)時考慮更多的因素,從而有助于生成更高質(zhì)量且視覺上合理的材質(zhì)貼圖。
17、本發(fā)明的聯(lián)合損失函數(shù)用式(1-3)表示:
18、
19、其中,表示總的損失函數(shù),分別表示對于svbrdf的四種材質(zhì)貼圖(法線,漫反射,粗糙度,高光)的損失函數(shù),表示用生成的材質(zhì)貼圖的渲染結果計算的損失,也即是渲染損失,λr表示渲染損失所占的權重。在實驗的過程,發(fā)現(xiàn)λr權重的設置影響著最終結果的質(zhì)量,本發(fā)明曾將λr設置為如1,3,10,發(fā)現(xiàn)λr過低和過高都會降低svbrdf貼圖的精確度。因此,在本發(fā)明的實施過程中,λr的權重設置為5。
20、本發(fā)明定義用式(1-4)表示:
21、
22、其中,mi表示目標圖片的真實材質(zhì)貼圖,表示由生成器生成的對應的材質(zhì)貼圖,表示由ms-ssim實施的損失函數(shù),它用于評估生成圖像和目標圖像的結構相似性,從而增強了模型對于全局結構性特征的關注,使結果更符合人眼的感知效果,是一種感知損失函數(shù),它通過直接比較圖像在判別器各層特征的差異中來比較特征之間的相似性,在實現(xiàn)過程中,使用l1loss來比較各層差異,該損失函數(shù)使網(wǎng)絡從特征角度優(yōu)化模型參數(shù),從而擴展了以往只以像素級損失作為損失函數(shù)的手段,同樣的,本發(fā)明也使用了l1loss來直接計算生成結果與目標圖像的相似性,是關于該材質(zhì)貼圖的對抗性損失,將在接下來的內(nèi)容介紹,λ1,λ2,λ3和λ4分別是各損失函數(shù)所占的權重,分別設置為5,2,10和1,因為在實驗過程中發(fā)現(xiàn),直接根據(jù)像素比較的這類損失函數(shù)對結果準確性的影響較大,因此給予了較高的權重,而根據(jù)特征相似程度的這類損失函數(shù)雖然權重沒前者高,但仍有助于提高結果準確度。
23、對于對抗性損失本發(fā)明的優(yōu)化策略用式(1-5)和(1-6)表示:
24、
25、判別器和生成器分別采用式(1-5)和式(1-6)來實施對抗訓練策略,其中g代表生成器,d代表判別器,這訓練策略不僅包含了svbrdf材質(zhì)貼圖,對于渲染結果也采用相同的策略,生成器的結果和目標圖片的材質(zhì)貼圖都采用相同的光照條件,即隨機選取上半球面的點光源,而渲染結果依據(jù)cook-torrance模型進行,從而使渲染結果更符合物理規(guī)則,減少意外的誤差。
26、雖然直接評估材料參數(shù)直接的差異取得不錯的效果,但僅采取這樣的策略無法確保渲染后有一致的效果,因此有必要加入渲染損失以確保材質(zhì)紋理在組合時與地面真實情況保持高質(zhì)量的一致性,定義用式(1-7)表示:
27、
28、與相比,加入了是一種以vgg預訓練網(wǎng)絡作為評價標準的感知損失,將要對比的圖像輸入到vgg網(wǎng)絡中,通過比較vgg網(wǎng)絡每一層提取到的特征差異來計算圖像間整體的感知差異,在發(fā)明的實施細節(jié)中,使用了vgg19作為預訓練網(wǎng)絡模型,將其權重參數(shù)λ5設置為2。
29、優(yōu)選的,所述步驟s1中,編碼器模塊的特征提取層首先經(jīng)過一個4×4的卷積層和一個3×3的卷積層,每個卷積層之后都帶有實例歸一化層和leaky?relu激活函數(shù),第一部分由一個4×4,步長為2的卷積核、實例歸一化層和leaky?relu層組成,然后,通過1×1、3×3、1×1的卷積層提取額外的信息,同時減少需要學習的參數(shù),每一層之后都跟著實例歸一化層和leaky?relu激活函數(shù),隨后,輸入特征通過分別對通道和空間特征施加注意力的模塊(cbam),以增強對有效特征的關注并抑制不必要的信息,來自注意力模塊的特征然后與前一部分的輸入特征相加,以防止過度的特征丟失,最后,合并后的特征輸入到最后的標準化層。
30、優(yōu)選的,所述步驟s1中,在解碼器中,本發(fā)明將同一層級的編碼器特征信息和解碼器的輸入特征合并起來,然后將它們輸入到上采樣層中,然后,經(jīng)過歸一化層和dropout層,將特征輸出到下一層進行進一步的解碼。
31、優(yōu)選的,所述每個獨立的層判別器結構如表3.1所示,層判別器中總共包含了6個不同大小的卷積層,其中還包括了部分歸一化層和leaky?relu激活函數(shù),在層判別器的前4層的卷積層中,都設計了leaky?relu激活函數(shù)用于非線性變換,第5層的卷積層后分別加入了批歸一化層和leaky?relu激活函數(shù),而第6層的卷積層通過卷積操作映射出輸入樣本的真實概率。
32、表3.1層判別器網(wǎng)絡結構參數(shù)表
33、
34、優(yōu)選的,所述步驟s2中,在空間注意力模塊中,輸入特征f1連續(xù)經(jīng)過一個最大池化層和平均池化層,然后將結果應用一個2×2卷積層生成空間注意力權重圖,最后,將空間注意力權重圖與通道注意力特征圖f1相乘,得到最終具有綜合性能的特征圖f2。
35、與現(xiàn)有技術相比,本發(fā)明的有益效果是:
36、1、提出一種新的聯(lián)合損失函數(shù):通過引入一種新的聯(lián)合損失函數(shù),將像素級損失與感知損失結合起來,從而學習高級語義特征和像素級的信息,并引入基于人類感知的損失,進一步提高了估計的質(zhì)量;
37、2、引入基于空間域和通道域的注意力機制:這個注意力機制幫助網(wǎng)絡提高對重要特征的關注度,并減少對較不重要特征的關注,增強了網(wǎng)絡捕捉相關圖像細節(jié)的能力;
38、3、建立了基于cgan的端到端框架:通過設計整體的cnn結構并引入cgan,使網(wǎng)絡能夠生成更準確、符合期望的svbrdf材質(zhì)貼圖。