本發(fā)明涉及圖像分類,尤其是涉及一種基于潛在域和類別多樣性的圖像分類方法及系統(tǒng)。
背景技術:
1、隨著深度神經網絡在圖像分類、視頻分析和圖像語義分割等計算機視覺任務中的成功應用,如何在沒有標注數(shù)據(jù)的目標域中實現(xiàn)高效模型遷移成為了亟待解決的問題。傳統(tǒng)的有監(jiān)督學習方法依賴于大規(guī)模帶標簽數(shù)據(jù)進行訓練,當模型應用于與訓練集分布不一致的目標域時,性能往往大幅下降。為此,無監(jiān)督域自適應(uda)應運而生,其目的是通過源域帶標簽數(shù)據(jù)訓練的模型在無標簽的目標域上保持高泛化性。然而,由于源域與目標域分布差異顯著,如何提取有效的跨域不變特征是uda領域的主要挑戰(zhàn)之一。
2、目前,主流的uda方法主要包括基于對抗網絡的域混淆方法和基于度量的域對齊方法。然而,這些方法要么無法提升特征的區(qū)分度,要么無法有效地捕捉類別級別的跨域差異。此外,已有研究還探索了通過生成對抗網絡(gan)生成中間圖像來作為源域和目標域的橋梁,但此類方法往往忽略了域間特征的結構性信息,從而影響了對齊效果。盡管已有方法引入了中間域來緩解源域和目標域的分布差異,但往往忽略了類別多樣性和特征結構的連貫性,從而影響跨域識別效果。
3、在圖像分類任務中,類別多樣性最大化是實現(xiàn)模型泛化的重要策略。通過促進模型生成具有豐富類別分布的預測,能夠顯著提升模型對不同類別樣本的區(qū)分能力。為此,亟需提出一種基于潛在域和類別多樣性的圖像分類方法,通過構建潛在域逐步對齊源域和目標域的分布,同時最大化類別多樣性,進一步提升模型的跨域分類性能,提高圖像分類精確度。
技術實現(xiàn)思路
1、為了解決上述提到的問題,本發(fā)明提供一種基于潛在域和類別多樣性的圖像分類方法及系統(tǒng)。通過生成結構一致的潛在域來縮小源域和目標域之間的分布差異,最大化類別多樣性,實現(xiàn)精確的跨域對齊。
2、第一方面,本發(fā)明提供的一種基于潛在域和類別多樣性的圖像分類方法,采用如下的技術方案:
3、一種基于潛在域和類別多樣性的圖像分類方法,包括:
4、獲取圖像數(shù)據(jù),包括獲取源域和目標域的圖像數(shù)據(jù);
5、對源域和目標域的圖像數(shù)據(jù)進行預處理;
6、構建域自適應圖像分類模型;
7、對構建的域自適應圖像分類模型進行模型訓練;
8、利用訓練好的域自適應圖像分類模型進行圖像分類。
9、進一步地,所述獲取源域和目標域的圖像數(shù)據(jù),包括獲取帶標簽的圖像數(shù)據(jù)集作為源域數(shù)據(jù),用于訓練模型;獲取無標簽的圖像數(shù)據(jù)集作為目標域數(shù)據(jù),用于測試模型的泛化能力,其中,源域數(shù)據(jù)存放在目錄結構下,每個子目錄代表一個類別,每個類別下有多張圖像,目標域數(shù)據(jù)只包含輸入圖像。
10、進一步地,所述對源域和目標域的圖像數(shù)據(jù)進行預處理,包括調整圖像數(shù)據(jù)的大小,并對圖像進行數(shù)據(jù)增強,以及對增強后的圖像進行圖像,裁剪和圖像縮放,最后通過歸一化使圖像中的像素值分布符合標準正態(tài)分布。
11、進一步地,所述構建域自適應圖像分類模型,包括構建一個潛在域,以連接源域和目標域,利用最大均值差異mmd來計算潛在域和目標域的全局分布差異,從而得到域級對齊損失,同時通過最大化預測分布的熵來鼓勵類別平衡,最后通過小批次的方式進行類一致的偽標簽生成,以增強類別一致性。
12、進一步地,所述構建域自適應圖像分類模型,還包括使用監(jiān)督學習和熵損失來優(yōu)化源域和目標域的模型參數(shù),其中,對于源域的數(shù)據(jù),采用監(jiān)督學習方法來訓練分類器,對于目標域的數(shù)據(jù),采用熵損失來最大化模型預測的不確定性,即熵。
13、進一步地,所述對構建的模型進行訓練,包括利用源域的圖像數(shù)據(jù)對模型進行初始訓練,通過最小化源域分類損失,使模型獲得對源域特征的分類能力;再引入潛在域生成、類級別對齊、域級別對齊和類別多樣性最大化策略,對模型進行聯(lián)合優(yōu)化。
14、進一步地,所述利用訓練好的模型進行圖像分類,包括使用經過訓練的模型對目標域的圖像樣本進行推理,其中,將目標域樣本圖像的特征首先映射至模型的分類頭,通過分類頭的多層網絡結構輸出類別概率分布,根據(jù)最大概率值確定樣本的類別標簽,由于標域沒有類別標簽,在對目標域進行圖像分類時使用偽標簽,其中偽標簽生成基于目標域數(shù)據(jù)的預測概率分布。
15、第二方面,一種基于潛在域和類別多樣性的圖像分類系統(tǒng),包括:
16、數(shù)據(jù)獲取模塊,被配置為,獲取圖像數(shù)據(jù),包括獲取源域和目標域的圖像數(shù)據(jù);
17、預處理模塊,被配置為,對源域和目標域的圖像數(shù)據(jù)進行預處理;
18、模型構建模塊,被配置為,構建域自適應圖像分類模型;
19、模型訓練模塊,被配置為,對構建的域自適應圖像分類模型進行模型訓練;
20、圖像分類模塊,被配置為,利用訓練好的域自適應圖像分類模型進行圖像分類。
21、第三方面,本發(fā)明提供一種計算機可讀存儲介質,其中存儲有多條指令,所述指令適于由終端設備的處理器加載并執(zhí)行所述的一種基于潛在域和類別多樣性的圖像分類方法。
22、第四方面,本發(fā)明提供一種終端設備,包括處理器和計算機可讀存儲介質,處理器用于實現(xiàn)各指令;計算機可讀存儲介質用于存儲多條指令,所述指令適于由處理器加載并執(zhí)行所述的一種基于潛在域和類別多樣性的圖像分類方法。
23、綜上所述,本發(fā)明具有如下的有益技術效果:
24、本發(fā)明通過生成潛在域來逐步對齊源域和目標域的分布差異,采用類級別和域級別的多層次對齊策略,使源域、潛在域和目標域在特征分布上實現(xiàn)一致性,顯著提高了模型在跨域分類任務中的精度。同時,本發(fā)明引入基于熵的類別多樣性損失項,防止目標域類別分布不均衡問題,增強了模型的類別區(qū)分能力和泛化能力。此外,類別驅動的小批次域翻譯模塊(cdbdt)在小批次級別生成類一致的偽標簽,確保潛在域實例的類別一致性,從而提升了模型對類別結構的識別能力和跨域適應性。采用無監(jiān)督領域適應技術,目標域無需人工標注,大幅降低了數(shù)據(jù)標注成本,使得該方法適用于多種無標注場景。通過整合源域分類損失、類級和域級對齊損失及類別多樣性損失的聯(lián)合訓練策略,本發(fā)明顯著提升了模型的訓練效率和穩(wěn)定性。綜上所述,本發(fā)明在無監(jiān)督領域適應的圖像分類任務中表現(xiàn)出色,具備較強的泛化能力、精度和應用價值。
1.一種基于潛在域和類別多樣性的圖像分類方法,其特征在于,包括:
2.根據(jù)權利要求1所述的一種基于潛在域和類別多樣性的圖像分類方法,其特征在于,所述獲取源域和目標域的圖像數(shù)據(jù),包括獲取帶標簽的圖像數(shù)據(jù)集作為源域數(shù)據(jù),用于訓練模型;獲取無標簽的圖像數(shù)據(jù)集作為目標域數(shù)據(jù),用于測試模型的泛化能力,其中,源域數(shù)據(jù)存放在目錄結構下,每個子目錄代表一個類別,每個類別下有多張圖像,目標域數(shù)據(jù)只包含輸入圖像。
3.根據(jù)權利要求2所述的一種基于潛在域和類別多樣性的圖像分類方法,其特征在于,所述對源域和目標域的圖像數(shù)據(jù)進行預處理,包括調整圖像數(shù)據(jù)的大小,并對圖像進行數(shù)據(jù)增強,以及對增強后的圖像進行圖像,裁剪和圖像縮放,最后通過歸一化使圖像中的像素值分布符合標準正態(tài)分布。
4.根據(jù)權利要求3所述的一種基于潛在域和類別多樣性的圖像分類方法,其特征在于,所述構建域自適應圖像分類模型,包括構建一個潛在域,以連接源域和目標域,利用最大均值差異mmd來計算潛在域和目標域的全局分布差異,從而得到域級對齊損失,同時通過最大化預測分布的熵來鼓勵類別平衡,最后通過小批次的方式進行類一致的偽標簽生成,以增強類別一致性。
5.根據(jù)權利要求4所述的一種基于潛在域和類別多樣性的圖像分類方法,其特征在于,所述構建域自適應圖像分類模型,還包括使用監(jiān)督學習和熵損失來優(yōu)化源域和目標域的模型參數(shù),其中,對于源域的數(shù)據(jù),采用監(jiān)督學習方法來訓練分類器,對于目標域的數(shù)據(jù),采用熵損失來最大化模型預測的不確定性,即熵。
6.根據(jù)權利要求5所述的一種基于潛在域和類別多樣性的圖像分類方法,其特征在于,所述對構建的模型進行訓練,包括利用源域的圖像數(shù)據(jù)對模型進行初始訓練,通過最小化源域分類損失,使模型獲得對源域特征的分類能力;再引入潛在域生成、類級別對齊、域級別對齊和類別多樣性最大化策略,對模型進行聯(lián)合優(yōu)化。
7.根據(jù)權利要求6所述的一種基于潛在域和類別多樣性的圖像分類方法,其特征在于,所述利用訓練好的模型進行圖像分類,包括使用經過訓練的模型對目標域的圖像樣本進行推理,其中,將目標域樣本圖像的特征首先映射至模型的分類頭,通過分類頭的多層網絡結構輸出類別概率分布,根據(jù)最大概率值確定樣本的類別標簽,由于標域沒有類別標簽,在對目標域進行圖像分類時使用偽標簽,其中偽標簽生成基于目標域數(shù)據(jù)的預測概率分布。
8.一種基于潛在域和類別多樣性的圖像分類系統(tǒng),其特征在于,包括:
9.一種計算機可讀存儲介質,其中存儲有多條指令,其特征在于,所述指令適于由終端設備的處理器加載并執(zhí)行如權利要求1所述的方法。
10.一種終端設備,包括處理器和計算機可讀存儲介質,處理器用于實現(xiàn)各指令;計算機可讀存儲介質用于存儲多條指令,其特征在于,所述指令適于由處理器加載并執(zhí)行如權利要求1所述的方法。