本發(fā)明涉及深度學習,發(fā)明了一種深度學習的訓練與識別方法。
背景技術:
1、長久以來,人類一直致力于發(fā)展人工智能輔助、甚至取代人類從事大量繁雜的工作,將人類從繁雜的工作中解放出來,以便人類投入到更有意義和挑戰(zhàn)性的工作中,解決人類面臨的生存、發(fā)展和自我完善的問題。算法的發(fā)展和數(shù)據(jù)的積累以及計算機與網(wǎng)絡硬件的迅速發(fā)展(計算能力和圖像處理能力、海量存儲的發(fā)展),孕育了深度學習。深度學習的出現(xiàn)與發(fā)展給人工智能出現(xiàn)一線曙光,解決了一系列的科學技術與工程的難題。深度學習在圖像處理、語音識別、視覺對象識別、對象檢測、圖像處理等領域取得了重要進展。同時,這項技術也在許多基礎學科中蓬勃發(fā)展,如力學(旋轉機械故障診斷)、物理學(現(xiàn)實和高維多物理問題和反問題)、地球物理(剪切波分裂測量)、生物信息學(從復雜、高維和異構的生物醫(yī)學數(shù)據(jù)中獲得知識和可操作的見解)、生物學和醫(yī)學(患者分類、基本生物過程和患者治療)、化學和材料科學(逆分子設計)、光學(物體識別)、藥物研究(藥物發(fā)現(xiàn))、神經(jīng)科學(情緒、學習和記憶)和基因組學(染色質相互作用)。然而,深度學習仍然面臨著一個根本的挑戰(zhàn):如何像人類一樣聰明地工作,例如具有想象與思考能力。
技術實現(xiàn)思路
1、本發(fā)明訓練和觸發(fā)一個深度學習的圖像分類與識別網(wǎng)絡模型來想象和思考,可以準確地分類與識別復雜的、未訓練(未遇到)的圖像。首先,基于先進的、優(yōu)化圖像處理的深度神經(jīng)網(wǎng)絡作為本發(fā)明網(wǎng)絡模型的原型,設計本發(fā)明的圖像分類與識別網(wǎng)絡模型。在大數(shù)據(jù)集上預訓練本發(fā)明網(wǎng)絡模型的原型,得到本發(fā)明的圖像分類與識別網(wǎng)絡模型的原型的網(wǎng)絡權重,遷移學習,除了最后一個卷積層、批量規(guī)范化層和全連接層外,采用得到的網(wǎng)絡權重對本發(fā)明的圖像分類與識別網(wǎng)絡模型的其它網(wǎng)絡權重進行初始化,生成本發(fā)明的圖像分類與識別的預訓練網(wǎng)絡模型,即微調本發(fā)明的圖像分類與識別網(wǎng)絡模型的原型的結構及其網(wǎng)絡參數(shù)。具體地,由于本發(fā)明的圖像分類與識別網(wǎng)絡模型的原型的softmax層包含輸出量,即預測圖像分類的概率的數(shù)量不同于本發(fā)明的圖像分類與識別網(wǎng)絡模型的分類數(shù)量。因此,根據(jù)本發(fā)明的圖像分類與識別網(wǎng)絡模型需要分類圖像的數(shù)量調整softmax層中的輸出數(shù)量,重構softmax層。選取公開圖像數(shù)據(jù)集或者自己采集的圖像數(shù)據(jù)集作為目標圖像數(shù)據(jù)集,經(jīng)過圖像處理與數(shù)據(jù)清洗組成本發(fā)明的數(shù)據(jù)集:訓練集、驗證集和測試集。按一定的比例分配訓練集和驗證集之中圖像的數(shù)據(jù)量,并且訓練集和驗證集只包含單標簽圖像數(shù)據(jù);測試集只包含多標簽圖像數(shù)據(jù)。利用訓練集和驗證集訓練與精細調整的本發(fā)明的的預訓練網(wǎng)絡模型,得到訓練好的本發(fā)明的圖像分類與識別網(wǎng)絡模型,即本發(fā)明的圖像分類與識別網(wǎng)絡模型。利用訓練集和驗證集訓練與精細調整本發(fā)明的圖像分類與識別的預訓練網(wǎng)絡模型:本發(fā)明的圖像分類與識別的預訓練網(wǎng)絡模型的最后一個完全連接層被用作分類器,sigmoid被用作最后一個完全連接層的激活函數(shù)。損失函數(shù)采用二進制交叉熵。選擇adam作為的優(yōu)化器。設置訓練周期、批量大小和學習率。在學習過程中,由于網(wǎng)絡模型的參數(shù)變化,變成本發(fā)明的圖像分類與識別的學習網(wǎng)絡模型。為了避免過度擬合并節(jié)省訓練時間,實施了一個提前停止技巧。在一定周期之后,由于在損失和準確性方面沒有進一步提高,訓練停止。這時本發(fā)明的圖像分類與識別的學習網(wǎng)絡模型已經(jīng)完成訓練與優(yōu)化,得到訓練好的本發(fā)明的圖像分類與識別網(wǎng)絡模型,即本發(fā)明的圖像分類與識別網(wǎng)絡模型。
2、一方面,計算本發(fā)明的圖像分類與識別網(wǎng)絡模型的類性能,如:曲線下面積、f1數(shù)、準確率、精密度、召回率、kappa系數(shù),這些參數(shù)優(yōu)于數(shù)據(jù)領域專家的識別水平或者是具有統(tǒng)計學意義時候,表明本發(fā)明的圖像分類與識別網(wǎng)絡模型已經(jīng)具有非常高的性能。另一方面,設置本發(fā)明的圖像分類與識別網(wǎng)絡模型的圖像分類閾值,使之具有統(tǒng)計學意義,如果一個輸出概率值大于設置的圖像分類閾值,則觸發(fā)本發(fā)明的圖像分類與識別網(wǎng)絡模型準確地識別和分類這類圖像。輸入測試集中多標簽圖像,本發(fā)明的圖像分類與識別網(wǎng)絡模型輸出了多個概率值,其中存在兩個或者以上的概率值大于設置的圖像分類閾值,本發(fā)明的圖像分類與識別網(wǎng)絡模型以一定的概率準確地識別出測試集中的多標簽圖像,并且以不同的但數(shù)量級一致的概率準確地分類識別測試集中不同的多標簽圖像,或者說以一定概率準確地想象、思考、認定、分類與識別測試集中復雜的、未訓練的多標簽圖像,賦能了本發(fā)明的圖像分類與識別網(wǎng)絡模型想象與思考能力,提升了本發(fā)明的圖像分類與識別網(wǎng)絡模型的智能化與泛化能力。這是一個具有重要意義的結果,它突破了現(xiàn)有深度學習(人工智能的最前沿)的能力范圍,即只能進行自動特征提取、生成,而無法完成想象、思考等人類的高級智能。想象和思考能力是人類的一種特征,甚至只屬于人類,這種特征偶爾發(fā)生。如何看待這個的結果?
3、在實施例中,計算類激活圖來可視化實施例的實驗結果。從正反兩個方面,分析了實施例中以一定概率精確識別的四種情況中的一種典型情況。在準確地識別和分類這類圖像的時候,發(fā)明的圖像分類與識別網(wǎng)絡模型精確地提取與學習了訓練集中兩類單標簽圖像的特征,而將它們人為地重疊之后,形成合成圖,與測試集中的被精確識別的原始圖像在空間完全匹配;相反,不能夠準確地識別和分類這類圖像的時候,雖然發(fā)明的圖像分類與識別網(wǎng)絡模型仍然精確地提取與學習了訓練集中兩類單標簽圖像的特征,而將它們重疊之后,形成合成圖,與測試集中的不能夠被精確識別的原始圖像在空間匹配不上,或者互相遮擋,或者一類單標簽圖像的特征明顯、面積大,而另一類單標簽圖像的特征不明顯、面積小。這就半定量地揭示了本發(fā)明的圖像分類與識別網(wǎng)絡模型只能以一定的概率準確地分類與識別測試集中的復雜的、未訓練(未遇到)的多標簽圖像。
4、由于本發(fā)明是一個重大的突破,沒有先例,只能與最類似的人類處理圖像相比。當人類面對一個他們從未見過的復雜圖像時,如果不通過由組成該復雜圖像的簡單圖像進行訓練,很有可能將這幅復雜的圖像識別并分類為圖像本身。即使已經(jīng)經(jīng)過這些簡單的圖像訓練過,提取和學習(想象)訓練圖像中的特征,也必須被觸發(fā)來回憶,想象這個復雜圖像可能的構成成分,并且進一步將這個復雜的圖像準確地識別(思考);否則,將以大概率將測試圖像識別成自身圖像或者另一個圖像(錯誤識別)。與圖像在空間分布的情況相比,在時域中,當遇到一個多年未見的老朋友時,將在大腦中搜索、回憶、想象一幀又一幀的圖像,直到一個圖像突然出現(xiàn),觸發(fā)分類與識別機制,通過思考識別出老朋友(現(xiàn)在的圖像)。
5、總之,類激活圖和人類工作機制可以歸結出這樣的結論,依據(jù)現(xiàn)有的科學知識,唯一科學、合理的解釋是本發(fā)明專利的深度學習模型不但在訓練過程中學習了一定數(shù)量類別的單個標簽標記的圖像的特征,而且在分類識別過程中對于這些學習的特征進行想象與思考,想象到測試集中復雜的圖像由訓練集與驗證集中的簡單圖像組成,并且以一定概率準確地思考、認定、分類與識別測試集中復雜的、未訓練的多標簽圖像。因此,本發(fā)明賦能人工智能真正具有了人類特有的高級智能,如聯(lián)想與思考。
1.一種深度學習的訓練與識別方法,其特征在于:
2.?根據(jù)權利要求1所述的一種深度學習的訓練與識別方法,其特征在于,步驟1具體包括,基于先進的、優(yōu)化圖像處理的深度神經(jīng)網(wǎng)絡作為本發(fā)明網(wǎng)絡模型的原型,?設計本發(fā)明的圖像分類與識別網(wǎng)絡模型。該先進的、優(yōu)化圖像處理的深度神經(jīng)網(wǎng)絡是一種為圖像分類優(yōu)化的高效的神經(jīng)網(wǎng)絡。
3.根據(jù)權利要求1所述的一種深度學習的訓練與識別方法,其特征在于,步驟2具體包括,本發(fā)明的圖像分類與識別網(wǎng)絡模型的預訓練。本發(fā)明的圖像分類與識別網(wǎng)絡模型的原型在大數(shù)據(jù)集上預訓練,得到本發(fā)明的圖像分類與識別網(wǎng)絡模型的原型的網(wǎng)絡權重,遷移學習,除了最后一個卷積層、批量規(guī)范化層和全連接層外,采用得到的網(wǎng)絡權重對本發(fā)明的圖像分類與識別網(wǎng)絡模型的其它網(wǎng)絡權重進行初始化,生成本發(fā)明的圖像分類與識別的預訓練網(wǎng)絡模型,即微調本發(fā)明的圖像分類與識別網(wǎng)絡模型的原型的結構及其網(wǎng)絡參數(shù)。具體地,由于本發(fā)明的圖像分類與識別網(wǎng)絡模型的原型的softmax層包含輸出量,即預測圖像分類的概率的數(shù)量不同于本發(fā)明的圖像分類與識別網(wǎng)絡模型的分類數(shù)量。因此,根據(jù)本發(fā)明的圖像分類與識別網(wǎng)絡模型需要分類圖像的數(shù)量調整softmax層中的輸出數(shù)量,重構softmax層。
4.根據(jù)權利要求1所述的一種深度學習的訓練與識別方法,其特征在于,步驟3具體包括,目標圖像數(shù)據(jù)集中的圖像處理與數(shù)據(jù)清洗。選取公開圖像數(shù)據(jù)集或者自己采集的圖像數(shù)據(jù)集作為目標圖像數(shù)據(jù)集,經(jīng)過圖像處理與數(shù)據(jù)清洗組成本發(fā)明的數(shù)據(jù)集。通過自動讀取圖像的上、下、左和右邊界,裁剪具有大面積黑色背景的目標圖像以去除黑色背景區(qū)域。由于目標圖像數(shù)據(jù)集中的圖像大小不同,根據(jù)利用數(shù)學變換檢測的目標圖像的特征結構作為感興趣區(qū),以感興趣區(qū)域為中心將目標圖像縮放,匹配本發(fā)明的圖像分類與識別網(wǎng)絡模型對于輸入圖像大小的要求。為了減少不均勻照明對圖像的影響,對目標圖像進行對比度有限的自適應直方圖均衡。
5.根據(jù)權利要求1所述的一種深度學習的訓練與識別方法,其特征在于,步驟4具體包括,構建本發(fā)明的數(shù)據(jù)集:訓練集、驗證集和測試集。人工地瀏覽目標圖像數(shù)據(jù)集中的圖像,按一定的比例分配訓練集和驗證集之中圖像的數(shù)據(jù)量,并且訓練集和驗證集圖像只包含單標簽圖像數(shù)據(jù),單標簽圖像是指只包含一類特征的圖像,單標簽圖像相對于多標簽圖像而言是簡單圖像。
6.根據(jù)權利要求1所述的一種深度學習的訓練與識別方法,其特征在于,步驟4具體包括,測試集只包含多標簽圖像數(shù)據(jù),多標簽圖像是指包含兩類及兩類以上特征的圖像,多標簽圖像相對于單標簽圖像而言是復雜圖像,并且多標簽是由單標簽組成的。
7.根據(jù)權利要求1所述的一種深度學習的訓練與識別方法,其特征在于,步驟4具體包括,大量的目標圖像數(shù)據(jù)直接按照比例分配訓練集和驗證集圖像的數(shù)據(jù)量。
8.根據(jù)權利要求1所述的一種深度學習的訓練與識別方法,其特征在于,步驟4具體包括,目標圖像數(shù)量不足或者其中各個類別的圖像數(shù)據(jù)量不一致,即類別不平衡,利用過采樣技術、圖像旋轉和圖像平移的技術放大圖像樣本數(shù)量,實現(xiàn)目標數(shù)據(jù)集中各種類別圖像數(shù)量增多并且類別平衡,再按照比例分配訓練集和驗證集圖像的數(shù)據(jù)量。
9.根據(jù)權利要求1所述的一種深度學習的訓練與識別方法,其特征在于,步驟5具體包括,利用訓練集和驗證集訓練與精細調整本發(fā)明的圖像分類與識別的預訓練網(wǎng)絡模型。本發(fā)明的圖像分類與識別的預訓練網(wǎng)絡模型的最后一個完全連接層被用作分類器,sigmoid被用作最后一個完全連接層的激活函數(shù)。損失函數(shù)采用二進制交叉熵。選擇adam作為的優(yōu)化器。設置訓練周期、批量大小和學習率。在學習過程中,由于網(wǎng)絡模型的參數(shù)變化,變成本發(fā)明的圖像分類與識別的學習網(wǎng)絡模型。為了避免過度擬合并節(jié)省訓練時間,實施了一個提前停止技巧。在一定周期之后,由于在損失和準確性方面沒有進一步提高,訓練停止。這時本發(fā)明的圖像分類與識別的學習網(wǎng)絡模型已經(jīng)完成訓練與優(yōu)化,得到訓練好的本發(fā)明的圖像分類與識別網(wǎng)絡模型,即本發(fā)明的圖像分類與識別網(wǎng)絡模型。
10.根據(jù)權利要求1所述的一種深度學習的訓練與識別方法,其特征在于,步驟6具體包括,本發(fā)明的圖像分類與識別網(wǎng)絡模型的類性能。計算本發(fā)明的圖像分類與識別網(wǎng)絡模型的曲線下面積、f1數(shù)、準確率、精密度、召回率、kappa系數(shù),這些參數(shù)優(yōu)于數(shù)據(jù)領域專家的識別水平或者是具有統(tǒng)計學意義,說明訓練好的本發(fā)明的圖像分類與識別網(wǎng)絡模型已經(jīng)具有非常高的性能。
11.根據(jù)權利要求1所述的一種深度學習的訓練與識別方法,其特征在于,步驟7具體包括,本發(fā)明的圖像分類與識別網(wǎng)絡模型的想象與思考能力。設置本發(fā)明的圖像分類與識別網(wǎng)絡模型的圖像分類閾值,使之具有統(tǒng)計學意義,如果一個輸出概率值大于設置的圖像分類閾值,則觸發(fā)本發(fā)明的圖像分類與識別網(wǎng)絡模型準確地識別和分類這類圖像。輸入測試集中多標簽圖像,本發(fā)明的圖像分類與識別網(wǎng)絡模型輸出了多個概率值,其中存在兩個或者以上的概率值大于設置的圖像分類閾值,本發(fā)明的圖像分類與識別網(wǎng)絡模型以一定的概率準確地識別出測試集中的多標簽圖像,并且以不同的但數(shù)量級一致的概率準確地分類識別測試集中不同的多標簽圖像,或者說以一定概率準確地想象、思考、認定、分類與識別測試集中復雜的、未訓練的多標簽圖像。