一種深度學習的訓練與識別方法

文檔序號：40257354發(fā)布日期：2024-12-11 12:48閱讀：8來源：國知局

本發(fā)明涉及深度學習，發(fā)明了一種深度學習的訓練與識別方法。

背景技術：

1、長久以來，人類一直致力于發(fā)展人工智能輔助、甚至取代人類從事大量繁雜的工作，將人類從繁雜的工作中解放出來，以便人類投入到更有意義和挑戰(zhàn)性的工作中，解決人類面臨的生存、發(fā)展和自我完善的問題。算法的發(fā)展和數(shù)據(jù)的積累以及計算機與網(wǎng)絡硬件的迅速發(fā)展(計算能力和圖像處理能力、海量存儲的發(fā)展)，孕育了深度學習。深度學習的出現(xiàn)與發(fā)展給人工智能出現(xiàn)一線曙光，解決了一系列的科學技術與工程的難題。深度學習在圖像處理、語音識別、視覺對象識別、對象檢測、圖像處理等領域取得了重要進展。同時，這項技術也在許多基礎學科中蓬勃發(fā)展，如力學(旋轉機械故障診斷)、物理學(現(xiàn)實和高維多物理問題和反問題)、地球物理(剪切波分裂測量)、生物信息學(從復雜、高維和異構的生物醫(yī)學數(shù)據(jù)中獲得知識和可操作的見解)、生物學和醫(yī)學(患者分類、基本生物過程和患者治療)、化學和材料科學(逆分子設計)、光學(物體識別)、藥物研究(藥物發(fā)現(xiàn))、神經(jīng)科學(情緒、學習和記憶)和基因組學(染色質相互作用)。然而，深度學習仍然面臨著一個根本的挑戰(zhàn)：如何像人類一樣聰明地工作，例如具有想象與思考能力。

技術實現(xiàn)思路

1、本發(fā)明訓練和觸發(fā)一個深度學習的圖像分類與識別網(wǎng)絡模型來想象和思考，可以準確地分類與識別復雜的、未訓練(未遇到)的圖像。首先，基于先進的、優(yōu)化圖像處理的深度神經(jīng)網(wǎng)絡作為本發(fā)明網(wǎng)絡模型的原型,設計本發(fā)明的圖像分類與識別網(wǎng)絡模型。在大數(shù)據(jù)集上預訓練本發(fā)明網(wǎng)絡模型的原型，得到本發(fā)明的圖像分類與識別網(wǎng)絡模型的原型的網(wǎng)絡權重，遷移學習，除了最后一個卷積層、批量規(guī)范化層和全連接層外，采用得到的網(wǎng)絡權重對本發(fā)明的圖像分類與識別網(wǎng)絡模型的其它網(wǎng)絡權重進行初始化，生成本發(fā)明的圖像分類與識別的預訓練網(wǎng)絡模型，即微調本發(fā)明的圖像分類與識別網(wǎng)絡模型的原型的結構及其網(wǎng)絡參數(shù)。具體地，由于本發(fā)明的圖像分類與識別網(wǎng)絡模型的原型的softmax層包含輸出量，即預測圖像分類的概率的數(shù)量不同于本發(fā)明的圖像分類與識別網(wǎng)絡模型的分類數(shù)量。因此，根據(jù)本發(fā)明的圖像分類與識別網(wǎng)絡模型需要分類圖像的數(shù)量調整softmax層中的輸出數(shù)量，重構softmax層。選取公開圖像數(shù)據(jù)集或者自己采集的圖像數(shù)據(jù)集作為目標圖像數(shù)據(jù)集，經(jīng)過圖像處理與數(shù)據(jù)清洗組成本發(fā)明的數(shù)據(jù)集：訓練集、驗證集和測試集。按一定的比例分配訓練集和驗證集之中圖像的數(shù)據(jù)量，并且訓練集和驗證集只包含單標簽圖像數(shù)據(jù)；測試集只包含多標簽圖像數(shù)據(jù)。利用訓練集和驗證集訓練與精細調整的本發(fā)明的的預訓練網(wǎng)絡模型，得到訓練好的本發(fā)明的圖像分類與識別網(wǎng)絡模型，即本發(fā)明的圖像分類與識別網(wǎng)絡模型。利用訓練集和驗證集訓練與精細調整本發(fā)明的圖像分類與識別的預訓練網(wǎng)絡模型：本發(fā)明的圖像分類與識別的預訓練網(wǎng)絡模型的最后一個完全連接層被用作分類器，sigmoid被用作最后一個完全連接層的激活函數(shù)。損失函數(shù)采用二進制交叉熵。選擇adam作為的優(yōu)化器。設置訓練周期、批量大小和學習率。在學習過程中，由于網(wǎng)絡模型的參數(shù)變化，變成本發(fā)明的圖像分類與識別的學習網(wǎng)絡模型。為了避免過度擬合并節(jié)省訓練時間，實施了一個提前停止技巧。在一定周期之后，由于在損失和準確性方面沒有進一步提高，訓練停止。這時本發(fā)明的圖像分類與識別的學習網(wǎng)絡模型已經(jīng)完成訓練與優(yōu)化，得到訓練好的本發(fā)明的圖像分類與識別網(wǎng)絡模型，即本發(fā)明的圖像分類與識別網(wǎng)絡模型。

2、一方面，計算本發(fā)明的圖像分類與識別網(wǎng)絡模型的類性能，如：曲線下面積、f1數(shù)、準確率、精密度、召回率、kappa系數(shù)，這些參數(shù)優(yōu)于數(shù)據(jù)領域專家的識別水平或者是具有統(tǒng)計學意義時候，表明本發(fā)明的圖像分類與識別網(wǎng)絡模型已經(jīng)具有非常高的性能。另一方面，設置本發(fā)明的圖像分類與識別網(wǎng)絡模型的圖像分類閾值，使之具有統(tǒng)計學意義，如果一個輸出概率值大于設置的圖像分類閾值，則觸發(fā)本發(fā)明的圖像分類與識別網(wǎng)絡模型準確地識別和分類這類圖像。輸入測試集中多標簽圖像，本發(fā)明的圖像分類與識別網(wǎng)絡模型輸出了多個概率值，其中存在兩個或者以上的概率值大于設置的圖像分類閾值，本發(fā)明的圖像分類與識別網(wǎng)絡模型以一定的概率準確地識別出測試集中的多標簽圖像，并且以不同的但數(shù)量級一致的概率準確地分類識別測試集中不同的多標簽圖像，或者說以一定概率準確地想象、思考、認定、分類與識別測試集中復雜的、未訓練的多標簽圖像，賦能了本發(fā)明的圖像分類與識別網(wǎng)絡模型想象與思考能力，提升了本發(fā)明的圖像分類與識別網(wǎng)絡模型的智能化與泛化能力。這是一個具有重要意義的結果，它突破了現(xiàn)有深度學習(人工智能的最前沿)的能力范圍，即只能進行自動特征提取、生成，而無法完成想象、思考等人類的高級智能。想象和思考能力是人類的一種特征，甚至只屬于人類，這種特征偶爾發(fā)生。如何看待這個的結果？

3、在實施例中，計算類激活圖來可視化實施例的實驗結果。從正反兩個方面，分析了實施例中以一定概率精確識別的四種情況中的一種典型情況。在準確地識別和分類這類圖像的時候，發(fā)明的圖像分類與識別網(wǎng)絡模型精確地提取與學習了訓練集中兩類單標簽圖像的特征，而將它們人為地重疊之后，形成合成圖，與測試集中的被精確識別的原始圖像在空間完全匹配；相反，不能夠準確地識別和分類這類圖像的時候，雖然發(fā)明的圖像分類與識別網(wǎng)絡模型仍然精確地提取與學習了訓練集中兩類單標簽圖像的特征，而將它們重疊之后，形成合成圖，與測試集中的不能夠被精確識別的原始圖像在空間匹配不上，或者互相遮擋，或者一類單標簽圖像的特征明顯、面積大，而另一類單標簽圖像的特征不明顯、面積小。這就半定量地揭示了本發(fā)明的圖像分類與識別網(wǎng)絡模型只能以一定的概率準確地分類與識別測試集中的復雜的、未訓練(未遇到)的多標簽圖像。

4、由于本發(fā)明是一個重大的突破，沒有先例，只能與最類似的人類處理圖像相比。當人類面對一個他們從未見過的復雜圖像時，如果不通過由組成該復雜圖像的簡單圖像進行訓練，很有可能將這幅復雜的圖像識別并分類為圖像本身。即使已經(jīng)經(jīng)過這些簡單的圖像訓練過，提取和學習(想象)訓練圖像中的特征，也必須被觸發(fā)來回憶，想象這個復雜圖像可能的構成成分，并且進一步將這個復雜的圖像準確地識別(思考)；否則，將以大概率將測試圖像識別成自身圖像或者另一個圖像(錯誤識別)。與圖像在空間分布的情況相比，在時域中，當遇到一個多年未見的老朋友時，將在大腦中搜索、回憶、想象一幀又一幀的圖像，直到一個圖像突然出現(xiàn)，觸發(fā)分類與識別機制，通過思考識別出老朋友(現(xiàn)在的圖像)。

5、總之，類激活圖和人類工作機制可以歸結出這樣的結論，依據(jù)現(xiàn)有的科學知識，唯一科學、合理的解釋是本發(fā)明專利的深度學習模型不但在訓練過程中學習了一定數(shù)量類別的單個標簽標記的圖像的特征，而且在分類識別過程中對于這些學習的特征進行想象與思考，想象到測試集中復雜的圖像由訓練集與驗證集中的簡單圖像組成，并且以一定概率準確地思考、認定、分類與識別測試集中復雜的、未訓練的多標簽圖像。因此，本發(fā)明賦能人工智能真正具有了人類特有的高級智能，如聯(lián)想與思考。

技術特征：

1.一種深度學習的訓練與識別方法，其特征在于：

2.?根據(jù)權利要求1所述的一種深度學習的訓練與識別方法，其特征在于，步驟1具體包括，基于先進的、優(yōu)化圖像處理的深度神經(jīng)網(wǎng)絡作為本發(fā)明網(wǎng)絡模型的原型,?設計本發(fā)明的圖像分類與識別網(wǎng)絡模型。該先進的、優(yōu)化圖像處理的深度神經(jīng)網(wǎng)絡是一種為圖像分類優(yōu)化的高效的神經(jīng)網(wǎng)絡。

3.根據(jù)權利要求1所述的一種深度學習的訓練與識別方法，其特征在于，步驟2具體包括，本發(fā)明的圖像分類與識別網(wǎng)絡模型的預訓練。本發(fā)明的圖像分類與識別網(wǎng)絡模型的原型在大數(shù)據(jù)集上預訓練，得到本發(fā)明的圖像分類與識別網(wǎng)絡模型的原型的網(wǎng)絡權重，遷移學習，除了最后一個卷積層、批量規(guī)范化層和全連接層外，采用得到的網(wǎng)絡權重對本發(fā)明的圖像分類與識別網(wǎng)絡模型的其它網(wǎng)絡權重進行初始化，生成本發(fā)明的圖像分類與識別的預訓練網(wǎng)絡模型，即微調本發(fā)明的圖像分類與識別網(wǎng)絡模型的原型的結構及其網(wǎng)絡參數(shù)。具體地，由于本發(fā)明的圖像分類與識別網(wǎng)絡模型的原型的softmax層包含輸出量，即預測圖像分類的概率的數(shù)量不同于本發(fā)明的圖像分類與識別網(wǎng)絡模型的分類數(shù)量。因此，根據(jù)本發(fā)明的圖像分類與識別網(wǎng)絡模型需要分類圖像的數(shù)量調整softmax層中的輸出數(shù)量，重構softmax層。

4.根據(jù)權利要求1所述的一種深度學習的訓練與識別方法，其特征在于，步驟3具體包括，目標圖像數(shù)據(jù)集中的圖像處理與數(shù)據(jù)清洗。選取公開圖像數(shù)據(jù)集或者自己采集的圖像數(shù)據(jù)集作為目標圖像數(shù)據(jù)集，經(jīng)過圖像處理與數(shù)據(jù)清洗組成本發(fā)明的數(shù)據(jù)集。通過自動讀取圖像的上、下、左和右邊界，裁剪具有大面積黑色背景的目標圖像以去除黑色背景區(qū)域。由于目標圖像數(shù)據(jù)集中的圖像大小不同，根據(jù)利用數(shù)學變換檢測的目標圖像的特征結構作為感興趣區(qū)，以感興趣區(qū)域為中心將目標圖像縮放，匹配本發(fā)明的圖像分類與識別網(wǎng)絡模型對于輸入圖像大小的要求。為了減少不均勻照明對圖像的影響，對目標圖像進行對比度有限的自適應直方圖均衡。

5.根據(jù)權利要求1所述的一種深度學習的訓練與識別方法，其特征在于，步驟4具體包括，構建本發(fā)明的數(shù)據(jù)集：訓練集、驗證集和測試集。人工地瀏覽目標圖像數(shù)據(jù)集中的圖像，按一定的比例分配訓練集和驗證集之中圖像的數(shù)據(jù)量，并且訓練集和驗證集圖像只包含單標簽圖像數(shù)據(jù)，單標簽圖像是指只包含一類特征的圖像，單標簽圖像相對于多標簽圖像而言是簡單圖像。

6.根據(jù)權利要求1所述的一種深度學習的訓練與識別方法，其特征在于，步驟4具體包括，測試集只包含多標簽圖像數(shù)據(jù)，多標簽圖像是指包含兩類及兩類以上特征的圖像，多標簽圖像相對于單標簽圖像而言是復雜圖像，并且多標簽是由單標簽組成的。

7.根據(jù)權利要求1所述的一種深度學習的訓練與識別方法，其特征在于，步驟4具體包括，大量的目標圖像數(shù)據(jù)直接按照比例分配訓練集和驗證集圖像的數(shù)據(jù)量。

8.根據(jù)權利要求1所述的一種深度學習的訓練與識別方法，其特征在于，步驟4具體包括，目標圖像數(shù)量不足或者其中各個類別的圖像數(shù)據(jù)量不一致，即類別不平衡，利用過采樣技術、圖像旋轉和圖像平移的技術放大圖像樣本數(shù)量，實現(xiàn)目標數(shù)據(jù)集中各種類別圖像數(shù)量增多并且類別平衡，再按照比例分配訓練集和驗證集圖像的數(shù)據(jù)量。

9.根據(jù)權利要求1所述的一種深度學習的訓練與識別方法，其特征在于，步驟5具體包括，利用訓練集和驗證集訓練與精細調整本發(fā)明的圖像分類與識別的預訓練網(wǎng)絡模型。本發(fā)明的圖像分類與識別的預訓練網(wǎng)絡模型的最后一個完全連接層被用作分類器，sigmoid被用作最后一個完全連接層的激活函數(shù)。損失函數(shù)采用二進制交叉熵。選擇adam作為的優(yōu)化器。設置訓練周期、批量大小和學習率。在學習過程中，由于網(wǎng)絡模型的參數(shù)變化，變成本發(fā)明的圖像分類與識別的學習網(wǎng)絡模型。為了避免過度擬合并節(jié)省訓練時間，實施了一個提前停止技巧。在一定周期之后，由于在損失和準確性方面沒有進一步提高，訓練停止。這時本發(fā)明的圖像分類與識別的學習網(wǎng)絡模型已經(jīng)完成訓練與優(yōu)化，得到訓練好的本發(fā)明的圖像分類與識別網(wǎng)絡模型，即本發(fā)明的圖像分類與識別網(wǎng)絡模型。

10.根據(jù)權利要求1所述的一種深度學習的訓練與識別方法，其特征在于，步驟6具體包括，本發(fā)明的圖像分類與識別網(wǎng)絡模型的類性能。計算本發(fā)明的圖像分類與識別網(wǎng)絡模型的曲線下面積、f1數(shù)、準確率、精密度、召回率、kappa系數(shù)，這些參數(shù)優(yōu)于數(shù)據(jù)領域專家的識別水平或者是具有統(tǒng)計學意義，說明訓練好的本發(fā)明的圖像分類與識別網(wǎng)絡模型已經(jīng)具有非常高的性能。

11.根據(jù)權利要求1所述的一種深度學習的訓練與識別方法，其特征在于，步驟7具體包括，本發(fā)明的圖像分類與識別網(wǎng)絡模型的想象與思考能力。設置本發(fā)明的圖像分類與識別網(wǎng)絡模型的圖像分類閾值，使之具有統(tǒng)計學意義，如果一個輸出概率值大于設置的圖像分類閾值，則觸發(fā)本發(fā)明的圖像分類與識別網(wǎng)絡模型準確地識別和分類這類圖像。輸入測試集中多標簽圖像，本發(fā)明的圖像分類與識別網(wǎng)絡模型輸出了多個概率值，其中存在兩個或者以上的概率值大于設置的圖像分類閾值，本發(fā)明的圖像分類與識別網(wǎng)絡模型以一定的概率準確地識別出測試集中的多標簽圖像，并且以不同的但數(shù)量級一致的概率準確地分類識別測試集中不同的多標簽圖像，或者說以一定概率準確地想象、思考、認定、分類與識別測試集中復雜的、未訓練的多標簽圖像。

技術總結
本發(fā)明公開了一種深度學習的訓練與識別方法。設計本發(fā)明的圖像分類與識別網(wǎng)絡模型，在大數(shù)據(jù)集上預訓練，得到網(wǎng)絡權重，轉移學習，初始化本發(fā)明網(wǎng)絡模型，生成預訓練網(wǎng)絡模型。構建訓練集、評估集和測試集，訓練集和評估集只包含單標簽的圖像，測試集只包含多標簽的圖像。在訓練集和評估集上根據(jù)損失函數(shù)和準確率進行訓練、評估與優(yōu)化，得到本發(fā)明的網(wǎng)絡模型。計算本發(fā)明的網(wǎng)絡模型的類性能，優(yōu)于圖像領域專家或者具有統(tǒng)計學意義，具有優(yōu)秀的性能；輸入測試集中多標簽圖像，輸出多個概率值，觸發(fā)本發(fā)明的網(wǎng)絡模型以一定概率準確地識別和分類復雜的、未訓練的多標簽圖像，賦能了本發(fā)明的網(wǎng)絡模型想象與思考能力，提升了智能化和泛化能力。

技術研發(fā)人員：馮繼宏,潘洪奕
受保護的技術使用者：北京工業(yè)大學
技術研發(fā)日：
技術公布日：2024/12/10

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：馮繼宏,潘洪奕
技術所有人：北京工業(yè)大學
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種深度學習的訓練與識別方法