本發(fā)明屬于多模態(tài)深度學(xué)習(xí)領(lǐng)域,特別涉及一種基于深度學(xué)習(xí)的土壤微生物分類方法。
背景技術(shù):
1、土壤微生物分類是推動(dòng)農(nóng)業(yè)可持續(xù)發(fā)展、生態(tài)環(huán)境保護(hù)與資源管理等多個(gè)領(lǐng)域進(jìn)步的關(guān)鍵技術(shù)。在農(nóng)業(yè)領(lǐng)域,土壤微生物分類通過精準(zhǔn)識(shí)別土壤中的微生物種群及其分布狀況,成為監(jiān)測土壤健康、提高作物產(chǎn)量和維持土壤生物多樣性的重要手段,對(duì)保障農(nóng)業(yè)生態(tài)系統(tǒng)的穩(wěn)定性具有重要意義。在環(huán)境保護(hù)方面,土壤微生物分類能夠有效地評(píng)估土壤污染程度,檢測并處理土壤中的有害成分,助力環(huán)境恢復(fù)和資源再利用。此外,土壤微生物分類還具備土壤質(zhì)量評(píng)級(jí)和病原體檢測等多種功能,為土壤管理提供了高效、可靠的技術(shù)支持。然而,由于土壤樣本中微生物種群復(fù)雜多樣,不同種群間的相似性可能導(dǎo)致分類困難。如果無法準(zhǔn)確識(shí)別土壤微生物種類,將影響土壤健康評(píng)估的精度,制約農(nóng)業(yè)和環(huán)境保護(hù)工作的推進(jìn)。因此,提升土壤微生物分類的精確度,對(duì)增強(qiáng)土壤管理和資源評(píng)估的科學(xué)性至關(guān)重要。
2、現(xiàn)有的土壤微生物分類方法主要包括以下兩種:基于基因組測序的高通量擴(kuò)增子測序法和基于圖像分析的顯微圖像分類法。
3、高通量擴(kuò)增子測序法:
4、該方法通過采集土壤中的微生物dna,并利用pcr技術(shù)對(duì)特定標(biāo)記基因(如16srrna基因)進(jìn)行擴(kuò)增和測序。測序后,將所得數(shù)據(jù)通過生物信息分析軟件進(jìn)行處理,以便提取特定的微生物特征信息。進(jìn)一步利用機(jī)器學(xué)習(xí)模型(如隨機(jī)森林、支持向量機(jī))對(duì)這些微生物特征進(jìn)行分類。這一方法通過高通量和低成本的方式,實(shí)現(xiàn)對(duì)大量微生物種類的高精度識(shí)別。然而,由于擴(kuò)增子測序?qū)π⌒蛿?shù)據(jù)集的依賴性較大,難以區(qū)分極為相似的微生物種類,因此在檢測一些復(fù)雜樣本中的微生物群落時(shí)可能存在識(shí)別誤差。此外,測序過程受基因片段的長度和豐富度影響,可能導(dǎo)致數(shù)據(jù)偏差,從而影響分類準(zhǔn)確性。
5、顯微圖像分類法:
6、此方法利用高分辨率顯微鏡采集土壤微生物的形態(tài)學(xué)圖像,并結(jié)合圖像分析算法進(jìn)行分類。通過對(duì)微生物圖像的結(jié)構(gòu)、形態(tài)和顏色特征的自動(dòng)識(shí)別,顯微圖像分類法能夠提供直接的微生物種群分布信息。近年來,卷積神經(jīng)網(wǎng)絡(luò)(cnn)在圖像分類中的成功應(yīng)用,使得基于圖像的土壤微生物分類方法逐漸流行。該方法的主要優(yōu)勢在于實(shí)現(xiàn)了高效的自動(dòng)化分析,無需復(fù)雜的基因擴(kuò)增過程。然而,顯微圖像分類法依賴于高質(zhì)量的圖像數(shù)據(jù),且對(duì)硬件設(shè)備(如顯微鏡分辨率、圖像采集器等)要求較高,因此在實(shí)際應(yīng)用中,圖像質(zhì)量可能影響分類效果。此外,顯微圖像分類法在應(yīng)對(duì)多樣化微生物形態(tài)時(shí)仍存在局限性,如某些微生物的形態(tài)差異較小,可能導(dǎo)致誤分類。因此,本發(fā)明構(gòu)建了基于深度學(xué)習(xí)的土壤微生物分類方法,通過結(jié)合基因序列信息和顯微圖像特征,基于多模態(tài)深度學(xué)習(xí)實(shí)現(xiàn)的圖像與序列知識(shí)相結(jié)合的分類模型。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提出一種基于深度學(xué)習(xí)的土壤微生物分類方法,解決了現(xiàn)有技術(shù)中的問題。
2、本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的:一種基于深度學(xué)習(xí)的土壤微生物分類方法,其特征在于,包括如下步驟:
3、包括如下步驟:
4、s1:初始數(shù)據(jù)集構(gòu)建:通過采集土壤樣本,提取高通量擴(kuò)增子測序數(shù)據(jù)與高分辨率顯微圖像數(shù)據(jù),構(gòu)建初始數(shù)據(jù)集,在數(shù)據(jù)預(yù)處理階段,對(duì)測序數(shù)據(jù),應(yīng)用操作性分類單元進(jìn)行初步分類,隨后利用精確序列變體進(jìn)行更細(xì)致的特征提??;
5、s2:特征提取模塊構(gòu)建:特征提取模塊由測序編碼模塊和圖像編碼模塊組成;圖像編碼過程中先對(duì)圖像進(jìn)行分塊處理,再利用變換器網(wǎng)絡(luò)進(jìn)行特征提取,以充分捕捉圖像的全局和局部特征,通過分別的特征提取框架,顯著提升對(duì)土壤微生物特征的識(shí)別效率,確保模型能夠有效處理復(fù)雜的土壤樣本;
6、s3:土壤微生物分類預(yù)測模型構(gòu)建:通過集成特征標(biāo)準(zhǔn)化的分類模型,以提高分類的精度,在特征標(biāo)準(zhǔn)化步驟中,所有提取的特征被歸一化,以消除不同特征間的量綱差異,同時(shí),加入共注意力融合模塊,將測序數(shù)據(jù)和圖像數(shù)據(jù)的特征進(jìn)行有效結(jié)合,最終形成土壤微生物分類預(yù)測模塊;
7、s4:多模態(tài)特征對(duì)齊學(xué)習(xí)策略:提出了一個(gè)多模態(tài)特征對(duì)齊學(xué)習(xí)策略,包括特征的映射模塊,正負(fù)樣本對(duì)構(gòu)建模塊以及特征對(duì)比學(xué)習(xí)模塊,特征映射模塊旨在將兩種數(shù)據(jù)映射到同一特征空間,基于正負(fù)樣本對(duì)的構(gòu)建,在特征對(duì)比學(xué)習(xí)模塊中,通過對(duì)齊和區(qū)分兩種模態(tài)的特征,提高了模型的泛化能力和分類精度;
8、s5:模型實(shí)際部署與使用:在土壤微生物采集和分類模型驗(yàn)證過程中,應(yīng)用該模型對(duì)實(shí)際采集的土壤樣本進(jìn)行分類預(yù)測,以驗(yàn)證模型在不同土壤環(huán)境下的適應(yīng)性和準(zhǔn)確性。
9、作為優(yōu)選的實(shí)施方式,所述的初始數(shù)據(jù)集構(gòu)建包括以下步驟:
10、s11土壤樣本采集:通過實(shí)地考察需要研究的土壤層,并使用采樣設(shè)備與相關(guān)技術(shù)獲取土壤樣本,以便后續(xù)提取和分離土壤數(shù)據(jù),通過在不同采樣地點(diǎn)收集土壤樣本,提取高通量擴(kuò)增子測序數(shù)據(jù)和高分辨率顯微圖像數(shù)據(jù),形成初步的數(shù)據(jù)集;
11、s12數(shù)據(jù)預(yù)處理:在土壤樣本數(shù)據(jù)提取過程中,由于樣本處理和測序技術(shù)的差異,存在少量噪聲和不完整數(shù)據(jù),通過構(gòu)建了數(shù)據(jù)預(yù)處理模塊,對(duì)于提取到的土壤微生物測序數(shù)據(jù)g,使用操作性分類單元進(jìn)行初步分類,定義為公式(1):
12、otu(g)={gi|gi∈g,d(gi,gj)<∈}#(1);
13、其中g(shù)表示原始測序數(shù)據(jù),gi和gj表示樣本序列,∈為距離閾值,由此得到了處理后的測序數(shù)據(jù),同樣用g來表示,土壤圖像數(shù)據(jù)由顯微鏡下掃描成像得到,對(duì)所有掃描的圖像進(jìn)行統(tǒng)一的裁剪處理,以統(tǒng)一的分辨率大小構(gòu)建成圖像數(shù)據(jù)i;
14、s13測序數(shù)據(jù)預(yù)分組:經(jīng)過初步分類后,為了獲得更細(xì)致的特征信息,利用精確序列變體(asv)方法進(jìn)行進(jìn)一步的特征提取,該方法可以有效識(shí)別和量化樣本中的微生物特征,這個(gè)過程可以表示為公式(2):
15、
16、其中,f表示特征集合,p(f|gi)特征f在樣本gi中出現(xiàn)的概率,由此得到了特征提取后的測序數(shù)據(jù),同樣用g來表示;
17、s14數(shù)據(jù)標(biāo)定:基于標(biāo)準(zhǔn)化處理后的特征數(shù)據(jù),使用標(biāo)注工具對(duì)微生物特征進(jìn)行標(biāo)定,記錄每個(gè)特征的位置信息及相關(guān)屬性,這一過程將為后續(xù)的模型訓(xùn)練提供準(zhǔn)確的標(biāo)簽數(shù)據(jù)。
18、作為優(yōu)選的實(shí)施方式,所述的特征提取模塊構(gòu)建過程包括:
19、構(gòu)建的特征提取模塊包括多深度特征提取單元和多深度特征融合單元,其中,多深度特征提取單元主要由測序編碼模塊和圖像編碼模塊組成,圖像編碼過程中,首先對(duì)圖像進(jìn)行分塊處理,以將整個(gè)圖像劃分為多個(gè)小塊,并根據(jù)每個(gè)小塊的位置進(jìn)行位置編碼,然后利用變換器網(wǎng)絡(luò)對(duì)每個(gè)小塊進(jìn)行特征提取,該方法通過自注意力機(jī)制,能夠有效捕捉圖像的全局和局部特征,從而提升對(duì)土壤微生物特征的識(shí)別效率,確保模型能夠處理復(fù)雜的土壤樣本;
20、通過對(duì)各模態(tài)的獨(dú)立特征提取,可以保證模型在高通道擴(kuò)增子測序數(shù)據(jù)和微生物圖像數(shù)據(jù)中進(jìn)行解耦的分析與探索,以保護(hù)模態(tài)特有的特征優(yōu)勢;
21、包括以下步驟:
22、s21測序數(shù)據(jù)編碼模塊:構(gòu)建的測序數(shù)據(jù)編碼模塊采用自歸一化網(wǎng)絡(luò)作為編碼器,用于對(duì)輸入的測序數(shù)據(jù)進(jìn)行高效編碼,經(jīng)過s1預(yù)處理過的土壤微生物高通道擴(kuò)增子測序數(shù)據(jù)為g,該數(shù)據(jù)一共包含6個(gè)組,每個(gè)組對(duì)應(yīng)了一個(gè)具有代表性的微生物群落特征,在進(jìn)入編碼模塊之前,首先經(jīng)過一個(gè)標(biāo)準(zhǔn)化層,以確保數(shù)據(jù)的均勻性和穩(wěn)定性,標(biāo)準(zhǔn)化操作可以表示為公式(3):
23、
24、其中,ginput表示標(biāo)準(zhǔn)化的特征集合,mean(g)和σ(g)分別表示特征值的均值和標(biāo)準(zhǔn)差,標(biāo)準(zhǔn)化的引入能夠有效減小數(shù)據(jù)的偏差,提高后續(xù)模型的收斂速度,從而增強(qiáng)模型對(duì)輸入數(shù)據(jù)的適應(yīng)能力,接下來在編碼模塊中,設(shè)計(jì)了三個(gè)一樣的編碼塊,每個(gè)塊的結(jié)構(gòu)均為:輸入數(shù)據(jù)ginput經(jīng)過一個(gè)全連接層,接著經(jīng)過selu激活函數(shù)進(jìn)行非線性變換,selu激活函數(shù)的使用能夠自動(dòng)調(diào)整輸出的均值和方差,使得每一層的輸出保持在相對(duì)穩(wěn)定的范圍內(nèi),從而促進(jìn)深度學(xué)習(xí)模型的訓(xùn)練過程,隨后,輸入經(jīng)過alpha?dropout層,最終輸出為公式(4):
25、gfeature=dropout(selu(ginput),p)#(4);
26、其中,p為丟棄率,alpha?dropout的引入不僅能防止模型過擬合,還能保持?jǐn)?shù)據(jù)的自歸一化特性,從而提高模型在新樣本上的泛化能力,對(duì)于每個(gè)測序分組,均提供一個(gè)自歸一化網(wǎng)絡(luò)進(jìn)行編碼,能夠充分挖掘不同分組間的特征差異,有效提升編碼的準(zhǔn)確性和靈活性;
27、s22圖像數(shù)據(jù)編碼模塊:構(gòu)建的圖像數(shù)據(jù)編碼模塊用于對(duì)土壤微生物的圖像進(jìn)行有效的特征提取,首先通過高分辨率顯微鏡采集土壤樣本中微生物圖像i,這些圖像提供了土壤微生物的豐富細(xì)節(jié)和結(jié)構(gòu)信息,該模塊首先將輸入的土壤微生物圖像按照長寬均勻分割成六個(gè)圖像分塊,以支持后續(xù)的編碼器的輸入特性并促使編碼器對(duì)不同區(qū)域的細(xì)節(jié)進(jìn)行全面捕捉,設(shè)分塊后的圖像為i1-i6,該分塊處理有助于捕捉到不同微生物在圖像中的空間分布特征,增強(qiáng)了特征提取的全面性,隨后采用線性投影方法對(duì)每個(gè)分塊進(jìn)行處理,以將高維特征映射到低維空間,公式表示為公式(5):
28、
29、其中,為第j個(gè)圖像分塊的投影結(jié)果,wj和bj分別為權(quán)重矩陣和偏置,然后,通過自注意力層對(duì)分塊后的特征進(jìn)行加權(quán),使得模型能夠關(guān)注圖像中重要的區(qū)域,公式表示公式(6):
30、
31、其中,q,k,v分別表示查詢、鍵和值,dk為鍵的維度,自注意力機(jī)制通過計(jì)算分塊之間的關(guān)系,進(jìn)一步強(qiáng)化了模型對(duì)重要特征的捕捉能力;
32、接下來,經(jīng)過前饋層的進(jìn)一步處理,最終得到圖像的特征ifeature,其包含六個(gè)特征向量,這其中,前饋神經(jīng)網(wǎng)絡(luò)不僅提高了模型對(duì)土壤微生物圖像的識(shí)別精度,還增強(qiáng)了對(duì)微生物特征的捕捉能力,確保了模型在不同樣本條件下的魯棒性。
33、作為優(yōu)選的實(shí)施方式,所述的土壤微生物分類預(yù)測模型的構(gòu)建過程包括:
34、在土壤微生物分類預(yù)測模型中,主要采用了集成特征標(biāo)準(zhǔn)化、共注意力融合和殘差拼接的方法,以提高分類精度,首先,提取的特征經(jīng)過特征標(biāo)準(zhǔn)化處理,以消除不同特征之間的量綱差異,特征標(biāo)準(zhǔn)化步驟結(jié)合了批歸一化層和層歸一化,確保模型在訓(xùn)練和推理階段都能有效應(yīng)對(duì)特征的變化,隨后,引入了共注意力融合模塊,將測序特征gfeature和圖像特征ifeature有效結(jié)合,此模塊采用交叉注意力機(jī)制,通過對(duì)兩個(gè)模態(tài)的查詢(q)、鍵(k)和值(v)進(jìn)行交互,生成注意力值,進(jìn)而實(shí)現(xiàn)對(duì)不同模態(tài)信息的融合,這一過程不僅增強(qiáng)了特征的表達(dá)能力,還提高了模型對(duì)土壤微生物分類任務(wù)的判別能力,最后,經(jīng)過微生物分類層的處理,模型輸出最終的分類預(yù)測結(jié)果;
35、具體包括以下步驟:
36、s31特征標(biāo)準(zhǔn)化模塊:在所構(gòu)建的特征標(biāo)準(zhǔn)化模塊中,針對(duì)測序特征和圖像特征采用了不同的標(biāo)準(zhǔn)化方法,在深度學(xué)習(xí)中,標(biāo)準(zhǔn)化是確保輸入數(shù)據(jù)分布在合適范圍內(nèi)的重要預(yù)處理步驟,有助于避免隨著層數(shù)增加而導(dǎo)致的網(wǎng)絡(luò)不穩(wěn)定性;通過將數(shù)據(jù)拉回標(biāo)準(zhǔn)正態(tài)分布,可以提高訓(xùn)練的穩(wěn)定性,促進(jìn)模型更快收斂并提升最終性能,對(duì)于測序特征,使用層歸一化方法,這是因?yàn)槠涮卣骶S度相對(duì)較小,且每個(gè)樣本間的特征分布差異較大,由此可以得到gfusion=ln(gfeature),相對(duì)而言,對(duì)于圖像特征,采用批歸一化方法,由此得到ifusion=bn(ifeature),bn通過在每個(gè)訓(xùn)練批次中對(duì)特征進(jìn)行標(biāo)準(zhǔn)化,有效減少了內(nèi)部協(xié)變量偏移,使得模型在訓(xùn)練過程中能夠更快收斂,bn尤其適合處理圖像數(shù)據(jù),因?yàn)槠淠軌蛲ㄟ^歸一化處理提高模型在圖像掃描差異性或圖像質(zhì)量區(qū)別的魯棒性;
37、s32共注意力融合模塊:本構(gòu)建的共注意力融合模塊旨在有效整合測序特征和圖像特征,以提高土壤微生物分類的準(zhǔn)確性,依照注意力機(jī)制的范式,該模塊首先分別提取測序特征gfusion和圖像特征ifusion的查詢(q)、鍵(k)和值(v),其中測序特征的表示為qg,kg,vg,圖像特征的表示為qi,ki,vi,接下來,通過交叉注意力機(jī)制計(jì)算測序特征與圖像特征之間的注意力權(quán)重如公式(7):
38、
39、其中ag→i代表了以測序特征作為引導(dǎo),圖像特征中與其貢獻(xiàn)相似的部分,將該權(quán)重應(yīng)用于圖像特征的值上,得到融合后的特征經(jīng)過殘差連接表示為同樣地,計(jì)算圖像特征對(duì)測序特征的注意力權(quán)重如公式(8):
40、
41、并應(yīng)用于測序特征的值,得到另一個(gè)融合后的特征經(jīng)過殘差連接表示為最終,將兩個(gè)融合后的特征fg和fi進(jìn)行整合,為后續(xù)的分類預(yù)測提供更加全面的信息,通過關(guān)注不同模態(tài)之間的相互關(guān)系,該融合過程有效增強(qiáng)了模型對(duì)土壤微生物分類的判別能力;
42、s33微生物預(yù)測模塊:構(gòu)建的微生物預(yù)測模塊在特征融合之后,首先將每個(gè)模態(tài)的特征通過兩個(gè)多頭自注意力模塊進(jìn)行處理,以深入挖掘與土壤微生物群落特征相關(guān)的知識(shí),經(jīng)過自注意力模塊后,可以得到測序特征f′g和圖像特征f′i,經(jīng)過特征拼接,可以如公式(9)得到最后用于土壤微生物分類的預(yù)測特征:
43、output=concat(f′g,f′i)#(9);
44、最后,拼接后的特征將輸入到一個(gè)多層感知機(jī)中,該網(wǎng)絡(luò)由若干個(gè)全連接層組成,進(jìn)一步提煉特征信息并增加模型的表達(dá)能力,經(jīng)過激活函數(shù)的處理后,最終通過softmax層進(jìn)行分類輸出,生成對(duì)各類土壤微生物的預(yù)測概率,這一結(jié)構(gòu)能夠有效整合不同模態(tài)的信息。
45、作為優(yōu)選的實(shí)施方式,所述的多模態(tài)特征對(duì)齊的學(xué)習(xí)策略過程包括:
46、在多模態(tài)特征對(duì)齊的學(xué)習(xí)策略中,主要采用了構(gòu)造正負(fù)樣本對(duì)以實(shí)現(xiàn)對(duì)比學(xué)習(xí)下的特征對(duì)齊方法,該部分在多模態(tài)融合之前進(jìn)行,這是因?yàn)椴煌B(tài)的特征在融合之前由于其屬于不同的模態(tài)特征分布空間,使得模型很難建模不同模態(tài)之間的交互關(guān)系,進(jìn)一步降低多模態(tài)融合的可靠性,因此,首先對(duì)提取的測序特征gfeature和圖像特征ifeature進(jìn)行對(duì)應(yīng)的特征映射,將兩個(gè)模態(tài)的特征映射到相同的特征空間,進(jìn)而進(jìn)行特征對(duì)齊,接著,構(gòu)建支持對(duì)比學(xué)習(xí)的正負(fù)樣本對(duì),根據(jù)每個(gè)土壤微生物的類別,同一類別的不同模態(tài)特征作為正樣本對(duì),與該類別不同的其余類別的模態(tài)特征都作為負(fù)樣本對(duì),最后,使用對(duì)比學(xué)習(xí)的策略對(duì)正負(fù)樣本對(duì)進(jìn)行約束,具體來說,通過損失函數(shù)拉進(jìn)正樣本對(duì)的余弦相似度,與此同時(shí)推遠(yuǎn)負(fù)樣本對(duì)之間的歐氏距離,以實(shí)現(xiàn)同一類別的模態(tài)特征的對(duì)齊,通過上述方法,土壤微生物分類預(yù)測模型在融合之前進(jìn)行有效的特征對(duì)齊,促使模型在多模態(tài)融合知識(shí)的學(xué)習(xí);
47、具體包括以下步驟:
48、s41測序特征映射模塊:在多模態(tài)特征對(duì)齊模塊中,為了實(shí)現(xiàn)測序特征gfeature和圖像特征ifeature的有效融合,首先需將這兩個(gè)模態(tài)映射到相同的特征空間,為此設(shè)計(jì)了兩個(gè)獨(dú)立的映射網(wǎng)絡(luò),分別處理測序數(shù)據(jù)和圖像數(shù)據(jù),對(duì)于測序特征gfeature,映射網(wǎng)絡(luò)包含三個(gè)全連接層:第一層具有128個(gè)節(jié)點(diǎn),第二層為64個(gè)節(jié)點(diǎn),第三層為32個(gè)節(jié)點(diǎn),每層之間使用relu激活函數(shù),為了穩(wěn)定數(shù)據(jù)分布,在第二和第三層之間加入batch?normalization層;經(jīng)過該網(wǎng)絡(luò)映射后的輸出為gcontrast,它被投影到32維的統(tǒng)一特征空間,對(duì)于圖像特征ifeature,映射網(wǎng)絡(luò)結(jié)構(gòu)與測序特征映射網(wǎng)絡(luò)類似,也包含三層全連接層,第一層為128個(gè)節(jié)點(diǎn),第二層為64個(gè)節(jié)點(diǎn),第三層為32個(gè)節(jié)點(diǎn),該網(wǎng)絡(luò)同樣在第二和第三層間使用bn進(jìn)行歸一化處理,并在每層加入relu激活,以增強(qiáng)模型的非線性表達(dá)能力;圖像特征映射的輸出為icontrast,同樣在32維特征空間中;
49、通過以上結(jié)構(gòu),測序特征和圖像特征分別被映射到相同的特征空間,從而便于在接下來的對(duì)比學(xué)習(xí)和特征對(duì)齊過程中實(shí)現(xiàn)模態(tài)間的交互;
50、s42正負(fù)樣本對(duì)構(gòu)建模塊:正負(fù)樣本對(duì)構(gòu)建模塊中,為實(shí)現(xiàn)多模態(tài)特征的有效對(duì)齊與分類預(yù)測,設(shè)計(jì)了基于s41的映射特征進(jìn)行正負(fù)樣本對(duì)構(gòu)建方法,該模塊通過為每個(gè)土壤微生物類別生成正負(fù)樣本對(duì),進(jìn)一步對(duì)兩個(gè)模態(tài)特征進(jìn)行對(duì)齊約束,以促進(jìn)多模態(tài)特征間的一致性;
51、首先,正樣本對(duì)的構(gòu)建基于同類別的原則;預(yù)設(shè)在采集樣本一共包含了n個(gè)類別,對(duì)于其中的某一類別ci,i∈{1,2,...,n}的土壤微生物,在每一次訓(xùn)練的批次當(dāng)中,將來自該類別的測序特征gcontrast和圖像特征icontrast作為正樣本對(duì),正樣本對(duì)通過共享的特征空間表達(dá)來縮小兩模態(tài)特征之間的距離,從而在相似的語義上達(dá)成對(duì)齊,接著,負(fù)樣本對(duì)的構(gòu)建基于不同類別的原則,對(duì)于目標(biāo)類別ci所對(duì)應(yīng)的測序特征gcontrast,其他類別的圖像特征icontrast都被視為負(fù)樣本,反之亦然,這種策略通過拉開負(fù)樣本對(duì)之間的歐氏距離,從而在特征空間中形成清晰的類別邊界,避免不同類別的特征重疊;
52、s43特征對(duì)比學(xué)習(xí)模塊:在特征對(duì)比學(xué)習(xí)模塊中,采用了基于infonce的對(duì)比損失函數(shù),以實(shí)現(xiàn)不同模態(tài)特征的有效對(duì)齊,該損失函數(shù)通過拉近基于s42構(gòu)建的不同模態(tài)正負(fù)樣本對(duì),以此拉進(jìn)同類別特征在特征空間內(nèi)的距離,進(jìn)而在多模態(tài)融合之前統(tǒng)一特征空間的表達(dá);
53、對(duì)于每個(gè)土壤微生物的樣本對(duì),我們將正樣本對(duì)同一類別的測序特征gcontrast和圖像特征icontrast的相似度最大化,同時(shí)將負(fù)樣本對(duì)不同類別的測序和圖像特征最小化,具體地,infonce損失函數(shù)可以定義為公式(10):
54、
55、其中n是每個(gè)批次中包含的類別數(shù)量,sim(·,·)代表特征的余弦相似度,t是溫度參數(shù),用于控制分布的平滑度,通過最大化同類別特征的相似度,并在特征空間中推遠(yuǎn)不同類別特征,該模塊能夠?qū)崿F(xiàn)測序特征和圖像特征的對(duì)齊,為后續(xù)的土壤微生物分類任務(wù)提供更具判別力的特征表示。
56、作為優(yōu)選的實(shí)施方式,所述的土壤微生物分類的實(shí)現(xiàn)方法過程包括:
57、基于s3中設(shè)計(jì)的土壤微生物分類預(yù)測模型,并結(jié)合s4過程中描述的特征對(duì)齊學(xué)習(xí)策略,最終得到優(yōu)化完畢的土壤微生物分類模型,將此優(yōu)化后的模型應(yīng)用于土壤樣本分析,以實(shí)現(xiàn)對(duì)土壤微生物的智能化分類;
58、具體包括以下步驟:
59、s51土壤樣本采集:通過采集多地土壤樣本,獲取豐富的樣本材料,為后模型的檢驗(yàn)與部署提供持續(xù)的可分析的基礎(chǔ)數(shù)據(jù);
60、s52樣本數(shù)據(jù)分離提?。簩?duì)采集的土壤樣本進(jìn)行分離提取,以符合模型輸入的范式進(jìn)行分組保存,確保不同類型的樣本可以獨(dú)立處理,以便于后續(xù)分析;
61、s53數(shù)據(jù)分模態(tài)處理:對(duì)提取的高通量擴(kuò)增子測序數(shù)據(jù)和高分辨率顯微圖像數(shù)據(jù)進(jìn)行模態(tài)處理,利用操作性分類單元和精確序列變體進(jìn)行測序數(shù)據(jù)特征提取,統(tǒng)一土壤微生物圖像分辨率,確保數(shù)據(jù)的準(zhǔn)確性和完整性;
62、s54微生物分類預(yù)測模型部署:將優(yōu)化后的土壤微生物分類預(yù)測模型部署到分析系統(tǒng)中,并將處理后的數(shù)據(jù)送入模型進(jìn)行分類,得到土壤微生物的具體分布和分類結(jié)果;
63、s55多地土壤微生物預(yù)測結(jié)果:匯總不同地點(diǎn)的土壤微生物分類結(jié)果,進(jìn)行比較分析,以揭示區(qū)域性土壤微生物的分布特征;
64、s56土壤管理與資源評(píng)估:根據(jù)模型輸出的微生物分類結(jié)果,進(jìn)行土壤管理與資源評(píng)估,為農(nóng)業(yè)和環(huán)境保護(hù)提供數(shù)據(jù)支持,提升土壤利用效率和生態(tài)可持續(xù)性。
65、采用了上述技術(shù)方案后,本發(fā)明的有益效果是:
66、(1)提升自動(dòng)化與智能化程度:該方法通過訓(xùn)練基于變換器和自歸一化網(wǎng)絡(luò)的土壤微生物分類模型,能夠自動(dòng)化地識(shí)別復(fù)雜的微生物群落,從而顯著提高分類效率和準(zhǔn)確性。同時(shí),結(jié)合自注意力機(jī)制,可以對(duì)不同土壤中的微生物特征和測序的數(shù)據(jù)相結(jié)合,提供更加全面視角來辨別土壤健康狀態(tài),由此提高土壤檢測的智能化程度。
67、(2)提升模型對(duì)共享信息的認(rèn)知程度:通過引入對(duì)比學(xué)習(xí)策略,模型能夠有效地對(duì)不同模態(tài)中的特征進(jìn)行對(duì)齊。這種方法使得模型在特征提取過程中不僅能夠捕捉到單一模態(tài)的信息,還能識(shí)別和融合跨模態(tài)的共享信息,從而提高分類精度。對(duì)比學(xué)習(xí)提供了豐富的上下文信息,有助于增強(qiáng)模型的理解能力,使其能夠更準(zhǔn)確地判斷土壤微生物的種類和特征,進(jìn)而推動(dòng)土壤健康評(píng)估的科學(xué)性和可靠性。
68、(3)提升微生物分類的正確率:本發(fā)明通過將高通量擴(kuò)增子測序數(shù)據(jù)和顯微圖像數(shù)據(jù)進(jìn)行有效結(jié)合,增強(qiáng)了特征提取的全面性。在特征提取過程中,利用變換器網(wǎng)絡(luò)和自歸一化網(wǎng)絡(luò)的優(yōu)勢,使得對(duì)土壤微生物的分類更為準(zhǔn)確,從而提高了檢測的可靠性。
69、(4)提升分類的魯棒性:在土壤微生物預(yù)測模型中使用到了多個(gè)模態(tài)數(shù)據(jù),使模型在面對(duì)不同土壤樣本的復(fù)雜性時(shí),仍能保持優(yōu)秀的辨別能力。此外,基于共注意力機(jī)制的特征融合的策略,有助于在模型探索模態(tài)內(nèi)的交互一致性信息,促使實(shí)際應(yīng)用中靈活應(yīng)對(duì)環(huán)境變化(如土壤濕度、光照條件等)對(duì)分類結(jié)果的影響,確保分類結(jié)果的穩(wěn)定性。