本發(fā)明屬于環(huán)境微生物技術(shù)與生態(tài)健康,具體涉及一種基于無監(jiān)督聚類的環(huán)境微生物群落狀態(tài)評估方法。
背景技術(shù):
1、近年來,隨著高通量測序技術(shù)的快速發(fā)展,微生物群落相關(guān)研究在環(huán)境科學(xué)領(lǐng)域得到了廣泛應(yīng)用。微生物群落的狀態(tài)往往通過多種指標(biāo)進行描述,包括多樣性(如物種豐富度和shannon指數(shù))、群落組成(如物種豐度和分布)、生態(tài)功能特征(如元素循環(huán))等。這些指標(biāo)從不同角度揭示了環(huán)境微生物群落的生態(tài)特征和功能狀態(tài),能夠為生態(tài)環(huán)境監(jiān)測與治理提供重要信息。
2、然后,環(huán)境微生物群落本質(zhì)上是一個復(fù)雜的多維系統(tǒng),各類指標(biāo)之間可能存在相互關(guān)聯(lián)和影響。當(dāng)前大多數(shù)研究中,這些指標(biāo)往往是獨立計算和分析的,缺乏能夠全面整合環(huán)境微生物多維特征的綜合性指標(biāo)。這不僅增加了數(shù)據(jù)分析的復(fù)雜性,也限制了對環(huán)境微生物群落狀態(tài)的整體評估和理解。因此,開發(fā)一種能夠?qū)⒍嗑S特征有效降維和聚類并生成能夠綜合反映環(huán)境微生物群落狀態(tài)的綜合性指標(biāo)的技術(shù),顯得尤為重要。
3、無監(jiān)督聚類方法是一種基于數(shù)據(jù)內(nèi)在結(jié)構(gòu)進行分類和分析的技術(shù),能夠在無需先驗知識或標(biāo)簽的情況下,自動識別樣本間的模式和群體結(jié)構(gòu)。通過將無監(jiān)督聚類方法應(yīng)用于環(huán)境微生物群落數(shù)據(jù)分析,可以對多維度的特征進行降維并聚類,從而提取出綜合性的指標(biāo)。該綜合指標(biāo)不僅能夠保留原始數(shù)據(jù)的主要信息,還能大幅度降低數(shù)據(jù)的復(fù)雜性,簡化分析過程,并為環(huán)境微生物群落的整體狀態(tài)評估提供一種直觀、可操作的手段。
技術(shù)實現(xiàn)思路
1、針對上述問題本發(fā)明的目的在于提供一種基于無監(jiān)督聚類的環(huán)境微生物群落狀態(tài)評估方法。
2、具體的技術(shù)方案如下:
3、一種基于無監(jiān)督聚類的環(huán)境微生物群落狀態(tài)評估方法,包括如下步驟1)樣本收集及質(zhì)控:收集目標(biāo)環(huán)境樣本的宏基因組測序數(shù)據(jù),對宏基因組測序原始數(shù)據(jù)進行質(zhì)控,去除低質(zhì)量序列,得到宏基因組測序有效數(shù)據(jù)用于后續(xù)分析;2)微生物物種注釋與豐度計算:對步驟1)質(zhì)控后的宏基因組有效數(shù)據(jù)進行物種注釋,進行微生物物種豐度計算,根據(jù)豐度定義關(guān)鍵物種,即豐度排序前5的物種;
4、3)微生物多樣性計算:基于微生物物種豐度數(shù)據(jù)計算樣本微生物多樣性,即物種豐富度和物種shannon指數(shù)(香農(nóng)多樣性指數(shù));
5、4)微生物功能基因注釋與豐度計算:對步驟1)質(zhì)控后的宏基因組有效數(shù)據(jù)進行功能基因注釋,進行微生物功能基因豐度計算;
6、5)將微生物多維特征降維至綜合性指標(biāo):對關(guān)鍵物種、物種豐富度、shannon指數(shù)和微生物功能基因豐度進行標(biāo)準(zhǔn)化處理,用pca對微生物群落特征標(biāo)準(zhǔn)化數(shù)據(jù)進行降維,保留95%方差的主成分用于聚類,基于降維后的數(shù)據(jù)使用歐式距離計算數(shù)據(jù)點之間的距離,并使用ward層次聚類算法對數(shù)據(jù)進行聚類,使用輪廓系數(shù)來評估聚類效果,最終將數(shù)據(jù)劃分為綜合性指標(biāo)。
7、進一步地,步驟5)中對微生物群落特征數(shù)據(jù)進行標(biāo)準(zhǔn)化處理,標(biāo)準(zhǔn)化計算公式為:
8、
9、其中,x是特征數(shù)據(jù),μ該特征的均值,σ是該特征的標(biāo)準(zhǔn)差。用主成分分析(pca)對微生物群落特征數(shù)據(jù)進行降維,其計算方式為:
10、
11、其中,c是協(xié)方差矩陣,xi是特征數(shù)據(jù),是特征數(shù)據(jù)的平均值,n是樣本的數(shù)量,計算協(xié)方差矩陣的特征值和特征向量,得到新的主成分方向。
12、保留95%方差的主成分用于聚類,方差率計算公式為:
13、
14、其中,r代表了方差解釋率,λi是第i個主成分特征值,m是特征向量的數(shù)量。
15、進一步地,步驟5)中對降維后的環(huán)境微生物群落數(shù)據(jù)使用歐式距離來計算數(shù)據(jù)點之間的距離。歐式距離計算公式為:
16、
17、其中,d代表歐式距離,x和y代表分別代表2個樣本點,xi代表樣本點x的第i個特征取值,yi代表樣本點y的第i個特征取值。
18、進一步地,步驟5)在計算了樣本間的距離后,使用ward層次聚類算法對數(shù)據(jù)進行聚類,通過最小化簇內(nèi)方差來決定如何合并簇。ward層次聚類算法公式為:
19、
20、其中,和分別是簇a和b的中心(簇內(nèi)樣本均值),|a|和|b|是簇的大小(簇內(nèi)樣本數(shù)量),表示兩個簇的中心距離,δe代表簇合并后的代價函數(shù),表示簇內(nèi)方差的變化量。
21、進一步的,步驟5)聚類完成后,使用輪廓系數(shù)來評估聚類效果,它衡量每個樣本與其所屬簇的相似性與其與最近簇的相似性之間的差異,輪廓系數(shù)計算公式為:
22、
23、其中,a(i)是樣本i到其所在簇內(nèi)其他樣本的平均距離,b(i)是樣本i到最近簇的平均距離,輪廓系數(shù)的值范圍為[-1,1],越接近1表示聚類效果越好。
24、本發(fā)明的有益效果在于:
25、該方法通過無監(jiān)督聚類方法分析數(shù)據(jù)內(nèi)在結(jié)構(gòu),在無需先驗知識的情況下識別樣本間模式和群體結(jié)構(gòu)。在環(huán)境微生物群落數(shù)據(jù)分析中,該方法可對多維特征進行降維和聚類,提取綜合性指標(biāo),簡化分析,降低復(fù)雜性,同時保留主要信息。這種方法為環(huán)境微生物群落狀態(tài)評估提供了直觀、可操作的手段,提升了分析效率和準(zhǔn)確性,有助于評估環(huán)境變化對微生物群落的影響,為生態(tài)文明建設(shè)提供參考。
1.一種基于無監(jiān)督聚類的環(huán)境微生物群落狀態(tài)評估方法,其特征在于,包括如下步驟:
2.如權(quán)利要求1所述的一種基于無監(jiān)督聚類的環(huán)境微生物群落狀態(tài)評估方法,其特征在于,步驟5)中對微生物群落特征數(shù)據(jù)進行標(biāo)準(zhǔn)化處理,標(biāo)準(zhǔn)化計算公式為:
3.如權(quán)利要求2所述的一種基于無監(jiān)督聚類的環(huán)境微生物群落狀態(tài)評估方法,其特征在于,步驟5)中對降維后的環(huán)境微生物群落數(shù)據(jù)使用歐式距離來計算數(shù)據(jù)點之間的距離,歐式距離計算公式為:
4.如權(quán)利要求3所述的一種基于無監(jiān)督聚類的環(huán)境微生物群落狀態(tài)評估方法,其特征在于,步驟5)中在計算了樣本間的距離后,使用ward層次聚類算法對數(shù)據(jù)進行聚類,通過最小化簇內(nèi)方差來決定如何合并簇,ward層次聚類算法公式為:
5.如權(quán)利要求4所述的一種基于無監(jiān)督聚類的環(huán)境微生物群落狀態(tài)評估方法,其特征在于,步驟5)中的聚類完成后,使用輪廓系數(shù)來評估聚類效果,它衡量每個樣本與其所屬簇的相似性與其與最近簇的相似性之間的差異,輪廓系數(shù)計算公式為: