本發(fā)明屬于合成生物益生菌篩選,具體為一種合成生物益生菌的篩選方法及系統(tǒng)。
背景技術(shù):
1、合成生物益生菌是在傳統(tǒng)益生菌的基礎(chǔ)上通過基因改造來增強其功能,例如提高其對特定疾病的治療效果、增強其對特定環(huán)境的適應(yīng)能力,還能賦予其新的功能,例如生產(chǎn)特定的生物活性物質(zhì)、降解環(huán)境污染物等,合成生物益生菌在醫(yī)藥、食品、農(nóng)業(yè)和環(huán)境保護等領(lǐng)域具有廣泛的應(yīng)用前景。對合成益生菌的基因篩選主要依賴于傳統(tǒng)的分子生物學方法,這包括基因組測序、基因編輯技術(shù)、高通量篩選和功能驗證。這些方法雖然在一定程度上能夠滿足研究和應(yīng)用需求,但仍存在一些不足。例如,傳統(tǒng)方法需要大量的時間和實驗資源,而且對于基因組合的復(fù)雜性和多樣性難以全面覆蓋。
2、人工智能的快速發(fā)展為合成生物益生菌的篩選提供了新的解決方案。通過利用機器學習和深度學習等人工智能技術(shù),可以從海量的基因數(shù)據(jù)中挖掘出潛在的功能基因組合,預(yù)測和優(yōu)化基因編輯策略,大幅提高篩選效率和準確性。但如何高效精準地篩選出對人體有益的益生菌仍然是一個亟待解決的難題。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的是提出一種合成生物益生菌的篩選方法,以解決上述背景技術(shù)中提出的問題。
2、一種合成生物益生菌的篩選方法,包括以下步驟:
3、獲取訓練樣本中有益菌和非有益菌的dna序列,搜索所有dna序列中位置相同、dna片段相同的區(qū)域,將dna序列中剩余的區(qū)域作為目標區(qū)域;其中,所述dna片段的長度不小于預(yù)設(shè)值;
4、統(tǒng)計目標區(qū)域中的k-mer頻率,將前k位堿基相同的k-mer的頻率按照k-mer剩余部分堿基字母順序依次放入到一個集合中,將所有集合按照前k位堿基字母順序按行拼接為目標區(qū)域的頻率特征矩陣,將所有目標區(qū)域的頻率特征矩陣構(gòu)成多通道頻率特征矩陣,將多通道頻率特征矩陣輸入到具有通道注意力模塊的神經(jīng)網(wǎng)絡(luò)模型中進行訓練;
5、從待篩選的合成生物益生菌的dna序列得到待篩選的合成生物益生菌的多通道頻率特征矩陣,將多通道頻率特征矩陣輸入到訓練后的神經(jīng)網(wǎng)絡(luò)模型中得到合成生物益生菌的得分。
6、優(yōu)選地,所述將前k位堿基相同的k-mer的頻率按照k-mer剩余部分堿基字母順序依次放入到一個集合中,具體為:
7、獲取所有前k位堿基相同的k-mer對應(yīng)的頻率,按照剩余的堿基字母的順序?qū)λ鲱l率進行排序,將排序后的頻率放入到前k位堿基標識的集合中。
8、優(yōu)選地,所述通道注意力模塊,具體包括:
9、通道權(quán)重計算單元,用于統(tǒng)計目標區(qū)域的功能元件,對不同的功能元件設(shè)置不同的權(quán)重,計算目標區(qū)域所有功能元件的權(quán)重,將所有目標區(qū)域的權(quán)重進行歸一化得到歸一化后的通道權(quán)重,從而得到通道權(quán)重向量;
10、通道注意力計算單元,用于通過通道注意力機制計算得到通道注意力向量;
11、融合單元,用于將所述通道權(quán)重向量和通道注意力向量進行融合,將融合結(jié)果作為通道注意力模塊的輸出。
12、優(yōu)選地,所述通道注意力模塊,具體包括:
13、通道權(quán)重單元,用于對于每個目標區(qū)域獲取訓練樣本所有有益菌中所述目標區(qū)域同一個位置每種堿基出現(xiàn)的頻率,并獲取訓練樣本中所有非有益菌中所述目標區(qū)域同一個位置每種堿基出現(xiàn)的頻率,基于所述頻率得到目標區(qū)域?qū)τ趨^(qū)分有益菌和非有益菌的貢獻度,將所有目標區(qū)域的貢獻度進行歸一化得到歸一化后的通道權(quán)重,從而得到通道權(quán)重向量;
14、通道注意力單元,用于通過通道注意力機制計算得到通道注意力向量;
15、融合單元,用于將所述通道權(quán)重向量和通道注意力向量進行融合,將融合結(jié)果作為通道注意力模塊的輸出。
16、優(yōu)選地,所述將所述通道權(quán)重向量和通道注意力向量融合,具體為:
17、將通道權(quán)重向量和所述通道注意力向量輸入到全連接層后經(jīng)過激活函數(shù)得到融合結(jié)果。
18、另一方面,本發(fā)明提出一種合成生物益生菌的篩選系統(tǒng),包括以下模塊:
19、去重模塊,用于獲取訓練樣本中有益菌和非有益菌的dna序列,搜索所有dna序列中位置相同、dna片段相同的區(qū)域,將dna序列中剩余的區(qū)域作為目標區(qū)域;其中,所述dna片段的長度不小于預(yù)設(shè)值;
20、模型訓練模塊,用于統(tǒng)計目標區(qū)域中的k-mer頻率,將前k位堿基相同的k-mer的頻率按照k-mer剩余部分堿基字母順序依次放入到一個集合中,將所有集合按照前k位堿基字母順序按行拼接為目標區(qū)域的頻率特征矩陣,將所有目標區(qū)域的頻率特征矩陣構(gòu)成多通道頻率特征矩陣,將多通道頻率特征矩陣輸入到具有通道注意力模塊的神經(jīng)網(wǎng)絡(luò)模型中進行訓練;
21、篩選模塊,用于從待篩選的合成生物益生菌的dna序列得到待篩選的合成生物益生菌的多通道頻率特征矩陣,將多通道頻率特征矩陣輸入到訓練后的神經(jīng)網(wǎng)絡(luò)模型中得到合成生物益生菌的得分。
22、優(yōu)選地,所述將前k位堿基相同的k-mer的頻率按照k-mer剩余部分堿基字母順序依次放入到一個集合中,具體為:
23、獲取所有前k位堿基相同的k-mer對應(yīng)的頻率,按照剩余的堿基字母的順序?qū)λ鲱l率進行排序,將排序后的頻率放入到前k位堿基標識的集合中。
24、優(yōu)選地,所述通道注意力模塊,具體包括:
25、通道權(quán)重計算單元,用于統(tǒng)計目標區(qū)域的功能元件,對不同的功能元件設(shè)置不同的權(quán)重,計算目標區(qū)域所有功能元件的權(quán)重,將所有目標區(qū)域的權(quán)重進行歸一化得到歸一化后的通道權(quán)重,從而得到通道權(quán)重向量;
26、通道注意力計算單元,用于通過通道注意力機制計算得到通道注意力向量;
27、融合單元,用于將所述通道權(quán)重向量和通道注意力向量進行融合,將融合結(jié)果作為通道注意力模塊的輸出。
28、優(yōu)選地,所述通道注意力模塊,具體包括:
29、通道權(quán)重單元,用于對于每個目標區(qū)域獲取訓練樣本所有有益菌中所述目標區(qū)域同一個位置每種堿基出現(xiàn)的頻率,并獲取訓練樣本中所有非有益菌中所述目標區(qū)域同一個位置每種堿基出現(xiàn)的頻率,基于所述頻率得到目標區(qū)域?qū)τ趨^(qū)分有益菌和非有益菌的貢獻度,將所有目標區(qū)域的貢獻度進行歸一化得到歸一化后的通道權(quán)重,從而得到通道權(quán)重向量;
30、通道注意力單元,用于通過通道注意力機制計算得到通道注意力向量;
31、融合單元,用于將所述通道權(quán)重向量和通道注意力向量進行融合,將融合結(jié)果作為通道注意力模塊的輸出。
32、優(yōu)選地,所述將所述通道權(quán)重向量和通道注意力向量融合,具體為:
33、將通道權(quán)重向量和所述通道注意力向量輸入到全連接層后經(jīng)過激活函數(shù)得到融合結(jié)果。
34、此外,本發(fā)明還提出一種計算機可讀存儲介質(zhì),所述可讀存儲介質(zhì)上存儲有計算機程序,所述計算機程序在被處理器執(zhí)行時實現(xiàn)如上所述的方法。
35、最后,本發(fā)明還提出一種計算機設(shè)備,所述計算機設(shè)備至少包括處理器和可讀存儲介質(zhì),所述可讀存儲介質(zhì)上存儲有計算機程序,所述計算機程序在被處理器執(zhí)行時實現(xiàn)如上所述的方法。
36、和現(xiàn)有技術(shù)相比,本發(fā)明具有如下有益效果:
37、為了能夠篩選出合成生物益生菌,本發(fā)明搜索出dna序列的目標區(qū)域,對于每個目標區(qū)域構(gòu)建一個k-mer頻率特征矩陣,多個目標區(qū)域構(gòu)成了多通道頻率特征矩陣,利用多通道頻率特征矩陣識別有益菌,同時將通道注意力對應(yīng)用到多通道頻率特征矩陣的識別上,而且在通道注意力計算時不僅僅依靠k-mer頻率,還根據(jù)每個目標區(qū)域的特征進行計算,同時利用了k-mer頻率特征和目標區(qū)域堿基序列的功能或者相似度,從而實現(xiàn)了更準確地對合成生物益生菌進行識別和篩選。