本發(fā)明涉及生物信息,特別是涉及一種基于rnaernie預(yù)訓(xùn)練模型的rnan4-乙酰胞苷修飾位點(diǎn)預(yù)測(cè)方法及系統(tǒng)。
背景技術(shù):
1、迄今為止,在rna中已經(jīng)發(fā)現(xiàn)了超過170種修飾的核苷。rna的轉(zhuǎn)錄后化學(xué)修飾,統(tǒng)稱為“表轉(zhuǎn)錄組”,對(duì)基因表達(dá)和細(xì)胞過程具有實(shí)質(zhì)性影響,在分子相互作用和分子間關(guān)系中起著重要作用。n4-乙酰胞苷(ac4c)是由酶nat10催化的常見類型,在胞苷堿基的第四位的氮上添加乙?;?。最初在真核生物和原核生物的trna和rrna中發(fā)現(xiàn)了ac4c,目前的研究還確定了ac4c存在于人類mrna中,它可以提高翻譯效率,增強(qiáng)mrna穩(wěn)定性,并調(diào)節(jié)基因表達(dá)。此外,越來越多的證據(jù)表明,ac4c與多種人類疾病有關(guān),包括炎癥、代謝紊亂、自身免疫性疾病和癌癥等??傊?,ac4c修飾作為rna的關(guān)鍵轉(zhuǎn)錄后修飾,在細(xì)胞功能和疾病過程中發(fā)揮重要作用。探討rna-ac4c修飾位點(diǎn)的功能和機(jī)制對(duì)于闡明其生物學(xué)意義和推進(jìn)相關(guān)疾病的治療策略至關(guān)重要。
2、傳統(tǒng)的rna-ac4c修飾位點(diǎn)探測(cè)包括生物實(shí)驗(yàn)方法、高通量測(cè)序技術(shù)、計(jì)算機(jī)輔助分析方法。其中,傳統(tǒng)的生物實(shí)驗(yàn)方法,是檢測(cè)rna中ac4c修飾的傳統(tǒng)方法主要包括化學(xué)分析和免疫檢測(cè),在實(shí)驗(yàn)室中廣泛使用,具有較高的靈敏度和特異性,適合對(duì)特定修飾進(jìn)行定性和定量分析;高通量測(cè)序技術(shù)近年來被廣泛用于ac4c修飾的全基因組水平檢測(cè),其中以merip-seq(mrna免疫共沉淀測(cè)序)為代表,該技術(shù)通過富集rna樣本中的修飾位點(diǎn),再進(jìn)行測(cè)序分析,能夠?qū)θ蚪M范圍內(nèi)的ac4c修飾進(jìn)行大規(guī)模探索和分析;計(jì)算機(jī)輔助分析方法,是生物信息學(xué)工具基于機(jī)器學(xué)習(xí)算法,通過分析rna序列、結(jié)構(gòu)、進(jìn)化保守性等特征,構(gòu)建預(yù)測(cè)模型,幫助研究人員快速識(shí)別潛在的ac4c修飾位點(diǎn)。
3、然而,傳統(tǒng)的rna-ac4c修飾位點(diǎn)探測(cè)中,生物實(shí)驗(yàn)方法大多數(shù)濕實(shí)驗(yàn)既昂貴又耗時(shí),檢測(cè)成本高昂,操作復(fù)雜,靈敏度和特異性較低;高通量測(cè)序技術(shù)往往依賴抗體富集,分辨率較低,且檢測(cè)精度受限于抗體質(zhì)量和背景噪聲;計(jì)算機(jī)輔助分析方法嚴(yán)重依賴于傳統(tǒng)的特征編碼技術(shù),需要復(fù)雜的特征工程步驟,缺乏對(duì)上下文語義關(guān)系的綜合理解。因此,傳統(tǒng)的rna-ac4c修飾位點(diǎn)探測(cè)方法往往存在成本高、信息挖掘不夠充分,導(dǎo)致rna-ac4c修飾位點(diǎn)探測(cè)的準(zhǔn)確率較低的問題。
技術(shù)實(shí)現(xiàn)思路
1、基于此,為了解決上述技術(shù)問題,提供一種基于rnaernie預(yù)訓(xùn)練模型的rnan4-乙酰胞苷修飾位點(diǎn)預(yù)測(cè)方法及系統(tǒng),可以快速、低成本、且提高模型的rnan4-乙酰胞苷修飾位點(diǎn)修飾位點(diǎn)探測(cè)準(zhǔn)確率。
2、一種基于rnaernie預(yù)訓(xùn)練模型的rnan4-乙酰胞苷修飾位點(diǎn)預(yù)測(cè)方法,所述方法包括:
3、采集rna序列數(shù)據(jù)集;所述rna序列數(shù)據(jù)集中包含有陽性和陰性樣本;
4、將所述rna序列數(shù)據(jù)集中的每條rna序列分別輸入至rnaernie預(yù)訓(xùn)練模型中進(jìn)行多級(jí)掩碼,捕捉上下文依賴關(guān)系并提取出全局特征;并將所述rnaernie預(yù)訓(xùn)練模型結(jié)合六種傳統(tǒng)特征編碼方法對(duì)各個(gè)所述rna序列進(jìn)行特征編碼,得到編碼后的高維特征;
5、將所述編碼后的高維特征輸入至深度神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行特征降維,得到降維后的特征;
6、將所述降維后的特征輸入至軟投票集成模型中,通過所述軟投票集成模型集成不同分類器的預(yù)測(cè)結(jié)果,得到rnan4-乙酰胞苷修飾位點(diǎn)預(yù)測(cè)結(jié)果;
7、其中,所述軟投票集成模型由xgboost、mlp、catboost分類器構(gòu)建而成。
8、在其中一個(gè)實(shí)施例中,所述方法還包括:
9、確定評(píng)估指標(biāo),并根據(jù)所述評(píng)估指標(biāo)使用十折交叉驗(yàn)證方式對(duì)所述軟投票集成模型進(jìn)行性能評(píng)估,得到評(píng)估結(jié)果;
10、其中,所述評(píng)估指標(biāo)包括靈敏性、特異性、準(zhǔn)確性、馬修斯相關(guān)系數(shù)、曲線下面積。
11、在其中一個(gè)實(shí)施例中,所述方法還包括:
12、展示用戶交互界面,并通過所述用戶交互界面獲取待預(yù)測(cè)rna序列;
13、將所述待預(yù)測(cè)rna序列輸入至所述軟投票集成模型中,輸出與所述待預(yù)測(cè)rna序列對(duì)應(yīng)的rnan4-乙酰胞苷修飾位點(diǎn)預(yù)測(cè)結(jié)果;
14、在所述用戶交互界面中展示與所述待預(yù)測(cè)rna序列對(duì)應(yīng)的rnan4-乙酰胞苷修飾位點(diǎn)預(yù)測(cè)結(jié)果。
15、在其中一個(gè)實(shí)施例中,采集rna序列數(shù)據(jù)集之后,所述方法還包括:
16、確定數(shù)據(jù)集劃分比例;
17、基于所述數(shù)據(jù)集劃分比例,將所述rna序列數(shù)據(jù)集進(jìn)行分層抽樣處理,得到劃分后的訓(xùn)練數(shù)據(jù)集、測(cè)試數(shù)據(jù)集。
18、在其中一個(gè)實(shí)施例中,所述rnaernie預(yù)訓(xùn)練模型建立在通過知識(shí)集成增強(qiáng)表示框架的基礎(chǔ)上,且結(jié)合transformer層和多頭自注意機(jī)制;其中:
19、將所述rna序列數(shù)據(jù)集中的每條rna序列分別輸入至rnaernie預(yù)訓(xùn)練模型中,基于所述多頭自注意機(jī)制,通過每個(gè)注意力頭部計(jì)算各個(gè)所述rna序列對(duì)應(yīng)的注意力分?jǐn)?shù);
20、將得到的各個(gè)所述注意力分?jǐn)?shù)進(jìn)行連接,對(duì)各個(gè)所述rna序列通過線性變換矩陣被映射到查詢、鍵和值矩陣。
21、在其中一個(gè)實(shí)施例中,將所述rna序列數(shù)據(jù)集中的每條rna序列分別輸入至rnaernie預(yù)訓(xùn)練模型中進(jìn)行多級(jí)掩碼,包括:
22、所述rnaernie預(yù)訓(xùn)練模型采用基序級(jí)掩蔽、子序列級(jí)掩蔽、基序級(jí)隨機(jī)掩蔽策略,結(jié)合粗粒類型的rna作為詞匯標(biāo)記;
23、所述rnaernie預(yù)訓(xùn)練模型將所述詞匯標(biāo)記附加到各個(gè)所述rna序列的最后一段,增強(qiáng)rna序列表示。
24、在其中一個(gè)實(shí)施例中,將所述高維特征輸入至深度神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行特征降維,得到降維后的特征,包括:
25、將所述編碼后的高維特征輸入至深度神經(jīng)網(wǎng)絡(luò)模型中,通過所述深度神經(jīng)網(wǎng)絡(luò)模型的多層非線性映射,將所述高維特征從高維空間映射到低維空間,得到降維后的特征。
26、在其中一個(gè)實(shí)施例中,通過所述軟投票集成模型集成不同分類器的預(yù)測(cè)結(jié)果,得到rnan4-乙酰胞苷修飾位點(diǎn)預(yù)測(cè)結(jié)果,包括:
27、通過所述軟投票集成模型確定所有分類器的預(yù)測(cè)概率;
28、對(duì)各個(gè)所述預(yù)測(cè)概率進(jìn)行加權(quán)平均計(jì)算,得到加權(quán)平均概率的最大值;
29、將所述最大值作為rnan4-乙酰胞苷修飾位點(diǎn)預(yù)測(cè)結(jié)果。
30、一種基于rnaernie預(yù)訓(xùn)練模型的rnan4-乙酰胞苷修飾位點(diǎn)預(yù)測(cè)系統(tǒng),所述系統(tǒng)包括:
31、數(shù)據(jù)集采集模塊,用于采集rna序列數(shù)據(jù)集;所述rna序列數(shù)據(jù)集中包含有陽性和陰性樣本;
32、特征編碼模塊,用于將所述rna序列數(shù)據(jù)集中的每條rna序列分別輸入至rnaernie預(yù)訓(xùn)練模型中進(jìn)行多級(jí)掩碼,捕捉上下文依賴關(guān)系并提取出全局特征;并將所述rnaernie預(yù)訓(xùn)練模型結(jié)合六種傳統(tǒng)特征編碼方法對(duì)各個(gè)所述rna序列進(jìn)行特征編碼,得到編碼后的高維特征;
33、特征降維模塊,用于從所述編碼后的高維特征輸入至深度神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行特征降維,得到降維后的特征;
34、結(jié)果預(yù)測(cè)模塊,用于將所述降維后的特征輸入至軟投票集成模型中,通過所述軟投票集成模型集成不同分類器的預(yù)測(cè)結(jié)果,得到rnan4-乙酰胞苷修飾位點(diǎn)預(yù)測(cè)結(jié)果;
35、其中,所述軟投票集成模型由xgboost、mlp、catboost分類器構(gòu)建而成。
36、上述基于rnaernie預(yù)訓(xùn)練模型的rnan4-乙酰胞苷修飾位點(diǎn)預(yù)測(cè)方法及系統(tǒng),通過rnaernie預(yù)訓(xùn)練模型進(jìn)行多級(jí)掩碼,能夠精準(zhǔn)捕捉上下文依賴關(guān)系并提取全局特征,捕捉到更全面的rna序列信息,結(jié)合六種傳統(tǒng)特征編碼方式可以捕捉到序列的細(xì)節(jié)和物理化學(xué)屬性;利用深度神經(jīng)網(wǎng)絡(luò)自動(dòng)進(jìn)行特征降維,通過自動(dòng)學(xué)習(xí)和篩選最具相關(guān)性的特征,減少了計(jì)算復(fù)雜度并保留了關(guān)鍵信息;將降維后的特征輸入軟投票集成模型,通過集成多個(gè)分類器得到最終預(yù)測(cè)結(jié)果,顯著提升了預(yù)測(cè)的準(zhǔn)確性和魯棒性,可以快速、低成本、且提高模型的rnan4-乙酰胞苷修飾位點(diǎn)探測(cè)準(zhǔn)確率。