两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于RNAErnie預(yù)訓(xùn)練模型的RNAN4-乙酰胞苷修飾位點(diǎn)預(yù)測(cè)方法及系統(tǒng)

文檔序號(hào):40613045發(fā)布日期:2025-01-07 20:59閱讀:17來源:國(guó)知局
基于RNAErnie預(yù)訓(xùn)練模型的RNA N4-乙酰胞苷修飾位點(diǎn)預(yù)測(cè)方法及系統(tǒng)

本發(fā)明涉及生物信息,特別是涉及一種基于rnaernie預(yù)訓(xùn)練模型的rnan4-乙酰胞苷修飾位點(diǎn)預(yù)測(cè)方法及系統(tǒng)。


背景技術(shù):

1、迄今為止,在rna中已經(jīng)發(fā)現(xiàn)了超過170種修飾的核苷。rna的轉(zhuǎn)錄后化學(xué)修飾,統(tǒng)稱為“表轉(zhuǎn)錄組”,對(duì)基因表達(dá)和細(xì)胞過程具有實(shí)質(zhì)性影響,在分子相互作用和分子間關(guān)系中起著重要作用。n4-乙酰胞苷(ac4c)是由酶nat10催化的常見類型,在胞苷堿基的第四位的氮上添加乙?;?。最初在真核生物和原核生物的trna和rrna中發(fā)現(xiàn)了ac4c,目前的研究還確定了ac4c存在于人類mrna中,它可以提高翻譯效率,增強(qiáng)mrna穩(wěn)定性,并調(diào)節(jié)基因表達(dá)。此外,越來越多的證據(jù)表明,ac4c與多種人類疾病有關(guān),包括炎癥、代謝紊亂、自身免疫性疾病和癌癥等??傊?,ac4c修飾作為rna的關(guān)鍵轉(zhuǎn)錄后修飾,在細(xì)胞功能和疾病過程中發(fā)揮重要作用。探討rna-ac4c修飾位點(diǎn)的功能和機(jī)制對(duì)于闡明其生物學(xué)意義和推進(jìn)相關(guān)疾病的治療策略至關(guān)重要。

2、傳統(tǒng)的rna-ac4c修飾位點(diǎn)探測(cè)包括生物實(shí)驗(yàn)方法、高通量測(cè)序技術(shù)、計(jì)算機(jī)輔助分析方法。其中,傳統(tǒng)的生物實(shí)驗(yàn)方法,是檢測(cè)rna中ac4c修飾的傳統(tǒng)方法主要包括化學(xué)分析和免疫檢測(cè),在實(shí)驗(yàn)室中廣泛使用,具有較高的靈敏度和特異性,適合對(duì)特定修飾進(jìn)行定性和定量分析;高通量測(cè)序技術(shù)近年來被廣泛用于ac4c修飾的全基因組水平檢測(cè),其中以merip-seq(mrna免疫共沉淀測(cè)序)為代表,該技術(shù)通過富集rna樣本中的修飾位點(diǎn),再進(jìn)行測(cè)序分析,能夠?qū)θ蚪M范圍內(nèi)的ac4c修飾進(jìn)行大規(guī)模探索和分析;計(jì)算機(jī)輔助分析方法,是生物信息學(xué)工具基于機(jī)器學(xué)習(xí)算法,通過分析rna序列、結(jié)構(gòu)、進(jìn)化保守性等特征,構(gòu)建預(yù)測(cè)模型,幫助研究人員快速識(shí)別潛在的ac4c修飾位點(diǎn)。

3、然而,傳統(tǒng)的rna-ac4c修飾位點(diǎn)探測(cè)中,生物實(shí)驗(yàn)方法大多數(shù)濕實(shí)驗(yàn)既昂貴又耗時(shí),檢測(cè)成本高昂,操作復(fù)雜,靈敏度和特異性較低;高通量測(cè)序技術(shù)往往依賴抗體富集,分辨率較低,且檢測(cè)精度受限于抗體質(zhì)量和背景噪聲;計(jì)算機(jī)輔助分析方法嚴(yán)重依賴于傳統(tǒng)的特征編碼技術(shù),需要復(fù)雜的特征工程步驟,缺乏對(duì)上下文語義關(guān)系的綜合理解。因此,傳統(tǒng)的rna-ac4c修飾位點(diǎn)探測(cè)方法往往存在成本高、信息挖掘不夠充分,導(dǎo)致rna-ac4c修飾位點(diǎn)探測(cè)的準(zhǔn)確率較低的問題。


技術(shù)實(shí)現(xiàn)思路

1、基于此,為了解決上述技術(shù)問題,提供一種基于rnaernie預(yù)訓(xùn)練模型的rnan4-乙酰胞苷修飾位點(diǎn)預(yù)測(cè)方法及系統(tǒng),可以快速、低成本、且提高模型的rnan4-乙酰胞苷修飾位點(diǎn)修飾位點(diǎn)探測(cè)準(zhǔn)確率。

2、一種基于rnaernie預(yù)訓(xùn)練模型的rnan4-乙酰胞苷修飾位點(diǎn)預(yù)測(cè)方法,所述方法包括:

3、采集rna序列數(shù)據(jù)集;所述rna序列數(shù)據(jù)集中包含有陽性和陰性樣本;

4、將所述rna序列數(shù)據(jù)集中的每條rna序列分別輸入至rnaernie預(yù)訓(xùn)練模型中進(jìn)行多級(jí)掩碼,捕捉上下文依賴關(guān)系并提取出全局特征;并將所述rnaernie預(yù)訓(xùn)練模型結(jié)合六種傳統(tǒng)特征編碼方法對(duì)各個(gè)所述rna序列進(jìn)行特征編碼,得到編碼后的高維特征;

5、將所述編碼后的高維特征輸入至深度神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行特征降維,得到降維后的特征;

6、將所述降維后的特征輸入至軟投票集成模型中,通過所述軟投票集成模型集成不同分類器的預(yù)測(cè)結(jié)果,得到rnan4-乙酰胞苷修飾位點(diǎn)預(yù)測(cè)結(jié)果;

7、其中,所述軟投票集成模型由xgboost、mlp、catboost分類器構(gòu)建而成。

8、在其中一個(gè)實(shí)施例中,所述方法還包括:

9、確定評(píng)估指標(biāo),并根據(jù)所述評(píng)估指標(biāo)使用十折交叉驗(yàn)證方式對(duì)所述軟投票集成模型進(jìn)行性能評(píng)估,得到評(píng)估結(jié)果;

10、其中,所述評(píng)估指標(biāo)包括靈敏性、特異性、準(zhǔn)確性、馬修斯相關(guān)系數(shù)、曲線下面積。

11、在其中一個(gè)實(shí)施例中,所述方法還包括:

12、展示用戶交互界面,并通過所述用戶交互界面獲取待預(yù)測(cè)rna序列;

13、將所述待預(yù)測(cè)rna序列輸入至所述軟投票集成模型中,輸出與所述待預(yù)測(cè)rna序列對(duì)應(yīng)的rnan4-乙酰胞苷修飾位點(diǎn)預(yù)測(cè)結(jié)果;

14、在所述用戶交互界面中展示與所述待預(yù)測(cè)rna序列對(duì)應(yīng)的rnan4-乙酰胞苷修飾位點(diǎn)預(yù)測(cè)結(jié)果。

15、在其中一個(gè)實(shí)施例中,采集rna序列數(shù)據(jù)集之后,所述方法還包括:

16、確定數(shù)據(jù)集劃分比例;

17、基于所述數(shù)據(jù)集劃分比例,將所述rna序列數(shù)據(jù)集進(jìn)行分層抽樣處理,得到劃分后的訓(xùn)練數(shù)據(jù)集、測(cè)試數(shù)據(jù)集。

18、在其中一個(gè)實(shí)施例中,所述rnaernie預(yù)訓(xùn)練模型建立在通過知識(shí)集成增強(qiáng)表示框架的基礎(chǔ)上,且結(jié)合transformer層和多頭自注意機(jī)制;其中:

19、將所述rna序列數(shù)據(jù)集中的每條rna序列分別輸入至rnaernie預(yù)訓(xùn)練模型中,基于所述多頭自注意機(jī)制,通過每個(gè)注意力頭部計(jì)算各個(gè)所述rna序列對(duì)應(yīng)的注意力分?jǐn)?shù);

20、將得到的各個(gè)所述注意力分?jǐn)?shù)進(jìn)行連接,對(duì)各個(gè)所述rna序列通過線性變換矩陣被映射到查詢、鍵和值矩陣。

21、在其中一個(gè)實(shí)施例中,將所述rna序列數(shù)據(jù)集中的每條rna序列分別輸入至rnaernie預(yù)訓(xùn)練模型中進(jìn)行多級(jí)掩碼,包括:

22、所述rnaernie預(yù)訓(xùn)練模型采用基序級(jí)掩蔽、子序列級(jí)掩蔽、基序級(jí)隨機(jī)掩蔽策略,結(jié)合粗粒類型的rna作為詞匯標(biāo)記;

23、所述rnaernie預(yù)訓(xùn)練模型將所述詞匯標(biāo)記附加到各個(gè)所述rna序列的最后一段,增強(qiáng)rna序列表示。

24、在其中一個(gè)實(shí)施例中,將所述高維特征輸入至深度神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行特征降維,得到降維后的特征,包括:

25、將所述編碼后的高維特征輸入至深度神經(jīng)網(wǎng)絡(luò)模型中,通過所述深度神經(jīng)網(wǎng)絡(luò)模型的多層非線性映射,將所述高維特征從高維空間映射到低維空間,得到降維后的特征。

26、在其中一個(gè)實(shí)施例中,通過所述軟投票集成模型集成不同分類器的預(yù)測(cè)結(jié)果,得到rnan4-乙酰胞苷修飾位點(diǎn)預(yù)測(cè)結(jié)果,包括:

27、通過所述軟投票集成模型確定所有分類器的預(yù)測(cè)概率;

28、對(duì)各個(gè)所述預(yù)測(cè)概率進(jìn)行加權(quán)平均計(jì)算,得到加權(quán)平均概率的最大值;

29、將所述最大值作為rnan4-乙酰胞苷修飾位點(diǎn)預(yù)測(cè)結(jié)果。

30、一種基于rnaernie預(yù)訓(xùn)練模型的rnan4-乙酰胞苷修飾位點(diǎn)預(yù)測(cè)系統(tǒng),所述系統(tǒng)包括:

31、數(shù)據(jù)集采集模塊,用于采集rna序列數(shù)據(jù)集;所述rna序列數(shù)據(jù)集中包含有陽性和陰性樣本;

32、特征編碼模塊,用于將所述rna序列數(shù)據(jù)集中的每條rna序列分別輸入至rnaernie預(yù)訓(xùn)練模型中進(jìn)行多級(jí)掩碼,捕捉上下文依賴關(guān)系并提取出全局特征;并將所述rnaernie預(yù)訓(xùn)練模型結(jié)合六種傳統(tǒng)特征編碼方法對(duì)各個(gè)所述rna序列進(jìn)行特征編碼,得到編碼后的高維特征;

33、特征降維模塊,用于從所述編碼后的高維特征輸入至深度神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行特征降維,得到降維后的特征;

34、結(jié)果預(yù)測(cè)模塊,用于將所述降維后的特征輸入至軟投票集成模型中,通過所述軟投票集成模型集成不同分類器的預(yù)測(cè)結(jié)果,得到rnan4-乙酰胞苷修飾位點(diǎn)預(yù)測(cè)結(jié)果;

35、其中,所述軟投票集成模型由xgboost、mlp、catboost分類器構(gòu)建而成。

36、上述基于rnaernie預(yù)訓(xùn)練模型的rnan4-乙酰胞苷修飾位點(diǎn)預(yù)測(cè)方法及系統(tǒng),通過rnaernie預(yù)訓(xùn)練模型進(jìn)行多級(jí)掩碼,能夠精準(zhǔn)捕捉上下文依賴關(guān)系并提取全局特征,捕捉到更全面的rna序列信息,結(jié)合六種傳統(tǒng)特征編碼方式可以捕捉到序列的細(xì)節(jié)和物理化學(xué)屬性;利用深度神經(jīng)網(wǎng)絡(luò)自動(dòng)進(jìn)行特征降維,通過自動(dòng)學(xué)習(xí)和篩選最具相關(guān)性的特征,減少了計(jì)算復(fù)雜度并保留了關(guān)鍵信息;將降維后的特征輸入軟投票集成模型,通過集成多個(gè)分類器得到最終預(yù)測(cè)結(jié)果,顯著提升了預(yù)測(cè)的準(zhǔn)確性和魯棒性,可以快速、低成本、且提高模型的rnan4-乙酰胞苷修飾位點(diǎn)探測(cè)準(zhǔn)確率。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
蚌埠市| 五指山市| 四子王旗| 霍城县| 石景山区| 大姚县| 乐昌市| 西宁市| 和林格尔县| 南充市| 南安市| 辰溪县| 独山县| 穆棱市| 扶风县| 太白县| 南丹县| 嵩明县| 文安县| 日土县| 万荣县| 绥化市| 锦屏县| 新竹县| 社旗县| 读书| 东乌珠穆沁旗| 麻城市| 上犹县| 潼关县| 吉安市| 无极县| 永福县| 唐海县| 宁远县| 河曲县| 开阳县| 民丰县| 濮阳市| 当涂县| 新巴尔虎右旗|