本發(fā)明涉及生物信息學(xué),具體地說是一種基于圖神經(jīng)網(wǎng)絡(luò)的環(huán)狀rna對(duì)疾病的預(yù)測(cè)方法。
背景技術(shù):
1、環(huán)狀rna(circrna)在幾十年前被發(fā)現(xiàn),但卻沒有受到重視,隨著技術(shù)的不斷進(jìn)步,通過高通量測(cè)序和生物信息學(xué)分析發(fā)現(xiàn)circrna與癌癥有著緊密的聯(lián)系,并且被認(rèn)為是各種癌癥的中的調(diào)節(jié)劑之一,circrna能夠通過直接或間接影響細(xì)胞周期調(diào)節(jié)劑或相關(guān)信號(hào)通路,從而在癌癥進(jìn)展中發(fā)揮抑制或促進(jìn)的作用,同時(shí)其在調(diào)節(jié)癌細(xì)胞增殖和轉(zhuǎn)移中也起到了重要的作用,circrna是癌癥治療中有吸引力的治療靶點(diǎn),具有前瞻性的診斷和預(yù)后價(jià)值。
2、比如經(jīng)過研究證實(shí)的hsa_circ_0001320雖然在肺癌細(xì)胞中不表達(dá),但其會(huì)在治療后表達(dá),并在藥物的聯(lián)合治療中會(huì)增加其表達(dá)水平,hsa_circ_0002762已被確定為宮頸癌的重要調(diào)節(jié)劑,術(shù)后的動(dòng)態(tài)監(jiān)測(cè)揭示了其預(yù)測(cè)臨床預(yù)后具有實(shí)際效用。circcspp1發(fā)現(xiàn)與胃癌是密切相關(guān)的,在區(qū)分胃癌患者和健康提供方面具有較高的敏感性和特異性。circlifr可以通過timp2軸延緩甲狀腺狀癌的進(jìn)展,抑制體內(nèi)腫瘤的生長(zhǎng)。
3、通常,生物技術(shù)如clip-seq、高通量測(cè)序和免疫沉淀等被用于鑒定。然而,它們通常耗時(shí)且勞動(dòng)密集,使得在大規(guī)模上篩選cdas變得困難。相比之下,計(jì)算方法并不受這些限制的約束,并且已經(jīng)引起了極大的關(guān)注。作為一種大規(guī)模篩選cdas的有效解決方案,計(jì)算方法有助于確定cda候選者的優(yōu)先順序以及隨后的實(shí)驗(yàn)證實(shí)。
4、近年來,許多用于預(yù)測(cè)circrna賀疾病關(guān)聯(lián)的計(jì)算方法被提出。比如niu等人提出了gmnn2cd模型,該模型使用了圖馬爾可夫神經(jīng)網(wǎng)絡(luò)(gmnn)以及變分推理,計(jì)算了高斯以及疾病相似性網(wǎng)絡(luò)作為原始特征輸入,通過馬爾可夫神經(jīng)網(wǎng)絡(luò)將標(biāo)簽間的相關(guān)關(guān)系融合進(jìn)學(xué)習(xí)過程,再通過變分推理來優(yōu)化模型傳播過程中的參數(shù)。deng等人提出了katzcpda模型,其綜合了不同的生物學(xué)數(shù)據(jù)來構(gòu)建了一個(gè)異構(gòu)網(wǎng)絡(luò),將計(jì)算出的各種相似矩陣進(jìn)行聚合,然后使用katz來計(jì)算circrna-disease關(guān)聯(lián)對(duì)的親和力的得分,ge等人提出了llcdc模型,他們?cè)赾ircrna疾病矩陣、circrna相似性矩陣和疾病相似性矩陣上使用局部約束線性編碼(llc)來獲得重建的circrna和疾病的相似性矩陣。然后,將lp方法分別用于circrna和疾病的相似性矩陣和重構(gòu)相似性矩陣,得到四個(gè)親和性得分矩陣。然后,將四個(gè)親和矩陣進(jìn)行積分,形成最終的預(yù)測(cè)矩陣。li等人提出了bi-sgtar模型,該模型將關(guān)聯(lián)矩陣進(jìn)行雙視圖拆分為circrna視圖和疾病視圖,使用稀疏質(zhì)量控制(sqc)模塊來抑制不可靠的關(guān)聯(lián),再使用真實(shí)關(guān)聯(lián)回歸(tar)模塊建立真實(shí)關(guān)聯(lián)概率,量化關(guān)聯(lián)的真實(shí)性,最后整合倆個(gè)視圖的可靠和真實(shí)關(guān)聯(lián)。又比如使用深度學(xué)習(xí)的方法,peng等人提出了gatcl2cd模型,其首先計(jì)算了四種相似性網(wǎng)絡(luò)來構(gòu)建了一個(gè)基于circrna,disease,以及circrna-disease的異構(gòu)圖,再使用多頭注意力機(jī)制以及不同大小的卷積網(wǎng)絡(luò)(cnn)從異構(gòu)圖中提取高階節(jié)點(diǎn)的高級(jí)特征表示,最后接入多層感知器神經(jīng)網(wǎng)絡(luò)(mlp)進(jìn)行預(yù)測(cè)分類。liu等人提出了rdgan模型,該模型首先構(gòu)建了四個(gè)相似矩陣,利用阻力距離來從相似矩陣中進(jìn)行特征提取,后引用了gat,mfconv以及resgatedgraphconv三個(gè)模塊來學(xué)習(xí)關(guān)聯(lián)對(duì)的特征表示,最后通過線性回歸來預(yù)測(cè)關(guān)聯(lián)。
5、盡管現(xiàn)有方法已經(jīng)在cda的領(lǐng)域取得了一些成果,但還是有倆個(gè)局限性,總是會(huì)忽略原始輸入樣本特征的重要信息以及高階特征提取,或者是少了不同樣本特征之間的潛在信息關(guān)聯(lián),就算有了交互特征的提取過程可能也僅限于同構(gòu)網(wǎng)絡(luò)之間,忽略了異構(gòu)網(wǎng)絡(luò)之間的信息聚合過程。所以還是有很大的提升空間。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明旨在克服上述現(xiàn)有技術(shù)的不足,提出一種基于圖神經(jīng)網(wǎng)絡(luò)的環(huán)狀rna預(yù)測(cè)疾病的方法,以解決現(xiàn)有技術(shù)中的問題。收集原始數(shù)據(jù),計(jì)算機(jī)相似矩陣,構(gòu)建雙通道網(wǎng)絡(luò)架構(gòu),并根據(jù)評(píng)估指標(biāo)選取最好的模型。
2、本發(fā)明的詳細(xì)技術(shù)方案如下:
3、一種基于圖神經(jīng)網(wǎng)絡(luò)的環(huán)狀rna預(yù)測(cè)疾病的方法,包括以下步驟:
4、步驟一:獲取開源環(huán)狀rna(circrna)和疾病的關(guān)聯(lián)數(shù)據(jù)庫中的原始數(shù)據(jù),對(duì)原始數(shù)據(jù)集進(jìn)行篩選,只保留人類的疾病信息,接著構(gòu)造初始稀疏矩陣。
5、步驟二:于初始稀疏矩陣來構(gòu)造多種相似度矩陣,分別是疾病語義相似矩陣,功能相似矩陣,高斯相似矩陣,杰卡德相似矩陣,余弦相似矩陣,并將上述相似矩陣進(jìn)行堆疊組合作為模型輸入的初始特征。
6、步驟三:搭建雙通道模型進(jìn)行訓(xùn)練,通道一由雙注意力機(jī)制構(gòu)成進(jìn)行高階特征提取,通道二先通過度分割將樣本分堆,其次由wave模塊來聚合不同樣本之間的潛在關(guān)聯(lián)信息,接著進(jìn)入通道融合模塊整合來自倆通道的信息用以最后的輸出。
7、步驟四:為了實(shí)驗(yàn)更完整,使用5個(gè)評(píng)估指標(biāo)來量化所得的結(jié)果,分別是準(zhǔn)確性(accuracy),f1分?jǐn)?shù)(f1),馬修斯相關(guān)系數(shù)(mcc),精確召回曲線下面積(aupr),受試者工作特性曲線下面積(auc)。并使用五折交叉驗(yàn)證的方法找到最好的模型,將五輪的結(jié)果取平均。
8、優(yōu)選地,在步驟一中,將開源數(shù)據(jù)庫中的環(huán)狀rna和疾病的關(guān)聯(lián)取出并去掉重復(fù)關(guān)聯(lián),刪除老鼠等動(dòng)物信息,只保留人類的部分,然后構(gòu)造初始矩陣,矩陣橫坐標(biāo)為疾病的名稱,縱坐標(biāo)為環(huán)狀rna的名稱,如果雙方有關(guān)聯(lián),矩陣中為1否則為0。
9、優(yōu)選地,在步驟二中,所述通過初始矩陣等信息來計(jì)算多個(gè)相似矩陣,從醫(yī)學(xué)圖書館中下載了醫(yī)學(xué)主題(mesh)描述。里面包含了不同疾病的語義信息以此來計(jì)算疾病語義相似矩陣,接著使用高斯普核相似計(jì)算獲得環(huán)狀rna和疾病的高斯相似矩陣,基于疾病語義相似矩陣和初始稀疏矩陣計(jì)算獲得環(huán)狀rna功能相似矩陣,根據(jù)杰卡德相似性以及余弦相似性獲取剩余相似矩陣。
10、優(yōu)選地,在步驟二中,所述相似矩陣堆疊是指將環(huán)狀rna和疾病的相似矩陣進(jìn)行列拼接操作,通過列拼接將8個(gè)相似矩陣合并為4個(gè)矩陣,最后將列拼接的rna功能相似度矩陣和疾病語義相似度矩陣作為通道二的輸入特征,其余拼接矩陣作為通道一的輸入特征。
11、優(yōu)選地,在步驟三中,所述通道一中的雙注意力機(jī)制是指通道注意力和空間注意力,通道注意力可以更好的讀取堆疊起來的輸入矩陣,自主的分配每個(gè)通道的重要程度,空間注意力可以去除特征中的冗余信息,加強(qiáng)主要特征表達(dá),弱化邊緣特征。
12、優(yōu)選地,在步驟三中,所述度分割是指一個(gè)圖中節(jié)點(diǎn)的度代表了此點(diǎn)的活躍性,將不同的樣本以不同的活躍性分塊,也就是將信息相近的樣本聚在一起。
13、優(yōu)選地,在步驟三中,所述wave模塊是在傳統(tǒng)的mlp架構(gòu)上提出了新的補(bǔ)丁融合方法,將補(bǔ)丁融合過程改為動(dòng)態(tài)融合,結(jié)合各種補(bǔ)丁的語義信息,并獲取關(guān)聯(lián)信息。
14、優(yōu)選地,在步驟三中,所述融合模塊是指將倆通道輸出的矩陣進(jìn)行堆疊,然后送入空洞卷積中,以擴(kuò)大感受野并減少過擬合的風(fēng)險(xiǎn)。
15、優(yōu)選地,在步驟四中,所述五折交叉是指在將倆個(gè)數(shù)據(jù)集隨機(jī)分成5個(gè)數(shù)量相等的部分,其中四部分會(huì)當(dāng)作訓(xùn)練集進(jìn)入模型訓(xùn)練,剩下一部分會(huì)用作測(cè)試,5個(gè)部分會(huì)輪流用于訓(xùn)練和測(cè)試??梢苑乐惯^擬合等風(fēng)險(xiǎn)
16、優(yōu)選地,在步驟四中,所述五種評(píng)估指標(biāo)可以更準(zhǔn)確的展示各個(gè)模型的性能,并選出其中最優(yōu)的模型。
17、與現(xiàn)有技術(shù)比較,本發(fā)明具有如下有益效果:
18、1)本發(fā)明針對(duì)環(huán)狀rna與疾病關(guān)聯(lián)的原始數(shù)據(jù),構(gòu)建了鄰接矩陣,同時(shí)計(jì)算了多種相似矩陣作為特征。緩解了在rna與疾病關(guān)聯(lián)原始數(shù)據(jù)信息不豐富的問題。
19、2)本發(fā)明構(gòu)建的雙通道網(wǎng)絡(luò)模型,既可以通過通道一中的雙注意力機(jī)制來原始相似網(wǎng)絡(luò)進(jìn)行高階特征提取并保留重要信息,又可以通過通道二中的wave模塊融合不由相似網(wǎng)絡(luò)所組成的不同樣本特征之間的潛在信息關(guān)聯(lián),在推理速度和準(zhǔn)確性上都占有優(yōu)勢(shì)。
20、3)本研究在模型的推理下,解決了生物技術(shù)如clip-seq、高通量測(cè)序和免疫沉淀等方法耗時(shí)且勞動(dòng)密集的問題,并使得在大規(guī)模篩選環(huán)狀rna和疾病關(guān)聯(lián)上更快,更準(zhǔn)確。