两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于RNN的基因調(diào)控網(wǎng)絡(luò)構(gòu)建與動態(tài)差異性分析方法與流程

文檔序號:11199787閱讀:1129來源:國知局
基于RNN的基因調(diào)控網(wǎng)絡(luò)構(gòu)建與動態(tài)差異性分析方法與流程

本發(fā)明涉及一種基于rnn的基因調(diào)控網(wǎng)絡(luò)構(gòu)建與動態(tài)差異性分析方法。



背景技術(shù):

基因調(diào)控網(wǎng)絡(luò)的建模與演化分析能夠很好的挖掘基因表達數(shù)據(jù)中的深層信息,是當(dāng)前生物信息學(xué)研究的重要領(lǐng)域和關(guān)鍵問題。二十世紀90年代以來,隨著基因芯片技術(shù)的發(fā)展和二代測序技術(shù)的興起,基因調(diào)控網(wǎng)絡(luò)建模的研究取得了巨大進展。

基因調(diào)控網(wǎng)絡(luò)建模主要根據(jù)基因表達數(shù)據(jù)推理網(wǎng)絡(luò)中的調(diào)控關(guān)系,并表示為拓撲結(jié)構(gòu),屬于依靠數(shù)據(jù)挖掘進行的逆向工程研究。構(gòu)建基因調(diào)控網(wǎng)絡(luò)首先需要確定網(wǎng)絡(luò)模型,然后根據(jù)模型選擇合適的建模算法。經(jīng)典的網(wǎng)絡(luò)模型包括布爾網(wǎng)絡(luò)、關(guān)聯(lián)網(wǎng)絡(luò)、微分方程、貝葉斯網(wǎng)絡(luò)。

(a)布爾網(wǎng)絡(luò)。布爾網(wǎng)絡(luò)對基因狀態(tài)做了相應(yīng)簡化,用布爾函數(shù)代替了微分和導(dǎo)數(shù)描述基因間的相互關(guān)系。該模型的缺點在于不精確性,僅僅通過使用固定的邏輯規(guī)則刻畫和反映基因間相互作用,并不能準確描述真實的基因調(diào)控網(wǎng)絡(luò)拓撲結(jié)構(gòu),而且對基因數(shù)據(jù)進行離散化時不可避免的會造成很多重要的表達信息丟失。kauffman等人最先提出了布爾網(wǎng)絡(luò)的分析框架模型,隨后akusu等人對布爾網(wǎng)絡(luò)在推理過程中的最少樣本數(shù)進行證明。liang等人設(shè)計了reveal算法,在原有的離散化模型上盡可能少的減少信息損失。此外,lyla等人提出了一種新的概率布爾網(wǎng)絡(luò)(pbn),這是對傳統(tǒng)布爾網(wǎng)絡(luò)的拓展,同時量化基因間作用關(guān)系和靈敏度從而解決模型選擇過程中的不確定性,提高了模型的精確性。

(b)關(guān)聯(lián)網(wǎng)絡(luò)。關(guān)聯(lián)網(wǎng)絡(luò)的建模主要通過基因表達數(shù)據(jù)間的關(guān)聯(lián)度實現(xiàn)。通常使用互信息、皮爾森相關(guān)系數(shù)等測度計算基因間的相似度,若基因?qū)﹂g的相似度高于某一閾值,則該基因?qū)υ诰W(wǎng)絡(luò)中直接連通。butte等人首先利用互信息計算所有基因?qū)χg的關(guān)聯(lián)度,然后設(shè)置互信息閾值。后來發(fā)現(xiàn),若基因?qū)﹂g具有相同或相近的調(diào)控機制,則兩個基因的關(guān)聯(lián)度較高,尤其是同一轉(zhuǎn)錄因子的靶基因或同一條生物通路上的基因。margolin等人提出arcane方法,通過信息論構(gòu)建關(guān)聯(lián)網(wǎng)絡(luò),該方法的優(yōu)點是模型的建立簡單易操作,但是構(gòu)建的網(wǎng)絡(luò)存在很多假陽性的邊。為降低所構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu)的假陽性率,得到接近真實拓撲的調(diào)控網(wǎng)絡(luò),一般在計算基因?qū)﹂g的關(guān)聯(lián)度時隔絕其它基因的影響。

(c)貝葉斯網(wǎng)絡(luò)。貝葉斯網(wǎng)絡(luò)(bn)通過局部概率的乘積來近似描述整體網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜概率分布,屬于概率圖模型,將節(jié)點之間的連邊表示為節(jié)點間存在的概率依賴關(guān)系。動態(tài)貝葉斯網(wǎng)絡(luò)(dbn)是對靜態(tài)貝葉斯網(wǎng)絡(luò)模型的擴展,通過引入時間因素形成動態(tài)變化網(wǎng)絡(luò),更加真實地表示隨機系統(tǒng)的動態(tài)性?;蛘{(diào)控網(wǎng)絡(luò)本質(zhì)上是一個復(fù)雜而連續(xù)的動態(tài)網(wǎng)絡(luò)系統(tǒng),所以在具體建模的時候,往往對dbn進行簡化從而降低計算復(fù)雜度。dbn克服了靜態(tài)bn有向無環(huán)的不足,更好地刻畫了基因調(diào)控網(wǎng)絡(luò)的動態(tài)特性,提高了模型的預(yù)測精度。norbert為了能夠從基因擾動型實驗數(shù)據(jù)中學(xué)習(xí)動態(tài)貝葉斯網(wǎng)絡(luò),利用離散化方法來對基因表達數(shù)據(jù)進行預(yù)處理,結(jié)合基因調(diào)控的負反饋與時延因素提出新的數(shù)據(jù)整合模型,利用并行算法加速構(gòu)建基因調(diào)控網(wǎng)絡(luò)。

隨著2006年hinton教授在《科學(xué)》上的一篇文章,深度學(xué)習(xí)拉開帷幕,并在各個領(lǐng)域表現(xiàn)不俗。同時,學(xué)術(shù)界和行業(yè)都強調(diào)了深度學(xué)習(xí)的洞察力在生物信息學(xué)中的應(yīng)用,例如基于深度學(xué)習(xí)的蛋白質(zhì)結(jié)構(gòu)預(yù)測、基因調(diào)控碼學(xué)習(xí)、基因表達預(yù)測、癌癥分類預(yù)測、復(fù)雜疾病分類、多平臺癌癥數(shù)據(jù)綜合分析等。

guillen等人設(shè)計基于多層感知器的深度學(xué)習(xí)算法捕獲基因表達特征進行癌癥分類,表明了神經(jīng)網(wǎng)絡(luò)可以高效率地對不同的樣本進行分類,在最后的預(yù)測結(jié)果中實現(xiàn)了較高精度。bhat等人通過深度生成學(xué)習(xí)檢測癌癥,使用對抗性特征學(xué)習(xí)過程挖掘數(shù)據(jù)特征,然后使用常規(guī)分類器進行分類。最終試驗通過指定適當(dāng)?shù)某瑓?shù),在兩個不同數(shù)據(jù)集上執(zhí)行得相當(dāng)好。danaee等人使用堆疊去噪自動編碼器(sdae)從高維基因表達譜中提取深度功能特征,通過分析sdae連接矩陣確定了一組高度互動的基因用于癌癥生物標(biāo)志物檢測。chira等人使用基因表達值隨時間推移的模式開發(fā)基于形狀的聚類模型,并且進一步結(jié)合基因表達水平與輸出值之間的相關(guān)關(guān)系,考慮共同表達模式與測量輸出的關(guān)系,以指導(dǎo)結(jié)果的生物學(xué)解釋。singh等人提供層疊特征選擇與堆疊稀疏自動編碼器(ssae)從數(shù)據(jù)中學(xué)習(xí)高級特征,每層執(zhí)行特征選擇是一種啟發(fā)式的,可以在每個階段獲得相關(guān)特征,并且在調(diào)整過程中減少計算量,該算法在gemler數(shù)據(jù)庫的36個數(shù)據(jù)集上進行了測試,其中35個數(shù)據(jù)集的效果超越了gemler基準測試結(jié)果。liang等人提出了一種多峰深度信念網(wǎng)絡(luò)(dbn)的新學(xué)習(xí)模型,從多平臺觀測數(shù)據(jù)對癌癥患者進行聚類,并為個性化癌癥治療提供了有效指導(dǎo)。同時應(yīng)用對比度發(fā)散(cd)學(xué)習(xí)算法,以無監(jiān)督的方式推斷多模態(tài)dbn模型參數(shù)。xie等人基于多層感知器和堆疊去噪自動編碼器(mlp-sae)的深度學(xué)習(xí)回歸模型預(yù)測變異基因型的基因表達,其中堆疊去噪自動編碼器用于訓(xùn)練回歸模型以提取有效特征,并利用多層感知器進行反向傳播,同時通過添加dropout防止過擬合。chen等人設(shè)計了一種深度學(xué)習(xí)方法(d-gex),充分捕捉基因表達間的非線性相關(guān)關(guān)系,利用大約1000個標(biāo)記基因推斷剩余的靶基因表達,旨在降低基因表達譜測定成本。



技術(shù)實現(xiàn)要素:

為了克服已有基因調(diào)控網(wǎng)絡(luò)建模及差異性分析方法的精確性較差的不足,本發(fā)明提供一種精確性較好的基于rnn的基因調(diào)控網(wǎng)絡(luò)構(gòu)建與動態(tài)差異性分析方法。

本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:

一種基于rnn的基因調(diào)控網(wǎng)絡(luò)構(gòu)建與動態(tài)差異性分析方法,包括以下步驟:

第一步、基于deeprnn的基因動態(tài)調(diào)控網(wǎng)絡(luò)構(gòu)建

基因表達數(shù)據(jù)表示為其中表示第j個樣本的第i個基因在tk時刻的表達量,在t0時刻輸入的樣本基因表達數(shù)據(jù)矩陣表示為輸入序列表示為x={vi|i∈[1,n]};輸出的調(diào)控權(quán)值矩陣包括了節(jié)點度值、連邊權(quán)重及調(diào)控方向,輸出矩陣w={ωij|i∈[1,n],j∈[1,n],s=sa,t=tk}實質(zhì)是一個上三角矩陣,包含樣本sa的信息基因在tk時刻的調(diào)控關(guān)系,在某一時刻的前后短時間段內(nèi),在基因a的表達作用于基因b時不受基因b的反作用;若|ωij|<threshold則表示該基因?qū)χg無連邊;否則當(dāng)ωij>0表示基因i對基因j上調(diào),當(dāng)ωij<0表示下調(diào);若i=j(luò)則表示基因的自調(diào)控;

第二步、基于亞型內(nèi)動態(tài)調(diào)控網(wǎng)絡(luò)的時序變化演化分析

定義c1亞型在t0時刻的有向加權(quán)圖拓撲結(jié)構(gòu)表示為即將信息基因抽象成節(jié)點集合v,將基因間的關(guān)系或作用描繪成邊集合e,其中表示基因i以權(quán)重ωij對基因j的作用,為+(上調(diào))或者-(下調(diào));使用真陽率、假陽率、陽性預(yù)測率、準確率對調(diào)控網(wǎng)絡(luò)的性能進行定量評價;

第三步、基于亞型間動態(tài)調(diào)控網(wǎng)絡(luò)的網(wǎng)絡(luò)差異演化分析

不同亞型網(wǎng)絡(luò)的演化分析包括動力學(xué)分析、差異性分析和擾動分析,

所述動力學(xué)分析使用差分方程對離散的網(wǎng)絡(luò)動力學(xué)行為進行分析,對于不同亞型的動態(tài)調(diào)控網(wǎng)絡(luò),分析同一時間段關(guān)聯(lián)基因?qū)Φ墓?jié)點度值、連邊權(quán)重、表達變化量相對比率;通過提取不同亞型網(wǎng)絡(luò)的關(guān)聯(lián)特征,并以此為基礎(chǔ)構(gòu)建多網(wǎng)絡(luò)協(xié)同演化模型;

所述差異性分析對相同時間窗口內(nèi)不同亞型間的兩個基因調(diào)控網(wǎng)絡(luò)作基于節(jié)點局部結(jié)構(gòu)特征的減法運算,檢測網(wǎng)絡(luò)結(jié)構(gòu)間存在的差異邊,根據(jù)差異網(wǎng)絡(luò)鑒別關(guān)鍵樞紐基因,然后利用go信息和kegg通路功能富集性分析檢驗所發(fā)現(xiàn)基因集的顯著性,得到癌癥亞型相關(guān)控制基因作為進一步生物實驗的檢驗標(biāo)記;

所述擾動控制分析中,關(guān)鍵樞紐基因節(jié)點在細胞生化過程中具有以下特征:同功能中心,即該節(jié)點附近的基因?qū)儆谀愁惞δ艿幕蚣?;同?qū)動中心,即受到該節(jié)點表達調(diào)控的同距離區(qū)間內(nèi)的基因具有類似的生化功能,對于關(guān)鍵樞紐節(jié)點的調(diào)控輸入一個隨機擾動υper,對不同網(wǎng)絡(luò)在同距離區(qū)間內(nèi)的同功能基因集取交集,得到亞型網(wǎng)絡(luò)間的動態(tài)調(diào)控差異節(jié)點。

進一步,所述第一步中,基于deeprnn的基因動態(tài)調(diào)控網(wǎng)絡(luò)構(gòu)建包括以下步驟:

1.1預(yù)處理,首先,提取亞型網(wǎng)絡(luò)之間的信息基因,然后,將同一亞型內(nèi)部的樣本按照百分比隨機分為訓(xùn)練集80%,驗證集10%,測試集10%,進一步,將同一樣本的基因表達按照時間序列展開作為輸入向量:表示第cx類亞型中具有mcx個樣本,提取其中的ninf個信息基因,按照不同時刻k的展開;

1.2激活函數(shù)與損失函數(shù),采用relu非飽和激活函數(shù),值域為[0,+∞),公式如下:

其中為激活函數(shù);

deeprnn由一個輸入層、一個或多個循環(huán)體隱藏層和一個輸出層組成,所有隱藏的層都有相同數(shù)量的隱藏單元,將上一時刻的狀態(tài)與當(dāng)前時刻的輸入拼接成一個大的向量作為循環(huán)體中神經(jīng)網(wǎng)絡(luò)的輸入,得到第l層的第j個單元的信號輸出為:

其中h是隱藏單元個數(shù),表示與第j個隱藏單元uj相連接的需要被訓(xùn)練的權(quán)重和偏差;當(dāng)誤差從輸出層反向傳播回來時,使用lstm的記憶元保存信息,在訓(xùn)練時,將每個輸出單元的均方誤差作為損失函數(shù),即:

其中m'表示訓(xùn)練樣本個數(shù),n表示每個訓(xùn)練樣本基因個數(shù),ωm(i,j)表示在t時刻樣本m中的基因gi對基因gj的作用效果,即連邊權(quán)重,表示預(yù)測值;

1.3dropout方法,在訓(xùn)練過程中,對于每個訓(xùn)練樣本的隱藏單元及其邊緣將會以概率為p被暫時丟棄;因此前向傳播和后向傳播將在一個特別“薄”的稀疏網(wǎng)絡(luò)上進行;對于deeprnn,只在同一時刻的不同層循環(huán)體之間使用dropout,即僅在同一時刻t中,從h1到hlast的不同層循環(huán)體之間使用dropout;將在區(qū)間[0%,25%]之間比較不同程度的正則化效果,尋找最優(yōu)dropout比率;

1.4加速梯度優(yōu)化和權(quán)重初始化,擬采用動量法進行加速優(yōu)化,即通過在迭代過程中累積損失函數(shù)的梯度方向來代替梯度進行參數(shù)更新,對于神經(jīng)網(wǎng)絡(luò)參數(shù)θ的損失函數(shù)l(·),動量計算公式如下:

其中,μ∈[0,1]是動量系數(shù),η是學(xué)習(xí)率;

隱藏層單位的權(quán)重使用均勻分布進行采樣,定義如下:

其中ni,no分別表示隱藏單元的扇入扇出個數(shù);

1.5輸出,在循環(huán)體中的神經(jīng)網(wǎng)絡(luò)供給當(dāng)前時刻的輸出后,將會使用另外一個全連接神經(jīng)網(wǎng)絡(luò)實現(xiàn)將當(dāng)前時刻的狀態(tài)轉(zhuǎn)化為最終的輸出。

再進一步,所述第二步中,網(wǎng)絡(luò)的拓撲屬性是描述網(wǎng)絡(luò)本身及其內(nèi)部節(jié)點或邊結(jié)構(gòu)特征的測度,包括:

聚類系數(shù),體現(xiàn)部分節(jié)點間存在的密集連接性質(zhì),在有向網(wǎng)絡(luò)中,標(biāo)準化的聚類系數(shù)被定義為:

其中kout表示節(jié)點v的出度,n表示所有v所指向的節(jié)點彼此存在的邊數(shù),

介數(shù)表明一個節(jié)點在其他節(jié)點彼此連接中所起的作用,標(biāo)準化至[0,1]區(qū)間的計算公式如下:

其中σij是節(jié)點i到節(jié)點j的最短路徑條數(shù),σivj表示σij中通過節(jié)點v的路徑條數(shù);

緊密度是描述一個節(jié)點到網(wǎng)絡(luò)中其他所有節(jié)點平均距離的指標(biāo),定量衡量節(jié)點接近網(wǎng)絡(luò)“中心”的程度,節(jié)點v的緊密度cv計算公式如下:

其中dvj表示節(jié)點v到節(jié)點j的最短距離(路徑中所經(jīng)過邊的權(quán)重之和最小)。緊密度越小,節(jié)點越接近中心。

基于網(wǎng)絡(luò)結(jié)構(gòu)的拓撲屬性變化在時間序列上對時間窗口δt進行微分展開,得到動態(tài)調(diào)控網(wǎng)絡(luò)的時空演化測度γ'(·)的計算公式如下:

其中θ表示函數(shù)參數(shù),ωcc、ωb、ωc分別為對應(yīng)指標(biāo)的影響權(quán)重;

通過分析動態(tài)網(wǎng)絡(luò)在不同時刻的節(jié)點指標(biāo)(ccv、bv、cv),挖掘在不同時間窗口內(nèi)的關(guān)鍵調(diào)控基因節(jié)點,解釋其在生命活動過程中扮演的重要性。

所述第三步中,所述動力學(xué)分析過程中,動力差異計算公式如下:

其中θ表示節(jié)點度值、連邊權(quán)重、表達變化量相對比率三項指標(biāo),表示cx類亞型樣本sx在時間窗口ta內(nèi)的對應(yīng)指標(biāo)值,ωθ表示對應(yīng)于θ的權(quán)重,ζ表示網(wǎng)絡(luò)間的全局耦合強度。

所述第三步中,所述差異性分析過程中,檢測網(wǎng)絡(luò)結(jié)構(gòu)間存在的差異邊的計算公式如下:

其中表示cx類亞型的樣本sx在ta時間窗口內(nèi)的基因i對基因j的調(diào)控權(quán)重。

所述第三步中,所述擾動控制分析中,得到亞型網(wǎng)絡(luò)間的動態(tài)調(diào)控差異節(jié)點,表達式為:

其中表示cx類亞型樣本sa在區(qū)間dis(ω)內(nèi)的基因集。

本發(fā)明的技術(shù)構(gòu)思為:分析同一癌癥亞型和不同癌癥亞型的基因調(diào)控差異,針對表達數(shù)據(jù)中癌癥基因間的高度非線性相關(guān)性,基于深層循環(huán)神經(jīng)網(wǎng)絡(luò)(deeprecurrentneuralnetwork,deeprnn)對不同癌癥亞型在用藥后的連續(xù)時序變化下的基因表達數(shù)據(jù)構(gòu)建調(diào)控網(wǎng)絡(luò),分析亞型間的表達差異性。

在基因表達數(shù)據(jù)的癌癥關(guān)聯(lián)基因特征提取后,完成癌癥亞型的聚類分析,針對不同的亞型聚類結(jié)果分別構(gòu)建對應(yīng)的基因調(diào)控網(wǎng)絡(luò)分析其差異性。本項目提出基于深層循環(huán)神經(jīng)網(wǎng)絡(luò)(deeprnn)的基因調(diào)控網(wǎng)絡(luò)建模方法,利用深層循環(huán)神經(jīng)網(wǎng)絡(luò)的時序處理特性,預(yù)測基因動態(tài)調(diào)控網(wǎng)絡(luò)的節(jié)點度值與連邊權(quán)重。其次,縱向分析不同時間窗口中相同亞型調(diào)控網(wǎng)絡(luò)的節(jié)點與連邊變化,挖掘相關(guān)基因在癌癥演化過程中的調(diào)控功能,以及對病癥發(fā)展的后續(xù)階段進行預(yù)測。最終,橫向分析不同亞型間的調(diào)控網(wǎng)絡(luò)差異,并對時間序列下的協(xié)同演化過程中的差異變化進行生物學(xué)意義上的解釋,為個性化臨床治療方案提供科學(xué)合理的指導(dǎo)。

本發(fā)明的有益效果主要表現(xiàn)在:精確性較好。

附圖說明

圖1是基因表達動態(tài)時序網(wǎng)絡(luò)及差異性演化分析示意圖。

圖2是基于deeprnn的基因調(diào)控時序網(wǎng)絡(luò)構(gòu)建框圖。

圖3是亞型內(nèi)部時序展開動態(tài)調(diào)控網(wǎng)絡(luò)構(gòu)建示意圖。

圖4是不同亞型間的基因調(diào)控網(wǎng)絡(luò)漸變演化示意圖。

具體實施方式

下面結(jié)合附圖對本發(fā)明作進一步描述。

參照圖1~圖4,一種基于rnn的基因調(diào)控網(wǎng)絡(luò)構(gòu)建與動態(tài)差異性分析方法,分析同一癌癥亞型和不同癌癥亞型的基因調(diào)控差異,針對表達數(shù)據(jù)中癌癥基因間的高度非線性相關(guān)性,基于深層循環(huán)神經(jīng)網(wǎng)絡(luò)(deeprecurrentneuralnetwork,deeprnn)對不同癌癥亞型在用藥后的連續(xù)時序變化下的基因表達數(shù)據(jù)構(gòu)建調(diào)控網(wǎng)絡(luò),分析亞型間的表達差異性;

如圖1所示,首先,在t0時刻的癌癥樣本被聚類為c1、c2、c3三種亞型,其余三個黑點表示奇異樣本。對于c1類簇,基于deeprnn的調(diào)控網(wǎng)絡(luò)構(gòu)建如藍色虛線框中的t0時刻網(wǎng)絡(luò),顯示根據(jù)a-h的8個信息基因構(gòu)建調(diào)控網(wǎng)絡(luò),并通過真陽率、假陽率、陽性預(yù)測率、準確率對網(wǎng)絡(luò)性能進行定量評價;然后,在后續(xù)的數(shù)據(jù)流輸入后,網(wǎng)絡(luò)的節(jié)點度值、連邊權(quán)重值及節(jié)點位置發(fā)生遷移,得到了諸如t1、t2…tl的動態(tài)演化調(diào)控網(wǎng)絡(luò),從而設(shè)計基于多層次動力系統(tǒng)模型的分析方法揭示基因間調(diào)控過程中的邏輯關(guān)系;最后,進行不同亞型在網(wǎng)絡(luò)間的橫向分析,對于不同亞型間的兩個基因調(diào)控網(wǎng)絡(luò)作基于節(jié)點局部結(jié)構(gòu)特征的減法運算,檢測網(wǎng)絡(luò)結(jié)構(gòu)間存在的差異邊,得到差異網(wǎng)絡(luò)進而鑒別關(guān)鍵樞紐基因,同時利用go信息和kegg通路功能富集性分析檢驗所發(fā)現(xiàn)基因集的顯著性,最終識別出癌癥亞型相關(guān)控制基因作為進一步生物實驗的檢驗標(biāo)記。

為了驗證本項目提出的算法在處理真實癌癥基因表達數(shù)據(jù)的實時性、有效性和可靠性,并且獲得算法的優(yōu)化參數(shù),本項目將先對常用基因表達數(shù)據(jù)庫(如geo、tcga、smd、gxd、gent等)中的癌癥表達標(biāo)準數(shù)據(jù)進行有針對性的分類與分析,驗證算法性能。

所述基因調(diào)控網(wǎng)絡(luò)構(gòu)建與動態(tài)差異性分析方法包括以下步驟:

第一步、基于deeprnn的基因動態(tài)調(diào)控網(wǎng)絡(luò)構(gòu)建

基因的表達具有時空性,是基因與外界環(huán)境相互作用的結(jié)果,會根據(jù)當(dāng)前的表達狀況決定未來的表達,所以適合利用deeprnn的歷史記憶效應(yīng),學(xué)習(xí)訓(xùn)練隱藏層參數(shù),最終以矩陣形式輸出調(diào)控網(wǎng)絡(luò)權(quán)值。如圖2所示為按時序展開的循環(huán)神經(jīng)網(wǎng)絡(luò)的構(gòu)建及調(diào)控權(quán)重的訓(xùn)練過程。

基因表達數(shù)據(jù)表示為其中表示第j個樣本的第i個基因在tk時刻的表達量。如上圖所示,在t0時刻輸入的樣本基因表達數(shù)據(jù)矩陣表示為輸入序列表示為x={vi|i∈[1,n]};輸出的調(diào)控權(quán)值矩陣包括了節(jié)點度值、連邊權(quán)重及調(diào)控方向,輸出矩陣w={ωij|i∈[1,n],j∈[1,n],s=sa,t=tk}實質(zhì)是一個上三角矩陣,包含樣本sa的信息基因在tk時刻的調(diào)控關(guān)系,當(dāng)然是基于以下前提:即在某一時刻的前后短時間段內(nèi),在基因a的表達作用于基因b時不受基因b的反作用。若|ωij|<threshold則表示該基因?qū)χg無連邊;否則當(dāng)ωij>0表示基因i對基因j上調(diào),當(dāng)ωij<0表示下調(diào);若i=j(luò)則表示基因的自調(diào)控。下面介紹如何利用deeprnn對基因表達數(shù)據(jù)進行基因動態(tài)調(diào)控網(wǎng)絡(luò)的構(gòu)建:

1.1預(yù)處理。首先,提取亞型網(wǎng)絡(luò)之間的信息基因,一方面是因為樣本的過長輸入時間序列間隔會導(dǎo)致優(yōu)化時的“梯度彌散”問題;另一方面也是因為在某一調(diào)控過程中的無關(guān)基因相當(dāng)于噪聲,使用強有力的控制基因能夠更好的挖掘調(diào)控關(guān)系。然后,將同一亞型內(nèi)部的樣本按照百分比隨機分為訓(xùn)練集80%,驗證集10%,測試集10%。進一步,將同一樣本的基因表達按照時間序列展開作為輸入向量:表示第cx類亞型中具有mcx個樣本,提取其中的ninf個信息基因,按照不同時刻k的展開。

1.2激活函數(shù)與損失函數(shù)。激活函數(shù)作為非線性處理單元(如sigmoid、tanh函數(shù)),實現(xiàn)的功能是將來自前一層的輸入線性組合結(jié)果動態(tài)范圍壓縮到特定值域。為了緩解深度神經(jīng)網(wǎng)絡(luò)的“梯度彌散”問題,加快訓(xùn)練收斂速度,擬采用relu這類非飽和激活函數(shù)(值域為[0,+∞)),公式如下:

其中為激活函數(shù)。

deeprnn由一個輸入層、一個或多個循環(huán)體隱藏層和一個輸出層組成。所有隱藏的層都有相同數(shù)量的隱藏單元,將上一時刻的狀態(tài)與當(dāng)前時刻的輸入拼接成一個大的向量作為循環(huán)體中神經(jīng)網(wǎng)絡(luò)的輸入,得到第l層的第j個單元的信號輸出為:

其中h是隱藏單元個數(shù),表示與第j個隱藏單元uj相連接的需要被訓(xùn)練的權(quán)重和偏差。為了處理長期依賴問題,隱藏層單元使用三門結(jié)構(gòu)(輸入門、遺忘門、輸出門)的長短時記憶單元(longshorttermmemory,lstm)單元,當(dāng)誤差從輸出層反向傳播回來時,可以使用lstm的記憶元保存信息。在訓(xùn)練時,將每個輸出單元的均方誤差作為損失函數(shù),即:

其中m'表示訓(xùn)練樣本個數(shù),n表示每個訓(xùn)練樣本基因個數(shù),ωm(i,j)表示在t時刻樣本m中的基因gi對基因gj的作用效果,即連邊權(quán)重,表示預(yù)測值。

1.3dropout方法。dropout是對神經(jīng)網(wǎng)絡(luò)進行模型平均和正則化的技術(shù)。在訓(xùn)練過程中,對于每個訓(xùn)練樣本的隱藏單元及其邊緣將會以概率為p被暫時丟棄。因此前向傳播和后向傳播將在一個特別“薄”的稀疏網(wǎng)絡(luò)上進行。對于deeprnn,一般只在同一時刻的不同層循環(huán)體之間使用dropout,即僅在同一時刻t中,從h1到hlast的不同層循環(huán)體之間使用dropout,這樣能夠使得網(wǎng)絡(luò)更加健壯。參考相關(guān)文獻,將在區(qū)間[0%,25%]之間比較不同程度的正則化效果,尋找最優(yōu)dropout比率。

1.4加速梯度優(yōu)化和權(quán)重初始化。擬采用動量法進行加速優(yōu)化,即通過在迭代過程中累積損失函數(shù)的梯度方向來代替梯度進行參數(shù)更新。對于神經(jīng)網(wǎng)絡(luò)參數(shù)θ的損失函數(shù)l(·),動量計算公式如下:

其中,μ∈[0,1]是動量系數(shù),η是學(xué)習(xí)率,在訓(xùn)練過程中隨著錯誤率變化而不斷減小,使用動量法在訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)時能夠提高收斂速度。深度網(wǎng)絡(luò)的權(quán)重使用歸一法進行初始化,旨在穩(wěn)定訓(xùn)練過程中的激活和反向傳播梯度的差異。隱藏層單位的權(quán)重使用均勻分布進行采樣,定義如下:

其中ni,no分別表示隱藏單元的扇入扇出個數(shù)。

1.5輸出。在循環(huán)體中的神經(jīng)網(wǎng)絡(luò)供給當(dāng)前時刻的輸出后,將會使用另外一個全連接神經(jīng)網(wǎng)絡(luò)實現(xiàn)將當(dāng)前時刻的狀態(tài)轉(zhuǎn)化為最終的輸出。

第二步、基于亞型內(nèi)動態(tài)調(diào)控網(wǎng)絡(luò)的時序變化演化分析

通過基因表達數(shù)據(jù)構(gòu)建動態(tài)基因調(diào)控網(wǎng)絡(luò)來體現(xiàn)真實的動態(tài)調(diào)控過程能夠更精準地反映調(diào)控機理,理解基因之間的相互作用機制。如圖3所示為某一亞型樣本內(nèi)部的信息基因以時間序列展開后的動態(tài)調(diào)控網(wǎng)絡(luò)構(gòu)建示意圖。

定義c1亞型在t0時刻的有向加權(quán)圖拓撲結(jié)構(gòu)表示為即將信息基因抽象成節(jié)點集合v,將基因間的關(guān)系或作用描繪成邊集合e,其中表示基因i以權(quán)重ωij對基因j的作用,:可以為+(上調(diào))或者-(下調(diào))。可以使用真陽率、假陽率、陽性預(yù)測率、準確率對調(diào)控網(wǎng)絡(luò)的性能進行定量評價。

網(wǎng)絡(luò)的拓撲屬性是描述網(wǎng)絡(luò)本身及其內(nèi)部節(jié)點或邊結(jié)構(gòu)特征的測度。主要包括以下幾項:

聚類系數(shù)。聚類系數(shù)體現(xiàn)了部分節(jié)點間存在的密集連接性質(zhì),在有向網(wǎng)絡(luò)中,標(biāo)準化的聚類系數(shù)被定義為:

其中kout表示節(jié)點v的出度,n表示所有v所指向的節(jié)點彼此存在的邊數(shù)。

介數(shù)。介數(shù)表明了一個節(jié)點在其他節(jié)點彼此連接中所起的作用,標(biāo)準化至[0,1]區(qū)間的計算公式如下:

其中σij是節(jié)點i到節(jié)點j的最短路徑條數(shù),σivj表示σij中通過節(jié)點v的路徑條數(shù)。介數(shù)越高,意味著節(jié)點在保持網(wǎng)絡(luò)連接緊密性中越重要。

緊密度。緊密度是描述一個節(jié)點到網(wǎng)絡(luò)中其他所有節(jié)點平均距離的指標(biāo),可以定量衡量節(jié)點接近網(wǎng)絡(luò)“中心”的程度。節(jié)點v的緊密度cv計算公式如下:

其中dvj表示節(jié)點v到節(jié)點j的最短距離(路徑中所經(jīng)過邊的權(quán)重之和最小)。緊密度越小,節(jié)點越接近中心。

為了描述調(diào)控網(wǎng)絡(luò)的動力學(xué)性質(zhì),基于網(wǎng)絡(luò)結(jié)構(gòu)的拓撲屬性變化在時間序列上對時間窗口δt進行微分展開,得到動態(tài)調(diào)控網(wǎng)絡(luò)的時空演化測度γ'(·)的計算公式如下:

其中θ表示函數(shù)參數(shù),ωcc、ωb、ωc分別為對應(yīng)指標(biāo)的影響權(quán)重。

通過分析動態(tài)網(wǎng)絡(luò)在不同時刻的節(jié)點指標(biāo)(ccv、bv、cv),挖掘在不同時間窗口內(nèi)的關(guān)鍵調(diào)控基因節(jié)點,解釋其在生命活動過程中扮演的重要性。

第三步、基于亞型間動態(tài)調(diào)控網(wǎng)絡(luò)的網(wǎng)絡(luò)差異演化分析

亞型間的網(wǎng)絡(luò)分析是為了充分挖掘歷史表達數(shù)據(jù)的時空特性、調(diào)控的變化規(guī)律、以及調(diào)控網(wǎng)絡(luò)中節(jié)點和連邊的遷移演化,從而提高網(wǎng)絡(luò)建模算法的準確度和可靠性,并對基因表達表達變化和網(wǎng)絡(luò)動態(tài)演化進行預(yù)測。如圖4所示為不同亞型間的基因調(diào)控網(wǎng)絡(luò)漸變演化示意圖,其中差異網(wǎng)絡(luò)是由不同亞型間的兩個基因調(diào)控網(wǎng)絡(luò)作基于節(jié)點局部結(jié)構(gòu)特征的減法運算得到的。

不同亞型網(wǎng)絡(luò)的演化分析包括動力學(xué)分析、差異性分析和擾動分析。

動力學(xué)分析。由于基因表達數(shù)據(jù)采樣的時間間隔較長,使用差分方程對離散的網(wǎng)絡(luò)動力學(xué)行為進行分析。對于不同亞型的動態(tài)調(diào)控網(wǎng)絡(luò),分析同一時間段關(guān)聯(lián)基因?qū)Φ墓?jié)點度值、連邊權(quán)重、表達變化量相對比率,動力差異計算公式如下:

其中θ表示節(jié)點度值、連邊權(quán)重、表達變化量相對比率三項指標(biāo),表示cx類亞型樣本sx在時間窗口ta內(nèi)的對應(yīng)指標(biāo)值,ωθ表示對應(yīng)于θ的權(quán)重,ζ表示網(wǎng)絡(luò)間的全局耦合強度。通過提取不同亞型網(wǎng)絡(luò)的關(guān)聯(lián)特征,并以此為基礎(chǔ)構(gòu)建多網(wǎng)絡(luò)協(xié)同演化模型,該模型將為后續(xù)網(wǎng)絡(luò)差異的演化分析及精準亞型個體化治療提供理論基礎(chǔ)和實踐依據(jù)。

差異性分析。對相同時間窗口內(nèi)不同亞型間的兩個基因調(diào)控網(wǎng)絡(luò)作基于節(jié)點局部結(jié)構(gòu)特征的減法運算,檢測網(wǎng)絡(luò)結(jié)構(gòu)間存在的差異邊,計算公式如下:

其中表示cx類亞型的樣本sx在ta時間窗口內(nèi)的基因i對基因j的調(diào)控權(quán)重。根據(jù)差異網(wǎng)絡(luò)鑒別關(guān)鍵樞紐基因,然后利用go信息和kegg通路功能富集性分析檢驗所發(fā)現(xiàn)基因集的顯著性,得到癌癥亞型相關(guān)控制基因作為進一步生物實驗的檢驗標(biāo)記。

擾動控制分析。關(guān)鍵樞紐基因節(jié)點在細胞生化過程中具有以下特征:同功能中心,即該節(jié)點附近的基因?qū)儆谀愁惞δ艿幕蚣?;同?qū)動中心,即受到該節(jié)點表達調(diào)控的同距離區(qū)間內(nèi)的基因具有類似的生化功能。對于關(guān)鍵樞紐節(jié)點的調(diào)控輸入一個隨機擾動υper,對不同網(wǎng)絡(luò)在同距離區(qū)間內(nèi)的同功能基因集取交集,得到亞型網(wǎng)絡(luò)間的動態(tài)調(diào)控差異節(jié)點。具體表達式為:

其中表示cx類亞型樣本sa在區(qū)間dis(ω)內(nèi)的基因集。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
磐石市| 福泉市| 噶尔县| 莆田市| 平潭县| 柞水县| 乳源| 淮南市| 西昌市| 广水市| 托里县| 威远县| 蓝山县| 皋兰县| 惠州市| 孟州市| 固镇县| 方正县| 湾仔区| 桐梓县| 霍州市| 新建县| 江西省| 天祝| 铅山县| 沅陵县| 平谷区| 前郭尔| 图木舒克市| 克拉玛依市| 长宁区| 于田县| 静乐县| 马鞍山市| 旌德县| 万年县| 分宜县| 社会| 高阳县| 兴山县| 平和县|