本發(fā)明涉及一種基于rnn的基因調(diào)控網(wǎng)絡(luò)構(gòu)建與動態(tài)差異性分析方法。
背景技術(shù):
基因調(diào)控網(wǎng)絡(luò)的建模與演化分析能夠很好的挖掘基因表達數(shù)據(jù)中的深層信息,是當(dāng)前生物信息學(xué)研究的重要領(lǐng)域和關(guān)鍵問題。二十世紀90年代以來,隨著基因芯片技術(shù)的發(fā)展和二代測序技術(shù)的興起,基因調(diào)控網(wǎng)絡(luò)建模的研究取得了巨大進展。
基因調(diào)控網(wǎng)絡(luò)建模主要根據(jù)基因表達數(shù)據(jù)推理網(wǎng)絡(luò)中的調(diào)控關(guān)系,并表示為拓撲結(jié)構(gòu),屬于依靠數(shù)據(jù)挖掘進行的逆向工程研究。構(gòu)建基因調(diào)控網(wǎng)絡(luò)首先需要確定網(wǎng)絡(luò)模型,然后根據(jù)模型選擇合適的建模算法。經(jīng)典的網(wǎng)絡(luò)模型包括布爾網(wǎng)絡(luò)、關(guān)聯(lián)網(wǎng)絡(luò)、微分方程、貝葉斯網(wǎng)絡(luò)。
(a)布爾網(wǎng)絡(luò)。布爾網(wǎng)絡(luò)對基因狀態(tài)做了相應(yīng)簡化,用布爾函數(shù)代替了微分和導(dǎo)數(shù)描述基因間的相互關(guān)系。該模型的缺點在于不精確性,僅僅通過使用固定的邏輯規(guī)則刻畫和反映基因間相互作用,并不能準確描述真實的基因調(diào)控網(wǎng)絡(luò)拓撲結(jié)構(gòu),而且對基因數(shù)據(jù)進行離散化時不可避免的會造成很多重要的表達信息丟失。kauffman等人最先提出了布爾網(wǎng)絡(luò)的分析框架模型,隨后akusu等人對布爾網(wǎng)絡(luò)在推理過程中的最少樣本數(shù)進行證明。liang等人設(shè)計了reveal算法,在原有的離散化模型上盡可能少的減少信息損失。此外,lyla等人提出了一種新的概率布爾網(wǎng)絡(luò)(pbn),這是對傳統(tǒng)布爾網(wǎng)絡(luò)的拓展,同時量化基因間作用關(guān)系和靈敏度從而解決模型選擇過程中的不確定性,提高了模型的精確性。
(b)關(guān)聯(lián)網(wǎng)絡(luò)。關(guān)聯(lián)網(wǎng)絡(luò)的建模主要通過基因表達數(shù)據(jù)間的關(guān)聯(lián)度實現(xiàn)。通常使用互信息、皮爾森相關(guān)系數(shù)等測度計算基因間的相似度,若基因?qū)﹂g的相似度高于某一閾值,則該基因?qū)υ诰W(wǎng)絡(luò)中直接連通。butte等人首先利用互信息計算所有基因?qū)χg的關(guān)聯(lián)度,然后設(shè)置互信息閾值。后來發(fā)現(xiàn),若基因?qū)﹂g具有相同或相近的調(diào)控機制,則兩個基因的關(guān)聯(lián)度較高,尤其是同一轉(zhuǎn)錄因子的靶基因或同一條生物通路上的基因。margolin等人提出arcane方法,通過信息論構(gòu)建關(guān)聯(lián)網(wǎng)絡(luò),該方法的優(yōu)點是模型的建立簡單易操作,但是構(gòu)建的網(wǎng)絡(luò)存在很多假陽性的邊。為降低所構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu)的假陽性率,得到接近真實拓撲的調(diào)控網(wǎng)絡(luò),一般在計算基因?qū)﹂g的關(guān)聯(lián)度時隔絕其它基因的影響。
(c)貝葉斯網(wǎng)絡(luò)。貝葉斯網(wǎng)絡(luò)(bn)通過局部概率的乘積來近似描述整體網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜概率分布,屬于概率圖模型,將節(jié)點之間的連邊表示為節(jié)點間存在的概率依賴關(guān)系。動態(tài)貝葉斯網(wǎng)絡(luò)(dbn)是對靜態(tài)貝葉斯網(wǎng)絡(luò)模型的擴展,通過引入時間因素形成動態(tài)變化網(wǎng)絡(luò),更加真實地表示隨機系統(tǒng)的動態(tài)性?;蛘{(diào)控網(wǎng)絡(luò)本質(zhì)上是一個復(fù)雜而連續(xù)的動態(tài)網(wǎng)絡(luò)系統(tǒng),所以在具體建模的時候,往往對dbn進行簡化從而降低計算復(fù)雜度。dbn克服了靜態(tài)bn有向無環(huán)的不足,更好地刻畫了基因調(diào)控網(wǎng)絡(luò)的動態(tài)特性,提高了模型的預(yù)測精度。norbert為了能夠從基因擾動型實驗數(shù)據(jù)中學(xué)習(xí)動態(tài)貝葉斯網(wǎng)絡(luò),利用離散化方法來對基因表達數(shù)據(jù)進行預(yù)處理,結(jié)合基因調(diào)控的負反饋與時延因素提出新的數(shù)據(jù)整合模型,利用并行算法加速構(gòu)建基因調(diào)控網(wǎng)絡(luò)。
隨著2006年hinton教授在《科學(xué)》上的一篇文章,深度學(xué)習(xí)拉開帷幕,并在各個領(lǐng)域表現(xiàn)不俗。同時,學(xué)術(shù)界和行業(yè)都強調(diào)了深度學(xué)習(xí)的洞察力在生物信息學(xué)中的應(yīng)用,例如基于深度學(xué)習(xí)的蛋白質(zhì)結(jié)構(gòu)預(yù)測、基因調(diào)控碼學(xué)習(xí)、基因表達預(yù)測、癌癥分類預(yù)測、復(fù)雜疾病分類、多平臺癌癥數(shù)據(jù)綜合分析等。
guillen等人設(shè)計基于多層感知器的深度學(xué)習(xí)算法捕獲基因表達特征進行癌癥分類,表明了神經(jīng)網(wǎng)絡(luò)可以高效率地對不同的樣本進行分類,在最后的預(yù)測結(jié)果中實現(xiàn)了較高精度。bhat等人通過深度生成學(xué)習(xí)檢測癌癥,使用對抗性特征學(xué)習(xí)過程挖掘數(shù)據(jù)特征,然后使用常規(guī)分類器進行分類。最終試驗通過指定適當(dāng)?shù)某瑓?shù),在兩個不同數(shù)據(jù)集上執(zhí)行得相當(dāng)好。danaee等人使用堆疊去噪自動編碼器(sdae)從高維基因表達譜中提取深度功能特征,通過分析sdae連接矩陣確定了一組高度互動的基因用于癌癥生物標(biāo)志物檢測。chira等人使用基因表達值隨時間推移的模式開發(fā)基于形狀的聚類模型,并且進一步結(jié)合基因表達水平與輸出值之間的相關(guān)關(guān)系,考慮共同表達模式與測量輸出的關(guān)系,以指導(dǎo)結(jié)果的生物學(xué)解釋。singh等人提供層疊特征選擇與堆疊稀疏自動編碼器(ssae)從數(shù)據(jù)中學(xué)習(xí)高級特征,每層執(zhí)行特征選擇是一種啟發(fā)式的,可以在每個階段獲得相關(guān)特征,并且在調(diào)整過程中減少計算量,該算法在gemler數(shù)據(jù)庫的36個數(shù)據(jù)集上進行了測試,其中35個數(shù)據(jù)集的效果超越了gemler基準測試結(jié)果。liang等人提出了一種多峰深度信念網(wǎng)絡(luò)(dbn)的新學(xué)習(xí)模型,從多平臺觀測數(shù)據(jù)對癌癥患者進行聚類,并為個性化癌癥治療提供了有效指導(dǎo)。同時應(yīng)用對比度發(fā)散(cd)學(xué)習(xí)算法,以無監(jiān)督的方式推斷多模態(tài)dbn模型參數(shù)。xie等人基于多層感知器和堆疊去噪自動編碼器(mlp-sae)的深度學(xué)習(xí)回歸模型預(yù)測變異基因型的基因表達,其中堆疊去噪自動編碼器用于訓(xùn)練回歸模型以提取有效特征,并利用多層感知器進行反向傳播,同時通過添加dropout防止過擬合。chen等人設(shè)計了一種深度學(xué)習(xí)方法(d-gex),充分捕捉基因表達間的非線性相關(guān)關(guān)系,利用大約1000個標(biāo)記基因推斷剩余的靶基因表達,旨在降低基因表達譜測定成本。
技術(shù)實現(xiàn)要素:
為了克服已有基因調(diào)控網(wǎng)絡(luò)建模及差異性分析方法的精確性較差的不足,本發(fā)明提供一種精確性較好的基于rnn的基因調(diào)控網(wǎng)絡(luò)構(gòu)建與動態(tài)差異性分析方法。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:
一種基于rnn的基因調(diào)控網(wǎng)絡(luò)構(gòu)建與動態(tài)差異性分析方法,包括以下步驟:
第一步、基于deeprnn的基因動態(tài)調(diào)控網(wǎng)絡(luò)構(gòu)建
基因表達數(shù)據(jù)表示為
第二步、基于亞型內(nèi)動態(tài)調(diào)控網(wǎng)絡(luò)的時序變化演化分析
定義c1亞型在t0時刻的有向加權(quán)圖拓撲結(jié)構(gòu)表示為
第三步、基于亞型間動態(tài)調(diào)控網(wǎng)絡(luò)的網(wǎng)絡(luò)差異演化分析
不同亞型網(wǎng)絡(luò)的演化分析包括動力學(xué)分析、差異性分析和擾動分析,
所述動力學(xué)分析使用差分方程對離散的網(wǎng)絡(luò)動力學(xué)行為進行分析,對于不同亞型的動態(tài)調(diào)控網(wǎng)絡(luò),分析同一時間段關(guān)聯(lián)基因?qū)Φ墓?jié)點度值、連邊權(quán)重、表達變化量相對比率;通過提取不同亞型網(wǎng)絡(luò)的關(guān)聯(lián)特征,并以此為基礎(chǔ)構(gòu)建多網(wǎng)絡(luò)協(xié)同演化模型;
所述差異性分析對相同時間窗口內(nèi)不同亞型間的兩個基因調(diào)控網(wǎng)絡(luò)作基于節(jié)點局部結(jié)構(gòu)特征的減法運算,檢測網(wǎng)絡(luò)結(jié)構(gòu)間存在的差異邊,根據(jù)差異網(wǎng)絡(luò)鑒別關(guān)鍵樞紐基因,然后利用go信息和kegg通路功能富集性分析檢驗所發(fā)現(xiàn)基因集的顯著性,得到癌癥亞型相關(guān)控制基因作為進一步生物實驗的檢驗標(biāo)記;
所述擾動控制分析中,關(guān)鍵樞紐基因節(jié)點在細胞生化過程中具有以下特征:同功能中心,即該節(jié)點附近的基因?qū)儆谀愁惞δ艿幕蚣?;同?qū)動中心,即受到該節(jié)點表達調(diào)控的同距離區(qū)間內(nèi)的基因具有類似的生化功能,對于關(guān)鍵樞紐節(jié)點的調(diào)控輸入一個隨機擾動υper,對不同網(wǎng)絡(luò)在同距離區(qū)間內(nèi)的同功能基因集取交集,得到亞型網(wǎng)絡(luò)間的動態(tài)調(diào)控差異節(jié)點。
進一步,所述第一步中,基于deeprnn的基因動態(tài)調(diào)控網(wǎng)絡(luò)構(gòu)建包括以下步驟:
1.1預(yù)處理,首先,提取亞型網(wǎng)絡(luò)之間的信息基因,然后,將同一亞型內(nèi)部的樣本按照百分比隨機分為訓(xùn)練集80%,驗證集10%,測試集10%,進一步,將同一樣本的基因表達按照時間序列展開作為輸入向量:
1.2激活函數(shù)與損失函數(shù),采用relu非飽和激活函數(shù),值域為[0,+∞),公式如下:
其中
deeprnn由一個輸入層、一個或多個循環(huán)體隱藏層和一個輸出層組成,所有隱藏的層都有相同數(shù)量的隱藏單元,將上一時刻的狀態(tài)與當(dāng)前時刻的輸入拼接成一個大的向量作為循環(huán)體中神經(jīng)網(wǎng)絡(luò)的輸入,得到第l層的第j個單元的信號輸出
其中h是隱藏單元個數(shù),
其中m'表示訓(xùn)練樣本個數(shù),n表示每個訓(xùn)練樣本基因個數(shù),ωm(i,j)表示在t時刻樣本m中的基因gi對基因gj的作用效果,即連邊權(quán)重,
1.3dropout方法,在訓(xùn)練過程中,對于每個訓(xùn)練樣本的隱藏單元及其邊緣將會以概率為p被暫時丟棄;因此前向傳播和后向傳播將在一個特別“薄”的稀疏網(wǎng)絡(luò)上進行;對于deeprnn,只在同一時刻的不同層循環(huán)體之間使用dropout,即僅在同一時刻t中,從h1到hlast的不同層循環(huán)體之間使用dropout;將在區(qū)間[0%,25%]之間比較不同程度的正則化效果,尋找最優(yōu)dropout比率;
1.4加速梯度優(yōu)化和權(quán)重初始化,擬采用動量法進行加速優(yōu)化,即通過在迭代過程中累積損失函數(shù)的梯度方向來代替梯度進行參數(shù)更新,對于神經(jīng)網(wǎng)絡(luò)參數(shù)θ的損失函數(shù)l(·),動量計算公式如下:
其中,μ∈[0,1]是動量系數(shù),η是學(xué)習(xí)率;
隱藏層單位的權(quán)重使用均勻分布進行采樣,定義如下:
其中ni,no分別表示隱藏單元的扇入扇出個數(shù);
1.5輸出,在循環(huán)體中的神經(jīng)網(wǎng)絡(luò)供給當(dāng)前時刻的輸出后,將會使用另外一個全連接神經(jīng)網(wǎng)絡(luò)實現(xiàn)將當(dāng)前時刻的狀態(tài)轉(zhuǎn)化為最終的輸出。
再進一步,所述第二步中,網(wǎng)絡(luò)的拓撲屬性是描述網(wǎng)絡(luò)本身及其內(nèi)部節(jié)點或邊結(jié)構(gòu)特征的測度,包括:
聚類系數(shù),體現(xiàn)部分節(jié)點間存在的密集連接性質(zhì),在有向網(wǎng)絡(luò)中,標(biāo)準化的聚類系數(shù)被定義為:
其中kout表示節(jié)點v的出度,n表示所有v所指向的節(jié)點彼此存在的邊數(shù),
介數(shù)表明一個節(jié)點在其他節(jié)點彼此連接中所起的作用,標(biāo)準化至[0,1]區(qū)間的計算公式如下:
其中σij是節(jié)點i到節(jié)點j的最短路徑條數(shù),σivj表示σij中通過節(jié)點v的路徑條數(shù);
緊密度是描述一個節(jié)點到網(wǎng)絡(luò)中其他所有節(jié)點平均距離的指標(biāo),定量衡量節(jié)點接近網(wǎng)絡(luò)“中心”的程度,節(jié)點v的緊密度cv計算公式如下:
其中dvj表示節(jié)點v到節(jié)點j的最短距離(路徑中所經(jīng)過邊的權(quán)重之和最小)。緊密度越小,節(jié)點越接近中心。
基于網(wǎng)絡(luò)結(jié)構(gòu)的拓撲屬性變化在時間序列上對時間窗口δt進行微分展開,得到動態(tài)調(diào)控網(wǎng)絡(luò)的時空演化測度γ'(·)的計算公式如下:
其中θ表示函數(shù)參數(shù),ωcc、ωb、ωc分別為對應(yīng)指標(biāo)的影響權(quán)重;
通過分析動態(tài)網(wǎng)絡(luò)在不同時刻的節(jié)點指標(biāo)(ccv、bv、cv),挖掘在不同時間窗口內(nèi)的關(guān)鍵調(diào)控基因節(jié)點,解釋其在生命活動過程中扮演的重要性。
所述第三步中,所述動力學(xué)分析過程中,動力差異計算公式如下:
其中θ表示節(jié)點度值、連邊權(quán)重、表達變化量相對比率三項指標(biāo),
所述第三步中,所述差異性分析過程中,檢測網(wǎng)絡(luò)結(jié)構(gòu)間存在的差異邊的計算公式如下:
其中
所述第三步中,所述擾動控制分析中,得到亞型網(wǎng)絡(luò)間的動態(tài)調(diào)控差異節(jié)點,表達式為:
其中
本發(fā)明的技術(shù)構(gòu)思為:分析同一癌癥亞型和不同癌癥亞型的基因調(diào)控差異,針對表達數(shù)據(jù)中癌癥基因間的高度非線性相關(guān)性,基于深層循環(huán)神經(jīng)網(wǎng)絡(luò)(deeprecurrentneuralnetwork,deeprnn)對不同癌癥亞型在用藥后的連續(xù)時序變化下的基因表達數(shù)據(jù)構(gòu)建調(diào)控網(wǎng)絡(luò),分析亞型間的表達差異性。
在基因表達數(shù)據(jù)的癌癥關(guān)聯(lián)基因特征提取后,完成癌癥亞型的聚類分析,針對不同的亞型聚類結(jié)果分別構(gòu)建對應(yīng)的基因調(diào)控網(wǎng)絡(luò)分析其差異性。本項目提出基于深層循環(huán)神經(jīng)網(wǎng)絡(luò)(deeprnn)的基因調(diào)控網(wǎng)絡(luò)建模方法,利用深層循環(huán)神經(jīng)網(wǎng)絡(luò)的時序處理特性,預(yù)測基因動態(tài)調(diào)控網(wǎng)絡(luò)的節(jié)點度值與連邊權(quán)重。其次,縱向分析不同時間窗口中相同亞型調(diào)控網(wǎng)絡(luò)的節(jié)點與連邊變化,挖掘相關(guān)基因在癌癥演化過程中的調(diào)控功能,以及對病癥發(fā)展的后續(xù)階段進行預(yù)測。最終,橫向分析不同亞型間的調(diào)控網(wǎng)絡(luò)差異,并對時間序列下的協(xié)同演化過程中的差異變化進行生物學(xué)意義上的解釋,為個性化臨床治療方案提供科學(xué)合理的指導(dǎo)。
本發(fā)明的有益效果主要表現(xiàn)在:精確性較好。
附圖說明
圖1是基因表達動態(tài)時序網(wǎng)絡(luò)及差異性演化分析示意圖。
圖2是基于deeprnn的基因調(diào)控時序網(wǎng)絡(luò)構(gòu)建框圖。
圖3是亞型內(nèi)部時序展開動態(tài)調(diào)控網(wǎng)絡(luò)構(gòu)建示意圖。
圖4是不同亞型間的基因調(diào)控網(wǎng)絡(luò)漸變演化示意圖。
具體實施方式
下面結(jié)合附圖對本發(fā)明作進一步描述。
參照圖1~圖4,一種基于rnn的基因調(diào)控網(wǎng)絡(luò)構(gòu)建與動態(tài)差異性分析方法,分析同一癌癥亞型和不同癌癥亞型的基因調(diào)控差異,針對表達數(shù)據(jù)中癌癥基因間的高度非線性相關(guān)性,基于深層循環(huán)神經(jīng)網(wǎng)絡(luò)(deeprecurrentneuralnetwork,deeprnn)對不同癌癥亞型在用藥后的連續(xù)時序變化下的基因表達數(shù)據(jù)構(gòu)建調(diào)控網(wǎng)絡(luò),分析亞型間的表達差異性;
如圖1所示,首先,在t0時刻的癌癥樣本被聚類為c1、c2、c3三種亞型,其余三個黑點表示奇異樣本。對于c1類簇,基于deeprnn的調(diào)控網(wǎng)絡(luò)構(gòu)建如藍色虛線框中的t0時刻網(wǎng)絡(luò),顯示根據(jù)a-h的8個信息基因構(gòu)建調(diào)控網(wǎng)絡(luò),并通過真陽率、假陽率、陽性預(yù)測率、準確率對網(wǎng)絡(luò)性能進行定量評價;然后,在后續(xù)的數(shù)據(jù)流輸入后,網(wǎng)絡(luò)的節(jié)點度值、連邊權(quán)重值及節(jié)點位置發(fā)生遷移,得到了諸如t1、t2…tl的動態(tài)演化調(diào)控網(wǎng)絡(luò),從而設(shè)計基于多層次動力系統(tǒng)模型的分析方法揭示基因間調(diào)控過程中的邏輯關(guān)系;最后,進行不同亞型在網(wǎng)絡(luò)間的橫向分析,對于不同亞型間的兩個基因調(diào)控網(wǎng)絡(luò)作基于節(jié)點局部結(jié)構(gòu)特征的減法運算,檢測網(wǎng)絡(luò)結(jié)構(gòu)間存在的差異邊,得到差異網(wǎng)絡(luò)進而鑒別關(guān)鍵樞紐基因,同時利用go信息和kegg通路功能富集性分析檢驗所發(fā)現(xiàn)基因集的顯著性,最終識別出癌癥亞型相關(guān)控制基因作為進一步生物實驗的檢驗標(biāo)記。
為了驗證本項目提出的算法在處理真實癌癥基因表達數(shù)據(jù)的實時性、有效性和可靠性,并且獲得算法的優(yōu)化參數(shù),本項目將先對常用基因表達數(shù)據(jù)庫(如geo、tcga、smd、gxd、gent等)中的癌癥表達標(biāo)準數(shù)據(jù)進行有針對性的分類與分析,驗證算法性能。
所述基因調(diào)控網(wǎng)絡(luò)構(gòu)建與動態(tài)差異性分析方法包括以下步驟:
第一步、基于deeprnn的基因動態(tài)調(diào)控網(wǎng)絡(luò)構(gòu)建
基因的表達具有時空性,是基因與外界環(huán)境相互作用的結(jié)果,會根據(jù)當(dāng)前的表達狀況決定未來的表達,所以適合利用deeprnn的歷史記憶效應(yīng),學(xué)習(xí)訓(xùn)練隱藏層參數(shù),最終以矩陣形式輸出調(diào)控網(wǎng)絡(luò)權(quán)值。如圖2所示為按時序展開的循環(huán)神經(jīng)網(wǎng)絡(luò)的構(gòu)建及調(diào)控權(quán)重的訓(xùn)練過程。
基因表達數(shù)據(jù)表示為
1.1預(yù)處理。首先,提取亞型網(wǎng)絡(luò)之間的信息基因,一方面是因為樣本的過長輸入時間序列間隔會導(dǎo)致優(yōu)化時的“梯度彌散”問題;另一方面也是因為在某一調(diào)控過程中的無關(guān)基因相當(dāng)于噪聲,使用強有力的控制基因能夠更好的挖掘調(diào)控關(guān)系。然后,將同一亞型內(nèi)部的樣本按照百分比隨機分為訓(xùn)練集80%,驗證集10%,測試集10%。進一步,將同一樣本的基因表達按照時間序列展開作為輸入向量:
1.2激活函數(shù)與損失函數(shù)。激活函數(shù)作為非線性處理單元(如sigmoid、tanh函數(shù)),實現(xiàn)的功能是將來自前一層的輸入線性組合結(jié)果動態(tài)范圍壓縮到特定值域。為了緩解深度神經(jīng)網(wǎng)絡(luò)的“梯度彌散”問題,加快訓(xùn)練收斂速度,擬采用relu這類非飽和激活函數(shù)(值域為[0,+∞)),公式如下:
其中
deeprnn由一個輸入層、一個或多個循環(huán)體隱藏層和一個輸出層組成。所有隱藏的層都有相同數(shù)量的隱藏單元,將上一時刻的狀態(tài)與當(dāng)前時刻的輸入拼接成一個大的向量作為循環(huán)體中神經(jīng)網(wǎng)絡(luò)的輸入,得到第l層的第j個單元的信號輸出
其中h是隱藏單元個數(shù),
其中m'表示訓(xùn)練樣本個數(shù),n表示每個訓(xùn)練樣本基因個數(shù),ωm(i,j)表示在t時刻樣本m中的基因gi對基因gj的作用效果,即連邊權(quán)重,
1.3dropout方法。dropout是對神經(jīng)網(wǎng)絡(luò)進行模型平均和正則化的技術(shù)。在訓(xùn)練過程中,對于每個訓(xùn)練樣本的隱藏單元及其邊緣將會以概率為p被暫時丟棄。因此前向傳播和后向傳播將在一個特別“薄”的稀疏網(wǎng)絡(luò)上進行。對于deeprnn,一般只在同一時刻的不同層循環(huán)體之間使用dropout,即僅在同一時刻t中,從h1到hlast的不同層循環(huán)體之間使用dropout,這樣能夠使得網(wǎng)絡(luò)更加健壯。參考相關(guān)文獻,將在區(qū)間[0%,25%]之間比較不同程度的正則化效果,尋找最優(yōu)dropout比率。
1.4加速梯度優(yōu)化和權(quán)重初始化。擬采用動量法進行加速優(yōu)化,即通過在迭代過程中累積損失函數(shù)的梯度方向來代替梯度進行參數(shù)更新。對于神經(jīng)網(wǎng)絡(luò)參數(shù)θ的損失函數(shù)l(·),動量計算公式如下:
其中,μ∈[0,1]是動量系數(shù),η是學(xué)習(xí)率,在訓(xùn)練過程中隨著錯誤率變化而不斷減小,使用動量法在訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)時能夠提高收斂速度。深度網(wǎng)絡(luò)的權(quán)重使用歸一法進行初始化,旨在穩(wěn)定訓(xùn)練過程中的激活和反向傳播梯度的差異。隱藏層單位的權(quán)重使用均勻分布進行采樣,定義如下:
其中ni,no分別表示隱藏單元的扇入扇出個數(shù)。
1.5輸出。在循環(huán)體中的神經(jīng)網(wǎng)絡(luò)供給當(dāng)前時刻的輸出后,將會使用另外一個全連接神經(jīng)網(wǎng)絡(luò)實現(xiàn)將當(dāng)前時刻的狀態(tài)轉(zhuǎn)化為最終的輸出。
第二步、基于亞型內(nèi)動態(tài)調(diào)控網(wǎng)絡(luò)的時序變化演化分析
通過基因表達數(shù)據(jù)構(gòu)建動態(tài)基因調(diào)控網(wǎng)絡(luò)來體現(xiàn)真實的動態(tài)調(diào)控過程能夠更精準地反映調(diào)控機理,理解基因之間的相互作用機制。如圖3所示為某一亞型樣本內(nèi)部的信息基因以時間序列展開后的動態(tài)調(diào)控網(wǎng)絡(luò)構(gòu)建示意圖。
定義c1亞型在t0時刻的有向加權(quán)圖拓撲結(jié)構(gòu)表示為
網(wǎng)絡(luò)的拓撲屬性是描述網(wǎng)絡(luò)本身及其內(nèi)部節(jié)點或邊結(jié)構(gòu)特征的測度。主要包括以下幾項:
聚類系數(shù)。聚類系數(shù)體現(xiàn)了部分節(jié)點間存在的密集連接性質(zhì),在有向網(wǎng)絡(luò)中,標(biāo)準化的聚類系數(shù)被定義為:
其中kout表示節(jié)點v的出度,n表示所有v所指向的節(jié)點彼此存在的邊數(shù)。
介數(shù)。介數(shù)表明了一個節(jié)點在其他節(jié)點彼此連接中所起的作用,標(biāo)準化至[0,1]區(qū)間的計算公式如下:
其中σij是節(jié)點i到節(jié)點j的最短路徑條數(shù),σivj表示σij中通過節(jié)點v的路徑條數(shù)。介數(shù)越高,意味著節(jié)點在保持網(wǎng)絡(luò)連接緊密性中越重要。
緊密度。緊密度是描述一個節(jié)點到網(wǎng)絡(luò)中其他所有節(jié)點平均距離的指標(biāo),可以定量衡量節(jié)點接近網(wǎng)絡(luò)“中心”的程度。節(jié)點v的緊密度cv計算公式如下:
其中dvj表示節(jié)點v到節(jié)點j的最短距離(路徑中所經(jīng)過邊的權(quán)重之和最小)。緊密度越小,節(jié)點越接近中心。
為了描述調(diào)控網(wǎng)絡(luò)的動力學(xué)性質(zhì),基于網(wǎng)絡(luò)結(jié)構(gòu)的拓撲屬性變化在時間序列上對時間窗口δt進行微分展開,得到動態(tài)調(diào)控網(wǎng)絡(luò)的時空演化測度γ'(·)的計算公式如下:
其中θ表示函數(shù)參數(shù),ωcc、ωb、ωc分別為對應(yīng)指標(biāo)的影響權(quán)重。
通過分析動態(tài)網(wǎng)絡(luò)在不同時刻的節(jié)點指標(biāo)(ccv、bv、cv),挖掘在不同時間窗口內(nèi)的關(guān)鍵調(diào)控基因節(jié)點,解釋其在生命活動過程中扮演的重要性。
第三步、基于亞型間動態(tài)調(diào)控網(wǎng)絡(luò)的網(wǎng)絡(luò)差異演化分析
亞型間的網(wǎng)絡(luò)分析是為了充分挖掘歷史表達數(shù)據(jù)的時空特性、調(diào)控的變化規(guī)律、以及調(diào)控網(wǎng)絡(luò)中節(jié)點和連邊的遷移演化,從而提高網(wǎng)絡(luò)建模算法的準確度和可靠性,并對基因表達表達變化和網(wǎng)絡(luò)動態(tài)演化進行預(yù)測。如圖4所示為不同亞型間的基因調(diào)控網(wǎng)絡(luò)漸變演化示意圖,其中差異網(wǎng)絡(luò)是由不同亞型間的兩個基因調(diào)控網(wǎng)絡(luò)作基于節(jié)點局部結(jié)構(gòu)特征的減法運算得到的。
不同亞型網(wǎng)絡(luò)的演化分析包括動力學(xué)分析、差異性分析和擾動分析。
動力學(xué)分析。由于基因表達數(shù)據(jù)采樣的時間間隔較長,使用差分方程對離散的網(wǎng)絡(luò)動力學(xué)行為進行分析。對于不同亞型的動態(tài)調(diào)控網(wǎng)絡(luò),分析同一時間段關(guān)聯(lián)基因?qū)Φ墓?jié)點度值、連邊權(quán)重、表達變化量相對比率,動力差異計算公式如下:
其中θ表示節(jié)點度值、連邊權(quán)重、表達變化量相對比率三項指標(biāo),
差異性分析。對相同時間窗口內(nèi)不同亞型間的兩個基因調(diào)控網(wǎng)絡(luò)作基于節(jié)點局部結(jié)構(gòu)特征的減法運算,檢測網(wǎng)絡(luò)結(jié)構(gòu)間存在的差異邊,計算公式如下:
其中
擾動控制分析。關(guān)鍵樞紐基因節(jié)點在細胞生化過程中具有以下特征:同功能中心,即該節(jié)點附近的基因?qū)儆谀愁惞δ艿幕蚣?;同?qū)動中心,即受到該節(jié)點表達調(diào)控的同距離區(qū)間內(nèi)的基因具有類似的生化功能。對于關(guān)鍵樞紐節(jié)點的調(diào)控輸入一個隨機擾動υper,對不同網(wǎng)絡(luò)在同距離區(qū)間內(nèi)的同功能基因集取交集,得到亞型網(wǎng)絡(luò)間的動態(tài)調(diào)控差異節(jié)點。具體表達式為:
其中