一種基于深度神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)方法
【專利摘要】本發(fā)明公開了一種基于深度學(xué)習(xí)及神經(jīng)網(wǎng)絡(luò)方法的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)方法,本發(fā)明涉及神經(jīng)網(wǎng)絡(luò)及蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)技術(shù)領(lǐng)域。該方法以蛋白質(zhì)特征序列為輸入,通過設(shè)計(jì)的深度回復(fù)式神經(jīng)網(wǎng)絡(luò)模型,預(yù)測(cè)序列各個(gè)位點(diǎn)氨基酸殘基的空間二級(jí)結(jié)構(gòu)。本發(fā)明實(shí)現(xiàn)了基于輸入特征的二級(jí)結(jié)構(gòu)自動(dòng)預(yù)測(cè),具有很好的泛化能力,能夠根據(jù)不同輸入特征訓(xùn)練特定模型并實(shí)現(xiàn)高準(zhǔn)確度的二級(jí)結(jié)構(gòu)預(yù)測(cè)。
【專利說明】一種基于深度神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)方法
[0001 ] 技術(shù)鄰域
[0002] 本發(fā)明涉及特征學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)、蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)和序列學(xué)習(xí)等領(lǐng)域, 具體涉及一種基于深度神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)方法。
【背景技術(shù)】
[0003] 蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)問題是計(jì)算生物學(xué)的重要研究問題之一,其能夠發(fā)現(xiàn)蛋白質(zhì)序列 結(jié)構(gòu)和其功能間的復(fù)雜關(guān)系,其中二級(jí)結(jié)構(gòu)預(yù)測(cè)問題又是各種更高級(jí)結(jié)構(gòu)預(yù)測(cè)問題的基 礎(chǔ)。通過準(zhǔn)確的蛋白質(zhì)^級(jí)結(jié)構(gòu)預(yù)測(cè),研究者能夠快速獲取蛋白質(zhì)序列中氣基酸殘基的^-級(jí)結(jié)構(gòu)構(gòu)象信息,如螺旋、折疊以及不規(guī)則卷曲等,這為基于序列的蛋白質(zhì)結(jié)構(gòu)及功能 分析提供了有效的數(shù)據(jù)參考并被廣泛采用。
[0004] 通過實(shí)驗(yàn)測(cè)定蛋白質(zhì)結(jié)構(gòu)費(fèi)時(shí)費(fèi)力,隨著人類基因組及全基因組計(jì)劃的順利實(shí) 施,海量待分析蛋白質(zhì)序列數(shù)據(jù)對(duì)蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)方法提出了挑戰(zhàn)。蛋白質(zhì)二級(jí)結(jié)構(gòu) 預(yù)測(cè)方法研究開展較早,主要包括支撐矢量機(jī)(SVM,Support Vector Machines)方法、貝葉 斯分類法、最近鄰法和神經(jīng)網(wǎng)絡(luò)方法等。
[0005] SVM法的基本原理是:對(duì)于分析的蛋白質(zhì)輸入序列,構(gòu)建基于SVM的分類器對(duì)不同 位點(diǎn)殘基的輸入特征進(jìn)行結(jié)構(gòu)分類,進(jìn)而實(shí)現(xiàn)結(jié)構(gòu)預(yù)測(cè);貝葉斯分類法通過蛋白質(zhì)序列輸 入特征構(gòu)造貝葉斯網(wǎng)絡(luò)進(jìn)行二級(jí)結(jié)構(gòu)預(yù)測(cè),能夠在一定程度上考慮蛋白質(zhì)序列殘基間的相 互作用關(guān)系;傳統(tǒng)神經(jīng)網(wǎng)絡(luò)方法通過多層神經(jīng)網(wǎng)絡(luò)對(duì)輸入蛋白質(zhì)序列進(jìn)行分類預(yù)測(cè),其收 斂速度及網(wǎng)絡(luò)參數(shù)選擇十分困難。
[0006] 傳統(tǒng)的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)方法已經(jīng)難以適應(yīng)大數(shù)據(jù)環(huán)境下結(jié)構(gòu)預(yù)測(cè)任務(wù)對(duì)計(jì) 算效率及準(zhǔn)確性的要求。
【發(fā)明內(nèi)容】
[0007] 針對(duì)上述技術(shù)問題,本發(fā)明提供一種高效的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)方法,能更準(zhǔn)確 的預(yù)測(cè)蛋白質(zhì)序列中氨基酸殘基的二級(jí)結(jié)構(gòu);其旨在解決現(xiàn)有技術(shù)不能充分利用序列間殘 基信息,不能符合大數(shù)據(jù)環(huán)境系結(jié)構(gòu)預(yù)測(cè)任務(wù)對(duì)計(jì)算效率及準(zhǔn)確性的要求,選擇收斂速度 及網(wǎng)絡(luò)參數(shù)困難且可靠性差等技術(shù)問題。
[0008] 本發(fā)明采用如下技術(shù)方案:基于深度神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)方法,包括 如下步驟:
[0009] 步驟1、獲取蛋白質(zhì)序列組合特征作為自編碼器網(wǎng)絡(luò)的輸入,提取出表征蛋白質(zhì)序 列組合特征的有效特征編碼,再訓(xùn)練自編碼器網(wǎng)絡(luò);
[0010]步驟2、使用預(yù)訓(xùn)練的自編碼器網(wǎng)絡(luò)初始化回復(fù)式深度網(wǎng)絡(luò)前端輸入層,采用反向 傳導(dǎo)算法,通過有監(jiān)督學(xué)習(xí)方式訓(xùn)練深度回復(fù)式神經(jīng)網(wǎng)絡(luò),所述神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法將蛋 白質(zhì)序列組合特征作為所述神經(jīng)網(wǎng)絡(luò)的輸入、對(duì)應(yīng)蛋白質(zhì)的二級(jí)結(jié)構(gòu)序列作為其目標(biāo)輸 出,訓(xùn)練二級(jí)結(jié)構(gòu)預(yù)測(cè)模型。訓(xùn)練完成后能夠預(yù)測(cè)蛋白質(zhì)各個(gè)殘基位點(diǎn)的二級(jí)結(jié)構(gòu),獲得蛋 白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)模型;
[0011] 步驟3、利用已訓(xùn)練的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)模型,輸入待分析蛋白質(zhì)序列特征,預(yù) 測(cè)待分析蛋白質(zhì)各個(gè)位點(diǎn)殘基的二級(jí)結(jié)構(gòu)。
[0012] 上述方法中,所述的步驟1,其中自編碼器網(wǎng)絡(luò)預(yù)訓(xùn)練提取出的有效特征編碼,包 括如下步驟:
[0013] 21)、以蛋白質(zhì)序列組合特征作為自編碼器網(wǎng)絡(luò)的輸入層輸入,采用逐層訓(xùn)練方式 訓(xùn)練多層自編碼器深度神經(jīng)網(wǎng)絡(luò);
[0014] 22)、定義自編碼器網(wǎng)絡(luò)收斂條件是自編碼器網(wǎng)絡(luò)整體重構(gòu)誤差小于收斂閾值或 其達(dá)到最大訓(xùn)練迭代次數(shù),當(dāng)自編碼器網(wǎng)絡(luò)收斂后,固定自編碼器網(wǎng)絡(luò)權(quán)值并截取編碼器 網(wǎng)絡(luò)的部分網(wǎng)絡(luò)進(jìn)行特征表達(dá),獲得有效特征編碼。
[0015] 上述方法中,所述的步驟2包括如下步驟:
[0016] 31)、初始化深度回復(fù)式神經(jīng)網(wǎng)絡(luò)參數(shù);
[0017] 32)、根據(jù)有效特征編碼和反向傳導(dǎo)算法,通過有監(jiān)督學(xué)習(xí)方式,循環(huán)訓(xùn)練深度回 復(fù)式神經(jīng)網(wǎng)絡(luò),其網(wǎng)絡(luò)輸入為蛋白質(zhì)序列組合特征、目標(biāo)輸出為殘基位點(diǎn)的真實(shí)二級(jí)結(jié)構(gòu) 且輸出為網(wǎng)絡(luò)預(yù)測(cè)對(duì)應(yīng)蛋白質(zhì)各個(gè)殘基位點(diǎn)的二級(jí)結(jié)構(gòu),并在循環(huán)訓(xùn)練后不斷更新深度回 復(fù)式神經(jīng)網(wǎng)絡(luò)參數(shù);
[0018] 33)、定義深度回復(fù)式神經(jīng)網(wǎng)絡(luò)收斂條件是深度回復(fù)式神經(jīng)網(wǎng)絡(luò)整體重構(gòu)誤差小 于收斂閾值或其達(dá)到最大訓(xùn)練迭代次數(shù),當(dāng)深度回復(fù)式神經(jīng)網(wǎng)絡(luò)收斂后,選取最優(yōu)的深度 回復(fù)式神經(jīng)網(wǎng)絡(luò)參數(shù),從而獲得蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)模型。
[0019] 上述方法中,所述的步驟3,具體包括如下步驟:
[0020] 41)、將待分析蛋白質(zhì)序列組合特征作為網(wǎng)絡(luò)輸入,利用步驟33),由蛋白質(zhì)二級(jí)結(jié) 構(gòu)預(yù)測(cè)模型進(jìn)行前向計(jì)算,獲得輸出結(jié)果;
[0021] 42)、根據(jù)輸出結(jié)果,預(yù)測(cè)蛋白質(zhì)序列各殘基位點(diǎn)二級(jí)結(jié)構(gòu)。
[0022] 與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:
[0023]利用深度學(xué)習(xí)技術(shù)強(qiáng)大學(xué)習(xí)能力提高了蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)的效率和準(zhǔn)確率;采 取雙向回復(fù)式神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),充分利用序列間殘基相互左右關(guān)系,提高預(yù)測(cè)可靠性;采用端 到端模型訓(xùn)練方式以及mu It itask模型,增強(qiáng)系統(tǒng)魯棒性;
[0024] 蛋白質(zhì)序列特征隱含大量結(jié)構(gòu)和功能信息,對(duì)其準(zhǔn)確的建模、分析及預(yù)測(cè)需要強(qiáng) 大的算法和計(jì)算能力。深度學(xué)習(xí)技術(shù)在大數(shù)據(jù)分析處理方面取得了巨大成功,具有強(qiáng)大的 學(xué)習(xí)能力和運(yùn)算效率,適合處理蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)任務(wù);
[0025] 蛋白質(zhì)序列殘基間存在大量隱式作用影響其二級(jí)結(jié)構(gòu),傳統(tǒng)的二級(jí)結(jié)構(gòu)預(yù)測(cè)方法 對(duì)序列信息的處理能力有限,預(yù)測(cè)時(shí)無法較好的利用序列殘基間信息,致使預(yù)測(cè)結(jié)果不盡 人意。雙向回復(fù)式神經(jīng)網(wǎng)絡(luò)技術(shù)具有很強(qiáng)的序列學(xué)習(xí)及處理能力,能夠較好的利用序列間 相互依賴關(guān)系提尚t旲型預(yù)測(cè)可靠性;
[0026] 采用最新的端到端模型以及回復(fù)式結(jié)構(gòu)處理二級(jí)結(jié)構(gòu)預(yù)測(cè)問題,構(gòu)建完整的機(jī)器 學(xué)習(xí)系統(tǒng),一方面便于預(yù)測(cè)模型方法的實(shí)際應(yīng)用,另一方面減少人工干預(yù)帶來的參數(shù)選擇 困難等問題。同時(shí),多任務(wù)學(xué)習(xí)模式有助于提高系統(tǒng)魯棒性。
【附圖說明】
[0027]圖1為自編碼網(wǎng)絡(luò)不意圖;
[0028]圖2為二級(jí)結(jié)構(gòu)預(yù)測(cè)深度網(wǎng)絡(luò)結(jié)構(gòu)圖;
[0029]圖3為雙向回復(fù)式GRU網(wǎng)絡(luò)示意圖;
[0030] 圖4為GRU神經(jīng)元結(jié)構(gòu)圖;
[0031]圖5為網(wǎng)絡(luò)學(xué)習(xí)算法圖;
[0032]圖6為本方法預(yù)測(cè)流程圖。
【具體實(shí)施方式】
[0033]下面將結(jié)合附圖及【具體實(shí)施方式】對(duì)本發(fā)明作進(jìn)一步的描述。
[0034] 實(shí)施例1
[0035]基于深度神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)方法,包括如下步驟:
[0036]步驟1、模型訓(xùn)練階段,其包括:
[0037] 獲取蛋白質(zhì)序列組合特征,位置特異性得分矩陣(PSSM,posit ion-specific scoring matrics),物化等特征作為輸入,訓(xùn)練自編碼器網(wǎng)絡(luò)以提取有效特征;
[0038]以獨(dú)立訓(xùn)練集蛋白質(zhì)序列組合特征作為輸入,對(duì)應(yīng)二級(jí)結(jié)構(gòu)序列作為目標(biāo),通過 有監(jiān)督學(xué)習(xí)方式訓(xùn)練深度回復(fù)式神經(jīng)網(wǎng)絡(luò)以預(yù)測(cè)各個(gè)殘基位點(diǎn)的二級(jí)結(jié)構(gòu)。
[0039]步驟2、預(yù)測(cè)階段,其包括:
[0040] 輸入蛋白質(zhì)序列特征,預(yù)測(cè)各個(gè)位點(diǎn)殘基二級(jí)結(jié)構(gòu)。
[0041] 上述技術(shù)方案中,步驟1中特征提取自編碼器預(yù)訓(xùn)練過程,包括以下步驟:
[0042] 11)、首先隨機(jī)選取訓(xùn)練集中蛋白質(zhì)序列若干氨基酸位點(diǎn)殘基組合特征構(gòu)成自編 碼器訓(xùn)練集A,其包含M個(gè)氨基酸殘基位點(diǎn),特征維度為N。
[0043] 12)、單一的自編碼器為一個(gè)三層對(duì)稱神經(jīng)網(wǎng)絡(luò),其輸入和輸入層維度相同。訓(xùn)練 時(shí),其輸入和目標(biāo)輸出相同,采用平方誤差性能函數(shù)訓(xùn)練至網(wǎng)絡(luò)收斂。采用基于反向傳導(dǎo)算 法(BP,Back propagation Algorithm)的逐層訓(xùn)練算法訓(xùn)練多個(gè)自編碼器并棧式連接組成 自編碼網(wǎng)絡(luò),該網(wǎng)絡(luò)為一個(gè)多層深度神經(jīng)網(wǎng)絡(luò),如圖1所示。
[0044] 預(yù)訓(xùn)練自編碼器網(wǎng)絡(luò)用于輸入蛋白質(zhì)組合特征的初步特征提取,網(wǎng)絡(luò)參數(shù)用于其 后深度回復(fù)式網(wǎng)絡(luò)中對(duì)應(yīng)層的參數(shù)初始化過程。
[0045] 上述技術(shù)方案中,步驟1中訓(xùn)練深度回復(fù)式神經(jīng)網(wǎng)絡(luò),包括如下步驟:
[0046] 13)、定義網(wǎng)絡(luò)結(jié)構(gòu),如圖2所示。網(wǎng)絡(luò)中稀疏自動(dòng)編碼(SAE,Sparse Auto Encoder)部分參數(shù)由12)中預(yù)訓(xùn)練網(wǎng)絡(luò)初始化權(quán)值用于初步特征提取。網(wǎng)絡(luò)整體包含多層 雙向回復(fù)式GRU層、全連接層以及輸出層。
[0047] 其中,雙向的門限循環(huán)單元(GRU,Gated Recurrent Unit)層結(jié)構(gòu)如圖3所示;GRU 神經(jīng)元結(jié)構(gòu)如圖4所示。其計(jì)算方式如下:
[0053] 其中i,j為對(duì)應(yīng)GRU神經(jīng)元編號(hào),〇(x)為sigmoid函數(shù),x_t*t時(shí)刻網(wǎng)絡(luò)輸入,W為網(wǎng) 絡(luò)連接權(quán)值矩陣,h_t為t時(shí)刻GRU神經(jīng)元隱層激活值,z_t為t時(shí)刻GRU神經(jīng)元更新門狀態(tài),r_ t為t時(shí)刻神經(jīng)元遺忘門狀態(tài),z_t為方程耦合系數(shù)。
[0054]網(wǎng)絡(luò)采用多輸出層設(shè)計(jì)以提高預(yù)測(cè)準(zhǔn)確性和加快收斂速度。輸出層分別采用平方 誤差以及Sof tmax作為性能函數(shù),其計(jì)算公式如下:
[0057]其中x,y分別為輸入樣本和對(duì)應(yīng)類別標(biāo)簽,1_{1}(1,\111的&)為歐式距離誤差函 數(shù)兒_{2}(1,\!116七3)為3〇;1^1]^1誤差函數(shù)。
[0058] 14)、網(wǎng)絡(luò)模型訓(xùn)練。網(wǎng)絡(luò)通過有監(jiān)督學(xué)習(xí)算法訓(xùn)練,輸入為訓(xùn)練集蛋白質(zhì)序列組 合特征數(shù)據(jù),目標(biāo)輸出為對(duì)應(yīng)殘基位點(diǎn)的二級(jí)結(jié)構(gòu)。學(xué)習(xí)算法如圖5所示。其中參數(shù)取值可 參照:
[0059] a = 0.001,Pl=0.9,P2 = 0.999,e = le-8;
[0060]其中a為網(wǎng)絡(luò)學(xué)習(xí)率,m,P2分別為計(jì)算一階梯度及二階梯度的沖量系數(shù),e為極小 量以避免分母為零。網(wǎng)絡(luò)收斂或達(dá)到最大訓(xùn)練次數(shù)后,保存模型用于預(yù)測(cè)。網(wǎng)絡(luò)收斂或達(dá)到 最大訓(xùn)練次數(shù)后,保存模型用于預(yù)測(cè)。
[0061] 上述技術(shù)方案中,步驟2進(jìn)行蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè),包括如下步驟:
[0062] 21)、輸入蛋白質(zhì)序列特征,預(yù)測(cè)各個(gè)位點(diǎn)殘基二級(jí)結(jié)構(gòu)。
[0063] 實(shí)施例2
[0064] 參見圖6,一種基于深度神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)方法,首先,輸入蛋白質(zhì) 序列特征組合序列,其包含蛋白質(zhì)序列各個(gè)殘基位點(diǎn)的組合特征(PSSM、物化特征等)。輸入 數(shù)據(jù)需進(jìn)行預(yù)處理,其包括標(biāo)準(zhǔn)化,特征維度對(duì)齊等。最終輸入為蛋白質(zhì)序列特征矩陣。
[0065] 模型訓(xùn)練階段即訓(xùn)練二級(jí)結(jié)構(gòu)預(yù)測(cè)模型。其具體過程如下:
[0066] 1)預(yù)訓(xùn)練自編碼特征提取網(wǎng)絡(luò)。采用基于BP算法的逐層訓(xùn)練算法訓(xùn)練多個(gè)自編碼 器并棧式連接組成自編碼網(wǎng)絡(luò),該網(wǎng)絡(luò)為一個(gè)多層深度神經(jīng)網(wǎng)絡(luò),如圖1所示。預(yù)訓(xùn)練自編 碼器網(wǎng)絡(luò)用于輸入蛋白質(zhì)組合特征的初步特征提取,網(wǎng)絡(luò)參數(shù)用于其后深度回復(fù)式網(wǎng)絡(luò)中 對(duì)應(yīng)層的參數(shù)初始化過程。
[0067] 2)訓(xùn)練深度回復(fù)式預(yù)測(cè)網(wǎng)絡(luò)。如圖2所示。網(wǎng)絡(luò)中SAE部分參數(shù)由中預(yù)訓(xùn)練網(wǎng)絡(luò)初 始化權(quán)值用于初步特征提取。網(wǎng)絡(luò)整體包含多層雙向回復(fù)式GRU層、全連接層以及輸出層。 [0068]其中,雙向GRU層結(jié)構(gòu)如圖3所示;GRU神經(jīng)元結(jié)構(gòu)如圖4所示。其計(jì)算方式如下: _9]《=汶,)
[0074]網(wǎng)絡(luò)采用多輸出層設(shè)計(jì)以提高預(yù)測(cè)準(zhǔn)確性和加快收斂速度。輸出層分別采用平方 誤差以及Sof tmax作為性能函數(shù),其計(jì)算公式如下:
[0077] 網(wǎng)絡(luò)模型訓(xùn)練:網(wǎng)絡(luò)通過有監(jiān)督學(xué)習(xí)算法訓(xùn)練,輸入為訓(xùn)練集蛋白質(zhì)序列組合特 征數(shù)據(jù),目標(biāo)輸出為對(duì)應(yīng)殘基位點(diǎn)的二級(jí)結(jié)構(gòu)。學(xué)習(xí)算法如圖5所示。其中參數(shù)設(shè)置參考如 下:
[0078] a = 0.001,Pl=0.9,P2 = 0.999,e = le-8;
[0079]其中a為網(wǎng)絡(luò)學(xué)習(xí)率,m,P2分別為計(jì)算一階梯度及二階梯度的沖量系數(shù),e為極小 量以避免分母為零。網(wǎng)絡(luò)收斂或達(dá)到最大訓(xùn)練次數(shù)后,保存模型用于預(yù)測(cè)。
[0080] 預(yù)測(cè)階段利用優(yōu)化后模型進(jìn)行二級(jí)結(jié)構(gòu)預(yù)測(cè)。其包括:輸入蛋白質(zhì)序列特征,預(yù)測(cè) 各個(gè)位點(diǎn)殘基二級(jí)結(jié)構(gòu)。
[0081] 以上所述,僅為本發(fā)明的【具體實(shí)施方式】,但本發(fā)明的保護(hù)范圍并不局限于此,任何 屬于本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng) 涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1. 一種基于深度神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)方法,其特征包括如下步驟: 步驟1、獲取蛋白質(zhì)序列組合特征作為自編碼器網(wǎng)絡(luò)的輸入,并提取出表征蛋白質(zhì)序列 組合特征的有效特征編碼,再預(yù)訓(xùn)練自編碼器網(wǎng)絡(luò); 步驟2、使用預(yù)訓(xùn)練的自編碼器網(wǎng)絡(luò)初始化回復(fù)式深度網(wǎng)絡(luò)前端輸入層,采用反向傳導(dǎo) 算法,通過有監(jiān)督學(xué)習(xí)方式訓(xùn)練深度回復(fù)式神經(jīng)網(wǎng)絡(luò),所述神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法將蛋白質(zhì) 序列組合特征作為所述神經(jīng)網(wǎng)絡(luò)的輸入、對(duì)應(yīng)蛋白質(zhì)的二級(jí)結(jié)構(gòu)序列作為其目標(biāo)輸出,訓(xùn) 練二級(jí)結(jié)構(gòu)預(yù)測(cè)模型,訓(xùn)練完成后能夠預(yù)測(cè)蛋白質(zhì)各個(gè)殘基位點(diǎn)的二級(jí)結(jié)構(gòu),獲得蛋白質(zhì) 二級(jí)結(jié)構(gòu)預(yù)測(cè)模型; 步驟3、利用已訓(xùn)練的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)模型,輸入待分析蛋白質(zhì)序列特征,預(yù)測(cè)待 分析蛋白質(zhì)各個(gè)位點(diǎn)殘基的二級(jí)結(jié)構(gòu)。2. 根據(jù)權(quán)利要求1所述的一種基于深度神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)方法,其特征 在于,所述的步驟1,其中自編碼器網(wǎng)絡(luò)預(yù)訓(xùn)練提取出的有效特征編碼,包括如下步驟: 21) 、以蛋白質(zhì)序列組合特征作為自編碼器網(wǎng)絡(luò)的輸入層輸入,根據(jù)回復(fù)式深度網(wǎng)絡(luò)前 端輸入層結(jié)構(gòu),采用逐層訓(xùn)練方式訓(xùn)練對(duì)應(yīng)的多層自編碼器深度神經(jīng)網(wǎng)絡(luò); 22) 、自編碼器網(wǎng)絡(luò)收斂條件為:自編碼器網(wǎng)絡(luò)整體重構(gòu)誤差小于收斂閾值或其達(dá)到最 大訓(xùn)練迭代次數(shù),當(dāng)自編碼器網(wǎng)絡(luò)收斂后,固定自編碼器網(wǎng)絡(luò)權(quán)值用于初始化回復(fù)式深度 網(wǎng)絡(luò)前端輸入層以獲得有效特征編碼。3. 根據(jù)權(quán)利要求1所述的一種基于深度神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)方法,其特征 在于,所述的步驟2包括如下步驟: 31) 、采用預(yù)訓(xùn)練自編碼器網(wǎng)絡(luò)初始化深度回復(fù)式神經(jīng)網(wǎng)絡(luò)參數(shù); 32) 、通過有監(jiān)督學(xué)習(xí)方式,采用反向傳播算法循環(huán)訓(xùn)練深度回復(fù)式神經(jīng)網(wǎng)絡(luò),其網(wǎng)絡(luò) 輸入為蛋白質(zhì)序列組合特征、目標(biāo)輸出為殘基位點(diǎn)的真實(shí)二級(jí)結(jié)構(gòu)且輸出為網(wǎng)絡(luò)預(yù)測(cè)對(duì)應(yīng) 蛋白質(zhì)各個(gè)殘基位點(diǎn)的二級(jí)結(jié)構(gòu),并在循環(huán)訓(xùn)練后不斷更新深度回復(fù)式神經(jīng)網(wǎng)絡(luò)參數(shù); 33) 、定義深度回復(fù)式神經(jīng)網(wǎng)絡(luò)收斂條件是深度回復(fù)式神經(jīng)網(wǎng)絡(luò)整體重構(gòu)誤差小于收 斂閾值或其達(dá)到最大訓(xùn)練迭代次數(shù),當(dāng)深度回復(fù)式神經(jīng)網(wǎng)絡(luò)收斂后,選取最優(yōu)的深度回復(fù) 式神經(jīng)網(wǎng)絡(luò)參數(shù),從而獲得蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)模型。4. 根據(jù)權(quán)利要求3所述的一種基于深度神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)方法,其特征 在于,所述的步驟3,具體包括如下步驟: 41) 、將待分析蛋白質(zhì)序列組合特征作為網(wǎng)絡(luò)輸入,由蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)模型進(jìn)行前 向計(jì)算,獲得輸出結(jié)果; 42) 、根據(jù)輸出結(jié)果,預(yù)測(cè)蛋白質(zhì)序列各殘基位點(diǎn)二級(jí)結(jié)構(gòu)。
【文檔編號(hào)】G06F19/16GK105930686SQ201610519695
【公開日】2016年9月7日
【申請(qǐng)日】2016年7月5日
【發(fā)明人】毛華, 陳媛媛, 羅川, 汪洋旭, 陳盈科
【申請(qǐng)人】四川大學(xué)