一種基于深度神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)方法

文檔序號(hào)：10570247閱讀：441來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于深度神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)方法
【專利摘要】本發(fā)明公開了一種基于深度學(xué)習(xí)及神經(jīng)網(wǎng)絡(luò)方法的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)方法，本發(fā)明涉及神經(jīng)網(wǎng)絡(luò)及蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)技術(shù)領(lǐng)域。該方法以蛋白質(zhì)特征序列為輸入，通過設(shè)計(jì)的深度回復(fù)式神經(jīng)網(wǎng)絡(luò)模型，預(yù)測(cè)序列各個(gè)位點(diǎn)氨基酸殘基的空間二級(jí)結(jié)構(gòu)。本發(fā)明實(shí)現(xiàn)了基于輸入特征的二級(jí)結(jié)構(gòu)自動(dòng)預(yù)測(cè)，具有很好的泛化能力，能夠根據(jù)不同輸入特征訓(xùn)練特定模型并實(shí)現(xiàn)高準(zhǔn)確度的二級(jí)結(jié)構(gòu)預(yù)測(cè)。
【專利說明】一種基于深度神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)方法
[0001 ] 技術(shù)鄰域
[0002] 本發(fā)明涉及特征學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)、蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)和序列學(xué)習(xí)等領(lǐng)域，具體涉及一種基于深度神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)方法。
【背景技術(shù)】
[0003] 蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)問題是計(jì)算生物學(xué)的重要研究問題之一，其能夠發(fā)現(xiàn)蛋白質(zhì)序列結(jié)構(gòu)和其功能間的復(fù)雜關(guān)系，其中二級(jí)結(jié)構(gòu)預(yù)測(cè)問題又是各種更高級(jí)結(jié)構(gòu)預(yù)測(cè)問題的基礎(chǔ)。通過準(zhǔn)確的蛋白質(zhì)^級(jí)結(jié)構(gòu)預(yù)測(cè)，研究者能夠快速獲取蛋白質(zhì)序列中氣基酸殘基的^-級(jí)結(jié)構(gòu)構(gòu)象信息，如螺旋、折疊以及不規(guī)則卷曲等，這為基于序列的蛋白質(zhì)結(jié)構(gòu)及功能分析提供了有效的數(shù)據(jù)參考并被廣泛采用。
[0004] 通過實(shí)驗(yàn)測(cè)定蛋白質(zhì)結(jié)構(gòu)費(fèi)時(shí)費(fèi)力，隨著人類基因組及全基因組計(jì)劃的順利實(shí) 施，海量待分析蛋白質(zhì)序列數(shù)據(jù)對(duì)蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)方法提出了挑戰(zhàn)。蛋白質(zhì)二級(jí)結(jié)構(gòu) 預(yù)測(cè)方法研究開展較早，主要包括支撐矢量機(jī)(SVM，Support Vector Machines)方法、貝葉斯分類法、最近鄰法和神經(jīng)網(wǎng)絡(luò)方法等。
[0005] SVM法的基本原理是：對(duì)于分析的蛋白質(zhì)輸入序列，構(gòu)建基于SVM的分類器對(duì)不同位點(diǎn)殘基的輸入特征進(jìn)行結(jié)構(gòu)分類，進(jìn)而實(shí)現(xiàn)結(jié)構(gòu)預(yù)測(cè)；貝葉斯分類法通過蛋白質(zhì)序列輸入特征構(gòu)造貝葉斯網(wǎng)絡(luò)進(jìn)行二級(jí)結(jié)構(gòu)預(yù)測(cè)，能夠在一定程度上考慮蛋白質(zhì)序列殘基間的相互作用關(guān)系；傳統(tǒng)神經(jīng)網(wǎng)絡(luò)方法通過多層神經(jīng)網(wǎng)絡(luò)對(duì)輸入蛋白質(zhì)序列進(jìn)行分類預(yù)測(cè)，其收斂速度及網(wǎng)絡(luò)參數(shù)選擇十分困難。
[0006] 傳統(tǒng)的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)方法已經(jīng)難以適應(yīng)大數(shù)據(jù)環(huán)境下結(jié)構(gòu)預(yù)測(cè)任務(wù)對(duì)計(jì) 算效率及準(zhǔn)確性的要求。

【發(fā)明內(nèi)容】

[0007] 針對(duì)上述技術(shù)問題，本發(fā)明提供一種高效的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)方法，能更準(zhǔn)確的預(yù)測(cè)蛋白質(zhì)序列中氨基酸殘基的二級(jí)結(jié)構(gòu);其旨在解決現(xiàn)有技術(shù)不能充分利用序列間殘基信息，不能符合大數(shù)據(jù)環(huán)境系結(jié)構(gòu)預(yù)測(cè)任務(wù)對(duì)計(jì)算效率及準(zhǔn)確性的要求，選擇收斂速度及網(wǎng)絡(luò)參數(shù)困難且可靠性差等技術(shù)問題。
[0008] 本發(fā)明采用如下技術(shù)方案：基于深度神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)方法，包括如下步驟：
[0009] 步驟1、獲取蛋白質(zhì)序列組合特征作為自編碼器網(wǎng)絡(luò)的輸入，提取出表征蛋白質(zhì)序列組合特征的有效特征編碼，再訓(xùn)練自編碼器網(wǎng)絡(luò)；
[0010]步驟2、使用預(yù)訓(xùn)練的自編碼器網(wǎng)絡(luò)初始化回復(fù)式深度網(wǎng)絡(luò)前端輸入層，采用反向傳導(dǎo)算法，通過有監(jiān)督學(xué)習(xí)方式訓(xùn)練深度回復(fù)式神經(jīng)網(wǎng)絡(luò)，所述神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法將蛋白質(zhì)序列組合特征作為所述神經(jīng)網(wǎng)絡(luò)的輸入、對(duì)應(yīng)蛋白質(zhì)的二級(jí)結(jié)構(gòu)序列作為其目標(biāo)輸出，訓(xùn)練二級(jí)結(jié)構(gòu)預(yù)測(cè)模型。訓(xùn)練完成后能夠預(yù)測(cè)蛋白質(zhì)各個(gè)殘基位點(diǎn)的二級(jí)結(jié)構(gòu)，獲得蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)模型；
[0011] 步驟3、利用已訓(xùn)練的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)模型，輸入待分析蛋白質(zhì)序列特征，預(yù) 測(cè)待分析蛋白質(zhì)各個(gè)位點(diǎn)殘基的二級(jí)結(jié)構(gòu)。
[0012] 上述方法中，所述的步驟1，其中自編碼器網(wǎng)絡(luò)預(yù)訓(xùn)練提取出的有效特征編碼，包括如下步驟：
[0013] 21)、以蛋白質(zhì)序列組合特征作為自編碼器網(wǎng)絡(luò)的輸入層輸入，采用逐層訓(xùn)練方式訓(xùn)練多層自編碼器深度神經(jīng)網(wǎng)絡(luò)；
[0014] 22)、定義自編碼器網(wǎng)絡(luò)收斂條件是自編碼器網(wǎng)絡(luò)整體重構(gòu)誤差小于收斂閾值或其達(dá)到最大訓(xùn)練迭代次數(shù)，當(dāng)自編碼器網(wǎng)絡(luò)收斂后，固定自編碼器網(wǎng)絡(luò)權(quán)值并截取編碼器網(wǎng)絡(luò)的部分網(wǎng)絡(luò)進(jìn)行特征表達(dá)，獲得有效特征編碼。
[0015] 上述方法中，所述的步驟2包括如下步驟：
[0016] 31)、初始化深度回復(fù)式神經(jīng)網(wǎng)絡(luò)參數(shù)；
[0017] 32)、根據(jù)有效特征編碼和反向傳導(dǎo)算法，通過有監(jiān)督學(xué)習(xí)方式，循環(huán)訓(xùn)練深度回復(fù)式神經(jīng)網(wǎng)絡(luò)，其網(wǎng)絡(luò)輸入為蛋白質(zhì)序列組合特征、目標(biāo)輸出為殘基位點(diǎn)的真實(shí)二級(jí)結(jié)構(gòu) 且輸出為網(wǎng)絡(luò)預(yù)測(cè)對(duì)應(yīng)蛋白質(zhì)各個(gè)殘基位點(diǎn)的二級(jí)結(jié)構(gòu)，并在循環(huán)訓(xùn)練后不斷更新深度回復(fù)式神經(jīng)網(wǎng)絡(luò)參數(shù)；
[0018] 33)、定義深度回復(fù)式神經(jīng)網(wǎng)絡(luò)收斂條件是深度回復(fù)式神經(jīng)網(wǎng)絡(luò)整體重構(gòu)誤差小于收斂閾值或其達(dá)到最大訓(xùn)練迭代次數(shù)，當(dāng)深度回復(fù)式神經(jīng)網(wǎng)絡(luò)收斂后，選取最優(yōu)的深度回復(fù)式神經(jīng)網(wǎng)絡(luò)參數(shù)，從而獲得蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)模型。
[0019] 上述方法中，所述的步驟3,具體包括如下步驟：
[0020] 41)、將待分析蛋白質(zhì)序列組合特征作為網(wǎng)絡(luò)輸入，利用步驟33)，由蛋白質(zhì)二級(jí)結(jié) 構(gòu)預(yù)測(cè)模型進(jìn)行前向計(jì)算，獲得輸出結(jié)果；
[0021] 42)、根據(jù)輸出結(jié)果，預(yù)測(cè)蛋白質(zhì)序列各殘基位點(diǎn)二級(jí)結(jié)構(gòu)。
[0022] 與現(xiàn)有技術(shù)相比，本發(fā)明具有以下有益效果：
[0023]利用深度學(xué)習(xí)技術(shù)強(qiáng)大學(xué)習(xí)能力提高了蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)的效率和準(zhǔn)確率;采取雙向回復(fù)式神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，充分利用序列間殘基相互左右關(guān)系，提高預(yù)測(cè)可靠性;采用端到端模型訓(xùn)練方式以及mu It itask模型，增強(qiáng)系統(tǒng)魯棒性；
[0024] 蛋白質(zhì)序列特征隱含大量結(jié)構(gòu)和功能信息，對(duì)其準(zhǔn)確的建模、分析及預(yù)測(cè)需要強(qiáng) 大的算法和計(jì)算能力。深度學(xué)習(xí)技術(shù)在大數(shù)據(jù)分析處理方面取得了巨大成功，具有強(qiáng)大的學(xué)習(xí)能力和運(yùn)算效率，適合處理蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)任務(wù)；
[0025] 蛋白質(zhì)序列殘基間存在大量隱式作用影響其二級(jí)結(jié)構(gòu)，傳統(tǒng)的二級(jí)結(jié)構(gòu)預(yù)測(cè)方法對(duì)序列信息的處理能力有限，預(yù)測(cè)時(shí)無法較好的利用序列殘基間信息，致使預(yù)測(cè)結(jié)果不盡人意。雙向回復(fù)式神經(jīng)網(wǎng)絡(luò)技術(shù)具有很強(qiáng)的序列學(xué)習(xí)及處理能力，能夠較好的利用序列間相互依賴關(guān)系提尚t旲型預(yù)測(cè)可靠性；
[0026] 采用最新的端到端模型以及回復(fù)式結(jié)構(gòu)處理二級(jí)結(jié)構(gòu)預(yù)測(cè)問題，構(gòu)建完整的機(jī)器學(xué)習(xí)系統(tǒng)，一方面便于預(yù)測(cè)模型方法的實(shí)際應(yīng)用，另一方面減少人工干預(yù)帶來的參數(shù)選擇困難等問題。同時(shí)，多任務(wù)學(xué)習(xí)模式有助于提高系統(tǒng)魯棒性。
【附圖說明】
[0027]圖1為自編碼網(wǎng)絡(luò)不意圖；
[0028]圖2為二級(jí)結(jié)構(gòu)預(yù)測(cè)深度網(wǎng)絡(luò)結(jié)構(gòu)圖；
[0029]圖3為雙向回復(fù)式GRU網(wǎng)絡(luò)示意圖；
[0030] 圖4為GRU神經(jīng)元結(jié)構(gòu)圖；
[0031]圖5為網(wǎng)絡(luò)學(xué)習(xí)算法圖；
[0032]圖6為本方法預(yù)測(cè)流程圖。
【具體實(shí)施方式】
[0033]下面將結(jié)合附圖及【具體實(shí)施方式】對(duì)本發(fā)明作進(jìn)一步的描述。
[0034] 實(shí)施例1
[0035]基于深度神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)方法，包括如下步驟：
[0036]步驟1、模型訓(xùn)練階段，其包括：
[0037] 獲取蛋白質(zhì)序列組合特征，位置特異性得分矩陣（PSSM，posit ion-specific scoring matrics)，物化等特征作為輸入，訓(xùn)練自編碼器網(wǎng)絡(luò)以提取有效特征；
[0038]以獨(dú)立訓(xùn)練集蛋白質(zhì)序列組合特征作為輸入，對(duì)應(yīng)二級(jí)結(jié)構(gòu)序列作為目標(biāo)，通過有監(jiān)督學(xué)習(xí)方式訓(xùn)練深度回復(fù)式神經(jīng)網(wǎng)絡(luò)以預(yù)測(cè)各個(gè)殘基位點(diǎn)的二級(jí)結(jié)構(gòu)。
[0039]步驟2、預(yù)測(cè)階段，其包括：
[0040] 輸入蛋白質(zhì)序列特征，預(yù)測(cè)各個(gè)位點(diǎn)殘基二級(jí)結(jié)構(gòu)。
[0041] 上述技術(shù)方案中，步驟1中特征提取自編碼器預(yù)訓(xùn)練過程，包括以下步驟：
[0042] 11)、首先隨機(jī)選取訓(xùn)練集中蛋白質(zhì)序列若干氨基酸位點(diǎn)殘基組合特征構(gòu)成自編碼器訓(xùn)練集A，其包含M個(gè)氨基酸殘基位點(diǎn)，特征維度為N。
[0043] 12)、單一的自編碼器為一個(gè)三層對(duì)稱神經(jīng)網(wǎng)絡(luò)，其輸入和輸入層維度相同。訓(xùn)練時(shí)，其輸入和目標(biāo)輸出相同，采用平方誤差性能函數(shù)訓(xùn)練至網(wǎng)絡(luò)收斂。采用基于反向傳導(dǎo)算法(BP，Back propagation Algorithm)的逐層訓(xùn)練算法訓(xùn)練多個(gè)自編碼器并棧式連接組成自編碼網(wǎng)絡(luò)，該網(wǎng)絡(luò)為一個(gè)多層深度神經(jīng)網(wǎng)絡(luò)，如圖1所示。
[0044] 預(yù)訓(xùn)練自編碼器網(wǎng)絡(luò)用于輸入蛋白質(zhì)組合特征的初步特征提取，網(wǎng)絡(luò)參數(shù)用于其后深度回復(fù)式網(wǎng)絡(luò)中對(duì)應(yīng)層的參數(shù)初始化過程。
[0045] 上述技術(shù)方案中，步驟1中訓(xùn)練深度回復(fù)式神經(jīng)網(wǎng)絡(luò)，包括如下步驟：
[0046] 13)、定義網(wǎng)絡(luò)結(jié)構(gòu)，如圖2所示。網(wǎng)絡(luò)中稀疏自動(dòng)編碼（SAE，Sparse Auto Encoder)部分參數(shù)由12)中預(yù)訓(xùn)練網(wǎng)絡(luò)初始化權(quán)值用于初步特征提取。網(wǎng)絡(luò)整體包含多層雙向回復(fù)式GRU層、全連接層以及輸出層。
[0047] 其中，雙向的門限循環(huán)單元(GRU，Gated Recurrent Unit)層結(jié)構(gòu)如圖3所示;GRU 神經(jīng)元結(jié)構(gòu)如圖4所示。其計(jì)算方式如下：

[0053] 其中i，j為對(duì)應(yīng)GRU神經(jīng)元編號(hào)，〇(x)為sigmoid函數(shù)，x_t*t時(shí)刻網(wǎng)絡(luò)輸入，W為網(wǎng) 絡(luò)連接權(quán)值矩陣，h_t為t時(shí)刻GRU神經(jīng)元隱層激活值，z_t為t時(shí)刻GRU神經(jīng)元更新門狀態(tài)，r_ t為t時(shí)刻神經(jīng)元遺忘門狀態(tài)，z_t為方程耦合系數(shù)。
[0054]網(wǎng)絡(luò)采用多輸出層設(shè)計(jì)以提高預(yù)測(cè)準(zhǔn)確性和加快收斂速度。輸出層分別采用平方誤差以及Sof tmax作為性能函數(shù)，其計(jì)算公式如下：
[0057]其中x，y分別為輸入樣本和對(duì)應(yīng)類別標(biāo)簽，1_{1}(1，\111的&)為歐式距離誤差函數(shù)兒_{2}(1，\!116七3)為3〇;1^1]^1誤差函數(shù)。
[0058] 14)、網(wǎng)絡(luò)模型訓(xùn)練。網(wǎng)絡(luò)通過有監(jiān)督學(xué)習(xí)算法訓(xùn)練，輸入為訓(xùn)練集蛋白質(zhì)序列組合特征數(shù)據(jù)，目標(biāo)輸出為對(duì)應(yīng)殘基位點(diǎn)的二級(jí)結(jié)構(gòu)。學(xué)習(xí)算法如圖5所示。其中參數(shù)取值可參照：
[0059] a = 0.001,Pl=0.9,P2 = 0.999,e = le-8；
[0060]其中a為網(wǎng)絡(luò)學(xué)習(xí)率，m，P2分別為計(jì)算一階梯度及二階梯度的沖量系數(shù)，e為極小量以避免分母為零。網(wǎng)絡(luò)收斂或達(dá)到最大訓(xùn)練次數(shù)后，保存模型用于預(yù)測(cè)。網(wǎng)絡(luò)收斂或達(dá)到最大訓(xùn)練次數(shù)后，保存模型用于預(yù)測(cè)。
[0061] 上述技術(shù)方案中，步驟2進(jìn)行蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)，包括如下步驟：
[0062] 21)、輸入蛋白質(zhì)序列特征，預(yù)測(cè)各個(gè)位點(diǎn)殘基二級(jí)結(jié)構(gòu)。
[0063] 實(shí)施例2
[0064] 參見圖6,一種基于深度神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)方法，首先，輸入蛋白質(zhì) 序列特征組合序列，其包含蛋白質(zhì)序列各個(gè)殘基位點(diǎn)的組合特征(PSSM、物化特征等）。輸入數(shù)據(jù)需進(jìn)行預(yù)處理，其包括標(biāo)準(zhǔn)化，特征維度對(duì)齊等。最終輸入為蛋白質(zhì)序列特征矩陣。
[0065] 模型訓(xùn)練階段即訓(xùn)練二級(jí)結(jié)構(gòu)預(yù)測(cè)模型。其具體過程如下：
[0066] 1)預(yù)訓(xùn)練自編碼特征提取網(wǎng)絡(luò)。采用基于BP算法的逐層訓(xùn)練算法訓(xùn)練多個(gè)自編碼器并棧式連接組成自編碼網(wǎng)絡(luò)，該網(wǎng)絡(luò)為一個(gè)多層深度神經(jīng)網(wǎng)絡(luò)，如圖1所示。預(yù)訓(xùn)練自編碼器網(wǎng)絡(luò)用于輸入蛋白質(zhì)組合特征的初步特征提取，網(wǎng)絡(luò)參數(shù)用于其后深度回復(fù)式網(wǎng)絡(luò)中對(duì)應(yīng)層的參數(shù)初始化過程。
[0067] 2)訓(xùn)練深度回復(fù)式預(yù)測(cè)網(wǎng)絡(luò)。如圖2所示。網(wǎng)絡(luò)中SAE部分參數(shù)由中預(yù)訓(xùn)練網(wǎng)絡(luò)初始化權(quán)值用于初步特征提取。網(wǎng)絡(luò)整體包含多層雙向回復(fù)式GRU層、全連接層以及輸出層。 [0068]其中，雙向GRU層結(jié)構(gòu)如圖3所示;GRU神經(jīng)元結(jié)構(gòu)如圖4所示。其計(jì)算方式如下： _9]《=汶，）
[0074]網(wǎng)絡(luò)采用多輸出層設(shè)計(jì)以提高預(yù)測(cè)準(zhǔn)確性和加快收斂速度。輸出層分別采用平方誤差以及Sof tmax作為性能函數(shù)，其計(jì)算公式如下：
[0077] 網(wǎng)絡(luò)模型訓(xùn)練：網(wǎng)絡(luò)通過有監(jiān)督學(xué)習(xí)算法訓(xùn)練，輸入為訓(xùn)練集蛋白質(zhì)序列組合特征數(shù)據(jù)，目標(biāo)輸出為對(duì)應(yīng)殘基位點(diǎn)的二級(jí)結(jié)構(gòu)。學(xué)習(xí)算法如圖5所示。其中參數(shù)設(shè)置參考如下：
[0078] a = 0.001,Pl=0.9,P2 = 0.999,e = le-8；
[0079]其中a為網(wǎng)絡(luò)學(xué)習(xí)率，m，P2分別為計(jì)算一階梯度及二階梯度的沖量系數(shù)，e為極小量以避免分母為零。網(wǎng)絡(luò)收斂或達(dá)到最大訓(xùn)練次數(shù)后，保存模型用于預(yù)測(cè)。
[0080] 預(yù)測(cè)階段利用優(yōu)化后模型進(jìn)行二級(jí)結(jié)構(gòu)預(yù)測(cè)。其包括:輸入蛋白質(zhì)序列特征，預(yù)測(cè) 各個(gè)位點(diǎn)殘基二級(jí)結(jié)構(gòu)。
[0081] 以上所述，僅為本發(fā)明的【具體實(shí)施方式】，但本發(fā)明的保護(hù)范圍并不局限于此，任何屬于本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi)，可輕易想到的變化或替換，都應(yīng) 涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1. 一種基于深度神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)方法，其特征包括如下步驟：步驟1、獲取蛋白質(zhì)序列組合特征作為自編碼器網(wǎng)絡(luò)的輸入，并提取出表征蛋白質(zhì)序列組合特征的有效特征編碼，再預(yù)訓(xùn)練自編碼器網(wǎng)絡(luò)；步驟2、使用預(yù)訓(xùn)練的自編碼器網(wǎng)絡(luò)初始化回復(fù)式深度網(wǎng)絡(luò)前端輸入層，采用反向傳導(dǎo) 算法，通過有監(jiān)督學(xué)習(xí)方式訓(xùn)練深度回復(fù)式神經(jīng)網(wǎng)絡(luò)，所述神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法將蛋白質(zhì) 序列組合特征作為所述神經(jīng)網(wǎng)絡(luò)的輸入、對(duì)應(yīng)蛋白質(zhì)的二級(jí)結(jié)構(gòu)序列作為其目標(biāo)輸出，訓(xùn) 練二級(jí)結(jié)構(gòu)預(yù)測(cè)模型，訓(xùn)練完成后能夠預(yù)測(cè)蛋白質(zhì)各個(gè)殘基位點(diǎn)的二級(jí)結(jié)構(gòu)，獲得蛋白質(zhì) 二級(jí)結(jié)構(gòu)預(yù)測(cè)模型；步驟3、利用已訓(xùn)練的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)模型，輸入待分析蛋白質(zhì)序列特征，預(yù)測(cè)待分析蛋白質(zhì)各個(gè)位點(diǎn)殘基的二級(jí)結(jié)構(gòu)。2. 根據(jù)權(quán)利要求1所述的一種基于深度神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)方法，其特征在于，所述的步驟1，其中自編碼器網(wǎng)絡(luò)預(yù)訓(xùn)練提取出的有效特征編碼，包括如下步驟： 21) 、以蛋白質(zhì)序列組合特征作為自編碼器網(wǎng)絡(luò)的輸入層輸入，根據(jù)回復(fù)式深度網(wǎng)絡(luò)前端輸入層結(jié)構(gòu)，采用逐層訓(xùn)練方式訓(xùn)練對(duì)應(yīng)的多層自編碼器深度神經(jīng)網(wǎng)絡(luò)； 22) 、自編碼器網(wǎng)絡(luò)收斂條件為：自編碼器網(wǎng)絡(luò)整體重構(gòu)誤差小于收斂閾值或其達(dá)到最大訓(xùn)練迭代次數(shù)，當(dāng)自編碼器網(wǎng)絡(luò)收斂后，固定自編碼器網(wǎng)絡(luò)權(quán)值用于初始化回復(fù)式深度網(wǎng)絡(luò)前端輸入層以獲得有效特征編碼。3. 根據(jù)權(quán)利要求1所述的一種基于深度神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)方法，其特征在于，所述的步驟2包括如下步驟： 31) 、采用預(yù)訓(xùn)練自編碼器網(wǎng)絡(luò)初始化深度回復(fù)式神經(jīng)網(wǎng)絡(luò)參數(shù)； 32) 、通過有監(jiān)督學(xué)習(xí)方式，采用反向傳播算法循環(huán)訓(xùn)練深度回復(fù)式神經(jīng)網(wǎng)絡(luò)，其網(wǎng)絡(luò) 輸入為蛋白質(zhì)序列組合特征、目標(biāo)輸出為殘基位點(diǎn)的真實(shí)二級(jí)結(jié)構(gòu)且輸出為網(wǎng)絡(luò)預(yù)測(cè)對(duì)應(yīng) 蛋白質(zhì)各個(gè)殘基位點(diǎn)的二級(jí)結(jié)構(gòu)，并在循環(huán)訓(xùn)練后不斷更新深度回復(fù)式神經(jīng)網(wǎng)絡(luò)參數(shù)； 33) 、定義深度回復(fù)式神經(jīng)網(wǎng)絡(luò)收斂條件是深度回復(fù)式神經(jīng)網(wǎng)絡(luò)整體重構(gòu)誤差小于收斂閾值或其達(dá)到最大訓(xùn)練迭代次數(shù)，當(dāng)深度回復(fù)式神經(jīng)網(wǎng)絡(luò)收斂后，選取最優(yōu)的深度回復(fù) 式神經(jīng)網(wǎng)絡(luò)參數(shù)，從而獲得蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)模型。4. 根據(jù)權(quán)利要求3所述的一種基于深度神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)方法，其特征在于，所述的步驟3，具體包括如下步驟： 41) 、將待分析蛋白質(zhì)序列組合特征作為網(wǎng)絡(luò)輸入，由蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)模型進(jìn)行前向計(jì)算，獲得輸出結(jié)果； 42) 、根據(jù)輸出結(jié)果，預(yù)測(cè)蛋白質(zhì)序列各殘基位點(diǎn)二級(jí)結(jié)構(gòu)。
【文檔編號(hào)】G06F19/16GK105930686SQ201610519695
【公開日】2016年9月7日
【申請(qǐng)日】2016年7月5日
【發(fā)明人】毛華, 陳媛媛, 羅川, 汪洋旭, 陳盈科
【申請(qǐng)人】四川大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：毛華;陳媛媛;羅川;汪洋旭;陳盈科;
技術(shù)所有人：四川大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)相關(guān)技術(shù)

蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)相關(guān)技術(shù)

蛋白質(zhì)三級(jí)結(jié)構(gòu)預(yù)測(cè)相關(guān)技術(shù)

蛋白質(zhì)相互作用預(yù)測(cè)相關(guān)技術(shù)

蛋白質(zhì)功能預(yù)測(cè)相關(guān)技術(shù)

蛋白質(zhì)三維結(jié)構(gòu)預(yù)測(cè)相關(guān)技術(shù)