一種新的融合遺傳信息的蛋白質(zhì)序列表示方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及生物信息學(xué)、蛋白質(zhì)偽氨基酸成分和傳統(tǒng)的蛋白質(zhì)序列分析技術(shù)領(lǐng) 域,尤其涉及一種新的融合遺傳信息的蛋白質(zhì)序列表示方法。
【背景技術(shù)】
[0002] 隨著人類基因組的測序完成,生物信息學(xué)進(jìn)入了一個(gè)新的發(fā)展階段一一后基因組 時(shí)代?;蚪M計(jì)劃已產(chǎn)生數(shù)以億計(jì)的基因組序列,如何從這些序列中找尋生命是如何起源 的、又是如何進(jìn)化、這些基因又是如何使生命體具有活性等一系列的問題的答案,是當(dāng)前研 究的熱點(diǎn)。分析這些基因序列可以從多個(gè)層次,如堿基序列、蛋白質(zhì)、基因組等,由于許多生 物表型性質(zhì)以及基因調(diào)控都是由蛋白質(zhì)的氨基酸序列所決定,分析氨基酸序列有一定的優(yōu) 勢。
[0003] 蛋白質(zhì)序列是由20種氨基酸組成的一維字符序列,要得出更多的隱含在其中的 生物特性非常困難,為此人們設(shè)計(jì)了許多種偽氨基酸成分采用向量方式來描述蛋白質(zhì)序 列,這些偽氨基酸成分如:二聯(lián)體成分、三聯(lián)體成分、灰色理論因子、復(fù)雜度因子等有的能很 好的描述蛋白質(zhì)序列局部氨基酸順序信息,有的能很好的描述蛋白質(zhì)序列的全局氨基酸順 序信息,對基于序列的蛋白質(zhì)結(jié)構(gòu)和功能分類預(yù)測都起到了積極作用。
[0004] 現(xiàn)有物種都是從有限的遠(yuǎn)古物種進(jìn)化而來,同樣現(xiàn)有蛋白質(zhì)也是從一些簡單的蛋 白質(zhì)進(jìn)化而來。進(jìn)化過程中包含了堿基插入或刪除、突變、復(fù)制或與其它基因融合等,隨著 進(jìn)化過程的深入,序列間的相似度越來越少,但所對應(yīng)的蛋白質(zhì)大多還保留同樣的特性,如 同樣的生物功能、三維結(jié)構(gòu)和亞細(xì)胞定位等。為此抽取這些序列進(jìn)化信息來構(gòu)成蛋白質(zhì)描 述向量是研究的熱點(diǎn)。現(xiàn)在一般融合蛋白質(zhì)進(jìn)化信息的方法都是基于PSSM矩陣的,因?yàn)?每個(gè)蛋白質(zhì)序列長度是變化的,所以得到的PSSM矩陣是一個(gè)行數(shù)變化、列數(shù)固定的維的矩 陣(L為蛋白質(zhì)序列長度)。由于現(xiàn)有機(jī)器學(xué)習(xí)方法要求輸入的維度相同,所以現(xiàn)有方法都 要將PSSM矩陣轉(zhuǎn)換為固定維數(shù)的向量,如方法1采用將PSSM矩陣按行相加再除以L得到 20維向量表示蛋白質(zhì)序列;方法2將PSSM矩陣中所有表示某一種相同的氨基酸對應(yīng)的行 相加再除以這個(gè)氨基酸在序列中的個(gè)數(shù),得到一個(gè)20維向量,氨基酸序列由20種氨基酸 構(gòu)成,這樣我們可以得到一個(gè)20X 20維的向量用于表示這個(gè)蛋白質(zhì);方法3現(xiàn)將PSSM矩 陣進(jìn)行標(biāo)準(zhǔn)化,通過PSSMtXPSSM得到一個(gè)20 X 20的矩陣,由于這個(gè)矩陣是半正定矩陣,只 需要其中201個(gè)元素來表示蛋白質(zhì)P ;本人基于灰色理論提出一種抽取PSSM信息的新模式 Grey-PSSM,這種方法基于灰色模型GM (2, 1)對PSSM矩陣中的每一列數(shù)值構(gòu)建模型,得到 兩個(gè)發(fā)展系數(shù)和一個(gè)干擾系數(shù),這樣將PSSM矩陣轉(zhuǎn)成一個(gè)3 X 20=60維的向量。
[0005] 上述方法都是基于對PSSM矩陣進(jìn)行簡單的求和統(tǒng)計(jì)或者進(jìn)行灰色模型建模,雖 然可以提取一些信息,但這必然會丟失蛋白質(zhì)序列中氨基酸的順序信息,而且上述操作沒 有對應(yīng)的生物學(xué)意義,這樣做有可能將PSSM所包含的遺傳信息丟失。由于遺傳信息的重要 性,所以設(shè)計(jì)一種新的融合遺傳信息的蛋白質(zhì)序列描述方法對基于序列信息的蛋白質(zhì)功能 和結(jié)構(gòu)類型預(yù)測非常必要。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明要解決的技術(shù)問題是提供一種新的融合遺傳信息的蛋白質(zhì)序列表示方法, 旨在通過融合蛋白質(zhì)進(jìn)化信息,直接從序列上進(jìn)行擴(kuò)展,融合成新的蛋白質(zhì)P的向量描述, 以解決蛋白質(zhì)二級結(jié)構(gòu)類型預(yù)測及亞細(xì)胞定位預(yù)測率較低的問題。
[0007]
[0008] 為解決以上技術(shù)問題,本發(fā)明的技術(shù)方案是:一種新的融合遺傳信息的蛋白質(zhì)序 列表示方法,其特征在于包括以下步驟: (1) 使用PSI-BLAST程序搜索Swiss-Prot數(shù)據(jù)庫生成蛋白質(zhì)序列P的位置特異打分矩 陣 PSSM ; (2) 將P蛋白基因與NCBI數(shù)據(jù)庫中蛋白質(zhì)序列進(jìn)行比對,找到蛋白基因P的保守序列; (3) 根據(jù)PSSM矩陣可以知道蛋白質(zhì)序列P中某個(gè)位置上的氨基酸突變?yōu)槠渌被岬?概率,將此蛋白保守序列位置上的氨基酸不變,非保守區(qū)域氨基酸按照其突變?yōu)槠渌被?酸概率的大小依次轉(zhuǎn)換成其它氨基酸,這樣就可以得到20條含有蛋白質(zhì)P遺傳信息的虛擬 蛋白質(zhì); (4) 取這20個(gè)虛擬蛋白質(zhì)中的前η個(gè)蛋白質(zhì)序列構(gòu)成描述蛋白質(zhì)序列P的蛋白質(zhì)組; (5) 對所得到的蛋白質(zhì)組η+1個(gè)蛋白質(zhì)采用偽氨基酸組成成分特征提取方法,得到其 向量描述,將這η+1個(gè)向量相結(jié)合,最終得到蛋白質(zhì)P的向量描述方法。
[0009] 所述蛋白質(zhì)序列P的位置特異打分矩陣PSSM的表達(dá)公式為:
?表示蛋白質(zhì)進(jìn)化過程中蛋白質(zhì)序列第i個(gè)位置 的氨基酸突變?yōu)榈趈類氨基酸的可能性大小,其值越大表示轉(zhuǎn)成的可能性越大,j從1到20 分別表示氨基酸 A、R、N、D、C、Q、E、G、H、I、L、K、M、F、P、S、T、W、Y 和 V。
[0010] 所述方法用于蛋白質(zhì)二級結(jié)構(gòu)類型預(yù)測及亞細(xì)胞定位預(yù)測中,相關(guān)預(yù)測器預(yù)測成 功率提尚4~7%。
[0011] 本發(fā)明提出的方法與現(xiàn)有融合進(jìn)化信息方法相比,具有更明顯的生物學(xué)意義,采 用最具可能進(jìn)化的蛋白質(zhì)組來表示某一個(gè)蛋白質(zhì),這些蛋白質(zhì)同源性不高,但更可能具有 相同的結(jié)構(gòu)和功能,這對那些在蛋白質(zhì)結(jié)構(gòu)和功能類型預(yù)測中與訓(xùn)練集中蛋白質(zhì)序列相似 度不高,但具有遠(yuǎn)程同源性的蛋白質(zhì)預(yù)測具有幫助,本方法用于蛋白質(zhì)二級結(jié)構(gòu)類型預(yù)測 及亞細(xì)胞定位預(yù)測中,能明顯提高相關(guān)預(yù)測器的預(yù)測成功率,具有廣闊的運(yùn)用前景。
【具體實(shí)施方式】
[0012] 為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合實(shí)施例,對本發(fā)明 進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅用以解釋本發(fā)明,并不用于限 定本發(fā)明。
[0013] 采用本發(fā)明新的融合遺傳信息的蛋白質(zhì)序列表示方法,具體步驟如下: 1)使用PSI-BLAST程序搜索Swiss-Prot數(shù)據(jù)庫生成蛋白質(zhì)序列P的位置特異打分矩 陣(Position Specific Scoring Matrix, PSSM); 給定人類基因蛋白: > AAA61157 MVPSAGQLALFALGIVLAACQALENSTSPLSADPPVAAAVVSHFNDCPDSHTQFCFHATCRFLVHEDKPAC VCHSGYVGARCEHADLLAVVAASQKKQAITALVVVSIVALAVLIITCVLIHCCQVRKHCEffCRALICRHEKPSALL KGRTACCHSETLV 要進(jìn)行計(jì)算其位置特異性打分矩陣(PSSM矩陣),首先要將BLAST本地化:(1)在NCBI 上下載blast進(jìn)行本地配置,本機(jī)配置版本:blast-2. 2. 28+; (2)在蛋白質(zhì)數(shù)據(jù)庫http:// www.uniprot.org/ (UniPortKB/Swiss-Prot database (Release 2013_10))下載蛋白質(zhì) 數(shù)據(jù)庫;(3)參數(shù)設(shè)置(_num_iterations :3,-evalue :0· 001) 通過BLAST-2. 2. 28+中的PSI-BLAST程序我們可以得到蛋白質(zhì)上述蛋白質(zhì)的PSSM矩 陣,這個(gè)矩陣中第一列表示原蛋白質(zhì)序列中氨基酸轉(zhuǎn)換成氨基酸A的可能性,第二列表示 序列原氨基酸轉(zhuǎn)換成氨基酸R的可能性大小,以此,第三列到第20列分別代表轉(zhuǎn)換成氨基 酸10、(:、〇3、6、!1、1、1^、1(、]\^、?、3、1\1、¥和¥的可能性。?33]\1矩陣第一行表示蛋白質(zhì) 序列第一個(gè)氨基酸,第二行表示第2個(gè)位置上的氨基酸,以此類推。
[0014] 2)將P蛋白基因與NCBI數(shù)據(jù)庫中蛋白質(zhì)序列進(jìn)行比對,找到蛋白基因P的保守序 列; 將AAA61157序列輸入到網(wǎng)址: http: //www. ncbi. nlm. nih. gov/Structure/cdd/wrpsb. cgi,此網(wǎng)址提供了查找保守 序列的功能,采用網(wǎng)站提供的默認(rèn)參數(shù)值,可以得到序列AAA61157的保守序列有兩段,一 段為44-83,另一段為47-121,總計(jì)為:44-121。如下所示,非加粗部分為非保守區(qū)域,加粗 部分為保守區(qū)域; MVPSAGQLALFALGIVLAACQALENSTSPLSADPPVAAAVVSHFNDCPDSHTQFCFHATCRFLVHEDKPA CVCHSGYVGARCEHADLLAVVAASQKKQAITALVVVSI