一種蛋白質(zhì)翻譯后修飾定位的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種蛋白質(zhì)分析方法,尤其是涉及一種蛋白質(zhì)翻譯后修飾定位的方 法,屬于與生物質(zhì)譜相關(guān)的蛋白質(zhì)組學(xué)與生物信息學(xué)領(lǐng)域。
【背景技術(shù)】
[0002] 隨著軟電離技術(shù)(如電噴霧電離)及高分辨質(zhì)量分析器(如軌道阱)的發(fā)展和商 業(yè)化,質(zhì)譜越來(lái)越多地用于蛋白質(zhì)組學(xué)的研宄與分析。
[0003] 中國(guó)專(zhuān)利CN103389335A公布了一種通過(guò)分析生物大分子質(zhì)譜數(shù)據(jù)來(lái)鑒定生物 大分子一級(jí)結(jié)構(gòu)和組成的分析裝置和方法。該分析裝置和方法基于所述生物大分子的原始 一級(jí)和二級(jí)質(zhì)譜,通過(guò)同位素峰質(zhì)荷比及輪廓指紋比對(duì)從而對(duì)該生物大分子進(jìn)行鑒定。上 述分析方法直接利用質(zhì)譜儀所采集的原始實(shí)驗(yàn)質(zhì)譜數(shù)據(jù),對(duì)前體離子和碎片離子同位素輪 廓中每個(gè)原始實(shí)驗(yàn)同位素峰的精確質(zhì)荷比和相對(duì)強(qiáng)度與相應(yīng)的理論值進(jìn)行比對(duì),分別用于 從數(shù)據(jù)庫(kù)中找到候選生物大分子和利用串級(jí)質(zhì)譜確認(rèn)其中可信度最高的一個(gè),從而對(duì)生物 分子進(jìn)行高可信度的定性、定量分析。
[0004] 在生物信息學(xué)技術(shù)方面,與肽段的質(zhì)譜鑒定方法相似,完整蛋白質(zhì)的鑒定同樣也 是主要采用數(shù)據(jù)庫(kù)搜索的方法。在蛋白質(zhì)鑒定中,我們需要考慮蛋白質(zhì)不同的變體形式 (包括修飾、氨基酸突變等)。
[0005] 蛋白質(zhì)通過(guò)其完整的結(jié)構(gòu)來(lái)實(shí)現(xiàn)其生物功能,其中,一級(jí)結(jié)構(gòu)主要包含了蛋白質(zhì) 的氨基酸序列信息以及蛋白質(zhì)的翻譯后修飾的信息。對(duì)于每一個(gè)完整蛋白質(zhì),發(fā)生翻譯后 修飾的位點(diǎn)和種類(lèi)很多,由翻譯后修飾不同組合產(chǎn)生的該完整蛋白質(zhì)的變體的數(shù)量很大; 且每一個(gè)變體蛋白是完全獨(dú)立的,有著自己獨(dú)有的結(jié)構(gòu)和功能。因此,有效地區(qū)分與鑒定這 些結(jié)構(gòu)上很接近但功能完全不同的蛋白質(zhì)變體是必需的;但同時(shí)也是很艱難的。在蛋白質(zhì) 序列相同的情況下,具有不同的修飾組合及位點(diǎn),這些蛋白質(zhì)被稱(chēng)為蛋白質(zhì)變體。其中,在 現(xiàn)有質(zhì)譜儀器分辨率下,無(wú)法有效分辨其完整蛋白質(zhì)的質(zhì)量差異的蛋白質(zhì)變體,被稱(chēng)為同 重異構(gòu)體(可以是相同分子式,也可以是不同的分子式)。根據(jù)修飾種類(lèi)的組合是否相同, 同重異構(gòu)體可以分為兩類(lèi):一類(lèi)為組合異構(gòu)體,組合異構(gòu)具有不同的修飾種類(lèi)組合,但其修 飾組合總的分子質(zhì)量相同或十分接近;另一類(lèi)為位置異構(gòu)體,位置異構(gòu)具有相同的修飾,但 其修飾發(fā)生的位點(diǎn)不同。由蛋白質(zhì)翻譯后修飾帶來(lái)的復(fù)雜多樣,但又極其相似的蛋白質(zhì)變 體及同重異構(gòu)體是高通量的蛋白質(zhì)精確鑒定的一個(gè)巨大挑戰(zhàn)。
[0006] 現(xiàn)有搜索引擎,如ProsightPC,對(duì)蛋白質(zhì)翻譯后修飾的定位沒(méi)有設(shè)置獨(dú)立的打分 與評(píng)價(jià)指標(biāo)或參數(shù),而是通過(guò)鑒定結(jié)果蛋白質(zhì)的最佳匹配次序進(jìn)行評(píng)價(jià),無(wú)法提供高可信 度的準(zhǔn)確定位翻譯后修飾的位點(diǎn)的鑒定結(jié)果。
[0007] 中國(guó)專(zhuān)利CN104134015A公布了一種蛋白質(zhì)翻譯后修飾的定位方法,包括對(duì)于 一條蛋白質(zhì)序列,計(jì)算發(fā)生的修飾的總質(zhì)量,得到該總質(zhì)量對(duì)應(yīng)的一個(gè)或多個(gè)修飾組合;將 與所述蛋白質(zhì)序列上的每個(gè)氨基酸對(duì)應(yīng)的一個(gè)或多個(gè)修飾集合作為圖中的頂點(diǎn),根據(jù)所述 一個(gè)或多個(gè)修飾組合連接該頂點(diǎn),并且根據(jù)與所述蛋白質(zhì)序列對(duì)應(yīng)的譜圖設(shè)置該頂點(diǎn)的權(quán) 值。其中,所述修飾集合是從所述蛋白質(zhì)序列的第一個(gè)氨基酸到對(duì)應(yīng)的氨基酸上能夠發(fā)生 的修飾的集合并且是所述一個(gè)或多個(gè)修飾組合中的一個(gè)修飾組合的子集。所述方法還包括 根據(jù)路徑上所有頂點(diǎn)的權(quán)值選擇所述圖中的路徑,并且將該路徑轉(zhuǎn)換為修飾位點(diǎn)信息。
[0008] 上述專(zhuān)利提供了一種翻譯后修飾快速組合的方法,但在修飾組合與位點(diǎn)的確定上 采用的策略,與上文中的ProsightPC相似,用所有匹配的碎片離子進(jìn)行統(tǒng)計(jì)打分,該打分 本質(zhì)上是對(duì)修飾后的序列打分,不是專(zhuān)門(mén)針對(duì)修飾的打分方法,最后只將打分最高的蛋白 質(zhì)變體進(jìn)行輸出。但是,實(shí)驗(yàn)中往往是一張二級(jí)質(zhì)譜圖中包含了多種蛋白質(zhì)變體,該方法只 輸出一個(gè)結(jié)果,追求的是最佳匹配的蛋白質(zhì)變體,丟失了許多的信息。而且,由于多種蛋白 質(zhì)變體的數(shù)據(jù)混雜,部分所謂最佳匹配的蛋白質(zhì)變體的準(zhǔn)確性仍有待討論。
【發(fā)明內(nèi)容】
[0009] 本發(fā)明的目的就是為了克服上述現(xiàn)有技術(shù)存在的缺陷而提供一種直接的、高可信 度的蛋白質(zhì)翻譯后修飾定位的方法。
[0010] 本發(fā)明的目的可以通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn):
[0011] 一種蛋白質(zhì)翻譯后修飾定位的方法,包括以下步驟:
[0012] (1)根據(jù)標(biāo)準(zhǔn)蛋白質(zhì)序列數(shù)據(jù)庫(kù)中的序列與修飾信息,分別生成所有對(duì)應(yīng)蛋白變 體的理論一級(jí)質(zhì)譜數(shù)據(jù)庫(kù)與二級(jí)質(zhì)譜數(shù)據(jù)庫(kù);
[0013] (2)將實(shí)驗(yàn)的一級(jí)質(zhì)譜與理論的一級(jí)質(zhì)譜相比較,找出所有與該一級(jí)質(zhì)譜匹配的 候選蛋白質(zhì)變體;
[0014] (3)將實(shí)驗(yàn)的二級(jí)質(zhì)譜數(shù)據(jù)與所有候選蛋白質(zhì)變體的理論的二級(jí)質(zhì)譜數(shù)據(jù)進(jìn)行匹 配,得到各候選蛋白質(zhì)變體的匹配碎片離子信息;
[0015] (4)選取一條侯選蛋白質(zhì)變體,若其不包含翻譯后修飾,則不進(jìn)行翻譯后修飾定位 打分;若包含翻譯后修飾,則在所有候選蛋白質(zhì)變體中尋找是否存在同重異構(gòu)體;
[0016] (5)若該條侯選蛋白質(zhì)變體不存在同重異構(gòu)體,則該翻譯后修飾唯有一種可能,匹 配的碎片離子的總數(shù)為該蛋白質(zhì)翻譯后修飾定位的得分;若存在同重異構(gòu)體,則將所有同 重異構(gòu)體作為干擾;
[0017] (6)在同重異構(gòu)體中判斷是否存在同重等效異構(gòu)體,若存在,將同重等效異構(gòu)體從 作為干擾的同重異構(gòu)體列表中排除;
[0018] (7)獲取該候選蛋白質(zhì)變體的所有匹配的碎片離子,不考慮價(jià)態(tài),去除重復(fù)的碎片 離子,對(duì)每個(gè)不重復(fù)的碎片離子,若為該候選蛋白質(zhì)變體獨(dú)有的特征碎片,則該蛋白質(zhì)翻譯 后修飾定位的得分加一,否則,不加分;
[0019] (8)循環(huán)步驟(4)-(7),對(duì)所有候選蛋白質(zhì)變體逐一進(jìn)行翻譯后修飾定位的打分;
[0020] (9)根據(jù)設(shè)定的最低翻譯后修飾的得分?jǐn)?shù)值,對(duì)所有候選蛋白質(zhì)變體進(jìn)行篩選,得 到實(shí)驗(yàn)二級(jí)質(zhì)譜匹配的結(jié)果列表。
[0021] 步驟(1)中生成所有對(duì)應(yīng)生物大分子變體的理論一級(jí)質(zhì)譜數(shù)據(jù)庫(kù)的方法為:根據(jù) 對(duì)應(yīng)生物大分子變體的序列、修飾等信息,計(jì)算出對(duì)應(yīng)前體離子的分子式,并根據(jù)該分子式 計(jì)算出與實(shí)驗(yàn)一級(jí)質(zhì)譜對(duì)應(yīng)的單同位素質(zhì)量或同位素輪廓。
[0022] 步驟(1)中生成所有對(duì)應(yīng)生物大分子變體的理論二級(jí)質(zhì)譜數(shù)據(jù)庫(kù)的方法為:根據(jù) 二級(jí)質(zhì)譜中生物大分子解離的規(guī)律,將該生物大分子進(jìn)行碎裂,計(jì)算出所有理論的碎片離 子的分子式,并根據(jù)該分子式計(jì)算出與實(shí)驗(yàn)二級(jí)質(zhì)譜對(duì)應(yīng)的單同位素質(zhì)量或同位素輪廓。
[0023] 步驟(2)中匹配指:實(shí)驗(yàn)數(shù)據(jù)的前體離子的單同位素質(zhì)量或同位素輪廓與候選蛋 白質(zhì)理論的前體離子的單同位素質(zhì)量或同位素輪廓的差異在儀器的精度范圍內(nèi)。
[0024] 步驟⑷中判斷是否存在同重異構(gòu)體的條件是:(a)蛋白質(zhì)變體的序列相同;(b) 修飾的種類(lèi)組合及位點(diǎn)不同;(c)總的蛋白質(zhì)變體的質(zhì)量相同或差異在儀器精度范圍內(nèi)。
[0025] 步驟(6)中判斷是否存在同重等效異構(gòu)體的條件是:(a)比較的范圍為指定蛋白 質(zhì)變體的所有同重異構(gòu)體;(b)包含翻譯后修飾種類(lèi)的數(shù)目相同;(c)所有翻譯后修飾的位 點(diǎn)依次相同;(d)所有相同位點(diǎn)對(duì)應(yīng)的修飾的單同位素質(zhì)量或同位素輪廓的差異在儀器的 精度范圍之內(nèi)。
[0026] 步驟(7)中判斷是否為獨(dú)有的碎片離子的條件是:(a)比較的范圍為指定蛋白質(zhì) 變體的所有同重異構(gòu)體;(b)碎片離子的離子類(lèi)型相同;(c)碎片離子的斷裂位點(diǎn)相同;(d) 碎片離子對(duì)應(yīng)的單同位素質(zhì)量或同位素輪廓的差異在儀器的精度范圍之外。
[0027] 步驟(9)中篩選的結(jié)果為:蛋白質(zhì)翻譯后修飾得分大于或等于設(shè)定值的所有蛋白 質(zhì)變體。
[0028] 本發(fā)明的方法基于所述質(zhì)譜的原始一級(jí)和二級(jí)質(zhì)譜的數(shù)據(jù)庫(kù)搜索,通過(guò)特征的碎 片離子,特征地對(duì)每個(gè)候選的蛋白質(zhì)變體進(jìn)行翻譯后修飾組合及位點(diǎn)進(jìn)行打分,輸出所有 得分通過(guò)的蛋白質(zhì)變體,得到更綜合、更全面的、更準(zhǔn)確的翻譯后修飾的定位結(jié)果。包含了 那些用現(xiàn)有方法雖然打分稍差,但卻真實(shí)存在的匹配結(jié)果。由于本方法選用了特征的碎片 離子,準(zhǔn)確性可以得到保證。而且,本方法中的打分模型獨(dú)立于現(xiàn)有方法,專(zhuān)對(duì)翻譯后修飾 的打分,具有很好的兼容性。
[0029] 本發(fā)明通過(guò)特征匹配離子,來(lái)確定蛋白質(zhì)翻譯后修飾的位點(diǎn),對(duì)質(zhì)譜數(shù)據(jù)進(jìn)行數(shù) 據(jù)庫(kù)搜索和蛋白質(zhì)鑒定過(guò)程中,利用特征離子,實(shí)現(xiàn)對(duì)不同蛋白質(zhì)翻譯后修飾的位置異構(gòu) 或組合異構(gòu)的高效、準(zhǔn)確的區(qū)分,實(shí)現(xiàn)蛋白質(zhì)翻譯后修飾的定位。與現(xiàn)有技術(shù)相比,本發(fā)明 的解析方法對(duì)高通量的蛋白質(zhì)翻譯后修飾的精確定位有著顯著的提升,可以得到綜合全面 的翻譯后修飾鑒定結(jié)果、精確的確定蛋白質(zhì)的翻譯后修飾位點(diǎn),適用于高通量的蛋白質(zhì)組 的解析,特別是具有大量翻譯后修飾的蛋白質(zhì)(如組蛋白等)質(zhì)譜及串級(jí)質(zhì)譜高效解析及 結(jié)構(gòu)準(zhǔn)確鑒定。
【附圖說(shuō)明】
[0030] 圖1為實(shí)驗(yàn)測(cè)得組