两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種可解釋性的膜蛋白跨膜螺旋預(yù)測方法

文檔序號:6571573閱讀:390來源:國知局
專利名稱:一種可解釋性的膜蛋白跨膜螺旋預(yù)測方法
技術(shù)領(lǐng)域
本發(fā)明涉及膜蛋白質(zhì)序列跨膜螺旋預(yù)測技術(shù),特別是一種具有高可解釋性的跨膜螺旋預(yù)測方法。
背景技術(shù)
膜蛋白(Transmembrane Protein)在生物體中是一類非常重要的蛋白質(zhì),它對于細胞的營養(yǎng)物質(zhì)運輸、細胞間信號傳遞以及能量交換都起著非常重要的作用。同時,膜蛋白也是很多藥物作用的靶點,最典型的為G蛋白家族。有研究表明,藥物研發(fā)中609Γ70%的目標(biāo)蛋白是G蛋白家族成員。在基因組數(shù)據(jù)中,有209Γ 30%的基因產(chǎn)物被預(yù)測為膜蛋白,然而遺憾的是,在H)B( Protein Data Bank)數(shù)據(jù)庫中只有1%左右的跨膜蛋白結(jié)構(gòu)被精確測定。由于膜蛋白的疏水特性,使得其結(jié)構(gòu)的生物測定非常困難它需要與生物膜結(jié)合才能形成穩(wěn)定的天然構(gòu)象,難以得到晶體結(jié)構(gòu),而測定蛋白質(zhì)三維結(jié)構(gòu)最常用的是使用X射線進行晶體衍射和使用核磁共振技術(shù)進行測定。膜蛋白的特殊結(jié)構(gòu)使得這兩種方法實現(xiàn)起來都非常不利。因此應(yīng)用生物信息學(xué)的相關(guān)知識,使用計算機預(yù)測技術(shù)來研究膜蛋白的跨膜結(jié)構(gòu)就顯得尤為重要,對于發(fā)現(xiàn)和認(rèn)識新的跨膜蛋白以及研究其結(jié)構(gòu)和生理功能有著重要的意義。目前已經(jīng)有很多膜蛋白跨膜螺旋預(yù)測模型出現(xiàn),跨膜螺旋的預(yù)測精度正日益提高。目前,已經(jīng)出現(xiàn)了若干膜蛋白跨膜螺旋預(yù)測方法,典型的有TMHMM (A. Krogh, B.Larsson, G. von Heijne, and E. L. Sonnhammer, "Predicting transmembrane proteintopology with a hidden Markov model: application to complete genomes, 〃 J. MoI.Biol. , vol. 305,pp. 567-580,2001.)和 PH0BIUS (L. Kail, A. Krogh, and E. L.Sonnhammer, 〃A combined transmembrane topology and signal peptide predictionmethod, " J. Mol. Biol. , vol. 338,pp. 1027-36,2004.),這兩種方法均使用隱馬爾可夫模型(Hidden Markov Model, HMM)來進行跨膜螺旋的預(yù)測;基于神經(jīng)網(wǎng)絡(luò)和動態(tài)規(guī)劃的方法,如 MEMSAT3 (Improving the accuracy of transmembrane protein topologyprediction using evolutionary information. Bioinformatics, 23 (5):538-544,2007);基于支持向量基的方法,如 SVMtm (Z. Yuan, J. S. Mattick, and R. D.Teasdale, uSVMtm: Support vector machines to predict transmembrane segments, ”J. Comput. Chem. , vol. 25, pp. 632 - 636, 2004)。然而,綜合分析這些預(yù)測模型,可以發(fā)現(xiàn),它們更多關(guān)注的是追求模型的精確度和泛化能力,而沒有很好地考慮計算模型對領(lǐng)域知識的包容和解釋能力,忽略了模型的可解釋性。計算模型在工作時更像是一個“黑盒”,缺少對計算結(jié)果的內(nèi)在機理的有效解釋,使用者很難理解預(yù)測模型輸入和輸出之間存在的內(nèi)在聯(lián)系,也妨礙與生物學(xué)家之間的溝通與交流。因此,在保證預(yù)測模型的精度和泛化能力的前提下,如何有效增強其可解釋性,是廣大生物實驗學(xué)研究者提出的迫切要求。本發(fā)明提出的方法基于膜蛋白質(zhì)的進化信息,采用模糊規(guī)則集推理技術(shù)來設(shè)計膜蛋白跨膜螺旋的預(yù)測,具有較佳的模型可解釋性。使用了 PSI-BLAST程序(A. A. Schafferet al. , “Improving the accuracy of PSI-BLAST protein database searches withcomposition-based statistics and other refinements, ” Nucleic Acids Res. , vol.29,pp. 2994 - 3005,2001)來提取膜蛋白質(zhì)的進化信息;在模式特征分布規(guī)律學(xué)習(xí)階段,使用了自組織映射神經(jīng)網(wǎng)絡(luò)(T. Kohonen, Self-Organization and Associative Memory,3rd ed. New York: Springer-Verlag, 1989.);在規(guī)則提取階段,使用了 Wang-Mendel 提出的 Learning-from-example 技術(shù)(L. X. Wang and J. M. Mendel, “Generating fuzzyrules by learning from examples, ” IEEE Trans. System. , Man, Cybernetics, vol.22,no. 6,pp. 1414 - 1427,1992.)。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種具有高可解釋性的膜蛋白跨膜螺旋預(yù)測方法。本發(fā)明的技術(shù)方案是一種可解釋性的膜蛋白跨膜螺旋預(yù)測方法,它包括以下步驟 第一步特征提取,將蛋白質(zhì)序列中的氨基酸殘基轉(zhuǎn)換為向量形式表示。對于一個由《個氨基酸組成的蛋白質(zhì),通過PSI-BLAST算法可得到其特定位置得分祀陣(Position Specific Scoring Matrix, PSSM),該矩陣為行20列,先對該PSSM進行逐行標(biāo)準(zhǔn)化,然后使用滑動窗口技術(shù)得到每個氨基酸殘基的特征矩陣;特征矩陣按列求均值,得到該殘基的2 O維特征向量
權(quán)利要求
1.一種可解釋性的膜蛋白跨膜螺旋預(yù)測方法,其特征在于包括以下步驟 第一步特征提取,將蛋白質(zhì)序列中的氨基酸殘基轉(zhuǎn)換為向量形式表示;對于一個由η個氨基酸組成的蛋白質(zhì),通過PSI-BLAST算法得到其特定位置得分矩陣(PositionSpecific Scoring Matrix, PSSM),該矩陣為行20列,先對該PSSM進行逐行標(biāo)準(zhǔn)化,然后使用滑動窗口技術(shù)得到每個氨基酸殘基的特征矩陣,特征矩陣按列求均值,得到該殘基的2O維特征向量Y=(沁4---^4),其中表示第幾個殘基; 第二步模式特征分布規(guī)律學(xué)習(xí),使用自組織映射神經(jīng)網(wǎng)絡(luò)(Self-organizing Map,SOM),在特征空間中學(xué)習(xí)樣本的分布規(guī)律,并消除原始訓(xùn)練樣本噪聲,對于給定的訓(xùn)練樣本集,其中O表示非跨膜,I表示跨膜,使用批量學(xué)習(xí)算法來訓(xùn)練S0M,直到SOM收斂或是達到預(yù)先設(shè)定的學(xué)習(xí)步數(shù); 第三步模糊規(guī)則提取,從訓(xùn)練好的SOM的權(quán)值向量(codebook vectors)提取模糊規(guī)貝U,使用Wang-Mendel規(guī)則提取算法從SOM的權(quán)值向量集中提取模糊規(guī)則集; 第四步蛋白質(zhì)跨膜螺旋預(yù)測,對于給定的待預(yù)測蛋白質(zhì),使用上述步驟三中所提取的模糊規(guī)則集,應(yīng)用模糊推理方法,對其中的氨基酸殘基的跨膜螺旋性進行逐個預(yù)測,得到預(yù)測曲線,然后使用閾值分割的方法,確定每個殘基是否屬于跨膜螺旋片段。
2.根據(jù)權(quán)利要求I所述的膜蛋白跨膜螺旋預(yù)測方法,其特征在于所述的步驟三中不同變量的論域上定義不同數(shù)目的模糊子集。
3.根據(jù)權(quán)利要求I所述的膜蛋白跨膜螺旋預(yù)測方法,其特征在于所述的步驟四中采用乘積推理計算每條規(guī)則的激活度。
全文摘要
本發(fā)明公開了一種可解釋性的膜蛋白跨膜螺旋預(yù)測方法。首先利用PSI-BLAST程序獲取蛋白質(zhì)的進化信息,并使用滑動窗口技術(shù)抽取每個氨基酸殘基的特征;然后,利用自組織神經(jīng)網(wǎng)絡(luò)(SOM)學(xué)習(xí)跨膜螺旋在特征空間中的分布規(guī)律,將分布規(guī)律知識編碼在SOM的權(quán)值向量中;最后,使用Wang-Mendel方法提取可解釋性的模糊規(guī)則集;對于給定的待預(yù)測蛋白質(zhì)的每個氨基酸殘基使用模糊推理技術(shù)進行預(yù)測,得到預(yù)測曲線后,使用動態(tài)閾值分割技術(shù)確定每個氨基酸殘基是否屬于跨膜螺旋片段。優(yōu)點在于一是使用SOM學(xué)習(xí),挖掘跨膜螺旋分布規(guī)律知識并降低原始數(shù)據(jù)的噪聲;二是使用模糊規(guī)則提取技術(shù)獲取的跨膜螺旋預(yù)測模型具有很高的可解釋性。
文檔編號G06F19/18GK102831332SQ20121026161
公開日2012年12月19日 申請日期2012年7月27日 優(yōu)先權(quán)日2012年4月16日
發(fā)明者於東軍, 沈紅斌, 唐振民, 楊靜宇 申請人:南京理工大學(xué)常熟研究院有限公司, 南京理工大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
灵寿县| 江永县| 通河县| 宜城市| 北安市| 剑川县| 岚皋县| 阳信县| 华池县| 弥渡县| 文昌市| 廊坊市| 景德镇市| 麻江县| 静乐县| 义马市| 黄龙县| 盘山县| 石城县| 安仁县| 南江县| 南投市| 昌平区| 奈曼旗| 宁武县| 炉霍县| 永清县| 襄樊市| 孟村| 潞城市| 平泉县| 侯马市| 井陉县| 莫力| 墨竹工卡县| 井冈山市| 凭祥市| 四川省| 肇州县| 永春县| 永嘉县|