專利名稱:蛋白質(zhì)潛在致敏性的預(yù)測方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種蛋白質(zhì)特性的計算生物學(xué)預(yù)測方法,尤其是涉及一種蛋白質(zhì)潛在致敏性的預(yù)測方法。
背景技術(shù):
由食物和環(huán)境因素導(dǎo)致的過敏及其它的超敏反應(yīng)是慢性病的主要成因,全世界約有25%的人口受此困擾。過敏原包括食物中的蛋白質(zhì)、冷空氣、熱空氣、紫外線、金屬等等,其中具有致敏性的蛋白質(zhì)對人類的健康可能造成巨大危害。另外,越來越多的轉(zhuǎn)基因食品進(jìn)入到我們的日常生活中,食物過敏的潛在風(fēng)險也隨之增高。因此,對蛋白質(zhì)的潛在致敏性進(jìn)行評估預(yù)測是十分必要的。目前,計算生物學(xué)的過敏原預(yù)測方法主要有三種,一是基于序列的方法,二是基于motif (模體)的方法,三是基于SVM (支持向量機(jī))的方法。FA0/WH0 (聯(lián)合國糧食與農(nóng)業(yè)組織/世界衛(wèi)生組織)提出的基于序列的預(yù)測方法,其原理是根據(jù)待測蛋白與已知過敏原蛋白在氨基酸序列上的相似度進(jìn)行判別,該方法可以有效地預(yù)測出過敏原蛋白,但其假陽性率非常高;基于motif的預(yù)測方法是比較待測蛋白與過敏原特征motifs,該方法同基于序列的方法相比,一定程度上提高了特異性,減少了假陽性率,但總體準(zhǔn)確率卻只有65%左右,還遠(yuǎn)達(dá)不到實際需求;基于SVM的機(jī)器學(xué)習(xí)方法先建立一個已知過敏原和非過敏原數(shù)據(jù)集,然后計算它們的氨基酸組成,這些氨基酸組成作為特征輸入SVM進(jìn)行訓(xùn)練,最終形成一個訓(xùn)練模型(分類器),根據(jù)待測蛋白的氨基酸組成,分類器進(jìn)行判斷輸出結(jié)果,該方法大大提高了準(zhǔn)確率,但無法得知過敏原特征信息。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有預(yù)測方法的不足,提供一種用于蛋白質(zhì)潛在致敏性的預(yù)測方法,本發(fā)明提供的方法具有高靈敏度、高特異性的優(yōu)點,并且提供與蛋白質(zhì)致敏特性顯著相關(guān)的特征。本發(fā)明通過如下技術(shù)方案實現(xiàn),本發(fā)明涉及一種蛋白質(zhì)潛在致敏性的預(yù)測方法,包括以下步驟步驟一,制作訓(xùn)練正集和訓(xùn)練負(fù)集;步驟二,對蛋白質(zhì)的各類屬性進(jìn)行編碼,構(gòu)建用于輸入SVM的特征向量;步驟三,引用最大相關(guān)最小冗余方法(mRMR)進(jìn)行特征排序,引用遞增式的特征選擇方法(IFS)進(jìn)行最優(yōu)特征選擇;步驟四,通過對選擇出的特征進(jìn)行統(tǒng)計分析,給出與蛋白質(zhì)致敏特性顯著相關(guān)的特征結(jié)果報告。優(yōu)選的,所述正集包括所有已知的過敏原蛋白序列;所述負(fù)集制備隨機(jī)抽取Swiss-Prot蛋白質(zhì)序列數(shù)據(jù)庫中的蛋白質(zhì)序列,移除所有同已知過敏原相似度> 30%的序列和長度小于50個氨基酸的序列。
優(yōu)選的,步驟二中,所述屬性的編碼包括以下步驟將二級結(jié)構(gòu)傾向性、疏水性、極化性、可溶性、標(biāo)準(zhǔn)化的范德華體積和極性,按照序列位置中每個氨基酸的分類對蛋白序列進(jìn)行重新編碼。優(yōu)選的,步驟二中,所述構(gòu)建特征向量包括如下步驟整合蛋白質(zhì)的屬性;每類屬性分別計算其特征向量;然后整合成一個156維的表示蛋白質(zhì)的特征向量。優(yōu)選的,步驟三中,所述遞增式的特征選擇方法包括如下步驟首次選用排序最靠前的I個特征進(jìn)行建模,計算其10-折疊交叉驗證的性能參數(shù),然后選用排序最靠前的2個特征進(jìn)行建模,計算其10-折疊交叉驗證的性能參數(shù),以此類推,每次增加一個排序在最前面的特征,直至所有特征添加完畢。與現(xiàn)有技術(shù)相比,本發(fā)明具有如下有益效果使用本發(fā)明的蛋白質(zhì)潛在致敏性預(yù)測方法,可以準(zhǔn)確判斷出過敏原蛋白,靈敏度和特異性都較之前的方法有了大幅提高。本發(fā)明首次結(jié)合了蛋白質(zhì)的各類特征進(jìn)行訓(xùn)練、建模,可以有效分析出與蛋白質(zhì)致敏特性相關(guān)的蛋白特征。
通過閱讀參照以下附圖對非限制性實施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點將會變得更明顯圖1為本發(fā)明實施例的流程示意圖;圖2為本發(fā)明實施例中逐一遞增特征的特征選擇下,各訓(xùn)練模型的10折疊交叉驗證的性能輸出圖;圖3為本發(fā)明實施例中與致敏特性相關(guān)的特征分析和統(tǒng)計結(jié)果圖,其中SL :亞細(xì)胞定位,AAC :氨基酸組 成,Pola :極性,Hydr :疏水性,Len :序列長度,NWV :標(biāo)準(zhǔn)化的范德華體積,■:分子量,Polz :極化性;圖4為本發(fā)明實施例中過敏原蛋白亞細(xì)胞定位分布圖;圖5為本發(fā)明實施例中過敏原類別間保守性示意圖;圖6為本發(fā)明實施例提供的預(yù)測方法不同過敏原類別間的性能比較圖;圖7為本發(fā)明實施例提供的預(yù)測方法與現(xiàn)有預(yù)測方法的性能比較圖。
具體實施例方式下面結(jié)合具體實施例對本發(fā)明進(jìn)行詳細(xì)說明。以下實施例將有助于本領(lǐng)域的技術(shù)人員進(jìn)一步理解本發(fā)明,但不以任何形式限制本發(fā)明。應(yīng)當(dāng)指出的是,對本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn)。這些都屬于本發(fā)明的保護(hù)范圍。實施例1、預(yù)測方法的數(shù)據(jù)集制備過敏原蛋白數(shù)據(jù)集制備數(shù)據(jù)來源數(shù)據(jù)庫包括Swiss-Prot Allergen Index(—個權(quán)威蛋白質(zhì)數(shù)據(jù)庫);IUIS Allergen Nomenclature (國際免疫學(xué)會聯(lián)盟-過敏原命名表);SDAP (過敏蛋白的結(jié)構(gòu)數(shù)據(jù)庫)和ADFS (用于食品安全的過敏原數(shù)據(jù)庫),去冗余后共得到1176條過敏原蛋白序列,這些序列作為訓(xùn)練模型時的正集;非過敏原蛋白數(shù)據(jù)集制備為構(gòu)建一個可行的負(fù)集,采用如下步驟實現(xiàn)1.下載Swiss-Prot (版本2010_11)的所有蛋白序列共522,019條;2.移除所有同已知過敏原相似度>=30%的序列;3.移除所有長度小于50個氨基酸的序列;4.從3的結(jié)果中隨機(jī)選取同正集相同數(shù)目的蛋白序列作為負(fù)集。實施例2、輸入SVM的特征向量構(gòu)建物理化學(xué)特征本實施例中采集的蛋白質(zhì)的物理化學(xué)特征包括八個方面,1.氨基酸組成;2.分子量;3. 二級結(jié)構(gòu)傾向性;4.疏水性;5.極化性;6.可溶性;7.標(biāo)準(zhǔn)化的范德華體積;8.極性;9.序列長度。氨基酸組成的計算公式為
權(quán)利要求
1.ー種蛋白質(zhì)潛在致敏性的預(yù)測方法,其特征在于,包括以下步驟 步驟一,制作訓(xùn)練正集和訓(xùn)練負(fù)集; 步驟ニ,對蛋白質(zhì)的各類屬性進(jìn)行編碼,構(gòu)建特征向量; 步驟三,引用最大相關(guān)最小冗余方法進(jìn)行特征排序,引用遞增式的特征選擇方法進(jìn)行最優(yōu)特征選擇; 步驟四,通過對選擇出的特征進(jìn)行統(tǒng)計分析,給出與蛋白質(zhì)致敏特性顯著相關(guān)的特征結(jié)果報告。
2.如權(quán)利要求1所述的蛋白質(zhì)潛在致敏性的預(yù)測方法,其特征在于,所述正集包括所有已知的過敏原蛋白序列;所述負(fù)集制備隨機(jī)抽取Swiss-Prot蛋白質(zhì)序列數(shù)據(jù)庫中的蛋白質(zhì)序列,移除所有同已知過敏原相似度> 30%的序列和長度小于50個氨基酸的序列。
3.如權(quán)利要求1所述的蛋白質(zhì)潛在致敏性的預(yù)測方法,其特征在于,步驟ニ中,所述屬性的編碼包括以下步驟將ニ級結(jié)構(gòu)傾向性、疏水性、極化性、可溶性、標(biāo)準(zhǔn)化的范德華體積和極性,按照序列位置中每個氨基酸的分類對蛋白序列進(jìn)行重新編碼。
4.如權(quán)利要求1所述的蛋白質(zhì)潛在致敏性的預(yù)測方法,其特征在于,步驟ニ中,所述構(gòu)建特征向量包括如下步驟整合蛋白質(zhì)的屬性;每類屬性分別計算其特征向量;然后整合成ー個156維的表示蛋白質(zhì)的特征向量。
5.如權(quán)利要求1所述的蛋白質(zhì)潛在致敏性的預(yù)測方法,其特征在于,步驟三中,所述遞增式的特征選擇方法包括如下步驟首次選用排序最靠前的I個特征進(jìn)行建模,計算其10-折疊交叉驗證的性能參數(shù),然后選用排序最靠前的2個特征進(jìn)行建摸,計算其10-折疊交叉驗證的性能參數(shù),以此類推,每次增加一個排序在最前面的特征,直至所有特征添加完畢。
全文摘要
本發(fā)明提供了一種蛋白質(zhì)潛在致敏性的預(yù)測方法,包括以下步驟步驟一,制作訓(xùn)練正集和訓(xùn)練負(fù)集;步驟二,對蛋白質(zhì)的各類屬性進(jìn)行編碼,構(gòu)建特征向量;步驟三,引用最大相關(guān)最小冗余方法進(jìn)行特征排序,引用遞增式的特征選擇方法進(jìn)行最優(yōu)特征選擇;步驟四,通過對選擇出的特征進(jìn)行統(tǒng)計分析,給出與蛋白質(zhì)致敏特性顯著相關(guān)的特征結(jié)果報告。本發(fā)明提供的預(yù)測方法可以有效地對蛋白質(zhì)的潛在致敏性進(jìn)行預(yù)測,其準(zhǔn)確度比現(xiàn)有的計算生物學(xué)預(yù)測方法更高,并且能有效分析出同蛋白質(zhì)的致敏特性相關(guān)的蛋白特征,對過敏原預(yù)測、蛋白質(zhì)致敏性機(jī)制研究有著重要作用。
文檔編號G06F19/18GK103049679SQ201210587248
公開日2013年4月17日 申請日期2012年12月28日 優(yōu)先權(quán)日2012年12月28日
發(fā)明者李婧, 王婧, 張大兵 申請人:上海交通大學(xué)