專利名稱::一種人類基因啟動子識別方法
技術領域:
:本發(fā)明涉及一種人類基因識別方法,特別是一種人類基因啟動子識別方法。
背景技術:
:人類基因草圖的繪制成功加速了人類對整個基因的分析。對于每個基因的轉(zhuǎn)錄活性,啟動子是重要的調(diào)控區(qū)域。啟動子區(qū)域的確定及其結(jié)構(gòu)功能的詮釋是理解基因表達方式、基因調(diào)控網(wǎng)絡、細胞分化和發(fā)育的基礎。啟動子預測對于發(fā)現(xiàn)新的未知基因,對于基因治療方法中改善表達載體或基因?qū)胂到y(tǒng)都具有至關重要的作用。啟動子預測已引起廣泛關注,其預測程序是建立在不同概念之上的,根本的原理是啟動子區(qū)域的特性不同于其它基因DNA特性,這些概念包括基于信號與基于內(nèi)容的。對生物啟動子進行計算機預測和識別是一項具有挑戰(zhàn)性的工作,啟動子的多樣性和對轉(zhuǎn)錄調(diào)控機制認識的局限性,給相關的研究工作帶來很大的困難。同源比對算法已經(jīng)用于核苷酸序列同源性比對,但用于啟動子預測仍處于幼年時期,雖可通過比對算法來聚類同源啟動子,但大多數(shù)情況下,同源基因啟動子元件的序列保守性遠遠低于其編碼序列,因此,相似性搜索不再對其功能識別提供有益的線索(Duretetal.,Curr.Opin.Struct.Biol.,1997,7:399)。此外,許多啟動子受多條信號通路的調(diào)節(jié),特異性響應不同刺激的功能需求使啟動子的組織結(jié)構(gòu)變得更加復雜多樣。有時甚至受同一條信號通路調(diào)節(jié)的啟動子也可能完全不具有序列同源性(Kirchhamer,etal.,Proc.Natl.Acad.Sci.U.S.A.,1996,93:9322)。另外,啟動子中存在許多像轉(zhuǎn)錄因子結(jié)合位點一樣的序列結(jié)構(gòu)特征,而這些特征結(jié)構(gòu)并不為啟動子所獨有,它們散布在整個基因組中,如何濾除這為數(shù)眾多的噪音信號也成為大片段基因組中啟動子的計算機預測所面臨的難題(Sap,etal.,Nature,1989,340:242;Bohjanen,etal.,NucleicAcidsRes"1997,25:4481;Wang,etal.,Proc.Natl.Acad.Sci.U.S.A.,199895:492)。有一些程序根據(jù)實驗獲得的轉(zhuǎn)錄因子結(jié)合特性來描述啟動子的序列特征,并依次作為啟動子預測的依據(jù),但實際的效果并不十分理想,遺漏和假陽性都較嚴重。
發(fā)明內(nèi)容有鑒于此,為了解決上述啟動子預測所存在問題,本發(fā)明提供了一種人類基因啟動子識別方法,能夠用于人類基因啟動子區(qū)域的確定及其結(jié)構(gòu)功能的論釋,可用于發(fā)現(xiàn)新的未知基因。本發(fā)明的目的是這樣實現(xiàn)的一種人類基因啟動子識別方法,包括如下a)基于主成分分析方法,建立堿基廣義性質(zhì)得分表征體系;c)用自交叉協(xié)方差方法對每個人類基因啟動子和非啟動子的表征變量做歸一化處理;d)用徑向基核支持向量機建立人類基因啟動子識別模型。進一步,在于步驟a)具體包括如下步驟al)選取5種堿基的1209種0D-3D性質(zhì)參數(shù);a2)對1209種性質(zhì)參數(shù)做相關性分析,精選得到41個性質(zhì)參數(shù);a3)用主成分分析法處理得到的堿基性質(zhì)參數(shù),得到4個主成分;a4)計算各主成分得分,將得分矢量定義為堿基廣義性質(zhì)得分;進一步,步驟b)具體包括用堿基廣義性質(zhì)得分矢量所涉及的4個主成分對人類基因啟動子和非啟動子的序列沿5,—3'方向進行表征,其中的每個堿基用4個堿基廣義性質(zhì)得分矢量表征;進一步,步驟c)具體包括如下步驟用自交叉協(xié)方差處理得到的每個啟動子和非啟動子序列的表征變量,設置步長/為6,使每個序列的表征變量數(shù)目一致,并將經(jīng)自交叉協(xié)方差處理得到的變量作為啟動子識別^f莫型的自變量;進一步,步驟d)具體包括如下步驟首先定義兩個指示變量,分別用"l"表示啟動子樣本,用"-r,表示非啟動子樣本,以此指示變量作為啟動子識別模型的因變量,用徑向基核支持向量機建立人類基因啟動子識別模型。本發(fā)明的一種人類基因啟動子識別方法,其中選取的堿基廣義性質(zhì)得分所含信息量大、物理化學意義明確、表征能力強、結(jié)果易解釋、拓展性能好及操作筒便;用自交叉協(xié)方差方法對每個啟動子和非啟動子的表征變量做歸一化處理,該方法能夠較大程度地減少原始變量信息的損失,同時可充分考慮相鄰堿基之間的交互效應及相互影響;而徑向基核支持向量機通過核函數(shù)技術,可以很好地相關經(jīng)自交叉協(xié)方差轉(zhuǎn)換的序列表征變量及觀測分類值之間的關系,可以有效的防止模型的過擬合,同時,所建模型具有良好的泛化性能。本發(fā)明的其他優(yōu)點、目標和特征在某種程度上將在隨后的說明書中進行闡述,并且在某種程度上,基于對下文的考察研究對本領域技術人員而言將是顯而易見的,或者可以從本發(fā)明的實踐中得到教導。本發(fā)明的目標和其他優(yōu)點可以通過下面的說明書,權利要求書,以及附圖中所特別指出的結(jié)構(gòu)來實現(xiàn)和獲得。為了使本發(fā)明的目的、技術方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā)明作進一步的詳細描述,其中圖1是本發(fā)明的支持向量才A4莫型識別結(jié)果的受試者操作特征分析示意圖。具體實施例方式以下將參照附圖,對采用本發(fā)明的方法用于人類基因啟動子識別為例進行詳細的描述,包括以下步驟a)基于主成分分析方法,建立堿基廣義性質(zhì)得分表征體系;收集5種堿基(A,C,G,T與U)的1209種性質(zhì)參數(shù),包括構(gòu)成特性,官能團數(shù)目,原子中心碎片和分子特性,分子電距矢量(MEDV),分子全息距離矢量(MHDV),拓樸,運轉(zhuǎn)和路徑數(shù)目,連接性指數(shù),信息指數(shù),自相關,邊緣鄰接指數(shù),Burden特征值,拓樸電荷指數(shù),特征值指數(shù),Randic分子剖面,幾何,基于不同原子間距的徑向基函數(shù)描述子(RDF),基于電衍射法的分子結(jié)構(gòu)表征(MoRSE)得到的描述子,加權整體不變分子的(WHIM)描述子及幾何、拓樸與原子重量的集合(GETAWAY)描述子等;另外還包括其它相關性質(zhì)最高占據(jù)軌道(HOMO)能、偶極矩及Wiener指數(shù)等性質(zhì)參數(shù)。釆用主成分分析壓縮描述子數(shù)量,為了避免變量之間嚴重的多重相關性對主成分的危害,首先對1209個原始變量做相關性分析,對于相關系數(shù)大于或等于0.90的各組變量,根據(jù)其在原始變量矩陣中的載荷大小,將其中的一個保留,其它的予以刪除,最終剩余41個變量,其主要反應了堿基的如下信息平均分子量、重鍵數(shù)目、平均芳香極化度、平均電拓樸狀態(tài)、電子總能量、熱力學性質(zhì)、Moriguchi辛-分配系數(shù)(logP)、尿素衍生物的數(shù)目、氫鍵接受體原子數(shù)目(N、O、F)、E-狀態(tài)拓樸參數(shù)、Kier柔性指數(shù)、最高占據(jù)軌道(HOMO)能、分子全息距離矢量、偶極矩、扭轉(zhuǎn)能及空間結(jié)構(gòu)等。對41個變量經(jīng)主成分分析變換后其前4個主成分累計解釋原始數(shù)據(jù)矩陣(5x41)99.99。/。的方差,經(jīng)過轉(zhuǎn)換后的主成分得分見表1,因此,可用此4個主成分得分矩陣(5x4)代替原始變量矩陣(5x41)。表l5種堿基的41種性質(zhì)參數(shù)的4個主成分得分<table>tableseeoriginaldocumentpage6</column></row><table>對4個主成分載荷分析發(fā)現(xiàn),對第1主成分正貢獻相對最大的是以原子質(zhì)量為權重的第三成分對稱方向的WHIM指數(shù),WHIM描述子屬于3D幾何類描述子,是對原子坐標權重矩陣協(xié)方差矩陣的PCA得到,其次是基于結(jié)構(gòu)信息內(nèi)容的描迷子,這兩類描述子都可視為立體(Steric)特性描述子。負貢獻較大的是以原子極化度為權重的Moran自相關描述子及扭轉(zhuǎn)能等變量。對第2主成分正貢獻較大的是基于電子衍射方法表征分子3D結(jié)構(gòu)而得到的非加權3D-MoRSE描述子分量和電子能等變量信息。負貢獻較大的是氮原子(N)與氧原子(O)之間的拓樸距離總和等變量。在第3主成分中,具有較大正載荷的變量是2-通道Kier修正a形狀指數(shù)和Kier柔性指數(shù),兩者都屬于拓樸類描述子。具有較大負載荷的是平均原子極化度(針對碳原子)和平均分子量等信息,其都屬于分子構(gòu)成類描述子。與第4主成分載荷正相關較大的是由本研究組提出的分子全息距離矢量的第7分量。分子全息距離矢量是將原子劃分為13種原子類型,進一步定義原子屬性及相對鍵長而得到的基于分子2D拓樸結(jié)構(gòu)的描述子,其中第7分量表示原子環(huán)境C-與〉N-,〉P-之間的全息距離("-",">","<,,分別表示連有1,2,2個非氬原子或化學鍵與之相連)。呈現(xiàn)較大負相關的是非加權的3D-MoRSE描述子分量及以原子極化度為權重的Moran自相關描述子等變量信息。為方便,稱此4個主成分得分矢量為堿基廣義性質(zhì)得分,因為此4個得分矢量從多角度綜合了堿基的1209種性質(zhì)參數(shù)的大部分信息,因此,可考慮嘗試將其用于核酸序列表征。b)應用堿基廣義性質(zhì)得分對人類基因啟動子和非啟動子的結(jié)構(gòu)進行表征;選擇565條人類基因啟動子序列、3819條非啟動子序列(890條外顯子和2929條內(nèi)含子),用堿基廣義性質(zhì)得分矢量所涉及的4個主成分對所選序列沿5,—3'方向進行表征,序列中的每個堿基用4個堿基廣義性質(zhì)得分矢量表征。每個序列根據(jù)其含有的》咸基數(shù)目(定義為"),以wx4個變量表征。c)用自交叉協(xié)方差方法對每個人類基因啟動子和非啟動子的表征變量做歸一化處理;用自交叉協(xié)方差(ACC)處理得到每個啟動子和非啟動子序列的表征變量,該法考慮了序列不同位點堿基參數(shù)之間所有交互效應,因此,在數(shù)據(jù)變換過程中可最大程度地降低信息損失。設所研究的樣本集中最短序列長度為/+1,對任意一個含有w個堿基的序列,ACC處理如下式中/為步長;z'和/+/為序列中堿基所處位置;a和6分別為第/和/+/個堿基相應描述子分量號,對于堿基廣義性質(zhì)得分矢量,其0,6=1,2,3,4??煽吹?,當計算所有可能步長時"=1,2,3,...,/,樣本集中不同長度的序列經(jīng)ACC處理后其描述子數(shù)目最終都為4、/個,此處選擇步長/為6,這樣每條序列可由4、6=96個變量表征,將經(jīng)自交叉協(xié)方差處理得到的變量作為啟動子識別模型的自變量。d)用徑向基核支持向量機建立人類基因啟動子識別模型;首先定義兩個指示變量,分別用"l"表示啟動子樣本,用"-l"表示非啟動子樣本(外顯子與內(nèi)含子),以此指示變量作為啟動子識別模型的因變量,用徑向基核支持向量機建立人類基因啟動子識別模型,其參數(shù)設置為C=200.0,《(x^.)-e^(-0.125IIx-x,.II2)。若分別定義^c為計算預測正確樣本數(shù)目所占總樣本數(shù)目百分比,Sp為預測正確的啟動子樣本數(shù)目的百分比,&為預測正確的非啟動子樣本數(shù)目的百分比,JWCC為馬^f木斯相關系數(shù)等統(tǒng)計參數(shù),則經(jīng)留一法交互驗證,支持向量機模型對訓練集中565條啟動子與3819條非啟動子識別得Ac=83.8,Sn=67.1,Sp=86.3與AfCC=0.442,進一步采用留1/5法交互驗證得』cc=81.7,<Sn=66.9,^=83.8與MCC=0.406,這表明基于廣義堿基性質(zhì)得分表征,自交叉協(xié)方差歸一化處理,徑向基核支持向量機建模過程所建模型可較好地識別人類基因啟動子。留一法及留1/5法得到的支持向量數(shù)目占總樣本的數(shù)目分別為62.1°/。與68.3%,即有37.9%與31.7%的樣本可被安全地刪除而不影響其對新樣本的預測效果,進一步表明支持向量分類機具有良好的泛化性能。進一步以(1-Sp)為橫坐標(7軸),靈敏度(&)為縱坐標(F軸),繪制受試者操作特征曲線,參見圖1,可看出,所建模型的留一法與留1/5法對應的面積分別為0.835和0.819。為進一步驗證所發(fā)明方法對于人類基因啟動子的預測效果,從EPD數(shù)據(jù)庫(http:〃www.epd.isb-sib.ch/)選擇與所用訓練集不同的100條啟動子與100條內(nèi)含子序列進行預測,用徑向基核支持向量機模型對之預測的結(jié)果列于表2中,同時選擇7個預測服務器對200條序列進行預測結(jié)果比較,經(jīng)對比發(fā)現(xiàn),本發(fā)明方法所得&及MCC最高,表明其對于人類基因啟動子預測具有較明顯的優(yōu)勢。表2人類基因啟動子預測結(jié)果比較方法服務器地址4&SpMX70.556.085.00.428http://bimas.dcrt.nih.gov/molbio/proscaji/55.529.082.00.130http:〃research.i2r.a-star.edu.sg/promoter/promoterl—5/DPF.Im58.538.079.00.186http:〃www.cbs.dtu.dk/services/Promoter/NNPP(Reese,Comput.Chem.,2001,26(1):51)http:〃www.fruitfly.org/seq_tools/promoter.htmlPromoterS咖(Prestridge,J.Mol.Biol"1995,249:923)DragonPromoterFinderversion1.5(Bajic,etal"J.Mol.Graph.Model"2003,21:323)Promoter2.0PredictionServer(Knudsen,etalBioinformatics,1999,15(5):356)FirstEF(Davuluri,etal.,Nat.Genet"2001,29:412)McPromoter(Ohler,etal.,Bioinformatics,1999,15(5):362)PromoSer(Halees,etal.NucleicAcidsRes.:2003,31:3554)堿基廣義性質(zhì)得分表征-自交叉協(xié)方差歸一化-徑向基核支持向量機建模63.549.078.00.282http:〃rulai.cshl.org/tools/FirstEF/http:〃genes.mit.edu/McPromoter.h加lhttp://biowulf.bu.edu/zlab/PromoSer/^本發(fā)明方法61.540.083.00.25564.048.080.00.29663.048.078.00.27371.562.081.00.438以上所述僅為本發(fā)明的優(yōu)選實施例,并不用于限制本發(fā)明,顯然,本領域的技術人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權利要求及其等同技術的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。權利要求1.一種人類基因啟動子識別方法,其特征在于包括如下步驟a)基于主成分分析方法,構(gòu)建堿基廣義性質(zhì)得分表征體系;b)應用堿基廣義性質(zhì)得分對人類基因啟動子和非啟動子的結(jié)構(gòu)進行表征;c)用自交叉協(xié)方差方法對每個人類基因啟動子和非啟動子的表征變量做歸一化處理;d)用徑向基核支持向量機建立人類基因啟動子識別模型。2.根據(jù)權利要求1的一種人類基因啟動子識別方法,其特征在于步驟a)具體包括如下步驟al)選擇5種堿基的1209種0D-3D性質(zhì)參數(shù);a2)對1209種性質(zhì)參數(shù)做相關性分析,精選得到41個性質(zhì)參數(shù);a3)用主成分分析法處理得到的堿基性質(zhì)參數(shù),得到4個主成分;a4)計算各主成分得分,將得分矢量定義為-威基廣義性質(zhì)得分。3.根據(jù)權利要求2的一種人類基因啟動子識別方法,其特征在于步驟b)具體包括用堿基廣義性質(zhì)得分矢量所涉及的4個主成分對人類基因啟動子和非啟動子的序列進行表征,序列中的每個堿基用4個堿基廣義性質(zhì)得分矢量表征。4.根據(jù)權利要求3的一種人類基因啟動子識別方法,其特征在于步驟c)具體包括如下步驟用自交叉協(xié)方差處理得到的每個啟動子和非啟動子序列的表征變量,設置步長/為6,使每個序列的表征變量數(shù)目一致,并將經(jīng)自交叉協(xié)方差處理得到的變量作為啟動子識別^f莫型的自變量。5.根據(jù)權利要求1至4中任一項的一種人類基因啟動子識別方法,其特征在于步驟d)具體包括如下步驟首先定義兩個指示變量,分別用"l"表示啟動子樣本,用"-l,,表示非啟動子樣本,以此指示變量作為啟動子識別模型的因變量,用徑向基核支持向量機建立人類基因啟動子識別模型。全文摘要本發(fā)明公開了一種人類基因啟動子識別方法,能夠用于人類基因啟動子區(qū)域的確定及其結(jié)構(gòu)功能的詮釋,可用于發(fā)現(xiàn)新的未知基因,包括如下步驟a)基于主成分分析方法,建立堿基廣義性質(zhì)得分表征體系;b)應用堿基廣義性質(zhì)得分對人類基因啟動子和非啟動子的結(jié)構(gòu)進行表征;c)用自交叉協(xié)方差方法對每個啟動子和非啟動子的表征變量做歸一化處理;d)用徑向基核支持向量機建立人類基因啟動子識別模型。文檔編號C12Q1/68GK101307359SQ20081006994公開日2008年11月19日申請日期2008年7月8日優(yōu)先權日2008年7月8日發(fā)明者李志良,力楊,梁桂兆,虎梅,茂舒申請人:重慶大學