專利名稱:一種構(gòu)建薔薇科原始染色體的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及生物信息學(xué)領(lǐng)域,具體涉及ー種構(gòu)建薔薇科原始染色體的方法及其應(yīng)用。
背景技術(shù):
古基因組學(xué)是根據(jù)現(xiàn)有物種的基因創(chuàng)建原始的基因組,是對原始基因組結(jié)構(gòu)的研究。在Silico共線性研究中,通過染色體片段適度的重新洗牌重建哺乳動物的原始基因。相對于哺乳動物而言,古基因組學(xué)在植物中研究較少,因?yàn)楸蛔又参锝?jīng)歷了多次的全基因組復(fù)制,大片段的復(fù)制,二倍體化,小規(guī)模的重排和基因的復(fù)制事件,致使在單子葉植物和雙子葉植物中的比較基因組研究相當(dāng)困難。在過去的幾十年中,比較基因組學(xué)的研究在單子葉植物特別是在草類中有很大的進(jìn)展。Jerome salse利用小麥,大麥,水稻,大豆和玉米這5個(gè)谷類的基因信息,預(yù)測了禾本科5條原始的染色體Jerome salse, et al Reconstruction οι monocotelydoneous proto-cnromosomes reveals iaster evolution in plants than in animals. PNAS,2009,35 :14908_14913。在真雙子葉植物中,Jaillon and Velasco基干葡萄、擬南芥和楊樹的基因組信息,預(yù)測了其7條原始染色體Jaillon 0, et al. ihe grapevine genome sequence suggests ancestral nexaploiaization in major angiosperm phyla.Nature,2007,449 :463-467 ;Velasco R, et al. A high quality draft consensus sequence of the genome of a heterozygous grapevine variety. 2007。薔薇科由100多個(gè)屬,3000多個(gè)種組成,是溫帶地區(qū)第三大重要的經(jīng)濟(jì)植物,所包含的水果,堅(jiān)果,觀賞植物等,均具有重要的食用和觀賞價(jià)值。根據(jù)果實(shí)的類型,薔薇科分為 4個(gè)亞科,包括薔薇亞科U = 7,8或是9),李亞科U = 8),繡線菊亞科U = 9),和蘋果亞科U = 17)。隨著測序技術(shù)的發(fā)展和成本的降低,薔薇科中蘋果和草莓均已完成全基因組測序,李亞科中的梅花的全基因組測序也已經(jīng)完成。在此基礎(chǔ)上,有必要構(gòu)建薔薇科原始染色體,以便于對薔薇科染色體的進(jìn)化做進(jìn)ー步的研究。
發(fā)明內(nèi)容
本發(fā)明的目的在于構(gòu)建薔薇科原始染色體的方法及其應(yīng)用。本發(fā)明的技術(shù)方案如圖1所示。本發(fā)明提供了一種構(gòu)建薔薇科原始染色體的方法,包括以下步驟(1)收集薔薇科已測序物種數(shù)據(jù);(2)鑒定同源基因;(3)確定參考物種染色體同源區(qū)域;(4)確定比對物種和參考物種在染色體上的同源區(qū)域;(5)構(gòu)建原始染色體。具體地,上述方法的步驟1)是獲得物種基因CDS序列和基因在染色體上的定位信息。步驟2)是將兩個(gè)基因blast的結(jié)果用累加一致性百分比(CIP,cumulative identity percentage)禾ロ累カロ 比對長度臼分比(CALP, cumulative alignment length percentage)鑒定同源基因。所述步驟3)是是通過參考物種的自身blastn比對找到的同源區(qū)域,得到參考物種基因的染色體復(fù)制信息。具體地,是通過參考物種基因的⑶S序列自身blastn比對,挑選E-value小于 le-5的基因比對結(jié)果;計(jì)算兩個(gè)基因的CIP和CALP值,判定同源基因,保留一個(gè)比對基因?qū)?yīng)ー個(gè)參考基因的結(jié)果;根據(jù)挑選出的基因?qū)斑@些基因在染色體上的坐標(biāo)信息,運(yùn)行 CloseUp軟件,得到參考物種的復(fù)制區(qū)域;根據(jù)區(qū)域結(jié)果確定參考物種的復(fù)制信息。所述步驟4)是比對物種和參考物種之間的blastn比對找到的同源區(qū)域。具體是挑選E-value小于le_5的基因比對結(jié)果;計(jì)算基因的CIP和CALP值,判定同源基因,保留一個(gè)比對基因?qū)?yīng)ー個(gè)參考基因的結(jié)果;根據(jù)挑選出的基因?qū)斑@些基因在染色體上的坐標(biāo)信息,運(yùn)行CloseUp軟件,得到比對物種和參考物種同源基因的區(qū)域;根據(jù)區(qū)域結(jié)果確定比對物種和參考物種在染色體上的同源區(qū)域。所述步驟幻是根據(jù)參考物種自身的復(fù)制信息、區(qū)域和比對物種與參考物種比對得到的同源區(qū)域,確定測序物種的同源區(qū)域及組合信息,并構(gòu)建其從祖先染色體到現(xiàn)在的演化歷史。本發(fā)明提供的一種構(gòu)建薔薇科原始染色體方法中,獲得的已測序物種為蘋果、草 fe、*母花。本發(fā)明的參考物種為蘋果,所述比對物種為梅花和/或草莓。本發(fā)明提供了上述方法在確定植物物種祖先染色體進(jìn)化方面的應(yīng)用。
所述的植物為薔薇科植物。本發(fā)明從基因組出發(fā),通過生物信息學(xué)的方法確定薔薇科原始染色體的進(jìn)化歷史,構(gòu)建了薔薇科原始染色體。本發(fā)明方法的有益效果為突破常規(guī)同源比對的方法,使用嚴(yán)格的鑒定同源基因的指標(biāo),首次在全基因組水平上掲示蘋果、梅花和草莓染色體之間的共線性關(guān)系,促進(jìn)對李屬、蘋果屬和草莓屬進(jìn)化關(guān)系的研究。因此本發(fā)明具有重要的應(yīng)用前景。
圖1是本發(fā)明方法的技術(shù)路線圖。
具體實(shí)施例方式以下實(shí)施例進(jìn)ー步說明本發(fā)明的內(nèi)容,但不應(yīng)理解為對本發(fā)明的限制。在不背離本發(fā)明精神和實(shí)質(zhì)的情況下,對本發(fā)明方法、步驟或條件所作的修改或替換,均屬于本發(fā)明的范圍。若未特別指明,實(shí)施例中所用的技術(shù)手段為本領(lǐng)域技術(shù)人員所熟知的常規(guī)手段。實(shí)施例11、蘋果,草莓和梅花基因組數(shù)據(jù)的收集。從http://www. rosaceae. org/projects/app 1 e_genome得到蘋果基因⑶S序列和基因在染色體上的定位信息;從http//www. strawberrygenome. org/下載草莓基因⑶S序列、基因在染色體上的定位信息;梅花全基因組測序得到CDS序列、基因在染色體上的定位信息。2、同源基因的鑒定。兩個(gè)基因比對的累加一致性百分比(CIP cumulative identity percentage)禾ロ累カロ 比對長度 Ε 分比(CALP :cumulative alignment length percentage) 0根據(jù)比對物種(query)基因和參考物種(subject)基因blastn的比對結(jié)果和比對基因的長度來計(jì)算。比對基因A和參考基因B的CIP = Σ (1/1^)\100,其中^ 為基因A和基因B每段比對上的長度,Lab為基因A和基因B參與比對的長度;基因A和基因B的CALP = (Lab/La) X 100,其中Lab為基因A和基因B參與比對的長度,La為基因A的長度。對于蘋果自身比對,blastn E-value小于le_5,CIP和CALP都大于70的基因?qū)ε卸橥椿?;對于梅花、草莓與蘋果的比對,blastn E-value小于le_5,CIP大于60,且 CALP大于70的基因?qū)ε卸橥椿?。蘋果內(nèi)部的比對得到85560對同源基因;梅花與蘋果之間的比對得到30463對同源基因;草莓與蘋果之間的比對得到13227對同源基因。3、蘋果染色體間來源的確定。根據(jù)蘋果自身比對得到的同源基因,去除基因自身比對的結(jié)果及比對基因和參考基因都在同一條染色體上的基因?qū)?;去除一個(gè)比對基因比上多個(gè)參考基因的基因?qū)?,僅保留一個(gè)比對基因?qū)?yīng)ー個(gè)參考基因的結(jié)果,得到107M 對同源基因;根據(jù)挑選出的基因?qū)斑@些基因在染色體上的坐標(biāo)信息,運(yùn)行CloseUp軟件(Minimum number of matches in a run = 5, Minimum Cluster density ratio = 2, Maximum Cluster length difference = 40,其余參數(shù)默認(rèn)),得到蘋果的復(fù)制區(qū)域,共 57986個(gè)區(qū)域塊;根據(jù)區(qū)域間基因的相交關(guān)系合并區(qū)域,得253個(gè)區(qū)域塊,共7999對基因; 根據(jù)結(jié)果確定蘋果的復(fù)制信息,見表1。4、參考物種和蘋果的比對。將作為比對物種的梅花基因和草莓基因與作為參考物種的蘋果基因分別比對得到的同源基因,去除一個(gè)比對基因比上多個(gè)參考的基因?qū)?,僅保留ー個(gè)比對基因?qū)?yīng)ー個(gè)參考的基因?qū)?,過濾后,梅花與蘋果之間得到5915對同源基因, 草莓與蘋果之間得到3012對同源基因;根據(jù)挑選出的基因?qū)斑@些基因在染色體上的坐標(biāo) 1苜息,;1sixCloseUp軟件(Minimum number of matches in a run = 5,Minimum Cluster density ratio = 2,Maximum Cluster length difference = 40,其余參數(shù)默認(rèn)),得到比對物種和蘋果的同源區(qū)域,梅花與蘋果之間共25503個(gè)區(qū)域塊,草莓與蘋果之間共8103個(gè)區(qū)域塊;根據(jù)區(qū)域間基因的相交關(guān)系合并區(qū)域,梅花與蘋果之間得到174個(gè)區(qū)域塊,4584對同源基因,草莓與蘋果之間得到132個(gè)區(qū)域塊,2031對同源基因;根據(jù)區(qū)域結(jié)果確定比對物種(梅花與草莓)和參考物種蘋果在染色體上的同源區(qū)域(表2和表3)。5、確定薔薇科祖先染色體和蘋果、草莓和梅花從祖先染色體的進(jìn)化歷史。根據(jù)蘋果自身的復(fù)制信息、區(qū)域和草莓及梅花與蘋果比對得到的同源區(qū)域,確定三個(gè)物種的同源區(qū)域及組合信息,井根據(jù)組合信息確定薔薇科9條祖先染色體,并掲示出草莓經(jīng)過15次染色體間的融合由祖先的9條染色體演化為7條染色體(表幻,蘋果經(jīng)過一次全基因組復(fù)制和5次染色體間的融合由祖先的9條染色體演化為17條染色體(表1),梅花經(jīng)過15次染色體間的融合由祖先的9條染色體演化為8條染色體,并且梅花4,5,7號染色體并沒有經(jīng)歷重排,分別來自祖先3,7,6號染色體(表2)。
權(quán)利要求
1.一種構(gòu)建薔薇科原始染色體的方法,包括以下步驟1)收集薔薇科已測序物種數(shù)據(jù);2)鑒定同源基因;3)確定參考物種染色體同源區(qū)域;4)確定比對物種和參考物種在染色體上的同源區(qū)域;5)構(gòu)建原始染色體。
2.如權(quán)利要求1所述的方法,其特征在干,步驟1)所述的物種數(shù)據(jù)是物種基因CDS序列和基因在染色體上的定位信息。
3.如權(quán)利要求1所述的方法,其特征在干,步驟1)所述的已測序物種為蘋果、草莓、梅
4.如權(quán)利要求1所述的方法,其特征在干,步驟2)是將兩個(gè)基因blast的結(jié)果用累加一致性百分比CIP和累加比對長度百分比CALP鑒定同源基因。
5.如權(quán)利要求1所述的方法,其特征在干,步驟3)是通過參考物種的自身blastn比對找到的同源區(qū)域,得到參考物種基因的染色體復(fù)制信息。
6.如權(quán)利要求1所述的方法,所述參考物種為蘋果,所述比對物種為梅花和/或草莓。
7.如權(quán)利要求1所述的方法,其特征在干,步驟4)是通過比對物種和參考物種之間的 blastn比對找到在染色體上的同源區(qū)域。
8.如權(quán)利要求1所述的方法,其特征在干,所述步驟5)是通過參考物種自身比對和比對物種與參考物種的比對得到的在染色體上的區(qū)域方法實(shí)現(xiàn)的。
9.權(quán)利要求1-8任一所述的方法在確定植物物種祖先染色體進(jìn)化方面的應(yīng)用。
10.如權(quán)利要求9所述的應(yīng)用,其特征在于所述的植物為薔薇科植物。
全文摘要
本發(fā)明提供了一種基于生物信息學(xué)的方法構(gòu)建薔薇科原始染色體的方法及其應(yīng)用。本發(fā)明方法是通過對比蘋果、草莓和梅花三個(gè)薔薇科已知基因數(shù)據(jù),鑒定同源基因,確定參考物種染色體間關(guān)系,確定已測序物種與參考物種染色體間關(guān)系,從而構(gòu)建薔薇科原始染色體和確定測序物種從祖先染色體的進(jìn)化歷史。
文檔編號C12Q1/68GK102559880SQ20111043997
公開日2012年7月11日 申請日期2011年12月23日 優(yōu)先權(quán)日2011年12月23日
發(fā)明者孫麗丹, 張啟翔, 楊煒茹, 王佳, 程堂仁, 陳文彬, 黃邦清 申請人:北京林業(yè)大學(xué), 深圳華大基因科技有限公司