專利名稱::用于核酸作圖和鑒定核酸中的精細(xì)結(jié)構(gòu)變化的方法
技術(shù)領(lǐng)域:
:總體而言,本發(fā)明涉及用于高通量分析核酸中的精細(xì)結(jié)構(gòu)變化的方法。具體而言,本發(fā)明涉及產(chǎn)生連接的核酸標(biāo)簽對的新策略、載體和其它組分,其中連接的核酸標(biāo)簽對的組成成員具有用戶定義的間隔距離和/或為核酸位置的標(biāo)記,其沿著靶核酸分子的長度劃分一種或多種不同限制性內(nèi)切核酸酶的相鄰切割位點。在一個優(yōu)選的實施方案中,將本發(fā)明用于鑒定可與表型相關(guān)的基因組改變或標(biāo)記物。在另一個優(yōu)選的實施方案中,將本發(fā)明用于產(chǎn)生高分辨率的基因組圖譜以有助于從鳥槍DNA測序中進(jìn)行基因組組裝。
背景技術(shù):
:盡管最豐富且研究最深入的人類基因組變體類型是單核苷酸多態(tài)性(SNP),但日益清楚的是,包括拷貝數(shù)(插入、缺失和重復(fù))改變、倒位、易位和其它序列重排在內(nèi)的所謂“精細(xì)結(jié)構(gòu)變化”為人類基因組和其它基因組的整體特征。這些類型的變化似乎比原先認(rèn)為的更頻繁地存在于一般群體中。建立的證據(jù)表明,結(jié)構(gòu)變體可在各個個體中包含上百萬具有異質(zhì)性的核苷酸。理解精細(xì)結(jié)構(gòu)變化在基因組進(jìn)化、與環(huán)境的相互作用、表型多樣性和疾病中的作用是當(dāng)前基因組研究中最活躍的研究領(lǐng)域之一。關(guān)于綜述,參見Feuk等(2006)、Redon等(2006)、Check(2005)、Cheng等(2005)和Bailey等(2002)。與SNP分析相比,用于分析精細(xì)結(jié)構(gòu)變化的有效高通量方法還沒有被充分開發(fā)。重要的第一步是陣列比較基因組雜交(陣列CGH)技術(shù)(Pinkel等,1998;Pinkel等,美國專利第5,830,645號和第6,159,685號),該技術(shù)能夠定量靶DNA與參比DNA之間的相對拷貝數(shù)。陣列CGH允許以單個排列的細(xì)菌人工染色體(BAC)克隆水平的分辨率,可靠地檢測DNA樣品之間的脫氧核糖核酸(DNA)拷貝數(shù)差異(Snijders等,2001;Albertson等,2000;Pinkel等,1998)。針對cDNA(Heiskanen等,2000;Pollack等,1999)和高密度寡核苷酸陣列平臺(Bignell等,2004;Brennan等,2004;Hung等,2004;Lucito等,2003)修改陣列CGH進(jìn)一步擴展了該方法的分辨率和應(yīng)用性。通過其應(yīng)用,陣列CGH已實現(xiàn)鑒定與腫瘤(Pinkel^PAlbertson,2005;Inazawa等,2004;Albertson和Pinkel,2003;Pollack等,2002)和疾病進(jìn)展(Gonzalez等,2005)相關(guān)的基因拷貝數(shù)變化。1.F粘粒配對末端作圖盡管可用于拷貝數(shù)測定,但陣列CGH并不適合確定其它類型的基因組結(jié)構(gòu)變化,最顯著地,不適于倒位、易位和其它類型的核酸重排。Tuzim等(2005)嘗試用稱為“F粘粒(fosmid)配對末端作圖”的方法解決這些限制。該方法依靠F粘粒包裝的頭部完整(head-full)機制,以從測試者中產(chǎn)生具有相當(dāng)均一的約40千堿基對(kb)大小的基因組插入物的基因組DNA文庫。根據(jù)實驗,實際片段范圍為32kb至48kb,平均值標(biāo)準(zhǔn)差<3,39.9+/-2.76-kb。隨機選擇的約40kb文庫插入物的末端終止測序產(chǎn)生成對的短序列標(biāo)簽,其中每個標(biāo)簽對標(biāo)記兩個基因組位置,這兩個基因組位置沿著靶DNA長度間隔約40kb。然后將標(biāo)簽對與參比基因組組件用計算機比對,在它們的預(yù)期方向或它們的約40kb間隔距離方面的任何不一致都表示在跨越該區(qū)域的靶和參比核酸之間存在至少一個結(jié)構(gòu)差異。圖譜位置間隔超過40kb的標(biāo)簽對表示相對于參比在靶DNA上存在缺失;間隔低于40kb的圖譜位置表示在靶標(biāo)中有DNA插入。已作圖的標(biāo)簽對在方向上的不一致表示潛在的DNA倒位或其它復(fù)合染色體重排。標(biāo)簽對被分配至參比序列上的兩個不同染色體表示染色體易位。通過常規(guī)DNA測序?qū)Τ^百萬個單獨純化的F粘??寺〔迦胛镞M(jìn)行分析,使得Tuzim等(2005)能夠在測試者和參比基因組組件之間鑒定出接近300個結(jié)構(gòu)變化位置。該作者并沒有教導(dǎo)或公開其它產(chǎn)生標(biāo)簽對、產(chǎn)生不同間隔的標(biāo)簽對以改變分析的空間分辨率、改進(jìn)在它們文庫中的插入長度的均一性、通過使用改進(jìn)型DNA序列分析儀(generationDNAsequencer)提高經(jīng)濟性的方法,也沒有公開產(chǎn)生其它類型的序列標(biāo)簽對的方法,例如可根據(jù)成對相鄰內(nèi)切核酸酶切割位點之間的位置和/或間隔距離劃分基因組位置的本發(fā)明序列標(biāo)簽對。許多類型的精細(xì)結(jié)構(gòu)變化并不被由F粘粒配對末端作圖法所固定的約40kb分辨率窗所分辨。F粘粒配對末端作圖具有其它的限制。F粘粒載體以極低拷貝數(shù)在宿主細(xì)胞中增殖,該特性用于使在某些基因組序列在微生物宿主中增殖期間所遇到的潛在重組、重排和其它人為產(chǎn)物(artifact)最少。盡管目前應(yīng)用可擴增形式的F粘粒載體(Szybalski,美國專利第5,874,259號),但是由于低DNA收率(與常規(guī)質(zhì)粒相比),末端測序F粘??寺∫援a(chǎn)生序列標(biāo)簽仍具有極差的經(jīng)濟性,使得難以維持高通量自動化模板產(chǎn)生和測序。此外,需要兩個獨立的序列反應(yīng)以從單個F粘粒DNA模板中產(chǎn)生標(biāo)簽對序列,因而進(jìn)一步降低了經(jīng)濟性。盡管F粘粒配對末端作圖是鑒定人類基因組中的精細(xì)結(jié)構(gòu)變化的有用開始,但對于每個測試者,都需要巨大的成本和后勤工作來純化和測序上百萬的F粘粒插入末端,這阻礙了其在廣泛群體和人群調(diào)查中鑒定基因組變化的應(yīng)用,所述基因組變化可能與復(fù)雜疾病有關(guān)或響應(yīng)環(huán)境因素等。此外,F(xiàn)粘粒載體及其變體一般以非常低的拷貝數(shù)在宿主細(xì)胞中增殖,使得難以維持可靠的自動化DNA產(chǎn)生和測序。因此,需要用于基因組和相關(guān)研究中的有效、穩(wěn)定高通量且低成本的鑒定精細(xì)結(jié)構(gòu)變化的方法,以將這些遺傳元件與疾病、疾病進(jìn)展和疾病易感性聯(lián)系起來。2.用于產(chǎn)生基因組標(biāo)簽的現(xiàn)有方法多種基于DNA的指紋法在本領(lǐng)域中已描述用于表征和比較基因組(Wimmer等,2002;Kozdroj和vanElsas,2001;RouiIlard等,2001;Schloter等,2000)。所有這些方法都使用靶DNA的限制性內(nèi)切核酸酶消化、PCR擴增或凝膠電泳分離的某些組合。通常,需要繁瑣地從凝膠中提取候選DNA片段用于DNA測序阻礙了這些方法。Durm等(2002)的工作取得進(jìn)步,其中他們描述了一種使用IIS型/IIG型限制性內(nèi)切核酸酶MmeI產(chǎn)生用于分析基因組DNA的“基因組識別標(biāo)識標(biāo)簽(GenomicSignatureTag)”(GST)的方法。通過將具有MmeI識別位點的連接物連接至基因組DNA片段產(chǎn)生GST,所述基因組DNA片段最初如下產(chǎn)生通過用II型限制性內(nèi)切核酸酶初始消化靶基因組DNA,接著用頻繁切割的標(biāo)簽酶(frequentcuttingtaggingenzyme)進(jìn)二次化。用MmeI化連接物(adaptor)連接的DNA,產(chǎn)生21bp的標(biāo)簽(GST),該標(biāo)簽具有在DNA中相對于初始限制酶消化所識別的位點固定的位置。在通過PCR擴增后,寡聚純化的GST,用于克隆和DNA測序。將所述標(biāo)簽的同一性及其相對豐度用于建立基因組DNA的高分辨率“GST序列概況”,其可用于鑒定和定量既定的復(fù)雜DNA分離物中的最初基因組。使用鼠疫耶爾森氏菌(Yersiniapestis)作為模型系統(tǒng),Durm等(2002)能夠界定相對簡單的基因組中可能已經(jīng)經(jīng)歷添加或缺失限制性位點的改變的區(qū)域。然而,Durm等(2002)的方法在復(fù)雜的基因組如人基因組中的效用有限,在復(fù)雜的基因組中,大多數(shù)結(jié)構(gòu)變化不能通過簡單的獲得或失去研究中的少量限制性內(nèi)切核酸酶位點來揭示。此外,對于即便1個限制性位點,覆蓋大基因組或分析多個樣品所需的GST數(shù)量也是非常高的。與此相反,本發(fā)明的GVT對對分析復(fù)雜基因組概況或擴展分析多個DNA樣品提供經(jīng)濟性和分析能力。一種首先由Velculescu等(1995)和Kinzler等(1995)(美國專利第5,695,937號)描述的、稱為基因表達(dá)的連續(xù)分析(SerialAnalysisofGeneExpression,SAGE)的方法的多種形式,也利用IIS型或IIG型限制性內(nèi)切核酸酶來產(chǎn)生DNA標(biāo)簽(Ng等,2005;Wei等,2004;Saha等,2002)。所謂的“SAGE標(biāo)簽”由cDNA模板產(chǎn)生,以提供對生物樣品中cDNA種類的復(fù)雜性和相對豐度的評價。新近形式的SAGE稱為“LongSAGE”,其利用MmeI消化,產(chǎn)生21bp的序列標(biāo)簽,以標(biāo)記mRNA轉(zhuǎn)錄物(Saha等,2002)。最新的改進(jìn)形式稱為“SuperSAGE”,其利用III型限制性內(nèi)切核酸酶EcoP15I產(chǎn)生25bp至27bp的較長標(biāo)簽,用于改善mRNA對基因組的分配(Matsumura等,2003)。盡管本發(fā)明也利用IIS型、IIG型或III型限制性內(nèi)切核酸酶以產(chǎn)生序列標(biāo)簽,但就制備方法和改善的信息內(nèi)容而言,所得的本發(fā)明GVT對與前述SAGE和GST標(biāo)簽根本不同。就產(chǎn)生尤其可用于表征新基因組或注釋(annotate)基因組和DNA樣品的精細(xì)結(jié)構(gòu)變化的高分辨率物理圖譜而言,相對于使用單個未連接標(biāo)簽,本發(fā)明空間連接的標(biāo)簽對顯著改善效率和分析能力。Ng等(2005)的近期工作描述了SAGE法的進(jìn)一步發(fā)展。研究者利用Collins和Weissman(1984)首創(chuàng)的方法,在該方法中利用DNA片段環(huán)化(也稱為分子內(nèi)DNA連接),以將遠(yuǎn)端DNA區(qū)段一起連接入載體中,產(chǎn)生所謂的“基因組跳躍文庫(genomicjumpinglibraries),,(Collins等,1987)。Ng等環(huán)化單個cDNA,以將其5,和3,來源的SAGE標(biāo)簽連接在一起,產(chǎn)生“配對末端雙標(biāo)簽”(PET),然后將其寡聚化,以利于有效測序。通過鑒定轉(zhuǎn)錄單元的轉(zhuǎn)錄起始位點和聚腺苷酸化位點,以劃分基因邊界和幫助鑒定它們的側(cè)翼調(diào)節(jié)序列,可將PET用于基因組注釋。盡管本發(fā)明GVT對和PET均依靠分子內(nèi)連接來實現(xiàn)DNA標(biāo)記連接,但只有本發(fā)明GVT對整合了物理距離和其它有用信息例如相鄰限制位點的連接,由此使GVT對唯一并可用于詳細(xì)的基因組結(jié)構(gòu)分析。Ng等(2005)沒有教導(dǎo)產(chǎn)生空間上限定的標(biāo)簽或基于如本公開內(nèi)容所述的其它標(biāo)準(zhǔn)的標(biāo)簽的方法,他們也沒有揭示可如何使用他們的PET法獲得基因組的精細(xì)結(jié)構(gòu)變化或揭示不通過唯一使用IIS型限制性內(nèi)切核酸酶MmeI產(chǎn)生序列標(biāo)簽的其它方法。最后,Ng等(2005)沒有預(yù)見能夠有效使用下一代短讀取(shortread)DNA序列分析儀的方法。Berka等(2006)(美國專利申請2006/0292611)和Kobel等(2007)最近描述了DNA成對末端作圖法,其在功能上類似于本發(fā)明,但他們的方法在最終標(biāo)記的DNA產(chǎn)物的空間方向上根本不同,并且具有某些重要的缺點。在Kobel等(2007)和Berka等(2006)的方法中,工作者將生物素化發(fā)夾連接物連接至靶DNA插入物的各個末端,在此之后,通過將連接物序列連接在一起來使分子環(huán)化,以使最初的靶DNA末端相互緊密接近,位于新并列的生物素化連接物對的任一側(cè)。然后將環(huán)狀分子隨機切割,以產(chǎn)生具有離最初靶DNA插入物末端的隨機距離的暴露的末端。將由此產(chǎn)生的線狀DNA片段通過抗生物素蛋白親和色譜回收,并沿著其全長測序。Kobel等(2007)利用下一代DNA序列分析儀GENOMESEQUENCERFLX(RocheDiagnostics,Indianapolis,IN;454LifeScienceCorp,Bradford,CT)(常稱為"454-序列分析儀”),得到靶DNA插入物的最初末端序列。然而,如所述產(chǎn)生的所得產(chǎn)物不能有效地在SOLEXAGENOMEANALYZER(Illumina,SanDiego,CA)(常稱為"S0LEXA序列分析儀”)或產(chǎn)生“短序列讀出”的任何下一代測序平臺的SOLiD序列分析儀(AppliedBiosystems,FosterCity,CA)上探詢(interrogate)。Kobel等(2007)和Berka等(2006)產(chǎn)生的DNA產(chǎn)物采取所謂的“由外向內(nèi)(outside-in)”拓補,由此靶DNA插入物的最初末端(“外側(cè)”)以反向位置(“向內(nèi)”)定向,所述反向位置被新并列的生物素化連接物對所間隔開,所述連接物對隨機位于所得DNA片段的長度之內(nèi)。由于與最初的靶DNA末端相比采取“由外向內(nèi),,拓補,所以為了確定最初靶DNA片段的末端序列,對于跨過生物素化連接物對并通過DNA產(chǎn)物的另一側(cè)的序列而言,序列測定數(shù)百個堿基或以上是必要的。如此產(chǎn)生的大部分產(chǎn)物在454-序列分析儀的400bp讀取長度之內(nèi)。短讀取DNA序列分析儀例如SOLEXA的操作成本為454-序列分析儀的十分之一或更低,但通常支持50個堿基的讀取長度,該長度不足以絕對精確地探詢由Berka等(2006)和Kobel等(2007)的方法所產(chǎn)生的產(chǎn)物。Berka等(2006)描述了他們方法的變體,其中將IIS型限制性內(nèi)切核酸酶MmeI用于產(chǎn)生對應(yīng)于最初DNA插入物末端序列的約20個堿基的標(biāo)簽。通過該方法,工作者將標(biāo)簽的長度固定在SOLEXA型DNA序列分析儀的DNA測序能力范圍之內(nèi)。然而,所述標(biāo)簽仍呈“由外向內(nèi),,拓補,并且由MmeI消化產(chǎn)生的固定的約20個堿基的標(biāo)簽實在太短以致于不能清楚地對復(fù)雜基因組作圖,以用作基因組工具或輔助序列組裝。此外,固定的20個堿基的標(biāo)簽并不能受惠于下一代短讀取DNA序列分析儀在讀取長度上的最新改進(jìn)。目前SOLEXA支持的讀取長度為來自DNA模板各個末端的50個堿基,預(yù)期稍后在2009年增加至76個堿基。本發(fā)明通過以下幾項克服了前述限制1)產(chǎn)生GVT對的能力,由此可將靶DNA上的標(biāo)簽對成員的間距由Ikb以下改造至數(shù)百kb以上,以使檢測分辨率適于分析不同類型的核酸和適于任何既定的實驗設(shè)計;(2)標(biāo)簽對成員之間明顯更精確和均一的間距,用于更高的分析精度;(3)基于除了間隔距離之外的其它標(biāo)準(zhǔn)產(chǎn)生基因組標(biāo)簽對的能力,例如基于相鄰可切割的內(nèi)切核酸酶位點的位置和/或相對間隔距離,產(chǎn)生用于改善靶核酸樣品的探詢的標(biāo)簽對;和(4)為了更高的經(jīng)濟性,使本發(fā)明方法適合用于下一代大規(guī)模并行DNA序列分析儀中。通過采用所謂的“外向外(outside-out)”拓補學(xué),由此并列的末端序列標(biāo)簽(GVT對)保留與最初靶DNA插入物末端相同的空間方向,并且通過使用頻繁切割的II型限制性內(nèi)切核酸酶以產(chǎn)生平均長度100-200bp的GVT,可將SOLEXA“成對-末端-讀取”平臺直接譯成甚至更長的GVT序列,其僅由該設(shè)備的實際讀取長度限制。發(fā)明簡述本發(fā)明涉及產(chǎn)生連接基因組序列的標(biāo)簽對和快速產(chǎn)生高分辨率基因組圖譜的系統(tǒng)、方法、組合物、載體、載體組分和試劑盒。本發(fā)明產(chǎn)生短并列序列標(biāo)簽(稱為基因組變化標(biāo)簽(GenomicVariationTag,GVT))對,其中GVT對的組成成員具有用戶定義的間隔距離,和/或為位置的標(biāo)記,其沿著研究中的核酸分子長度劃分一種或多種不同限制性內(nèi)切核酸酶的可切割的相鄰位點。當(dāng)用計算機比對GVT對的各個GVT與參比序列時,它們的預(yù)期同一性、間隔距離和/或方向與參比序列的任何不一致都表示靶與參比核酸之間在GVT對跨越的區(qū)域中存在一個或多個精細(xì)結(jié)構(gòu)差異。以此方式,GVT對的綜合文庫表示可用于產(chǎn)生高分辨率結(jié)構(gòu)圖譜以鑒定核酸群之間的精細(xì)結(jié)構(gòu)變化的高分辨率基因組概況。本發(fā)明的另一方面使用戶能夠定義和改變由GVT對標(biāo)記的核酸群的間隔距離,因此允許產(chǎn)生適合以不同的空間分辨率和物理覆蓋率檢測精細(xì)結(jié)構(gòu)變化的GVT對文庫。本發(fā)明的另一方面產(chǎn)生為位置標(biāo)記的GVT對,所述位置沿著研究中核酸群長度緊鄰一種或多種不同限制性內(nèi)切核酸酶的相鄰且可切割的識別位點對。因此,可通過產(chǎn)生由使用甲基化敏感的限制性內(nèi)切核酸酶差異消化產(chǎn)生的序列標(biāo)簽,將本發(fā)明用于研究DNA群體的甲基化狀態(tài)。本發(fā)明的另一方面產(chǎn)生以下GVT對,其為一種或多種不同限制性內(nèi)切核酸酶的相鄰且可切割的識別位點對的標(biāo)記,且在沿著研究中核酸群的長度上被用戶定義的距離間隔開。本發(fā)明的另一個方面提供用于在靶DNA上產(chǎn)生高達(dá)約50kb以上間隔距離的GVT對的方法、載體和DNA骨架。本發(fā)明的另一個方面提供產(chǎn)生可在下一代大規(guī)模并行DNA序列分析儀上有效測序的GVT對的方法。關(guān)于下一代DNA序列分析儀的綜述參見Morozova和Marra(2008)以及Mardis(2008)。按照本發(fā)明的一個方面,將用于分析的目標(biāo)群DNA隨機片段化或在限定位置片段化。將片段化的靶DNA插入物連接至合適的載體或DNA骨架中,由此將連接的靶插入物用一種或多種頻繁切割的II型限制性內(nèi)切核酸酶消化,所述核酸酶在離各個末端有用的距離上切割所述插入物引起間插序列的釋放,得到依然連接至未消化載體或DNA骨架的GVT對。通常,用具有4個堿基識別位點的頻繁切割的II型限制性內(nèi)切核酸酶消化產(chǎn)生100-200bp長度的GVT,該長度對應(yīng)于靶DNA插入物的末端與第一個切割位點的位置之間的平均距離。通過將GVT連接在一起產(chǎn)生GVT對將新產(chǎn)生的載體-GVT復(fù)合體重新環(huán)化,所述GVT對表示處于與最初的靶DNA插入物相同的相對方向的并列末端區(qū)。通過在GVT對側(cè)翼的限制性內(nèi)切核酸酶位點消化或者通過利用用GVT對側(cè)翼的合適引物的PCRJfGVT對從載體或DNA骨架中釋放出來。當(dāng)將GVT對的單個GVT序列用計算機與參比序列比對時,它們的預(yù)期同一性、間隔距離或方向與所述參比上排列的那些的任何不一致都表示靶與參比核酸之間在GVT對跨越的區(qū)域中存在一個或多個精細(xì)結(jié)構(gòu)差異。因此,多個GVT對列成表格的序列(tabulatedsequence)構(gòu)成靶核酸群相對于參比序列的詳細(xì)基因組概況。按照本發(fā)明的另一個方面,將片段化的靶DNA克隆至新型粘粒載體pSLGVT-28、pSLGVT-35、pSLGVT-36、pSLGVT-37或pSLGVT-38中,用于產(chǎn)生用于使用下一代S0LEXA、SOLiD或454-DNA序列分析儀的序列測定中的45_50kb間隔距離的GVT對。本發(fā)明的這些和其它方面在參考以下詳述時將變得顯而易見。此外,將各種參考文獻(xiàn)(包括專利、專利申請和期刊文章)標(biāo)識如下并通過引用結(jié)合到本文中。本發(fā)明或其衍生產(chǎn)物(derivedproduct)提供的有用應(yīng)用包括但不限于高分辨率基因組圖譜的快速構(gòu)建,所述圖譜可用于(1)鑒定基因組的精細(xì)尺度變化(fine-structural-variant),該精細(xì)尺度變化促成人類多樣性,并可能引起疾病、疾病進(jìn)展或疾病易感性以及用作診斷學(xué)或治療干預(yù)靶的其它所觀察到的性狀;(2)使得能夠設(shè)計和建立用于快速和大規(guī)模并行探詢DNA樣品中的精細(xì)結(jié)構(gòu)變體的寡核苷酸微陣列或其它測定方法,用于醫(yī)學(xué)診斷、基因分型和其它這樣的有用用途;(3)促進(jìn)由完整基因組或鳥槍DNA測序法精確并快速地進(jìn)行DNA組裝;(4)鑒定由差異RNA加工產(chǎn)生的RNA轉(zhuǎn)錄物的精細(xì)結(jié)構(gòu)變化,以有助于基因組注釋、功能基因組研究和潛在疾病診斷;(5)建立基因組概況,以促進(jìn)比較基因組學(xué)和系統(tǒng)發(fā)生研究和有助于差異鑒定密切相關(guān)的生物;和(6)建立相關(guān)品系、品種(race)、生物型、變體、品種(breed)或物種的基因組概況,以鑒定可能引起任何可觀察到的理論、醫(yī)學(xué)或商業(yè)目標(biāo)表型的基因組元件。發(fā)明詳述本發(fā)明提供新型改進(jìn)的高通量方法、載體和載體組分,以篩選和鑒定核酸群中的精細(xì)結(jié)構(gòu)變化。本發(fā)明包括產(chǎn)生并列序列標(biāo)簽(GVT)的體外和體內(nèi)方法,所述并列序列標(biāo)簽中標(biāo)簽對(GVT對)的兩個組成成員為限定間隔距離的獨特位置標(biāo)記和/或為核酸位置的標(biāo)記,其沿著多個靶核酸分子的長度劃分一種或多種不同限制性內(nèi)切核酸酶的相鄰切割位點。所述方法包括將靶核酸分子片段化以形成靶DNA插入物;將靶DNA插入物與DNA載體或骨架連接,以產(chǎn)生環(huán)狀分子;用一種或多種核酸酶優(yōu)選頻繁切割的II型限制性內(nèi)切核酸酶消化靶DNA插入物,以在離靶DNA插入物各個末端的一定距離上切割靶DNA插入物,從而產(chǎn)生兩個序列標(biāo)簽(GVT),其包含連接至未消化的線狀載體或DNA骨架的靶DNA插入物末端序列;以及使具有連接的GVT的線狀載體或DNA骨架重新環(huán)化,得到含具有兩個并列GVT的GVT對的環(huán)狀DNA分子;通過核酸擴增或用具有GVT對側(cè)翼的位點的限制性內(nèi)切核酸酶消化,回收GVT對DNA。當(dāng)用計算機比對GVT對的單個GVT與參比序列時,它們的預(yù)期同一性、間隔距離和/或方向與參比序列的任何不一致都表示靶與參比核酸之間在GVT對跨越的區(qū)域中存在一個或多個精細(xì)結(jié)構(gòu)差異。通過該方法,GVT對的綜合文庫表示以下高分辨率基因組概況其可用于產(chǎn)生高分辨率結(jié)構(gòu)圖譜以鑒定核酸群之間的精細(xì)結(jié)構(gòu)變化和用于產(chǎn)生基因組支架(genomicscaffold)以輔助基因組組裝和結(jié)構(gòu)分析。1.用于產(chǎn)生GVT對的核酸的制備和片段化如本文所述,本發(fā)明提供產(chǎn)生高分辨率基因組圖譜的方法,該圖譜可用于表征未知基因組和輔助未知基因組的組裝或鑒定靶核酸群與參比序列的之間精細(xì)結(jié)構(gòu)變化。適于分析的靶核酸包括但不限于真核生物和原核生物的基因組DNA、微生物DNA、質(zhì)體DNA、質(zhì)粒和噬菌粒DNA;病毒DNA和RNA;來源于核糖核酸(RNA)的互補DNA(cDNA);以及通過體外擴增例如尤其通過PCR產(chǎn)生的DNA。用于從前述來源中分離DNA、由RNA合成cDNA和擴增核酸的方法為本領(lǐng)域技術(shù)人員已知。對于某些實施方案,GVT對沿著靶DNA長度所跨越的物理距離決定了用于分析的分辨率水平。GVT之間的間距越小,用于作圖和用于檢測靶核酸群中的精細(xì)結(jié)構(gòu)變化的空間分辨率就越高。較大GVT對間距需要較少的GVT對,以物理上覆蓋既定復(fù)雜性的DNA樣品,但檢測小基因組結(jié)構(gòu)變體的空間分辨率伴隨下降。大GVT對間距跨越大的重復(fù)區(qū)以促進(jìn)從頭基因組組裝和DNA中大結(jié)構(gòu)變化的分析。產(chǎn)生具有5kb、IOkb、25kb、50kb、IOOkb或更高間隔距離的GVT對的能力允許終端用戶在GVT間距、對檢測不同類型的DNA結(jié)構(gòu)變化所需的分辨率水平和為既定復(fù)雜性的基因組提供足夠物理覆蓋率所需的GVT對數(shù)目之間選擇功能折衷。不同間距的GVT對的最佳數(shù)目和比例可針對特定應(yīng)用用計算機建模。如上所述,用于構(gòu)建GVT對的靶DNA插入物的物理長度控制GVT對的固有GVT(residentGVT)之間的間隔距離,從而設(shè)定用于分析的分辨率水平。產(chǎn)生和純化接近大小均一的片段化核酸分子群的方法在本領(lǐng)域已有描述。片段化靶DNA群至所需的插入物長度可用多種限制性內(nèi)切核酸酶在部分或完全消化的條件下酶促實現(xiàn)。具有6個或更多堿基對的識別位點的限制性內(nèi)切核酸酶的使用可用于產(chǎn)生更長的DNA片段。一種或多種對DNA甲基化具有不同敏感性的限制性內(nèi)切核酸酶的使用可用于評價靶DNA群的DNA甲基化狀態(tài)。頻繁切割的II型限制性內(nèi)切核酸酶如MboI,HaeIII等平均每256bp切割DNA—次(基于靶DNA中四種堿基的隨機分布和等量存在),這些酶的使用為本領(lǐng)域已知,用于通過部分消化產(chǎn)生各種大小的DNA片段。在放寬條件下使用限制性內(nèi)切核酸酶CviJ1(于GC二核苷酸位置切割DNA(Fitzgerald等,1992))尤其可用于在部分消化條件下產(chǎn)生DNA片段大小的有用連續(xù)體。在某些實施方案中,隨機產(chǎn)生的DNA片段為有用的。用于產(chǎn)生隨機DNA片段的方法包括(1)用牛胰腺脫氧核糖核酸核酸酶I(DNA酶I)消化,該酶在錳離子存在下在DNA中進(jìn)行隨機雙鏈切割(Melgar和Goldwait,1968;Heffron等,1978);(2)物理剪切(Shriefer等,1990);禾口(3)超聲(Deininger,1983)。用于部分酶促消化的條件憑經(jīng)驗確定,即改變反應(yīng)體積、酶濃度以及酶與底物的比率、保溫時間或溫度中的一個或多個參數(shù)。對于需要約5kb或更小的GVT間隔的高分辨率分析,優(yōu)選非序列依賴性的片段化方法。牛胰腺DNA酶I在錳離子存在下在DNA中進(jìn)行隨機雙鏈切割(Melgar和Goldwait,1968;Heffron等,1978),因而可用于該目的。同樣,還可使用通過機械手段例如超聲或選擇性應(yīng)用剪切力的DNA片段化。HYDR0SHEAR設(shè)備(GenomicSolutionsInc,AnnArbor,MI)或采用自適應(yīng)聚焦聲學(xué)(AdaptiveFocusedAcoustics)的C0VARIS(CovarisInc,Woburn,MA)設(shè)備尤其可用于產(chǎn)生限定大小范圍的隨機DNA片段。還可單獨或與所述的其它片段化方法組合通過在cDNA合成期間或PCR期間使用隨機引物,產(chǎn)生隨機DNA片段。通過凝膠電泳容易監(jiān)測產(chǎn)生所需長度產(chǎn)物的片段化的發(fā)展。在產(chǎn)生適宜的DNA大小分布后,使用T4DNA聚合酶修復(fù)或制備靶DNA平端,以準(zhǔn)備平端連接至載體、DNA骨架或GVT-連接物,用于產(chǎn)生本發(fā)明GVT對。在通過用一種或多種內(nèi)切核酸酶部分或完全消化來片段化DNA而留下粘性末端的情況下,無需修復(fù),但需要設(shè)計GVT-連接物、載體或DNA骨架來適應(yīng)由片段化酶產(chǎn)生的特定粘性末端。因為靶DNA插入物與其它靶DNA插入物的連接破壞了樣品的共線性(co-linearity),并破壞了基因組圖譜的構(gòu)建,所以通過磷酸酶去除靶DNA的5’磷酸基團,以防止在與GVT-連接物或DNA骨架的連接期間產(chǎn)生嵌合DNA插入物。2.大小選定的DNA的大小分級分離和純化對于某些實施方案,通過凝膠電泳或通過高效液相色譜法(HPLC)分級分離去磷酸化的DNA插入物,以產(chǎn)生所需大小的純化DNA插入物。聚丙烯酰胺凝膠最好用于分級分離50bp至Ikb的DNA。對于大小約250bp至約50kb的片段,0.4%至3%瓊脂糖凝膠是適宜的。脈沖場凝膠電泳適于分級分離約IOkb至幾百kb大小的DNA。這些方法描述于本文的參考文獻(xiàn)(Rickwood禾口Hames(編輯),載于Gelelectrophoresisofnucleidacid-Αpracticalapproach,OxfordUniversityPress,NewYork,1990;Hamelin禾口Yelle,1990;Birren禾口Lai,載于Pulsefieldelectrophoresis:Apracticalguide,AcademicPress,SanDiego,1993)。將DNA通過使用與樣品平行電泳的適宜大小標(biāo)志物確定大小,并通過染色可視化。用手術(shù)刀切下含有所需大小DNA的凝膠切片,其后通過電洗脫或者通過酶促或化學(xué)降解凝膠基質(zhì)從凝膠基質(zhì)中回收DNA。用于分析的回收DNA片段大小應(yīng)接近均一。用于最大化分離分辨率的凝膠系統(tǒng)和電泳條件是本領(lǐng)域已知的。使用兩輪以上的凝膠電泳可獲得更高的樣品大小均一性。平均長度的大小方差超過2.5%-5%的樣品可導(dǎo)致對本發(fā)明使用不可接受的噪音。3.GVT-連接物的設(shè)計和靶DNA與載體或DNA骨架的連接在某些實施方案中,首先將靶DNA插入物與連接物連接,以促進(jìn)其與合適載體或DNA骨架的連接。在其它實施方案中,將靶DNA插入物直接與載體或DNA骨架連接,而不使用連接中間體。在其它實施方案中,首先將各個連接物連接至靶DNA的各個末端,于是新連接的連接物的自由端重新環(huán)化形成功能DNA骨架,用于隨后產(chǎn)生GVT對。連接物可摻入諸如生物素基團等部分以有助于所需DNA產(chǎn)物的親和純化。連接物也可摻入限制性內(nèi)切核酸酶識別位點,用于從DNA骨架中切下所產(chǎn)生的GVT對,或者摻入IIS、IIG或III型內(nèi)切核酸酶的核酸酶識別位點,以通過切割所連接的靶DNA插入物來產(chǎn)生GVT。對于其中靶DNA插入物直接與載體或DNA骨架連接的GVT產(chǎn)生而言,可將用于前述IIS、IIG或III型限制性內(nèi)切核酸酶的適宜識別位點摻入至載體或DNA骨架的設(shè)計中。本發(fā)明的另一個方面利用一種或多種II型限制性內(nèi)切核酸酶消化所連接的靶DNA插入物,以產(chǎn)生連接至載體或DNA骨架的各個末端的GVT,其中將所述載體或DNA骨架設(shè)計為不含這些消化位點并保持未消化。本領(lǐng)域技術(shù)人員會認(rèn)識到,存在多種適用于實施本發(fā)明的GVT-連接物設(shè)計。總體而言,適宜的GVT-連接物包含以下材料性質(zhì)(1)5’磷酸化寡核苷酸的短上鏈(topstrand)和短下鏈(bottomstrand),其能夠穩(wěn)定互補堿基配對以產(chǎn)生雙鏈結(jié)構(gòu);(2)GVT-連接物的一端具有粘性延伸(優(yōu)選非回文的),其與載體、DNA骨架或具有互補序列的另一個連接物連接;(3)另一連接物末端具有平端結(jié)構(gòu)或其它適宜的末端結(jié)構(gòu),使得能夠與靶DNA片段(優(yōu)選去磷酸化的靶DNA)有效連接;(4)對于某些實施方案,靶DNA插入物側(cè)翼的連接物末端可帶有適宜的IIS型、IIG型或III型限制性內(nèi)切核酸酶識別位點,其方向使得所述位點引導(dǎo)在靶DNA內(nèi)以與靶DNA末端相距固定且有用的距離切割,以產(chǎn)生GVT(關(guān)于IIS型、IIG型和III型限制性內(nèi)切核酸酶的綜述,參見Sistla和Rao(2004)、Bujnicki(2001)、Szybalski等(1991);和(5)連接物可具有第二個限制性內(nèi)切核酸酶位點,用于從載體中切下所產(chǎn)生的GVT對。本領(lǐng)域技術(shù)人員已知用于連接連接物與DNA插入物和用于核酸分子的一般連接的方法。參見例如Ausubel等(編輯)(載于ShortProtocolsinMolecularBiology,第3版,JohnWiley和Sons,NewYork,1995)。用于將連接物與DNA插入物有效平端連接的典型連接條件需要相對于靶DNA約50至數(shù)百倍摩爾過量的連接物、高T4DNA連接酶濃度或包含諸如聚乙二醇等的體積排阻劑(Hayashi等,1986;Pheiffer和Zi_erman,1983;Zimmerman和Pheiffer,1983)。連接物與粘性末端靶DNA的有效連接需要約5倍摩爾過量。使連接GVT-連接物的DNA插入物通過CHR0M0SPIN柱(Clontech,MountainView,CA),以去除過量的連接物,然后通過凝膠電泳純化和大小選擇。為通過分子內(nèi)連接產(chǎn)生GVT對,將純化的連接連接物的靶DNA插入物連接入如下所述的幾種質(zhì)粒載體和DNA骨架中的一種。按照本發(fā)明的一個方面,任何限制性內(nèi)切核酸酶(優(yōu)選頻繁切割的II型限制性內(nèi)切核酸酶(其優(yōu)先切割靶DNA插入物而不是載體))、DNA骨架或與靶DNA連接的任何連接物,適用于產(chǎn)生GVT和GVT對。REBASE限制酶數(shù)據(jù)庫提供II型限制性內(nèi)切核酸酶、同切點酶、異切點酶(neoschizomer)、識別序列、工業(yè)效用和參考文獻(xiàn)的信息(rebase.neb.com)。優(yōu)選的II型限制性內(nèi)切核酸酶為頻繁切割靶DNA插入物的酶,例如以下酶其識別4個堿基對位點,從而產(chǎn)生平均長度100-300bp的GVT。II型限制性內(nèi)切核酸酶FspBI或Csp6I單獨或組合為尤其適合用于本發(fā)明中以產(chǎn)生GVT,因為這兩種酶頻繁切割并產(chǎn)生相同的互補粘性末端,允許通過分子內(nèi)連接而無需對末端修飾來直接產(chǎn)生本發(fā)明GVT對。認(rèn)為其它僅切割靶DNA插入物而不切割載體、DNA骨架或靶DNA插入物所連接的連接物的限制性內(nèi)切核酸酶在本發(fā)明用于產(chǎn)生GVT和GVT對的范圍和精神內(nèi)。4.用于GVT對制備的載體和DNA骨架在其中需要大GVT-間距的某些實施方案中,可能需要在產(chǎn)生GVT之前在宿主細(xì)胞內(nèi)增殖靶DNA。當(dāng)在宿主細(xì)胞中增殖時,含有富AT或GC序列、重復(fù)、發(fā)夾、強啟動子、毒性基因和其它問題序列的靶DNA區(qū)段的重排或丟失是受關(guān)注的。DNA重排和其它克隆人為產(chǎn)物可被錯認(rèn)為是靶核酸中的結(jié)構(gòu)變化。此外,克隆偏倚(cloningbias)可限制插入物的大小,并可對研究中的基因組的重要區(qū)域呈現(xiàn)不足(under-r印resent)。最近條件擴增型F粘粒載體和BAC載體的發(fā)展解決了該問題(Szybalski,美國專利第5,874,259號),所述載體中DNA的增殖保持在每個宿主細(xì)胞1-2個拷貝,直至為進(jìn)行分析而被誘導(dǎo)至較高水平。報道了15kb至超過IOOkb的基因組插入物的穩(wěn)定性改善,而且條件擴增型載體現(xiàn)常規(guī)用于基因組研究。條件擴增型F粘粒/BAC載體例如pCClFOS(Epicentre,Madison,WI)和pSMART-VC(Lucigen,Middleton,WI)以及它們的變體,適用于產(chǎn)生IOkb至200kbGVT-間距的GST-對。然而,常規(guī)低拷貝質(zhì)粒載體的使用似乎足以穩(wěn)定維持大DNA片段,而不需要BAC、PAC或F粘粒型載體(Feng等,2002;Tao和Zhang,1998)。pSMART系列載體提供低拷貝數(shù)增殖,并具有在載體上具有轉(zhuǎn)錄終止子的額外特征,以降低轉(zhuǎn)錄干擾的潛在作用,這可進(jìn)一步改善DNA穩(wěn)定性(Mead和Godiska,美國專利第6,709,861號)。對于產(chǎn)生IOkb或更大GVT-間距的GVT對而言,多種已建立并廣泛使用的基于低拷貝質(zhì)粒的載體適合用于產(chǎn)生GVT對,這些載體包括pBR322(Bolivar等,1977)、pACYC177(Chang和Cohen,1978)和本公開內(nèi)容中所述的其它載體。為了實施本發(fā)明,與靶DNA連接的載體或DNA骨架必須不含用于從靶DNA插入物中產(chǎn)生GVT的限制性內(nèi)切核酸酶的切割位點。由于對載體或DNA骨架的切割將破壞GVT的空間連接,因此這防止通過分子內(nèi)連接形成GVT對??赏ㄟ^使用標(biāo)準(zhǔn)方法進(jìn)行位點定向誘變來制備無不需要的限制性位點的載體骨架。參見,例如McPherson(編輯)(載于DirectedMutagenesis-ΑPracticalApproach,OxfordUniversityPress,NewYork,1991)和Lok(美國專利第6,730,500號)。通常,可通過單個堿基對變化來改變載體DNA或DNA骨架的實質(zhì)部分,以消除不需要的限制性內(nèi)切核酸酶識別位點而不會因此對功能性有影響。在蛋白編碼序列之內(nèi),將單個核苷酸變化靶向密碼子擺動位置(codonwobbleposition),以保持天然蛋白編碼。在載體或DNA骨架上的其它地方所作的改變應(yīng)需要在使用前進(jìn)行功能驗證。許多限制性內(nèi)切核酸酶對其識別位點的甲基化敏感;具體而言,在脫氧胞嘧啶的5-碳位置的甲基化可使載體或DNA骨架上的這些位點不被消化??赏ㄟ^經(jīng)由PCR直接摻入5-甲基-dCTP、通過由具有不同限制修飾系統(tǒng)的合適宿主細(xì)胞使DNA傳代或通過使用特異性甲基化酶來實現(xiàn)DNA甲基化,以使載體或DNA骨架上的限制性位點不再被酶促切割。REBASE限制酶數(shù)據(jù)庫提供限制性內(nèi)切核酸酶的甲基化敏感性信息(rebase.neb.com)0通過分子內(nèi)連接形成GVT和GVT對的DNA骨架還可通過直接化學(xué)合成以任何所需規(guī)格產(chǎn)生。隨后大量制備DNA骨架可通過化學(xué)合成或者部分或全部通過PCR從模板制備。DNA骨架可包含用于在微生物宿主中增殖的復(fù)制起始和選擇標(biāo)記。或者,DNA骨架可僅包含最小序列,其主要包含空間連接的連接物對。首先將各個連接物與靶DNA插入物的末端連接,然后將連接物游離端連接在一起以重構(gòu)DNA骨架,從而形成用于GVT制備的環(huán)狀分子。在某些其它實施方案中,連接物可摻入IIS、IIG或III型限制性內(nèi)切核酸酶位點的識別位點,所述位點呈指導(dǎo)以與靶DNA末端相距限定距離切割靶DNA以產(chǎn)生GVT的方向。生物素和其它部分也可摻入DNA骨架中,以使得能夠在體外GVT對制備的不同步驟中親和純化DNA中間體。一種尤其有用的設(shè)計包括合成的DNA骨架,其不含所有或大多數(shù)的16種可能的4個堿基對回文結(jié)構(gòu)。這類DNA骨架允許通過單獨或組合使用幾乎任何4堿基識別限制性內(nèi)切核酸酶消化所連接的靶DNA插入物而不會切割DNA骨架或連接物,來產(chǎn)生GVT。另一種尤其有用的DNA骨架設(shè)計摻入以下序列其與綁定用于下一代DNA測序平臺的DNA擴增和測序引物相容,用于大規(guī)模并行高通量GVT對DNA測序。優(yōu)選DNA骨架足夠長以提供用于擴增所形成的GVT對的引物結(jié)合位點、以實現(xiàn)親和純化、以能夠有效銜接(連接)至靶DNA或以最好成為提供參比點的獨特標(biāo)識符。5.GVT對制備載體pSLGVT-1、pSLGVT-2、pSLGVT-28、pSLGVT-35、pSLGVT-36、pSLGVT-37和pSLGVT-38pSLGVT系列載體包含兩個化學(xué)合成的DNA組件以分別提供藥物選擇和質(zhì)粒復(fù)制的基礎(chǔ)維持功能。載體組件帶有末端獨特的IIS型限制性內(nèi)切核酸酶位點,其產(chǎn)生獨特的不對稱粘性末端,以允許在以后快速重構(gòu)載體組分,從而針對新功能加入或取代組件或DNA表達(dá)盒。第一載體組件含有修飾的P15A復(fù)制起點。帶有P15A復(fù)制子的質(zhì)粒以每個宿主細(xì)胞約15個拷貝的低數(shù)目增殖(Sambrook等,載于MolecularCloning-ΑLaboratoryManual,第2版,CSHLaboratoryPress,ColdSpringHarbor,NewYork,1989),由此優(yōu)化所克隆的基因組插入物的穩(wěn)定性。P15A復(fù)制子中的MmeI位點通過進(jìn)行消除兩個位點的每個可能的單核苷酸改變而除去,然后針對復(fù)制能力篩選各個突變體以產(chǎn)生用于構(gòu)建PSLGVT-I的功能性“P15A-m復(fù)制子組件”。通過簡單的單堿基改變除去P15A復(fù)制子內(nèi)的EcoP15I位點,以產(chǎn)生用于構(gòu)建質(zhì)粒pSLGVT-2的“P15A_e組件”。第二個載體組件包含來自轉(zhuǎn)座子Tn903的經(jīng)修飾的Kan基因,其賦予針對抗生素卡那霉素的抗性(Grindley等,1980)。利用擺動位置并盡可能與大腸桿菌中的最佳密碼子使用一致,除去Kan基因編碼區(qū)中的4個MmeI位點連同2個NciI和NsiI位點以及針對Esp3I,PstII和HindIII的單個位點,以產(chǎn)生“Kan組件”。粘粒載體pSLGVT-28為制備用于下一代DNA測序平臺的具有45_50kb空間間隔的GVT對提供獨特的益處。具有該間距的GVT對尤其可用于提供基因組DNA的有效物理覆蓋率,以鑒定精細(xì)結(jié)構(gòu)變化,和用于針對制備基因組支架而跨越大的重復(fù)DNA區(qū),以促進(jìn)復(fù)雜基因組的從頭測序。pSLGVT-28通過以下幾個步驟衍生自pSLGVT-2:(1)摻入來自噬菌體λ的用于體外噬菌體包裝的COS位點,使得能夠有效且精確地以生物學(xué)大小選擇靶DNA插入物,以產(chǎn)生具有精確約45-50kb間隔的GVT對的復(fù)雜文庫;(2)通過位點定向誘變除去載體上的所有FspBI和Csp6I限制性內(nèi)切核酸酶位點,從而允許通過單獨或組合使用那些酶消化所連接的靶DNA插入物來產(chǎn)生GVT和隨后的GVT對;和(3)針對位于IlluminaCorporation的“Adaptor-A”和“Adaptor-B”序列之間的靶DNA產(chǎn)生克隆位點,以允許使用SOLEXA“成對-末端-讀取”測序平臺進(jìn)行固相DNA擴增和測序所產(chǎn)生的GVT對。具有45_50kb間隔的GVT對的有效形成以及在SOLEXA“成對-末端-讀取”平臺上的大規(guī)模并行DNA測序,相對于Tuzim等(2005)的低通量F粘粒配對-末端作圖法在鑒定基因組變化和制備長范圍支架以有助于DNA組裝方面,提供成本和有效性的巨大進(jìn)步。粘粒載體pSLGVT-35為pSLGVT_28的衍生物,其中一對反向的BdiVI限制性內(nèi)切核酸酶位點位于IlluminaCorporation的SOLEXA“Adaptor-A”和“Adaptor-B”序列之間。BciVI為IIS型限制性內(nèi)切核酸酶,其從酶識別位點產(chǎn)生位于6個堿基對的一個堿基的3’延伸。BciVI消化用于產(chǎn)生載體上的Adaptors-A和Adaptor-B側(cè)翼的單個3’胸腺嘧啶突出端,以接收按照用于DNA模板制備的SOLEXADNA制備試劑盒制備的靶DNA插入物尾部的腺嘌呤。粘粒載體pSLGVT-36為pSLGVT-28的衍生物,其中SOLEXAAdaptor-A和Adaptor-B序列被來自RocheDiagnostics的454-平臺(GSFLXTITANIUM)的Adaptor-A和Adaptor-B置換,用于直接在該平臺上對GVT對進(jìn)行序列測定。粘粒載體pSLGVT-37為pSLGVT-28的另一種衍生物,其中SOLEXAAdaptor-A和Adaptor-BI^jftgAppliedBiosystems白勺SOLiD"Mate-PairLibrary"^^^internalAdaptor置換,用于直接在所述SOLiD平臺上對GVT對進(jìn)行序列測定。粘粒載體pSLGVT-38為pSLGVT-28的另一種衍生物,其中將SOLEXAAdaptor-A和Adaptor-B用RocheDiagnostics的454—InternalAdaptor置換,以產(chǎn)生適于“由夕卜向內(nèi),,構(gòu)型的GVT對,用于在所述454-平臺測序。6.GVT對制備在某些實施方案中,通過機械或酶促方法隨機片段化用于產(chǎn)生GVT對的靶DNA群,以產(chǎn)生具有所需大小的片段用于GVT對制備。在其它實施方案中,將靶DNA群用一種或多種限制性內(nèi)切核酸酶在獨立反應(yīng)中或組合中消化至完全,以在指定位置切割靶DNA。在另一個實施方案中,將靶DNA用一種或多種限制性內(nèi)切核酸酶消化至完全,然后分級分離至所需大小。為了用產(chǎn)生粘性末端的酶消化靶DNA,可將去磷酸化的靶DNA直接克隆至適當(dāng)修飾的載體或DNA骨架中。使用T4DNA聚合酶或綠豆核酸酶修復(fù)具有“不平齊”末端的片段化靶DNA,然后去磷酸化以防止產(chǎn)生嵌合的靶DNA插入物。同樣,也去磷酸化帶有粘性末端的靶DNA以防止產(chǎn)生嵌合的插入物。在使用連接物進(jìn)行靶DNA與載體或DNA骨架的連接時,將CHR0MASPIN柱(Clontech,MountainView,CA)用于除去未連接的連接物,然后將連接物連接的靶DNA與GVT制備載體連接。在某些實施方案中,在GVT制備之前,通過凝膠電泳或通過其它方法將靶DNA經(jīng)大小選擇至所需的長度。本文使用的粘粒、F粘粒、噬菌粒(phagmid),BAC和其它附加體元件被統(tǒng)稱為質(zhì)粒或DNA骨架。針對在一定片段長度范圍內(nèi)的DNA區(qū)段,已描述了用于優(yōu)化載體或DNA骨架與插入物的分子內(nèi)連接繼而分子內(nèi)連接以產(chǎn)生環(huán)狀分子的連接條件(Collins和Weissman,1984;Dugaiczyk等,1975;Wang和Davidson,1966)。用于連接核酸分子、轉(zhuǎn)染入宿主細(xì)胞中和用于構(gòu)建基于質(zhì)粒的文庫的通用方法是本領(lǐng)域技術(shù)人員已知的。參見例如Sambrook等(載于:MolecularCloning:Alaboratorymanual第2版,CSHpress,NewYork,1989);Ausubel等(編輯)(載于ShortProtocolsinMolecularBiology,第3版,JohnWiley和Sons,NewYork1995);Birren等,(載于Bacterialartificialchromosomesingenomeanalysis-Αlaboratorymanual,CSHPress,NewYork,1999)。通過電穿孔或轉(zhuǎn)染將連接的靶DNA導(dǎo)入宿主細(xì)胞中。或者,將45-50kb的靶DNA插入物連接至合適的粘粒載體例如pSLGVT-28、pSLGVT-35、pSLGVT-36、pSLGVT-37、pSLGVT-38或其衍生物上,在使用合適的市售包裝提取物(Stratagene,LaJolla,CA)體外噬菌體包裝之后,轉(zhuǎn)導(dǎo)至宿主細(xì)胞中。甲基化的靶DNA的增殖需要具有失活的mcr和mrr等位基因的宿主細(xì)胞菌株,所述甲基化的靶DNA例如為通過某些利用甲基化核苷酸類似物的方案合成的基因組DNA或cDNA。適宜的宿主菌株包括10G(Lucigen,Middleton,WI);XLl-BlueMR和XL2BlueMRF'(Stratagene,LaJolla,CA)0在適宜藥物選擇下,將電穿孔、轉(zhuǎn)染或轉(zhuǎn)導(dǎo)的細(xì)胞以約20,000-50,000個菌落/板的密度鋪板到IOcm直徑瓊脂板上,以產(chǎn)生初始文庫。備選方法是在液體培養(yǎng)基中培養(yǎng)轉(zhuǎn)導(dǎo)或轉(zhuǎn)染細(xì)胞,同時小心不使細(xì)胞過度生長而促進(jìn)不需要的克隆選擇。處于培養(yǎng)中的克隆總數(shù)應(yīng)反映出研究設(shè)計所需要的GVT對的數(shù)目。收獲細(xì)胞,并分離質(zhì)粒,用于下述的后續(xù)步驟。在本發(fā)明的一個方面中,將帶有靶DNA插入物的pSLGVT-28、pSLGVT_35、pSLGVT-36、pSLGVT-37、pSLGVT-38和任何其它功能等價載體或DNA骨架用FspBI或Csp6I(FermentasInc,Hanover,MD)消化至完全以產(chǎn)生GVT。所產(chǎn)生的消化作用切割插入物DNA而產(chǎn)生GVT,但不切割所連接的載體或DNA骨架。以該方式產(chǎn)生的GVT大小可變,這取決于靶DNA內(nèi)切割位點的平均頻率和首個切割位點離靶DNA末端的距離。預(yù)期通過FspBI或Csp6I消化隨機片段化的人DNA插入物所產(chǎn)生的GVT具有100_200bp的平均長度。將與新產(chǎn)生的GVT連接的線性化載體或DNA骨架通過凝膠電泳或親和色譜法從消化的插入物DNA片段的環(huán)境中純化出來。將純化的線性產(chǎn)物環(huán)化以得到初始GVT對文庫。可通過DNA擴增從環(huán)化模板中回收GVT對,用于直接DNA測序?;蛘?,將帶有GVT對的環(huán)化載體引入宿主細(xì)胞中,然后在選擇條件下以每個IOcm板約20,000-50,000個克隆的密度鋪板或在液體培養(yǎng)基中培養(yǎng),以得到初始質(zhì)粒GVT對文庫。將來自質(zhì)粒初始GVT對文庫的純化質(zhì)粒用切割GVT對的兩側(cè)的酶消化,以從載體中切下GVT對用于直接DNA測序。7.體外GVT對制備在本發(fā)明的范圍和原理之內(nèi)考慮在體外制備GVT和GVT對,而沒有通過宿主細(xì)胞增殖的步驟。通常,適用于產(chǎn)生GVT而無需通過宿主細(xì)胞增殖的DNA骨架的長度應(yīng)為至少50-100bp或更長,以便具有足夠的區(qū)段靈活性以經(jīng)過分子內(nèi)連接產(chǎn)生用于形成GVT對的環(huán)狀分子。用于體外制備GVT對的DNA骨架無需一定包含復(fù)制起點或藥物選擇標(biāo)記。這類DNA骨架應(yīng)具有合適的GVT對側(cè)翼的PCR引物結(jié)合位點,用于擴增所產(chǎn)生的GVT對。DNA骨架可部分或全部得自對改造質(zhì)粒的限制性內(nèi)切核酸酶消化。也可部分或全部通過PCR或直接化學(xué)法寡核苷酸合成來制備合適的DNA骨架。在DNA骨架得自PCR或化學(xué)合成的情況下,可將經(jīng)修飾的核苷酸摻入DNA骨架中用于額外的功能。例如,可將生物素部分摻入DNA骨架中以使得能夠在體外GVT對制備的不同步驟中親和純化DNA中間體。一種特別有用的DNA設(shè)計包含基本無或消除16種可能的4個堿基對長的回文結(jié)構(gòu)的DNA骨架,從而允許通過用幾乎所有4堿基識別限制性內(nèi)切核酸酶消化所連接的靶DNA插入物來產(chǎn)生GVT。DNA骨架也可包含用于克隆擴增DNA模板的引物結(jié)合位點和其它序列,用于在下一代序列分析儀上進(jìn)行DNA測序。盡管體外GVT對制備提供產(chǎn)生更復(fù)雜的GVT對文庫的可能性并避免通過微生物宿主細(xì)胞增殖步驟的不便,然而在微生物宿主中增殖步驟在某些其中需要將存在的人為產(chǎn)物最少化的應(yīng)用中有優(yōu)勢。人為產(chǎn)物的主要來源基于其中兩個不同靶DNA分子與載體或DNA骨架的各個末端連接的不需要分子的產(chǎn)生。另一個來源的人為產(chǎn)物在分子內(nèi)連接以產(chǎn)生GVT對的步驟期間形成,所述步驟中兩個不同載體或DNA骨架的GVT通過分子間連接來連接。具體而言,隨著PCR擴增,來自兩個不同靶DNA的GVT連接而形成人為產(chǎn)物GVT對。已針對在一定片段長度范圍內(nèi)的DNA區(qū)段,描述了用于優(yōu)化分子間和分子內(nèi)連接的一般連接條件(Collins和Weissman,1984;Dugaiczyk等,1975;Wang和Davidson,1966),以得到產(chǎn)生用于體外GVT對制備的環(huán)狀分子的最優(yōu)條件。然而,不需要的連接事件的發(fā)生概率在實踐中不能完全消除。然而,大多數(shù)人為產(chǎn)物GVT對可通過在細(xì)菌中的傳代步驟除去。線狀DNA或大的串聯(lián)DNA載體不能有效轉(zhuǎn)化入和增殖于微生物細(xì)胞中,使得該方法成為選擇用于應(yīng)用例如從頭基因組組裝的方法(其中GVT對的序列共線性是最重要的)。8.使用下一代大規(guī)模并行DNA序列分析儀測序GVT對目前存在三種新的商用系統(tǒng)可用于超高通量、大規(guī)模并行DNA測序GENOMESEQUENCERFLX系統(tǒng),常稱為454-序列分析儀(RocheDiagnostics,Indianapolis,IN);SOLEXA(IIlumina,SanDiego,CA);和SOLiD系統(tǒng)(AppliedBioSystems,FosterCity,CA)這些新設(shè)備的通量可超過數(shù)十億堿基調(diào)用/運行,該系數(shù)是當(dāng)前這代基于96-泳道毛細(xì)管電泳測序設(shè)備的1.5萬倍以上。在本發(fā)明的范圍和原理之內(nèi)考慮將這些新測序平臺用于表征GVT對。本發(fā)明的GVT對可在新設(shè)備上測序,無需過度修改操作方案。454-技術(shù)基于在微珠上在克隆擴增的DNA模板上進(jìn)行的焦磷酸測序(pyrosequencing)化學(xué),所述微珠單獨被加載至高密度光學(xué)流通池(opticalflowcell)的蝕刻孔上(Margulies等,2005)。各個堿基延伸產(chǎn)生的信號被專用光纖捕獲。典型的454-設(shè)備運行包括的50萬次單次500個堿基的讀取,該長度足以表征本發(fā)明的GVT對。用于大規(guī)模并行DNA測序的AppliedBiosystems的SOLiD平臺基于DNA連接的連續(xù)循環(huán)。通過該方法,將固定化DNA模板在珠粒上克隆擴增,所述珠粒以高密度鋪板至玻璃流通池(glassflow-cell)的表面上,所述流通池中發(fā)生測序反應(yīng)。通過短限定標(biāo)記的探針與一系列引物的連接的連續(xù)循環(huán)來實現(xiàn)序列測定,所述引物與固定化模板雜交。SOLiD設(shè)備運行包括超過1億次單次50個堿基的讀取。將用于SOLEXA平臺的測序模板固定在專有的流通池表面,其中將它們在原位克隆擴增以形成離散的測序模板簇,其密度高達(dá)1千萬以上的模板簇/平方厘米?;赟OLEXA的測序在四種專有的修飾核苷酸存在下以逐步方式利用引物介導(dǎo)的DNA合成進(jìn)行,所述修飾核苷酸具有可逆的3'雙脫氧核苷酸部分和可切割的chromofluor。在各個延伸循環(huán)之前,將3'雙脫氧核苷酸部分和chromofluor化學(xué)去除。如下檢測從各個模板簇中逐步添加核苷酸的循環(huán)通過激光激發(fā)接著圖像捕獲,根據(jù)圖像捕獲進(jìn)行堿基調(diào)用(basecalling)0目前設(shè)備運行包括76個堿基的高達(dá)1億次成對-末端-讀取,這理想地適用于對通過頻繁切割的FspBI或Csp6III型限制性內(nèi)切核酸酶切割靶DNA產(chǎn)生的GVT對進(jìn)行測序。在SOLEXA平臺上制備具有45-501Λ空間間隔的GVT對在三個主要平臺中,SOLEXA為唯一在流通池上存在兩種模板鏈而能夠從DNA模板的兩個末端直接測序的平臺。因此,本發(fā)明適于SOLEXA平臺的獨特直接“成對-末端-讀取”能力。當(dāng)與粘粒載體PSLGVT-35或其衍生物一起使用時,本發(fā)明提供從靶DNA群中產(chǎn)生具有45-501Λ空間間隔的GVT對的能力。與單獨通過使用瓊脂糖凝膠分離可實現(xiàn)的大小分級相比,利用細(xì)菌病毒的頭部完整包裝機制極大地提高了靶DNA按大小分級的精度。精確的45-501Λ的間距提供基因組的經(jīng)濟的物理覆蓋率,以鑒定精細(xì)尺度變化和以跨越靶DNA的重復(fù)區(qū)域而促進(jìn)產(chǎn)生用于從頭基因組測序的基因組支架。與Tuzim等000的F粘粒配對-末端作圖法相比,本發(fā)明在物理覆蓋率的經(jīng)濟性和深度上提供實質(zhì)進(jìn)步。SOLEXAAdaptor提供三組重疊的引物結(jié)合位點一組指導(dǎo)PCR擴增以產(chǎn)生Adaptor-A和Adaptor-B序列側(cè)翼的子代序列模板;第二組介導(dǎo)所得子代模板的固相等溫擴增,產(chǎn)生固定在測序流通池表面上的模板簇;和C3)最后一組為兩條DNA鏈的每一條的測序引物提供結(jié)合位點。本發(fā)明利用SOLEXA平臺的成對-末端-讀取能力測序所產(chǎn)生的GVT對。如pSLGVT-35及其衍生物所例示的,將SOLEXA連接物工程改造至DNA載體骨架上,位于靶DNA克隆位點的每一側(cè)。以該方式,可在SOLEXA平臺上直接測序新產(chǎn)生的GVT對。152個堿基的GVT對序列得自DNA模板的各個末端的兩個單獨的76堿基單個讀取。FspBI和Csp6I產(chǎn)生的GVT對的有效讀取長度預(yù)期為SOLEXA讀取長度,其從目前76個堿基讀取中改進(jìn)。預(yù)計在2009年末支持大于100個堿基的單個成對-末端-讀取。pSLGVT-35為2.6kb的載體,其包含卡那霉素選擇標(biāo)記、用于穩(wěn)定增殖基因組DNA的低拷貝數(shù)的P15A復(fù)制起點和用于λ噬菌體包裝的COS位點。通過位點定向誘變消除了載體上的限制性內(nèi)切核酸酶FspBI和Csp6I的切割位點,使得能夠在按照本發(fā)明方法從靶DNA插入物制備GVT和隨后的GVT對中利用這些酶。靶DNA克隆位點側(cè)接一對反向的BciVI限制性內(nèi)切核酸酶位點,其直接位于載體上的IlluminaCorporation的SOLEXA"Adaptor-A"與“Adaptor-B”序列之間。BciVI為IIS型限制性內(nèi)切核酸酶,其從酶識別位點中產(chǎn)生位于6個堿基對的一個堿基的3’延伸。BciVI在反向位點對處消化載體產(chǎn)生Adaptors-A和Adaptor-Β側(cè)翼的單個3,胸腺嘧啶突出端,以接收按照SOLEXADNA模板制備試劑盒制備的靶DNA插入物尾部的腺嘌呤。將靶DNA剪切成40-551Λ之間的片段大小,并將末端用T4-DNA聚合酶修復(fù)并在dATP存在下利用沒有外切活性(exominus)的Klenow聚合酶用單個腺嘌呤核苷酸接尾。將45-501Λ的DNA片段從瓊脂糖凝膠中純化出并連接至胸腺嘧啶接尾的pSLGVT-35載體上。在線性化載體與靶DNA插入物的摩爾比相等和高DNA濃度(通常每ul總核酸含2_;3Ug以上)(驅(qū)動含載體和靶DNA片段交替的長串聯(lián)體產(chǎn)生)下實現(xiàn)粘粒載體與靶DNA的連接。利用市售包裝提取物(Stratagene,LaJolla,CA)將所連接的產(chǎn)物包裝至噬菌體顆粒中。甲基化的靶DNA例如基因組DNA的增殖需要具有失活的mcr和mrr等位基因的宿主細(xì)胞菌株。適宜的宿主菌株包括10G(Lucigen,Middleton,WI);XLl-BlueMR和XL2BlueMRF'(Stratagene,LaJolla,CA)。在卡那霉素選擇下,將感染的細(xì)胞以約20,000-50,000個菌落/板的密度鋪板到IOcm直徑瓊脂板上,以產(chǎn)生初始粘粒文庫,其包含在一側(cè)被SOLEXAAdaptor-A側(cè)接和另一側(cè)被SOLEXAAdaptor-B側(cè)接的平均45-501Λ的靶DNA插入物。備選方法是在液體培養(yǎng)基中培養(yǎng)感染的細(xì)胞,同時小心不使細(xì)胞過度生長而促進(jìn)不需要的克隆選擇。處于培養(yǎng)中的克隆總數(shù)應(yīng)反映出研究設(shè)計所需的GVT對數(shù)目。收獲細(xì)胞,并分離粘粒DNA,用于GVT制備。將帶有靶DNA插入物的純化粘粒DNA用FspBI或Csp6I消化至完全。將消化產(chǎn)物通過CHR0MASPIN1000(Clontech,MountainView,CA)柱以除去大量的消化的靶DNA插入物。將流出的物質(zhì)在瓊脂糖凝膠上電泳。從凝膠中回收約2.6-3kb的DNA片段,其對應(yīng)于具有兩個連接的GVT的完整線狀粘粒載體,所述兩個連接的GVT對應(yīng)于靶DNA插入物的末端。將回收的物質(zhì)稀釋至低于25ng/ul,用于分子內(nèi)連接以產(chǎn)生GVT對。新并列的GVT的連接處由構(gòu)重關(guān)于用于產(chǎn)生GVT的酶的限制性內(nèi)切核酸酶位點來劃分,并設(shè)定GVT對中的GVT的邊界用于隨后的數(shù)據(jù)分析。通過使用SOLEXAAdaptor-A和Adaptor-B的弓|物進(jìn)行DNA擴增,來從載體骨架中回收所得的GVT對。將回收的SOLEXAAdaptor側(cè)翼的GVT對在流通池表面上擴增,用于在SOLEXA平臺上進(jìn)行成對-末端測序。在本發(fā)明的范圍和原理之內(nèi)考慮用或不用體外病毒包裝以及通過或不通過宿主細(xì)胞增殖的步驟,制備GVT和具有其它空間間隔的GVT對。在后一種情況下,將在各個末端帶有SOLEXAAdaptor的靶DNA插入物克隆至合適的帶有COS位點的DNA骨架中,然后如所述使用市售包裝提取物(Stratagene,LaJolla,CA)包裝至噬菌體頭部中。DNA骨架可用諸如生物素等純化部分標(biāo)記,以輔助親和純化所需DNA產(chǎn)物。將未包裝的DNA用核酸酶降解,隨之通過酚提取純化保護(hù)的包裝DNA。用合適的限制性內(nèi)切核酸酶(FspBI或Csp6I)切割在所得環(huán)狀DNA分子中的靶DNA插入物,以產(chǎn)生包含與GVT連接的DNA骨架的線狀分子。通過親和色譜法純化所需線狀DNA。用DNA連接酶通過分子內(nèi)連接將暴露的GVT末端重新環(huán)化,以產(chǎn)生GVT對以及在COS位點封閉DNA以產(chǎn)生穩(wěn)定的環(huán)狀分子。使用Adaptor-A和Adaptor-B引物從連接混合物中通過PCR回收GVT對,用于SOLEXA“成對-末端”測序。在454-平臺外向外拓補上制備具有45-501Λ空間間隔的GVT對本發(fā)明尤其相當(dāng)適于制備以下GVT對其無需采用Berka等Q006)(美國專利申it2006/0292611)和Kobel等(2007)的方法就能用于在RocheDiagnostics的454-平臺上測序。目前可用于454-平臺的Berka等Q006)和Kobel等Q007)的方法在功能上受限于不超過數(shù)千個堿基的空間距離以及采取所謂的“由外向內(nèi)(out-side-in)”拓補,該拓補描述了靶DNA的最初末端的反向定向。本發(fā)明提供制備具有45-501Λ空間距離的標(biāo)記同時保持“外向外(out-side-out)”拓補的方法,因此靶DNA末端序列保持相同的相對方向。盡管在454-流通池上不存在兩種模板鏈,但當(dāng)前GSFLXTitanium設(shè)備的500個堿基讀取長度足以從來自一種模板鏈的單個讀取直接序列測定GVT對,其通過用頻繁切割的FspBI或Csp6III型限制性內(nèi)切核酸酶切割靶DNA產(chǎn)生。粘粒載體pSLGVT-36使得能夠在454-平臺上制備呈“外向外”拓補的具有45-501Λ空間間隔的GVT對。45-501Λ的精確標(biāo)記間距提供經(jīng)濟的基因組物理覆蓋率以鑒定精細(xì)尺度變化和跨過重復(fù)區(qū)以有利于基因組支架的產(chǎn)生,用于從頭基因組測序和對精細(xì)尺度基因組變化作圖。具有501Λ空間間隔的6萬個GVT對表示人類大小基因組的1倍物理覆蓋率。454-設(shè)備的當(dāng)前能力帶來在單次運行就可提供以501Λ分辨率對人類基因組的20倍物理覆蓋率,這與Tuzim等000的F粘粒-配對-末端作圖法相比在物理覆蓋率的經(jīng)濟性和深度上有實質(zhì)進(jìn)步。粘粒載體pSLGVT-36為2.6kb的載體,其包含卡那霉素選擇標(biāo)記、用于基因組DNA穩(wěn)定增殖的低拷貝數(shù)的P15A復(fù)制起點和用于λ噬菌體包裝的COS位點。通過位點定向誘變消除載體上限制性內(nèi)切核酸酶FspBI和Csp6I的切割位點,使得這些酶能夠按照本發(fā)明方法由靶DNA插入物產(chǎn)生GVT和隨后的GVT對。載體的靶DNA克隆位點側(cè)接一對RocheDiagnostics的“Adaptor-A”和“Adaptor-B”序列,以使得能夠利用454-Adaptor_A和454-Adaptor-B引物通過PCR回收所產(chǎn)生的GVT對。將Adaptor-A和Adaptor-B序列側(cè)翼的回收的擴增GVT對通過乳液PCR(emulsionPCR)擴增以制備用于454-測序的模板。操作上,將用于產(chǎn)生用于454-平臺的45-501ΛGVT對的靶DNA剪切成40-601Λ的片段大小,并用T4-DNA聚合酶修復(fù)末端。將修復(fù)的靶DNA連接至pSLGVT-36載體。在線性化載體與靶DNA插入物的摩爾比相等和高DNA濃度(通常每ul總核酸含2_;3Ug以上)(驅(qū)動含載體和靶DNA片段交替的長串聯(lián)體產(chǎn)生)下實現(xiàn)粘粒載體與靶DNA的連接。利用市售包裝提取物(Stratagene,LaJolla,CA)將所連接的產(chǎn)物包裝至噬菌體顆粒中。甲基化的靶DNA例如基因組DNA的增殖需要具有失活的mcr和mrr等位基因的宿主細(xì)胞菌株。適宜的宿主菌株包括10G(Lucigen,Middleton,WI);XLl-BlueMR和XL2BlueMRF'(Stratagene,LaJolla,CA)。在卡那霉素選擇下,將感染的細(xì)胞以約20,000-50,000個菌落/板的密度鋪板到IOcm直徑瓊脂板上,以產(chǎn)生初始粘粒文庫,其包含在一側(cè)被454-Adaptor-A側(cè)接和另一側(cè)被454-Adaptor-B側(cè)接的平均45-501Λ的靶DNA插入物。備選方法是在液體培養(yǎng)基中培養(yǎng)感染的細(xì)胞,同時小心不使細(xì)胞過度生長而促進(jìn)不需要的克隆選擇。處于培養(yǎng)中的克隆總數(shù)應(yīng)反映出研究設(shè)計所需的GVT對數(shù)目。收獲細(xì)胞,并分離粘粒,用于GVT制備。將帶有靶DNA的純化粘粒DNA用FspBI或Csp6I消化至完全。將消化產(chǎn)物通過CHR0MASPIN1000(Clontech,MountainView,CA)柱以除去大量的消化的靶DNA插入物。將流出的物質(zhì)在瓊脂糖凝膠上電泳。從凝膠中回收約2.6-31Λ的DNA片段,其對應(yīng)于具有兩個連接的GVT的完整線狀粘粒載體,所述兩個連接的GVT對應(yīng)于靶DNA的末端。將回收的物質(zhì)稀釋至低于25ng/ul,用于分子內(nèi)連接以產(chǎn)生GVT對。通過再產(chǎn)生用于產(chǎn)生GVT的酶的限制性內(nèi)切核酸酶位點來劃分新并列的GVT的連接處。在分子上現(xiàn)為唯一的再產(chǎn)生的限制性位點在隨后的數(shù)據(jù)分析中設(shè)定GVT對中的GVT的邊界。通過使用AdaptorA和B引物進(jìn)行DNA擴增,來從載體骨架中回收所得的GVT對。將454-Adaptor側(cè)翼的擴增GVT對直接通過乳液PCR在珠粒上擴增,用于454-測序。在本發(fā)明的范圍和原理之內(nèi)考慮用或不用體外病毒包裝以及通過或不通過宿主細(xì)胞增殖步驟,制備GVT和具有其它空間間隔的GVT對。在后一種情況下,將在各個末端帶有特異性454-Adaptor的靶DNA插入物克隆至合適的帶有COS位點的DNA骨架中,然后使用市售包裝提取物(Stratagene,LaJolla,CA)包裝至噬菌體頭部中。DNA骨架可用諸如生物素等純化部分標(biāo)記,以有助于親和純化所需DNA產(chǎn)物。將未包裝的DNA用核酸酶降解,隨之通過酚提取純化保護(hù)的包裝DNA。用合適的限制性內(nèi)切核酸酶切割在所得環(huán)狀DNA分子中的靶DNA,以產(chǎn)生包含具有連接的GVT的DNA骨架的線狀分子。通過親和色譜法純化所需線狀DNA。用DNA連接酶通過分子內(nèi)連接將暴露的GVT末端重新環(huán)化,以產(chǎn)生GVT對以及在COS位點封閉DNA以產(chǎn)生穩(wěn)定的環(huán)狀分子。使用Adaptor-A引物和Adaptor-B引物從連接混合物中通過PCR回收GVT對,用于454-測序。在454-平臺由外向內(nèi)拓補上制備具有45-501Λ空間間隔的GVT對當(dāng)與噬菌體包裝組合時,本發(fā)明范圍和原理之內(nèi)還考慮制備具有“由外向內(nèi)”拓補的GVT對,這是由于其與Berka等(2006)(美國專利申請2006/(^擬611)和Kobel等(2007)所述的方法相關(guān),所述方法中末端標(biāo)記采取反向定向。將粘粒載體pSLGVT-38或其衍生物用于從靶DNA群中制備具有所謂的“由外向內(nèi)”拓補的45-501Λ間距的GVT對,用于在454-平臺上進(jìn)行DNA測序。pSLGVT-38為2.6kb的載體,其包含卡那霉素選擇標(biāo)記、用于基因組DNA穩(wěn)定增殖的低拷貝數(shù)的P15A復(fù)制起點和用于λ噬菌體包裝的COS位點。通過位點定向誘變消除限制性內(nèi)切核酸酶FspBI和Csp6I在載體上的切割位點,使得這些酶能夠按照本發(fā)明方法從任何靶DNA插入物中制備GVT和隨后的GVT對。載體的靶DNA克隆位點側(cè)接一對RocheDiagnostics的454-"InternalAdaptor-A'^P454-"InternalAdaptor-B”序列,以使得能夠利用4544nternalAdaptor-A和454-InternalAdaptor-B引物通過PCR回收所產(chǎn)生的GVT對。pSLGVT-38還在454-InternalAdaptor-A禾口454-InternalAdaptor-B的每一側(cè)包含匹配的8個堿基稀有切割型限制性位點對,使得能夠通過酶促消化回收GVT對和側(cè)翼的hternalAdaptor序列。操作上,將用于產(chǎn)生用于454-平臺的45-50kbGVT對的靶DNA剪切成40_55kb的片段大小,并用T4-DNA聚合酶修復(fù)末端。將修復(fù)的靶DNA連接至pSLGVT-38載體。在線性化載體與靶DNA插入物的摩爾比相等和高DNA濃度(通常每ul總核酸含2_;3Ug以上)(驅(qū)動含載體和靶DNA片段交替的長串聯(lián)體產(chǎn)生)下實現(xiàn)粘粒載體與靶DNA的連接。利用市售包裝提取物(Stratagene,LaJolla,CA)將所連接的產(chǎn)物包裝至噬菌體顆粒中。甲基化的靶DNA例如基因組DNA的增殖需要具有失活的mcr和mrr等位基因的宿主細(xì)胞菌株。適宜的宿主菌株包括10G(Lucigen,Middleton,WI);XLl-BlueMR和XL2BlueMRF'(Stratagene,LaJolla,CA)。在卡那霉素選擇下,將感染的細(xì)胞以約20,000-50,000個菌落/板的密度鋪板到IOcm直徑瓊脂板上,以產(chǎn)生初始粘粒文庫,其包含在一側(cè)被454-hternalAdaptor-A側(cè)接和另一側(cè)被4544nternalAdaptor-B側(cè)接的平均45-501Λ的靶DNA插入物。備選方法是在液體培養(yǎng)基中培養(yǎng)感染的細(xì)胞,同時小心不使細(xì)胞過度生長而促進(jìn)不需要的克隆選擇。處于培養(yǎng)中的克隆總數(shù)應(yīng)反映出研究設(shè)計所需的GVT對數(shù)目。收獲細(xì)胞,并分離粘粒,用于GVT制備。將帶有靶DNA的純化粘粒DNA用FspBI或Csp6I消化至完全。將消化產(chǎn)物通過CHR0MASPIN1000(Clontech,MountainView,CA)柱以除去大量的消化的靶DNA插入物。將流出的物質(zhì)在瓊脂糖凝膠上電泳。從凝膠中回收約2.6-3kb的DNA片段,其對應(yīng)于具有兩個連接的GVT的完整線狀粘粒載體,所述兩個連接的GVT對應(yīng)于靶DNA的末端。將回收的物質(zhì)稀釋至低于25ng/ul,用于分子內(nèi)連接以產(chǎn)生GVT對。通過再產(chǎn)生用于產(chǎn)生GVT的酶的限制性內(nèi)切核酸酶位點來劃分新并列的GVT的連接處。在分子上現(xiàn)為唯一的再產(chǎn)生的限制性位點在隨后的數(shù)據(jù)分析中設(shè)定GVT對中的GVT的邊界。通過使用454-hternalAdaptor-A和4544nternalAdaptor-B引物進(jìn)行DNA擴增,來從載體骨架中回收所得的GVT對。通過hternalAdaptor將所得產(chǎn)物重新環(huán)化,然后用用于產(chǎn)生GVT的II型限制性內(nèi)切核酸酶(FspBI或Csp6I)消化。線狀分子現(xiàn)包含具有“由外向內(nèi)”拓補的GVT對,所述拓補中靶DNA插入物的最初末端在相對方向上與新連接的hternalAdaptor每一側(cè)上的GVT相反。將如此產(chǎn)生的線狀分子與454-Adaptor-A和454-Adaptor_B連接,用于在454-平臺上測序。在SOLiD平臺上制備具有45-501Λ空間間隔的GVT對用于大規(guī)模并行DNA測序的AppliedBiosystems的SOLiD平臺基于DNA連接的序貫循環(huán)。通過該方法,將固定化的DNA模板在珠粒上克隆擴增,所述珠粒以高密度鋪板至玻璃流通池的表面上,在所述流通池中進(jìn)行測序。通過短限定標(biāo)記的探針連接至一系列引物上的連續(xù)循環(huán)來實現(xiàn)序列測定,所述引物與固定化模板雜交。當(dāng)前SOLiD設(shè)備運行包括超過2億次單獨50個堿基的讀取。盡管SOLiD平臺在每次設(shè)備運行提供最大數(shù)量的堿基調(diào)用,但該平臺被其短讀取長度和在流通池中不具有可用于測序的兩種模板鏈限制。因此,SOLiD平臺的用于成對-末端-讀取的“配對(mate-pair)”系統(tǒng)依賴于利用EcoP15I消化產(chǎn)生一對短的25個堿基的DNA標(biāo)簽(每一個代表靶DNA的末端)和采取類似于Berka等^006)(美國專利申請2006/0292611)和Kobel等(2007)的方法的“由外向內(nèi)”拓補,以便產(chǎn)生內(nèi)部DNA測序引物結(jié)合位點以測序標(biāo)簽對的另一個成員。由當(dāng)前“配對”系統(tǒng)提供的標(biāo)簽之間的空間距離僅為數(shù)千堿基,并且可受益于本發(fā)明GVT對的45-501Λ空間距離。當(dāng)與噬菌體包裝組合時,在本發(fā)明范圍和原理之內(nèi)考慮制備具有“由外向內(nèi)”拓補的GVT對,這是由于其與Berka等(2006)(美國專利申請2006/(^擬611)和Kobel等^)07)所述的方法相關(guān),所述方法中末端標(biāo)記采取反向定向。此外,本發(fā)明提供制備平均長度100-200個堿基的GVT的優(yōu)勢,該長度與現(xiàn)有配對系統(tǒng)利用EcoP15I消化制備25個堿基的標(biāo)簽相比有相當(dāng)大的進(jìn)步。將粘粒載體pSLGVT-37或其衍生物用于從靶DNA群中制備具有所謂的“由外向內(nèi)”拓補的45-501Λ間距的GVT對,用于在SOLiD平臺上進(jìn)行DNA測序。pSLGVT-37為2.6kb的載體,其包含卡那霉素選擇標(biāo)記、用于基因組DNA穩(wěn)定增殖的低拷貝數(shù)的P15A復(fù)制起點和用于λ噬菌體包裝的COS位點。通過位點定向誘變消除載體上的限制性內(nèi)切核酸酶FspBI和Csp6I切割位點,使得這些酶能夠按照本發(fā)明方法從任何靶DNA插入物中制備GVT和隨后的GVT對。載體的靶DNA克隆位點側(cè)接一對AppliedBiosystems(ABI)的InternalAdaptor-A”和“InternalAdaptor-B”序列,以使得能夠利用ABMnternalAdaptor-A和ABI-InternalAdaptor-Β引物通過PCR回收所產(chǎn)生的GVT對。pSLGVT-37還在ABMnternalAdaptor-A和ABMnternalAdaptor-B的每一側(cè)包含配對的8堿基稀有切割型限制性位點,使得能夠通過酶促消化回收GVT對和側(cè)翼的hternalAdaptor序列(如果需要的話)。操作上,將用于產(chǎn)生用于ABISOLiD平臺的45_50kbGVT對的靶DNA剪切成40-55kb的片段大小,并用T4-DNA聚合酶修復(fù)末端。將修復(fù)的靶DNA連接至pSLGVT-37載體。在線性化載體與靶DNA插入物的摩爾比相等和高DNA濃度(通常每ul總核酸含2_;3Ug以上)(驅(qū)動含載體和靶DNA片段交替的長串聯(lián)體產(chǎn)生)下實現(xiàn)粘粒載體與靶DNA的連接。利用市售包裝提取物(Stratagene,LaJolla,CA)將所連接的產(chǎn)物包裝至噬菌體顆粒中。甲基化的靶DNA例如基因組DNA的增殖需要具有失活的mcr和mrr等位基因的宿主細(xì)胞菌株。適宜的宿主菌株包括10G(Lucigen,Middleton,WI);XLl-BlueMR和XL2BlueMRF'(Stratagene,LaJolla,CA)。在卡那霉素選擇下,將感染的細(xì)胞以約20,000-50,000個菌落/板的密度鋪板到IOcm直徑瓊脂板上,以產(chǎn)生初始粘粒文庫,其包含在一側(cè)被ABI-InternalAdaptor-A側(cè)接禾口另一側(cè)被ABI-InternalAdaptor-Β側(cè)接的平均45_50kb的靶DNA插入物。備選方法是在液體培養(yǎng)基中培養(yǎng)感染的細(xì)胞,同時小心不使細(xì)胞過度生長而促進(jìn)不需要的克隆選擇。處于培養(yǎng)中的克隆總數(shù)應(yīng)反映出研究設(shè)計所需的GVT對數(shù)目。收獲細(xì)胞,并分離粘粒,用于GVT制備。將帶有靶DNA的純化粘粒DNA用FspBI或Csp6I消化至完全。將消化產(chǎn)物通過CHR0MASPIN1000(Clontech,MountainView,CA)柱以除去大量的消化的靶DNA插入物。將流出的物質(zhì)在瓊脂糖凝膠上電泳。從凝膠中回收約2.6-3kb的DNA片段,其對應(yīng)于具有兩個連接的GVT的完整線狀粘粒載體,所述兩個連接的GVT對應(yīng)于靶DNA的末端。將回收的物質(zhì)稀釋至低于25ng/ul,用于分子內(nèi)連接以產(chǎn)生GVT對。通過再產(chǎn)生用于產(chǎn)生GVT的酶的限制性內(nèi)切核酸酶位點來劃分新并列的GVT的連接處。在分子上現(xiàn)為唯一的再產(chǎn)生的限制性位點在隨后的數(shù)據(jù)分析中設(shè)定GVT對中的GVT的邊界。通過使用ABMnternalAdaptor-A和ABMnternalAdaptor-B引物進(jìn)行DNA擴增,來從載體骨架中回收所得的GVT對。通過hternalAdaptor將所得產(chǎn)物重新環(huán)化,然后用用于產(chǎn)生GVT的II型限制性內(nèi)切核酸酶(FspBI或Csp6I)消化。線狀分子包含具有“由外向內(nèi)”拓補的GVT對,所述拓補中靶DNA插入物的最初末端在方向上現(xiàn)與新連接的hternalAdaptor每一側(cè)上的GVT相反。將如此產(chǎn)生的線狀分子與ABI-Adaptor-Pl和454-Adaptor_P2連接,用于在ABI的SOLiD配對平臺上測序。在優(yōu)選的實施方案中,本發(fā)明通過產(chǎn)生多個具有限定空間距離和方向的獨特基因組位置標(biāo)識符的GVT對,來鑒定靶基因組中的精細(xì)結(jié)構(gòu)變化。所述多個GVT對共同表示受試者的基因組概況,當(dāng)與參比序列或類似地產(chǎn)生的其它靶基因組的基因組概況比較時,其指示核酸群之間的精細(xì)結(jié)構(gòu)差異存在。通過本發(fā)明可檢測的基因組精細(xì)結(jié)構(gòu)變化包括缺失和插入、重復(fù)、倒位、易位和其它染色體重排。本發(fā)明提供在由實驗設(shè)計規(guī)定的用戶定義的分辨率水平下鑒定這些基因組特征的方法。本發(fā)明提供數(shù)百個堿基平均長度的GVT的產(chǎn)生,所述長度僅由DNA測序平臺的有效讀取長度限制。假定四種堿基豐度均一且隨機分布,SOLEXA平臺的當(dāng)前76個堿基的讀取長度將預(yù)測該長度的序列會偶然地以平均每476堿基對出現(xiàn)一次,并且應(yīng)代表人類和其它復(fù)雜基因組中的獨特序列標(biāo)識符。然而,在很多復(fù)雜基因組中存在四種堿基的不對等表現(xiàn)和大量的重復(fù)DNA區(qū)的存在,導(dǎo)致在實踐中不能將該大小的短DNA標(biāo)簽的顯著部分分配至獨特基因組位置。將既定長度的GVT明確分配至基因組改善與第二個GVT的連接和其間隔距離的認(rèn)識。例如,包含兩個空間上連接的從大小分級分離的靶DNA群中制備的76bpGVT的GVT對有效地為152bp序列標(biāo)簽。盡管較長的有效標(biāo)簽長度,但仍然可能不能將許多GVT或GVT對分配至獨特的基因組位置,例如完全處于非常長的重復(fù)基因組區(qū)之內(nèi)的那些GVT對。然而,本發(fā)明在產(chǎn)生可作圖的成對-末端-讀取方面提供實質(zhì)進(jìn)步。預(yù)期不能通過本發(fā)明進(jìn)行分析的區(qū)域非常少,這主要由于本發(fā)明制備具有40-501Λ或更長間隔距離的GVT對的能力,所述間隔距離會跨越重復(fù)DNA的大多數(shù)定域區(qū)(localizedregion)。在每個GVT對單體上存在的通用框架序列允許由高通量測序數(shù)據(jù)明確提取GVT對序列。利用MEGABLAST(Zhang等,2000)或類似的計算機程序通過比對揭示GVT對的圖譜位置與一個或多個參比序列的圖譜位置之間的不一致。GVT對間隔距離或方向與參比的不一致超過閾值水平預(yù)示在靶與參比DNA之間存在結(jié)構(gòu)差異。閾值水平由實驗設(shè)計設(shè)定,偏離平均GVT間隔距離兩個標(biāo)準(zhǔn)差為合理的默認(rèn)值。與參比序列相比,靶DNA中的缺失可由2個或更多個GVT對定義,所述GVT對跨越平均間隔距離的2個標(biāo)準(zhǔn)差以上。因此,靶DNA中的插入可定義為以下位置其中與參比序列相比,兩個或更多個GVT對跨越平均間隔的兩個標(biāo)準(zhǔn)差以下。在靶DNA中的倒位被定義為以下位置其中與參比序列相比兩個或更多個GVT對的GVT方向不一致。將不一致的GVT對人工管理(curate)和評價,然后繼續(xù)通過PCR、DNA印跡雜交分析或通過插入物分離和測序來驗證。本發(fā)明所用的靶基因組核酸可來源于任何來源,包括真核生物、原核生物、微生物、質(zhì)體和病毒的基因組DNA。靶基因組核酸還可以來源于生物的RNA基因組,例如通過逆轉(zhuǎn)錄過程將RNA轉(zhuǎn)變?yōu)镈NA的RNA病毒。用于研究的靶核酸的選擇可受到在科學(xué)文獻(xiàn)中描述的特定染色體或染色體區(qū)與某些疾病狀況相關(guān)的現(xiàn)有知識影響。本發(fā)明可利用來自分離的染色體或染色體區(qū)的靶DNA。本發(fā)明可用于以一定范圍的分辨率廣泛地全基因組掃描患者人群以適合研究設(shè)計。用于純化染色體、染色體區(qū)段以及基因組DNA和RNA的方法是本領(lǐng)域已知的。本領(lǐng)域還已知通過PCR或通過其它手段擴增核酸的方法,以產(chǎn)生用于本發(fā)明分析的靶DNA。上文描述了切割靶DNA和分級分離靶DNA至所需大小的方法,用于設(shè)定GVT對的GVT之間的空間距離。流體動力剪切、自適應(yīng)聚焦聲學(xué)或用頻繁切割的酶部分酶促消化DNA可用于產(chǎn)生具有高度重疊片段的DNA片段群,用于最大化地覆蓋靶DNA的每個區(qū)?;蛘?,可用數(shù)種限制性內(nèi)切核酸酶在獨立的切割反應(yīng)中將靶DNA消化至完全,然后大小分級分離至用于GVT對制備所需的大小類別。由用單一限制性內(nèi)切核酸酶完全消化制備的、經(jīng)大小選擇的靶DNA所產(chǎn)生的GVT對是非重疊的,并且僅覆蓋了一部分靶DNA復(fù)雜性。用一種或多種其它限制性內(nèi)切核酸酶完全酶促消化獲得的、經(jīng)大小選擇的DNA片段可用于提供序列覆蓋的重疊。實驗的物理參數(shù)例如以覆蓋既定復(fù)雜性的基因組的DNA片段化方法、GVT間隔距離和其組合、堿基組成或重復(fù)元件的分布,可由本領(lǐng)域技術(shù)人員用計算機建模,以得到最佳的研究設(shè)計。諸如BamHI.HindIIKPstI、SpeI和)(baI等的酶對CpG甲基化不敏感,并預(yù)期會在每個位點切割哺乳動物基因組DNA,以產(chǎn)生準(zhǔn)確代表那些酶的相鄰識別位點對的GVT對。對CpG甲基化、重疊CpG甲基化或可影響本發(fā)明核酸分析的其它種類的DNA修飾的作用不敏感的其它適宜的酶已在文獻(xiàn)(McClelland等,1994;Geier等,1979;Kan等,1979;Hattman等,1978;Buryanov等,1978;May等,1975)中和由主要的限制性內(nèi)切核酸酶供應(yīng)商(Fermentas,Hanover,MD;NewEnglandBiolabs,Ispwich,ΜΑ)描述。在某些實施方案中,其對靶DNA的切割對DNA修飾敏感的酶的應(yīng)用可用于劃分靶DNA中的外因基因組修飾位點。例如,本發(fā)明可鑒定已知調(diào)節(jié)基因表達(dá)的DNA甲基化位點。對于所述應(yīng)用,用甲基化敏感的限制酶將靶DNA消化至完全,并由消化的DNA產(chǎn)生GVT對。通過所得GVT對在與參比序列上的相鄰限制性位點相比時的不一致鑒定甲基化位點。首先人工管理不一致的GVT對,之后進(jìn)行一系列的分級過濾,用于驗證。在其中不一致的GVT對由來源于完全限制性內(nèi)切核酸酶消化的、經(jīng)大小選擇的DNA產(chǎn)生的情況下,用相同限制性內(nèi)切核酸酶消化的靶DNA和參比DNA的DNA印跡分析可用于驗證靶DNA和參比DNA之間的標(biāo)記距離的差異。GVT的長度足以用作特異性PCR引物,以分離間插基因組序列用于鳥槍法測序,以確定結(jié)構(gòu)變化的確切性質(zhì)。一般認(rèn)為,結(jié)構(gòu)變化的研究將進(jìn)一步闡明復(fù)雜疾病,例如肥胖和糖尿病,這些疾病的發(fā)展由基因、遺傳元件和環(huán)境的相互作用觸發(fā)。用于本發(fā)明分析的核酸的選擇可受到在科學(xué)文獻(xiàn)中描述的特定染色體或染色體區(qū)與某些疾病狀況相關(guān)的現(xiàn)有知識的影響。本發(fā)明可以高分辨率靶向來自分離的染色體或染色體區(qū)或組織樣品的DNA?;蛘撸景l(fā)明可用于以一定范圍的分辨率廣泛地全基因組掃描患者人群以適合研究設(shè)計。F粘粒配對-末端作圖技術(shù)(Tuzim等,200需要超過2百萬個常規(guī)Sanger雙脫氧堿基測序讀取以以中等的分辨率和覆蓋率水平分析個體,由此限制了其掃描大群體的應(yīng)用,所述大群體用于關(guān)聯(lián)研究,以發(fā)現(xiàn)對疾病結(jié)果為診斷性或預(yù)后性的生物標(biāo)記以及用于藥物干預(yù)的潛在藥物靶。本發(fā)明提供了這些限制的解決方法,因此,本發(fā)明具有產(chǎn)生新的醫(yī)學(xué)診斷法和輔助藥物發(fā)現(xiàn)的潛力。在另一個優(yōu)選實施方案中,將本發(fā)明鑒定的精細(xì)結(jié)構(gòu)變化用于設(shè)計寡核苷酸陣列測定、微陣列測定、基于PCR的測定和本領(lǐng)域中的其它診斷測定,以檢測核酸群之間的差異。本發(fā)明的微陣列和寡核苷酸陣列是用于檢測核酸拷貝數(shù)改變以及單個或少數(shù)核苷酸多態(tài)性的有效平臺,但不適于檢測可促成或引起疾病的其它基因組改變。本發(fā)明的鑒定產(chǎn)物使得能夠設(shè)計寡核苷酸和微陣列測定或本領(lǐng)域的其它診斷測定,以篩選劃分本發(fā)明鑒定的精細(xì)結(jié)構(gòu)變化的易位、插入、缺失和倒位連接處。然后這些測定可用于篩選一般群體和大的患者人群,以確定精細(xì)結(jié)構(gòu)變化在復(fù)雜疾病中的作用,所述疾病例如為肥胖、糖尿病和許多癌癥,這些疾病的發(fā)展由多種遺傳和環(huán)境因素的相互作用引起。這些測定的其它應(yīng)用包括但不限于診斷或區(qū)分在醫(yī)學(xué)診斷學(xué)、系統(tǒng)發(fā)生學(xué)和工業(yè)微生物學(xué)領(lǐng)域中具有效用的生物的密切相關(guān)的物種、品系、品種或生物型。在另一個優(yōu)選實施方案中,本發(fā)明用于產(chǎn)生高分辨率基因組圖譜,以有助于根據(jù)“鳥槍法DNA測序”從頭基因組組裝。鳥槍法測序由Sanger等(1977)提出,其中將基因組DNA隨機片段化成小片段用于單獨測序,之后將序列組裝以構(gòu)建基因組序列。對于復(fù)雜基因組,鳥槍法為受爭議的,復(fù)雜基因組中由于重復(fù)序列可存在偽重疊。將兩種方法用于處理復(fù)雜基因組。分級方法(hierarchicalapproach)包括產(chǎn)生中間大小克隆例如BAC的重疊集、選擇這些克隆的覆瓦途徑(tilingpath)和隨后使每個克隆經(jīng)過鳥槍法測序。以該方式,大基因組被分解成較小的更“易管理的基因組”。第二種方法稱為“全基因組鳥槍法”(WGS),其中使用計算機方法一舉(inonefellswoop)直接從短重疊序列讀取中產(chǎn)生完整基因組序列。兩個進(jìn)展使得WGS可行=(I)Edward等(1990)通過測序已知近似大小的插入物末端來提供兩個序列讀取之間的距離約束的連接信息,提出配對-末端讀取的應(yīng)用;和(能夠利用成對-末端序列信息的組裝算法的發(fā)展(Huang等,2006;Warren等,2006;Pop等,2004;Havlak等,2004Jaffe等,2003;Mullikin和Ning,2003;Huang等,2003;Batzoglou等,2002;Pevzner和Tang,2001;Myers等,2000)。將克隆長度約束作為序列讀取對之間可允許的距離提供給WGS組裝程序。該信息對通過允許支架的構(gòu)建來分辨重復(fù)序列是關(guān)鍵的,所述支架連接、排列和定向序列毗連群,用于增加所得序列組裝的長范圍鄰接。Edwards等(1990)的質(zhì)粒成對-末端-讀取稍后由BAC成對-末端-讀取補充以構(gòu)建更加有序的支架(Warren等,2006;Zhao,2000;Mahairas等,1999)。然而盡管大量使用成對_末端_讀取,但是多數(shù)基因組序列草圖包含數(shù)千個錯誤組裝(Mlzberg和樸!·!^,2005)。組裝錯誤源于以下問題的組合軟件缺陷、基因組中難以處理的重復(fù)區(qū)(difficultrepeatedregion)、多數(shù)大基因組的二倍體性質(zhì)和分辨率和覆蓋率不足的支架。支架分辨率不足很大程度上源于得自質(zhì)?;駼AC插入物的成對-末端-讀取的不精確的距離,這是因為不可能確定使用當(dāng)前實驗方案測序的每一個克隆的大小。此外,構(gòu)建的支架未針對所需的元件數(shù)和間距進(jìn)行優(yōu)化以得到必需的空間分辨率。本發(fā)明提供產(chǎn)生高分辨率支架的方法以使得能夠進(jìn)行基因組組裝、尤其是從頭組裝未表征的基因組,所述未表征的基因組中通常沒有可用的現(xiàn)有結(jié)構(gòu)信息。具體而言,本發(fā)明提供制備GVT的改進(jìn)方法,所述GVT在一個實施方案中表示Edward等(1990)、Zhao(2000)和Tuzun(2005)的經(jīng)典成對-末端-讀取的改良的功能等價物。與經(jīng)典成對-末端-讀取相比,GVT對具有使間距準(zhǔn)確適合于任何所需構(gòu)型的能力,更重要的是具有標(biāo)記基因組中相鄰限制性內(nèi)切核酸酶位點的能力以提供對所得基因組組裝的準(zhǔn)確性的獨立確證。GVT對適用于在常規(guī)的基于Sanger雙脫氧堿基測序化學(xué)或新一代454-設(shè)備(RocheDiagnostics,Indianapolis,IN)、SOLEXA設(shè)備(Illumina,SanDiego,CA)或SOLiD設(shè)備(AppliedBioSystems,FosterCity,CA)上進(jìn)行高通量DNA測序,以提供對靶基因組的完全有成本效用的覆蓋。因此,本發(fā)明提供一組綜合的具有限定間隔距離或相鄰限制性內(nèi)切核酸酶位點的獨特遺傳標(biāo)記,以促進(jìn)全基因組鳥槍法測序工作。預(yù)期本發(fā)明產(chǎn)生的、與人類基因組組裝的當(dāng)前版本(36版,2006年4月)不一致的大量GVT對實際上可能不表示靶DNA中的精細(xì)結(jié)構(gòu)變化,而是反映了當(dāng)前人類基因組組裝中的錯誤或空位。使問題更復(fù)雜的是現(xiàn)行的基因組組裝來源于合并的多個供體的DNA。需要來源于代表人類多樣性范圍的大量單個個體的參比序列,以推動基因組學(xué)領(lǐng)域前進(jìn)。本發(fā)明提供的用途提供了經(jīng)濟地如此實施的方法。在另一個優(yōu)選的實施方案中,本發(fā)明用于產(chǎn)生高分辨率的基因組圖譜以利于系統(tǒng)發(fā)生研究,和用于確定密切相關(guān)的生物之間的遺傳和功能關(guān)系。尤其適于該應(yīng)用的本發(fā)明一個方面利用由靶DNA產(chǎn)生的GVT對,所述靶DNA單獨或者在對GVT對產(chǎn)生有用的組合中在沒有DNA大小分級步驟的情況下用一種或多種限制性內(nèi)切核酸酶消化至完全?;旧希绱水a(chǎn)生的GVT對構(gòu)成了含有位置標(biāo)記對的基因組概況,所述位置標(biāo)記沿著靶DNA長度劃分相鄰的限制性內(nèi)切核酸酶位點。GVT對的同一性及其相對豐度可用于產(chǎn)生高分辨率基因組概況,該基因組概況可用于鑒定、區(qū)分和定量復(fù)雜醫(yī)學(xué)或環(huán)境DNA分離物中的原始基因組。所產(chǎn)生的GVT對還可應(yīng)用于工業(yè)微生物領(lǐng)域中,用于鑒定在遺傳修飾生物的密切相關(guān)的品系、生物型或品種中引起理想性狀的基因組差異,所述理想性狀例如為有利的生長速率和產(chǎn)生有用的次級代謝物和重組蛋白。因此,本發(fā)明在由微生物或哺乳動物宿主細(xì)胞進(jìn)行工業(yè)生產(chǎn)中可有助于菌株改良。本發(fā)明產(chǎn)生的高分辨率基因組圖譜還提供了低成本和有效的方法來研究密切相關(guān)的病原體核酸,以鑒定變化區(qū)域,從而將詳細(xì)的序列分析用于鑒定可用于診斷和可用作醫(yī)學(xué)干預(yù)的藥物靶的病原決定簇。在另一個優(yōu)選實施方案中,本發(fā)明可用于遺傳解剖家畜和農(nóng)業(yè)作物的表型多樣性,以有利于標(biāo)記物輔助育種。對于鑒定復(fù)雜遺傳元件而言,家畜是特別受關(guān)注的,所述遺傳元件有助于生長控制、能量代謝、發(fā)育、機體組成、生殖和行為以及通過經(jīng)典育種探尋的其它性狀。關(guān)于綜述參見Andersson(2001)。大部分目標(biāo)農(nóng)業(yè)性狀是多因素的,通常受未知數(shù)量的數(shù)量性狀基因座(QTL)控制?;蚪M掃描的微衛(wèi)星圖譜已被開發(fā)用于主要家畜。使用這些標(biāo)記的相關(guān)研究和候選基因方法是用于鑒定QTL的兩種主要策略。QTL的克隆具有挑戰(zhàn)性,因為基因型和表型之間的關(guān)系被認(rèn)為比單基因性狀更復(fù)雜。然而,有可能通過后代測驗間接確定QTL,所述測驗中利用來自子代之間的遺傳標(biāo)記和表型變化的數(shù)據(jù)來推斷QTL的分離。目前,大部分QTL的分子基礎(chǔ)仍是未知的。果蠅中的QTL作圖提示,QTL經(jīng)常與非編碼區(qū)中的序列變化相關(guān)(MacKay,2001)。如在人中一樣,預(yù)期家畜和作物基因組中的精細(xì)結(jié)構(gòu)變化在表型表達(dá)以及基因組與環(huán)境的相互作用方面很可能起重要作用。本發(fā)明提供以低成本將家畜和作物中的廣泛范圍的基因組結(jié)構(gòu)多樣性制表的方法。然后,制表的信息將能夠產(chǎn)生寡核苷酸微陣列和其它診斷平臺,用于關(guān)聯(lián)和連鎖研究,以鑒定和表征導(dǎo)致標(biāo)記物輔助育種的實際QTL。作為主要的傳粉者,蜜蜂在農(nóng)業(yè)當(dāng)中和世界上的許多地區(qū)起關(guān)鍵作用。養(yǎng)蜂是受益于本發(fā)明的另一個領(lǐng)域。蜜蜂是一種在經(jīng)濟上重要的物種,其適于在育種開發(fā)中使用遺傳技術(shù)。蜜蜂傳代時間短,產(chǎn)生大量子代。種系還容易通過人工精增殖。蜜蜂品系在生育性能、抗病性和行為性狀方面表現(xiàn)出廣泛的表型變化,所述性狀中的許多受復(fù)雜的遺傳控制。受遺傳控制的重要行為性狀包括以許多非洲品系所例示的攻擊性、覓食習(xí)性、產(chǎn)蜜量和所謂的“衛(wèi)生”行為?!靶l(wèi)生”性狀由至少7個尚未界定的基因座調(diào)節(jié),這些基因座合在一起導(dǎo)致蜂房成員清除死亡或患病群體的清潔行為,作為針對真菌和螨侵襲的主要防御,真菌和螨是兩種主要的蜜蜂經(jīng)濟性病原體。主要目標(biāo)是開發(fā)可靠的診斷分子標(biāo)記,這些標(biāo)記可用于標(biāo)記物輔助育種,以快速有效地鑒定所需子代品系,而無需復(fù)雜且耗時的育種試驗和野外測試。本發(fā)明可使用意大利蜂(Apismellifera)品系DH4的200兆堿基大小基因組的遺傳圖譜和參比序列(WeinStOck,2006)來提供有效且低成本的方法,以高分辨率研究多個蜜蜂品系基因組的精細(xì)結(jié)構(gòu)變化,從而將所需的表型與基因型相關(guān)聯(lián)。成本有效地研究多個品系的能力是本發(fā)明提供的關(guān)鍵優(yōu)勢。在另一個優(yōu)選實施方案中,本發(fā)明可用于鑒定神經(jīng)障礙和性狀中潛在的遺傳原因。一般認(rèn)為,許多神經(jīng)障礙(如孤獨癥、雙相型障礙和精神分裂癥)的至少一種組分具有復(fù)雜的非孟德爾遺傳組分(Craddock和Jones,2001;Owen和Craddock,1996;HoIzman和Matthysse,1990)?;パa連鎖和相關(guān)性研究目前用于鑒定基因組組分,本發(fā)明提供了評價基因組精細(xì)結(jié)構(gòu)變化在神經(jīng)障礙中的促進(jìn)性作用的方法,并可產(chǎn)生用于診斷、預(yù)后和患者管理的新方法。在另一個優(yōu)選實施方案中,本發(fā)明可用于鑒定癌癥中潛在的遺傳原因,由此產(chǎn)生用于診斷、預(yù)后和治療干預(yù)的方法。幾乎所有的癌癥都?xì)w因于DNA序列的異常,這些異?;蛘呤沁z傳的,或者是通過生命當(dāng)中的體細(xì)胞突變獲得的。腫瘤生成的主要原則在于,累積的遺傳和體細(xì)胞DNA突變與環(huán)境因素一起,將基因表達(dá)或基因功能改變得超過了允許克隆擴增、細(xì)胞侵入周圍組織和啟動轉(zhuǎn)移的關(guān)鍵功能閾。在西方國家有1/3的人將罹患癌癥,并且1/5將直接因該疾病而死亡,這使癌癥成為最常見的遺傳疾病。在歷史上,該領(lǐng)域以鑒定有效的致癌基因或腫瘤阻抑基因開始,所述基因中由于基因座的少量核苷酸改變而簡單失去或獲得功能是癌癥的主要促成因素。該領(lǐng)域后來擴展到基因劑量(genedosage),其中導(dǎo)致基因拷貝數(shù)改變的DNA區(qū)段的重復(fù)或缺失是腫瘤發(fā)生的推測原因。陣列CGH對檢測DNA拷貝數(shù)的改變以及癌細(xì)胞系和原發(fā)性腫瘤的雜合性的喪失特別有用。癌癥中的拷貝數(shù)分析的全面綜述和癌癥中的體細(xì)胞突變目錄以及其中的參考文獻(xiàn)可參見SangerInstitute的“癌癥基因組計劃”(http://www.sanger.ac.uk/genetics/CGP/)。最近,已認(rèn)識到基因組精細(xì)結(jié)構(gòu)變化在腫瘤發(fā)生中的重要作用。在腫瘤發(fā)生過程中,腫瘤基因組累積了大量重排,包括擴增、缺失、易位、倒位等,其中許多直接促成腫瘤進(jìn)展(Gray和Collins,2000)。Volik等Q006)利用F粘粒配對-末端作圖的變型,檢測進(jìn)展中的腫瘤的基因組結(jié)構(gòu)的所有改變,尤其是不能通過陣列CGH檢測的易位和倒位事件。他們解析乳腺癌基因組的嘗試是最具信息性的,但被研究者公認(rèn)受限于獲得每個樣品的大量BAC克隆的末端序列所需的費用和資源。本發(fā)明提供低成本的、高分辨率的方法來克服這些缺陷,并鑒定不適于通過陣列CGH檢測的基因組精細(xì)結(jié)構(gòu)變化。當(dāng)與下一代DNA序列分析儀聯(lián)用時,本發(fā)明成本足夠低,使得能夠用于廣泛的癌癥患者人群研究和用于跟蹤個體患者的腫瘤進(jìn)展中的基因組變化累積。跟蹤腫瘤進(jìn)展過程中的基因組變化的能力在臨床結(jié)果上將具有意義深遠(yuǎn)的預(yù)測價值,提供了對患者治療的顯著改善。應(yīng)理解的是,已知本文公開內(nèi)容的情況下,各種其它改變對本領(lǐng)域技術(shù)人員而言是顯而易見的,并可容易地由這些人員作出,而不會背離本發(fā)明的范圍和精神。參考文獻(xiàn)本申請各處提及的以下文獻(xiàn)以及所有其它文章、專利和已公開的申請都通過引用結(jié)合到本文中AlbertsonDG禾口PinkelD,2003.Genomicmicroarraysinhumangeneticdiseaseandcancer.HumMolGen12SpecNo2:R145-R152.AlbertsonDG等,2000.QuantitativemappingofampIiconstructurebyarrayCGHidentifiesCYP24asacandidateoncogene.NatGenet25:144-146.AnderssonL,2001.Geneticdissectionofphenotypicdiversityinfarmanimals.NatRev2:130—138.BaileyAB等,2002.Recentsegmentalduplicationsinthehumangenome.Science297:1003-1007.BatzoglouS等,2002.ARACHNE:Awhole-genomeshotgunassembler.GenomeRes12:177-189.BerkaJ等,2006.Pairedendsequencing.美國專利申請?zhí)朥S2006/0292611.BignellGR等,2004.High-resolutionanalysisofDNAcopynumberusingoligonucleotidemicroarrays.GenomeRes14:287-295.BolivarF等,1977.Constructionandcharacterizationofnewcloningvehicles.IImultipurposesystem.Gene2:95—113.BrennanC等,2004.High-resolutionglobalprofilingofgenomicalterationswithlongoligonucleotidemicroarray.CancerRes64:4744-4748.BujnickiJM,2001.Understandingtheevolutionofrestriction—modificationsystemsCluesfromsequenceandstructurecomparisons.ActaBiochimicaPolonica48:935-967.BuryanovYI等,1978·SitespecificandchromatographicspropertiesofEcoliK12andEcoRIIDNA-cytosinemethylases.FEBSLett88:251—254.ChangACY禾口CohenSN,1978.ConstructionandcharacterizationofamplifiablemulticopyDNAcloningvehiclesderivedfromtheP15Acrypticminiplasmid.JBacteriology134:1141-1156.CheckE,2005.Patchworkpeople.Nature437:1084-1096.ChengZ等,2005·Agenome-widecomparisonofrecentchimpanzeeandhumansegmentalduplications.Nature437:88-93.CollinsFS等,1987.Constructionofageneralhumanchromosome-jumpinglibrary,withapplicationincysticfibrosis.Science235:1046-1049.CollinsFS禾口WeissmanSM,1984.DirectionalcloningofDNAfragmentsatalargedistancefromaninitialprobe:Acircularizationmethod.ProcNatlAcadSci(USA)81:6812-6816.CraddockN禾口JonesI,2001.Moleculargeneticsofbipolardisorder.BrJPsychiatrySuppl41:S128_S133.DeiningerPL,1983.RandomsubcloningofsonicatedDNA!ApplicationtoshotgunDNAsequenceanalysis.AnalytBiochem129:216-223.DugaiczykA等,1975.LigationofEcoRIendonuclease-generatedDNAfragmentsintolinearandcircularstructures.JMolBiol96:171-178.DunnJL等,2002.Genomicsignaturetags(GSTs):AsystemforprofilinggenomicsDNA.GenomeRes12:1756-1765.EdwardsA等,1990.AutomatedDNAsequencingofthehumanHPRTlocus.Genomics6:593-608.FengT等,2002·IncreasedefficiencyofcloninglargeDNAfragmentsusingalowercopynumberplasmid.BioTechniques32:992-998.FeukL等,2006.Structuralvariationinthehumangenome.NatureRev7:85-97.FitzgeraldMC等,1992.RapidshotguncloningutilizingthetwobaserecognitionendonucleaseCviJI.NucAcidRes20:3753-3762.GeierGE禾口ModrichP,1979.RecognitionsequenceofthedammethylaseofEscherichiacoliK12andmodeofcleavageofDpnIendonuclease.JBiolChem254:1408-1413.GonzalezE等,2005·TheinfluenceofCCL3L1gene-containingsegmentalduplicationsonHIV-1/AIDSsusceptibility.Science307:1434-1440·GrayJW禾口CollinsC,2000.Genomechangesandgeneexpressioninhumansolidtumors.Carcinogenesis21:443-452.GrindleyNDF禾口JoyceCM,1980.GeneticandDNAsequenceanalysisofthekanamycinresistancetransposonTn903.ProcNatlAcadSci(USA)77:7176-7180.HamelinC和YelleJ,1990.GelandbuffereffectsonthemigrationofDNAmoleculesinagarose.ApplTheorElectrophor1:225-231.HattmanS等,1978.SequencespecificityofthePlmodificationmethylase(M.EcoPI)andtheDNAmethylase(M.Ecodam)controlledbytheEscherichiacolidamgene.JMolBiol126:367-380.HavlakP等,2004.Theatlasgenomeassemblysystem.GenomeRes14:721-732.HayashiK等,1986.Regulationofinter-andintermolecularligationwithT4DNAligaseinthepresenceofpolyethyleneglycol.NucAcidsRes14:7617-7630.HeffronF等,1978.InvitromutagenesisofacircularDNAmoleculebyusingsyntheticrestrictionsites.ProcNatlAcadSci(USA)74:6012-6016.HeiskanenMA等,2000.DetectionofgeneamplificationbygenomichybridizationtocDNAmicroarrays.CancerRes60:799-802.HolzmanPS禾口MatthysseS,1990.Thegeneticsofschizophrenia:Areview.PyscholSci1:179-286.HuangJ2004.WholegenomeDNAcopynumberchangesbyhighdensityoligonucleotidesarrays.HumGenomics1:287-299.HuangX等,2006.Applicationofasuperwordarrayingenomeassembly.NucAcidsRes34:201-205.HuangX等,2003.PCAP:Awhole-genomeassemblyprogram.GenomeRes132164-2170.InazawaJ等,2004.Comparativegenomichybridization(CGH)-arrayspavethewayforidentificationofnovelcancer-relatedgenes.CancerSci95559-563.JaffeDB等,2003.Whole-genomesequenceassemblyformammaliangenomesARACHNE2.GenomeRes13:91-96.KanNC等,1979.ThenucleotidesequencerecognizedbytheEscherichiacoliK12restrictionandmodificationenzymes.JMolBiol130:191-209.KinzlerKW1995.Methodforserialanalysisofgeneexpression.美國專利第5,695,937號(1997年12月9日授權(quán)).KorbelJO等,2007·Paired-endmappingrevealsextensivestructurevariationintheHumangenome.Science318:420-426.KozdrojJ禾口vanElsasJD,2001.Structuraldiversityofmicroorganismsinchemicallyperturbedsoilassessedbymolecularandcytochemicalapproaches.JMicrolMeth43:187-212.LokS,2001.Methodsforgeneratingacontinuousnucleotidesequencefromnon-contiguousnucleotidesequences.美國專利第6,730,500號(2004年5月4日授權(quán))·LucitoR等,2003.RepresentationaloligonucleotidemicroarrayanalysisAhigh-resolutionmethodtodetectgenomecopynumbervariation.GenomeRes132291-2305.MackayTFC,200LQuantitativetraitlociinDrosophila.NatRevGenet2:11-20.MahairasGG等,1999.Sequence-taggedconnectors:Asequenceapproachtomappingandscanningthehumangenome.ProcNatlAcadSci(USA)96:9739-9744.MardisER,2008.Next-generationDNAsequencingmethods.AnnuRevGenomicsHumGenet9:387-402.MarguliesM等,2005.Genomesequencinginmicrofabricatedhigh-densitypicrolitrereactors.Nature437:376-380.MatsumuraH等,2003.Geneexpressionanalysisofplanthost-pathogeninteractionsbySuperSAGE.ProcNatlAcadSci(USA)IOO:15718-15723.MayMA禾口HattmanS,1975.Analysisofbacteriophagedeoxyribonucleicacidsequencesmethylatedbyhost—andR-factor—controlledenzymes.JBacteriology123:768-770.McClellandM1994.Effectofsite-specificmodificationonendonucleasesandDNAmodificationmethyltransferases.NucAcidsRes223640-3659.Mead,DA禾口GodiskaR,2001.Cloningvectorsandvectorcomponents.美國專利第6,709,861號(2004年3月23日授權(quán)).MelgarE禾口GoldthwaitDA,1968.Deoxyribonucleicacidnucleases11.TheeffectofmetalsonthemechanismofactionofdeoxyribonucleaseI.JBiolChem243:4409-4416.Morozova0,MarraMA,2008.Applicationsofthenext-generationsequencingtechnologiesinfunctionalgenomics.Genomics92:255-262.MullikinJC禾口NingΖ,2003.ThePHUSIONassembler.GenomeRes13:81-90.MyersEW等,2000.Awhole-genomeassemblyofDrosophila.Science2872196-21204.NgP等,2005.Geneidentificationsigniture(GIS)analysisfortranscriptomecharacterizationandgenomeannotation.NatMeth2:105—111.OwenMJ禾口CraddockN,1996.Modernmoleculargeneticapproachestocomplextraits!implicationsforpsychiatricdisorders.MolPsychiatry1:21—26·PevznerPA禾口TangH,200LFragmentassemblywithdouble-barreleddata.Bioinformatics17Suppl1:S225_S233·PheifferBH禾口ZimmermanSB,1983.Polymer-stimulatedligation:Enhancedblunt-orcohesive-endligationofDNAordeoxyribooligonucIeotidesbyT4DNAligaseinpolymersolutions.NucAcidsRes11:7853-7871.PinkelD禾口AlbertsonDG,2005.Arraycomparativegenomichybridizationanditsapplicationincancer.NatGenetSuppl37:S11_S17.PinkelD等,1998·HighresolutionanalysisofDNAcopynumbervariationusingcomparativegenomichybridizationtomicroarrays.NatGenet20:207-211.PinkelD等,1997.Comparativegenomichybridization.美國專利第6,159,685號(2000年12月12日授權(quán))·PinkelD^,1994.Comparativefluorescencehybridizationtonucleicacidarrays.美國專利第5,830,645號(1998年11月3日授權(quán)).PollackJR等,2002.MicroarrayanalysisrevealsamajordirectroleofDNAcopynumberalternationinthetranscriptionalprogramofhumanbreasttumors.ProcNatlAcadSci(USA)99:12963-12968.PollackJR等,1999.Genome-wideanalysisofDNAcopy-numberchangesusingcDNAmicroarrays.NatGenet23:41-46.PopM等,2004.Comparativegenomeassembly.BriefingsinBioinformatics5:237-248.RedonR等,2006.Globalvariationincopynumberinthehumangenome.Nature444:444-454.Rouillard,J-M等,2001.Virtualgenomescan:Atoolforrestrictionlandmark—basedscanningofthehumangenome.GenomeRes111453-1459.SahaS等,2002.Usingthetranscriptometoannotatethegenome.NatBiotech19:508-512.SalzbergSL禾口YorkeJA,2005.Bewareofmis-assembledgenomes.Bioinformatics21:4320-4321.SangerF等,1977.DNAsequencingwithchainterminatinginhibitors.ProcNatlAcadSci(USA)74:5463-5467.SchloterM等,2000·Ecologyandevolutionofbacterialmicrodiversity.FEMSMicobiolRev21:647-660.SchrieferLA等,1990·LowpressureDNAshearing:AmethodforrandomDNAsequenceanalysis.NucAcidsRes18:7455.SistlaS禾口RaoDN,2004.S-adenosyl-L-methionine-dependentrestrictionenzymes.CritRevBiochemMolBiol39:1-19.SnijdersAM等,2001.Assemblyofmicroarraysforgenome-widemeasurementofDNAcopynumbers.NatGenet29:263-264.SzybalskiW,1997.ConditionallyamplifiableBACvector.美國專利第5,874,259號(1999年2月23日授權(quán))·SzybalskiE等,1991.Class-IISrestrictionenzymes-Αreview.Gene10013-26.TaoQ禾口Zhang,H_B,1998.CloningandstablemaintenanceofDNAfragmentsover300kbinEscherichiacoliwithconventionalplasmid—basedvectors.NucAcidsRes21:4901-4909.TuzunE等,2005·Fine-scalestructuralvariationofthehumangenome.NatGenet37:727-732.VelculescuVE等,1995.Serialanalysisofgeneexpression.Science270484-487.VolikS等,2006.Decodingthefine-scalestructureofabreastcancergenomeandtranscriptome.GenomeRes16:394-404.WangJC禾口DavidsonN,1966.OntheprobabilityofringclosureoflambdaDNA.JMolBiol19:469-482.WarrenRL等,2006.Physicalmap-assistedwhole-genomeshotgunsequenceassemblies.GenomeRes16:768-775.WeiC-L2004.5flongserialanalysisofgeneexpression(LongSAGE)and3‘LongSAGEfortranscriptomecharacterizationandgenomeannotation.ProcNatlAcadSci(USA)101:11701-11706.WeinstockGM等,2006·InsightsintosocialinsectsfromthegenomeofthehoneybeeApismellifera.Nature443:931-949.WimmerK等,2002.Combinedrestrictionlandmarkgenomicscanningandvirtualgenomescansidentifyanovelhumanhomeoboxgene,ALX3,thatishypermethylatedinneuroblastoma.GenesChromosomes&Cancer33:285-294.ZhangZ等,2000.AgreedyalgorithmforaligningDNAsequencing.JComputationalBiol7:203-214.ZhaoS,2000.HumanBACends.NucAcidsRes28:129-132.ZimmermanSB禾口PheifferBH,1983.Macromolecularcrowdingallowsblunt-endligationbyDNAligasesfromratliverorEscherichiacoli.ProcNatlAcadSci(USA)80:5852-5856.權(quán)利要求1.一種用于制備并列序列標(biāo)簽(GVT)的方法,其中沿著靶核酸分子群的長度定位的序列標(biāo)簽對(GVT對)的兩個組成成員為限定間隔距離的位置標(biāo)記或為一種或多種限制性內(nèi)切核酸酶的兩個相鄰且可切割的限制性內(nèi)切核酸酶位點的位置標(biāo)記,所述方法包括將大核酸分子片段化以形成靶DNA插入物;將靶DNA插入物與線狀DNA骨架在靶DNA插入物的末端克隆位點連接,導(dǎo)致產(chǎn)生包含靶DNA插入物的環(huán)狀分子;用至少一種在離各個靶DNA插入物末端克隆位點一定距離處切割所述插入物的內(nèi)切核酸酶消化環(huán)狀分子內(nèi)的靶DNA插入物,從而產(chǎn)生包含兩個序列標(biāo)簽(GVT)的線狀分子,所述序列標(biāo)簽包含靶DNA插入物的末端序列,所述兩個GVT中的一個與未消化DNA骨架的各個末端連接;重新環(huán)化具有連接的GVT的線狀DNA骨架,以產(chǎn)生環(huán)狀DNA分子,從而產(chǎn)生GVT對,其包含與靶DNA插入物相對方向相同的兩個并列的GVT;通過從DNA骨架上的引物位點進(jìn)行核酸擴增或通過用內(nèi)切核酸酶在DNA骨架上的且位于所產(chǎn)生的GVT對側(cè)翼的位點處進(jìn)行消化,分離所產(chǎn)生的GVT對。2.權(quán)利要求1的方法,其中通過還包括以下步驟的方法使所述分離的GVT對的各個GVT呈相對于靶DNA插入物相反的方向通過分子內(nèi)連接使所分離并產(chǎn)生的GVT對重新環(huán)化;用限制性內(nèi)切核酸酶消化所得的環(huán)狀分子,所述限制性內(nèi)切核酸酶切割所述GVT對而得到具有呈相反方向的GVT的線狀分子。3.權(quán)利要求1的方法,其中所產(chǎn)生的GVT對包含靶DNA插入物的兩個末端區(qū),其具有少于2501Λ、少于IOOWk少于501Λ、少于251Λ、少于IOWk少于51Λ或少于2.5kb的間隔距離O4.權(quán)利要求1的方法,其中所述靶DNA插入物為基因組DNA、來自分離染色體的基因組DNA、分離自分離染色體區(qū)的DNA、cDNA、線粒體RDNA、葉綠體DNA、病毒DNA、微生物DNA、質(zhì)體DNA、化學(xué)合成的DNA、核酸擴增的DNA產(chǎn)物或從RNA轉(zhuǎn)錄的DNA。5.權(quán)利要求1的方法,其中通過選擇性應(yīng)用機械力、單獨或組合用一種或多種核酸酶部分消化、或者單獨或組合用一種或多種核酸酶完全消化,將所述核酸分子隨機片段化以形成靶DNA插入物。6.權(quán)利要求1的方法,其中通過使用對DNA甲基化狀態(tài)敏感的一種或多種核酸酶,將所述靶核酸分子片段化以形成靶DNA插入物。7.權(quán)利要求1的方法,其中所述靶DNA插入物經(jīng)大小分級分離。8.權(quán)利要求1的方法,其中所述靶DNA插入物不經(jīng)大小分級分離。9.權(quán)利要求1的方法,其中所述靶DNA插入物長度為至少2501Λ、IOOWk至少501Λ、至少25kb、至少IOkb、至少5kb或至少2.5kb。10.權(quán)利要求1的方法,其中用于消化靶DNA插入物以產(chǎn)生GVT的限制性內(nèi)切核酸酶為識別四個或更多個堿基對識別序列的限制性內(nèi)切核酸酶。11.權(quán)利要求1的方法,其中用于消化靶DNA插入物以產(chǎn)生GVT的限制性內(nèi)切核酸酶為II型限制性內(nèi)切核酸酶。12.權(quán)利要求11的方法,其中所述II型限制性內(nèi)切核酸酶為單獨或組合的FspBI、Csp6I或其任何同切點酶或異切點酶。13.權(quán)利要求1的方法,其中所述DNA骨架的長度小于251Λ、小于IOWk小于51Λ、小于lkb、小于500bp、小于250bp、小于IOObp或小于50bp。14.權(quán)利要求1的方法,其中首先將靶DNA插入物在各個末端與連接物連接,然后將連接物連接的靶DNA插入物與DNA骨架連接。15.權(quán)利要求1的方法,其中在與靶DNA插入物連接之前、期間或之后,自兩個、三個或更多個DNA區(qū)段組裝所述DNA骨架。16.權(quán)利要求1的方法,其中所述DNA骨架在一個或兩個末端包含功能性連接物序列以促進(jìn)DNA骨架與靶DNA插入物的連接。17.權(quán)利要求16的方法,其中所述連接物長度為8bp-100bp。18.權(quán)利要求1的方法,其中所述DNA骨架包含能夠指導(dǎo)所產(chǎn)生的GVT對進(jìn)行DNA擴增的一個或多個序列。19.權(quán)利要求18的方法,其中所述DNA骨架包含能夠指導(dǎo)所產(chǎn)生的GVT對在固相支持體上進(jìn)行DNA擴增的一個或多個序列。20.權(quán)利要求19的方法,其中所述DNA骨架包含能夠指導(dǎo)所產(chǎn)生的GVT對在固相支持體上進(jìn)行等溫DNA擴增的一個或多個序列。21.權(quán)利要求1的方法,其中所述連接物包含一個或多個以下序列其能夠結(jié)合用于測序所產(chǎn)生的GVT對的DNA測序引物。22.權(quán)利要求1的方法,其中所產(chǎn)生的GVT對為許多從靶DNA群中類似地產(chǎn)生的、代表所連接基因組標(biāo)簽文庫的GVT對中的一種。23.權(quán)利要求1的方法,其中所述DNA骨架包含與能夠產(chǎn)生可檢測信號的部分綴合的一個或多個核苷酸,所述可檢測信號可通過儀器或通過目視檢查讀出。24.權(quán)利要求1的方法,其中所述DNA骨架包含與親和純化標(biāo)簽綴合的一個或多個核苷酸。25.權(quán)利要求M的方法,其中所述親和純化標(biāo)簽為生物素。26.權(quán)利要求25的方法,其包括通過用抗生物素蛋白或鏈霉抗生物素包被的固相支持體的親和純化來分離核酸片段的步驟。27.權(quán)利要求1的方法,其中所述DNA骨架不含長度為4個堿基或更長的回文序列。28.權(quán)利要求1的方法,其中所述DNA骨架不含II型限制性內(nèi)切核酸酶FspBI、Csp6I或其任何同切點酶或異切點酶的識別和切割位點。29.權(quán)利要求1的方法,其中所述DNA骨架的甲基化防止被一種或多種限制性內(nèi)切核酸酶切割。30.權(quán)利要求1的方法,其中通過用產(chǎn)生核苷酸突出端的IIS型限制性內(nèi)切核酸酶消化,來產(chǎn)生所述DNA骨架的末端,以促進(jìn)帶有互補核苷酸突出端的靶DNA插入物的連接。31.權(quán)利要求30的方法,其中通過用在各個末端產(chǎn)生單個堿基3’-核苷酸突出端的Iis型限制性內(nèi)切核酸酶消化,來產(chǎn)生所述DNA骨架的末端,以促進(jìn)帶有互補3’-核苷酸突出端的靶DNA插入物的連接來產(chǎn)生環(huán)狀分子。32.權(quán)利要求30的方法,其中所述DNA骨架的3’-單核苷酸延伸為胸腺嘧啶堿基,而靶DNA插入物上的互補3’-單核苷酸延伸為腺嘌呤堿基。33.權(quán)利要求30的方法,其中所述IIS型限制性內(nèi)切核酸酶為BciVI或其任何同切點酶。34.權(quán)利要求30的方法,其中所述DNA骨架不含IIS型限制性內(nèi)切核酸酶BciVI或者其任何同切點酶或異切點酶的識別位點。35.權(quán)利要求1的方法,其中所述DNA骨架為能夠在細(xì)胞中增殖的DNA載體。36.權(quán)利要求1的方法,其中所述DNA骨架為細(xì)菌人工染色體載體或酵母人工染色體載體。37.權(quán)利要求1的方法,其中所述DNA骨架為選自以下的DNA載體質(zhì)粒、噬菌粒、粘粒和F粘粒。38.權(quán)利要求1的方法,其中所述DNA骨架包含一個或多個能夠介導(dǎo)噬菌體包裝的序列。39.權(quán)利要求38的方法,其中所述噬菌體包裝序列為來源于噬菌體λ的COS序列。40.權(quán)利要求1的方法,其中所述DNA骨架包含選擇標(biāo)記基因。全文摘要本發(fā)明提供并列序列標(biāo)簽(GVT)的方法,所述并列序列標(biāo)簽為沿著靶核酸分子群的長度的獨特位置標(biāo)記,所述方法包括將靶核酸分子片段化以形成靶DNA插入物;將靶DNA插入物與DNA載體或骨架連接,以產(chǎn)生環(huán)狀分子;用內(nèi)切核酸酶消化靶DNA插入物,以在離靶DNA插入物各個末端一定的距離切割靶DNA插入物,得到包含與未消化線狀骨架連接的靶DNA插入物末端序列的兩個GVT;重新環(huán)化具有連接的GVT的線狀骨架,得到包含具有兩個并列的GVT對的環(huán)狀DNA;和通過核酸擴增或用具有GVT對側(cè)翼位點的內(nèi)切核酸酶消化,回收GVT對DNA。將粘粒載體提供用于產(chǎn)生可被下一代DNA序列分析儀測序的約45-50kb間隔的GVT對。文檔編號C12N15/66GK102165073SQ200980135935公開日2011年8月24日申請日期2009年7月9日優(yōu)先權(quán)日2008年7月10日發(fā)明者駱樹恩申請人:駱樹恩