本申請要求2007年7月23日提交的題目為“DETERMINING A NUCLEIC ACID SEQUENCE IMBALANCE(確定核酸序列失衡)”的美國臨時申請第60/951438號(Attorney Docket No.016285-005200US)的優(yōu)先權,并且是其正式申請,在此將該臨時申請的全部內容通過引用并入并用于各種目的。
相關申請的交叉引用
本申請還涉及同時提交的題目為“DETERMINING A NUCLEIC ACID SEQUENCE IMBALANCE(確定核酸序列失衡)”的正式申請(Attorney Docket No.016285-005210US),在此將該申請內的全部內容通過引用并入并用于各種目的。
發(fā)明領域
本發(fā)明一般涉及通過確定不同核酸序列間的失衡來診斷檢測胎兒染色體非整倍性,更具體而言,涉及經由檢測母體樣品(如血液)來確定21三體性(trisomy 21)(唐氏綜合征)和其他染色體非整倍性。
發(fā)明背景
胎兒染色體非整倍性是由異常劑量的染色體或染色體區(qū)的存在導致的。異常劑量可以是異常地高,如在21三體性中存在額外的21號染色體或染色體區(qū);或異常地低,如在特納綜合征中缺乏X染色體的拷貝。
胎兒染色體非整倍性如21三體性的常規(guī)產前診斷方法涉及,通過侵入性方法如羊膜穿刺或絨毛膜絨毛取樣對胎兒的材料進行取樣,但這造成胎兒流失(fetal loss)的有限風險。無創(chuàng)方法,如通過超聲波掃描術或生物化學標記物的篩查,已用于在確定的侵入性診斷方法前,將孕婦進行風險分級。然而,這些篩查方法通常測量與染色體非整倍性如21三體性有關的副現象,而不是核心染色體異常,因此診斷的準確性未達最佳標準,且具有諸如受孕齡(gestational age)過度影響等的其他缺點。
1997年,在母體血漿中發(fā)現了循環(huán)的無細胞胎兒DNA,這為無創(chuàng)產前診斷提供了新的可能性(Lo,YMD and Chiu,RWK 2007 Nat Rev Genet 8,71-77)。盡管這種方法易于應用于伴性病癥(Costa,JM et al.2002N Engl J Med 346,1502)和某些單基因病癥(Lo,YMD et al.1998 N Engl J Med 339,1734-1738)的產前診斷,但是,該方法的產前檢測胎兒染色體非整倍性的應用依然代表相當大的挑戰(zhàn)(Lo,YMD and Chiu,RWK 2007,同上)。首先,胎兒核酸和母體來源的高背景核酸共存于母體血漿中,而母體來源的高背景核酸經常干擾胎兒核酸的分析(Lo,YMD et al.1998 Am J Hum Genet62,768-775)。其次,胎兒核酸主要以無細胞的形式在母體血漿中循環(huán),這使得難以獲得胎兒基因組的基因或染色體的劑量信息。
近年來,已取得了克服這些挑戰(zhàn)的顯著發(fā)展(Benachi,A&Costa,JM2007 Lancet 369,440-442)。一種方法是,檢測母體血漿中的胎兒特異性核酸,因而克服了母體背景干擾的問題(Lo,YMD and Chiu,RWK 2007,同上)。21號染色體的劑量由胎盤來源的DNA/RNA分子中多態(tài)性等位基因的比值來推斷。然而,當樣品中含有較低量的靶核酸時,這種方法的準確性較低,并且僅可適用于對靶多態(tài)性是雜合的胎兒,如果使用一種多態(tài)性,則該靶核酸僅是群體的一個亞群。
Dhallan等(Dhallan,R,et al.2007,同上,Dhallan,R,et al.2007Lancet369,474-481)描述了通過向母體血漿中添加甲醛富集循環(huán)的胎兒DNA比例的替代策略。母體血漿中胎兒所提供的21號染色體序列的比例,通過評估21號染色體上單核苷酸多態(tài)性(SNP)的父本遺傳的胎兒特異性等位基因與非胎兒特異性等位基因的比值來確定。同樣,計算參照染色體的SNP比值。隨后,通過檢測21號染色體的SNP比值和參照染色體的SNP比值間的統計學顯著差異來推斷胎兒21號染色體的失衡,其中利用小于等于0.05的固定p值來定義顯著。為了確保高度的群體覆蓋度,每條染色體靶向多于500的SNP。然而,存在有關甲醛將胎兒DNA富集至高比例的效率的爭論(Chung,GTY,et al.2005Clin Chem 51,655-658),因此,該方法的再現性需要進一步評估。另外,由于每個胎兒和母親會提供每條染色體的許多不同的SNP,所以SNP比值比較的統計學檢驗的效力會因情況不同而不同(Lo YMD&Chiu,RWK.2007 Lancet 369,1997)。此外,由于這些方法依賴于遺傳多態(tài)性的檢測,因此它們限于對這些多態(tài)性是雜合的胎兒。
利用由21三體性和整倍體胎兒獲得的羊水細胞培養(yǎng)物中21號染色體基因座和參照基因座的聚合酶鏈式反應(PCR)和DNA定量,Zimmermann等(2002 Clin Chem 48,362-363)基于21三體性胎兒的羊水細胞培養(yǎng)物的21號染色體DNA序列增加1.5倍,能區(qū)分這兩組胎兒。因為DNA模板濃度中的2倍差異僅構成了一個閾值循環(huán)(Ct)的差異,所以1.5倍的差異的區(qū)分是常規(guī)實時PCR的極限。為了實現較好程度的定量區(qū)分,需要替代策略。
已經研發(fā)了檢測核酸樣品中等位基因比值偏移(allelic ratio skewing)的數字PCR(Chang,HW et al.2002 J Natl Cancer Inst 94,1697-1703)。數字PCR是基于擴增的核酸分析技術,其要求將含有核酸的樣品分布于大量離散的樣品中,在所述離散樣品中,每個樣品平均含有不多于約1個靶序列。通過數字PCR,用序列特異性引物擴增特異性核酸靶標來產生特異性擴增子。在核酸分析前,確定或選擇待靶向的核酸基因座和待包括于反應中的序列特異性引物的種類或組。
臨床上,已經證明,數字PCR可以用于檢測腫瘤DNA樣品中的雜合性丟失(LOH)(Zhou,W.et al.2002 Lancet 359,219-225)。為了分析數字PCR的結果,以前的研究采用序貫概率比檢驗(sequential probability ratio testing,SPRT)來將實驗結果分類為表示樣品中存在或不存在LOH(El Karoui et al.2006 Stat Med 25,3124-3133)。
在以前的研究所用的方法中,由數字PCR所收集的數據的量相當低。因此,少量的數據點和典型的統計性漲落使得準確性受到損害。
因此期望具有高度敏感性和特異性的無創(chuàng)檢測,以便分別將假陰性和假陽性減少到最低限度。然而,胎兒DNA以低的絕對濃度存在,并代表母體血漿和血清中全部DNA序列的較少部分。因此,也期望具有通過使遺傳信息的量最大化以允許胎兒染色體非整倍性的無創(chuàng)檢測的方法,所述遺傳信息的量可由含有母體背景核酸的生物樣品中作為較少部分存在的數量有限的胎兒核酸推斷。
發(fā)明概述
本發(fā)明的實施方案提供了確定從孕婦獲得的生物樣品中是否存在核酸序列失衡(如染色體失衡)的方法、系統和裝置。利用與生物樣品中其他非臨床相關染色體區(qū)(背景區(qū))有關的臨床相關染色體區(qū)的量的參數,可以進行這種確定。一方面,通過對母體樣品,如尿、血漿、血清和其他合適的生物樣品中的核酸分子進行測序來確定染色體的量。對生物樣品中的核酸分子進行測序,以便對基因組部分進行測序。為了確定與參照數量相比的變化(即失衡)是否存在,選擇了一個或多個截止值(cutoff value),例如關于兩個染色體區(qū)(或染色體區(qū)組)的量的比值。
根據一示例性的實施方案,分析從孕婦接收的生物樣品來進行胎兒染色體非整倍性的產前診斷。生物樣品包括核酸分子。對含于生物樣品中的一部分核酸分子進行測序。一方面,所獲得的遺傳信息的量對診斷的準確性是足夠的,然而并未過量,以便控制成本和所需的生物樣品的輸入量。
基于測序,由鑒定為來源于第一染色體的序列,確定第一染色體的第一量。由鑒定為來源于第二染色體之一的序列,確定一條或多條第二染色體的第二量。隨后,將第一量和第二量的參數與一個或多個截止值進行比較。基于比較,確定對于第一染色體,是否存在胎兒染色體非整倍性的分類。測序有利于使遺傳信息的量最大化,所述遺傳信息的量可由數量有限的作為較少部分存在于含有母體背景核酸的生物樣品中的胎兒核酸推斷。
根據一示例性的實施方案,分析從孕婦接收的生物樣品來實施胎兒染色體非整倍性的產前診斷。生物樣品包括核酸分子。確定生物樣品中胎兒DNA的百分比。基于該百分比,基于期望的準確性,計算待分析的序列的數量N。對生物樣品中所含有的至少N個核酸分子進行隨機測序。
基于隨機測序,由鑒定為來源于第一染色體的序列,確定第一染色體的第一量。由鑒定為來源于第二染色體之一的序列,確定一條或多條第二染色體的第二量。隨后,將第一量和第二量的參數,與一個或多個截止值進行比較。基于比較,確定對于第一染色體,是否存在胎兒染色體非整倍性的分類。隨機測序有利于使可由數量有限的作為較少部分存在于含有母體背景核酸的樣品中的胎兒核酸推斷的遺傳信息的量最大化。
本發(fā)明的其他實施方案涉及與本文所述方法相關的系統和計算機可讀介質。
參考下文詳細的描述和附圖,可獲得對本發(fā)明的特征和優(yōu)點的更好理解。
附圖簡述
圖1是本發(fā)明實施方案的方法100的流程圖,該方法100用于在從孕婦個體獲得的生物樣品中進行胎兒染色體非整倍性的產前診斷。
圖2是本發(fā)明實施方案的方法200的流程圖,該方法200用于利用隨機測序進行胎兒染色體非整倍性的產前診斷。
圖3A表示本發(fā)明的實施方案的,與21三體性或整倍體胎兒有關的母體血漿樣品中21號染色體序列的百分比表現度(percentage representation)的圖表。
圖3B表示本發(fā)明的實施方案的,通過大規(guī)模并行測序和微流體數字PCR(microfluidics digital PCR)所確定的母體血漿胎兒DNA分數濃度間(fractional fetal DNA concentration)的相關性。
圖4A表示本發(fā)明的實施方案的,每條染色體的比對的序列百分比表現度的圖表。
圖4B表示圖4A所示的21體情況和整倍體情況間,每條染色體的百分比表現度中的差異(%)的圖表。
圖5表示本發(fā)明的實施方案的,與21三體性胎兒有關的母體血漿中,21號染色體序列過度表現(over-representation)的程度和胎兒DNA分數濃度間的相關性。
圖6表示根據本發(fā)明的實施方案分析的一部分人類基因組的表。T21表示從與21三體性胎兒有關的妊娠獲得的樣品。
圖7表示本發(fā)明的實施方案的,從21三體性胎兒中區(qū)分整倍體所需的序列數量的表。
圖8A表示本發(fā)明的實施方案的,與21號染色體比對的被測序的標簽的前10個起始位置的表。
圖8B表示本發(fā)明的實施方案的,與22號染色體比對的被測序的標簽的前10個起始位置的表。
圖9表示可與本發(fā)明實施方案的系統和方法一起使用的示例性計算機裝置的方框圖。
定義
本文所用術語“生物樣品”指從個體(如諸如孕婦的人)采集的含有一個或多個感興趣的核酸分子的任何樣品。
術語“核酸”或“多核苷酸”指單鏈或雙鏈形式的脫氧核糖核酸(DNA)或核糖核酸(RNA)和其多聚體,除非另有限制,該術語包括含有天然核苷酸的已知類似物的核酸,所述類似物具有與參照核酸類似的結合特性,并且以與天然存在的核苷酸類似的方式代謝。除非另有說明,特定的核酸序列還隱含地包括其保守修飾的變體(如簡并密碼子取代)、等位基因、直系同源物(orthologs)、SNP和互補序列以及明確表示的序列。具體來說,簡并密碼子的取代可以通過產生如下的序列實現:其中一個或多個選擇的(或全部)密碼子的第三位被混合堿基和/或脫氧次黃苷殘基取代(Batzer et al.,Nucleic Acid Res.19:5081(1991);Ohtsuka et al.,J.Biol.Chem.260:2605-2608(1985);以及Rossolini et al.,Mol.Cell.Probes 8:91-98(1994))。術語核酸與基因、cDNA、mRNA、小非編碼RNA、微RNA(miRNA)、Piwi-相互作用RNA和基因或基因座編碼的短發(fā)夾RNA(shRNA)交換地使用。
術語“基因”意指與產生多肽鏈有關的DNA的片段。其可以包括編碼區(qū)之前和之后的區(qū)域(前導區(qū)和非轉錄尾區(qū)),以及單獨的編碼片段(外顯子)間的間插序列(內含子)。
本文所用術語“反應”指與表示感興趣的特定多核苷酸序列的存在或不存在的化學、酶促或物理作用有關的任何過程?!胺磻钡膶嵗侵T如聚合酶鏈式反應(PCR)的擴增反應?!胺磻钡牧硪粚嵗峭ㄟ^合成或通過連接的測序反應?!靶畔⒎磻笔潜硎疽粋€或多個感興趣的特定多核苷酸序列的存在的反應,并且在一種情況下,只存在一種感興趣的序列。本文所用術語“孔(well)”指在預定位置和有限的結構中的反應,如孔形瓶、小室或PCR陣列中的室(chamber)。
本文所用術語“臨床相關核酸序列”可以指對應于潛在的失衡正被檢測的更大的基因組序列片段的多核苷酸序列,或指更大的基因組序列本身。一實例是21號染色體的序列。其他的實例包括18號、13號、X和Y染色體。除此以外的其他實例包括,胎兒從其父母之一或兩者遺傳的突變的基因序列或遺傳多態(tài)性或拷貝數變異。除此以外的其他實例包括,惡性腫瘤中突變、缺失或擴增的序列,如發(fā)生了雜合性丟失或基因重復的序列。在某些實施方案中,多種臨床相關核酸序列,或臨床相關核酸序列等同的多種標記,可用于提供用來檢測失衡的數據。例如,來自21號染色體的5個不連續(xù)序列的數據,能夠以累加的方式(additive fashion)用于確定可能的21號染色體失衡,從而將所需的樣品體積有效地減少至1/5。
本文所用術語“背景核酸序列”指與臨床相關核酸序列的正常比值是已知的核酸序列,如1:1的比值。作為一實例,背景核酸序列和臨床相關核酸序列是來自相同染色體,由于雜合性而不同的兩個等位基因。在另一實例中,背景核酸序列是與另一等位基因雜合的一等位基因,該另一等位基因是臨床相關核酸序列。而且,某些背景核酸序列和臨床相關核酸序列的每一種可以來自不同的個體。
本文所用術語“參照核酸序列”指每個反應的平均濃度是已知的或已經等同地測量的核酸序列。
本文所用術語“過度表現的(overrepresented)核酸序列”指兩種感興趣的序列(如臨床相關序列和背景序列)中的核酸序列,該過度表現的核酸序列比生物樣品中的其他序列更豐富。
本文所用術語“基于”意指“至少部分地基于”,并指確定另一值所用的一個值(或結果),如存在于方法的輸入和該方法的輸出的關系中的值。本文所用術語“獲得”還指方法的輸入和該方法的輸出的關系,如該當獲得是公式的計算時存在的關系。
本文所用術語“定量數據”意指,由一個或多個反應獲得的并且提供一個或多個數值的數據。例如,表示特定序列的熒光標記的孔的數目是定量數據。
本文所用術語“參數”意指,表征定量數據集和/或定量數據集間數值關系的數值。例如,第一核酸序列的第一量和第二核酸序列的第二量之間的比值(或比值的函數)是參數。
本文所用術語“截止值”意指,其值用于在生物樣品的兩個或多個分類狀態(tài)(例如患病和非患病)間進行裁定(arbitrate)的數值。例如,如果參數大于截止值,將定量數據分為第一類(例如,患病狀態(tài)),或者如果該參數小于該截止值,則將定量數據分為另一類(例如,未患病狀態(tài))。
本文所用術語“失衡”意指,與參考量的任何顯著偏差,其是由臨床相關核酸序列的量中的至少一個截止值所定義的。例如,參考量的比值為3/5,因此如果測量的比值是1:1,則存在失衡。
本文所用術語“染色體非整倍性”意指,染色體的定量數量與二倍體基因組的染色體數量的變化。這種變化可以是增加或丟失。該變化可以包括一個染色體的全部或染色體的區(qū)域。
本文所用術語“隨機測序”意指測序,由此被測序的核酸片段在測序程序前并未特異地鑒定或靶向。不需要靶向特定基因座位的序列特異性引物。被測序的核酸池隨樣品的不同而不同,甚至對于相同樣品隨分析的不同而不同。被測序的核酸的特征僅由所產生的測序輸出揭示。在本發(fā)明的某些實施方案中,用共享某些共有特征的核酸分子的特定群體富集生物樣品的程序,可先于隨機測序。在一實施方案中,生物樣品中的每個片段都具有相等的被測序的概率。
本文所用術語“人類基因組部分(fraction of the human genome)”或“人類基因組的一部分(portion of the human genome)”意指,小于100%的人類基因組的核苷酸序列,該人類基因組由約30億個核苷酸堿基對組成。在測序的背景下,該術語指小于1倍覆蓋度的人類基因組核苷酸序列。該術語可以表示為核苷酸/堿基對的百分比或絕對值。作為用途實例,該術語可以用來表示進行的測序的實際量。實施方案可以確定獲得準確的診斷的人類基因組被測序部分所需的最小值。作為另一用途實例,該術語指用來獲得疾病分類的參數或量的測序數據的量。
本文所用術語“被測序的標簽”意來自核酸分子的任何部分或全部的被測序的核苷酸串(string)。例如,被測序的標簽可以是來自核酸片段的被測序的一短串核苷酸,位于核酸片段兩端的一短串核苷酸,或存在于生物樣品中的完整核酸片段的測序。核酸片段是更大的核酸分子的任何部分。片段(如基因)可以與更大核酸分子的其他部分分離地存在(即不連接)。
發(fā)明詳述
本發(fā)明的實施方案提供了,確定與非患病狀態(tài)相比,臨床相關染色體的存在增加還是減少(患病狀態(tài))的方法、系統和裝置。這種確定可以通過利用與生物樣品中其他非臨床相關染色體區(qū)(背景區(qū))有關的臨床相關染色體區(qū)的量的參數來進行。對生物樣品的核酸分子進行測序,以便對基因組部分進行測序,并可以由測序結果確定量。選擇一個或多個截止值,用于確定是否存在與參照量相比的變化(即失衡),例如,關于兩個染色體區(qū)(或染色體區(qū)組)的量的比值。
在參照量中所檢測的變化可以是,與其他非臨床相關序列相比的,與臨床相關核酸序列有關的任何偏差(向上或向下)。因此,參照狀態(tài)可以是任何比值或其他量(如除了1-1對應外),并且如通過一個或多個截止值所確定的,表示變化的測量狀態(tài)可以是不同于參考量的任何比值或其他量。
臨床相關染色體區(qū)(也稱為臨床相關核酸序列)和背景核酸序列,可以來自第一類型的細胞和一種或多種第二類型的細胞。例如,來自胎兒/胎盤細胞的胎兒核酸序列存在于生物樣品中,如含有來自母體細胞的母體核酸序列的背景的母體血漿。在一實施方案中,至少部分地基于生物樣品中第一類型細胞的百分比來確定截止值。需要指出的是,樣品中胎兒序列的百分比可以通過任何胎兒來源的基因座確定,并且不限于測量臨床相關核酸序列。在另一實施方案中,至少部分地基于生物樣品中腫瘤序列的百分比來確定截止值,所述生物樣品,如血漿、血清、唾液或尿,含有來自體內非惡性細胞的核酸序列的背景。
I.一般方法
圖1是本發(fā)明實施方案的方法100的流程圖,該方法100用于在從孕婦個體獲得的生物樣品中進行胎兒染色體非整倍性的產前診斷。
在步驟110中,接收來自孕婦的生物樣品。該生物樣品可以是血漿、尿、血清或任何其他合適的樣品。樣品含有胎兒和孕婦的核酸分子。例如,核酸分子可以是染色體的片段。
在步驟120中,對含于生物樣品中的多個核酸分子的至少一部分進行測序。被測序的一部分代表人類基因組的部分。在一實施方案中,核酸分子是各自染色體的片段??梢詫σ欢?如35個堿基對(bp))、兩端或完整的片段進行測序??梢詫悠分腥亢怂岱肿舆M行測序,或僅對亞群進行測序。如下文更詳細描述的,該亞群可以是隨機選擇的。
在一實施方案中,測序利用大規(guī)模并行測序進行。大規(guī)模并行測序,如可通過454平臺(Roche)(Margulies,M.et al.2005Nature 437,376-380)、Illumina基因組分析儀(Illumina Genome Analyzer)(或Solexa平臺)或SOLiD System(Applied Biosystems)或Helicos真實單分子DNA測序技術(the Helicos True Single Molecule DNA sequencing technology,Harris TD et al.2008Science,320,106-109)、Pacific Biosciences的單分子實時(SMRTTM)技術和納米孔測序(nanopore sequencing,Soni GV and Meller A.2007 Clin Chem 53:1996-2001)實現,允許對分離自樣品的許多核酸分子在并行方式下,以高階多路進行測序(Dear Brief Funct Genomic Proteomic 2003;1:397-416)。這些平臺的每一種可以對無性擴充的或者甚至未擴增的核酸片段的單個分子進行測序。
因為在每次運行中,由每個樣品產生了數十萬到數百萬甚至可能數億或數十億的級別的大量測序讀取,所以所得的測序讀取形成了原始樣品中核酸種類的混合物的代表性特征。例如,測序讀取的單元型、轉錄物組(trascriptome)和甲基化特征與原始樣品的這些代表性特征相似(Brenner et al Nat Biotech 2000;18:630-634;Taylor et al Cancer Res 2007;67:8511-8518)。由于從每個樣品中對序列進行大量取樣,相同序列的數量,如以幾倍覆蓋度或高冗余度由核酸池的測序所產生的相同序列的數量,也是原始樣品中特定核酸種類或基因座計數的良好定量體現。
在步驟130中,基于測序(如來自測序的數據),確定第一染色體(如臨床相關染色體)的第一量。第一量由鑒定為來自第一染色體的序列確定。例如,隨后可用生物信息學程序將這些DNA序列中的每一個序列定位于人類基因組。有可能從隨后的分析中放棄一部分此類序列,因為它們存在于人類基因組的重復區(qū)域中,或存在于經歷了個體間變異(inter-individual variation)如拷貝數變異的區(qū)域中。因此,可以確定感興趣的染色體的量或一條或多條其他染色體的量。
在步驟140中,基于測序,由鑒定為來自第二染色體之一的序列,確定一條或多條第二染色體的第二量。在一實施方案中,第二染色體是除第一染色體(即被檢測的染色體)以外的所有其他染色體。在另一實施方案中,第二染色體就是單條其他染色體。
存在許多確定染色體量的方式,包括但不限于計數被測序的標簽的數量、被測序的核苷酸(堿基對)的數量或來自特定染色體或染色體區(qū)的被測序的核苷酸(堿基對)的累積長度。
在另一實施方案中,可以將規(guī)則施加于測序結果來確定哪些被計數了。一方面,可以基于一部分測序輸出來獲得量。例如,對應于指定大小范圍的核酸片段的測序輸出,可以在生物信息學分析后進行選擇。大小范圍的實例是約<300bp、<200bp或<100bp。
在步驟150中,由第一量和第二量確定參數。參數可以是,例如,第一量與第二量的簡單比值,或第一量與第二量加第一量的比值。一方面,每個量可以是一個函數或不同函數的自變量,其中,隨后可以獲得這些不同函數的比值。本領域技術人員應當理解不同的合適參數的數量。
在一實施方案中,潛在地與染色體非整倍性,如21號染色體或18號染色體或13號染色體的非整倍性有關的染色體的參數(如分數表現度),可以隨后由生物信息學程序的結果來計算?;谒行蛄械牧?如包括臨床相關染色體在內的所有染色體的某些測量)或染色體特定亞群的量(如只除開被檢測的染色體以外的一個其他染色體)的量,可以獲得分數表現度。
在步驟150中,將參數與一個或多個截止值進行比較。截止值可以由任何數量的適宜方式來確定。此類方式包括貝葉斯型似然方法(Bayesian-type likelihood method)、序貫概率比檢驗、假發(fā)現(false discovery)、置信區(qū)間、受試者工作特性(receiver operating characteristic,ROC)。這些方法和樣品特異性方法應用的實例描述于同時提交的申請"DETERMINING A NUCLEIC ACID SEQUENCE IMBALANCE(確定核酸序列失衡)"(Attorney Docket No.016285-005210US)中,將該申請通過引用并入。
在一實施方案中,隨后將參數(如臨床相關染色體的分數表現度)與涉及正常(即整倍體)胎兒的妊娠中所建立的參照范圍進行比較??赡艿氖牵诔绦虻哪承┳凅w中,參照范圍(即截止值)可以根據特定母體血漿樣品中胎兒DNA的分數濃度(f)進行調整。如果胎兒是男性,例如利用可在Y染色體上定位的序列,可以由測序數據集來確定f值。f值也可以例如利用胎兒外遺傳標記(Chan KCA et al 2006 Clin Chem 52,2211-8),或由單核苷酸多態(tài)性的分析,在單獨的分析中確定。
在步驟160中,基于比較,確定對于第一染色體,是否存在胎兒染色體非整倍性的分類。在一實施方案中,分類是明確的存在(yes)或不存在(no)。在另一實施方案中,分類可以是不可分類的或不確定的。在又一個實施方案中,分類可以是例如由醫(yī)生以后解釋的評分。
II.測序、比對以及量的確定
如上文所述,僅對基因組的部分進行測序。一方面,甚至當以小于100%的基因組覆蓋度而不是以幾倍的覆蓋度對樣品中的核酸池進行測序時,并且在一部分所捕獲的核酸分子中,大多數每個核酸種類僅測序一次。還可以定量地確定特定染色體或染色體區(qū)的劑量失衡。換言之,由樣品的其他可定位的被測序的標簽中的所述基因座的百分比表現度來推斷染色體或染色體區(qū)的劑量失衡。
這與下述情況相反,即對相同池的核酸進行多次測序,以便獲得冗余度或幾倍的覆蓋度,據此將每個核酸種類測序多次。在此情況下,相對于另一核酸種類的已被測序的特定核酸種類的次數,與它們在原始樣品中的相對濃度相關。隨著實現核酸種類準確表現度所需的覆蓋度倍數的增加,測序的成本增加。
在一實例中,此類序列的一部分可以來自與非整倍性有關的染色體,如本示例性實例中的21號染色體。然而,此類測序作業(yè)(sequencing exercise)的其他序列可來自其他染色體。通過考慮與其他染色體相比的21號染色體的相對大小,可以在參照范圍內,獲得此類測序作業(yè)的21號染色體特異性序列的標準化頻率。如果胎兒具有21三體性,則此類測序作業(yè)的獲得自21號染色的標準化頻率將增加,因而允許檢測21三體性。標準化頻率變化的程度,將依賴于分析的樣品中胎兒核酸的分數濃度。
在一實施方案中,我們使用Illumina基因組分析儀,進行人類基因組DNA和人類血漿DNA樣品的單末端測序。Illumina基因組分析儀可以對捕獲于稱為流動池(flow cell)的固體表面上的無性擴充的單個DNA分子進行測序。每個流動池具有8個泳道來用于對8個單獨的樣品或樣品池進行測序。每個泳道能產生約200Mb的序列,其僅是人類基因組中30億個堿基對的序列的部分。利用流動池的一條泳道,對每個基因組DNA或血漿DNA樣品進行測序。將所產生的短序列標簽與人類參照基因組序列進行比對,并標明染色體來源。將與每條染色體比對的單獨被測序的標簽的總數制成表格,并與參照人類基因組或非疾病表現樣品所預期的每條染色體的相對大小進行比較。然后確定了染色體增加或丟失。
所述方法僅僅是目前所述的基因/染色體的劑量策略的一范例??蛇x地,可進行配對末端(paired-end)測序。計數比對的被測序的標簽的數量并根據染色體位置進行分類,而不是如Campbell等所述(Nat Genet 2008;40:722-729)地比較參照基因組中所預期的被測序片段的長度。通過比較標簽計數與參照基因組中的預期染色體大小或非疾病表現樣品的預期染色體大小來確定染色體區(qū)或全部染色體的增加或丟失。因為配對末端測序允許推斷原始核酸片段的大小,因而一實例致力于計數對應于指定大小的核酸片段的被配對測序的標簽的數量,所述指定大小如<300bp、<200bp或<100bp。
在另一實施方案中,在測序前,還對在運行中被測序的核酸池的部分進行次級選擇(sub-select)。例如,基于雜交的技術,如寡核苷酸陣列可用來首先對來自某些染色體的核酸序列進行次級選擇,所述染色體如潛在的非整倍體染色體和與檢測的非整倍性無關的其他染色體。另一實例是,在測序前,對樣品池的核酸序列的某些亞群進行次級選擇或富集。例如,如上文所討論的,已報道,母體血漿中胎兒DNA分子由比母體背景DNA分子短的片段組成(Chan et al Clin Chem 2004;50:88-92)。因此,例如,通過凝膠電泳或尺寸排除柱(size exclusion column)或通過基于微流體的方法(microfluidics-based approach),可以根據分子大小,利用本領域技術人員已知的一種或多種方法,對樣品中的核酸序列進行分級。此外,可選地,在分析母體血漿中無細胞胎兒DNA的實例中,通過抑制母體背景的方法,如通過加入甲醛,可以富集胎兒的核酸部分(Dhallan et al JAMA2004;291:1114-9)。在一實施方案中,對核酸的預選的池的一部分或亞群進行隨機測序。
同樣,其他單分子測序策略也可以用于本申請中,如Roche 454平臺、Applied Biosystems SOLiD平臺、Helicos真實單分子DNA測序技術、Pacific Biosciences的單分子實時技術(SMRTTM)以及納米孔測序。
III.由測序的輸出確定染色體的量
大規(guī)模并行測序后,實施生物信息學分析,以便定位被測序的標簽的染色體來源。該程序后,將鑒定為來自潛在的非整倍體染色體,即本研究中的21號染色體的標簽,與全部被測序的標簽或來自與非整倍性無關的一條或多條染色體的標簽進行定量比較。將檢測樣品的21號染色體和其他非21號染色體的測序輸出間的相互關系,與由上節(jié)所述的方法獲得的截止值進行比較,以確定樣品是否由與整倍體或21三體性胎兒有關的妊娠獲得。
許多不同的量,包括但不限于下述可以由被測序的標簽獲得的量。例如,能夠將和特定染色體比對的被測序的標簽的數量,即絕對計數,與和其他染色體比對的被測序的標簽的絕對計數進行比較??蛇x地,參照全部或某些其他被測序的標簽,21號染色體的被測序的標簽的量的分數計數(fractional count),可以與其他非非整倍體染色體的分數計數進行比較。在本實驗中,因為對每個DNA片段的36bp進行了測序,因而,特定染色體的被測序的核苷酸的數量,能夠容易地由被測序的標簽的計數乘以36bp獲得。
此外,因為利用僅能對人類基因組的部分進行測序的一個流動池,僅對每個母體血漿樣品進行測序,因而,根據統計,大多數母體血漿DNA片段種類只被測序了一次,從而產生一個被測序的標簽的計數。換言之,以小于1倍的覆蓋度,對存在于母體血漿樣品中的核酸片段進行了測序。因此,對于任何特定的染色體,被測序的核苷酸的總數,通常符合部分已被測序的所述染色體的量、比例或長度。因此,潛在的非整倍體染色體表現度的定量確定,能夠參照其他染色體的同樣獲得的數量,由該潛在的非整倍體染色體的被測序的核苷酸的部分數量或相當的長度獲得。
IV.用于測序的核酸池的富集
如上文所提到以及下節(jié)的實施例中所建立的,僅需要對一部分人類基因組進行測序來從整倍體情況區(qū)分21三體性。因此,可能并且節(jié)約成本的是,在對富集的池的部分進行隨機測序前,富集待測序的核酸池。例如,母體血漿中的胎兒DNA分子由比母體背景DNA分子短的片段組成(Chan et al Clin Chem 2004;50:88-92)。因此,例如,通過凝膠電泳或尺寸排除柱或通過基于微流體的方法,根據分子大小,可以利用本領域技術人員已知的一種或多種方法對樣品中的核酸序列進行分級。
此外,可選地,在分析母體血漿中無細胞胎兒DNA的實例中,胎兒核酸部分可以通過如加入甲醛的抑制母體背景的方法來富集(Dhallan et al JAMA 2004;291:1114-9)。獲得自胎兒的序列的比例將在由更短的片段組成的核酸池中得以富集。根據圖7,區(qū)分整倍體和21三體性情況所需的被測序的標簽的數量,將隨著胎兒DNA分數濃度的增加而減少。
可選地,來自潛在的非整倍體染色體和與非整倍性無關的一條或多條染色體的序列,可以通過例如寡核苷酸微陣列的雜交技術富集。核酸的富集池隨后進行隨機測序。這將降低測序的成本。
V.隨機測序
圖2是本發(fā)明實施方案的,利用隨機測序進行胎兒染色體非整倍性的產前診斷的方法200的流程圖。在大規(guī)模并行測序方法的一方面,可以同時產生所有染色體的代表性數據。不提前選擇特定片段的來源。隨機地進行測序,隨后進行數據庫搜索,以查明特定片段來自何處。這與擴增21號染色體的特異性片段和1號染色體的另一特異性片段的情況相反。
在步驟210中,接收來自孕婦的生物樣品。在步驟220中,對于期望的準確性,計算待分析的序列數量N。在一實施方案中,首先測定生物樣品中胎兒DNA的百分比。這可通過本領域技術人員已知的任何合適方式進行。測定可以是簡單地讀取由另一實體所測量的值。在本實施方案中,待分析的序列的數量N的計算,以百分比為基礎。例如,當胎兒DNA的百分比降低時,需要分析的序列的數量將增加,而當胎兒DNA升高時,需要分析的序列的數量可以減少。數量N可以是固定數,或相對數,如百分比。在另一實施方案中,可以測序已知對準確的疾病診斷足夠的數量N。即使在具有正常范圍下限(lower end)的胎兒DNA濃度的妊娠中,也可以使數量N充分。
在步驟230中,對含于生物樣品中的多個核酸分子中的至少N個進行隨機測序。所述方法的特征是,在樣品分析即測序前,待測序的核酸不是特定地確定的或靶向的。測序不需要靶向具體基因座的序列特異性引物。被測序的核酸池隨樣品的不同而不同,甚至對于相同樣品隨分析的不同而不同。此外,根據下文描述(圖6),情況診斷所需的測序輸出的量,能夠在所檢測的樣品和參照群體間不同。這些方面與大多數分子診斷方法明顯不同,如原位雜交中基于熒光的方法、定量熒光PCR、定量實時PCR、數字PCR、比較基因組雜交、微陣列比較基因組雜交等,其中待靶向的基因座需要在先的預確定,因此需要使用基因座特異性引物或基因座特異性探針對或組(panel)。
在一實施方案中,對存在于孕婦血漿中的DNA片段進行隨機測序,并且獲得原本來自胎兒或母親的基因組序列。隨機測序包括對存在于生物樣品中的核酸分子的隨機部分進行取樣(測序)。因為測序是隨機的,因而在每次分析中,可以對核酸分子(因此基因組)的不同亞群(部分)進行測序。即使當該亞群隨樣品或分析的不同而不同時,該實施方案依然有效。部分的實例是約0.1%、0.5%,、1%、5%、10%、20%或30%的基因組。在另一實施方案中,部分是至少這些值中的任一值。
可以通過與方法100相似的方式,進行剩余的步驟240-270。
VI.被測序的標簽池的測序后選擇
如下文實施例II和III所述,測序數據的亞群足以區(qū)分21三體性和非整倍體的情況。測序數據的亞群可以是一定比例的傳遞某些性質參數的被測序的標簽。例如,在實施例II中,使用唯一與重復屏蔽的(repeat-masked)參照人類基因組比對的被測序的標簽??蛇x地,可以對所有染色體的核酸片段的代表性池進行測序,但是致力于有關潛在的非整倍體染色體的數據和有關許多非非整倍體染色體的數據間的比較。
此外,可選地,在測序后的分析過程中,可以對測序輸出的亞群進行次級選擇,所述亞群包括對應于原始樣品中指定大小窗口的核酸片段所產生的被測序的標簽。例如,利用Illumina基因組分析儀,可使用涉及核酸片段兩個末端測序的配對末端測序。隨后比對每個配對末端的測序數據和參照人類基因組序列。隨后可以推導跨越兩個末端間的核苷酸的距離或數量。也可以推導原始核酸片段的全長。可選地,諸如454平臺的測序平臺,以及可能的某些單分子測序技術,能對全長的短核酸片度,如20bp進行測序。以此方式,可以由測序數據直接獲知核酸片段的實際長度。
利用其他的測序平臺,如Applied Biosystems SOLiD系統(Applied Biosystems SOLiD system),此類配對末端分析也是可能的。對于Roche454平臺,因為與其他大規(guī)模并行測序系統相比,該454平臺的讀取長度增加,因而確定片段的全序列的片段長度也是可能的。
將數據分析集中于對應于原始母體血漿樣品中的短核酸片段的被測序的標簽的亞群具有優(yōu)點,因為來自胎兒的DNA序列有效地富集了數據集。這是因為,母體血漿中的胎兒DNA分子由比母體背景DNA分子短的片段組成(Chan et al Clin Chem 2004;50:88-92)。根據圖7,區(qū)分整倍體和21三體性情況所需的被測序的標簽的數量,將隨胎兒DNA分數濃度的增加而降低。
核酸池亞群測序后的選擇不同于在樣品分析前實施的其他核酸富集策略,所述策略如用于選擇特定大小的核酸分子的凝膠電泳或尺寸排除柱,并且所述策略需要從核酸背景池中物理分離富集的池。物理程序可以引入更多的實驗步驟,因而可以招致諸如污染等問題。取決于疾病確定所需的敏感性和特異性,測序輸出亞群的測序后計算機選擇(post-sequencing in silico selection)也可以允許改變選擇。
用于確定母體血漿樣品是否獲得自懷有21三體性或整倍體胎兒的孕婦的生物信息學、計算和統計方法,可以編譯成計算機程序產品,用于確定測序輸出的參數。計算機程序的運行包括確定潛在的非整倍體染色體的定量數量以及一個或多個其他染色體的量。確定參數,并與適當的截止值比較,以確定對于潛在的非整倍體染色體,是否存在胎兒染色體非整倍性。
實施例
為了示例而非限制所要求保護的本發(fā)明,提供了下面的實施例。
I.胎兒21三體性的產前診斷
本研究募集8名孕婦。所有的孕婦都處于妊娠首三月或妊娠中三月,并是單胎妊娠。其中的4名,每個都懷有21三體性胎兒,其他的4名,每個都懷有整倍體胎兒。從每個個體采集20毫升外周靜脈血。在1600×g下離心10分鐘后,收獲母體血漿,并16000×g進一步離心10分鐘。隨后由5-10ml每個血漿樣品提取DNA。通過Illumina基因組分析儀,根據制造商的說明書,將母體血漿DNA用于大規(guī)模并行測序。在測序和序列數據分析過程中,進行測序的技術人員不了解胎兒的診斷情況。
簡而言之,將約50ng母體血漿DNA用于制備DNA文庫。可以以較少的量如15ng或10ng母體血漿DNA開始。將母體血漿DNA片段平末端化,與Solexa連接物(adaptor)連接,并通過凝膠純化選擇150-300bp的片段??蛇x地,可以將平末端化和連接物連接的母體血漿DNA片段通過柱(如AMPure,Agencourt),以便除去未連接的連接物,而無需在簇產生(clusters genearation)前進行大小選擇。將連接物連接的DNA與流動池的表面雜交,并利用Illumina簇站(cluster station)產生DNA簇,隨后在Illumina基因組分析儀上進行36個循環(huán)的測序。通過一個流動池對每個母體血漿樣品的DNA進行測序。利用Solexa Analysis Pipeline編輯測序讀取。隨后利用Eland應用軟件,將所有的讀取與重復屏蔽的參照人類基因組序列,即NCBI匯編36(NCBI 36 assembly)(GenBank登錄號:NC_00000l至NC_000024)進行比對。
在本研究中,為了減少數據分析的復雜性,僅進一步考慮了已經定位于重復屏蔽的人類基因組參照的唯一位置的序列??蛇x地,可以使用測序數據的其他亞群或整套測序數據。計數每一樣品的唯一可定位(mappable)的序列的總數。將唯一地與21號染色體比對的序列的數量表示為,與每一樣品的比對的序列的總計數的比例。因為母體血漿含有母體來源的背景DNA中的胎兒DNA,因此,由于在胎兒基因組中存在21號染色體的額外拷貝,21三體性胎兒提供了來自21號染色體的額外的被測序的標簽。因此,在來自懷有21三體性胎兒的妊娠的母體血漿中,21號染色體序列的百分比,比來自懷有整倍體胎兒的妊娠的21號染色體的百分比高。分析不需要靶向胎兒特異性序列。分析也不需要從母體核酸中在先地以物理方式分離胎兒核酸。分析也不需要在測序后,從母體序列中區(qū)分或鑒定胎兒序列。
圖3A表示8個母體血漿DNA樣品中每一個的定位于21號染色體的序列的百分比(21號染色體的百分比表現度)。21三體性妊娠的母體血漿中的21號染色體的百分比表現度,明顯地高于整倍體妊娠的21號染色體的百分比表現度。這些數據表明,胎兒非整倍性無創(chuàng)產前診斷,可以通過確定與參照群體的百分比表現度相比的非整倍體染色體的百分比表現度來實現。可選地,21號染色體的過度表現度可通過以下方法來檢測:將以實驗方式獲得的21號染色體的百分比表現度與預期為整倍體人類基因組的21號染色體序列的百分比表現度進行比較。這可通過屏蔽或不屏蔽人類基因組中的重復區(qū)進行。
8名孕婦中的5名,每個都懷有男性胎兒。定位于Y染色體的序列可以是胎兒特異性的。將定位于Y染色體的序列的百分比用于計算原始母體血漿樣品中胎兒DNA分數濃度。而且,胎兒DNA分數濃度也通過利用微流體數字PCR來確定,所述微流體數字PCR涉及鋅指蛋白、X連鎖的(ZFX)和鋅指蛋白、Y連鎖的(ZFY)共生同源基因。
圖3B表示由經測序的Y染色體的百分比表現度推斷的胎兒DNA分數濃度和通過ZFY/ZFX微流體數字PCR所確定的胎兒DNA分數濃度間的相關性。這兩種方法確定的母體血漿中胎兒DNA分數濃度間存在正相關性。正相關性系數(r)在Pearson相關性分析中為0.917。
對于兩種代表性情況,與24條染色體(22條常染色體和X染色體以及Y染色體)中的每一條比對的母體血漿DNA序列的百分比顯示于圖4A中。一名孕婦懷有21三體性胎兒,其他的孕婦懷有整倍體胎兒。與懷有正常胎兒的孕婦相比,定位于21號染色體的序列的百分比表現度在懷有21三體性胎兒的孕婦中更高。
上述兩種情況的母體血漿DNA樣品間每條染色體的百分比表現度的差異(%)顯示于圖4B中。特定染色體的百分比差異用下述公式計算:
百分比差異(%)=(P21-PE)/PE×100%,其中
P21=在懷有21三體性胎兒的孕婦中,與特定染色體比對的血漿DNA序列的百分比;以及
PE=在懷有整倍體胎兒的孕婦中,與特定染色體比對的血漿DNA序列的百分比。
如圖4B所示,與懷有整倍體胎兒的孕婦相比,懷有21三體性胎兒的孕婦血漿中有21號染色體序列的11%的過度表現度。對于與其他染色體比對的序列,兩種情況間的差異在5%以內。因為與整倍體母體血漿樣品相比,21三體性中,21號染色體的百分比表現度增加了,因此,差異(%)可選地稱為21號染色體過度表現的程度。除了21號染色體百分比表現度間的差異(%)和絕對差異以外,還能夠計算檢測樣品和參照樣品計數的比值,并且該比值表示與整倍體樣品相比的21三體性中21號染色體過度表現的程度。
對于每個都懷有整倍體胎兒的4名孕婦,將她們平均1.345%的血漿DNA序列,與21號染色體進行比對。在懷有21三體性胎兒的4名孕婦中,她們的胎兒中有3名是男性。計算這三種情況下每一種情況的21號染色體的百分比表現度。如上文所述,根據獲得自4個整倍體情況的值的21號染色體的平均百分比表現度,確定這三種21三體性情況的21號染色體百分比表現度中的差異(%)。換言之,在本計算中,將4個懷有整倍體胎兒的情況的平均值用作參照。這三種男性21三體性情況的胎兒DNA分數濃度,由他們各自的Y染色體序列的百分比表現度來推斷。
21號染色體序列過度表現的程度和胎兒DNA分數濃度間的相關性顯示于圖5中。兩個參數間存在顯著的正相關性。相關性系數(r)在Pearson相關性分析中為0.898。這些結果表明,母體血漿中21號染色體序列過度表現的程度與母體血漿樣品中胎兒DNA的分數濃度相關。因此,可以確定與胎兒DNA分數濃度相關的21號染色體序列過度表現程度中的截止值,以鑒定與21三體性胎兒有關的妊娠。
母體血漿中胎兒DNA分數濃度的確定,也可以獨立于測序運行進行。例如,Y染色體DNA濃度可以利用實時PCR、微流體PCR或質譜法來預定。例如,我們已經在圖3B中證明,基于測序運行過程中所產生的Y染色體計數所估計的胎兒DNA濃度和在測序運行外所產生的ZFY/ZFX比值間存在良好的相關性。實際上,胎兒DNA濃度可以利用除Y染色體以外的基因座確定,并適用于女性胎兒。例如,Chan等證明,在母體來源的未甲基化的RASSF1A序列的背景下,可以在孕婦血漿中檢測到胎兒來源的甲基化的RASSF1A序列(Chan et al,Clin Chem 2006;52:2211-8)。因此,胎兒DNA分數濃度可以用甲基化的RASSF1A序列的量除以全部RASSF1A(甲基化和未甲基化的)序列的量來確定。
對于實施我們的發(fā)明,預期母體血漿比母體血清優(yōu)選,因為在血液凝固過程中,母體血細胞釋放了DNA。因此,如果使用血清,則預期胎兒DNA的分數濃度在母體血漿中將比在母體血清中低。換言之,如果使用母體血清,對于待診斷的胎兒染色體非整倍性,與同時從同一孕婦獲得的血漿樣品相比,預期需要產生更多的序列。
此外,確定胎兒DNA的分數濃度的另一可選方式是,經由定量孕婦和胎兒間多態(tài)性差異(Dhallan R,et al.2007 Lancet,369,474-481)。本方法的實例是,靶向多態(tài)性位點,在該位點孕婦是純合的,而胎兒是雜合的。將胎兒特異性等位基因的量與共同等位基因的量進行比較,以便確定胎兒DNA的分數濃度。
與檢測染色體畸變的現有技術相反,所述現有技術包括檢測和定量一個或多個特異性序列的比較基因組雜交、微陣列比較基因組雜交、定量實時聚合酶鏈式反應,大規(guī)模并行測序不依賴于預定或預限定的DNA序列組的檢測或分析。對樣品池DNA分子的隨機代表性部分進行測序。在含有或不含有感興趣的DNA種類的樣品間比較與各種染色體區(qū)比對的不同的被測序的標簽的數量。染色體畸變將由與樣品中任何給定的染色體區(qū)比對的序列的數量(或百分比)中的差異來揭示。
在另一實施方案中,可以將血漿無細胞DNA的測序技術用于檢測血漿DNA中的染色體畸變來檢測具體的癌癥。不同的癌癥具有一套典型的染色體畸變??梢允褂枚鄠€染色區(qū)中的變化(擴增和缺失)。因此,與擴充的區(qū)域比對的序列的比例將增加,而與減少的區(qū)域比對的序列的比例將減少。每條染色體的百分比表現度可以與參照基因組中每條相應染色體的大小進行比較,所述大小表示為相對于全基因組的任何給定染色體的基因組表現度的百分比。也可以使用與參照染色體直接比較或比較。
II.僅對人類基因組部分進行測序
在上文實施例I所述的實驗中,僅利用一個流動池,對每個單獨樣品的母體血漿DNA進行測序。經測序運行,由每個檢測的樣品所產生的被測序的標簽的數量顯示于圖6中。T21表示由與21三體性胎兒有關的妊娠所獲得的樣品。
因為對每個被測序的母體血漿DNA片段的36bp進行測序,因此,每個樣品的被測序的核苷酸/堿基對的數量可以用被測序的標簽的計數乘以36bp來確定,并且也顯示于圖6中。因為人類基因組中有大約30億個堿基對,因此,由每個母體血漿樣品所產生的測序數據的量,僅代表約10%至13%的部分。
此外,在本研究中,如上文實施例I所述,僅將唯一可定位的被測序的標簽,在Eland軟件的命名法中稱為U0,用于證明,在來自懷有21三體性胎兒的妊娠的每一個的母體血漿樣品中,存在21號染色體序列的量的過度表現。如圖6所示,U0序列僅代表由每個樣品所產生的全部被測序的標簽的亞群,并且還代表甚至更小比例的,約2%的人類基因組。這些數據表明,僅對存在于檢測的樣品中的人類基因組序列的一部分進行測序,就足以實現胎兒非整倍性的診斷。
III.所需序列的數量的確定
本次分析使用來自懷有整倍體男性胎兒的孕婦的血漿DNA的測序結果??梢詿o錯配地定位至參照人類基因組序列的被測序的標簽的數量為1,990,000。從這些1,990,000標簽中隨機地選擇序列的亞群,并在每個亞群中計算與21號染色體比對的序列的百分比。亞群中序列的數量在60,000-540,000條序列變動。對于每個亞群大小,相同數量的被測序的標簽的多個亞群,通過從總的池中隨機地選擇被測序的標簽進行編輯,直到沒有其他可能的組合。隨后,在每個亞群大小內,由多個亞群計算與21號染色體比對的序列的平均百分比和其標準偏差(SD)??缭讲煌瑏喨捍笮”容^這些數據,以便確定亞群大小對與21號染色體比對的序列的百分比分布的影響。隨后根據平均值和SD,計算百分比的第5和第95個百分點。
當孕婦懷有21三體性胎兒時,由于來自胎兒的21號染色體的額外劑量,與21號染色體比對的被測序的標簽在母體血漿中應當是過度表現的。過度表現的程度依賴于母體血漿DNA樣品中胎兒DNA百分比,并采用下述等式計算:
PerT21=PerEu×(1+f/2),其中,
PerT21表示懷有21三體性胎兒的女性中與21號染色體比對的序列的百分比;并且
PerEu表示懷有整倍體胎兒的女性中與21號染色體比對的序列的百分比;以及
f表示母體血漿DNA中胎兒DNA的百分比。
如圖7所示,與21號染色體比對的序列百分比的SD,隨每個亞群中序列數量的增加而降低。因此,當每個亞群中序列的數量增加時,第5和第95個百分點間的區(qū)間降低。當整倍體和21三體性情況的5%-95%區(qū)間不重疊時,則區(qū)分這兩組情況是可能的,并且準確性大于95%。
如圖7所示,區(qū)分21三體性情況和整倍體情況的最小亞群大小依賴于胎兒DNA百分比。對于20%、10%和5%的胎兒DNA百分比,區(qū)分21三體性和整倍體情況的最小亞群大小分別為120,000、180,000和540,000條序列。換言之,當母體血漿DNA樣品含有20%的胎兒DNA時,對于確定胎兒是否具有21三體性,需要分析的序列的數量為120,000。當胎兒DNA百分比降低為5%時,需要分析的序列的數量將增加到540,000。
因為利用36堿基對測序產生數據,因而120,000、180,000和540,000條序列分別對應于0.14%、0.22%和0.65%的人類基因組。因為據報道,從早期妊娠獲得的母體血漿中較低范圍的胎兒DNA濃度為約5%(Lo,YMD et al.1998 Am J Hum Genet 62,768-775),因而對約0.6%的人類基因組進行測序,可以代表,在檢測任何妊娠的胎兒染色體非整倍性中,準確性至少為95%的診斷所需的測序的最小量。
IV.隨機測序
為了示例被測序的DNA片段在測序運行過程中是隨機選擇的,我們獲得了由實施例I所分析的8個母體血漿樣品產生的被測序的標簽。對于每個母體血漿樣品,相對于參照人類基因組序列即NCBI匯編36,我們確定了每個36bp被測序的標簽的起始位置,該標簽唯一地與21號染色體進行了比對,而無錯配。我們隨后按升序對來自每個樣品的比對的被測序的標簽池的起始位置數進行了排序。我們對22號染色體進行了相似的分析。出于示例的目的,將每個母體血漿樣品的21號染色體和22號染色體的前10個起始位置分別顯示于圖8A和圖8B中。由這些表可知,DNA片段的被測序的池在樣品間是不同的。
利用任何合適的計算機語言,如Java、C++或使用例如常規(guī)或面向對象技術的Perl,本申請所述的任何軟件組件或函數可以作為由處理器運行的軟件代碼來執(zhí)行。軟件代碼可在用于存儲和/或傳輸的計算機可讀介質上存儲為一系列指令或命令,合適的介質包括隨機存取存儲器(RAM)、只讀存儲器(ROM)、諸如硬盤或軟盤的磁性介質或諸如光盤(CD)或DVD(多功能數碼光盤)的光學介質、閃存等。計算機可讀介質可以是此類存儲或傳輸裝置的任何組合。
此類程序也可以利用適合通過有線、光學和/無線網絡傳播的載波信號來編碼和傳輸,該網絡符合包括國際互聯網在內的各種協議。因此,本發(fā)明實施方案的計算機可讀介質,可以利用此類程序編碼的數據信號產生。用程序代碼編碼的計算機可讀介質可以與兼容的裝置組裝,或由其他裝置(如經由互聯網下載)獨立地提供。任何此類計算機可讀介質可以位于一個計算機程序產品上或在該產品內(例如,硬盤或整個計算機系統),并且可以存在于系統或網絡內不同計算機程序產品上或在該產品內內。計算機系統可以包括顯示屏、打印機或向用戶提供本文所提到的任何結果的其他合適的顯示器。
計算機系統的實例顯示于圖9中。圖9中所示的子系統經由系統總線975相互連接。圖9顯示了其他子系統,如打印機974、鍵盤978、硬盤979、與顯示適配器982連接的顯示屏976等。與I/O控制器971連接的外圍裝置和輸入/輸出(I/O)裝置,可以通過本領域已知的任何數量的方式連接至計算機系統,如串行端口977。例如,串行端口977或外部界面981可用于將計算機裝置連接至諸如互聯網的廣域網、鼠標輸入裝置或掃描儀。經由系統總線互聯允許中央處理器973與每個子系統通訊,并控制系統內存972或硬盤979的指令的執(zhí)行以及子系統間信息的交換。系統內存972和/或硬盤979是計算機可讀介質的具體表現。
出于示例和描述的目的,上文呈現了本發(fā)明示例性實施方案的描述。不意圖是全面的或將本發(fā)明限制為所述的準確形式,并且根據上文的教導,可以做出許多修飾和變化。為了最好地解釋本發(fā)明的原理及其實踐應用而選擇和描述了實施方案,由此使本領域技術人員在各種實施方案中,并且通過適于所考慮的具體用途的各種修飾來最佳地利用本發(fā)明。
出于各種目的,將本文所引用的所有出版物、專利和專利申請通過引用全文并入。