两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

表征來自于遺傳物質(zhì)樣品的序列的方法

文檔序號:6594957閱讀:441來源:國知局
專利名稱:表征來自于遺傳物質(zhì)樣品的序列的方法
技術(shù)領(lǐng)域
本發(fā)明涉及用于使用多個單核苷酸多態(tài)性(SNP)表征樣品中遺傳物質(zhì)的系統(tǒng)和方法。
背景技術(shù)
解析個體的遺傳物質(zhì)是否存在于含有來自于許多個體的遺傳物質(zhì)(如DNA)的復(fù)雜混合物中在多個領(lǐng)域是感興趣的。例如,在法醫(yī)學(xué)中,確定個人是否向混合物中貢獻(xiàn)了他們的遺傳物質(zhì)通常是一種需要熟練技術(shù)的過程。很大程度上,法醫(yī)學(xué)上鑒定個人是否向混合物貢獻(xiàn)了低于10%的總基因組DNA并不容易進(jìn)行,難以自動化,并且很容易與多個個體的夾雜物相混淆。目前存在許多檢查DNA混合物的方法,其中大部分針對法醫(yī)學(xué)研究中較少數(shù)目的個體的、混合物(參見 Egeland, T. ,Dalen, I.禾口 Mostad,P. F. Estimating the number of contributors to a DNA profile (估算 DNA 譜的貢獻(xiàn)者的數(shù)目).ht J Legal Med (國際法醫(yī)學(xué)雜志)117,271-275 Q003) ;Hu, Y. Q.和 Fung,W. K. Interpreting DNA mixtures with the presence of relatives (I ## ^ Il M ^ ^ W DNA M^^ ) · Int J Legal Med (國際法醫(yī)學(xué)雜志)117,39-45 Q003);和 Balding,D. J. Likelihood-based inference for geneticcorrelation coefficients (基于相似性的對遺傳相關(guān)系數(shù)的推斷)· Theor PopulBiol (理論群體生物學(xué))63,221-230(2003))。使用短串聯(lián)重復(fù)(STR)是一種常用的產(chǎn)生DNA基因分型譜的方法并且允許鑒定混合物內(nèi)多種等位基因及其相對數(shù)量(參見 Clayton, Τ. Μ. , Whitaker, J.P., Sparkes, R.禾口 Gill, P. Analysis and interpretation of mixed forensic stains using DNA STR profiling(使用 DNA STRi普對混合法醫(yī)學(xué)印跡進(jìn)行分析和解釋).Forensic Sci ht (國際法醫(yī)科學(xué))91,55-70 (1998) ;Cowell, R. G., Lauritzen,S. L.禾口Mortera,J. Identification and separation of DNA mixtures using peak area information (使用峰區(qū)信息鑒定和分離DNA混合物).Forensic Sci ht (國際法醫(yī)科學(xué))166,沘-;34 0007) ;Pearson, J. V.等人· Identification of the geneticbasis forcomplex disorders by use of pooling-based genomewidesingle—nucleot ide-polymorphism association studies (通過使用基于混合池的基因組范圍單核苷酸多態(tài)性相關(guān)研究鑒定復(fù)雜病癥的遺傳基礎(chǔ)).Am JHum Genet (美國人類遺傳學(xué)雜志)80, 126-139(2007);和 Bill,M.等人· PENDULUM—a guideline-based approach to the interpretation of STRmixtures (PENDULUM-解釋 STR 混合物的指南方法)· Forensic Sci Int (國際法醫(yī)科學(xué))148,181-189 (2005))。Y染色體上的STR常常在解析混合物的男性成分時是有用的(參見 Jobling,M.A.和 Gill,P. Encoded evidence :DNA in forensic analysis(編碼證據(jù)法醫(yī)學(xué)分析中的DNA).Nat Rev Genet (自然綜述遺傳學(xué))5, 739-751 (2004))。然而,預(yù)期這些基于STR的方法的能力在使用嚴(yán)重降解的DNA時受到限制(參見 Jobling, Μ· A.禾口 Gill, P. Encoded evidence :DNA in forensic analysis (編碼證據(jù)法醫(yī)學(xué)分析中的DNA). Nat Rev Genet (自然綜述遺傳學(xué))5,739-751 ^)04); 禾口 Ladd, C. , Lee, H. C. , Yang, N.禾口 Bieber, F. R. Interpretation of complex forensic DNA mixtures(解釋復(fù)雜法醫(yī)DNA混合物).Croat Med J(克羅地亞醫(yī)學(xué)雜志)42, M4-M6(2001))?;诟咦儏^(qū)測序的線粒體DNA(mtDNA)因為它們的高拷貝數(shù)目和改善的穩(wěn)定性在分析降解的DNA時是有用的。從mtDNA獲得的譜也可與STR分析組合以獲得更好的鑒定(0M Goodwin, W. , Linacre, Α.禾P Vanezis,P. The use of mitochondrial DNA and short tandem repeat typing inthe identification of air crash victims (空難犧牲者鑒定中線粒體DNA和短串聯(lián)重復(fù)分型的應(yīng)用).Electrophoresis (電泳)20, 1707-1711(1999))。然而,mtDNA有弱點,包括單親遺傳方式和較低辨別能力,這可通過使用全線粒體基因組或已知的周圍單核苷酸多態(tài)性(SNPs)進(jìn)行適度調(diào)解(參見Coble, Μ. D.等人.Single nucleotide polymorphisms over the entire mtDNA genomethat increase the power of forensic testing in Caucasians (整個 mtDNA 基因組的單核苷酸多態(tài)性增加了白種人中法醫(yī)測試的能力J Legal Med(國際法醫(yī)學(xué)雜志)118, 137—146 (2004)禾口 Parsons,T. J.禾口 Coble,M.D. Increasingthe forensic discrimination of mitochondrial DNA testing through analysis ofthe entire mitochondrial DNA gen0me(通過分析整個線粒體基因組增加對線粒體DNA測試的法醫(yī)辨別).Croat Med J(克羅地亞醫(yī)學(xué)雜志)42,304-309 (2001))。已經(jīng)使用提供信息的SNP輔助解決使用mtDNA的問題(參見 Coble,Μ. D.等人· Single nucleotide polymorphisms over the entiremtDNA genome that increase the power of forensic testing in Caucasians (整個 mtDNA 基因組的單核苷酸多態(tài)性增加了白種人中法醫(yī)測試的能力).htj Legal Med(國際法醫(yī)學(xué)雜志)118,137-146 Q004) Just, R. S.等人.Towardincreased utility of mtDNA in forensic identifications (關(guān)于mtDNA在法醫(yī)鑒定中增加的應(yīng)用性).Forensic Sci Int (國際法醫(yī)科學(xué))146 Suppl, S147-149 (2004);和 Vallone,P.M.,Just, R. S.,Coble, Μ. D. , Butler, J. Μ.禾口 Parsons, Τ·J. Amultiplex allele-specific primer extension assay for forensically informativeSNPs distributed throughout the mitochondrial genome (對分布在整個線粒體基因組的有法醫(yī)學(xué)信息的SNP的多重等位基因-特異性引物延伸測定).htj Legal Med (國際法醫(yī)學(xué)雜志)118,147-157 Q004)),但尚未完全或單獨用其作為辨別因子,或未在本文提供的相同尺度上使用。
本發(fā)明此處展示的方面和應(yīng)用在下述附圖
和發(fā)明詳述部分進(jìn)行描述。
發(fā)明概述本發(fā)明一些實施方案提供多種方法(以及實施這些方法的設(shè)備),其用于確定受試者的遺傳物質(zhì)是否存在于遺傳物質(zhì)樣品(“測試遺傳物質(zhì)樣品”)中。盡管這可通過多種技術(shù)完成,在一些實施方案中,這通過如下完成,即通過確定測試遺傳物質(zhì)樣品的單核苷酸多態(tài)性(SNP)的集合中等位基因的存在和/或頻率相對于參比和/或受試者SNP標(biāo)志或 SNP基因型的集合是否存在偏倚(bias)和/或方向(direction)來完成。在一些實施方案中,提供了確定受試者是否向樣品貢獻(xiàn)遺傳物質(zhì)的系統(tǒng)。該系統(tǒng)可包括配置用來允許輸入一個或多個樣品SNP標(biāo)志、參比SNP標(biāo)志和受試者SNP標(biāo)志的輸入模塊;配置用來確定樣品SNP標(biāo)志的SNP內(nèi)等位基因頻率相對于參比SNP標(biāo)志和受試者 SNP標(biāo)志的偏倚的模塊;和配置用來輸出該偏倚的模塊,其中一個或多個該模塊在計算裝置上執(zhí)行。在一些實施方案中,提供了確定感興趣的人是否向測試遺傳物質(zhì)樣品貢獻(xiàn)遺傳物質(zhì)的方法。該方法可包括確定測試遺傳物質(zhì)樣品的SNP內(nèi)等位基因頻率相對于參比和受試者SNP標(biāo)志的偏倚。在一些實施方案中,提供了表征測試遺傳物質(zhì)樣品以確定感興趣的人(“Ρ0Ι”)的遺傳物質(zhì)是否在測試遺傳物質(zhì)樣品內(nèi)的方法。該方法可包括提供測試遺傳物質(zhì)樣品的SNP 分析;提供參比遺傳物質(zhì)樣品的SNP分析;提供POI的遺傳物質(zhì)的SNP分析;在第一比較中, 比較該測試遺傳物質(zhì)樣品的SNP分析和該POI的遺傳物質(zhì)的SNP分析;在第二比較中,比較該參比遺傳物質(zhì)的SNP分析與該POI的遺傳物質(zhì)的SNP分析;和比較第一和第二比較,由此確定該POI的遺傳物質(zhì)是否可能在該測試遺傳物質(zhì)樣品中。在一些實施方案中,提供了表征測試遺傳物質(zhì)樣品的方法。該方法可包括提供關(guān)于感興趣的人(POI)的SNP的第一等位基因頻率;提供關(guān)于來自于遺傳物質(zhì)的一個或多個參比群體的SNP的第二等位基因頻率;提供關(guān)于測試遺傳物質(zhì)樣品的SNP的第三等位基因頻率;對至少10個不同SNP重復(fù)上述過程;和分析第一、第二、和第三等位基因頻率以表征該測試遺傳物質(zhì)樣品。在一些實施方案中,提供了確定受試者向測試遺傳物質(zhì)樣品貢獻(xiàn)遺傳物質(zhì)的可能性的方法。該方法可包括提供測試遺傳物質(zhì)樣品;在該測試遺傳物質(zhì)樣品上進(jìn)行單核苷酸多態(tài)性分析,由此分析所述測試遺傳物質(zhì)樣品中至少50個不同單核苷酸多態(tài)性,從而產(chǎn)生樣品SNP標(biāo)志;和將樣品SNP標(biāo)志與受試者SNP標(biāo)志比較以確定該受試者向測試遺傳物質(zhì)樣品貢獻(xiàn)遺傳物質(zhì)的可能性。以前,在法醫(yī)學(xué)領(lǐng)域以及在人類遺傳學(xué)領(lǐng)域,存在基本假設(shè)即不可能使用來自于 SNP數(shù)據(jù)的匯總的數(shù)據(jù)(例如等位基因頻率)鑒定個體。本文提供的一些實施方案提供了使用幾百或幾千個SNP (任選地在高密度微陣列上測定)解析復(fù)雜混合物中痕量DNA貢獻(xiàn) (或其它遺傳物質(zhì))的方法。在一些實施方案中,這可特別地使用混合樣品和基因型識別算法利用DNA分析中的原始等位基因強(qiáng)度測量值,對從SNP陣列中獲得的本來為模擬的信息進(jìn)行數(shù)字化(參見,例如Kennedy,G. C.等人.Large—scale genotyping ofcomplex DNA(復(fù)雜DNA的大規(guī)?;蚍中?.Nat BiotechnoK自然生物技術(shù))21,1233-1237 (2003))。在一些實施方案中,本發(fā)明一般涉及單核苷酸多態(tài)性基因分型且更具體地涉及對來自于多個個體和/或來源的樣品進(jìn)行單核苷酸多態(tài)性基因分型。
在一些實施方案中,該方法包括來自于受試者活組織檢查的樣品SNP標(biāo)志,其中來自于受試者的活組織檢查將測試癌癥的存在。在一些實施方案中,樣品SNP標(biāo)志從想要確定她是否懷孕的女性產(chǎn)生。在一些實施方案中,受試者SNP標(biāo)志是病毒DNA標(biāo)志。對附圖的多個視圖的簡單描述對本發(fā)明多種實施方案的更完整的理解可通過參考詳細(xì)描述并聯(lián)系下述示意圖獲得。在這些圖中,相同的附圖標(biāo)志在全部圖中是指相同的元件或動作。圖IA為給出多種方法的一些實施方案的直覺的理解,為每個SNP給出了對應(yīng)于基因型AA,AB和BB的感興趣的人的可能等位基因頻率的三種不同方案。參比群體、感興趣的人(受試者)和混合物的等位基因頻率分別描述為Mi (測試遺傳物質(zhì)樣品),Yi (受試者) 和Popi (參比群體)。當(dāng)感興趣的人的Yi與參比群體的Popi相比更靠近混合物的Mi時,距離測量較大(并且是正數(shù))。相似地,當(dāng)感興趣的人的Yi與混合物的Mi相比更靠近參比群體的Popi時,距離測量較小(并且為負(fù)數(shù))。檢驗統(tǒng)計量則是使用這種距離測量的ζ-得分 (z-score)。圖IB是流程圖,描繪了在本文描述的一些實施方案中多種可能的過程。圖2A-2C描繪了多種模擬實驗結(jié)果使用1423fWiellCOme Trust 58C個體,給出了來自于基于三個變量的模擬實驗的對數(shù)尺度的P-值SNP數(shù)目(S),個體在混合物中的分?jǐn)?shù)(f)和探針方差(Vp)。該圖以三種變量之間的關(guān)系作圖,在每幅圖中固定了一種不同變量。對數(shù)尺度的P-值通過圖中每個點的陰影以及右圖上的ζ-軸表示。這些模擬實驗表明當(dāng)給定個體是混合物的0. 1% (f),探針方差最多為0.01 (Vp)并且被探測到的SNP數(shù)目是50,000 (s)時,人們可以分辨混合物。圖3A-3D提供來自于一系列實驗的結(jié)果。使用一系列混合物的實驗驗證(參見表 1,A-F)在 Affymetrix GeneChip 5. 0,Illumina BeadArray 550 禾口 Illumina 450S Duo Human BeadChip上測定。χ-軸顯示CEU HapMap群體中每個個體,左邊y-軸顯示ρ-值 (對數(shù)尺度的),且右邊y_軸顯示檢驗統(tǒng)計量的值。關(guān)于混合物A,B,E和F,在混合物中的那些陰影淺并進(jìn)行了鑒定,且不在混合物中的那些陰影較深并進(jìn)行了鑒定。關(guān)于混合物C 和D,不在混合物中的那些個體陰影深并進(jìn)行了鑒定,與混合物中或10%個體相關(guān)的那些個體陰影較淺并鑒定為“1-10”,與90%或99%相關(guān)的那些個體陰影仍然較淺并鑒定為 “90-99”,并且在混合物中的那些人比不存在于混合物的那些陰影較淺并進(jìn)行了鑒定。在所有混合物中,鑒定個人基因組DNA的存在是可能的。箭頭標(biāo)示對許多(或一簇)數(shù)據(jù)點的鑒定而線標(biāo)示對具體數(shù)據(jù)點的鑒定。除非另有說明,無記號的數(shù)據(jù)點是最靠近的標(biāo)示的簇的一部分。圖中的元件和動作為簡單起見進(jìn)行了說明,它們不是根據(jù)任何特定順序或?qū)嵤┓桨杆匦杈哂械?。發(fā)明詳述在下述描述中,且為解釋的目的,敘述了許多具體細(xì)節(jié),以便提供對本發(fā)明多個方面的完全理解。然而,應(yīng)當(dāng)理解,有關(guān)領(lǐng)域的技術(shù)人員可在不需要這些細(xì)節(jié)的條件下實施這些實施方案。在其它情況下,更一般地顯示或討論了已知的結(jié)構(gòu)和裝置以避免模糊本發(fā)明。 在很多情況下,對操作的描述足以使人們實施本發(fā)明的多種形式,特別當(dāng)操作在軟件中執(zhí)行時。應(yīng)當(dāng)注意本發(fā)明可適用于許多不同和備選的配置、裝置和技術(shù)。多種實施方案的全部范圍和本發(fā)明本身不限于下文描述的實例。本申請同計算機(jī)程序列表附件一同提交,該附件在權(quán)利要求書之前。本公開提供了多種方法(以及實施這些方法的設(shè)備),其用于確定受試者的遺傳物質(zhì)是否存在于遺傳物質(zhì)樣品(“測試遺傳物質(zhì)樣品”)中。盡管這可通過多種技術(shù)完成, 在一些實施方案中,這通過如下完成,即通過確定測試遺傳物質(zhì)樣品的SNP中等位基因的存在和/或頻率相對于參比和/或受試者SNP標(biāo)志(例如SNP基因型)是否存在偏倚和/ 或方向來完成。本文提供諸多方面,其中提供一種方法,該方法描述了使用單核苷酸多態(tài)性 (SNP)基因分型微陣列來解析來自于特定個體的遺傳物質(zhì)(如基因組DNA)是否存在于遺傳物質(zhì)混合物(如復(fù)雜基因組DNA混合物)中。另外,本文展示的結(jié)果證明了鑒定具體個體的遺傳物質(zhì)(如基因組DNA)在一系列高度復(fù)雜基因組混合物中的存在是可能的,該混合物包括個體貢獻(xiàn)低于總遺傳物質(zhì)(如基因組DNA)的0. 的混合物。這些發(fā)現(xiàn)改變了 SNP在鑒定法醫(yī)學(xué)混合物中個體痕量貢獻(xiàn)者的已知用途,并證明了在以前由于樣品污染造成的欠佳 DNA來源中的可用性。這些發(fā)現(xiàn)也顯示同類者綜合統(tǒng)計學(xué)(composite statistics across cohorts),如等位基因頻率或基因型計數(shù),不會掩蓋基因組范圍內(nèi)相關(guān)研究內(nèi)的特性。盡管SNP和高密度SNP基因分型陣列已經(jīng)存在一段時間,它們的用途主要被開放為遺傳學(xué)使用的工具,用來鑒定使個體易于患病的常見遺傳變異。本文公開的一些實施方案允許使用SNP鑒定一個或多個個體的遺傳物質(zhì)存在或不存在于樣品中。在一些實施方案中,基于SNP的分析可用于分析法醫(yī)學(xué)混合物。傳統(tǒng)上SNP通過基因型(例如AA,AT或TT)進(jìn)行分析,并且在本公開之前,認(rèn)為其在解析混合物中并不理想。已有主張認(rèn)為它們在分析混合DNA樣品中不良表現(xiàn)是SNP基因分型陣列尚未被法醫(yī)學(xué)團(tuán)體采用的主要原因(參見Jobling,Μ. A.和Gill,P. Encoded evidence =DNA in forensic analysis (編碼證據(jù)法醫(yī)學(xué)分析中的DNA). Nat Rev Genet(自然綜述遺傳學(xué))5,739-751 Q004)和 Kidd,K. K.等人· Developing a SNP panel for forensic identificationof individuals (開發(fā)用于個體法醫(yī)鑒定的 SNP 組).Forensic Sci Int (國際法醫(yī)科學(xué))164,20-32 (2006))。其它方法在使用STR推斷基因型后利用匹配概率估算,其中評估兩個不相關(guān)個體共享標(biāo)志物的組合的概率(參見Jobling,M.A.和Gill, P. Encoded evidence :DNA in forensic analysis (編碼證據(jù)法醫(yī)學(xué)分析中的 DNA). Nat Rev Genet(自然綜述遺傳學(xué))5,739-75K2004))。排除概率給出基于排除隨機(jī)個體的概率的計算(參見Chakraborty, R. ,Meagher, Τ. R.禾P Smouse,P. Ε· Parentage analysis with genetic markers innatural populations. I. The expected proportion of offspring with unambiguouspaternity(自然群體中遺傳標(biāo)志物的家系分析。I.親子關(guān)系不明的后代的預(yù)期比率)· Genetics (遺傳學(xué))118,527-536 (1988))。然而,這些方法中許多依賴于假定混合物中的個體數(shù)目(參見 Egeland,Τ.,Dalen, I.和 Mostad,P. F. Estimating the number of contributors to a DNA profile (估算 DNA i普的貢獻(xiàn)者的數(shù)目)· Int J Legal Med(國際法醫(yī)學(xué)雜志)117,271-275Q003))并且僅適用于STR標(biāo)志物。在一些實施方案中,人們在使用本文公開的方法時不必知道或估算對混合物有貢獻(xiàn)的個體的數(shù)目。當(dāng)檢驗?zāi)姆N假說被證據(jù)或DNA樣品支持時常常使用似然比(參見Weir,B. S.等人.Interpreting DNA mixtures (解釋 DNA 混合物).JForensic Sci (法醫(yī)科學(xué)雜志)42, 213-222(1997))。在一些實施方案中,人們可計算兩種假說的似然比個體對混合物有貢獻(xiàn)和個體對混合物無貢獻(xiàn)。在一些實施方案中,然后可基于目前的情況或上下文給出適當(dāng)?shù)南闰炏鄬︼L(fēng)險比(priorodds ratio),然后與似然比組合以給出后驗相對風(fēng)險比 (posterior add ratio) 0在一些實施方案中,然后人們可使用SNP微陣列確定等位基因頻率或等位基因計數(shù)。這是特別有利的,因為訓(xùn)練數(shù)據(jù)集(training dataset)(如來自于 HapMap計劃或1000基因組計劃)易于獲得并可用于計算所觀察的混合物的等位基因頻率或感興趣的個體的基因型的概率。在一些實施方案中,貝葉斯方法(Bayesian approach) 包括顯式假說(explicit hypotheses)的建立、估算對混合物有貢獻(xiàn)的感興趣的個體的總分?jǐn)?shù)、在提供祖先信息的SNP上包含多個祖先背景,以及包含相關(guān)個體在混合物內(nèi)的概率。本公開展示了對上文描述的多種實施方案中的一些以及附加實施方案的詳細(xì)描述。下述部分簡單概述多種術(shù)語中的一些,并且隨后對一些原理驗證和一些技術(shù)的示例性實施方案進(jìn)行更具體的描述。這部分之后是對用于各種成分的各種附加實施方案和/或一些實施方案的各部分的選擇,其后是用于各種實施方案的一些的一組實施例。定義本文中使用的小節(jié)的標(biāo)題僅為組織的目的,并不解釋為以任何方式限制所描述的主題。本申請中引用的所有文獻(xiàn)和類似材料,包括但不限于專利、專利申請、文章、書籍、條約和互聯(lián)網(wǎng)頁面為了任何目的通過引用以其全文明確并入本文。當(dāng)所并入的文獻(xiàn)中的術(shù)語的定義顯得與本文教導(dǎo)提供的定義不同時,以本文的教導(dǎo)所提供的定義為準(zhǔn)。應(yīng)當(dāng)理解在本文教導(dǎo)中討論的溫度、濃度、時間等等前面隱含有“大約”,從而輕微的和非實質(zhì)性的偏倚包括在本文教導(dǎo)的范圍內(nèi)。在本申請中,除非另有明確說明,單數(shù)的使用包括復(fù)數(shù)。同樣,使用“包括”、“包含”、“含有”、“具有”(“comprise”,“comprises”,“comprising”,“contain,,, "contains”,“containing”,“include”,“includes”和“including,,)無限制之意。應(yīng)當(dāng)理解前文一般描述和隨后的詳細(xì)描述均僅為示例性和解釋性的,并不限制本發(fā)明。術(shù)語“和/ 或”表示所提供的可能性可同時使用或擇一使用。因而,術(shù)語“和/或”表示該組可能性存在兩種選擇。除非另有定義,本文描述的與本發(fā)明關(guān)聯(lián)使用的科學(xué)和技術(shù)術(shù)語應(yīng)當(dāng)具有本領(lǐng)域普通技術(shù)人員通常理解的含義。另外,除非上下文另有需要,單數(shù)術(shù)語應(yīng)當(dāng)包括復(fù)數(shù)并且復(fù)數(shù)術(shù)語應(yīng)當(dāng)包括單數(shù)。一般而言,與本文描述的細(xì)胞和組織培養(yǎng)、分子生物學(xué)和蛋白和寡-或多核苷酸化學(xué)和雜交關(guān)聯(lián)使用的命名和它們的技術(shù)是本領(lǐng)域熟知并且常規(guī)使用的。例如,使用標(biāo)準(zhǔn)技術(shù)進(jìn)行遺傳物質(zhì)(核酸)純化和制備、化學(xué)分析、重組核酸和寡核苷酸分析。酶反應(yīng)和純化技術(shù)根據(jù)制造商的說明書或本領(lǐng)域常規(guī)完成或如本文的描述進(jìn)行。 本文描述的技術(shù)和程序通常根據(jù)本領(lǐng)域熟知的常規(guī)方法和如在本說明書全文引用和討論的多種一般或?qū)I(yè)文獻(xiàn)中所述實施。參見,例如Sambrook等人.,Molecular Cloning =A Laboratory Manual (分子克隆實驗室指南)(第三版,Cold Spring Harbor Laboratory Press, Cold Spring Harbor,N. Y. 2000)。本文描述相關(guān)使用的命名和實驗室程序和技術(shù)是本領(lǐng)域熟知并常規(guī)使用的。發(fā)明人完全清楚如果需要他們可以成為自己的詞典編撰者。發(fā)明人作為自己的辭典編撰者明確選擇在說明書和權(quán)利要求書中使用術(shù)語的普通和平常的含義,除非他們另有明確聲明并且之后進(jìn)一步明確敘述該術(shù)語的“專用”定義并解釋它與普通和平常含義如何不同。在沒有應(yīng)用“專用”定義的意圖的此類明確聲明的情況下,發(fā)明人的意圖和愿望是將對該術(shù)語的簡單、普通和平常的含義用于解釋本說明書和權(quán)利要求書。當(dāng)根據(jù)本文提供的實施方案使用時,下述術(shù)語,除非另有指明。應(yīng)當(dāng)理解為具有下述含義術(shù)語“遺傳物質(zhì)”是指天然核酸、人工核酸、非-天然核酸、正交核苷酸 (orthogonal nucleotides)、其類似物、或其組合。遺傳物質(zhì)還可包括具有對堿基或主鏈修飾的DNA或RNA的類似物。例如,當(dāng)用于本文時,遺傳物質(zhì)包括使用肽核酸(PNA)。術(shù)語“遺傳物質(zhì)”還包括嵌合分子。遺傳物質(zhì)可包括單鏈和/或雙鏈物質(zhì)的一條或多條鏈的核酸、可由這樣的核酸組成、或可基本由這樣的核酸組成。來自于受試者的遺傳物質(zhì)一般(除非另有注明)是許多鏈和許多基因,并且在一些實施方案中,可包括受試者的完整基因組。在一些實施方案中,遺傳物質(zhì)包括核酸或由核酸組成或基本由核酸組成。在一些實施方案中,遺傳物質(zhì)來自于受試者,人們希望確定在測試的遺傳物質(zhì)樣品中其存在或不存在。示例性遺傳物質(zhì)包括DNA,RNA,mRNA和miRNA。在一些實施方案中, 遺傳物質(zhì)和/或測試的遺傳物質(zhì)樣品包括DNA,RNA, mRNA, miRNA及其任意組合、由其組成、 或基本由其組成。在一些實施方案中,遺傳物質(zhì)包含于測試的遺傳物質(zhì)樣品中。在一些實施方案中,遺傳物質(zhì)可以是一條鏈或多條鏈。在一些實施方案中,目標(biāo)遺傳物質(zhì)包括代表性選擇的核酸。在一些實施方案中,目標(biāo)遺傳物質(zhì)包括基因組范圍選擇的核酸。除非另有明確注明,術(shù)語“遺傳物質(zhì)”可以是單數(shù)和/或復(fù)數(shù)(即,“遺傳物質(zhì)”可以表示例如來自于一種或多種來源的遺傳物質(zhì))。當(dāng)用于本文時,術(shù)語“多核苷酸”、“寡核苷酸”和“核酸寡聚物”可互換地使用,意思是核酸的單鏈和雙鏈聚合物,包括但不限于通過核苷酸間磷酸二酯鍵(例如,3’ -5’和 2’ -5’)、反向鍵(例如,3’ -3’和5’ -5’ )連接的2’ -脫氧核糖核苷酸(核酸)和核糖核苷酸(RNA),分支結(jié)構(gòu)或類似物核酸。多核苷酸具有締合的平衡離子,如H+, NH4+,三烷基銨, Mg2+,Na+等等。多核苷酸可完全由脫氧核糖核苷酸、完全由核糖核苷酸、或其嵌合混合物構(gòu)成。多核苷酸可由核堿基和糖類似物構(gòu)成。多核苷酸典型的大小范圍從數(shù)個單體單元(例如5-40,當(dāng)它們通常在本領(lǐng)域被普遍地稱為寡核苷酸時)至幾千單體核苷酸單元。除非另有注明,無論何時表示多核苷酸序列時,應(yīng)當(dāng)理解核苷酸從左至右是以5’至3’的順序并且 “A”表示脫氧腺苷,“C”表示脫氧胞苷,“G”表示脫氧鳥苷,“T”表示胸苷。術(shù)語“降低”表示量的減少。在一些實施方案中,事件被降低百分之1,2,3,4,5, 10,15,20,25,30,35,40,45,50,55,60,65,70,75,80,85,90,95,96,97,98,99,99. 9,99. 99, 99. 999或更多,包括超過任何前述數(shù)值的任何數(shù)值,以及前述任何兩個數(shù)值之間所定義的任何范圍。對于本申請,術(shù)語“全基因組”意思是“基因組范圍”而不是需要存在任何生物的完整基因組?;蚪M范圍表明對于所實施的技術(shù),存在在整個生物體的基因組范圍內(nèi)的各種核酸的足夠多樣性和選擇?;蚪M范圍的選擇可以是在整個生物體的基因組內(nèi)隨機(jī)的選擇,或偏倚特定區(qū)域。在一些實施方案中,基因組范圍的選擇偏倚至那些具有待研究的特定 SNP的區(qū)域。在一些實施方案中,可能使用低于一個拷貝的完整基因組,如在降解的樣品或單倍體精子細(xì)胞中,只要以足以辨別混合物和個人的SNP存在的足夠部分的基因組核酸。 這可以是低至1,000個SNP,注意在人基因組內(nèi)已知數(shù)百萬個SNP。例如,人們可使用僅在 1號染色體上的SNP鑒定個體。
術(shù)語“測試遺傳物質(zhì)樣品”表示要研究其組成的樣品。通常,人們希望了解特定個體是否對測試遺傳物質(zhì)樣品中的遺傳物質(zhì)有貢獻(xiàn),和/或其他人或生物體是否對測試遺傳物質(zhì)樣品中的遺傳物質(zhì)有貢獻(xiàn)。在一些實施方案中,測試遺傳物質(zhì)樣品是這樣的樣品,其待測或已經(jīng)測定存在或不存在多個SNP。在一些實施方案中,目標(biāo)核酸包含于測試遺傳物質(zhì)樣品中。在一些實施方案中,目標(biāo)核酸不在測試遺傳物質(zhì)樣品中?!皹悠稴NP標(biāo)志”是對于測試遺傳物質(zhì)樣品的SNP標(biāo)志。術(shù)語“SNP標(biāo)志”表示對于待評價SNP集合的一種或多種SNP和基因型、等位基因和/或其百分比?!皡⒈葮?biāo)志”表示對于參比(或其群體)中的SNP存在的等位基因?!皽y試遺傳物質(zhì)樣品標(biāo)志”表示對于測試遺傳物質(zhì)樣品中的SNP存在的等位基因?!笆茉囌叩腟NP 標(biāo)志”、“感興趣的人的SNP標(biāo)志”或其他類似術(shù)語表示對于該受試者或感興趣的人中的SNP 存在的等位基因。術(shù)語SNP標(biāo)志不需要使用完整SNP標(biāo)志(除非明確使用術(shù)語“完整”)。 因此,可僅僅通過比較多種等位基因頻率的亞組或通過本文描述的其它方法完成一個SNP 標(biāo)志與另一個SNP標(biāo)志的比較、利用和/或使用或與另一個SNP標(biāo)志一起利用和/或使用一個SNP標(biāo)志。此外,當(dāng)SNP標(biāo)志可表示一個或多個多種SNP等位基因及其(多個)頻率時,應(yīng)當(dāng)理解SNP標(biāo)志的比較包括對于來自一種來源的一個或多個SNP與來自第二來源的一個或多個等位基因的任何比較,因此,“比較”第一和第二 SNP標(biāo)志并不實際需要比較每種 SNP等位基因的頻率統(tǒng)計量(除非明確說明),而可通過比較和/或分析與這些頻率相關(guān)的任何數(shù)據(jù)或計算來完成。因此,比較還可通過比較用于獲得所注明的頻率的數(shù)值(包括原始數(shù)據(jù))來完成。它還可通過比較從所注明的頻率隨后獲得的數(shù)值來完成。本領(lǐng)域技術(shù)人員在本公開的基礎(chǔ)上將理解如何維持多種SNP標(biāo)志之間的適當(dāng)關(guān)系。盡管術(shù)語“感興趣的人”在本文中偶爾使用,本領(lǐng)域技術(shù)人員將理解該術(shù)語與術(shù)語 “受試者”一般是可互換的。因此,關(guān)于本公開,“感興趣的人”不限于人,并且除非說明,可以是任何受試者,如包含遺傳物質(zhì)的任何受試者(人、哺乳動物、細(xì)菌、病毒等)。術(shù)語“感興趣的人”的確表示該受試者是其遺傳物質(zhì)在測試遺傳物質(zhì)樣品中正在被檢查的受試者。盡管該受試者通常是人(例如在許多法醫(yī)學(xué)檢驗中),但其不限于人,除非明確注明。術(shù)語“參比群體”表示多個參比受試者之一的群體。參比受試者的SNP標(biāo)志允許感興趣的人的SNP標(biāo)志和測試遺傳物質(zhì)的SNP標(biāo)志之間的比較。并不是本文公開的所有實施方案都需要參比群體或參比群體的SNP。在一些實施方案中,參比群體和參比SNP標(biāo)志將具有與樣品SNP標(biāo)志相似的祖先構(gòu)成(ancestral make-up)。術(shù)語“相似的祖先構(gòu)成”可定義為個體間或使用一組SNP或其它遺傳變異的群體內(nèi)的遺傳距離。因此,可能對于一些 SNP保留用于家系評價并且一些SNP保留用于確定是否一個POI處在混合物中。在一些實施方案中,參比群體應(yīng)當(dāng)一般在所研究的SNP中被質(zhì)疑的SNP處與混合物相匹配。SNP是在多于兩個個體中發(fā)現(xiàn)的核苷酸的遺傳的置換(例如A至T,A至G或G至 C)。通常大部分SNP超過高于0. 的頻率,盡管也預(yù)見到更低頻率的遺傳變異。本文描述的方法可擴(kuò)展至其它類型的遺傳變異,包括插入/缺失(indels)、拷貝數(shù)變化和/或其它結(jié)構(gòu)變異。一般實施方案檢驗統(tǒng)計量的確立存在多種方法獲得檢驗統(tǒng)計量用于評價受試者遺傳物質(zhì)存在于混合物中的假設(shè),并且這些在本文中進(jìn)一步討論。在下面一些實例中,使用頻率論(frequentist)方法。在下文一些實例中,使用貝葉斯(Bayesian)方法。取決于測定的目的,可使用任何一種。在一些實施方案中,在不偏倚方法的前體下使用其它方法。圖IA提供了該方法的一些實施方案的概覽。在一些實施方案中,本方法可總結(jié)為在所有可得的SNP中基因頻率改變(allele shift)的累積總和,其中改變的征象定義為感興趣的個體更靠近參比樣品還是更靠近給定混合物。本發(fā)明的一方面包括對單個個人的給定SNP進(jìn)行基因分型(genotyping),其解決了 SNP基因分型微陣列的最初設(shè)計問題。在一些實施方案中,本發(fā)明可以是進(jìn)一步修改的方法以適用于混合物和匯總的數(shù)據(jù)(pooled data)ο基因分型微陣列技術(shù)可以測定數(shù)百萬的SNP。預(yù)期基因型來自于測定并且數(shù)據(jù)本身是分類的,例如AA,AB, BB或無識別(NoCall),其中A和B象征性地表示雙等位基因SNP的兩個等位基因。然而,如拷貝數(shù)、識別算法(calling algorithm)和基于混合池(pooling-based)的GWA研究(Pearson等人;Am J Hum Genet (美國人類遺傳學(xué)雜志).2007Jan ;80(1) 126-39. Epub2006Dec 6.)所證明的,來自于SNP基因分型陣列的原始預(yù)處理數(shù)據(jù)通常是等位基因強(qiáng)度測量值的形式,該測量值與雜交到微陣列上的特異性探針(或稱為特征)的“A”和“B”等位基因的量成比例。單個探針強(qiáng)度測量值可得自于單個珠子(例如Illumina)、平面上微米級的正方形(例如Affymetrix)或其一些組合的熒光測量值。在基因分型陣列上,每個SNP以固定數(shù)目的拷貝(Affymetrix)或可變數(shù)目的拷貝 (Illumina)存在多個探針。例如,最近一代Affymetrix陣列通常具有分別針對A等位基因和B等位基因特異性的3-4個探針,而Illumina陣列對每個等位基因具有平均大約18個探針的隨機(jī)數(shù)目的探針。對于500,000+SNP,在SNP基因分型陣列上存在數(shù)百萬探針(或特征)。盡管在SNP基因分型平臺之間雜交之前存在相當(dāng)數(shù)量的不同樣品制備化學(xué),可使用這些化學(xué)中的任何一種,因為它們不會影響本文公開的多種實施方案。SNP基因分型算法的開始通常通過將標(biāo)準(zhǔn)化數(shù)據(jù)轉(zhuǎn)換為比值或極坐標(biāo)。為簡單起見,人們可以利用比值轉(zhuǎn)換Yi = Ai/(AJkiBi),其中Ai是A等位基因的探針強(qiáng)度,B是在第 jSNP中的B等位基因的探針強(qiáng)度。數(shù)篇文章已經(jīng)顯示Yj轉(zhuǎn)換接近等位基因頻率,其中、是補(bǔ)償實驗偏倚的SNP特異性校正因子并且可從個體基因分型數(shù)據(jù)中容易地計算。因此通過這種轉(zhuǎn)換,Yi是每種SNP的等位基因頻率估計值(稱為pA)。由于大部分個體含有兩個拷貝的常染色體SNP,單個個體中A等位基因頻率(pA)的值可以是0%,50%或100% (分別針對在AA,AB或BB的A等位基因)。含糊地Yi將大約為0,0. 5或1,由于測量噪聲,其在這些值中變化。舉例而言假設(shè)、=1,探針強(qiáng)度測量值A(chǔ)j = 450和Bj = 550產(chǎn)生的Yj = 0. 45, 這種SNP將被稱為AB。在來自單個個體的樣品中,人們將預(yù)期看到Y(jié)在所有SNP的三峰分布(trimodal distribution),因為僅僅預(yù)期有AA,AB或BB基因型識別。然而,在多個個體的混合物中,基因型識別算法的假設(shè)是無效的,因為僅僅給出了 AA,AB, BB或無識別而未考慮匯總的染色體的數(shù)目。然而,考慮到本公開,本領(lǐng)域技術(shù)人員將能夠從相對探針強(qiáng)度數(shù)據(jù)中提取信息和含義并因此能夠使用該數(shù)據(jù)進(jìn)行例如鑒定受試者是否對混合物有貢獻(xiàn)。在該方法的一些實施方案中,人們比較來自于混合物的等位基因頻率估計值(稱為M,其中Mi = AiAAfkiBi)) 與參比群體的平均等位基因頻率的估計值。當(dāng)用于本文時,混合物的等位基因頻率的估計值也包涵在術(shù)語樣品SNP標(biāo)志內(nèi)。此外,當(dāng)用于本文時,參比群體的平均等位基因頻率也包涵在術(shù)語參比SNP標(biāo)志內(nèi)。在需要時參比群體的選擇在下文進(jìn)行更詳細(xì)的討論。在一些實施方案中,人們假定參比群體具有與混合物相似的祖先構(gòu)成。這可意味著可互換地具有相似的群體亞結(jié)構(gòu)、 種族劃分和/或祖先成分,并且將個體或混合物的相似祖先成分定義為在所有(或基本所有)SNP上具有相似等位基因頻率。人們可將Ym作為來自于SNP基因分型陣列的個體i和SNPj的等位基因頻率估計值,其中Yq e {0,0. 5,1}·,個體的等位基因頻率估計值也包涵在術(shù)語受試者SNP標(biāo)志內(nèi)。然后人們比較兩個差的絕對值。第一差I(lǐng)Yiij-MjI (其也表征為受試者SNP標(biāo)志減去樣品SNP標(biāo)志的絕對值)測量混合物Mj在SNPj的等位基因頻率與個體Yi,」對于SNPj的等位基因頻率的差別如何(或換言之,測量樣品SNP標(biāo)志與受試者SNP標(biāo)志的差別如何)。 第二差I(lǐng)Yu-P0PjI (其也可表征為受試者SNP標(biāo)志減去參比SNP標(biāo)志的絕對值)測量參比群體等位基因頻率Popj與個體Yiij對于每種SNPj的差別如何(或換言之,測量參比SNP 標(biāo)志與受試者SNP標(biāo)志的差別如何)。Popj的值可由等摩爾混合的樣品的陣列或由含有多個群體的基因型數(shù)據(jù)的數(shù)據(jù)庫確定。這兩個差之間取差值,人們獲得用于個體Yi的距離測量D (Yi, j) = I Yi,廠Popj I -1 Yiij-Mj I (方程 1)。如圖IA所示,在個體不存在于混合物中的零假設(shè)(null hypothesis)下,D (Yij j)接近于零,因為混合物和參比群體由于具有相似的祖先成分計算為具有相似等位基因頻率。在另一種假設(shè)下,D(Yiij) >0,因為人們預(yù)測通過Yi對混合物的貢獻(xiàn)而使MjW參比群體中移開。在D(Yiij) < O的情況下,Yi與混合物相比更相似于參比群體,因此更不像存在于混合物中。與圖IA的解釋一致,當(dāng)Yiij更接近Mj時D(Yi, ρ是正數(shù),并且當(dāng)Yi,」與Popj 更接近時D (Yi, ρ是負(fù)數(shù)。通過對許多SNP取樣(例如500K+SNP),人們將通常預(yù)期根據(jù)中心極限定理D(Ym)服從正態(tài)分布。在一些實施方案中,人們可為受試者中在所有(或至少一個或多個)SNP取樣進(jìn)行單樣本t-檢驗,由此獲得檢驗統(tǒng)計量T (Yi)=(均值(D (Yijj)) - μ / (sd (D (Yi,」)/sqrt (s)))方程 2在方程⑵中,假定μ。是個體Yk不在混合物中的Dak)的均值,ScKD(Yiij))是 D (Yi, j)對于所有SNPj和個體Yi的標(biāo)準(zhǔn)差,sqrt (s)是SNP數(shù)目的平方根。在一些實施方案中,人們可將μ ο設(shè)定為零,因為隨機(jī)個體應(yīng)當(dāng)與混合物和混合物的參比群體具有相等距離,因此T(Yi)=均值(D(Ym) )/(8(1^(^/sqrt (s))。在所有零假設(shè)下T(Yi)是零并且在另一種假設(shè)下T(Yi) >0。為補(bǔ)償個體、混合物和參比群體之間祖先的微小差異人們可將等位基因頻率估計值對參比群體進(jìn)行標(biāo)準(zhǔn)化。如果使用這樣大量的SNP,以至于由于標(biāo)志之間的相關(guān)性分布不再服從傳統(tǒng)正態(tài)分布,在使用連鎖不平衡中的SNP的情況下,人們也可使用已知不在混合物中的個體用于樣本分布。在這種情況下,可使用另外的方法來校正和了解檢驗-統(tǒng)計量的分布,如來自于HapMap和適當(dāng)估計ρ-值。盡管上述討論提供了通過頻率論方法(frequentist approach)如何比較和分析數(shù)據(jù)的分析,本領(lǐng)域技術(shù)人員考慮到本公開將理解其它方式也是有用的。例如,如下文所討論的,在一些實施方案中可使用貝葉斯法。如上文所討論和下文所顯示的,高通量SNP基因分型微陣列具有精確和強(qiáng)力解析是否在復(fù)雜遺傳物質(zhì)混合物中有個體痕量貢獻(xiàn)。下述部分建立了概率模型并使用貝葉斯推斷(Bayesian inference)精確比較兩種模型假定個體存在于混合物中的模型和假定個體不存在于混合物中的模型。使用訓(xùn)練數(shù)據(jù)集(training dataset)人們能夠使用關(guān)于微陣列上每種探針的原始數(shù)據(jù),而不是使用來自于基因分型識別算法的基因型或其它此類數(shù)據(jù)轉(zhuǎn)換。通過后驗相對風(fēng)險比值比較兩種模型,人們能夠使用對基因組尺度的觀察評價個體在混合物中的可能性。通過貝葉斯法,人們提供了使用SNP鑒定測試遺傳物質(zhì)樣品中個體痕量貢獻(xiàn)者的另外選擇。 如上所述,法醫(yī)學(xué)領(lǐng)域中的一個挑戰(zhàn)是鑒定個體在高度復(fù)雜的基因組DNA混合物中的存在。如本文所述,同樣挑戰(zhàn)也存在于多種其它技術(shù)中,因此解決這種法醫(yī)學(xué)問題在許多其它領(lǐng)域具有直接的用途。目前存在許多方法能夠檢查具有少數(shù)個體的混合物和由數(shù)千個體構(gòu)成的混合物(參見,例如T. Egeland, I. Dalen和P. F. Mostad. Estimating the number of contributorsto a DNA profile ( f古胃 DNA i普白勺]白勺■ g ). Int. J. Legal Med.(國際法醫(yī)學(xué)雜志),117 :271 {275,Oct 2003 ;Y. Q. Hu 和 W. K. Fung-interpreting DNAmixtures with the presence of relatives (角軍釋存在親屬關(guān)系的 DNA 混合物)· Int. J. Legal Med.(國際法醫(yī)學(xué)雜志),117 :39-45, Feb 2003 ;和 D. J. Balding. Likelihood-based inference for genetic correlation coefficients (基于相似性的對遺傳相關(guān)系數(shù)的推斷).Theor Popul Biol (理論群體生物學(xué)),63 :221_230,May 2003)。 這些方法包括使用短串聯(lián)重復(fù)(STR)用于產(chǎn)生DNA譜,包括特別用于鑒定混合物中男性成分的 Y 染色體上的 STR(參見,例如 Τ. M. Clayton, J. P. Whitaker, R. Sparkes 和 P. Gill. Analysis and interpretation ofmixed forensic stains using DNA STR profiling(使用DNA STR譜對混合法醫(yī)學(xué)印跡進(jìn)行分析和解釋).forensic Sci. Int.(國際法醫(yī)科學(xué)),91 :55-70, Janl998 ;R.G.Cowell, S.L.Lauritzen 禾口 J. Mortera. Identification and separationof DNA mixtures using peak area information ( il! M IK f|f ;^ ^ 定和分離 DNA 混合物).Forensic Sci. Int.(國際法醫(yī)科學(xué)),166 :28-34, Feb 2007 ; M. Bill, P. Gill, J. Curran, Τ. Clayton, R. Pinchin, Μ. Healy 和 J. Buckleton. PENDULUM {a guideline-based approach to the interpretation of STRmixtures(PENDULUM{角軍釋STR混合物的指南方法).forensic Sci. Int.(國際法醫(yī)科學(xué)),148 181-189,Mar 2005 ;M. A. Jobling 禾口 P. Gill. Encodedevidence :DNA in forensic analysis (編碼證據(jù)法醫(yī)學(xué)分析中的DNA). Nat. Rev. Genet.(自然綜述遺傳學(xué)),5 :739_751,Oct 2004. Methods usingMitochondrial DNA(mtDNA)) are useful when analyzing severely degradedDNA and can be used jointly with STRs (當(dāng)分析嚴(yán)重降解的 DNA 時,使用線粒體DNA (mtDNA)的方法是有用的并可與STR聯(lián)合使用).Goodwin, A. Linacre和 P. Vanezis. The use of mitochondrial DNA and short tandem repeattyping in the identification of air crash victims (空難犧牲者鑒定中線粒體DNA和短串聯(lián)重復(fù)分型的應(yīng)用).Electrophoresis (電泳),20 :1707-1711, Jun 1999)。還研究了許多方法使用非常少量的SNP與mtDNA —起以減輕mtDNA的特異性問題(M. D. Coble, R. S. Just, J. Ε. 0 ' CalIaghan, I. H. Letmanyi, C. Τ. Peterson, J. A. Irwin 禾口 Τ· J. Parsons. Single nucleotide polymorphismsover the entire mtDNA genome that increase the power of forensic testing inCaucasians (整個mtDNA基因組的單核苷酸多態(tài)性增加了白種人中法醫(yī)測試的能力).ht. J. Legal Med.(國際法醫(yī)學(xué)雜志),118 :137-146,Jun 2004 ;T.J.Parsons 禾口 M. D. Coble. Increasing the forensic discrimination of mitochondrialDNA testing through analysis of the entire mitochondrial DNA genome (通過分析整個線粒體DNA基因組增加對線粒體DNA測試的法醫(yī)辨別).Croat. Med. J.(克羅地亞醫(yī)學(xué)雜志),42 :304-309, Jun 2001 ;R. S. Just, J. A. Irwin, J. Ε. 0' Callaghan, J. L. Saunier, Μ. D. Coble, P. Μ. Vallone, J. M. Butler, S. M. Barritt 禾口 Τ. J. Parsons. Toward increased utility of mtDNA in forensic identifications (關(guān)于mtDNA在法醫(yī)鑒定中增加的應(yīng)用性).forensic Sci. Int.(國際法醫(yī)科學(xué)),146Suppl S147-149, Dec 2004 ;和 P. M. Vallone, R. S. Just, Μ. D. Coble, J. Μ. Butler 和 Τ. J. Parsons. A multiplex allele specific primer extension assayfor forensically informative SNPs distributed throughout the mitochondrialgenome ()(^^^ ^^! ^ !^! 有法醫(yī)學(xué)信息的SNP的多重等位基因-特異性引物延伸測定).ht. J. Legal Med.(國際法醫(yī)學(xué)雜志),118 :147-157, Jun 2004)但是并沒有專門在基因組尺度上將SNP作為復(fù)雜混合物中的內(nèi)含物的決定因素來研究。最近,Homer等人.(Homer等人.Resolvingindividuals contributing trace amounts of DNA to highly complex mixturesusing high-density snip genotyping microarrays (使用高密度snip基因分型微陣列解析對高度復(fù)雜混合物貢獻(xiàn)痕量DNA的個體),其全文通過引用并入本文)和本文展示的本公開已經(jīng)證明高通量 SNP基因分型微陣列具有精確且強(qiáng)力解析在復(fù)雜基因組DNA混合物中是否有個體痕量貢獻(xiàn)者。這種基因組法不靶向特定序列、區(qū)或少量多態(tài)性,而是使用在SNP微陣列上實施的多重實驗來解析個體是否存在于復(fù)雜混合物中。在一些實施方案中,本方法也不依賴于知道混合物中個體的數(shù)目。SNP微陣列在基因組范圍相關(guān)研究中已經(jīng)廣泛使用,當(dāng)用于法醫(yī)學(xué)時在其它方法中以前尚未發(fā)現(xiàn)有在多重水平上的SNP微陣列。然而,Homer等人.(以及上文討論的結(jié)果和實施例1中的結(jié)果)提供了基于在所有SNP上相對等位基因信號的累積轉(zhuǎn)變(cumulative shift)的頻率論方法從而提供對于零假設(shè)(其中假定個體不存在于混合物中)的顯著性值。在一些實施方案中,可運行兩個微陣列,一個使用來自于感興趣個體的 DNA,一個使用來自混合物的DNA池。這允許人們使用用于比較的參比群體,允許精確鑒定是否個體存在于混合物中。另外,即使使用親屬的DNA作為感興趣個體的代用品也可完成這種過程。盡管此類實施方案對許多復(fù)雜混合物運行良好,也可使用其它方法,因此,下述部分展示了概率模型。貝葉斯下述部分描述基于在SNP微陣列的原始強(qiáng)度水平上的總觀察的概率模型以精確評價感興趣的個體(例如受試者)在或不在復(fù)雜混合物(例如測試遺傳物質(zhì)樣品)中的可能性。另外,使用訓(xùn)練數(shù)據(jù)集估計原始強(qiáng)度水平觀察的概率分布。以后驗相對風(fēng)險比值的形式比較了兩種模型,一種中假定感興趣的個體在混合物中,另一種中假定感興趣的個體不在混合物中。使用貝葉斯推斷獲得兩種模型中每一種的可能性以精確評價觀察的概率。 通過這種實施方案,產(chǎn)生了更強(qiáng)力和精確的觀察模型,產(chǎn)生了對證據(jù)更好的統(tǒng)計測量值。隨著目前微陣列技術(shù)上可得的SNP數(shù)目繼續(xù)增加,該方法的多種實施方案鑒定個體對高度復(fù)雜混合物貢獻(xiàn)的精確度也將增加。模型兩種競爭性模型
進(jìn)行建模以鑒定個體是否存在于給定復(fù)雜混合物內(nèi)。因此可檢查兩種競爭性模型之間的優(yōu)勢比,一種中假定個體在混合物中(表示為θ A),一種中假定個體不在混合物中 (表示為θ0 )。存在兩種不同觀察,一組觀察來自于感興趣的個體,一組觀察來自于復(fù)雜混合物。對于所有SNP,對感興趣的個體的觀察表示為i ,對復(fù)雜混合物的觀察表示為^。對于 SNP i,對感興趣的個體(例如受試者)的觀察Xi是原始強(qiáng)度值,且對復(fù)雜混合物的觀察yi 進(jìn)行相似的定義。在給定微陣列上,通常每個SNP存在多個探針以及每個探針存在多對的強(qiáng)度值??蛇x擇單獨處理探針值(一對強(qiáng)度值)或?qū)⑻结樈M合成單個測量值。對于這種分析,探針值可通過取所有探針的平均探針值,并將一對強(qiáng)度值組合成兩個數(shù)值的單個比值
YY
來進(jìn)行合并。例如,如果有一對強(qiáng)度X和Y,可使用比值^^或更優(yōu)選的反正切比
X+ YKx )
值。然而,組合強(qiáng)度值的這種方式已經(jīng)在以前使用DNA的復(fù)雜混合物的研究(即基于混
合池的基因組范圍相關(guān)研究)中使用(J.V.Pearson,Μ. J. Huente Iman, R. F. Halperin,
W. D. Tembe, S. Melquist, N. Homer, Μ. Brun, S. Szelinger, K. D. Coon, V. L. Zismann,
J. A. Webster, T. Beach, S. B. Sando, J. 0. Aasly, R. Heun, F. Jessen, H. Kolsch, M. Tsolaki,
M. Daniilidou, E. M. Reiman, A. Papassotiropoulos, M. L. Hutton, D. A. Stephan 禾口
D. W. Craig.Identification of the genetic basis forcomplex disorders by use of
pooling-based genomewidesingle-nucleotide-polymorphism association studies (通
過使用基于混合池的單核苷酸多態(tài)性相關(guān)研究鑒定復(fù)雜病癥的遺傳基礎(chǔ)).Am. J. Hum.
Genet.(美國人類遺傳學(xué)雜志),80 :126_139,Jan 2007)并且采用了這種方法。為比較兩種模型的后驗相對風(fēng)險比值,檢查
Pr(PlxA)
Pr(ylx,00)o如果優(yōu)勢比大,則這給出該感興趣的個體在混合物中的證據(jù)。如果優(yōu)勢比小,則這給出該感興趣的個體不在混合物中的證據(jù)。通過這種方式,能夠解析個體是否存在于復(fù)雜混合物內(nèi)??赡苄约僭O(shè)有s個SNP,將觀察表示為? =(y/,...,h)和無=(JC/ ...Xs)。然而。為正確
地用公式表述可能性,應(yīng)當(dāng)知道許多隱藏的變量。設(shè)定η+2為混合物中染色體的數(shù)目。由于混合物中每個個體貢獻(xiàn)兩條染色體,n是2的倍數(shù)。對于每個SNP i,假設(shè)有兩個等位基因A和B。則應(yīng)當(dāng)知道混合物Ki中A等位基因的數(shù)目和感興趣的人β ,中々等位基因的數(shù)目。由于根據(jù)定義!!、^和β 1是隱藏的,為計算任何一種模型的可能性,應(yīng)當(dāng)計算這三種隱藏變量所有可能數(shù)值的和。為了一致,希臘字母用于隱藏變量,字母表字母用于觀察的變量。訓(xùn)練數(shù)據(jù)集就觀察的和隱藏的變量而言,更多信息對于精確計算可能性是有用的。由于擁有對于混合物和感興趣的人兩者的原始強(qiáng)度值而非基因型,應(yīng)當(dāng)知道對于力C {0, 1,2}的條件概率I3HRi =Alri= Yi)。這是假如隱藏的無序基因型是i,則對于SNP i相對強(qiáng)度值是A的條件概率,其中無序基因型A/A表示為0,A/B為1,且B/B為2。同樣不知道對于每個SNP i和混合物中的每個個體或?qū)τ诟信d趣的人的Yi,但這種情況下可通過使用來自于 HapMap 計劃(The International HapMap Project (國際 HapMap 計劃).Nature (自然),似6 :789-796, Dec 2003)的訓(xùn)練數(shù)據(jù)集估算這些概率的分布。通過HapMap計劃能夠為給定個體獲得Affymetrix 5. 0平臺上每個SNP的一致基因型識別和原始強(qiáng)度值。HapMap 計劃具有來自于四種不同人群的270名個體的這種信息。另外,每個SNP的基因型不僅得自于相應(yīng)原始強(qiáng)度值,還得自于產(chǎn)生對于每個SNP的一致基因型識別的其它微陣列平臺和重復(fù)實驗。這讓人進(jìn)一步確信基因型識別是正確的。因此對于每個SNP i可繪制出三種給定每種可能的無序基因型Y i的A的分布。 為簡單起見,假定三種分布I3HIii = ri I Γ, = 0),Pr (Ri = TiI Ti = 1)和阼烺=巧|1\ = 2)的每種分別服從正態(tài)分布N(y(l,σ0),Ν(μι; O1)和Ν(μ2,ο 2)??蓮挠?xùn)練數(shù)據(jù)集容易地估算μ ^,μ μ 2,Otl,O1, σ 2并使用這些參數(shù)計算可能性。最后,這種訓(xùn)練數(shù)據(jù)集給出了對于每個SNP i Wpi表示的群體等位基因頻率Α。其在選擇訓(xùn)練數(shù)據(jù)集群體以考慮群體的祖先時是有用的,因為等位基因頻率在群體中可能變化并因此在模型中引入系統(tǒng)性偏倚。然而,如果在可能性計算中使用的選擇為無祖先偏倚且不相關(guān)的SNP,則避免混合問題并能獨立處理每個SNP。計算θ 0的可能性;首先,檢查了假定感興趣的人不在混合物中的模型θ0。因此θ0的可能性就是
Pr(f 力0)。由于沒有觀察混合物中染色體的數(shù)目η,可計算所有η的可能值的和。
權(quán)利要求
1.一種確定受試者向測試遺傳物質(zhì)樣品貢獻(xiàn)遺傳物質(zhì)的可能性的方法,所述方法包括提供測試遺傳物質(zhì)樣品;在所述測試遺傳物質(zhì)樣品上進(jìn)行單核苷酸多態(tài)性分析,由此分析所述測試遺傳物質(zhì)樣品中至少50個不同單核苷酸多態(tài)性,從而產(chǎn)生樣品SNP標(biāo)志;和比較所述樣品SNP標(biāo)志和受試者SNP標(biāo)志以確定所述受試者向測試遺傳物質(zhì)樣品貢獻(xiàn)遺傳物質(zhì)的可能性。
2.權(quán)利要求1的方法,其中比較所述樣品SNP標(biāo)志以確定其匹配受試者SNP標(biāo)志的可能性還包括提供并利用參比SNP標(biāo)志。
3.權(quán)利要求2的方法,其中所述參比SNP標(biāo)志具有與所述樣品SNP標(biāo)志相似的祖先構(gòu)成。
4.權(quán)利要求1的方法,其中所述測試遺傳物質(zhì)樣品可能是被污染的。
5.權(quán)利要求4的方法,其中所述污染包括細(xì)菌遺傳物質(zhì)。
6.權(quán)利要求4的方法,其中所述污染包括非人遺傳物質(zhì)。
7.—種表征測試遺傳物質(zhì)樣品的方法,所述方法包括 提供關(guān)于感興趣的人(POI)的SNP的第一等位基因頻率;提供關(guān)于來自于遺傳物質(zhì)參比群體的所述SNP的第二等位基因頻率; 提供關(guān)于所述測試遺傳物質(zhì)樣品的所述SNP的第三等位基因頻率; 對至少10個不同SNP重復(fù)上述過程;和分析第一、第二、和第三等位基因頻率以表征所述測試遺傳物質(zhì)樣品。
8.權(quán)利要求7的方法,其中對至少50個不同SNP重復(fù)所述過程。
9.權(quán)利要求8的方法,其中分析所述第一、第二、和第三等位基因頻率通過下述過程完成a)確定所述感興趣的人和所述參比群體的等位基因頻率之差的絕對值;b)確定所述感興趣的人和所述測試遺傳物質(zhì)樣品的等位基因頻率之差的絕對值;和c)a)減去b)獲得所述SNP的距離值。
10.權(quán)利要求9的方法,其中當(dāng)關(guān)于所述SNP的距離值是正數(shù)時,所述POI更可能向所述測試遺傳物質(zhì)樣品貢獻(xiàn)遺傳物質(zhì),當(dāng)所述距離值是負(fù)數(shù)時,所述POI的遺傳物質(zhì)更可能是所述參比樣品的一部分,以及當(dāng)所述距離值是0時,所述POI的遺傳物質(zhì)在所述測試遺傳物質(zhì)樣品和所述參比樣品中的可能性相等。
11.權(quán)利要求10的方法,其中對至少50,000個SNP重復(fù)上述過程。
12.權(quán)利要求10的方法,其中所述頻率以數(shù)值表示。
13.權(quán)利要求10的方法,其中所述頻率以熒光水平表示。
14.權(quán)利要求10的方法,其中所述頻率以關(guān)于Ρ0Ι、參比群體和測試遺傳物質(zhì)樣品的標(biāo)準(zhǔn)化值表示。
15.權(quán)利要求8的方法,其中所述表征允許確定所述感興趣的人是否至少有99%的可能性對所述樣品有貢獻(xiàn)。
16.權(quán)利要求8的方法,其中所述表征確定所述測試遺傳物質(zhì)樣品含有來自于與所述感興趣的人不同的人的遺傳物質(zhì)。
17.權(quán)利要求8的方法,其中所述表征確定所述測試遺傳物質(zhì)樣品含有來自于所述感興趣的人的遺傳物質(zhì)的可能性。
18.權(quán)利要求8的方法,其中所述測試遺傳物質(zhì)樣品包括降解的遺傳物質(zhì)。
19.權(quán)利要求8的方法,其中所述測試遺傳物質(zhì)樣品收集自犯罪現(xiàn)場并且實施所述表征以鑒定所述測試遺傳物質(zhì)樣品是否包含所述感興趣的人的DNA。
20.權(quán)利要求8的方法,還包括以下過程,收集測試遺傳物質(zhì)樣品,在SNP檢測陣列上運行所述樣品,和監(jiān)測何種SNP存在于所述樣品中,由此提供關(guān)于所述測試遺傳物質(zhì)樣品的 SNP的第三等位基因頻率。
21.權(quán)利要求8的方法,其中提供關(guān)于所述測試遺傳物質(zhì)樣品的SNP的第三等位基因頻率包括擁有關(guān)于所述測試遺傳物質(zhì)樣品SNP的頻率。
22.權(quán)利要求8的方法,其中所述表征包括下述分析T(Yi)=(均值(D(YiJ)-P Q)/(sd (Dai, p/sqrt (S)))其中μ C1是不在混合物中個體Yk的Dak)的均值,ScKD(Yijj))是關(guān)于所有SNP j和個體Yi WD(Yiij)的標(biāo)準(zhǔn)差,sqrt(s)是SNP數(shù)目的平方根,并且D (Yi,」)=IYiij-PopjHYi, J-M」,其中Yi,」=個體SNPj的等位基因頻率,Popj =參比群體SNPj的等位基因頻率,并且 Mj =混合物SNPj的等位基因頻率。
23.權(quán)利要求22的方法,其中μC1是零。
24.權(quán)利要求8的方法,其中所述測試遺傳物質(zhì)樣品包括來自于至少兩個不同生物體的遺傳物質(zhì)。
25.權(quán)利要求8的方法,其中所述測試遺傳物質(zhì)樣品包括來自于至少10個不同生物體的遺傳物質(zhì)。
26.權(quán)利要求8的方法,其中所述測試遺傳物質(zhì)樣品包括來自于至少兩個不同人的遺傳物質(zhì)。
27.權(quán)利要求8的方法,其中所述測試遺傳物質(zhì)樣品包括來自于至少100個不同生物體的遺傳物質(zhì)。
28.權(quán)利要求8的方法,其中所述表征在不知道對所述測試遺傳物質(zhì)樣品有貢獻(xiàn)的個體數(shù)目的情況下完成。
29.權(quán)利要求8的方法,其中所述表征在計算時不考慮對所述測試遺傳物質(zhì)樣品有貢獻(xiàn)的個體的數(shù)目的情況下完成。
30.權(quán)利要求8的方法,其中所述方法在計算機(jī)上進(jìn)行并且其中所述表征輸出到用戶。
31.權(quán)利要求30的方法,其中所述計算機(jī)包括實施所述方法的軟件。
32.權(quán)利要求31的方法,其中所述軟件包括附件A中所附的軟件。
33.一種表征測試遺傳物質(zhì)樣品以確定感興趣的人(“Ρ0Ι”)的遺傳物質(zhì)是否在所述測試遺傳物質(zhì)樣品內(nèi)的方法,所述方法包括提供所述測試遺傳物質(zhì)樣品的SNP分析;提供參比遺傳物質(zhì)樣品的SNP分析;提供POI的遺傳物質(zhì)的SNP分析;在第一比較中,將所述測試遺傳物質(zhì)樣品的SNP分析和所述POI的遺傳物質(zhì)的SNP分析相比較;在第二比較中,將所述參比遺傳物質(zhì)的SNP分析與所述POI的遺傳物質(zhì)的SNP分析相比較;和比較第一和第一比較,由此確定所述POI的遺傳物質(zhì)是否可能在所述測試遺傳物質(zhì)樣品中。
34.權(quán)利要求33的方法,其中所述POI的遺傳物質(zhì)的SNP分析包括至少100個SNP的 SNP身份。
35.權(quán)利要求33的方法,其中來自于所述POI的基因組DNA以低于所述測試遺傳物質(zhì)樣品中總基因組DNA的的量存在于所述測試遺傳物質(zhì)樣品中。
36.權(quán)利要求33的方法,其中來自于所述POI的DNA以低于所述測試遺傳物質(zhì)樣品中總基因組DNA的0. 的量存在于所述測試遺傳物質(zhì)樣品中。
37.權(quán)利要求33的方法,其中使用探針分析所述測試遺傳物質(zhì)樣品的SNP,并且其中所述探針方差低于20%。
38.權(quán)利要求33的方法,其中分析所述測試遺傳物質(zhì)樣品中至少1,000個SNP。
39.一種分析測試遺傳物質(zhì)樣品的試劑盒,所述試劑盒包括 用于實施權(quán)利要求33的方法的計算機(jī)可讀格式的軟件;和用于結(jié)合并檢測一個或多個SNP的一組探針。
40.一種確定感興趣的人是否向測試遺傳物質(zhì)樣品貢獻(xiàn)遺傳物質(zhì)的方法,所述方法包括確定所述測試遺傳物質(zhì)樣品的SNP內(nèi)的等位基因頻率相對于參比和受試者SNP標(biāo)志的偏倚。
41.一種確定受試者是否向樣品貢獻(xiàn)遺傳物質(zhì)的系統(tǒng),所述系統(tǒng)包括配置用來允許輸入一個或更多樣品SNP標(biāo)志、參比SNP標(biāo)志和受試者SNP標(biāo)志的輸入模塊;配置用來確定所述樣品SNP標(biāo)志的SNP內(nèi)的等位基因頻率相對于所述參比SNP標(biāo)志和所述受試者SNP標(biāo)志的偏倚的模塊;和配置用來輸出所述偏倚的模塊,其中一個或多個所述模塊在計算裝置上執(zhí)行。
42.權(quán)利要求41的系統(tǒng),還包括配置用來提供樣品SNP標(biāo)志的模塊。
43.權(quán)利要求41的系統(tǒng),還包括配置用來提供參比SNP標(biāo)志的模塊。
44.權(quán)利要求41的系統(tǒng),還包括配置用來提供受試者SNP標(biāo)志的模塊。
全文摘要
本文提供諸多方面,其中提供一種方法,該方法描述了使用單核苷酸多態(tài)性(SNP)基因分型微陣列來解析來自于特定個體的遺傳物質(zhì)(如基因組DNA)是否存在于遺傳物質(zhì)混合物(如復(fù)雜基因組DNA混合物)中。另外,證明了鑒定具體個體的遺傳物質(zhì)(如基因組DNA)在一系列復(fù)雜基因組混合物中的存在是可能的。
文檔編號G06F19/18GK102165456SQ200980137391
公開日2011年8月24日 申請日期2009年7月22日 優(yōu)先權(quán)日2008年7月23日
發(fā)明者尼爾斯·霍默, 戴維·克雷格 申請人:加利福尼亞大學(xué)董事會, 翻譯基因組學(xué)研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
穆棱市| 垣曲县| 交口县| 合山市| 杭锦后旗| 延吉市| 福鼎市| 喜德县| 黄平县| 遂溪县| 项城市| 香格里拉县| 龙海市| 百色市| 扶风县| 勃利县| 屯门区| 太湖县| 南丰县| 揭阳市| 阆中市| 嘉峪关市| 裕民县| 类乌齐县| 甘孜县| 平果县| 苏尼特左旗| 青冈县| 平武县| 永州市| 红桥区| 阿克苏市| 通海县| 梧州市| 永泰县| 长兴县| 临西县| 吴川市| 易门县| 凤山市| 长葛市|