檢測遺傳變異的系統(tǒng)和方法
【專利說明】檢測遺傳變異的系統(tǒng)和方法
[0001] 發(fā)明背景
[0002] 下一代測序(NGS)允許小型、廉價(jià)的基因組測序,其周轉(zhuǎn)時(shí)間以天計(jì)算。然而,正 如對(duì)NGS的一般執(zhí)行和理解,基因組的所有區(qū)域以大致相等的概率被測序,這意味著大量 的基因組序列被收集并棄去,以收集來自相對(duì)低的百分比的區(qū)域的序列信息,在所述區(qū)域 中功能已被充分了解,足以詮釋潛在突變。一般而言,作為與測序分開的步驟,僅從全基因 組樣品純化那些人們感興趣的區(qū)域。其在當(dāng)前技術(shù)水平上通常是持續(xù)數(shù)天的低效方法。
[0003] 直接靶向測序(DTS)是對(duì)一個(gè)由Illumina公司采用的標(biāo)準(zhǔn)測序方案的修改,其還 允許測序基板(即流動(dòng)池)成為基因組序列捕獲基板。由于不向典型的下一代測序方案的 正常流程添加另一個(gè)儀器,因此DTS方案修改測序表面以從專門制備的文庫捕獲gDNA。隨 后如對(duì)正常gDNA文庫一樣對(duì)捕獲的文庫進(jìn)行測序。然而,測序基板和根據(jù)先前建議的伴隨 文庫制備的修改導(dǎo)致低效率,降低的可靠性和可重復(fù)性,并且浪費(fèi)寶貴的樣品。因此期望改 進(jìn)DTS過程。
[0004] 發(fā)明概述
[0005] 在一個(gè)方面,本發(fā)明提供了用于對(duì)多個(gè)靶多核苷酸進(jìn)行測序的裝置和制造裝置方 法。在一個(gè)實(shí)施方案中,該方法包括:(a)提供具有反應(yīng)性表面的固體載體;以及(b)將多 個(gè)寡核苷酸附接于固體載體。在一些實(shí)施方案中,所述多個(gè)寡核苷酸包括:(i)多個(gè)不同的 包含序列A和序列B的第一寡核苷酸,其中序列A在所有第一寡核苷酸中是共同的;并且另 外地其中序列B對(duì)于每一個(gè)不同的第一寡核苷酸是不同的,位于每一個(gè)第一寡核苷酸的3' 末端,并且與包含致病性遺傳變體的序列或致病性遺傳變體的200個(gè)核苷酸內(nèi)的的序列互 補(bǔ);(ii)多個(gè)在各自的3'端包含序列A的第二寡核苷酸;和(iii)多個(gè)在各自的3'端包 含序列C的第三寡核苷酸,其中序列C與由多個(gè)不同的靶多核苷酸共享的序列相同。在一 些實(shí)施方案中,A、B和C是不同的序列,并且各自包含5個(gè)或更多個(gè)核苷酸。
[0006] 在一些實(shí)施方案中,序列A、B和C彼此具有低于90%的序列同一性。在一些實(shí)施 方案中,所述多個(gè)寡核苷酸包含反應(yīng)性部分,以便反應(yīng)性表面與反應(yīng)性部分之間的反應(yīng)將 所述多個(gè)寡核苷酸附接于固體載體。在一些實(shí)施方案中,多個(gè)第一寡核苷酸包含至少約100 個(gè)不同的各自包含不同的序列B的第一寡核苷酸。在一些實(shí)施方案中,多個(gè)第一寡核苷酸 的一個(gè)或多個(gè)的序列B包含選自圖4中顯示的SEQ ID NO 22-121的序列。在一些實(shí)施方 案中,固體載體是流動(dòng)池的通道。在一些實(shí)施方案中,反應(yīng)性表面包含官能化聚丙烯酰胺, 其可從包含丙烯酰胺、N-(5-溴乙酰氨基戊基)丙烯酰胺、四甲基乙二胺和過硫酸鉀的聚合 混合物產(chǎn)生。在一些實(shí)施方案中,多個(gè)第二寡核苷酸的量比多個(gè)第一寡核苷酸的量高至少 約1000倍或10000倍;并且多個(gè)第二寡核苷酸的量與多個(gè)第三寡核苷酸的量以約1:1的比 率存在。在一些實(shí)施方案中,將第一寡核苷酸的每一個(gè)以約50pM的濃度添加至固體載體。 在一些實(shí)施方案中,多個(gè)第二寡核苷酸和多個(gè)第三寡核苷酸的濃度為約500nM。在一些實(shí)施 方案中,本發(fā)明提供了對(duì)多個(gè)靶多核苷酸進(jìn)行測序的方法,所述方法包括將根據(jù)本發(fā)明的 方法產(chǎn)生的裝置暴露于包含靶多核苷酸和非靶多核苷酸的樣品,其中相對(duì)于非靶基因組序 列富集靶基因組序列的測序數(shù)據(jù)。在一些實(shí)施方案中,多個(gè)不同的第一寡核苷酸還包括包 含序列A和序列B的另外的第一寡核苷酸,其中序列B對(duì)于每一個(gè)不同的另外的第一寡核 苷酸是不同的,位于每一個(gè)另外的第一寡核苷酸的3'末端,并且與包含非主題序列的序列 或非主題序列的200個(gè)核苷酸內(nèi)的序列互補(bǔ)。
[0007] 在一個(gè)方面,本發(fā)明提供了用于對(duì)樣品中的多個(gè)靶多核苷酸進(jìn)行測序的方法。在 一個(gè)實(shí)施方案中,所述方法包括:(a)對(duì)靶多核苷酸進(jìn)行片段化以產(chǎn)生片段化多核苷酸; (b)將銜接頭寡核苷酸連接于片段化多核苷酸,每一個(gè)銜接頭寡核苷酸包含序列D,以產(chǎn)生 銜接頭連接的多核苷酸,其在所述銜接頭連接的多核苷酸的兩個(gè)末端包含與互補(bǔ)序列D'雜 交的序列D,任選地其中序列D'通過靶多核苷酸3'末端的延伸產(chǎn)生;(c)使用包含序列C、 序列D和與樣品相關(guān)的條形碼的擴(kuò)增引物擴(kuò)增適合的多核苷酸,其中序列D位于擴(kuò)增引物 的3'末端;(d)將經(jīng)擴(kuò)增的靶多核苷酸與附接于固體表面的多個(gè)不同的第一寡核苷酸雜 交;(e)在固體表面上進(jìn)行橋擴(kuò)增;和(f)對(duì)來自步驟(e)的多個(gè)多核苷酸進(jìn)行測序。固體 表面可包含多個(gè)本文中描述的寡核苷酸,包括本文中描述的和任選地按照本文中描述的方 法產(chǎn)生的裝置。在一些實(shí)施方案中,固體表面包含(i)多個(gè)不同的包含序列A和序列B的 第一寡核苷酸,其中序列A在所有第一寡核苷酸中是共同的;并且另外地其中序列B對(duì)于每 一個(gè)不同的寡核苷酸是不同的,位于每一個(gè)第一寡核苷酸的3'末端,并且與包含致病性遺 傳變體的序列或致病性遺傳變體的200個(gè)核苷酸內(nèi)的序列互補(bǔ);(ii)多個(gè)第二寡核苷酸, 所述寡核苷酸在各自的3'末端包含序列A ;和(iii)多個(gè)第三寡核苷酸,所述寡核苷酸在 各自的3'末端包含序列C。在一些實(shí)施方案中,序列A、B和C是不同的序列并且各自包含 5個(gè)或更多個(gè)核苷酸。
[0008] 在一些實(shí)施方案中,所述方法還包括在步驟(d)之前包括第二擴(kuò)增步驟,其中使 用第二擴(kuò)增引物擴(kuò)增經(jīng)擴(kuò)增的多核苷酸,所述引物具有包含與在步驟(c)中添加至靶多核 苷酸的一個(gè)或多個(gè)序列的至少一部分互補(bǔ)的序列的3'末端。在一些實(shí)施方案中,序列A、B 和C彼此具有小于90%的序列同一性。在一些實(shí)施方案中,多個(gè)第一寡核苷酸包含至少約 100個(gè)不同的各自包含不同的序列B的第一寡核苷酸。在一些實(shí)施方案中,多個(gè)第一寡核苷 酸的一個(gè)或多個(gè)的序列B包含選自SEQ ID NO 22-121的序列,如圖4中所示的。在一些實(shí) 施方案中,每一個(gè)條形碼與一池兩個(gè)或更多個(gè)樣品中的每一個(gè)其它條形碼在至少3個(gè)核苷 酸位置上相異。在一些實(shí)施方案中,將樣品混合,以使所有四個(gè)核苷酸堿基A、G、C和T大 致均勻地出現(xiàn)在沿著池中的每一個(gè)條形碼的每一個(gè)位置上。在一些實(shí)施方案中,一個(gè)或多 個(gè)條形碼選自 AGGTCA、CAGCAG、ACTGCT、TAACGG、GGATTA、AACCTG、GCCGTT、CGTTGA、GTAACC、 CTTAAC、TGCTAA、GATCCG、CCAGGT、TTCAGC、ATGATC 和 TCGGAT。在一些實(shí)施方案中,條形碼位 于序列C與序列D之間。在一些實(shí)施方案中,所述方法還包括基于條形碼序列鑒定靶多核 苷酸所源自的樣品的步驟。在一些實(shí)施方案中,片段化多核苷酸具有約200至約1000個(gè)堿 基對(duì)的中值長度。在一些實(shí)施方案中,步驟(f)包括(i)通過延伸與位于條形碼3'的位置 雜交的第一測序引物進(jìn)行的測序;和隨后(ii)通過延伸與位于條形碼的5'的位置雜交的 第二測序引物進(jìn)行測序。在一些實(shí)施方案中,固體載體為流動(dòng)池的通道。在一些實(shí)施方案 中,利用自動(dòng)化系統(tǒng)例如處理機(jī)(例如Biomek FXP)進(jìn)行步驟(b)和(c)。在一些實(shí)施方案 中,利用自動(dòng)化系統(tǒng)例如包含cBot機(jī)器的系統(tǒng)進(jìn)行步驟(d)。在一些實(shí)施方案中,進(jìn)行步驟 (d)的自動(dòng)化系統(tǒng)也進(jìn)行步驟(e)。在一些實(shí)施方案中,產(chǎn)生至少約100個(gè)不同的靶多核苷 酸的測序數(shù)據(jù)。在一些實(shí)施方案中,步驟(d)在單個(gè)流動(dòng)池中使用至少約IOyg DNA。在一 些實(shí)施方案中,并行地對(duì)多個(gè)樣品進(jìn)行所述方法。在一些實(shí)施方案中,以一式四份對(duì)多個(gè)樣 品中的每一個(gè)樣品進(jìn)行步驟(C)。在一些實(shí)施方案中,在步驟(a)、(b)和(c)的一個(gè)或多 個(gè)步驟完成時(shí)測量DNA的量。在一些實(shí)施方案中,步驟(a)、(b)和(c)的一個(gè)或多個(gè)步驟 對(duì)于在該步驟結(jié)束時(shí)剩余的以用于下一步驟的DNA的量具有最小閾值,例如分別為1 μ g、 0.8 μ g、13 μ g。在一些實(shí)施方案中,在單個(gè)反應(yīng)中產(chǎn)生至少約IO8個(gè)靶序列的測序數(shù)據(jù)。在 一些實(shí)施方案中,在單個(gè)反應(yīng)中產(chǎn)生少于約IO 7個(gè)靶序列的測序數(shù)據(jù)。在一些實(shí)施方案中, 測定一個(gè)或多個(gè)致病性遺傳變體的存在或不存在,準(zhǔn)確度為至少約90%。在一些實(shí)施方案 中,多個(gè)不同的第一寡核苷酸還包括包含序列A和序列B的另外的第一寡核苷酸,其中序列 B對(duì)于每一個(gè)不同的另外的第一寡核苷酸是不同的,位于在每一個(gè)另外的第一寡核苷酸的 3'端,并且與包含非主題序列的序列或非主題序列的200個(gè)核苷酸內(nèi)的序列互補(bǔ)。
[0009] 在一個(gè)方面,本發(fā)明提供了富集樣品中的多個(gè)不同的靶多核苷酸的方法。在一些 實(shí)施方案中,該方法包括:(a)將銜接頭寡核苷酸聯(lián)接于每一個(gè)靶多核苷酸,其中銜接頭寡 核苷酸包含序列Y ; (b)將多個(gè)不同的寡核苷酸引物與銜接頭連接的靶多核苷酸雜交,其中 每一個(gè)寡核苷酸引物包含序列Z和序列W ;其中序列Z在所有寡核苷酸引物中是共同的;并 且另外地其中序列W對(duì)于每一個(gè)不同的寡核苷酸引物是不同的,位于每一個(gè)寡核苷酸引物 的3'末端,并且與包含致病性遺傳變體的序列或致病性遺傳變體的200個(gè)核苷酸內(nèi)的序列 互補(bǔ);(c)在延伸反應(yīng)中,沿銜接頭連接的靶多核苷酸延伸寡核苷酸引物,以產(chǎn)生包含序列 Z和序列Y'的延伸的引物,其中序列Y'與序列Y互補(bǔ);和(d)使用一對(duì)擴(kuò)增引物指數(shù)擴(kuò)增 延伸的引物,所述引物對(duì)包括:(i)第一擴(kuò)增引物,其包含序列V和序列Z,其中序列Z位于 第一擴(kuò)增引物的3'末端;和(ii)第二擴(kuò)增引物,其包含序列X和序列Y,其中序列Y位于 第二擴(kuò)增引物的3'末端。在一些實(shí)施方案中,序列W、Y和Z是不同的序列,并且各自包含 5個(gè)或更多個(gè)核苷酸。每一個(gè)寡核苷酸引物可包括或可以不包括第一結(jié)合伴侶。在一些實(shí) 施方案中,該方法還包括,在步驟(d)之前,將延伸的引物暴露于包含結(jié)合第一結(jié)合伴侶的 第二結(jié)合伴侶的固體表面,由此將延伸的引物從延伸反應(yīng)的一個(gè)或多個(gè)組分純化出來。在 一些實(shí)施方案中,所述方法不包括純化步驟。
[0010] 在一些實(shí)施方案中,所述多個(gè)寡核苷酸引物包含至少約100個(gè)不同的各自包含不 同序列W的寡核苷酸引物。在一些實(shí)施方案中,所述多個(gè)寡核苷酸引物的一個(gè)或多個(gè)的序 列W包含選自SEQ ID NO 22-121的序列,如圖4中所示。在一些實(shí)施方案中,靶多核苷酸 包含片段化的多核苷酸。在一些實(shí)施方案中,片段化的多核苷酸具有約200至約1000個(gè)堿 基對(duì)的中值長度。在一些實(shí)施方案中,在步驟(a)之前處理片段化的多核苷酸以產(chǎn)生鈍端 或具有確定的懸突,例如由腺嘌呤組成的懸突。在一些實(shí)施方案中,第一結(jié)合伴侶和第二結(jié) 合伴侶是結(jié)合對(duì)的成員,例如鏈霉親和素和生物素。在一些實(shí)施方案中,固體表面是珠粒, 例如響應(yīng)于磁場的珠粒。在一些實(shí)施方案中,所述純化步驟包括施加磁場以純化珠粒。在 一些實(shí)施方案中,將延伸的引物從靶多核苷酸純化出來。在一些實(shí)施方案中,所述方法還包 括對(duì)步驟(d)的產(chǎn)物進(jìn)行測序。在一些實(shí)施方案中,測序包括利用附接于固體載體的結(jié)合 的寡核苷酸,通過橋擴(kuò)增來擴(kuò)增步驟(d)的產(chǎn)物,以產(chǎn)生雙鏈橋多核苷酸;在結(jié)合的寡核苷 酸中的切割位點(diǎn)上切割橋多核苷酸的一條鏈;使切割的橋多核苷酸變性,以產(chǎn)生包含附接 于固體載體的靶序列的游離單鏈多核苷酸;和通過延伸與在步驟(a)、(c)或(d)的一個(gè)或 多個(gè)步驟過程中添加的一個(gè)或多個(gè)序列的至少一部分雜交的測序引物來對(duì)靶序列進(jìn)行測 序。在一些實(shí)施方案中,測序包括通過延伸固定在固體載體上的結(jié)合的引物以產(chǎn)生結(jié)合的 模板來擴(kuò)增步驟(d)的產(chǎn)物,將測序引物與結(jié)合的模板雜交,延伸測序引物,和鑒定通過測 序引物的延伸添加的核苷酸。在一些實(shí)施方案中,多個(gè)不同的寡核苷酸引物還包括另外的 寡核苷酸引物,其包含序列Z與序列W,其中序列W對(duì)于每一個(gè)另外的寡核苷酸引物是不同 的,位于每一個(gè)另外的寡核苷酸引物的3'末端,并且與包含非主題序列的序列或非主題序 列的200個(gè)核苷酸內(nèi)的序列互補(bǔ)。
[0011] 在一個(gè)方面,本發(fā)明提供了富集樣品中的多個(gè)不同的靶多核苷酸的方法。在一些 實(shí)施方案中,所述方法包括:(a)將多個(gè)不同的寡核苷酸引物與靶多核苷酸雜交,其中每一 個(gè)寡核苷酸引物包含序列Z和序列W ;其中序列Z在所有寡核苷酸引物中是共同的;并且 另外地其中序列W對(duì)于每一個(gè)不同的寡核苷酸引物是不同的,位于每一個(gè)寡核苷酸引物的 3'末端,并且與包含致病性遺傳變體的序列或致病性遺傳變體的200個(gè)核苷酸內(nèi)的序列互 補(bǔ);(b)在延伸反應(yīng)中,沿著靶多核苷酸延伸寡核苷酸引物以產(chǎn)生延伸的引物;(c)將銜接 頭寡核苷酸連接于每一個(gè)延伸的引物,其中銜接頭寡核苷酸包含序列Y',并且另外地其中 序列Y'為序列Y的互補(bǔ)序列;和(d)使用一對(duì)擴(kuò)增引物指數(shù)擴(kuò)增延伸的引物,所述引物對(duì) 包含(i)第一擴(kuò)增引物,其包含序列V和序列Z,其中序列Z位于第一擴(kuò)增引物的3'末端; 和(ii)第二擴(kuò)增引物,其包含序列X和序列Y,其中序列Y位于第二擴(kuò)增引物的3'末端。 在一些實(shí)施方案中,序列W、Y和Z是不同的序列,并且各自包含5個(gè)或更多個(gè)核苷酸。每 一個(gè)寡核苷酸引物可包含或可以不包含第一結(jié)合伴侶。在一些實(shí)施方案中,所述方法在步 驟(d)之前還包括將延伸的引物暴露于固體表面(其包含結(jié)合第一結(jié)合伴侶的第二結(jié)合伴 侶),由此將延伸的引物從延伸反應(yīng)的一個(gè)或多個(gè)組分純化出來。在一些實(shí)施方案中,所述 方法不包括純化步驟。
[0012] 在一些實(shí)施方案中,所述多個(gè)寡核苷酸引物包括至少約100個(gè)不同的各自包含不 同的序列W的寡核苷酸引物。在一些實(shí)施方案中,所述多個(gè)寡核苷酸引物的一個(gè)或多個(gè)的 序列W包含選自SEQ ID NO 22-121的序列,如圖4中顯示的。在一些實(shí)施方案中,靶多核苷 酸包含片段化多核苷酸。在一些實(shí)施方案中,片段化多核苷酸具有約200至約1000個(gè)堿基 對(duì)的中值長度。在一些實(shí)施方案中,步驟(b)還在步驟(c)之前包括處理延伸的引物和與 它們雜交的靶多核苷酸以產(chǎn)生鈍端或具有確定的懸突,例如由腺嘌呤組成的懸突。在一些 實(shí)施方案中,第一結(jié)合伴侶和第二結(jié)合伴侶為結(jié)合對(duì)的成員,例如鏈霉親和素和生物素。在 一些實(shí)施方案中,固體表面是珠粒,例如響應(yīng)于磁場的珠粒。在一些實(shí)施方案中,純化步驟 包括施加磁場以純化珠粒。在一些實(shí)施方案中,將延伸的引物從靶多核苷酸純化出來。在 一些實(shí)施方案中,所述方法還包括對(duì)步驟(d)的產(chǎn)物進(jìn)行測序。在一些實(shí)施方案中,測序包 括利用附接至固體載體的結(jié)合的寡核苷酸,通過橋擴(kuò)增來擴(kuò)增步驟(d)的產(chǎn)物,以產(chǎn)生雙 鏈橋多核苷酸,在結(jié)合的寡核苷酸中的切割位點(diǎn)上切割橋多核苷酸的一條鏈,使切割的橋 多核苷酸變性以產(chǎn)生附接于固體載體的包含靶序列的游離單鏈多核苷酸,和通過延伸與在 步驟(b)、(c)或(d)的一個(gè)或多個(gè)步驟過程中添加的一個(gè)或多個(gè)序列的至少一部分雜交的 測序引物來對(duì)靶序列進(jìn)行測序。在一些實(shí)施方案中,測序包括通過延伸固體載體上的結(jié)合 的引物擴(kuò)增步驟(d)的產(chǎn)物以產(chǎn)生結(jié)合的模板,將測序引物與結(jié)合的模板雜交,延伸測序 引物,和鑒定通過延伸測序引物添加的核苷酸。在一些實(shí)施方案中,多個(gè)不同的寡核苷酸引 物還包括另外的包含序列Z和序列W的寡核苷酸引物,其中序列W對(duì)于每一個(gè)不同的另外 的寡核苷酸引物是不同的,位于每一個(gè)另外的寡核苷酸引物的3'末端,并且與包含非主題 序列的序列或非主題序列的200個(gè)核苷酸內(nèi)的序列互補(bǔ)。
[0013] 在一個(gè)方面,本發(fā)明提供了檢測受試者的基因組的遺傳變異的方法。在一些實(shí)施 方案中,所述方法包括:(a)提供多個(gè)簇的多核苷酸,其中(i)每一個(gè)簇包含多個(gè)拷貝的附 接于載體的核酸雙鏈體;(ii)簇中的每一個(gè)雙鏈體包含從5'至3'包含序列A-B-G'-D'-C' 的第一分子和從5'至3'包含序列C-D-G-B' -A'的第二分子;(iii)序列A'與序列A互 補(bǔ),序列B'與序列B互補(bǔ),序列C'與序列C互補(bǔ),序列D'與序列D互補(bǔ),以及序列G'與序 列G互補(bǔ);(iv)序列G為來自受試者的靶多核苷酸序列的一部分,并且對(duì)于多個(gè)簇的每一 個(gè)是不同的;和(V)序列B'在對(duì)應(yīng)的靶多核苷酸序列中相對(duì)于序列G位于5' ;(b)通過延 伸包含序列D的第一引物對(duì)序列G'進(jìn)行測序,以產(chǎn)生每一個(gè)簇的Rl序列;(c)通過延伸包 含序列A的第二引物以產(chǎn)生每一個(gè)簇的R2序列來對(duì)序列B'進(jìn)行測序;(d)使用第一算法 將所有Rl序列與第一參考序列比對(duì)來進(jìn)行第一比對(duì);(e)使用第二算法局部比對(duì)在所述第 一比對(duì)中被鑒定為相對(duì)于第一參考序列可能包含插入或缺失的Rl序列來進(jìn)行第二比對(duì), 以產(chǎn)生針對(duì)每一個(gè)插入或缺失的單個(gè)共有序列比對(duì);(f)通過將所有R2序列與第二參考序 列比對(duì)來進(jìn)行R2比對(duì);和(g)將鑒定通過步驟(d)至(f)鑒定的序列變異的報(bào)告?zhèn)魉徒o接 收者。
[0014] 在一些實(shí)施方案中,第一參考序列包括參考基因組。在一些實(shí)施方案中,第二參考 序列由每一個(gè)不同的革G多核苷酸的每一個(gè)序列B組成。在一些實(shí)施方案中,將R2序列獨(dú)立 于Rl序列進(jìn)行比對(duì)。在一些實(shí)施方案中,所述方法還包括棄去與第一參考序列中的第一位 置比對(duì)的Rl序列,所述第一位置距離相同簇的R2序列與其比對(duì)的第一參考序列中的第二 位置超過10, 〇〇〇個(gè)堿基對(duì)。在一些實(shí)施方案中,所述方法還包括當(dāng)要?jiǎng)h除的Rl序列的部分 與簇的序列B'的至少一部分相同并且序列G比該簇的Rl序列短時(shí),刪除該簇的Rl序列的 一部分。在一些實(shí)施方案中,所述方法還包括當(dāng)要?jiǎng)h除的Rl序列的部分與任何序列B'的至 少一部分相同時(shí),刪除該簇的Rl序列的一部分時(shí),所述部分包括Rl的5'或3'核苷酸,并且 (i)未產(chǎn)生簇的R2序列或(ii)產(chǎn)生的R2序列與任何序列B不相同。在一些實(shí)施方案中, 相較于當(dāng)系統(tǒng)使用第二算法進(jìn)行第一比對(duì)時(shí)花費(fèi)的時(shí)間和/或使用的系統(tǒng)內(nèi)存,使用第一 算法進(jìn)行與系統(tǒng)的第一比對(duì)花費(fèi)更少的時(shí)間和/或使用更少的系統(tǒng)內(nèi)存來比對(duì)所有Rl讀 數(shù)。在一些實(shí)施方案中,第一算法基于Burrows-Wheeler轉(zhuǎn)化。在一些實(shí)施方案中,第二算 法基于Smith-Waterman算法或哈希函數(shù)。在一些實(shí)施方案中,產(chǎn)生至少100個(gè)不同革El多核 苷酸的Rl和R2序列。在一些實(shí)施方案中,序列A、B、C和D的長度為至少5個(gè)核苷酸。在 一些實(shí)施方案中,每一個(gè)簇的序列G的長度為1至1000個(gè)核苷酸。在一些實(shí)施方案中,多個(gè) 簇的每一個(gè)探針序列B與包含致病性遺傳變體的序列或致病性遺傳變體的200個(gè)核苷酸內(nèi) 的序列互補(bǔ)。在一些實(shí)施方案中,一個(gè)或多個(gè)簇的序列B包含選自SEQ ID N0:22-121的序 列。在一些實(shí)施方案中,在單個(gè)反應(yīng)中產(chǎn)生至少約IO8個(gè)簇的Rl序列。在一些實(shí)施方案中, 測定一個(gè)或多個(gè)致病性遺傳變體的存在、不存在或等位基因比率,精確度為至少約90%。在 一些實(shí)施方案中,共有序列鑒定靶多核苷酸中的插入、缺失或插入和缺失,精確度為至少約 90%。在一些實(shí)施方案中,多個(gè)簇的每一個(gè)探針序列B與包含非主題序列的序列或非主題 序列的200個(gè)核苷酸內(nèi)的序列互補(bǔ)。在一些實(shí)施方案中,測定一個(gè)或多個(gè)非主題序列的存 在或不存在,精確度為至少約90%。在一些實(shí)施方案中,所述方法還包括基于受試者的Rl 序列計(jì)算多個(gè)概率并將所述概率包含在報(bào)告中,其中每一個(gè)概率為受試者或受試者的后代 患有或患上疾病或性狀的概率。
[0015] 在一些實(shí)施方案中,每一個(gè)第一分子包含條形碼序列。在一些實(shí)施方案中,每一個(gè) 條形碼不同于并行分析的多個(gè)不同的條形碼中的每一個(gè)其它的條形碼。在一些實(shí)施方案 中,條形碼序列與在單個(gè)反應(yīng)中測序的一池樣品中的單