構(gòu)建測序文庫的方法及其應(yīng)用的制作方法
【專利摘要】本發(fā)明公開了構(gòu)建測序文庫的方法及其應(yīng)用,該方法包括:(a)在雙鏈DNA片段的兩端分別連接接頭,以便獲得連接產(chǎn)物;(b)將所述連接產(chǎn)物裂解為單鏈DNA片段;(c)利用探針對所述單鏈DNA片段進行篩選;(d)利用第一引物對所述單鏈DNA片段進行鏈延伸反應(yīng),以便獲得鏈延伸產(chǎn)物;(e)對所述鏈延伸產(chǎn)物進行擴增,以便獲得擴增產(chǎn)物,所述擴增產(chǎn)物構(gòu)成所述測序文庫。還公開了測序方法、確定核酸序列的方法、構(gòu)建測序文庫的裝置、測序設(shè)備以及確定核酸序列的系統(tǒng)。
【專利說明】構(gòu)建測序文庫的方法及其應(yīng)用
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及生物醫(yī)學領(lǐng)域。具體而言,本發(fā)明涉及構(gòu)建測序文庫的方法、測序方 法、確定核酸序列的方法、構(gòu)建測序文庫的裝置、測序設(shè)備以及確定核酸序列的系統(tǒng)。
【背景技術(shù)】
[0002] 高通量測序日益被關(guān)注,但是目前高通量測序用于低頻率突變的檢測仍有待改 進。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明旨在至少解決現(xiàn)有技術(shù)中存在的技術(shù)問題之一。為此,根據(jù)本發(fā)明的實施 例,本發(fā)明提出了用于構(gòu)建測序文庫的方法以及檢測低頻率突變的手段。
[0004] 在本發(fā)明的第一方面,本發(fā)明提出了一種構(gòu)建測序文庫的方法。根據(jù)本發(fā)明的實 施例,該方法包括:(a)在雙鏈DNA片段的兩端分別連接接頭,以便獲得連接產(chǎn)物,其中,所 述接頭包括第一鏈和第二鏈,所述第一鏈和第二鏈部分匹配并且所述第一鏈包含第一標簽 序列,以便所述接頭上限定出雙鏈區(qū)和兩個單鏈尾部,所述兩個單鏈尾部之一的序列中包 含第一標簽;(b)將所述連接產(chǎn)物裂解為單鏈DNA片段;(c)利用探針對所述單鏈DNA片段 進行篩選,其中,所述探針特異性識別預(yù)定區(qū)域,其中,所述預(yù)定區(qū)域包括下列之一 :(1)表 1所示基因的至少之一;(2)(1)的CDS區(qū)域;以及(3) (2)的上下游至少IObp的區(qū)域;(d) 利用第一引物對所述單鏈DNA片段進行鏈延伸反應(yīng),以便獲得鏈延伸產(chǎn)物,其中,所述第一 引物包括第二標簽序列,并且所述第一引物適于與所述接頭的第一鏈形成雙鏈結(jié)構(gòu),只是 所述第一標簽序列與所述第二標簽序列之間存在錯配;(e)對所述鏈延伸產(chǎn)物進行擴增, 以便獲得擴增產(chǎn)物,所述擴增產(chǎn)物構(gòu)成所述測序文庫,其中,所述擴增采用適于同時擴增所 述第一標簽序列和所述第二標簽序列的引物。。
[0005] 由此,利用根據(jù)本發(fā)明實施例的構(gòu)建測序文庫的方法,能夠有效地構(gòu)建測序文庫, 同時,所構(gòu)建的測序文庫中,針對相同的雙鏈DNA片段(在本文中也被稱為"源序列")的每 條鏈,分別獲得了具有第一標簽序列和第二標簽序列的擴增產(chǎn)物,由此,在后續(xù)測序結(jié)果的 分析中,可以依據(jù)兩種標簽的測序結(jié)果進行互相校正,提高分析結(jié)果的可靠性。
[0006] 根據(jù)本發(fā)明的實施例,所述雙鏈DNA片段是通過下列步驟獲得的:將核酸樣本進 行末端修復,以便獲得經(jīng)過修復的核酸樣本;以及在所述核酸樣本的5'末端添加堿基A,以 便獲得兩端分別具有粘性末端堿基A的核酸樣本,所述兩端分別具有粘性末端堿基A的核 酸樣本構(gòu)成所述雙鏈DNA片段。由此,可以在后續(xù)操作中,方便地在所述雙鏈DNA片段的兩 端添加接頭。從而,提高了構(gòu)建測序文庫的效率。
[0007] 根據(jù)本發(fā)明的實施例,所述核酸樣本為人基因組DNA的至少一部分或游離核酸。 根據(jù)本發(fā)明的實施例,所述人游離核酸是從患者的外周血提取的。根據(jù)本發(fā)明的實施例,所 述患者患有癌癥,所述癌癥為選自下列的至少之一:膀胱癌、前列腺癌、肺癌、結(jié)直腸癌、胃 癌、乳腺癌、腎癌、胰腺癌、卵巢癌、子宮內(nèi)膜癌、甲狀腺癌、宮頸癌、食管癌以及肝癌。由此, 利用本發(fā)明實施例的方法,能夠有效地對人類疾病患者的基因突變進行有效的分析,進而 能夠有效用于常見腫瘤的早診、個體化用藥、以及術(shù)后監(jiān)控等。
[0008] 根據(jù)本發(fā)明的實施例,所述人基因組DNA的至少一部分是通過對人基因組DNA進 行隨機打斷而獲得的。由此,可以在后續(xù)操作中,方便地在所述雙鏈DNA片段的兩端添加接 頭。從而,提1? 了構(gòu)建測序文庫的效率。
[0009] 根據(jù)本發(fā)明的實施例,所述接頭具有3'堿基T粘性末端。由此,可以在后續(xù)操作 中,方便地在所述雙鏈DNA片段的兩端添加接頭。從而,提高了構(gòu)建測序文庫的效率。
[0010] 根據(jù)本發(fā)明的實施例,所述單鏈DNA片段是通過將所述連接產(chǎn)物進行變性處理獲 得的。由此,可以快速有效的獲得單鏈DNA片段。根據(jù)本發(fā)明的一些實施例,所述變性處理 可以為熱變性處理或堿變性處理。
[0011] 根據(jù)本發(fā)明的實施例,所述探針是以芯片的形式提供的。由此,可以提高探針篩選 的效率。
[0012] 根據(jù)本發(fā)明的實施例,在存在UDG酶/FPG酶時,進行所述鏈延伸反應(yīng)。由此,可以 有效地對存在損傷的DNA在鏈延伸過程中進行修復,減少假陽性的產(chǎn)生,提高構(gòu)建測序文 庫的質(zhì)量。
[0013] 根據(jù)本發(fā)明的實施例,所述第一標簽序列和所述第二標簽序列分別獨立地長度為 4?10nt。根據(jù)本發(fā)明的實施例,所述第一標簽序列和所述第二標簽序列的長度均為8nt。 根據(jù)本發(fā)明的實施例,所述第一標簽序列和所述第二標簽序列之間存在至少2nt的錯配。 發(fā)明人驚奇地發(fā)現(xiàn),采用如此設(shè)置,能夠有效地提高在后續(xù)分析中,利用第一標簽序列和第 二標簽序列進行校正的效率。
[0014] 根據(jù)本發(fā)明的實施例,所述接頭的第一鏈具有SEQ ID NO :1所示的序列,所述接頭 的第二鏈具有SEQ ID NO :2所示的序列,所述第一標簽具有SEQ ID NO :3-6中任一項所示 的序列,所述第二標簽具有SEQ ID NO :7-10中至少之一所示的序列,所述第一引物具有SEQ ID NO :11所示的序列,所述適于同時擴增所述第一標簽序列和所述第二標簽序列的引物具 有SEQ ID NO : 12和SEQ ID NO : 13所示的序列。
[0015]
【權(quán)利要求】
1. 一種構(gòu)建測序文庫的方法,其特征在于,包括: (a) 在雙鏈DNA片段的兩端分別連接接頭,以便獲得連接產(chǎn)物,其中,所述接頭包括第 一鏈和第二鏈,所述第一鏈和第二鏈部分匹配并且所述第一鏈包含第一標簽序列,以便所 述接頭上限定出雙鏈區(qū)和兩個單鏈尾部,所述兩個單鏈尾部之一的序列中包含第一標簽; (b) 將所述連接產(chǎn)物裂解為單鏈DNA片段; (c) 利用探針對所述單鏈DNA片段進行篩選,其中,所述探針特異性識別預(yù)定區(qū)域,其 中,所述預(yù)定區(qū)域包括下列之一: (1) 表1所示基因的至少之一; (2) (1)的CDS區(qū)域;以及 (3) (2)的上下游至少10bp的區(qū)域; (d) 利用第一引物對所述單鏈DNA片段進行鏈延伸反應(yīng),以便獲得鏈延伸產(chǎn)物,其中, 所述第一引物包括第二標簽序列,并且所述第一引物適于與所述接頭的第一鏈形成雙鏈結(jié) 構(gòu),只是所述第一標簽序列與所述第二標簽序列之間存在錯配; (e) 對所述鏈延伸產(chǎn)物進行擴增,以便獲得擴增產(chǎn)物,所述擴增產(chǎn)物構(gòu)成所述測序文 庫,其中,所述擴增采用適于同時擴增所述第一標簽序列和所述第二標簽序列的引物。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述雙鏈DNA片段是通過下列步驟獲得 的: 將核酸樣本進行末端修復,以便獲得經(jīng)過修復的核酸樣本;以及 在所述核酸樣本的5'末端添加堿基A,以便獲得兩端分別具有粘性末端堿基A的核酸 樣本,所述兩端分別具有粘性末端堿基A的核酸樣本構(gòu)成所述雙鏈DNA片段, 任選地,所述核酸樣本為人基因組DNA的至少一部分或游離核酸, 任選地,所述人游離核酸是從患者的外周血提取的, 任選地,所述患者患有癌癥,所述癌癥為選自下列的至少之一: 膀胱癌、前列腺癌、肺癌、結(jié)直腸癌、胃癌、乳腺癌、腎癌、胰腺癌、卵巢癌、子宮內(nèi)膜癌、 甲狀腺癌、宮頸癌、食管癌以及肝癌, 任選地,所述人基因組DNA的至少一部分是通過對人基因組DNA進行隨機打斷而獲得 的, 任選地,所述接頭具有3'堿基T粘性末端, 任選地,所述單鏈DNA片段是通過將所述連接產(chǎn)物進行變性處理獲得的, 任選地,所述探針是以芯片的形式提供的, 任選地,在存在UDG酶/FPG酶時,進行所述鏈延伸反應(yīng), 任選地,所述第一標簽序列和所述第二標簽序列分別獨立地長度為4?10nt,優(yōu)選 8nt, 任選地,所述第一標簽序列和所述第二標簽序列的長度均為8nt, 任選地,所述第一標簽序列和所述第二標簽序列之間存在至少2nt的錯配, 任選地,所述接頭的第一鏈具有SEQ ID NO: 1所示的序列,所述接頭的第二鏈具有SEQ ID NO :2所示的序列,所述第一標簽具有SEQ ID NO :3-6中至少之一所示的序列,所述第二 標簽具有SEQ ID NO :7-10中至少之一所示的序列,所述第一引物具有SEQ ID NO :11所示 的序列,所述第二引物具有SEQ ID N0:12所示的序列,所述第三引物具有SEQ ID N0:13所 示的序列。
3. -種測序方法,其特征在于,包括: 根據(jù)權(quán)利要求1或2所述的方法構(gòu)建測序文庫; 對所述測序文庫進行測序, 任選地,在Hiseq2000或Hiseq2500上進行所述測序。
4. 一種確定核酸序列的方法,其特征在于,包括: 針對核酸樣本,根據(jù)權(quán)利要求3所述的方法進行測序,以便獲得由多個測序數(shù)據(jù)構(gòu)成 的測序結(jié)果; 基于所述測序結(jié)果,構(gòu)建至少一個測序數(shù)據(jù)子集,其中,每個測序數(shù)據(jù)子集中的所有測 序數(shù)據(jù)均對應(yīng)核酸樣本上相同的源序列; 針對每一個測序數(shù)據(jù)子集,分別確定與所述第一標簽序列對應(yīng)的測序數(shù)據(jù)為正鏈測序 數(shù)據(jù),與所述第二標簽序列對應(yīng)的測序數(shù)據(jù)為負鏈測序數(shù)據(jù); 針對每一個測序數(shù)據(jù)子集,分別基于所述正鏈測序數(shù)據(jù)和所述負鏈測序數(shù)據(jù),對測序 數(shù)據(jù)進行校正,以便確定經(jīng)過校正的測序數(shù)據(jù);以及 基于所述經(jīng)過校正的測序數(shù)據(jù),確定所述核酸樣本的序列。
5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,所述測序為雙末端測序,所述測序結(jié)果由 多對成對的測序數(shù)據(jù)構(gòu)成, 任選地,基于所述測序結(jié)果,構(gòu)建至少一個測序數(shù)據(jù)子集是通過下列步驟進行的: 針對所述多對成對的測序數(shù)據(jù)的每一對,確定成對測序數(shù)據(jù)索引,所述成對測序數(shù)據(jù) 索引由成對的測序數(shù)據(jù)的每一個的最初N個堿基構(gòu)成,其中,N為10?20之間的整數(shù); 基于所述成對測序數(shù)據(jù)索引,構(gòu)建至少一個初步測序數(shù)據(jù)子集,其中,所述初步測序數(shù) 據(jù)子集中的每一個測序數(shù)據(jù)均具有相同的成對測序數(shù)據(jù)索引;以及 基于所述初步測序數(shù)據(jù)子集中測序數(shù)據(jù)之間的漢明距離,對所述至少一個初步測序數(shù) 據(jù)子集進行細分,以便獲得多個所述測序數(shù)據(jù)子集, 任選地,N為12, 任選地,在所述多個測序數(shù)據(jù)子集的每一個中,任意兩對成對測序數(shù)據(jù)的漢明距離不 超過20, 任選地,在所述多個測序數(shù)據(jù)子集的每一個中,正鏈測序數(shù)據(jù)和負鏈測序數(shù)據(jù)分別為 至少兩個, 任選地,基于所述正鏈測序數(shù)據(jù)和所述負鏈測序數(shù)據(jù),確定經(jīng)過校正的測序數(shù)據(jù)是基 于下列原則進行的: 經(jīng)過校正的測序數(shù)據(jù)中的每一個堿基同時獲得至少50%正鏈測序數(shù)據(jù)和至少50%負 鏈測序數(shù)據(jù)的支持, 任選地,經(jīng)過校正的測序數(shù)據(jù)中的每一個堿基同時獲得至少80%正鏈測序數(shù)據(jù)和至少 80 %負鏈測序數(shù)據(jù)的支持, 任選地,進一步包括: 將所述經(jīng)過校正的測序數(shù)據(jù)比對至參考序列上,并刪除比對質(zhì)量小于30的測序數(shù)據(jù), 任選地,基于所述核酸樣本的序列,進行SNV分析或Indel分析。
6. -種構(gòu)建測序文庫的裝置,其特征在于,包括: 連接單元,用于在雙鏈DNA片段的兩端分別連接接頭,以便獲得連接產(chǎn)物,其中,所述 接頭包括第一鏈和第二鏈,所述第一鏈和第二鏈部分匹配并且所述第一鏈包含第一標簽序 列,以便所述接頭上限定出雙鏈區(qū)和兩個單鏈尾部,所述兩個單鏈尾部之一的序列中包含 第一標簽; 裂解單元,用于將所述連接產(chǎn)物裂解為單鏈DNA片段; 篩選單元,用于在進行所述鏈延伸之前,利用探針對所述單鏈DNA片段進行篩選,其 中,所述探針特異性識別預(yù)定區(qū)域,其中,所述預(yù)定區(qū)域包括下列之一: (1) 表1所示基因的至少之一; (2) (1)的CDS區(qū)域;以及 (3) (2)的上下游至少10bp的區(qū)域; 鏈延伸單元,用于利用第一引物對所述單鏈DNA片段進行鏈延伸反應(yīng),以便獲得鏈延 伸產(chǎn)物,其中,所述第一引物包括第二標簽序列,并且所述第一引物適于與所述接頭的第一 鏈形成雙鏈結(jié)構(gòu),只是所述第一標簽序列與所述第二標簽序列之間存在錯配; 擴增單元,用于對所述鏈延伸產(chǎn)物進行擴增,以便獲得擴增產(chǎn)物,所述擴增產(chǎn)物構(gòu)成所 述測序文庫,其中,所述擴增采用第二引物以及第三引物,所述第二引物識別所述接頭的第 二鏈,所述第三引物被設(shè)置為適于同時擴增所述第一標簽序列和所述第二標簽序列。
7. 根據(jù)權(quán)利要求6所述的裝置,其特征在于,進一步包括: 末端修復單元,用于將核酸樣本進行末端修復,以便獲得經(jīng)過修復的核酸樣本;以及 末端修飾單元,用于在所述核酸樣本的5'末端添加堿基A,以便獲得兩端分別具有粘 性末端堿基A的核酸樣本,所述兩端分別具有粘性末端堿基A的核酸樣本構(gòu)成所述雙鏈DNA 片段, 任選地,所述探針是以芯片的形式提供的, 任選地,在存在UDG酶/FPG酶時,進行所述鏈延伸反應(yīng), 任選地,所述第一標簽序列和所述第二標簽序列分別獨立地長度為4?10nt, 任選地,所述第一標簽序列和所述第二標簽序列的長度均為8nt, 任選地,所述第一標簽序列和所述第二標簽序列之間存在至少2nt的錯配, 任選地,所述接頭的第一鏈具有SEQ ID NO: 1所示的序列,所述接頭的第二鏈具有SEQ ID NO :2所示的序列,所述第一標簽具有SEQ ID NO :3-6中至少之一所示的序列,所述第二 標簽具有SEQ ID NO :7-10中至少之一所示的序列,所述第一引物具有SEQ ID NO :11所示 的序列,所述第二引物具有SEQ ID N0:12所示的序列,所述第三引物具有SEQ ID N0:13所 示的序列。
8. -種測序設(shè)備,其特征在于,包括: 根據(jù)權(quán)利要求6或7所述的構(gòu)建測序文庫的裝置; 測序裝置,用于對所述測序文庫進行測序, 任選地,所述測序裝置為Hiseq2000或Hiseq2500。
9. 一種確定核酸序列的系統(tǒng),其特征在于,包括: 權(quán)利要求8所述的測序設(shè)備,用于針對核酸樣本進行測序,以便獲得由多個測序數(shù)據(jù) 構(gòu)成的測序結(jié)果; 測序數(shù)據(jù)子集構(gòu)建設(shè)備,用于基于所述測序結(jié)果,構(gòu)建至少一個測序數(shù)據(jù)子集,其中, 每個測序數(shù)據(jù)子集中的所有測序數(shù)據(jù)均對應(yīng)核酸樣本上相同的源序列; 測序數(shù)據(jù)分類設(shè)備,用于針對每一個測序數(shù)據(jù)子集,分別確定與所述第一標簽序列對 應(yīng)的測序數(shù)據(jù)為正鏈測序數(shù)據(jù),與所述第二標簽序列對應(yīng)的測序數(shù)據(jù)為負鏈測序數(shù)據(jù); 測序數(shù)據(jù)校正設(shè)備,用于針對每一個測序數(shù)據(jù)子集,分別基于所述正鏈測序數(shù)據(jù)和所 述負鏈測序數(shù)據(jù),對測序數(shù)據(jù)進行校正,以便確定經(jīng)過校正的測序數(shù)據(jù);以及 序列確定設(shè)備,用于基于所述經(jīng)過校正的測序數(shù)據(jù),確定所述核酸樣本的序列。
10.根據(jù)權(quán)利要求9所述的系統(tǒng),其特征在于,所述測序為雙末端測序,所述測序結(jié)果 由多對成對的測序數(shù)據(jù)構(gòu)成, 任選地,測序數(shù)據(jù)子集構(gòu)建設(shè)備包括: 測序數(shù)據(jù)索引確定設(shè)備,用于針對所述多對成對的測序數(shù)據(jù)的每一對,確定成對測序 數(shù)據(jù)索引,所述成對測序數(shù)據(jù)索引由成對的測序數(shù)據(jù)的每一個的最初N個堿基構(gòu)成,其中, N為10?20之間的整數(shù); 初步篩選裝置,用于基于所述成對測序數(shù)據(jù)索引,構(gòu)建至少一個初步測序數(shù)據(jù)子集,其 中,所述初步測序數(shù)據(jù)子集中的每一個測序數(shù)據(jù)均具有相同的成對測序數(shù)據(jù)索引;以及 二次篩選裝置,用于基于所述初步測序數(shù)據(jù)子集中測序數(shù)據(jù)之間的漢明距離,對所述 至少一個初步測序數(shù)據(jù)子集進行細分,以便獲得多個所述測序數(shù)據(jù)子集, 任選地,N為12, 任選地,在所述多個測序數(shù)據(jù)子集的每一個中,任意兩對成對測序數(shù)據(jù)的漢明距離不 超過20, 任選地,在所述多個測序數(shù)據(jù)子集的每一個中,正鏈測序數(shù)據(jù)和負鏈測序數(shù)據(jù)分別為 至少兩個, 任選地,基于所述正鏈測序數(shù)據(jù)和所述負鏈測序數(shù)據(jù),確定經(jīng)過校正的測序數(shù)據(jù)是基 于下列原則進行的: 經(jīng)過校正的測序數(shù)據(jù)中的每一個堿基同時獲得至少50%正鏈測序數(shù)據(jù)和至少50%負 鏈測序數(shù)據(jù)的支持, 任選地,經(jīng)過校正的測序數(shù)據(jù)中的每一個堿基同時獲得至少80 %正鏈測序數(shù)據(jù)和至少 80 %負鏈測序數(shù)據(jù)的支持, 任選地,進一步包括: 將所述經(jīng)過校正的測序數(shù)據(jù)比對至參考序列上,并刪除比對質(zhì)量小于30的測序數(shù)據(jù), 任選地,進一步包括序列分析裝置,所述序列分析裝置用于基于所述核酸樣本的序列, 進行SNV分析或Indel分析。
【文檔編號】C12Q1/68GK104294371SQ201410520223
【公開日】2015年1月21日 申請日期:2014年9月30日 優(yōu)先權(quán)日:2014年9月30日
【發(fā)明者】管彥芳, 錢朝陽, 呂小星, 常連鵬, 易鑫, 朱紅梅, 楊玲, 吳仁花 申請人:天津華大基因科技有限公司, 深圳華大基因科技有限公司