染色體跨度的單體型圖及其構(gòu)建方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及單體型圖譜構(gòu)建領(lǐng)域,具體而言,涉及一種染色體跨度的單體型圖及 其構(gòu)建方法。
【背景技術(shù)】
[0002] SNP是指在染色體基因組水平上單個(gè)核苷酸的變異引起的DNA序列多態(tài)性。位于 一條染色體上的或某一區(qū)域的一組SNP等位位點(diǎn)被稱為單體型(haplotype)。單體型是 單倍體型的簡(jiǎn)稱,是指在同一染色體上進(jìn)行共同遺傳的多個(gè)基因座上等位基因的組合。按 照某一指定基因座上基因重組發(fā)生的數(shù)量,單體型甚至可以指至少兩個(gè)基因座或整個(gè)染色 體。高質(zhì)量的單體型在物種進(jìn)化歷史、表型性狀的關(guān)聯(lián)分析等方面有重要的價(jià)值。
[0003] 目前,國(guó)內(nèi)在單體型的構(gòu)建方面,采用的方法主要是基于對(duì)長(zhǎng)片段序列(長(zhǎng)片段 序列是指從頭測(cè)到尾的幾Kb~幾十Kb的片段)、大片段文庫(kù)(大片段文庫(kù)是指2K、5K、IOK 或20Κ等長(zhǎng)度的mate-pair文庫(kù),一般進(jìn)行雙末端測(cè)序,例如,用ΡΕ100的測(cè)序策略,那么測(cè) 出的數(shù)據(jù)是首端IOObp和尾端的IOObp)、fosmid文庫(kù)等的測(cè)序數(shù)據(jù)組裝構(gòu)建單體型,其準(zhǔn) 確性和分辨率非常高,但是所構(gòu)建的單體型的長(zhǎng)度僅有幾百Kb~1Mb。
[0004] 此外,也有染色體跨度的單體型構(gòu)建的報(bào)道,但這種染色體跨度的單體型的構(gòu)建 方法是基于染色體顯微切割或者單精子等單倍體測(cè)序來(lái)構(gòu)建的,其構(gòu)建方法具體如下:1) 首先,通過顯微切割獲得微量的單倍體DNA遺傳物質(zhì);2)采用MALBAC或者多重置換擴(kuò)增 (MDA)等全基因組擴(kuò)增技術(shù)提高DNA的起始量;3)構(gòu)建小片段文庫(kù),進(jìn)行二代測(cè)序獲得短序 列數(shù)據(jù)(PE reads) ;4)短序列數(shù)據(jù)(PE reads)與已經(jīng)發(fā)表的參考基因組比對(duì),檢測(cè)單核苷 酸位點(diǎn)多態(tài)性(SNPs),構(gòu)建單倍體的單體型。
[0005] 上述染色體跨度的單體型構(gòu)建方法,對(duì)于實(shí)驗(yàn)技術(shù)和實(shí)驗(yàn)儀器有著很高的要求, 在取材方面非常受限,只能用于一些符合嚴(yán)格減數(shù)分裂的物種。最重要的是,為了達(dá)到建庫(kù) 的最低起始量,需要對(duì)DNA進(jìn)行擴(kuò)增。在擴(kuò)增過程中會(huì)引入一些錯(cuò)誤,并且隨著不斷的擴(kuò)增 會(huì)導(dǎo)致誤差的進(jìn)一步放大。而且,擴(kuò)增過程中的堿基偏好性都會(huì)影響SNP檢測(cè)的準(zhǔn)確性和 全面性,從而對(duì)最終單體型構(gòu)建的結(jié)果造成一定的誤差。此外,上述方法整個(gè)實(shí)驗(yàn)過程時(shí)間 較長(zhǎng),通常需要3個(gè)月以上。
[0006] 因此,仍需要對(duì)現(xiàn)有技術(shù)進(jìn)行改進(jìn),以提供一種適用范圍廣、準(zhǔn)確性高、染色體跨 度大的個(gè)體單體型的構(gòu)建方法。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明的主要目的在于提供一種染色體跨度的單體型圖及其構(gòu)建方法,以提供一 種適用范圍廣、準(zhǔn)確性高以及染色體跨度大的個(gè)體單體型圖的構(gòu)建方法。
[0008] 為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個(gè)方面,提供了一種染色體跨度的單體型圖 的構(gòu)建方法,該構(gòu)建方法包括:步驟S1,對(duì)包含待測(cè)樣本基因組交聯(lián)位點(diǎn)的測(cè)序文庫(kù)進(jìn)行 測(cè)序,得到PE reads;步驟S2,將PE reads分別與參考基因組上的序列進(jìn)行第一次比對(duì),得 到第一比對(duì)結(jié)果;步驟S3,根據(jù)第一比對(duì)結(jié)果構(gòu)建來(lái)源于待測(cè)樣本的PE reads的一致性序 列,獲得高質(zhì)量的SNP位點(diǎn);以及步驟S4,根據(jù)所獲取的高質(zhì)量的SNP位點(diǎn)對(duì)每一條reads 進(jìn)行篩選,并提取至少含有2個(gè)雜合SNP位點(diǎn)的reads ;并利用雜合SNP位點(diǎn)構(gòu)建染色體跨 度的單體型圖。
[0009] 進(jìn)一步地,在步驟S2之前,構(gòu)建方法還包括判斷測(cè)序文庫(kù)是否合格的步驟;判斷 測(cè)序文庫(kù)是否合格的步驟包括:步驟a,抽取部分PE reads作為待質(zhì)控文庫(kù);步驟b,將待質(zhì) 控文庫(kù)與參考基因組上的序列進(jìn)行第二次比對(duì),得到第二比對(duì)結(jié)果;步驟c,利用第二比對(duì) 結(jié)果計(jì)算待質(zhì)控文庫(kù)的插入片段在參考基因組上的跨度;步驟d,若跨度大于10kb,且跨度 大于IOkb的插入片段在待質(zhì)檢文庫(kù)中的比例為50%以上,則判斷測(cè)序文庫(kù)合格。
[0010] 進(jìn)一步地,在步驟Sl之后,以及在步驟S2之前,構(gòu)建方法還包括對(duì)PE reads進(jìn)行 質(zhì)控的步驟;質(zhì)控的步驟包括:檢測(cè)PE reads中是否存在外源樣本污染,和/或?qū)E reads 進(jìn)行低質(zhì)量數(shù)據(jù)過濾。
[0011] 進(jìn)一步地,在步驟S2之前,還包括對(duì)參考基因組上的序列進(jìn)行前處理的步驟;前 處理的步驟包括:基于BWA和SAMtools對(duì)參考基因組上的序列進(jìn)行索引文件的構(gòu)建;對(duì)參 考基因組上的序列的長(zhǎng)度、堿基含量和空缺的比例進(jìn)行統(tǒng)計(jì);以及獲取構(gòu)建測(cè)序文庫(kù)時(shí)所 使用的限制性內(nèi)切酶在參考基因組的序列上的分布位置和數(shù)目。
[0012] 進(jìn)一步地,步驟S2包括:利用BWA軟件的mem模塊,將PE reads通過第一次比對(duì) 分別比對(duì)到建好索引文件的參考基因組的序列上,得到第一比對(duì)結(jié)果。
[0013] 進(jìn)一步地,步驟S2在得到第一比對(duì)結(jié)果后,還包括對(duì)PE reads進(jìn)行覆蓋均勻性進(jìn) 行檢測(cè)的步驟,覆蓋均勻性檢測(cè)的步驟包括:檢測(cè)在不同測(cè)序深度下,PE reads對(duì)參考基因 組的覆蓋程度和覆蓋深度,覆蓋程度是指PE reads覆蓋參考基因組上的序列的長(zhǎng)度與參考 基因組上的序列的總長(zhǎng)度的比值;覆蓋深度是指參考基因組相應(yīng)位置被PE reads覆蓋到 的次數(shù)。
[0014] 進(jìn)一步地,步驟S3包括:根據(jù)第一比對(duì)結(jié)果,利用SAMtools軟件構(gòu)建PE reads的 一致性序列,以及獲取一致性序列中存在的高質(zhì)量的SNP位點(diǎn)。
[0015] 進(jìn)一步地,步驟S4包括:從高質(zhì)量的SNP位點(diǎn)中提取至少含有2個(gè)雜合SNP位點(diǎn) 的reads ;以雜合SNP位點(diǎn)為點(diǎn),以兩個(gè)雜合SNP之間的片段長(zhǎng)度為邊,構(gòu)建單體型塊;基于 交聯(lián)位點(diǎn)之間的線性距離小于30Mb的兩側(cè)片段上的雜合SNP位點(diǎn),將多個(gè)單體型塊進(jìn)行連 接,得到候選單體型圖;對(duì)候選單體型圖的完整性和分辨率進(jìn)行評(píng)估,并對(duì)評(píng)估結(jié)果依次按 照完整性和分辨率的高低進(jìn)行排序,挑取在完整性最高條件下分辨率最高的候選單體型圖 作為染色體跨度的單體型圖;其中,挑選交聯(lián)位點(diǎn)之間的線性距離小于30Mb的兩側(cè)片段的 步驟包括:根據(jù)染色體的位置,對(duì)第一比對(duì)結(jié)果進(jìn)行排序,得到PE reads中的每一條reads 在參考基因組的序列上的位置信息;根據(jù)PE reads中的每一條reads在參考基因組的序列 上的位置信息,將構(gòu)成交聯(lián)位點(diǎn)兩端的reads進(jìn)行配對(duì),得到交聯(lián)位點(diǎn)在參考基因組上的 線性距離;根據(jù)線性距離,挑選得到交聯(lián)位點(diǎn)之間的線性距離小于30Mb的兩側(cè)片段。
[0016] 進(jìn)一步地,在步驟Sl之前,構(gòu)建方法還包括:利用空間構(gòu)象捕獲的方法構(gòu)建得到 包含待測(cè)樣本基因組交聯(lián)位點(diǎn)的測(cè)序文庫(kù);利用空間構(gòu)象捕獲的方法構(gòu)建測(cè)序文庫(kù)的步驟 包括:對(duì)待測(cè)樣本的DNA進(jìn)行交聯(lián)固定;利用限制性內(nèi)切酶對(duì)DNA進(jìn)行酶切,產(chǎn)生具有酶切 缺口的DNA片段;利用生物素標(biāo)記的寡核苷酸將具有酶切缺口的DNA片段上的酶切缺口進(jìn) 行補(bǔ)平;利用核酸連接酶將DNA片段進(jìn)行連接,得到連接交聯(lián)DNA片段;對(duì)連接交聯(lián)DNA片 段進(jìn)行解交聯(lián),得到解交聯(lián)DNA ;以及對(duì)解交聯(lián)DNA進(jìn)行片段化文庫(kù)構(gòu)建,得到測(cè)序文庫(kù)。
[0017] 根據(jù)本發(fā)明的另一方面,提供了一種染色體跨度的單體型圖,該單體型圖利用上 述任一種構(gòu)建方法構(gòu)建而成。
[0018] 應(yīng)用本發(fā)明的技術(shù)方案,通過以待測(cè)樣本全基因組上帶有交聯(lián)位點(diǎn)的測(cè)序數(shù)據(jù)為 處理對(duì)象,能夠獲取全基因組上存在的重組交換位點(diǎn),利用這些重組交換位點(diǎn)中的SNP位 點(diǎn)構(gòu)建而成的單體型圖在基因組上的跨度較大,能夠達(dá)到染色體跨度水平,且這種基于全 基因組的交聯(lián)位點(diǎn)的測(cè)序數(shù)據(jù)更全面,因而得到的染色體跨度的單體型圖的準(zhǔn)確性和分辨 率都很高。相比現(xiàn)有技術(shù)的構(gòu)建方法,該方法不局限于某些特定的物種,具有物種適應(yīng)范圍 廣的優(yōu)勢(shì);且實(shí)驗(yàn)過程避免了擴(kuò)增帶來(lái)的偏好性及誤差,相對(duì)提高了本發(fā)明所構(gòu)建的單體 型圖的準(zhǔn)確性和分辨率。
【附圖說(shuō)明】
[0019] 構(gòu)成本申請(qǐng)的一部分的說(shuō)明書附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解,本發(fā)明的示 意性實(shí)施例及其說(shuō)明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:
[0020] 圖1和圖2示出了根據(jù)本發(fā)明的優(yōu)選實(shí)施例中將測(cè)序數(shù)據(jù)與參考基因組上的序列 進(jìn)行比對(duì)并構(gòu)建成一致性序列的示意圖;其中,
[0021] 圖1示出了具體測(cè)序序列與參考基因組上的序列的詳細(xì)序列比對(duì)結(jié)果,其中第一 行表示參考基因組上的序列的堿基位置,第二行表示參考基因組上的序列的堿基信息;第 三行表示一致性序列;第四行及其以下行表示測(cè)序所得序列;
[0022] 圖2示出了存在SNP位點(diǎn)的序列比對(duì)信息,其中,左側(cè)框中表示第一個(gè)單體型塊; 右側(cè)框中表示另一個(gè)單體型塊;
[0023] 圖3示出了在本發(fā)明一種優(yōu)選的實(shí)施例中單體型塊及候選單體型圖的構(gòu)建流程 示意圖;
[0024] 圖4示出了多個(gè)候選單體型圖的各種參數(shù)值;
[0025] 圖5示出了本發(fā)明的一種優(yōu)選實(shí)施例中的構(gòu)建方法所構(gòu)建的單體型圖在完整性 方面與現(xiàn)有技術(shù)的比對(duì)結(jié)果圖;
[0026] 圖6示出了本發(fā)明的一種優(yōu)選實(shí)施例中的構(gòu)建方法所