構(gòu)建的單體型圖在準(zhǔn)確度 方面與現(xiàn)有技術(shù)的比對(duì)結(jié)果圖;以及
[0027] 圖7示出了本發(fā)明的一種優(yōu)選實(shí)施例中的構(gòu)建方法所構(gòu)建的單體型圖在分辨率 方面與現(xiàn)有技術(shù)的比對(duì)結(jié)果圖。
【具體實(shí)施方式】
[0028] 需要說(shuō)明的是,在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相 互組合。下面將結(jié)合實(shí)施例來(lái)詳細(xì)說(shuō)明本發(fā)明。
[0029] 名稱解釋:
[0030] 單體型圖:?jiǎn)误w型圖是指在同一染色體上進(jìn)行共同遺傳的多個(gè)基因座上等位位點(diǎn) 的基因型的直線排列圖。
[0031] Read:指高通量測(cè)序時(shí),測(cè)序儀器每讀取一次所能讀取到的待測(cè)序列的長(zhǎng)度,后把 每次讀取得到的一個(gè)短片段的序列稱為一個(gè)read。
[0032] 雙端reads (PE reads):雙末端測(cè)序序列,是指對(duì)所構(gòu)建的測(cè)序文庫(kù)中的插入片段 從兩端進(jìn)行測(cè)序,得到包括插入片段兩端序列信息的測(cè)序序列。
[0033] 單端reads:是指雙端測(cè)序序列中某一端的測(cè)序序列。
[0034] -致性序列:Consensus sequence,通過(guò)序列比較發(fā)現(xiàn)相似但不一定完全相同的 核苷酸序列或氨基酸序列。在本發(fā)明中,即個(gè)體測(cè)序序列在與參考序列相同位置上的基因 型所組成的序列。
[0035] -致性序列的構(gòu)建:根據(jù)參考基因組上的位置及相應(yīng)位置出現(xiàn)頻率最大的測(cè)序序 列基因型,將位置與參考序列一致的測(cè)序個(gè)體的堿基序列構(gòu)建成一致性序列。
[0036] 雜合SNP位點(diǎn):Single nucleotide polymorphism,即單核苷酸多態(tài)性,是指測(cè)序 個(gè)體基因型和參考序列不一致的位點(diǎn),對(duì)于二倍體,是指來(lái)源于父母本的兩個(gè)堿基型不一 致的位點(diǎn)。
[0037] Block :即單體型塊,由于有些雜合SNP位點(diǎn)的深度不足或者不同雜合SNP位點(diǎn)之 間沒(méi)有捕獲到交聯(lián)序列,導(dǎo)致單體型斷成多個(gè)塊。
[0038] 定型位點(diǎn)數(shù):即phase的位點(diǎn)數(shù)目,在相應(yīng)的單體型block上可以被明確區(qū)分到兩 個(gè)單體型上的雜合SNP位點(diǎn)的數(shù)目。
[0039] 覆蓋深度:指參考基因組序列相應(yīng)位置被測(cè)序序列覆蓋到的次數(shù)。
[0040] 覆蓋程度:指被覆蓋的基因組序列的長(zhǎng)度與參考基因組總長(zhǎng)度的比值。
[0041] 低質(zhì)量數(shù)據(jù):包括(1)帶接頭(adapter)的reads pair ; (2)當(dāng)單端的read中堿 基類型為N的數(shù)目占該條read總堿基數(shù)目的比例超過(guò)10 %時(shí),包含該單端read的paired reads都屬于低質(zhì)量數(shù)據(jù);(3)當(dāng)單端測(cè)序read中含有的低質(zhì)量(Q〈 = 5)堿基數(shù)超過(guò)該條 read長(zhǎng)度比例的50 %時(shí),包含該單端read的paired reads都屬于低質(zhì)量數(shù)據(jù)。
[0042] 高質(zhì)量的SNP位點(diǎn):高質(zhì)量的SNP位點(diǎn)是指覆蓋深度3 4,比對(duì)質(zhì)量3 20的SNP位 點(diǎn)。
[0043] 比對(duì)質(zhì)量:高通量測(cè)序中,每測(cè)一個(gè)堿基會(huì)給出一個(gè)相應(yīng)的質(zhì)量值,這個(gè)質(zhì)量值 是衡量測(cè)序準(zhǔn)確度的。如果測(cè)序錯(cuò)誤率用e表示,illumina HiSeqTM2500/MiSeq的堿 基質(zhì)量值用Qphred表示,則堿基比對(duì)質(zhì)量值與測(cè)序錯(cuò)誤率之間存在下列關(guān)系:Qphred =-IOloglO (e);堿基的測(cè)序質(zhì)量值為13時(shí),對(duì)應(yīng)的測(cè)序錯(cuò)誤率為5% ;堿基的測(cè)序質(zhì)量值 為20時(shí),對(duì)應(yīng)的測(cè)序錯(cuò)誤率為1 %;堿基的測(cè)序質(zhì)量值為30時(shí),對(duì)應(yīng)的測(cè)序錯(cuò)誤率為0. 1 %。 Q20與Q30則表示質(zhì)量值大于等于20或30的堿基所占百分比。比如一共測(cè)了 IG的數(shù)據(jù) 量,其中有0.9G的堿基質(zhì)量值大于或等于20,那么Q20則為90%。
[0044] 由于現(xiàn)有技術(shù)中染色體跨度的單體型構(gòu)建方法,在實(shí)驗(yàn)技術(shù)上具有很大的難度, 且廣譜適用性差,不適合大多數(shù)的物種。為了改善上述技術(shù)問(wèn)題,在本發(fā)明一種典型的實(shí)施 方式中,提供了一種構(gòu)建染色體跨度的單體型圖的方法,該構(gòu)建方法包括:步驟S1,對(duì)包含 待測(cè)樣本基因組交聯(lián)位點(diǎn)的測(cè)序文庫(kù)進(jìn)行測(cè)序,得到PE reads ;步驟S2,將PE reads分別 與參考基因組上的序列進(jìn)行第一次比對(duì),得到第一比對(duì)結(jié)果;步驟S3,根據(jù)第一比對(duì)結(jié)果, 構(gòu)建PE reads的一致性序列,獲得高質(zhì)量的SNP位點(diǎn);步驟S4,根據(jù)所獲取的高質(zhì)量的SNP 位點(diǎn)對(duì)每一條reads進(jìn)行篩選,并從中獲取至少含有2個(gè)雜合SNP位點(diǎn)的reads ;并利用雜 合SNP位點(diǎn)構(gòu)建染色體跨度的單體型圖。
[0045] 本發(fā)明的上述方法通過(guò)以待測(cè)樣本全基因組上帶有交聯(lián)位點(diǎn)的測(cè)序數(shù)據(jù)為處理 對(duì)象,能夠獲取全基因組上存在的重組交換位點(diǎn),利用這些重組交換位點(diǎn)中的SNP位點(diǎn)構(gòu) 建而成的單體型圖在基因組上的跨度較大,能夠達(dá)到染色體跨度水平,且這種基于全基因 組的交聯(lián)位點(diǎn)的測(cè)序數(shù)據(jù)更全面,因而得到的染色體跨度的單體型圖的準(zhǔn)確性和分辨率都 很高。相比現(xiàn)有技術(shù)的構(gòu)建方法,該方法不局限于某些特定的物種,具有物種適應(yīng)范圍廣的 優(yōu)勢(shì);且實(shí)驗(yàn)過(guò)程避免了擴(kuò)增帶來(lái)的偏好性及誤差,相對(duì)提高了本發(fā)明所構(gòu)建的單體型圖 的準(zhǔn)確性和分辨率。
[0046] 上述第一次比對(duì)只要是能夠?qū)?lái)源于待測(cè)樣本的測(cè)序數(shù)據(jù)一PE reads與參考基 因組上的序列進(jìn)行比對(duì)即可,即可為單端比對(duì)亦可為雙端比對(duì)。
[0047] 上述構(gòu)建方法中,在對(duì)包含待測(cè)樣本基因組交聯(lián)位點(diǎn)的測(cè)序文庫(kù)進(jìn)行測(cè)序之前, 在構(gòu)建文件的步驟中會(huì)對(duì)各步驟進(jìn)行監(jiān)控,以增加文庫(kù)構(gòu)建成功的概率。同樣,為了進(jìn)一步 確保文庫(kù)所產(chǎn)出的數(shù)據(jù)能夠用于單體型構(gòu)建,在本發(fā)明一種優(yōu)選的實(shí)施例中,在上述步驟 S2之前,該構(gòu)建方法還包括判斷測(cè)序文庫(kù)是否合格的步驟;其中,判斷測(cè)序文庫(kù)是否合格 的步驟包括:步驟a,抽取部分PE reads作為待質(zhì)檢文庫(kù);步驟b,將待質(zhì)檢文庫(kù)與參考基因 組上的序列進(jìn)行第二次比對(duì),得到第二比對(duì)結(jié)果;步驟c,利用第二比對(duì)結(jié)果計(jì)算待質(zhì)檢文 庫(kù)的插入片段在參考基因組上的跨度;步驟d,若跨度大于10kb,且跨度大于IOkb的插入片 段在待質(zhì)檢文庫(kù)中插入片段總數(shù)的比例為50%以上,則判斷測(cè)序文庫(kù)合格。
[0048] 上述優(yōu)選實(shí)施例中,通過(guò)對(duì)測(cè)序數(shù)據(jù)中的一部分進(jìn)行抽查,并根據(jù)所構(gòu)建的文庫(kù) 的插入片段在基因組上的染色體跨度大小是否大于IOkb來(lái)判斷所構(gòu)建的文庫(kù)是否合格。 由于基因上存在交聯(lián)位點(diǎn)的片段之間的物理距離相對(duì)較大,而小于IOkb的插入片段可能 不是交聯(lián)位點(diǎn)兩端的序列。因而通過(guò)該步驟對(duì)測(cè)序文庫(kù)的質(zhì)控檢測(cè),在確定所用的文庫(kù)的 數(shù)據(jù)相對(duì)可靠的基礎(chǔ)上進(jìn)行后續(xù)分析,有助于提高最終所構(gòu)建的單體型的準(zhǔn)確度。上述第 二次比對(duì)為雙端比對(duì)。
[0049] 在上述構(gòu)建方法中,從插入片段在染色體上的跨度大小來(lái)監(jiān)測(cè)文庫(kù)已經(jīng)能夠提到 所用測(cè)序數(shù)據(jù)的可靠性。為了進(jìn)一步提高后續(xù)步驟所用數(shù)據(jù)的可靠性和準(zhǔn)確性,在本發(fā)明 另一種優(yōu)選的實(shí)施例中,在上述步驟Sl之后,以及在步驟S2之前,該構(gòu)建方法還包括對(duì)PE reads進(jìn)行質(zhì)控的步驟;且質(zhì)控的步驟包括:檢測(cè)PE reads中是否存在外源樣本污染,和/ 或?qū)E reads進(jìn)行低質(zhì)量數(shù)據(jù)過(guò)濾。
[0050] 由于上機(jī)測(cè)序之前的文庫(kù)混合步驟的誤差、測(cè)序過(guò)程中測(cè)序儀器的穩(wěn)定性或者其 他人為因素均可能導(dǎo)致測(cè)序數(shù)據(jù)質(zhì)量的變化,因而上述優(yōu)選實(shí)施例中,通過(guò)檢測(cè)測(cè)序數(shù)據(jù) 中是否存在其他外源樣本的序列信息來(lái)判斷待測(cè)樣本是否存在污染,和/或去除低質(zhì)量的 測(cè)序數(shù)據(jù)來(lái)進(jìn)一步提高可用數(shù)據(jù)的質(zhì)量。其中,所需要去除的低質(zhì)量數(shù)據(jù)包括:構(gòu)建文庫(kù)時(shí) 所添加的接頭序列以及低質(zhì)量的PE reads;屬于低質(zhì)量PE reads的情形包括:其中一個(gè)單 端read中堿基類型為N(表示不確定)的堿基數(shù)占該單端read堿基數(shù)的比例超過(guò)10%時(shí); 或者,單端read中含有的低質(zhì)量(Q〈 = 5)堿基數(shù)占該單端read堿基數(shù)的比例超過(guò)50% 時(shí)。
[0051] 在上述構(gòu)建方法中,將待測(cè)樣本的測(cè)序數(shù)據(jù)與參考基因組上的序列進(jìn)行比對(duì)的步 驟可以采用現(xiàn)有技術(shù)的比對(duì)方法,但為了使比對(duì)操作更方便,在本發(fā)明又一種優(yōu)選的實(shí)施 例中,在步驟S2之前,還包括對(duì)參考基因組上的序列進(jìn)行前處理的步驟;前處理的步驟包 括:基于BWA和SAMtools對(duì)參考基因組上的序列進(jìn)行索引文件的構(gòu)建;對(duì)參考基因組上的 序列的長(zhǎng)度、堿基含量和空缺(gap)的比例進(jìn)行統(tǒng)計(jì);以及獲取構(gòu)建測(cè)序文庫(kù)時(shí)所使用的 限制性內(nèi)切酶在參考基因組的序列上的分布位置和數(shù)目。
[0052] 上述優(yōu)選的實(shí)施例中,前處理的步驟中,建立索引文件有助于對(duì)基因組各堿基的 位置和類型進(jìn)行明確標(biāo)記,以便后續(xù)很容易讀取測(cè)序序列的位置和堿基類型;而對(duì)參考基 因組上的序列的長(zhǎng)度、堿基含量和空缺(gap)的比例進(jìn)行統(tǒng)計(jì)便于掌握基因組的組裝程 度,用于后續(xù)對(duì)覆蓋度進(jìn)行統(tǒng)計(jì);獲取構(gòu)建測(cè)序文庫(kù)時(shí)所使用的限制性內(nèi)切酶在參考基因 組的序列上的分布位置和數(shù)目的作用是用于在測(cè)序文庫(kù)質(zhì)控時(shí)判斷含有的限制性內(nèi)切酶 的酶切位點(diǎn)的序列是否是交聯(lián)形成的。該前處理的步驟可以在得到測(cè)序數(shù)據(jù)之前或之后, 只要在進(jìn)行比對(duì)之前進(jìn)行即可。
[0053] 上述步驟S2中,采用現(xiàn)有可用的比對(duì)軟件能夠?qū)崿F(xiàn)對(duì)比的功能即可,比如可