ndIII限制性核酸內(nèi)切酶處理上述交聯(lián)的DNA,使交 聯(lián)點兩側(cè)產(chǎn)生缺口;
[0073] 3、生物素標(biāo)記:用生物素標(biāo)記的寡核苷酸將連接點兩側(cè)酶切缺口補平;
[0074] 4、鄰近DNA片段的連接:采用T4核酸連接酶將鄰近的DNA片段連接;
[0075] 5、解交聯(lián)、DNA片段的隨機打斷及生物素標(biāo)記片段的回收:選取蛋白酶K將蛋白質(zhì) 和DNA解除交聯(lián)狀態(tài),然后用超聲波將DNA隨機打斷,采用鏈霉親和素將含有生物素標(biāo)記的 DNA片段回收;
[0076] 6、小片段文庫構(gòu)建:將回收的DNA片段構(gòu)建成可在高通量測序儀上測序的小片段 文庫,并進(jìn)行文庫檢測及定量;
[0077] 7、測序:基于新一代的測序平臺Hiseq對經(jīng)庫檢合格的DNA文庫進(jìn)行雙末端測序, 獲得可用于后續(xù)分析的PEreads數(shù)據(jù);
[0078] 二、信息分析步驟:
[0079] 1、參考序列處理:
[0080] a)索引文件構(gòu)建:基于 Burrows-Wheeler Alignment (BWA)軟件和 SAM tools 對 參考序列進(jìn)行索引文件的構(gòu)建;
[0081] b)基因組特征統(tǒng)計:對于基因組的長度、堿基含量、空缺(gap)比例等基本特征進(jìn) 行統(tǒng)計,統(tǒng)計結(jié)果見下表1 ;
[0082] 表 1 :
[0084] 附:N50和N90是評價基因組拼接質(zhì)量好壞的一個指標(biāo),通常該值越大,表示拼接 質(zhì)量越好。其中,N50是指:將測序得到的若干條reads進(jìn)行拼接,然后把拼接得到的片段 從長到短進(jìn)行排列,然后相加,當(dāng)恰好加到該基因組總長度的50%時所對應(yīng)的那條片段的 長度即為N50的長度。同樣,當(dāng)恰好加到該基因組總長度的90%時所對應(yīng)的那條片段的長 度即為N90的長度。
[0085] c)酶切位點分析:基于Nhel限制性內(nèi)切酶酶切位點的序列特征分析其在基因組 上分布的位置、數(shù)目等;
[0086] 2、質(zhì)控
[0087] a)樣本:抽取一部分PE reads與核酸數(shù)據(jù)庫(nt)進(jìn)行blast比對,檢測是否有 外源微生物等污染,判斷樣本是否合格;
[0088] b)測序:對PE reads進(jìn)行Q20、Q30、N含量等分析,過濾低質(zhì)量數(shù)據(jù)(高通量測序 中,每測一個堿基會給出一個相應(yīng)的質(zhì)量值,這個質(zhì)量值是衡量測序準(zhǔn)確度的。堿基的質(zhì) 量值13,錯誤率為5% ;20的錯誤率為1% ;30的錯誤率為0. 1%。Q20與Q30則表示質(zhì)量 值大于等于20或30的堿基所占百分比。比如,一共測了 IG的數(shù)據(jù)量,其中有0. 9G的堿基 質(zhì)量值大于或等于20,那么Q20則為90%。),獲得高質(zhì)量的數(shù)據(jù)用于后續(xù)的分析;
[0089] c)文庫:抽取一部分PE reads與參考基因組比對,對插入片段在基因組上的跨度 進(jìn)行分析,大于IOK的比例在50%以上,則上述Hi-C文庫構(gòu)建合格;
[0090] 3、比對:如圖 1 所不,基于 Burrows-Wheeler Alignment (BWA)軟件將 PE reads 比 對到參考基因組上,根據(jù)染色體位置對比對結(jié)果進(jìn)行排序,并對低質(zhì)量的比對進(jìn)行過濾,從 而得到PE reads在參考基因組上的位置信息以及染色體的覆蓋深度;
[0091] 4、SNPs檢測:基于比對的結(jié)果和SAM tools進(jìn)行一致性序列的構(gòu)建和SNPs檢測, 通過覆蓋深度、SNPs質(zhì)量等對結(jié)果進(jìn)行過濾,獲得高質(zhì)量的SNPs。
[0092] 如圖1和圖2所示,其中,第一行表示參考基因組序列的位置信息;第二行表示參 考基因組序列的堿基信息;第三行表示一致性序列,其中,點表示與參考基因組上的序列的 堿基類型一致;字母表示和參考基因組組上是序列的間接類型不一致,即SNP的位點,用簡 并堿基來表示;以下其余行表示對比上的測序序列(reads)的信息。
[0093] 圖2中,第三中,字母表示的簡并堿基及點表示的與參考基因組序列上的堿基類 型一致的堿基構(gòu)成一致性序列,簡并堿基構(gòu)成一個單體型塊。根據(jù)第三行以下的序列信 息可以看出,由于待測樣本為二倍體,來源于同一個親本的簡并位置處的堿基類型構(gòu)成了 GGACGCCT ;而簡并位置處的堿基類型構(gòu)成TAGGATTC的序列與參考基因組上的序列相同,因 而來自于另一親本。
[0094] 5、雜合模塊片段提取:基于比對結(jié)果和SNPs信息,提取至少含有兩個雜合SNPs的 reads〇
[0095] 6、候選單體型圖構(gòu)建:以雜合SNP為點,兩個雜合SNP之間的片段為邊構(gòu)建候選 單體型圖,運用greedy max-cut heuristic算法和MEC打分函數(shù)對候選單體型圖中的每個 block進(jìn)行確定及評估,得到多個候選單體型圖的block。
[0096] 根據(jù)圖2的一致性序列可以看出,哪些測序序列來自于第一親本,哪些測序序列 來自與第二親本。在候選單體型圖構(gòu)建的步驟中,如圖3所示(說明:B,為Block的簡寫, 表示單體型塊。堿基,表示基因組上雜合SNP位點;點,表示基因組上非雜合SNP的位點,問 號,表示非定型的位點,上一行表示來自同一親本;下一行表示來自另一個親本),首先,利 用來源于同一親本的含有2或2個以上雜合SNP的同一測序序列中的雜合SNP位點構(gòu)建短 的單體型塊。其次,基于含有交聯(lián)位點或者來源于交聯(lián)問點兩側(cè)的測序序列上的SNP將短 的單體型塊不斷地連接成更大的單體型塊,最后形成含有單體型塊1、2和4的候選單體型 圖(如圖2中,左框中的單體型塊與右框中的單體型炔基于共同的位點Y,可以將兩個單體 型塊連接成更大的單體型塊)。由于單體型塊B3上的雜合SNP位點與其他的單體型塊之間 沒有捕獲到交聯(lián)序列,導(dǎo)致單體型塊B3沒有連接到更大的單體型塊上,即在更大的單體型 塊中屬于無定型的位點,因而用問號來表示。
[0097] 7、結(jié)果統(tǒng)計:根據(jù)基因組長度、單體型塊的物理位置跨度、SNPs數(shù)目、定型位點數(shù) 目、MEC打分等評估每個單體型塊的完整性和分辨率,選擇最佳的單體型作為染色體跨度的 單體型圖。
[0098] 如圖4所示,Block,表示單體型塊;offset表示第一個變異位點在VCF文件中 的行號;Ien表示單體型塊在基因組相應(yīng)區(qū)域內(nèi)所有的雜合SNP數(shù)目;phased:表示定 型位點數(shù)目;SPAN:表示候選單體型在基因組上的跨度;MEC score表示minimun error correction,用來進(jìn)行候選單體型組裝的計算模型;fragments :表示支持該單體型塊的片 段數(shù)。其中,各列的具體含義如下:
[0099] 第一列,表示variant ID,即變異位點所在的行號(在cvf文件中)。
[0100] 第二列,表示hapl〇type_l,即單體型1的基因型(0代表與參考基因組上的序列想 基因型一致,1代表與變異基因型一致)。
[0101] 第三列,表示hapl〇type_2,即單體型2的基因型(0代表與參考基因組上的序列想 基因型一致,1代表與變異基因型一致)。
[0102] 第四列,表示chromosome,即染色體編號。
[0103] 第五列,表示position,即在染色體中的位置。
[0104] 第六列,表示ref allele,即在參考基因組上的序列的堿基類型。
[0105] 第七列,表示variant allele,即變異堿基的類型。
[0106] 第八列,表示genotype,即基因型(0/1代表雜合)。
[0107] 第九列,表示 allele counts,即此位點的 reads 支持?jǐn)?shù);genotype likelihoods, 即基于比對上的reads計算三種二倍體基因型(0/0, 0/1,1/1)可能性的似然估計值; delta,即GL (0/0) -GL (0/1),GL (1/1) -GL (0/1)中最大的值,代表此位點有可能不是雜合位 點的概率,這個值越大代表這個位點不是雜合位點的可能性越大;MEC variant ;即移除此 位點后block的MEC分?jǐn)?shù)降低的值,這個值越大代表這個位點不是變異位點或者雜合位點 的可能性越大。
[0108] 對圖4中的來源于1號染色體的兩個候選單體型圖進(jìn)行完整性和分辨率的評估, 評估結(jié)果如下表2 :
[0109] 表2:
[0110]
[0111] 由上表2可以看出,候選單體型圖2即為該樣本的染色體跨度的單體型圖。
[0112] 從以上的描述中可知,本發(fā)明上述的實施例實現(xiàn)了如下技術(shù)效果:上述實施例通 過Hi-C的方法獲得在基因組上線性距離分布廣泛的PE reads,并通過上述信息分析方法 準(zhǔn)確提取出同一條染色體內(nèi)部的雙末端reads,根據(jù)reads上的雜合位點將單體型模塊連 接起來形成了具有染色體跨度的單體型圖。本發(fā)明是基于長片段測序和單體型構(gòu)建的思想 進(jìn)行改進(jìn)的,提供了個體染色體跨度的單體型構(gòu)建的方法。
[0113] 另外,發(fā)明人還利用現(xiàn)有技術(shù)中基于Novoalign軟件進(jìn)行