两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

組裝基因組序列的方法和系統(tǒng)的制作方法

文檔序號:479434閱讀:452來源:國知局
組裝基因組序列的方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種組裝基因組序列的方法和系統(tǒng),將第二代測序技術(shù)所得的高精度短片段序列數(shù)據(jù)和單分子測序所得的長片段序列數(shù)據(jù)結(jié)合在一起進(jìn)行基因組序列的組裝,提高組裝效率和準(zhǔn)確率。該方法具體包括:利用第二代測序技術(shù)對樣品進(jìn)行測序,獲得樣品的高精度短片段序列;對獲得的高精度短片段序列進(jìn)行拼接,獲得第一拼接序列;利用單分子測序技術(shù)對與同樣來源的樣品進(jìn)行測序,獲得同樣來源樣品的長片段序列;對獲得的長片段序列進(jìn)行拼接,獲得第二拼接序列;將第一拼接序列定位到第二拼接序列上;利用第一拼接序列中的高精度短片段序列對第二拼接序列中的長片段序列進(jìn)行局部糾錯(cuò),獲得第三拼接序列。
【專利說明】組裝基因組序列的方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及生物信息【技術(shù)領(lǐng)域】,尤其涉及一種組裝基因組序列的方法和裝置。
【背景技術(shù)】
[0002]第二代測序技術(shù)極大地推動(dòng)了生物信息學(xué)的發(fā)展,已經(jīng)有大量物種的基因組被測序。但目前第二代測序技術(shù)產(chǎn)生的都是長約IOObp~150bp左右的小片段序列,僅100~150bp的讀長(reads)相比龐大的基因組,使得完成拼接工作變得無比艱巨,不少用戶雖然獲得了大量的測序數(shù)據(jù),測序覆蓋深度達(dá)到了幾十倍甚至上百倍,但仍然沒法完成基因組的拼接。如何將這些測序得到的海量小片段序列數(shù)據(jù)還原為樣品中的大片段數(shù)據(jù)給后續(xù)的信息分析工作提出了極大的挑戰(zhàn),需要通過非常大的運(yùn)算量才有可能完成對大片段數(shù)據(jù)的還原。而且,基因組De Novo組裝(從頭組裝)還會遇到如何跨越高重復(fù)區(qū)域(復(fù)雜動(dòng)植物及真菌)、高GC (微生物)和高AT含量區(qū)域的難題,這些區(qū)域結(jié)構(gòu)極其復(fù)雜,含有大量串聯(lián)重復(fù),現(xiàn)有的第二代測序技術(shù)的短讀長,無法獲得這些高度重復(fù)區(qū)域的準(zhǔn)確的序列,難以獲得整個(gè)基因組的完美拼接。就好象把一幅圖打成非常小的碎片,然后做拼圖,由于碎片太小,因此碎片數(shù)目很多,而且許多小碎片非常相似,看起來都差不多,要拼出一副完整的圖難度很大。此外,第二代測序技術(shù)文庫制備時(shí)必須要先進(jìn)行PCR擴(kuò)增,PCR過程中的偏向(bias)或者錯(cuò)配(mismatch)等將無法在測序時(shí)修正,也就意味著這些錯(cuò)誤會變成系統(tǒng)誤差,且無法通過增加測序覆蓋深度來消除。
[0003]第三代測序平臺正在迅速發(fā)展中,Pacific Biosciences公司的PacBio RS單分子實(shí)時(shí)測序系統(tǒng)自2011年4月底推出以來,立刻成為廣大研究者的熱點(diǎn),被譽(yù)為最有前途的第三代測序平臺。Pacific Biosciences公司在2012年度發(fā)布了最新的PacBio RSII測序儀,并且升級了最新的試劑以及測序酶,結(jié)合最新的C2試劑和P4酶,PacBio RSII將平均讀長提升至5kb,最長讀長可以達(dá)到20kb以上,在測序所得的序列拼接、定位以及跨越重復(fù)區(qū)域的應(yīng)用中有著極大優(yōu)勢,可以完全克服第二代測序技術(shù)的困難。相當(dāng)于同樣的一幅拼圖,用大的碎片來做拼圖,碎片的數(shù)目會減少,而且大碎片比小碎片的識別度要高,因此完成拼圖的難度就可以大幅降低,組裝獲得的圖質(zhì)量會大大提高,這對De Novo組裝,特別是復(fù)雜細(xì)菌以及復(fù)雜動(dòng)植物基因組的圖譜組裝質(zhì)量的提升是空前的。而且,在PacBio平臺上,文庫制備時(shí)無需PCR擴(kuò)增,因此避免了 PCR產(chǎn)生的bias等。
[0004]但是,兩年多過去了,研究人員對采用第三代單分子實(shí)時(shí)測序技術(shù)一直保持慎重。其主要原因在于單分子實(shí)時(shí)測序的錯(cuò)誤率相對較高,單次測序錯(cuò)誤率15%,循環(huán)測序誤差8%左右,其準(zhǔn)確度與第二代測序技術(shù)有很大的差距,無法進(jìn)行正常的后續(xù)分析。PacBio平臺上目前的錯(cuò)誤主要是插入和缺失。缺失錯(cuò)誤源自于有時(shí)候堿基摻入速度過快,超過了PacBio相機(jī)的拍攝幀數(shù)。插入錯(cuò)誤源自于有的時(shí)候酶隨機(jī)的選擇一些堿基,但并未將這些堿基真的摻入合成鏈中。

【發(fā)明內(nèi)容】
[0005]針對現(xiàn)有技術(shù)中存在的問題,本發(fā)明的主要目的在于提供一種組裝基因組序列的方法和系統(tǒng),將第二代測序技術(shù)所得的高精度短片段序列數(shù)據(jù)和單分子實(shí)時(shí)測序所得長片段序列數(shù)據(jù)結(jié)合在一起進(jìn)行基因組序列的組裝,提高組裝效率和準(zhǔn)確率。
[0006]一方面,本發(fā)明提供了一種組裝基因組序列的方法,包括:
[0007]利用第二代測序技術(shù)對樣品進(jìn)行測序,獲得所述樣品的高精度短片段序列;
[0008]對獲得的所述高精度短片段序列進(jìn)行拼接,獲得第一拼接序列;
[0009]利用單分子測序技術(shù)對與上述同樣來源的樣品進(jìn)行測序,獲得所述同樣來源樣品的長片段序列;
[0010]對獲得的所述長片段序列進(jìn)行拼接,獲得第二拼接序列;
[0011]將所述第一拼接序列定位到所述第二拼接序列上;
[0012]利用所述第一拼接序列中的所述高精度短片段序列對所述第二拼接序列中的所述長片段序列進(jìn)行局部糾錯(cuò),獲得第三拼接序列。
[0013]在本發(fā)明的一個(gè)實(shí)施例中,上述方法還包括使用LSC軟件和所述高精度短片段序列對第三拼接序列中未被第一拼接序列覆蓋到的區(qū)域進(jìn)行糾錯(cuò)。
[0014]在本發(fā)明的另一個(gè)實(shí)施例中,第二代測序技術(shù)采用的是HiSeq測序儀,單分子測序技術(shù)采用的是PacBio RSII測序儀。
[0015]在本發(fā)明的又一個(gè)實(shí)施例中,使用SOAPdenovo軟件對獲得的高精度短片段序列進(jìn)行拼接。
[0016]在本發(fā)明的又一個(gè)實(shí)施例中,使用SOAPdenovo軟件對獲得的高精度短片段序列進(jìn)行拼接包括以下步驟:
[0017]A.將原始reads讀入到內(nèi)存中,用de Bruijin圖數(shù)據(jù)結(jié)構(gòu)表示reads之間的overlap ;
[0018]B.簡化de Bruijin圖,所述簡化包括剪去短末端,移除低覆蓋度的邊,解決reads路徑中的微小重復(fù)和/或合并莖環(huán);
[0019]C.基于所述簡化的de Bruijin圖,在其重復(fù)邊界上打斷連接,輸出高精度的序列作為 contigs ;
[0020]D.重新用所述reads和所述contigs進(jìn)行比對,使用配對雙末端resds數(shù)據(jù)把單一的所述contigs連接成scaffolds ;
[0021]E.使用配對雙末端resds填補(bǔ)所述scaffolds內(nèi)部的gap,即可獲得所述的第一拼接序列。
[0022]在本發(fā)明的又一個(gè)實(shí)施例中,對獲得的所述長片段序列進(jìn)行拼接包括以下步驟:
[0023]A.先利用BLASR軟件找出可能的連接區(qū)域,再對所述可能的連接區(qū)域進(jìn)行詳細(xì)比對;
[0024]B.利用步驟A所獲得的詳細(xì)比對信息進(jìn)行去冗余和拼接,獲得所述的第二拼接序列。
[0025]另一方面,本發(fā)明還提供了一種組裝基因組序列的系統(tǒng),包括:
[0026]接收模塊I,用于接收利用第二代測序技術(shù)獲得的樣品的高精度短片段序列;
[0027]拼接模塊I,與接收模塊I相連,用于對獲得的樣品的高精度短片段序列進(jìn)行拼接,獲得第一拼接序列;[0028]接收模塊II,用于接收利用單分子測序技術(shù)獲得的樣品的長片段序列;
[0029]拼接模塊II,與接收模塊II相連,用于對獲得的樣品的長片段序列進(jìn)行拼接,獲得第二拼接序列;
[0030]定位模塊,與接收模塊I和接收模塊II相連,用于將第一拼接序列定位到第二拼接序列上;
[0031]糾錯(cuò)模塊I,與定位模塊相連,用于利用第一拼接序列中的高精度短片段序列對第二拼接序列中的長片段序列進(jìn)行局部糾錯(cuò),獲得第三拼接序列。
[0032]在本發(fā)明的一個(gè)實(shí)施例中,該系統(tǒng)還包括糾錯(cuò)模塊II,與糾錯(cuò)模塊I相連,用于使用LSC軟件和高精度短片段序列對第三拼接序列中未被第一拼接序列覆蓋到的區(qū)域進(jìn)行糾錯(cuò)。
[0033]本發(fā)明的方法結(jié)合了第二代測序技術(shù)數(shù)據(jù)組裝的結(jié)果和第三代測序技術(shù)數(shù)據(jù)組裝的結(jié)果,利用第二代測序技術(shù)數(shù)據(jù)組裝的高準(zhǔn)確度糾正單分子測序數(shù)據(jù)組裝的高錯(cuò)誤率,使單分子測序的錯(cuò)誤率不再是基因組裝配的障礙,實(shí)現(xiàn)了整個(gè)基因組的完美拼接。而且,本發(fā)明的方法能夠節(jié)省數(shù)據(jù)整理的時(shí)間。此外,由于單分子測序技術(shù)能夠識別RNA堿基修飾,可直接獲取功能信息,將第二代技術(shù)的序列密集數(shù)據(jù)與中度覆蓋的單分子技術(shù)數(shù)據(jù)相結(jié)合,可獲得基因組的甲基化模式,有望更廣泛地應(yīng)用于真核基因組的組裝。
【專利附圖】

【附圖說明】
[0034]圖1是本發(fā)明組裝基因組序列方法的一個(gè)實(shí)施例的流程示意圖。
[0035]圖2是利用第二代測序數(shù)據(jù)結(jié)合SOAPdenovo軟件組裝的一個(gè)實(shí)施例的流程示意圖。
[0036]圖3是PacBio所得的長片段序列拼接的一個(gè)實(shí)施例示意圖。
[0037]圖4是將第一拼接序列定位到第二拼接序列上的示意圖。
[0038]圖5是本發(fā)明組裝基因組序列方法的另一個(gè)實(shí)施例的流程示意圖。
[0039]圖6是利用第二代reads對第三拼接序列上未被第一拼接序列覆蓋的地方進(jìn)行局部糾錯(cuò)的示意圖。
[0040]圖7是本發(fā)明組裝基因組序列裝置的一個(gè)實(shí)施例的結(jié)構(gòu)示意圖。
[0041]圖8是本發(fā)明組裝基因組序列裝置的另一個(gè)實(shí)施例的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0042]以下結(jié)合附圖和優(yōu)選實(shí)施例對本發(fā)明進(jìn)行更全面地描述,應(yīng)當(dāng)理解的是,本文所描述的優(yōu)選實(shí)施例僅用于說明和解釋本發(fā)明,并不構(gòu)成對本發(fā)明的限制。
[0043]除非另有說明,否則在這些實(shí)施例中闡述的部件和步驟的相對布置、數(shù)字表達(dá)式和數(shù)值不構(gòu)成對本發(fā)明的限制。對于本領(lǐng)域普通技術(shù)人員已知的技術(shù)、方法和設(shè)備可能不作詳細(xì)討論,但在適當(dāng)情況下,技術(shù)、方法和設(shè)備應(yīng)當(dāng)被視為本說明的一部分。
[0044]高效快速的de novo拼接有助于發(fā)現(xiàn)大片段的結(jié)構(gòu)變異,對理解疾病相關(guān)基因組和存在融合基因、拷貝數(shù)變異和大范圍結(jié)構(gòu)變異的疾病遺傳變化具有重要意義。高質(zhì)量的基因組裝配對于基因組注釋和比較基因組分析也非常重要。本發(fā)明的方法充分利用了第三代測序儀PacBio RSII的讀長優(yōu)勢,將其生成的數(shù)據(jù)和第二代測序儀生成的精確短讀序數(shù)據(jù)結(jié)合在一起,使得基因組裝配結(jié)果準(zhǔn)確性大幅提高,拼接的重疊群平均長度是第二代測序儀所能得到的兩倍以上。
[0045]圖1是本發(fā)明組裝基因組序列方法的一個(gè)實(shí)施例的流程示意圖。
[0046]如圖1所示,該實(shí)例包括以下步驟:
[0047]S101,利用第二代測序技術(shù)對樣品進(jìn)行測序,獲得所述樣品的高精度短片段序列。其中,隨即打散樣品基因組,擴(kuò)增片段長度在150~500bp之間的短克隆,并直接進(jìn)行雙末端測序。第二代測序技術(shù)平臺454、Illumina和SOLID均可用于本本發(fā)明。本發(fā)明的樣品沒有限制,可以是基因組較大的植物、動(dòng)物、真菌,也可以是基因組較小的物種,例如微生物和病毒,還可以是需要檢測突變的基因組的一部分。
[0048]本發(fā)明一個(gè)實(shí)施例中,優(yōu)選第二代的HiSeq測序儀進(jìn)行DNA測序,HiSeq測序儀是iIIumina公司推出的高通量測序儀,測序通量可達(dá)300Gb/run,一次運(yùn)行可獨(dú)立測試16個(gè)樣品,其原理是基于DNA單分子簇的邊合成邊測序技術(shù)和專有的可逆終止化學(xué)反應(yīng)原理。測序時(shí)將基因組DNA的隨機(jī)片段附著到光學(xué)透明的玻璃表面(即Flow cell),這些DNA片段經(jīng)過延伸和橋式擴(kuò)增后,在Flow cell上形成了數(shù)以億計(jì)的Cluster (簇),每個(gè)Cluster是具有數(shù)千份相同模板DNA的單分子簇。然后利用帶熒光基團(tuán)的四種特殊脫氧核糖核苷酸,通過可逆性終止的SBS (邊合成邊測序)技術(shù)對待測的模板DNA進(jìn)行測序。這種新方法確保了聞精確度和真實(shí)的一個(gè)喊基接一個(gè)喊基的測序,為同聚物和重復(fù)序列的測序提供了一個(gè)很好的解決方案。
[0049]S102,對SlOl獲得的高精度短片段序列進(jìn)行拼接。基于第二代測序數(shù)據(jù)的基因組序列拼接,通常包括以下幾個(gè)部分:1)數(shù)據(jù)的預(yù)處理階段。該階段通過特定的方法,移除測序數(shù)據(jù)中的錯(cuò)誤堿基;2)基因組連續(xù)片段(contigs)生成階段,該階段將reads拼接成contigs ;3)超長序列片段(scaffoldings)組裝階段,該階段使用配對數(shù)據(jù),確定conntigs之間的方向和位置關(guān)系,生成scaffoldings。目前,基于第二代測序數(shù)據(jù)的全基因組從頭測序拼接主要的策略有貪心(greedy)、交疊-排列-生成共有序列(Overlap-Layout-Consensus, 0LC)與 De Bruijn 圖。
[0050]本發(fā)明一個(gè)實(shí)施例中,優(yōu)選使用SOAPdenovo軟件進(jìn)行高精度短序列的拼接。SOAPdenovo軟件對于短讀長組裝起來速度快,消耗的內(nèi)存相對較少,且拼接的連續(xù)性好。圖2所示為利用SOAPdenovo軟件對HiSeq測序儀測序數(shù)據(jù)進(jìn)行拼接的流程圖,結(jié)合圖中步驟可以得出具體流程分為A到F的過程:A.隨即打散基因組,擴(kuò)增長度在150~500bp之間的短克隆,并進(jìn)行雙末端直接測序。B.將未處理(或者未經(jīng)糾正的)reads讀入到內(nèi)存中,并且用deBruijin圖數(shù)據(jù)結(jié)構(gòu)來表示reads間的Overlap (重疊)。C.通過:a.剪去短末端;b.移除低覆蓋度的邊;c.解決reads路徑中得微小重復(fù);d.合并莖環(huán),來簡化deBruijin圖。D.在簡化deBruijin圖的基礎(chǔ)上,在重復(fù)邊界上打斷連接,輸出明確的序列作為contigs。E.重新用reads和contigs進(jìn)行比對,使用雙末端信息來把單一的contigs連接成scaffolds。F.最后使用配對雙端resds來填補(bǔ)scaffolds內(nèi)部可能是由重復(fù)序列所造成的Gap(缺口)。通過圖示流程即得到第二代數(shù)據(jù)拼接的結(jié)果。SOAPdenovo的軟件在官網(wǎng)上http://soap.genomics, org.cn可以下載和使用。
[0051]S103,利用單分子測序技術(shù)獲得樣品的長片段序列。單分子測序技術(shù)利用DNA聚合酶合成與模板互補(bǔ)的DNA鏈,在三圍空間中記錄模板位置和核苷酸序列信息,再反向構(gòu)建DNA模板的序列。除了 DNA合成反應(yīng)的三大要素(模板、酶、核苷酸)之外,模板所處位置和反應(yīng)循環(huán)中單色熒光標(biāo)記的核苷酸順序(如A、C、G、T)也是最終DNA序列能夠完成的關(guān)鍵要素。如果反應(yīng)所用的核苷酸標(biāo)記著四種不同的熒光,則每一次反應(yīng)循環(huán)就需要切換不同波長的光以記錄不同的堿基。單分子測序技術(shù)具有測序速度快、產(chǎn)出序列長、成本低的巨大優(yōu)勢,目前的缺陷和不足在于測序準(zhǔn)確度。目前已經(jīng)開發(fā)或正在開發(fā)中的單分子測序平臺有:1.單分子即時(shí) DNA 測序(single molecule real time DNAsequencing),簡稱 SMRT ;
2.HeliScope 單分子測序(HeliScope single molecular sequencing) ;3.基于突光共振能量轉(zhuǎn)移的SP 時(shí)DNA測序(real-time DNA sequencing using fluorescence resonance energytransfer) ;4.納米孔單分子測序(nanopore single molecular sequencing) ;5.離子流半導(dǎo)體測序(ion semiconductor sequencing)。
[0052]在本發(fā)明的一個(gè)實(shí)施例中,優(yōu)選Pacific Biosciences公司的最新發(fā)布的PacBioRSII測序儀,且采用該公司測序系統(tǒng)升級了的最新的C2試劑和P4酶。PacBio RSII的平均讀長為5kb,最長讀長可以達(dá)到20kb以上。另外,PacBio RSII系統(tǒng)測序速度較快,目前PacBio RSII上所使用的DNA聚合酶的合成速度大概是I~3個(gè)堿基/秒,從樣品制備到獲得堿基序列的全部流程可在1天內(nèi)完成?,F(xiàn)階段PacBio RSII每天可運(yùn)行8個(gè)SMRT cell,每天可獲得8X200M = 1600Mb的有效數(shù)據(jù),為基因組De Novo組裝提供了可靠數(shù)據(jù)供應(yīng)。
[0053]S104,對S103單分子測序拼接長片段序列進(jìn)行拼接。長序列片段的拼接相對于短序列的拼接更容易進(jìn)行。圖3示出了對PacBio數(shù)據(jù)進(jìn)行組裝。在該實(shí)施例中,所用的拼接軟件為Assemble,該軟件通過序列比對找到可能的連接區(qū)域,再將這些區(qū)域進(jìn)行拼接和去冗余。軟件中包含了 2個(gè)關(guān)鍵模塊:(I)比對:先利用BLASR軟件找出可能的連接區(qū)域,再對這些區(qū)域進(jìn)行全局比對。其中,可能的連接區(qū)域包括含有錨點(diǎn)、比對率高的區(qū)域;(2)組裝:利用上步的詳細(xì)全局比對信息進(jìn)行拼接和去除冗余序列。
[0054]S105,將第二代測序獲得高精度短片段序列定位到單分子測序技術(shù)獲得的長片段序列上。圖4示出了以PacBio數(shù)據(jù)拼接結(jié)果為基礎(chǔ),將第二代測序數(shù)據(jù)拼接結(jié)果定位到該基礎(chǔ)上的構(gòu)架搭建示意圖,其中上面的橫線部分為第二代數(shù)據(jù)拼接結(jié)果,下面的橫線部分為PacBio數(shù)據(jù)拼接結(jié)果,將第二代的測序拼接結(jié)果比對回PacBio的測序拼接結(jié)果上,可以得到高準(zhǔn)確度和完整的組裝結(jié)果。該定位步驟采用的軟件是Align,具體包括以下兩部分操作:⑴序列比對;⑵根據(jù)比對結(jié)果找匹配錨點(diǎn)。
[0055]S106,利用第二代測序獲得高精度短片段序列對單分子測序技術(shù)獲得的長片段序列中被高精度短片段序列覆蓋到的區(qū)域進(jìn)行局部糾錯(cuò),獲得所述樣品基因組的初步基因組序列。所謂局部糾錯(cuò),即通過Replace函數(shù)(標(biāo)識替換的函數(shù))將同區(qū)域中的單分子測序技術(shù)獲得的長片段序列替換為第二代測序獲得的高精度短片段序列。
[0056]在本發(fā)明中,高精度短片段的獲取和拼接步驟與長片段的獲取和拼接步驟并無固定的順序,可以先進(jìn)行高精度短片段的獲取和拼接,后進(jìn)行長片段的獲取和拼接;也可以先進(jìn)行長片段的獲取和拼接,后進(jìn)行高精度短片段的獲取和拼接;或者兩者同時(shí)進(jìn)行。
[0057]圖5是本發(fā)明組裝基因組序列方法的另一個(gè)實(shí)施例的流程示意圖。該實(shí)施例的前面步驟與圖1所示的實(shí)施例相同,但是該實(shí)施例增加了利用LSC軟件和第二代reads對長片段拼接結(jié)果上未被短片段拼接結(jié)果覆蓋的區(qū)域進(jìn)行糾錯(cuò)的步驟。圖5示出了使用LSC軟件和第二代測序的原始reads,對PacBio拼接結(jié)果中未被第二代拼接結(jié)果覆蓋到的區(qū)域進(jìn)行糾錯(cuò),得到高質(zhì)量的PacBio組裝結(jié)果圖譜。此處糾錯(cuò)使用LSC軟件,主要步驟包括:將第二代測序的原始reads比對至PacBio拼接結(jié)果;根據(jù)比對結(jié)果找到PacBio拼接結(jié)果上第二代高精度短片段序列的覆蓋區(qū)域;將覆蓋區(qū)域的PacBio拼接結(jié)果替換為第二代高精度短片段序列。
[0058]圖7是本發(fā)明組裝基因組序列裝置的一個(gè)實(shí)施例的結(jié)構(gòu)示意圖。
[0059]如圖7所示,該實(shí)例可以包括:
[0060]接收模塊11,用于接收利用第二代測序技術(shù)獲得的樣品的高精度短片段序列;
[0061]拼接模塊12,與接收模塊11相連,用于對獲得的樣品的高精度短片段序列進(jìn)行拼接,獲得第一拼接序列;
[0062]接收模塊13,用于接收利用單分子測序技術(shù)獲得的樣品的長片段序列;
[0063]拼接模塊14,與接收模塊13相連,用于對獲得的樣品的長片段序列進(jìn)行拼接,獲得第二拼接序列;
[0064]定位模塊15,與拼接模塊12和拼接模塊14相連,用于將第一拼接序列定位到第二拼接序列上;
[0065]糾錯(cuò)模塊16,與定位模塊15相連,用于利用第一拼接序列中的高精度短片段序列對第二拼接序列中的長片段序列進(jìn)行局部糾錯(cuò),獲得初步的樣品基因組序列。
[0066]該實(shí)施例結(jié)合了第二代測序技術(shù)數(shù)據(jù)組裝的結(jié)果和第三代測序技術(shù)數(shù)據(jù)組裝的結(jié)果,利用第二代測序技術(shù)數(shù)據(jù)組裝的高準(zhǔn)確度糾正單分子實(shí)時(shí)測序數(shù)據(jù)組裝的高錯(cuò)誤率,使單分子實(shí)時(shí)測序的錯(cuò)誤率不再是基因組裝配的障礙,實(shí)現(xiàn)了整個(gè)基因組的完美拼接。而且,本發(fā)明的方法能夠節(jié)省數(shù)據(jù)整理的時(shí)間。此外,由于單分子實(shí)時(shí)測序技術(shù)能夠識別RNA堿基修飾,可直接獲取功能信息,將第二代技術(shù)的序列密集數(shù)據(jù)與中度覆蓋的單分子技術(shù)數(shù)據(jù)相結(jié)合,可獲得基因組的甲基化模式,有望更廣泛地應(yīng)用于真核基因組的組裝。
[0067]圖8是本發(fā)明組裝基因組序列裝置的另一個(gè)實(shí)施例的結(jié)構(gòu)示意圖。
[0068]如圖8所示,與圖7中的實(shí)施例相比,該實(shí)例的還可以包括:
[0069]糾錯(cuò)模塊17,糾錯(cuò)模塊16相連,用于使用LSC軟件和高精度短片段序列對第三拼接序列中未被第一拼接序列覆蓋到的區(qū)域進(jìn)行糾錯(cuò),獲得準(zhǔn)確度更高的樣品基因組序列。
[0070]最后應(yīng)說明的是:以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,盡管參照前述實(shí)施例對本發(fā)明進(jìn)行了詳細(xì)的說明,對于本領(lǐng)域的技術(shù)人員來說,其依然可以對前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對其中部分技術(shù)特征進(jìn)行等同替換。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種組裝基因組序列的方法,其特征在于,包括: 利用第二代測序技術(shù)對樣品進(jìn)行測序,獲得所述樣品的高精度短片段序列; 對獲得的所述高精度短片段序列進(jìn)行拼接,獲得第一拼接序列; 利用單分子測序技術(shù)對與上述同樣來源的樣品進(jìn)行測序,獲得所述同樣來源樣品的長片段序列; 對獲得的所述長片段序列進(jìn)行拼接,獲得第二拼接序列; 將所述第一拼接序列定位到所述第二拼接序列上; 利用所述第一拼接序列中的所述高精度短片段序列對所述第二拼接序列中的所述長片段序列進(jìn)行局部糾錯(cuò),獲得第三拼接序列。
2.一種如權(quán)利要求1所述的組裝基因組序列的方法,其特征在于:所述方法還包括使用LSC軟件和所述高精度短片段序列對所述第三拼接序列中未被所述第一拼接序列覆蓋到的區(qū)域進(jìn)行糾錯(cuò)。
3.—種如權(quán)利要求1所述的組裝基因組序列的方法,其特征在于:所述的第二代測序技術(shù)采用的是HiSeq測序儀,所述的單分子測序技術(shù)采用的是PacBio RSII測序儀。
4.一種如權(quán)利要求1所述的組裝基因組序列的方法,其特征在于:使用SOAPdenovo軟件對獲得的所述高精度短片段序列進(jìn)行拼接。
5.一種如權(quán)利要求4所述的組裝基因組序列的方法,其特征在于:所述的使用SOAPdenovo軟件對獲得的所述高精度短片段序列進(jìn)行拼接包括以下步驟: A.將原始reads讀入到內(nèi)存中,用deBruijin圖數(shù)據(jù)結(jié)構(gòu)表示reads之間的overlap ; B.簡化deBruijin圖,所述簡化包括剪去短末端,移除低覆蓋度的邊,解決reads路徑中的微小重復(fù)和/或合并莖環(huán); C.基于所述簡化的deBruijin圖,在其重復(fù)邊界上打斷連接,輸出高精度的序列作為contigs ; D.重新用所述reads和所述contigs進(jìn)行比對,使用配對雙末端resds數(shù)據(jù)把單一的所述 contigs 連接成 scaffolds ; E.使用配對雙末端resds填補(bǔ)所述scaffolds內(nèi)部的gap,即可獲得所述的第一拼接序列。
6.一種如權(quán)利要求1所述的組裝基因組序列的方法,其特征在于,所述的對獲得的所述長片段序列進(jìn)行拼接包括以下步驟: A.先利用BLASR軟件找出可能的連接區(qū)域,再對所述可能的連接區(qū)域進(jìn)行詳細(xì)比對; B.利用步驟A所獲得的詳細(xì)比對信息進(jìn)行去冗余和拼接,獲得所述第二拼接序列。
7.一種組裝基因組序列的系統(tǒng),其特征在于,包括: 接收模塊I,用于接收利用第二代測序技術(shù)獲得的樣品的高精度短片段序列; 拼接模塊I,與所述接收模塊I相連,用于對所獲得的樣品的高精度短片段序列進(jìn)行拼接,獲得第一拼接序列; 接收模塊II,用于接收利用單分子測序技術(shù)獲得的樣品的長片段序列; 拼接模塊II,與所述接收模塊II相連,用于對所獲得的樣品的長片段序列進(jìn)行拼接,獲得第二拼接序列; 定位模塊,與所述接收模塊I和所述接收模塊II相連,用于將所述第一拼接序列定位到所述第二拼接序列上; 糾錯(cuò)模塊I,與所述定位模塊相連,用于利用所述第一拼接序列中的高精度短片段序列對所述第二拼接序列中的長片段序列進(jìn)行局部糾錯(cuò),獲得第三拼接序列。
8.一種如權(quán)利要求7所述的組裝基因組序列的系統(tǒng),其特征在于:所述系統(tǒng)還包括糾錯(cuò)模塊II,與所述糾錯(cuò)模塊I相連,用于使用LSC軟件和高精度短片段序列對所述第三拼接序列中未被 所述第一拼接序列覆蓋到的區(qū)域進(jìn)行糾錯(cuò)。
【文檔編號】C12M1/00GK104017883SQ201410272988
【公開日】2014年9月3日 申請日期:2014年6月18日 優(yōu)先權(quán)日:2014年6月18日
【發(fā)明者】詹東亮 申請人:深圳華大基因科技服務(wù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
济宁市| 昌邑市| 白城市| 苗栗市| 扶余县| 商洛市| 久治县| 大安市| 林周县| 深泽县| 兰西县| 聊城市| 庄浪县| 霍州市| 文成县| 宁阳县| 赤峰市| 准格尔旗| 泰来县| 辽宁省| 阳新县| 竹北市| 东城区| 鹰潭市| 五家渠市| 尚志市| 定陶县| 普兰县| 博湖县| 突泉县| 潮州市| 西昌市| 博爱县| 廉江市| 会同县| 新丰县| 蓝山县| 皋兰县| 东乌珠穆沁旗| 忻城县| 银川市|