两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

核酸序列拼接方法及裝置的制造方法

文檔序號:8528373閱讀:778來源:國知局
核酸序列拼接方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及生物信息處理領(lǐng)域,尤其涉及一種核酸序列拼接方法及裝置。
【背景技術(shù)】
[0002]在基因組測序技術(shù)發(fā)展歷程中,具有低成本、高測序通量(又稱高通量,指一定時間內(nèi)獲得的數(shù)據(jù)輸出量)、更精準(zhǔn)特點的第二代測序技術(shù)帶來了前所未有的應(yīng)用前景,如基因組組裝、結(jié)構(gòu)變異檢測等。第二代測序技術(shù)得到的read(讀段,指隨機打亂DNA序列所得的小片段)不僅長度短,數(shù)量又極為巨大,覆蓋度高,這給序列拼接帶來了前所未有的難題,而基因組測序中的一個關(guān)鍵步驟就是序列拼接。序列拼接是將小的reads進行比對合并成大的DNA序列或者RNA序列,這些reads是由堿基A、G、C、T或A、G、C、U組成,reads的長度表示其含有的A、G、C、T或A、G、C、U的個數(shù)。含有A、G、C、T或A、G、C、U的reads經(jīng)過拼接得到更長的reads,該更長的reads再經(jīng)過拼接或比對最終可得到DNA或RNA序列。
[0003]第二代測序技術(shù)所面臨的基本拼接問題是,由于第二代測序技術(shù)read長度偏短的特點,由此給拼接算法帶來難題,包括如何處理測序錯誤,以及如何處理重復(fù)序列。在真實的基因組項目中,大基因組尤其是植物基因組的重復(fù)序列含量十分高,有的重復(fù)序列高達(dá)60%以上,在使用現(xiàn)有拼接算法進行序列拼接過程中,由于重復(fù)序列的影響,將產(chǎn)生很多短碎的contig (重疊群)序列,使得后續(xù)拼接過程的scaffold (支架,是由順序確定的contigs連接組成)構(gòu)建、補洞等環(huán)節(jié)受其影響,效果不佳。
[0004]已有研究提出使用長reads來處理拼接過程的重復(fù)序列。長reads可通過例如測通的Illumina數(shù)據(jù)得到。研究表明,長read有利于在contig構(gòu)建過程中利用新的算法理論與新的拼接策略解決更多的重復(fù)序列的問題,得到更長的contig序列,提升contig構(gòu)建的效果。

【發(fā)明內(nèi)容】

[0005]依據(jù)本發(fā)明的一方面,提供一種核酸序列拼接方法,包括:接收測序序列,所述測序序列包括讀段和測通數(shù)據(jù);根據(jù)所述讀段構(gòu)建原始拼接圖;將所述測通數(shù)據(jù)比對到所述原始拼接圖的邊上;從原始拼接圖的邊集中選擇錨點邊,所述錨點邊的兩端沒有分叉且跨過該錨點邊的讀段的路徑?jīng)]有沖突;構(gòu)建以所述錨點邊為中心的局部子圖;化簡所述局部子圖,在化簡結(jié)果中重復(fù)選擇錨點邊進行處理直至不存在新的錨點邊;對處理后剩余的局部子圖進行合并,將合并結(jié)果作為拼接結(jié)果輸出。
[0006]依據(jù)本發(fā)明的另一方面,提供一種核酸序列拼接裝置,包括:接收模塊,用于接收測序序列,所述測序序列包括讀段和測通數(shù)據(jù);原始構(gòu)建模塊,用于根據(jù)所述讀段構(gòu)建原始拼接圖;比對模塊,用于將所述測通數(shù)據(jù)比對到所述原始拼接圖的邊上;選擇模塊,用于從原始拼接圖的邊集中選擇錨點邊,所述錨點邊的兩端沒有分叉且跨過該錨點邊的讀段的路徑?jīng)]有沖突;子圖構(gòu)建模塊,用于構(gòu)建以所述錨點邊為中心的局部子圖;化簡模塊,用于化簡所述局部子圖,在化簡結(jié)果中重復(fù)選擇錨點邊進行處理直至不存在新的錨點邊;合并模塊,用于對處理后剩余的局部子圖進行合并,將合并結(jié)果作為拼接結(jié)果輸出。
[0007]依據(jù)本發(fā)明的又一方面,提供一種包括上述核酸序列拼接裝置的基因組測序設(shè)備。
[0008]依據(jù)本發(fā)明的再一方面,提供一種計算機可讀存儲介質(zhì),用于存儲供計算機執(zhí)行的程序,本領(lǐng)域普通技術(shù)人員可以理解,在執(zhí)行該程序時,通過指令相關(guān)硬件可完成上述核酸序列拼接方法的全部或部分步驟。所稱存儲介質(zhì)可以包括:只讀存儲器、隨機存儲器、磁盤或光盤等。
[0009]依據(jù)本發(fā)明的方法,通過將測通數(shù)據(jù)比對到由讀段構(gòu)建得的原始拼接圖,從原始拼接圖中選擇出錨點邊并據(jù)此構(gòu)建局部子圖,再通過對局部子圖的化簡和合并得到更長的路徑,達(dá)到解決錨點邊之間的重復(fù)序列的路徑選擇問題,進而可完成測序序列的拼接任務(wù),為提升scaffold構(gòu)建效果提供可能。
【附圖說明】
[0010]本發(fā)明的上述和/或附加的方面和優(yōu)點從結(jié)合下面附圖對實施方式的描述中將變得明顯和容易理解,其中:
圖1為依據(jù)本發(fā)明的一種實施例的核酸序列拼接方法的流程示意圖;
圖2至圖4為由于片段中間的堿基錯誤形成的環(huán)形結(jié)構(gòu)和由測序錯誤形成的嵌合體示意圖;
圖5和圖6分別為邊出現(xiàn)分叉路徑和路徑存在沖突的示意圖;
圖7為通過錨點邊D獲得的所有局部子圖及其化簡結(jié)果示意圖;
圖8為由錨點邊D構(gòu)成的局部子圖與由錨點邊F構(gòu)成的局部子圖的合并示意圖;
圖9為局部子圖合并過程中弧關(guān)系的處理示意圖;
圖10為依據(jù)本發(fā)明的一種實施例的核酸序列拼接方法的流程示意圖;
圖11為Maize chrl contig組裝結(jié)果示意圖;
圖12為Maize chrl scaffold構(gòu)建結(jié)果不意圖;
圖13為Maize chrl contig評價結(jié)果示意圖;
圖14為Maize基因組補洞后scaftig統(tǒng)計結(jié)果示意圖;
圖15為Maize基因組scaftig評價結(jié)果示意圖。
【具體實施方式】
[0011]目前已有研究者開發(fā)出不同的算法并編寫大量的拼接軟件。比較成功的拼接軟件是velvet、SOAPdenovo等。其中,SOAPdenovo是深圳華大基因開發(fā),是專門針對Illumina高通量測序數(shù)據(jù)的拼接軟件,可從http://soap, genomics, org.cn/soapdenov0.html下載獲得。SOAPdenovo基于de Brui jn (德布魯因)圖算法,其拼接流程一般包括如下步驟A_F。
[0012]步驟A,構(gòu)建不同長度的插入讀段文庫,例如180bp (base pair,堿基對)、500bp等;
步驟B,將所有小讀段庫(180/500bp)測序得到的reads截斷成更小的序列片段,通過它們之間的重疊關(guān)系構(gòu)建de Bruijn圖,從而將這些讀段連接起來;
步驟C,在步驟B中構(gòu)建的de Bruijn圖非常復(fù)雜,為了簡化de Brui jn圖,需要去除無法繼續(xù)連接的分支、低覆蓋度的分支(一般這兩種情況是由于測序錯誤造成);并利用reads信息化簡重復(fù)序列在de Bruijn圖的分叉通路;對于少量的雜合位點,采用隨機選擇策略,合并雜合位點;
步驟D,通過步驟C得到簡化后的de Bruijn圖,這樣的圖仍然會有很多分叉位點無法確定真正的連接關(guān)系,因此在每個分叉位點將序列截斷,得到了最初的contigs ;
步驟E,將所有文庫測序得到的reads比對回初步得到的contigs,利用reads之間的連接關(guān)系和插入讀段大小信息,將contigs組裝成scaffolds ;
步驟F,對contigs之間的gap (空隙)進行補洞,延長contigs。補洞后的contigs長度相比補洞之前一般可以增加6-7倍。
[0013]其中,de Bruijn圖的構(gòu)造過程如下:
(I)假定給定的reads集合為F= {fl, f2,…,fn},把這些reads劃分為若干連續(xù)堿基組成的等長度短序列(稱為kmer)。假設(shè)每個kmer長度為k,對一個read劃分時,先以read的任意一端為起始位置,截取k個堿基,再將起始位置向后移動一個堿基,再截取k個堿基,依此類推,直至截取得到kmer的尾部到達(dá)read的另一端,這些kmer組成了 de Bruijn圖的頂點。
[0014](2)對于任意兩個kmer如u和V,如果u的后k_l個堿基序列與v的前k_l個堿基序列相同,則建立一條由u指向V的有向邊。
[0015]通過以上兩步即可構(gòu)造出一個de Bruijn圖。
[0016]本發(fā)明一種實施例以SOAPdenovo拼接軟件為基礎(chǔ),提出一種核酸序列拼接方法及裝置,如圖1所示,實施例的核酸序列拼接方法包括以下步驟S1-S13。
[0017]步驟S1:接收測序序列。
[0018]這里,所接收的測序序列包括reads和測通數(shù)據(jù)。reads通常是指通過高通量測序技術(shù)得到的長度較短的reads ;測通數(shù)據(jù)包括長reads和連通數(shù)據(jù),連通數(shù)據(jù)是指測通的Illumina雙末端數(shù)據(jù)(paired-end reads)連接形成的長讀段(又稱連通read),即插入讀長小于兩條read長度之和的數(shù)據(jù)而形成的一條長度更長的read,或者說是利用插入片段長度小于所測得的兩條末端讀長之和的數(shù)據(jù)的由兩個末端讀段連接形成的長read;而測通數(shù)據(jù)包括的長reads是指長度大于插入片段的reads,例如通過Roche 454測序平臺獲得的reads。連通數(shù)據(jù)的獲取可采用已有的相關(guān)技術(shù)實現(xiàn),例如采用華大基因研發(fā)的COPE(可從 http: //sourceforge.net/projects/coperead/files/src/ 下載獲得)軟件實現(xiàn)對連通數(shù)據(jù)的獲取。以下實施例
當(dāng)前第1頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
太原市| 会宁县| 滦平县| 宜兰市| 旺苍县| 河北省| 孝义市| 库车县| 汕尾市| 富裕县| 江达县| 广汉市| 衡东县| 慈溪市| 泾阳县| 绥中县| 双鸭山市| 彩票| 江源县| 九台市| 湖南省| 灵川县| 晋城| 无为县| 红河县| 全椒县| 错那县| 嘉荫县| 蛟河市| 苗栗市| 津市市| 中山市| 六枝特区| 汝阳县| 咸阳市| 福清市| 湖南省| 政和县| 栖霞市| 全南县| 榕江县|