本發(fā)明屬于基因測(cè)序領(lǐng)域,具體的,本發(fā)明涉及三代測(cè)序(pacbiosmrt和oxfordnanopore測(cè)序)序列比對(duì)方法,特別是涉及一種基于全局種子打分優(yōu)選候選比對(duì)區(qū)域的三代測(cè)序序列比對(duì)方法。
背景技術(shù):
::目前三代測(cè)序技術(shù)主要包含pacbio公司的單分子實(shí)時(shí)測(cè)序(singlemolecule,real-time,smrt)測(cè)序技術(shù)和oxfordnanopore公式的納米孔(nanopore)測(cè)序技術(shù)。與二代測(cè)序技術(shù)相比,三代測(cè)序數(shù)據(jù)具有讀長(zhǎng)(或測(cè)序序列)很長(zhǎng)(longread,平均10-15kb左右)和測(cè)序序列無(wú)gc偏好性等特點(diǎn),這些數(shù)據(jù)特征可以有力彌補(bǔ)了一代和二代測(cè)序技術(shù)很多缺陷,從而使其具有廣泛應(yīng)用市場(chǎng):在基因組測(cè)序方面,研究者利用三代測(cè)序的測(cè)序序列完成了大基因組組裝、基因組復(fù)雜區(qū)深度解析、人類基因組150個(gè)gap區(qū)域和結(jié)構(gòu)變異的解析;在轉(zhuǎn)錄組測(cè)序方面,研究者利用測(cè)序序列已包含完整cdna信息深入分析全轉(zhuǎn)錄組可變剪接和亞型;在dna修飾測(cè)序方面,研究者利用模板修飾堿基降低聚合酶合成速率來(lái)有效檢測(cè)dna未知的修飾(例如dna甲基化)。目前,三代測(cè)序技術(shù)將成為二代測(cè)序技術(shù)的有力補(bǔ)充或替代,近兩年來(lái)廣泛應(yīng)用于基因組組裝、長(zhǎng)片段indel檢測(cè)和矯正、以及甲基化修飾的檢測(cè)等研究中。三代測(cè)序數(shù)據(jù)高測(cè)序錯(cuò)誤率給三代測(cè)序數(shù)據(jù)處理帶來(lái)了巨大的挑戰(zhàn)。三代測(cè)序的測(cè)序數(shù)據(jù)具有測(cè)序序列高讀長(zhǎng)(14kbp)和錯(cuò)誤率高(錯(cuò)誤率高達(dá)15%,其主要是10%插入或4%缺失,有較少的1%替代)等特點(diǎn),而二代測(cè)序測(cè)序數(shù)據(jù)具有短讀長(zhǎng)(50-200bp)和錯(cuò)誤率低(錯(cuò)誤率約1%,主要是替代產(chǎn)生)等特點(diǎn)。由于三代測(cè)序和二代測(cè)序的數(shù)據(jù)特征有顯著不同,因此二代測(cè)序計(jì)算方法顯然不實(shí)用于三代測(cè)序數(shù)據(jù)分析。目前pacbio公司針對(duì)三代測(cè)序數(shù)據(jù)特征不斷開(kāi)發(fā)smartanalysis數(shù)據(jù)分析平臺(tái),然而該系統(tǒng)參考基因組比對(duì)(blasr)和基因組組裝流程兩兩比對(duì)計(jì)算十分耗資源:40x人類基因組三代測(cè)序數(shù)據(jù),該系統(tǒng)軟件blasr完成參考基因組序列比對(duì)需要200g內(nèi)存和幾萬(wàn)核小時(shí);完成人類基因組組裝,需要幾萬(wàn)個(gè)核運(yùn)行三個(gè)月以上才能完成,也就是說(shuō),天河二號(hào)完成這樣組裝計(jì)算量也很有挑戰(zhàn),其中兩兩比對(duì)在拼裝流程中占了總時(shí)間的98%以上。參考基因組比對(duì)和兩兩比對(duì)過(guò)程需要大量計(jì)算量,約束了三代測(cè)序廣泛應(yīng)用和發(fā)展。因此,創(chuàng)建一種高效三代測(cè)序的兩兩比對(duì)方法和參考基因組比對(duì)方法(序列比對(duì)方法)具有很高實(shí)際應(yīng)用價(jià)值?;谌址N子打分優(yōu)選參考基因組比對(duì)方法的速度是目前三代測(cè)序參考基因組比對(duì)軟件blasr和bwa-mem的5-100倍;在54x人基因組上,基于全局種子打分(優(yōu)選兩兩比對(duì)方法)的速度是目前三代測(cè)序兩兩比對(duì)軟件mhap和daligner的20-100倍。本發(fā)明的系統(tǒng)和方法可以大幅降低目前三代測(cè)序需要的計(jì)算時(shí)間和資源,具有良好商業(yè)價(jià)值。技術(shù)實(shí)現(xiàn)要素:為解決上述技術(shù)問(wèn)題,本發(fā)明提供了基于全局種子打分優(yōu)選的三代測(cè)序序列比對(duì)系統(tǒng),該系統(tǒng)包含模塊1、模塊2、模塊3、模塊4和模塊5,模塊1嵌合快速查找顯著候選重疊區(qū)域的block數(shù)據(jù)結(jié)構(gòu)模型,模塊2嵌合參考基因組block數(shù)據(jù)結(jié)構(gòu)的映射規(guī)則,模塊3嵌合參考基因組索引和測(cè)序序列(read)種子序列抽樣規(guī)則,模塊4嵌合匹配塊(block)種子匹配數(shù)與靈敏度數(shù)學(xué)模型,模塊5嵌合基于塊數(shù)據(jù)結(jié)構(gòu)的全局種子打分模型,其中模塊5包含模塊5.1、模塊5.2和模塊5.3,模塊5.1嵌合兩個(gè)種子對(duì)之間的兩個(gè)序列的距離差異因子,模塊5.2嵌合兩兩種子投票打分獲取核心匹配種子位置對(duì)規(guī)則,模塊5.3嵌合延伸投票打分獲取核心位置對(duì)的全局種子投票得分規(guī)則。優(yōu)選的,上述系統(tǒng)還包含模塊6,模塊6嵌合基于全局種子打分的優(yōu)選和使用規(guī)則。上述系統(tǒng)中,模塊1嵌合快速查找顯著候選重疊區(qū)域的block數(shù)據(jù)結(jié)構(gòu)模型,所述快速查找顯著候選重疊區(qū)域的block數(shù)據(jù)結(jié)構(gòu)模型為:設(shè)z為block數(shù)據(jù)結(jié)構(gòu)的塊比例,即塊大小,對(duì)于參考基因組每z個(gè)堿基建立一個(gè)塊(block)數(shù)據(jù)結(jié)構(gòu),并順序編號(hào),用于比對(duì)過(guò)程中快速將種子序列定位到候選比對(duì)區(qū)域。每個(gè)塊數(shù)據(jù)結(jié)構(gòu)中包含種子計(jì)數(shù)器、p個(gè)種子位置對(duì)組成:種子位置對(duì)記錄某一種子在測(cè)序序列的位置和該種子在參考基因組的匹配位置;種子計(jì)數(shù)器用來(lái)記錄候選塊結(jié)構(gòu)比對(duì)的種子個(gè)數(shù),同時(shí)表示塊結(jié)構(gòu)熱點(diǎn)區(qū)域的得分。通常情況,某個(gè)特定塊結(jié)構(gòu)種子數(shù)得分越高,表示測(cè)序序列落在此塊區(qū)間可能性越大(參見(jiàn)附圖1)。上述系統(tǒng)中,模塊2嵌合參考基因組block數(shù)據(jù)結(jié)構(gòu)的映射規(guī)則,參考基因組block數(shù)據(jù)結(jié)構(gòu)的映射規(guī)則為:通過(guò)測(cè)序序列(read)每個(gè)種子(k-mer)編碼查詢參考基因組索引獲得每個(gè)種子基因組的精確位置,并用每個(gè)種子的精確位置按照公式1的規(guī)則映射到上述塊結(jié)構(gòu):其中z表示塊結(jié)構(gòu)堿基區(qū)域大小,cr表示塊結(jié)構(gòu)的序號(hào),cl為種子在參考基因組的在塊結(jié)構(gòu)的相對(duì)準(zhǔn)確位置,sli表示參考基因組候選位置。其中,當(dāng)種子序列比對(duì)到第cr號(hào)塊結(jié)構(gòu)中時(shí),該塊結(jié)構(gòu)的種子計(jì)數(shù)器個(gè)數(shù)加1,并建立查詢表記錄所有可能候選區(qū)域block結(jié)構(gòu)的位置和該區(qū)域種子數(shù)。上述系統(tǒng)中,模塊3嵌合參考基因組索引和測(cè)序序列(read)種子序列抽樣規(guī)則,參考基因組索引和測(cè)序序列(read)種子序列抽樣規(guī)則為:以參考基因組每個(gè)位點(diǎn)為起始,取k=13個(gè)堿基長(zhǎng)度的片段作為種子序列(k-mer),建立種子(k-mer)的4進(jìn)制編碼與其對(duì)應(yīng)起始位置的哈希表(參見(jiàn)附圖2)。哈希表中記錄每個(gè)種子(k-mer)的編碼和該種子(k-mer)在參考基因組上所有位置,即參考基因組索引,通過(guò)種子序列可以查找基因組中相同序列片段的所有位置;測(cè)序序列(read),每隔特定步長(zhǎng)(st)取k個(gè)堿基長(zhǎng)度的種子序列,并順序標(biāo)號(hào)記錄,用來(lái)尋找序列和參考序列中完全匹配的種子信息(參見(jiàn)附圖3)。上述系統(tǒng)中,模塊4嵌合匹配塊(block)種子匹配數(shù)與靈敏度數(shù)學(xué)模型,匹配塊(block)種子匹配數(shù)與靈敏度數(shù)學(xué)模型包括參考基因組塊種子匹配數(shù)與靈敏度數(shù)學(xué)模型和兩兩比對(duì)中塊種子匹配數(shù)與靈敏度數(shù)學(xué)模型。其中,參考基因組塊種子匹配數(shù)與靈敏度數(shù)學(xué)模型如下:假設(shè)所有種子(k-mer)比對(duì)是獨(dú)立事件,種子(k-mer)的匹配概率初步符合二項(xiàng)式分布,在參考基因組比對(duì)過(guò)程中,種子(k-mer)匹配概率用如下公式2計(jì)算:povl=(1-e)k(公式2)公式2中,當(dāng)e為0.15,塊大小(z)為1000,種子(k-mer)抽樣步長(zhǎng)(st)為20和k為13時(shí),每個(gè)塊的抽樣數(shù)為兩個(gè)匹配塊平均種子(k-mer)匹配個(gè)數(shù)為現(xiàn)將塊匹配閾值設(shè)為6,由累計(jì)概率公式可知,兩個(gè)匹配塊小于6個(gè)種子(k-mer)匹配的概率為26.67%.,假設(shè)讀長(zhǎng)平均重疊長(zhǎng)度14kbp(三個(gè)重疊塊),則參考基因組比對(duì)靈敏度為99.99%。其中,兩兩比對(duì)中塊種子匹配數(shù)與靈敏度數(shù)學(xué)模型如下:假設(shè)所有種子(k-mer)比對(duì)是獨(dú)立事件,種子(k-mer)的匹配概率初步符合二項(xiàng)式分布,在兩兩比對(duì)過(guò)程中,種子(k-mer)匹配概率通過(guò)如下公式3計(jì)算:公式3中,當(dāng)e為0.15,塊大小(z)為2000,種子(k-mer)抽樣步長(zhǎng)(st)為5和k為13時(shí),每個(gè)塊的抽樣數(shù)為兩個(gè)匹配塊平均種子(k-mer)匹配個(gè)數(shù)為現(xiàn)將塊匹配閾值設(shè)為5,由累計(jì)概率公式可知,兩個(gè)匹配塊小于5個(gè)種子(k-mer)匹配的概率為0.2,假設(shè)兩個(gè)讀長(zhǎng)平均重疊長(zhǎng)度>6000(三個(gè)重疊塊),則兩兩比對(duì)靈敏度為99.2%。上述系統(tǒng)中,模塊5嵌合基于塊數(shù)據(jù)結(jié)構(gòu)的全局種子打分模型,基于塊數(shù)據(jù)結(jié)構(gòu)的全局種子打分模型如下:對(duì)參考基因組(reference)和三代測(cè)序序列(read)分別建立種子(k-mer)(k=13)的哈希表(參見(jiàn)附圖2),同時(shí)將基因組和序列分成大小為1000bp的數(shù)據(jù)塊。如果基因組和測(cè)序序列的兩個(gè)塊共享的種子(k-mer)大于閾值(6)時(shí),這兩個(gè)塊就稱為一個(gè)顯著匹配塊。上述系統(tǒng)中,所述模塊5中的全局種子打分從顯著匹配塊開(kāi)始,其過(guò)程包含如下模塊5.1,模塊5.2和模塊5.3,其中模塊5.1嵌合兩個(gè)種子對(duì)之間的兩個(gè)序列的距離差異因子,模塊5.2嵌合兩兩種子投票打分獲取核心匹配種子位置對(duì)規(guī)則,模塊5.3嵌合延伸投票打分獲取核心位置對(duì)的全局種子投票得分規(guī)則。優(yōu)選的,模塊5.1嵌合兩個(gè)種子對(duì)之間的兩個(gè)序列的距離差異因子,兩個(gè)種子對(duì)之間的兩個(gè)序列的距離差異因子的計(jì)算方法如下:為有效過(guò)濾假陽(yáng)性的匹配塊,引入序列差異因子(dff):對(duì)位于(s1,t1)位置對(duì)的種子(k-mer)匹配和位于(s2,t2)位置對(duì)的種子(k-mer)匹配,(s1和s2是參考基因組位置,t1和t2是三代測(cè)序序列(read)位置),兩個(gè)種子位置對(duì)之間序列最短編輯距離是兩個(gè)種子位置對(duì)之間序列長(zhǎng)度之差,定義兩個(gè)匹配種子對(duì)之間的長(zhǎng)度之差序列差異因子用公式4計(jì)算:若dff≤e,則為兩個(gè)種子位置對(duì)相互支持,位置對(duì)各加一分。優(yōu)選的,模塊5.2嵌合兩兩種子投票打分獲取核心匹配種子位置對(duì)(起始匹配種子位置對(duì))規(guī)則,兩兩種子投票打分獲取核心匹配種子位置對(duì)規(guī)則為:在顯著匹配塊結(jié)構(gòu)中,通過(guò)種子位置對(duì)的兩兩投票打分獲取核心位置對(duì):當(dāng)兩個(gè)種子位置對(duì)之間符合ddf<0.3時(shí),兩個(gè)種子位置對(duì)各自加一分,所有位置對(duì)獲得塊匹配內(nèi)另外種子的兩兩投票打分,投票得分最高的位置對(duì)即為核心位置對(duì),當(dāng)一個(gè)多個(gè)位置對(duì)獲得相同分?jǐn)?shù)時(shí),選擇第一個(gè)位置對(duì)為核心位置對(duì)。優(yōu)選的,模塊5.3嵌合延伸投票打分獲取核心位置對(duì)的全局種子投票得分規(guī)則,延伸投票打分獲取核心位置對(duì)的全局種子投票得分規(guī)則如下:測(cè)序序列長(zhǎng)度(平均長(zhǎng)度14kbp)遠(yuǎn)遠(yuǎn)大于zbp,因此測(cè)序序列的種子序列通常覆蓋多個(gè)相鄰的塊結(jié)構(gòu)區(qū)域,核心種子對(duì)相鄰塊數(shù)據(jù)結(jié)構(gòu)將對(duì)核心種子對(duì)進(jìn)行單向種子投票打分。根據(jù)開(kāi)始種子位置對(duì)(slk,snk)估算測(cè)序序列可以跨越左邊和右邊相鄰的塊結(jié)構(gòu)的范圍:測(cè)序序列在開(kāi)始種子位置對(duì)左右和右邊的長(zhǎng)度分別是snk和ll-snk,可以通過(guò)下列公式5和公式6計(jì)算測(cè)序序列覆蓋左和右相鄰塊數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)的范圍(vl和vr):在公式中,ll是測(cè)序序列的長(zhǎng)度。測(cè)序序列覆蓋相鄰塊結(jié)構(gòu)的所有種子位置對(duì)將按照公式4對(duì)核心位置對(duì)進(jìn)行種子對(duì)投票打分,從而獲得核心位置對(duì)的全局投票打分(10d),而獲得核心位置對(duì)的全局分?jǐn)?shù),即該候選區(qū)域全局得分。(參見(jiàn)附圖4)。當(dāng)一個(gè)相鄰塊結(jié)構(gòu)中的80%種子位置對(duì)符合dff≤e,即支持開(kāi)始種子位置對(duì),該塊結(jié)構(gòu)種子數(shù)將被設(shè)置為0,并且該塊結(jié)構(gòu)編號(hào)將在塊結(jié)構(gòu)查閱表中刪除,也就是,該塊結(jié)構(gòu)不再被考慮為候選塊結(jié)構(gòu)。優(yōu)選的,上述系統(tǒng)中還包含模塊6,所述模塊6嵌合基于全局種子打分的優(yōu)選和使用規(guī)則,基于全局種子打分的優(yōu)選和使用規(guī)則如下:對(duì)所有顯著匹配塊候選區(qū)域進(jìn)行全局種子投票打分獲取每個(gè)顯著匹配塊的核心種子對(duì)和全局種子得分,根據(jù)每個(gè)候選區(qū)域的核心種子對(duì)和全局種子得分判定核心種子位置對(duì)進(jìn)入后續(xù)局部序列比對(duì)分析,其中全局種子投票打分方法為基于全局種子打分優(yōu)選的參考基因組比對(duì)方法或基于全局種子打分優(yōu)選的兩兩比對(duì)方法,其中判定方法如下:(1)應(yīng)用基于全局種子打分優(yōu)選的參考基因組比對(duì)方法獲得的結(jié)果,當(dāng)參考基因組選擇最高10個(gè)核心種子位置對(duì)所在的區(qū)域有效候選區(qū)域,這些核心種子位置對(duì)可以進(jìn)入后續(xù)局部序列比對(duì)分析;(2)應(yīng)用基于全局種子打分優(yōu)選的兩兩比對(duì)方法獲得結(jié)果,選擇最高100個(gè)核心種子位置對(duì)所在的區(qū)域有效候選區(qū)域,這些核心種子位置對(duì)可以進(jìn)入后續(xù)局部序列比對(duì)分析。本發(fā)明還提供了一種基于全局種子打分優(yōu)選的三代測(cè)序序列比對(duì)方法,所述三代測(cè)序序列比對(duì)方法為基于全局種子打分優(yōu)選的參考基因組比對(duì)方法和基于全局種子打分優(yōu)選的兩兩比對(duì)方法中的一種或兩種,所述基于全局種子打分優(yōu)選的參考基因組比對(duì)方法和基于全局種子打分優(yōu)選的兩兩比對(duì)方法執(zhí)行模塊1、模塊2、模塊3、模塊4和模塊5中的至少2個(gè)以上的模塊。優(yōu)選的,所述方法還包括執(zhí)行模塊6。優(yōu)選的,本發(fā)明提供了一種基于全局種子打分優(yōu)選的三代測(cè)序序列比對(duì)方法,所述方法為基于全局種子打分優(yōu)選的參考基因組比對(duì)方法,所述參考基因組比對(duì)方法包括如下步驟:步驟1.1:建立參考基因組索引步驟1.2:構(gòu)建參考基因組塊數(shù)據(jù)結(jié)構(gòu)步驟1.3:分割測(cè)序序列序列成若干個(gè)種子序列步驟1.4:將所有種子序列映射到z倍參考基因組塊數(shù)據(jù)結(jié)構(gòu)中步驟1.5:獲取顯著塊匹配區(qū)域的核心種子位置對(duì)步驟1.6:獲取核心種子位置對(duì)的全局投票打分步驟1.7:選擇最高n個(gè)核心位置對(duì)進(jìn)行局部?jī)蓛尚蛄斜葘?duì)步驟1.8:二次精準(zhǔn)參考基因組序列比對(duì)。上述參考基因組比對(duì)方法中,優(yōu)選的,步驟1.1所述的建立參考基因組索引方法為:應(yīng)用模塊3,從參考基因組中每個(gè)堿基位置提取k(k-mer)長(zhǎng)度種子序列,也就是,相鄰的種子(k-mer)之間沒(méi)有間隔。參考基因組所有的堿基將被建立種子(k-mer)索引。上述參考基因組比對(duì)方法中,優(yōu)選的,步驟1.2所述的構(gòu)建參考基因組塊數(shù)據(jù)結(jié)構(gòu)方法為:應(yīng)用模塊1,將參考基因組每z個(gè)堿基區(qū)域建立一個(gè)塊數(shù)據(jù)結(jié)構(gòu),每個(gè)塊數(shù)據(jù)結(jié)構(gòu)用于記錄測(cè)序序列種子在該結(jié)構(gòu)代表參考基因組區(qū)域的匹配情況。優(yōu)選的,每個(gè)塊數(shù)據(jù)結(jié)構(gòu)由種子匹配計(jì)算器、40個(gè)種子匹配候選種子位置對(duì)組成。上述參考基因組比對(duì)方法中,優(yōu)選的,步驟1.3所述的分割測(cè)序序列序列成若干個(gè)種子序列方法為:應(yīng)用模塊3,在測(cè)序序列中按照st=20步長(zhǎng)提取種子(k-mer)的種子序列,每個(gè)種子有k個(gè)堿基組裝,并按照測(cè)序序列順序進(jìn)行編碼(sn)。上述參考基因組比對(duì)方法中,優(yōu)選的,步驟1.4所述的將所有種子序列映射到z倍參考基因組塊數(shù)據(jù)結(jié)構(gòu)中的方法為:一個(gè)測(cè)序序列種子序列的所有參考基因組候選位置(sli,i=1,2,...n)可以從步驟1.1的參考基因組索引中查找,應(yīng)用模塊2,將每個(gè)種子所有候選位置映射到參考基因組塊數(shù)據(jù)結(jié)構(gòu)中存儲(chǔ)。并且用查閱表(look-uptable)記錄所有匹配種子塊數(shù)據(jù)結(jié)構(gòu)編號(hào)(cr),查閱表記錄著種子匹配的塊區(qū)域編號(hào)和對(duì)應(yīng)塊區(qū)域的種子匹配數(shù),每個(gè)塊區(qū)域在查閱表中唯一記錄.上述參考基因組比對(duì)方法中,優(yōu)選的,步驟1.5所述的獲取顯著塊匹配區(qū)域的核心種子位置對(duì)方法為:當(dāng)一個(gè)塊數(shù)據(jù)結(jié)構(gòu)的種子數(shù)大于7時(shí),該塊結(jié)構(gòu)被認(rèn)為顯著塊匹配結(jié)構(gòu),顯著塊匹配結(jié)構(gòu)的局部比對(duì)的核心匹配位置對(duì)將通過(guò)該塊結(jié)構(gòu)中所有種子對(duì)兩兩投票打分確定,按照模塊5.2進(jìn)行兩兩投票打分獲取該顯著匹配塊的核心種子位置對(duì)。上述參考基因組比對(duì)方法中,優(yōu)選的,步驟1.6所述的獲取核心種子位置對(duì)的全局投票打分方法為:應(yīng)用模塊5.3,將測(cè)序序列所覆蓋的核心種子位置對(duì)相鄰塊結(jié)構(gòu)中位置對(duì)取出,對(duì)核心位置對(duì)進(jìn)行單向投票打分,獲取核心位置對(duì)全局種子得分。并將相鄰塊結(jié)構(gòu)的80%種子位置對(duì)支持核心種子位置對(duì)的塊結(jié)構(gòu)的種子數(shù)將被設(shè)置為0.上述參考基因組比對(duì)方法中,優(yōu)選的,步驟1.7所述的選擇最高n個(gè)核心位置對(duì)進(jìn)行局部?jī)蓛尚蛄斜葘?duì)方法為:通過(guò)步驟1.5和步驟1.6,獲得每個(gè)高于種子閾值的塊數(shù)據(jù)結(jié)構(gòu)的核心種子位置對(duì)和全局投票打分。之后,對(duì)所有核心位置對(duì)的全局投票得分進(jìn)行降序排序,選擇全局投票得分最高10個(gè)核心位置對(duì)通過(guò)diff方法完成局部?jī)蓛尚蛄斜葘?duì),對(duì)用nanopore,采用smith-waterman方法進(jìn)行局部?jī)蓛杀葘?duì).如果核心位置對(duì)序列比對(duì)結(jié)果符合兩個(gè)條件:重疊長(zhǎng)讀>1000和錯(cuò)誤匹配率<0.20,認(rèn)為該測(cè)序序列已找到正確參考基因組匹配位置。按照全局比對(duì)得分順序進(jìn)行兩兩序列比對(duì),當(dāng)遇到符合上述條件的核心位置對(duì)時(shí),終止該測(cè)序序列序列比對(duì)過(guò)程,將該結(jié)果作為測(cè)序序列的序列比對(duì)結(jié)果輸出。上述參考基因組比對(duì)方法中,優(yōu)選的,步驟1.8所述的二次精準(zhǔn)參考基因組序列比對(duì)方法為:針對(duì)少數(shù)測(cè)序序列的塊匹配種子量較少,而且布局均一,不能被上述步驟1.4參數(shù)搜索到。如果上述過(guò)程st步長(zhǎng)分割和z數(shù)據(jù)結(jié)構(gòu)沒(méi)有獲得搜索結(jié)果輸出,將執(zhí)行步驟1.3的st變成st/2步長(zhǎng)(10),之后的塊大小為2z(2000),其它參數(shù)不變,重復(fù)上述步驟3到步驟1.7進(jìn)行更精確的序列比對(duì)過(guò)程。優(yōu)選的,本發(fā)明提供了一種基于全局種子打分優(yōu)選的三代測(cè)序序列比對(duì)方法,所述方法為基于全局種子打分優(yōu)選的兩兩比對(duì)方法,所述兩兩比對(duì)方法包括如下步驟:步驟2.1:三代測(cè)序數(shù)據(jù)分塊和測(cè)序序列鏈接成類似參考基因組步驟2.2:建立參考基因組索引步驟2.3:構(gòu)建鏈接參考序列的塊數(shù)據(jù)結(jié)構(gòu)步驟2.4:分割測(cè)序序列成若干個(gè)種子序列步驟2.5:將所有種子序列映射到z倍鏈接參考序列的塊數(shù)據(jù)結(jié)構(gòu)中步驟2.6:獲取顯著塊匹配區(qū)域的的核心種子位置對(duì)步驟2.7:獲取核心種子位置對(duì)的全局投票打分步驟2.8:選擇最高n個(gè)核心位置對(duì)的候選區(qū)域輸出結(jié)果。上述兩兩比對(duì)方法中,優(yōu)選的,步驟2.1所述的三代測(cè)序數(shù)據(jù)分塊和測(cè)序序列鏈接成類似參考基因組方法為:將三代測(cè)序數(shù)據(jù)集分成2g大小數(shù)據(jù)塊,鏈接2g數(shù)據(jù)塊內(nèi)的測(cè)序序列(read)成2g的一條參考序列,兩條測(cè)序序列鏈接出添加一個(gè)n字母,記錄每個(gè)測(cè)序序列在2g參考序列上的起始位置,方便后續(xù)尋找兩個(gè)測(cè)序序列重疊的起始位置。上述兩兩比對(duì)方法中,優(yōu)選的,步驟2.2所述的建立參考基因組索引方法為:應(yīng)用模塊3,從鏈接后的2g參考序列中每個(gè)堿基位置提取k(k-mer)長(zhǎng)度種子序列,也就是,相鄰的種子(k-mer)之間沒(méi)有間隔。參考基因組所有的堿基將被建立種子(k-mer)索引。上述兩兩比對(duì)方法中,優(yōu)選的,步驟2.3所述的構(gòu)建鏈接參考序列的塊數(shù)據(jù)結(jié)構(gòu)方法為:應(yīng)用模塊1,鏈接參考序列每z(z=2000)個(gè)堿基區(qū)域建立一個(gè)塊數(shù)據(jù)結(jié)構(gòu),每個(gè)塊數(shù)據(jù)結(jié)構(gòu)用于記錄測(cè)序序列種子在該結(jié)構(gòu)代表建鏈接參考序列區(qū)域的匹配情況。每個(gè)塊數(shù)據(jù)結(jié)構(gòu)由種子匹配計(jì)算器、40個(gè)種子匹配候選種子位置對(duì)組成。上述兩兩比對(duì)方法中,優(yōu)選的,步驟2.4所述的分割測(cè)序序列序列成若干個(gè)種子序列方法為:應(yīng)用模塊3,在測(cè)序序列中按照st=10步長(zhǎng)提取種子(k-mer)的種子序列,每個(gè)種子有k個(gè)堿基組裝,并按照測(cè)序序列順序進(jìn)行編碼(sn)。上述兩兩比對(duì)方法中,優(yōu)選的,步驟2.5所述的將所有種子序列映射到z倍鏈接參考序列的塊數(shù)據(jù)結(jié)構(gòu)中的方法為:一個(gè)測(cè)序序列種子序列的所有參考基因組候選位置(sli,i=1,2,...,n)從步驟2.1的參考基因組索引中查找,應(yīng)用模塊2,將每個(gè)種子所有候選位置映射到鏈接參考序列塊數(shù)據(jù)結(jié)構(gòu)中存儲(chǔ)。并且用種子映射查閱表(look-uptable)記錄所有測(cè)序種子映射到的塊數(shù)據(jù)結(jié)構(gòu)(block)編號(hào)(cr)。種子映射查閱表由兩個(gè)數(shù)據(jù)構(gòu)成:1)測(cè)序序列種子映射到的塊數(shù)據(jù)結(jié)構(gòu)(block)編號(hào),每個(gè)塊數(shù)據(jù)結(jié)構(gòu)編號(hào)在查閱表中唯一記錄;2)該種子映射的塊數(shù)據(jù)結(jié)構(gòu)的種子匹配數(shù)。上述兩兩比對(duì)方法中,優(yōu)選的,步驟2.6所述的獲取顯著塊匹配區(qū)域的的核心種子位置對(duì)方法為:當(dāng)一個(gè)塊數(shù)據(jù)結(jié)構(gòu)的種子數(shù)大于7時(shí),該塊結(jié)構(gòu)被認(rèn)為顯著塊匹配結(jié)構(gòu),顯著塊匹配結(jié)構(gòu)的局部比對(duì)的核心匹配位置對(duì)將通過(guò)該塊結(jié)構(gòu)中所有種子對(duì)兩兩投票打分確定,應(yīng)用模塊5.2進(jìn)行兩兩投票打分獲取該顯著匹配塊的核心種子位置對(duì)。上述兩兩比對(duì)方法中,優(yōu)選的,步驟2.7所述的獲取核心種子位置對(duì)的全局投票打分方法為:應(yīng)用模塊5.3,將測(cè)序序列所覆蓋的核心種子位置對(duì)相鄰塊結(jié)構(gòu)中種子位置對(duì)取出,通過(guò)2g鏈接參考序列上每個(gè)測(cè)序序列的起始位置和顯著塊匹配的編號(hào)可以定位核心種子對(duì)來(lái)源2g中的測(cè)序序列的編號(hào),根據(jù)兩個(gè)測(cè)序序列重疊情況,獲取相鄰塊匹配的范圍,對(duì)重疊區(qū)域的核心位置對(duì)進(jìn)行單向投票打分,獲取核心位置對(duì)全局種子得分。并將相鄰塊結(jié)構(gòu)的80%種子位置對(duì)支持核心種子位置對(duì)的塊結(jié)構(gòu)的種子數(shù)將被設(shè)置為0.上述兩兩比對(duì)方法中,優(yōu)選的,步驟2.8所述的選擇最高n個(gè)核心位置對(duì)的候選區(qū)域輸出結(jié)果的方法為:通過(guò)步驟2.5和步驟2.6,獲得每個(gè)高于種子閾值的塊數(shù)據(jù)結(jié)構(gòu)的核心種子位置對(duì)和全局投票打分。然后,對(duì)所有核心位置對(duì)的全局投票得分進(jìn)行降序排序,選擇全局投票得分最高100個(gè)核心位置對(duì),將每個(gè)核心位置對(duì)信息通過(guò)測(cè)序序列在2g鏈接參考序列起始位置轉(zhuǎn)化成兩條測(cè)序序列的絕對(duì)位置信息,最后輸出兩個(gè)重疊測(cè)序序列的編號(hào)、核心位置對(duì)的絕對(duì)位置信息和全局投票得分。上述方法中,其中種子(種子序列,seedsequence)是測(cè)序序列中的k長(zhǎng)度的子序列,種子序列與參考基因組匹配需要長(zhǎng)度相同且無(wú)空位的完全匹配序列,以種子作為參考,尋找測(cè)序序列與參考基因組序列的匹配時(shí)分值超過(guò)一定閾值的相似性片段。其中塊(block)數(shù)據(jù)結(jié)構(gòu)(也稱塊結(jié)構(gòu))是指對(duì)于參考基因組每z個(gè)堿基建立一個(gè)塊(block)數(shù)據(jù)結(jié)構(gòu),并順序編號(hào),用于比對(duì)過(guò)程中快速將種子序列定位到候選比對(duì)區(qū)域。每個(gè)塊數(shù)據(jù)結(jié)構(gòu)中包含種子計(jì)數(shù)器、p個(gè)種子位置對(duì)組成(參見(jiàn)附圖1)。其中匹配塊(matchedblock)是測(cè)序序列種子映射到參考基因組塊數(shù)據(jù)結(jié)構(gòu)后,當(dāng)一個(gè)塊數(shù)據(jù)結(jié)構(gòu)的種子計(jì)數(shù)器的數(shù)值大于閾值(7)時(shí),則該塊數(shù)據(jù)結(jié)構(gòu)為測(cè)序序列的匹配塊,也稱是顯著匹配塊。有益效果:本發(fā)明的基于全局種子打分的候選比對(duì)區(qū)域優(yōu)選方法中,每個(gè)候選比對(duì)區(qū)域的全局種子得分代表候選區(qū)域的重疊長(zhǎng)度,通過(guò)全局打分可以有效優(yōu)選重疊區(qū)域較長(zhǎng)的候選區(qū)域,從而大幅降低進(jìn)入兩兩局部比對(duì)的候選區(qū)域量;在全局種子打分模型基礎(chǔ)上,設(shè)計(jì)了三代測(cè)序兩兩比對(duì)方法和參考基因組比對(duì)方法,這兩種方法大大加速了三代測(cè)序序列比對(duì)過(guò)程和計(jì)算資源消耗量。本發(fā)明的系統(tǒng)及其系統(tǒng)中的規(guī)則,實(shí)現(xiàn)了本發(fā)明的方法大幅降低目前三代測(cè)序需要的計(jì)算時(shí)間和資源,具有良好商業(yè)價(jià)值。附圖簡(jiǎn)要說(shuō)明圖1:模塊1中的block數(shù)據(jù)結(jié)構(gòu)模型示意圖圖2:模塊2中的參考序列索引示意圖圖3:模塊2中的種子序列抽樣規(guī)則示意圖圖4:模塊5中的全局種子投票打分模型示意圖具體實(shí)施方式實(shí)施例1:基于全局種子打分優(yōu)選的參考基因組比對(duì)方法通過(guò)下而具體實(shí)施例來(lái)解釋基于全局種子打分優(yōu)選的參考基因組比對(duì)方法的相關(guān)步驟操作。步驟1:建立參考基因組索引:步驟1.1:以參考序列每個(gè)位點(diǎn)為起始,取13(種子(k-mer),k=13)個(gè)堿基長(zhǎng)度的片段作為候選的種子序列,建立種子(k-mer)索引,參考基因組是由atcg四個(gè)字母組成的一長(zhǎng)串序列,實(shí)際長(zhǎng)度可達(dá)10^9bp以上,為了方便統(tǒng)計(jì)采用編碼的原理是用數(shù)字0替換字符a,數(shù)字1替換字符t,數(shù)字2為c和3為g。于是參考基因組轉(zhuǎn)換成了由數(shù)字0,1,2構(gòu)成一長(zhǎng)串排列。于是atcg字符組成的序列可以看成是4進(jìn)制數(shù)據(jù),依次從右到左各個(gè)字母編號(hào)(1,2,3...i),通過(guò)如下公式計(jì)算得到:公式中i對(duì)應(yīng)于序列中堿基的位置,nci為相應(yīng)位置字母對(duì)應(yīng)的數(shù)字,將其轉(zhuǎn)化為十進(jìn)制數(shù)據(jù),編碼就反應(yīng)seed序列的特征,如:cttaaccggaaagg對(duì)應(yīng)十進(jìn)制2*4^13+1*4^12+1*4^11+0*4^10++0*4^9+2*4^8+2*4^7+3*4^6+3*4^5+0*4^4+0*4^3+0*4^2+3*4^1+3*4^0=4624294.步驟1.2:建立一個(gè)4^13大小整數(shù)數(shù)組用來(lái)記錄參考基因組包含該種子(k-mer)數(shù)字編碼個(gè)數(shù)sc[3^i]。sc[]數(shù)組的下標(biāo)代表著種子(k-mer)的數(shù)字編碼。sc每個(gè)元素的值代表著參考基因組中包含該元素下標(biāo)數(shù)字編碼序列的個(gè)數(shù)。數(shù)組中每個(gè)元素的初始值為0。步驟1.3:逐步掃描參考基因組序列每個(gè)位置獲得的種子(k-mer),將其字符按步驟1.1要求轉(zhuǎn)換成十進(jìn)制編碼,記錄在步驟1.2中對(duì)應(yīng)數(shù)組下標(biāo)的值中,每記錄一次則累加1。統(tǒng)計(jì)數(shù)組sc中的最大值,記為sc_max。步驟1.4:建立一個(gè)指針數(shù)組*si[4^i]指向al地址,建立一個(gè)存儲(chǔ)種子(k-mer)位置信息的數(shù)組al[sumsc],其中si[i]=al+sc[i],sumsc=∑sc[n],再次掃描參考基因組,那么si[i][sc[i]]=location,其中l(wèi)ocation代表所有候選位置信息,這是由于指針數(shù)組引用了al中元素地址,location最終存儲(chǔ)在al數(shù)組中,通過(guò)查找種子(k-mer)編碼對(duì)應(yīng)si的下標(biāo)就能在al中找到參考基因組中seed候選位置信息和個(gè)數(shù)。記錄了參考基因組中所有種子(k-mer)編碼,出現(xiàn)次數(shù)及對(duì)應(yīng)位置信息(如下表)。scref.indexposition012,1001,10003,...1101,145,1193,...2144,1098,10129,...3132,13799,144353,...步驟2:構(gòu)建z倍參考基因組塊數(shù)據(jù)結(jié)構(gòu):根據(jù)參考基因組長(zhǎng)度l,分配一個(gè)l/1000+1的結(jié)構(gòu)體數(shù)組,每個(gè)結(jié)構(gòu)體包含種子匹配數(shù)和40個(gè)種子匹配位置對(duì)。并把每個(gè)塊結(jié)構(gòu)的種子計(jì)數(shù)設(shè)置為0,并分配一個(gè)l/1000+1的查閱表二維數(shù)組,里面記錄后續(xù)測(cè)序種子匹配的塊結(jié)構(gòu)編號(hào)和該塊種子匹配量。步驟3:分割測(cè)序序列成若干個(gè)種子序列,種子序列提取規(guī)則為:在測(cè)序序列中每隔20個(gè)堿基提取13個(gè)堿基長(zhǎng)度的片段作為種子序列,并按照測(cè)序序列順序進(jìn)行編碼。步驟4:將所有種子序列比對(duì)到z倍參考基因組塊數(shù)據(jù)結(jié)構(gòu)中從步驟1的參考基因組索引中查到一個(gè)測(cè)序序列種子序列的所有參考基因組候選位置:(sli,i=1,2,...n)。按照步驟3將每個(gè)種子所有候選位置映射到參考基因組塊數(shù)據(jù)結(jié)構(gòu)中存儲(chǔ)。當(dāng)一個(gè)測(cè)序序列的種子比對(duì)到cr塊數(shù)據(jù)結(jié)構(gòu)的區(qū)域時(shí),該塊結(jié)構(gòu)種子計(jì)數(shù)器將加1,并且該結(jié)構(gòu)的種子匹配位置對(duì)將記錄該種子在測(cè)序序列的位置和在cr塊區(qū)域的相對(duì)位置。每個(gè)測(cè)序序列種子的參考基因組候選位置(sl)按照上述規(guī)則和公式映射到參考基因組塊數(shù)據(jù)結(jié)構(gòu)中,并且用查閱表(look-uptable)記錄所有匹配種子塊數(shù)據(jù)結(jié)構(gòu)編號(hào)(cr)。步驟5:從塊數(shù)據(jù)結(jié)構(gòu)中選擇局部序列比對(duì)的開(kāi)始種子位置對(duì)(核心種子位置對(duì)):塊數(shù)據(jù)結(jié)構(gòu)查閱表將按照每個(gè)塊結(jié)構(gòu)的種子匹配數(shù)降序排序。當(dāng)一個(gè)塊數(shù)據(jù)結(jié)構(gòu)的種子數(shù)大于一定閾值,該塊結(jié)構(gòu)被認(rèn)為候選塊結(jié)構(gòu)。計(jì)算候選塊結(jié)構(gòu)中所有種子位置對(duì)之間的測(cè)序序列和參考基因組序列的長(zhǎng)度之差(dij)。根據(jù)公式計(jì)算兩個(gè)種子位置對(duì)序列差異因子(dfij),當(dāng)序列差異因dfij<0.2,子,塊數(shù)據(jù)結(jié)構(gòu)中的i和j號(hào)種子位置對(duì)互相投票支持,其投票得分各加一分。候選塊數(shù)據(jù)結(jié)構(gòu)所有種子位置對(duì)都進(jìn)行上述兩兩投票打分后,投票得分最高種子對(duì)為局部比對(duì)開(kāi)始種子對(duì)(核心種子位置對(duì))。步驟6:獲取開(kāi)始種子位置對(duì)的全局投票打分根據(jù)開(kāi)始種子位置對(duì)(slk,snk),根據(jù)公式5和公式6估算測(cè)序序列可以跨越左邊和右邊相鄰的塊數(shù)據(jù)結(jié)構(gòu)的數(shù)目vl和vr。測(cè)序序列覆蓋相鄰塊數(shù)據(jù)結(jié)構(gòu)的所有種子位置對(duì)將按照df公式對(duì)開(kāi)始種子位置對(duì)進(jìn)行投票,從而獲得開(kāi)始位置對(duì)的全局投票打分。當(dāng)一個(gè)相鄰塊結(jié)構(gòu)的80%種子位置對(duì)符合dfij<0.2,即支持開(kāi)始種子位置對(duì),該塊結(jié)構(gòu)種子數(shù)將被設(shè)置為0,不再被考慮為候選塊結(jié)構(gòu)。步驟7:根據(jù)全局得分,選擇最高10個(gè)開(kāi)始位置對(duì)進(jìn)行局部?jī)蓛尚蛄斜葘?duì)對(duì)上述步驟5和步驟6獲得每個(gè)高于種子閾值的塊數(shù)據(jù)結(jié)構(gòu)的開(kāi)始種子位置對(duì)的全局投票打分進(jìn)行降序排序。選擇全局投票得分最高20個(gè)開(kāi)始位置對(duì)通過(guò)修改后的diff算法完成局部?jī)蓛尚蛄斜葘?duì)。開(kāi)始位置對(duì)序列比對(duì)結(jié)果符合兩個(gè)條件:當(dāng)遇到符合重疊長(zhǎng)讀>1000和錯(cuò)誤匹配率<0.20的開(kāi)始位置對(duì)時(shí),終止該測(cè)序序列序列比對(duì)過(guò)程,將該結(jié)果作為測(cè)序序列的序列比對(duì)結(jié)果輸出。步驟8:清理測(cè)序序列計(jì)算過(guò)程留下痕跡將測(cè)序序列種子匹配的所有塊結(jié)構(gòu)的種子計(jì)數(shù)器重新設(shè)置為0,,并且查閱表(look-uptable)記錄清空。讀取下一條測(cè)序序列重復(fù)步驟3到步驟8。直到所有測(cè)序數(shù)據(jù)完成參考基因組比對(duì)。步驟9:二次精準(zhǔn)搜索序列比對(duì)分析提取沒(méi)有匹配測(cè)序序列數(shù)據(jù),通過(guò)二次搜索完成沒(méi)有匹配數(shù)據(jù)搜索,將上述過(guò)程將st變成10步長(zhǎng),之后塊結(jié)構(gòu)大小改為2000,其它參數(shù)不變,重復(fù)上述3-8步進(jìn)行沒(méi)有匹配序列的更精確的序列比對(duì)過(guò)程。步驟10:程序并行化將上述步驟2至步驟8通過(guò)基于共享內(nèi)存變量空間pthread多線程包建立并行化程序,其中步驟1的參考基因組索引將放在多核共享內(nèi)存。實(shí)施例2:基于全局種子打分優(yōu)選的兩兩比對(duì)方法基于全局種子打分優(yōu)選的兩兩比對(duì)方法基本上與實(shí)施例1的參考基因組實(shí)施過(guò)程類似,其不同之處如下:第1步:數(shù)據(jù)分塊和2g鏈接序列獲?。簰呙枵麄€(gè)三代測(cè)序數(shù)據(jù)文件,按照2g文件大小分割三代測(cè)序數(shù)據(jù),兩個(gè)測(cè)序序列之間用n鏈接,并記錄每個(gè)測(cè)序序列在2g鏈接參考序列上的起始位置和終止,并輸出2g文件每個(gè)測(cè)序序列文件位置索引,方便后續(xù)計(jì)算鏈接參考序列上位置轉(zhuǎn)化為每個(gè)測(cè)序序列的絕對(duì)位置。第2步:與實(shí)施例1的步驟1相同。第3步:與實(shí)施例1的步驟2類似,只是將塊結(jié)構(gòu)大小z改為2000.第4步:與實(shí)施例1的步驟3類似,只是將取種子(k-mer)步長(zhǎng)st改為10.第5步:與實(shí)施例1的步驟4相同。第6步:與實(shí)施例1的步驟5類似,只是兩個(gè)種子位置對(duì)支持條件改為dfij<0.3。通過(guò)2g文件每個(gè)測(cè)序序列位置索引上每個(gè)測(cè)序鏈接序列的起始和終止位置,將核心位置對(duì)上參考基因組上的位置轉(zhuǎn)化為該位置所在的測(cè)序序列(read)的編號(hào)和測(cè)序序列上絕對(duì)位置。第7步:與實(shí)施例1的步驟6類似,需要修改兩個(gè)種子位置對(duì)支持條件改為dfii<0.3。兩個(gè)測(cè)序序列重疊區(qū)域范圍獲取方式:根據(jù)顯著匹配對(duì)的塊編號(hào)和鏈接參考序列的測(cè)序序列起始位置,可以獲取該匹配塊定位測(cè)序序列編號(hào)和起始位置(s1,e1),通過(guò)核心位置對(duì)的位置信息(參考基因組位置p1,待比對(duì)測(cè)序序列位置為p2),待比對(duì)測(cè)序序列長(zhǎng)度為l,可以得出,鏈接參考序列上匹配序列核心位置對(duì)左邊長(zhǎng)度ll=p1-s1和右邊長(zhǎng)度lr=e1-p1,待比對(duì)序列左邊長(zhǎng)度為p+,布邊長(zhǎng)度為l-p+,取兩個(gè)左邊長(zhǎng)度較短者為左邊重疊區(qū)域的長(zhǎng)度,取右邊長(zhǎng)度較短者為右邊長(zhǎng)度,兩個(gè)長(zhǎng)度范圍即延伸塊結(jié)構(gòu)的范圍。第8步:兩兩比對(duì)全局打分的輸出:兩兩比對(duì)中只需獲取2g中最高100全局種子得分的核心種子位置信息,不需要做局部序列比對(duì),將最高100個(gè)核心種子位置信息轉(zhuǎn)化為將轉(zhuǎn)化成兩條測(cè)序序列的絕對(duì)位置信息,最后輸出兩個(gè)重疊測(cè)序序列的編號(hào)、核心位置對(duì)的絕對(duì)位置信息和全局投票得分。第9步與實(shí)施例1的步驟8類似,只是讀取下一條測(cè)序序列后,執(zhí)行第4步到第9步。第10步程序并行化:將上述第4步到第9步通過(guò)基于共享內(nèi)存變量空間pthread多線程包建立并行化程序,其中第2步的參考基因組索引將放在多核共享內(nèi)存。第11步每個(gè)數(shù)據(jù)塊的兩兩比對(duì):數(shù)據(jù)塊1要與數(shù)據(jù)塊1-n進(jìn)行兩兩比對(duì),數(shù)據(jù)塊2要與數(shù)據(jù)塊2-n進(jìn)行兩聯(lián)比對(duì),依次類推完成所有序列兩兩比對(duì),為了匹配相同兩個(gè)序列進(jìn)行兩個(gè)兩兩比對(duì),比對(duì)過(guò)程中,待比對(duì)測(cè)序序列標(biāo)號(hào)要大于顯著匹配塊的測(cè)序序列的編號(hào)才進(jìn)行后續(xù)全局種子投票分析。通過(guò)實(shí)施例1和實(shí)施例2的方法,下載五個(gè)真實(shí)物種(e.coli,yeast,a.thaliana,d.melanogaster和human)的pacbio數(shù)據(jù)集和三個(gè)真實(shí)物種(e.coli,b.anthracis和y.pestis)的nanopore數(shù)據(jù)集進(jìn)行測(cè)試我們mecat效果。兩兩比對(duì)軟件比較隨機(jī)提取500m數(shù)據(jù)進(jìn)行比較,在pacbio數(shù)據(jù)集中,我們軟件mecat兩兩比對(duì)的速度是mhap和daligner軟件的2-8倍;在nanopore數(shù)據(jù)集中,mecat速度是mhap和daligner的5-10倍。參考基因組軟件比較使用整個(gè)數(shù)據(jù)集進(jìn)行比較,在pacbio數(shù)據(jù)集中,我們軟件mecat兩兩比對(duì)的速度是blasr和bwa軟件的5-70倍;在nanopore數(shù)據(jù)集中,mecat速度blasr和bwa的4-5倍。上述表格時(shí)間單位是核時(shí)。當(dāng)前第1頁(yè)12當(dāng)前第1頁(yè)12