一種基于全局種子打分優(yōu)選的三代測(cè)序序列比對(duì)方法與流程

文檔序號(hào)：11515188閱讀：392來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于基因測(cè)序領(lǐng)域，具體的，本發(fā)明涉及三代測(cè)序(pacbiosmrt和oxfordnanopore測(cè)序)序列比對(duì)方法，特別是涉及一種基于全局種子打分優(yōu)選候選比對(duì)區(qū)域的三代測(cè)序序列比對(duì)方法。
背景技術(shù)：
：：目前三代測(cè)序技術(shù)主要包含pacbio公司的單分子實(shí)時(shí)測(cè)序(singlemolecule，real-time，smrt)測(cè)序技術(shù)和oxfordnanopore公式的納米孔(nanopore)測(cè)序技術(shù)。與二代測(cè)序技術(shù)相比，三代測(cè)序數(shù)據(jù)具有讀長(zhǎng)(或測(cè)序序列)很長(zhǎng)(longread，平均10-15kb左右)和測(cè)序序列無(wú)gc偏好性等特點(diǎn)，這些數(shù)據(jù)特征可以有力彌補(bǔ)了一代和二代測(cè)序技術(shù)很多缺陷，從而使其具有廣泛應(yīng)用市場(chǎng)：在基因組測(cè)序方面，研究者利用三代測(cè)序的測(cè)序序列完成了大基因組組裝、基因組復(fù)雜區(qū)深度解析、人類基因組150個(gè)gap區(qū)域和結(jié)構(gòu)變異的解析；在轉(zhuǎn)錄組測(cè)序方面，研究者利用測(cè)序序列已包含完整cdna信息深入分析全轉(zhuǎn)錄組可變剪接和亞型；在dna修飾測(cè)序方面，研究者利用模板修飾堿基降低聚合酶合成速率來(lái)有效檢測(cè)dna未知的修飾(例如dna甲基化)。目前，三代測(cè)序技術(shù)將成為二代測(cè)序技術(shù)的有力補(bǔ)充或替代，近兩年來(lái)廣泛應(yīng)用于基因組組裝、長(zhǎng)片段indel檢測(cè)和矯正、以及甲基化修飾的檢測(cè)等研究中。三代測(cè)序數(shù)據(jù)高測(cè)序錯(cuò)誤率給三代測(cè)序數(shù)據(jù)處理帶來(lái)了巨大的挑戰(zhàn)。三代測(cè)序的測(cè)序數(shù)據(jù)具有測(cè)序序列高讀長(zhǎng)(14kbp)和錯(cuò)誤率高(錯(cuò)誤率高達(dá)15％，其主要是10％插入或4％缺失，有較少的1％替代)等特點(diǎn)，而二代測(cè)序測(cè)序數(shù)據(jù)具有短讀長(zhǎng)(50-200bp)和錯(cuò)誤率低(錯(cuò)誤率約1％，主要是替代產(chǎn)生)等特點(diǎn)。由于三代測(cè)序和二代測(cè)序的數(shù)據(jù)特征有顯著不同，因此二代測(cè)序計(jì)算方法顯然不實(shí)用于三代測(cè)序數(shù)據(jù)分析。目前pacbio公司針對(duì)三代測(cè)序數(shù)據(jù)特征不斷開(kāi)發(fā)smartanalysis數(shù)據(jù)分析平臺(tái)，然而該系統(tǒng)參考基因組比對(duì)(blasr)和基因組組裝流程兩兩比對(duì)計(jì)算十分耗資源：40x人類基因組三代測(cè)序數(shù)據(jù)，該系統(tǒng)軟件blasr完成參考基因組序列比對(duì)需要200g內(nèi)存和幾萬(wàn)核小時(shí)；完成人類基因組組裝，需要幾萬(wàn)個(gè)核運(yùn)行三個(gè)月以上才能完成，也就是說(shuō)，天河二號(hào)完成這樣組裝計(jì)算量也很有挑戰(zhàn)，其中兩兩比對(duì)在拼裝流程中占了總時(shí)間的98％以上。參考基因組比對(duì)和兩兩比對(duì)過(guò)程需要大量計(jì)算量，約束了三代測(cè)序廣泛應(yīng)用和發(fā)展。因此，創(chuàng)建一種高效三代測(cè)序的兩兩比對(duì)方法和參考基因組比對(duì)方法(序列比對(duì)方法)具有很高實(shí)際應(yīng)用價(jià)值?；谌址N子打分優(yōu)選參考基因組比對(duì)方法的速度是目前三代測(cè)序參考基因組比對(duì)軟件blasr和bwa-mem的5-100倍；在54x人基因組上，基于全局種子打分(優(yōu)選兩兩比對(duì)方法)的速度是目前三代測(cè)序兩兩比對(duì)軟件mhap和daligner的20-100倍。本發(fā)明的系統(tǒng)和方法可以大幅降低目前三代測(cè)序需要的計(jì)算時(shí)間和資源，具有良好商業(yè)價(jià)值。技術(shù)實(shí)現(xiàn)要素：為解決上述技術(shù)問(wèn)題，本發(fā)明提供了基于全局種子打分優(yōu)選的三代測(cè)序序列比對(duì)系統(tǒng)，該系統(tǒng)包含模塊1、模塊2、模塊3、模塊4和模塊5，模塊1嵌合快速查找顯著候選重疊區(qū)域的block數(shù)據(jù)結(jié)構(gòu)模型，模塊2嵌合參考基因組block數(shù)據(jù)結(jié)構(gòu)的映射規(guī)則，模塊3嵌合參考基因組索引和測(cè)序序列(read)種子序列抽樣規(guī)則，模塊4嵌合匹配塊(block)種子匹配數(shù)與靈敏度數(shù)學(xué)模型，模塊5嵌合基于塊數(shù)據(jù)結(jié)構(gòu)的全局種子打分模型，其中模塊5包含模塊5.1、模塊5.2和模塊5.3，模塊5.1嵌合兩個(gè)種子對(duì)之間的兩個(gè)序列的距離差異因子，模塊5.2嵌合兩兩種子投票打分獲取核心匹配種子位置對(duì)規(guī)則，模塊5.3嵌合延伸投票打分獲取核心位置對(duì)的全局種子投票得分規(guī)則。優(yōu)選的，上述系統(tǒng)還包含模塊6，模塊6嵌合基于全局種子打分的優(yōu)選和使用規(guī)則。上述系統(tǒng)中，模塊1嵌合快速查找顯著候選重疊區(qū)域的block數(shù)據(jù)結(jié)構(gòu)模型，所述快速查找顯著候選重疊區(qū)域的block數(shù)據(jù)結(jié)構(gòu)模型為：設(shè)z為block數(shù)據(jù)結(jié)構(gòu)的塊比例，即塊大小，對(duì)于參考基因組每z個(gè)堿基建立一個(gè)塊(block)數(shù)據(jù)結(jié)構(gòu)，并順序編號(hào)，用于比對(duì)過(guò)程中快速將種子序列定位到候選比對(duì)區(qū)域。每個(gè)塊數(shù)據(jù)結(jié)構(gòu)中包含種子計(jì)數(shù)器、p個(gè)種子位置對(duì)組成：種子位置對(duì)記錄某一種子在測(cè)序序列的位置和該種子在參考基因組的匹配位置；種子計(jì)數(shù)器用來(lái)記錄候選塊結(jié)構(gòu)比對(duì)的種子個(gè)數(shù)，同時(shí)表示塊結(jié)構(gòu)熱點(diǎn)區(qū)域的得分。通常情況，某個(gè)特定塊結(jié)構(gòu)種子數(shù)得分越高，表示測(cè)序序列落在此塊區(qū)間可能性越大(參見(jiàn)附圖1)。上述系統(tǒng)中，模塊2嵌合參考基因組block數(shù)據(jù)結(jié)構(gòu)的映射規(guī)則，參考基因組block數(shù)據(jù)結(jié)構(gòu)的映射規(guī)則為：通過(guò)測(cè)序序列(read)每個(gè)種子(k-mer)編碼查詢參考基因組索引獲得每個(gè)種子基因組的精確位置，并用每個(gè)種子的精確位置按照公式1的規(guī)則映射到上述塊結(jié)構(gòu)：其中z表示塊結(jié)構(gòu)堿基區(qū)域大小，cr表示塊結(jié)構(gòu)的序號(hào)，cl為種子在參考基因組的在塊結(jié)構(gòu)的相對(duì)準(zhǔn)確位置，sli表示參考基因組候選位置。其中，當(dāng)種子序列比對(duì)到第cr號(hào)塊結(jié)構(gòu)中時(shí)，該塊結(jié)構(gòu)的種子計(jì)數(shù)器個(gè)數(shù)加1，并建立查詢表記錄所有可能候選區(qū)域block結(jié)構(gòu)的位置和該區(qū)域種子數(shù)。上述系統(tǒng)中，模塊3嵌合參考基因組索引和測(cè)序序列(read)種子序列抽樣規(guī)則，參考基因組索引和測(cè)序序列(read)種子序列抽樣規(guī)則為：以參考基因組每個(gè)位點(diǎn)為起始，取k＝13個(gè)堿基長(zhǎng)度的片段作為種子序列(k-mer)，建立種子(k-mer)的4進(jìn)制編碼與其對(duì)應(yīng)起始位置的哈希表(參見(jiàn)附圖2)。哈希表中記錄每個(gè)種子(k-mer)的編碼和該種子(k-mer)在參考基因組上所有位置，即參考基因組索引，通過(guò)種子序列可以查找基因組中相同序列片段的所有位置；測(cè)序序列(read)，每隔特定步長(zhǎng)(st)取k個(gè)堿基長(zhǎng)度的種子序列，并順序標(biāo)號(hào)記錄，用來(lái)尋找序列和參考序列中完全匹配的種子信息(參見(jiàn)附圖3)。上述系統(tǒng)中，模塊4嵌合匹配塊(block)種子匹配數(shù)與靈敏度數(shù)學(xué)模型，匹配塊(block)種子匹配數(shù)與靈敏度數(shù)學(xué)模型包括參考基因組塊種子匹配數(shù)與靈敏度數(shù)學(xué)模型和兩兩比對(duì)中塊種子匹配數(shù)與靈敏度數(shù)學(xué)模型。其中，參考基因組塊種子匹配數(shù)與靈敏度數(shù)學(xué)模型如下：假設(shè)所有種子(k-mer)比對(duì)是獨(dú)立事件，種子(k-mer)的匹配概率初步符合二項(xiàng)式分布，在參考基因組比對(duì)過(guò)程中，種子(k-mer)匹配概率用如下公式2計(jì)算：povl＝(1-e)k(公式2)公式2中，當(dāng)e為0.15，塊大小(z)為1000，種子(k-mer)抽樣步長(zhǎng)(st)為20和k為13時(shí)，每個(gè)塊的抽樣數(shù)為兩個(gè)匹配塊平均種子(k-mer)匹配個(gè)數(shù)為現(xiàn)將塊匹配閾值設(shè)為6，由累計(jì)概率公式可知，兩個(gè)匹配塊小于6個(gè)種子(k-mer)匹配的概率為26.67％.，假設(shè)讀長(zhǎng)平均重疊長(zhǎng)度14kbp(三個(gè)重疊塊)，則參考基因組比對(duì)靈敏度為99.99％。其中，兩兩比對(duì)中塊種子匹配數(shù)與靈敏度數(shù)學(xué)模型如下：假設(shè)所有種子(k-mer)比對(duì)是獨(dú)立事件，種子(k-mer)的匹配概率初步符合二項(xiàng)式分布，在兩兩比對(duì)過(guò)程中，種子(k-mer)匹配概率通過(guò)如下公式3計(jì)算：公式3中，當(dāng)e為0.15，塊大小(z)為2000，種子(k-mer)抽樣步長(zhǎng)(st)為5和k為13時(shí)，每個(gè)塊的抽樣數(shù)為兩個(gè)匹配塊平均種子(k-mer)匹配個(gè)數(shù)為現(xiàn)將塊匹配閾值設(shè)為5，由累計(jì)概率公式可知，兩個(gè)匹配塊小于5個(gè)種子(k-mer)匹配的概率為0.2，假設(shè)兩個(gè)讀長(zhǎng)平均重疊長(zhǎng)度＞6000(三個(gè)重疊塊)，則兩兩比對(duì)靈敏度為99.2％。上述系統(tǒng)中，模塊5嵌合基于塊數(shù)據(jù)結(jié)構(gòu)的全局種子打分模型，基于塊數(shù)據(jù)結(jié)構(gòu)的全局種子打分模型如下：對(duì)參考基因組(reference)和三代測(cè)序序列(read)分別建立種子(k-mer)(k＝13)的哈希表(參見(jiàn)附圖2)，同時(shí)將基因組和序列分成大小為1000bp的數(shù)據(jù)塊。如果基因組和測(cè)序序列的兩個(gè)塊共享的種子(k-mer)大于閾值(6)時(shí)，這兩個(gè)塊就稱為一個(gè)顯著匹配塊。上述系統(tǒng)中，所述模塊5中的全局種子打分從顯著匹配塊開(kāi)始，其過(guò)程包含如下模塊5.1，模塊5.2和模塊5.3，其中模塊5.1嵌合兩個(gè)種子對(duì)之間的兩個(gè)序列的距離差異因子，模塊5.2嵌合兩兩種子投票打分獲取核心匹配種子位置對(duì)規(guī)則，模塊5.3嵌合延伸投票打分獲取核心位置對(duì)的全局種子投票得分規(guī)則。優(yōu)選的，模塊5.1嵌合兩個(gè)種子對(duì)之間的兩個(gè)序列的距離差異因子，兩個(gè)種子對(duì)之間的兩個(gè)序列的距離差異因子的計(jì)算方法如下：為有效過(guò)濾假陽(yáng)性的匹配塊，引入序列差異因子(dff)：對(duì)位于(s1，t1)位置對(duì)的種子(k-mer)匹配和位于(s2，t2)位置對(duì)的種子(k-mer)匹配，(s1和s2是參考基因組位置，t1和t2是三代測(cè)序序列(read)位置)，兩個(gè)種子位置對(duì)之間序列最短編輯距離是兩個(gè)種子位置對(duì)之間序列長(zhǎng)度之差，定義兩個(gè)匹配種子對(duì)之間的長(zhǎng)度之差序列差異因子用公式4計(jì)算：若dff≤e，則為兩個(gè)種子位置對(duì)相互支持，位置對(duì)各加一分。優(yōu)選的，模塊5.2嵌合兩兩種子投票打分獲取核心匹配種子位置對(duì)(起始匹配種子位置對(duì))規(guī)則，兩兩種子投票打分獲取核心匹配種子位置對(duì)規(guī)則為：在顯著匹配塊結(jié)構(gòu)中，通過(guò)種子位置對(duì)的兩兩投票打分獲取核心位置對(duì)：當(dāng)兩個(gè)種子位置對(duì)之間符合ddf＜0.3時(shí)，兩個(gè)種子位置對(duì)各自加一分，所有位置對(duì)獲得塊匹配內(nèi)另外種子的兩兩投票打分，投票得分最高的位置對(duì)即為核心位置對(duì)，當(dāng)一個(gè)多個(gè)位置對(duì)獲得相同分?jǐn)?shù)時(shí)，選擇第一個(gè)位置對(duì)為核心位置對(duì)。優(yōu)選的，模塊5.3嵌合延伸投票打分獲取核心位置對(duì)的全局種子投票得分規(guī)則，延伸投票打分獲取核心位置對(duì)的全局種子投票得分規(guī)則如下：測(cè)序序列長(zhǎng)度(平均長(zhǎng)度14kbp)遠(yuǎn)遠(yuǎn)大于zbp，因此測(cè)序序列的種子序列通常覆蓋多個(gè)相鄰的塊結(jié)構(gòu)區(qū)域，核心種子對(duì)相鄰塊數(shù)據(jù)結(jié)構(gòu)將對(duì)核心種子對(duì)進(jìn)行單向種子投票打分。根據(jù)開(kāi)始種子位置對(duì)(slk，snk)估算測(cè)序序列可以跨越左邊和右邊相鄰的塊結(jié)構(gòu)的范圍：測(cè)序序列在開(kāi)始種子位置對(duì)左右和右邊的長(zhǎng)度分別是snk和ll-snk，可以通過(guò)下列公式5和公式6計(jì)算測(cè)序序列覆蓋左和右相鄰塊數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)的范圍(vl和vr)：在公式中，ll是測(cè)序序列的長(zhǎng)度。測(cè)序序列覆蓋相鄰塊結(jié)構(gòu)的所有種子位置對(duì)將按照公式4對(duì)核心位置對(duì)進(jìn)行種子對(duì)投票打分，從而獲得核心位置對(duì)的全局投票打分(10d)，而獲得核心位置對(duì)的全局分?jǐn)?shù)，即該候選區(qū)域全局得分。(參見(jiàn)附圖4)。當(dāng)一個(gè)相鄰塊結(jié)構(gòu)中的80％種子位置對(duì)符合dff≤e，即支持開(kāi)始種子位置對(duì)，該塊結(jié)構(gòu)種子數(shù)將被設(shè)置為0，并且該塊結(jié)構(gòu)編號(hào)將在塊結(jié)構(gòu)查閱表中刪除，也就是，該塊結(jié)構(gòu)不再被考慮為候選塊結(jié)構(gòu)。優(yōu)選的，上述系統(tǒng)中還包含模塊6，所述模塊6嵌合基于全局種子打分的優(yōu)選和使用規(guī)則，基于全局種子打分的優(yōu)選和使用規(guī)則如下：對(duì)所有顯著匹配塊候選區(qū)域進(jìn)行全局種子投票打分獲取每個(gè)顯著匹配塊的核心種子對(duì)和全局種子得分，根據(jù)每個(gè)候選區(qū)域的核心種子對(duì)和全局種子得分判定核心種子位置對(duì)進(jìn)入后續(xù)局部序列比對(duì)分析，其中全局種子投票打分方法為基于全局種子打分優(yōu)選的參考基因組比對(duì)方法或基于全局種子打分優(yōu)選的兩兩比對(duì)方法，其中判定方法如下：(1)應(yīng)用基于全局種子打分優(yōu)選的參考基因組比對(duì)方法獲得的結(jié)果，當(dāng)參考基因組選擇最高10個(gè)核心種子位置對(duì)所在的區(qū)域有效候選區(qū)域，這些核心種子位置對(duì)可以進(jìn)入后續(xù)局部序列比對(duì)分析；(2)應(yīng)用基于全局種子打分優(yōu)選的兩兩比對(duì)方法獲得結(jié)果，選擇最高100個(gè)核心種子位置對(duì)所在的區(qū)域有效候選區(qū)域，這些核心種子位置對(duì)可以進(jìn)入后續(xù)局部序列比對(duì)分析。本發(fā)明還提供了一種基于全局種子打分優(yōu)選的三代測(cè)序序列比對(duì)方法，所述三代測(cè)序序列比對(duì)方法為基于全局種子打分優(yōu)選的參考基因組比對(duì)方法和基于全局種子打分優(yōu)選的兩兩比對(duì)方法中的一種或兩種，所述基于全局種子打分優(yōu)選的參考基因組比對(duì)方法和基于全局種子打分優(yōu)選的兩兩比對(duì)方法執(zhí)行模塊1、模塊2、模塊3、模塊4和模塊5中的至少2個(gè)以上的模塊。優(yōu)選的，所述方法還包括執(zhí)行模塊6。優(yōu)選的，本發(fā)明提供了一種基于全局種子打分優(yōu)選的三代測(cè)序序列比對(duì)方法，所述方法為基于全局種子打分優(yōu)選的參考基因組比對(duì)方法，所述參考基因組比對(duì)方法包括如下步驟：步驟1.1：建立參考基因組索引步驟1.2：構(gòu)建參考基因組塊數(shù)據(jù)結(jié)構(gòu)步驟1.3：分割測(cè)序序列序列成若干個(gè)種子序列步驟1.4：將所有種子序列映射到z倍參考基因組塊數(shù)據(jù)結(jié)構(gòu)中步驟1.5：獲取顯著塊匹配區(qū)域的核心種子位置對(duì)步驟1.6：獲取核心種子位置對(duì)的全局投票打分步驟1.7：選擇最高n個(gè)核心位置對(duì)進(jìn)行局部?jī)蓛尚蛄斜葘?duì)步驟1.8：二次精準(zhǔn)參考基因組序列比對(duì)。上述參考基因組比對(duì)方法中，優(yōu)選的，步驟1.1所述的建立參考基因組索引方法為：應(yīng)用模塊3，從參考基因組中每個(gè)堿基位置提取k(k-mer)長(zhǎng)度種子序列，也就是，相鄰的種子(k-mer)之間沒(méi)有間隔。參考基因組所有的堿基將被建立種子(k-mer)索引。上述參考基因組比對(duì)方法中，優(yōu)選的，步驟1.2所述的構(gòu)建參考基因組塊數(shù)據(jù)結(jié)構(gòu)方法為：應(yīng)用模塊1，將參考基因組每z個(gè)堿基區(qū)域建立一個(gè)塊數(shù)據(jù)結(jié)構(gòu)，每個(gè)塊數(shù)據(jù)結(jié)構(gòu)用于記錄測(cè)序序列種子在該結(jié)構(gòu)代表參考基因組區(qū)域的匹配情況。優(yōu)選的，每個(gè)塊數(shù)據(jù)結(jié)構(gòu)由種子匹配計(jì)算器、40個(gè)種子匹配候選種子位置對(duì)組成。上述參考基因組比對(duì)方法中，優(yōu)選的，步驟1.3所述的分割測(cè)序序列序列成若干個(gè)種子序列方法為：應(yīng)用模塊3，在測(cè)序序列中按照st＝20步長(zhǎng)提取種子(k-mer)的種子序列，每個(gè)種子有k個(gè)堿基組裝，并按照測(cè)序序列順序進(jìn)行編碼(sn)。上述參考基因組比對(duì)方法中，優(yōu)選的，步驟1.4所述的將所有種子序列映射到z倍參考基因組塊數(shù)據(jù)結(jié)構(gòu)中的方法為：一個(gè)測(cè)序序列種子序列的所有參考基因組候選位置(sli，i＝1，2，...n)可以從步驟1.1的參考基因組索引中查找，應(yīng)用模塊2，將每個(gè)種子所有候選位置映射到參考基因組塊數(shù)據(jù)結(jié)構(gòu)中存儲(chǔ)。并且用查閱表(look-uptable)記錄所有匹配種子塊數(shù)據(jù)結(jié)構(gòu)編號(hào)(cr)，查閱表記錄著種子匹配的塊區(qū)域編號(hào)和對(duì)應(yīng)塊區(qū)域的種子匹配數(shù)，每個(gè)塊區(qū)域在查閱表中唯一記錄.上述參考基因組比對(duì)方法中，優(yōu)選的，步驟1.5所述的獲取顯著塊匹配區(qū)域的核心種子位置對(duì)方法為：當(dāng)一個(gè)塊數(shù)據(jù)結(jié)構(gòu)的種子數(shù)大于7時(shí)，該塊結(jié)構(gòu)被認(rèn)為顯著塊匹配結(jié)構(gòu)，顯著塊匹配結(jié)構(gòu)的局部比對(duì)的核心匹配位置對(duì)將通過(guò)該塊結(jié)構(gòu)中所有種子對(duì)兩兩投票打分確定，按照模塊5.2進(jìn)行兩兩投票打分獲取該顯著匹配塊的核心種子位置對(duì)。上述參考基因組比對(duì)方法中，優(yōu)選的，步驟1.6所述的獲取核心種子位置對(duì)的全局投票打分方法為：應(yīng)用模塊5.3，將測(cè)序序列所覆蓋的核心種子位置對(duì)相鄰塊結(jié)構(gòu)中位置對(duì)取出，對(duì)核心位置對(duì)進(jìn)行單向投票打分，獲取核心位置對(duì)全局種子得分。并將相鄰塊結(jié)構(gòu)的80％種子位置對(duì)支持核心種子位置對(duì)的塊結(jié)構(gòu)的種子數(shù)將被設(shè)置為0.上述參考基因組比對(duì)方法中，優(yōu)選的，步驟1.7所述的選擇最高n個(gè)核心位置對(duì)進(jìn)行局部?jī)蓛尚蛄斜葘?duì)方法為：通過(guò)步驟1.5和步驟1.6，獲得每個(gè)高于種子閾值的塊數(shù)據(jù)結(jié)構(gòu)的核心種子位置對(duì)和全局投票打分。之后，對(duì)所有核心位置對(duì)的全局投票得分進(jìn)行降序排序，選擇全局投票得分最高10個(gè)核心位置對(duì)通過(guò)diff方法完成局部?jī)蓛尚蛄斜葘?duì)，對(duì)用nanopore，采用smith-waterman方法進(jìn)行局部?jī)蓛杀葘?duì).如果核心位置對(duì)序列比對(duì)結(jié)果符合兩個(gè)條件：重疊長(zhǎng)讀＞1000和錯(cuò)誤匹配率＜0.20，認(rèn)為該測(cè)序序列已找到正確參考基因組匹配位置。按照全局比對(duì)得分順序進(jìn)行兩兩序列比對(duì)，當(dāng)遇到符合上述條件的核心位置對(duì)時(shí)，終止該測(cè)序序列序列比對(duì)過(guò)程，將該結(jié)果作為測(cè)序序列的序列比對(duì)結(jié)果輸出。上述參考基因組比對(duì)方法中，優(yōu)選的，步驟1.8所述的二次精準(zhǔn)參考基因組序列比對(duì)方法為：針對(duì)少數(shù)測(cè)序序列的塊匹配種子量較少，而且布局均一，不能被上述步驟1.4參數(shù)搜索到。如果上述過(guò)程st步長(zhǎng)分割和z數(shù)據(jù)結(jié)構(gòu)沒(méi)有獲得搜索結(jié)果輸出，將執(zhí)行步驟1.3的st變成st/2步長(zhǎng)(10)，之后的塊大小為2z(2000)，其它參數(shù)不變，重復(fù)上述步驟3到步驟1.7進(jìn)行更精確的序列比對(duì)過(guò)程。優(yōu)選的，本發(fā)明提供了一種基于全局種子打分優(yōu)選的三代測(cè)序序列比對(duì)方法，所述方法為基于全局種子打分優(yōu)選的兩兩比對(duì)方法，所述兩兩比對(duì)方法包括如下步驟：步驟2.1：三代測(cè)序數(shù)據(jù)分塊和測(cè)序序列鏈接成類似參考基因組步驟2.2：建立參考基因組索引步驟2.3：構(gòu)建鏈接參考序列的塊數(shù)據(jù)結(jié)構(gòu)步驟2.4：分割測(cè)序序列成若干個(gè)種子序列步驟2.5：將所有種子序列映射到z倍鏈接參考序列的塊數(shù)據(jù)結(jié)構(gòu)中步驟2.6：獲取顯著塊匹配區(qū)域的的核心種子位置對(duì)步驟2.7：獲取核心種子位置對(duì)的全局投票打分步驟2.8：選擇最高n個(gè)核心位置對(duì)的候選區(qū)域輸出結(jié)果。上述兩兩比對(duì)方法中，優(yōu)選的，步驟2.1所述的三代測(cè)序數(shù)據(jù)分塊和測(cè)序序列鏈接成類似參考基因組方法為：將三代測(cè)序數(shù)據(jù)集分成2g大小數(shù)據(jù)塊，鏈接2g數(shù)據(jù)塊內(nèi)的測(cè)序序列(read)成2g的一條參考序列，兩條測(cè)序序列鏈接出添加一個(gè)n字母，記錄每個(gè)測(cè)序序列在2g參考序列上的起始位置，方便后續(xù)尋找兩個(gè)測(cè)序序列重疊的起始位置。上述兩兩比對(duì)方法中，優(yōu)選的，步驟2.2所述的建立參考基因組索引方法為：應(yīng)用模塊3，從鏈接后的2g參考序列中每個(gè)堿基位置提取k(k-mer)長(zhǎng)度種子序列，也就是，相鄰的種子(k-mer)之間沒(méi)有間隔。參考基因組所有的堿基將被建立種子(k-mer)索引。上述兩兩比對(duì)方法中，優(yōu)選的，步驟2.3所述的構(gòu)建鏈接參考序列的塊數(shù)據(jù)結(jié)構(gòu)方法為：應(yīng)用模塊1，鏈接參考序列每z(z＝2000)個(gè)堿基區(qū)域建立一個(gè)塊數(shù)據(jù)結(jié)構(gòu)，每個(gè)塊數(shù)據(jù)結(jié)構(gòu)用于記錄測(cè)序序列種子在該結(jié)構(gòu)代表建鏈接參考序列區(qū)域的匹配情況。每個(gè)塊數(shù)據(jù)結(jié)構(gòu)由種子匹配計(jì)算器、40個(gè)種子匹配候選種子位置對(duì)組成。上述兩兩比對(duì)方法中，優(yōu)選的，步驟2.4所述的分割測(cè)序序列序列成若干個(gè)種子序列方法為：應(yīng)用模塊3，在測(cè)序序列中按照st＝10步長(zhǎng)提取種子(k-mer)的種子序列，每個(gè)種子有k個(gè)堿基組裝，并按照測(cè)序序列順序進(jìn)行編碼(sn)。上述兩兩比對(duì)方法中，優(yōu)選的，步驟2.5所述的將所有種子序列映射到z倍鏈接參考序列的塊數(shù)據(jù)結(jié)構(gòu)中的方法為：一個(gè)測(cè)序序列種子序列的所有參考基因組候選位置(sli，i＝1，2，...，n)從步驟2.1的參考基因組索引中查找，應(yīng)用模塊2，將每個(gè)種子所有候選位置映射到鏈接參考序列塊數(shù)據(jù)結(jié)構(gòu)中存儲(chǔ)。并且用種子映射查閱表(look-uptable)記錄所有測(cè)序種子映射到的塊數(shù)據(jù)結(jié)構(gòu)(block)編號(hào)(cr)。種子映射查閱表由兩個(gè)數(shù)據(jù)構(gòu)成：1)測(cè)序序列種子映射到的塊數(shù)據(jù)結(jié)構(gòu)(block)編號(hào)，每個(gè)塊數(shù)據(jù)結(jié)構(gòu)編號(hào)在查閱表中唯一記錄；2)該種子映射的塊數(shù)據(jù)結(jié)構(gòu)的種子匹配數(shù)。上述兩兩比對(duì)方法中，優(yōu)選的，步驟2.6所述的獲取顯著塊匹配區(qū)域的的核心種子位置對(duì)方法為：當(dāng)一個(gè)塊數(shù)據(jù)結(jié)構(gòu)的種子數(shù)大于7時(shí)，該塊結(jié)構(gòu)被認(rèn)為顯著塊匹配結(jié)構(gòu)，顯著塊匹配結(jié)構(gòu)的局部比對(duì)的核心匹配位置對(duì)將通過(guò)該塊結(jié)構(gòu)中所有種子對(duì)兩兩投票打分確定，應(yīng)用模塊5.2進(jìn)行兩兩投票打分獲取該顯著匹配塊的核心種子位置對(duì)。上述兩兩比對(duì)方法中，優(yōu)選的，步驟2.7所述的獲取核心種子位置對(duì)的全局投票打分方法為：應(yīng)用模塊5.3，將測(cè)序序列所覆蓋的核心種子位置對(duì)相鄰塊結(jié)構(gòu)中種子位置對(duì)取出，通過(guò)2g鏈接參考序列上每個(gè)測(cè)序序列的起始位置和顯著塊匹配的編號(hào)可以定位核心種子對(duì)來(lái)源2g中的測(cè)序序列的編號(hào)，根據(jù)兩個(gè)測(cè)序序列重疊情況，獲取相鄰塊匹配的范圍，對(duì)重疊區(qū)域的核心位置對(duì)進(jìn)行單向投票打分，獲取核心位置對(duì)全局種子得分。并將相鄰塊結(jié)構(gòu)的80％種子位置對(duì)支持核心種子位置對(duì)的塊結(jié)構(gòu)的種子數(shù)將被設(shè)置為0.上述兩兩比對(duì)方法中，優(yōu)選的，步驟2.8所述的選擇最高n個(gè)核心位置對(duì)的候選區(qū)域輸出結(jié)果的方法為：通過(guò)步驟2.5和步驟2.6，獲得每個(gè)高于種子閾值的塊數(shù)據(jù)結(jié)構(gòu)的核心種子位置對(duì)和全局投票打分。然后，對(duì)所有核心位置對(duì)的全局投票得分進(jìn)行降序排序，選擇全局投票得分最高100個(gè)核心位置對(duì)，將每個(gè)核心位置對(duì)信息通過(guò)測(cè)序序列在2g鏈接參考序列起始位置轉(zhuǎn)化成兩條測(cè)序序列的絕對(duì)位置信息，最后輸出兩個(gè)重疊測(cè)序序列的編號(hào)、核心位置對(duì)的絕對(duì)位置信息和全局投票得分。上述方法中，其中種子(種子序列，seedsequence)是測(cè)序序列中的k長(zhǎng)度的子序列，種子序列與參考基因組匹配需要長(zhǎng)度相同且無(wú)空位的完全匹配序列，以種子作為參考，尋找測(cè)序序列與參考基因組序列的匹配時(shí)分值超過(guò)一定閾值的相似性片段。其中塊(block)數(shù)據(jù)結(jié)構(gòu)(也稱塊結(jié)構(gòu))是指對(duì)于參考基因組每z個(gè)堿基建立一個(gè)塊(block)數(shù)據(jù)結(jié)構(gòu)，并順序編號(hào)，用于比對(duì)過(guò)程中快速將種子序列定位到候選比對(duì)區(qū)域。每個(gè)塊數(shù)據(jù)結(jié)構(gòu)中包含種子計(jì)數(shù)器、p個(gè)種子位置對(duì)組成(參見(jiàn)附圖1)。其中匹配塊(matchedblock)是測(cè)序序列種子映射到參考基因組塊數(shù)據(jù)結(jié)構(gòu)后，當(dāng)一個(gè)塊數(shù)據(jù)結(jié)構(gòu)的種子計(jì)數(shù)器的數(shù)值大于閾值(7)時(shí)，則該塊數(shù)據(jù)結(jié)構(gòu)為測(cè)序序列的匹配塊，也稱是顯著匹配塊。有益效果：本發(fā)明的基于全局種子打分的候選比對(duì)區(qū)域優(yōu)選方法中，每個(gè)候選比對(duì)區(qū)域的全局種子得分代表候選區(qū)域的重疊長(zhǎng)度，通過(guò)全局打分可以有效優(yōu)選重疊區(qū)域較長(zhǎng)的候選區(qū)域，從而大幅降低進(jìn)入兩兩局部比對(duì)的候選區(qū)域量；在全局種子打分模型基礎(chǔ)上，設(shè)計(jì)了三代測(cè)序兩兩比對(duì)方法和參考基因組比對(duì)方法，這兩種方法大大加速了三代測(cè)序序列比對(duì)過(guò)程和計(jì)算資源消耗量。本發(fā)明的系統(tǒng)及其系統(tǒng)中的規(guī)則，實(shí)現(xiàn)了本發(fā)明的方法大幅降低目前三代測(cè)序需要的計(jì)算時(shí)間和資源，具有良好商業(yè)價(jià)值。附圖簡(jiǎn)要說(shuō)明圖1：模塊1中的block數(shù)據(jù)結(jié)構(gòu)模型示意圖圖2：模塊2中的參考序列索引示意圖圖3：模塊2中的種子序列抽樣規(guī)則示意圖圖4：模塊5中的全局種子投票打分模型示意圖具體實(shí)施方式實(shí)施例1：基于全局種子打分優(yōu)選的參考基因組比對(duì)方法通過(guò)下而具體實(shí)施例來(lái)解釋基于全局種子打分優(yōu)選的參考基因組比對(duì)方法的相關(guān)步驟操作。步驟1：建立參考基因組索引：步驟1.1：以參考序列每個(gè)位點(diǎn)為起始，取13(種子(k-mer)，k＝13)個(gè)堿基長(zhǎng)度的片段作為候選的種子序列，建立種子(k-mer)索引，參考基因組是由atcg四個(gè)字母組成的一長(zhǎng)串序列，實(shí)際長(zhǎng)度可達(dá)10^9bp以上，為了方便統(tǒng)計(jì)采用編碼的原理是用數(shù)字0替換字符a，數(shù)字1替換字符t，數(shù)字2為c和3為g。于是參考基因組轉(zhuǎn)換成了由數(shù)字0，1，2構(gòu)成一長(zhǎng)串排列。于是atcg字符組成的序列可以看成是4進(jìn)制數(shù)據(jù)，依次從右到左各個(gè)字母編號(hào)(1，2，3...i)，通過(guò)如下公式計(jì)算得到：公式中i對(duì)應(yīng)于序列中堿基的位置，nci為相應(yīng)位置字母對(duì)應(yīng)的數(shù)字，將其轉(zhuǎn)化為十進(jìn)制數(shù)據(jù)，編碼就反應(yīng)seed序列的特征，如：cttaaccggaaagg對(duì)應(yīng)十進(jìn)制2*4^13+1*4^12+1*4^11+0*4^10++0*4^9+2*4^8+2*4^7+3*4^6+3*4^5+0*4^4+0*4^3+0*4^2+3*4^1+3*4^0＝4624294.步驟1.2：建立一個(gè)4^13大小整數(shù)數(shù)組用來(lái)記錄參考基因組包含該種子(k-mer)數(shù)字編碼個(gè)數(shù)sc[3^i]。sc[]數(shù)組的下標(biāo)代表著種子(k-mer)的數(shù)字編碼。sc每個(gè)元素的值代表著參考基因組中包含該元素下標(biāo)數(shù)字編碼序列的個(gè)數(shù)。數(shù)組中每個(gè)元素的初始值為0。步驟1.3：逐步掃描參考基因組序列每個(gè)位置獲得的種子(k-mer)，將其字符按步驟1.1要求轉(zhuǎn)換成十進(jìn)制編碼，記錄在步驟1.2中對(duì)應(yīng)數(shù)組下標(biāo)的值中，每記錄一次則累加1。統(tǒng)計(jì)數(shù)組sc中的最大值，記為sc_max。步驟1.4：建立一個(gè)指針數(shù)組*si[4^i]指向al地址，建立一個(gè)存儲(chǔ)種子(k-mer)位置信息的數(shù)組al[sumsc]，其中si[i]＝al+sc[i]，sumsc＝∑sc[n]，再次掃描參考基因組，那么si[i][sc[i]]＝location，其中l(wèi)ocation代表所有候選位置信息，這是由于指針數(shù)組引用了al中元素地址，location最終存儲(chǔ)在al數(shù)組中，通過(guò)查找種子(k-mer)編碼對(duì)應(yīng)si的下標(biāo)就能在al中找到參考基因組中seed候選位置信息和個(gè)數(shù)。記錄了參考基因組中所有種子(k-mer)編碼，出現(xiàn)次數(shù)及對(duì)應(yīng)位置信息(如下表)。scref.indexposition012，1001，10003，...1101，145，1193，...2144，1098，10129，...3132，13799，144353，...步驟2：構(gòu)建z倍參考基因組塊數(shù)據(jù)結(jié)構(gòu)：根據(jù)參考基因組長(zhǎng)度l，分配一個(gè)l/1000+1的結(jié)構(gòu)體數(shù)組，每個(gè)結(jié)構(gòu)體包含種子匹配數(shù)和40個(gè)種子匹配位置對(duì)。并把每個(gè)塊結(jié)構(gòu)的種子計(jì)數(shù)設(shè)置為0，并分配一個(gè)l/1000+1的查閱表二維數(shù)組，里面記錄后續(xù)測(cè)序種子匹配的塊結(jié)構(gòu)編號(hào)和該塊種子匹配量。步驟3：分割測(cè)序序列成若干個(gè)種子序列，種子序列提取規(guī)則為：在測(cè)序序列中每隔20個(gè)堿基提取13個(gè)堿基長(zhǎng)度的片段作為種子序列，并按照測(cè)序序列順序進(jìn)行編碼。步驟4：將所有種子序列比對(duì)到z倍參考基因組塊數(shù)據(jù)結(jié)構(gòu)中從步驟1的參考基因組索引中查到一個(gè)測(cè)序序列種子序列的所有參考基因組候選位置：(sli，i＝1，2，...n)。按照步驟3將每個(gè)種子所有候選位置映射到參考基因組塊數(shù)據(jù)結(jié)構(gòu)中存儲(chǔ)。當(dāng)一個(gè)測(cè)序序列的種子比對(duì)到cr塊數(shù)據(jù)結(jié)構(gòu)的區(qū)域時(shí)，該塊結(jié)構(gòu)種子計(jì)數(shù)器將加1，并且該結(jié)構(gòu)的種子匹配位置對(duì)將記錄該種子在測(cè)序序列的位置和在cr塊區(qū)域的相對(duì)位置。每個(gè)測(cè)序序列種子的參考基因組候選位置(sl)按照上述規(guī)則和公式映射到參考基因組塊數(shù)據(jù)結(jié)構(gòu)中，并且用查閱表(look-uptable)記錄所有匹配種子塊數(shù)據(jù)結(jié)構(gòu)編號(hào)(cr)。步驟5：從塊數(shù)據(jù)結(jié)構(gòu)中選擇局部序列比對(duì)的開(kāi)始種子位置對(duì)(核心種子位置對(duì))：塊數(shù)據(jù)結(jié)構(gòu)查閱表將按照每個(gè)塊結(jié)構(gòu)的種子匹配數(shù)降序排序。當(dāng)一個(gè)塊數(shù)據(jù)結(jié)構(gòu)的種子數(shù)大于一定閾值，該塊結(jié)構(gòu)被認(rèn)為候選塊結(jié)構(gòu)。計(jì)算候選塊結(jié)構(gòu)中所有種子位置對(duì)之間的測(cè)序序列和參考基因組序列的長(zhǎng)度之差(dij)。根據(jù)公式計(jì)算兩個(gè)種子位置對(duì)序列差異因子(dfij)，當(dāng)序列差異因dfij＜0.2，子，塊數(shù)據(jù)結(jié)構(gòu)中的i和j號(hào)種子位置對(duì)互相投票支持，其投票得分各加一分。候選塊數(shù)據(jù)結(jié)構(gòu)所有種子位置對(duì)都進(jìn)行上述兩兩投票打分后，投票得分最高種子對(duì)為局部比對(duì)開(kāi)始種子對(duì)(核心種子位置對(duì))。步驟6：獲取開(kāi)始種子位置對(duì)的全局投票打分根據(jù)開(kāi)始種子位置對(duì)(slk，snk)，根據(jù)公式5和公式6估算測(cè)序序列可以跨越左邊和右邊相鄰的塊數(shù)據(jù)結(jié)構(gòu)的數(shù)目vl和vr。測(cè)序序列覆蓋相鄰塊數(shù)據(jù)結(jié)構(gòu)的所有種子位置對(duì)將按照df公式對(duì)開(kāi)始種子位置對(duì)進(jìn)行投票，從而獲得開(kāi)始位置對(duì)的全局投票打分。當(dāng)一個(gè)相鄰塊結(jié)構(gòu)的80％種子位置對(duì)符合dfij＜0.2，即支持開(kāi)始種子位置對(duì)，該塊結(jié)構(gòu)種子數(shù)將被設(shè)置為0，不再被考慮為候選塊結(jié)構(gòu)。步驟7：根據(jù)全局得分，選擇最高10個(gè)開(kāi)始位置對(duì)進(jìn)行局部?jī)蓛尚蛄斜葘?duì)對(duì)上述步驟5和步驟6獲得每個(gè)高于種子閾值的塊數(shù)據(jù)結(jié)構(gòu)的開(kāi)始種子位置對(duì)的全局投票打分進(jìn)行降序排序。選擇全局投票得分最高20個(gè)開(kāi)始位置對(duì)通過(guò)修改后的diff算法完成局部?jī)蓛尚蛄斜葘?duì)。開(kāi)始位置對(duì)序列比對(duì)結(jié)果符合兩個(gè)條件：當(dāng)遇到符合重疊長(zhǎng)讀＞1000和錯(cuò)誤匹配率＜0.20的開(kāi)始位置對(duì)時(shí)，終止該測(cè)序序列序列比對(duì)過(guò)程，將該結(jié)果作為測(cè)序序列的序列比對(duì)結(jié)果輸出。步驟8：清理測(cè)序序列計(jì)算過(guò)程留下痕跡將測(cè)序序列種子匹配的所有塊結(jié)構(gòu)的種子計(jì)數(shù)器重新設(shè)置為0，，并且查閱表(look-uptable)記錄清空。讀取下一條測(cè)序序列重復(fù)步驟3到步驟8。直到所有測(cè)序數(shù)據(jù)完成參考基因組比對(duì)。步驟9：二次精準(zhǔn)搜索序列比對(duì)分析提取沒(méi)有匹配測(cè)序序列數(shù)據(jù)，通過(guò)二次搜索完成沒(méi)有匹配數(shù)據(jù)搜索，將上述過(guò)程將st變成10步長(zhǎng)，之后塊結(jié)構(gòu)大小改為2000，其它參數(shù)不變，重復(fù)上述3-8步進(jìn)行沒(méi)有匹配序列的更精確的序列比對(duì)過(guò)程。步驟10：程序并行化將上述步驟2至步驟8通過(guò)基于共享內(nèi)存變量空間pthread多線程包建立并行化程序，其中步驟1的參考基因組索引將放在多核共享內(nèi)存。實(shí)施例2：基于全局種子打分優(yōu)選的兩兩比對(duì)方法基于全局種子打分優(yōu)選的兩兩比對(duì)方法基本上與實(shí)施例1的參考基因組實(shí)施過(guò)程類似，其不同之處如下：第1步：數(shù)據(jù)分塊和2g鏈接序列獲?。簰呙枵麄€(gè)三代測(cè)序數(shù)據(jù)文件，按照2g文件大小分割三代測(cè)序數(shù)據(jù)，兩個(gè)測(cè)序序列之間用n鏈接，并記錄每個(gè)測(cè)序序列在2g鏈接參考序列上的起始位置和終止，并輸出2g文件每個(gè)測(cè)序序列文件位置索引，方便后續(xù)計(jì)算鏈接參考序列上位置轉(zhuǎn)化為每個(gè)測(cè)序序列的絕對(duì)位置。第2步：與實(shí)施例1的步驟1相同。第3步：與實(shí)施例1的步驟2類似，只是將塊結(jié)構(gòu)大小z改為2000.第4步：與實(shí)施例1的步驟3類似，只是將取種子(k-mer)步長(zhǎng)st改為10.第5步：與實(shí)施例1的步驟4相同。第6步：與實(shí)施例1的步驟5類似，只是兩個(gè)種子位置對(duì)支持條件改為dfij＜0.3。通過(guò)2g文件每個(gè)測(cè)序序列位置索引上每個(gè)測(cè)序鏈接序列的起始和終止位置，將核心位置對(duì)上參考基因組上的位置轉(zhuǎn)化為該位置所在的測(cè)序序列(read)的編號(hào)和測(cè)序序列上絕對(duì)位置。第7步：與實(shí)施例1的步驟6類似，需要修改兩個(gè)種子位置對(duì)支持條件改為dfii＜0.3。兩個(gè)測(cè)序序列重疊區(qū)域范圍獲取方式：根據(jù)顯著匹配對(duì)的塊編號(hào)和鏈接參考序列的測(cè)序序列起始位置，可以獲取該匹配塊定位測(cè)序序列編號(hào)和起始位置(s1，e1)，通過(guò)核心位置對(duì)的位置信息(參考基因組位置p1，待比對(duì)測(cè)序序列位置為p2)，待比對(duì)測(cè)序序列長(zhǎng)度為l，可以得出，鏈接參考序列上匹配序列核心位置對(duì)左邊長(zhǎng)度ll＝p1-s1和右邊長(zhǎng)度lr＝e1-p1，待比對(duì)序列左邊長(zhǎng)度為p+，布邊長(zhǎng)度為l-p+，取兩個(gè)左邊長(zhǎng)度較短者為左邊重疊區(qū)域的長(zhǎng)度，取右邊長(zhǎng)度較短者為右邊長(zhǎng)度，兩個(gè)長(zhǎng)度范圍即延伸塊結(jié)構(gòu)的范圍。第8步：兩兩比對(duì)全局打分的輸出：兩兩比對(duì)中只需獲取2g中最高100全局種子得分的核心種子位置信息，不需要做局部序列比對(duì)，將最高100個(gè)核心種子位置信息轉(zhuǎn)化為將轉(zhuǎn)化成兩條測(cè)序序列的絕對(duì)位置信息，最后輸出兩個(gè)重疊測(cè)序序列的編號(hào)、核心位置對(duì)的絕對(duì)位置信息和全局投票得分。第9步與實(shí)施例1的步驟8類似，只是讀取下一條測(cè)序序列后，執(zhí)行第4步到第9步。第10步程序并行化：將上述第4步到第9步通過(guò)基于共享內(nèi)存變量空間pthread多線程包建立并行化程序，其中第2步的參考基因組索引將放在多核共享內(nèi)存。第11步每個(gè)數(shù)據(jù)塊的兩兩比對(duì)：數(shù)據(jù)塊1要與數(shù)據(jù)塊1-n進(jìn)行兩兩比對(duì)，數(shù)據(jù)塊2要與數(shù)據(jù)塊2-n進(jìn)行兩聯(lián)比對(duì)，依次類推完成所有序列兩兩比對(duì)，為了匹配相同兩個(gè)序列進(jìn)行兩個(gè)兩兩比對(duì)，比對(duì)過(guò)程中，待比對(duì)測(cè)序序列標(biāo)號(hào)要大于顯著匹配塊的測(cè)序序列的編號(hào)才進(jìn)行后續(xù)全局種子投票分析。通過(guò)實(shí)施例1和實(shí)施例2的方法，下載五個(gè)真實(shí)物種(e.coli，yeast，a.thaliana，d.melanogaster和human)的pacbio數(shù)據(jù)集和三個(gè)真實(shí)物種(e.coli，b.anthracis和y.pestis)的nanopore數(shù)據(jù)集進(jìn)行測(cè)試我們mecat效果。兩兩比對(duì)軟件比較隨機(jī)提取500m數(shù)據(jù)進(jìn)行比較，在pacbio數(shù)據(jù)集中，我們軟件mecat兩兩比對(duì)的速度是mhap和daligner軟件的2-8倍；在nanopore數(shù)據(jù)集中，mecat速度是mhap和daligner的5-10倍。參考基因組軟件比較使用整個(gè)數(shù)據(jù)集進(jìn)行比較，在pacbio數(shù)據(jù)集中，我們軟件mecat兩兩比對(duì)的速度是blasr和bwa軟件的5-70倍；在nanopore數(shù)據(jù)集中，mecat速度blasr和bwa的4-5倍。上述表格時(shí)間單位是核時(shí)。當(dāng)前第1頁(yè)12當(dāng)前第1頁(yè)12

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：肖傳樂(lè)
技術(shù)所有人：肖傳樂(lè)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

全局變量相關(guān)技術(shù)

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于全局種子打分優(yōu)選的三代測(cè)序序列比對(duì)方法與流程