一種優(yōu)化的重疊混合測序方法

文檔序號：6626717閱讀：758來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種優(yōu)化的重疊混合測序方法
【專利摘要】本發(fā)明公開了一種優(yōu)化的重疊混合測序方法，包括如下步驟：基于測序過程中測序深度服從負(fù)二項(xiàng)分布、測序錯(cuò)誤服從二項(xiàng)分布的一般規(guī)律，提出了混合測序的深度模型，并基于此模型計(jì)算并設(shè)計(jì)了混合測序的最佳深度，通過降低冗余測序深度有效減少測序成本；提出了一種基于稀有突變分布概率的分組重疊混合測序方法，與直接測序相比，分組策略將大幅減少測序數(shù)據(jù)量需求，提高混合測序效率；建立了測序代價(jià)模型，并基于此模型選擇最優(yōu)的重疊混合測序方案來篩選稀有突變的攜帶者。本發(fā)明最大程度降低篩選稀有突變攜帶者的測序成本。
【專利說明】-種優(yōu)化的重疊混合測序方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于基因測序領(lǐng)域，尤其是一種優(yōu)化的重疊混合測序方法。

【背景技術(shù)】
[0002] 利用高通量DNA測序技術(shù)，分析遺傳突變與人類疾病之間關(guān)系是生物醫(yī)學(xué)研究的重要方法，而篩選和檢測稀有DNA突變則是目前研究的焦點(diǎn)。為了發(fā)現(xiàn)人類基因組中的稀有突變，探索稀有突變與疾病之間的關(guān)系，需要對大量個(gè)體DNA樣本進(jìn)行測序和分析。為了提高測序效率，充分利用現(xiàn)有測序儀器的測序能力，需要將多個(gè)樣本混合在一起同時(shí)進(jìn)行測序，即混合測序。
[0003] 混合測序的關(guān)鍵在于如何從測序結(jié)果中分離出來自不同樣本的DNA測序片段，以便確定稀有突變的攜帶者（即陽性樣本）。一種常用的方法是在測序前給每個(gè)樣本加上一條唯一的DNA條形碼，測序結(jié)束后，根據(jù)每條測序片段上的條形碼確定該片段來自于哪個(gè) 樣本，并根據(jù)測序結(jié)果判定哪個(gè)樣本是陽性的。另一種方法則是將樣本重疊地混合在不同的混合池中，分別對各個(gè)混合池進(jìn)行測序，最后根據(jù)各個(gè)樣本在不同混合池中出現(xiàn)的模式 (即重疊混合模式）及各個(gè)混合池的測序結(jié)果確定陽性樣本。
[0004] 在該重疊混合測序方法中，將樣本按照一定組合規(guī)則混合之后再進(jìn)行測序。重疊混合測序能夠使用非常少的混合測序次數(shù)即可在大量樣本中鑒定出稀有突變的攜帶者，從而降低了制備測序文庫制備所需要的工作量以及測序的總成本。
[0005] 但是，現(xiàn)有的重疊測序方法還存在以下問題：無法確定究竟需要什么樣的測序深度才能既保證準(zhǔn)確判定陽性樣本又使得測序代價(jià)最??？究竟需要多少混合池？如何將各個(gè)樣本重疊地分配到各個(gè)混合池？如何選擇最佳的測序方案？

【發(fā)明內(nèi)容】

[0006] 發(fā)明目的：提供一種優(yōu)化的重疊混合測序方法，以解決現(xiàn)有技術(shù)存在的上述問題，優(yōu)化測序過程，提高測序效率。
[0007] 技術(shù)方案：一種優(yōu)化的重疊混合測序方法，包括以下步驟：
[0008] 步驟一、根據(jù)混合測序深度模型計(jì)算最優(yōu)測序深度，對大量樣本進(jìn)行分組重疊混合測序，并根據(jù)測序代價(jià)模型選擇最佳測序方案；
[0009] 其中，最優(yōu)測序深度是根據(jù)測序深度服從負(fù)二項(xiàng)分布、測序錯(cuò)誤服從二項(xiàng)分布的一般規(guī)律，計(jì)算得到滿足假陽性錯(cuò)誤和假陰性錯(cuò)誤要求的最低測序深度；
[0010] 分組重疊混合測序：將大規(guī)模樣本分成數(shù)個(gè)小組，根據(jù)已知稀有突變的概率計(jì)算每個(gè)小組中稀有突變攜帶者的可能個(gè)數(shù)，然后再對每個(gè)小組進(jìn)行獨(dú)立的重疊混合測序；
[0011] 建立合理的測序代價(jià)模型：綜合考慮文庫制備、測序數(shù)據(jù)兩方面的成本，并根據(jù)代價(jià)模型計(jì)算重疊混合測序方案的成本，選擇最優(yōu)的重疊混合測序方案；
[0012] 步驟二、利用上述方法開展從大量樣本中篩查稀有突變攜帶者的高通量測序?qū)?驗(yàn)。
[0013] 所述最優(yōu)測序深度的計(jì)算模型如下：
[0014] 假定測序深度服從如下負(fù)二項(xiàng)分布：
[0015]

【權(quán)利要求】
1. 一種優(yōu)化的重疊混合測序方法，其特征在于，包括以下步驟：步驟一、根據(jù)混合測序深度模型計(jì)算最優(yōu)測序深度，對樣本進(jìn)行分組重疊混合測序，并根據(jù)測序代價(jià)模型選擇最佳測序方案；其中，最優(yōu)測序深度是根據(jù)測序深度服從負(fù)二項(xiàng)分布、測序錯(cuò)誤服從二項(xiàng)分布，計(jì)算得到滿足假陽性錯(cuò)誤和假陰性錯(cuò)誤要求的最低測序深度；分組重疊混合測序：將大規(guī)模樣本分成數(shù)個(gè)小組,根據(jù)已知稀有突變的概率計(jì)算每個(gè) 小組中稀有突變攜帶者的可能個(gè)數(shù)，然后再對每個(gè)小組進(jìn)行獨(dú)立的重疊混合測序；建立合理的測序代價(jià)模型：綜合考慮文庫制備、測序數(shù)據(jù)兩方面的成本，并根據(jù)代價(jià)模型計(jì)算重疊混合測序方案的成本，選擇最優(yōu)的重疊混合測序方案；步驟二、利用上述方法開展從大量樣本中篩查稀有突變攜帶者的高通量測序?qū)嶒?yàn)。
2. 如權(quán)利要求1所述的優(yōu)化的重疊混合測序方法，其特征在于，所述最優(yōu)測序深度的計(jì)算模型如下：假定測序深度服從如下負(fù)二項(xiàng)分布：
其中D為平均測序深度，隊(duì)為基因組上某個(gè)位置被測到的次數(shù)，r為負(fù)二項(xiàng)分布的參數(shù) 且與測序平臺和測序?qū)ο笙嚓P(guān)，NB表示負(fù)二項(xiàng)分布，同時(shí)假定測序錯(cuò)誤服從如下所示的二項(xiàng)分布： P (E | Nr) = Bin (E ；Nr, perror) 其中E為發(fā)生測序錯(cuò)誤的次數(shù)，為平均測序錯(cuò)誤率，Bin表示二項(xiàng)分布，設(shè)定觀察閾值為T，即觀察到不少于T個(gè)攜帶稀有突變的測序片段則認(rèn)為混合樣本中包含攜帶稀有突變的樣本，否則認(rèn)為混合樣本全部由正常樣本組成，在此基礎(chǔ)上，構(gòu)建混合池屬性判斷出現(xiàn)假陽性錯(cuò)誤F_P和假陰性錯(cuò)誤F_N的概率如下：
其中D為混合測序深度，隊(duì)為基因組上某個(gè)位置被測到的次數(shù)，E為發(fā)生測序錯(cuò)誤的次數(shù)，為平均測序錯(cuò)誤率，r為負(fù)二項(xiàng)分布的參數(shù)；
其中P為混合池中攜帶稀有突變的染色體比例，〇為觀測到的攜帶突變的測序片段個(gè) 數(shù)，X為來自于正常個(gè)體的攜帶突變的測序片段個(gè)數(shù)，i和j分別代表來自于正常個(gè)體和攜帶突變個(gè)體的測序片段個(gè)數(shù)，D為混合測序深度，為平均測序錯(cuò)誤率；在給定重疊混合測序所能允許的混合池判斷錯(cuò)誤率為α的前提下，設(shè)定混合測序的最佳深度D_al如下： Doptimal = min{D|F_N(D，T)彡 a&F_P(D，T)彡 a，Te [1，D]} 并計(jì)算對應(yīng)的觀察閾值T為： T = min {T I F_N (Doptinial)彡 a &F_P (Doptinial)彡 α }。
3. 如權(quán)利要求1所述的優(yōu)化的重疊混合測序方法，其特征在于，所述分組重疊混合測序具體如下：將樣本分成Β個(gè)小組，根據(jù)超幾何分布或二項(xiàng)分布計(jì)算每個(gè)小組中的稀有突變攜帶者可能的個(gè)數(shù)，并對各小組獨(dú)立設(shè)計(jì)重疊混合測序方案，根據(jù)如下兩個(gè)概率公式可以計(jì)算每個(gè)小組中稀有突變攜帶者個(gè)數(shù)小于dB個(gè)的概率ρ Β :
其中i為臨時(shí)變量，η為樣本總數(shù)，ηΒ為每組中的樣本個(gè)數(shù)，d為稀有突變攜帶者總數(shù)， Pv為稀有突變攜帶者在群體中的頻率，dB為每個(gè)小組中突變攜帶者的個(gè)數(shù)上限；假定B個(gè)小組之間相互獨(dú)立，所有小組中的稀有突變攜帶者都小于dB個(gè)的概率則為pB 的B次方(pi);當(dāng);^超過一定的閾值時(shí)，可以認(rèn)為所有小組均最多含有dB個(gè)稀有突變攜帶者；然后，針對含有nB個(gè)樣本其中最多七個(gè)為突變攜帶者的每個(gè)小組，獨(dú)立設(shè)計(jì)重疊混合方案并測序。
4. 如權(quán)利要求1所述的優(yōu)化的重疊混合測序方法，其特征在于，所述測序代價(jià)模型為： C = tPi+Ν,Ρ, 其中t為混合測序次數(shù)（即文庫制備次數(shù)，也即混合池的個(gè)數(shù)），匕為文庫制備的成本， Nd為數(shù)據(jù)量，Pd為數(shù)據(jù)產(chǎn)生成本，其中，數(shù)據(jù)量Nd與測序深度和測序區(qū)域的大小相關(guān)：
Di代表每個(gè)混合池的平均測序深度，R代表測序區(qū)域的長度，i為臨時(shí)變量；不同的重疊混合測序方案需要不同的混合池個(gè)數(shù)以及數(shù)據(jù)量，根據(jù)該代價(jià)模型計(jì)算各方案的成本并選擇最低成本的方案為最優(yōu)重疊混合測序方案。
【文檔編號】G06F19/22GK104217135SQ201410462490
【公開日】2014年12月17日申請日期:2014年9月11日優(yōu)先權(quán)日:2014年9月11日
【發(fā)明者】孫嘯, 曹唱唱, 李成申請人:東南大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：孫嘯;曹唱唱;李成
技術(shù)所有人：東南大學(xué)
我是此專利的發(fā)明人

上一篇：基于數(shù)字圖像確定不均勻巖土材料滲透系數(shù)的方法
上一篇：一種qpf字庫組織方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

lte重疊覆蓋優(yōu)化相關(guān)技術(shù)

lte重疊覆蓋優(yōu)化案例相關(guān)技術(shù)

測序方法相關(guān)技術(shù)

基因測序方法相關(guān)技術(shù)

dna測序方法相關(guān)技術(shù)

高通量測序方法相關(guān)技術(shù)

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種優(yōu)化的重疊混合測序方法