提供與基于基因序列的個(gè)人標(biāo)記有關(guān)的信息的方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及提供與基于基因序列的個(gè)人標(biāo)記有關(guān)的信息的方法和使用該方法的 裝置。
【背景技術(shù)】
[0002] 隨著人類基因組計(jì)劃的完成,已經(jīng)對(duì)人類DNA堿基序列進(jìn)行了解碼并從中發(fā)現(xiàn)了 人類基因的各種功能。具體而言,已經(jīng)發(fā)現(xiàn)了各種基因變異,并且已發(fā)現(xiàn)它們不但引起人類 性狀的差異,而且還充當(dāng)了某些疾病的病因。因此,人類基因組分析研宄越來(lái)越在加速進(jìn) 行。然而,難點(diǎn)在于確定人類基因組中出現(xiàn)的大量基因變異中哪些基因變異會(huì)是病因。
[0003] 隨著下一代測(cè)序(NGS)技術(shù)的發(fā)展,已經(jīng)能夠?qū)€(gè)體人類的全基因組的堿基序列 進(jìn)行解碼。通過對(duì)疾病組和正常組的堿基序列與變異的比較和分析,能夠提取疾病特異性 基因變異。此外,已經(jīng)采用如下方法在現(xiàn)有的繁殖材料中生成唯一的分子標(biāo)記:選擇與性狀 相關(guān)聯(lián)的標(biāo)記,在種質(zhì)(germplasm)內(nèi)的一組標(biāo)記中在核苷酸水平識(shí)別現(xiàn)有的變異,并借 助靶向核苷酸交換在標(biāo)記的固定區(qū)域中的位置處引入一個(gè)或更多個(gè)核苷酸而引入選擇性 標(biāo)記(參見韓國(guó)專利申請(qǐng)?zhí)亻_No. 10-2011-0094268)。
[0004] 然而,現(xiàn)有技術(shù)的方法僅能提供高度特異性基因變異信息,因而其受限于不能提 供可靠的有用信息。
【發(fā)明內(nèi)容】
[0005] 技術(shù)問題
[0006] 鑒于上述問題而做出本發(fā)明,并且本發(fā)明的目的是提供一種與基于基因序列的個(gè) 人標(biāo)記有關(guān)的信息的方法,該方法包括以下步驟:從目標(biāo)樣品獲得基因序列信息;使用所 獲得的基因序列信息提取基因序列變異標(biāo)記;以及基于堿基序列的品質(zhì)對(duì)所提取的變異標(biāo) 記的最優(yōu)性進(jìn)行評(píng)價(jià),以提供與基于基因序列的個(gè)人標(biāo)記有關(guān)的信息。
[0007] 此外,本發(fā)明的另一目的是提供一種裝置,該裝置包括:序列輸入部;序列品質(zhì)管 理(QC)部;序列比較運(yùn)算部;基因變異提取部;以及從目標(biāo)樣品獲得的堿基序列信息的變 異區(qū)域序列輸出部。
[0008] 解決技術(shù)問題的技術(shù)方案
[0009] 在本發(fā)明中,術(shù)語(yǔ)"可靠性評(píng)價(jià)"是指對(duì)所選擇的標(biāo)記的可能顯著性進(jìn)行評(píng)價(jià);其 實(shí)例包括:使用與支持讀段(read)的數(shù)量、堿基序列的數(shù)量以及用于提取基因變異標(biāo)記的 序列的品質(zhì)(但不限于此)有關(guān)的信息對(duì)基因變異分析結(jié)果進(jìn)行評(píng)價(jià)。
[0010] 在本發(fā)明中,術(shù)語(yǔ)"容易度評(píng)價(jià)"是指對(duì)實(shí)驗(yàn)標(biāo)記檢測(cè)的容易程度進(jìn)行評(píng)價(jià);其實(shí) 例包括:分析和評(píng)價(jià)重復(fù)序列的出現(xiàn)、諸如GC堿基含量等序列組成特性、以及基因變異周 圍的附加個(gè)體變異的出現(xiàn),但不限于此。
[0011] 在本發(fā)明中,術(shù)語(yǔ)"有用性評(píng)價(jià)"是指基于與標(biāo)記的生物性狀的關(guān)聯(lián)性對(duì)有用性進(jìn) 行評(píng)價(jià);其實(shí)例包括:基于與基因標(biāo)記的生物性狀的關(guān)聯(lián)性對(duì)有用性進(jìn)行評(píng)價(jià),例如與疾 病風(fēng)險(xiǎn)性的關(guān)聯(lián)性,以及與靶向抗癌劑的關(guān)聯(lián)性,但不限于此。
[0012] 在一個(gè)實(shí)施方式中,本發(fā)明提供了一種用于提供與基于基因序列的個(gè)人標(biāo)記有關(guān) 的信息的方法,該方法包括以下步驟:從目標(biāo)樣品獲得堿基序列相關(guān)信息;對(duì)所獲得的堿 基序列信息是否適于分析執(zhí)行品質(zhì)管理;將執(zhí)行了品質(zhì)管理的所述堿基序列與參考序列進(jìn) 行比較;從序列比較結(jié)果中提取個(gè)人識(shí)別標(biāo)記;對(duì)所提取的個(gè)人識(shí)別標(biāo)記的最優(yōu)性進(jìn)行評(píng) 價(jià);以及輸出已識(shí)別出標(biāo)記的最優(yōu)性的所述序列。
[0013] 在該實(shí)施方式中,對(duì)標(biāo)記的最優(yōu)性進(jìn)行評(píng)價(jià)的步驟提供了特征在于下述的方法: 執(zhí)行可靠性評(píng)價(jià)、容易度評(píng)價(jià)和有用性評(píng)價(jià)。對(duì)序列品質(zhì)進(jìn)行識(shí)別并執(zhí)行品質(zhì)管理的步 驟提供了特征在于下述的方法:對(duì)基因的每個(gè)位置執(zhí)行選自由修整(trimming)、N掩蔽 (N-masking)和低品質(zhì)讀段過濾組成的組中的任意一個(gè)或更多個(gè)運(yùn)算。對(duì)堿基序列進(jìn)行比 較的步驟提供了特征在于下述的方法:其執(zhí)行選自由全局比對(duì)和局部比對(duì)組成的組中的任 意一個(gè)或更多個(gè)運(yùn)算。對(duì)標(biāo)記進(jìn)行提取的步驟提供了特征在于下述的方法:其提取單核苷 酸多態(tài)性(SNP)或結(jié)構(gòu)變異(SV)。對(duì)標(biāo)記的可靠性進(jìn)行評(píng)價(jià)的步驟提供了特征在于下述的 方法:其基于所獲得的堿基序列讀段的數(shù)量和組成對(duì)統(tǒng)計(jì)可靠性進(jìn)行評(píng)價(jià)。對(duì)標(biāo)記的容易 度進(jìn)行評(píng)價(jià)的步驟提供了特征在于下述的方法:考慮重復(fù)序列的出現(xiàn)、GC含量等對(duì)實(shí)驗(yàn)的 容易度進(jìn)行評(píng)價(jià)。對(duì)標(biāo)記的有用性進(jìn)行評(píng)價(jià)的步驟提供了特征在于下述的方法:對(duì)涉及疾 病風(fēng)險(xiǎn)程度以及與疾病的關(guān)聯(lián)性的生物學(xué)有用性進(jìn)行評(píng)價(jià)。此外,輸出上述識(shí)別出序列的 步驟提供了特征在于下述的方法:將包括所述基因變異的堿基序列的外圍序列輸出成例如 fasta格式等的常規(guī)標(biāo)準(zhǔn)序列文件格式。
[0014] 在一個(gè)實(shí)施方式中,本發(fā)明提供了一種用于提供與基于基因序列的個(gè)人標(biāo)記有關(guān) 的信息的裝置,該裝置包括:輸入部(110),用于輸入從目標(biāo)樣品獲得的堿基序列信息;品 質(zhì)管理運(yùn)算部(120),用于對(duì)所獲得的堿基序列信息是否適于分析執(zhí)行品質(zhì)管理;比較運(yùn) 算部(130),用于將執(zhí)行了品質(zhì)管理的所述堿基序列與參考序列進(jìn)行比較;基因變異提取 部(140),用于從序列比較結(jié)果中提取個(gè)人識(shí)別標(biāo)記;適用性運(yùn)算部(150),用于對(duì)所提取 的個(gè)人識(shí)別標(biāo)記的最優(yōu)性進(jìn)行識(shí)別和評(píng)價(jià);以及輸出部(160),用于輸出所述標(biāo)記的最優(yōu) 性的評(píng)價(jià)結(jié)果。
[0015] 在上述實(shí)施方式中,最優(yōu)性運(yùn)算部(150)提供了特征在于下述的裝置:其選自由 可靠性運(yùn)算部、容易度運(yùn)算部和有用性運(yùn)算部組成的組中的任意一個(gè)或更多個(gè)。品質(zhì)管理 運(yùn)算部(120)提供了特征在于下述的裝置:該運(yùn)算對(duì)基因的每個(gè)位置執(zhí)行選自由修整、N掩 蔽和低品質(zhì)讀段過濾組成的組中的任意一個(gè)或更多個(gè)運(yùn)算。比較運(yùn)算部(130)提供了特 征在于下述的裝置:其執(zhí)行選自由全局比對(duì)和局部比對(duì)組成的組中的任意一個(gè)或更多個(gè)運(yùn) 算。基因變異提取部(140)提供了特征在于下述的裝置:其提取單核苷酸多態(tài)性或結(jié)構(gòu)變 異。在最優(yōu)性運(yùn)算部(150)中,可靠性運(yùn)算部提供了特征在于下述的裝置:其基于所獲得的 堿基序列讀段的數(shù)量和組成對(duì)統(tǒng)計(jì)可靠性進(jìn)行評(píng)價(jià);容易度運(yùn)算部提供了特征在于下述的 裝置:其考慮重復(fù)序列的出現(xiàn)、GC含量等對(duì)實(shí)驗(yàn)的容易度進(jìn)行評(píng)價(jià);以及有用性運(yùn)算部提 供了特征在于下述的裝置:其對(duì)涉及疾病風(fēng)險(xiǎn)程度以及與疾病的關(guān)聯(lián)性的生物學(xué)有用性進(jìn) 行評(píng)價(jià)。此外,輸出部(160)提供了特征在于下述的裝置:將包括所述基因變異的堿基序列 的外圍序列呈現(xiàn)為例如fasta格式等常規(guī)標(biāo)準(zhǔn)序列文件格式。
[0016] 發(fā)明的有益效果
[0017]由于通過從基因序列分析儀得到的核苷酸序列讀段獲得的基因變異信息包括不 確定性,因此存在許多情形需要使用其他分析設(shè)備的識(shí)別處理。因而,通過根據(jù)本發(fā)明的用 于提供與基于基因序列的個(gè)人標(biāo)記有關(guān)的信息的方法和使用該方法的裝置,i)執(zhí)行個(gè)人基 因變異標(biāo)記提取;ii)基于可靠性、容易度和有用性對(duì)所提取的基因變異標(biāo)記進(jìn)行評(píng)價(jià);以 及iii)在不使用單獨(dú)程序的情況下能夠同時(shí)獲得外圍序列信息,從而其能夠用于使用其 他分析設(shè)備的識(shí)別實(shí)驗(yàn)。具體而言,在癌癥細(xì)胞基因的情況下,其提供了對(duì)該癌癥細(xì)胞特異 的基因變異標(biāo)記,因此能夠用作用于檢測(cè)源自癌細(xì)胞的基因的工具,所述源自癌細(xì)胞的基 因與源自受試對(duì)象的的正常細(xì)胞的基因區(qū)別開。
【附圖說(shuō)明】
[0018] 圖1是示出根據(jù)本發(fā)明的一個(gè)實(shí)施方式的用于提供與基于基因序列的個(gè)人標(biāo)記 有關(guān)的信息的方法的總體圖。
[0019]圖2是用于讀取來(lái)自序列分析儀的堿基序列讀段、對(duì)各個(gè)讀段執(zhí)行品質(zhì)管理并將 所獲得的堿基序列相對(duì)于公開的參考序列進(jìn)行匹配的方法的一個(gè)具體實(shí)例。
[0020] 圖3是示出用于參照公開的參考序列或其他堿基序列讀段提取個(gè)人基因變異標(biāo) 記并對(duì)信息進(jìn)行呈現(xiàn)的方法的一個(gè)具體實(shí)例。
[0021] 圖4a至4h是通過執(zhí)行了表1和2中所列出的可靠性計(jì)算的仿真而產(chǎn)生的示例性 序列;圖4i至圖41示出了每一個(gè)所述序列的計(jì)算結(jié)果。
[0022] 圖5是基于與基因標(biāo)記的生物性狀的關(guān)聯(lián)性計(jì)算出的所發(fā)現(xiàn)的三個(gè)基因變異的 有用性分?jǐn)?shù)的一個(gè)具體實(shí)例。
【具體實(shí)施方式】
[0023]下面將參照【附圖說(shuō)明】本發(fā)明的優(yōu)