一種基因拷貝數(shù)變異分析方法
【專利摘要】本發(fā)明提供了一種基因拷貝數(shù)變異分析方法,包括以下步驟:1)讀入數(shù)據(jù)的索引文件和參考基因組;2)將整個(gè)基因組的比對結(jié)果的sam文件按照染色體分割開;3)對比對測序數(shù)據(jù)的比對結(jié)果進(jìn)行統(tǒng)計(jì);4)以1KB為窗口,計(jì)算基因組上每個(gè)窗口平均覆蓋深度,結(jié)果以列表形式給出;5)根據(jù)計(jì)算結(jié)果畫出染色體覆蓋深度圖形,將全基因組覆蓋深度圖按照染色體展示,即24條染色體每條單獨(dú)展示覆蓋深度圖形,并按豎排羅列;6)從圖形中直接識別拷貝數(shù)變異。本發(fā)明能夠利用高通量測序數(shù)據(jù)對人類基因組水平上的拷貝數(shù)變異進(jìn)行準(zhǔn)確分析和高分辨率的圖形展示,同時(shí)對數(shù)據(jù)比對信息進(jìn)行統(tǒng)計(jì),便于數(shù)據(jù)評估。
【專利說明】
一種基因拷貝數(shù)變異分析方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于基因信息數(shù)據(jù)處理領(lǐng)域,特別是涉及到一種基因拷貝數(shù)變異分析方 法。
【背景技術(shù)】
[0002] 人類基因拷貝數(shù)變異是多種疾病,特別是腫瘤發(fā)生、發(fā)展中最重要的原因之一。近 年來隨著高通量測序技術(shù)的迅猛發(fā)展,測序成本有了大幅度降低,基于全基因組測序分析 基因拷貝數(shù)變異越來越成為臨床檢測和科學(xué)研究的常規(guī)手段。對于基因拷貝數(shù)變異的準(zhǔn)確 檢測和分析也成為生物信息工作者們面對的共同的問題之一。
[0003] 高通量測序技術(shù)通過對基因組上長度為200-500bp的隨機(jī)區(qū)域進(jìn)行擴(kuò)增、測序,用 測序得到的讀長(reads)表征該區(qū)域的拷貝數(shù)。這樣可將基因組上的拷貝數(shù)變異信號放大 到可檢測水平,然后對測序數(shù)據(jù)進(jìn)行分析,達(dá)到檢測基因拷貝數(shù)變異的目的。然而,一方面, 目前基于高通量測序技術(shù)(也稱新一代測序技術(shù))的全基因組測序數(shù)據(jù)由于實(shí)驗(yàn)處理技術(shù) 的局限和人為操作偏差等因素,使得測序數(shù)據(jù)在整個(gè)人類基因組上的分布不均一,有的區(qū) 域覆蓋很高,而有的區(qū)域甚至無法覆蓋。這種覆蓋的不均一性會對基因拷貝數(shù)變異檢測產(chǎn) 生較大的干擾。因此,判斷一個(gè)區(qū)域的reads數(shù)的變化是由于測序誤差造成的還是源于真正 的基因組拷貝數(shù)變異,需要連續(xù)包含在一定長度的區(qū)域(如3MB)的多個(gè)小窗口(如IOOkb)的 reads覆蓋的平均深度來消除誤差影響,然后通過精細(xì)的圖形化展示,直觀的識別出拷貝數(shù) 變異。然而目前的拷貝數(shù)分析軟件圖形展示不夠精細(xì),能識別的拷貝數(shù)變異區(qū)域大,分辨率 低。另一方面,人類基因組著絲粒附近存在的大量重復(fù)序列和不易擴(kuò)增的致密區(qū)域,以及參 考基因組上存在的未知的gap區(qū)域都會對拷貝數(shù)變異的檢測產(chǎn)生較大干擾,在數(shù)據(jù)分析過 程中需要排除。然而目前的拷貝數(shù)變異分析軟件大多都沒有排除基因組著絲粒附近高復(fù)雜 區(qū)域和參考基因組的gap區(qū)域,導(dǎo)致檢測到的拷貝數(shù)變異假陽性高,準(zhǔn)確性低。
【發(fā)明內(nèi)容】
[0004] 有鑒于此,本發(fā)明提出一種基因拷貝數(shù)變異分析方法,能夠利用高通量測序數(shù)據(jù) 對人類基因組水平上的拷貝數(shù)變異進(jìn)行準(zhǔn)確分析和高分辨率的圖形展示,同時(shí)對數(shù)據(jù)比對 信息進(jìn)行統(tǒng)計(jì),便于數(shù)據(jù)評估。
[0005]為達(dá)到上述目的,本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的:一種基因拷貝數(shù)變異分析方 法,包括以下步驟:
[0006] 1)讀入數(shù)據(jù)的索引文件和參考基因組;
[0007] 2)將整個(gè)基因組的比對結(jié)果的sam文件按照染色體分割開;
[0008] 3)對比對測序數(shù)據(jù)的比對結(jié)果進(jìn)行統(tǒng)計(jì);
[0009] 4)以IKB為窗口,計(jì)算基因組上每個(gè)窗口平均覆蓋深度,結(jié)果以列表形式給出;
[0010] 5)根據(jù)計(jì)算結(jié)果畫出染色體覆蓋深度圖形,將全基因組覆蓋深度圖按照染色體展 示,即24條染色體每條單獨(dú)展示覆蓋深度圖形,并按豎排羅列;
[0011 ] 6)從圖形中直接識別拷貝數(shù)變異。
[0012] 進(jìn)一步的,步驟3)所述統(tǒng)計(jì)的比對結(jié)果包括原始數(shù)據(jù)量,mapping rate,unique mapping rate,基因組覆蓋率,平均覆蓋深度,建庫時(shí)插入序列的平均長度以及樣品的性染 色體表型。
[0013] 進(jìn)一步的,步驟4)計(jì)算過程中遇到著絲粒附近高復(fù)雜度的區(qū)域或者參考基因組上 的gap區(qū)域,自動跳過。
[0014] 更進(jìn)一步的,步驟4)還計(jì)算每個(gè)窗口的覆蓋區(qū)域大小,覆蓋比例以及總的測序堿 基數(shù)目。
[0015] 進(jìn)一步的,步驟5)所述畫出染色體覆蓋深度圖形,是以100K為一個(gè)點(diǎn)。
[0016] 相對于現(xiàn)有技術(shù),本發(fā)明所述的一種基因拷貝數(shù)變異分析方法具有以下優(yōu)勢:
[0017] (1)本發(fā)明將全基因組覆蓋深度按照染色體展示,即24條染色體每條單獨(dú)展示覆 蓋深度圖形,并按豎排羅列,而非整個(gè)基因組用一條覆蓋深度圖形展示,這樣可以將拷貝數(shù) 變異檢測的分辨率提高10倍以上,進(jìn)而提升識別拷貝數(shù)變異的準(zhǔn)確性和靈敏度。
[0018] (2)本發(fā)明將基因組中的著絲粒高復(fù)雜區(qū)域和參考基因組的gap區(qū)域進(jìn)行了去除, 降低了檢測拷貝數(shù)變異的假陽性,提高了準(zhǔn)確性。
[0019] (3)本發(fā)明以測序的原始clean reads作為輸入文件,經(jīng)比對,排序,按染色體分割 bam文件,統(tǒng)計(jì)比對信息,按窗口計(jì)算覆蓋深度,最后畫出展示圖,利用高通量測序數(shù)據(jù)對人 類基因組水平上的拷貝數(shù)變異進(jìn)行準(zhǔn)確分析和高分辨率的圖形展示,同時(shí),對數(shù)據(jù)比對信 息進(jìn)行統(tǒng)計(jì),便于數(shù)據(jù)評估。
【附圖說明】
[0020] 構(gòu)成本發(fā)明的一部分的附圖用來提供對本發(fā)明的進(jìn)一步理解,本發(fā)明的示意性實(shí) 施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:
[0021] 圖1為本發(fā)明的流程示意圖。
[0022]圖2為本發(fā)明實(shí)施例的HCC樣本基因組覆蓋圖。
[0023]圖3為本發(fā)明實(shí)施例的和HCC配對的正常肝組織基因組覆蓋圖。
【具體實(shí)施方式】
[0024]需要說明的是,在不沖突的情況下,本發(fā)明的實(shí)施例及實(shí)施例中的特征可以相互 組合。
[0025]下面將參考附圖并結(jié)合實(shí)施例來詳細(xì)說明本發(fā)明。
[0026]如圖1所示,本發(fā)明的實(shí)施步驟為:
[0027] (1)讀入數(shù)據(jù)的索引文件和參考基因組(兩個(gè)必須的參數(shù)),依次完成各部分分析 工作。
[0028] (2)將整個(gè)基因組的比對結(jié)果的sam文件按照染色體分割開,可以提高運(yùn)算速度, 便于進(jìn)行統(tǒng)計(jì)分析。
[0029] (3)對比對測序數(shù)據(jù)的比對結(jié)果進(jìn)行統(tǒng)計(jì)。包括原始數(shù)據(jù)量,mapping rate, unique mapping rate,基因組覆蓋率,平均覆蓋深度,建庫時(shí)插入序列的平均長度以及樣 品的性染色體表型。
[0030] (4)計(jì)算基因組上每個(gè)窗口(窗口大小為lkb)平均覆蓋深度,結(jié)果以列表形式給 出。當(dāng)遇到著絲粒附近高復(fù)雜度的區(qū)域或者參考基因組上的gap區(qū)域,則可自動跳過。同時(shí) 還計(jì)算每個(gè)窗口的覆蓋區(qū)域大小,覆蓋比例以及總的測序堿基數(shù)目。
[0031] (5)根據(jù)前面的計(jì)算結(jié)果畫出染色體覆蓋深度圖形。將全基因組覆蓋深度圖按照 染色體展示,即24條染色體每條單獨(dú)展示覆蓋深度圖形,并按豎排羅列,而非整個(gè)基因組用 一條覆蓋深度圖形展示,這樣可以最大限度的提高圖形展示的分辨率,進(jìn)而提升識別拷貝 數(shù)變異的準(zhǔn)確性和靈敏性。可以生成SVG格式的矢量圖,同時(shí)支持按所需ppi大小將SVG轉(zhuǎn)化 成pdf,png,jpeg等圖片格式。
[0032] (6)從圖形中直接識別拷貝數(shù)變異。
[0033]下面通過一組肝癌腫瘤和正常配對組織樣本的低深度全基因組pair-end測序數(shù) 據(jù)為應(yīng)用實(shí)例,展示本發(fā)明的實(shí)施結(jié)果?;蚪M的拷貝數(shù)變異是結(jié)直腸癌中常見的基因組 變異,也是該癌種主要的引發(fā)機(jī)制之一。
[0034]以樣本測序數(shù)據(jù)為輸入數(shù)據(jù),得到如下結(jié)果 [0035] (1)數(shù)據(jù)信息統(tǒng)計(jì)
[0036]表3.1測序數(shù)據(jù)統(tǒng)計(jì)信息
[0038] (2)根據(jù)統(tǒng)計(jì)信息和計(jì)算的每個(gè)窗口的測序覆蓋深度,畫出覆蓋深度圖(每條染色 體下面小標(biāo)尺的刻度范圍為0-4倍體)
[0039]從圖2可明顯看出在HCC樣本基因組上有包括chrl短臂和長臂,chr8短臂等大片段 的拷貝數(shù)變異發(fā)生。
[0040] 圖3表示和HCC配對的正常肝組織基因組拷貝數(shù)分布圖,從圖中可以看出正常組織 中沒有可靠的拷貝數(shù)變異發(fā)生。
[0041] 以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精 神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1. 一種基因拷貝數(shù)變異分析方法,其特征在于,包括以下步驟: 1) 讀入數(shù)據(jù)的索引文件和參考基因組; 2) 將整個(gè)基因組的比對結(jié)果的sam文件按照染色體分割開; 3) 對比對測序數(shù)據(jù)的比對結(jié)果進(jìn)行統(tǒng)計(jì); 4) 以1KB為窗口,計(jì)算基因組上每個(gè)窗口平均覆蓋深度,結(jié)果以列表形式給出; 5) 根據(jù)計(jì)算結(jié)果畫出染色體覆蓋深度圖形,將全基因組覆蓋深度圖按照染色體展示, 即24條染色體每條單獨(dú)展示覆蓋深度圖形,并按豎排羅列; 6) 從圖形中直接識別拷貝數(shù)變異。2. 根據(jù)權(quán)利要求1所述的一種基因拷貝數(shù)變異分析方法,其特征在于,步驟3)所述統(tǒng)計(jì) 的比對結(jié)果包括原始數(shù)據(jù)量,mapping rate,unique mapping rate,基因組覆蓋率,平均覆 蓋深度,建庫時(shí)插入序列的平均長度以及樣品的性染色體表型。3. 根據(jù)權(quán)利要求1所述的一種基因拷貝數(shù)變異分析方法,其特征在于,步驟4)計(jì)算過程 中遇到著絲粒附近高復(fù)雜度的區(qū)域或者參考基因組上的gap區(qū)域,自動跳過。4. 根據(jù)權(quán)利要求1或3所述的一種基因拷貝數(shù)變異分析方法,其特征在于,步驟4)還計(jì) 算每個(gè)窗口的覆蓋區(qū)域大小,覆蓋比例以及總的測序堿基數(shù)目。5. 根據(jù)權(quán)利要求1所述的一種基因拷貝數(shù)變異分析方法,其特征在于,步驟5)所述畫出 染色體覆蓋深度圖形,是以100K為一個(gè)點(diǎn)。
【文檔編號】G06F19/20GK106055923SQ201610319474
【公開日】2016年10月26日
【申請日】2016年5月13日
【發(fā)明人】薛成海, 雷文婕, 張廣發(fā), 李柏良
【申請人】萬康源(天津)基因科技有限公司