基于二維統(tǒng)計(jì)模型的體細(xì)胞拷貝數(shù)變異顯著性檢測(cè)方法
【專利摘要】一種基于二維統(tǒng)計(jì)模型的體細(xì)胞拷貝數(shù)變異顯著性檢測(cè)方法,其包括,S1采集SCNA數(shù)據(jù),并對(duì)SCNA數(shù)據(jù)進(jìn)行預(yù)處理;S2計(jì)算SCNA鄰近位點(diǎn)間的關(guān)系系數(shù),將染色體分割成多個(gè)相對(duì)獨(dú)立的SCNA結(jié)構(gòu)單元;S3計(jì)算每個(gè)SCNA結(jié)構(gòu)單元的統(tǒng)計(jì)量,并在全基因組上實(shí)施二維隨機(jī)置換;S4針對(duì)SCNA結(jié)構(gòu)單元的不同長(zhǎng)度L,通過(guò)計(jì)算置換樣本中任意長(zhǎng)度為L(zhǎng)的SCNA模式的統(tǒng)計(jì)量,在二維空間中構(gòu)造基于L的零分布DL;將相應(yīng)SCNA的統(tǒng)計(jì)量與DL進(jìn)行對(duì)比,將所述SCNA的統(tǒng)計(jì)量與所述DL記為p值;若p值小于設(shè)定的閾值,則相應(yīng)的SCNA顯著,具有潛在的癌癥功能。
【專利說(shuō)明】基于二維統(tǒng)計(jì)模型的體細(xì)胞拷貝數(shù)變異顯著性檢測(cè)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明一種基于二維統(tǒng)計(jì)模型的體細(xì)胞拷貝數(shù)變異顯著性檢測(cè)方法。
【背景技術(shù)】
[0002]體細(xì)胞拷貝數(shù)變異(somatic copy number alteration, SCNA)是癌癥基因組中的重要現(xiàn)象。它主要表現(xiàn)為拷貝數(shù)的擴(kuò)增和缺失兩種狀態(tài),與癌細(xì)胞的發(fā)生、發(fā)展有密切聯(lián)系。因此,對(duì)SCNA進(jìn)行系統(tǒng)的分析為從分子水平上研究癌癥的致病機(jī)理提供了重要途徑,其最底層、最核心的問(wèn)題是如何區(qū)分具有癌癥功能的SCNA模式與隨機(jī)發(fā)生的SCNA。 [0003]眾多研究表明,SCNA功能模式往往隱含于癌癥基因組樣本的一致變異區(qū)域中,那么建立以統(tǒng)計(jì)理論為基礎(chǔ)的計(jì)算方法,檢測(cè)SCNA在多個(gè)樣本中重復(fù)發(fā)生的(Recurrent)顯著性水平,為鑒定SCNA功能模式及發(fā)現(xiàn)潛在癌癥基因提供直接的、可行的技術(shù)手段,進(jìn)而為生物醫(yī)學(xué)家對(duì)癌癥的預(yù)測(cè)和診斷提供重要信息。因此,建立合理而有效的統(tǒng)計(jì)檢驗(yàn)?zāi)P椭陵P(guān)重要。
[0004]高通量全基因組SCNA位點(diǎn)的密集性及其結(jié)構(gòu)的復(fù)雜性,給統(tǒng)計(jì)檢驗(yàn)?zāi)P偷慕⒓癝CNA顯著性的檢測(cè)帶來(lái)了極大的挑戰(zhàn),主要體現(xiàn)在以下兩個(gè)方面。第一,問(wèn)題本身的難點(diǎn):a)位點(diǎn)數(shù)目高達(dá)180多萬(wàn)而樣本數(shù)往往較少,形成了一種高緯度小樣本的數(shù)據(jù)格局;b)SCNA位點(diǎn)之間存在較強(qiáng)的關(guān)聯(lián)性,并非獨(dú)立,使得檢測(cè)因子之間存在交互影響;c)拷貝數(shù)擴(kuò)增或缺失狀態(tài)包括兩方面的特征,即變異頻率和變異幅度,這要求一個(gè)合理的權(quán)衡這兩個(gè)特征的機(jī)制;d)SCNA結(jié)構(gòu)模式的長(zhǎng)度不盡相同,這要求考慮不同長(zhǎng)度的SCNA具有不同的背景分布。第二,解決問(wèn)題的理論和方法的挑戰(zhàn)性:a)數(shù)據(jù)規(guī)模大,對(duì)計(jì)算時(shí)間和空間復(fù)雜度的有效控制是一個(gè)挑戰(zhàn)問(wèn)題;b)如何充分考慮SCNA位點(diǎn)間的關(guān)聯(lián)性、降低SCNA顯著性水平估計(jì)的保守性,是一個(gè)難點(diǎn)問(wèn)題;c)如何建立與統(tǒng)計(jì)量具有一致性的零假設(shè)分布,增強(qiáng)顯著性水平估計(jì)的統(tǒng)計(jì)意義,是一個(gè)重點(diǎn)且目前尚未突破的問(wèn)題。
【發(fā)明內(nèi)容】
[0005]為了解決上述問(wèn)題,本發(fā)明一種基于二維統(tǒng)計(jì)模型的體細(xì)胞拷貝數(shù)變異顯著性檢測(cè)方法,其特征在于:其包括,
[0006]SI采集SCNA數(shù)據(jù),并對(duì)SCNA數(shù)據(jù)進(jìn)行預(yù)處理;
[0007]S2計(jì)算SCNA鄰近位點(diǎn)間的關(guān)系系數(shù),將染色體分割成多個(gè)相對(duì)獨(dú)立的SCNA結(jié)構(gòu)單元;
[0008]S3計(jì)算每個(gè)SCNA結(jié)構(gòu)單元的統(tǒng)計(jì)量,并在全基因組上實(shí)施二維隨機(jī)置換;
[0009]S4針對(duì)SCNA結(jié)構(gòu)單元的不同長(zhǎng)度L,通過(guò)計(jì)算置換樣本中任意長(zhǎng)度為L(zhǎng)的SCNA模式的統(tǒng)計(jì)量,在二維空間中構(gòu)造基于L的零分布^ ;將相應(yīng)SCNA的統(tǒng)計(jì)量與^進(jìn)行對(duì)比,將所述SCNA的統(tǒng)計(jì)量與所述^記為P值;若P值小于設(shè)定的閾值,則相應(yīng)的SCNA顯著,具有潛在的癌癥功能。
[0010]在上述技術(shù)方案的基礎(chǔ)上,所述步驟SI包括:[0011]對(duì)SCNA信號(hào)進(jìn)行處理,以獲取可對(duì)比的SCNA信號(hào);利用分割算法對(duì)噪聲進(jìn)行處理,并定義SCNA擴(kuò)增與缺失狀態(tài)。
[0012]在上述技術(shù)方案的基礎(chǔ)上,所述步驟S2包括:利用Pearson公式計(jì)算SCNA鄰近位點(diǎn)間的關(guān)系系數(shù),并將染色體分割成多個(gè)相對(duì)獨(dú)立的SCNA結(jié)構(gòu)單元。
[0013]在上述技術(shù)方案的基礎(chǔ)上,步驟S3包括
[0014]利用已知的SCNA功能模式構(gòu)造訓(xùn)練集,學(xué)習(xí)頻率W1和幅度的權(quán)重W2,計(jì)算統(tǒng)計(jì)量,
[0015]Stest=w1*f+w2>l<a
[0016]其中,f,a, Stest分別指訓(xùn)練集中SCNA功能模式的頻率,幅度,及統(tǒng)計(jì)量的值。
[0017]在上述技術(shù)方案的基礎(chǔ)上,所述步驟S3還包括:
[0018]所述二維隨機(jī)置換具體過(guò)程如下:
[0019]a)針對(duì)SCNA出現(xiàn)的頻率,隨機(jī)置換其在全基因組中出現(xiàn)的位置;針對(duì)每個(gè)置換樣本集,計(jì)算隨機(jī)SCNA的發(fā)生頻率,建立基于頻率的零分布Df ;
[0020]b)針對(duì)SCNA的變異幅度,隨機(jī)置換幅度在全基因組中出現(xiàn)的位置;針對(duì)每個(gè)置換樣本集,計(jì)算隨機(jī)SCNA的幅度,建立基于幅度的零分布Da
[0021]c)利用有監(jiān)督學(xué)習(xí)的權(quán)重,W1和W2,構(gòu)造零分布D,以檢測(cè)統(tǒng)計(jì)量的顯著性水平:
[0022]其中D=W1^Df+w2*Da ο
`[0023]與現(xiàn)有技術(shù)相比,本發(fā)明拷貝數(shù)變異兩方面的特征:變異頻率和變異幅度,都具有重要的生物意義,那么構(gòu)造基于這兩個(gè)特征的統(tǒng)計(jì)量及統(tǒng)計(jì)檢驗(yàn)?zāi)P陀欣诳陀^估計(jì)拷貝數(shù)變異的顯著性水平;而現(xiàn)有技術(shù)往往僅強(qiáng)調(diào)拷貝數(shù)變異頻率,容易忽略變異幅度的重要性;為此,本發(fā)明在這兩方面的特征空間上,建立二維統(tǒng)計(jì)檢驗(yàn)?zāi)P?,并通過(guò)有監(jiān)督學(xué)習(xí)策略權(quán)衡這兩個(gè)特征以合理地計(jì)算統(tǒng)計(jì)量,這不僅使得假設(shè)檢驗(yàn)?zāi)P团c統(tǒng)計(jì)量具有一致性,而且能夠增強(qiáng)顯著性水平估計(jì)的統(tǒng)計(jì)和生物雙重意義。
【專利附圖】
【附圖說(shuō)明】
[0024]圖1是本發(fā)明的流程圖。
【具體實(shí)施方式】
[0025]請(qǐng)參考圖1,一種基于二維統(tǒng)計(jì)模型的體細(xì)胞拷貝數(shù)變異顯著性檢測(cè)方法,其特征在于:其包括,
[0026]SI采集SCNA數(shù)據(jù),并對(duì)SCNA數(shù)據(jù)進(jìn)行預(yù)處理;
[0027]S2計(jì)算SCNA鄰近位點(diǎn)間的關(guān)系系數(shù),將染色體分割成多個(gè)相對(duì)獨(dú)立的SCNA結(jié)構(gòu)單元;
[0028]S3計(jì)算每個(gè)SCNA結(jié)構(gòu)單元的統(tǒng)計(jì)量,并在全基因組上實(shí)施二維隨機(jī)置換;
[0029]S4針對(duì)SCNA結(jié)構(gòu)單元的不同長(zhǎng)度L,通過(guò)計(jì)算置換樣本中任意長(zhǎng)度為L(zhǎng)的SCNA模式的統(tǒng)計(jì)量,在二維空間中構(gòu)造基于L的零分布^ ;將相應(yīng)SCNA的統(tǒng)計(jì)量與^進(jìn)行對(duì)比,將所述SCNA的統(tǒng)計(jì)量與所述^記為P值;若P值小于設(shè)定的閾值,則相應(yīng)的SCNA顯著,具有潛在的癌癥功能。
[0030]在上述技術(shù)方案的基礎(chǔ)上,所述步驟SI包括:
[0031]對(duì)SCNA信號(hào)進(jìn)行處理,以獲取可對(duì)比的SCNA信號(hào);利用分割算法對(duì)噪聲進(jìn)行處理,并定義SCNA擴(kuò)增與缺失狀態(tài)。SCNA信號(hào)預(yù)處理是指對(duì)信號(hào)進(jìn)行標(biāo)準(zhǔn)化及對(duì)數(shù)轉(zhuǎn)換,即針對(duì)每一個(gè)癌癥樣本,將其拷貝數(shù)信號(hào)與其配對(duì)的正常組織的拷貝數(shù)變異信號(hào)進(jìn)行比對(duì),并基于所分析的樣本集建立一個(gè)參考樣本,以對(duì)所有的樣本進(jìn)行規(guī)范化。這樣可以減弱不同樣本之間存在的Batch效應(yīng),同時(shí)消除生殖細(xì)胞對(duì)SCNA信號(hào)的影響。
[0032]在上述技術(shù)方案的基礎(chǔ)上,所述步驟S2包括:利用Pearson公式計(jì)算SCNA鄰近位點(diǎn)間的關(guān)系系數(shù),并將染色體分割成多個(gè)相對(duì)獨(dú)立的SCNA結(jié)構(gòu)單元。
[0033]在上述技術(shù)方案的基礎(chǔ)上,步驟S3包括
[0034]利用已知的SCNA功能模式構(gòu)造訓(xùn)練集,學(xué)習(xí)頻率&和幅度的權(quán)重w2,計(jì)算統(tǒng)計(jì)量,
[0035]Stest=w1*f+w2>l<a
[0036]其中,f,a, Stest分別指訓(xùn)練集中SCNA功能模式的頻率,幅度,及統(tǒng)計(jì)量的值。
[0037]在上述技術(shù)方案的基礎(chǔ)上,所述步驟S3還包括:
[0038]所述二維隨機(jī)置換具體過(guò)程如下:
[0039]a)針對(duì)SCNA出現(xiàn)的頻率,隨機(jī)置換其在全基因組中出現(xiàn)的位置;針對(duì)每個(gè)置換樣本集,計(jì)算隨機(jī)SCNA的發(fā)生頻率,建立基于頻率的零分布Df ;
[0040]b)針對(duì)SCNA 的變異幅度,隨機(jī)置換幅度在全基因組中出現(xiàn)的位置;針對(duì)每個(gè)置換樣本集,計(jì)算隨機(jī)SCNA的幅度,建立基于幅度的零分布Da
[0041]c)利用有監(jiān)督學(xué)習(xí)的權(quán)重,W1和W2,構(gòu)造零分布D,以檢測(cè)統(tǒng)計(jì)量的顯著性水平:
[0042]其中D=W1^Df+w2*Da ο
[0043]同時(shí),本發(fā)明以下三個(gè)方面對(duì)算法的性能進(jìn)行評(píng)價(jià):a)判斷算法能否在錯(cuò)誤肯定率(FPR)可控的情況下,獲得較高的正確肯定率(TPR) ;b)評(píng)價(jià)算法是否能夠較準(zhǔn)確地估計(jì)P值(Type I Error Rate),即算法的統(tǒng)計(jì)模型是否具有較強(qiáng)的統(tǒng)計(jì)意義;c)分析算法的計(jì)算復(fù)雜度。為此,我們擬以Affymetrix全基因組SNP6.0芯片檢測(cè)的正常細(xì)胞拷貝數(shù)為背景,以概率論和非穩(wěn)定模型基礎(chǔ),構(gòu)建馬爾可夫SCNA仿真方法,模擬大規(guī)模的SCNA數(shù)據(jù),對(duì)本發(fā)明的方法性能進(jìn)行測(cè)試。對(duì)于c),從理論上分析,SCNA結(jié)構(gòu)單元數(shù)比位點(diǎn)數(shù)小得多,故基于結(jié)構(gòu)單元的置換策略比基于位點(diǎn)的置換策略花費(fèi)計(jì)算時(shí)間少得多,因此算法的時(shí)間復(fù)雜度相對(duì)較低。
[0044]綜上所述,僅為本發(fā)明之較佳實(shí)施例,不以此限定本發(fā)明的保護(hù)范圍,凡依本發(fā)明專利范圍及說(shuō)明書內(nèi)容所作的等效變化與修飾,皆為本發(fā)明專利涵蓋的范圍之內(nèi)。
【權(quán)利要求】
1.一種基于二維統(tǒng)計(jì)模型的體細(xì)胞拷貝數(shù)變異顯著性檢測(cè)方法,其特征在于:其包括, SI采集SCNA數(shù)據(jù),并對(duì)SCNA數(shù)據(jù)進(jìn)行預(yù)處理; S2計(jì)算SCNA鄰近位點(diǎn)間的關(guān)系系數(shù),將染色體分割成多個(gè)相對(duì)獨(dú)立的SCNA結(jié)構(gòu)單元; S3計(jì)算每個(gè)SCNA結(jié)構(gòu)單元的統(tǒng)計(jì)量,并在全基因組上實(shí)施二維隨機(jī)置換; S4針對(duì)SCNA結(jié)構(gòu)單元的不同長(zhǎng)度L,通過(guò)計(jì)算置換樣本中任意長(zhǎng)度為L(zhǎng)的SCNA模式的統(tǒng)計(jì)量,在二維空間中構(gòu)造基于L的零分布^ ;將相應(yīng)SCNA的統(tǒng)計(jì)量與^進(jìn)行對(duì)比,將所述SCNA的統(tǒng)計(jì)量與所述^記為P值;若P值小于設(shè)定的閾值,則相應(yīng)的SCNA顯著,具有潛在的癌癥功能。
2.如權(quán)利要求1所述的一種基于二維統(tǒng)計(jì)模型的體細(xì)胞拷貝數(shù)變異顯著性檢測(cè)方法,其特征在于:所述步驟SI包括: 對(duì)SCNA信號(hào)進(jìn)行預(yù)處理,以獲取可對(duì)比的SCNA信號(hào);利用分割算法對(duì)噪聲進(jìn)行處理,并定義SCNA擴(kuò)增與缺失狀態(tài)。
3.如權(quán)利要求1所述的一種基于二維統(tǒng)計(jì)模型的體細(xì)胞拷貝數(shù)變異顯著性檢測(cè)方法,其特征在于:所述步驟S2包括:利用Pearson公式計(jì)算SCNA鄰近位點(diǎn)間的關(guān)系系數(shù),并將染色體分割成多個(gè)相對(duì)獨(dú)立的SCNA結(jié)構(gòu)單元。
4.如權(quán)利要求1所述的一種基于二維統(tǒng)計(jì)模型的體細(xì)胞拷貝數(shù)變異顯著性檢測(cè)方法,其特征在于:步驟S3包括 利用已知的SCNA功能模式構(gòu)造訓(xùn)練集,學(xué)習(xí)頻率W1和幅度的權(quán)重w2,計(jì)算統(tǒng)計(jì)量,
Stest=Wl*f+W2*a 其中,f, a, Stest分別指訓(xùn)練集中SCNA功能模式的頻率,幅度,及統(tǒng)計(jì)量的值。
5.如權(quán)利要求4所述的一種基于二維統(tǒng)計(jì)模型的體細(xì)胞拷貝數(shù)變異顯著性檢測(cè)方法,其特征在于:所述步驟S3還包括: 所述二維隨機(jī)置換具體過(guò)程如下: a)針對(duì)SCNA出現(xiàn)的頻率,隨機(jī)置換其在全基因組中出現(xiàn)的位置;針對(duì)每個(gè)置換樣本集,計(jì)算隨機(jī)SCNA的發(fā)生頻率,建立基于頻率的零分布Df ; b)針對(duì)SCNA的變異幅度,隨機(jī)置換幅度在全基因組中出現(xiàn)的位置;針對(duì)每個(gè)置換樣本集,計(jì)算隨機(jī)SCNA的幅度,建立基于幅度的零分布Da c)利用有監(jiān)督學(xué)習(xí)的權(quán)重,W1和W2,構(gòu)造零分布D,以檢測(cè)統(tǒng)計(jì)量的顯著性水平:
其中 D=W1^Df+w2*Da ο
【文檔編號(hào)】G06F19/18GK103778350SQ201410010002
【公開(kāi)日】2014年5月7日 申請(qǐng)日期:2014年1月9日 優(yōu)先權(quán)日:2014年1月9日
【發(fā)明者】袁細(xì)國(guó), 張軍英, 楊利英, 張勝利 申請(qǐng)人:西安電子科技大學(xué)