本發(fā)明涉及一種癌癥預(yù)后模型的構(gòu)建方法及癌癥預(yù)后的檢測試劑盒,尤其涉及一種胃癌預(yù)后模型的構(gòu)建方法和用于胃癌預(yù)后的檢測試劑盒。
背景技術(shù):
1、胃癌是作為一種異質(zhì)性較高的腫瘤癌,其預(yù)后相關(guān)影響因素較多,fa代謝與胃癌的發(fā)生發(fā)展及侵襲能力明顯相關(guān),影響胃癌患者預(yù)后。
2、脂肪酸(fatty?acid,fa)代謝在體外和體內(nèi)多種類型癌癥的發(fā)生和進(jìn)展中起重要作用,異常的脂肪酸代謝影響腫瘤的侵襲能力。fa代謝與癌細(xì)胞遷移、血管的生成、人體對腫瘤細(xì)胞的免疫監(jiān)視和腫瘤對化療藥物的耐藥性等生物學(xué)行為明顯相關(guān),干擾胃癌侵襲能力,影響胃癌患者的預(yù)后,基于腫瘤免疫學(xué)、組蛋白乳酸化和腫瘤自噬等已經(jīng)建立了多種預(yù)測胃癌預(yù)后模型。但目前缺乏基于脂肪酸代謝相關(guān)基因(fmgs)亞型剖析胃癌異質(zhì)性的相關(guān)研究。
3、臨床預(yù)測模型是根據(jù)研究群體的特征來評估發(fā)生某種疾病或出現(xiàn)某種結(jié)局可能性的統(tǒng)計模型,主要分為診斷模型和預(yù)后模型。生物信息學(xué)方法聚集了統(tǒng)計學(xué)、生物學(xué)和計算機(jī)科學(xué)等多個學(xué)科領(lǐng)域知識,以生物大分子為研究對象,對其大量的信息數(shù)據(jù)進(jìn)行挖掘,將其與機(jī)器學(xué)習(xí)算法(machine?learning,ml)結(jié)合不同的組學(xué),例如基因組、代謝組和蛋白組等的數(shù)據(jù)進(jìn)行特征篩選和特征提取等綜合分析,獲得數(shù)字化信息,發(fā)現(xiàn)關(guān)鍵的基因組合,訓(xùn)練并建立模型,在預(yù)測疾病的進(jìn)展方面具有良好表現(xiàn)。
4、針對于不同的組學(xué),可以通過分子分型(molecular?classification)的方法將樣本的特征進(jìn)行分析,分類為不同的亞群,將其應(yīng)用于腫瘤學(xué)中,可以幫助確定不同類型的腫瘤亞型,分析不同群體亞型生存時間、治療反應(yīng)等差異,從而推動個體化治療和預(yù)后評估。常見的分型算法有一致性聚類(consensus?cluster)、非負(fù)矩陣分解(non?negativematrix?factorization,nmf)及自組織映射(som?clustering)。
5、nmf是一種在矩陣中所有元素均為非負(fù)數(shù)約束條件之下,對其進(jìn)行降維分析和特征提取的矩陣分解方法。nmf的基本思想可以簡單理解為:對于任意給定的一個非負(fù)矩陣v,nmf算法能夠?qū)ふ业揭粋€非負(fù)矩陣w和一個非負(fù)矩陣h,使得v=w*h成立,從而將一個非負(fù)的矩陣分解為左右兩個非負(fù)矩陣的乘積,將一個大的非負(fù)矩陣首先分解為兩個小的非負(fù)矩陣,因為分解后的矩陣也是非負(fù)的,所以也可以繼續(xù)分解,nmf算法通常會用不同參數(shù)運行許多次,結(jié)果輸出后分析nmf?rank度量圖,其中包括共生相關(guān)系數(shù)(copheneticcorrelation?coefficients)和輪廓系數(shù)(silhouette?coefficients)、彌散系數(shù)(dispersion?coefficients)等,它們可以反映實例在各類簇中是否緊湊、可賦予一定的優(yōu)勢度來評價聚類效果,尋找最好的分型結(jié)果。評價聚類效果是否緊湊的常用標(biāo)準(zhǔn)是cophenetic曲線下降范圍最大的前點,還可以聯(lián)合silhouette曲線和dispersion曲線共同決定,也可以由殘差平方和(residual?sum?of?square,rss)曲線呈現(xiàn)拐點的第一個r值來判定,還能夠直接對共識矩陣目視觀察來判斷聚類效果。
6、在醫(yī)學(xué)領(lǐng)域中,常用的風(fēng)險預(yù)測建模機(jī)器學(xué)習(xí)方法包括生存樹、貝葉斯方法和神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)及其他機(jī)器學(xué)習(xí)算法。根據(jù)生存時間分布特性,應(yīng)用于生存分析的統(tǒng)計學(xué)方法包括參數(shù)法、半?yún)?shù)法及非參數(shù)法,當(dāng)生存時間分布未知時,比例風(fēng)險假設(shè)不成立時,采用非參數(shù)方法更為適用。
7、隨機(jī)生存森林(random?survival?forest,rsf)是隨機(jī)森林(random?forests,rf)處理生存數(shù)據(jù)的擴(kuò)展方法,作為一種處理右刪失數(shù)據(jù)的集成機(jī)器學(xué)習(xí)算法,具有非參數(shù)法的特性。rsf是二元決策樹(binary?decision?tree)的衍生物-二元生存樹的集合,它通過訓(xùn)練大量生存樹,每棵生存樹根據(jù)最大化生存差異的準(zhǔn)則進(jìn)行節(jié)點分裂輸出一個預(yù)測結(jié)果,之后通過投票表決的方式,對個體樹的預(yù)測結(jié)果進(jìn)行綜合加權(quán)選舉出最終結(jié)果,一般流程為:(1)通過“自助法”(bootstrap)從給定的數(shù)據(jù)集中以有放回的方式隨機(jī)抽取樣樣本子集,用于構(gòu)建生存樹,因為每個樣本中約有37%的數(shù)據(jù)未被抽取到,這些被稱為袋外(outof?bag,oob)數(shù)據(jù)。(2)對每個訓(xùn)練樣本集隨機(jī)選擇特征構(gòu)建其對應(yīng)的二元生存樹,使用候選特征對每顆生存樹根節(jié)點(root?node)進(jìn)行分割,使子集之間的生存差異最大化。(3)應(yīng)用nelson-aalen法估算隨機(jī)生存森林的總累積風(fēng)險。(4)一般應(yīng)用harrell的一致性指數(shù)(concordance?index)的數(shù)值來評價rsf構(gòu)建的模型準(zhǔn)確度,一致性指數(shù)數(shù)值越高,模型的準(zhǔn)確度越高,c-index=1-error?rate。隨機(jī)生存森林應(yīng)用vimp法或最小深度法可以對變量的重要性進(jìn)行排名,尋找出對結(jié)局事件的重要變量。相對于傳統(tǒng)生存統(tǒng)計學(xué)分析方法如cox比例風(fēng)險回歸(cox?proportional?hazards?regression,cph)模型,隨機(jī)生存森林能夠不受實際生存數(shù)據(jù)難以滿足為cph模型設(shè)置的等比例風(fēng)險假設(shè)和要求協(xié)變量之間相互獨立的條件時,可以成為cph模型的替代模型,rsf對于數(shù)據(jù)類型無任何要求,結(jié)構(gòu)設(shè)計靈活,因為對于數(shù)據(jù)集進(jìn)行bootstrap采樣,生成的過程中就進(jìn)行了內(nèi)部評估,獲得了誤差的一個無偏估計,所以無需應(yīng)用其他獨立測試機(jī)驗證。
8、cgβ8是編碼人絨毛膜促性腺激素(hcg)β亞單位的等位基因之一,β-hcg多與妊娠密切相關(guān)。與之前研究發(fā)現(xiàn)相似,cgβ8是胃癌患者的預(yù)后因子。zhao?r等研究發(fā)現(xiàn),對于cgβ8編碼的hcg及其受體在胃癌組織的表達(dá)明顯高于癌旁組織,可能通過激活依賴于pka信號通路的c-met的表達(dá)來促進(jìn)腫瘤細(xì)胞的增殖。人尿溶蛋白1b(uroplakin1b,upk1b)是尿路上皮細(xì)胞的一種結(jié)構(gòu)蛋白,在可促進(jìn)腫瘤細(xì)胞的增殖、侵襲和轉(zhuǎn)移,在多種具有組織特異性的腫瘤中存在差異表達(dá),如尿路上皮癌、腎癌等惡性腫瘤。人類嗅覺受體(or)基因家族是感覺神經(jīng)元中的g蛋白偶聯(lián)受體的重要成員,不僅在嗅覺上皮細(xì)胞發(fā)揮重要作用,在腫瘤細(xì)胞的侵襲中也發(fā)揮關(guān)鍵作用,or基因家族在腫瘤中明顯過表達(dá),被認(rèn)為是腫瘤生物標(biāo)志物,但or家族在胃癌中的功能及其潛在的分子機(jī)制仍然在很大程度上是未知的。
技術(shù)實現(xiàn)思路
1、發(fā)明目的:本發(fā)明的目的是提供一種胃癌預(yù)后模型的構(gòu)建方法,解決如何篩選并利用脂肪酸代謝相關(guān)基因構(gòu)建胃癌預(yù)后模型的問題,本發(fā)明的另一目的是提供一種用于胃癌預(yù)后的檢測試劑盒,解決如何利用全新靶基因進(jìn)行胃癌預(yù)后的問題。
2、技術(shù)方案:本發(fā)明所述的一種胃癌預(yù)后模型的構(gòu)建方法,包括如下步驟:
3、應(yīng)用胃癌轉(zhuǎn)錄組和臨床數(shù)據(jù)篩選胃癌組織樣本和癌旁組織樣本之間的差異表達(dá)基因;
4、收集脂肪酸代謝基因,將差異表達(dá)基因與脂肪酸代謝基因取交集,得到差異表達(dá)的脂肪酸代謝相關(guān)基因;
5、利用非負(fù)矩陣方法分解具有差異表達(dá)的脂肪酸代謝相關(guān)基因的胃腺癌患者隊列,識別為不同預(yù)后的患者亞型;
6、富集分析不同預(yù)后的患者亞型的差異功能、差異通路、腫瘤微環(huán)境;
7、以不同預(yù)后的患者亞型之間的差異表達(dá)的脂肪酸代謝相關(guān)基因作為候選基因,建立sum模型,基于胃癌患者數(shù)據(jù)集篩選核心基因構(gòu)建胃癌預(yù)后模型。
8、本發(fā)明基于機(jī)器學(xué)習(xí)算法,探索胃癌中差異表達(dá)的fmgs與胃腺癌患者的預(yù)后關(guān)系,建立fmgs分型的胃癌預(yù)后模型。首先通過nmf這一聚類分析算法,成功確定了tcga-stad隊列中的兩個分子亞型:c1亞型與c2亞型,使用k-m法(log-rank檢驗)觀察亞型之間是否存在生存差異,結(jié)果顯示c1亞型患者的5年dss和pfi以及整體os較c2亞型患者具有更明顯的生存優(yōu)勢(p<0.05)。
9、差異功能、差異通路及腫瘤微環(huán)境都是為了說明分型,把兩種預(yù)后的患者分類出來。
10、本發(fā)明構(gòu)建的預(yù)后模型關(guān)鍵基因之一or51g2為首次發(fā)現(xiàn)于與胃腺癌患者預(yù)后相關(guān)。優(yōu)選地,所述應(yīng)用胃癌轉(zhuǎn)錄組和臨床數(shù)據(jù)篩選胃癌組織樣本和癌旁組織樣本之間的差異表達(dá)基因為:應(yīng)用tcga數(shù)據(jù)庫下載的胃癌轉(zhuǎn)錄組和臨床數(shù)據(jù),基于r語言的limma軟件包,以截斷標(biāo)準(zhǔn)是差異倍數(shù)fc,|log2fc|>1且調(diào)整p值<0.05篩選胃癌組織樣本和癌旁組織樣本之間的差異表達(dá)基因。
11、優(yōu)選地,所述利用非負(fù)矩陣方法分解具有差異表達(dá)的脂肪酸代謝相關(guān)基因的胃腺癌患者隊列,識別為不同預(yù)后的患者亞型為:設(shè)定秩次rank從2~10對具有差異表達(dá)的脂肪酸代謝相關(guān)基因的胃腺癌患者隊列進(jìn)行非矩陣分解,根據(jù)穩(wěn)定性確定最優(yōu)的秩次rank,根據(jù)最優(yōu)的秩次rank產(chǎn)生不同預(yù)后的患者亞型。
12、優(yōu)選地,所述基于胃癌患者數(shù)據(jù)集篩選核心基因構(gòu)建胃癌預(yù)后模型包括:
13、隨機(jī)將胃癌患者隨機(jī)分為訓(xùn)練集和測試集,在訓(xùn)練集中對候選基因采用單因素cox回歸分析,以p<0.05為過濾條件,篩選出與總體預(yù)后有關(guān)的基因,之后用多變量cox回歸分析篩選出核心基因構(gòu)建胃癌預(yù)后模型;
14、對測試集在胃癌預(yù)后模型中重復(fù)抽樣并擬合模型,用隨機(jī)生存森林進(jìn)一步評估核心基因?qū)颊呱鏍顟B(tài)的重要程度,采用cox回歸系數(shù)和基因的變量進(jìn)行模型構(gòu)建,并為患者進(jìn)行風(fēng)險評分,將胃癌患者按照風(fēng)險評分的中位值劃分為高風(fēng)險患者和低風(fēng)險患者。
15、優(yōu)選地,所述核心基因為cgβ8蛋白基因、upk1b蛋白基因和or51g2蛋白基因。
16、本發(fā)明基于上述預(yù)后模型中的核心基因進(jìn)一步提供一種用于胃癌預(yù)后的檢測試劑盒,包括檢測預(yù)后靶基因表達(dá)水平的引物對,所述預(yù)后靶基因包括or51g2蛋白基因、cgβ8蛋白基因和/或upk1b蛋白基因。
17、優(yōu)選地,所述預(yù)后靶基因表達(dá)水平的檢測方法為熒光定量pcr。熒光定量pcr的相關(guān)試劑包括dntp,聚合酶等?,F(xiàn)有的商品化試劑superreal?premix包含有熒光定量pcr所需的必要組分。所述熒光定量pcr的反應(yīng)體系為:
18、
19、優(yōu)選地,所述or51g2蛋白基因的表達(dá)水平檢測引物對為:
20、上游引物:5'-tggagcacgagaaattagcca-3';
21、下游引物:5'-gccacaataggggaatcttttga-3'。
22、所述cgβ8蛋白基因的表達(dá)水平檢測引物對為:
23、上游引物:5'-ctggctgtggagaaggag-3';
24、下游引物:5'-acatcgcggtagttgcac-3';
25、所述upk1b蛋白基因的表達(dá)水平檢測引物對為:
26、上游引物:5'-ccaaagacaactcaactgttcgt-3';
27、下游引物:5'-aatgccgcaacaaccaataatc-3';
28、優(yōu)選地,所述熒光定量pcr的內(nèi)參基因為gapdh,上述試劑盒中還包括gapdh表達(dá)水平檢測引物對,序列為:
29、上游引物:5'-acaactttggtatcgtggaagg-3';
30、下游引物:5'-gccatcacgccacagtttc-3'。
31、gapdh也可以根據(jù)檢測需要替換為β-actin、18s?rrna等其他內(nèi)參基因。
32、優(yōu)選地,上述試劑盒中還包括反轉(zhuǎn)錄pcr試劑和rna提取試劑,所述反轉(zhuǎn)錄pcr的反應(yīng)體系為:
33、
34、有益效果:與現(xiàn)有技術(shù)相比,本發(fā)明具有如下顯著優(yōu)點:
35、本發(fā)明基于fmgs亞型,通過rsf聯(lián)合多因素cox回歸模型,篩選與stad患者預(yù)后相關(guān)的獨立風(fēng)險基因,構(gòu)建了由cgβ8、upk1b和or51g2組成的預(yù)后風(fēng)險模型,該模型的準(zhǔn)率約64%,并根據(jù)風(fēng)險評分的中位值將患者劃分為高風(fēng)險組和低風(fēng)險組,k-m生存分析顯示高低風(fēng)險組dss、os及pfi均有顯著差異(p<0.001)低風(fēng)險組具有更明顯的生存優(yōu)勢。本發(fā)明發(fā)現(xiàn)的三個fmgs(cgβ8、upk1b、or51g2)與胃癌患者預(yù)后密切相關(guān),均為胃癌的不良預(yù)后因素。
36、本發(fā)明首次發(fā)現(xiàn)or51g2蛋白基因的表達(dá)水平與胃腺癌患者不良預(yù)后相關(guān),rt-pcr實驗發(fā)現(xiàn)在胃癌組織和癌旁組織存在顯著表達(dá)差異。cgβ8和upk1b在多個研究中被證實在胃癌的惡性生物學(xué)行為中發(fā)揮重要作用,與胃癌患者不良預(yù)后相關(guān)。本發(fā)明采用針對or51g2、cgβ8和upk1b三種預(yù)后靶點設(shè)計的引物對,通過rt-pcr即可快速準(zhǔn)確地對胃癌預(yù)后,具有很好的診斷應(yīng)用前景。