本發(fā)明屬于生物技術領域,涉及一種非小細胞肺癌相關癌基因篩選與功能分析方法,具體地說,涉及一種基于大數據的非小細胞肺癌相關癌基因篩選與功能分析方法。
背景技術:
肺癌是中國,以及全球發(fā)病率及死亡率第一的惡性腫瘤。在過去的40年間,肺癌的5年生存率僅從12%上升至16%,最主要原因是診斷時已屬晚期,相反,早期診斷的肺癌進行手術后生存率可提高到80%。可見,早發(fā)現、早期診斷對肺癌的治療及預后具有重要的臨床意義。當前廣泛運用的檢測手段包括無創(chuàng)檢查(如X線、CT、鉬靶攝片等)和有創(chuàng)檢查(纖維支氣管鏡、支氣管造影、B超或CT定位下穿刺活檢等),但缺乏依從性和普及運用的可能。找尋新的肺癌分子標志物,尤其是血清分子標志物,讓肺癌患者能夠及時有效的早查、早診、早治,是提高肺癌患者生存率、降低死亡率的關鍵科學問題。
盡管目前有一些腫瘤標志物,如CA125(癌抗原125)、CA19-9(癌抗原19-9)、CEA(癌胚抗原)等可用于肺癌的檢測,但敏感性和特異性均不高,所以目前為止,尚沒有理想的可供臨床使用的肺癌早期篩查和診斷標志物。不斷地發(fā)現和鑒定新的肺癌相關癌基因/蛋白仍是一項重要的工作?;虻漠惓1磉_研究是進行肺癌早期診斷的一個重要環(huán)節(jié)。近年來,隨著微陣列芯片技術尤其是基因芯片技術的廣泛使用,產生了海量的數據,為基因研究提供了高通量的數據資料?;蛐酒夹g在肺癌發(fā)生機制研究中得到了廣泛的應用,并為肺癌的早期診斷提供了有效的技術支持。然而另一方面,基因芯片獲得的大量數據信息并未能得到充分利用,其中蘊含了大量未知的生物信息,并阻礙了疾病發(fā)生分子機制的研究進程。目前,基因芯片數據挖掘問題已引起國內外研究者的廣泛關注,如何對這些數據進行有效挖掘已成為生物信息學研究中亟待解決的問題。
基因表達數據庫(Gene Expression Omnibus,GEO)是當今最大、最全面的公共基因表達數據資源,包括高通量實驗數據的廣泛分類,有單通道和雙通道以微陣列為基礎的對mRNA豐度的測定;基因組DNA和蛋白質分子的實驗數據。迄今為止,GEO數據庫包含的數據含概10 000個雜交實驗和來自30種不同生物體。數據庫操作簡單,數據全面,免費共享,并為后期數據挖掘和信息推廣提供了良好的平臺。GEO數據庫在分子生物學領域中有著廣泛的應用前景,為腫瘤相關基因的挖掘與篩選提供了最佳平臺。
非小細胞肺癌(non-small cell lung cancer,LSCLC)是肺癌的主要病理類型,本發(fā)明通過對GEO數據庫中NSCLC的數據進行收集,利用生物信息學的方法對收集到的在NSCLC表達異常(上調或下調)的mRNA高通量轉錄組數據進行整合分析,從而對NSCLC的發(fā)病機理進行探究,并為其診斷與治療提供一定的研究基礎。
技術實現要素:
本發(fā)明的目的在于提供一種非小細胞肺癌相關癌基因篩選與功能分析方法,通過對現有數據庫中所有涉及非小細胞肺癌的數據進行收集,利用生物信息學方法對收集到非小細胞肺癌的mRNA轉錄組數據進行差異表達分析,基于大樣本大數據處理得到適用于臨床應用的非小細胞肺癌診斷標志物,包括研究系列的篩選,利用GEO2R在線工具下載mRNA表達差異基因,尋找在不同研究系列中共同表達差異的基因,以及對共同表達差異基因進行生物信息學分析,為NSCLC的腫瘤標志物篩選、分子發(fā)病機制等提供有意義的探索和依據。
其具體技術方案為:
一種非小細胞肺癌相關癌基因篩選與功能分析方法,包括以下步驟:
1)利用GEO數據庫篩選符合條件的研究系列:從GEO數據庫http://www.ncbi.nlm.nih.gov/geo/中尋找NSCLC相關的mRNA表達芯片結果,經篩選,兩個研究系列納入研究:GSE44077和GSE43458。兩個研究均為GPL6244平臺,共納入NSCLC標本135例和正常對照標本96例;
2)利用GEO2R數據庫獲得mRNA表達結果:從GEO2R數據庫https://www.ncbi.nlm.nih.gov/geo/geo2r/下載GSE44077和GSE43458兩個研究系列中mRNA在NSCLC癌組織和正常肺組織差異表達的數據結果;
3)利用Venn圖尋找兩個研究中結果相同的mRNA基因表達結果:選擇兩個研究系列中mRNA表達上調或下調超過4倍的基因,其中GSE44077中表達上調4倍以上的有81個基因,下調4倍以上的有24個基因;GSE43458中表達上調4倍以上的有74個基因,下調4倍以上的有13個基因,利用在線Venn圖制作工具http://bioinformatics.psb.ugent.be/webtools/Venn/,生成Venn圖,兩個研究中共同表達上調的有55個基因,共同表達下調的有11個基因;
4)利用生物信息學技術進行基因富集功能分析:利用DAVIDhttps://david.ncifcrf.gov/tools.jsp在線軟件對差異表達基因進行生物信息學分析,為NSCLC標志物篩選及分子機制研究提供依據。
操作步驟如下:
提交基因列表并設置參數:進入DAVID網站分析界面(https://david.ncifcrf.gov/tools.jsp),在“upload”下的“step1:Enter Gene List”下面的方框內,將需要分析的66個基因名稱粘貼進去,在“step 2:Select Identifier”下選擇”O(jiān)fficial_Gene_Symbol”,“Step 3:List Type”選擇“Gene List”,然后點擊“Step 4:submit list”。
在“Background”下“Population Manager--Select a background”中選擇“Homo sapiens”,點擊“use”。
在“List”下“Gene List Manager--Select to limit annotations by one or more species”中選擇“Home sapiens”,點擊“Select Species”。即出現結果概要,結果顯示64個基因進入功能富集分析模塊。功能注釋結果(Annotation Summary Results)中包括本研究所需要的Gene_Ontology(GO)和Pathway分析結果。
進一步,步驟4中基因本體論GO包括了三級結構的標準語言,主要包括分子功能(molecular function,MF)、生物學途徑(biological process,BP)和細胞學組件(cell component,CC)。在GO模塊下,選擇默認參數設置:“count:2”,“EASE:0.1”,統(tǒng)計學顯著性檢驗p值<0.05有意義,結果顯示,差異表達的基因主要涉及受體內吞(receptor internalization),血管生成(angiogenesis),蛋白水解過程(proteolysis),失巢凋亡的負調節(jié)(negative regulation of anoikis),血管收縮(vasoconstriction),細胞表面受體信號通路(cell surface receptor signaling pathway),缺氧反應(response to hypoxia),膠原分解代謝過程(collagen catabolic process)等,分子功能表明,差異表達的基因主要涉及受體活性(receptor activity),絲氨酸型內肽酶活性(serine-type endopeptidase activity)和內肽酶活性(endopeptidase activity)等。
KEGG(Kyoto Encyclopedia of Genes and Genomes)是系統(tǒng)分析基因功能、基因組信息數據庫,它有助于研究者把基因及表達信息作為一個整體網絡進行研究。通過DAVID對KEGG分析發(fā)現,這些差異表達基因主要參與PPAR信號通路(PPAR signaling pathway),ECM-受體相互作用(ECM-receptor interaction),蛋白質消化和吸收通路(Protein digestion and absorption)。
與現有技術相比,本發(fā)明的有益效果為:
本發(fā)明利用GEO數據庫中NSCLC癌組織和正常肺組織的芯片數據進行分析,挖掘并篩選NSCLC相關癌基因,并進行生物信息學分析。希望能從對NSCLC的生物學性質,以及NSCLC發(fā)生、發(fā)展過程中基本的分子機制的研究得到深刻認識,為NSCLC的診斷提供檢測標志物及新的治療點,也為疾病的預防和治療等提供可靠的科學依據。
附圖說明
圖1是利用GEO數據庫篩選非小細胞肺癌相關癌基因及生物信息學分析流程圖;
圖2是GSE44077研究數據集的詳細信息;
圖3是GSE43458研究數據集的詳細信息;
圖4是GSE44077在GEO2R在線工具中的分析示意圖;
圖5是GSE43458在GEO2R在線工具中的分析示意圖;
圖6是利用Venn圖篩選兩個系列集中mRNA共同上調或下調4倍以上的基因示意圖;
圖7是DAVID在線數據庫分析界面示意圖;
圖8是DAVID在線數據庫功能富集分析結果示意圖。
具體實施方式
下面結合具體實施例對本發(fā)明的技術方案作進一步詳細地說明。
一種利用GEO數據庫篩選非小細胞肺癌(NSCLC)相關癌基因并進行生物信息學分析的方法(圖1),包括以下步驟:
1.利用大數據庫篩選NSCLC相關癌基因:
1)利用GEO數據庫篩選符合條件的研究系列:從GEO數據庫(http://www.ncbi.nlm.nih.gov/geo/)中尋找非小細胞肺癌相關的mRNA表達芯片結果,搜索條件限定為:(1)非小細胞肺癌(NSCLC);(2)必須有正常對照(normal);(3)芯片系列為mRNA表達檢測;(4)標本來源為組織(tissue);(5)樣本含量大于100例。經篩選,兩個研究系列納入研究:GSE44077和GSE43458。圖2和圖3為兩個研究在GEO數據庫的詳細信息。兩個研究均為GPL6244平臺,共納入NSCLC標本135例和正常對照標本96例,具體信息見表1。
表1.兩個高通量mRNA研究系列的基本情況
2)利用GEO2R在線工具獲得mRNA表達結果:GEO2R(https://www.ncbi.nlm.nih.gov/geo/geo2r/)是一種在線分析GEO內數據的系統(tǒng)。這個工具系統(tǒng)采用R語言來運行,包括GEOquery和limma這兩個R包,前者用于數據的讀取,后者用于計算。進入GEO2R網站后,分別調出GSE44077和GSE43458兩個研究系列的研究對象,選擇肺腺癌和肺鱗癌為NSCLC組,正常肺組織為對照組(normal)(圖4和圖5),分別下載兩個研究系列中mRNA在肺癌組織和正常組織差異表達的數據結果,包括基因名稱,表達差異倍數(fold change,FC)的log2值(log2(FC)),p值,調整后的p值等。結果顯示,GSE44077研究中表達mRNA上調(FC>2)的基因有645個,表達下調2倍以上的基因408個,GSE43458研究中表達上調2倍以上的基因648個,表達下調2倍以上的基因247個。
3)利用Venn圖尋找兩個研究中結果相同mRNA基因表達結果:為了更加有效的探討NSCLC相關癌基因,本發(fā)明選擇兩個研究系列中mRNA表達上調或下調超過4倍的基因(即log2(FC)大于2或小于-2)的基因進行進一步的分析。其中GSE44077中表達上調4倍以上的有81個基因,下調4倍以上的有24個基因;GSE43458中表達上調4倍以上的有74個基因,下調4倍以上的有13個基因。將這些基因分別錄入在線Venn圖制作工具(http://bioinformatics.psb.ugent.be/webtools/Venn/)中,提交后生成Venn圖,并顯示兩個研究系列結果相同與不同的基因名稱(見圖6)。結果顯示,兩個研究中共同表達上調的有55個基因(表2),共同表達下調的有11個基因(表3)。
表2.兩個研究系列中mRNA顯著上調(4倍以上)的55個基因
表3.兩個研究中mRNA顯著下調(4倍以上)的11個基因
2.利用生物信息學技術進行基因富集功能分析
應用生物信息學方法分析生物數據,提出與疾病發(fā)生、發(fā)展相關的基因或基因集,再進行實驗驗證,是一條高效的研究途徑。本發(fā)明以GEO數據庫中關于NSCLC的基因表達譜為分析材料,利用GEO2R和Venn圖在線分析工具篩選出差異表達基因,再利用DAVID在線分析網絡平臺對差異表達基因進行生物信息學分析,為NSCLC標志物篩選及分子機制研究提供依據。
DAVID生物信息數據庫(the Database for Annotation,Visualization and Integrated Discovery),是一個基于web的一種基因功能富集分析軟件,整合了生物學數據以功能注釋和信息鏈接為特點覆蓋廣泛的分析工具,使用者只需要提供一份基因列表,便可以應用提供的分析內容和分析工具,實現各項功能注釋分析和整合,從統(tǒng)計學層面關聯到最顯著富集的生物學注釋。分析的結果可以與其他的數據庫鏈接。使用在線分析軟件對選出的差異表達基因的KEGG通路、本體論的細胞成分、分子功能、生物過程進行分類、定義和注釋。
操作步驟如下:
1)提交基因列表并設置參數:進入DAVID網站分析界面(https://david.ncifcrf.gov/tools.jsp),在“upload”下的“step1:Enter Gene List”下面的方框內,將需要分析的66個基因名稱粘貼進去,在“step 2:Select Identifier”下選擇”O(jiān)fficial_Gene_Symbol”,“Step 3:List Type”選擇“Gene List”,然后點擊“Step 4:submit list”(圖7)。
2)在“Background”下“Population Manager--Select a background”中選擇“Homo sapiens”,點擊“use”。
3)在“List”下“Gene List Manager--Select to limit annotations by one or more species”中選擇“Home sapiens”,點擊“Select Species”。即出現結果概要,結果顯示64個基因進入功能富集分析模塊(圖8)。功能注釋結果(Annotation Summary Results)中包括本研究所需要的Gene_Ontology和Pathway分析結果。
4)GO功能注釋:基因本體論(Gene Ontology,簡稱GO)數據庫是由基因本體論聯合會所建立,該數據庫可以對基因和蛋白功能進行描述和限定,GO包括了三級結構的標準語言,主要包括如下:
分子功能(molecular function,MF):它包括基因產物的功能,如與碳水化合物結合或ATP水解酶活性等;生物學途徑(biological process,BP):它是分子功能的組合,可獲得更廣的生物功能,如嘿嶺代謝或分子代謝。細胞學組件(cell component,CC):包括了亞細胞結構、位置和大分子復合物,如高爾基體、端粒和識別起始的復合物等。
本發(fā)明中獲得的是一組基因,對它們進行直接的功能注釋,得到的功能節(jié)點數量龐大,且互相交疊,該將導致分析結果冗余。因此,我們選擇對數據進行功能富集分析。該方法可有效增加研究的可靠性,并對生物現象中相關的生物學過程作出有效識別,更有利于獲得有意義的功能信息。本發(fā)明選擇應用DAVID在線軟件對66個在NSCLC和正常組織的上調或下調的差異表達基因進行了GO功能富集分析。結果顯示59個基因參與了生物過程(BP),61個基因參與了細胞組成(CC),55個基因參與了分子功能(MF)。選擇默認參數設置:“count:2”,“EASE:0.1”,統(tǒng)計學顯著性檢驗p值<0.05有意義,結果顯示,差異表達的基因主要涉及受體內吞(receptor internalization),血管生成(angiogenesis),蛋白水解過程(proteolysis),失巢凋亡的負調節(jié)(negative regulation of anoikis),血管收縮(vasoconstriction),細胞表面受體信號通路(cell surface receptor signaling pathway),缺氧反應(response to hypoxia),膠原分解代謝過程(collagen catabolic process)等。分子功能表明,差異表達的基因主要涉及受體活性(receptor activity),絲氨酸型內肽酶活性(serine-type endopeptidase activity)和內肽酶活性(endopeptidase activity)等(表4)。
5)KEGG通路分析:KEGG(Kyoto Encyclopedia of Genes and Genomes)是系統(tǒng)分析基因功能、基因組信息數據庫,它有助于研究者把基因及表達信息作為一個整體網絡進行研究?;蚪M信息存儲在GENES數據庫里,包括完整和部分測序的基因組序列;更高級的功能信息存儲在PATHWAY數據庫里,包括圖解的細胞生化過程如代謝、膜轉運、信號傳遞、細胞周期,還包括同系保守的子通路等信息;KEGG的另一個數據庫是LIGAND,包含關于化學物質、酶分子、酶反應等信息。通過DAVID對64個基因進行KEGG分析發(fā)現,30個基因參與了各種通路功能,選擇默認參數設置:“count:2”,“EASE:0.1”,統(tǒng)計學顯著性檢驗p值<0.05有意義,結果顯示,這些差異表達基因主要參與PPAR信號通路(PPAR signaling pathway),ECM-受體相互作用(ECM-receptor interaction),蛋白質消化和吸收通路(Protein digestion and absorption)(表5)。
表4.表達差異基因顯著富集的GO功能
表5.差異表達基因顯著富集的KEGG信號通路
以上所述,僅為本發(fā)明較佳的具體實施方式,本發(fā)明的保護范圍不限于此,任何熟悉本技術領域的技術人員在本發(fā)明披露的技術范圍內,可顯而易見地得到的技術方案的簡單變化或等效替換均落入本發(fā)明的保護范圍內。