本發(fā)明屬于多基因疾病的遺傳風險評估領域,涉及一種ⅱ型糖尿病風險評估模型的構建方法和構建系統(tǒng),具體涉及一種基于貝葉斯算法和流行病學患病率構建而成的多基因疾病的風險評估模型的方法和系統(tǒng)。
背景技術:
:在我國糖尿病的患病人群中,ⅱ型糖尿病占90.0%以上,1型糖尿病約占5.0%,城市妊娠糖尿病的患病率接近5.0%,其他類型糖尿病僅占約0.7%。表1顯示了ⅱ型糖尿病特點、癥狀和并發(fā)癥:表1ⅱ型糖尿病特點、癥狀和并發(fā)癥ⅱ型糖尿病的主要癥狀有高血糖、不同程度的胰島素抵抗和胰島素分泌功能受損。ⅱ型糖尿病會給患者帶來各種生活不便,例如口渴,無力,視力下降等。血液中過高的血糖濃度對血管和器官會造成傷害,引起各種并發(fā)癥,對患者造成較大痛苦。其發(fā)病原因除了環(huán)境因素、生活方式因素、年齡因素等之外,還有基因因素。近年來,研究發(fā)現了多種基因與ⅱ型糖尿病相關。這些發(fā)現為基于個人基因組測序預測疾病風險提供了一種可能。目前,基于二代測序進行疾病風險預測的大致流程如下:首先,針對特定疾病建立基因和疾病風險的關系;其次,針對該疾病的風險基因信息建立疾病風險評估模型;最后,將個體基因序列信息輸入到疾病風險評估模型中獲得疾病風險。因此,疾病風險預測中的兩個關鍵點是建立基因與疾病的關系和疾病風險評估模型。常見的人類疾病的數據庫有omim、hgmd、gwas等。盡管這些數據庫收集了大量的疾病相關基因,但是這些信息來源多樣,包含著大量的噪音,不能直接用于疾病風險的預測,需要進行嚴格的過濾。常用的過濾手段如下:p值、or值、頻率、樣本量、連鎖不平衡等。所有的這些過濾手段,保證了疾病風險基因指示疾病風險的能力。確定了疾病風險基因之后,需要建立疾病風險預測模型??傮w來說,疾病風險預測模型是在已經選定的疾病風險基因和疾病的狀態(tài)之間建立某種函數關系。目前常用的疾病風險預測模型有2種算法:簡單的grs和加權的grs。(1)簡單的grs:grs=σsi(si為相應snps的個數)。該算法認為每個風險等位基因的作用相等,只根據相關風險等位基因的個數來計算。lvd等在“geneticvariationsinsec16b,mc4r,map2k5andkctd15wereassociatedwithchildhoodobesityandinteractedwithdietarybehaviorsinchineseschool-agepopulation”文章中計算肥胖癥的grs時規(guī)定高風險等位基因的純合子(有兩個高風險等位基因)記為2分,雜合子記為1分,低風險等位基因的純合子記為0分。(2)加權grs:grs=∑βisi(i為第i個snps的權重,si為第i個snps)。該算法認為每個風險等位基因對疾病的影響不同,通過給每個風險等位基因賦予一個相應的權重來顯示不同snps對疾病的影響程度不同。這個權重通常為該snps的優(yōu)勢比的自然對數,常通過gwas研究中的優(yōu)勢比取對數或相關回歸模型中回歸系數β得到。相對而言,加權grs廣泛被運用。abdullah等在文章“characterizingthegeneticriskfortype2diabetesinamalaysianmultiethniccohort”計算ⅱ型糖尿病的grs時將每個snps風險等位基因的個數和它的估測效應(系數)相乘然后求和。這2個模型在計算個體患病風險時都有一個重大缺陷,那就是沒法計算基于遺傳的人均患病風險,遺傳的人均患病風險直接決定了風險等級劃分,決定了高風險人群能否做到有效區(qū)分,這正是遺傳風險評估模型的最大作用及其價值所在。技術實現要素:本發(fā)明的目的在于克服現有技術存在的不足,提供了一種新的ⅱ型糖尿病風險評估模型的構建方法,最大程度地解決了常見風險評估模型中所存在的上述問題,使ⅱ型糖尿病的患病風險更接近于真實情況,結果更加科學、合理。本發(fā)明是通過以下技術方案實現的:一種ⅱ型糖尿病風險評估模型的構建方法,其包括如下步驟:(1)獲?、⑿吞悄虿£P聯性snp位點;(2)計算ⅱ型糖尿病關聯性snp位點在東亞人群中的風險度(or值),并獲取or值≥1.08的snp位點;(3)計算所有的or值≥1.08的snp位點的風險等位基因在沒有獲得ⅱ型糖尿病的東亞人群(即正常人群)的頻率值,并獲取頻率值≥0.01的snp位點作為過濾后的snp位點;(4)計算所有過濾后的snp在中國個體(即中國人群中的某個個體)中的風險等位基因數量;(5)計算中國人群的ⅱ型糖尿病的流行病學患病率;(6)根據貝葉斯算法和哈迪-溫伯格平衡原理,構建該中國個體的風險評估模型。其中,在步驟(1)中,的獲取ⅱ型糖尿病關聯性snp位點包括如下步驟:步驟1-1:從t2d-genesconsortium數據庫、got2dconsortium數據庫、diagramconsortium數據庫中獲取與ⅱ型糖尿病相關聯的snp位點(即t2dconsortium位點),研究人群為東亞人群(即中國、日本、韓國、新加坡華裔);從gwas(genome-wideassociationstudy,全基因組關聯分析)研究的文獻中獲取與ⅱ型糖尿病相關的snp位點(即gwas位點),其中顯著性水平取0.000001,研究人群為東亞人群;從候選基因(candidategene)研究的文獻數據庫獲取與ⅱ型糖尿病相關的snp位點(即候選基因位點),其中顯著性水平取0.05,研究人群為東亞人群。步驟1-2:將t2dconsortium位點、gwas位點和候選基因位點合并一起,去除重復的位點,并進行連鎖分析,保留連鎖不平衡(linkagedisequilibrium)r2值(correlationcoefficient)<0.8的snp位點作為ⅱ型糖尿病關聯性snp位點。在步驟(2)中,snp位點的風險度即or值(oddsratio)的計算方法為:獲取gwas研究的文獻數據庫和候選基因研究的文獻數據庫中的ⅱ型糖尿病關聯性snp位點在東亞人群的or值;或者,合并東亞人群的樣本數據信息,通過病例-對照研究的四格表方法計算ⅱ型糖尿病關聯性snp位點在東亞人群的or值。在步驟(3)中,頻率值的計算方法為:采用gwas研究的文獻數據庫和候選基因研究的文獻數據中的or值≥1.08的snp位點的風險等位基因在沒有獲得ⅱ型糖尿病的東亞人群中的頻率值;或者,合并東亞人群的樣本數據信息,計算or值≥1.08的snp位點的風險等位基因在沒有獲得ⅱ型糖尿病的東亞人群中的頻率值。經過上述步驟所得到的過濾后的snp位點為:rs10229583,rs10811661,rs10886471,rs10906115,rs10993738,rs1111875,rs11257655,rs11787792,rs12010175,rs13266634,rs1327796,rs1359790,rs1436953,rs1436955,rs1470579,rs1535500,rs163182,rs17584499,rs1801282,rs2028299,rs2237892,rs2237895,rs2237897,rs312457,rs3786897,rs391300,rs4430796,rs4712524,rs5219,rs5945326,rs6467136,rs6780569,rs7041847,rs7656416,rs7756992,rs7903146,rs791595。在步驟(4)中,計算所有過濾后的snp在中國個體中的風險等位基因數量為:每個snp是由2個等位基因組成的基因型,根據自由組合,每個snp的基因型組成有3種情況:將含有2個正常等位基因的snp視為該snp的風險等位基因的數量為0;將含有1個正常等位基因的snp視為該snp的風險等位基因的數量為1;將含有0個正常等位基因的snp視為該snp的風險等位基因的數量為2。所述的正常等位基因為不會引起患病(ⅱ型糖尿病)風險增加的等位基因,風險等位基因為能夠引起患病風險增加的等位基因。在步驟(5)中,ⅱ型糖尿病的流行病學患病率的計算方法為:從衛(wèi)計委的數據庫或世界衛(wèi)生組織的數據庫中獲取中國人群中的ⅱ型糖尿病的流行病學患病率;或者,根據gwas研究的文獻和候選基因研究的文獻計算中國人群中的ⅱ型糖尿病的流行病學患病率,其值為10.44%。在步驟(6)中,根據貝葉斯算法和哈迪-溫伯格平衡原理,構建風險評估模型為:中國個體的患病風險計算公式為:其中:p:中國個體的患病概率d:ⅱ型糖尿病k[i]:在所有的過濾后的snp位點中,第i個snp位點的風險等位基因的數量;r:中國人群的ⅱ型糖尿病的流行病學患病率;π:乘積符號;gi:每個過濾后的snp位點的風險等位基因數量為1個時的or值;pi:在所有的過濾后的snp位點中,第i個snp位點的風險等位基因在沒有獲得ⅱ型糖尿病的東亞人群中的頻率值。將ⅱ型糖尿病的患病率r=10.44%,所有snp位點的or值、頻率值代入公式,計算結果見表2:表2ⅱ型糖尿病風險等級和人群比例風險等級人群百分比歸一化or值下限歸一化or值上限患病風險下限患病風險上限低21.10%00.6570.00%6.86%中73.30%0.6571.5986.86%16.68%較高4.40%1.5982.60216.68%27.16%高1.20%2.602inf27.16%inf由表2可知,通過本發(fā)明的模型,可以精準計算四種風險等級的人群分布和患病率大小,為ⅱ型糖尿病的人群篩查和個體化預防提供堅實的科學支撐。一種ⅱ型糖尿病風險評估模型的構建系統(tǒng),其包括:snp位點檢索模塊,從多個基因-疾病關聯數據庫中分別獲取與ⅱ型糖尿病相關的所有的snp位點;分析模塊,整合所有的snp位點并去除重復的snp位點,對剩余的snp位點進行連鎖分析,獲得連鎖不平衡ld值<0.8的snp位點作為ⅱ型糖尿病關聯性snp位點;風險度計算模塊,根據東亞人群的樣本數據庫的風險度相關樣本數據,通過病例-對照研究的四格表方法計算ⅱ型糖尿病關聯性snp位點在東亞人群中的風險度即or值,并獲取or值≥1.08的snp位點;頻率值計算模塊,根據東亞人群的樣本數據庫中的頻率相關樣本數據,計算所有的or值≥1.08的snp位點的風險等位基因在沒有獲得ⅱ型糖尿病的東亞人群中的頻率值,并獲得頻率值≥0.01的snp位點作為過濾后的snp位點;風險等位基因數量計算模塊,計算所有過濾后的snp在中國個體中的風險等位基因數量;患病率獲取模塊,根據中國人群的疾病數據庫中的疾病相關樣本數據計算出中國人群的ⅱ型糖尿病流行病學患病率;模型構建模塊,根據中國個體的患病風險計算公式構建ⅱ型糖尿病風險評估模型;上述的中國個體的患病風險計算公式為:p:中國個體的患病概率;d:ⅱ型糖尿??;k[i]:在所有的過濾后的snp位點中,第i個snp位點的風險等位基因的數量;r:中國人群的ⅱ型糖尿病流行病學患病率;π:乘積符號;gi:每個過濾后的snp位點的風險等位基因數量為1個時的or值;pi:在所有的過濾后的snp位點中,第i個snp位點的風險等位基因在沒有獲得ⅱ型糖尿病的東亞人群中的頻率值。一種ⅱ型糖尿病風險評估模型的構建方法,其包括如下步驟:采用snp位點檢索模塊從多個基因-疾病關聯數據庫中分別獲取與ⅱ型糖尿病相關的所有的snp位點;采用分析模塊整合所有的snp位點并去除重復的snp位點,對剩余的snp位點進行連鎖分析,獲得連鎖不平衡ld值<0.8的snp位點作為ⅱ型糖尿病關聯性snp位點;采用風險度計算模塊根據東亞人群的樣本數據庫的風險度相關樣本數據,通過病例-對照研究的四格表方法計算ⅱ型糖尿病關聯性snp位點在東亞人群中的風險度即or值,并獲取or值≥1.08的snp位點;采用頻率值計算模塊根據東亞人群的樣本數據庫中的頻率相關樣本數據,計算所有的or值≥1.08的snp位點的風險等位基因在沒有獲得ⅱ型糖尿病的東亞人群中的頻率值,并獲得頻率值≥0.01的snp位點作為過濾后的snp位點;采用風險等位基因數量計算模塊計算所有過濾后的snp在中國個體中的風險等位基因數量;采用患病率獲取模塊根據中國人群的疾病數據庫中的疾病相關樣本數據計算出中國人群的ⅱ型糖尿病流行病學患病率;采用模型構建模塊根據中國個體的患病風險計算公式構建ⅱ型糖尿病風險評估模型;中國個體的患病風險計算公式為:p:中國個體的患病概率;d:ⅱ型糖尿??;k[i]:在所有的過濾后的snp位點中,第i個snp位點的風險等位基因的數量;r:中國人群的ⅱ型糖尿病流行病學患病率;π:乘積符號;gi:每個過濾后的snp位點的風險等位基因數量為1個時的or值;pi:在所有的過濾后的snp位點中,第i個snp位點的風險等位基因在沒有獲得ⅱ型糖尿病的東亞人群中的頻率值。本發(fā)明具有以下技術效果:1、本發(fā)明基于貝葉斯算法和ⅱ型糖尿病的流行病學統(tǒng)計原理,精準計算風險區(qū)間和患病風險,具有極大的理論價值和應用價值。2、本發(fā)明的模型可用于中國人群ⅱ型糖尿病的篩查工作,提高高風險人群篩查的準確性,降低ⅱ型糖尿病的發(fā)病率,為國家和社會節(jié)約大筆開支,利國利民。3、本發(fā)明的模型通過計算人群風險等位基因數量的數學期望和or值,結合ⅱ型糖尿病的流行病學患病率,得到群體基于遺傳的平均患病率和置信區(qū)間,可以有效解決現有技術的計算方法所存在的問題。附圖說明圖1是本發(fā)明的一種ⅱ型糖尿病風險評估模型的構建方法的工作流程圖。圖2是中國人群ⅱ型糖尿病的風險等級圖。具體實施方式以下結合實施例對本發(fā)明作進一步的說明。實施例1如圖1和圖2所示,本實施例提供了與ⅱ型糖尿病關聯的基因snp位點的獲取方法,其包括如下步驟:步驟1-1、通過t2d-genesconsortium數據庫、got2dconsortium數據庫、diagramconsortium數據庫獲取與ⅱ型糖尿病相關的snp位點作為t2dconsortium位點,研究人群為東亞人群(中國、日本、韓國、新加坡華裔);從gwas研究的文獻數據庫中獲取與ⅱ型糖尿病相關的snp位點作為gwas位點,其中顯著性水平取0.000001,研究人群為東亞人群(中國、日本、韓國、新加坡華裔);從候選基因研究的文獻數據庫中獲取與ⅱ型糖尿病相關的snp關點作為候選基因位點,其中顯著性水平取0.05,研究人群為東亞人群(中國、日本、韓國、新加坡華裔)。步驟1-2、將t2dconsortium位點、gwas位點和候選基因位點合并一起,去除重復的snp位點,并進行連鎖分析,保留連鎖不平衡(ld)的r2值<0.8的snp位點作為ⅱ型糖尿病關聯性snp位點。實施例2本實施例提供了ⅱ型糖尿病相關的基因snp頻率值和or值過濾的方法。其中,or值的計算方法為:獲取gwas研究的文獻數據庫和候選基因研究的文獻數據庫中的ⅱ型糖尿病關聯性snp位點在東亞人群的or值;或者,合并東亞人群的樣本數據信息,通過病例-對照研究的四格表方法計算ⅱ型糖尿病關聯性snp位點在東亞人群的or值。頻率值的計算方法為:采用gwas研究的文獻數據庫和候選基因研究的文獻數據中的or值≥1.08的snp位點的風險等位基因在沒有獲得ⅱ型糖尿病的東亞人群中的頻率值;或者,合并東亞人群的樣本數據信息,計算or值≥1.08的snp位點的風險等位基因在沒有獲得ⅱ型糖尿病的東亞人群中的頻率值(即過濾掉or值<1.08的snp位點)。實施例3本實施例提供了ⅱ型糖尿病的流行病學患病率的計算方法:通過文獻(diabetescare2015jan;38(1):72-81)計算中國人群的ⅱ型糖尿病患病率,其值為10.44%。實施例4本實施例提供了ⅱ型糖尿病風險評估模型的構建方法,并計算某個中國個體的患病風險。其中,ⅱ型糖尿病風險評估模型的構建方法,其包括下列步驟:(1)獲取ⅱ型糖尿病關聯性snp位點;(2)計算ⅱ型糖尿病關聯性snp位點在東亞人群中的風險度即or值,并獲取or值≥1.08的snp位點;(3)計算所有的or值≥1.08的snp位點的風險等位基因在沒有獲得ⅱ型糖尿病的東亞人群的頻率值,并獲取頻率值≥0.01的snp位點作為過濾后的snp位點;(4)計算所有過濾后的snp在中國個體中的風險等位基因數量;(5)計算中國人群的ⅱ型糖尿病的流行病學患病率;(6)根據貝葉斯算法和哈迪-溫伯格平衡原理,構建風險評估模型。其中,步驟(3)中的過濾后的snp位點為:rs10229583,rs10811661,rs10886471,rs10906115,rs10993738,rs1111875,rs11257655,rs11787792,rs12010175,rs13266634,rs1327796,rs1359790,rs1436953,rs1436955,rs1470579,rs1535500,rs163182,rs17584499,rs1801282,rs2028299,rs2237892,rs2237895,rs2237897,rs312457,rs3786897,rs391300,rs4430796,rs4712524,rs5219,rs5945326,rs6467136,rs6780569,rs7041847,rs7656416,rs7756992,rs7903146,rs791595。在步驟(4)中,計算所有過濾后的snp在中國個體中的風險等位基因數量為:每個snp是由2個等位基因組成的基因型,根據自由組合,每個snp的基因型組成有3種情況:將含有2個正常等位基因的snp視為該snp的風險等位基因的數量為0;將含有1個正常等位基因的snp視為該snp的風險等位基因的數量為1;將含有0個正常等位基因的snp視為該snp的風險等位基因的數量為2。在步驟(6)中,根據貝葉斯算法和哈迪-溫伯格平衡原理的構建風險評估模型:中國個體的患病風險計算公式為:其中:p:中國個體的患病概率;d:ⅱ型糖尿??;k[i]:在所有的過濾后的snp位點中,第i個snp位點的風險等位基因的數量;r:中國人群的ⅱ型糖尿病的流行病學患病率;π:乘積符號;gi:每個過濾后的snp位點的風險等位基因數量為1個時的or值;pi:在所有的過濾后的snp位點中,第i個snp位點的風險等位基因在沒有獲得ⅱ型糖尿病的東亞人群中的頻率值。將某個中國個體的基因信息輸入模型,可以計算得到患病風險和風險等級,結果見圖2。實施例5本實施例提供了一種ⅱ型糖尿病風險評估模型的構建系統(tǒng),其包括:snp位點檢索模塊,從多個基因-疾病關聯數據庫中分別獲取與ⅱ型糖尿病相關的所有的snp位點;分析模塊,整合所有的snp位點并去除重復的snp位點,對剩余的snp位點進行連鎖分析,獲得連鎖不平衡ld值<0.8的snp位點作為ⅱ型糖尿病關聯性snp位點;風險度計算模塊,根據東亞人群的樣本數據庫的風險度相關樣本數據,通過病例-對照研究的四格表方法計算ⅱ型糖尿病關聯性snp位點在東亞人群中的風險度即or值,并獲取or值≥1.08的snp位點;頻率值計算模塊,根據東亞人群的樣本數據庫中的頻率相關樣本數據,計算所有的or值≥1.08的snp位點的風險等位基因在沒有獲得ⅱ型糖尿病的東亞人群中的頻率值,并獲得頻率值≥0.01的snp位點作為過濾后的snp位點;風險等位基因數量計算模塊,計算所有過濾后的snp在中國個體中的風險等位基因數量;患病率獲取模塊,根據中國人群的疾病數據庫中的疾病相關樣本數據計算出中國人群的ⅱ型糖尿病流行病學患病率;模型構建模塊,根據中國個體的患病風險計算公式構建ⅱ型糖尿病風險評估模型;中國個體的患病風險計算公式為:p:中國個體的患病概率;d:ⅱ型糖尿??;k[i]:在所有的過濾后的snp位點中,第i個snp位點的風險等位基因的數量;r:中國人群的ⅱ型糖尿病流行病學患病率;π:乘積符號;gi:每個過濾后的snp位點的風險等位基因數量為1個時的or值;pi:在所有的過濾后的snp位點中,第i個snp位點的風險等位基因在沒有獲得ⅱ型糖尿病的東亞人群中的頻率值。將某個中國個體的基因信息輸入本實施例的構建系統(tǒng)所構建出的ⅱ型糖尿病風險評估模型,可以計算得到該中國個體的患病風險和風險等級。實施例6本實施例提供一種ⅱ型糖尿病風險評估模型的構建方法,其包括如下步驟:采用snp位點檢索模塊從多個基因-疾病關聯數據庫中分別獲取與ⅱ型糖尿病相關的所有的snp位點;采用分析模塊整合所有的snp位點并去除重復的snp位點,對剩余的snp位點進行連鎖分析,獲得連鎖不平衡ld值<0.8的snp位點作為ⅱ型糖尿病關聯性snp位點;采用風險度計算模塊根據東亞人群的樣本數據庫的風險度相關樣本數據,通過病例-對照研究的四格表方法計算ⅱ型糖尿病關聯性snp位點在東亞人群中的風險度即or值,并獲取or值≥1.08的snp位點;采用頻率值計算模塊根據東亞人群的樣本數據庫中的頻率相關樣本數據,計算所有的or值≥1.08的snp位點的風險等位基因在沒有獲得ⅱ型糖尿病的東亞人群中的頻率值,并獲得頻率值≥0.01的snp位點作為過濾后的snp位點;采用風險等位基因數量計算模塊計算所有過濾后的snp在中國個體中的風險等位基因數量;采用患病率獲取模塊根據中國人群的疾病數據庫中的疾病相關樣本數據計算出中國人群的ⅱ型糖尿病流行病學患病率;采用模型構建模塊根據中國個體的患病風險計算公式構建ⅱ型糖尿病風險評估模型;中國個體的患病風險計算公式為:p:中國個體的患病概率;d:ⅱ型糖尿??;k[i]:在所有的過濾后的snp位點中,第i個snp位點的風險等位基因的數量;r:中國人群的ⅱ型糖尿病流行病學患病率;π:乘積符號;gi:每個過濾后的snp位點的風險等位基因數量為1個時的or值;pi:在所有的過濾后的snp位點中,第i個snp位點的風險等位基因在沒有獲得ⅱ型糖尿病的東亞人群中的頻率值。將某個中國個體的基因信息輸入本實施例的構建方法所構建出的ⅱ型糖尿病風險評估模型,可以計算得到該中國個體的患病風險和風險等級。以上詳細描述了本發(fā)明的較佳具體實施例。因此,凡本
技術領域:
中技術人員依本發(fā)明的構思在現有技術的基礎上通過邏輯分析、推理或者有限的實驗可以得到的技術方案,皆應在由權利要求書所確定的保護范圍內。當前第1頁12