本發(fā)明涉及基于醫(yī)療大數(shù)據(jù)的健康管理,尤其涉及慢性病風險評估雙曲線模型的構建及應用該模型的疾病預測系統(tǒng)。
背景技術:
隨著經濟的快速發(fā)展,人們的生活節(jié)奏也明顯加快,并隨之產生了一系列的不健康生活方式,進而導致心腦血管疾病、糖尿病和惡性腫瘤等慢性病的發(fā)病率、患病率和死亡率持續(xù)上升。慢性病是一大類受環(huán)境因素和遺傳因素共同影響的多因素疾病,是由多種危險因素綜合作用產生的結果。慢性病起病隱匿,潛伏期長、病情進展快,很多患者難以及時發(fā)現(xiàn)及治療。另外,由于目前大多數(shù)慢性病的病因及發(fā)病機制仍不是十分清楚,治療效果欠佳,因而預防慢性病的發(fā)生具有實際意義。
開發(fā)準確有效的早期診斷及篩檢檢測技術,建立完善的疾病普查制度和風險評估、預警體系等是防治慢性病的關鍵所在。風險評估主要包括一般健康狀況風險評估和疾病風險評估兩種。一般健康風險評估主要是對危險因素(如吸煙狀況、體力活動、膳食狀況等)及可能發(fā)生疾病的評估,通過評估發(fā)現(xiàn)主要健康問題及可能發(fā)生的主要疾病,進而對風險因素進行分層管理的過程。疾病風險評估則是指對特定慢性病的發(fā)病風險進行評估或預測。目前,健康風險評估的主流是以疾病為基礎的危險性評價。
疾病風險評估模型是慢性病風險評估的主要工具,主要用于識別高危人群,進行危險因素干預,以達到較好的衛(wèi)生經濟學效果。建立疾病預測模型可以指導個體,特別是高危人群的生活行為,進而減小患病的風險,是防治慢性病的重要措施之一。疾病風險模型綜合考慮各種可能的危險因素,通常根據(jù)各種可能危險因素進行風險評分,并以危險總分的高低來判斷高危人群;或者以多因素回歸模型等預測未來一定時間特定的發(fā)病概率,根據(jù)概率切點判斷高危人群。疾病風險評估一般會對識別出的高危人群進行行為、飲食等干預,以預防未來發(fā)病的可能,屬于疾病一級預防的范疇。疾病風險預測模型能夠告知并預測評估對象在未來一段時間內患病的可能性,為其提供自我健康管理建議,也可為經濟學家在醫(yī)療資源的合理配置、預測未來疾病負擔、幫助政府決策者合理開展衛(wèi)生服務項目、制定切合實際情況的衛(wèi)生服務政策等工作中提供依據(jù)。近年來國內外有關疾病發(fā)病風險模型的研究較多,這些模型能夠有效識別高危人群,并通過對高危人群進行飲食和行為干預,對于節(jié)約預防疾病的成本、降低未來疾病發(fā)病的可能性等均具有重大的公共衛(wèi)生學意義,受到廣大研究者的青睞。
國內外常用的慢性病風險評估建模方法分為兩大類:一類是基于大量散在的橫斷面研究結果所進行的合成研究,統(tǒng)計學方法主要有meta分析方法、合成分析(synthesisanalysis)和哈佛癌癥指數(shù)等方法;另一類是直接利用流行病學研究結果,主要是基于社區(qū)大型縱向隊列研究成果,其建模方法主要有l(wèi)ogistic回歸分析、生存分析法(如cox回歸和壽命表分析法)、人工神經網(wǎng)絡、多水平模型、線性混合模型及近年來興起的joint聯(lián)合模型分析方法等。然而目前多種模型風險評估方法各有自身特點,不同評估模型尤其最后評價時各有自身的評價標準,其風險量化等級和評估方法也呈現(xiàn)多樣化,用戶難以選擇;而且疾病風險評估模型也多以風險等級(或危險總分)、發(fā)病概率等來指示風險,缺乏相應參考對象,這對于評估用戶來說,往往風險認知不足或較難準確把握自身風險;此外,疾病風險評估中的基準風險(如患病平均風險)和低風險閾值往往是定值(取所有納入數(shù)據(jù)的均值),使得用戶的風險評估缺乏準確性。
技術實現(xiàn)要素:
針對上述現(xiàn)有技術風險評估模型存在的問題,發(fā)明人前期研究建立了多中心縱向監(jiān)測健康管理隊列數(shù)據(jù)管理系統(tǒng),在此基礎上,本發(fā)明依托山東省20多家健康管理中心的縱向健康管理數(shù)據(jù)構建山東多中心健康管理縱向觀察隊列,探討遺傳、環(huán)境、個人生活方式、健康干預因素等在重大慢性病發(fā)生、發(fā)展和轉歸過程中的作用,建立適用于山東省健康體檢人群的各種慢性病的風險評估模型,并為慢性病的健康干預提供科學依據(jù)。具體的本發(fā)明涉及以下技術方案:
首先,本發(fā)明提供一種慢性病風險評估雙曲線模型的構建方法,具體的步驟為:
(1)、數(shù)據(jù)處理:對(多中心)縱向健康管理數(shù)據(jù)進行標準化處理、人員去重、變量對照、疾病對照、結構化審核步驟,最終得到需要的結構化的數(shù)據(jù);
(2)、建立隊列:根據(jù)疾病定義,規(guī)定好疾病的結局,獲得該疾病的對應隊列;
(3)、建立疾病預測模型:利用疾病的對應隊列(縱向觀察數(shù)據(jù)隊列)構建疾病預測模型
(4)、平均風險線曲線:將步驟(2)隊列中的基線數(shù)據(jù)帶入到已經建立好的疾病預測模型
(5)、低風險線曲線:利用弗明翰評分方法,計算步驟(2)隊列中的基線數(shù)據(jù)各指標最優(yōu)水平xi,將xi結合已經建立好的疾病預測模型
風險評估雙曲線模型的構建流程如圖1所示。
優(yōu)選的,步驟(2)中利用sas軟件建立并獲得該疾病的對應隊列。
具體的,步驟(3)中采用cox比例風險回歸構建疾病預測模型或采用fine和gray提出的部分分布競爭風險模型(competingriskmodel)構建疾病預測模型。
優(yōu)選的,步驟(4)中,計算出疾病的發(fā)病風險p后,對于每個組中的疾病發(fā)病風險(發(fā)病概率p)進行正態(tài)性檢驗,如果滿足,那么取出這組發(fā)病概率p的平均值p_mean作為該年齡人群的平均風險
具體的,步驟(5)中,計算步驟(3)所述疾病預測模型中涉及到的體檢指標的1%和99%分位數(shù);然后計算各指標最優(yōu)水平xi,1)連續(xù)性變量,如果βi>0,那么
優(yōu)選的,本發(fā)明所述慢性病選自代謝綜合征、糖尿病、高血壓、冠心病、慢性腎病、腦卒中、心血管疾病等。
優(yōu)選的實施方案中,疾病預測模型
本發(fā)明通過使用發(fā)病風險p隨年齡變化趨勢這一技術手段,確定了每一年齡組的平均風險閾值和低風險閾值,克服了既有的平均風險閾值和低風險閾值過于寬泛和指示性欠準確的問題。通過該方法建立的慢性病風險評估雙曲線模型,疾病風險評估中的基準風險(如患病平均風險)和低風險閾值均與評估個體的年齡相關,評估個體可以根據(jù)自身指標帶入該模型中,可實現(xiàn)評估個體實際年齡對應下的風險高低的評估,即個體的風險值pi與對應該個體實際年齡的
此外,通過引入風險年齡使得風險通過年齡量化這一比較手段,利用本發(fā)明方法建立的慢性病風險評估雙曲線模型,評估個體的風險值pi帶入模型后,其對應平均風險線曲線的年齡為該個體的風險年齡(風險年齡即為具有該發(fā)病概率的人群平均年齡),通過風險年齡和實際年齡的比較,使得風險通過年齡量化,評估個體可以更為直觀的認知自身的疾病風險,更便于進行后續(xù)的健康管理。
本發(fā)明提供一種計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執(zhí)行時實現(xiàn)如上疾病風險評估雙曲線模型的構建方法。
其次,本發(fā)明提供一種慢性病疾病預測系統(tǒng),該系統(tǒng)是包括計算機的根據(jù)體檢指標預測該慢性病發(fā)病風險的裝置,所述計算機具有以下部分,
數(shù)據(jù)庫,存儲有(多中心)縱向健康管理數(shù)據(jù);
存儲器,存儲有可在處理器上運行的計算機程序;
輸入單元,用于輸入預測個體的疾病名稱和與該疾病對應的體檢指標,
處理器,調用數(shù)據(jù)庫中數(shù)據(jù),運行存儲器中程序,生成慢性病疾病風險評估雙曲線模型,并對輸入的個體的體檢指標進行比對分析獲得疾病預測風險結果;
顯示處理單元,用于輸出預測風險結果并將預測風險結果進行展示,預測風險結果包括個體發(fā)病風險的雙曲線圖、風險等級、風險年齡;
所述處理器生成慢性病疾病風險評估雙曲線模型時,實現(xiàn)以下步驟:
調用數(shù)據(jù)庫中的縱向健康管理數(shù)據(jù),對縱向健康管理數(shù)據(jù)進行標準化處理、人員去重、變量對照、疾病對照、結構化審核步驟,得到需要的結構化的數(shù)據(jù);根據(jù)疾病定義、疾病的結局定義,獲得該疾病的對應隊列(縱向觀察數(shù)據(jù)隊列);
采用可計算發(fā)病概率的建模方法生成疾病預測模型
利用縱向觀察數(shù)據(jù)隊列中的基線數(shù)據(jù)結合疾病預測模型
利用弗明翰評分方法,計算疾病預測模型中各指標最優(yōu)水平xi,將xi結合已經建立好的疾病預測模型
所述處理器對輸入的個體的體檢指標進行比對分析獲得疾病預測風險結果時執(zhí)行以下程序:利用輸入單元輸入的預測個體的疾病名稱和與該疾病對應的體檢指標,結合疾病預測模型
慢性病疾病預測系統(tǒng)如圖2所示。
具體的,平均風險線曲線的獲得為:縱向觀察數(shù)據(jù)隊列中的基線數(shù)據(jù)帶入到已經建立好的疾病預測模型
具體的,低風險線曲線的獲得為:計算獲得疾病預測模型
所述個體風險等級范圍包括高風險、中等風險、低風險。
此外,本發(fā)明所述的慢性病疾病預測系統(tǒng)還包括打印設備,打印設備用于打印個體的風險評估報告,所述風險評估報告包括個體發(fā)病風險的雙曲線圖、風險等級、風險年齡,例如打印如圖3所示預測個體未來5年高血壓的發(fā)病風險評估報告內容。
本發(fā)明取得了以下有益效果:
(1)本發(fā)明首次建立了慢性病風險評估的雙曲線模型,(結合個體數(shù)據(jù))可實現(xiàn)評估個體實際年齡組對應下的風險高低的評估,摒棄了現(xiàn)有技術所有年齡統(tǒng)計集合或部分年齡段集合的平均風險判定方式,利用本發(fā)明評估模型進行風險評估更加準確。
(2)為便于后期更為有效的進行健康管理和健康指導,本發(fā)明采用了患者的風險年齡這一量化手段,利用本發(fā)明方法建立的慢性病風險評估雙曲線模型,評估個體的風險值pi帶入模型后,其對應平均風險線曲線的年齡為該個體的風險年齡(風險年齡即為具有該發(fā)病概率的人群平均年齡),通過風險年齡和實際年齡的比較,評估個體可以更為直觀的認知自身的疾病風險,更便于進行后續(xù)的健康管理。
(3)本發(fā)明建立了更為簡單準確的低風險閾值確定方法,本發(fā)明通過比較弗明翰評分方法,經檢驗使用轉化之后的得分模型計算的發(fā)病風險與使用公式計算的發(fā)病風險非常接近,使用得分模型很容易計算低風險線,即除年齡外各危險因素得分為零。
附圖說明
圖1風險評估雙曲線模型的構建流程
圖2慢性病疾病預測系統(tǒng)
圖3發(fā)病風險評估報告內容示意圖
圖4各年份新納入人數(shù)及發(fā)生代謝綜合征人數(shù)的隊列圖
圖5男性mets模型(a)和女性mets模型(b)的roc曲線
圖6各年齡人群未來5年mets發(fā)生平均風險和低風險:圖6a女性平均風險線與低風險線圖,圖6b男性平均風險線與低風險線圖
圖7各年齡人群未來5年cvd發(fā)生平均風險和低風險
圖8各年齡人群未來發(fā)生心腦血管事件的平均風險和低風險
圖9健康管理人群2型糖尿病3年發(fā)病風險
具體實施方式
實施例1、山東多中心健康管理縱向觀察隊列
本發(fā)明依托山東省20多家健康管理中心的縱向健康管理數(shù)據(jù)構建山東多中心健康管理縱向觀察隊列,探討遺傳、環(huán)境、個人生活方式、健康干預因素等在重大慢性病發(fā)生、發(fā)展和轉歸過程中的作用,建立適用于山東省健康體檢人群的各種慢性病的風險評估模型,并為慢性病的健康干預提供科學依據(jù)。
1.1資料來源:本研究隊列資料來源于山東多中心健康管理縱向觀察隊列,隊列中的個體為2004年1月至2015年12月間在多中心健康管理隊列內的健康體檢中心進行體格檢查的體檢者。從“多中心縱向監(jiān)測健康管理隊列數(shù)據(jù)管理系統(tǒng)”中選擇并導出部分數(shù)據(jù),本次研究隊列總人數(shù)為76368人。人選標準:①具有山東省內常住居民戶口;②能夠回答問卷;③自愿參加該項目并簽署知情同意書。山東大學公共衛(wèi)生學院倫理委員會批準了此項研究。
1.2調查方法和內容:由經過培訓的護理人員完成調查。具體調查包括問卷調查、體格檢查、血液樣本采集和實驗室指標檢測等。(具體指標、指標單位及賦值見表1)
1.2.1問卷調查:包括一般的人口學信息(性別、年齡、婚姻、民族)、既往史、家族史、行為生活方式(吸煙、飲酒、飲食、睡眠、體育運動)。
1.2.2體格檢查:體格檢查項目包括身高、體重、脈搏、收縮壓、舒張壓、心率、心電圖、胸部x射線檢查、腹部b超等。①身高、體重測量時需脫去鞋和較重的衣物,并且根據(jù)身高和體重計算身高體重指數(shù),身高體重指數(shù)=體重/身高2(kg/m2)。②血壓的測量由專門護理人員使用歐姆龍電子血壓計完成,收縮壓和舒張壓的值均取兩次測量的平均值,兩次測量間隔為5-15分鐘。
1.2.3實驗室檢查:體檢者需經12小時以上空腹后采血,在各醫(yī)院體檢中心檢測以下各項指標。血常規(guī)、尿常規(guī)、肝功、腎功、尿腎功、脂代謝、糖代謝、血流變、炎癥指標和肝炎六項等(具體指標見表1)。
1.3質量控制:在山東多中心健康管理隊列下的各體檢中心制定協(xié)助調查的護理人員,并且進行統(tǒng)一培訓。采用相同的調查表完成個體基本信息的收集。
1.4各種疾病定義及標準為本領域相應疾病定義標準。
1.5多中心縱向監(jiān)測健康管理隊列數(shù)據(jù)管理系統(tǒng)構建方法參見張茜“大型縱向監(jiān)測健康管理隊列設計及其統(tǒng)計分析策略研究”,該論文一并引入本申請,通過多中心縱向監(jiān)測健康管理隊列數(shù)據(jù)管理系統(tǒng)可以對多家健康管理中心的縱向健康管理數(shù)據(jù)進行標準化處理、人員去重、變量對照、疾病對照、結構化審核步驟,最終得到需要的結構化的數(shù)據(jù)。
1.6統(tǒng)計學分析:根據(jù)性別分組,對基線的部分變量進行統(tǒng)計描述,近似正態(tài)分布數(shù)值變量以
表1隊列中個體體檢服務包及流行病學調查內容
結果
2.1基線情況山東多中心健康體檢隊列基線共有76368人,男性43818人,占總人數(shù)的57.38%。男性組和女性組均為20-50歲者占總人數(shù)的比例最高,男性20-50歲者占男性總數(shù)的75.33%,女性20-50歲者占女性總數(shù)的74.97%,男性和女性各年齡組的人數(shù)及構成比見表2。男性和女性年齡的中位數(shù)均為38.00歲,男、女各項體檢指標描述結果見表3。
表2基線男性和女性各年齡組人數(shù)及構成
表3山東多中心健康管理隊列調查對象基線特征
2.2.部分慢性病的累計發(fā)病率曲線
高血壓、糖尿病、腦卒中和冠心病在隨訪結束時累計發(fā)病率分別為49.40%、23.98%、4.74%和6.28%,其中,男性的累計發(fā)病率分別為63.60%、29.01%、5.92%和8.53%,女性的累計發(fā)病率分別為34.27%、13.29%、3.20%和4.69%。上述四種疾病累計發(fā)病率曲線均為男性最高、總人群居中、女性最低。
實施例2、基于健康管理人群的代謝綜合征發(fā)病風險預測
1、資料與方法1.1研究資料:資料來源本研究隊列資料來源于山東多中心健康管理縱向觀察大數(shù)據(jù)(山東多中心健康管理縱向觀察隊列)。入選和剔除標準本研究是在山東多中心健康管理縱向觀察大數(shù)據(jù)隊列中,選取未患代謝綜合征,至少有兩次記錄,疾病診斷相關指標無缺失,年齡在20-80歲間者作為研究隊列人群,研究中剔除了隨訪時間小于一個月的患病者。
1.2代謝綜合征診斷標準代謝綜合征的診斷采用2004年中華醫(yī)學會糖尿病學分會(cds)建議的診斷標準。即:①超重和(或)肥胖:bmi≥25.0(kg/m2);②高血糖:fpg≥6.1mmol/l(110mg/dl)及(或)2hpg≥7.8mmol/l(140mg/dl),及(或)已確診為糖尿病并治療者;③高血壓:sbp/dbp≥140/90mmhg及(或)已確認為高血壓并治療者;④空腹血tg≥1.7mmol/l(150mg/dl),及(或)空腹血hdl-c<0.9mmol/(35mg/dl)(男)或<1.0mmol/(39mg/dl)(女)。以上4個組分中有3個或以上達到標準即診斷為代謝綜合征。
1.3統(tǒng)計學處理本研究統(tǒng)計分析采用sas9.4軟件完成。連續(xù)性變量以
根據(jù)cox比例風險回歸模型原理和最大似然原理可以估計代謝綜合征累計發(fā)病風險,表達式為:
繪制平均風險線和低風險線。平均風險線繪制方法,計算隊列中各個體的代謝綜合征的發(fā)病風險,分年齡agei,i=20,21,……,80求平均發(fā)病風險
2結果2.1隊列基線特征本研究隊列共納入15872人,平均隨訪時間為(2.60±1.79)年,隨訪時間中位數(shù)為2.03年,最長隨訪時間8.28年。隊列人群基線特征如表4所示。
表4隊列基線特征描述
2.2隊列動態(tài)變化情況,mets健康管理人群的隊列圖如圖4所示,年份上方數(shù)字為每年新進入隊列的人數(shù),下方數(shù)字為該年份新發(fā)生代謝綜合征的人數(shù)。隨訪期間共確診1591例新發(fā)代謝綜合征病例(男性:1273例,女性:318例),發(fā)病密度為35.87‰。
2.3多因素cox比例風險模型鑒于代謝綜合征的發(fā)病機理、患病率和危險因素在不同性別間均存在一定差異,本研究分別建立男性和女性的cox回歸模型,結果見表5和表6。可見,納入男性mets模型的變量包括年齡、體質指數(shù)、空腹血糖、甘油三酯、高密度脂蛋白膽固醇、血尿酸、是否高血壓和總膽固醇;納入女性mets模型的變量有年齡、體質指數(shù)、空腹血糖、甘油三酯、血尿酸和是否高血壓。
表5多因素cox回歸分析結果(男性mets模型)
表6多因素cox回歸分析結果(女性mets模型)
2.4模型預測能力與效度檢驗男性mets模型和女性mets模型的roc曲線如圖5所示,roc曲線下面積分別為0.751(95%ci:0.742-0.759)(圖5a)和0.745(95%ci:0.734-0.756)(圖5b);oe比分別為1.03和1.01;最佳cut-off值分別為37.88%和38.95%;男性模型的靈敏度和特異度分別67.32%和70.56%,女性模型的靈敏度和特異度分別為64.78%和74.17%;十折交叉驗證auc平均值分別為0.749和0.746。
2.5mets健康管理雙曲線如圖6所示(圖6a女性平均風險線與低風險線圖,圖6b男性平均風險線與低風險線圖)。
例,某體檢者,62歲,女性,bmi為19.33kg/m2、空腹血糖為5.2mmol/l、甘油三酯為1.02mmol/l、血尿酸為203umol/l、未患高血壓,經計算其未來發(fā)生代謝綜合征的風險為9.69%,風險年齡為小于52歲,風險等級為低風險。
實施例3基于社區(qū)2型糖尿病患者的心腦血管事件5年風險預測
1資料與方法
1.1資料:資料來源本研究中用于構建模型的訓練樣本數(shù)據(jù)來源于青島市黃島區(qū)疾病預防控制中心的慢性病管理系統(tǒng)。該系統(tǒng)于2009年啟動,以社區(qū)服務中心為管理單位、以社區(qū)醫(yī)生和鄉(xiāng)村醫(yī)生為管理實施者,截止2015年7月,共有20個社區(qū)中心、15062名2型糖尿病患者。驗證樣本來源于“山東多中心健康管理縱向觀察大數(shù)據(jù)庫”,有2次以上體檢記錄的2型糖尿患者。入選、剔除標準為防止由于隨訪時間短而造成的估計偏差,本研究訓練樣本選擇2009年1月至2011年12月期間診斷為2型糖尿病、年齡為35歲以上、錄入系統(tǒng)且無重要信息缺失的患者3319人;剔除406名在診斷2型糖尿病前有心腦血管病史的患者、以及隨訪過程中失訪的14名患者,最終納入2899人。驗證樣本中,35歲以上、無重要變量缺失且診斷糖尿病前未發(fā)生心腦血管病的2型糖尿病患者共有1016名。1.2方法:調查內容與方法包括人體測量指標、實驗室指標以及問診情況。以上3部分調查內容均由醫(yī)務人員測量或詢問。cvd診斷方法黃島地區(qū)心腦血管數(shù)據(jù)庫中記錄的、由心電圖或造影確診的cvd事件,包括冠心病(icd10編碼:i20-i25)和腦卒中(icd10編碼:i60,i61,,i63,i64)或由于心腦血管事件導致的死亡(icd10編碼:r96.0-1)。
1.3統(tǒng)計學處理采用sas9.4統(tǒng)計分析軟件。連續(xù)型變量以
為方便使用,利用弗明翰評分方法將該cox模型轉化為評分模型,主要包括以下幾個步驟:(1)應用cox回歸模型得到每個變量的回歸系數(shù);(2)將連續(xù)型變量離散化后轉化為分類型變量,并以每一段的中位數(shù)為該段的參考值wij;(3)在每個分類變量中選擇一個參考值作為風險參考因子wiref;(4)計算每一類參考值與參考風險因子的距離(wij-wiref);(5)設定一個評分常數(shù)b=5*βage;(6)設定評分pointi=int{βi(wij-wiref)/b};(7)估計總分對應風險
以auc評價模型的判別能力,以hosmer-lemeshow檢驗評價模型的校準能力。分別使用5折交叉驗證法和獨立的驗證樣本對模型的穩(wěn)定性進行內部驗證和外部驗證。
繪制平均風險線和低風險線。平均風險線繪制方法,計算隊列中各個體的未來5年cvd發(fā)病風險,分年齡agei,i=35,36,……,80計算平均發(fā)病風險
2結果2.1一般特征截止2015年7月,訓練樣本隊列中位隨訪時間為5.0年,期間共發(fā)生心腦血管病228例,發(fā)病密度為16.86‰;驗證樣本隊列中位隨訪時間為2.35年,發(fā)生心腦血管事件96例,發(fā)病密度為35.4‰。訓練樣本隊列發(fā)病密度低于驗證樣本隊列的發(fā)病密度(p<0.001)。
訓練樣本隊列發(fā)生心腦血管事件和未發(fā)生心腦血管事件的2型糖尿病患者基線情況見表7
表7訓練樣本隊列和驗證樣本隊列患者基線情況
2.2cox比例風險模型結果表8展示了逐步選擇法后最終入選模型的變量有年齡、性別、低密度脂蛋白、高密度脂蛋白、收縮壓和cvd家族史。吸煙、舒張壓、bmi、腹型肥胖均未納入最終模型。入選變量之間未發(fā)現(xiàn)有交互作用。模型auc為0.678(95%ci0.660-0.695),hl卡方值為17.94,p=0.022。
表82型糖尿病患者未來5年內發(fā)生cvd事件的cox比例風險回歸模型結果
2.3評分模型結果表9為經弗明翰評分轉換得到的評分模型結果。表10為糖尿病患者總分對應的5年內發(fā)生心腦血管事件的風險。評分模型auc為0.663(95%ci:0.648-0.680),hl卡方值為6.69,p=0.57。總分小于5分時,2型糖尿病患者5年內發(fā)生cvd事件的概率小于10%,對應粗發(fā)病率為1.82%;總分在5~13分時,2型糖尿病患者5年內cvd發(fā)病風險為10%~30%,實際粗發(fā)病率為6.79%;總分大于13分的2型糖尿病患者5年內cvd的發(fā)病風險大于30%,實際粗發(fā)病率為12.49%。在該評分模型中,每增加一分,對應風險提高約2.61%(95%ci:2.58%-2.63%)。
表92型糖尿病患者未來5年內發(fā)生cvd事件的評分模型結果
表10評分模型總分對應的5年cvd發(fā)病風險
2.4模型驗證訓練樣本經5折交叉驗證法驗證后,cox模型auc為0.676(95%ci:0.659-0.693);評分模型auc為0.619(95%ci:601-0.637)。經過驗證隊列驗證,本研究構建的cox比例風險模型auc為0.643(95%ci:0.608-0.676),hl卡方值為8.71,p=0.37;評分模型外部驗證后auc為0.620(95%ci:0.592-0.648),hl卡方值為3.11,p=0.93。
2.5平均風險線和低風險線如圖7,例某體檢者,年齡57歲,女性,高密度脂蛋白為1.11mmol/l,低密度脂蛋白為3.12mmol/l,收縮壓為140mmhg,無cvd家族史,經計算未來五年發(fā)生cvd風險為9.97%,風險年齡為62歲,風險等級為高風險等級。
實施例4基于健康管理人群心血管事件風險預測模型及利用該模型進行預測
1資料與方法:1.1資料資料來源本研究數(shù)據(jù)來源于“山東多中心健康管理縱向觀察大數(shù)據(jù)隊列”。研究對象入選標準至少有1次縱向觀察記錄,年齡20歲以上,且入選時無心腦血管事件記錄者。最終共72843名研究對象納入隊列,平均隨訪時間為(3.81±2.53)年,男性41610人,女性31233人。
1.2方法1.2.1指標測量研究數(shù)據(jù)包含了研究對象的實驗室檢測、常規(guī)體格檢查以及健康問卷調查結果。所有研究對象在空腹狀態(tài)下采集血樣及尿樣進行實驗室檢測,常見的檢測項目如血常規(guī)、尿常規(guī)等;常規(guī)體格檢查包括身高(m)、體質量(kg)以及血壓(mmhg);健康問卷調查包括研究對象的日常飲食、睡眠、運動及吸煙飲酒情況。心電圖數(shù)據(jù)包含研究對象心電圖測量結果,并根據(jù)《明尼蘇達編碼》進行分類編碼。
1.2.2心血管事件定義心血管疾病國際疾病分類(internationalclassificationofdiseases-10,icd-10)編碼包括i05-i09、i11、i20-i27、i30-i52。腦血管疾病icd編碼包括i60~i69。此次研究根據(jù)數(shù)據(jù)庫中的疾病診斷進行心血管事件結局判斷。心血管事件包括:冠心病、心絞痛、冠狀動脈粥樣硬化、心肌梗死、冠狀動脈供血不足、冠狀動脈閉塞、冠狀動脈狹窄、急性冠狀動脈綜合征、冠狀動脈血栓形成、腦梗塞、短暫性腦缺血發(fā)作(頻繁)、腦卒中、腦血栓形成、腦干梗塞、腦血管供血不足、腦出血、腦動脈栓塞、腦血管意外、腦血管破裂、多發(fā)性腦梗塞、腦梗死、肺心病(出現(xiàn)右心衰竭者)、充血性心力衰竭、急性左心衰竭、左心衰竭、心功能ⅲ級、心功能ⅳ級、心力衰竭、心腎衰竭等。
1.2.3高血壓、糖尿病及血脂異常定義根據(jù)《中國高血壓防治指南(2010)》高血壓定義為收縮壓≥120mmhg和(或)舒張壓≥90mmhg或醫(yī)保數(shù)據(jù)庫中有明確診斷者;根據(jù)《中國2型糖尿病防治指南(2013)》糖尿病定義為空腹血糖≥7.0mmol/l和(或)葡糖糖負荷后2h血糖≥11.0mmol/l或醫(yī)保數(shù)據(jù)庫中有明確診斷者。血脂異常通常指血漿中膽固醇和(或)甘油三酯(tg)升高,俗稱高脂血癥。但實際上高脂血癥也泛指包括高密度脂蛋白血癥在內的各種血脂異常。1.3統(tǒng)計學處理統(tǒng)計描述及建模采用sas9.4和r3.3.3軟件。計算體檢隊列心血管事件的發(fā)病密度,對基線變量進行描述性分析,連續(xù)型變量采用
考慮到競爭風險的存在,避免其對終點事件概率的估計偏差,采用fine和gray提出的部分分布競爭風險模型(competingriskmodel)構建心血管事件風險預測模型。本研究中,采用受試者工作特征曲線下面積(areasundertheroccurves,auc)衡量模型的辨別能力。通過r3.3.3軟件加載包“cmprsk”和“survival”進行部分分布風險回歸分析,加載包“proc”繪制roc并計算auc。隨機抽取70%體檢人員作為訓練組,其余30%體檢者作為校驗組對其進行組內驗證,并使用十折交叉驗證法檢驗模型穩(wěn)定性。
繪制平均風險線和低風險線。平均風險線繪制方法,計算隊列中各個體的心血管事件發(fā)病風險,分年齡agei,i=20,21,……,90求平均發(fā)病風險
2結果2.1隊列情況隊列隨訪期間共發(fā)生心腦血管事件2463例,發(fā)病密度為88.79/10萬人年,死于非心腦血管事件164例。
2.2一般情況2004年5月至2015年9月,共納入體檢隊列72843人,平均隨訪年限為(3.81±2.53)年。對危險因素進行t檢驗、卡方檢驗,男女基線特征除年齡、異常q波無統(tǒng)計學差異外,男性的吸煙率、血脂異常率、高血壓患病率及糖尿病患病率均高于女性,其中男性血脂異常率高達73.22%。由于心腦血管病的多種危險因素存在性別上的差異,故對體檢隊列人群分性別構建風險預測模型。見表11。
表11體檢隊列人群基線特征
2.3競爭風險模型結果納入男性心血管事件風險預測模型的危險因素有年齡、是否吸煙、高血壓、糖尿病、血脂異常、st-t改變、t波改變及異常q波;納入女性心血管事件風險預測模型的危險因素有:年齡、高血壓、糖尿病、血脂異常、st-t改變、心房撲動、心率異常及陳舊性心梗。見表12。
表12部分分布競爭風險模型分析結果
2.4模型預測能力及效度檢驗十折交叉驗證法檢驗模型的穩(wěn)定性,男性roc曲線下面積為0.836(95%ci:0.822,0.851),靈敏度為78.70%,特異度為74.80%;女性roc曲線下面積為0.886(95%ci:0.874,0.898),靈敏度為73.60%,特異度為89.10%。男性訓練組roc曲線下面積為0.837(95%ci:0.821,0.853),最佳切點為6.3%,靈敏度為77.4%,特異度為76.0%,o/e值為0.984;女性為0.897(95%ci:0.880,0.913),最佳切點為4.1%,靈敏度為83.1%,特異度為82.7%,o/e值為1.11。男性校驗組roc曲線下面積為0.838(95%ci:0.813,0.862),最佳切點為6.4%,靈敏度為78.4%,特異度為78.1%;女性為0.893(95%ci:0.872,0.914),最佳切點為3.3%,靈敏度為87.4%,特異度為77.6%。
2.5平均風險線和低風險線如圖8所示,圖8a為男性各年齡人群未來發(fā)生心腦血管事件的平均風險和低風險,圖8b為女性各年齡人群未來發(fā)生心腦血管事件的平均風險和低風險。
例,某體檢者年齡66歲,有高血壓和糖尿病病史,血脂異常,t波改變,吸煙,經計算其未來5年內發(fā)生心腦血管時間的風險為5.90%,風險年齡為76,風險等級為高風險。
實施例5健康管理人群2型糖尿病發(fā)病風險預測模型
1資料與方法1.1資料:資料來源本研究數(shù)據(jù)來源于山東多中心健康管理縱向觀察隊列數(shù)據(jù)。入選標準選取基線未患糖尿病、至少有2次檢查記錄、且無重要信息缺失者進入隊列,年齡20~75歲。經過篩選共有33445名體檢者進入隊列,其中男性18963人,女性14482人。
1.2方法1.2.1調查方法及內容體檢內容包括常規(guī)人體測量指標、實驗室檢查指標和問卷調查三部分。
1.2.2診斷標準采用世界衛(wèi)生組織(who)糖尿病診斷標準,空腹血糖≥7.0mmol/l和(或)葡萄糖負荷后2h血糖≥11.1mmol/l,確診為2型糖尿病,并排除其他類型糖尿??;參照《中國高血壓防治指南(2010)》,在未使用降壓藥的情況下,非同日3次測量血壓,收縮壓≥140mmhg和(或)舒張壓≥90mmhg,確診為高血壓。
1.3統(tǒng)計學處理所有分析采用r3.3.2軟件完成。體檢隊列各個指標的基線情況連續(xù)型變量以
繪制平均風險線和低風險線。平均風險線繪制方法,計算隊列中各個體的代謝綜合征的發(fā)病風險,分年齡agei,i=20,21,……,75求平均發(fā)病風險
2結果2.1基線特征描述見表13。隊列共納入33445人,男性18963人,女性14482人。入選者平均隨訪時間為(3.68±2.8)年,男性平均隨訪時間為(3.67±2.78)年,女性平均隨訪時間為(3.70±2.82)年。男性吸煙率、飲酒率和高血壓患病率均高于女性。
表13隊列人群2型糖尿病發(fā)病與非發(fā)病者基線特征
2.2發(fā)病密度隨訪期間共確診1624例新發(fā)2型糖尿病病例(其中男性1044例,女性580例),總發(fā)病密度為13.18‰,男性發(fā)病密度為15.00‰,女性發(fā)病密度是10.83‰。
2.32型糖尿病風險預測模型見表14。預測模型采用多因素cox比例風險回歸。男性預測模型中用于預測t2dm的因素包括年齡、體質量指數(shù)、空腹血糖、甘油三酯、谷丙轉氨酶、白細胞計數(shù)6個指標;女性預測模型納入的因素包括年齡、空腹血糖、甘油三酯、高密度脂蛋白膽固醇、谷丙轉氨酶5個指標。
表14多因素cox回歸分析結果
2.4模型的預測能力,男性預測模型的auc為0.795(95%ci:0.764~0.827),最佳切點為6.4%,靈敏度和特異度分別為66.0%、84.0%,十折交叉驗證的平均auc為0.796;女性預測模型的auc為0.707(95%ci:0.654~0.759),最佳切點為5.7%,靈敏度和特異度分別為47.3%、90.0%,十折交叉驗證的平均auc為0.710。
2.5各年齡人群未來發(fā)生2行糖尿病的平均風險和低風險如圖9所示,(圖9a為女性風險圖,圖9b為男性風險圖)。
舉例,某體檢者40歲,空腹血糖5.6mmol/l,甘油三酯1.33mmol/l,高密度脂蛋白0.39mmol/l,谷丙轉氨酶28.1mmol/l,經計算其未來3年糖尿病的發(fā)病風險為8.52%,風險年齡為大于50歲,分割線等級為高風險。