本發(fā)明涉及數(shù)據(jù)分析領(lǐng)域,具體涉及一種基于數(shù)據(jù)評估患者腦出血復(fù)發(fā)風(fēng)險的xgboost模型及其構(gòu)建方法。
背景技術(shù):
1、腦出血,又被稱為自發(fā)性腦出血,是大腦血管破裂造成血液流出的疾病,占急性腦血管病的20%至30%,患病占比大。而且腦出血的復(fù)發(fā)風(fēng)險高,且復(fù)發(fā)患者更容易出現(xiàn)病情加重,在復(fù)發(fā)時病癥在數(shù)分鐘或數(shù)小時內(nèi)完成,因此腦出血復(fù)發(fā)對患者而言是十分危險。若能準(zhǔn)確的預(yù)測腦出血復(fù)發(fā)概率,及時有效地幫助患者采取針對性治療和預(yù)防策略,改善患者預(yù)后,降低患者死亡率。
2、目前用于評估腦出血復(fù)發(fā)風(fēng)險的模型較少,目前已有的一個關(guān)于預(yù)測腦出血復(fù)發(fā)風(fēng)險的模型僅包括38名復(fù)發(fā)患者的電子病歷作基礎(chǔ),且模型auc(曲線下面積)僅有0.802,性能一般。
3、而影響腦出血預(yù)后的風(fēng)險因素較多,交互關(guān)系復(fù)雜,因此造成腦出血復(fù)發(fā)預(yù)測模型性能不穩(wěn)定,機(jī)器學(xué)習(xí)模型有利于處理更多的風(fēng)險因素及因素間復(fù)雜的交互關(guān)系,可以提高模型性能,提升預(yù)測準(zhǔn)確率。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于數(shù)據(jù)評估患者腦出血復(fù)發(fā)風(fēng)險的xgboost模型及其構(gòu)建方法,旨在克服現(xiàn)有評估腦出血復(fù)發(fā)風(fēng)險的模型少且出現(xiàn)較多虛假警報,反而干擾腦出血患者預(yù)后。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供一種基于數(shù)據(jù)評估患者腦出血復(fù)發(fā)風(fēng)險的xgboost模型的構(gòu)建方法,所述方法包括:
3、s10,讀取并處理腦出血患者數(shù)據(jù),獲得訓(xùn)練集數(shù)據(jù);
4、s20,接收所述訓(xùn)練集數(shù)據(jù),采用lasso回歸和逐步遞歸程序處理所述訓(xùn)練集數(shù)據(jù),輸出若干個變量特征;
5、s30,判斷每個特征變量的p值是否小于0.05;
6、s40,當(dāng)特征變量的p值小于0.05時,輸出所述變量特征;
7、s50,構(gòu)建并優(yōu)化所述第一模型的參數(shù),輸出xgboost模型;
8、s60,使用shap和lime解釋器對所述xgboost模型的評估結(jié)果進(jìn)行可視化解釋。
9、優(yōu)選地,在上述技術(shù)方案中,所述讀取并處理患者數(shù)據(jù),獲得訓(xùn)練集數(shù)據(jù)的具體步驟如下:
10、s11,從電子病歷數(shù)據(jù)庫、檢驗(yàn)科數(shù)據(jù)庫、問卷調(diào)查數(shù)據(jù)庫和臨床評估數(shù)據(jù)庫讀取并輸出腦出血患者數(shù)據(jù);
11、s12,接收所述腦出血患者數(shù)據(jù),隨機(jī)欠采樣方式處理所述腦出血患者數(shù)據(jù),輸出訓(xùn)練集數(shù)據(jù);
12、s13,采用十折交叉驗(yàn)證方式比對所述訓(xùn)練集數(shù)據(jù),輸出訓(xùn)練集數(shù)據(jù)的穩(wěn)定性評估值。
13、優(yōu)選地,在上述技術(shù)方案中,所述構(gòu)建并優(yōu)化所述第一模型的參數(shù),輸出xgboost模型的步驟,具體如下:
14、s51,接收p值小于0.05的變量特征;
15、s52,運(yùn)用xgboost算法將所述變量特征構(gòu)建初模型;
16、s53,用于采用內(nèi)部驗(yàn)證優(yōu)化所述第一模型的參數(shù),輸出第二模型;
17、s54,收集其他腦出血患者數(shù)據(jù),作為外部驗(yàn)證數(shù)據(jù),并用外部驗(yàn)證數(shù)據(jù)外部驗(yàn)證第二模型;
18、s55,驗(yàn)證后,輸出xgboost模型。
19、優(yōu)選地,在上述技術(shù)方案中,所述xgboost模型具體為0.048+0.077*age+0.299*nihss?dis+0.062*phe?admission+0.372*phe?followup+0.033*history?of?stroke-0.020*hypotensive?drug-0.039*plt+0.024*ast+0.026*crp,所述nih?ss?dis表示出院時的nihss評分,所述plt表示入院時的血小板值,所述age表示入院時年齡,所述ast表示入院時谷草轉(zhuǎn)氨酶值,所述crp表示入院時c-反應(yīng)蛋白值,所述phe?admission表示入院時腦出血血量,所述histor?y?of?stroke表示卒中史,所述hypotensive?drug表示是否使用降壓藥物。
20、一種基于數(shù)據(jù)評估患者腦出血復(fù)發(fā)風(fēng)險的xgboost模型,所述xgboost模型由讀取并處理模塊、選擇模塊、判斷模塊、構(gòu)建優(yōu)化模塊、可視化輸出模塊組成,具體如下:
21、讀取并處理模塊:用于讀取并處理腦出血患者數(shù)據(jù),獲得訓(xùn)練集數(shù)據(jù);
22、選擇模塊:接收所述訓(xùn)練集數(shù)據(jù),采用lasso回歸和逐步遞歸程序處理所述訓(xùn)練集數(shù)據(jù),輸出若干個變量特征;
23、判斷模塊:用于判斷每個特征變量的p值是否小于0.05;
24、輸出模塊:用于當(dāng)特征變量的p值小于0.05時,輸出所述變量特征;
25、構(gòu)建優(yōu)化模塊:用于構(gòu)建并優(yōu)化所述第一模型的參數(shù),輸出xgboost模型;
26、可視化輸出模塊:用于使用shap和lime解釋器對所述xgboost模型的評估結(jié)果進(jìn)行可視化解釋。
27、優(yōu)選地,在上述技術(shù)方案中,所述讀取并處理模塊由讀取輸出單元、接收單元、處理單元、驗(yàn)證單元組成,具體如下:
28、讀取輸出單元:用于從電子病歷數(shù)據(jù)庫、檢驗(yàn)科數(shù)據(jù)庫、問卷調(diào)查數(shù)據(jù)庫和臨床評估數(shù)據(jù)庫讀取并輸出腦出血患者數(shù)據(jù);
29、接收單元:用于接收所述腦出血患者數(shù)據(jù);
30、處理單元:用于隨機(jī)欠采樣方式處理所述腦出血患者數(shù)據(jù),輸出訓(xùn)練集數(shù)據(jù);
31、驗(yàn)證單元:用于采用十折交叉驗(yàn)證方式比對所述訓(xùn)練集數(shù)據(jù),輸出訓(xùn)練集數(shù)據(jù)的穩(wěn)定性評估值。
32、優(yōu)選地,在上述技術(shù)方案中,所述構(gòu)建優(yōu)化模塊包括接收單元、構(gòu)建單元、第一優(yōu)化單元、第二優(yōu)化單元和輸出單元,具體如下:
33、接收單元:用于接收p值小于0.05的變量特征;
34、構(gòu)建單元:用于運(yùn)用xgboost算法將所述變量特征構(gòu)建初模型;
35、第一優(yōu)化單元:用于采用內(nèi)部驗(yàn)證優(yōu)化所述第一模型的參數(shù),輸出第二模型;
36、第二優(yōu)化單元:用于收集其他腦出血患者數(shù)據(jù),作為外部驗(yàn)證數(shù)據(jù),并用外部驗(yàn)證數(shù)據(jù)外部驗(yàn)證優(yōu)化第二模型;
37、輸出單元:用于驗(yàn)證優(yōu)化后,輸出xgboost模型。
38、優(yōu)選地,在上述技術(shù)方案中,所述xgboost模型為0.048+0.077*age+0.299*nihssdis+0.062*phe?admission+0.372*phe?followup+0.033*history?of?str?oke-0.020*hypotensive?drug-0.039*plt+0.024*ast+0.026*crp,其中,所述nihss?dis表示出院時的nihss評分,所述plt表示入院時的血小板值,所述age表示入院時年齡,所述ast表示入院時谷草轉(zhuǎn)氨酶值,所述crp表示入院時c-反應(yīng)蛋白值,所述phe?admission表示入院時腦出血血量,所述histor?y?of?stroke表示卒中史,所述hypotensive?drug表示是否使用降壓藥物。
39、一種電子設(shè)備,所述電子設(shè)備包括:
40、存儲器,存儲至少一個指令;
41、及處理器,執(zhí)行所述存儲器中存儲的指令以實(shí)現(xiàn)如上所述基于數(shù)據(jù)分析患者腦出血復(fù)發(fā)風(fēng)險的xgboost模型的構(gòu)建方法。
42、一種計算機(jī)可讀存儲介質(zhì),所述計算機(jī)可讀存儲介質(zhì)中存儲有至少一個指令,所述至少一個指令被電子設(shè)備中的處理器執(zhí)行以實(shí)現(xiàn)如上所述基于數(shù)據(jù)分析患者腦出血復(fù)發(fā)風(fēng)險的xgboost模型的構(gòu)建方法。
43、與現(xiàn)有技術(shù)相比,本技術(shù)的有益效果為:
44、本發(fā)明獲得的評估患者腦出血復(fù)發(fā)風(fēng)險的xgboost模型評估準(zhǔn)確率高的原理是:首先,采用下采樣方式獲取數(shù)據(jù)集,保證模型數(shù)據(jù)選擇發(fā)生偏倚,以應(yīng)對模型在應(yīng)用過程中的數(shù)據(jù)漂移問題,確保模型的預(yù)測準(zhǔn)確性;其次,以九種特征因素作模型內(nèi)部驗(yàn)證的模型分辨率auc和預(yù)測準(zhǔn)確率高;測試集測試的模型分辨率auc和預(yù)測準(zhǔn)確率也高。