本發(fā)明涉及醫(yī)療保健信息學(xué)和電數(shù)字?jǐn)?shù)據(jù)處理,尤其涉及針對(duì)icu缺血性腦卒中患者院內(nèi)死亡風(fēng)險(xiǎn)預(yù)測(cè)的可解釋機(jī)器學(xué)習(xí)模型的構(gòu)建方法及系統(tǒng)。
背景技術(shù):
1、腦卒中已成為我國成人致死、致殘的首位原因,具有高發(fā)病率、高致殘率、高復(fù)發(fā)率、高死亡率、高經(jīng)濟(jì)負(fù)擔(dān)等五大特點(diǎn)。其中,缺血性腦卒中是最常見的腦卒中類型,約占所有腦卒中的70%。盡管隨著缺血性腦卒中治療藥物和方法的不斷更新,患者的傷殘調(diào)整壽命年(disability?adjusted?life?years,?dalys)呈下降趨勢(shì),但需要進(jìn)入重癥監(jiān)護(hù)病房(intensive?care?unit,?icu)治療的患者仍面臨較高的死亡風(fēng)險(xiǎn)。然而目前缺乏重癥缺血性腦卒中預(yù)后識(shí)別的早期特異性檢測(cè)指標(biāo)及手段。構(gòu)建預(yù)測(cè)模型準(zhǔn)確識(shí)別具有高院內(nèi)死亡風(fēng)險(xiǎn)的缺血性腦卒中患者,及時(shí)預(yù)警并采取有針對(duì)性的預(yù)防和治療措施,對(duì)降低患者死亡風(fēng)險(xiǎn)和改善患者預(yù)后具有重要意義。
2、隨著現(xiàn)代醫(yī)院信息系統(tǒng)的普及和計(jì)算能力的進(jìn)一步提高,機(jī)器學(xué)習(xí)(machinelearning,?ml)和醫(yī)學(xué)領(lǐng)域的結(jié)合越來越緊密。相較于傳統(tǒng)的死亡風(fēng)險(xiǎn)評(píng)分模型,復(fù)雜ml模型由于能夠捕捉非線性關(guān)系以及變量間的交互作用,通常具有更高的預(yù)測(cè)精度。盡管ml模型有良好的預(yù)測(cè)準(zhǔn)確性,但大多數(shù)被視為“黑箱”,即模型缺乏可解釋性分析結(jié)果,因此其性能和應(yīng)用飽受質(zhì)疑。單純使用機(jī)器學(xué)習(xí)算法構(gòu)建臨床預(yù)測(cè)模型已經(jīng)不能滿足當(dāng)前精細(xì)化醫(yī)療背景下對(duì)疾病預(yù)防和醫(yī)療決策的需求。
技術(shù)實(shí)現(xiàn)思路
1、為了克服上述技術(shù)缺陷,本發(fā)明的第一個(gè)方面提供icu卒中患者院內(nèi)死亡風(fēng)險(xiǎn)預(yù)測(cè)的可解釋ml方法,其包括:
2、步驟s1:輸入當(dāng)前患者的與icu缺血性腦卒中患者院內(nèi)死亡風(fēng)險(xiǎn)相關(guān)的變量;
3、步驟s2:采用預(yù)先構(gòu)建的icu缺血性腦卒中患者院內(nèi)死亡風(fēng)險(xiǎn)的最優(yōu)預(yù)測(cè)模型對(duì)當(dāng)前患者進(jìn)行院內(nèi)死亡風(fēng)險(xiǎn)預(yù)測(cè),得到院內(nèi)死亡預(yù)測(cè)概率;
4、步驟s3:使用shap方法對(duì)最優(yōu)預(yù)測(cè)模型進(jìn)行解釋性分析,分析變量對(duì)院內(nèi)死亡風(fēng)險(xiǎn)預(yù)測(cè)結(jié)果的重要性;從各變量權(quán)重大小分析、各變量與結(jié)局的依賴性關(guān)系、患者個(gè)體化分析三個(gè)方面分析變量對(duì)預(yù)測(cè)結(jié)果的重要性。
5、所述與icu缺血性腦卒中患者院內(nèi)死亡風(fēng)險(xiǎn)相關(guān)的變量隨著基于訓(xùn)練集數(shù)據(jù)而變化更新。示例地,與icu缺血性腦卒中患者院內(nèi)死亡風(fēng)險(xiǎn)相關(guān)的變量包括機(jī)械通氣、年齡、他汀類藥物、白細(xì)胞計(jì)數(shù)、血尿素氮、紅細(xì)胞壓積、華法林、碳酸氫鹽及收縮壓。
6、進(jìn)一步地,在步驟s2中,所述icu缺血性腦卒中患者院內(nèi)死亡風(fēng)險(xiǎn)的最優(yōu)預(yù)測(cè)模型的構(gòu)建方法包括:
7、步驟s2.1:根據(jù)納入排除標(biāo)準(zhǔn)回顧性收集缺血性腦卒中患者入icu首日的臨床資料及預(yù)后結(jié)局,建成分析數(shù)據(jù)集。
8、步驟s2.2:對(duì)分析數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理:①將變量分為分類變量和連續(xù)變量;②使用多重填補(bǔ)法進(jìn)行缺失數(shù)據(jù)填補(bǔ);③對(duì)連續(xù)型變量使用最小最大值標(biāo)準(zhǔn)化法進(jìn)行歸一化:并將數(shù)據(jù)集按7:3的比例隨機(jī)分為訓(xùn)練集和測(cè)試集;
9、步驟s2.3:在訓(xùn)練集內(nèi),使用lasso回歸、boruta算法和遞歸特征消除三種算法,分別對(duì)構(gòu)建院內(nèi)死亡預(yù)測(cè)模型的變量進(jìn)行篩選,取三種算法篩選得到的變量的交集作為構(gòu)建icu缺血性腦卒中患者院內(nèi)死亡預(yù)測(cè)模型的預(yù)測(cè)變量;
10、步驟s2.4:在完成數(shù)據(jù)預(yù)處理的訓(xùn)練集上采用不同機(jī)器學(xué)習(xí)方法構(gòu)建icu缺血性腦卒中院內(nèi)死亡風(fēng)險(xiǎn)預(yù)測(cè)模型,所述機(jī)器學(xué)習(xí)方法包括logistic回歸(logisticregression,?簡(jiǎn)稱lr,邏輯回歸)、k近鄰(k-nearest?neighbor,?簡(jiǎn)稱knn)、樸素貝葉斯(naive?bayesian,簡(jiǎn)稱nb)、決策樹(decision?tree,簡(jiǎn)稱dt)、支持向量機(jī)(supportvector?machine,簡(jiǎn)稱svm)、隨機(jī)森林(random?forest,?rf)、xgboost(extreme?gradientboosting,極端梯度提升)、lightgbm(light?gradient?boosting?machine,輕量級(jí)的梯度提升機(jī))和人工神經(jīng)網(wǎng)絡(luò)(ann);
11、步驟s2.5:使用重復(fù)50次的5折交叉驗(yàn)證的隨機(jī)網(wǎng)格搜索方法對(duì)步驟s2.4中構(gòu)建的模型進(jìn)行超參數(shù)搜索以獲得最佳模型超參數(shù);
12、步驟s2.6:使用受試者工作特征曲線下面積作為指標(biāo),繪制受試者工作特征(receiver?operating?characteristic,?roc)曲線,并選取了準(zhǔn)確度、靈敏度、特異度及f1值來評(píng)估模型的區(qū)分性能,通過繪制校準(zhǔn)曲線,并且計(jì)算模型的布里爾分?jǐn)?shù)來表示模型的校準(zhǔn)程度,使用決策曲線分析反映模型的臨床凈收益;
13、步驟s2.7:結(jié)合以上各個(gè)指標(biāo)綜合考慮,最終選擇綜合性能最優(yōu)的模型作為icu缺血性腦卒中患者院內(nèi)死亡風(fēng)險(xiǎn)預(yù)測(cè)模型。
14、在步驟s2.1中,所述臨床資料包括一般資料、生命體征、實(shí)驗(yàn)室檢查結(jié)果、并發(fā)癥、藥物治療、有關(guān)生命支持的臨床信息以及臨床評(píng)分。
15、進(jìn)一步地,在步驟s2.7中,最終選擇隨機(jī)森林模型作為icu缺血性腦卒中患者院內(nèi)死亡風(fēng)險(xiǎn)預(yù)測(cè)模型。
16、進(jìn)一步地,所述與icu缺血性腦卒中患者院內(nèi)死亡風(fēng)險(xiǎn)相關(guān)的變量包括機(jī)械通氣、年齡、他汀類藥物、白細(xì)胞計(jì)數(shù)、血尿素氮、紅細(xì)胞壓積、華法林、碳酸氫鹽及收縮壓;所述隨機(jī)森林模型的模型超參數(shù)是n_estimators(弱學(xué)習(xí)器最大迭代次數(shù))為500、max_depth(決策樹最大深度)為9、min_samples_split(內(nèi)部節(jié)點(diǎn)再劃分所需最小樣本數(shù))為7、min_samples_leaf(葉子節(jié)點(diǎn)最小樣本數(shù))為4。
17、本技術(shù)的第二個(gè)方面提供icu卒中患者院內(nèi)死亡風(fēng)險(xiǎn)預(yù)測(cè)的可解釋ml系統(tǒng),其包括:
18、用戶交互模塊,所述用戶交互模塊用于輸入當(dāng)前患者的與icu缺血性腦卒中患者院內(nèi)死亡風(fēng)險(xiǎn)相關(guān)的變量;還用于輸出院內(nèi)死亡預(yù)測(cè)概率和解釋性分析結(jié)果;
19、風(fēng)險(xiǎn)預(yù)測(cè)模塊,所述風(fēng)險(xiǎn)預(yù)測(cè)模塊用于采用預(yù)先構(gòu)建的icu缺血性腦卒中患者院內(nèi)死亡風(fēng)險(xiǎn)的最優(yōu)預(yù)測(cè)模型對(duì)當(dāng)前患者進(jìn)行院內(nèi)死亡風(fēng)險(xiǎn)預(yù)測(cè),得到院內(nèi)死亡預(yù)測(cè)概率;
20、解釋性分析模塊,所述解釋性分析模塊用于使用shap方法對(duì)最優(yōu)預(yù)測(cè)模型進(jìn)行解釋性分析,分析變量對(duì)院內(nèi)死亡風(fēng)險(xiǎn)預(yù)測(cè)結(jié)果的重要性;所述解釋性分析模塊用于從各變量權(quán)重大小分析、各變量與結(jié)局的依賴性關(guān)系、患者個(gè)體化分析三個(gè)方面分析變量對(duì)預(yù)測(cè)結(jié)果重要性。
21、所述與icu缺血性腦卒中患者院內(nèi)死亡風(fēng)險(xiǎn)相關(guān)的變量隨著基于訓(xùn)練集數(shù)據(jù)而變化更新。示例地,與icu缺血性腦卒中患者院內(nèi)死亡風(fēng)險(xiǎn)相關(guān)的變量包括機(jī)械通氣、年齡、他汀類藥物、白細(xì)胞計(jì)數(shù)、血尿素氮、紅細(xì)胞壓積、華法林、碳酸氫鹽及收縮壓。
22、進(jìn)一步地,在所述風(fēng)險(xiǎn)預(yù)測(cè)模塊中,所述icu缺血性腦卒中患者院內(nèi)死亡風(fēng)險(xiǎn)的最優(yōu)預(yù)測(cè)模型的構(gòu)建方法包括:
23、步驟s2.1:根據(jù)納入排除標(biāo)準(zhǔn)回顧性收集缺血性腦卒中患者入icu首日的臨床資料及預(yù)后結(jié)局,建成分析數(shù)據(jù)集;
24、步驟s2.2:對(duì)分析數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理:①將變量分為分類變量和連續(xù)變量;②使用多重填補(bǔ)法進(jìn)行缺失數(shù)據(jù)填補(bǔ);③對(duì)連續(xù)型變量使用最小最大值標(biāo)準(zhǔn)化法進(jìn)行歸一化:并將數(shù)據(jù)集按7:3的比例隨機(jī)分為訓(xùn)練集和測(cè)試集;
25、步驟s2.3:在訓(xùn)練集內(nèi),使用lasso回歸、boruta算法和遞歸特征消除三種算法,分別對(duì)構(gòu)建院內(nèi)死亡預(yù)測(cè)模型的變量進(jìn)行篩選,取三種算法篩選得到的變量的交集作為構(gòu)建icu缺血性腦卒中患者院內(nèi)死亡預(yù)測(cè)模型的預(yù)測(cè)變量;
26、步驟s2.4:在完成數(shù)據(jù)預(yù)處理的訓(xùn)練集上采用不同機(jī)器學(xué)習(xí)方法構(gòu)建icu缺血性腦卒中院內(nèi)死亡風(fēng)險(xiǎn)預(yù)測(cè)模型,所述機(jī)器學(xué)習(xí)方法包括logistic回歸、k近鄰、樸素貝葉斯、決策樹、支持向量機(jī)、隨機(jī)森林、xgboost、lightgbm、人工神經(jīng)網(wǎng)絡(luò);
27、步驟s2.5:使用重復(fù)50次的5折交叉驗(yàn)證的隨機(jī)網(wǎng)格搜索對(duì)步驟s2.4中構(gòu)建的模型進(jìn)行超參數(shù)搜索以獲得最佳參數(shù)模型;
28、步驟s2.6:使用受試者工作特征曲線下面積作為指標(biāo),繪制受試者工作特征曲線,并選取了準(zhǔn)確度、靈敏度、特異度及f1值來評(píng)估模型的區(qū)分性能,通過繪制校準(zhǔn)曲線,并且計(jì)算模型的布里爾分?jǐn)?shù)來表示模型的校準(zhǔn)程度,使用決策曲線分析反映模型的臨床凈收益;
29、步驟s2.7:結(jié)合以上各個(gè)指標(biāo)綜合考慮,最終選擇綜合性能最優(yōu)的模型作為icu缺血性腦卒中患者院內(nèi)死亡風(fēng)險(xiǎn)預(yù)測(cè)模型。
30、在步驟s2.1中,所述臨床資料包括一般資料、生命體征、實(shí)驗(yàn)室檢查結(jié)果、并發(fā)癥、藥物治療、有關(guān)生命支持的臨床信息以及臨床評(píng)分。
31、進(jìn)一步地,在步驟s2.7中,最終選擇隨機(jī)森林模型作為icu缺血性腦卒中患者院內(nèi)死亡風(fēng)險(xiǎn)預(yù)測(cè)模型。
32、進(jìn)一步地,所述與icu缺血性腦卒中患者院內(nèi)死亡風(fēng)險(xiǎn)相關(guān)的變量包括機(jī)械通氣、年齡、他汀類藥物、白細(xì)胞計(jì)數(shù)、血尿素氮、紅細(xì)胞壓積、華法林、碳酸氫鹽及收縮壓;所述隨機(jī)森林模型的模型超參數(shù)是n_estimators(弱學(xué)習(xí)器最大迭代次數(shù))為500、max_depth(決策樹最大深度)為9、min_samples_split(內(nèi)部節(jié)點(diǎn)再劃分所需最小樣本數(shù))為7、min_samples_leaf(葉子節(jié)點(diǎn)最小樣本數(shù))為4。
33、采用了上述技術(shù)方案后,與現(xiàn)有技術(shù)相比,具有以下有益效果:
34、本技術(shù)能夠?qū)cu缺血性腦卒中患者的院內(nèi)死亡風(fēng)險(xiǎn)進(jìn)行快速準(zhǔn)確地預(yù)測(cè),并且還能夠?qū)︻A(yù)測(cè)結(jié)果提供解釋性分析。本發(fā)明有助于提高icu缺血性腦卒中患者預(yù)后的準(zhǔn)確快速評(píng)估,輔助臨床決策,改善患者預(yù)后。