本發(fā)明涉及醫(yī)療輔助和智能醫(yī)療,特別是涉及一種基于ai的hae罕見病風險預測方法及裝置。
背景技術:
1、罕見病的低發(fā)病率使得在大規(guī)模人群中篩查這些疾病具有一定的挑戰(zhàn)性,且篩查的有效性取決于其成本效益比,而罕見病的篩查通常需要更高的成本和更復雜的技術支持。罕見病通常表現(xiàn)出極大的臨床異質性,即使是同一種疾病,也可能在不同患者中有不同的表現(xiàn)。這使得制定統(tǒng)一的篩查標準和檢測方法變得較為困難,而傳統(tǒng)的人工篩查模式,因為個體理解差異,以及人工篩查需要逐個查看病歷,效率比較低,因此,通過一定技術手段來提升篩查效率具有比較迫切的需求。
2、目前,傳統(tǒng)的罕見病篩查方法中,例如,通過智能醫(yī)療設備采集患者病癥情況,接入相關病癥數(shù)據(jù),并將多樣輸入數(shù)據(jù)標準化處理,將標準化處理的病癥進行分析,構建數(shù)據(jù)決策樹,對病癥數(shù)據(jù)進行分類篩選,建立表型病癥信息與病種對應的關系數(shù)據(jù)庫,將分類篩選數(shù)據(jù)傳輸至關系數(shù)據(jù)庫。根據(jù)分類篩選的結果,將分類篩選數(shù)據(jù)信息與關系數(shù)據(jù)庫樣本參數(shù)進行比對,將比對后的數(shù)據(jù)差別信息以及病癥特征信息,進行數(shù)據(jù)匯總。將匯總后的數(shù)據(jù)生成報表在數(shù)據(jù)庫中存儲,并在終端設備上顯示。該方案通過智能設備采集數(shù)據(jù),并對數(shù)據(jù)進行標準化,通過數(shù)據(jù)決策樹對病癥數(shù)據(jù)分類篩選,最后通過構建關系數(shù)據(jù)庫樣本參數(shù)進行比對,存儲比對后對數(shù)據(jù),匯總在終端上展示。
3、然而,該方法沒法在患者就診、醫(yī)生編輯病歷時,對hae罕見病風險患者彈窗提醒,較難做到及時提醒并及時送檢,患者離開后再去聯(lián)系成本較高。此外,該方法較難對hae罕見病風險進行自動分級,難以為臨床醫(yī)生對罕見病風險患者進行分級管理。且未提供基于ai的歷史患者批量智能的篩查方法,篩查效率比較低,準確率也較低。
4、綜上所述,現(xiàn)有的罕見病篩查方法智能化程度有待進一步提高,且罕見病的篩查準確率和效率也有待進一步提高。
技術實現(xiàn)思路
1、基于此,有必要針對上述技術問題,提供一種智能化程度較高且罕見病篩查準確率和效率較高的基于ai的hae罕見病風險預測方法及裝置。
2、本發(fā)明提供了一種基于ai的hae罕見病風險預測方法,所述方法包括:
3、獲取網絡上公開的醫(yī)療數(shù)據(jù),并對所述醫(yī)療數(shù)據(jù)進行預處理,以通過預處理后的所述醫(yī)療數(shù)據(jù)對開源llama3基座模型進行訓練微調,所述預處理包括數(shù)據(jù)清洗和數(shù)據(jù)劃分;
4、從所述開源llama3基座模型中提取hae疾病醫(yī)療知識,并將所述hae疾病醫(yī)療知識作為訓練數(shù)據(jù)輸入至微調后的所述開源llama3基座模型,以輸出所述hae疾病醫(yī)療知識對應的第一風險概率分布;
5、將所述訓練數(shù)據(jù)作為tinybert模型的輸入,以輸出所述hae疾病醫(yī)療知識對應的第二風險概率分布,并調用交叉熵損失函數(shù)計算所述第一風險概率分布與第二風險概率分布之間的差異;
6、通過反向傳播算法計算所述差異的梯度,并使用優(yōu)化器更新所述tinybert模型的參數(shù),以對所述tinybert模型進行迭代訓練和微調,得到hae罕見病風險預測模型;
7、將當前患者預處理后的病歷數(shù)據(jù)作為所述hae罕見病風險預測模型的輸入,以輸出所述病歷數(shù)據(jù)對應的hae罕見病風險預測評分,所述風險預測評分用于表征當前患者hae罕見病的概率。
8、在其中一個實施例中,所述獲取網絡上公開的醫(yī)療數(shù)據(jù),并對所述醫(yī)療數(shù)據(jù)進行預處理,以通過預處理后的所述醫(yī)療數(shù)據(jù)對開源llama3基座模型進行訓練微調,包括:
9、獲取預設的所述開源llama3基座模型的目標任務類型,以從所述醫(yī)療數(shù)據(jù)中選取與所述目標任務類型相關的目標醫(yī)療數(shù)據(jù);
10、去除所述目標醫(yī)療數(shù)據(jù)中的噪聲、重復數(shù)據(jù)以及無用數(shù)據(jù),以對所述目標醫(yī)療數(shù)據(jù)進行數(shù)據(jù)清洗,并將清洗后的所述目標醫(yī)療數(shù)據(jù)劃分為訓練集、測試集和驗證集;
11、其中,所述目標任務類型為基于病歷數(shù)據(jù)給對應患者進行疾病風險評分,并對風險評分結果進行分級處理,所述訓練集用于通過微調超參數(shù)對所述開源llama3基座模型進行訓練微調,所述驗證集用于對所述開源llama3基座模型的指標性能進行監(jiān)控和評估,所述測試集用于評估微調后的所述開源llama3基座模型的性能。
12、在其中一個實施例中,所述從所述開源llama3基座模型中提取hae疾病醫(yī)療知識,并將所述hae疾病醫(yī)療知識作為訓練數(shù)據(jù)輸入至微調后的所述開源llama3基座模型,以輸出所述hae疾病醫(yī)療知識對應的第一風險概率分布,包括:
13、以hae疾病風險預測任務作為所述tinybert模型的目標任務,對微調后的所述開源llama3基座模型中的醫(yī)療數(shù)據(jù)進行知識蒸餾,以提取出相應的hae疾病醫(yī)療知識;
14、調用微調后的所述開源llama3基座模型對所述hae疾病醫(yī)療知識進行預測,以輸出每個輸入數(shù)據(jù)對應的硬標簽和軟標簽;
15、其中,所述硬標簽為每個輸入數(shù)據(jù)對應的風險評分結果,所述軟標簽為所述風險評分結果對應的概率分布,所述概率分布用于表征每個輸入數(shù)據(jù)屬于預設的風險評分區(qū)間的概率。
16、在其中一個實施例中,所述通過反向傳播算法計算所述差異的梯度,并使用優(yōu)化器更新所述tinybert模型的參數(shù),以對所述tinybert模型進行迭代訓練和微調,得到hae罕見病風險預測模型,包括:
17、對所述tinybert模型的最后一層進行訓練,并在每兩個時期通過hae疾病醫(yī)療知識的驗證集對所述tinybert模型進行性能評估;
18、當性能評估結果之間的差異低于第一閾值時,則對所述tinybert模型的上一層進行逐步解凍,以避免初期過擬合;
19、其中,每個時期為所述hae疾病醫(yī)療知識在所述tinybert模型中進行一次正向傳播和一次反向傳播的過程。
20、在其中一個實施例中,所述方法還包括:
21、對所述tinybert模型中的每個神經元在訓練集中被激活的頻率進行統(tǒng)計,并移除被激活的頻率低于第二閾值的神經元,所述第二閾值為神經元在所述訓練集中的平均激活頻率。
22、在其中一個實施例中,所述將當前患者預處理后的病歷數(shù)據(jù)作為所述hae罕見病風險預測模型的輸入,以輸出所述病歷數(shù)據(jù)對應的hae罕見病風險預測評分,包括:
23、獲取當前患者對應的所述當前病歷數(shù)據(jù)和歷史病歷數(shù)據(jù),并對所述當前病歷數(shù)據(jù)和歷史病歷數(shù)據(jù)進行預處理,得到數(shù)據(jù)集結果;
24、調用所述hae罕見病風險預測模型對所述數(shù)據(jù)集結果進行預測,以輸出所述當前患者對應的hae罕見病風險對應的概率值。
25、在其中一個實施例中,所述方法還包括:
26、按照所述概率值的大小對所述概率值進行排序,得到概率值序列,并通過isotonic回歸將所述概率值序列擬合為相應的單調非遞減函數(shù),以對所述概率值進行校準。
27、在其中一個實施例中,所述將當前患者預處理后的病歷數(shù)據(jù)作為所述hae罕見病風險預測模型的輸入,以輸出所述病歷數(shù)據(jù)對應的hae罕見病風險預測評分,之后包括:
28、基于所述hae罕見病風險預測評分,將所述當前患者分為不同的風險等級,所述風險等級至少包括第一風險等級、第二風險等級以及第三風險等級。
29、在其中一個實施例中,所述第一風險等級為所述hae罕見病風險預測評分超過第三閾值時對應的風險等級,所述第二風險等級為所述hae罕見病風險預測評分處于第三閾值與第四閾值之間時對應的風險等級,所述第三風險等級為所述hae罕見病風險預測評分低于第四閾值時對應的風險等級,且所述第三閾值和第四閾值均為根據(jù)臨床需要和統(tǒng)計進行預設得到的。
30、本發(fā)明還提供了一種基于ai的hae罕見病風險預測裝置,所述裝置包括:
31、大模型微調模塊,用于獲取網絡上公開的醫(yī)療數(shù)據(jù),并對所述醫(yī)療數(shù)據(jù)進行預處理,以通過預處理后的所述醫(yī)療數(shù)據(jù)對開源llama3基座模型進行訓練微調,所述預處理包括數(shù)據(jù)清洗和數(shù)據(jù)劃分;
32、知識蒸餾模塊,用于從所述開源llama3基座模型中提取hae疾病醫(yī)療知識,并將所述hae疾病醫(yī)療知識作為訓練數(shù)據(jù)輸入至微調后的所述開源llama3基座模型,以輸出所述hae疾病醫(yī)療知識對應的第一風險概率分布;
33、輸出差異計算模塊,用于將所述訓練數(shù)據(jù)作為tinybert模型的輸入,以輸出所述hae疾病醫(yī)療知識對應的第二風險概率分布,并調用交叉熵損失函數(shù)計算所述第一風險概率分布與第二風險概率分布之間的差異;
34、小模型微調模塊,用于通過反向傳播算法計算所述差異的梯度,并使用優(yōu)化器更新所述tinybert模型的參數(shù),以對所述tinybert模型進行迭代訓練和微調,得到hae罕見病風險預測模型;
35、hae罕見病風險預測模塊,用于將當前患者預處理后的病歷數(shù)據(jù)作為所述hae罕見病風險預測模型的輸入,以輸出所述病歷數(shù)據(jù)對應的風險預測評分,所述風險預測評分用于表征當前患者hae罕見病的概率。
36、本發(fā)明還提供了一種電子設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如上述任一種所述的基于ai的hae罕見病風險預測方法。
37、本發(fā)明還提供了一種計算機存儲介質,存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述的基于ai的hae罕見病風險預測方法。
38、本發(fā)明還提供了一種計算機程序產品,包括計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述的基于ai的hae罕見病風險預測方法。
39、上述基于ai的hae罕見病風險預測方法及裝置,通過獲取網絡上公開的醫(yī)療數(shù)據(jù),并對該醫(yī)療數(shù)據(jù)進行數(shù)據(jù)清洗和數(shù)據(jù)劃分的預處理,以通過預處理后的醫(yī)療數(shù)據(jù)對開源llama3基座模型進行訓練微調。再從開源llama3基座模型中提取hae疾病醫(yī)療知識,并將hae疾病醫(yī)療知識作為訓練數(shù)據(jù)輸入至微調后的開源llama3基座模型,以輸出hae疾病醫(yī)療知識對應的一個風險概率分布。將訓練數(shù)據(jù)作為tinybert模型的輸入,以輸出hae疾病醫(yī)療知識對應的另一個風險概率分布,并調用交叉熵損失函數(shù)計算這兩個風險概率分布之間的差異。隨后,通過反向傳播算法計算所述差異的梯度,并使用優(yōu)化器更新tinybert模型的參數(shù),以對tinybert模型進行迭代訓練和微調,得到hae罕見病風險預測模型。最后,將當前患者預處理后的病歷數(shù)據(jù)作為hae罕見病風險預測模型的輸入,以輸出病歷數(shù)據(jù)對應的hae罕見病風險預測評分以表征當前患者hae罕見病的概率。該方法基于ai的方式,識別患者所有在院病歷信息(從入院到出院)進行hae風險預測,在保證篩查全面性的同時,不容易因為人工失誤而遺漏信息,提高了罕見病風險的篩查效率和篩查準確率,且智能化程度較高。