本發(fā)明涉及生物信息學、機器學習和醫(yī)療,特別是基于dqn強化學習的癌癥患者基因甲基化特征篩選方法,屬于人工智能在醫(yī)學數(shù)據(jù)分析中的應用。
背景技術:
1、隨著基因組學和生物信息學技術的迅速發(fā)展,基因甲基化作為一種重要的表觀遺傳修飾形式,已被廣泛研究并證實在癌癥的發(fā)生和發(fā)展過程中發(fā)揮著關鍵作用?;蚣谆卣鞯淖兓粌H與癌癥的早期診斷密切相關,還可用于預測患者的預后及個性化治療的效果。然而,基因甲基化數(shù)據(jù)通常具有高維度和高度冗余性,如何從中篩選出與癌癥相關的關鍵特征,成為了癌癥研究和精準醫(yī)療中的一個重要挑戰(zhàn)。傳統(tǒng)的特征篩選方法,如基于統(tǒng)計分析或機器學習的特征選擇算法,雖然在一定程度上能夠減少數(shù)據(jù)的維度并提高模型的預測能力,但這些方法通常依賴于預先設定的假設或模型結構,難以動態(tài)地適應數(shù)據(jù)分布的變化。此外,許多傳統(tǒng)方法在處理大規(guī)模高維數(shù)據(jù)時表現(xiàn)出計算效率低下和易于過擬合等問題,限制了其在實際應用中的效果。近年來,強化學習特別是深度q網(wǎng)絡(dqn)在復雜決策問題中的成功應用,為高維數(shù)據(jù)的特征篩選提供了新的解決方案。dqn通過結合深度學習和強化學習的優(yōu)勢,能夠在不確定和動態(tài)變化的環(huán)境中,通過與環(huán)境的交互不斷優(yōu)化策略,從而自動選擇最優(yōu)的行動序列。將dqn應用于基因甲基化特征篩選,能夠有效應對高維數(shù)據(jù)的復雜性,動態(tài)調整特征選擇策略,以最大化模型的預測準確性。
技術實現(xiàn)思路
1、基于上述背景,本發(fā)明提出了一種基于dqn強化學習的癌癥患者基因甲基化特征篩選方法。該方法通過構建dqn模型,將特征篩選問題轉化為強化學習問題,以最大化預測準確性為目標,動態(tài)選擇最具代表性的甲基化特征,從而有效減少特征維度,提高癌癥診斷和預后模型的泛化能力,并在癌癥的早期診斷、個性化治療及預后評估中具有廣泛應用前景。
2、為了達到上述目的,本發(fā)明所采用的技術方案是:
3、基于dqn強化學習的癌癥患者基因甲基化特征篩選方法,包括:數(shù)據(jù)預處理模塊、dqn強化學習模塊、特征提取模塊以及高低風險組與生存時間分類模塊;
4、所述數(shù)據(jù)預處理模塊,用于對基因甲基化數(shù)據(jù)進行預處理,將數(shù)據(jù)劃分為兩部分:甲基化程度數(shù)據(jù)、生存期和生存狀態(tài)數(shù)據(jù),預處理后的甲基化程度數(shù)據(jù)將傳輸至dqn強化學習模塊;
5、所述dqn強化學習模塊,用于使用深度q網(wǎng)絡(dqn)算法進行強化學習,建立并優(yōu)化特征選擇策略,以生成用于篩選關鍵甲基化特征的價值矩陣,并將此價值矩陣傳輸至特征提取模塊;
6、所述特征提取模塊,用于利用dqn強化學習模塊生成的價值矩陣從預處理后的甲基化程度數(shù)據(jù)中提取特征,具體是將每位癌癥患者的甲基化程度矩陣與價值矩陣相乘,得到每位患者的風險值矩陣,按風險值降序排列,然后傳輸至高低風險組與生存時間分類模塊;
7、所述高低風險組與生存時間分類模塊,用于將排序后的數(shù)據(jù)劃分為高風險組和低風險組,并通過log-rank檢驗比較高風險組與低風險組的生存曲線,計算p值;如果p值小于0.05,則認為模型具有統(tǒng)計學意義。
8、進一步的:
9、所述dqn強化學習模塊,包括如下步驟:
10、1)環(huán)境初始化:定義一個自定義的強化學習環(huán)境,包括狀態(tài)空間和動作空間的定義;
11、2)狀態(tài)更新與獎勵計算:在每一步中,通過選擇特定的動作來更新當前狀態(tài),并計算相應的獎勵,獎勵函數(shù)基于患者生存數(shù)據(jù)的log-rank檢驗結果,定義為1減p值的結果;
12、3)神經(jīng)網(wǎng)絡構建與訓練:構建一個dqn網(wǎng)絡,包含兩個全連接層,分別用于輸入狀態(tài)和輸出動作的q值估計,使用均方誤差(mse)損失函數(shù)和adam優(yōu)化器對網(wǎng)絡進行訓練,訓練過程中,通過經(jīng)驗回放池存儲狀態(tài)、動作、獎勵和下一狀態(tài)的樣本,并通過批量隨機采樣進行學習;
13、4)動作選擇策略:在訓練過程中,使用epsilon-greedy策略選擇動作,當epsilon為0.9時,優(yōu)先選擇當前q值最大的動作;否則,隨機選擇一個動作;
14、5)q值更新:通過bellman方程更新q值,q值更新的目標是使得當前q值接近目標q值,目標q值由即時獎勵和下一狀態(tài)的最大q值計算得到;
15、6)目標網(wǎng)絡同步:在每次執(zhí)行固定次數(shù)的學習后,將評估網(wǎng)絡的參數(shù)同步到目標網(wǎng)絡中,以穩(wěn)定訓練過程;
16、7)模型訓練與迭代:在多個訓練回合中,持續(xù)執(zhí)行動作選擇、狀態(tài)更新、獎勵計算和網(wǎng)絡參數(shù)更新的循環(huán),直至強化學習收斂,每個回合結束后,根據(jù)訓練結果更新最優(yōu)特征子集;
17、8)輸出最優(yōu)特征子集:在訓練完成后,輸出最優(yōu)的特征子集,用于后續(xù)的癌癥患者高/低風險組與生存時間的分類;
18、9)根據(jù)特征子集形成指導臨床的生存特征集,提高癌癥診斷和預后模型的泛化能力。
19、更進一步地,所述dqn強化學習模塊通過以下公式來更新q值和優(yōu)化模型參數(shù):
20、1)q值計算公式:
21、q(s,a)=dqneval(s,a)
22、其中,q(s,a)是在狀態(tài)s下采取動作a的q值,dqneval是評估網(wǎng)絡模型,用于計算當前狀態(tài)和動作下的q值;
23、2)目標q值計算公式:
24、
25、其中,r是在狀態(tài)s下采取動作a后的即時獎勵,γ是折扣因子(折扣率),是在下一個狀態(tài)s′下的最大q值,通過目標網(wǎng)絡(dqntarget)計算得到;
26、3)損失函數(shù)計算公式:
27、
28、其中,n是批量數(shù)據(jù)的大小,損失函數(shù)用于計算當前評估網(wǎng)絡的q值與目標q值之間的均方誤差,以優(yōu)化模型參數(shù);
29、4)q網(wǎng)絡參數(shù)更新公式:
30、
31、其中,θeval是評估網(wǎng)絡的參數(shù),α是學習率,是損失函數(shù)對評估網(wǎng)絡參數(shù)的梯度,用于更新模型參數(shù)以減少損失;
32、5)目標網(wǎng)絡參數(shù)更新公式:
33、θtarget←θeval
34、其中,θtarget是目標網(wǎng)絡的參數(shù),每經(jīng)過設定的學習步驟(如每100次學習),將評估網(wǎng)絡的參數(shù)直接賦值給目標網(wǎng)絡,以穩(wěn)定訓練過程。
35、所述dqn強化學習模塊包括一個經(jīng)驗回放機制,該機制用于存儲和管理訓練過程中的經(jīng)驗。具體而言,經(jīng)驗回放機制維護一個內存數(shù)組,用于保存狀態(tài)-動作-獎勵-下一個狀態(tài)的四元組。在每次訓練過程中,該機制會將新的經(jīng)驗添加到內存中,并根據(jù)經(jīng)驗池的大小進行循環(huán)存儲。為了提高訓練的穩(wěn)定性和泛化能力,經(jīng)驗回放機制會從經(jīng)驗池中隨機抽取一個批量的數(shù)據(jù)進行訓練。這種隨機抽樣的方式打破了數(shù)據(jù)之間的相關性,有助于減少模型的過擬合現(xiàn)象并加速模型的收斂。此外,dqn還定期更新目標網(wǎng)絡,以確保學習過程中的穩(wěn)定性和效果。
36、dqn強化學習模塊在訓練過程中,通過執(zhí)行以下步驟以優(yōu)化模型性能:
37、首先,從經(jīng)驗池中隨機抽取一批樣本,樣本包含狀態(tài)-動作-獎勵-下一個狀態(tài)的四元組;然后,使用神經(jīng)網(wǎng)絡模型(評估網(wǎng)絡)計算當前狀態(tài)下每個可能動作的q值;接著,使用目標網(wǎng)絡計算下一個狀態(tài)的最大q值,作為目標q值的基礎;通過最小化當前q值和目標q值之間的均方誤差來優(yōu)化評估網(wǎng)絡的參數(shù);每經(jīng)過數(shù)次學習后,目標網(wǎng)絡的參數(shù)將被更新為評估網(wǎng)絡的最新參數(shù),從而保持訓練過程的穩(wěn)定性和準確性。這種定期更新機制確保了目標網(wǎng)絡與評估網(wǎng)絡的一致性,提升了dqn算法的訓練效果和特征篩選的質量。
38、所述特征提取模塊具體包括以下步驟:
39、將每位患者的甲基化數(shù)據(jù)矩陣乘以一個價值矩陣,以獲得每個患者的風險值。然后,將所有患者的風險值按降序排列,生成風險值矩陣中,計算公式如下:
40、mi=xi·v;
41、h=(h1',h'2,…,hi',…,h'n-1,h'n),h1'≥h'2≥…≥hi'≥…≥h'n-1≥h'n;
42、其中xi位第i個病人的甲基化數(shù)據(jù)矩陣,v為價值矩陣,mi為第i個病人風險矩陣,h為將所有風險值按降序排列的風險值矩陣。
43、本發(fā)明的有益效果在于:通過基于dqn強化學習的特征篩選方法,有效提高了基因甲基化特征選擇的精度,減少了冗余特征,降低了模型復雜度和過擬合風險,從而提高了模型的泛化能力。此外,該方法能夠動態(tài)優(yōu)化特征篩選策略,提升了篩選過程的效率和準確性,在癌癥的早期診斷、個性化治療及預后評估中具有廣泛的應用前景。