一種提高藥物不良反應預測精度的方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種提高藥物不良反應預測精度的方法及系統(tǒng),該方法包括S1:將已知病人的特征向量和與其對應的某一藥品的不良反應類別組成數(shù)據(jù)樣本集,并將數(shù)據(jù)樣本集分成多組第一數(shù)據(jù)樣本子集;S2:基于各組第一樣本數(shù)據(jù)子集訓練對應的基分類器,并生成表示該分類結果正確性的多組第二數(shù)據(jù)樣本子集;S3:基于各組第二數(shù)據(jù)樣本子集分別訓練多組判斷結果分類器;S4:向訓練后的基分類器和判斷結果分類器輸入相同未知病人的特征向量,并獲得第一分類結果集以及第二分類結果集;S5:對步驟S4中獲得的各第一分類結果集和各第二分類結果集進行統(tǒng)計分析得到藥物不良反應的預測結果。本發(fā)明使用集成分類器有效地提高了藥物不良反應的預測精度。
【專利說明】
-種提高藥物不良反應預測精度的方法及系統(tǒng)
技術領域
[0001] 本發(fā)明設及醫(yī)學數(shù)據(jù)處理和機器學習領域,尤其設及一種使用集成分類器提高藥 物不良反應預測精度的方法及系統(tǒng)。
【背景技術】
[0002] 藥物不良反應指藥品在預防、診斷、治病或調(diào)節(jié)生理功能的正常用法用量下,出現(xiàn) 的有害的和意料之外的反應。據(jù)統(tǒng)計,我國住院病人發(fā)生藥物不良反應的比例為10%~ 30 %,每年約有超過500萬人次因藥物不良反應而住院,因藥物不良反應而死亡人數(shù)約19.2 萬人。目前,藥物不良反應事件數(shù)目呈急劇上升趨勢,為臨床合理用藥帶來了困難。
[0003] 我國乃至世界各國已建立了基本的藥物不良反應定期報告制度,所收集到的海量 藥物不良反應報告包含了關于不良反應、藥品和用藥人群特征的海量數(shù)據(jù)。對于特定的某 類藥品,可使用決策樹、支持向量機、神經(jīng)網(wǎng)絡等眾多的分類器的一種,根據(jù)輸入的病人的 特征數(shù)據(jù)預測可能出現(xiàn)的藥物不良反應,為臨床合理用藥提供指導或預警,但由于實際中 海量數(shù)據(jù)集中樣本數(shù)量很大,使用其訓練一個分類器易造成過擬合現(xiàn)象,使分類測試結果 與期望結果大相徑庭,從而降低了藥物不良反應的預測精度。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明所要解決的技術問題是提供一種能夠提高藥物不良反應預測精度的方法 及系統(tǒng)。
[0005] 為了解決上述技術問題,本發(fā)明提供了如下的技術方案:
[0006] -種提高藥物不良反應預測精度的方法,包括W下步驟:
[0007] S1:將已知病人的特征向量和與其對應的某一藥品的不良反應類別組成數(shù)據(jù)樣本 集,并將所述數(shù)據(jù)樣本集分成多組第一數(shù)據(jù)樣本子集;
[000引S2:基于各組所述第一樣本數(shù)據(jù)子集訓練對應的基分類器,并基于所述基分類器 的分類結果生成表示該分類結果正確性的多組第二數(shù)據(jù)樣本子集;
[0009] S3:基于各組所述第二數(shù)據(jù)樣本子集分別訓練多組判斷結果分類器;
[0010] S4:向訓練后的所述基分類器和所述判斷結果分類器輸入相同未知病人的特征向 量,并由各組所述基分類器輸出第一分類結果集W及由所述判斷結果分類器輸出表示所述 基分類器分類正確性的第二分類結果集;
[0011] S5:對步驟S4中獲得的各所述第一分類結果集和各第二分類結果集進行統(tǒng)計分 析,得到對應于輸入的未知病人的特征向量的藥物不良反應的預測結果。
[0012] 作為優(yōu)選,所述步驟S2進一步包括:
[0013] S21:將各組所述第一數(shù)據(jù)樣本子集分成兩部分,并利用其中一部分第一數(shù)據(jù)樣本 子集訓練對應的所述基分類器;
[0014] S22:向訓練后的所述基分類器中輸入另一部分第一數(shù)據(jù)樣本子集中的特征向量, 并輸出通過所述基分類器分類后的藥物不良反應類別;
[0015] S23:判斷所述基分類器分類出的藥物不良反應類別的正確性,w生成表示所述正 確性的第一標簽,且所述第二數(shù)據(jù)樣本子集由輸入的所述特征向量和生成所述第一標簽組 成的樣本對構成。
[0016] 作為優(yōu)選,所述步驟S23進一步包括:
[0017] S231:設置索引值為i,且i = l;
[0018] S232:構建空的訓練樣本集;
[0019] S233:針對當前索引值i,使用步驟S21中得到的另一部分第一數(shù)據(jù)樣本子集中的 特征向量和與其存在已知確定關系的藥物不良反應類別組成的樣本對,判斷向所述基分類 器中輸入所述特征向量時,所述基分類器輸出的藥物不良反應類別與所述特征向量對應的 藥物不良反應類別是否一致,W生成所述第一標簽,并將所述特征向量和第一標簽組成的 樣本對添加到空的訓練樣本集中;
[0020] S234:對索引值加1,重復執(zhí)行S232和S233直到索引值i>N,其中N表示另一部分第 一數(shù)據(jù)樣本子集中的樣本對的個數(shù),且所述訓練樣本集構成第二數(shù)據(jù)樣本子集。
[0021] 作為優(yōu)選,步驟S23中,當所述基分類器輸出的藥物不良反應類別與所輸入的特征 向量對應的藥物不良反應類別一致,第一標簽為1,否則,第一標簽為0。
[0022] 作為優(yōu)選:所述步驟S4中,所述第二分類結果集由輸入的未知病人的特征向量W 及表示所述基分類器的分類結果的正確性的第二標簽構成。
[0023] 作為優(yōu)選,所述步驟S4進一步配置為當所述結果判決分類器判斷為所述基分類器 的分類結果為正確時,則第二標簽為1,否則第二標簽為0。
[0024] 作為優(yōu)選于,所述步驟S5包括:
[0025] S51:對于步驟S4得到的第二分類結果集,若其中不存在判斷所述基分類器分類正 確的第二標簽,則執(zhí)行步驟S52,否則執(zhí)行步驟S53;
[0026] S52:按出現(xiàn)頻次數(shù)對步驟S4得到的各第一分類結果集中表示所述特征向量的不 良反應類別進行投票,并將得票數(shù)最多的不良反應類別表示的藥物不良反應作為輸入的未 知病人特征向量的藥物不良反應預測結果;
[0027] S53:從第二分類結果中查詢出表示所述基分類器分類錯誤的第二標簽,并刪除對 應于該第二標簽的特征向量在所述第一分類結果集中的數(shù)據(jù)樣本對,W形成新的第一分類 結果集,并按出現(xiàn)頻次數(shù)對所述新的第一分類結果集中表示所述特征向量的不良反應類別 進行投票,并將得票數(shù)最多的不良反應類別表示的藥物不良反應作為輸入的未知病人特征 向量的藥物不良反應預測結果。
[0028] 本發(fā)明還提供了一種提高藥物不良反應預測精度的系統(tǒng),應用如上所述的一種提 高藥物不良反應預測精度的方法,且所述系統(tǒng)包括:
[0029] 數(shù)據(jù)預處理部,其配置為將已知病人的特征向量和與其對應的某一藥品的不良反 應類別組成數(shù)據(jù)樣本集,并將所述數(shù)據(jù)樣本集分成多組第一數(shù)據(jù)樣本子集;
[0030] 多個基分類器,其配置為分別通過對應的第一數(shù)據(jù)樣本子集進行訓練,并輸出分 類后的對應于所述特征向量的不良反應類別,由所輸入的特征向量W及輸出的不良反應類 別構成第一分類結果集;
[0031] 訓練樣本生成器,其基于所述第一數(shù)據(jù)樣本子集W及所述基分類器的輸出結果, 生成表示所述基分類器分類正確性的第二數(shù)據(jù)樣本;
[0032] 多個結果判斷分類器,其配置為基于所述第二數(shù)據(jù)樣本子集進行訓練,且訓練后 的結果判斷分類器基于所輸入的特征向量,生成表示所述基分類器分類正確性的第二分類 結果集;
[0033] 結果分析部,其配置為在向所述基分類器和結果判斷分類器輸入未知病人的特征 向量時,對獲得的第一分類結果集和第二分類結果集進行統(tǒng)計分析,W得到對應于輸入的 未知病人的特征向量的藥物不良反應的預測結果。
[0034] 作為優(yōu)選,所述基分類器配置為利用所述第一數(shù)據(jù)樣本子集中的一部分數(shù)據(jù)樣本 進行訓練,且訓練后的基分類器輸出對應于另一部分數(shù)據(jù)樣本中的特征向量的藥物反應類 別;
[0035] 且所述訓練樣本生成器基于所述基分類器對所述另一部分數(shù)據(jù)樣本的藥物反應 類別的分類結果,生成表示所述正確性的第一標簽,所述特征向量W及對應的第一標簽構 成所述第二數(shù)據(jù)樣本子集。
[0036] 作為優(yōu)選,所述結果分析部進一步配置為基于所述第二分類結果集中是否存在表 示所述基分類器的分類結果正確的第二標簽,對所述第一分類結果集進行統(tǒng)計分析,W得 到對應于輸入的未知病人的特征向量的藥物不良反應的預測結果。
[0037] 與現(xiàn)有技術相比,本發(fā)明的有益效果在于:
[0038] 1、本發(fā)明可W通過將基分類器和結果判決分類器集成的方式對輸入的使用某類 藥品的病人特征數(shù)據(jù)進行分類,相比于單個分類器其分類預測結果精度更高;
[0039] 2、本發(fā)明分類器集成方式采用并行結構,數(shù)據(jù)訓練和測試運行可并行進行,與單 個分類器相比其適合處理海量的數(shù)據(jù)樣本集,因此效率更高。
【附圖說明】
[0040] 圖1為本發(fā)明實施例中的一種提高藥物不良反應預測精度的方法的原理流程圖; [0041 ]圖2為圖1中步驟S2的原理流程圖;
[0042] 圖3為圖2中的步驟S23的原理流程圖;
[0043] 圖4為圖1中步驟S5的原理流程圖;
[0044] 圖5為本發(fā)明實施例中的一種提高藥物不良反應預測精度的系統(tǒng)的原理框圖。
[0045] 附圖標記說明
[0046] 101-數(shù)據(jù)預處理部 102-基分類器
[0047] 103-訓練樣本生成器104-判斷結果分類器 [004引105-結果分析部
【具體實施方式】
[0049] 下面,結合附圖對本發(fā)明的實施例進行進一步的說明,但不作為本發(fā)明的限定。
[0050] 需要說明的是,在附圖或說明書描述中,相似或相同的部分都使用相同的圖號。附 圖中未繪示或描述的實現(xiàn)方式,為所屬技術領域中普通技術人員所知的形式。另外,雖然本 文可提供包含特定值的參數(shù)的示范,但應了解,參數(shù)無需確切等于相應的值,而是可在可接 受的誤差容限或設計約束內(nèi)近似于相應的值。
[0051] 本發(fā)明提供了一種能夠提高藥物不良反應預測精度的方法,該方法中采用集成分 類器的方式,如集成分類器和結果判斷分類器的方式,通過對輸入的使用某類藥品的病人 特征數(shù)據(jù)進行分類,相比于單個分類器其分類預測結果精度更高;而且,本發(fā)明實施例中采 用的是并行集成的方式,數(shù)據(jù)訓練和測試運行可并行進行,與單個分類器相比其適合處理 海量的數(shù)據(jù)樣本集,因此數(shù)據(jù)處理的效率更高。
[0052] 如圖1所示,為本發(fā)明實施例中的一種提高藥物不良反應預測精度的方法的原理 流程圖,其中可W包括W下步驟:
[0053] S1:將已知病人的特征向量和與其對應的某一藥品的不良反應類別組成數(shù)據(jù)樣本 集,并將所述數(shù)據(jù)樣本集分成多組第一數(shù)據(jù)樣本子集;如對某一類藥品,將某個已知的病人 特征向量兩和與此病人特征存在已知確定關系的藥物不良反應類別yj組成樣本對(馬,少V), 將所有已知的樣本對構成數(shù)據(jù)樣本集D,并可W將D等分成N個第一數(shù)據(jù)樣本子集化,..., Dn;
[0054] S2:基于各組第一樣本數(shù)據(jù)子集訓練對應的基分類器,并基于對應的基分類器的 分類結果生成表示該分類結果正確性的多組第二數(shù)據(jù)樣本子集;例如,本實施例中可W分 別使用步驟S1得到的N個第一數(shù)據(jù)樣本子集化,...,Dn對N個不同的基分類器進行訓練, 每個基分類器的輸入均為病人特征向量,輸出均為藥物不良反應類別預測結果,在訓練過 程中,可W構建N個第二數(shù)據(jù)樣本子集化/,化/,...,〇/ N,其中,第i個第二數(shù)據(jù)樣本子集Di' 是第i個第一數(shù)據(jù)樣本子集化中的病人特征樣本與表征其被第i個基分類器Cl分類后結果是 否正確的標簽所組成的樣本對的集合;
[0055] S3:基于步驟S2中得到的各組所述第二數(shù)據(jù)樣本子集化/,化/,. . .,Ο^Ν分別訓練N 個不同的判斷結果分類器Ει,Ε2, . . .,Εν;
[0056] 其中,結果判決分類器El,Ε2, . . .,Εν的輸入均為病人特征向量,輸出均為標簽"Γ 或"0",其中標簽"Γ表示的是判決正確的標簽,標簽"0"表示的是判決錯誤的標簽。
[0化7] S4:向訓練后的所述基分類器Ci,C2, . . .,Cn和所述判斷結果分類器Ει,Ε2, . . .,Εν輸 入相同未知病人的特征向量3Τ,并由各組基分類器Cl, C2, ...,Cn輸出第一分類結果集 問;?),(;(?),..,(;,片)},從及由所述判斷結果分類器輸出表示所述基分類器。瓜,...向 分類正確性的第二分類結果集{6護),與護該第二分類結果集 5 {£;(λ:'),£·: 口 ),·..,£\.護)'[由輸入的未知病人的特征向量W及表示所述基分類器的分類結 果的正確性的第二標簽構成。并且當所述結果判決分類器判斷為所述基分類器的分類結果 為正確時,則第二標簽為1,否則第二標簽為0。
[0化引S5:對步驟S4中獲得的各所述第一分類結果集{qp),C巧,..,?,(方和各第二分 類結果集{寫巧),馬提),...:?(勞)}進行統(tǒng)計分析,得到對應于輸入的未知病人的特征向 量的藥物不良反應的預測結果。
[0059] 本實施例中,對于基分類器的訓練是利用第一數(shù)據(jù)樣本子集化,...,Dn完成的, 如圖2所示,為本發(fā)明實施例中的步驟S2的原理流程圖;其中,所述步驟S2可W進一步包括:
[0060] S21:將生成的各組第一數(shù)據(jù)樣本子集化,...,Dn分成兩部分,并利用其中一部 分第一數(shù)據(jù)樣本子集訓練對應的所述基分類器;如,本實施例中可W將第一數(shù)據(jù)樣本子集 化,〇2,. . .,Dn中的數(shù)據(jù)樣本均分,但仍然是N組數(shù)據(jù)樣本子集,只是每組中的數(shù)據(jù)樣本被分 成兩部分,并利用其中一部分對基分類器進行訓練。
[0061] S22:向訓練后的基分類器中輸入剩余的另一部分第一數(shù)據(jù)樣本子集中的特征向 量,并輸出通過所述基分類器分類后的藥物不良反應類別;
[0062] S23:判斷所述基分類器分類出的藥物不良反應類別的正確性,W生成表示所述正 確性的第一標簽,且所述第二數(shù)據(jù)樣本子集由輸入的所述特征向量和生成所述第一標簽組 成的樣本對構成。其中,在通過基分類器分類后的藥物不良反應類別正確時,生成的第一標 簽為1,否則第一標簽為0。
[0063] 另外,如圖3所示,為上述步驟S23的原理流程圖。其中,步驟S23進一步包括:
[0064] S231:設置索引值為i,且i = l;
[00化]S232:構建空的訓練樣本集化/ ;
[0066] S233:針對當前索引值i,使用步驟S21中得到的另一部分第一數(shù)據(jù)樣本子集中的 特征向量采和與其存在已知確定關系的藥物不良反應類別y組成的樣本對(王,_>';),判斷向基 分類器Cl中輸入特征向量友時,基分類器輸出Cl的藥物不良反應類別Ci (X)與特征向量勞 對應的藥物不良反應類別是否一致,W生成所述第一標簽,并將所述特征向量和第一標簽 組成的樣本對添加到空的訓練樣本集D/中;若分類結果= ,則將一個新的樣本對 片1)添加到訓練樣本集Di'中,若分類結果則將一個新的樣本對片0)添加到 訓練樣本集化/中,其中,第一標簽"Γ表示病人特征向量克被基分類器Cl分類后的結果與已 知類別一致,第一標簽"0"表示病人特征向量文被基分類器Cl分類后的結果與已知類別不 同;
[0067] S234:對索引值加1,重復執(zhí)行S232和S233直到索引值i>N,其中N表示另一部分第 一數(shù)據(jù)樣本子集中的樣本對的個數(shù),且所述訓練樣本集化/,化/,...構成第二數(shù)據(jù)樣本 子集。
[006引如圖4所示,為圖1中步驟S5的原理流程圖。其中步驟S5可W包括:
[0069] S51:對于步驟S4得到的第二分類結果集Ει,Ε2, . . .,Εν,若其中不存在判斷所述基 分類器分類正確的第二標簽,則執(zhí)行步驟S52,否則執(zhí)行步驟S53;
[0070] S52:按出現(xiàn)頻次數(shù)對步驟S4得到的各第一分類結果集{?巧,?巧,..爲巧}中 表示所述特征向量的不良反應類別y進行投票,并將得票數(shù)最多的不良反應類別表示的藥 物不良反應作為輸入的未知病人特征向量的藥物不良反應預測結果;
[0071] S53:從第二分類結果中查詢出表示所述基分類器分類錯誤的第二標簽,并刪除對 應于該第二標簽的特征向量在所述第一分類結果集中的數(shù)據(jù)樣本對,W形成新的第一分類 結果集,并按出現(xiàn)頻次數(shù)對所述新的第一分類結果集中表示所述特征向量的不良反應類別 進行投票,并將得票數(shù)最多的不良反應類別表示的藥物不良反應作為輸入的未知病人特征 向量的藥物不良反應預測結果。也就是說,如果第i個結果判決分類器分類結果馬表示 的是判決錯誤的第二標簽,則將步驟S4得到的對應索引的第i個基分類器分類結果?(萬)從 、問巧片巧,..,C鳳!中剔除,i = l,2,...,N,設共剔除了L個分類結果,最后將剩余的N-L 個基分類器分類結果表示的類別按出現(xiàn)頻次進行投票,得票數(shù)最多的類別y表示的藥物不 良反應即為對應于輸入的未知病人特征向量r的藥物不良反應預測結果。
[0072] 本發(fā)明還提供了一種能夠提供藥物不良反應預測精度的系統(tǒng),該系統(tǒng)可W應用如 上所述的提供藥物不良反應預測精度的,如圖5所示,為本發(fā)明實施例一種能夠提供藥物不 良反應的預測精度的系統(tǒng)的原理框圖,該系統(tǒng)中使用集成分類器的方式來提高藥物不良反 應預測精度,其中,通過多個基分類器102和結果判決分類器104集成的方式,構成了本實施 例中的集成分類器,可有效提升藥物不良反應分類預測的精度。
[0073] 本實施例中的所述系統(tǒng)可W包括:數(shù)據(jù)預處理部101、多個基分類器102、訓練樣本 生成器103、多個結果判斷分類器104和結果分析部105,其中,數(shù)據(jù)預處理部101可W將已知 病人的特征向量和與其對應的某一藥品的不良反應類別組成數(shù)據(jù)樣本集,并將該數(shù)據(jù)樣本 集分成多個第一數(shù)據(jù)樣本子集;本實施例中可W采用均分的方式獲得多個第一數(shù)據(jù)樣本子 集,即多個第一數(shù)據(jù)樣本子集中的數(shù)據(jù)樣本對的個數(shù)是相同的。
[0074] 每個第一數(shù)據(jù)樣本子集與一個基分類器102對應連接,并且可W通過第一數(shù)據(jù)樣 本子集對基分類器102進行訓練,并且訓練后的基分類器還可W基于輸入的病人的特征向 量輸出通過基分類器102分類后的對應于所述特征向量的不良反應類別,并且,由所輸入的 特征向量W及輸出的不良反應類別構成第一分類結果集。優(yōu)選的,數(shù)據(jù)預處理部101可W將 每組第一數(shù)據(jù)樣本子集中的數(shù)據(jù)樣本分為兩部分,其中一部分用于訓練基分類器,另一部 分用于生成用于訓練結果判斷分類器的第二數(shù)據(jù)樣本。該另一部的第一數(shù)據(jù)樣本子集中的 特征向量作為訓練后的基分類器102的輸入,經(jīng)過學習優(yōu)化后輸出對應于該特征向量的藥 物不良反應類別。
[0075] 訓練樣本生成器103則可W基于第一數(shù)據(jù)樣本子集W及基分類器102輸出的藥物 不良反應類別,生成表示基分類器102分類正確性的第二數(shù)據(jù)樣本集。該第二數(shù)據(jù)樣本集可 W由輸入基分類器102中的病人的特征向量W及表示輸出的藥物不良反應是否正確的第一 標簽組成的樣本對的集合構成。每個基分類器的輸出都對應了一個第二數(shù)據(jù)樣本子集,且 其中第一標簽為1時,表示基分類器102的分類結果正確,第一標簽為0時,表示基分類器的 分類結果錯誤。形成第二數(shù)據(jù)樣本子集后,可W完成對結果判斷分類器104的訓練。
[0076] 其中,訓練樣本生成器103生成第二數(shù)據(jù)樣本自己的過程可W包括:
[0077] 設置索引值為i,且i = l;
[007引構建空的訓練樣本集化/;
[0079] 針對當前索引值i,使用步驟S21中得到的另一部分第一數(shù)據(jù)樣本子集中的特征向 量支和與其存在已知確定關系的藥物不良反應類別y組成的樣本對(^支,少'y,判斷向基分類器 Cl中輸入特征向量壬時,基分類器輸出Cl的藥物不良反應類別。(X)與特征向量無對應的 藥物不良反應類別是否一致,W生成所述第一標簽,并將所述特征向量和第一標簽組成的 樣本對添加到空的訓練樣本集化/中;若分類結果? 二y,則將一個新的樣本對?ミ,リ添 加到訓練樣本集化/中,若分類結果?.?.?) * y,則將一個新的樣本對添加到訓練樣本 集D/中,其中,第一標簽"Γ表示病人特征向量支被基分類器Cl分類后的結果與已知類別一 致,第一標簽"0"表示病人特征向量烹被基分類器Cl分類后的結果與已知類別不同;
[0080] 對索引值加1,重復執(zhí)行S232和S233直到索引值i>N,其中N表示另一部分第一數(shù) 據(jù)樣本子集中的樣本對的個數(shù),且所述訓練樣本集化/,化/,. . .,Ο^Ν構成第二數(shù)據(jù)樣本子 集。
[0081] 結果判斷分類器104可W基于第二數(shù)據(jù)樣本子集進行訓練,且訓練后的結果判斷 分類器104可W用于根據(jù)所輸入的特征向量,生成表示對應于該特征向量基分類器102的分 類正確性的第二分類結果集;具體的,本實施例中第二分類集可W由輸入的病人特征向量 W及通過結果判斷分類器104分類輸出的表示基分類器102的分類結果正確性的第二標簽 構成,該第二標簽為1時,即表示結果判斷分類器104判斷為基分類器102對應于該特征向量 的輸出結果為正確,該第二標簽為0時,即表示結果判斷分類器104判斷為基分類器102對應 于該特征向量的輸出結果為錯誤。
[0082] 結果分析部105可W根據(jù)向基分類器102和結果判斷分類器104輸入未知病人的特 征向量,對獲得的第一分類結果集和第二分類結果集進行統(tǒng)計分析,W得到對應于輸入的 未知病人的特征向量的藥物不良反應的預測結果。本實施例中的結果分析部105還可W基 于第二分類結果集中是否存在表示所述基分類器的分類結果正確的第二標簽,對所述第一 分類結果集進行統(tǒng)計分析,W得到對應于輸入的未知病人的特征向量的藥物不良反應的預 測結果。
[0083] 其中,結果分析部105預測不良反應的過程可W包括:
[0084] 分析得到的第二分類結果集El,Ε2, ...,Εν,若其中不存在判斷所述基分類器分類 正確的第二標簽,則按出現(xiàn)頻次數(shù)對得到的各第一分類結果集{?巧,?巧,..,旬巧}中表 示所述特征向量的不良反應類別y進行投票,并將得票數(shù)最多的不良反應類別表示的藥物 不良反應作為輸入的未知病人特征向量的藥物不良反應預測結果;如果第二分類結果El, E2, ...,En中存在表示基分類器分類正確的第二標簽,則從第二分類結果中查詢出表示所述 基分類器分類錯誤的第二標簽,并刪除對應于該第二標簽的特征向量在所述第一分類結果 集中的數(shù)據(jù)樣本對,W形成新的第一分類結果集,并按出現(xiàn)頻次數(shù)對所述新的第一分類結 果集中表示所述特征向量的不良反應類別進行投票,并將得票數(shù)最多的不良反應類別表示 的藥物不良反應作為輸入的未知病人特征向量的藥物不良反應預測結果。也就是說,如果 第i個結果判決分類器分類結果£;?5':)表示的是判決錯誤的第二標簽,則將步驟S4得到的 對應索引的第i個基分類器分類結果?例從[?巧,?巧,..,每巧}中剔除,i=1,2,..., N,設共剔除了 L個分類結果,最后將剩余的N-L個基分類器分類結果表示的類別按出現(xiàn)頻次 進行投票,得票數(shù)最多的類別y表示的藥物不良反應即為對應于輸入的未知病人特征向量 若的藥物不良反應預測結果。
[0085] W上實施例僅為本發(fā)明的示例性實施例,不用于限制本發(fā)明,本發(fā)明的保護范圍 由權利要求書限定。本領域技術人員可W在本發(fā)明的實質和保護范圍內(nèi),對本發(fā)明做出各 種修改或等同替換,運種修改或等同替換也應視為落在本發(fā)明的保護范圍內(nèi)。
【主權項】
1. 一種提高藥物不良反應預測精度的方法,其特征在于,包括以下步驟: S1:將已知病人的特征向量和與其對應的某一藥品的不良反應類別組成數(shù)據(jù)樣本集, 并將所述數(shù)據(jù)樣本集分成多組第一數(shù)據(jù)樣本子集; S2:基于各組所述第一樣本數(shù)據(jù)子集訓練對應的基分類器,并基于所述基分類器的分 類結果生成表示該分類結果正確性的多組第二數(shù)據(jù)樣本子集; S3:基于各組所述第二數(shù)據(jù)樣本子集分別訓練多組判斷結果分類器; S4:向訓練后的所述基分類器和所述判斷結果分類器輸入相同未知病人的特征向量, 并由各組所述基分類器輸出第一分類結果集以及由所述判斷結果分類器輸出表示所述基 分類器分類正確性的第二分類結果集; S5:對步驟S4中獲得的各所述第一分類結果集和各第二分類結果集進行統(tǒng)計分析,得 到對應于輸入的未知病人的特征向量的藥物不良反應的預測結果。2. 根據(jù)權利要求1所述的方法,其特征在于,所述步驟S2進一步包括: S21:將各組所述第一數(shù)據(jù)樣本子集分成兩部分,并利用其中一部分第一數(shù)據(jù)樣本子集 訓練對應的所述基分類器; S22:向訓練后的所述基分類器中輸入另一部分第一數(shù)據(jù)樣本子集中的特征向量,并輸 出通過所述基分類器分類后的藥物不良反應類別; S23:判斷所述基分類器分類出的藥物不良反應類別的正確性,以生成表示所述正確性 的第一標簽,且所述第二數(shù)據(jù)樣本子集由輸入的所述特征向量和生成所述第一標簽組成的 樣本對構成。3. 根據(jù)權利要求2所述的方法,其特征在于,所述步驟S23進一步包括: 3231:設置索引值為1且1 = 1; S232:構建空的訓練樣本集; S233:針對當前索引值i,使用步驟S21中得到的另一部分第一數(shù)據(jù)樣本子集中的特征 向量和與其存在已知確定關系的藥物不良反應類別組成的樣本對,判斷向所述基分類器中 輸入所述特征向量時,所述基分類器輸出的藥物不良反應類別與所述特征向量對應的藥物 不良反應類別是否一致,以生成所述第一標簽,并將所述特征向量和第一標簽組成的樣本 對添加到空的訓練樣本集中; S234:對索引值加1,重復執(zhí)行S232和S233直到索引值i >N,其中N表示另一部分第一數(shù) 據(jù)樣本子集中的樣本對的個數(shù),且所述訓練樣本集構成第二數(shù)據(jù)樣本子集。4. 根據(jù)權利要求2所述的方法,其特征在于,步驟S23中,當所述基分類器輸出的藥物不 良反應類別與所輸入的特征向量對應的藥物不良反應類別一致,第一標簽為1,否則,第一 標簽為0。5. 根據(jù)權利要求1所述的方法,其特征在于:所述步驟S4中,所述第二分類結果集由輸 入的未知病人的特征向量以及表示所述基分類器的分類結果的正確性的第二標簽構成。6. 根據(jù)權利要求5所述的方法,其特征在于,所述步驟S4進一步配置為當所述結果判決 分類器判斷為所述基分類器的分類結果為正確時,則第二標簽為1,否則第二標簽為0。7. 根據(jù)權利要求1所述的方法,其特征在于,所述步驟S5包括: S51:對于步驟S4得到的第二分類結果集,若其中不存在判斷所述基分類器分類正確的 第二標簽,則執(zhí)行步驟S52,否則執(zhí)行步驟S53; S52:按出現(xiàn)頻次數(shù)對步驟S4得到的各第一分類結果集中表示所述特征向量的不良反 應類別進行投票,并將得票數(shù)最多的不良反應類別表示的藥物不良反應作為輸入的未知病 人特征向量的藥物不良反應預測結果; S53:從第二分類結果中查詢出表示所述基分類器分類錯誤的第二標簽,并刪除對應于 該第二標簽的特征向量在所述第一分類結果集中的數(shù)據(jù)樣本對,以形成新的第一分類結果 集,并按出現(xiàn)頻次數(shù)對所述新的第一分類結果集中表示所述特征向量的不良反應類別進行 投票,并將得票數(shù)最多的不良反應類別表示的藥物不良反應作為輸入的未知病人特征向量 的藥物不良反應預測結果。8. -種提高藥物不良反應預測精度的系統(tǒng),其特征在于,應用如權利要求1-7中任意一 項所述的一種提高藥物不良反應預測精度的方法,且所述系統(tǒng)包括: 數(shù)據(jù)預處理部,其配置為將已知病人的特征向量和與其對應的某一藥品的不良反應類 別組成數(shù)據(jù)樣本集,并將所述數(shù)據(jù)樣本集分成多組第一數(shù)據(jù)樣本子集; 多個基分類器,其配置為分別通過對應的第一數(shù)據(jù)樣本子集進行訓練,并輸出分類后 的對應于所述特征向量的不良反應類別,由所輸入的特征向量以及輸出的不良反應類別構 成第一分類結果集; 訓練樣本生成器,其基于所述第一數(shù)據(jù)樣本子集以及所述基分類器的輸出結果,生成 表示所述基分類器分類正確性的第二數(shù)據(jù)樣本; 多個結果判斷分類器,其配置為基于所述第二數(shù)據(jù)樣本子集進行訓練,且訓練后的結 果判斷分類器基于所輸入的特征向量,生成表示所述基分類器分類正確性的第二分類結果 集; 結果分析部,其配置為在向所述基分類器和結果判斷分類器輸入未知病人的特征向量 時,對獲得的第一分類結果集和第二分類結果集進行統(tǒng)計分析,以得到對應于輸入的未知 病人的特征向量的藥物不良反應的預測結果。9. 根據(jù)權利要求8所述的系統(tǒng),其特征在于,所述基分類器配置為利用所述第一數(shù)據(jù)樣 本子集中的一部分數(shù)據(jù)樣本進行訓練,且訓練后的基分類器輸出對應于另一部分數(shù)據(jù)樣本 中的特征向量的藥物反應類別; 且所述訓練樣本生成器基于所述基分類器對所述另一部分數(shù)據(jù)樣本的藥物反應類別 的分類結果,生成表示所述正確性的第一標簽,所述特征向量以及對應的第一標簽構成所 述第二數(shù)據(jù)樣本子集。10. 根據(jù)權利要求8所述的系統(tǒng),其特征在于,所述結果分析部進一步配置為基于所述 第二分類結果集中是否存在表示所述基分類器的分類結果正確的第二標簽,對所述第一分 類結果集進行統(tǒng)計分析,以得到對應于輸入的未知病人的特征向量的藥物不良反應的預測 結果。
【文檔編號】G06K9/62GK106066936SQ201610371272
【公開日】2016年11月2日
【申請日】2016年5月30日 公開號201610371272.1, CN 106066936 A, CN 106066936A, CN 201610371272, CN-A-106066936, CN106066936 A, CN106066936A, CN201610371272, CN201610371272.1
【發(fā)明人】黃亦謙
【申請人】北京千安哲信息技術有限公司