本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種醫(yī)學知識圖譜的構(gòu)建方法、裝置及輔助診斷方法。
背景技術(shù):
知識圖譜作為一個結(jié)構(gòu)化的信息網(wǎng)絡,打破了原有的關(guān)系型數(shù)據(jù)庫的限制,具有非常強大的表達能力,它在信息檢索和信息整合等領(lǐng)域扮演著越來越重要的角色,可以為用戶提供更廣度、更深度的知識體系并不斷擴充。
目前,知識圖譜的應用非常廣泛,在醫(yī)學領(lǐng)域中,構(gòu)建醫(yī)學知識圖譜,可以將病癥、疾病與診療手段之間的錯綜復雜的關(guān)系,通過知識圖譜構(gòu)建成數(shù)據(jù)庫,從而可以為醫(yī)護人員提供很好的輔助診斷手段。但是,現(xiàn)有的醫(yī)學知識圖譜的結(jié)構(gòu)比較簡單,并且在利用知識圖譜進行輔助診斷上,由于知識圖譜的結(jié)構(gòu)限制,不能很好地為醫(yī)護人員提供幫助。
技術(shù)實現(xiàn)要素:
基于上述問題,本發(fā)明提供一種醫(yī)學知識圖譜的構(gòu)建方法、裝置及輔助診斷方法,能夠為臨床醫(yī)學提供智能化的輔助診斷。
為解決上述問題,本發(fā)明提供了一種醫(yī)學知識圖譜的構(gòu)建方法,包括:
收集醫(yī)學數(shù)據(jù)庫中的數(shù)據(jù),構(gòu)建用戶詞典;
根據(jù)所述用戶詞典和停止詞詞庫,對電子病歷數(shù)據(jù)進行處理;
將處理后的數(shù)據(jù)進行命名實體識別;
將識別的各個實體建立關(guān)聯(lián)關(guān)系;
根據(jù)各個實體以及各個實體之間的關(guān)聯(lián)關(guān)系,建立醫(yī)學知識圖譜。
其中,所述將處理后的數(shù)據(jù)進行命名實體識別,具體還包括:
通過處理后的診斷數(shù)據(jù)得到疾病實體,通過處理后的體檢數(shù)據(jù)得到體征實體,根據(jù)處理后的患者主訴數(shù)據(jù)得到癥狀實體,根據(jù)處理意見數(shù)據(jù)得到處理實體,根據(jù)科室信息得到科室實體。
其中,所述將識別的各個實體建立關(guān)聯(lián)關(guān)系,具體包括:
對疾病實體,分別與癥狀實體、體征實體、處理實體、科室實體建立關(guān)聯(lián)關(guān)系;
其中,所述關(guān)聯(lián)關(guān)系強度采用以下公式:
z=x/y
其中,y表示某項疾病的病歷份數(shù),x表示某項疾病的病歷中目標實體出現(xiàn)的總次數(shù),所述目標實體為癥狀實體、體征實體、處理實體、科室實體中的任一個。
其中,所述根據(jù)各個實體以及各個實體之間的關(guān)聯(lián)關(guān)系,建立醫(yī)學知識圖譜,具體包括:
將處理后的實體依據(jù)關(guān)聯(lián)關(guān)系形成的實體對及其相應的關(guān)聯(lián)關(guān)系強度值導入neo4j圖形數(shù)據(jù)庫,并可視化,生成所述醫(yī)學知識圖譜。
其中,所述方法還包括:
根據(jù)當前獲取的患者診斷結(jié)果和患者主訴及檢查數(shù)據(jù),對相應實體之間的關(guān)聯(lián)強度進行實時更新。在本發(fā)明的另一個方面,提供一種基于醫(yī)學知識圖譜的計算機輔助診斷方法,包括:
獲取患者的主訴數(shù)據(jù)和檢查數(shù)據(jù);
對所述主訴數(shù)據(jù)和檢查進行預處理,得到患者的癥狀實體和體征實體構(gòu)成的集合;
在醫(yī)學知識圖譜中查找與所述癥狀實體和體征實體相關(guān)聯(lián)的疾病實體集合;
根據(jù)所述疾病實體集合和每個疾病實體所對應的癥狀實體與體征實體構(gòu)成的集合,分別計算每個疾病實體在其對應的癥狀實體與體征實體構(gòu)成的集合下的后驗概率;
輸出后驗概率最大的疾病實體及其關(guān)聯(lián)節(jié)點對應的數(shù)據(jù)。
其中,所述計算每個疾病實體在其對應子集下的后驗概率,具體包括:
對于疾病di,在對應的癥狀實體與體征實體構(gòu)成的子集{t1,t2,...tk}下的后驗概率為:
其中,
通過所述癥狀實體與知識圖譜中的疾病實體的關(guān)系強度值
在本發(fā)明的又一個方面,提供一種醫(yī)學知識圖譜的構(gòu)建裝置,所述裝置包括:
用戶詞典構(gòu)建單元,用于收集醫(yī)學數(shù)據(jù)庫中的數(shù)據(jù),構(gòu)建用戶詞典;
數(shù)據(jù)處理單元,用于根據(jù)所述用戶詞典和停止詞詞庫,對電子病歷數(shù)據(jù)進行處理;
實體識別單元,用于對數(shù)據(jù)處理單元處理后的數(shù)據(jù)進行命名實體識別;
關(guān)聯(lián)關(guān)系建立單元,用于對實體識別單元形成的各個實體建立關(guān)聯(lián)關(guān)系;
醫(yī)學知識圖譜構(gòu)建單元,用于根據(jù)所述各個實體以及各個實體之間的關(guān)聯(lián)關(guān)系,建立醫(yī)學知識圖譜。
其中,所述實體識別單元,具體包括:
疾病實體識別子單元,用于對處理后的診斷數(shù)據(jù)進行命名實體識別,得到疾病實體;
體征實體識別子單元,用于對處理后的體檢數(shù)據(jù)進行命名實體識別,得到體征實體;
癥狀實體識別子單元,用于對處理后的患者主訴數(shù)據(jù)進行命名實體識別,得到癥狀實體;
處理實體識別子單元,用于對處理后的處理意見數(shù)據(jù)進行命名實體識別,得到處理實體;
科室實體識別子單元,用于對處理后的科室信息進行命名實體識別,得到科室實體。
其中,所述裝置還包括:
更新單元,用于根據(jù)當前獲取的患者診斷結(jié)果和患者主訴及檢查數(shù)據(jù),對相應實體之間的關(guān)聯(lián)強度進行實時更新。本發(fā)明的醫(yī)學知識圖譜的構(gòu)建方法、裝置及輔助診斷方法,通過使用醫(yī)學知識圖譜進行輔助診斷,能夠減輕醫(yī)護人員工作負擔,有效緩解醫(yī)療壓力,從而降低醫(yī)療事故的發(fā)生。同時,對于醫(yī)護工作者憑借經(jīng)驗不能確診的病例,提供了精確的計算機輔助診斷,對醫(yī)護人員工作的有力支撐。
此外,對于沒有相應醫(yī)學專業(yè)知識背景的普通人,通過自身癥狀,依靠系統(tǒng)而了解自身所患的疾病信息以及相應的治療意見,了解基本的可行的疾病應對方法。
附圖說明
圖1示出了本發(fā)明的醫(yī)學知識圖譜的構(gòu)建方法的流程圖。
圖2示出了本發(fā)明的基于醫(yī)學知識圖譜的輔助診斷方法的流程圖。
圖3示出了本發(fā)明的醫(yī)學知識圖譜的構(gòu)建裝置的結(jié)構(gòu)框圖。
具體實施方式
下面結(jié)合附圖和實施例,對本發(fā)明的具體實施方式作進一步詳細描述。以下實施例用于說明本發(fā)明,但不用來限制本發(fā)明的范圍。
圖1示出了本發(fā)明的醫(yī)學知識圖譜的構(gòu)建方法的流程圖。
參照圖1,本發(fā)明的醫(yī)學知識圖譜的構(gòu)建方法,具體包括以下步驟:
s11、收集醫(yī)學數(shù)據(jù)庫中的數(shù)據(jù),構(gòu)建用戶詞典。
在本實施例中,在現(xiàn)有的醫(yī)學數(shù)據(jù)庫中,依據(jù)icd-10和icd-9-cm,收集相關(guān)的數(shù)據(jù),構(gòu)建成用戶詞典。
s12、根據(jù)所述用戶詞典和停止詞詞庫,對電子病歷數(shù)據(jù)進行處理。
本實施例中,構(gòu)建知識圖譜使用的數(shù)據(jù)可以是從現(xiàn)有的電子病歷中獲取的數(shù)據(jù),如患者主訴、科室、病史、體檢、診斷、處理意見等相關(guān)數(shù)據(jù),然后根據(jù)用戶詞典以及停止詞詞庫,可以使用相關(guān)的醫(yī)學語言處理技術(shù)(mlp)對電子病歷的數(shù)據(jù)進行處理,也可以對數(shù)據(jù)進行文本分詞,去除停止詞等處理,使得構(gòu)建知識圖譜的數(shù)據(jù)更精確。
s13、將處理后的數(shù)據(jù)進行命名實體識別。
在一個實施例中,可以通過條件隨機場模型(crf)機器學習的方法,運用crf++工具進行命名實體識別,如一個實施例中,通過處理后的診斷數(shù)據(jù)得到疾病實體,通過處理后的體檢數(shù)據(jù)得到體征實體,根據(jù)處理后的患者主訴數(shù)據(jù)得到癥狀實體,根據(jù)處理意見數(shù)據(jù)得到處理實體,根據(jù)科室信息得到科室實體。
s14、將識別的各個實體建立關(guān)聯(lián)關(guān)系。
本實施例中,對疾病實體,分別與癥狀實體、體征實體、處理實體、科室實體建立關(guān)聯(lián)關(guān)系,該關(guān)聯(lián)關(guān)系強度采用以下公式:
z=x/y
其中,y表示某項疾病的病歷份數(shù),x表示某項疾病的病歷中目標實體出現(xiàn)的總次數(shù),所述目標實體為癥狀實體、體征實體、處理實體、科室實體中的任一個。
s15、根據(jù)各個實體以及各個實體之間的關(guān)聯(lián)關(guān)系,建立醫(yī)學知識圖譜。
具體地,將處理后的實體依據(jù)關(guān)聯(lián)關(guān)系形成的實體對及其相應的關(guān)聯(lián)關(guān)系強度值導入neo4j圖形數(shù)據(jù)庫,并可視化,生成所述醫(yī)學知識圖譜。
在進一步的實施例中,當使用上述知識圖譜進行輔助診斷后,根據(jù)診斷后的疾病結(jié)果,以及患者的主訴及檢查數(shù)據(jù),對相應實體之間的關(guān)聯(lián)強度值進行更新,其關(guān)系強度為z=(x+1)/(y+1),其中y為已處理錄入的該項疾病的病歷份數(shù),x為已處理錄入的該項疾病的病歷中目標實體出現(xiàn)次數(shù)。
本發(fā)明的醫(yī)學知識圖譜,將電子病歷作為建立知識圖譜的源數(shù)據(jù),通過建立各個實體之間的關(guān)聯(lián)關(guān)系,從而能夠建立精確的知識圖譜,為醫(yī)護人員對疾病的針對起到很好的輔助作用,并能夠為醫(yī)護人員減輕工作負擔,有效緩解了醫(yī)療壓力,從而降低醫(yī)療事故的發(fā)生。
在本發(fā)明的另一個實施例中,提供一種基于醫(yī)學知識圖譜的輔助診斷方法,如圖2所示,其具體步驟包括:
s21、獲取患者的主訴數(shù)據(jù)和檢查數(shù)據(jù);
s22、對所述主訴數(shù)據(jù)和檢查數(shù)據(jù)進行預處理,得到患者的癥狀實體和體征實體構(gòu)成的集合;如對主訴數(shù)據(jù)和檢查數(shù)據(jù)進行文本分詞、去除停止詞、以及命名實體識別處理等,以得到癥狀實體和體征實體構(gòu)成的集合。
s23、在醫(yī)學知識圖譜中查找與所述癥狀實體和體征實體相關(guān)聯(lián)的疾病實體集合;
根據(jù)步驟s22得到的癥狀實體和體征實體的集合中的實體與疾病實體的關(guān)聯(lián)關(guān)系,在醫(yī)學知識圖譜中查找疾病實體集合d{d1,d2,...dn}。
在上述過程中,可以設(shè)定疾病di對癥狀實體或體征實體sj的條件概率p(sj|di)為兩實體之間的關(guān)系強度值,即p(sj|di)=x/y。
s24、根據(jù)步驟s23得到的疾病實體和步驟s22得到的每個疾病實體所對應的癥狀實體與體征實體構(gòu)成的集合,分別計算每個疾病實體在其對應的癥狀實體與體征實體構(gòu)成的集合下的后驗概率;
s25、輸出后驗概率最大的疾病實體及其關(guān)聯(lián)節(jié)點對應的數(shù)據(jù)。
在上述過程中,對應疾病實體集合d中的n個疾病實體,通過關(guān)聯(lián)關(guān)系找到癥狀實體與體征實體對應的n個集合。對于疾病di,在對應的癥狀實體與體征實體構(gòu)成的集合{t1,t2,...tk}下的后驗概率為:
其中,
通過上述計算的后驗概率,將后驗概率最大的疾病及其關(guān)聯(lián)節(jié)點對應的數(shù)據(jù)作為診斷結(jié)果。
本實施例的基于醫(yī)學知識圖譜的計算機輔助診斷方法,使用終端設(shè)備采集患者主訴,檢查數(shù)據(jù),并對數(shù)據(jù)進行醫(yī)學語言處理mlp(分詞、去停止詞),命名實體識別處理,得到相應實體信息,依托已構(gòu)建的醫(yī)學知識圖譜,通過關(guān)聯(lián)關(guān)系,找到對應的候選疾病集,然后采用貝葉斯算法進行輔助診斷,確認患者所患何種疾病,為臨床醫(yī)學提供智能化的輔助診斷。
在本發(fā)明的又一個實施例中,提供一種醫(yī)學知識圖譜的構(gòu)建裝置,如圖2所示,該裝置包括:
用戶詞典構(gòu)建單元10,用于收集醫(yī)學數(shù)據(jù)庫中的數(shù)據(jù),構(gòu)建用戶詞典;
數(shù)據(jù)處理單元20,用于根據(jù)所述用戶詞典和停止詞詞庫,對電子病歷數(shù)據(jù)進行處理;
實體識別單元30,用于對數(shù)據(jù)處理單元處理后的數(shù)據(jù)進行命名實體識別;
關(guān)聯(lián)關(guān)系建立單元40,用于對實體識別單元30形成的各個實體建立關(guān)聯(lián)關(guān)系;
醫(yī)學知識圖譜構(gòu)建單元50,用于根據(jù)所述各個實體以及各個實體之間的關(guān)聯(lián)關(guān)系,建立醫(yī)學知識圖譜。
具體地,上述實施例中,實體識別單元30包括:
疾病實體識別子單元,用于對處理后的診斷數(shù)據(jù)進行命名實體識別,得到疾病實體;
體征實體識別子單元,用于對處理后的體檢數(shù)據(jù)進行命名實體識別,得到體征實體;
癥狀實體識別子單元,用于對處理后的患者主訴數(shù)據(jù)進行命名實體識別,得到癥狀實體;
處理實體識別子單元,用于對處理后的處理意見數(shù)據(jù)進行命名實體識別,得到處理實體;
科室實體識別子單元,用于對處理后的科室信息進行命名實體識別,得到科室實體。
在又一個實施例中,本發(fā)明的醫(yī)學知識圖譜的構(gòu)建裝置還包括:更新單元,用于根據(jù)當前獲取的患者診斷結(jié)果和患者主訴及檢查數(shù)據(jù),對相應實體之間的關(guān)聯(lián)強度進行實時更新。
本發(fā)明的醫(yī)學知識圖譜的構(gòu)建方法、裝置及輔助診斷方法,通過使用醫(yī)學知識圖譜進行輔助診斷,能夠減輕醫(yī)護人員工作負擔,有效緩解醫(yī)療壓力,從而降低醫(yī)療事故的發(fā)生。同時,對于醫(yī)護工作者憑借經(jīng)驗不能確診的病例,提供了精確的計算機輔助診斷,對醫(yī)護人員工作的有力支撐。
此外,對于沒有相應醫(yī)學專業(yè)知識背景的普通人,通過自身癥狀,依靠系統(tǒng)而了解自身所患的疾病信息以及相應的治療意見,了解基本的可行的疾病應對方法。
以上實施方式僅用于說明本發(fā)明,而并非對本發(fā)明的限制,有關(guān)技術(shù)領(lǐng)域的普通技術(shù)人員,在不脫離本發(fā)明的精神和范圍的情況下,還可以做出各種變化和變型,因此所有等同的技術(shù)方案也屬于本發(fā)明的范疇,本發(fā)明的專利保護范圍應由權(quán)利要求限定。