两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種可信的病歷結(jié)構化方法及系統(tǒng)的制作方法

文檔序號:10594382閱讀:502來源:國知局
一種可信的病歷結(jié)構化方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種可信的病歷結(jié)構化方法及系統(tǒng),該方法包括建立特征詞數(shù)據(jù)集并賦予修飾詞可信度,建立特征詞關聯(lián)圖表,對描述語句進行分詞并計算語句中每個特征名詞的可信度,最后進行人工訓練,得到描述語句的結(jié)構化表示。相比現(xiàn)有技術,本發(fā)明更適合計算機處理,大大提高了效率,同時通過標識數(shù)據(jù)可信度,使得結(jié)構化數(shù)據(jù)更容易做進一步處理。
【專利說明】-種可信的病歷結(jié)構化方法及系統(tǒng) 【技術領域】
[0001] 本發(fā)明屬于電子病歷領域,設及對電子病歷數(shù)據(jù)的處理和統(tǒng)計分析,尤其設及一 種可信的病歷結(jié)構化方法及系統(tǒng)。 【【背景技術】】
[0002] 近年來,隨著醫(yī)療信息化的發(fā)展,患者的病歷也逐漸電子化,電子病歷具有紙質(zhì)病 歷所不具備的優(yōu)點,例如便于保存、傳閱、檢索,可W對電子病歷進行數(shù)據(jù)挖掘,進一步開發(fā) 病歷的價值。因此,如何有效利用電子病歷數(shù)據(jù)是現(xiàn)在醫(yī)療信息化中的重要研究方向。
[0003] 電子病歷中已有的結(jié)構化數(shù)據(jù),包括數(shù)值型數(shù)據(jù)W及具有固定值集合的數(shù)據(jù)是比 較利于數(shù)據(jù)挖掘的,例如年齡、性別、各種醫(yī)學指標等,計算機比較好處理。但是,電子病歷 中還有一些描述性的信息,運些信息通常都是醫(yī)生撰寫的、用于描述病人狀況的語言,運些 語言比較隨意,有時描述的比較模糊,和醫(yī)生的具體撰寫風格有關。但運些信息又比較重 要,尤其是一些結(jié)論性的描述信息。由于運些描述信息沒有進行結(jié)構化處理和存儲,計算機 處理起來很困難,無法對該類數(shù)據(jù)進行統(tǒng)計分析。
[0004] 現(xiàn)有技術中,對于運類信息的數(shù)據(jù)處理方法通常采用字符模式匹配的方法,W從 中提取關鍵結(jié)構化數(shù)據(jù)。但是,模式匹配方法編寫規(guī)則復雜,匹配程度低,無法對匹配數(shù)據(jù) 進行可信度計算,無法結(jié)構化一些模糊性的描述數(shù)據(jù)(例如"疑似"),導致查詢的時候很難 獲取或排序運部分數(shù)據(jù)。 【
【發(fā)明內(nèi)容】

[0005] 本發(fā)明主要提供了一種可信的病歷結(jié)構化方法及系統(tǒng),通過對病歷中的描述性語 言進行詞性分類,W及賦予可信度值,從而使得運類描述性語言變換成結(jié)構化數(shù)據(jù)。
[0006] 為了達到上述目的,本發(fā)明提出的可信的病歷結(jié)構化方法包括如下步驟:
[0007] (1)定義特征詞數(shù)據(jù)集并保存于數(shù)據(jù)庫中,所述特征詞數(shù)據(jù)中的每個特征詞具有 類別,所述類別包括:特征名詞、修飾詞;
[000引(2)為所述特征詞數(shù)據(jù)集中的每個修飾詞分別賦予一個缺省可信度,所述缺省可 信度是一個0到1之間的數(shù)值;
[0009] (3)建立特征詞關聯(lián)表,所述特征詞關聯(lián)表用于記錄特征詞數(shù)據(jù)集中每個特征名 詞與修飾詞的關聯(lián)可信度,所述關聯(lián)可信度的初始值為相應修飾詞的缺省可信度;
[0010] (4)對于病歷中的每一個描述語句,基于特征詞數(shù)據(jù)集進行分詞,得到特征詞序列 集合。對于該集合中的任意一個特征名詞Ao,獲取Ao和前一個特征名詞或標點符號之間的修 飾詞,同時獲取Ao和后一個特征名詞或標點符號之間的修飾詞,設運些修飾詞共有n個,分 別為Bi,B2,……,Bn,根據(jù)特征詞關聯(lián)表獲取Ao與Bi的關聯(lián)可信度0i(l《i《n),通過下述公 式計算該描沐語句中該特佈名詞An的可信度0,即:
[0011]
[0012] (5)人工訓練步驟,即如果一個描述語句中有一個特征名詞的可信度大于0且小于 1,則對該描述語句的可信度計算結(jié)果進行人工干預審核;然后將該描述語句中的每個特征 名詞和相應可信度組合構成該描述語句的結(jié)構化數(shù)據(jù);
[0013] (6)基于人工干預審核的結(jié)果,對特征詞數(shù)據(jù)集和特征詞關聯(lián)表進行更新或修改。
[0014] 進一步地,所述特征名詞是由符合世界衛(wèi)生組織《疾病和有關健康問題的國際統(tǒng) 計分類(ICD-10)》分類和命名的疾病名詞、檢驗檢查名詞、診斷結(jié)論名詞、藥品名稱組成的 標準特征名詞。
[0015] 進一步地,在數(shù)據(jù)庫中建立非標準名詞和標準特征名詞的映射表,并且步驟4包 括:根據(jù)該映射表將描述語句中的非標準名詞轉(zhuǎn)換為標準特征名詞。
[0016] 進一步地,特征詞數(shù)據(jù)集在建立W后,可W通人工訓練的方式加入新的特征詞,并 賦予其類別。
[0017] 本發(fā)明還提出了一種可信的病歷結(jié)構化系統(tǒng),該系統(tǒng)包括:
[0018] 定義模塊,用于定義特征詞數(shù)據(jù)集并保存于數(shù)據(jù)庫中,所述特征詞數(shù)據(jù)中的每個 特征詞具有類別,所述類別包括:特征名詞、修飾詞;
[0019] 可信度賦值模塊,用于為所述特征詞數(shù)據(jù)集中的每個修飾詞分別賦予一個缺省可 信度,所述缺省可信度是一個0到1之間的數(shù)值;
[0020] 建表模塊,用于建立特征詞關聯(lián)表,所述特征詞關聯(lián)表用于記錄特征詞數(shù)據(jù)集中 每個特征名詞與修飾詞的關聯(lián)可信度,所述關聯(lián)可信度的初始值為相應修飾詞的缺省可信 度;
[0021] 分析模塊,用于對于病歷中的每一個描述語句,基于特征詞數(shù)據(jù)集進行分詞,得到 特征詞序列集合。并且對于該集合中的任意一個特征名詞Ao,獲取Ao和前一個特征名詞或標 點符號之間的修飾詞,同時獲取Ao和后一個特征名詞或標點符號之間的修飾詞,設運些修 飾詞共有n個,分別為Bi,B2,……,Bn,根據(jù)特征詞關聯(lián)表獲取Ao與Bi的關聯(lián)可信度權(1《i《 n),通過下述公式計算該描述語句中該特征名詞Ao的可信度0,即:
[0022]
[0023] 人工訓練和組合模塊,用于當一個描述語句中有一個特征名詞的可信度大于0且 小于1時,對該描述語句的可信度計算結(jié)果進行人工干預審核;然后將該描述語句中的每個 特征名詞和相應可信度組合構成該描述語句的結(jié)構化數(shù)據(jù);
[0024] 更新模塊,用于基于人工干預審核的結(jié)果,對特征詞數(shù)據(jù)集和特征詞關聯(lián)表進行 更新或修改。
[0025] 本發(fā)明的有益效果是:相比傳統(tǒng)的人工方法,本發(fā)明更適合計算機處理,大大提高 效率,同時相比模式匹配數(shù)據(jù)提取的方法,增加了提取數(shù)據(jù)的可信度計算,并可W通過人工 訓練更適合的特征詞和關聯(lián)關系來提高病歷數(shù)據(jù)結(jié)構化的可信度。對標識可信度的數(shù)據(jù), 更很容易根據(jù)數(shù)據(jù)的可信度對檢索結(jié)果進行排序,更容易做進一步處理。 【【附圖說明】】
[0026] 此處所說明的附圖是用來提供對本發(fā)明的進一步理解,構成本申請的一部分,但 并不構成對本發(fā)明的不當限定,在附圖中:
[0027] 圖1是本發(fā)明方法的示意圖。 【【具體實施方式】】
[0028] 下面將結(jié)合附圖W及具體實施例來詳細說明本發(fā)明,其中的示意性實施例W及說 明僅用來解釋本發(fā)明,但并不作為對本發(fā)明的不當限定。
[0029] 本發(fā)明的主要思想是,定義描述性語言中可能出現(xiàn)的特征詞及其類別,對可能出 現(xiàn)的修飾詞賦予可信度,對病歷中的描述性語言進行分詞,對分詞后的特征詞序列進行轉(zhuǎn) 換和可信度計算,從而得到結(jié)構化的數(shù)據(jù)。
[0030] 參見圖1,本發(fā)明的可信病歷結(jié)構化方法具體步驟如下:
[0031] (1)定義特征詞數(shù)據(jù)集,每個特征詞具有類別,所述類別包括:特征名詞、修飾詞。 并將該特征詞數(shù)據(jù)集(包括各個特征詞及其相應類別)保存在數(shù)據(jù)庫中。
[0032] 為了對病歷中的描述性語言進行結(jié)構化,我們首先需要定義描述性語言中可能出 現(xiàn)的重要的特征詞,運些重要的特征詞有上述兩種類別。其中特征名詞由符合世界衛(wèi)生組 織《疾病和有關健康問題的國際統(tǒng)計分類(ICD-IO )》分類和命名的疾病名詞、檢驗檢查名 詞、診斷結(jié)論名詞、藥品名稱組成。修飾詞由字典修飾詞組成。
[0033] 舉例而言,病歷中出現(xiàn)描述性語言:"疑似高血壓"。運里,"高血壓"是一個特征名 詞,"疑似"是一個修飾詞。同理,描述性語言"是糖尿病不是屯、臟猜',運里"是'和"不是'都 是修飾詞,"糖尿病"和"屯、臟病"都是特征名詞。
[0034] 需要說明的是,特征詞數(shù)據(jù)集中的特征名詞都是標準特征名詞,但是在實際應用 中,醫(yī)生可能會使用一些非標準名詞,因此還需要在數(shù)據(jù)庫中建立非標準名詞和標準特征 名詞的映射表,運樣在分析描述性語言時,可W直接將名詞都轉(zhuǎn)換成標準特征名詞。
[0035] 特征詞數(shù)據(jù)集在建立W后,可W通人工訓練的方式加入新的特征詞,并賦予其類 別。
[0036] (2)給特征詞數(shù)據(jù)集中的每個修飾詞分別賦予一個缺省可信度。所述可信度是一 個0到1之間的數(shù)值。
[0037] 上述可信度用于給每個修飾詞一個量化的含義,其代表了該修飾詞所修飾名詞的 可能性,W方便后續(xù)的結(jié)構化處理。例如,修飾詞"大概"的缺省可信度設置為0.5,修飾詞 "是"的缺省可信度設置為1,修飾詞"不是"的缺省可信度設置為0。
[0038] (3)建立特征詞關聯(lián)表。所述特征詞關聯(lián)表用于記錄特征詞數(shù)據(jù)集中每個標準特 征名詞與修飾詞的關聯(lián)可信度。
[0039] 在初始建立特征詞關聯(lián)表時,每個關聯(lián)可信度都設置成相應修飾詞的缺省可信 度。初始的特征詞關聯(lián)表可能并不全,之后可W通過人工訓練的方式加入新的內(nèi)容。W下是 特征詞關聯(lián)表的一個例子:
[0041] (4)對于病歷中的每一個描述性語句,基于特征詞數(shù)據(jù)集進行分詞(如果其中有非 標準名詞,根據(jù)數(shù)據(jù)庫中的映射表先將其轉(zhuǎn)換成標準特征名詞),得到一個特征詞序列集 合。對于集合中的任意一個特征名詞Ao,獲取Ao和前一個特征名詞或標點符號(兩者取最近 的)之間的修飾詞,同時獲取Ao和后一個特征名詞或標點符號(兩者取最近的)之間的修飾 詞。假設運些修飾詞共n個,分別為Bi, B2,……,Bn,根據(jù)特征詞關聯(lián)表獲取Ao與Bi的關聯(lián)可信 度0i(l《i《n),據(jù)此可Pi誦討下沐公式計算該描述語句中該特征名詞Ao的可信度0,即:
[0042]
[0043] 該W信巧C買際上就代巧/該特征名詞Aq的可能性或真實性。
[0044] 舉例而言,對于描述語句"是糖尿病不是屯、臟病",可W拆成特征詞序列集合{是, 糖尿病,不是,屯、臟病},其中"糖尿病"前后有兩個修飾詞:"是"和"不是","糖尿病"與"是" 的關聯(lián)可信度為& = 1,"糖尿病"與"不是"的關聯(lián)可信度為& = 0。則糖尿病在該描述語句中 的可信度e= (1+0)/2 = 0.5。而"屯、臟病"前后只有一個修飾詞"不是",則同理可計算出其可 信度為0。
[0045] (5)人工訓練。對于一個描述語句中每個特征名詞的可信度,如果存在一個可信度 e,滿足〇冰<1,則對該描述語句的可信度計算結(jié)果進行人工干預審核。最終該描述語句中的 每個特征名詞和可信度一起,構成了該描述語句的結(jié)構化數(shù)據(jù)。
[0046] 正如步驟4中的例子,描述語句對于糖尿病的判斷實際是肯定的,其可信度應該為 1,但是計算出來的糖尿病可信度卻只有0.5,結(jié)果出現(xiàn)了偏差,運種情況下需要進行人工干 預審核,將糖尿病的可信度修改為1。運主要是由于醫(yī)生撰寫不嚴格導致的,如果描述語句 是"是糖尿病,不是屯、臟病",那么步驟4就能正確計算出糖尿病的可信度為1。
[0047] (6)基于人工干預審核的結(jié)果,對特征詞數(shù)據(jù)集和特征詞關聯(lián)表進行更新或修改。 運可能會導致新增特征詞,或新增、修改特征名詞與修飾詞的關聯(lián)可信度。
[004引 W下通過兩個具體實施例說明本發(fā)明的技術方案。
[0049] 具體實施例一:
[0050] 病歷1,病史小節(jié):"有糖尿病史,可能有高血壓"。
[0051] (1)建立特征詞數(shù)據(jù)集包括:特征名詞集合{糖尿病,高血壓},修飾詞集合{:有(缺 省可信度1),無(缺省可信度0),可能(缺省可信度0.5)}。
[0052] (2)建立每個特征名詞與每個修飾詞的關聯(lián)可信度,其關聯(lián)可信度就是上述缺省 可信度。
[0053] (3)對病歷1病史小節(jié)的描述性語句進行分詞,獲得特征詞序列集合:{:有,糖尿病, 可能,有,高血壓}。
[0054] (4)對"糖尿病",其前后修飾詞只有"有",則其可信度為1/1 = 1,對"高血壓",其前 后修飾詞包括"可能"、"有",則其可信度為(0.5+1)/2 = 0.75。
[0055] (5)得到病歷1病史小節(jié)的結(jié)構化數(shù)據(jù),即: 「0化 61
[0化7] 具體實施例二:
[005引病歷2,病史小節(jié):"無糖尿病,有高血壓,疑似冠屯、病。"
[0059] (1)建立特征詞數(shù)據(jù)集包括:特征名詞集合{糖尿病,高血壓,冠屯、病},修飾詞集合 {有(缺省可信度1),無(缺省可信度0),可能(缺省可信度0.5),疑似(缺省可信度0.5)}。
[0060] (2)建立每個特征名詞與每個修飾詞的關聯(lián)可信度,其關聯(lián)可信度就是上述缺省 可信度。
[0061] (3)對病歷2病史小節(jié)的描述性語句進行分詞,獲得特征詞序列集合:{:無,糖尿病, 有,高血壓,疑似,冠屯、病}。
[0062] (4)對糖尿病、高血壓、冠屯、病的可信度進行計算,從而得到病歷2病史小節(jié)的結(jié)構 化數(shù)據(jù),即: 「nn么Ol
[0064] 通過W上的實施方式的描述可知,本領域的技術人員可W清楚地了解到本申請可 借助軟件加必需的通用硬件平臺的方式來實現(xiàn),也可W使用專用的硬件平臺來實現(xiàn)?;?運樣的理解,本申請的技術方案可W W軟件產(chǎn)品的形式體現(xiàn)出來,也可W使用相應的硬件 模塊來體現(xiàn)。
[0065] W上所述僅是本發(fā)明的較佳實施方式,故凡依本發(fā)明專利申請范圍所述的構造、 特征及原理所做的等效變化或修飾,均包括于本發(fā)明專利申請范圍內(nèi)。
【主權項】
1. 一種可信的病歷結(jié)構化方法,其特征在于,該方法包括如下步驟: (1) 定義特征詞數(shù)據(jù)集并保存于數(shù)據(jù)庫中,所述特征詞數(shù)據(jù)中的每個特征詞具有類別, 所述類別包括:特征名詞、修飾詞; (2) 為所述特征詞數(shù)據(jù)集中的每個修飾詞分別賦予一個缺省可信度,所述缺省可信度 是一個0到1之間的數(shù)值; (3) 建立特征詞關聯(lián)表,所述特征詞關聯(lián)表用于記錄特征詞數(shù)據(jù)集中每個特征名詞與 修飾詞的關聯(lián)可信度,所述關聯(lián)可信度的初始值為相應修飾詞的缺省可信度; (4) 對于病歷中的每一個描述語句,基于特征詞數(shù)據(jù)集進行分詞,得到特征詞序列集 合。對于該集合中的任意一個特征名詞A〇,獲取A〇和前一個特征名詞或標點符號之間的修飾 詞,同時獲取Ao和后一個特征名詞或標點符號之間的修飾詞,設這些修飾詞共有η個,分別 為Bi,B 2,……,Bn,根據(jù)特征詞關聯(lián)表獲取的關聯(lián)可信度i^aSiSn),通過下述公式 計算該描述語句中該特征名詞Ao的可信度β,即:(5) 人工訓練步驟,即如果一個描述語句中有一個特征名詞的可信度大于0且小于1,則 對該描述語句的可信度計算結(jié)果進行人工干預審核;然后將該描述語句中的每個特征名詞 和相應可信度組合構成該描述語句的結(jié)構化數(shù)據(jù); (6) 基于人工干預審核的結(jié)果,對特征詞數(shù)據(jù)集和特征詞關聯(lián)表進行更新或修改。2. 根據(jù)權利要求1所述的可信的病歷結(jié)構化方法,其特征在于,所述特征名詞是由符合 世界衛(wèi)生組織《疾病和有關健康問題的國際統(tǒng)計分類(ICD-10)》分類和命名的疾病名詞、檢 驗檢查名詞、診斷結(jié)論名詞、藥品名稱組成的標準特征名詞。3. 根據(jù)權利要求1-2任意一項所述的可信的病歷結(jié)構化方法,其特征在于,在數(shù)據(jù)庫中 建立非標準名詞和標準特征名詞的映射表,并且步驟4包括:根據(jù)該映射表將描述語句中的 非標準名詞轉(zhuǎn)換為標準特征名詞。4. 根據(jù)權利要求1-3任意一項所述的可信的病歷結(jié)構化方法,其特征在于,特征詞數(shù)據(jù) 集在建立以后,可以通人工訓練的方式加入新的特征詞,并賦予其類別。5. -種可信的病歷結(jié)構化系統(tǒng),其特征在于,該系統(tǒng)包括: 定義模塊,用于定義特征詞數(shù)據(jù)集并保存于數(shù)據(jù)庫中,所述特征詞數(shù)據(jù)中的每個特征 詞具有類別,所述類別包括:特征名詞、修飾詞; 可信度賦值模塊,用于為所述特征詞數(shù)據(jù)集中的每個修飾詞分別賦予一個缺省可信 度,所述缺省可信度是一個〇到1之間的數(shù)值; 建表模塊,用于建立特征詞關聯(lián)表,所述特征詞關聯(lián)表用于記錄特征詞數(shù)據(jù)集中每個 特征名詞與修飾詞的關聯(lián)可信度,所述關聯(lián)可信度的初始值為相應修飾詞的缺省可信度; 分析模塊,用于對于病歷中的每一個描述語句,基于特征詞數(shù)據(jù)集進行分詞,得到特征 詞序列集合。并且對于該集合中的任意一個特征名詞Αο,獲取Α〇和前一個特征名詞或標點符 號之間的修飾詞,同時獲取Α〇和后一個特征名詞或標點符號之間的修飾詞,設這些修飾詞 共有η個,分別為Β!,Β2,……,Βη,根據(jù)特征詞關聯(lián)表獲取Α〇與Bi的關聯(lián)可信度隊(1彡i ), 通過下述公式計算該描述語句中該特征名詞Α〇的可信度β,即:人工訓練和組合模塊,用于當一個描述語句中有一個特征名詞的可信度大于0且小于1 時,對該描述語句的可信度計算結(jié)果進行人工干預審核;然后將該描述語句中的每個特征 名詞和相應可信度組合構成該描述語句的結(jié)構化數(shù)據(jù); 更新模塊,用于基于人工干預審核的結(jié)果,對特征詞數(shù)據(jù)集和特征詞關聯(lián)表進行更新 或修改。6. 根據(jù)權利要求5所述的可信的病歷結(jié)構化系統(tǒng),其特征在于,所述特征名詞是由符合 世界衛(wèi)生組織《疾病和有關健康問題的國際統(tǒng)計分類(ICD-10)》分類和命名的疾病名詞、檢 驗檢查名詞、診斷結(jié)論名詞、藥品名稱組成的標準特征名詞。7. 根據(jù)權利要求6所述的可信的病歷結(jié)構化系統(tǒng),其特征在于,在數(shù)據(jù)庫中建立非標準 名詞和標準特征名詞的映射表,并且分析模塊根據(jù)該映射表將描述語句中的非標準名詞轉(zhuǎn) 換為標準特征名詞。8. 根據(jù)權利要求5所述的可信的病歷結(jié)構化系統(tǒng),其特征在于,特征詞數(shù)據(jù)集在建立以 后,可以通人工訓練的方式加入新的特征詞,并賦予其類別。
【文檔編號】G06F17/30GK105956362SQ201610248043
【公開日】2016年9月21日
【申請日】2016年4月20日
【發(fā)明人】林學仁, 蔣永
【申請人】上海家好科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
巴东县| 临清市| 怀柔区| 高安市| 乐昌市| 新乐市| 岳阳县| 平湖市| 南召县| 师宗县| 卫辉市| 微山县| 资兴市| 六枝特区| 静乐县| 丹寨县| 商都县| 华亭县| 秦安县| 阿拉善左旗| 行唐县| 迁西县| 无为县| 南郑县| 镇巴县| 富民县| 赤水市| 疏勒县| 汉源县| 麟游县| 黎城县| 阿荣旗| 安西县| 冕宁县| 潜江市| 丰都县| 竹山县| 宁化县| 怀宁县| 昔阳县| 淮滨县|