两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種病情描述的智能分析方法及系統(tǒng)與流程

文檔序號:11230982閱讀:977來源:國知局
一種病情描述的智能分析方法及系統(tǒng)與流程

本發(fā)明涉及信息處理技術(shù)領(lǐng)域,尤其涉及一種病情描述的智能分析方法及系統(tǒng)。



背景技術(shù):

隨著科技的發(fā)展,信息處理技術(shù)逐漸應(yīng)用到臨床診斷中。臨床診斷包含兩個問題,診斷決策和診斷導(dǎo)航。

診斷決策的目的是,根據(jù)已經(jīng)收集到的病情描述,判斷患者可能罹患的疾病。用公式表達(dá),就是估算條件概率

其中si是第i位患者的病情描述。si是一個向量,包含多種癥狀、體征、化驗指標(biāo)、檢查標(biāo)志物。di是第i位患者可能罹患各種疾病的概率。di也是一個向量,包含多種疾病。是第i位患者罹患第j種疾病的概率。

診斷導(dǎo)航的目的是,搜集充分的病情描述,幫助醫(yī)生做出正確的診斷決策。譬如患者自述,咳嗽并發(fā)燒。醫(yī)生了解到這兩個癥狀之后,接下去該做什么?追問其它癥狀,還是讓患者去查體、化驗、還是檢查?具體追問什么癥狀,做什么項目,查驗什么指標(biāo)?根據(jù)現(xiàn)有病情描述,提示醫(yī)生后續(xù)行動,這就是診斷導(dǎo)航。

診斷導(dǎo)航的結(jié)果是診斷路徑。診斷路徑的終點是一組病情描述。

最佳診斷路徑的指標(biāo)有兩個:

1.終點的病情描述的數(shù)量,不多不少,正好足以支持醫(yī)生做出正確的有把握的診斷結(jié)果。

2.路徑最短,財務(wù)成本最低,時間成本最短。用最少的問話、最便宜最省時間的查體、化驗和檢查項目,收集不多不少的病情描述。

現(xiàn)有技術(shù)中缺乏滿足上述最佳診斷路徑及較高正確率的診斷結(jié)果的病情描述的智能分析方法。



技術(shù)實現(xiàn)要素:

本發(fā)明提供一種病情描述的智能分析方法及系統(tǒng),能夠獲得最佳診斷路徑及較高正確率的診斷結(jié)果。

第一方面提供了一種病情描述的智能分析方法,該方法包括:將患者的至少一項單項病情描述中的每項單項病情描述轉(zhuǎn)換為一個第一數(shù)值向量;利用時間循環(huán)神經(jīng)網(wǎng)絡(luò)(longshort-termmemory,lstm)技術(shù),依次根據(jù)至少一個所述第一數(shù)值向量中的每個所述第一數(shù)值向量生成第二數(shù)值向量和輸出信息,所述第二數(shù)值向量用于表達(dá)所述至少一項單項病情描述的綜合病情描述;所述輸出信息為預(yù)測的下一步該做的化驗或檢查,所述化驗或檢查的結(jié)果作為所述單向病情描述;利用多層感知器(multilayerperceptron,mlp)技術(shù),根據(jù)所述第二數(shù)值向量,估算所述患者罹患至少一種疾病的概率。

第二方面提供了一種病情描述的智能分析系統(tǒng),該系統(tǒng)包括:編碼模塊、導(dǎo)航模塊和決策模塊;所述編碼模塊,用于將患者的至少一項單項病情描述中的每項單項病情描述轉(zhuǎn)換為一個第一數(shù)值向量;所述導(dǎo)航模塊,用于利用lstm技術(shù),依次根據(jù)所述編碼模塊轉(zhuǎn)換的至少一個所述第一數(shù)值向量中的每個所述第一數(shù)值向量生成第二數(shù)值向量和輸出信息,所述第二數(shù)值向量用于表達(dá)所述至少一項單項病情描述的綜合病情描述;所述輸出信息為預(yù)測的下一步該做的化驗或檢查,所述化驗或檢查的結(jié)果作為所述單向病情描述;所述決策模塊,用于利用mlp技術(shù),根據(jù)所述導(dǎo)航模塊生成的第二數(shù)值向量,估算所述患者罹患至少一種疾病的概率。

本發(fā)明實施例中,一方面,將患者的至少一項單項病情描述中的每項單項病情描述轉(zhuǎn)換為一個第一數(shù)值向量,與傳統(tǒng)的把癥狀描述的自然文本轉(zhuǎn)換為結(jié)構(gòu)化文本的做法相比,采用向量編碼技術(shù)能夠達(dá)到與傳統(tǒng)結(jié)構(gòu)化相似的效果,并且簡單、不易出錯。另一方面,利用lstm技術(shù),生成至少一項單項病情描述的綜合病情描述以及預(yù)測下一步該做的化驗或檢查,從而能夠合并至少一項單項病情描述中的冗余描述,減少后續(xù)生成診斷決策時的運算量,并且能夠給出最佳診斷路徑。再一方面,利用mlp技術(shù),根據(jù)綜合病情描述,估算所述患者罹患至少一種疾病的概率,能夠獲得較高正確率的診斷結(jié)果。

附圖說明

圖1為本發(fā)明實施例提供的一種病情描述的智能分析方法流程圖;

圖2為本發(fā)明實施例提供的一種病情描述的智能分析系統(tǒng)。

具體實施方式

下面通過附圖和實施例,對本發(fā)明的技術(shù)方案做進一步的詳細(xì)描述。

為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。

為便于對本發(fā)明實施例的理解,下面將結(jié)合附圖以具體實施例做進一步的解釋說明,實施例并不構(gòu)成對本發(fā)明實施例的限定。

圖1為本發(fā)明實施例提供的一種病情描述的智能分析方法流程圖,該方法包括:

步驟101,將患者的至少一項單項病情描述中的每項單項病情描述轉(zhuǎn)換為一個第一數(shù)值向量。

在一個示例中,所述單項病情描述包括癥狀、體征、化驗指標(biāo)和檢查標(biāo)志物中的至少一種。

在一個示例中,步驟101具體包括:將所述患者的至少一項單項病情描述中的每項單項病情描述分別轉(zhuǎn)換為字級別編碼向量和詞級別編碼向量;將所述字級別編碼向量和所述詞級別編碼向量合成所述第一數(shù)值向量。

可選地,步驟101之前,該方法還包括:將海量病歷作為訓(xùn)練數(shù)據(jù),分別訓(xùn)練字級別編碼器和詞級別編碼器,訓(xùn)練完成后得到的結(jié)果包括所述字級別編碼器的參數(shù)和所述詞級別編碼器的參數(shù)以及字典編碼表和詞匯編碼表;步驟101包括:利用所述字級別編碼器將所述患者的至少一項單項病情描述中的每項單項病情描述轉(zhuǎn)換為字級別編碼向量;以及利用所述詞級別編碼器將所述患者的至少一項單項病情描述中的每項單項病情描述轉(zhuǎn)換為詞級別編碼向量。

步驟102,利用時間循環(huán)神經(jīng)網(wǎng)絡(luò)(longshort-termmemory,lstm)技術(shù),依次根據(jù)至少一個所述第一數(shù)值向量中的每個所述第一數(shù)值向量生成第二數(shù)值向量和輸出信息,所述第二數(shù)值向量用于表達(dá)所述至少一項單項病情描述的綜合病情描述;所述輸出信息為預(yù)測的下一步該做的化驗或檢查,所述化驗或檢查的結(jié)果作為所述單向病情描述。

可選地,步驟102之前,所述方法還包括:將海量病歷作為訓(xùn)練數(shù)據(jù),同時訓(xùn)練序列模型和診斷模型,訓(xùn)練完成后得到的結(jié)果包括:所述序列模型的記憶門、遺忘門、輸出門的神經(jīng)網(wǎng)絡(luò)模型的參數(shù);所述診斷模型的輸入層、輸出層中包含的節(jié)點的個數(shù),中間層的個數(shù)、以及每一個中間層包含的節(jié)點的個數(shù);所述診斷模型相鄰兩層一對一節(jié)點之間的連邊的權(quán)重。

步驟103,利用多層感知器(multilayerperceptron,mlp)技術(shù),根據(jù)所述第二數(shù)值向量,估算所述患者罹患至少一種疾病的概率。

可選地,把各個科室的若干疾病集合成疾病組,每個疾病組共享一套所述序列模型和所述診斷模型。

本發(fā)明實施例中,一方面,將患者的至少一項單項病情描述中的每項單項病情描述轉(zhuǎn)換為一個第一數(shù)值向量,與傳統(tǒng)的把癥狀描述的自然文本轉(zhuǎn)換為結(jié)構(gòu)化文本的做法相比,采用向量編碼技術(shù)能夠達(dá)到與傳統(tǒng)結(jié)構(gòu)化相似的效果,并且簡單、不易出錯。另一方面,利用lstm技術(shù),生成至少一項單項病情描述的綜合病情描述以及預(yù)測下一步該做的化驗或檢查,從而能夠合并至少一項單項病情描述中的冗余描述,減少后續(xù)生成診斷決策時的運算量,并且能夠給出最佳診斷路徑。再一方面,利用mlp技術(shù),根據(jù)綜合病情描述,估算所述患者罹患至少一種疾病的概率,能夠獲得較高正確率的診斷結(jié)果。

圖2為本發(fā)明實施例提供的一種病情描述的智能分析系統(tǒng),該系統(tǒng)用于執(zhí)行本發(fā)明實施例提供的病情描述的智能分析方法,該系統(tǒng)包括:編碼模塊201、導(dǎo)航模塊202和決策模塊203;

所述編碼模塊201,用于將患者的至少一項單項病情描述中的每項單項病情描述轉(zhuǎn)換為一個第一數(shù)值向量;

所述導(dǎo)航模塊202,用于利用lstm技術(shù),依次根據(jù)所述編碼模塊201轉(zhuǎn)換的至少一個所述第一數(shù)值向量中的每個所述第一數(shù)值向量生成第二數(shù)值向量和輸出信息,所述第二數(shù)值向量用于表達(dá)所述至少一項單項病情描述的綜合病情描述;所述輸出信息為預(yù)測的下一步該做的化驗或檢查,所述化驗或檢查的結(jié)果作為所述單向病情描述;

所述決策模塊203,用于利用mlp技術(shù),根據(jù)所述導(dǎo)航模塊202生成的第二數(shù)值向量,估算所述患者罹患至少一種疾病的概率。

在一個示例中,所述單項病情描述包括癥狀、體征、化驗指標(biāo)和檢查標(biāo)志物中的至少一種。

在一個示例中,所述編碼模塊201,具體用于:將所述患者的至少一項單項病情描述中的每項單項病情描述分別轉(zhuǎn)換為字級別編碼向量和詞級別編碼向量;將所述字級別編碼向量和所述詞級別編碼向量合成所述第一數(shù)值向量。

在一個示例中,所述編碼模塊201還用于:在所述將所述患者的至少一項單項病情描述中的每項單項病情描述分別轉(zhuǎn)換為字級別編碼向量和詞級別編碼向量之前,將海量病歷作為訓(xùn)練數(shù)據(jù),分別訓(xùn)練字級別編碼器和詞級別編碼器,訓(xùn)練完成后得到的結(jié)果包括所述字級別編碼器的參數(shù)和所述詞級別編碼器的參數(shù)以及字典編碼表和詞匯編碼表;所述編碼模塊201具體用于:利用所述字級別編碼器將所述患者的至少一項單項病情描述中的每項單項病情描述轉(zhuǎn)換為字級別編碼向量;以及利用所述詞級別編碼器將所述患者的至少一項單項病情描述中的每項單項病情描述轉(zhuǎn)換為詞級別編碼向量。

在一個示例中,所述導(dǎo)航模塊202,還用于在所述利用lstm技術(shù),依次根據(jù)至少一個所述第一數(shù)值向量中的每個所述第一數(shù)值向量生成第二數(shù)值向量和輸出信息之前,將海量病歷作為訓(xùn)練數(shù)據(jù),訓(xùn)練序列模型,訓(xùn)練完成后得到的結(jié)果包括:所述序列模型的記憶門、遺忘門、輸出門的神經(jīng)網(wǎng)絡(luò)模型的參數(shù);所述決策模塊203,還用于在所述利用lstm技術(shù),依次根據(jù)至少一個所述第一數(shù)值向量中的每個所述第一數(shù)值向量生成第二數(shù)值向量和輸出信息之前,將海量病歷作為訓(xùn)練數(shù)據(jù),訓(xùn)練診斷模型,訓(xùn)練完成后得到的結(jié)果包括:所述診斷模型的輸入層、輸出層中包含的節(jié)點的個數(shù),中間層的個數(shù)、以及每一個中間層包含的節(jié)點的個數(shù);所述診斷模型相鄰兩層一對一節(jié)點之間的連邊的權(quán)重。

在一個示例中,把各個科室的若干疾病集合成疾病組,每個疾病組共享一套所述序列模型和所述診斷模型。

下面通過具體的示例對本發(fā)明實施例提供的病情描述的智能分析方法進行說明。

本發(fā)明實施例旨在使用深度學(xué)習(xí)技術(shù),從海量病歷中學(xué)習(xí)人類醫(yī)生的診斷導(dǎo)航和決策的經(jīng)驗。所謂經(jīng)驗,包括兩點:1.各項病情描述,包括癥狀、體征、化驗指標(biāo)、檢查標(biāo)志物,對于診斷決策的貢獻(xiàn)。貢獻(xiàn)體現(xiàn)在,各項病情描述與疾病之間的權(quán)重,以及多項病情描述的組合與疾病之間的權(quán)重。2.如何做最少的或者最便宜的化驗和檢查,減免不必要的化驗和檢查。盡快收集到不多不少的病情描述,正好足以支持診斷。譬如有經(jīng)驗的醫(yī)生,看到食欲好但是體重急劇下降,并且有腫塊的患者,會立刻讓他去做活檢病理檢查。

首先,介紹病情描述的編碼。

病情描述,包括癥狀、體征、化驗指標(biāo)、檢查標(biāo)志物。病歷中的癥狀描述,通常出現(xiàn)在主訴、現(xiàn)病史、和病程記錄中。癥狀描述通常是自然文本,譬如“右側(cè)胸痛、咳血絲痰3月余,加重1天”。癥狀描述的結(jié)構(gòu),可以細(xì)分為實體與屬性。在上述例子中,實體有三,分別是“疼痛、咳痰、咯血”。這三個實體都有兩個屬性,持續(xù)時間是3月余,加重時間是1天。

通常地,如果要把癥狀描述的自然文本轉(zhuǎn)換為結(jié)構(gòu)化文本,傳統(tǒng)做法需要做三件事:1.同義詞轉(zhuǎn)換,譬如“右側(cè)胸”等同于“右胸”,“痛”等同于“疼痛”。2.拆分,譬如“咳血絲痰”,應(yīng)該拆分為“咳痰、咯血”。3.關(guān)聯(lián),譬如“疼痛”與以下屬性關(guān)聯(lián)“位置(position)=右胸”、“持續(xù)時間(duration)=3月余”、“趨向(trend)=加重”。傳統(tǒng)做法不僅繁瑣,而且易錯。

本發(fā)明實施例采用字向量和詞向量的編碼技術(shù),達(dá)到與傳統(tǒng)結(jié)構(gòu)化相似的效果。這種方法簡單且不易出錯。

需要說明的是,本發(fā)明實施例中提到的數(shù)字僅為舉例說明,并不用于對本發(fā)明實施例的限定。

1.字向量。

給病歷中出現(xiàn)的每一字都設(shè)定一個數(shù)值向量。每個字的字向量都包含200個數(shù)值,每個數(shù)值都介于0到1.0之間。

每一個字在200維向量空間中,都是一個點。每個點本身沒有明確的語義,但是語義相近的字,相互之間的距離較近。譬如“側(cè)”和“邊”的字向量距離較近。

另外,可以用語句中前幾個字,預(yù)測下一個字。譬如前幾個字是“右側(cè)胸”,下一個出現(xiàn)的字,可能是“痛”,也可能是“部”、“疼”等等,但是不太可能是“腳”。

基于海量病歷,通過深度學(xué)習(xí)算法,可以給病歷中出現(xiàn)的每一個字,在200維語義空間中,自動找到一個合適的點的位置。所謂合適,不僅讓同義字聚類在一起,而且能夠根據(jù)前幾個字的字向量,預(yù)測下一個字的字向量。

2.詞向量。

詞向量與字向量的原理相似,只不過每一個點對應(yīng)的不是一個字,而是一個詞。

對于中文病歷,可以預(yù)先分詞,然后再生成詞向量。

給每個字每個詞,都做好字向量和詞向量以后,把描述癥狀的自然語句,譬如“右側(cè)胸痛、咳血絲痰3月余,加重1天”,逐字逐字輸入字級別編碼器,得到的輸出是一個向量,不妨設(shè)定為2000維。這個向量隱含著語句中每個字的語義。本發(fā)明實施例可以采用一個lstm模型,來實現(xiàn)字級別編碼器。

然后再把同一個語句,逐詞逐詞輸入詞級別編碼器,得到的輸出是另一個向量,不妨也設(shè)定為2000維。這個向量隱含著語句中每個詞的語義。本發(fā)明實施例可以采用另一個lstm模型,來實現(xiàn)詞級別編碼器。

遇到訓(xùn)練數(shù)據(jù)中從未見過的字和詞,可以忽略。

這兩個2000維的向量,并沒有明確表述原句中有哪些實體,每個實體分別有哪些屬性。但是對于診斷的決策和導(dǎo)航的智能模型來說,用這兩個向量作為輸入,就足夠表達(dá)所有與癥狀相關(guān)的信息了。

下面介紹診斷路徑與序列模型。

如前所述,病情描述包括癥狀、體征、化驗指標(biāo)、檢查標(biāo)志物。其中癥狀描述和檢查描述,是用自然語言表達(dá)。而體征和化驗指標(biāo),是名稱和數(shù)值的結(jié)構(gòu)體。

每個患者的病情描述,包含的癥狀、體征、化驗指標(biāo)、檢查標(biāo)志物各不相同。

如果把癥狀、體征、化驗指標(biāo)、檢查標(biāo)志物,直接作為智能診斷的輸入,那么輸入項的數(shù)量必須是所有癥狀、體征、化驗指標(biāo)、檢查標(biāo)志物的總數(shù)。所有癥狀、體征、化驗指標(biāo)、檢查標(biāo)志物的總數(shù),超過2萬。對于某個具體患者而言,他的病情描述的數(shù)量,通常不超過500。

設(shè)置診斷模型的輸入,一種做法是把所有病情描述,都作為輸入項,也就是說,輸入項的總數(shù)大約為2萬。如果某位患者的病情描述只有500項,那么輸入項中其余的19500項,全部設(shè)置為空。輸入項過多,導(dǎo)致模型龐大,需要訓(xùn)練的模型參數(shù)眾多。需要訓(xùn)練的模型參數(shù)眾多,意味著需要很多訓(xùn)練數(shù)據(jù)。多項輸入項空置,不僅意味著訓(xùn)練數(shù)據(jù)難以全面訓(xùn)練模型的所有參數(shù),而且容易造成模型的訓(xùn)練不收斂。

上述做法模型的規(guī)模過大,因此需要尋求縮小模型規(guī)模的方法,減少輸入項的空置。一種辦法是給每種單一疾病,各做一個模型。這樣單一疾病模型的輸入項的數(shù)量大大縮小,譬如縮小到1千左右。同時,模型需要訓(xùn)練的參數(shù)的總數(shù)也相應(yīng)減少。如果某位患者的病情描述只有500項,那么輸入項中被空置的輸入項,只有500項左右。大大降低了訓(xùn)練模型時,發(fā)生模型過程不收斂的可能性。本發(fā)明實施例提議另一個辦法,用序列模型作為病情描述的輸入端。

本發(fā)明實施例可以采用lstm技術(shù)來實現(xiàn)序列模型,此外,還可以采用lstm技術(shù)來實現(xiàn)字級別編碼器和詞級別編碼器。

1.序列l(wèi)stm模型的輸入是一個維度固定的向量,譬如2000維。

主訴、現(xiàn)病史中的每一句話,可以通過字向量、詞向量的轉(zhuǎn)換,轉(zhuǎn)換為2000維的語義向量。檢查報告中的每一句檢查所見,和檢查結(jié)論,也可以通過字向量、詞向量的轉(zhuǎn)換,轉(zhuǎn)換為2000維的語義向量。每一項查體指標(biāo)、每一項化驗指標(biāo),也可以通過字向量、詞向量的轉(zhuǎn)換,轉(zhuǎn)換為2000維的語義向量。這樣,把病情描述,包括癥狀、體征、化驗指標(biāo)、檢查標(biāo)志物,按照收集到的時刻,依次輸入序列l(wèi)stm模型。

2.序列l(wèi)stm模型的隱狀態(tài),包含了病情描述的信息。

序列l(wèi)stm模型內(nèi)有記憶門和遺忘門,它們的任務(wù)是把已經(jīng)輸入的多個語義向量合并。記憶門和遺忘門分別是神經(jīng)網(wǎng)絡(luò),它們的參數(shù)通過訓(xùn)練數(shù)據(jù)來調(diào)整優(yōu)化。每次增添一項新的癥狀、或者體征、或者化驗指標(biāo)、或者檢查標(biāo)志物,lstm的隱狀態(tài)更新一次。當(dāng)某位患者的所有癥狀、體征、化驗指標(biāo)、和檢查標(biāo)志物,全部依次輸入進lstm后,lstm最后的隱狀態(tài)包含該患者所有的病情描述。lstm的隱狀態(tài)也是一個維度固定的向量,譬如10000維。

3.序列l(wèi)stm模型的輸出,也是一個維度固定的向量,它預(yù)測下一步應(yīng)該添加哪一項病情描述。

序列l(wèi)stm模型的訓(xùn)練數(shù)據(jù),來自各份病歷中的各項病情描述,包括癥狀、體征、化驗指標(biāo)、和檢查標(biāo)志物。把病歷中的各項病情描述,按照錄入時刻先后順序,依次排列成為序列,成為訓(xùn)練數(shù)據(jù)。把所有病歷作為訓(xùn)練數(shù)據(jù),用來訓(xùn)練序列模型。確切地說,訓(xùn)練過程就是調(diào)整優(yōu)化序列l(wèi)stm模型中的三個神經(jīng)網(wǎng)絡(luò)的參數(shù),這三個神經(jīng)網(wǎng)絡(luò)分別是記憶門、遺忘門和輸出門。如上所述,記憶門和遺忘門的任務(wù)是,把輸入的各項病情描述合并成為總的病情描述。輸出門的任務(wù)是,預(yù)測下一步該追問什么癥狀、做什么化驗和檢查。每次增添一項新的癥狀、或者體征、或者化驗指標(biāo)、或者檢查標(biāo)志物,lstm的輸出向量更新一次。lstm的輸出也是一個維度固定的向量,譬如2000維。

下面介紹病情描述及其組合與疾病之間的權(quán)重。

如前所述,把某位患者所有的癥狀、查體指標(biāo)、化驗指標(biāo)、和檢查標(biāo)志物,依次輸入lstm后,lstm的最終隱狀態(tài)向量,包含了該患者所有的病情描述。lstm的最終隱狀態(tài)向量的維度是固定的,譬如10000維。把這10000維的病情描述向量,輸入進診斷模型。診斷模型的輸出是可能罹患的疾病及其概率。

本發(fā)明實施例可以采用mlp來實現(xiàn)診斷模型。

mlp的系統(tǒng)結(jié)構(gòu),取決于以下參數(shù)。1.輸入層的節(jié)點個數(shù)。2.輸出層的節(jié)點個數(shù)。3.相鄰兩層的每對節(jié)點之間的連邊的權(quán)重。4.中間層的個數(shù)。5.每個中間層的節(jié)點個數(shù)。

1.輸入層的節(jié)點個數(shù)。

如前所述,如果病情描述是10000維的向量,那么mlp的輸入層,就相應(yīng)有10000個輸入節(jié)點。

2.輸出層的節(jié)點個數(shù)。

mlp的輸出節(jié)點,取決于要診斷多少種疾病。

如果用mlp來構(gòu)造單一疾病的診斷模型,那么mlp的輸出層只有一個節(jié)點,輸出值介于0到1.0之間,輸出值的含義是患者罹患該疾病的概率。

如果用mlp來構(gòu)造單一科室的所有疾病的診斷模型,如果單一科室常見的疾病有100種,那么mlp的輸出層有101個節(jié)點。第101個節(jié)點,表示的是罹患100種常見疾病以外,“其它”疾病的概率。

3.相鄰兩層的每對節(jié)點之間的連邊的權(quán)重。

如果mlp模型只有兩層,輸入層和輸出層,那么輸入層中每個節(jié)點,與輸出層中每個節(jié)點之間,一對一有邊相連。這時,輸出層每個節(jié)點的值,取決于輸入層所有節(jié)點的值的加權(quán)和,權(quán)重是輸入節(jié)點與輸出節(jié)點之間的連邊的權(quán)重。換而言之,患者罹患每種疾病的概率,取決于患者各項病情描述的加權(quán)和。各項病情描述,包括癥狀、體征、化驗指標(biāo)、和檢查標(biāo)志物,與某種疾病之間的權(quán)重,反應(yīng)了該項病情描述與該種疾病之間的關(guān)聯(lián)強弱。

mlp包含的眾多的邊的權(quán)重,由訓(xùn)練來確定。訓(xùn)練數(shù)據(jù)來自于病歷數(shù)據(jù)。每一份病歷,就是一個訓(xùn)練數(shù)據(jù)。每一個訓(xùn)練數(shù)據(jù),包括病歷描述和診斷結(jié)果。如上所述,每一份病歷的病情描述,經(jīng)過字編碼、詞編碼、和序列模型的處理,轉(zhuǎn)換成序列l(wèi)stm模型的最終隱狀態(tài),最終隱狀態(tài)通常是10000維的數(shù)值向量。診斷結(jié)果是罹患各種疾病的概率,如果某一種疾病出現(xiàn)在了某一份病歷的診斷結(jié)果中,那么罹患這個疾病的概率是1.0。沒有出現(xiàn)在病歷診斷結(jié)果中的疾病,它的概率是0。

4.中間層的個數(shù)。

中間層的個數(shù),表達(dá)的含義是某些輸入的病情描述的組合,也就是不可觸摸的抽象的病理狀態(tài),對診斷結(jié)果的影響。譬如,發(fā)燒往往由感染引起,而感染也會導(dǎo)致白細(xì)胞計數(shù)偏高。發(fā)燒是一個癥狀、白細(xì)胞計數(shù)偏高是一個化驗指標(biāo)。發(fā)燒與白細(xì)胞計數(shù)偏高,這兩項病情描述并不相互獨立,它們的組合反應(yīng)了感染這種病理狀態(tài)。而感染這個不可觸摸的病理狀態(tài),決定了診斷結(jié)果。中間層的個數(shù),反應(yīng)了需要對病情描述做多少次抽象,抽象成多少層病理狀態(tài)。不同疾病,需要抽象的病歷狀態(tài)的層數(shù)不同。

本發(fā)明實施例中,可以預(yù)先把相關(guān)疾病分成若干疾病組,每一組疾病共用一個診斷mlp模型。每組診斷mlp模型的中間層的個數(shù),根據(jù)模型與訓(xùn)練數(shù)據(jù)的擬合程度決定。而訓(xùn)練數(shù)據(jù)來自于海量病歷數(shù)據(jù)。

5.每個中間層的節(jié)點個數(shù)。

每個中間層的節(jié)點個數(shù),表達(dá)的含義是這一次抽象后,得到的病理狀態(tài),有多少種分型。病理狀態(tài)分型越細(xì),相關(guān)中間層的節(jié)點個數(shù)越多。每個中間層的節(jié)點個數(shù),也是根據(jù)模型與訓(xùn)練數(shù)據(jù)的擬合程度來決定。

最后介紹一下模型的訓(xùn)練。

整個系統(tǒng)有以下幾個模型構(gòu)成:1.字向量編碼器,用lstm實現(xiàn)。2.詞向量編碼器,用lstm實現(xiàn)。3.病情描述的序列模型,用lstm實現(xiàn)。4.診斷模型,用mlp實現(xiàn)。

其中,字向量編碼器和詞向量編碼器,分別由兩個獨立的訓(xùn)練過程來完成。訓(xùn)練數(shù)據(jù)是海量病歷。訓(xùn)練完成后得到的結(jié)果,不僅是兩個編碼器的參數(shù),而且構(gòu)造了字典編碼表和詞匯編碼表。字典編碼表和詞匯編碼表分別由兩列組成,第一列是字或者詞,第二列是對應(yīng)的編碼,編碼可以是1000維的數(shù)值向量。

序列模型和診斷模型的訓(xùn)練,合并在一起完成。訓(xùn)練數(shù)據(jù)來自于海量病歷。每一份病歷,經(jīng)過編碼,得到病情描述的數(shù)值向量,以及相應(yīng)的診斷結(jié)果。訓(xùn)練完成后得到的結(jié)果包括以下內(nèi)容:1.序列模型的記憶門、遺忘門、輸出門的神經(jīng)網(wǎng)絡(luò)模型的參數(shù)。2.診斷模型的輸入層、輸出層中包含的節(jié)點的個數(shù),中間層的個數(shù)、以及每一個中間層包含的節(jié)點的個數(shù)。3.診斷模型相鄰兩層一對一節(jié)點之間的連邊的權(quán)重。

為了加快序列模型和診斷模型的訓(xùn)練速度,降低數(shù)據(jù)使用量,保障訓(xùn)練過程的收斂,本發(fā)明實施例中可以把單一科室的多種疾病,組合成若干個疾病組。每組疾病共享一套序列模型和診斷模型。

當(dāng)模型與病歷數(shù)據(jù)的擬合度趨于穩(wěn)定,訓(xùn)練過程終止。

與通常的方法相比,本發(fā)明實施例中,采用了以下手段:1.用字向量和詞向量,對自然文本的病歷進行編碼,把病歷轉(zhuǎn)換為一組數(shù)值向量。2.用序列模型,依次輸入各項病情描述,避免模型輸入項數(shù)量的龐大,避免多個輸入項出現(xiàn)空值。3.用序列模型的隱狀態(tài)的數(shù)值向量,表達(dá)病情描述。4.用序列模型的輸出的數(shù)值向量,預(yù)測下一步該做什么化驗和檢查,為醫(yī)生提供臨床診斷導(dǎo)航。5.用多層感知器構(gòu)建診斷模型,把病情描述的數(shù)值向量作為輸入,估算罹患各種疾病的概率。6.把各個科室的若干疾病集合成疾病組,每個疾病組共享一套序列模型和診斷模型。通過上述手段的結(jié)合,能夠獲得最佳診斷路徑及較高正確率的診斷結(jié)果。

專業(yè)人員應(yīng)該還可以進一步意識到,結(jié)合本文中所公開的實施例描述的各示例的單元及算法步驟,能夠以電子硬件、計算機軟件或者二者的結(jié)合來實現(xiàn),為了清楚地說明硬件和軟件的可互換性,在上述說明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計約束條件。專業(yè)技術(shù)人員可以對每個特定的應(yīng)用來使用不同方法來實現(xiàn)所描述的功能,但是這種實現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。

結(jié)合本文中所公開的實施例描述的方法或算法的步驟可以用硬件、處理器執(zhí)行的軟件模塊,或者二者的結(jié)合來實施。軟件模塊可以置于隨機存儲器(ram)、內(nèi)存、只讀存儲器(rom)、電可編程rom、電可擦除可編程rom、寄存器、硬盤、可移動磁盤、cd-rom、或技術(shù)領(lǐng)域內(nèi)所公知的任意其它形式的存儲介質(zhì)中。

以上所述的具體實施方式,對本發(fā)明的目的、技術(shù)方案和有益效果進行了進一步詳細(xì)說明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體實施方式而已,并不用于限定本發(fā)明的保護范圍,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
柘城县| 城口县| 新乡市| 昌吉市| 密山市| 永福县| 昭平县| 乃东县| 云龙县| 会宁县| 大悟县| 奉节县| 龙口市| 安达市| 双城市| 磐石市| 寿光市| 铅山县| 武乡县| 禄劝| 班戈县| 江津市| 建宁县| 贡山| 瑞金市| 准格尔旗| 汉源县| 三穗县| 江安县| 芦溪县| 东丽区| 湘潭市| 齐河县| 保靖县| 扶风县| 嵊泗县| 洛浦县| 阜新市| 深水埗区| 阿荣旗| 兴安县|