两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

疾病的快速輔助定位方法與流程

文檔序號:11693745閱讀:325來源:國知局
疾病的快速輔助定位方法與流程

本發(fā)明涉及臨床診斷系統(tǒng),具體涉及一種疾病的快速輔助定位方法。



背景技術(shù):

在罕見疾病的臨床診斷中,一個常見的問題便是如何根據(jù)患者的表型信息快速準(zhǔn)確地分析出其罹患的具體的疾病類型。表型診斷就是通過比較患者表型和所有已知疾病記錄的表型間的相似程度,跟患者越相似的疾病可能性越大,因此精確地計算記錄的疾病表型和患者間的表型間的相似程度是成功診斷的關(guān)鍵。

由于各種外界原因,比如患者間的遺傳和環(huán)境等個體差異、臨床醫(yī)生的知識結(jié)構(gòu)差異等,臨床診斷時患者的表型描述不可能跟疾病的已知表述完全一致,在現(xiàn)實(shí)場景中,經(jīng)常出現(xiàn)以下問題:1)數(shù)據(jù)不完整(只包括部分表型);2)噪音(跟真實(shí)疾病無關(guān)的表型,即提供了錯誤的表型);3)不準(zhǔn)確描述(表型描述過于寬泛,不具有區(qū)分度)。



技術(shù)實(shí)現(xiàn)要素:

針對現(xiàn)有技術(shù)中的上述不足,本發(fā)明提供的疾病的快速輔助定位方法解決了實(shí)際場景中表型數(shù)據(jù)不完備、帶有噪音和描述不夠準(zhǔn)確引起疾病定位不準(zhǔn)確的問題。

為了達(dá)到上述發(fā)明目的,本發(fā)明采用的技術(shù)方案為:

提供一種疾病的快速輔助定位方法,其包括:

接收患者描述的罹患疾病的所有表型,并采用接收的所有表型構(gòu)建患者描述表型集;

獲取表型注釋數(shù)據(jù)庫中具有患者描述的表型的所有疾病;

查找每種疾病所對應(yīng)的表型,并采用每種疾病所對應(yīng)的表型分別構(gòu)建相關(guān)疾病表型集;

計算患者描述表型集與每個相關(guān)疾病表型集的相似度:

其中,t1為患者描述表型集;t2為相關(guān)疾病表型集;sim(t1,t2)為集合t1與集合t2之間的相似度;t1和t2疾病所對應(yīng)的兩種不同的表型;sim(t1,t2)為表型t1和t2之間的相似度;

比較患者描述表型集與所有相關(guān)疾病表型集的相似度,相似度值越大,則患者罹患當(dāng)前相似度對應(yīng)疾病的概率越大。

本發(fā)明的有益效果為:本方案通過獨(dú)特的算法計算患者表型與所有已知疾病的相似度,能夠很好地排除患者描述表型數(shù)據(jù)不完備、帶有噪音和描述不夠準(zhǔn)確等帶來的不確定性;將采用本方案的方法與現(xiàn)有通過相似度定位疾病的resnik、jc和lin方法在同等模擬環(huán)境下進(jìn)行模擬實(shí)驗,通過數(shù)據(jù)對比,本方案抗外界干擾因素明顯高于現(xiàn)有技術(shù)中采用相似度的三種方法。

附圖說明

圖1為本發(fā)明疾病的快速輔助定位方法一個實(shí)施例的流程圖。

圖2為模擬測試時,添加0.5倍,1倍和1.5倍噪音后,本方案與現(xiàn)有技術(shù)中的resnik、jc和lin方法抵抗噪音干擾時的效果圖。

圖3為模擬測試時,先抽取50%表型,然后分別替換其中的30%、50%和90%的表型作為每個表型對應(yīng)的任意一個祖先表型后,本方案與現(xiàn)有技術(shù)中的resnik、jc和lin方法抵抗不精確描述時的效果圖。

圖4為模擬測試時,先抽樣50%的表型,不精確部分表型,在添加不同程度的噪音后,本方案與現(xiàn)有技術(shù)中的resnik、jc和lin方法抵抗混合效應(yīng)時的效果圖。

具體實(shí)施方式

下面對本發(fā)明的具體實(shí)施方式進(jìn)行描述,以便于本技術(shù)領(lǐng)域的技術(shù)人員理解本發(fā)明,但應(yīng)該清楚,本發(fā)明不限于具體實(shí)施方式的范圍,對本技術(shù)領(lǐng)域的普通技術(shù)人員來講,只要各種變化在所附的權(quán)利要求限定和確定的本發(fā)明的精神和范圍內(nèi),這些變化是顯而易見的,一切利用本發(fā)明構(gòu)思的發(fā)明創(chuàng)造均在保護(hù)之列。

參考圖,圖1示出了本發(fā)明疾病的快速輔助定位方法一個實(shí)施例的流程圖。如圖1所示,該方法100包括步驟101至步驟104。

在步驟101中,接收患者描述的罹患疾病的所有表型;為了便于后面患者罹患疾病的相似度與數(shù)據(jù)庫中疾病的相似度計算,此處將患者描述的所有表型構(gòu)建成一個集合,即采用接收的所有表型構(gòu)建患者描述表型集。

在本發(fā)明的一個實(shí)施例中,表型注釋數(shù)據(jù)庫為從人類表型本體官方網(wǎng)站獲得的罕見疾病和每種罕見疾病對應(yīng)的表型構(gòu)建而成。

由于數(shù)據(jù)集中的所有疾病及每種疾病的相關(guān)表型均來自于全球權(quán)威機(jī)構(gòu),而不是自己從各種數(shù)據(jù)網(wǎng)址收集整理而來,更助于后面準(zhǔn)確定位疾病的準(zhǔn)確性和可靠性。

在步驟102中,獲取表型注釋數(shù)據(jù)庫中具有患者描述的表型的所有疾病,此處的疾病的所有表型中至少包括一種患者描述的表型。

在步驟103中,查找每種疾病所對應(yīng)的表型,此處為便于后續(xù)相似度計算,同理也可以將每種疾病所對應(yīng)的表型分別構(gòu)建成一個集合,即采用每種疾病所對應(yīng)的表型分別構(gòu)建相關(guān)疾病表型集。

在步驟104中,計算患者描述表型集與每個相關(guān)疾病表型集的相似度:

其中,t1為患者描述表型集;t2為相關(guān)疾病表型集;sim(t1,t2)為集合t1與集合t2之間的相似度;t1和t2疾病所對應(yīng)的兩種不同的表型;sim(t1,t2)為表型t1和t2之間的相似度;

在本發(fā)明的一個實(shí)施例中,表型t1和t2之間的相似度sim(t1,t2)的具體算法為:

sim(t1,t2)=2ic(tmica)-min(ic(t1),ic(t2))

其中,tmica為表型t1和t2的最大信息量共同祖先節(jié)點(diǎn);ic(tmica)為兩個表型t1和t2共同的祖先tmica的信息量;ic(t1)和ic(t2)分別為表型t1和t2的信息量;min(ic(t1),ic(t2)表示取ic(t1)和ic(t2)兩者中最小值。

實(shí)施時,優(yōu)選表型的信息量的具體算法為:

ic(t)=log(n/nt)

其中,n為從表型注釋數(shù)據(jù)庫獲取的所有疾病的數(shù)量;t為疾病所對應(yīng)的表型;nt為具有表型t的疾病數(shù)量;ic代表每個表型的信息量。

在步驟105中,比較患者描述表型集與所有相關(guān)疾病表型集的相似度,相似度值越大,則患者罹患當(dāng)前相似度對應(yīng)疾病的概率越大。

在本發(fā)明的一個實(shí)施例中,該疾病的快速輔助定位方法還包括對患者描述表型集與所有相關(guān)疾病表型集的相似度按照疾病的維度進(jìn)行排序,并輸出排序結(jié)果。

通過輸出的排序結(jié)果,用戶可以動態(tài)地增減或修改描述的表型,以達(dá)到罹患疾病的精確定位。

下面選取dddg2p(developmentdisordergenotype–phenotypedatabase數(shù)據(jù)庫(https://decipher.sanger.ac.uk)對現(xiàn)有技術(shù)中resnik、jc和lin與本方案的方法(下面用eric表示)進(jìn)行模擬測試。

其中,dddg2p(developmentdisordergenotype–phenotypedatabase數(shù)據(jù)庫包含了大約25000個疾病和表型間的對應(yīng)關(guān)系,包括1300種發(fā)育相關(guān)的疾病和大約4000個人類表型本體(hpo)表型術(shù)語。

噪音對比測試

由于個體遺傳和環(huán)境等差異,臨床患者還可能表現(xiàn)出跟真實(shí)疾病記錄無關(guān)或者不一致的表型(噪音),我們采用如下步驟生成帶噪音的患者描述表型集。

首先,每種疾病我們隨機(jī)抽取50%的表型,每種疾病抽樣10次,添加0.5倍,1倍和1.5倍的噪音,計算帶噪音抽樣表型跟每個疾病所有表型的相關(guān)疾病表型集的相似性,如果目標(biāo)疾病(真實(shí)表型數(shù)據(jù)來源的疾病)的排名越靠前則說明抗噪音能力越好。

通過模擬測試輸出的圖像(參考圖2)可以發(fā)現(xiàn)抵抗噪音能力依次為:eric>jc>lin>resnik,可見本方案提供的方法(eric)比其它方法更能抵抗噪音的影響。

參見表1,在1.5倍噪音時,排名前5的疾病,eric依次能比jc、lin和resnik多13.8%,23.3%和25.7%。

表11.5倍噪音時真實(shí)疾病排名

不精確描述測試

臨床上患者描述疾病的表型可能比較寬泛,不精確,因此我們還需要模擬不精確描述的影響。同樣先抽取50%表型,然后分別替換其中的30%、50%和90%的表型作為每個表型對應(yīng)的任意一個祖先表型。

通過模擬測試輸出的圖像(參考圖3)可以發(fā)現(xiàn)eric和resnik抵御不精確描述的能力比較一致,且都優(yōu)于jc和lin方法。

參見表2,在90%的不精確描述時,排名前5的疾病eric和resnik比jc和lin多大約8%。

表290%不精確描述時的真實(shí)疾病排名

混合效應(yīng)測試

真實(shí)的臨床使用時,會同時受到噪音和不精確描述的影響。為了評估這種混合效應(yīng)的影響,我們抽樣50%的表型,然后分別替換其中50%的表型作為每個表型對應(yīng)的任意一個祖先表型,之后再添加1倍的噪音進(jìn)行模擬測試。

通過模擬測試分別計算相似度后,我們發(fā)現(xiàn)eric仍然是表現(xiàn)最好的,測試數(shù)據(jù)參考圖4和表3。

表31倍和50%不精確描述時真實(shí)疾病排名

綜上所述,本方案通過獨(dú)特的計算方式計算的相似度確定為某種疾病的方式與現(xiàn)有的resnik、jc和lin相比,具有更好的抗噪聲性能,更能容忍不精確表型描述帶來的干擾。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
靖边县| 马边| 资阳市| 大新县| 靖宇县| 香格里拉县| 乃东县| 高邮市| 收藏| 辽源市| 漳浦县| 渭南市| 辽阳市| 福海县| 陕西省| 沅江市| 手游| 洪洞县| 阿克苏市| 淮北市| 剑川县| 承德市| 金堂县| 眉山市| 宣化县| 南昌县| 青河县| 凤翔县| 合川市| 甘孜县| 双流县| 麦盖提县| 兴山县| 布尔津县| 海盐县| 金秀| 巴林左旗| 台湾省| 噶尔县| 马边| 葵青区|