本公開涉及醫(yī)療大數(shù)據(jù)技術(shù)領(lǐng)域,尤其涉及一種醫(yī)療命名實(shí)體識(shí)別系統(tǒng)生成方法及醫(yī)療命名實(shí)體識(shí)別系統(tǒng)生成裝置。
背景技術(shù):
醫(yī)療過程中,會(huì)產(chǎn)生大量的醫(yī)療數(shù)據(jù),主要包含患者的病歷、醫(yī)囑、護(hù)理文書、檢查所見和檢查結(jié)論等,這些數(shù)據(jù)反映了患者的基本信息、臨床診斷、治療過程和結(jié)果。隨著醫(yī)療系統(tǒng)信息化的建立和完善,越來越多的醫(yī)療數(shù)據(jù)由人工記錄的方式轉(zhuǎn)為電子化錄入。目前,對(duì)于病歷、醫(yī)囑、護(hù)理文書和檢查報(bào)告等臨床信息主要由醫(yī)療人員通過自然語言的方式書寫而成,信息結(jié)構(gòu)較為復(fù)雜。因而如何對(duì)大量這些非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理、分析和挖掘是醫(yī)療信息化建設(shè)的重要問題。其中,進(jìn)行醫(yī)療命名實(shí)體識(shí)別是必不可少的。
現(xiàn)有技術(shù)中,對(duì)命名實(shí)體的識(shí)別方法一般包括三種:基于詞典的方法、基于啟發(fā)式規(guī)則的方法和基于機(jī)器學(xué)習(xí)的方法。前兩種方法對(duì)詞典或規(guī)則有很強(qiáng)的依賴性,且在中文方面,可供使用的資源相對(duì)匱乏。此外,對(duì)于海量醫(yī)療自然語言文本而言,由于不同醫(yī)療人員的寫法不一,使得同一個(gè)醫(yī)療命名實(shí)體通常具有很多種寫法。而基于機(jī)器學(xué)習(xí)的方法通常都是采用有監(jiān)督的方法,需要大量人工標(biāo)注才能達(dá)到一定效果。因此,如何在大量自然語言文本中快速挖掘輸出有意義的醫(yī)療命名實(shí)體是亟待解決的技術(shù)問題。
在所述背景技術(shù)部分公開的上述信息僅用于加強(qiáng)對(duì)本公開的背景的理解,因此它可以包括不構(gòu)成對(duì)本領(lǐng)域普通技術(shù)人員已知的現(xiàn)有技術(shù)的信息。
技術(shù)實(shí)現(xiàn)要素:
本公開的目的在于提供一種醫(yī)療命名實(shí)體識(shí)別系統(tǒng)生成方法及醫(yī)療命名實(shí)體識(shí)別系統(tǒng)生成裝置,進(jìn)而至少在一定程度上克服由于相關(guān)技術(shù)的限制和缺陷而導(dǎo)致的一個(gè)或者多個(gè)問題。
根據(jù)本公開的一個(gè)方面,提供一種醫(yī)療命名實(shí)體識(shí)別系統(tǒng)生成方法,包括:
通過一醫(yī)療命名實(shí)體識(shí)別系統(tǒng)接收多個(gè)醫(yī)療文本樣本,并利用機(jī)器學(xué)習(xí)從所述多個(gè)醫(yī)療文本樣本獲取多個(gè)候選醫(yī)療命名實(shí)體;
對(duì)所述多個(gè)候選醫(yī)療命名實(shí)體進(jìn)行標(biāo)注,得到多個(gè)推薦醫(yī)療命名實(shí)體;
計(jì)算所述推薦醫(yī)療命名實(shí)體和所述候選醫(yī)療命名實(shí)體的數(shù)量之比,并判斷所述數(shù)量之比是否小于第一預(yù)設(shè)值;
在判斷所述數(shù)量之比小于所述第一預(yù)設(shè)值時(shí),將所述推薦醫(yī)療命名實(shí)體輸入至所述醫(yī)療命名實(shí)體識(shí)別系統(tǒng),并據(jù)以從所述多個(gè)醫(yī)療文本樣本中獲取多個(gè)所述候選醫(yī)療命名實(shí)體并轉(zhuǎn)至對(duì)所述多個(gè)候選醫(yī)療命名實(shí)體進(jìn)行標(biāo)注的步驟;
在判斷所述數(shù)量之比不小于所述第一預(yù)設(shè)值時(shí),以當(dāng)前醫(yī)療命名實(shí)體識(shí)別系統(tǒng)作為目標(biāo)醫(yī)療命名實(shí)體識(shí)別系統(tǒng)。
在本公開的一種示例性實(shí)施例中,所述利用機(jī)器學(xué)習(xí)從所述多個(gè)醫(yī)療文本樣本獲取多個(gè)候選醫(yī)療命名實(shí)體包括:
計(jì)算所述多個(gè)醫(yī)療文本樣本中各個(gè)命名實(shí)體的權(quán)重值;
選取權(quán)重值最高的多個(gè)命名實(shí)體作為所述候選醫(yī)療命名實(shí)體。
在本公開的一種示例性實(shí)施例中,計(jì)算所述多個(gè)醫(yī)療文本樣本中各個(gè)命名實(shí)體的權(quán)重值包括:
在spark環(huán)境下,通過N-Gram算法和tf-idf算法計(jì)算所述多個(gè)醫(yī)療文本樣本中各個(gè)命名實(shí)體的權(quán)重值。
在本公開的一種示例性實(shí)施例中,所述將所述多個(gè)推薦醫(yī)療命名實(shí)體輸入至所述醫(yī)療命名實(shí)體識(shí)別系統(tǒng),并據(jù)以從所述多個(gè)醫(yī)療文本樣本中獲取多個(gè)所述候選醫(yī)療命名實(shí)體包括:
從所述多個(gè)醫(yī)療樣本文本中獲取與所述推薦醫(yī)療命名實(shí)體的上下文特征相似的命名實(shí)體作為補(bǔ)充醫(yī)療命名實(shí)體;
增加所述補(bǔ)充醫(yī)療命名實(shí)體在所述多個(gè)醫(yī)療文本樣本中的權(quán)重值;
選取權(quán)重值最高的多個(gè)命名實(shí)體作為所述候選醫(yī)療命名實(shí)體。
在本公開的一種示例性實(shí)施例中,所述從所述多個(gè)醫(yī)療樣本文本中獲取與所述推薦醫(yī)療命名實(shí)體的上下文特征相似的命名實(shí)體作為補(bǔ)充醫(yī)療命名實(shí)體包括:
根據(jù)預(yù)設(shè)模型對(duì)所述多個(gè)醫(yī)療樣本文本進(jìn)行分詞,得到多個(gè)切分單元;
獲取所述多個(gè)推薦醫(yī)療命名實(shí)體的上下文特征,并分別將各所述推薦醫(yī)療命名實(shí)體的上下文特征表示為第一向量;
獲取所述多個(gè)切分單元的上下文特征,并分別將各所述切分單元的上下文特征表示為第二向量;
計(jì)算所述第一向量與所述第二向量的相似度,并判斷所述相似度是否小于第二預(yù)設(shè)值;
選取與所述第一向量的相似度不小于所述第二預(yù)設(shè)值的第二向量,并將與所述第二向量表示的上下文特征對(duì)應(yīng)切分單元作為所述候選醫(yī)療命名實(shí)體。
在本公開的一種示例性實(shí)施例中,所述預(yù)設(shè)模型為隱馬爾科夫模型。
在本公開的一種示例性實(shí)施例中,其中,通過word2vec將各所述推薦醫(yī)療命名實(shí)體的上下文特征表示為第一向量以及將各所述切分單元的上下文特征表示為第二向量。
在本公開的一種示例性實(shí)施例中,所述第一預(yù)設(shè)值為85%-90%。
在本公開的一種示例性實(shí)施例中,其中,在對(duì)所述多個(gè)候選醫(yī)療命名實(shí)體進(jìn)行標(biāo)注的同時(shí),對(duì)被標(biāo)注的所述推薦醫(yī)療命名實(shí)體進(jìn)行分類;
在從所述多個(gè)醫(yī)療文本樣本中獲取所述候選醫(yī)療命名實(shí)體的同時(shí),根據(jù)與該所述候選醫(yī)療命名實(shí)體相似的所述推薦醫(yī)療命名實(shí)體的分類對(duì)該所述候選醫(yī)療命名實(shí)體推薦分類。
根據(jù)本公開的一個(gè)方面,提供一種醫(yī)療命名實(shí)體識(shí)別系統(tǒng)生成裝置,包括:
冷啟動(dòng)單元,用于通過一醫(yī)療命名實(shí)體識(shí)別系統(tǒng)接收多個(gè)醫(yī)療文本樣本,并利用機(jī)器學(xué)習(xí)從所述多個(gè)醫(yī)療文本樣本獲取多個(gè)候選醫(yī)療命名實(shí)體;
標(biāo)注單元,用于對(duì)所述多個(gè)候選醫(yī)療命名實(shí)體進(jìn)行標(biāo)注,得到多個(gè)推薦醫(yī)療命名實(shí)體;
評(píng)估單元,用于計(jì)算所述推薦醫(yī)療命名實(shí)體和所述候選醫(yī)療命名實(shí)體的數(shù)量之比,并判斷所述數(shù)量之比是否小于第一預(yù)設(shè)值;
反饋單元,用于在判斷所述數(shù)量之比小于所述第一預(yù)設(shè)值時(shí),將所述推薦醫(yī)療命名實(shí)體輸入至所述醫(yī)療命名實(shí)體識(shí)別系統(tǒng),并據(jù)以從所述多個(gè)醫(yī)療文本樣本中獲取多個(gè)所述候選醫(yī)療命名實(shí)體并反饋至所述標(biāo)注單元;
輸出單元,用于在判斷所述數(shù)量之比不小于所述第一預(yù)設(shè)值時(shí),以當(dāng)前醫(yī)療命名實(shí)體識(shí)別系統(tǒng)作為目標(biāo)醫(yī)療命名實(shí)體識(shí)別系統(tǒng)。
本公開的醫(yī)療命名實(shí)體識(shí)別系統(tǒng)生成方法及裝置,通過向醫(yī)療命名實(shí)體識(shí)別系統(tǒng)輸入大量基于自然語言的醫(yī)療文本樣本,利用機(jī)器學(xué)習(xí)獲取多個(gè)候選醫(yī)療命名實(shí)體;然后對(duì)多個(gè)候選醫(yī)療命名實(shí)體進(jìn)行標(biāo)注,得到多個(gè)推薦醫(yī)療命名實(shí)體;隨后,可計(jì)算推薦醫(yī)療命名實(shí)體和候選醫(yī)療命名實(shí)體的數(shù)量之比并將其與第一預(yù)設(shè)值進(jìn)行比較,當(dāng)數(shù)量之比不小于第一預(yù)設(shè)值時(shí),說明醫(yī)療命名實(shí)體識(shí)別系統(tǒng)的性能已經(jīng)滿足需要,此時(shí),可直接將醫(yī)療命名實(shí)體識(shí)別系統(tǒng)作為目標(biāo)醫(yī)療命名實(shí)體識(shí)別系統(tǒng)進(jìn)行輸出;當(dāng)數(shù)量之比小于第一預(yù)設(shè)值時(shí),則說明醫(yī)療命名實(shí)體識(shí)別系統(tǒng)的性能尚未滿足需要,可將多個(gè)推薦醫(yī)療命名實(shí)體輸入至醫(yī)療命名實(shí)體識(shí)別系統(tǒng)并根據(jù)多個(gè)推薦醫(yī)療命名實(shí)體從多個(gè)醫(yī)療文本樣本中獲取多個(gè)候選醫(yī)療命名實(shí)體并再次進(jìn)行標(biāo)注,得到更多個(gè)推薦醫(yī)療命名實(shí)體,依此類推迭代,直至數(shù)量之比不小于第一預(yù)設(shè)值時(shí),即醫(yī)療命名實(shí)體識(shí)別系統(tǒng)的性能已經(jīng)滿足需要時(shí),可將醫(yī)療命名實(shí)體識(shí)別系統(tǒng)作為目標(biāo)醫(yī)療命名實(shí)體識(shí)別系統(tǒng)進(jìn)行輸出。
在上述過程中,結(jié)合機(jī)器學(xué)習(xí)和人工標(biāo)注,也即結(jié)合非監(jiān)督和有監(jiān)督算法,快速生成性能滿足需要的醫(yī)療命名實(shí)體識(shí)別系統(tǒng),進(jìn)而可以在最小人工標(biāo)注代價(jià)下快速產(chǎn)出的醫(yī)療命名實(shí)體,同時(shí)可以保證在海量數(shù)據(jù)集中可以達(dá)到良好的識(shí)別率。
附圖說明
通過參照附圖詳細(xì)描述其示例實(shí)施方式,本公開的上述和其它特征及優(yōu)點(diǎn)將變得更加明顯。
圖1是本公開實(shí)施例醫(yī)療命名實(shí)體識(shí)別系統(tǒng)生成方法的流程圖;
圖2是本公開實(shí)施例醫(yī)療命名實(shí)體識(shí)別系統(tǒng)生成方法中利用機(jī)器學(xué)習(xí)從所述多個(gè)醫(yī)療文本樣本獲取多個(gè)候選醫(yī)療命名實(shí)體的流程圖;
圖3是本公開實(shí)施例醫(yī)療命名實(shí)體識(shí)別系統(tǒng)生成方法中將所述多個(gè)推薦醫(yī)療命名實(shí)體輸入至所述醫(yī)療命名實(shí)體識(shí)別系統(tǒng),并據(jù)以從所述多個(gè)醫(yī)療文本樣本中獲取多個(gè)所述候選醫(yī)療命名實(shí)體的流程圖;
圖4是是本公開實(shí)施例醫(yī)療命名實(shí)體識(shí)別系統(tǒng)生成裝置的原理框圖。
具體實(shí)施方式
現(xiàn)在將參考附圖更全面地描述示例實(shí)施方式。然而,示例實(shí)施方式能夠以多種形式實(shí)施,且不應(yīng)被理解為限于在此闡述的范例;相反,提供這些實(shí)施方式使得本公開將更加全面和完整,并將示例實(shí)施方式的構(gòu)思全面地傳達(dá)給本領(lǐng)域的技術(shù)人員。所描述的特征、結(jié)構(gòu)或特性可以以任何合適的方式結(jié)合在一個(gè)或更多實(shí)施方式中。在下面的描述中,提供許多具體細(xì)節(jié)從而給出對(duì)本公開的實(shí)施方式的充分理解。然而,本領(lǐng)域技術(shù)人員將意識(shí)到,可以實(shí)踐本公開的技術(shù)方案而省略所述特定細(xì)節(jié)中的一個(gè)或更多,或者可以采用其它的方法、組元、裝置、步驟等。在其它情況下,不詳細(xì)示出或描述公知技術(shù)方案以避免喧賓奪主而使得本公開的各方面變得模糊。
此外,附圖僅為本公開的示意性圖解,并非一定是按比例繪制。圖中相同的附圖標(biāo)記表示相同或類似的部分,因而將省略對(duì)它們的重復(fù)描述。附圖中所示的一些方框圖是功能實(shí)體,不一定必須與物理或邏輯上獨(dú)立的實(shí)體相對(duì)應(yīng)。可以采用軟件形式來實(shí)現(xiàn)這些功能實(shí)體,或在一個(gè)或多個(gè)硬件模塊或集成電路中實(shí)現(xiàn)這些功能實(shí)體,或在不同網(wǎng)絡(luò)和/或處理器裝置和/或微控制器裝置中實(shí)現(xiàn)這些功能實(shí)體。
本示例實(shí)施方式中首先提供了一種醫(yī)療命名實(shí)體識(shí)別系統(tǒng)生成方法,參照?qǐng)D1中所示,所述醫(yī)療命名實(shí)體識(shí)別系統(tǒng)生成方法可以包括以下步驟:
步驟S11,通過一醫(yī)療命名實(shí)體識(shí)別系統(tǒng)接收多個(gè)醫(yī)療文本樣本,并利用機(jī)器學(xué)習(xí)從所述多個(gè)醫(yī)療文本樣本獲取多個(gè)候選醫(yī)療命名實(shí)體。舉例而言,可向所述醫(yī)療命名實(shí)體識(shí)別系統(tǒng)輸入大量的醫(yī)療文本樣本,所述醫(yī)療文本樣本中包括大量醫(yī)療命名實(shí)體和非醫(yī)療命名實(shí)體,通過機(jī)器學(xué)習(xí)的方式從所述醫(yī)療文本樣本中篩選出多個(gè)醫(yī)療命名實(shí)體作為候選醫(yī)療命名實(shí)體。
步驟S12,對(duì)所述多個(gè)候選醫(yī)療命名實(shí)體進(jìn)行標(biāo)注,得到多個(gè)推薦醫(yī)療命名實(shí)體;本示例實(shí)施方式中,對(duì)候選醫(yī)療命名實(shí)體進(jìn)行標(biāo)注即標(biāo)注出候選醫(yī)療命名實(shí)體是否為真正的醫(yī)療命名實(shí)體,在候選醫(yī)療命名實(shí)體是真正的醫(yī)療命名實(shí)體時(shí),則可以將該候選醫(yī)療命名實(shí)體作為推薦醫(yī)療命名實(shí)體。
步驟S13,計(jì)算所述推薦醫(yī)療命名實(shí)體和所述候選醫(yī)療命名實(shí)體的數(shù)量之比,并判斷所述數(shù)量之比是否小于第一預(yù)設(shè)值;其中,所述數(shù)量之比即所述推薦醫(yī)療命名實(shí)體在所述候選醫(yī)療命名實(shí)體中所占比例,所述第一預(yù)設(shè)值可視為所述數(shù)量之比的閾值,所述第一預(yù)設(shè)值越高,所述推薦醫(yī)療命名實(shí)體在所述候選醫(yī)療命名實(shí)體中所占的比例越大,則相應(yīng)的最終得到的醫(yī)療命名實(shí)體識(shí)別系統(tǒng)的醫(yī)療命名實(shí)體識(shí)別率越高。舉例而言,本示例實(shí)施方式中,所述第一預(yù)設(shè)值為85%-90%,具體如86%、88%等,但不以此為限,所述第一預(yù)設(shè)值也可為低于85%的數(shù)值或高于90%的數(shù)值。
步驟S14,在判斷所述數(shù)量之比小于所述第一預(yù)設(shè)值時(shí),則說明所述推薦醫(yī)療命名實(shí)體在所述候選醫(yī)療命名實(shí)體中所占的比例沒有達(dá)到預(yù)定水平,即所述醫(yī)療命名實(shí)體識(shí)別系統(tǒng)的醫(yī)療命名實(shí)體識(shí)別率過低,此時(shí)可將所述推薦醫(yī)療命名實(shí)體輸入至所述醫(yī)療命名實(shí)體識(shí)別系統(tǒng),并據(jù)以從所述多個(gè)醫(yī)療文本樣本中獲取多個(gè)所述候選醫(yī)療命名實(shí)體并轉(zhuǎn)至對(duì)所述多個(gè)候選醫(yī)療命名實(shí)體進(jìn)行標(biāo)注的步驟;從而不斷循環(huán)迭代,使醫(yī)療命名實(shí)體識(shí)別系統(tǒng)的醫(yī)療命名實(shí)體識(shí)別率不斷提升,直至所述數(shù)量之比不小于所述第一預(yù)設(shè)值,即后續(xù)步驟S15。
步驟S15.在判斷所述數(shù)量之比不小于所述第一預(yù)設(shè)值時(shí),則說明醫(yī)療命名實(shí)體識(shí)別系統(tǒng)的醫(yī)療命名實(shí)體識(shí)別率滿足需求,此時(shí),可以當(dāng)前醫(yī)療命名實(shí)體識(shí)別系統(tǒng)作為目標(biāo)醫(yī)療命名實(shí)體識(shí)別系統(tǒng)。
進(jìn)一步的,參照?qǐng)D2,本示例實(shí)施方式中,步驟S11中的所述利用機(jī)器學(xué)習(xí)從所述多個(gè)醫(yī)療文本樣本獲取多個(gè)候選醫(yī)療命名實(shí)體可包括:
步驟S111,計(jì)算所述多個(gè)醫(yī)療文本樣本中各個(gè)命名實(shí)體的權(quán)重值,所述權(quán)重值具體可為各個(gè)所述命名實(shí)體的詞頻;以及
步驟S112,選取多個(gè)命名實(shí)體作為所述候選醫(yī)療命名實(shí)體,所選命名實(shí)體的權(quán)重值高于未被選的命名實(shí)體的權(quán)重值。從而選出多個(gè)權(quán)重值較高的命名實(shí)體,權(quán)重值較高的命名實(shí)體則有更高的可能為醫(yī)療命名實(shí)體。舉例而言,本示例實(shí)施方式中,可通過以下方式多個(gè)醫(yī)療命名實(shí)體作為所述候選醫(yī)療命名實(shí)體:
例如,可以按照權(quán)重值的大小對(duì)各個(gè)所述命名實(shí)體進(jìn)行排序,再選取權(quán)重值較大的多個(gè)所述命名實(shí)體作為所述候選醫(yī)療命名實(shí)體。再例如,也可以預(yù)先設(shè)定預(yù)定權(quán)重值,將各個(gè)所述命名實(shí)體的權(quán)重值與所述預(yù)定權(quán)重值進(jìn)行比較,再選取權(quán)重值不小于所述預(yù)定權(quán)重值的命名實(shí)體作為所述候選醫(yī)療命名實(shí)體。
此外,本示例實(shí)施方式中,上述計(jì)算所述多個(gè)醫(yī)療文本樣本中各個(gè)命名實(shí)體的權(quán)重值可以包括:
在spark環(huán)境下,通過N-Gram模型和tf-idf算法計(jì)算所述多個(gè)醫(yī)療文本樣本中各個(gè)命名實(shí)體的權(quán)重值。在此過程中,窗口值可取小于6的值,即命名實(shí)體詞的長(zhǎng)度為5字之內(nèi)。但本領(lǐng)域技術(shù)人員容易理解的是,在本公開的其他示例性實(shí)施例中,根據(jù)計(jì)算環(huán)境的不同以及需求的不同等,也可以通過其他方式計(jì)算上述權(quán)重值或者通過其他機(jī)器學(xué)習(xí)方式獲取上述多個(gè)候選醫(yī)療命名實(shí)體,這些均同樣屬于本公開的保護(hù)范圍。
進(jìn)一步的,參照?qǐng)D3,本示例實(shí)施方式中,步驟S14中的所述將所述多個(gè)推薦醫(yī)療命名實(shí)體輸入至所述醫(yī)療命名實(shí)體識(shí)別系統(tǒng),并據(jù)以從所述多個(gè)醫(yī)療文本樣本中獲取多個(gè)所述候選醫(yī)療命名實(shí)體可包括以下步驟:
步驟S141,從所述多個(gè)醫(yī)療樣本文本中獲取與所述推薦醫(yī)療命名實(shí)體的上下文特征相似的命名實(shí)體作為補(bǔ)充醫(yī)療命名實(shí)體。舉例而言,對(duì)于所述多個(gè)醫(yī)療樣本文本中所述推薦醫(yī)療命名實(shí)體以外的命名實(shí)體,可以將其上下文特征與所述推薦醫(yī)療命名實(shí)體的上下文特征進(jìn)行比較,獲取與所述推薦醫(yī)療命名實(shí)體的上下文特征相似的命名實(shí)體作為補(bǔ)充醫(yī)療命名實(shí)體。由于所述補(bǔ)充醫(yī)療命名實(shí)體的上下文特征與所述推薦醫(yī)療命名實(shí)體相似,因此,可以推斷所述補(bǔ)充醫(yī)療命名實(shí)體與所述推薦醫(yī)療命名實(shí)體相似,進(jìn)而可以認(rèn)為補(bǔ)充醫(yī)療命名實(shí)體可能為真正的醫(yī)療命名實(shí)體。
步驟S142,增加所述補(bǔ)充醫(yī)療命名實(shí)體在所述多個(gè)醫(yī)療文本樣本中的權(quán)重值,隨后可重新獲取所述候選醫(yī)療命名實(shí)體,由于增加了所述補(bǔ)充醫(yī)療命名實(shí)體的權(quán)重值,使得所述補(bǔ)充醫(yī)療命名實(shí)體被選為所述候選醫(yī)療命名實(shí)體的概率增大。
步驟S143,選取權(quán)重值高于其它命名實(shí)體的多個(gè)命名實(shí)體作為所述候選醫(yī)療命名實(shí)體。此時(shí)的所述候選醫(yī)療命名實(shí)體包括了所述補(bǔ)充醫(yī)療命名實(shí)體,因此使得下次標(biāo)注結(jié)果中,可能由補(bǔ)充醫(yī)療命名實(shí)體產(chǎn)生更多的推薦醫(yī)療命名實(shí)體。
更進(jìn)一步的,本示例實(shí)施方式中,所述從所述多個(gè)醫(yī)療樣本文本中獲取與所述推薦醫(yī)療命名實(shí)體的上下文特征相似的醫(yī)療命名實(shí)體作為補(bǔ)充醫(yī)療命名實(shí)體可以包括以下步驟:
根據(jù)預(yù)設(shè)模型對(duì)所述多個(gè)醫(yī)療樣本文本進(jìn)行分詞,得到多個(gè)切分單元,所述切分單元可為分詞后得到的實(shí)體詞;本示例實(shí)施方式中,所述預(yù)設(shè)模型可采用隱馬爾科夫模型、最大熵模型或者條件隨機(jī)場(chǎng)模型等,本示例性實(shí)施例中對(duì)此不做特殊限定。
獲取所述多個(gè)推薦醫(yī)療命名實(shí)體的上下文特征,并分別將各所述推薦醫(yī)療命名實(shí)體的上下文特征表示為第一向量,將所述推薦醫(yī)療命名實(shí)體的上下文特征向量化,從而便于量化比較。舉例而言,本示例實(shí)施方式中可使用word2vec工具實(shí)現(xiàn)該過程,但并不以此為限。
獲取所述多個(gè)切分單元的上下文特征,并分別將各所述切分單元的上下文特征表示為第二向量,將各個(gè)所述切分單元向量化,從而便于量化比較。舉例而言,本示例實(shí)施方式中可使用word2vec工具實(shí)現(xiàn)該過程,但并不以此為限。
計(jì)算所述第一向量與所述第二向量的相似度,并判斷所述相似度是否小于第二預(yù)設(shè)值;所述第二預(yù)設(shè)值可有用戶自行設(shè)定,所述第二設(shè)定值越大,則第一向量和所述第二向量的相似度越高,反之,相似度越低。
選取與所述第一向量的相似度不小于所述第二預(yù)設(shè)值的第二向量,并將與所述第二向量表示的上下文特征對(duì)應(yīng)切分單元作為所述候選醫(yī)療命名實(shí)體。從而通過比較向量的相似度得出所述切分單元和所述推薦醫(yī)療命名實(shí)體的相似度。
進(jìn)一步的,在所述醫(yī)療命名實(shí)體識(shí)別系統(tǒng)生成方法中,在對(duì)所述多個(gè)候選醫(yī)療命名實(shí)體進(jìn)行標(biāo)注的同時(shí),還可以對(duì)所述多個(gè)候選醫(yī)療命名實(shí)體進(jìn)行分類;例如:白血病對(duì)應(yīng)的分類為病癥,發(fā)熱對(duì)應(yīng)的分類為癥狀,若所述候選醫(yī)療命名實(shí)體為無意義詞,其分類可為無意義類等等。
在從所述多個(gè)醫(yī)療文本樣本中獲取多個(gè)所述候選醫(yī)療命名實(shí)體的同時(shí),可以根據(jù)與該候選醫(yī)療命名實(shí)體相似的推薦醫(yī)療命名實(shí)體,即已經(jīng)被標(biāo)注的醫(yī)療命名實(shí)體的分類,對(duì)多個(gè)所述候選醫(yī)療命名實(shí)體推薦分類,從而將所述多個(gè)候選醫(yī)療命名實(shí)體與不同的分類對(duì)應(yīng),使得在生成所述醫(yī)療命名實(shí)體識(shí)別系統(tǒng)的同時(shí),還可便于對(duì)所述醫(yī)療命名實(shí)體的分類。例如,
綜上所述,本公開實(shí)施例的醫(yī)療命名實(shí)體識(shí)別系統(tǒng)生成方法,可向所述醫(yī)療命名實(shí)體識(shí)別系統(tǒng)輸入大量基于自然語言的醫(yī)療文本樣本,通過機(jī)器學(xué)習(xí)獲取多個(gè)候選醫(yī)療命名實(shí)體;然后對(duì)所述多個(gè)候選醫(yī)療命名實(shí)體進(jìn)行標(biāo)注,得到所述多個(gè)推薦醫(yī)療命名實(shí)體;隨后,可計(jì)算所述數(shù)量之比將其與所述第一預(yù)設(shè)值進(jìn)行比較,當(dāng)所述數(shù)量之比不小于所述第一預(yù)設(shè)值時(shí),說明所述推薦醫(yī)療命名實(shí)體的數(shù)量達(dá)到要求,此時(shí),可直接將所述醫(yī)療命名實(shí)體識(shí)別系統(tǒng)作為目標(biāo)醫(yī)療命名實(shí)體識(shí)別系統(tǒng)進(jìn)行輸出;當(dāng)所述數(shù)量之比小于所述第一預(yù)設(shè)值時(shí),則說明所述推薦醫(yī)療命名實(shí)體的數(shù)量未達(dá)到要求,可將所述多個(gè)推薦醫(yī)療命名實(shí)體輸入至所述醫(yī)療命名實(shí)體識(shí)別系統(tǒng)并根據(jù)所述多個(gè)推薦醫(yī)療命名實(shí)體從所述多個(gè)醫(yī)療文本樣本中獲取多個(gè)所述候選醫(yī)療命名實(shí)體并再次進(jìn)行標(biāo)注,得到更多個(gè)所述推薦醫(yī)療命名實(shí)體,依此類推迭代,直至所述數(shù)量之比不小于所述第一預(yù)設(shè)值時(shí),即所述推薦醫(yī)療命名實(shí)體的數(shù)量未達(dá)到要求時(shí),可將所述醫(yī)療命名實(shí)體識(shí)別系統(tǒng)作為目標(biāo)醫(yī)療命名實(shí)體識(shí)別系統(tǒng)進(jìn)行輸出。
在上述過程中,可根據(jù)醫(yī)療樣本文本中自動(dòng)挖掘數(shù)量達(dá)到要求的醫(yī)療命名實(shí)體,即有意義的醫(yī)療命名實(shí)體,減少了人工標(biāo)注,降低了人力成本,并且可不斷迭代,減少人工操作。由此,可從大量自然語言文本中快速挖掘輸出有意義的醫(yī)療命名實(shí)體。
根據(jù)本公開實(shí)施方式的另一方面,提供一種醫(yī)療命名實(shí)體識(shí)別系統(tǒng)生成裝置,參照?qǐng)D4中所示,所述醫(yī)療命名實(shí)體識(shí)別系統(tǒng)生成裝置包括冷啟動(dòng)單元10、標(biāo)注單元20、評(píng)估單元30、反饋單元40以及輸出單元50。其中:
冷啟動(dòng)單元10可以用于通過一醫(yī)療命名實(shí)體識(shí)別系統(tǒng)接收多個(gè)醫(yī)療文本樣本,并利用機(jī)器學(xué)習(xí)從所述多個(gè)醫(yī)療文本樣本獲取多個(gè)候選醫(yī)療命名實(shí)體。
標(biāo)注單元20可以用于對(duì)所述多個(gè)候選醫(yī)療命名實(shí)體進(jìn)行標(biāo)注,得到多個(gè)推薦醫(yī)療命名實(shí)體。
評(píng)估單元30可以用于計(jì)算所述推薦醫(yī)療命名實(shí)體和所述候選醫(yī)療命名實(shí)體的數(shù)量之比,并判斷所述數(shù)量之比是否小于第一預(yù)設(shè)值。
反饋單元40可以用于在判斷所述數(shù)量之比小于所述第一預(yù)設(shè)值時(shí),將所述推薦醫(yī)療命名實(shí)體輸入至所述醫(yī)療命名實(shí)體識(shí)別系統(tǒng),并據(jù)以從所述多個(gè)醫(yī)療文本樣本中獲取多個(gè)所述候選醫(yī)療命名實(shí)體并反饋至所述標(biāo)注單元。
輸出單元50可以用于在判斷所述數(shù)量之比不小于所述第一預(yù)設(shè)值時(shí),以當(dāng)前醫(yī)療命名實(shí)體識(shí)別系統(tǒng)作為目標(biāo)醫(yī)療命名實(shí)體識(shí)別系統(tǒng)。
需要說明的是,上述所述醫(yī)療命名實(shí)體識(shí)別系統(tǒng)生成裝置具體實(shí)現(xiàn)細(xì)節(jié)以及有益效果已經(jīng)在對(duì)應(yīng)的所述醫(yī)療命名實(shí)體識(shí)別系統(tǒng)生成方法中進(jìn)行了詳細(xì)想描述,因而不再贅述。
本領(lǐng)域技術(shù)人員在考慮說明書及實(shí)踐這里公開的發(fā)明后,將容易想到本公開的其它實(shí)施方案。本申請(qǐng)旨在涵蓋本公開的任何變型、用途或者適應(yīng)性變化,這些變型、用途或者適應(yīng)性變化遵循本公開的一般性原理并包括本公開未公開的本技術(shù)領(lǐng)域中的公知常識(shí)或慣用技術(shù)手段。說明書和實(shí)施例僅被視為示例性的,本公開的真正范圍和精神由下面的權(quán)利要求指出。
應(yīng)當(dāng)理解的是,本公開并不局限于上面已經(jīng)描述并在附圖中示出的精確結(jié)構(gòu),并且可以在不脫離其范圍進(jìn)行各種修改和改變。本公開的范圍僅由所附的權(quán)利要求來限制。