用于醫(yī)學(xué)報(bào)告單的符號(hào)識(shí)別方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及圖像識(shí)別技術(shù)領(lǐng)域,尤其涉及一種用于醫(yī)學(xué)報(bào)告單的符號(hào)識(shí)別方法及 系統(tǒng)。
【背景技術(shù)】
[0002] 隨著文本排版格式的復(fù)雜化以及文本中出現(xiàn)的特殊字符多樣化,使得處理圖像中 的文本越來越困難。目前,〇CR(OpticalCharacterRecognition,光學(xué)字符識(shí)別)系統(tǒng)對(duì) 大多數(shù)文本都有較高的識(shí)別率,得到廣泛的應(yīng)用。
[0003] 醫(yī)學(xué)領(lǐng)域中的化驗(yàn)單是對(duì)患者進(jìn)行治療的重要依據(jù),也可能是醫(yī)療保險(xiǎn)理賠、傷 殘事故鑒定以及醫(yī)療糾紛等情況的法律依據(jù)。因此,對(duì)化驗(yàn)單的自動(dòng)高效地解析具有較高 的現(xiàn)實(shí)意義。但是醫(yī)學(xué)報(bào)告單中常用特殊符號(hào)來標(biāo)識(shí)異常指標(biāo),例如加號(hào)、減號(hào)、大于等于 號(hào)、小于等于號(hào)、箭頭等。此時(shí),OCR系統(tǒng)的識(shí)別準(zhǔn)確率不盡如人意,在一定程度上影響了化 驗(yàn)單的正確解析。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的其中一個(gè)目的在于提供一種用于醫(yī)學(xué)報(bào)告單的符號(hào)識(shí)別方法及系統(tǒng),用 于提供OCR系統(tǒng)的識(shí)別準(zhǔn)確率,提高醫(yī)學(xué)報(bào)告單解析效率。
[0005] 第一方面,本發(fā)明實(shí)施例提供了一種用于醫(yī)學(xué)報(bào)告單的符號(hào)識(shí)別方法,包括:
[0006] 根據(jù)不同符號(hào)的特征構(gòu)造訓(xùn)練樣本訓(xùn)練分類器;
[0007] 從醫(yī)學(xué)報(bào)告單圖片中前景圖像上采集不同符號(hào),獲得不同符號(hào)的特征以構(gòu)造符號(hào) 模板;
[0008] 利用所述分類器識(shí)別與檢測(cè)符號(hào)模板,用于得到醫(yī)學(xué)報(bào)告單中的異常指標(biāo)及位 置。
[0009] 可選地,所述構(gòu)造訓(xùn)練樣本訓(xùn)練分類器采用邏輯回歸方法,包括以下步驟:
[0010] 構(gòu)造訓(xùn)練樣本;
[0011] 將所述訓(xùn)練樣本進(jìn)行尺寸歸一化,得到相同維數(shù)的圖像特征;
[0012] 計(jì)算訓(xùn)練樣本的圖像特征值;
[0013] 根據(jù)所述圖像特征值訓(xùn)練所述分類器,獲得所述分類器參數(shù)。
[0014] 可選地,從醫(yī)學(xué)報(bào)告單圖片中前景圖像上采集不同符號(hào)之前,該方法還包括預(yù)處 理步驟,具體包括:
[0015] 利用霍夫變換方法獲得前景圖像的頂點(diǎn)坐標(biāo),確定所述前景圖像的尺度信息;
[0016] 利用透視變換方法對(duì)所述前景圖像進(jìn)行傾斜校正,以獲取正投影的所述前景圖 像;
[0017] 利用局部閾值法將所述前景圖像分成若干區(qū)域,對(duì)每個(gè)所述區(qū)域進(jìn)行二值化。
[0018] 可選地,所述從醫(yī)學(xué)報(bào)告單圖片中前景圖像上采集不同符號(hào),還包括確定每行文 本的高度的步驟,包括:
[0019] 讀取所述前景圖像中的文本區(qū)域,對(duì)所述文本進(jìn)行膨脹和腐蝕得到連通域;
[0020] 當(dāng)所述連通域的水平投影能量大于能量預(yù)設(shè)值時(shí),所述水平投影的位置的最大差 值為每行文本的高度。
[0021] 可選地,當(dāng)前景圖像上采集的符號(hào)為箭頭時(shí),包括以下步驟:
[0022] 根據(jù)豎線的特征構(gòu)造豎線模板;
[0023] 根據(jù)所述豎線模板定位所述前景圖像中所有可分離的豎線;
[0024] 根據(jù)所述豎線模板構(gòu)造箭頭模板;
[0025] 分別構(gòu)造訓(xùn)練樣本,訓(xùn)練學(xué)習(xí)得到分類器參數(shù);
[0026] 在可分離的豎線的位置檢測(cè)箭頭位置。
[0027] 可選地,所述根據(jù)豎線的特征構(gòu)造豎線模板,包括:
[0028] 當(dāng)連續(xù)線段的上下左右位置的像素值為0,且與符號(hào)模板對(duì)應(yīng)位置的匹配程度大 于預(yù)設(shè)閾值時(shí),標(biāo)記連續(xù)線段為可分離的豎線;
[0029] 遍歷所述前景圖像,定位前景圖像中所有的可分離的豎線。
[0030] 可選地,根據(jù)所述豎線模板構(gòu)造箭頭模板,包括:
[0031] 在每個(gè)可分離的豎線所在的位置,在與豎線模板大小相同的區(qū)域內(nèi)進(jìn)行水平投 影;
[0032] 計(jì)算水平投影能量值大于能量預(yù)設(shè)值的位置的最大差值,得到豎線的線寬。
[0033] 可選地,所述分類器的函數(shù)表達(dá)式為:
[0034]
[0035] 其中,P(t)為分類結(jié)果,t為特征向量的加權(quán)和;
[0036]
[0037]N為特征的維數(shù),Wi為第i維特征的權(quán)重系數(shù),xi為第i維特征的特征值。
[0038] 第二方面,本發(fā)明實(shí)施例還提供了一種用于醫(yī)學(xué)報(bào)告單的符號(hào)識(shí)別系統(tǒng),包括:
[0039] 分類器生成模塊,用于根據(jù)不同符號(hào)的特征構(gòu)造訓(xùn)練樣本訓(xùn)練分類器;
[0040] 符號(hào)模板構(gòu)造模塊,用于從醫(yī)學(xué)報(bào)告單圖片中前景圖像上采集不同符號(hào),獲得不 同符號(hào)的特征以構(gòu)造符號(hào)模板;
[0041] 模板匹配模塊,利用所述分類器識(shí)別與檢測(cè)符號(hào)模板,用于得到醫(yī)學(xué)報(bào)告單中的 異常指標(biāo)及位置。
[0042] 與現(xiàn)有技術(shù)相比,本發(fā)明不僅彌補(bǔ)了傳統(tǒng)OCR對(duì)特殊符號(hào)識(shí)別率低的不足,也適 應(yīng)了文本的排版格式復(fù)雜化和多樣化;同時(shí)將此識(shí)別方法應(yīng)用于醫(yī)學(xué)領(lǐng)域的醫(yī)學(xué)報(bào)告單的 解析中,利用向上或者向下的箭頭來描述醫(yī)學(xué)化驗(yàn)單中的某項(xiàng)指標(biāo)存在偏高或者偏低的情 況,以此來表征異常指標(biāo),能夠?qū)崿F(xiàn)快速解析醫(yī)學(xué)報(bào)告單,具有極高的應(yīng)用價(jià)值和廣闊的發(fā) 展前景。
【附圖說明】
[0043] 通過參考附圖會(huì)更加清楚的理解本發(fā)明的特征和優(yōu)點(diǎn),附圖是示意性的而不應(yīng)理 解為對(duì)本發(fā)明進(jìn)行任何限制,在附圖中:
[0044] 圖1本發(fā)明實(shí)施例中用于醫(yī)學(xué)報(bào)告單的符號(hào)識(shí)別方法流程示意圖;
[0045] 圖2是本發(fā)明實(shí)施例中一種攝像機(jī)拍攝的醫(yī)學(xué)報(bào)告單示意圖;
[0046] 圖3是本發(fā)明實(shí)施例中利用霍夫變換和透射變換對(duì)圖2所示醫(yī)學(xué)報(bào)告單校正后得 到的正常圖像;
[0047]圖4是本發(fā)明實(shí)施例中標(biāo)定符號(hào)的醫(yī)學(xué)報(bào)告單示意圖;
[0048] 圖5是本發(fā)明實(shí)施例中所提取的箭頭所在行的異常指標(biāo)示意圖;
[0049] 圖6是本發(fā)明實(shí)施例中一種用于醫(yī)學(xué)報(bào)告單的符號(hào)識(shí)別系統(tǒng)框圖。
【具體實(shí)施方式】
[0050] 為了能夠更清楚地理解本發(fā)明的上述目的、特征和優(yōu)點(diǎn),下面結(jié)合附圖和具體實(shí) 施方式對(duì)本發(fā)明進(jìn)行進(jìn)一步的詳細(xì)描述。需要說明的是,在不沖突的情況下,本申請(qǐng)的實(shí)施 例及實(shí)施例中的特征可以相互組合。
[0051] 在下面的描述中闡述了很多具體細(xì)節(jié)以便于充分理解本發(fā)明,但是,本發(fā)明還可 以采用其他不同于在此描述的其他方式來實(shí)施,因此,本發(fā)明的保護(hù)范圍并不受下面公開 的具體實(shí)施例的限制。
[0052] -方面,本發(fā)明提出了一種用于醫(yī)學(xué)報(bào)告單的符號(hào)識(shí)別方法,如圖1所示,包括:
[0053] S10、根據(jù)不同符號(hào)的特征構(gòu)造訓(xùn)練樣本訓(xùn)練分類器;
[0054] S20、從醫(yī)學(xué)報(bào)告單圖片中前景圖像上采集不同符號(hào),獲得不同符號(hào)的特征以構(gòu)造 符號(hào)模板;
[0055] S30、利用所述分類器識(shí)別與檢測(cè)符號(hào)模板,用于得到醫(yī)學(xué)報(bào)告單中的異常指標(biāo)及 位置。
[0056] 可理解的是,本發(fā)明中醫(yī)學(xué)報(bào)告單圖片是指將醫(yī)學(xué)報(bào)告單放置在某處拍攝的圖 片;而前景圖像則指醫(yī)學(xué)報(bào)告單在圖片中的成像。
[0057] 針對(duì)現(xiàn)有技術(shù)中OCR系統(tǒng)對(duì)文本中特殊符號(hào)識(shí)別率低的問題,本發(fā)明實(shí)施例所提 供的符號(hào)識(shí)別方法,根據(jù)不同符號(hào)訓(xùn)練不同的分類器,然后從醫(yī)學(xué)報(bào)告單上采集符號(hào)建立 模板,對(duì)分類器進(jìn)行模板匹配。不僅彌補(bǔ)了傳統(tǒng)OCR對(duì)特殊符號(hào)識(shí)別率低的不足,同時(shí)可以 應(yīng)用到醫(yī)學(xué)報(bào)告單的解析中,從而進(jìn)行快速解析醫(yī)學(xué)報(bào)告單,有利于提高解析效率。
[0058] -般情況下,通過掃描儀得到的圖像都是正投影,圖像沒有角度偏差,有利于圖像 中的文字識(shí)別。而攝像機(jī)采集圖像時(shí)受到各種條件的限制和干擾,所拍攝物體的圖片會(huì)發(fā) 生變形(例如近大遠(yuǎn)?。?,需要經(jīng)過一定的畸變校正處理才能使用,以保證對(duì)圖像識(shí)別時(shí)不 出現(xiàn)誤差。如圖1所示,攝像機(jī)拍攝的醫(yī)學(xué)報(bào)告單的圖片,該圖片發(fā)生明顯的變形,因此需 要對(duì)圖像進(jìn)行預(yù)處理。
[0059] 可選地,從醫(yī)學(xué)報(bào)告單圖片中前景圖像上采集不同符號(hào)之前,該方法還包括預(yù)處 理步驟,具體包括:
[0060] 利用霍夫變換方法獲得前景圖像的頂點(diǎn)坐標(biāo),確定所述前景圖像的尺度信息;
[0061] 利用局部閾值法將所述前景圖像分成若干區(qū)域,對(duì)每個(gè)所述區(qū)域進(jìn)行二值化。
[0062] 首先,介紹利用霍夫變換方法獲得前景圖像的頂點(diǎn)坐標(biāo),確定所述前景圖像的尺 度信息的步驟。
[0063] 本發(fā)明利用霍夫變換方法檢測(cè)醫(yī)學(xué)報(bào)告單圖片的前景圖像邊緣,確定前景圖像的 大小。根據(jù)點(diǎn)與線的對(duì)偶性,將輸入圖片空間給定的曲線表達(dá)形式變?yōu)閰?shù)空間的點(diǎn),從而 將輸入圖片中給定曲線的檢測(cè)問題轉(zhuǎn)化為尋找參數(shù)空間中的峰值問題。即將檢測(cè)整體特征 轉(zhuǎn)化為檢測(cè)局部特性,這樣通過獲得前景圖像的邊緣直線方程,以及直線的交點(diǎn),即可獲得 前景圖像的頂點(diǎn)坐標(biāo)以及前景圖像的尺度信息。然后,再分別以寬度和高度的最大值作為 前景圖像矯正后的寬度值和高度值。
[0064] 其次,介紹利用透視變換方法對(duì)所述前景圖像進(jìn)行傾斜校正,以獲取正投影的所 述前景圖像的步驟。
[0065] 確定前景圖像的大小之后,對(duì)前景圖像進(jìn)行傾斜校正。本發(fā)明中,將前景圖像映射 到拍攝物體平面上,相當(dāng)于將攝像機(jī)垂直于醫(yī)學(xué)報(bào)告單,從而得到理想的圖像形狀,并且不 丟失前景圖像包含的信息。
[0066] 實(shí)際應(yīng)用中,本領(lǐng)域技術(shù)人員為實(shí)現(xiàn)對(duì)傾斜圖像的校正,也可以采用其他預(yù)處理 方法解決上述技術(shù)問題,實(shí)現(xiàn)基本效果,本發(fā)明不作限定。
[0067] 最后,介紹利用局部閾值法將所述前景圖像分成若干區(qū)域,對(duì)每個(gè)所述區(qū)域進(jìn)行 二值化。
[0068] 由于前景圖像包括256個(gè)亮度等級(jí),為減少計(jì)算的復(fù)雜度,提高特殊符號(hào)的識(shí)別 效率。本發(fā)明對(duì)該前景圖像進(jìn)行二值化處理。
[0069] 在圖像二值化處理時(shí),本發(fā)明采用局部閾值法。將該前景圖像分成若干個(gè)區(qū)域,對(duì) 每個(gè)區(qū)域設(shè)置一個(gè)閾值進(jìn)行二值化,從而得到二值化的前景圖像,可以在二值化前景圖像 中更好的區(qū)分目標(biāo)和背景。
[0070] 對(duì)圖2進(jìn)行預(yù)處理后,可得到校正后的前景圖像,參見圖3。
[0071] 本發(fā)明利用攝像機(jī)拍攝的醫(yī)學(xué)化驗(yàn)單圖像為例,識(shí)別其中出現(xiàn)的箭頭,并獲得其 位置信息,以更加準(zhǔn)確和快速確定病人的異常指標(biāo)項(xiàng)。
[0072] 1)構(gòu)造豎線的模板,定位前景圖像中所有可分離的豎線。根據(jù)豎線的特征,即豎線 的上面、下面、左面和右面的預(yù)設(shè)范圍內(nèi)的像素值為0,構(gòu)造豎線模板。
[0073] 按照構(gòu)造好的豎線模板,在前景圖像的水平和垂直方向上采用不同的步長進(jìn)行遍 歷,定位出前景圖像中的所有的可分離的豎線。例如,本發(fā)明實(shí)施例中,初始化豎線模板的 高度和寬度分別為40、3,窗口的水平方向移動(dòng)步長為4、垂直方向移動(dòng)步長為2,滑動(dòng)窗口 的大小為豎線模板的寬度、高度再分別加上水平和垂