本發(fā)明涉及計(jì)算機(jī)視覺和醫(yī)學(xué)圖像處理,特別涉及一種基于深度學(xué)習(xí)的口腔全景x射線圖像牙齒分割方法。
背景技術(shù):
1、精確的牙齒分割能夠幫助牙科醫(yī)生更好地評(píng)估牙齒的健康狀況、規(guī)劃治療方案、以及監(jiān)測治療效果??谇蝗皥D像作為一種臨床上常用的廉價(jià)、高效的成像手段,在牙科診斷和治療中具有重要作用。
2、然而,當(dāng)前業(yè)界主流的口腔全景圖像分割方法存在顯著局限性。這些方案多依賴于大量標(biāo)注數(shù)據(jù),這些標(biāo)注通常需要由經(jīng)驗(yàn)豐富的牙科專家進(jìn)行,耗費(fèi)大量時(shí)間和成本。同時(shí),人工標(biāo)注還可能引入主觀性和一致性問題,導(dǎo)致模型的訓(xùn)練效果受到影響。此外,全監(jiān)督模型在臨床環(huán)境中難以實(shí)現(xiàn)實(shí)時(shí)在線更新,無法迅速適應(yīng)新數(shù)據(jù)或新情況,限制了其在實(shí)際應(yīng)用中的靈活性和泛化能力。
技術(shù)實(shí)現(xiàn)思路
1、為了克服現(xiàn)有技術(shù)中的不足,本發(fā)明提供一種基于深度學(xué)習(xí)的口腔全景x射線圖像牙齒分割方法,旨在提高診斷的準(zhǔn)確性、效率,并減少對(duì)牙醫(yī)個(gè)人經(jīng)驗(yàn)的依賴。
2、為了達(dá)到上述發(fā)明目的,解決其技術(shù)問題所采用的技術(shù)方案如下:
3、一種基于深度學(xué)習(xí)的口腔全景x射線圖像牙齒分割方法,包括以下步驟:
4、步驟1:模型數(shù)據(jù)預(yù)處理,對(duì)輸入的全景片數(shù)據(jù)進(jìn)行灰度值標(biāo)準(zhǔn)化、尺寸統(tǒng)一化、數(shù)據(jù)增強(qiáng)化處理;
5、步驟2:采用基于transformer+unet的架構(gòu)設(shè)計(jì)構(gòu)建口腔全景x射線圖像牙齒分割網(wǎng)絡(luò)模型;
6、步驟3:構(gòu)建實(shí)例分割模型的評(píng)價(jià)體系,采用dice系數(shù)、交并比、hausdorff距離三種評(píng)價(jià)指標(biāo)全面評(píng)估模型的性能;
7、步驟4:模型訓(xùn)練階段,采用自監(jiān)督和半監(jiān)督學(xué)習(xí)策略對(duì)模型進(jìn)行訓(xùn)練,在主副骨干網(wǎng)絡(luò)部分,resnet50的預(yù)訓(xùn)練參數(shù)來自大型公開圖像數(shù)據(jù)集imagenet,其他模塊的參數(shù)通過隨機(jī)初始化;輸入的口腔全景x射線圖像數(shù)據(jù)經(jīng)過步驟1所述的預(yù)處理后進(jìn)入步驟2中構(gòu)建的牙齒分割網(wǎng)絡(luò)模型,模型的訓(xùn)練采用梯度下降算法,并結(jié)合偽標(biāo)簽生成機(jī)制,使未標(biāo)注數(shù)據(jù)能夠參與訓(xùn)練;在驗(yàn)證集上通過計(jì)算步驟3中定義的評(píng)價(jià)指標(biāo)來評(píng)估模型的性能,并根據(jù)性能指標(biāo)來確定模型的最優(yōu)參數(shù);
8、步驟5:模型網(wǎng)絡(luò)推理,在模型推理階段,使用步驟4中所確定的最優(yōu)參數(shù)作為模型的最終網(wǎng)絡(luò)參數(shù),輸入一張口腔全景x射線圖像數(shù)據(jù),經(jīng)過步驟1所述的預(yù)處理后,將數(shù)據(jù)送入步驟2構(gòu)建的牙齒分割網(wǎng)絡(luò)模型,模型自動(dòng)完成牙齒分割,并返回預(yù)測結(jié)果。
9、進(jìn)一步的,所述步驟2中,分割網(wǎng)絡(luò)模型整體由以下幾個(gè)部分組成:
10、主骨干網(wǎng)絡(luò):由resnet50作為主干網(wǎng)絡(luò),負(fù)責(zé)提取圖像的多尺度特征,網(wǎng)絡(luò)通過跳躍連接將不同層次的特征傳遞到后續(xù)的解碼器模塊;
11、頸部網(wǎng)絡(luò):深層提取網(wǎng)絡(luò)則采用視覺transformer結(jié)構(gòu),能夠捕捉全局上下文信息,特征經(jīng)過投影層后,輸入到transformer模塊,該模塊由12個(gè)transformer?block組成,每個(gè)block包含多頭自注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò),用于提取輸入圖像中的深層次特征;
12、解碼器網(wǎng)絡(luò):由cbam解碼器模塊組成,cbam解碼器模塊通過結(jié)合通道和空間注意力來增強(qiáng)重要特征,提升模型的分割精度,每層解碼器輸出的特征通過拼接操作與跳躍連接的特征融合,最終通過上采樣層恢復(fù)圖像的原始分辨率;
13、頭部網(wǎng)絡(luò):包括分割器結(jié)構(gòu),用于生成牙齒分割掩膜,通過對(duì)多尺度特征進(jìn)行深度監(jiān)督,實(shí)現(xiàn)更精準(zhǔn)的分割。
14、進(jìn)一步的,所述主骨干網(wǎng)絡(luò)由resnet50作為主干網(wǎng)絡(luò),負(fù)責(zé)提取圖像的多尺度特征,網(wǎng)絡(luò)通過跳躍連接將不同層次的特征傳遞到后續(xù)的解碼器模塊,包括以下內(nèi)容:
15、對(duì)于初始維度為h×w×1,通過resnet主干網(wǎng)絡(luò)后的特征圖f2維度為:
16、(h/32)×(w/32)×d
17、其中,h和w是圖像的初始維度,均為620,d為通道數(shù),為512。
18、進(jìn)一步的,所述頸部網(wǎng)絡(luò)特征候選區(qū)域生成采用transformer模塊,以捕捉全局上下文信息,包括以下內(nèi)容:
19、對(duì)于特征圖f2后續(xù)數(shù)學(xué)描述如下:
20、q=f2wq
21、k=f2wk
22、v=f2wv
23、其中,wq、wk、wv代表全連接矩陣權(quán)重,f2代表通過resnet主干網(wǎng)絡(luò)后的特征圖;
24、然后經(jīng)過注意力機(jī)制:
25、
26、multihead(q,k,v)=concat(head1,…,headh)wo
27、其中,代表每個(gè)頭的特征圖,dk代表q,k向量的維度,w代表全連接矩陣權(quán)重;
28、最后通過殘差連接避免梯度消失:
29、layerout=layernorm(f2+multihead(q,k,v))
30、其中,f2代表通過resnet主干網(wǎng)絡(luò)后的特征圖,layernorm代表層歸一化。
31、進(jìn)一步的,所述解碼器網(wǎng)絡(luò)特征映射采用cbam解碼器模塊,該模塊通過全局平均池化和全局最大池化對(duì)輸入特征在空間維度上進(jìn)行降維,產(chǎn)生兩個(gè)不同的特征向量:
32、favgc,fmaxc
33、其中,favgc代表對(duì)上采樣后的特征圖平均池化后的向量,fmaxc代表對(duì)上采樣后的特征圖最大池化后的向量;
34、將這兩個(gè)特征向量通過共享的全連接層進(jìn)行變換,并通過sigmoid激活函數(shù)得到通道注意力權(quán)重,過程描述為:
35、
36、其中,σ代表sigmoid函數(shù),mlp代表全連接層;
37、通道注意力模塊輸出的特征被輸入到空間注意力模塊,該模塊通過通道維度上的最大池化和平均池化操作生成兩個(gè)二維特征圖,并通過卷積層結(jié)合這些特征圖,最終通過sigmoid函數(shù)生成空間注意力圖:
38、
39、其中,f7×7代表卷積層,卷積核尺寸為7×7;
40、最后通過通道注意力權(quán)重和空間注意力權(quán)重對(duì)原始特征進(jìn)行加權(quán),得到輸出特征:
41、f′=mc(f)·f
42、f″=ms(f′)·f′
43、其中,f代表進(jìn)入cbam模塊前的特征圖,mc(f)代表先對(duì)其進(jìn)行通道注意力處理,然后ms(f')對(duì)其空間注意力處理。
44、進(jìn)一步的,所述頭部網(wǎng)絡(luò)結(jié)構(gòu)采用深監(jiān)督方法以增強(qiáng)梯度傳播:特征圖分別是o1,o2,…,on,其中,表示第i個(gè)特征圖,目標(biāo)圖為y∈rh×w×c,每個(gè)階段的loss如下:
45、
46、其中,表示第i個(gè)特征圖,真實(shí)標(biāo)簽圖為yi∈rh×w×c,hi,wi,c代表特征圖的寬高和通道數(shù);
47、總體損失函數(shù)為:
48、
49、其中,λi代表每階段權(quán)重,代表每階段損失。
50、進(jìn)一步的,使用公開的帶標(biāo)簽的數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練,初始模型訓(xùn)練表示如下:
51、
52、其中,xi表示樣本,yi表示標(biāo)簽,l(θ)是監(jiān)督損失函數(shù),θ是模型的參數(shù),f(·)代表模型;
53、然后進(jìn)行偽標(biāo)簽生成:使用已訓(xùn)練的模型對(duì)未標(biāo)注的數(shù)據(jù)進(jìn)行推斷,生成偽標(biāo)簽數(shù)學(xué)表達(dá)如下:
54、
55、其中,θ1代表第1版本模型參數(shù);
56、組合數(shù)據(jù)集:將偽標(biāo)簽數(shù)據(jù)與帶標(biāo)簽的數(shù)據(jù)集結(jié)合,形成新的訓(xùn)練數(shù)據(jù)集:
57、
58、其中,代表新融合的數(shù)據(jù)集;
59、迭代訓(xùn)練模型:復(fù)制上一個(gè)模型的參數(shù),并在新的訓(xùn)練數(shù)據(jù)集上對(duì)模型進(jìn)行迭代訓(xùn)練,對(duì)于每一輪迭代,模型更新為:
60、
61、其中,xi和yi代表新數(shù)據(jù)集里的訓(xùn)練圖像和標(biāo)簽圖像。
62、優(yōu)選的,步驟4中的所述隨機(jī)初始化的方法為:he_normal、lecun_uniform、glorot_normal、glorot_uniform或者lecun_normal。
63、優(yōu)選的,步驟4中的所述梯度下降算法的方法為:adam、sgd、msprop或者adadelta。
64、本發(fā)明由于采用以上技術(shù)方案,使之與現(xiàn)有技術(shù)相比,具有以下的優(yōu)點(diǎn)和積極效果:
65、1、本發(fā)明的半監(jiān)督牙齒分割模型通過主骨干網(wǎng)絡(luò)的多尺度特征提取及頸部網(wǎng)絡(luò)的特征轉(zhuǎn)化,對(duì)大小目標(biāo)的病理區(qū)域都可精準(zhǔn)分割,且效率更高。
66、2、本發(fā)明的技術(shù)方案考慮到牙齒形狀的復(fù)雜性,解碼網(wǎng)絡(luò)還需要理解上下文信息。因此,本發(fā)明在網(wǎng)絡(luò)模型中引入一種雙維度建模的注意力頭,通過通道空間維度建模以更好的完成掩模分割。
67、3、本發(fā)明的技術(shù)方案的訓(xùn)練步驟可以針對(duì)臨床生產(chǎn)的數(shù)據(jù)持續(xù)更新模型權(quán)重,以更好適應(yīng)復(fù)雜多變的臨床場景。
68、4、根據(jù)本發(fā)明的技術(shù)方案,基于計(jì)算機(jī)視覺與醫(yī)學(xué)圖像處理技術(shù),能夠自動(dòng)化地分割和識(shí)別口腔全景x射線圖像中的復(fù)雜牙齒情況,與傳統(tǒng)的依賴于牙醫(yī)經(jīng)驗(yàn)和直觀判斷的診斷方法相比,更加高效、準(zhǔn)確。