本發(fā)明涉及計算機(jī)圖形學(xué)下的醫(yī)學(xué)成像、神經(jīng)解剖學(xué)領(lǐng)域,是一種針對大腦神經(jīng)疾病的,基于體素分析的數(shù)據(jù)驅(qū)動機(jī)器學(xué)習(xí)方法。
背景技術(shù):
定量擴(kuò)散張量成像(dti)用于纖維建模,是十分有效的臨床應(yīng)用工具,用于評估損傷的程度和定位神經(jīng)疾病。但是缺乏不足的分辨率限制了dti探測更復(fù)雜的微結(jié)構(gòu)信息?,F(xiàn)有的神經(jīng)疾病方法通常用于驗證疾病的臨床猜測,并且難以預(yù)測和積極測量涉及這些疾病的腦區(qū)。找出有效的區(qū)分分類疾病方法是解決問題的關(guān)鍵。
技術(shù)實現(xiàn)要素:
為了克服現(xiàn)有基于dti的纖維量化指標(biāo)一直存在著低精度以及判斷結(jié)果與疾病臨床表現(xiàn)不一致等問題的不足,針對以上兩個限制,基于hardi技術(shù)的神經(jīng)系統(tǒng)疾病,本發(fā)明提供了一種精度較高的基于體素分析的數(shù)據(jù)驅(qū)動機(jī)器學(xué)習(xí)方法,其中提出了數(shù)據(jù)驅(qū)動的機(jī)器學(xué)習(xí)方法來分析和預(yù)測神經(jīng)系統(tǒng)疾病。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:
一種用于神經(jīng)疾病的基于體素分析的數(shù)據(jù)驅(qū)動機(jī)器學(xué)習(xí)方法,包括如下步驟:
1)根據(jù)對腦區(qū)指標(biāo)的定量測量值進(jìn)行主成分分析pca模型訓(xùn)練,過程如下:
獲得的量化數(shù)據(jù)組表示為:
其中,n代表總的樣本數(shù)量;
降維后的數(shù)據(jù)q在維度m下被表示為:
其中,維度滿足1≤m≤p的部分表示的意思是保留方差為投影空間最大值的正交軸,增量主成分分析用新輸入的數(shù)據(jù)和上一步特征值更新當(dāng)前的特征值;
通過兩個樣本協(xié)方差矩陣s的前導(dǎo)特征向量得出q,其中:
公式中
sqi=λiqi,i=1,...m(4)
在該表達(dá)式中,λi是矩陣s第i個最大特征向量;
在所操作的樣本空間中,
2)對所有特征進(jìn)行提取,過程如下:
在初步處理后,在初步處理后,觀察考慮特征列表中的每個特征,之后要人工地對特征進(jìn)行挑選移除;設(shè)樣本為x=[x1,...xj,...xn]t,其中
單變量特征選擇通過單變量統(tǒng)計檢驗取選擇最佳特征;
對獲取樣本數(shù)據(jù)去計算單因素方差分析中的p值,對每個樣本都是基于計算出的k最高值進(jìn)行特征進(jìn)行選擇;對所有的樣本,去計算病人組與正常控制組在每個體素間的距離和副本以及將最大k值包括進(jìn)新樣本;新樣本
3)為所選出的特征選擇最佳分類器模型算法,過程如下:
利用這些指數(shù)和選擇的體素,在這里使用隨機(jī)森林rf算法訓(xùn)練高分疾病分類模型;在分類器模型部分中,需要做的是從選擇出的特征中規(guī)劃出一個預(yù)測函數(shù)f(x)去預(yù)測y;如果考慮到新的特征隊列
3.1.采用bootstrap抽樣技術(shù)從原始數(shù)據(jù)集中抽取ntree個訓(xùn)練集,每個訓(xùn)練集的大小為原始數(shù)據(jù)集的三分之二;
3.2.為每一個bootstrap訓(xùn)練集分別建立分類回歸樹cart,共產(chǎn)生ntree棵決策樹構(gòu)成一片“森林”,隨機(jī)選擇最優(yōu)屬性進(jìn)行分支,mtry≤m;
3.3.集合ntree棵決策樹的預(yù)測結(jié)果,采用投票的方式?jīng)Q定新樣本的類別;
隨機(jī)森林分類器設(shè)置三個參數(shù):森林中決策樹的數(shù)量ntree、內(nèi)部節(jié)點隨機(jī)選擇屬性的個數(shù)mtry及終節(jié)點的最小樣本數(shù)nodesize;
4)預(yù)測
對于一個新樣本,要去量化所有量化指標(biāo)對于獲取測量值矩陣
進(jìn)一步,所述步驟4)中,在預(yù)測環(huán)節(jié),隨機(jī)森林算法在訓(xùn)練過程中的每次bootstrap抽樣,將有三分之一的數(shù)據(jù)未被抽中,這部分?jǐn)?shù)據(jù)被稱為袋外數(shù)據(jù),隨機(jī)森林算法就是利用這部分?jǐn)?shù)據(jù)進(jìn)行內(nèi)部的誤差估計。
本發(fā)明的目標(biāo)是找到一個數(shù)據(jù)驅(qū)動的方法,積極測量與神經(jīng)系統(tǒng)疾病相關(guān)的腦區(qū),然后根據(jù)這些區(qū)域的特點預(yù)測新的樣本。同時,該方法可以根據(jù)不同的疾病特征自動選擇合適的定量測量指標(biāo)。與單一成像技術(shù)(dti)相比,多種技術(shù)(dti,hardi)的混合可以提取更多的功能,有助于剖析特定的疾病病理可能更準(zhǔn)確。
本發(fā)明的有益效果主要表現(xiàn)在:精度較高。
具體實施方式
下面對本發(fā)明作進(jìn)一步描述。
一種用于神經(jīng)疾病的基于體素分析的數(shù)據(jù)驅(qū)動機(jī)器學(xué)習(xí)方法,包括如下步驟:
1)根據(jù)對腦區(qū)指標(biāo)的定量測量值進(jìn)行主成分分析(pca)模型訓(xùn)練,過程如下:
該步驟其實就是使用pca方法提取基于hardi成像算法的合成指數(shù)。
獲得的量化數(shù)據(jù)組可以表示為:
其中,n代表總的樣本數(shù)量;
降維后的數(shù)據(jù)q在維度m下可以被表示為:
在這個公式中,其中滿足1≤m≤p的部分表示的意思是保留方差為投影空間最大值的正交軸。在這里選用增量主成分分析(ipca)去彌補(bǔ)當(dāng)要分解的數(shù)據(jù)集過大而不能適應(yīng)存儲器的問題,作為主成分分析方法的替代。增量主成分分析用新輸入的數(shù)據(jù)和上一步特征值就實現(xiàn)更新當(dāng)前的特征值而不用考慮整個數(shù)據(jù)集。
通過兩個樣本協(xié)方差矩陣s的前導(dǎo)特征向量可以得出q。其中:
公式中
sqi=λiqi,i=1,...m(4)
在該表達(dá)式中,λi是矩陣s第i個最大特征向量。
在所操作的樣本空間中,
2)對所有特征(指標(biāo)數(shù)值)進(jìn)行提取,過程如下:
核心是要提供特征選擇算法以自動獲得在整個大腦之間的控制和患者對象之間可能具有顯著多樣性的重要體素。
在初步處理后,在初步處理后,觀察考慮特征列表中的每個特征,之后要人工地對特征進(jìn)行挑選移除;設(shè)樣本為x=[x1,...xj,...xn]t,其中
單變量特征選擇通過單變量統(tǒng)計檢驗取選擇最佳特征。
在這個系統(tǒng)實驗過程中,對獲取樣本數(shù)據(jù)去計算單因素方差分析中的p值。selectkbest是用來提取數(shù)據(jù)集中最明顯特征的常用技術(shù),經(jīng)常用于去將原始數(shù)據(jù)縮減為包含最大差異量的特征的子集。對每個樣本都是基于計算出的k最高值進(jìn)行特征進(jìn)行選擇。對所有的樣本,去計算病人組與正常控制組在每個體素間的距離和副本以及將最大k值包括進(jìn)新樣本。新樣本
3)為所選出的特征選擇最佳分類器模型算法,過程如下:
利用這些指數(shù)和選擇的體素,在這里使用隨機(jī)森林(rf)算法訓(xùn)練高分疾病分類模型。在分類器模型部分中,需要做的是從選擇出的特征中規(guī)劃出一個預(yù)測函數(shù)f(x)去預(yù)測y。如果考慮到新的特征隊列
其算法由以下三步實現(xiàn):
3.1.采用bootstrap抽樣技術(shù)從原始數(shù)據(jù)集中抽取ntree個訓(xùn)練集,每個訓(xùn)練集的大小約為原始數(shù)據(jù)集的三分之二。
3.2.為每一個bootstrap訓(xùn)練集分別建立分類回歸樹(classificationandregressiontree,cart),共產(chǎn)生ntree棵決策樹構(gòu)成一片“森林”。隨機(jī)選擇最優(yōu)屬性進(jìn)行分支(mtry≤m)。
3.3.集合ntree棵決策樹的預(yù)測結(jié)果,采用投票(voting)的方式?jīng)Q定新樣本的類別。
隨機(jī)森林分類器利用基于breiman隨機(jī)森林理論的r語言軟件包randomforest來實現(xiàn)。需要設(shè)置三個主要的參數(shù):森林中決策樹的數(shù)量(ntree)、內(nèi)部節(jié)點隨機(jī)選擇屬性的個數(shù)(mtry)及終節(jié)點的最小樣本數(shù)(nodesize)。
在隨機(jī)森林算法中,特征之間的一個相對的重要性排名也用在決策點,這也可以去評估特征在預(yù)估新目標(biāo)變量中相對重要性。決策樹頂端的特征會被考慮進(jìn)最終的預(yù)測。樣本預(yù)期的部分因此可以被運用至特征間相對主次地位的評估。
4)預(yù)測
預(yù)測一個新樣本通常旨在去獲得分類的信息和概率。對于一個新樣本,要去量化所有量化指標(biāo)對于獲取測量值矩陣
在預(yù)測環(huán)節(jié)。隨機(jī)森林算法在訓(xùn)練過程中的每次bootstrap抽樣,將有約三分之一的數(shù)據(jù)未被抽中,這部分?jǐn)?shù)據(jù)被稱為袋外(out-of-bag)數(shù)據(jù)。隨機(jī)森林就是利用這部分?jǐn)?shù)據(jù)進(jìn)行內(nèi)部的誤差估計。