两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種用于神經(jīng)疾病的基于體素分析的數(shù)據(jù)驅(qū)動機(jī)器學(xué)習(xí)方法與流程

文檔序號:11677860閱讀:295來源:國知局

本發(fā)明涉及計算機(jī)圖形學(xué)下的醫(yī)學(xué)成像、神經(jīng)解剖學(xué)領(lǐng)域,是一種針對大腦神經(jīng)疾病的,基于體素分析的數(shù)據(jù)驅(qū)動機(jī)器學(xué)習(xí)方法。



背景技術(shù):

定量擴(kuò)散張量成像(dti)用于纖維建模,是十分有效的臨床應(yīng)用工具,用于評估損傷的程度和定位神經(jīng)疾病。但是缺乏不足的分辨率限制了dti探測更復(fù)雜的微結(jié)構(gòu)信息?,F(xiàn)有的神經(jīng)疾病方法通常用于驗證疾病的臨床猜測,并且難以預(yù)測和積極測量涉及這些疾病的腦區(qū)。找出有效的區(qū)分分類疾病方法是解決問題的關(guān)鍵。



技術(shù)實現(xiàn)要素:

為了克服現(xiàn)有基于dti的纖維量化指標(biāo)一直存在著低精度以及判斷結(jié)果與疾病臨床表現(xiàn)不一致等問題的不足,針對以上兩個限制,基于hardi技術(shù)的神經(jīng)系統(tǒng)疾病,本發(fā)明提供了一種精度較高的基于體素分析的數(shù)據(jù)驅(qū)動機(jī)器學(xué)習(xí)方法,其中提出了數(shù)據(jù)驅(qū)動的機(jī)器學(xué)習(xí)方法來分析和預(yù)測神經(jīng)系統(tǒng)疾病。

本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:

一種用于神經(jīng)疾病的基于體素分析的數(shù)據(jù)驅(qū)動機(jī)器學(xué)習(xí)方法,包括如下步驟:

1)根據(jù)對腦區(qū)指標(biāo)的定量測量值進(jìn)行主成分分析pca模型訓(xùn)練,過程如下:

獲得的量化數(shù)據(jù)組表示為:

其中,n代表總的樣本數(shù)量;代表每個樣本體素的量化指標(biāo)值。

降維后的數(shù)據(jù)q在維度m下被表示為:

其中,維度滿足1≤m≤p的部分表示的意思是保留方差為投影空間最大值的正交軸,增量主成分分析用新輸入的數(shù)據(jù)和上一步特征值更新當(dāng)前的特征值;

通過兩個樣本協(xié)方差矩陣s的前導(dǎo)特征向量得出q,其中:

公式中k和nj分別表示樣本平均值、分類的數(shù)目以及類j中的樣本數(shù)量;因此,推出以下的結(jié)果表達(dá):

sqi=λiqi,i=1,...m(4)

在該表達(dá)式中,λi是矩陣s第i個最大特征向量;

在所操作的樣本空間中,的主成分主軸m是解相關(guān)的;

2)對所有特征進(jìn)行提取,過程如下:

在初步處理后,在初步處理后,觀察考慮特征列表中的每個特征,之后要人工地對特征進(jìn)行挑選移除;設(shè)樣本為x=[x1,...xj,...xn]t,其中每個樣本xj都有一個對應(yīng)的分類yj;

單變量特征選擇通過單變量統(tǒng)計檢驗取選擇最佳特征;

對獲取樣本數(shù)據(jù)去計算單因素方差分析中的p值,對每個樣本都是基于計算出的k最高值進(jìn)行特征進(jìn)行選擇;對所有的樣本,去計算病人組與正常控制組在每個體素間的距離和副本以及將最大k值包括進(jìn)新樣本;新樣本是從原樣本中獲得,它們的y值是被保留的;

3)為所選出的特征選擇最佳分類器模型算法,過程如下:

利用這些指數(shù)和選擇的體素,在這里使用隨機(jī)森林rf算法訓(xùn)練高分疾病分類模型;在分類器模型部分中,需要做的是從選擇出的特征中規(guī)劃出一個預(yù)測函數(shù)f(x)去預(yù)測y;如果考慮到新的特征隊列和它對應(yīng)的隊列y,就可以去建立一個隨機(jī)森林分類器去區(qū)分病人及控制樣本;每個訓(xùn)練集都是在聚合技術(shù)作用下由獨立森林樹創(chuàng)建的;由以下三步實現(xiàn):

3.1.采用bootstrap抽樣技術(shù)從原始數(shù)據(jù)集中抽取ntree個訓(xùn)練集,每個訓(xùn)練集的大小為原始數(shù)據(jù)集的三分之二;

3.2.為每一個bootstrap訓(xùn)練集分別建立分類回歸樹cart,共產(chǎn)生ntree棵決策樹構(gòu)成一片“森林”,隨機(jī)選擇最優(yōu)屬性進(jìn)行分支,mtry≤m;

3.3.集合ntree棵決策樹的預(yù)測結(jié)果,采用投票的方式?jīng)Q定新樣本的類別;

隨機(jī)森林分類器設(shè)置三個參數(shù):森林中決策樹的數(shù)量ntree、內(nèi)部節(jié)點隨機(jī)選擇屬性的個數(shù)mtry及終節(jié)點的最小樣本數(shù)nodesize;

4)預(yù)測

對于一個新樣本,要去量化所有量化指標(biāo)對于獲取測量值矩陣之后,增量主成分分析提供了增量更新原始主成分分析的方法去獲得一個新的增量主成分分析模型;對獲得的該模型,去計算增量主成分分析特征向量,而測量值矩陣的維度會被降為新的q=[q1,...qm];這些新測量值將重新排列為x。

進(jìn)一步,所述步驟4)中,在預(yù)測環(huán)節(jié),隨機(jī)森林算法在訓(xùn)練過程中的每次bootstrap抽樣,將有三分之一的數(shù)據(jù)未被抽中,這部分?jǐn)?shù)據(jù)被稱為袋外數(shù)據(jù),隨機(jī)森林算法就是利用這部分?jǐn)?shù)據(jù)進(jìn)行內(nèi)部的誤差估計。

本發(fā)明的目標(biāo)是找到一個數(shù)據(jù)驅(qū)動的方法,積極測量與神經(jīng)系統(tǒng)疾病相關(guān)的腦區(qū),然后根據(jù)這些區(qū)域的特點預(yù)測新的樣本。同時,該方法可以根據(jù)不同的疾病特征自動選擇合適的定量測量指標(biāo)。與單一成像技術(shù)(dti)相比,多種技術(shù)(dti,hardi)的混合可以提取更多的功能,有助于剖析特定的疾病病理可能更準(zhǔn)確。

本發(fā)明的有益效果主要表現(xiàn)在:精度較高。

具體實施方式

下面對本發(fā)明作進(jìn)一步描述。

一種用于神經(jīng)疾病的基于體素分析的數(shù)據(jù)驅(qū)動機(jī)器學(xué)習(xí)方法,包括如下步驟:

1)根據(jù)對腦區(qū)指標(biāo)的定量測量值進(jìn)行主成分分析(pca)模型訓(xùn)練,過程如下:

該步驟其實就是使用pca方法提取基于hardi成像算法的合成指數(shù)。

獲得的量化數(shù)據(jù)組可以表示為:

其中,n代表總的樣本數(shù)量;代表每個樣本體素的量化指標(biāo)值。

降維后的數(shù)據(jù)q在維度m下可以被表示為:

在這個公式中,其中滿足1≤m≤p的部分表示的意思是保留方差為投影空間最大值的正交軸。在這里選用增量主成分分析(ipca)去彌補(bǔ)當(dāng)要分解的數(shù)據(jù)集過大而不能適應(yīng)存儲器的問題,作為主成分分析方法的替代。增量主成分分析用新輸入的數(shù)據(jù)和上一步特征值就實現(xiàn)更新當(dāng)前的特征值而不用考慮整個數(shù)據(jù)集。

通過兩個樣本協(xié)方差矩陣s的前導(dǎo)特征向量可以得出q。其中:

公式中k和nj分別表示:樣本平均值,分類的數(shù)目以及類j中的樣本數(shù)量。因此,我們可以推出以下的結(jié)果表達(dá):

sqi=λiqi,i=1,...m(4)

在該表達(dá)式中,λi是矩陣s第i個最大特征向量。

在所操作的樣本空間中,的主成分主軸m是解相關(guān)的。關(guān)于主成分分析用來特征提取和降維的想法假設(shè):觀察向量大多數(shù)信息被包含在了兩個m主軸中被第一個跨越的子空間中即m<p部分。所以每個原始數(shù)據(jù)向量在維度m可以被自己的主成分向量表示。提出的方法中,通過對roi使用pca降維訓(xùn)練出一個主成分模型p(λ,q)。除了pca,這個模型在全腦的其他區(qū)域都適用。對于roi,可以半自動地對目標(biāo)數(shù)據(jù)選取,采用一個可以足以包括所有對象的roi的最小邊界矩形去補(bǔ)充選擇的roi并確保其統(tǒng)一的維度。

2)對所有特征(指標(biāo)數(shù)值)進(jìn)行提取,過程如下:

核心是要提供特征選擇算法以自動獲得在整個大腦之間的控制和患者對象之間可能具有顯著多樣性的重要體素。

在初步處理后,在初步處理后,觀察考慮特征列表中的每個特征,之后要人工地對特征進(jìn)行挑選移除;設(shè)樣本為x=[x1,...xj,...xn]t,其中每個樣本xj都有一個對應(yīng)的分類yj(比如病人樣本取0,正??刂平M樣本取1)。

單變量特征選擇通過單變量統(tǒng)計檢驗取選擇最佳特征。

在這個系統(tǒng)實驗過程中,對獲取樣本數(shù)據(jù)去計算單因素方差分析中的p值。selectkbest是用來提取數(shù)據(jù)集中最明顯特征的常用技術(shù),經(jīng)常用于去將原始數(shù)據(jù)縮減為包含最大差異量的特征的子集。對每個樣本都是基于計算出的k最高值進(jìn)行特征進(jìn)行選擇。對所有的樣本,去計算病人組與正常控制組在每個體素間的距離和副本以及將最大k值包括進(jìn)新樣本。新樣本是從原樣本中獲得,因此,它們的y值是被保留的。

3)為所選出的特征選擇最佳分類器模型算法,過程如下:

利用這些指數(shù)和選擇的體素,在這里使用隨機(jī)森林(rf)算法訓(xùn)練高分疾病分類模型。在分類器模型部分中,需要做的是從選擇出的特征中規(guī)劃出一個預(yù)測函數(shù)f(x)去預(yù)測y。如果考慮到新的特征隊列和它對應(yīng)的隊列y,就可以去建立一個隨機(jī)森林分類器去區(qū)分病人及控制樣本。不過,每個訓(xùn)練集都是在聚合技術(shù)作用下由獨立森林樹創(chuàng)建的。

其算法由以下三步實現(xiàn):

3.1.采用bootstrap抽樣技術(shù)從原始數(shù)據(jù)集中抽取ntree個訓(xùn)練集,每個訓(xùn)練集的大小約為原始數(shù)據(jù)集的三分之二。

3.2.為每一個bootstrap訓(xùn)練集分別建立分類回歸樹(classificationandregressiontree,cart),共產(chǎn)生ntree棵決策樹構(gòu)成一片“森林”。隨機(jī)選擇最優(yōu)屬性進(jìn)行分支(mtry≤m)。

3.3.集合ntree棵決策樹的預(yù)測結(jié)果,采用投票(voting)的方式?jīng)Q定新樣本的類別。

隨機(jī)森林分類器利用基于breiman隨機(jī)森林理論的r語言軟件包randomforest來實現(xiàn)。需要設(shè)置三個主要的參數(shù):森林中決策樹的數(shù)量(ntree)、內(nèi)部節(jié)點隨機(jī)選擇屬性的個數(shù)(mtry)及終節(jié)點的最小樣本數(shù)(nodesize)。

在隨機(jī)森林算法中,特征之間的一個相對的重要性排名也用在決策點,這也可以去評估特征在預(yù)估新目標(biāo)變量中相對重要性。決策樹頂端的特征會被考慮進(jìn)最終的預(yù)測。樣本預(yù)期的部分因此可以被運用至特征間相對主次地位的評估。

4)預(yù)測

預(yù)測一個新樣本通常旨在去獲得分類的信息和概率。對于一個新樣本,要去量化所有量化指標(biāo)對于獲取測量值矩陣是必要的。之后,增量主成分分析提供了增量更新原始主成分分析的方法去獲得一個新的增量主成分分析模型。對獲得的該模型,去計算增量主成分分析特征向量,而測量值矩陣的維度會被降為新的q=[q1,...qm]。這些新測量值將重新排列為x。

在預(yù)測環(huán)節(jié)。隨機(jī)森林算法在訓(xùn)練過程中的每次bootstrap抽樣,將有約三分之一的數(shù)據(jù)未被抽中,這部分?jǐn)?shù)據(jù)被稱為袋外(out-of-bag)數(shù)據(jù)。隨機(jī)森林就是利用這部分?jǐn)?shù)據(jù)進(jìn)行內(nèi)部的誤差估計。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
丘北县| 自贡市| 昭觉县| 类乌齐县| 廉江市| 宣汉县| 集安市| 安国市| 灵山县| 固阳县| 谢通门县| 怀集县| 沛县| 江永县| 承德市| 星子县| 攀枝花市| 嵊州市| 丰县| 天镇县| 荣成市| 临泉县| 淅川县| 临沭县| 革吉县| 乌审旗| 尼木县| 武邑县| 台南县| 通河县| 武夷山市| 吴忠市| 威信县| 大洼县| 六枝特区| 民乐县| 陈巴尔虎旗| 洛宁县| 塔城市| 贵德县| 万山特区|