两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

結合獨立分量分析和線性判別分析的癌癥預測方法

文檔序號:6536276閱讀:251來源:國知局
結合獨立分量分析和線性判別分析的癌癥預測方法
【專利摘要】本發(fā)明涉及一種結合獨立分量分析和線性判別分析的癌癥預測方法,具體包括以下步驟:(1)用過濾技術預處理基因微陣列數據;(2)將預處理后的基因微陣列數據用獨立分量分析技術進行變換,得到獨立分量集;(3)應用線性判別分析技術處理獨立分量集,將基因微陣列數據投影到具有最佳可分性的低維空間;(4)利用投影后的基因微陣列數據訓練最近鄰分類器,生成分類器模型。本發(fā)明在過濾處理后的基因微陣列數據上,利用獨立分量分析挖掘基因微陣列數據的隱含信息,利用線性判別分析將基因微陣列數據投影到具有最佳可分性的低維空間,提高了癌癥預測的精度,降低了癌癥預測的時間。
【專利說明】結合獨立分量分析和線性判別分析的癌癥預測方法
【技術領域】
[0001]本發(fā)明涉及一種結合獨立分量分析和線性判別分析的癌癥預測方法,屬于機器學習和醫(yī)療診斷的交叉【技術領域】。
【背景技術】
[0002]基因微陣列又稱基因陣列或基因芯片,是一塊帶有基因微陣列涂層的特殊玻璃片。在面積只有數平方厘米的芯片上安裝數千甚至數萬個核酸探針,將大量預先設計好的互補脫氧核糖核酸或者寡核苷酸在芯片上做成點陣列形式,與樣品中同源核酸分子進行雜交,即可獲得關于基因序列和基因表達信息的微陣列數據。
[0003]研究發(fā)現,癌癥的發(fā)生與遺傳基因之間存在很大的關聯(lián)性,分析基因微陣列數據中包含的遺傳信息為癌癥的預測診斷提供了新的方法途徑。然而對基因微陣列數據的分類預測面臨著四大挑戰(zhàn)。第一,基因微陣列數據具有很高的基因特征維度,通常有幾千甚至上萬維,同時這些基因特征之間又有非常復雜的關系。第二,復雜的實驗和昂貴的費用導致基因微陣列數據具有相對較少的樣本,通常只有幾十個樣本,這與巨大的基因特征數目構成矛盾。第三,基因微陣列數據具有很高的噪聲。第四,基因微陣列數據中隱藏著大量有用信息,難以被發(fā)覺利用。
[0004]鑒于基因微陣列數據高維度、高噪音、高相關、小樣本的特點,本發(fā)明在過濾處理后的基因微陣列數據上,結合獨立分量分析和線性判別分析兩種方法,實現對基因微陣列數據的分類預測。
[0005]過濾技術也稱為基因排序技術,是根據某一種策略為每個基因的重要程度進行打分,然后將分數由高到低進行排序,最后選取一定數量高分值的基因作為疾病相關基因。過濾技術速度快、時間復雜度低,對高維高噪的基因微陣列數據而言,是一種有效的預處理技術。
[0006]獨立分量分析是一種用來發(fā)掘隨機變量中隱含因子的統(tǒng)計方法,能夠發(fā)現數據中獨立并且非高斯分布的隱含獨立分量,發(fā)現基因微陣列數據中隱含的遺傳信息。
[0007]線性判別分析是尋找數據的最佳投影方向,通過使類間散布矩陣最大化、類內散布矩陣最小化,從而最大化類別可分性。由于基因微陣列數據高維小樣本的特點,導致最佳投影方向的求解過程中涉及的類內散布矩陣嚴重奇異,逆矩陣無法求解。為解決這一技術難題,本發(fā)明采用偽逆技術和基于樣本空間的線性判別分析方法,將最佳投影方向的求解過程由基因特征空間轉換到樣本空間,大大降低了矩陣的奇異程度,解決了求逆困難的技術難題。

【發(fā)明內容】

[0008]本發(fā)明的目的在于克服由基因微陣列數據高維度、高噪音、高相關、小樣本導致的難以精確高效進行癌癥預測的技術難題,從挖掘隱含的基因信息和降低基因特征維度出發(fā),提出了一種結合獨立分量分析和線性判別分析兩種技術的癌癥預測方法,在降低基因特征維度、除去冗余噪聲的同時,充分挖掘特征之間的隱含信息,提高了癌癥預測的精度和效率。
[0009]為了實現上述目的,本發(fā)明的技術方案如下。
[0010]一種結合獨立分量分析和線性判別分析的癌癥預測方法,具體包括以下步驟:
[0011](I)用過濾技術預處理基因微陣列數據,集成了四種策略,即學生檢測分析、熵分析、切諾夫界分析以及無偏統(tǒng)計分析,根據每一種策略為每個基因的重要程度進行打分評估,然后根據分數的高低進行排序,最后選擇一定數量分值高的基因作為對樣本分類預測貢獻大的基因,實現特征的預篩選;
[0012](2)將預處理后的基因微陣列數據用獨立分量分析技術進行變換以挖掘數據中的隱含信息,得到獨立分量集;
[0013](3)應用線性判別分析技術處理獨立分量集,將基因微陣列數據投影到具有最佳可分性的低維空間;
[0014](4)利用投影后的基因微陣列數據訓練最近鄰分類器,生成分類器模型。
[0015]該發(fā)明的有益效果在于:(1)從技術層面看,本發(fā)明采用獨立分量分析方法對基因微陣列數據進行變換,充分挖掘基因之間的隱含信息;在線性判別分析處理過程中,通過由基因特征空間向樣本空間的投影變換以及采用偽逆技術,解決了基因微陣列數據超高基因特征維度導致的求逆困難的技術問題。(2)從性能層面看,本發(fā)明在對基因微陣列數據有效降維的同時提升了預測準確性,提高了預測效率。 【專利附圖】

【附圖說明】
[0016]圖1是基因芯片生產制作及分析過程簡圖。
[0017]圖2是本發(fā)明實施例中所用預測方法流程圖。
【具體實施方式】
[0018]下面結合附圖和實施例對本發(fā)明的【具體實施方式】進行描述,以便更好的理解本發(fā)明。
[0019]實施例
[0020]圖1是基因芯片生產制作及分析過程簡圖。圖2是本發(fā)明實施例中所用預測方法流程圖。
[0021]參照圖2,本發(fā)明實施例中的結合獨立分量分析和線性判別分析的癌癥預測方法,具體實現步驟如下:
[0022](I)用過濾技術預處理基因微陣列數據:
[0023](Ia)過濾技術集成了四種實現策略-學生檢驗分析,熵分析,切諾夫界分析,無偏統(tǒng)計分析,分別如下:
[0024]①學生檢驗分析:學生檢驗分析的假設前提是兩個樣本服從正態(tài)分布且方差相同。設?…^^是來自正態(tài)總體Ν(μ1; σ2)的樣本/是來自正態(tài)總體Ν( μ 2,
α2)的樣本,兩個樣本獨立,樣本均值為兄7,樣本的方差為片,#,且μ i,μ2,σ 2均為未知。檢驗假設:[0025]H0: μ μ 2= δ , H1: μ μ 2 ^ δ ;
[0026]δ為已知常數,取顯著性水平為α ;
[0027]
【權利要求】
1.一種結合獨立分量分析和線性判別分析的癌癥預測方法,其特征在于:具體包括以下步驟: (1)用過濾技術預處理基因微陣列數據,集成了四種策略,即學生檢測分析、熵分析、切諾夫界分析以及無偏統(tǒng)計分析,根據每一種策略為每個基因的重要程度進行打分評估,然后根據分數的高低進行排序,最后選擇一定數量分值高的基因作為對樣本分類預測貢獻大的基因,實現特征的預篩選; (2)將預處理后的基因微陣列數據用獨立分量分析技術進行變換以挖掘數據中的隱含信息,得到獨立分量集; (3)應用線性判別分析技術處理獨立分量集,將基因微陣列數據投影到具有最佳可分性的低維空間; (4)利用投影后的基因微陣列數據訓練最近鄰分類器,生成分類器模型。
2.根據權利要求1所述的結合獨立分量分析和線性判別分析的癌癥預測方法,其特征在于:所述步驟(2)中獨立分量分析技術的具體步驟為: (2a)獨立分量集S=WXT,其中Χ=[χω ;…;xw]是mXn的基因微陣列數據矩陣,m是樣本個數,η是基因特征維度,W是ηΧη的變換矩陣; (2b)利用最大似然估計方法求變換矩陣W ; (2b.1)關于W的最大似然估計:
3.根據權利要求1所述的結合獨立分量分析和線性判別分析的癌癥預測方法,其特征在于:所述步驟(3)中線性判別分析技術具體步驟為: (3a)設計線性判別分析方法的目標函數:







設數據中有m個樣本,分別屬于c個類別,第i類的樣本數為IV且
【文檔編號】G06F19/00GK103793600SQ201410025412
【公開日】2014年5月14日 申請日期:2014年1月16日 優(yōu)先權日:2014年1月16日
【發(fā)明者】楊利英, 劉志敏, 李菲, 袁細國, 張軍英, 黎成, 殷黎洋 申請人:西安電子科技大學
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
许昌县| 永吉县| 新竹县| 长汀县| 宽城| 枝江市| 南靖县| 双流县| 漳浦县| 嵊泗县| 恩平市| 宣威市| 平山县| 上栗县| 庐江县| 凤台县| 玛纳斯县| 河西区| 孟村| 盐池县| 玛沁县| 南昌市| 阿克苏市| 贵溪市| 梁河县| 南部县| 隆安县| 木兰县| 准格尔旗| 马关县| 凤台县| 盈江县| 浦江县| 镇远县| 北辰区| 黄石市| 无为县| 新郑市| 中江县| 芷江| 邻水|