基于Torch監(jiān)督式深度學習的基因性狀識別方法
【專利摘要】本發(fā)明涉及生物信息技術領域,具體涉及基于Torch監(jiān)督式深度學習的基因性狀識別方法,它采用如下的技術方案:步驟一:基因PNG圖像信息數據的預處理,以符合用于Torch深度學習模型訓練的Tensor數據對象;步驟二:利用Torch構建深度學習模型,在深度卷積神經網絡模型中對Tensor訓練數據進行訓練,得到理想的訓練數據識別結果后輸出標簽向量和權重參數;步驟三:在模型訓練成功后,可以針對結果標簽的某一類別提取所有訓練完成后各個連接之間的權重參數,再對基因圖像數據信息進行反編碼,從而得到與基因對應性狀的相關SNP位點以及相應權重參數;具有能夠更方便及智能的進行基因的對應性狀分類,對未知性狀的基因進行自我識別等優(yōu)點。
【專利說明】
基于Torch監(jiān)督式深度學習的基因性狀識別方法
【技術領域】
[0001]本發(fā)明涉及生物信息技術領域,具體涉及一種基于Torch監(jiān)督式深度學習的基因性狀識別方法。
【【背景技術】】
[0002]人類基因組計劃奠定了從基因切入研究疾病的基礎,人們希望找到人類發(fā)病與基因之間的關系。全基因組關聯研究(GWAS,Genome-Wide Associat1n Study)的基本原理是在同層人群中選擇滿足一定統計學數量的病例組和對照組樣本,比較全基因組范圍內SNP位點在病例組與對照組中的頻率差異,若某個SNP位點在病例組中出現的頻率明顯高于或低于對照組,則認為該SNP位點與復雜疾病存在某種關聯。雖然,GWAS已經發(fā)現了很多與復雜疾病相關的SNP位點,但是GWAS仍然存在很多問題,其成果與人們的預期差距甚遠。
[0003]在基因的間接識別法(Extrinsic Approach)中,人們利用已知的mRNA或蛋白質序列為線索在DNA序列中搜尋所對應的片段。由給定的mRNA序列確定唯一的作為轉錄源的DNA序列;而由給定的蛋白質序列,也可以由密碼子反轉確定一族可能的DNA序列。因此,在線索的提示下搜尋工作相對較為容易,搜尋算法的關鍵在于提高效率,并能夠容忍由于測序不完整或者不精確所帶來的誤差。BLAST是目前以此為目的最廣泛使用的軟件之一。
[0004]BLAST(Basic Local Alignment Search Tool)是一套在DNA數據庫或蛋白質數據庫中進行相似性比較的分析工具。BLAST程序能迅速使目標基因序列與公開數據庫進行相似性序列比較。BLAST采用一種局部的算法獲得兩個序列中具有相似性的序列,并且對一條或多條序列(可以是任何形式的序列)在一個或多個核酸或蛋白序列庫中進行比對。然而,BLAST卻也存在一定的局限性,并不能進行深度學下的依照對應性狀進行基因分類和自我識別,而且對于大數據量的基因數據集進行智能化的對應性狀分類和自我識別顯得無能為力。
[0005]Torch目標是通過極其簡單過程、以最大的靈活性和速度建立自己的科學算法。Torch擁有一個由大型社區(qū)驅動的完善的生態(tài)系統,包括機器學習算法、計算機視覺,信號處理,并行處理,圖像,視頻,音頻和網絡等領域,并且作為Lua的頂級項目而獲得Lua社區(qū)的支持,這些促使了 Torch的快速發(fā)展。Torch目標是讓你通過極其簡單過程、以最大的靈活性和速度建立自己的科學算法。Torch的核心是通過廣泛認可的神經網絡基本模型,提供簡便的優(yōu)化方式,同時具有最大的靈活性,用以快速實現復雜的神經網絡的拓撲結構。利用Torch深度學習框架進行基因信息數據的分析、識別,將會在基因與其對應性狀識別及分類上取得突破性的成果。
【
【發(fā)明內容】
】
[0006]本發(fā)明的目的在于針對現有技術的缺陷和不足,提供一種結構簡單,設計合理、使用方便的基于Torch監(jiān)督式深度學習的基因性狀識別方法,它通過采用深度學習算法,構建一個對生物基因信息識別并找出與對應性狀之間聯系的模型,使用這個模型對未知性狀的基因信息進行識別;具有能夠更方便及智能的進行基因的對應性狀分類,對未知性狀的基因進行自我識別等優(yōu)點。
[0007]本發(fā)明所述的基于Torch監(jiān)督式深度學習的基因性狀識別方法,它采用如下的技術方案:
[0008]步驟一:基因PNG圖像信息數據的預處理,以符合用于Torch深度學習模型訓練的Tensor數據對象;
[0009]步驟二:利用Torch構建深度學習模型,在深度卷積神經網絡模型中對Tensor訓練數據進行訓練,得到理想的訓練數據識別結果后輸出標簽向量和權重參數;
[0010]步驟三:在模型訓練成功后,可以針對結果標簽的某一類別提取所有訓練完成后各個連接之間的權重參數,再對基因圖像數據信息進行反編碼,從而得到與基因對應性狀的相關SNP位點以及相應權重參數,從而識別該基因信息的對應性狀,發(fā)現其表現性狀與該基因SNP的關聯關系。
[0011]進一步地,步驟一中:基因信息數據預處理,按照樣本數據的某種性狀設計標簽向量,調用Torch的load函數讀取每個需要處理的樣本數據為Tensor數據對象,則每個Tensor數據對象設置有兩個屬性:data和label。
[0012]進一步地,步驟二中:利用Torch構建深度學習模型,根據輸入的Tensor數據的尺寸,反復調用add()函數在調用Sequential!;)函數創(chuàng)建模型容器Model中分別插入卷積層、下采樣層、全連接層以及激活函數構建深度卷積神經網絡模型。
[0013]進一步地,步驟三中:通過提取訓練結果的權重參數,以未知性狀基因進行數據信息的反編碼,得到與基因對應性狀的相關SNP位點以及相應權重參數,以其與訓練模型提取的權重參數進行比照分析,從而識別該基因信息的對應性狀。
[0014]采用上述結構后,本發(fā)明有益效果為:本發(fā)明所述的基于Torch監(jiān)督式深度學習的基因性狀識別方法,它通過采用深度學習算法,構建一個對生物基因信息識別并找出與對應性狀之間聯系的模型,使用這個模型對未知性狀的基因信息進行識別;具有能夠更方便及智能的進行基因的對應性狀分類,對未知性狀的基因進行自我識別等優(yōu)點。
【【附圖說明】】
[0015]此處所說明的附圖是用來提供對本發(fā)明的進一步理解,構成本申請的一部分,但并不構成對本發(fā)明的不當限定,在附圖中:
[0016]圖1是本發(fā)明技術方案的實施架構示意圖。
[0017]圖2是本發(fā)明實施中基因信息數據的預處理示意圖。
[0018]圖3是本發(fā)明實施中SequentialO函數架構簡圖。
[0019]圖4是本發(fā)明實施中構建深度卷積神經網絡模型示意圖。
[0020]圖5是本發(fā)明實施中卷積網絡訓練模型具體結構圖。
[0021 ]圖6是本發(fā)明實施中構建容器模型Mode I示意圖。
[0022]圖7是本發(fā)明實施中基因性狀識別流程示意圖;
【【具體實施方式】】
[0023]下面將結合附圖以及具體實施例來詳細說明本發(fā)明,其中的示意性實施例以及說明僅用來解釋本發(fā)明,但并不作為對本發(fā)明的限定。
[0024]如圖1-圖7所示,本【具體實施方式】所述的基于Torch監(jiān)督式深度學習的基因性狀識別方法,它采用如下的技術方案:
[0025]步驟一:基因PNG圖像信息數據的預處理,以符合用于Torch深度學習模型訓練的Tensor數據對象;
[0026]步驟二:利用Torch構建深度學習模型,在深度卷積神經網絡模型中對Tensor訓練數據進行訓練,得到理想的訓練數據識別結果后輸出標簽向量和權重參數;
[0027]步驟三:在模型訓練成功后,可以針對結果標簽的某一類別提取所有訓練完成后各個連接之間的權重參數,再對基因圖像數據信息進行反編碼,從而得到與基因對應性狀的相關SNP位點以及相應權重參數,從而識別該基因信息的對應性狀,發(fā)現其表現性狀與該基因SNP的關聯關系。
[0028]進一步地,步驟一中:基因信息數據預處理,按照樣本數據的某種性狀設計標簽向量,調用Torch的load函數讀取每個需要處理的樣本數據為Tensor數據對象,則每個Tensor數據對象設置有兩個屬性:data和label。
[0029]進一步地,步驟二中:利用Torch構建深度學習模型,根據輸入的Tensor數據的尺寸,反復調用add()函數在調用Sequential!;)函數創(chuàng)建模型容器Model中分別插入卷積層、下采樣層、全連接層以及激活函數構建深度卷積神經網絡模型。
[0030]進一步地,步驟三中:通過提取訓練結果的權重參數,以未知性狀基因進行數據信息的反編碼,得到與基因對應性狀的相關SNP位點以及相應權重參數,以其與訓練模型提取的權重參數進行比照分析,從而識別該基因信息的對應性狀。
[0031]本具體實施例中:
[0032]在數據預處理階段,針對每個基因信息樣本數據設計標簽向量β,具有某種性狀的樣本數據則在標簽向量β相應的維度中設置為I,否則設置為0;并將標簽向量β中表征的人體特性的相應順序記錄下來。
[0033]這樣,對于每個樣本數據由兩部分組成,一部分是表征基因信息的圖像數據;一部分是表征樣本性狀的標簽向量。
[0034]調用Torch的load函數讀取每個需要處理的樣本數據為Tensor數據對象,則每個Tensor數據對象設置有兩個屬性:data和Iabe I。
[0035]data為一個4維的Tensor數據變量,第一維表不讀取樣本的序號;第二維表不樣本圖像數據的顏色管道序號,其中O表示R通道,I表示B通道,2表示G通道;第三維和第四維分別表示每個顏色通道中的位置。
[0036]S卩data[25][l][260][127]表示序號為25的樣本圖像數據中在B顏色通道中行位置為260,列位置為127的位置點的標量數值。
[0037]label讀取為一個二維的Tensor變量,第一維同樣表不樣本的序列號,第二維表不該樣本數據表征的基因對應性狀。
[0038]即label[32] [104]表示序列號為32的樣本數據在標簽向量中是否表征第105個位置相應的特性(位置標號從O開始)。
[0039]步驟B利用Torch構建深度學習模型,首先,調用Sequential ()函數創(chuàng)建模型容器Model,它是一個將各個層以前饋全聯結方式將各個層聚集一起的函數工具。[OO4O]進一步地,根據輸入的Tensor數據的尺寸,反復調用add()函數在Model中分別插入卷積層、下采樣層、全連接層以及激活函數構建深度卷積神經網絡模型。具體模型構建的過程如下:
[0041 ] 輸入圖像尺寸1920 X 1920 X3,調用SpatialConvolut1nO函數,設置卷積核尺寸大小為5 X 5 X 3,卷積步幅為5,則卷積后的圖像尺寸為384 X 384 ; 一共設置96個卷積核;則卷積后產生的數據大小為384 X 384 X 96;本層共有7296個參數需要訓練。
[0042]針對上述產生的數據,調用激活函數ReLUO,使得基因信息關聯具有非線性特性,該函數調用的不改變輸入Tensor數據變量的維度尺寸大小。ReLU函數模型如下所示:
[0043]f(x)=max(0,x)
[0044]針對產生的384 X 384 X 96激活數據,調用SpatialLPPool ing()函數,采用一個2 X2大小的采樣窗口,以采樣步幅2對原始數據進行采樣處理;則采樣后結果為192 X 192 X 96,本層需訓練的參數為192.
[0045]將上述采樣數據進行切分為兩部分,每部分為192X 192X48,然后分別對這兩部分調用SpatialConvolut1nMM()函數,設置本層卷積核大小為3 X 3 X 48,卷積步幅為3,則卷積后的數據大小為64 X 64,一共設置256個卷積核。
[0046]分別在兩臺不同的計算機上進行計算,卷積后產生兩塊數據大小為64X64X128的基因信息數據;本層一共需要訓練110592個參數。
[0047]調用激活函數,針對產生的2 X 28 X 28 X 192的激活數據,調用SpatialLPPooling()函數,采用一個2 X 2大小的采樣窗口,以采樣步幅2分別對兩塊數據進行采樣處理;則采樣后的結果為14 X 14 X 192,本層需要訓練768個參數。
[0048]得到采樣數據后,本層對兩塊采樣數據進行單獨卷積;設置卷積核大小為5X 5 X192;分別調用Spa t i a I Convo I ut i on ()函數,卷積步幅為I;每個卷積核只對本臺機器的數據進行卷積,卷積后的數據大小為1X 10,一共設置384個卷積核,每臺計算機單獨訓練192個卷積核;卷積后產生兩塊數據大小為1X 1X 192的基因數據;本層一共需要訓練1843584個參數。
[0049]在此卷積層后,調用SpatialConvolut1n麗()函數,對分布在兩臺計算機上的進行混合卷積計算,卷積核大小設置為1X 10X384,通過此卷積核,二維的基因數據被壓縮成一維數據,即本層一個數據點表示上一層的一個二維基因數據;一共設置4096個卷積核,卷積后在兩臺計算機分別分布在2048個神經節(jié)點的一維基因數據集;本層一共需要訓練157290496個參數。
[0050]分布在兩臺計算的基因數據塊混合全連接一個具有2048個神經元的網絡層;分別調用Reshape ()函數和Linear ()函數,將重構后的Tensor變量數據與本層的神經元進行全連接,分別在兩臺計算機設置全連接層,則此層一共需要訓練16777216個參數。
[0051]分別調用LinearO和SoftMaxO函數,在一臺計算機上合并兩臺計算機上一層全連接的神經元單元,本層設置最后的神經元單元1024個,一共有4194304個參數需要訓練;之后使用SoftMaxO對該層1024個神經元進行回歸分析,得到訓練輸出的標簽向量。
[0052]步驟C需構建容器模型Model為一個序列化對象,它具有兩個屬性output和gradlnput;其中output表示模型的輸出,即上述訓練輸出的標簽向量。
[0053]gradlnput表明輸入數據的梯度信息,這兩個屬性分別是f orwar d ()和updateGrad Input ()函數的最后一次調用的返回結果。
[0054]通過這兩個屬性狀態(tài),我們在模型訓練成功后,可以針對結果標簽的某一類別提取所有訓練完成后各個連接之間的權重參數,再對基因圖像數據信息進行反編碼,從而得至IJ與基因對應性狀的相關SNP位點以及相應權重參數,從而識別該基因信息的對應性狀,發(fā)現其表現性狀與該基因SNP的關聯關系
[0055]本發(fā)明所述的基于Torch監(jiān)督式深度學習的基因性狀識別方法,它通過采用深度學習算法,構建一個對生物基因信息識別并找出與對應性狀之間聯系的模型,使用這個模型對未知性狀的基因信息進行識別;具有能夠更方便及智能的進行基因的對應性狀分類,對未知性狀的基因進行自我識別等優(yōu)點。
[0056]以上所述僅是本發(fā)明的較佳實施方式,故凡依本發(fā)明專利申請范圍所述的構造、特征及原理所做的等效變化或修飾,均包括于本發(fā)明專利申請范圍內。
【主權項】
1.基于Torch監(jiān)督式深度學習的基因性狀識別方法,其特征在于:它采用如下的技術方案: 步驟一:基因PNG圖像信息數據的預處理,以符合用于Torch深度學習模型訓練的Tensor數據對象; 步驟二:利用Torch構建深度學習模型,在深度卷積神經網絡模型中對Tensor訓練數據進行訓練,得到理想的訓練數據識別結果后輸出標簽向量和權重參數; 步驟三:在模型訓練成功后,可以針對結果標簽的某一類別提取所有訓練完成后各個連接之間的權重參數,再對基因圖像數據信息進行反編碼,從而得到與基因對應性狀的相關SNP位點以及相應權重參數,從而識別該基因信息的對應性狀,發(fā)現其表現性狀與該基因SNP的關聯關系。2.根據權利要求1所述的基于Torch監(jiān)督式深度學習的基因性狀識別方法,其特征在于:步驟一中:基因信息數據預處理,按照樣本數據的某種性狀設計標簽向量,調用Torch的load函數讀取每個需要處理的樣本數據為Tensor數據對象,則每個Tensor數據對象設置有兩個屬性:data和Iabe I。3.根據權利要求1所述的基于Torch監(jiān)督式深度學習的基因性狀識別方法,其特征在于:步驟二中:利用Torch構建深度學習模型,根據輸入的Tensor數據的尺寸,反復調用add()函數在調用SequentialO函數創(chuàng)建模型容器Model中分別插入卷積層、下采樣層、全連接層以及激活函數構建深度卷積神經網絡模型。4.根據權利要求1所述的基于Torch監(jiān)督式深度學習的基因性狀識別方法,其特征在于:步驟三中:通過提取訓練結果的權重參數,以未知性狀基因進行數據信息的反編碼,得到與基因對應性狀的相關SNP位點以及相應權重參數,以其與訓練模型提取的權重參數進行比照分析,從而識別該基因信息的對應性狀。
【文檔編號】G06F19/24GK106096327SQ201610399255
【公開日】2016年11月9日
【申請日】2016年6月7日
【發(fā)明人】尹勰, 謝清祿, 余孟春
【申請人】廣州麥侖信息科技有限公司