本發(fā)明涉及單細胞樣本生成,具體涉及一種單細胞亞型樣本生成方法、系統(tǒng)、設備及介質(zhì)。
背景技術:
1、近些年,深度生成算法已經(jīng)在生成圖像、藥物分子等方面取得了顯著進展,且在單細胞表達譜上的生成模型已有一些應用。
2、目前在單細胞表達譜上的生成模型的應用方法包括有基于廣義線性模型的方法、變分自編碼器(vae)方法以及利用深度圖神經(jīng)網(wǎng)絡(gnn)的多模態(tài)單細胞數(shù)據(jù)分析框架,例如圖卷積網(wǎng)絡(gcn)、圖注意力網(wǎng)絡(gat)、圖自編碼器(gae)、圖變分自編碼器(gvae)、圖擴散卷積(gdc),這些算法在處理非結構化數(shù)據(jù)方面表現(xiàn)出色。
3、然而,現(xiàn)有的生成模型雖然在特定數(shù)據(jù)集上表現(xiàn)良好,但在生成新單細胞樣本的能力明顯不足,在捕捉單細胞數(shù)據(jù)中的復雜結構方面存在困難,無法處理三種及以上組學數(shù)據(jù),同時在處理多模態(tài)和異構圖數(shù)據(jù)時性能存在受限,導致難以生成與真實樣本相似度較高的新樣本。
技術實現(xiàn)思路
1、針對現(xiàn)有技術存在主要針對于單一或兩種組學數(shù)據(jù),難以對三種及以上組學數(shù)據(jù)進行整合的不足,本發(fā)明提出一種單細胞亞型樣本生成方法、系統(tǒng)、設備及介質(zhì),通過構建構建自適應條件圖擴散卷積模型acgdc模型,利用網(wǎng)絡節(jié)點屬性和鄰域拓撲連接來重建節(jié)點之間的邊及其屬性之間的關系,從而解決了現(xiàn)有技術存在的問題。
2、一種單細胞亞型樣本生成方法,包括以下步驟:
3、獲取單細胞樣本的多種組學數(shù)據(jù);將多種所述組學數(shù)據(jù)分別以有向圖格式進行轉(zhuǎn)換,得到節(jié)點矩陣和鄰接矩陣;所述節(jié)點矩陣包括多種組學數(shù)據(jù)的屬性構成的節(jié)點,所述鄰接矩陣包括兩個節(jié)點之間通過組學數(shù)據(jù)權重構成的邊;
4、構建自適應條件圖擴散卷積acgdc模型;所述acgdc模型包括圖卷積層和噪聲擴散層;
5、將節(jié)點矩陣和鄰接矩陣輸入所述acgdc模型,通過圖卷積層對節(jié)點的一階鄰居邊賦予新的權重向量,將新的權重向量與該節(jié)點的鄰居節(jié)點向量相乘,得到新的節(jié)點表示;在噪聲擴散層中按一定的步長間隔不斷對包含新節(jié)點表示的鄰接矩陣添加隨機噪聲,將該鄰接矩陣轉(zhuǎn)變?yōu)楦咴肼暰仃?,獲得訓練后的acgdc模型;
6、將待生成的單細胞樣本的多種組學數(shù)據(jù)輸入訓練后的acgdc模型中,通過不斷對高斯噪聲矩陣去噪,生成新的單細胞亞型樣本。
7、進一步地,多種所述組學數(shù)據(jù)包括單細胞rna序列數(shù)據(jù)、單細胞基因組、轉(zhuǎn)錄組測序表達數(shù)據(jù)、臨床元數(shù)據(jù)和細胞類型注釋數(shù)據(jù)。
8、進一步地,所述獲取多種組學數(shù)據(jù)后對其進行預處理,其預處理過程包括以下步驟:
9、使用r包bitr對多種組學數(shù)據(jù)進行基因的id轉(zhuǎn)換;
10、使用enrichgo和enrichkegg包對轉(zhuǎn)換后的組學數(shù)據(jù)進行go和kegg數(shù)據(jù)庫注釋;
11、使用cell?marker數(shù)據(jù)庫中的標記基因?qū)?shù)據(jù)庫注釋后的組學數(shù)據(jù)進行細胞類型的注釋。
12、進一步地,所述通過不斷對高斯噪聲矩陣去噪,生成新的單細胞亞型樣本;其具體包括獲取單細胞亞型的標簽向量,通過將去噪后的高斯噪聲矩陣與單細胞亞型的標簽向量進行合并,進而生成新的單細胞亞型樣本。
13、進一步地,采用聚類分析方法對所述訓練后的acgdc模型進行評估;具體通過t-sne算法對生成的單細胞亞型樣本進行降維,通過k近鄰對降維后的單細胞亞型樣本進行聚類,對聚類后的單細胞亞型樣本進行評估分析。
14、本發(fā)明還包括一種單細胞亞型樣本生成系統(tǒng),包括:
15、獲取模塊,用于獲取單細胞樣本的多種組學數(shù)據(jù);將多種所述組學數(shù)據(jù)分別以有向圖格式進行轉(zhuǎn)換,得到節(jié)點矩陣和鄰接矩陣;所述節(jié)點矩陣包括多種組學數(shù)據(jù)的屬性構成的節(jié)點,所述鄰接矩陣包括兩個節(jié)點之間通過組學數(shù)據(jù)權重構成的邊;
16、模型構建模塊,用于構建自適應條件圖擴散卷積acgdc模型;所述ac?gdc模型包括圖卷積層和噪聲擴散層;
17、模型訓練模塊,用于將節(jié)點矩陣和鄰接矩陣輸入所述acgdc模型,通過圖卷積層對節(jié)點的一階鄰居邊賦予新的權重向量,將新的權重向量與該節(jié)點的鄰居節(jié)點向量相乘,得到新的節(jié)點表示;在噪聲擴散層中按一定的步長間隔不斷對包含新節(jié)點表示的鄰接矩陣添加隨機噪聲,將該鄰接矩陣轉(zhuǎn)變?yōu)楦咴肼暰仃?,獲得訓練后的acgdc模型;
18、生成模塊,用于將待生成的單細胞樣本的多種組學數(shù)據(jù)輸入訓練后的acgdc模型中,通過不斷對高斯噪聲矩陣去噪,生成新的單細胞亞型樣本。
19、本發(fā)明還包括一種單細胞亞型樣本生成計算機設備,包括:存儲器、處理器以及存儲在所述存儲器內(nèi)的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)所述的單細胞亞型樣本生成方法的步驟。
20、本發(fā)明還包括一種可讀存儲介質(zhì),所述可讀存儲介質(zhì)存儲有計算機程序,所述計算機程序包括程序指令,所述程序指令被處理器執(zhí)行時,用于執(zhí)行所述的單細胞亞型樣本生成方法的步驟。
21、本發(fā)明提供了一種單細胞亞型樣本生成方法、系統(tǒng)、設備及介質(zhì),具備以下有益效果:
22、本發(fā)明通過將多種組學數(shù)據(jù)分別以有向圖格式進行轉(zhuǎn)換,來整合單細胞的多種組學數(shù)據(jù),并通過整合后的數(shù)據(jù)集訓練構建的自適應條件圖擴散卷積模型acgdc,利用節(jié)點屬性和鄰域拓撲連接來重建節(jié)點之間的邊及其屬性之間的關系,通過對節(jié)點的一階鄰居邊賦予新的權重向量來自適應學習每種不同類型的邊在鄰居聚合信息時所貢獻出不同的重要性,從而解決不同邊類型代表不同含義的問題,最終使得鄰接矩陣變成高斯噪聲矩陣,通過對高斯噪聲矩陣不斷進行去噪,得到的去噪后的矩陣與單細胞亞型的標簽向量進行合并,從而實現(xiàn)細胞亞型標簽與該單細胞采樣樣本進行條件綁定,生成新的單細胞亞型樣本;本發(fā)明能夠高效整合多種組學數(shù)據(jù),從而生成多種高質(zhì)量的單細胞亞型樣本,這為解決單細胞樣本獲取的高昂成本和樣本多樣性問題提供了新的解決方法。
1.一種單細胞亞型樣本生成方法,其特征在于,包括以下步驟:
2.根據(jù)權利要求1所述的一種單細胞亞型樣本生成方法,其特征在于,多種所述組學數(shù)據(jù)包括單細胞rna序列數(shù)據(jù)、單細胞基因組、轉(zhuǎn)錄組測序表達數(shù)據(jù)、臨床元數(shù)據(jù)和細胞類型注釋數(shù)據(jù)。
3.根據(jù)權利要求1所述的一種單細胞亞型樣本生成方法,其特征在于,所述獲取多種組學數(shù)據(jù)后對其進行預處理,其預處理過程包括以下步驟:
4.根據(jù)權利要求1所述的一種單細胞亞型樣本生成方法,其特征在于,所述通過不斷對高斯噪聲矩陣去噪,生成新的單細胞亞型樣本,具體包括獲取單細胞亞型的標簽向量,通過將去噪后的高斯噪聲矩陣與單細胞亞型的標簽向量進行合并,進而生成新的單細胞亞型樣本。
5.根據(jù)權利要求1所述的一種單細胞亞型樣本生成方法,其特征在于,采用聚類分析方法對所述訓練后的acgdc模型進行評估;具體通過t-sne算法對生成的單細胞亞型樣本進行降維,通過k近鄰對降維后的單細胞亞型樣本進行聚類,對聚類后的單細胞亞型樣本進行評估分析。
6.一種單細胞亞型樣本生成系統(tǒng),其特征在于,包括:
7.一種單細胞亞型樣本生成計算機設備,其特征在于,包括:存儲器、處理器以及存儲在所述存儲器內(nèi)的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)權利要求1-5任一項所述的單細胞亞型樣本生成方法的步驟。
8.一種可讀存儲介質(zhì),其特征在于,所述可讀存儲介質(zhì)存儲有計算機程序,所述計算機程序包括程序指令,所述程序指令被處理器執(zhí)行時,用于執(zhí)行權利要求1-5任一項所述的單細胞亞型樣本生成方法的步驟。