鑒定有發(fā)生2型糖尿病風險的人的制作方法
【技術領域】
[0001] 本發(fā)明一般地涉及醫(yī)學。更具體地,本發(fā)明涉及通過測定人的胃腸微生物群中 特定基因、基因簇、微生物的屬或種的存在或缺乏,來鑒定患有或有風險發(fā)生2型糖尿病 (T2D)的人。特別地,本發(fā)明涉及利用宏基因組簇(metagenomicclusters,MGCs)來鑒定 患有或有風險發(fā)生2型糖尿病(T2D)的個體的模型,其中所述模型的特征在于對不同的人 群組使用不同的宏基因組簇。
【背景技術】
[0002] 在健康成年人體內,估計微生物細胞的在數(shù)量上常常超過人類細胞十倍。然而,這 些群落很大程度上仍然未被研究,它們對人的發(fā)育、生理機能、免疫、營養(yǎng)和健康的影響幾 乎還是完全未知的。
[0003] 傳統(tǒng)的微生物學集中于研究作為分離的單元的單獨物種。然而,如果不是最多的, 許多微生物從未作為活的樣本被成功分離用于分析,推測是因為它們的生長取決于特定的 微環(huán)境,其還沒有或不能在實驗上再現(xiàn)。在已經(jīng)分離的那些物種中,遺傳組成、基因表達模 式和代謝生理機能的分析很少擴展到物種內的相互作用或微生物-宿主相互作用。DNA測 序技術的發(fā)展已經(jīng)創(chuàng)造了新的研究領域,稱為宏基因組學,容許微生物群落的綜合檢查,甚 至是包含了不可培養(yǎng)的生物體的那些。不同于檢查在實驗室中生長的單獨細菌菌株的基因 組,宏基因組方法容許分析來自自然環(huán)境中收獲的完整微生物群落的遺傳材料。例如,腸微 生物群為我們的基因組補充了代謝功能,其影響人類新陳代謝,因而可能在健康和疾病中 起到重要作用。
[0004] 2型糖尿?。═2D)是以高血糖和胰島素分泌和作用的缺陷為特征的代謝失調。T2D 在世界范圍內正在增多,估計到2030年將有3億5千萬人受到影響。這些慢性疾病與多種 代謝的和心血管的并發(fā)癥相關,由于心血管并發(fā)癥而提高了死亡率。同樣令人警醒的事實 是,所有T2D患者的大約一半是新近檢出的,他們中的許多人在診斷時患有心血管并發(fā)癥。 在糖尿病發(fā)生之前很長時間,可能出現(xiàn)受損的葡萄糖耐受(IGT)和其他代謝缺陷癥。由于 藥理學和生活方式的介入可以降低或推遲糖尿病,特別是在帶有IGT的受試者中,T2D風險 個體例如帶有IGT的個體的早期檢測對于預防T2D和降低醫(yī)療護理的成本是重要的。
[0005] T2D是復雜的基因-環(huán)境相互作用的結果,已經(jīng)鑒定了幾種風險因素,包括年齡、 家族史、膳食、固定的生活方式和肥胖。組合了T2D的已知風險因素的統(tǒng)計模型可以適當?shù)?鑒定IGT和T2D個體。然而,這些研究也表明,遺傳標志物對模型幾乎沒有貢獻,而社會人 口統(tǒng)計學和環(huán)境因素有更大的影響,因而需要預測未來的T2D風險的更精確的工具。
[0006] 定義
[0007] 本說明書中出現(xiàn)的所有術語意圖具有本領域中通常賦予它們的含義。為了清楚起 見,下文還限定了某些術語。
[0008] 術語"細菌群組"應當被看作指屬于同一細菌屬、科、目、綱或門的一組細菌。因而 細菌群組包括至少一種細菌物種,常常包括幾種不同的細菌物種。
[0009] 在全文中,"2型糖尿病"(T2D)被用于指代以高血糖、胰島素抗性和胰島素分泌方 面的相關損傷為特征的代謝失調。
[0010] 術語"IGT"是指帶有受損的葡萄糖耐受的人。
[0011] 術語"NGT"是指帶有正常的葡萄糖耐受的人。
[0012] 術語"宏基因組"是指現(xiàn)代基因組技術應用于直接處于它們天然環(huán)境中的微生物 體群落的研究,繞過了單個物種的分離和實驗室培養(yǎng)的需要。
[0013] 術語"MGC"/ "MGCs"是指宏基因組簇。這些是高度相關的基因的集合(例如, Pearsonrho值>0.85)。MGCs是高度相關的群體中的多個個體(例如,至少2、5、10或20 個個體)中共同出現(xiàn)的宏基因組DNA中含有的基因的簇,因而提供了該群體中宏基因組的 內容的指征(或有關的信息)。優(yōu)選地,當基因存在于許多個體(例如,在至少2、5、10或20 個個體)中時,通過分析群體的每個個體中的基因豐度,然后計算受試者之間基因豐度矢 量的所有可能的配對之間的相關系數(shù)(假定來自同一基因組的基因在一個受試者中具有 相似的豐度),然后它們之中/之間高度相關的基因的集合聚簇到一個集合中來形成MGC, 統(tǒng)計學地確定共同發(fā)生。
[0014] 在單個級別(單級)上進行聚簇。通過計算相關距離(1-相關系數(shù)),并用MCL軟 件(Dongen,GraphClusteringbyFlowSimulation,PhDthesis,Univ.Utrecht,2000) 中實現(xiàn)的Markov聚簇算法來進行聚簇。通過累加簇中所有基因的相對豐度來計算簇豐度。 因而可以通過分析足夠數(shù)量的個體,例如至少2、5、10或20個個體中存在的基因共同發(fā)生, 獲得適度高的相關度值(例如,Pearsonrho值> 0.85)來確定MGC,其中所述相關度值通 過計算受試者之間的相關系數(shù)來獲得,然后將它們之間/之中高度相關的基因的組合進行 聚簇來提供MGC。
[0015] 重要的是,從在此定義的人群組的全部宏基因組序列數(shù)據(jù)鑒定/測定MGC(即,來 自特定人群組的所有宏基因組基因)。它們不是根據(jù)T2D患者和正常/健康/對照個體之 間的基因豐度差異來鑒定/測定的。因而,它們代表了宏基因組分析的更為一般性的方法。
[0016] 相比單個細菌物種的研究,在此描述的MGC分析提供了幾個優(yōu)點,因為它們也提 供了未知的/未表征的物種的信息(例如,分類學的和功能的信息)。類似地,它們容許早 先未被測序的DNA被包括在分析中。
【發(fā)明內容】
[0017] 本發(fā)明涉及更好地鑒定人是否有風險發(fā)生或已經(jīng)發(fā)生2型糖尿?。═2D)的方法和 產品。
[0018] 本發(fā)明的基本目的是分析人的胃腸道中微生物群組成,包括特定細菌屬、物種或 宏基因組簇(MGC)的存在,單獨地、或與其他測量例如體重指數(shù)(BMI)、腰臀比(WHR)、腰圍 (WC)和特定標志物組合,來更好地預測個體是否處于發(fā)生2型糖尿病的風險中。
[0019] 腸道微生物標志物已經(jīng)與T2D相關聯(lián)。然而,我們發(fā)現(xiàn)的問題是,利用特定生物標 記物的可預測性依幾種因素包括種族和年齡而不同。我們的解決方案是對不同的人群體 使用不同的標志物,以及使用適合的方法來鑒定這些群體內的人發(fā)生T2D的風險。本發(fā)明 描述了一種模型,是我們特別根據(jù)可以鑒定T2D患者的宏基因組簇分值來開發(fā)的。該模型 已經(jīng)顯示了能夠以80%的準確性,或另一方面,以高于或大于0. 83的R0C曲線下面積(R0C AUC)鑒定風險群體。還有該模型如何應用于某些人群的方法。
[0020] 因而,公開了鑒定患有T2D或有T2D風險的個體的方法,包括從所述個體獲得胃腸 樣品,例如,代表胃腸生態(tài)系統(tǒng)的糞便樣品,并確定所述個體的樣品中特定的微生物屬、物 種或宏基因組簇的數(shù)量。
[0021] 本發(fā)明的進一步的目的是提供用于所述鑒定的方法、試劑盒、系統(tǒng)和產品。
[0022] 本發(fā)明的其他目的和優(yōu)點對于讀者將變得顯而易見,意圖是這些目的和優(yōu)點處在 本發(fā)明的范圍之內。
[0023] 附圖簡要描休
[0024] 圖1 :與糖尿病和臨床生物標記物相關、不與腸道型(enterotype)狀態(tài)相關的物 種豐度。a,T2D和NGT受試者中中值物種豐度的散布點圖?;疑狞c代表各組之間沒有豐 度差異的物種,而黑色的點代表有豐度差異的物種(Adj.P< 0. 05)。b,以腸道型分類作為 工具變量的屬豐度的主成分分析。根據(jù)Calinski-Harabasz指數(shù)的最強支持(數(shù)據(jù)未顯 示),個體聚簇到四個組中。NGT受試者由實心圓形表示,IGT受試者由空心圓形表示,T2D受 試者由空心三角形表示,c,臨床數(shù)據(jù)和物種豐度的斯皮爾曼等級相關(Spearman'srank correlation)。+Adj.P<0· 05 ;*Adj.P<0· 01 ;#Adj.P<0· 001。
[0025] 圖2 :定義宏基因組族(MGC)以及與糖尿病和臨床生物標記物的相關性。a,不意 圖顯示了如何定義宏基因組簇。通過使用以下假定,同一基因組中的基因在樣品中應當具 有相似的豐度,將共同發(fā)生的基因聚簇。b,800個最大的MGCs中基因數(shù)量的柱形圖,所有的 都超過100種基因。c,MGCs的分類學注釋水平的餅分圖。d,在比較NGT和T2G受試者中 豐度的豐度曲線中,MGCs差異豐度是黑色的。Adj.P< 0. 05.e,臨床數(shù)據(jù)和MGCs豐度的斯 皮爾曼等級相關。+Adj.P< 0· 05 ;*Adj.P< 0· 01 ;#Adj.P< 0· 001。
[0026] 圖3 :根據(jù)物種豐度和MGCs的糖尿病狀態(tài)分類。a,通過接受者操作特性曲線下面 積(AUC)評估的、利用物種或MGC豐度的隨機森林模型的分類性能。對不同數(shù)量的說明變數(shù) 探查性能,按重要性排序。較低的線顯示了用物種獲得的結果,較高的線顯示了用MGCs獲 得的結果。b,在利用所有800種MGCs以及辨別NGT和T2D受試者的的預測模型中30種最 重要的MGCs。柱形長度表明變量的重要性,顏色表示T3D(紅色陰影,標為"r")或NGT(藍 色陰影,標為"b")中的富集。c,在利用所有915個物種以及辨別NGT和T2D受試者的的 預測模型中30種最重要的物種。柱形長度表明變量的重要性,顏色表示T3D(紅色陰影, 標為"r")或NGT(藍色陰影,標為"b")中的富集。d,使用被訓練用于以MGC辨別NGT和 T2D的模型來預測IGT受試者為NGT(線下方畫面底部的淺色圓圈)或T2D(線上方畫面頂 部的深色圓圈)的概率,e,預測為T2D(右側列)的IGT受試者具有更高的甘油三酯濃度 (Mann-WhitneyU測試,p= 0. 019)。f,預測為T2D(右側列)的IGT受試者具有更高的C 肽水平(Mann-WhitneyU測試,p= 0· 03) 〇
[0027] 圖4 :在研究的歐洲人群組中細菌的門和屬的相對豐度。a,6種最大豐度的門,b, 30種最大豐度的屬。方框表不第一和第三四分位數(shù)之間的四分位差(IQR),其中的線表不 中值;須觸線分別表示距離第一和第三四分位數(shù)1. 5倍IQR內的最低和最高值。圓圈表示 超過須觸線的數(shù)據(jù)點。
[0028] 圖5 :在研究的歐洲人群組中細菌物種和基因組的相對豐度。a,30種最大豐度的 物種,b,30個最大豐度的基因組。方框表示第一和第三四分位數(shù)之間的四分位差(IQR),其 中的線表示中值;須觸線分別表示距離第一和第三四分位數(shù)1. 5倍IQR內的最低和最高值。 圓圈表示超過須觸線的數(shù)據(jù)點。
[0029] 圖6 :中國人宏基因組中的細菌的門和屬的相對豐度。a,10種最大豐度的門,b, 30種最大豐度的屬。方框表不第一和第三四分位數(shù)之間的四分位差(IQR),其中的線表不 中值;須觸線分別表示距離第一和第三四分位數(shù)1. 5倍IQR內的最低和最高值。圓圈表示 超過須觸線的數(shù)據(jù)點。
[0030] 圖7 :中國人宏基因組中的細菌物種和基因組的相對豐度。a,30種最大豐度的物 種,b,30個最大豐度的基因組。方框表不第一和第三四分位數(shù)之間的四分位差(IQR),其中 的線表示中值;須觸線分別表示距離第一和第三四分位數(shù)1. 5倍IQR內的最低和最高值。 圓圈表示超過須觸線的數(shù)據(jù)點。
[0031] 圖8 :微生物物種和MGCs豐度的主成分分析(PCA)。a,最大豐度高于le-5的共 有物種被包括在兩個群組的PCA分析中,顯示了中國人和瑞典人受試者的清楚的分離。b, MGCs的PCA分析也顯示了兩個群組之間清楚的分離。
[0032] 圖9 :在中國人群組中用于T2D和對照的分類的預測模型中重要的物種和MGCS(3a, 在預測模型以及辨別NGT和T2D受試者中30種最重要的物種,b,在預測模型以及辨別NGT 和T2D受試者中30種最重要的MGCs。柱形長度表明變量的重要性,顏色表示T3D(紅色陰 影,標為"r")或NGT(藍色陰影,標為"b")中的富集。發(fā)明和其優(yōu)選實施方式的詳細說明
[0033] 已經(jīng)提出腸微生物群是影響身體新陳代謝和胰島素敏感性的環(huán)境因素,還已經(jīng)發(fā) 現(xiàn)在肥胖癥中它們被改變了。此外,在近期Qin等人(Nature,Sep26, 2012)公開的中國 人糖尿病患者的宏基因組研究中,腸微生物標志物已經(jīng)與T2D相關聯(lián)。然而,我們發(fā)現(xiàn)的問 題是,這樣的標志物在種族/族群、人群的地理位置(例如,意味著各種環(huán)境因素,包括飲食 習慣)和年齡之間是不同的。我們的解決方案是對不同的人群組使用不同的標志物,來鑒 定這些群體內的人發(fā)生T2D的風險。本發(fā)明基于我們的發(fā)現(xiàn),在改善可預測性的分析中,例 如種族和年齡群組被有益地分離。我們開發(fā)了基于宏基因組簇分析/宏基因組簇分值的模 型,其可以以80%或更高的準確性,或另一方面,以達到或大于0.83的R0C曲線下面積(R0C AUC)來鑒定T2D患者。該模型/分值也可以將IGT受試者分離為有和沒有血脂異常與高 C-肽水平的那些,因而表明宏基因組分值反映了與T2D的發(fā)生有關的代謝機制。
[0034] 上文的Qin等人,2012沒有公開本文描述的MGCs的構思。此外,在上文的Qin等 人,2012中沒有公開或提示通過對不同的人群組分析不同的標志物(本文是MGCs或細菌物 種)所獲得的優(yōu)勢,以及這些群組之間標志物可能不同的事實,而這是本發(fā)明人根據(jù)他們 的研究所認識到的。
[0035] 例如,在Qin等人,2012中研究的群體是中國人群體,當使用本發(fā)明的模型分析中 國人宏基因組數(shù)據(jù)時,中國人和歐洲人群體(即,本發(fā)明的實施例中研究的群體)顯示雖 然存在某些相似性,總體上在兩個群體中存在不同豐度的細菌物種和MGCs(參見圖4~圖 8)。根據(jù)本發(fā)明對中國人群組鑒定的MGCs被用于本發(fā)明的模型中,以將中國人受試者分類 為T2D和對照受試者。觀察到0. 82的AUC,它與在此描述的歐洲人群組獲得的結果處于一 線上。然而,重要地,大多數(shù)鑒別性MGCs(和物種)在中國人受試者和歐洲人群組之間是不 同的(圖3b、圖3c、圖9a、圖9b),從而顯示了有益的以及有時候必需的是在不同的人群組 中使用不同的MGCs(和物種)來分析T2D。
[0036] 當測試在一個群體上訓練的MGC模型是否可以用于分類來自另一個群體的T2D個 體時,獲得了這一點的進一步的支持。在此