两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

檢測人體腸道宏基因組的細(xì)菌群落及豐度的方法

文檔序號(hào):9376070閱讀:3095來源:國知局
檢測人體腸道宏基因組的細(xì)菌群落及豐度的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于生物信息鑒定領(lǐng)域。
【背景技術(shù)】
[0002] 人體腸道定植有上百萬億細(xì)菌,這占到了人體細(xì)菌總量的絕大多數(shù)。一旦腸道菌 群失調(diào),就會(huì)產(chǎn)生一系列疾病。然而,99%的腸道細(xì)菌群落都是不能通過傳統(tǒng)方法培養(yǎng)的,也 就不能通過傳統(tǒng)的基因組學(xué)方法獲取它們的基因信息。宏基因組學(xué)技術(shù)(Metagenomics), 為我們提供了充分挖掘腸道中細(xì)菌群落的技術(shù)手段,該技術(shù)不需要對菌群進(jìn)行傳統(tǒng)培養(yǎng), 而是直接測序腸道樣品中的DNA。這種技術(shù)測序所得到的不是一種細(xì)菌的完整基因組,而是 腸道中所有菌群的混雜基因,其中大量是以前無法認(rèn)識(shí)的新細(xì)菌。傳統(tǒng)的通過生物實(shí)驗(yàn)(提 取宏基因組中微生物菌株16sRNA)來鑒定DNA片段歸屬的方法,無論在人力、物力還是時(shí)間 上都顯得力不從心。怎樣設(shè)計(jì)生物信息學(xué)方法來檢測人體腸道宏基因組中的細(xì)菌群落,是 需要解決的一個(gè)關(guān)鍵問題。

【發(fā)明內(nèi)容】

[0003] 本發(fā)明的目的是利用已測序細(xì)菌的基因組作為參考基因組,基于支持向量數(shù)據(jù)描 述(SVDD)模型檢測腸道宏基因組中未知DNA片段細(xì)菌群落的檢測人體腸道宏基因組的細(xì) 菌群落及豐度的方法。
[0004] 本發(fā)明的步驟是: a、利用SVDD模型對已知細(xì)菌的DNA序列進(jìn)行分類訓(xùn)練:從下載的每個(gè)細(xì)菌中隨機(jī)切割 出100段長度為1000 bp的不重疊 DNA片段,對每一段DNA片段,計(jì)算其k-mer頻率與它們 的反向互補(bǔ)k-mer頻率之商作為數(shù)字特征向量; 設(shè)每類細(xì)菌X能描述為:
,其中
]是從每一段DNA片段中提取的數(shù)字特征向 量,#是每類細(xì)菌的樣本數(shù)d是數(shù)字特征向量的維數(shù),提取每類細(xì)菌X的所有DNA序列片段 的數(shù)字特征向量之后,利用支持向量數(shù)據(jù)描述SVDD模型對其進(jìn)行分類訓(xùn)練,就是在核空間 尋求一個(gè)包含幾乎所有的&且體積達(dá)到最小的超球體,用來對每類細(xì)菌Z進(jìn)行數(shù)據(jù)描述, 所求超球可通過解如下所示的凸約束二次規(guī)劃得到: ^ \Jy :: I::. .丄
? :V 式中:£?為球心,r為半徑:
k對稱的非線性映射函數(shù),
是一個(gè)松弛變量; b、根據(jù)分類訓(xùn)練結(jié)果檢測腸道宏基因組中包含的DNA片段來自的細(xì)菌群落及豐度:對 每個(gè)輸入的待檢測DNA片段,先計(jì)算其數(shù)字特征向量X,然后用下面的函數(shù)來決定所屬細(xì)菌 群落:
式中0/、G分別是是所訓(xùn)練的第J個(gè)細(xì)菌群落的超球球心和半徑。
[0005] 本發(fā)明所述的基于支持向量數(shù)據(jù)描述模型的人體腸道宏基因組細(xì)菌群落檢測,是 提取DNA片段的數(shù)字特征,即k-mer頻率與它們的反向互補(bǔ)k-mer頻率組合而成的綜合頻 率,其優(yōu)勢在于不需要生物實(shí)驗(yàn)提取細(xì)菌的16sRNA作為物種特征標(biāo)簽。本發(fā)明所述的方法 具有快速、方便的特點(diǎn)。是利用一種有監(jiān)督的學(xué)習(xí)方法SVDD模型,對已知細(xì)菌的DNA信息 進(jìn)行分類訓(xùn)練,來完成對未知DNA片段細(xì)菌群落的檢測。最終是要檢測腸道宏基因組中的 DNA片段來自的細(xì)菌群落及相應(yīng)豐度。
【附圖說明】
[0006] 圖1是本發(fā)明檢測流程圖。
【具體實(shí)施方式】
[0007] 本發(fā)明的步驟是: a、利用SVDD模型對已知細(xì)菌的DNA序列進(jìn)行分類訓(xùn)練:從下載的每個(gè)細(xì)菌中隨機(jī)切割 出100段長度為1000 bp的不重疊 DNA片段,對每一段DNA片段,計(jì)算其k-mer頻率與它們 的反向互補(bǔ)k-mer頻率之商作為數(shù)字特征向量; 設(shè)每類細(xì)菌X能描述為:
其中 _ __ ________
_ I從每一段DNA片段中提取的數(shù)字特征向 量,#是每類細(xì)菌的樣本數(shù)d是數(shù)字特征向量的維數(shù),提取每類細(xì)菌X的所有DNA序列片段 的數(shù)字特征向量之后,利用支持向量數(shù)據(jù)描述SVDD模型對其進(jìn)行分類訓(xùn)練,就是在核空間 尋求一個(gè)包含幾乎所有的且體積達(dá)到最小的超球體,用來對每類細(xì)菌Z進(jìn)行數(shù)據(jù)描述, 所求超球可通過解如下所示的凸約束二次規(guī)劃得到: ;.-* ? ~
:' 式中考為球心,r為半徑,
是2-范數(shù),是對稱的非線性映射函數(shù),
一個(gè)松弛變量; b、根據(jù)分類訓(xùn)練結(jié)果檢測腸道宏基因組中包含的DNA片段來自的細(xì)菌群落及豐度:對 每個(gè)輸入的待檢測DNA片段,先計(jì)算其數(shù)字特征向量X,然后用下面的函數(shù)來決定所屬細(xì)菌 群落:
式中巧、$:分別是是所訓(xùn)練的第J個(gè)細(xì)菌群落的超球球心和半徑。
[0008] 以下對本發(fā)明做進(jìn)一步詳細(xì)描述: 本發(fā)明所述的基于支持向量數(shù)據(jù)描述模型的人體腸道宏基因組細(xì)菌群落檢測,其具體 流程如下:先分別從已知的細(xì)菌DNA序列和腸道宏基因組DNA序列中提取數(shù)字特征。然后 利用SVDD分類器訓(xùn)練已知細(xì)菌的數(shù)字特征,使每個(gè)細(xì)菌可以由一個(gè)超球?qū)ζ溥M(jìn)行數(shù)據(jù)描 述,并將訓(xùn)練結(jié)果存入數(shù)據(jù)庫。在識(shí)別階段,對來自于待鑒定腸道宏基因組的DNA序列與存 儲(chǔ)的已有細(xì)菌特征進(jìn)行匹配,判斷其來自的細(xì)菌群落。最后,輸出腸道宏基因組中的DNA序 列分別來自什么細(xì)菌群落及相應(yīng)的豐度等信息。
[0009] 所述的基于支持向量數(shù)據(jù)描述模型的人體腸道細(xì)菌群落檢測包括如下幾個(gè)步 驟: 實(shí)驗(yàn)基因組數(shù)據(jù)的獲取 實(shí)驗(yàn)所用的500個(gè)細(xì)菌的全基因組序列均是從美國國家生物技術(shù)信息中心(NCBI :US National Center for Biotechnology Information)下載,實(shí)驗(yàn)所用的人體腸道宏基因組 數(shù)據(jù)是由深圳華大基因研究所提供,可從網(wǎng)站http://gutmeta. genomics, org. cn/下載。
[0010] 數(shù)字特征向量的提取 基因序列是由4種核苷酸A、T、G、C構(gòu)成的線性序列,首先將細(xì)菌的全基因組序列切割 成長度為1000 bp長的不重疊 DNA片段,對每一段DNA片段,計(jì)算其k-mer頻率與它們的反 向互補(bǔ)k-mer頻率組合而成的綜合頻率,如當(dāng)k參數(shù)取5時(shí)即是5-mer頻率,其頻率為所有 5個(gè)堿基點(diǎn)與其反向互補(bǔ)序列的頻率
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
南岸区| 嫩江县| 桐庐县| 沙河市| 华容县| 德安县| 巫山县| 白朗县| 固始县| 岳阳县| 新野县| 汾阳市| 工布江达县| 特克斯县| 信阳市| 嘉兴市| 隆安县| 鹤岗市| 娄底市| 威海市| 邹城市| 称多县| 晋州市| 蚌埠市| 广丰县| 全椒县| 绵竹市| 杭州市| 石棉县| 天峨县| 平安县| 沙田区| 依兰县| 吴堡县| 靖西县| 怀柔区| 东乌| 宣恩县| 凌云县| 四川省| 萍乡市|