两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種mhc補(bǔ)全數(shù)據(jù)庫(kù)、其構(gòu)建方法和應(yīng)用

文檔序號(hào):9751168閱讀:602來(lái)源:國(guó)知局
一種mhc補(bǔ)全數(shù)據(jù)庫(kù)、其構(gòu)建方法和應(yīng)用
【技術(shù)領(lǐng)域】
[0001] 本申請(qǐng)涉及基因數(shù)據(jù)庫(kù)領(lǐng)域,特別是涉及一種MHC補(bǔ)全數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)的構(gòu)建 方法和所構(gòu)建的數(shù)據(jù)庫(kù)的應(yīng)用。
【背景技術(shù)】
[0002] 主要組織相容性復(fù)合體(Major histocompatibility complex,簡(jiǎn)稱(chēng)MHC)是脊椎 動(dòng)物的高度多態(tài)性基因群。它早期源于解釋器官移植中受體排斥供體組織細(xì)胞的現(xiàn)象。在 進(jìn)化過(guò)程中,MHC在物種之間和種群的個(gè)體之間都產(chǎn)生了明顯差異。物種之間的差異主要是 基因結(jié)構(gòu)的不同,其遺傳基礎(chǔ)是等位基因的點(diǎn)突變,即核苷酸發(fā)生替換。產(chǎn)生MHC多態(tài)性的 原因主要是環(huán)境中病原壓力。許多研究已經(jīng)證實(shí)了 MHC與復(fù)雜疾病尤其是自免疫疾病密切 相關(guān),而且也探明了一些與這些疾病相關(guān)的MHC的型別,單倍型或MHC分子中的特定位點(diǎn)。 但是由于MHC區(qū)域序列的高度多態(tài)性和強(qiáng)的連鎖不平衡性,致使很多真正的致病位點(diǎn)仍沒(méi) 有很好地被鑒定出來(lái)。
[0003] 目前的疾病研究大多是基于genotyping芯片的全基因組關(guān)聯(lián)分析(Genome-wide association study,簡(jiǎn)稱(chēng)GWAS)研究,沒(méi)有對(duì)MHC區(qū)域進(jìn)行全覆蓋測(cè)序,所以容易漏掉一些 關(guān)鍵的致病位點(diǎn),這就需要我們對(duì)這些區(qū)域的位點(diǎn)進(jìn)行補(bǔ)全。但是,MHC區(qū)域片段的高度重 復(fù)性,容易造成比對(duì)結(jié)果的假陽(yáng)性bais,影響MHC數(shù)據(jù)庫(kù)的準(zhǔn)確性。

【發(fā)明內(nèi)容】

[0004] 本申請(qǐng)的目的是提供一種高度準(zhǔn)確的MHC補(bǔ)全數(shù)據(jù)庫(kù)的構(gòu)建方法,其構(gòu)建的MHC 補(bǔ)全數(shù)據(jù)庫(kù),以及該數(shù)據(jù)庫(kù)的應(yīng)用。
[0005] 為了實(shí)現(xiàn)上述目的,本申請(qǐng)采用了以下技術(shù)方案:
[0006] 本申請(qǐng)一方面公開(kāi)了一種MHC補(bǔ)全數(shù)據(jù)庫(kù)的構(gòu)建方法,包括:
[0007] (1)從人類(lèi)基因組DNA樣品中分離出MHC區(qū)域的片段,對(duì)分離的MHC片段進(jìn)行測(cè) 序,將測(cè)序結(jié)果與人類(lèi)基因標(biāo)準(zhǔn)序列比對(duì),采用變異檢測(cè)軟件對(duì)比對(duì)結(jié)果進(jìn)行檢測(cè)校正,獲 得DNA樣品的變異基因型數(shù)據(jù);
[0008] (2)按以下條件對(duì)步驟(1)獲得的DNA樣品變異基因型數(shù)據(jù)進(jìn)行篩選,
[0009] a.在群體中測(cè)序深度彡X的位點(diǎn),X彡6,
[0010] b.在群體中數(shù)據(jù)的缺失率〈0· 05的位點(diǎn),
[0011] C.等位基因堿基型出現(xiàn)次數(shù)大于一次的位點(diǎn),
[0012] 獲取滿(mǎn)足以上三個(gè)條件的位點(diǎn),然后過(guò)濾掉以下條件的位點(diǎn),
[0013] d.在群體中連鎖不平衡值LD = 0的位點(diǎn),
[0014] e.在群體中哈溫平衡指標(biāo)log (HWE)彡600的位點(diǎn),
[0015] 剩下的位點(diǎn)組成genotype數(shù)據(jù)集;
[0016] (3)采用分型軟件對(duì)步驟(2)獲得的genotype數(shù)據(jù)集進(jìn)行分析,得到每個(gè)DNA樣 品的HLA分型的型別數(shù)據(jù)集;
[0017] (4)統(tǒng)計(jì)每個(gè)HLA分型的SNP,將統(tǒng)計(jì)的各個(gè)分型的SNP與IMGT數(shù)據(jù)庫(kù)中相應(yīng)分 型的SNP相比較,如果兩者不同,則把統(tǒng)計(jì)的SNP翻譯成氨基酸,從而得到每個(gè)分型對(duì)應(yīng)的 氨基酸改變信息數(shù)據(jù)集;
[0018] (5)根據(jù)步驟(4)統(tǒng)計(jì)的每個(gè)HLA分型的SNP,比較各個(gè)HLA分型的SNP數(shù)據(jù)集, 獲得數(shù)量最少的,且能夠區(qū)分各個(gè)HLA分型的SNP區(qū)分?jǐn)?shù)據(jù)集,對(duì)SNP區(qū)分?jǐn)?shù)據(jù)集進(jìn)行 phasing分析,獲得每個(gè)分型的HLA單體型數(shù)據(jù)集;
[0019] (6)將genotype數(shù)據(jù)集、HLA分型的型別數(shù)據(jù)集、氨基酸改變信息數(shù)據(jù)集和HLA單 體型數(shù)據(jù)集合成為一個(gè)數(shù)據(jù)庫(kù),即MHC補(bǔ)全數(shù)據(jù)庫(kù)。
[0020] 優(yōu)選的,DNA樣品包括采集自至少205個(gè)個(gè)體的樣品,更優(yōu)選的,采集自至少1066 個(gè)個(gè)體的樣品。需要說(shuō)明的是,理論上講樣品數(shù)量越多,MHC區(qū)域的信息越全面,即MHC補(bǔ) 全數(shù)據(jù)庫(kù)所包含的信息越能全面的反應(yīng)MHC區(qū)域的所有變異、分型、氨基酸改變等信息;但 是,采集的樣品越多,建庫(kù)的成本越高,因此,本申請(qǐng)中采集205個(gè)樣品即可保障所構(gòu)建的 MHC補(bǔ)全數(shù)據(jù)庫(kù)對(duì)現(xiàn)實(shí)的MHC區(qū)域的信息覆蓋率大于95 %,可以滿(mǎn)足使用需求,而采集1066 個(gè)樣品,其覆蓋率可達(dá)到99%以上;可以理解,采集的樣品少于205個(gè)時(shí),覆蓋率會(huì)相對(duì)減 小,對(duì)于一些特殊用途的數(shù)據(jù)庫(kù),不需要太高的覆蓋率,因此也可以使用少于205個(gè)樣品進(jìn) 行建庫(kù),對(duì)此本申請(qǐng)不做具體限定。還需要說(shuō)明的是,本申請(qǐng)的一種實(shí)現(xiàn)方式中,采集了 8906個(gè)樣品,其構(gòu)建的MHC補(bǔ)全數(shù)據(jù)庫(kù),是目前世界上最全面的MHC區(qū)域的數(shù)據(jù)庫(kù),本申請(qǐng) 中205個(gè)樣品和1066個(gè)樣品的覆蓋率都是以8906個(gè)樣品的數(shù)據(jù)庫(kù)為全數(shù)據(jù)庫(kù)計(jì)算的。
[0021] 優(yōu)選的,步驟(1)中的變異檢測(cè)軟件為GATK、SAMT00LS或S0APSNP,優(yōu)選的,變異 檢測(cè)軟件為GATK。
[0022] 優(yōu)選的,步驟(3)中的分型軟件為S0APHLA分型軟件。
[0023] 優(yōu)選的,步驟(6)中采用PLINK的merge命令把genotype數(shù)據(jù)集、HLA分型的型 別數(shù)據(jù)集、氨基酸改變信息數(shù)據(jù)集和HLA單體型數(shù)據(jù)集合成為一個(gè)數(shù)據(jù)庫(kù)。
[0024] 優(yōu)選的,人類(lèi)基因標(biāo)準(zhǔn)序列為hgl8。
[0025] 本申請(qǐng)的另一面公開(kāi)了一種MHC補(bǔ)全數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)包括合成在一起的 genotype數(shù)據(jù)集、HLA分型的型別數(shù)據(jù)集、氨基酸改變信息數(shù)據(jù)集和HLA單體型數(shù)據(jù)集;其 中,genotype數(shù)據(jù)集包含所有MHC區(qū)域的單核苷酸多態(tài)性位點(diǎn)和插入刪除多態(tài)性位點(diǎn)的信 息;HLA分型的型別數(shù)據(jù)集包含所有MHC區(qū)域的個(gè)體型別信息;氨基酸改變信息數(shù)據(jù)集包含 所有MHC區(qū)域的各個(gè)型別所對(duì)應(yīng)的氨基酸的改變信息;HLA單體型數(shù)據(jù)集包含所有MHC區(qū) 域的HLA單體型的信息。
[0026] 優(yōu)選的,本申請(qǐng)的MHC補(bǔ)全數(shù)據(jù)庫(kù)采用本申請(qǐng)的構(gòu)建方法構(gòu)建。需要說(shuō)明的是,本 申請(qǐng)的MHC補(bǔ)全數(shù)據(jù)庫(kù)是對(duì)MHC區(qū)域的變異情況的補(bǔ)充,使得該區(qū)域的信息更為全面,以方 便GWAS疾病位點(diǎn)的分析研究;本申請(qǐng)的數(shù)據(jù)庫(kù)構(gòu)建方法只是本申請(qǐng)研發(fā)的一套簡(jiǎn)單有效 的建庫(kù)方法,不排除其它建庫(kù)方法也可以用于本申請(qǐng)的MHC補(bǔ)全數(shù)據(jù)庫(kù)的構(gòu)建。
[0027] 本申請(qǐng)的再一面還公開(kāi)了本申請(qǐng)的MHC補(bǔ)全數(shù)據(jù)庫(kù)的一種應(yīng)用,具體包括,提供 了一種采用本申請(qǐng)的MHC補(bǔ)全數(shù)據(jù)庫(kù)計(jì)算建庫(kù)所需的有效DNA樣品數(shù)量的方法,包括以下 步驟:
[0028] (a)設(shè)定數(shù)據(jù)庫(kù)中的全部數(shù)據(jù)集的數(shù)量為T(mén)a ;
[0029] (b)從數(shù)據(jù)庫(kù)的所有樣品中隨機(jī)抽取N個(gè)樣品,N個(gè)樣品包含的數(shù)據(jù)量為Na,N個(gè) 樣品對(duì)數(shù)據(jù)庫(kù)全部數(shù)據(jù)集Ta的覆蓋率Cov = Na/Ta,其中N彡1 ;
[0030] (c)逐步增加隨機(jī)抽取樣品的數(shù)量,即逐步增大N值,直至N個(gè)樣品的覆蓋率Cov 大于或等于預(yù)設(shè)值,此時(shí)樣品數(shù)量N即本申請(qǐng)的建庫(kù)所需的有效DNA樣品數(shù)量。
[0031] 優(yōu)選的,預(yù)設(shè)值大于等于0.95。需要說(shuō)明的是,本申請(qǐng)的建庫(kù)所需的有效DNA樣 品數(shù)量是指構(gòu)建本申請(qǐng)的MHC補(bǔ)全數(shù)據(jù)庫(kù)所需要的有效DNA樣品數(shù)量,本申請(qǐng)的MHC補(bǔ)全 數(shù)據(jù)庫(kù)作為一個(gè)更為全面的體現(xiàn)MHC區(qū)域信息的數(shù)據(jù)庫(kù),所使用的樣品越多,自然越接近 本申請(qǐng)的MHC補(bǔ)全數(shù)據(jù)庫(kù),但是考慮到建庫(kù)成本問(wèn)題,對(duì)本申請(qǐng)的MHC補(bǔ)全數(shù)據(jù)庫(kù)覆蓋率大 于0. 95的樣品數(shù)量基本可以滿(mǎn)足使用需求,因此,本申請(qǐng)的預(yù)設(shè)值大于等于0. 95??梢岳?解,在一些更為基礎(chǔ)的或者一些特殊的使用中,所要求的覆蓋率可以更低,對(duì)此本申請(qǐng)不做 具體限定。
[0032] 由于采用以上技術(shù)方案,本申請(qǐng)的有益效果在于:
[0033] 本申請(qǐng)的MHC補(bǔ)全數(shù)據(jù)庫(kù)的構(gòu)建方法首次采用LD和HWE進(jìn)行變異結(jié)果的過(guò)濾, 提高了數(shù)據(jù)準(zhǔn)確性;采用簡(jiǎn)單易操作的方法獲得一個(gè)數(shù)量最少的SNP區(qū)分?jǐn)?shù)據(jù)集,然后在 phasing分析得到MHC單體型信息,相比于用整個(gè)SNP數(shù)據(jù)集進(jìn)行phasing,本申請(qǐng)的構(gòu)建 方法更節(jié)約時(shí)間、減少CPU和內(nèi)存使用,并且得到的單體型信息更準(zhǔn)確。采用本申請(qǐng)的建構(gòu) 方法構(gòu)建的MHC補(bǔ)全數(shù)據(jù)庫(kù),包含了 MHC區(qū)域的多種數(shù)據(jù)集,能夠有效的補(bǔ)全位點(diǎn),為MHC 區(qū)域的研究奠定了基礎(chǔ)。
【附圖說(shuō)明】
[0034] 圖1 :是本申請(qǐng)實(shí)施例中GATK軟件檢測(cè)變異的準(zhǔn)確性評(píng)估結(jié)果;
[0035] 圖2 :是本申請(qǐng)實(shí)施例中SAMT00LS軟件檢測(cè)變異的準(zhǔn)確性評(píng)估結(jié)果;
[0036] 圖3 :是本申請(qǐng)實(shí)施例中S0APSNP軟件檢測(cè)變異的準(zhǔn)確性評(píng)估結(jié)果;
[0037] 圖4 :是本申請(qǐng)實(shí)施例中連鎖不平衡性(LD)與位點(diǎn)遺傳中的哈溫平衡(HWE)之間 的關(guān)系,橫
當(dāng)前第1頁(yè)1 2 3 4 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
和龙市| 怀宁县| 兴文县| 绍兴县| 沙湾县| 明水县| 资源县| 子长县| 南投县| 磴口县| 左贡县| 阳谷县| 丹凤县| 和平区| 息烽县| 香港 | 泸溪县| 中宁县| 梅州市| 游戏| 彰化市| 兴安盟| 同心县| 如皋市| 新巴尔虎右旗| 霍城县| 安远县| 防城港市| 揭西县| 祁连县| 连山| 时尚| 沙田区| 平原县| 呼伦贝尔市| 神农架林区| 棋牌| 梁山县| 哈密市| 清河县| 徐汇区|