两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于多實例多類標(biāo)的馬爾可夫鏈注釋蛋白質(zhì)功能的方法

文檔序號:9887965閱讀:377來源:國知局
基于多實例多類標(biāo)的馬爾可夫鏈注釋蛋白質(zhì)功能的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及蛋白質(zhì)組學(xué)技術(shù)領(lǐng)域,具體涉及基于多實例多類標(biāo)的馬爾可夫鏈注釋 蛋白質(zhì)功能的方法。
【背景技術(shù)】
[0002] 隨著人類基因組計劃的完成,生命科學(xué)研究進(jìn)入了后基因組時代,即工作重點從 揭示生命的所有遺傳信息轉(zhuǎn)移到遺傳信息的功能研究?;蚴沁z傳信息的載體,而基因的 表達(dá)產(chǎn)物一蛋白質(zhì)執(zhí)行各種各樣的生物功能。蛋白質(zhì)的功能注釋是在分子水平上闡明生命 本質(zhì),對病理機(jī)制研究、臨床診斷、潛在藥物靶標(biāo)識別以及新醫(yī)藥開發(fā)等具有重要作用。隨 著高通量測序技術(shù)的發(fā)展,各種各樣的數(shù)據(jù)庫已經(jīng)存儲了海量的蛋白質(zhì)序列信息,但僅有 很少一部分具有功能注釋。如UniProt全信息蛋白質(zhì)數(shù)據(jù)庫中完成蛋白質(zhì)功能注釋的不足 1%,因此,僅通過人工對蛋白質(zhì)功能進(jìn)行注釋是不可能的。使用計算的方法來注釋蛋白質(zhì) 功能已經(jīng)成為后基因組時代的重要研究課題之一。
[0003]目前已經(jīng)有大量的計算方法用于注釋蛋白質(zhì)的功能,如基于蛋白質(zhì)序列信息、結(jié) 構(gòu)信息、網(wǎng)絡(luò)信息或集成的方法。結(jié)構(gòu)域是蛋白質(zhì)中的一類結(jié)構(gòu)單元,可以一個獨立完成或 幾個共同完成一項生理功能。通常,幾個結(jié)構(gòu)域共同組成一個具有多種功能的蛋白質(zhì)。這和 多實例多類標(biāo)學(xué)習(xí)框架的結(jié)構(gòu)類似,為使用計算的方法來注釋蛋白質(zhì)功能提供了一種新的 可能。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明的目的是提供一種基于多實例多類標(biāo)學(xué)習(xí)框架的注釋蛋白質(zhì)功能的方法, 本發(fā)明的目的可以通過采取如下方案實現(xiàn)。
[0005] 基于多實例多類標(biāo)的馬爾可夫鏈注釋蛋白質(zhì)功能的方法,其包括如下步驟:
[0006] S1、從蛋白質(zhì)全信息數(shù)據(jù)庫中獲取生物三域系統(tǒng)的蛋白質(zhì)序列數(shù)據(jù),所述的蛋白 質(zhì)中的每個結(jié)構(gòu)域處理成一個特征向量,所述的蛋白質(zhì)的功能是指基因本體中的分子功 能;
[0007] S2、計算蛋白質(zhì)數(shù)據(jù)集中每兩個蛋白質(zhì)之間的Hausdorff距離,并使用距離的倒數(shù) 作為蛋白質(zhì)之間的相似性度量;
[0008] S3、使用已經(jīng)注釋功能的蛋白質(zhì)數(shù)據(jù)學(xué)習(xí)馬爾可夫鏈模型,并根據(jù)學(xué)習(xí)的模型注 釋未知功能的蛋白質(zhì)。
[0009] 作為一種具體的實施方案,步驟S1中,所述的蛋白質(zhì),具體為蛋白質(zhì)和其結(jié)構(gòu)域分 別被視為多實例多類標(biāo)學(xué)習(xí)框架中的對象和實例,蛋白質(zhì)的功能被視為多實例多類標(biāo)學(xué)習(xí) 框架中的類標(biāo)。
[0010] 作為一種具體的實施方案,步驟S2中,所述的計算蛋白質(zhì)數(shù)據(jù)集中每兩個蛋白質(zhì) 之間的Hausdorff距離,具體計算方法如下:
[0011 ] S21、分別計算每兩個蛋白質(zhì)之間的最大、最小和平均Hausdorff距離;
[0012] S22、每兩個蛋白質(zhì)之間的Hausdorff距離取三種距離的均值。
[0013] 作為一種具體的實施方案,步驟S3中,所述的馬爾可夫鏈模型,具體如下式:
[0014] D=(l-a)Pfs(D)+aQ
[0015] 其中,D是蛋白質(zhì)類標(biāo)概率分布矩陣,P是類標(biāo)概率轉(zhuǎn)移矩陣,Q是已知的類標(biāo)分布 矩陣,a是初始類標(biāo)信息的比例參數(shù),fs是類標(biāo)概率分布矩陣的稀釋函數(shù)。
[0016] 與現(xiàn)有技術(shù)相比,本發(fā)明具有如下優(yōu)點和技術(shù)效果:
[0017] 本發(fā)明利用蛋白質(zhì)中結(jié)構(gòu)域的特征信息度量蛋白質(zhì)之間的相似性,基于相似的蛋 白質(zhì)可能具有相同的功能的假想,使用已經(jīng)注釋功能的蛋白質(zhì)數(shù)據(jù)學(xué)習(xí)馬爾可夫鏈模型, 該模型可以用來注釋未知功能的蛋白質(zhì)。
【附圖說明】
[0018] 圖1為本發(fā)明實施例1的一種基于多實例多類標(biāo)的馬爾可夫鏈注釋蛋白質(zhì)功能方 法的流程圖。
[0019] 圖2為本發(fā)明實施例1的使用已經(jīng)注釋功能的蛋白質(zhì)數(shù)據(jù)學(xué)習(xí)馬爾可夫鏈模型的 流程圖。
[0020] 具體設(shè)施方式
[0021] 下面結(jié)合實施例及附圖對本發(fā)明作進(jìn)一步詳細(xì)的描述,但本發(fā)明的實施方式不限 于此。
[0022] 實施例1:
[0023] 如圖1所示,本實施例1的一種基于多實例多類標(biāo)的馬爾科夫鏈注釋蛋白質(zhì)功能的 方法,包括以下步驟:
[0024] S1、從蛋白質(zhì)全信息數(shù)據(jù)庫中獲取生物三域系統(tǒng)的蛋白質(zhì)序列數(shù)據(jù),所述的蛋白 質(zhì)中的每個結(jié)構(gòu)域處理成一個特征向量,所述的蛋白質(zhì)的功能是指基因本體中的分子功 能;
[0025] S2、計算蛋白質(zhì)數(shù)據(jù)集中每兩個蛋白質(zhì)之間的Hausdorff距離,并使用距離的倒數(shù) 作為蛋白質(zhì)之間的相似性度量;
[0026] S3、使用已經(jīng)注釋功能的蛋白質(zhì)數(shù)據(jù)學(xué)習(xí)馬爾可夫鏈模型,并根據(jù)學(xué)習(xí)的模型注 釋未知功能的蛋白質(zhì)。
[0027]所述的蛋白質(zhì),具體為蛋白質(zhì)和其結(jié)構(gòu)域分別被視為多實例多類標(biāo)學(xué)習(xí)框架中的 對象和實例,蛋白質(zhì)的功能被視為多實例多類標(biāo)學(xué)習(xí)框架中的類標(biāo)。
[0028]所述的計算蛋白質(zhì)數(shù)據(jù)集中每兩個蛋白質(zhì)之間的Hausdorff距離,具體計算方法 如下:
[0029] S21、分別計算每兩個蛋白質(zhì)之間的最大、最小和平均Hausdorff距離,三種距離的 具體定義如下:
[0030] a、最大 Hausdorff 距離
[0031]
[0032] b、最小 Hausdorff 距離
[0033]
[0036] 其中,Xi是數(shù)據(jù)集中第i個蛋白質(zhì),x(1)是蛋白質(zhì)的第i個結(jié)構(gòu)域,Μ表示蛋白質(zhì)中 結(jié)構(gòu)域的個數(shù),mindis(x w,Xi)的定義如下:
[0034]
[0035]
[0037]
[0038]其中,| | . | |表示兩個結(jié)構(gòu)域之間的歐式距離。
[0039] S22、每兩個蛋白質(zhì)之間的Hausdorff距離取三種距離的均值,均值的計算公式具 體如下:
[0040]
[0041] 所述的使用距離的倒數(shù)作為蛋白質(zhì)之間的相似性度量,具體公式如下:
[0042]
[0043] 如圖2所示,本實施例1的一種基于多實例多類標(biāo)的馬爾科夫鏈注釋蛋白質(zhì)功能的 方法,所述的使用已經(jīng)注釋功能的蛋白質(zhì)數(shù)據(jù)學(xué)習(xí)馬爾可夫鏈模型,具體的學(xué)習(xí)步驟如下: [0044] S31、十折交叉驗證
[0045] 將已經(jīng)注釋功能的蛋白質(zhì)數(shù)據(jù)集平均分成十份,依次將每份作為測試集,其余作 為訓(xùn)練集,測試當(dāng)前參數(shù)設(shè)置下模型的性能。
[0046] S32、初始化
[0047] 1)類標(biāo)概率轉(zhuǎn)移矩陣
[0048]將已經(jīng)注釋功能的蛋白質(zhì)數(shù)據(jù)集中蛋白質(zhì)之間的Hausdorff相似性矩陣P列歸一 化。
[0049] 2)類標(biāo)概率分布矩陣
[0050]
[0051]其中,Dtrain和Dtest分別是蛋白質(zhì)的訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集,(^表示第i個蛋白質(zhì) 的功能集,L表示蛋白質(zhì)的功能集,Lj表示第j個功能。
[0052] 3)已知的類標(biāo)分布矩陣
[0053]
[0054]將已知的類標(biāo)分布矩陣Q行歸一化。
[0055] S33、稀釋類標(biāo)概率分布矩陣
[0056] 將類標(biāo)概率分布矩陣D行歸一化,使用稀釋函數(shù)匕稀釋類標(biāo)概率分布矩陣,具體公 式如下:
[0057]
[0058]其中,Rank(Dij)是蛋白質(zhì)i具有功能j的概率,m是稀釋參數(shù),表示蛋白質(zhì)屬于功能 的概率的可信個數(shù)。
[0059] S34、學(xué)習(xí)馬爾可夫鏈模型
[0060] D=(l-a)Pfs(D)+aQ
[0061] 其中,D是蛋白質(zhì)類標(biāo)概率分布矩陣,P是類標(biāo)概率轉(zhuǎn)移矩陣,Q是已知的類標(biāo)分布 矩陣,a是初始類標(biāo)信息的比例參數(shù),fs是類標(biāo)概率分布矩陣的稀釋函數(shù)。
[0062] S35、學(xué)習(xí)終止條件
[0063] 如果| |Dt-Dt-幻|〈e,學(xué)習(xí)終止,保存參數(shù)a、m和e;否貝ljt = t+l,回到步驟S33。其 中t是計算的第t個類別概率分布矩陣,初始值為0,e是兩個矩陣的偏差。
[0064] S36、模型性能測試
[0065]根據(jù)最終計算的類標(biāo)概率分布矩陣注釋測試集中蛋白質(zhì)的功能,并和實際的注釋 功能做對比,使用多類標(biāo)評估函數(shù)度量當(dāng)前參數(shù)設(shè)置下模型的性能。
[0066] S37、選擇最優(yōu)模型
[0067]使用參數(shù)a、m和e的不同值計算蛋白質(zhì)的類標(biāo)概率分布矩陣,選擇模型性能最優(yōu) 時的參數(shù)設(shè)置作為最終的注釋蛋白質(zhì)功能的模型參數(shù)值。
[0068]綜上所述,本發(fā)明使用多實例多類標(biāo)學(xué)習(xí)框架中的計算方法注釋蛋白質(zhì)的功能, 使用Hausdorff距離計算蛋白質(zhì)之間的相似性,學(xué)習(xí)馬爾可夫鏈模型計算蛋白質(zhì)的類標(biāo)概 率分布,并根據(jù)概率分布注釋未知功能的蛋白質(zhì)。
[0069]以上所述,僅為本發(fā)明專利優(yōu)選的實施例,但本發(fā)明專利的保護(hù)范圍并不局限于 此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明專利所公開的范圍內(nèi),根據(jù)本發(fā)明專利的技 術(shù)方案及其發(fā)明專利構(gòu)思加以等同替換或改變,都屬于本發(fā)明專利的保護(hù)范圍。
【主權(quán)項】
1. 基于多實例多類標(biāo)的馬爾可夫鏈注釋蛋白質(zhì)功能的方法,其特征在于:包括以下步 驟: 51、 從蛋白質(zhì)全信息數(shù)據(jù)庫中獲取生物三域系統(tǒng)的蛋白質(zhì)序列數(shù)據(jù),所述的蛋白質(zhì)中 的每個結(jié)構(gòu)域處理成一個特征向量,所述的蛋白質(zhì)的功能是指基因本體中的分子功能; 52、 計算蛋白質(zhì)數(shù)據(jù)集中每兩個蛋白質(zhì)之間的Hausdorff距離,并使用距離的倒數(shù)作為 蛋白質(zhì)之間的相似性度量; 53、 使用已注釋功能的蛋白質(zhì)數(shù)據(jù)學(xué)習(xí)馬爾可夫鏈模型,并根據(jù)學(xué)習(xí)的模型注釋未知 功能的蛋白質(zhì)。2. 根據(jù)權(quán)利要求1所述的基于多實例多類標(biāo)的馬爾可夫鏈注釋蛋白質(zhì)功能的方法,其 特征在于:步驟S1所述的蛋白質(zhì)被視為對象,蛋白質(zhì)的結(jié)構(gòu)域被視為實例,蛋白質(zhì)的功能被 視為類標(biāo)。3. 根據(jù)權(quán)利要求1所述的基于多實例多類標(biāo)的馬爾可夫鏈注釋蛋白質(zhì)功能的方法,其 特征在于步驟S2所述的Hausdorff距離,具體計算方法如下: 521、 分別計算每兩個蛋白質(zhì)之間的最大、最小和平均Hau sdor f f距離; 522、 每兩個蛋白質(zhì)之間的Hausdorff距離取三種距離的均值。4. 根據(jù)權(quán)利要求1所述的基于多實例多類標(biāo)的馬爾可夫鏈注釋蛋白質(zhì)功能的方法,其 特征在于:步驟S3所述的馬爾可夫鏈模型,如下式: D=(l-a)Pfs(D)+aQ 其中,D是蛋白質(zhì)類標(biāo)概率分布矩陣,P是類標(biāo)概率轉(zhuǎn)移矩陣,Q是已知的類標(biāo)分布矩陣, a是初始類標(biāo)信息的比例參數(shù),fs是類標(biāo)概率分布矩陣的稀釋函數(shù)。
【專利摘要】本發(fā)明公開了一種基于多實例多類標(biāo)的馬爾可夫鏈注釋蛋白質(zhì)功能的方法,所述方法包括:從蛋白質(zhì)全信息數(shù)據(jù)庫中獲取生物三域系統(tǒng)的蛋白質(zhì)序列數(shù)據(jù),所述的蛋白質(zhì)中的每個結(jié)構(gòu)域處理成一個特征向量,所述的蛋白質(zhì)的功能是指基因本體中的分子功能;計算蛋白質(zhì)數(shù)據(jù)集中每兩個蛋白質(zhì)之間的Hausdorff距離,并使用距離的倒數(shù)作為蛋白質(zhì)之間的相似性度量;使用已注釋功能的蛋白質(zhì)數(shù)據(jù)學(xué)習(xí)馬爾可夫鏈模型,并根據(jù)學(xué)習(xí)的模型注釋未知功能的蛋白質(zhì)。本發(fā)明使用多實例多類標(biāo)學(xué)習(xí)框架中的計算方法注釋蛋白質(zhì)的功能,使用Hausdorff距離計算蛋白質(zhì)之間的相似性,學(xué)習(xí)馬爾可夫鏈模型計算蛋白質(zhì)的類標(biāo)概率分布,并根據(jù)概率分布注釋未知功能的蛋白質(zhì)。
【IPC分類】G06F19/00
【公開號】CN105653885
【申請?zhí)枴?br>【發(fā)明人】吳慶耀, 譚明奎, 陳健, 韓超, 宋恒杰
【申請人】華南理工大學(xué)
【公開日】2016年6月8日
【申請日】2016年3月23日
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
石柱| 河南省| 永靖县| 渝北区| 江阴市| 永修县| 贵州省| 仲巴县| 莱州市| 宁海县| 清远市| 张家口市| 吉隆县| 滦南县| 睢宁县| 肃北| 江源县| 苍梧县| 昭苏县| 防城港市| 汾阳市| 黑龙江省| 衡水市| 长宁县| 百色市| 巫山县| 沂水县| 双流县| 吉木乃县| 神池县| 车致| 旅游| 多伦县| 全州县| 都安| 通海县| 宜宾市| 南川市| 桂东县| 梧州市| 灵台县|