两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

蛋白結(jié)構(gòu)域的本體化知識(shí)語義注解方法及在線分析引擎系統(tǒng)

文檔序號(hào):40606790發(fā)布日期:2025-01-07 20:47閱讀:5來源:國知局
蛋白結(jié)構(gòu)域的本體化知識(shí)語義注解方法及在線分析引擎系統(tǒng)

本發(fā)明涉及蛋白結(jié)構(gòu)域本體化知識(shí)分析,尤其是涉及一種蛋白結(jié)構(gòu)域的數(shù)據(jù)和本體化知識(shí)語義注解方法及分析引擎系統(tǒng)。


背景技術(shù):

1、在分子生物學(xué)的廣闊領(lǐng)域中,對(duì)蛋白功能的準(zhǔn)確注解無疑是理解生命本質(zhì)的關(guān)鍵所在,具有重大的生物醫(yī)學(xué)和藥學(xué)意義。盡管分子實(shí)驗(yàn)?zāi)軌蛱峁┳顬榭煽康牡鞍坠δ茏⒔猓捎谄渫肯鄬?duì)較低且范圍有限,使得計(jì)算預(yù)測在功能注解方面逐漸嶄露頭角。由計(jì)算機(jī)生成的精確生物大分子功能注解,為生物學(xué)家們提供了迅速鑒定蛋白在生物過程或通路中潛在作用的有力工具。近年來,隨著新技術(shù)的不斷涌現(xiàn),針對(duì)蛋白結(jié)構(gòu)的計(jì)算預(yù)測已變得可行,尤其是ai工具alphafold2問世后快速解析了地球上幾乎已知的所有蛋白,產(chǎn)生了海量蛋白數(shù)據(jù)。以及最近發(fā)布的alphafold3以前所未有的精確度成功預(yù)測了蛋白結(jié)構(gòu)和相互作用。與此同時(shí),隨著測序技術(shù)的飛速發(fā)展,基因組解析需求迅猛增長,導(dǎo)致迫切需要利用計(jì)算機(jī)來對(duì)絕大多數(shù)的蛋白進(jìn)行注解。然而,蛋白功能注解領(lǐng)域仍面臨著巨大的挑戰(zhàn)。如何進(jìn)一步提高目前的計(jì)算資源,對(duì)蛋白功能進(jìn)行準(zhǔn)確預(yù)測,已成為當(dāng)前計(jì)算和分子生物學(xué)領(lǐng)域的前沿問題。為了應(yīng)對(duì)這一挑戰(zhàn),功能注解關(guān)鍵評(píng)估(cafa)挑戰(zhàn)應(yīng)運(yùn)而生,致力于評(píng)估和改進(jìn)蛋白功能的計(jì)算注解方法,以縮小不斷擴(kuò)大的分子數(shù)據(jù)庫與有限的理解資源之間的差距。結(jié)構(gòu)域作為蛋白的基本功能單位,與其將本體論術(shù)語僅與全長蛋白相關(guān)聯(lián),不如將術(shù)語與單個(gè)結(jié)構(gòu)域相關(guān)聯(lián)來得更為直接和有意義。然而,目前大多數(shù)蛋白序列仍缺乏生物學(xué)注解,特別是在本體化知識(shí)注解方面,全長蛋白的研究占據(jù)了主導(dǎo)地位,而蛋白結(jié)構(gòu)域的研究則相對(duì)滯后,這也導(dǎo)致了該領(lǐng)域缺乏相應(yīng)的研究工具與數(shù)據(jù)資源。在功能基因組學(xué)中,以結(jié)構(gòu)域?yàn)橹行牡墓δ茏⒔膺M(jìn)展明顯滯后于蛋白水平的注解。鑒于越來越多的本體被創(chuàng)建并用于全長蛋白注解,且蛋白結(jié)構(gòu)域通常作為蛋白的功能與進(jìn)化單元,在蛋白功能預(yù)測和表型預(yù)測中發(fā)揮了重要作用,及時(shí)對(duì)蛋白結(jié)構(gòu)域進(jìn)行全面的語義注解變得尤為必要。因此,如何有效地對(duì)蛋白結(jié)構(gòu)域進(jìn)行全面的生物學(xué)注解,并深入挖掘本體和結(jié)構(gòu)域資源,已成為當(dāng)前迫切需要解決的問題。

2、蛋白結(jié)構(gòu)域作為蛋白不可或缺的功能單元,已被證明在蛋白功能預(yù)測和表型預(yù)測中發(fā)揮重要作用。然而,目前尚缺乏一個(gè)整合多種蛋白結(jié)構(gòu)域及其本體化知識(shí)的數(shù)據(jù)庫且可進(jìn)一步進(jìn)行數(shù)據(jù)深入分析和挖掘的系統(tǒng)。1)大多數(shù)已知的蛋白序列缺乏生物學(xué)注解。相較于全長蛋白,蛋白結(jié)構(gòu)域在本體論注解方面所獲得的關(guān)注較少,這在一定程度上限制了對(duì)其功能的深入理解;2)當(dāng)前的研究中,尚未有系統(tǒng)性的工作將多種蛋白結(jié)構(gòu)域及其相關(guān)的本體化知識(shí)數(shù)據(jù)庫進(jìn)行有效的整合。這種碎片化的信息狀態(tài)不僅使得研究工作變得復(fù)雜,同時(shí)也阻礙了科研人員在蛋白結(jié)構(gòu)域領(lǐng)域的深入研究;3)確保蛋白預(yù)測計(jì)算的準(zhǔn)確性一直是一個(gè)巨大的挑戰(zhàn)。由于蛋白功能的復(fù)雜性和多樣性,我們需要更為先進(jìn)和精準(zhǔn)的計(jì)算方法來支持我們的預(yù)測工作;4)盡管已經(jīng)存在一些數(shù)據(jù)庫用于存儲(chǔ)和查詢蛋白結(jié)構(gòu)域的相關(guān)信息,但它們的性能仍有待進(jìn)一步提高和完善。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的是克服上述現(xiàn)有技術(shù)存在的缺陷而提供一種蛋白結(jié)構(gòu)域的數(shù)據(jù)和本體化知識(shí)語義注解方法及分析引擎系統(tǒng)。

2、本發(fā)明的目的可以通過以下技術(shù)方案來實(shí)現(xiàn):

3、作為本發(fā)明的第一方面,提供一種蛋白結(jié)構(gòu)域的本體化知識(shí)語義注解方法,所述方法步驟包括:

4、使用蛋白結(jié)構(gòu)域信息和蛋白本體注解構(gòu)建結(jié)構(gòu)域/超結(jié)構(gòu)域與本體術(shù)語之間的映射矩陣;

5、基于所得映射矩陣,在尊重本體的有向無環(huán)圖的情況下,分別進(jìn)行總體和相對(duì)統(tǒng)計(jì)推斷,保留最相關(guān)的本體術(shù)語;

6、遵循真實(shí)路徑規(guī)則以獲得完整的以結(jié)構(gòu)域?yàn)橹行牡谋倔w注解,對(duì)于每個(gè)結(jié)構(gòu)域/超結(jié)構(gòu)域,依據(jù)所得的總體和相對(duì)統(tǒng)計(jì)推斷結(jié)果篩選術(shù)語間的關(guān)聯(lián)關(guān)系,構(gòu)成本體注解配置文件。

7、作為優(yōu)選技術(shù)方案,所述的總體和相對(duì)統(tǒng)計(jì)推斷,具體步驟為:

8、采用fisher檢驗(yàn)推斷映射矩陣中行本體術(shù)語注解信息和特定的結(jié)構(gòu)域/超結(jié)構(gòu)域之間的關(guān)聯(lián),所述本體術(shù)語以有向無環(huán)圖的形式呈現(xiàn);

9、利用本體有向無環(huán)圖的真實(shí)路徑規(guī)則確定最佳關(guān)聯(lián);

10、計(jì)算衡量本體與結(jié)構(gòu)域/超結(jié)構(gòu)域之間關(guān)聯(lián)的概率的p值,使用多重假設(shè)檢驗(yàn)的錯(cuò)誤發(fā)現(xiàn)率評(píng)估對(duì)映射矩陣間統(tǒng)計(jì)推斷結(jié)果關(guān)聯(lián)的顯著性,并使用超幾何分?jǐn)?shù)量化關(guān)聯(lián)強(qiáng)度。

11、作為優(yōu)選技術(shù)方案,所述的利用本體有向無環(huán)圖的真實(shí)路徑規(guī)則確定最佳關(guān)聯(lián)具體為:比較每個(gè)術(shù)語在兩種不同背景下的重要性,一種背景包含所有可用于分析的uniprot蛋白,另一種背景則僅包含直接被父術(shù)語注解的uniprot蛋白;

12、如果某個(gè)本體術(shù)語及其父項(xiàng)術(shù)語在第一個(gè)背景下與結(jié)構(gòu)域/超結(jié)構(gòu)域顯著相關(guān),即總體p值poverall大于閾值;但在第二個(gè)背景下與父項(xiàng)術(shù)語關(guān)聯(lián)不顯著,即相對(duì)p值prelative小于閾值,則僅將父項(xiàng)術(shù)語與結(jié)構(gòu)域/超結(jié)構(gòu)域關(guān)聯(lián)。

13、作為優(yōu)選技術(shù)方案,所述衡量本體與結(jié)構(gòu)域/超結(jié)構(gòu)域之間關(guān)聯(lián)的概率的p值計(jì)算如下:

14、p=max{poverall,prelative}

15、其中,p表示總體富集檢驗(yàn)統(tǒng)計(jì)推斷的總體p值poverall和相對(duì)富集檢驗(yàn)統(tǒng)計(jì)推斷的相對(duì)p值prelative中的最大p值,代表預(yù)測結(jié)果的統(tǒng)計(jì)顯著性;

16、所述的總體富集檢驗(yàn)統(tǒng)計(jì)推斷的總體p值計(jì)算如下:

17、

18、其中,n表示在蛋白結(jié)構(gòu)域中至少包含一個(gè)本體和一個(gè)結(jié)構(gòu)域的個(gè)數(shù),m表示在蛋白結(jié)構(gòu)域中至少包含一個(gè)結(jié)構(gòu)域的個(gè)數(shù),k表示在蛋白結(jié)構(gòu)域中注釋到本體的個(gè)數(shù),x表示觀察到蛋白結(jié)構(gòu)域注釋到本體并且包含結(jié)構(gòu)域的個(gè)數(shù),poverall表示在第一個(gè)背景超幾何分布下觀察到的x個(gè)或者更多蛋白結(jié)構(gòu)域的預(yù)期概率;

19、所述的相對(duì)富集檢驗(yàn)統(tǒng)計(jì)推斷的相對(duì)p值計(jì)算如下:

20、

21、其中,npa是有向無環(huán)圖結(jié)構(gòu)中本體的所有直接父本注釋的蛋白結(jié)構(gòu)域的個(gè)數(shù),mpa表示與npa中蛋白結(jié)構(gòu)域序列相交后包含結(jié)構(gòu)域的蛋白結(jié)構(gòu)域個(gè)數(shù),k表示在蛋白結(jié)構(gòu)域中注釋到本體的個(gè)數(shù),x表示觀察到蛋白結(jié)構(gòu)域注釋到本體并且包含結(jié)構(gòu)域的個(gè)數(shù),prelative表示在第二個(gè)背景超幾何分布下觀察到的x個(gè)或者更多蛋白結(jié)構(gòu)域的預(yù)期概率。

22、作為優(yōu)選技術(shù)方案,當(dāng)一個(gè)父節(jié)點(diǎn)有多個(gè)子節(jié)點(diǎn)注釋信息,選擇具有最小fdr和最大超幾何分?jǐn)?shù)的關(guān)聯(lián)信息,相關(guān)聯(lián)的本體術(shù)語將擴(kuò)展至所有父項(xiàng)術(shù)語共同構(gòu)成一個(gè)完整的本體注解配置文件。

23、作為優(yōu)選技術(shù)方案,所述方法步驟為進(jìn)一步優(yōu)化注解配置文件,根據(jù)本體術(shù)語的信息內(nèi)容,即對(duì)該術(shù)語進(jìn)行注解的結(jié)構(gòu)域/超結(jié)構(gòu)域頻率進(jìn)行的負(fù)對(duì)數(shù)變換,來劃分本體的有向無環(huán)圖結(jié)構(gòu),每個(gè)分區(qū)位于不同的路徑中但反映相同或相似的特異性:

24、通過多個(gè)信息內(nèi)容遞增的種子,生成一個(gè)go?slim,即通過將術(shù)語向上折疊為與特定背景相關(guān)的更通用、更高級(jí)的術(shù)語后創(chuàng)建的子集;

25、利用ic衡量本體的特異性分為多個(gè)粒度遞增的本體術(shù)語級(jí)別,具體步驟為:

26、有向無環(huán)圖中的所有本體術(shù)語都是未標(biāo)記的,初始化ic值;

27、識(shí)別與初始化ic最接近的術(shù)語,對(duì)已識(shí)別的術(shù)語及其父節(jié)點(diǎn)、子節(jié)點(diǎn)進(jìn)行標(biāo)記,并將其排除在進(jìn)一步分析之外,重復(fù)進(jìn)行前兩個(gè)步驟,迭代識(shí)別未標(biāo)記的go術(shù)語,直到所有的術(shù)語均被標(biāo)記且對(duì)應(yīng)一個(gè)ic值。

28、作為優(yōu)選技術(shù)方案,所述方法提供兩種版本的本體與蛋白結(jié)構(gòu)域關(guān)聯(lián)信息:高質(zhì)量關(guān)聯(lián)信息和高覆蓋率關(guān)聯(lián)信息;所述的高質(zhì)量關(guān)聯(lián)信息基于具有已知功能的單結(jié)構(gòu)域蛋白,且具有因果結(jié)構(gòu)域證據(jù)支持;所述的高覆蓋率關(guān)聯(lián)信息則進(jìn)一步包括通過已知功能的多結(jié)構(gòu)域蛋白,統(tǒng)計(jì)消歧所支持的關(guān)聯(lián)。

29、作為本發(fā)明的第二方面,提供一種蛋白結(jié)構(gòu)域本體化知識(shí)在線分析引擎系統(tǒng),所述分析引擎系統(tǒng)包括:

30、蛋白結(jié)構(gòu)域和本體化知識(shí)知識(shí)庫,包括不同定義蛋白結(jié)構(gòu)域、蛋白結(jié)構(gòu)域富集相關(guān)的本體化知識(shí)語義注解數(shù)據(jù)集;

31、蛋白結(jié)構(gòu)域和本體化知識(shí)在線分析主引擎,用于提供本體化知識(shí)和蛋白結(jié)構(gòu)域的在線網(wǎng)頁數(shù)據(jù)挖掘,執(zhí)行如上所述的蛋白結(jié)構(gòu)域的本體化知識(shí)語義注解方法;

32、大語言模型機(jī)器學(xué)習(xí)蛋白結(jié)構(gòu)域預(yù)測主引擎,獲取用戶輸入所要查詢的問題,提取文本中的主要信息并執(zhí)行學(xué)習(xí)和推理任務(wù),生成文本回答用戶的問題;

33、人機(jī)交互模塊,將檢索詞轉(zhuǎn)化為各個(gè)引擎能識(shí)別的數(shù)據(jù),并將結(jié)果可視化展示。

34、作為優(yōu)選技術(shù)方案,所述的蛋白結(jié)構(gòu)域和本體化知識(shí)在線分析主引擎包括:

35、蛋白結(jié)構(gòu)域和本體化知識(shí)分頁面搜索子引擎,用于從人機(jī)交互模塊處接收用戶輸入的關(guān)鍵詞來查詢相關(guān)蛋白結(jié)構(gòu)域及本體化知識(shí)資源;根據(jù)蛋白結(jié)構(gòu)域富集相關(guān)的本體化知識(shí)子庫提供的數(shù)據(jù)對(duì)用戶輸入的關(guān)鍵詞進(jìn)行資源查詢和匹配;將蛋白結(jié)構(gòu)域或本體化知識(shí)等查詢結(jié)果以可視化展示的頁面返送至人機(jī)交互模塊;

36、本體化知識(shí)有向無環(huán)圖注解信息和注釋的蛋白結(jié)構(gòu)域?yàn)g覽子引擎,用于從人機(jī)交互模塊處檢索用戶選擇的本體化知識(shí)類型,根據(jù)不同定義的蛋白結(jié)構(gòu)域知識(shí)子庫和蛋白結(jié)構(gòu)域富集相關(guān)的本體化知識(shí)子庫對(duì)用戶選擇的本體化知識(shí)類型進(jìn)行呈現(xiàn)和數(shù)據(jù)挖掘,將選擇的結(jié)果以可視化展示的數(shù)據(jù)形式返送至人機(jī)交互模塊;

37、結(jié)構(gòu)域的本體化知識(shí)注解富集分析子引擎,用于從人機(jī)交互模塊處接收用戶輸入的蛋白結(jié)構(gòu)域列表;根據(jù)蛋白結(jié)構(gòu)域富集相關(guān)的本體化知識(shí)子庫對(duì)用戶輸入的蛋白結(jié)構(gòu)域列表的數(shù)據(jù)進(jìn)行檢索和本體化富集分析;將檢索結(jié)果和本體化富集分析結(jié)果以可視化展示的數(shù)據(jù)形式返送至人機(jī)交互模塊。

38、作為優(yōu)選技術(shù)方案,所述的大語言模型機(jī)器學(xué)習(xí)蛋白結(jié)構(gòu)域預(yù)測主引擎中設(shè)置包括evoformer模塊和diffusion?network擴(kuò)散網(wǎng)絡(luò),從原始的原子坐標(biāo)入手,學(xué)習(xí)訓(xùn)練擴(kuò)散模型,模擬生物分子的相互作用,并對(duì)無序區(qū)域擴(kuò)展循環(huán),通過整合訓(xùn)練上述模塊網(wǎng)絡(luò),最終實(shí)現(xiàn)蛋白功能預(yù)測。

39、與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:

40、1)本發(fā)明為蛋白結(jié)構(gòu)域生物醫(yī)學(xué)本體化提供了一種語義注解方法,該方法旨在對(duì)蛋白結(jié)構(gòu)域包括多結(jié)構(gòu)域中的超結(jié)構(gòu)域,進(jìn)行功能注解。在尊重基因本體的有向無環(huán)圖的情況下,進(jìn)行總體和相對(duì)兩種類型的統(tǒng)計(jì)推斷,并僅將父項(xiàng)術(shù)語與結(jié)構(gòu)域/超結(jié)構(gòu)域關(guān)聯(lián)。這種雙重約束確保了僅保留與結(jié)構(gòu)域/超結(jié)構(gòu)域最顯著相關(guān)的基因本體術(shù)語。

41、2)本發(fā)明遵循真實(shí)路徑規(guī)則以獲得完整的以結(jié)構(gòu)域?yàn)橹行牡幕虮倔w注解顯著性度量。對(duì)于每個(gè)結(jié)構(gòu)域/超結(jié)構(gòu)域,相關(guān)聯(lián)的基因本體術(shù)語(即直接注解)將擴(kuò)展至所有父項(xiàng)祖先術(shù)語(即繼承的注解),共同構(gòu)成一個(gè)完整的基因本體注解配置文件。

42、3)本發(fā)明為了進(jìn)一步優(yōu)化注解配置文件,根據(jù)基因本體術(shù)語的信息內(nèi)容(即對(duì)該術(shù)語進(jìn)行注解的結(jié)構(gòu)域/超結(jié)構(gòu)域頻率的負(fù)對(duì)數(shù)變換)來劃分基因本體的有向無環(huán)圖結(jié)構(gòu),每個(gè)分區(qū)位于不同的路徑中但能夠反映相同或相似的特異性。不僅僅依賴本體圖的深度來定義術(shù)語特異性,而是在確定結(jié)構(gòu)域/超結(jié)構(gòu)域的四級(jí)深度分類時(shí)充分考慮了術(shù)語的實(shí)際使用情況。

43、4)本發(fā)明除了單個(gè)結(jié)構(gòu)域之外,還進(jìn)一步將基因本體術(shù)語與超結(jié)構(gòu)域建立了關(guān)聯(lián)。超結(jié)構(gòu)域?yàn)閮蓚€(gè)或多個(gè)能夠協(xié)同工作的連續(xù)結(jié)構(gòu)域的組合,其在本發(fā)明中僅包括那些結(jié)構(gòu)域間無顯著間隙的完全分配超結(jié)構(gòu)域,排除了未分配給已知結(jié)構(gòu)域區(qū)結(jié)構(gòu)域的超結(jié)構(gòu)域,從而確保了注解的精確性。基因本體與超結(jié)構(gòu)域的關(guān)聯(lián)不僅有助于我們深入理解結(jié)構(gòu)域組合如何促進(jìn)功能多樣化,同時(shí)也為預(yù)測多結(jié)構(gòu)域蛋白功能提供了有力支持。

44、5)本發(fā)明的大語言模型機(jī)器學(xué)習(xí)蛋白結(jié)構(gòu)域預(yù)測主引擎將以機(jī)器學(xué)習(xí)為原理,提取文本中的主要信息,自動(dòng)執(zhí)行學(xué)習(xí)和推理任務(wù),利用先前學(xué)習(xí)的模式和結(jié)構(gòu)來生成新的文本回答用戶的問題,從而及時(shí)向用戶反饋結(jié)果;可以為相關(guān)研究人員提供一個(gè)方便,快捷且簡單的蛋白結(jié)構(gòu)域信息挖掘工具。并且添加了evoformer模塊和diffusion?network擴(kuò)散網(wǎng)絡(luò),從原始的原子坐標(biāo)入手,學(xué)習(xí)訓(xùn)練擴(kuò)散模型,模擬生物分子的相互作用,并對(duì)無序區(qū)域擴(kuò)展循環(huán),以更好地發(fā)現(xiàn)這些區(qū)域的靈活性和可變性。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
图片| 常州市| 滦南县| 塔河县| 同仁县| 万全县| 五华县| 于田县| 邹平县| 阿荣旗| 九寨沟县| 新河县| 甘孜县| 白城市| 武宣县| 南投县| 丽水市| 浑源县| 平顶山市| 沁源县| 洛宁县| 汉阴县| 铁力市| 宁远县| 若羌县| 留坝县| 定州市| 陈巴尔虎旗| 监利县| 金秀| 衡南县| 广元市| 三都| 措美县| 长兴县| 渝北区| 屏边| 栾川县| 大城县| 蓝山县| 四子王旗|