本發(fā)明涉及數(shù)據(jù)處理,特別涉及一種平均核糖體負載預測系統(tǒng)的處理方法和裝置。
背景技術:
1、平均核糖體負載(mean?ribosome?load,mrl)是一個關鍵的生物學參數(shù),它反映了在給定時間內(nèi)mrna分子上的平均核糖體數(shù)量。平均核糖體負載與mrna的翻譯效率、翻譯速率以及核糖體在其上發(fā)生翻譯停滯的頻率(也稱核糖體滯留頻率)等參數(shù)相關。通過分析和優(yōu)化平均核糖體負載指標可以有助于改善mrna的翻譯效率和蛋白質表達水平。也即是說,平均核糖體負載預測工程對深入理解蛋白質的合成與調控以及對疾病治療策略的開發(fā)等都具有重要意義。而傳統(tǒng)基于實驗方法進行的平均核糖體負載預測工作,受實驗條件限制其預測效率與預測質量都很難保障。
技術實現(xiàn)思路
1、本發(fā)明的目的,就是針對現(xiàn)有技術的缺陷,提供一種平均核糖體負載預測系統(tǒng)的處理方法、裝置、電子設備及計算機可讀存儲介質,以rna序列預訓練模型和核糖體負載預測模型為核心構建一個平均核糖體負載預測系統(tǒng),并基于三類數(shù)據(jù)集(全類型rna序列數(shù)據(jù)集、非編碼rna序列數(shù)據(jù)集、rna修飾序列數(shù)據(jù)集)對系統(tǒng)進行訓練以提高系統(tǒng)的通用性、適用性和預測準確度;并基于該系統(tǒng)設計三種應用模式(單序列預測模式、多序列排序模式和單序列優(yōu)化模式);在單序列預測模式下,基于該系統(tǒng)處理任意目標rna序列的平均核糖體負載預測任務;在多序列排序模式下,先基于該系統(tǒng)對多個目標rna序列進行平均核糖體負載預測,再結合預設的評估參數(shù)規(guī)則(rna翻譯效率參數(shù)規(guī)則、rna翻譯速率參數(shù)規(guī)則和rna核糖體滯留頻率參數(shù)規(guī)則)根據(jù)各個預測結果進行對應評估參數(shù)計算,再根據(jù)評估參數(shù)規(guī)則對應的排序規(guī)則對所有目標rna序列進行排序;在單序列優(yōu)化模式下,基于該系統(tǒng)對任意目標mrna序列的核糖體負載和平均核糖體負載進行預測,并基于平均核糖體負載確定是否進行優(yōu)化,并在確認需要優(yōu)化時朝著使核糖體負載預測最大化的方向對目標mrna序列進行優(yōu)化。通過本發(fā)明給出的平均核糖體負載預測系統(tǒng)可以提高日常平均核糖體負載預測任務的預測效率與預測質量,通過本發(fā)明提供的三種應用模式可以為rna序列研究提供便利的系統(tǒng)應用工具、可以幫助科研人員更好地理解rna序列與其所編碼的生物功能之間的關系。
2、為實現(xiàn)上述目的,本發(fā)明實施例第一方面提供了一種平均核糖體負載預測系統(tǒng)的處理方法,所述方法包括:
3、預先構建平均核糖體負載預測系統(tǒng)記為對應的第一預測系統(tǒng);并構建數(shù)據(jù)集記為對應的第一數(shù)據(jù)集;并基于所述第一數(shù)據(jù)集對所述第一預測系統(tǒng)進行訓練;
4、在系統(tǒng)訓練結束之后,接收用戶輸入的系統(tǒng)應用模式和對應的系統(tǒng)應用數(shù)據(jù);所述系統(tǒng)應用模式包括單序列預測模式、多序列排序模式和單序列優(yōu)化模式;所述系統(tǒng)應用模式為單序列預測模式時,所述系統(tǒng)應用數(shù)據(jù)為對應的第一目標rna序列;所述系統(tǒng)應用模式為多序列排序模式時,所述系統(tǒng)應用數(shù)據(jù)為對應的多個第二目標rna序列;所述系統(tǒng)應用模式為單序列優(yōu)化模式時,所述系統(tǒng)應用數(shù)據(jù)為對應的第一目標mrna序列;
5、當所述系統(tǒng)應用模式為單序列預測模式時,基于所述第一預測系統(tǒng)對所述第一目標rna序列進行平均核糖體負載預測處理;
6、當所述系統(tǒng)應用模式為多序列排序模式時,基于所述第一預測系統(tǒng)對所述多個第二目標rna序列進行目標rna序列排序處理;
7、當所述系統(tǒng)應用模式為單序列優(yōu)化模式時,基于所述第一預測系統(tǒng)對所述第一目標mrna序列進行序列優(yōu)化處理。
8、優(yōu)選的,所述第一預測系統(tǒng)包括rna序列預訓練單元、rna序列特征降維單元、核糖體負載預測單元和平均核糖體負載預測單元;
9、所述rna序列預訓練單元的輸入端為所述第一預測系統(tǒng)的輸入端,輸出端與所述rna序列特征降維單元的輸入端連接;所述rna序列特征降維單元的輸出端與所述核糖體負載預測單元的輸入端連接;所述核糖體負載預測單元的輸出端與所述平均核糖體負載預測單元的輸入端連接;所述平均核糖體負載預測單元的輸出端為所述第一預測系統(tǒng)的輸出端;
10、所述rna序列預訓練單元用于對所述第一預測系統(tǒng)的輸入序列進行特征編碼并輸出對應的特征張量;所述rna序列預訓練單元基于預設的預訓練模型實現(xiàn);所述預設的預訓練模型包括基于transformer結構的預訓練模型、基于cnn結構的預訓練模型、基于rnn結構的預訓練模型、基于自編碼器結構的預訓練模型、基于變分自編碼器結構的預訓練模型和基于自回歸模型結構的預訓練模型;
11、所述rna序列特征降維單元用于對所述rna序列預訓練單元輸出的特征張量進行特征維度降維處理并輸出對應的降維張量;所述rna序列特征降維單元基于一類線性神經(jīng)網(wǎng)絡實現(xiàn);所述一類線性神經(jīng)網(wǎng)絡包括全連接神經(jīng)網(wǎng)絡;
12、所述核糖體負載預測單元用于根據(jù)所述rna序列特征降維單元輸出的降維張量進行核糖體負載預測處理生成對應的預測張量;所述核糖體負載預測單元基于預設的預測模型實現(xiàn);所述預設的預測模型包括基于多層resnet結構的預測模型、基于transformer結構的預測模型、基于cnn結構的預測模型和基于gnn結構的預測模型;
13、所述平均核糖體負載預測單元用于根據(jù)所述核糖體負載預測單元輸出的預測張量進行平均核糖體負載估算處理并將得到的估算數(shù)據(jù)作為所述第一預測系統(tǒng)的平均核糖體負載預測結果輸出;所述平均核糖體負載預測單元基于二類線性神經(jīng)網(wǎng)絡實現(xiàn);所述二類線性神經(jīng)網(wǎng)絡包括全連接神經(jīng)網(wǎng)絡。
14、優(yōu)選的,所述第一數(shù)據(jù)集包括一階段數(shù)據(jù)集、二階段數(shù)據(jù)集和三階段數(shù)據(jù)集;
15、所述一階段數(shù)據(jù)集為整合了rnacentral數(shù)據(jù)庫、mg-rast數(shù)據(jù)庫、genomewarehouse數(shù)據(jù)庫、mgnify數(shù)據(jù)庫和ncbi核酸序列數(shù)據(jù)庫及其子集的rna序列數(shù)據(jù)庫;所述一階段數(shù)據(jù)集包括多個第一rna序列;
16、所述二階段數(shù)據(jù)集包括多個第一非編碼rna序列;
17、所述三階段數(shù)據(jù)集包括多個第一rna修飾序列。
18、優(yōu)選的,所述基于所述第一數(shù)據(jù)集對所述第一預測系統(tǒng)進行訓練,具體包括:
19、將所述一階段數(shù)據(jù)集作為對應的第一數(shù)據(jù)集;并將所述第一數(shù)據(jù)集的各個所述第一rna序列作為對應的第一序列;并按預設的訓練-測試數(shù)據(jù)比將所述第一數(shù)據(jù)集劃分成訓練數(shù)據(jù)集和測試數(shù)據(jù)集,訓練-測試數(shù)據(jù)比=訓練數(shù)據(jù)集的第一序列數(shù)量:測試數(shù)據(jù)集的第一序列數(shù)量;并根據(jù)本次得到的所述訓練數(shù)據(jù)集和所述測試數(shù)據(jù)集對所述第一預測系統(tǒng)進行一輪系統(tǒng)訓練;
20、并在本輪系統(tǒng)訓練結束時,將所述二階段數(shù)據(jù)集作為新的所述第一數(shù)據(jù)集;并將新的所述第一數(shù)據(jù)集的各個所述第一非編碼rna序列作為對應的所述第一序列;并按所述訓練-測試數(shù)據(jù)比將新的所述第一數(shù)據(jù)集劃分成新的所述訓練數(shù)據(jù)集和所述測試數(shù)據(jù)集;并根據(jù)本次得到的所述訓練數(shù)據(jù)集和所述測試數(shù)據(jù)集對所述第一預測系統(tǒng)進行一輪系統(tǒng)訓練;
21、并在本輪系統(tǒng)訓練結束時,將所述三階段數(shù)據(jù)集作為新的所述第一數(shù)據(jù)集;并將新的所述第一數(shù)據(jù)集的各個所述第一rna修飾序列作為對應的所述第一序列;并按所述訓練-測試數(shù)據(jù)比將新的所述第一數(shù)據(jù)集劃分成新的所述訓練數(shù)據(jù)集和所述測試數(shù)據(jù)集;并根據(jù)本次得到的所述訓練數(shù)據(jù)集和所述測試數(shù)據(jù)集對所述第一預測系統(tǒng)進行一輪系統(tǒng)訓練;
22、并在本輪系統(tǒng)訓練結束時,確認所述第一預測系統(tǒng)的系統(tǒng)訓練結束。
23、進一步的,所述根據(jù)本次得到的所述訓練數(shù)據(jù)集和所述測試數(shù)據(jù)集對所述第一預測系統(tǒng)進行一輪系統(tǒng)訓練,具體包括:
24、步驟51,將所述訓練數(shù)據(jù)集作為對應的當前數(shù)據(jù)集;并設置第一狀態(tài)為訓練狀態(tài);所述第一狀態(tài)包括訓練狀態(tài)和測試狀態(tài);
25、步驟52,從所述當前數(shù)據(jù)集中選擇第一個所述第一序列作為對應的當前序列;
26、步驟53,將所述當前序列的核糖體負載作為對應的當前序列標簽;并對所述當前序列標簽進行標準化處理生成對應的第一標簽數(shù)據(jù);
27、步驟54,將所述當前序列輸入所述第一預測系統(tǒng);并由所述rna序列預訓練單元對所述當前序列進行特征編碼并輸出對應的第一特征張量;并由所述rna序列特征降維單元對所述第一特征張量進行特征維度降維處理并輸出對應的第一降維張量;并由所述核糖體負載預測單元根據(jù)所述第一降維張量進行核糖體負載預測處理生成對應的第一預測張量;并由所述平均核糖體負載預測單元根據(jù)所述第一預測張量進行平均核糖體負載估算處理生成對應的第一估算數(shù)據(jù);并將所述第一估算數(shù)據(jù)作為所述第一預測系統(tǒng)的平均核糖體負載預測結果輸出;
28、步驟55,將所述第一估算數(shù)據(jù)和所述第一標簽數(shù)據(jù)代入預設誤差函數(shù)進行計算得到對應的第一預測誤差;
29、步驟56,對所述第一狀態(tài)進行識別;當所述第一狀態(tài)為訓練狀態(tài)時,轉至步驟57;當所述第一狀態(tài)為測試狀態(tài)時,轉至步驟58;
30、步驟57,對所述第一預測誤差是否滿足預設的第一合理誤差范圍進行識別;若是,則轉至步驟59;若否,則基于預設的系統(tǒng)優(yōu)化算法對所述第一預測系統(tǒng)的所述rna序列預訓練單元和所述核糖體負載預測單元進行全模型參數(shù)調制并在參數(shù)調制結束時返回步驟54繼續(xù)訓練;所述系統(tǒng)優(yōu)化算法包括梯度下降法、遺傳優(yōu)化算法、模擬退火算法、粒子群優(yōu)化算法和差分進化算法;所述全模型參數(shù)調制為對所述rna序列預訓練單元和所述核糖體負載預測單元中的所有模型參數(shù)進行調制;
31、步驟58,對所述第一預測誤差是否滿足預設的第二合理誤差范圍進行識別;若是,則轉至步驟59;若否,則基于所述系統(tǒng)優(yōu)化算法對所述第一預測系統(tǒng)的所述核糖體負載預測單元進行指定模型參數(shù)調制并在參數(shù)調制結束時返回步驟54繼續(xù)訓練;所述指定模型參數(shù)調制為對所述核糖體負載預測單元中預先指定的部分模型參數(shù)進行調制;
32、步驟59,對所述當前序列是否為所述當前數(shù)據(jù)集的最后一個所述第一序列進行識別;若是,則轉至步驟60;若否,則從所述當前數(shù)據(jù)集中選擇下一個所述第一序列作為新的所述當前序列并返回步驟53繼續(xù)訓練;
33、步驟60,對所述第一狀態(tài)進行識別;當所述第一狀態(tài)為訓練狀態(tài)時,將所述測試數(shù)據(jù)集作為新的所述當前數(shù)據(jù)集,并設置所述第一狀態(tài)為測試狀態(tài),并返回步驟52繼續(xù)訓練;當所述第一狀態(tài)為測試狀態(tài)時,停止訓練并確認本輪系統(tǒng)訓練結束。
34、優(yōu)選的,所述基于所述第一預測系統(tǒng)對所述第一目標rna序列進行平均核糖體負載預測處理,具體包括:
35、將所述第一目標rna序列輸入所述第一預測系統(tǒng);并由所述rna序列預訓練單元對所述第一目標rna序列進行特征編碼并輸出對應的第二特征張量;并由所述rna序列特征降維單元對所述第二特征張量進行特征維度降維處理并輸出對應的第二降維張量;并由所述核糖體負載預測單元根據(jù)所述第二降維張量進行核糖體負載預測處理生成對應的第二預測張量;并由所述平均核糖體負載預測單元根據(jù)所述第二預測張量進行平均核糖體負載估算處理生成對應的第二估算數(shù)據(jù);并將所述第二估算數(shù)據(jù)作為所述平均核糖體負載預測處理的處理結果輸出。
36、優(yōu)選的,所述基于所述第一預測系統(tǒng)對所述多個第二目標rna序列進行目標rna序列排序處理,具體包括:
37、將各個第二目標rna序列分別輸入所述第一預測系統(tǒng);并由所述rna序列預訓練單元對當前輸入的所述第二目標rna序列進行特征編碼并輸出對應的第三特征張量;并由所述rna序列特征降維單元對所述第三特征張量進行特征維度降維處理并輸出對應的第三降維張量;并由所述核糖體負載預測單元根據(jù)所述第三降維張量進行核糖體負載預測處理生成對應的第三預測張量;并由所述平均核糖體負載預測單元根據(jù)所述第三預測張量進行平均核糖體負載估算處理生成對應的第三估算數(shù)據(jù);并將所述第三估算數(shù)據(jù)作為所述第一預測系統(tǒng)的平均核糖體負載預測結果輸出;
38、按預設的評估參數(shù)規(guī)則,根據(jù)各個所述第三估算數(shù)據(jù)進行評估參數(shù)計算得到對應的第一評估參數(shù);并按所述評估參數(shù)規(guī)則對應的排序規(guī)則對所述第一評估參數(shù)進行排序;并基于所有所述第一評估參數(shù)的排序順序對各個所述第一評估參數(shù)對應的所述第二目標rna序列進行排序得到對應的第二目標rna序列排序陣列;并將得到的所述第二目標rna序列排序陣列作為所述目標rna序列排序處理的處理結果輸出;所述評估參數(shù)規(guī)則包括rna翻譯效率參數(shù)規(guī)則、rna翻譯速率參數(shù)規(guī)則和rna核糖體滯留頻率參數(shù)規(guī)則;所述rna翻譯效率參數(shù)規(guī)則為基于平均核糖體負載計算翻譯效率參數(shù)的對應規(guī)則,所述rna翻譯效率參數(shù)規(guī)則對應的排序規(guī)則為按翻譯效率從高到低的順序對所有所述第二目標rna序列進行排序;所述rna翻譯速率參數(shù)規(guī)則為基于平均核糖體負載計算翻譯速率參數(shù)的對應規(guī)則,所述rna翻譯速率參數(shù)規(guī)則對應的排序規(guī)則為先基于預先指定的多級翻譯速率范圍對所有所述第二目標rna序列按等級排序、再對同等級的多個所述第二目標rna序列按翻譯速率從高到低的順序排序;所述rna核糖體滯留頻率參數(shù)規(guī)則為基于平均核糖體負載計算核糖體滯留頻率參數(shù)的對應規(guī)則,所述rna核糖體滯留頻率參數(shù)規(guī)則對應的排序規(guī)則為按核糖體滯留頻率從低到高的順序對所有所述第二目標rna序列進行排序。
39、優(yōu)選的,所述基于所述第一預測系統(tǒng)對所述第一目標mrna序列進行序列優(yōu)化處理,具體包括:
40、步驟81,將所述第一目標mrna序列作為對應的當前mrna序列;
41、步驟82,將所述當前mrna序列輸入所述第一預測系統(tǒng);并由所述rna序列預訓練單元對所述當前mrna序列進行特征編碼并輸出對應的第四特征張量;并由所述rna序列特征降維單元對所述第四特征張量進行特征維度降維處理并輸出對應的第四降維張量;并由所述核糖體負載預測單元根據(jù)所述第四降維張量進行核糖體負載預測處理生成對應的第四預測張量;并由所述平均核糖體負載預測單元根據(jù)所述第四預測張量進行平均核糖體負載估算處理生成對應的第四估算數(shù)據(jù);并將所述第四估算數(shù)據(jù)作為所述第一預測系統(tǒng)的平均核糖體負載預測結果輸出;
42、步驟83,對所述第四估算數(shù)據(jù)是否超過預設的最優(yōu)平均核糖體負載閾值進行識別;若否,則轉至步驟84;若是,則轉至步驟85;
43、步驟84,朝著使所述核糖體負載預測單元的核糖體負載預測最大化的方向,基于預設的mrna序列優(yōu)化算法對所述當前mrna序列進行序列優(yōu)化處理得到對應的mrna優(yōu)化序列;并將所述mrna優(yōu)化序列作為新的所述當前mrna序列并返回步驟82;所述mrna序列優(yōu)化算法包括基于模擬退火算法實現(xiàn)的序列優(yōu)化算法和基于遺傳優(yōu)化算法實現(xiàn)的序列優(yōu)化算法;
44、步驟85,將最新的所述當前mrna序列作為所述序列優(yōu)化處理的處理結果輸出。
45、本發(fā)明實施例第二方面提供了一種用于實現(xiàn)上述第一方面所述的平均核糖體負載預測系統(tǒng)的處理方法的裝置,所述裝置包括:預測系統(tǒng)構建與訓練模塊、應用信息獲取模塊、一類應用處理模塊、二類應用處理模塊和三類應用處理模塊;
46、所述預測系統(tǒng)構建與訓練模塊用于構建平均核糖體負載預測系統(tǒng)記為對應的第一預測系統(tǒng);并構建數(shù)據(jù)集記為對應的第一數(shù)據(jù)集;并基于所述第一數(shù)據(jù)集對所述第一預測系統(tǒng)進行訓練;
47、所述應用信息獲取模塊用于在系統(tǒng)訓練結束之后,接收用戶輸入的系統(tǒng)應用模式和對應的系統(tǒng)應用數(shù)據(jù);所述系統(tǒng)應用模式包括單序列預測模式、多序列排序模式和單序列優(yōu)化模式;所述系統(tǒng)應用模式為單序列預測模式時,所述系統(tǒng)應用數(shù)據(jù)為對應的第一目標rna序列;所述系統(tǒng)應用模式為多序列排序模式時,所述系統(tǒng)應用數(shù)據(jù)為對應的多個第二目標rna序列;所述系統(tǒng)應用模式為單序列優(yōu)化模式時,所述系統(tǒng)應用數(shù)據(jù)為對應的第一目標mrna序列;
48、所述一類應用處理模塊用于當所述系統(tǒng)應用模式為單序列預測模式時,基于所述第一預測系統(tǒng)對所述第一目標rna序列進行平均核糖體負載預測處理;
49、所述二類應用處理模塊用于當所述系統(tǒng)應用模式為多序列排序模式時,基于所述第一預測系統(tǒng)對所述多個第二目標rna序列進行目標rna序列排序處理;
50、所述三類應用處理模塊用于當所述系統(tǒng)應用模式為單序列優(yōu)化模式時,基于所述第一預測系統(tǒng)對所述第一目標mrna序列進行序列優(yōu)化處理。
51、本發(fā)明實施例第三方面提供了一種電子設備,包括:存儲器、處理器和收發(fā)器;
52、所述處理器用于與所述存儲器耦合,讀取并執(zhí)行所述存儲器中的指令,以實現(xiàn)上述第一方面所述的方法步驟;
53、所述收發(fā)器與所述處理器耦合,由所述處理器控制所述收發(fā)器進行消息收發(fā)。
54、本發(fā)明實施例第四方面提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機指令,當所述計算機指令被計算機執(zhí)行時,使得所述計算機執(zhí)行上述第一方面所述的方法的指令。
55、本發(fā)明實施例提供了一種平均核糖體負載預測系統(tǒng)的處理方法、裝置、電子設備及計算機可讀存儲介質,以rna序列預訓練模型和核糖體負載預測模型為核心構建一個平均核糖體負載預測系統(tǒng),并基于三類數(shù)據(jù)集(全類型rna序列數(shù)據(jù)集、非編碼rna序列數(shù)據(jù)集、rna修飾序列數(shù)據(jù)集)對系統(tǒng)進行訓練以提高系統(tǒng)的通用性、適用性和預測準確度;并基于該系統(tǒng)設計三種應用模式(單序列預測模式、多序列排序模式和單序列優(yōu)化模式);在單序列預測模式下,基于該系統(tǒng)處理任意目標rna序列的平均核糖體負載預測任務;在多序列排序模式下,先基于該系統(tǒng)對多個目標rna序列進行平均核糖體負載預測,再結合預設的評估參數(shù)規(guī)則(rna翻譯效率參數(shù)規(guī)則、rna翻譯速率參數(shù)規(guī)則和rna核糖體滯留頻率參數(shù)規(guī)則)根據(jù)各個預測結果進行對應評估參數(shù)計算,再根據(jù)評估參數(shù)規(guī)則對應的排序規(guī)則對所有目標rna序列進行排序;在單序列優(yōu)化模式下,基于該系統(tǒng)對任意目標mrna序列的核糖體負載和平均核糖體負載進行預測,并基于平均核糖體負載確定是否進行優(yōu)化,并在確認需要優(yōu)化時朝著使核糖體負載預測最大化的方向對目標mrna序列進行優(yōu)化。通過本發(fā)明給出的平均核糖體負載預測系統(tǒng)提高了日常平均核糖體負載預測任務的預測效率與預測質量,通過本發(fā)明的三種應用模式給出了三種便利的rna序列研究工具、能幫助科研人員更好地理解rna序列與其所編碼的生物功能之間的關系。