两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種文本壓縮方法、文本解壓縮方法、模型訓(xùn)練方法、裝置和設(shè)備與流程

文檔序號:40611678發(fā)布日期:2025-01-07 20:55閱讀:10來源:國知局
一種文本壓縮方法、文本解壓縮方法、模型訓(xùn)練方法、裝置和設(shè)備與流程

本技術(shù)涉及文本處理的,特別是涉及一種文本壓縮方法、文本解壓縮方法、模型訓(xùn)練方法、裝置和設(shè)備。


背景技術(shù):

1、隨著信息技術(shù)的飛速發(fā)展,全球數(shù)據(jù)量呈現(xiàn)爆炸式增長。在這一背景下,文本數(shù)據(jù)作為信息傳遞和知識存儲(chǔ)的重要形式,其處理和壓縮技術(shù)成為了研究的熱點(diǎn)。

2、常規(guī)的文本壓縮技術(shù),如huffman編碼和lempel-ziv-welch(lzw)編碼,通過分析文本中字符的出現(xiàn)頻率,構(gòu)建最優(yōu)前綴碼或通過字符串匹配實(shí)現(xiàn)壓縮。例如,huffman編碼通過構(gòu)建一個(gè)基于字符頻率的二叉樹,為每個(gè)字符分配一個(gè)唯一的變長編碼,從而實(shí)現(xiàn)壓縮。lzw算法則通過構(gòu)建一個(gè)字符串字典,將重復(fù)出現(xiàn)的字符串替換為字典中的索引,實(shí)現(xiàn)壓縮。

3、然而,隨著文本數(shù)據(jù)量的激增和語言結(jié)構(gòu)的復(fù)雜化,常規(guī)的文本壓縮技術(shù)的壓縮率較低以及解壓縮效果較差。


技術(shù)實(shí)現(xiàn)思路

1、本技術(shù)目的是提供一種文本壓縮方法、文本解壓縮方法、模型訓(xùn)練方法、裝置和設(shè)備,能夠提高壓縮率和改善解壓縮效果。

2、第一方面,提供了一種文本壓縮方法,包括:

3、獲取待壓縮的目標(biāo)文本;

4、獲取文本壓縮模型,所述文本壓縮模型包括:特征提取模塊、q-former量化處理模塊;

5、將所述待壓縮的目標(biāo)文本輸入所述文本壓縮模型,以根據(jù)待壓縮的目標(biāo)文本利用所述特征提取模塊進(jìn)行特征提取,得到嵌入式向量序列;利用所述q-former量化處理模塊對所述嵌入式向量序列進(jìn)行量化處理,得到token序列,以實(shí)現(xiàn)文本壓縮。

6、本技術(shù)在一較佳示例中可以進(jìn)一步配置為:所述文本壓縮模型還包括:預(yù)處理模塊;

7、根據(jù)待壓縮的目標(biāo)文本利用所述特征提取模塊進(jìn)行特征提取,得到嵌入式向量序列之前,還包括:

8、利用所述預(yù)處理模塊對待壓縮的目標(biāo)文本進(jìn)行預(yù)處理,得到處理后的文本;

9、相應(yīng)的,所述根據(jù)待壓縮的目標(biāo)文本利用所述特征提取模塊進(jìn)行特征提取,得到嵌入式向量序列,包括:

10、利用所述特征提取模塊對所述處理后的文本進(jìn)行特征提取,得到嵌入式向量序列。

11、本技術(shù)在一較佳示例中可以進(jìn)一步配置為:所述特征提取模塊包括:gpt或xlnet。

12、本技術(shù)在一較佳示例中可以進(jìn)一步配置為:所述利用所述q-former量化處理模塊對所述嵌入式向量序列進(jìn)行量化處理,得到token序列,以實(shí)現(xiàn)文本壓縮,包括:

13、獲取量化粒度;基于所述量化粒度,利用所述q-former量化處理模塊對所述嵌入式向量序列進(jìn)行量化處理,得到token序列,以實(shí)現(xiàn)文本壓縮。

14、第二方面,提供了一種文本解壓縮方法,包括:

15、獲取token序列和請求語言,所述token序列是通過如第一方面任一項(xiàng)所述的文本壓縮方法得到的;

16、獲取用于解壓縮的大語言模型;

17、將所述token序列、請求語言輸入至所述大語言模型,以根據(jù)請求語言利用所述大語言模型對所述token序列進(jìn)行文本還原,得到輸出文本。

18、第三方面,提供了一種模型訓(xùn)練方法,包括:

19、獲取多個(gè)訓(xùn)練原始文本、請求語言和多個(gè)訓(xùn)練原始文本各自對應(yīng)的token序列;

20、獲取訓(xùn)練模型,所述訓(xùn)練模型包括壓縮訓(xùn)練模型和大語言訓(xùn)練模型,所述壓縮訓(xùn)練模型包括:特征提取訓(xùn)練模塊、q-former量化處理訓(xùn)練模塊;

21、將所述訓(xùn)練原始文本輸入至所述壓縮訓(xùn)練模型,以根據(jù)所述訓(xùn)練原始文本利用所述特征提取訓(xùn)練模塊進(jìn)行特征提取,得到訓(xùn)練嵌入式向量序列;利用所述q-former量化處理訓(xùn)練模塊對所述訓(xùn)練嵌入式向量序列進(jìn)行量化處理,得到訓(xùn)練token序列;

22、將所述訓(xùn)練token序列、請求語言輸入至所述大語言訓(xùn)練模型,以根據(jù)所述請求語言利用所述大語言訓(xùn)練模型對所述訓(xùn)練token序列進(jìn)行文本還原,得到訓(xùn)練輸出文本;

23、根據(jù)所述訓(xùn)練輸出文本和所述訓(xùn)練原始文本對所述訓(xùn)練模型進(jìn)行迭代訓(xùn)練,得到文本處理模型,所述文本處理模型包括:文本壓縮模型和大語言模型,所述文本壓縮模型用于對文本進(jìn)行壓縮,所述大語言模型用于對壓縮文本得到的token序列進(jìn)行解壓。

24、第四方面,提供了一種文本壓縮裝置,包括:

25、第一獲取模塊,用于獲取待壓縮的目標(biāo)文本;獲取文本壓縮模型,所述文本壓縮模型包括:特征提取模塊、q-former量化處理模塊;

26、壓縮模塊,用于將所述待壓縮的目標(biāo)文本輸入所述文本壓縮模型,以根據(jù)待壓縮的目標(biāo)文本利用所述特征提取模塊進(jìn)行特征提取,得到嵌入式向量序列;利用所述q-former量化處理模塊對所述嵌入式向量序列進(jìn)行量化處理,得到token序列,以實(shí)現(xiàn)文本壓縮。

27、第五方面,提供了一種文本解壓縮裝置,包括:

28、第二獲取模塊,用于獲取token序列和請求語言,所述token序列是通過如第一方面任一項(xiàng)所述的文本壓縮方法得到的;獲取用于解壓縮的大語言模型;

29、解壓模塊,用于將所述token序列、請求語言輸入至所述大語言模型,以根據(jù)請求語言利用所述大語言模型對所述token序列進(jìn)行文本還原,得到輸出文本。

30、第六方面,提供了一種模型訓(xùn)練裝置,包括:

31、第三獲取模塊,用于獲取多個(gè)訓(xùn)練原始文本、請求語言和多個(gè)訓(xùn)練原始文本各自對應(yīng)的token序列;獲取訓(xùn)練模型,所述訓(xùn)練模型包括壓縮訓(xùn)練模型和大語言訓(xùn)練模型,所述壓縮訓(xùn)練模型包括:特征提取訓(xùn)練模塊、q-former量化處理訓(xùn)練模塊;

32、訓(xùn)練模塊,用于將所述訓(xùn)練原始文本輸入至所述壓縮訓(xùn)練模型,以根據(jù)所述訓(xùn)練原始文本利用所述特征提取訓(xùn)練模塊進(jìn)行特征提取,得到訓(xùn)練嵌入式向量序列;利用所述q-former量化處理訓(xùn)練模塊對所述訓(xùn)練嵌入式向量序列進(jìn)行量化處理,得到訓(xùn)練token序列;將所述訓(xùn)練token序列、請求語言輸入至所述大語言訓(xùn)練模型,以根據(jù)所述請求語言利用所述大語言訓(xùn)練模型對所述訓(xùn)練token序列進(jìn)行文本還原,得到訓(xùn)練輸出文本;根據(jù)所述訓(xùn)練輸出文本和所述訓(xùn)練原始文本對所述訓(xùn)練模型進(jìn)行迭代訓(xùn)練,得到文本處理模型,所述文本處理模型包括:文本壓縮模型和大語言模型,所述文本壓縮模型用于對文本進(jìn)行壓縮,所述大語言模型用于對壓縮文本得到的token序列進(jìn)行解壓。

33、第七方面,提供了一種電子設(shè)備,包括:

34、一個(gè)或多個(gè)處理器;

35、存儲(chǔ)器;

36、一個(gè)或多個(gè)應(yīng)用程序,其中一個(gè)或多個(gè)應(yīng)用程序被存儲(chǔ)在存儲(chǔ)器中并被配置為由一個(gè)或多個(gè)處理器執(zhí)行,一個(gè)或多個(gè)程序配置用于:執(zhí)行根據(jù)第一方面中任一可能的實(shí)現(xiàn)方式所示的方法對應(yīng)的操作,或,執(zhí)行根據(jù)第二方面的實(shí)現(xiàn)方式所示的方法對應(yīng)的操作,或,執(zhí)行根據(jù)第三方面的實(shí)現(xiàn)方式所示的方法對應(yīng)的操作。

37、第八方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)介質(zhì)存儲(chǔ)有至少一條指令、至少一段程序、代碼集或指令集,至少一條指令、至少一段程序、代碼集或指令集由處理器加載并執(zhí)行根據(jù)第一方面中任一可能的實(shí)現(xiàn)方式所示的方法對應(yīng)的操作,或,執(zhí)行根據(jù)第二方面的實(shí)現(xiàn)方式所示的方法對應(yīng)的操作,或,執(zhí)行根據(jù)第三方面的實(shí)現(xiàn)方式所示的方法對應(yīng)的操作。

38、第九方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)根據(jù)第一方面中任一可能的實(shí)現(xiàn)方式所示的方法對應(yīng)的操作,或,根據(jù)第二方面的實(shí)現(xiàn)方式所示的方法對應(yīng)的操作,或,根據(jù)第三方面的實(shí)現(xiàn)方式所示的方法對應(yīng)的操作。

39、綜上所述,本技術(shù)提供的文本壓縮方法包括以下有益技術(shù)效果:

40、獲取待壓縮的目標(biāo)文本,將待壓縮的目標(biāo)文本輸入文本壓縮模型的特征提取模塊,利用深度學(xué)習(xí)技術(shù)捕捉文本的語義和句法特征,將提取出的關(guān)鍵信息并以嵌入式向量序列的形式表示;利用q-former量化處理模塊對嵌入式向量序列進(jìn)行量化處理,將連續(xù)的嵌入式向量序列轉(zhuǎn)化為離散的token序列,實(shí)現(xiàn)了文本信息的有效壓縮。采用特征提取模塊與q-former結(jié)構(gòu)結(jié)合的形式,能夠顯著降低文本數(shù)據(jù)的冗余性,同時(shí)保持對原始文本的高質(zhì)量還原能力。

41、此外,本技術(shù)還提供了一種文本解壓縮方法、模型訓(xùn)練方法、裝置和設(shè)備,均具有上述有益技術(shù)效果。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
酉阳| 周宁县| 宁化县| 平舆县| 石渠县| 瑞昌市| 新乡市| 桦川县| 包头市| 汝城县| 黄山市| 延寿县| 哈密市| 桃源县| 瓦房店市| 正镶白旗| 仪陇县| 三台县| 曲沃县| 峨眉山市| 迁西县| 文昌市| 山阳县| 阿巴嘎旗| 松原市| 长岛县| 盐津县| 和林格尔县| 蒙城县| 浦城县| 新野县| 绥江县| 竹溪县| 乐业县| 通城县| 黄平县| 平武县| 长子县| 沙田区| 东源县| 台州市|