一種文本壓縮方法、文本解壓縮方法、模型訓(xùn)練方法、裝置和設(shè)備與流程

文檔序號：40611678發(fā)布日期：2025-01-07 20:55閱讀：10來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種文本壓縮方法、文本解壓縮方法、模型訓(xùn)練方法、裝置和設(shè)備與流程

本技術(shù)涉及文本處理的，特別是涉及一種文本壓縮方法、文本解壓縮方法、模型訓(xùn)練方法、裝置和設(shè)備。

背景技術(shù)：

1、隨著信息技術(shù)的飛速發(fā)展，全球數(shù)據(jù)量呈現(xiàn)爆炸式增長。在這一背景下，文本數(shù)據(jù)作為信息傳遞和知識存儲(chǔ)的重要形式，其處理和壓縮技術(shù)成為了研究的熱點(diǎn)。

2、常規(guī)的文本壓縮技術(shù)，如huffman編碼和lempel-ziv-welch(lzw)編碼，通過分析文本中字符的出現(xiàn)頻率，構(gòu)建最優(yōu)前綴碼或通過字符串匹配實(shí)現(xiàn)壓縮。例如，huffman編碼通過構(gòu)建一個(gè)基于字符頻率的二叉樹，為每個(gè)字符分配一個(gè)唯一的變長編碼，從而實(shí)現(xiàn)壓縮。lzw算法則通過構(gòu)建一個(gè)字符串字典，將重復(fù)出現(xiàn)的字符串替換為字典中的索引，實(shí)現(xiàn)壓縮。

3、然而，隨著文本數(shù)據(jù)量的激增和語言結(jié)構(gòu)的復(fù)雜化，常規(guī)的文本壓縮技術(shù)的壓縮率較低以及解壓縮效果較差。

技術(shù)實(shí)現(xiàn)思路

1、本技術(shù)目的是提供一種文本壓縮方法、文本解壓縮方法、模型訓(xùn)練方法、裝置和設(shè)備，能夠提高壓縮率和改善解壓縮效果。

2、第一方面，提供了一種文本壓縮方法，包括：

3、獲取待壓縮的目標(biāo)文本；

4、獲取文本壓縮模型，所述文本壓縮模型包括：特征提取模塊、q-former量化處理模塊；

5、將所述待壓縮的目標(biāo)文本輸入所述文本壓縮模型，以根據(jù)待壓縮的目標(biāo)文本利用所述特征提取模塊進(jìn)行特征提取，得到嵌入式向量序列；利用所述q-former量化處理模塊對所述嵌入式向量序列進(jìn)行量化處理，得到token序列，以實(shí)現(xiàn)文本壓縮。

6、本技術(shù)在一較佳示例中可以進(jìn)一步配置為：所述文本壓縮模型還包括：預(yù)處理模塊；

7、根據(jù)待壓縮的目標(biāo)文本利用所述特征提取模塊進(jìn)行特征提取，得到嵌入式向量序列之前，還包括：

8、利用所述預(yù)處理模塊對待壓縮的目標(biāo)文本進(jìn)行預(yù)處理，得到處理后的文本；

9、相應(yīng)的，所述根據(jù)待壓縮的目標(biāo)文本利用所述特征提取模塊進(jìn)行特征提取，得到嵌入式向量序列，包括：

10、利用所述特征提取模塊對所述處理后的文本進(jìn)行特征提取，得到嵌入式向量序列。

11、本技術(shù)在一較佳示例中可以進(jìn)一步配置為：所述特征提取模塊包括：gpt或xlnet。

12、本技術(shù)在一較佳示例中可以進(jìn)一步配置為：所述利用所述q-former量化處理模塊對所述嵌入式向量序列進(jìn)行量化處理，得到token序列，以實(shí)現(xiàn)文本壓縮，包括：

13、獲取量化粒度；基于所述量化粒度，利用所述q-former量化處理模塊對所述嵌入式向量序列進(jìn)行量化處理，得到token序列，以實(shí)現(xiàn)文本壓縮。

14、第二方面，提供了一種文本解壓縮方法，包括：

15、獲取token序列和請求語言，所述token序列是通過如第一方面任一項(xiàng)所述的文本壓縮方法得到的；

16、獲取用于解壓縮的大語言模型；

17、將所述token序列、請求語言輸入至所述大語言模型，以根據(jù)請求語言利用所述大語言模型對所述token序列進(jìn)行文本還原，得到輸出文本。

18、第三方面，提供了一種模型訓(xùn)練方法，包括：

19、獲取多個(gè)訓(xùn)練原始文本、請求語言和多個(gè)訓(xùn)練原始文本各自對應(yīng)的token序列；

20、獲取訓(xùn)練模型，所述訓(xùn)練模型包括壓縮訓(xùn)練模型和大語言訓(xùn)練模型，所述壓縮訓(xùn)練模型包括：特征提取訓(xùn)練模塊、q-former量化處理訓(xùn)練模塊；

21、將所述訓(xùn)練原始文本輸入至所述壓縮訓(xùn)練模型，以根據(jù)所述訓(xùn)練原始文本利用所述特征提取訓(xùn)練模塊進(jìn)行特征提取，得到訓(xùn)練嵌入式向量序列；利用所述q-former量化處理訓(xùn)練模塊對所述訓(xùn)練嵌入式向量序列進(jìn)行量化處理，得到訓(xùn)練token序列；

22、將所述訓(xùn)練token序列、請求語言輸入至所述大語言訓(xùn)練模型，以根據(jù)所述請求語言利用所述大語言訓(xùn)練模型對所述訓(xùn)練token序列進(jìn)行文本還原，得到訓(xùn)練輸出文本；

23、根據(jù)所述訓(xùn)練輸出文本和所述訓(xùn)練原始文本對所述訓(xùn)練模型進(jìn)行迭代訓(xùn)練，得到文本處理模型，所述文本處理模型包括：文本壓縮模型和大語言模型，所述文本壓縮模型用于對文本進(jìn)行壓縮，所述大語言模型用于對壓縮文本得到的token序列進(jìn)行解壓。

24、第四方面，提供了一種文本壓縮裝置，包括：

25、第一獲取模塊，用于獲取待壓縮的目標(biāo)文本；獲取文本壓縮模型，所述文本壓縮模型包括：特征提取模塊、q-former量化處理模塊；

26、壓縮模塊，用于將所述待壓縮的目標(biāo)文本輸入所述文本壓縮模型，以根據(jù)待壓縮的目標(biāo)文本利用所述特征提取模塊進(jìn)行特征提取，得到嵌入式向量序列；利用所述q-former量化處理模塊對所述嵌入式向量序列進(jìn)行量化處理，得到token序列，以實(shí)現(xiàn)文本壓縮。

27、第五方面，提供了一種文本解壓縮裝置，包括：

28、第二獲取模塊，用于獲取token序列和請求語言，所述token序列是通過如第一方面任一項(xiàng)所述的文本壓縮方法得到的；獲取用于解壓縮的大語言模型；

29、解壓模塊，用于將所述token序列、請求語言輸入至所述大語言模型，以根據(jù)請求語言利用所述大語言模型對所述token序列進(jìn)行文本還原，得到輸出文本。

30、第六方面，提供了一種模型訓(xùn)練裝置，包括：

31、第三獲取模塊，用于獲取多個(gè)訓(xùn)練原始文本、請求語言和多個(gè)訓(xùn)練原始文本各自對應(yīng)的token序列；獲取訓(xùn)練模型，所述訓(xùn)練模型包括壓縮訓(xùn)練模型和大語言訓(xùn)練模型，所述壓縮訓(xùn)練模型包括：特征提取訓(xùn)練模塊、q-former量化處理訓(xùn)練模塊；

32、訓(xùn)練模塊，用于將所述訓(xùn)練原始文本輸入至所述壓縮訓(xùn)練模型，以根據(jù)所述訓(xùn)練原始文本利用所述特征提取訓(xùn)練模塊進(jìn)行特征提取，得到訓(xùn)練嵌入式向量序列；利用所述q-former量化處理訓(xùn)練模塊對所述訓(xùn)練嵌入式向量序列進(jìn)行量化處理，得到訓(xùn)練token序列；將所述訓(xùn)練token序列、請求語言輸入至所述大語言訓(xùn)練模型，以根據(jù)所述請求語言利用所述大語言訓(xùn)練模型對所述訓(xùn)練token序列進(jìn)行文本還原，得到訓(xùn)練輸出文本；根據(jù)所述訓(xùn)練輸出文本和所述訓(xùn)練原始文本對所述訓(xùn)練模型進(jìn)行迭代訓(xùn)練，得到文本處理模型，所述文本處理模型包括：文本壓縮模型和大語言模型，所述文本壓縮模型用于對文本進(jìn)行壓縮，所述大語言模型用于對壓縮文本得到的token序列進(jìn)行解壓。

33、第七方面，提供了一種電子設(shè)備，包括：

34、一個(gè)或多個(gè)處理器；

35、存儲(chǔ)器；

36、一個(gè)或多個(gè)應(yīng)用程序，其中一個(gè)或多個(gè)應(yīng)用程序被存儲(chǔ)在存儲(chǔ)器中并被配置為由一個(gè)或多個(gè)處理器執(zhí)行，一個(gè)或多個(gè)程序配置用于：執(zhí)行根據(jù)第一方面中任一可能的實(shí)現(xiàn)方式所示的方法對應(yīng)的操作，或，執(zhí)行根據(jù)第二方面的實(shí)現(xiàn)方式所示的方法對應(yīng)的操作，或，執(zhí)行根據(jù)第三方面的實(shí)現(xiàn)方式所示的方法對應(yīng)的操作。

37、第八方面，提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，存儲(chǔ)介質(zhì)存儲(chǔ)有至少一條指令、至少一段程序、代碼集或指令集，至少一條指令、至少一段程序、代碼集或指令集由處理器加載并執(zhí)行根據(jù)第一方面中任一可能的實(shí)現(xiàn)方式所示的方法對應(yīng)的操作，或，執(zhí)行根據(jù)第二方面的實(shí)現(xiàn)方式所示的方法對應(yīng)的操作，或，執(zhí)行根據(jù)第三方面的實(shí)現(xiàn)方式所示的方法對應(yīng)的操作。

38、第九方面，提供了一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)根據(jù)第一方面中任一可能的實(shí)現(xiàn)方式所示的方法對應(yīng)的操作，或，根據(jù)第二方面的實(shí)現(xiàn)方式所示的方法對應(yīng)的操作，或，根據(jù)第三方面的實(shí)現(xiàn)方式所示的方法對應(yīng)的操作。

39、綜上所述，本技術(shù)提供的文本壓縮方法包括以下有益技術(shù)效果：

40、獲取待壓縮的目標(biāo)文本，將待壓縮的目標(biāo)文本輸入文本壓縮模型的特征提取模塊，利用深度學(xué)習(xí)技術(shù)捕捉文本的語義和句法特征，將提取出的關(guān)鍵信息并以嵌入式向量序列的形式表示；利用q-former量化處理模塊對嵌入式向量序列進(jìn)行量化處理，將連續(xù)的嵌入式向量序列轉(zhuǎn)化為離散的token序列，實(shí)現(xiàn)了文本信息的有效壓縮。采用特征提取模塊與q-former結(jié)構(gòu)結(jié)合的形式，能夠顯著降低文本數(shù)據(jù)的冗余性，同時(shí)保持對原始文本的高質(zhì)量還原能力。

41、此外，本技術(shù)還提供了一種文本解壓縮方法、模型訓(xùn)練方法、裝置和設(shè)備，均具有上述有益技術(shù)效果。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王若飛,尹順順,張璐,陶明
技術(shù)所有人：上海任意門科技有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種文本壓縮方法、文本解壓縮方法、模型訓(xùn)練方法、裝置和設(shè)備與流程

一種文本壓縮方法、文本解壓縮方法、模型訓(xùn)練方法、裝置和設(shè)備與流程