本技術(shù)涉及文本處理的,特別是涉及一種文本壓縮方法、文本解壓縮方法、模型訓(xùn)練方法、裝置和設(shè)備。
背景技術(shù):
1、隨著信息技術(shù)的飛速發(fā)展,全球數(shù)據(jù)量呈現(xiàn)爆炸式增長。在這一背景下,文本數(shù)據(jù)作為信息傳遞和知識存儲(chǔ)的重要形式,其處理和壓縮技術(shù)成為了研究的熱點(diǎn)。
2、常規(guī)的文本壓縮技術(shù),如huffman編碼和lempel-ziv-welch(lzw)編碼,通過分析文本中字符的出現(xiàn)頻率,構(gòu)建最優(yōu)前綴碼或通過字符串匹配實(shí)現(xiàn)壓縮。例如,huffman編碼通過構(gòu)建一個(gè)基于字符頻率的二叉樹,為每個(gè)字符分配一個(gè)唯一的變長編碼,從而實(shí)現(xiàn)壓縮。lzw算法則通過構(gòu)建一個(gè)字符串字典,將重復(fù)出現(xiàn)的字符串替換為字典中的索引,實(shí)現(xiàn)壓縮。
3、然而,隨著文本數(shù)據(jù)量的激增和語言結(jié)構(gòu)的復(fù)雜化,常規(guī)的文本壓縮技術(shù)的壓縮率較低以及解壓縮效果較差。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)目的是提供一種文本壓縮方法、文本解壓縮方法、模型訓(xùn)練方法、裝置和設(shè)備,能夠提高壓縮率和改善解壓縮效果。
2、第一方面,提供了一種文本壓縮方法,包括:
3、獲取待壓縮的目標(biāo)文本;
4、獲取文本壓縮模型,所述文本壓縮模型包括:特征提取模塊、q-former量化處理模塊;
5、將所述待壓縮的目標(biāo)文本輸入所述文本壓縮模型,以根據(jù)待壓縮的目標(biāo)文本利用所述特征提取模塊進(jìn)行特征提取,得到嵌入式向量序列;利用所述q-former量化處理模塊對所述嵌入式向量序列進(jìn)行量化處理,得到token序列,以實(shí)現(xiàn)文本壓縮。
6、本技術(shù)在一較佳示例中可以進(jìn)一步配置為:所述文本壓縮模型還包括:預(yù)處理模塊;
7、根據(jù)待壓縮的目標(biāo)文本利用所述特征提取模塊進(jìn)行特征提取,得到嵌入式向量序列之前,還包括:
8、利用所述預(yù)處理模塊對待壓縮的目標(biāo)文本進(jìn)行預(yù)處理,得到處理后的文本;
9、相應(yīng)的,所述根據(jù)待壓縮的目標(biāo)文本利用所述特征提取模塊進(jìn)行特征提取,得到嵌入式向量序列,包括:
10、利用所述特征提取模塊對所述處理后的文本進(jìn)行特征提取,得到嵌入式向量序列。
11、本技術(shù)在一較佳示例中可以進(jìn)一步配置為:所述特征提取模塊包括:gpt或xlnet。
12、本技術(shù)在一較佳示例中可以進(jìn)一步配置為:所述利用所述q-former量化處理模塊對所述嵌入式向量序列進(jìn)行量化處理,得到token序列,以實(shí)現(xiàn)文本壓縮,包括:
13、獲取量化粒度;基于所述量化粒度,利用所述q-former量化處理模塊對所述嵌入式向量序列進(jìn)行量化處理,得到token序列,以實(shí)現(xiàn)文本壓縮。
14、第二方面,提供了一種文本解壓縮方法,包括:
15、獲取token序列和請求語言,所述token序列是通過如第一方面任一項(xiàng)所述的文本壓縮方法得到的;
16、獲取用于解壓縮的大語言模型;
17、將所述token序列、請求語言輸入至所述大語言模型,以根據(jù)請求語言利用所述大語言模型對所述token序列進(jìn)行文本還原,得到輸出文本。
18、第三方面,提供了一種模型訓(xùn)練方法,包括:
19、獲取多個(gè)訓(xùn)練原始文本、請求語言和多個(gè)訓(xùn)練原始文本各自對應(yīng)的token序列;
20、獲取訓(xùn)練模型,所述訓(xùn)練模型包括壓縮訓(xùn)練模型和大語言訓(xùn)練模型,所述壓縮訓(xùn)練模型包括:特征提取訓(xùn)練模塊、q-former量化處理訓(xùn)練模塊;
21、將所述訓(xùn)練原始文本輸入至所述壓縮訓(xùn)練模型,以根據(jù)所述訓(xùn)練原始文本利用所述特征提取訓(xùn)練模塊進(jìn)行特征提取,得到訓(xùn)練嵌入式向量序列;利用所述q-former量化處理訓(xùn)練模塊對所述訓(xùn)練嵌入式向量序列進(jìn)行量化處理,得到訓(xùn)練token序列;
22、將所述訓(xùn)練token序列、請求語言輸入至所述大語言訓(xùn)練模型,以根據(jù)所述請求語言利用所述大語言訓(xùn)練模型對所述訓(xùn)練token序列進(jìn)行文本還原,得到訓(xùn)練輸出文本;
23、根據(jù)所述訓(xùn)練輸出文本和所述訓(xùn)練原始文本對所述訓(xùn)練模型進(jìn)行迭代訓(xùn)練,得到文本處理模型,所述文本處理模型包括:文本壓縮模型和大語言模型,所述文本壓縮模型用于對文本進(jìn)行壓縮,所述大語言模型用于對壓縮文本得到的token序列進(jìn)行解壓。
24、第四方面,提供了一種文本壓縮裝置,包括:
25、第一獲取模塊,用于獲取待壓縮的目標(biāo)文本;獲取文本壓縮模型,所述文本壓縮模型包括:特征提取模塊、q-former量化處理模塊;
26、壓縮模塊,用于將所述待壓縮的目標(biāo)文本輸入所述文本壓縮模型,以根據(jù)待壓縮的目標(biāo)文本利用所述特征提取模塊進(jìn)行特征提取,得到嵌入式向量序列;利用所述q-former量化處理模塊對所述嵌入式向量序列進(jìn)行量化處理,得到token序列,以實(shí)現(xiàn)文本壓縮。
27、第五方面,提供了一種文本解壓縮裝置,包括:
28、第二獲取模塊,用于獲取token序列和請求語言,所述token序列是通過如第一方面任一項(xiàng)所述的文本壓縮方法得到的;獲取用于解壓縮的大語言模型;
29、解壓模塊,用于將所述token序列、請求語言輸入至所述大語言模型,以根據(jù)請求語言利用所述大語言模型對所述token序列進(jìn)行文本還原,得到輸出文本。
30、第六方面,提供了一種模型訓(xùn)練裝置,包括:
31、第三獲取模塊,用于獲取多個(gè)訓(xùn)練原始文本、請求語言和多個(gè)訓(xùn)練原始文本各自對應(yīng)的token序列;獲取訓(xùn)練模型,所述訓(xùn)練模型包括壓縮訓(xùn)練模型和大語言訓(xùn)練模型,所述壓縮訓(xùn)練模型包括:特征提取訓(xùn)練模塊、q-former量化處理訓(xùn)練模塊;
32、訓(xùn)練模塊,用于將所述訓(xùn)練原始文本輸入至所述壓縮訓(xùn)練模型,以根據(jù)所述訓(xùn)練原始文本利用所述特征提取訓(xùn)練模塊進(jìn)行特征提取,得到訓(xùn)練嵌入式向量序列;利用所述q-former量化處理訓(xùn)練模塊對所述訓(xùn)練嵌入式向量序列進(jìn)行量化處理,得到訓(xùn)練token序列;將所述訓(xùn)練token序列、請求語言輸入至所述大語言訓(xùn)練模型,以根據(jù)所述請求語言利用所述大語言訓(xùn)練模型對所述訓(xùn)練token序列進(jìn)行文本還原,得到訓(xùn)練輸出文本;根據(jù)所述訓(xùn)練輸出文本和所述訓(xùn)練原始文本對所述訓(xùn)練模型進(jìn)行迭代訓(xùn)練,得到文本處理模型,所述文本處理模型包括:文本壓縮模型和大語言模型,所述文本壓縮模型用于對文本進(jìn)行壓縮,所述大語言模型用于對壓縮文本得到的token序列進(jìn)行解壓。
33、第七方面,提供了一種電子設(shè)備,包括:
34、一個(gè)或多個(gè)處理器;
35、存儲(chǔ)器;
36、一個(gè)或多個(gè)應(yīng)用程序,其中一個(gè)或多個(gè)應(yīng)用程序被存儲(chǔ)在存儲(chǔ)器中并被配置為由一個(gè)或多個(gè)處理器執(zhí)行,一個(gè)或多個(gè)程序配置用于:執(zhí)行根據(jù)第一方面中任一可能的實(shí)現(xiàn)方式所示的方法對應(yīng)的操作,或,執(zhí)行根據(jù)第二方面的實(shí)現(xiàn)方式所示的方法對應(yīng)的操作,或,執(zhí)行根據(jù)第三方面的實(shí)現(xiàn)方式所示的方法對應(yīng)的操作。
37、第八方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)介質(zhì)存儲(chǔ)有至少一條指令、至少一段程序、代碼集或指令集,至少一條指令、至少一段程序、代碼集或指令集由處理器加載并執(zhí)行根據(jù)第一方面中任一可能的實(shí)現(xiàn)方式所示的方法對應(yīng)的操作,或,執(zhí)行根據(jù)第二方面的實(shí)現(xiàn)方式所示的方法對應(yīng)的操作,或,執(zhí)行根據(jù)第三方面的實(shí)現(xiàn)方式所示的方法對應(yīng)的操作。
38、第九方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)根據(jù)第一方面中任一可能的實(shí)現(xiàn)方式所示的方法對應(yīng)的操作,或,根據(jù)第二方面的實(shí)現(xiàn)方式所示的方法對應(yīng)的操作,或,根據(jù)第三方面的實(shí)現(xiàn)方式所示的方法對應(yīng)的操作。
39、綜上所述,本技術(shù)提供的文本壓縮方法包括以下有益技術(shù)效果:
40、獲取待壓縮的目標(biāo)文本,將待壓縮的目標(biāo)文本輸入文本壓縮模型的特征提取模塊,利用深度學(xué)習(xí)技術(shù)捕捉文本的語義和句法特征,將提取出的關(guān)鍵信息并以嵌入式向量序列的形式表示;利用q-former量化處理模塊對嵌入式向量序列進(jìn)行量化處理,將連續(xù)的嵌入式向量序列轉(zhuǎn)化為離散的token序列,實(shí)現(xiàn)了文本信息的有效壓縮。采用特征提取模塊與q-former結(jié)構(gòu)結(jié)合的形式,能夠顯著降低文本數(shù)據(jù)的冗余性,同時(shí)保持對原始文本的高質(zhì)量還原能力。
41、此外,本技術(shù)還提供了一種文本解壓縮方法、模型訓(xùn)練方法、裝置和設(shè)備,均具有上述有益技術(shù)效果。