本技術(shù)涉及自然語言處理,尤其涉及一種文本處理方法、訓(xùn)練數(shù)據(jù)集的構(gòu)建方法、對話方法及相關(guān)產(chǎn)品。
背景技術(shù):
1、隨著自然語言處理技術(shù)的發(fā)展,利用語言模型基于文本執(zhí)行任務(wù)的需求越來越大。而在利用語言模型基于文本執(zhí)行任務(wù)之前,需要利用大量文本對語言模型進(jìn)行訓(xùn)練,因此,如何獲得可用于訓(xùn)練語言模型的文本集具有非常重要的意義。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)提供一種文本處理方法、訓(xùn)練數(shù)據(jù)集的構(gòu)建方法、對話方法及相關(guān)產(chǎn)品,以得到文本集中的目標(biāo)文本,其中,相關(guān)產(chǎn)品包括文本處理裝置、訓(xùn)練數(shù)據(jù)集的構(gòu)建裝置、對話裝置、電子設(shè)備、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)及計(jì)算機(jī)程序產(chǎn)品。
2、第一方面,提供了一種文本處理方法,所述方法用于構(gòu)建文本集,所述文本集為目標(biāo)文本的集合,所述方法包括:
3、獲取待處理文本集,所述待處理文本集包括兩個(gè)或兩個(gè)以上的待處理文本,所述待處理文本的數(shù)據(jù)量小于第一閾值;
4、從所述待處理文本集中選取一個(gè)所述待處理文本,作為初始文本,所述待處理文本集中與所述初始文本不同的所述待處理文本為候選文本;
5、在將對所述初始文本與所述候選文本拼接作為隨機(jī)事件,且所述隨機(jī)事件發(fā)生的概率為目標(biāo)概率的情況下,確定是否對所述初始文本與所述候選文本拼接;
6、在確定不對所述初始文本與所述候選文本拼接的情況下,將所述初始文本作為所述目標(biāo)文本;
7、在確定對所述初始文本與所述候選文本拼接的情況下,將所述初始文本與所述候選文本拼接得到拼接文本;
8、在所述拼接文本的數(shù)據(jù)量大于或等于所述第一閾值的情況下,將所述拼接文本作為所述目標(biāo)文本。
9、結(jié)合本技術(shù)任一實(shí)施方式,在得到所述拼接文本之后,所述方法還包括:
10、在所述拼接文本的數(shù)據(jù)量小于所述第一閾值的情況下,將所述拼接文本作為所述初始文本。
11、結(jié)合本技術(shù)任一實(shí)施方式,所述待處理文本包括第一文本和第二文本,所述第一文本的數(shù)據(jù)量大于或等于第二閾值,所述第二文本的數(shù)據(jù)量小于所述第二閾值,所述第二閾值小于所述第一閾值;
12、所述第二文本的數(shù)量與所述第一文本的數(shù)量的差異大于或等于第三閾值。
13、結(jié)合本技術(shù)任一實(shí)施方式,所述獲取待處理文本集,包括:
14、獲取原始文本集,所述原始文本集為所述第一文本和所述第二文本的集合,所述第二文本的數(shù)量與所述第一文本的數(shù)量的差異大于或等于第四閾值,所述第四閾值大于所述第三閾值;
15、通過對所述原始文本集中的所述第一文本進(jìn)行復(fù)制,得到所述待處理文本集。
16、結(jié)合本技術(shù)任一實(shí)施方式,所述通過對所述原始文本集中的所述長文本進(jìn)行復(fù)制,得到所述待處理文本集,包括:
17、對所述原始文本集中的所述第一文本進(jìn)行復(fù)制,得到副本文本;
18、將所述副本文本添加至所述原始文本集,得到擴(kuò)充文本集;
19、為所述擴(kuò)充文本集中的文本添加序號,得到所述待處理文本集,所述序號為所述待處理文本集中的文本被選取的次序,任意兩個(gè)所述副本文本的所述序號的差大于或等于第五閾值。
20、結(jié)合本技術(shù)任一實(shí)施方式,目標(biāo)領(lǐng)域包括所述第一文本的內(nèi)容所涉及的領(lǐng)域和所述第二文本的內(nèi)容所涉及的領(lǐng)域,所述目標(biāo)領(lǐng)域包括兩個(gè)或兩個(gè)以上不同的領(lǐng)域。
21、結(jié)合本技術(shù)任一實(shí)施方式,所述在將對所述初始文本與所述候選文本拼接作為隨機(jī)事件,且所述隨機(jī)事件發(fā)生的概率為目標(biāo)概率的情況下,確定是否對所述初始文本與所述候選文本拼接,包括:
22、從目標(biāo)分布中采樣得到參考值,所述目標(biāo)分布為預(yù)設(shè)區(qū)間內(nèi)的分布,且所述目標(biāo)分布在所述預(yù)設(shè)區(qū)間內(nèi)服從均勻分布;
23、確定所述預(yù)設(shè)區(qū)間內(nèi)小于或等于所述參考值的數(shù)在所述預(yù)設(shè)區(qū)間內(nèi)的占比,作為采樣概率;
24、在所述采樣概率大于或等于所述目標(biāo)概率的情況下,確定不對所述初始文本與所述候選文本拼接;
25、在所述采樣概率小于所述目標(biāo)概率的情況下,確定對所述初始文本與所述候選文本拼接。
26、結(jié)合本技術(shù)任一實(shí)施方式,所述在所述采樣概率大于或等于所述目標(biāo)概率的情況下,確定對所述初始文本與所述候選文本拼接,包括:
27、在所述采樣概率大于或等于所述目標(biāo)概率的情況下,確定所述初始文本中的內(nèi)容與所述候選文本中的內(nèi)容的目標(biāo)相似度;
28、在所述目標(biāo)相似度小于或等于第六閾值的情況下,確定對所述初始文本與所述候選文本拼接。
29、第二方面,提供了一種訓(xùn)練數(shù)據(jù)集的構(gòu)建方法,所述方法用于構(gòu)建訓(xùn)練數(shù)據(jù)集,所述訓(xùn)練數(shù)據(jù)集為訓(xùn)練數(shù)據(jù)的集合,所述訓(xùn)練數(shù)據(jù)包括第一提示詞和第一標(biāo)簽,所述第一提示詞用于引導(dǎo)語言模型基于目標(biāo)文本執(zhí)行任務(wù),所述第一標(biāo)簽包括基于所述目標(biāo)文本執(zhí)行任務(wù)的結(jié)果,所述方法包括:
30、獲取已標(biāo)注數(shù)據(jù)集,所述已標(biāo)注數(shù)據(jù)集包括兩個(gè)或兩個(gè)以上的已標(biāo)注數(shù)據(jù),所述已標(biāo)注數(shù)據(jù)包括第二提示詞和第二標(biāo)簽,所述第二提示詞用于引導(dǎo)語言模型基于待處理文本執(zhí)行任務(wù),所述第二標(biāo)簽包括基于所述待處理文本執(zhí)行任務(wù)的結(jié)果,所述待處理文本的數(shù)據(jù)量小于第一閾值;
31、從所述已標(biāo)注數(shù)據(jù)集中選取一個(gè)所述已標(biāo)注數(shù)據(jù),作為初始數(shù)據(jù),所述已標(biāo)注數(shù)據(jù)集中與所述初始數(shù)據(jù)不同的所述已標(biāo)注數(shù)據(jù)為候選數(shù)據(jù);
32、在將對所述初始數(shù)據(jù)與所述候選數(shù)據(jù)拼接作為隨機(jī)事件,且所述隨機(jī)事件發(fā)生的概率為目標(biāo)概率的情況下,確定是否對所述初始數(shù)據(jù)與所述候選數(shù)據(jù)拼接;
33、在確定不對所述初始數(shù)據(jù)與所述候選數(shù)據(jù)拼接的情況下,將所述初始數(shù)據(jù)作為所述訓(xùn)練數(shù)據(jù);
34、在確定對所述初始數(shù)據(jù)與所述候選數(shù)據(jù)拼接的情況下,將所述初始數(shù)據(jù)與所述候選數(shù)據(jù)拼接得到拼接數(shù)據(jù),所述拼接數(shù)據(jù)包括第三提示詞和第三標(biāo)簽,所述第三提示詞用于引導(dǎo)語言模型基于拼接文本執(zhí)行任務(wù),所述第三標(biāo)簽包括基于所述拼接文本執(zhí)行任務(wù)的結(jié)果,所述拼接文本通過對所述初始數(shù)據(jù)的所述待處理文本和所述候選數(shù)據(jù)的所述待處理文本進(jìn)行拼接得到,所述拼接數(shù)據(jù)的第三標(biāo)簽包括所述初始數(shù)據(jù)的所述第二標(biāo)簽和所述候選數(shù)據(jù)的所述第三標(biāo)簽;
35、在所述拼接文本的數(shù)據(jù)量大于或等于所述第一閾值的情況下,將所述第三提示詞作為所述第一提示詞、將所述第三標(biāo)簽作為所述第一標(biāo)簽,得到所述訓(xùn)練數(shù)據(jù)。
36、結(jié)合本技術(shù)任一實(shí)施方式,在得到拼接數(shù)據(jù)后,所述方法還包括:
37、在所述拼接文本的數(shù)據(jù)量小于所述第一閾值的情況下,將所述拼接數(shù)據(jù)作為所述初始數(shù)據(jù)。
38、結(jié)合本技術(shù)任一實(shí)施方式,所述待處理文本包括第一文本和第二文本,所述第一文本的數(shù)據(jù)量大于或等于第二閾值,所述第二文本的數(shù)據(jù)量小于所述第二閾值,所述第二閾值小于所述第一閾值;
39、包括所述第二文本的所述已標(biāo)注數(shù)據(jù)的數(shù)量與包括所述第一文本的所述已標(biāo)注數(shù)據(jù)的數(shù)量的差異大于或等于第三閾值。
40、結(jié)合本技術(shù)任一實(shí)施方式,所述獲取已標(biāo)注數(shù)據(jù)集,包括:
41、獲取原始數(shù)據(jù)集,所述原始數(shù)據(jù)集為長數(shù)據(jù)和短數(shù)據(jù)的集合;所述長數(shù)據(jù)包括第四提示詞和第四標(biāo)簽,所述第四提示詞用于引導(dǎo)語言模型基于所述第一文本執(zhí)行任務(wù),所述第四標(biāo)簽包括基于所述第一文本執(zhí)行任務(wù)的結(jié)果;所述短數(shù)據(jù)包括第五提示詞和第五標(biāo)簽,所述第五提示詞用于引導(dǎo)語言模型基于所述第二文本執(zhí)行任務(wù),所述第五標(biāo)簽包括基于所述第二文本執(zhí)行任務(wù)的結(jié)果;所述短數(shù)據(jù)的數(shù)量與所述長數(shù)據(jù)的數(shù)量的差異大于或等于第四閾值,所述第四閾值大于所述第三閾值;
42、通過對所述原始數(shù)據(jù)集中的所述長數(shù)據(jù)進(jìn)行復(fù)制,得到所述已標(biāo)注數(shù)據(jù)集。
43、結(jié)合本技術(shù)任一實(shí)施方式,所述通過對所述原始數(shù)據(jù)集中的所述長數(shù)據(jù)進(jìn)行復(fù)制,得到所述已標(biāo)注數(shù)據(jù)集,包括:
44、對所述原始數(shù)據(jù)集中的所述長數(shù)據(jù)進(jìn)行復(fù)制,得到副本數(shù)據(jù);
45、將所述副本數(shù)據(jù)添加至所述原始數(shù)據(jù)集,得到擴(kuò)充數(shù)據(jù)集;
46、為所述擴(kuò)充數(shù)據(jù)集中的數(shù)據(jù)添加序號,得到所述已標(biāo)注數(shù)據(jù)集,所述序號為所述已標(biāo)注數(shù)據(jù)集中的數(shù)據(jù)被選取的次序,任意兩個(gè)所述副本數(shù)據(jù)的所述序號的差大于或等于第五閾值。
47、結(jié)合本技術(shù)任一實(shí)施方式,目標(biāo)領(lǐng)域包括所述第一文本的內(nèi)容所涉及的領(lǐng)域和所述第二文本的內(nèi)容所涉及的領(lǐng)域,所述目標(biāo)領(lǐng)域包括兩個(gè)或兩個(gè)以上不同的領(lǐng)域。
48、結(jié)合本技術(shù)任一實(shí)施方式,所述在將對所述初始數(shù)據(jù)與所述候選數(shù)據(jù)拼接作為隨機(jī)事件,且所述隨機(jī)事件發(fā)生的概率為目標(biāo)概率的情況下,確定是否對所述初始數(shù)據(jù)與所述候選數(shù)據(jù)拼接,包括:
49、從目標(biāo)分布中采樣得到參考值,所述目標(biāo)分布在預(yù)設(shè)區(qū)間內(nèi)服從均勻分布;
50、確定所述預(yù)設(shè)區(qū)間內(nèi)小于或等于所述參考值的數(shù)在所述預(yù)設(shè)區(qū)間內(nèi)的占比,作為采樣概率;
51、在所述采樣概率小于所述目標(biāo)概率的情況下,確定不對所述初始數(shù)據(jù)與所述候選數(shù)據(jù)拼接;
52、在所述采樣概率大于或等于所述目標(biāo)概率的情況下,確定對所述初始數(shù)據(jù)與所述候選數(shù)據(jù)拼接。
53、結(jié)合本技術(shù)任一實(shí)施方式,所述在所述采樣概率大于或等于所述目標(biāo)概率的情況下,確定對所述初始數(shù)據(jù)與所述候選數(shù)據(jù)拼接,包括:
54、在所述采樣概率大于或等于所述目標(biāo)概率的情況下,確定所述初始數(shù)據(jù)中的內(nèi)容與所述候選數(shù)據(jù)中的內(nèi)容的參考相似度;
55、在所述參考相似度小于或等于第六閾值的情況下,確定對所述初始數(shù)據(jù)與所述候選數(shù)據(jù)拼接。
56、第三方面,提供了一種對話方法,所述方法包括:
57、獲取目標(biāo)問題和參考文本;
58、將所述參考文本輸入至目標(biāo)語言模型,以使所述目標(biāo)語言模型基于所述參考文本,回答所述目標(biāo)問題,得到目標(biāo)答案;所述目標(biāo)語言模型是利用文本集進(jìn)行訓(xùn)練得到,所述文本集中的目標(biāo)文本是根據(jù)第一方面及其任一實(shí)施方式得到的;所述目標(biāo)語言模型或者是利用訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練得到,所述訓(xùn)練數(shù)據(jù)集中的訓(xùn)練數(shù)據(jù)是根據(jù)第二方面及其任一實(shí)施方式得到的。
59、第四方面,提供了一種文本處理裝置,所述文本處理裝置用于構(gòu)建文本集,所述文本集為目標(biāo)文本的集合,所述文本處理裝置包括:
60、獲取單元,用于獲取待處理文本集,所述待處理文本集包括兩個(gè)或兩個(gè)以上的待處理文本,所述待處理文本的數(shù)據(jù)量小于第一閾值;
61、處理單元,用于從所述待處理文本集中選取一個(gè)所述待處理文本,作為初始文本,所述待處理文本集中與所述初始文本不同的所述待處理文本為候選文本;
62、確定單元,用于在將對所述初始文本與所述候選文本拼接作為隨機(jī)事件,且所述隨機(jī)事件發(fā)生的概率為目標(biāo)概率的情況下,確定是否對所述初始文本與所述候選文本拼接;
63、所述處理單元,用于在確定不對所述初始文本與所述候選文本拼接的情況下,將所述初始文本作為所述目標(biāo)文本;
64、所述拼接單元,用于在確定對所述初始文本與所述候選文本拼接的情況下,將所述初始文本與所述候選文本拼接得到拼接文本;
65、所述處理單元,用于在所述拼接文本的數(shù)據(jù)量大于或等于所述第一閾值的情況下,將所述拼接文本作為所述目標(biāo)文本。
66、結(jié)合本技術(shù)任一實(shí)施方式,所述處理單元,還用于:
67、在所述拼接文本的數(shù)據(jù)量小于所述第一閾值的情況下,將所述拼接文本作為所述初始文本。
68、結(jié)合本技術(shù)任一實(shí)施方式,所述待處理文本包括第一文本和第二文本,所述第一文本的數(shù)據(jù)量大于或等于第二閾值,所述第二文本的數(shù)據(jù)量小于所述第二閾值,所述第二閾值小于所述第一閾值;
69、所述第二文本的數(shù)量與所述第一文本的數(shù)量的差異大于或等于第三閾值。
70、結(jié)合本技術(shù)任一實(shí)施方式,所述獲取單元,具體用于:
71、獲取原始文本集,所述原始文本集為所述第一文本和所述第二文本的集合,所述第二文本的數(shù)量與所述第一文本的數(shù)量的差異大于或等于第四閾值,所述第四閾值大于所述第三閾值;
72、通過對所述原始文本集中的所述第一文本進(jìn)行復(fù)制,得到所述待處理文本集。
73、結(jié)合本技術(shù)任一實(shí)施方式,所述獲取單元,具體用于:
74、對所述原始文本集中的所述第一文本進(jìn)行復(fù)制,得到副本文本;
75、將所述副本文本添加至所述原始文本集,得到擴(kuò)充文本集;
76、為所述擴(kuò)充文本集中的文本添加序號,得到所述待處理文本集,所述序號為所述待處理文本集中的文本被選取的次序,任意兩個(gè)所述副本文本的所述序號的差大于或等于第五閾值。
77、結(jié)合本技術(shù)任一實(shí)施方式,目標(biāo)領(lǐng)域包括所述第一文本的內(nèi)容所涉及的領(lǐng)域和所述第二文本的內(nèi)容所涉及的領(lǐng)域,所述目標(biāo)領(lǐng)域包括兩個(gè)或兩個(gè)以上不同的領(lǐng)域。
78、結(jié)合本技術(shù)任一實(shí)施方式,所述確定單元,具體用于:
79、從目標(biāo)分布中采樣得到參考值,所述目標(biāo)分布為預(yù)設(shè)區(qū)間內(nèi)的分布,且所述目標(biāo)分布在所述預(yù)設(shè)區(qū)間內(nèi)服從均勻分布;
80、確定所述預(yù)設(shè)區(qū)間內(nèi)小于或等于所述參考值的數(shù)在所述預(yù)設(shè)區(qū)間內(nèi)的占比,作為采樣概率;
81、在所述采樣概率大于或等于所述目標(biāo)概率的情況下,確定不對所述初始文本與所述候選文本拼接;
82、在所述采樣概率小于所述目標(biāo)概率的情況下,確定對所述初始文本與所述候選文本拼接。
83、結(jié)合本技術(shù)任一實(shí)施方式,所述確定單元,具體用于:
84、在所述采樣概率大于或等于所述目標(biāo)概率的情況下,確定所述初始文本中的內(nèi)容與所述候選文本中的內(nèi)容的目標(biāo)相似度;
85、在所述目標(biāo)相似度小于或等于第六閾值的情況下,確定對所述初始文本與所述候選文本拼接。
86、第五方面,提供了一種訓(xùn)練數(shù)據(jù)集的構(gòu)建裝置,所述訓(xùn)練數(shù)據(jù)集的構(gòu)建裝置用于構(gòu)建訓(xùn)練數(shù)據(jù)集,所述訓(xùn)練數(shù)據(jù)集為訓(xùn)練數(shù)據(jù)的集合,所述訓(xùn)練數(shù)據(jù)包括第一提示詞和第一標(biāo)簽,所述第一提示詞用于引導(dǎo)語言模型基于目標(biāo)文本執(zhí)行任務(wù),所述第一標(biāo)簽包括基于所述目標(biāo)文本執(zhí)行任務(wù)的結(jié)果,所述訓(xùn)練數(shù)據(jù)集的構(gòu)建裝置包括:
87、獲取單元,用于獲取已標(biāo)注數(shù)據(jù)集,所述已標(biāo)注數(shù)據(jù)集包括兩個(gè)或兩個(gè)以上的已標(biāo)注數(shù)據(jù),所述已標(biāo)注數(shù)據(jù)包括第二提示詞和第二標(biāo)簽,所述第二提示詞用于引導(dǎo)語言模型基于待處理文本執(zhí)行任務(wù),所述第二標(biāo)簽包括基于所述待處理文本執(zhí)行任務(wù)的結(jié)果,所述待處理文本的數(shù)據(jù)量小于第一閾值;
88、處理單元,用于從所述已標(biāo)注數(shù)據(jù)集中選取一個(gè)所述已標(biāo)注數(shù)據(jù),作為初始數(shù)據(jù),所述已標(biāo)注數(shù)據(jù)集中與所述初始數(shù)據(jù)不同的所述已標(biāo)注數(shù)據(jù)為候選數(shù)據(jù);
89、確定單元,用于在將對所述初始數(shù)據(jù)與所述候選數(shù)據(jù)拼接作為隨機(jī)事件,且所述隨機(jī)事件發(fā)生的概率為目標(biāo)概率的情況下,確定是否對所述初始數(shù)據(jù)與所述候選數(shù)據(jù)拼接;
90、所述處理單元,用于在確定不對所述初始數(shù)據(jù)與所述候選數(shù)據(jù)拼接的情況下,將所述初始數(shù)據(jù)作為所述訓(xùn)練數(shù)據(jù);
91、拼接單元,用于在確定對所述初始數(shù)據(jù)與所述候選數(shù)據(jù)拼接的情況下,將所述初始數(shù)據(jù)與所述候選數(shù)據(jù)拼接得到拼接數(shù)據(jù),所述拼接數(shù)據(jù)包括第三提示詞和第三標(biāo)簽,所述第三提示詞用于引導(dǎo)語言模型基于拼接文本執(zhí)行任務(wù),所述第三標(biāo)簽包括基于所述拼接文本執(zhí)行任務(wù)的結(jié)果,所述拼接文本通過對所述初始數(shù)據(jù)的所述待處理文本和所述候選數(shù)據(jù)的所述待處理文本進(jìn)行拼接得到,所述拼接數(shù)據(jù)的第三標(biāo)簽包括所述初始數(shù)據(jù)的所述第二標(biāo)簽和所述候選數(shù)據(jù)的所述第三標(biāo)簽;
92、所述處理單元,用于在所述拼接文本的數(shù)據(jù)量大于或等于所述第一閾值的情況下,將所述第三提示詞作為所述第一提示詞、將所述第三標(biāo)簽作為所述第一標(biāo)簽,得到所述訓(xùn)練數(shù)據(jù)。
93、結(jié)合本技術(shù)任一實(shí)施方式,所述處理單元,還用于:
94、在所述拼接文本的數(shù)據(jù)量小于所述第一閾值的情況下,將所述拼接數(shù)據(jù)作為所述初始數(shù)據(jù)。
95、結(jié)合本技術(shù)任一實(shí)施方式,所述待處理文本包括第一文本和第二文本,所述第一文本的數(shù)據(jù)量大于或等于第二閾值,所述第二文本的數(shù)據(jù)量小于所述第二閾值,所述第二閾值小于所述第一閾值;
96、包括所述第二文本的所述已標(biāo)注數(shù)據(jù)的數(shù)量與包括所述第一文本的所述已標(biāo)注數(shù)據(jù)的數(shù)量的差異大于或等于第三閾值。
97、結(jié)合本技術(shù)任一實(shí)施方式,所述獲取單元,具體用于:
98、獲取原始數(shù)據(jù)集,所述原始數(shù)據(jù)集為長數(shù)據(jù)和短數(shù)據(jù)的集合;所述長數(shù)據(jù)包括第四提示詞和第四標(biāo)簽,所述第四提示詞用于引導(dǎo)語言模型基于所述第一文本執(zhí)行任務(wù),所述第四標(biāo)簽包括基于所述第一文本執(zhí)行任務(wù)的結(jié)果;所述短數(shù)據(jù)包括第五提示詞和第五標(biāo)簽,所述第五提示詞用于引導(dǎo)語言模型基于所述第二文本執(zhí)行任務(wù),所述第五標(biāo)簽包括基于所述第二文本執(zhí)行任務(wù)的結(jié)果;所述短數(shù)據(jù)的數(shù)量與所述長數(shù)據(jù)的數(shù)量的差異大于或等于第四閾值,所述第四閾值大于所述第三閾值;
99、通過對所述原始數(shù)據(jù)集中的所述長數(shù)據(jù)進(jìn)行復(fù)制,得到所述已標(biāo)注數(shù)據(jù)集。
100、結(jié)合本技術(shù)任一實(shí)施方式,所述獲取單元,具體用于:
101、對所述原始數(shù)據(jù)集中的所述長數(shù)據(jù)進(jìn)行復(fù)制,得到副本數(shù)據(jù);
102、將所述副本數(shù)據(jù)添加至所述原始數(shù)據(jù)集,得到擴(kuò)充數(shù)據(jù)集;
103、為所述擴(kuò)充數(shù)據(jù)集中的數(shù)據(jù)添加序號,得到所述已標(biāo)注數(shù)據(jù)集,所述序號為所述已標(biāo)注數(shù)據(jù)集中的數(shù)據(jù)被選取的次序,任意兩個(gè)所述副本數(shù)據(jù)的所述序號的差大于或等于第五閾值。
104、結(jié)合本技術(shù)任一實(shí)施方式,目標(biāo)領(lǐng)域包括所述第一文本的內(nèi)容所涉及的領(lǐng)域和所述第二文本的內(nèi)容所涉及的領(lǐng)域,所述目標(biāo)領(lǐng)域包括兩個(gè)或兩個(gè)以上不同的領(lǐng)域。
105、結(jié)合本技術(shù)任一實(shí)施方式,所述確定單元,具體用于:
106、從目標(biāo)分布中采樣得到參考值,所述目標(biāo)分布在預(yù)設(shè)區(qū)間內(nèi)服從均勻分布;
107、確定所述預(yù)設(shè)區(qū)間內(nèi)小于或等于所述參考值的數(shù)在所述預(yù)設(shè)區(qū)間內(nèi)的占比,作為采樣概率;
108、在所述采樣概率小于所述目標(biāo)概率的情況下,確定不對所述初始數(shù)據(jù)與所述候選數(shù)據(jù)拼接;
109、在所述采樣概率大于或等于所述目標(biāo)概率的情況下,確定對所述初始數(shù)據(jù)與所述候選數(shù)據(jù)拼接。
110、結(jié)合本技術(shù)任一實(shí)施方式,所述確定單元,具體用于:
111、在所述采樣概率大于或等于所述目標(biāo)概率的情況下,確定所述初始數(shù)據(jù)中的內(nèi)容與所述候選數(shù)據(jù)中的內(nèi)容的參考相似度;
112、在所述參考相似度小于或等于第六閾值的情況下,確定對所述初始數(shù)據(jù)與所述候選數(shù)據(jù)拼接。
113、第六方面,提供了一種對話裝置,所述對話裝置包括:
114、獲取單元,用于獲取目標(biāo)問題和參考文本;
115、回答單元,用于將所述參考文本輸入至目標(biāo)語言模型,以使所述目標(biāo)語言模型基于所述參考文本,回答所述目標(biāo)問題,得到目標(biāo)答案;所述目標(biāo)語言模型是利用文本集進(jìn)行訓(xùn)練得到,所述文本集中的目標(biāo)文本是根據(jù)第一方面及其任一實(shí)施方式得到的;所述目標(biāo)語言模型或者是利用訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練得到,所述訓(xùn)練數(shù)據(jù)集中的訓(xùn)練數(shù)據(jù)是根據(jù)第二方面及其任一實(shí)施方式得到的。
116、第七方面,提供了一種電子設(shè)備,包括:處理器和存儲(chǔ)器,所述存儲(chǔ)器用于存儲(chǔ)計(jì)算機(jī)程序代碼,所述計(jì)算機(jī)程序代碼包括計(jì)算機(jī)指令,在所述處理器執(zhí)行所述計(jì)算機(jī)指令的情況下,所述電子設(shè)備執(zhí)行如上述第一方面及其任一實(shí)施方式,所述電子設(shè)備或者執(zhí)行如上述第二方面及其任一實(shí)施方式,所述電子設(shè)備或者執(zhí)行如上述第三方面的技術(shù)方案。
117、第八方面,提供了另一種電子設(shè)備,包括:處理器、發(fā)送裝置、輸入裝置、輸出裝置和存儲(chǔ)器,所述存儲(chǔ)器用于存儲(chǔ)計(jì)算機(jī)程序代碼,所述計(jì)算機(jī)程序代碼包括計(jì)算機(jī)指令,在所述處理器執(zhí)行所述計(jì)算機(jī)指令的情況下,所述電子設(shè)備執(zhí)行如上述第一方面及其任一實(shí)施方式,所述電子設(shè)備或者執(zhí)行如上述第二方面及其任一實(shí)施方式,所述電子設(shè)備或者執(zhí)行如上述第三方面的技術(shù)方案。
118、第九方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序包括程序指令,在所述程序指令被處理器執(zhí)行的情況下,使所述處理器執(zhí)行如上述第一方面及其任一實(shí)施方式,或者使所述處理器執(zhí)行如上述第二方面及其任一實(shí)施方式,或者使所述處理器執(zhí)行如上述第三方面的技術(shù)方案。
119、第十方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)程序或指令,在所述計(jì)算機(jī)程序或指令在計(jì)算機(jī)上運(yùn)行的情況下,使得所述計(jì)算機(jī)執(zhí)行上述第一方面及其任一實(shí)施方式,或者使得所述計(jì)算機(jī)執(zhí)行上述第二方面及其任一實(shí)施方式,或者使得所述計(jì)算機(jī)執(zhí)行上述第三方面的技術(shù)方案。
120、應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,而非限制本技術(shù)。
121、本技術(shù)中,待處理文本集包括兩個(gè)或兩個(gè)以上的待處理文本,其中,待處理文本的數(shù)據(jù)量小于第一閾值,即待處理文本集包括兩個(gè)或兩個(gè)以上的短文本。文本處理裝置在獲取待處理文本集后,從待處理文本集中選取一個(gè)待處理文本,作為初始文本,此時(shí)待處理文本集中與初始文本不同的待處理文本為候選文本。在將對初始文本與候選文本拼接作為隨機(jī)事件,且隨機(jī)事件發(fā)生的概率為目標(biāo)概率的情況下,確定是否對初始文本與候選文本拼接,這樣就有可能對初始文本與候選文本拼接,也有可能不對初始文本與候選文本拼接。在確定不對初始文本與候選文本拼接的情況下,將初始文本作為目標(biāo)文本,由此可使目標(biāo)文本為短文本,進(jìn)而使文本集包括短文本。在確定對初始文本與候選文本拼接的情況下,將初始文本與候選文本拼接得到拼接文本。在拼接文本的數(shù)據(jù)量大于或等于第一閾值的情況下,將拼接文本作為目標(biāo)文本,由此可使目標(biāo)文本為長文本,進(jìn)而使文本集包括長文本??偟膩碚f,通過本技術(shù)實(shí)施例得到目標(biāo)文本,既可使目標(biāo)文本為短文本,又可使目標(biāo)文本為長文本,由此在文本集為目標(biāo)文本的集合的情況下,可使文本集既包括長文本又包括短文本。