本申請涉及文本處理,尤其涉及一種文本切分方法、裝置、設(shè)備、存儲介質(zhì)及產(chǎn)品。
背景技術(shù):
1、相關(guān)技術(shù)中,對長文檔進行切分處理是基礎(chǔ)且重要的一步。文檔切分的目的是將長篇的文檔分割成更小、更易于處理的單元,這些單元可以是句子、段落或者其他語義單位。
2、然而,目前對文檔切分處理時,由于噪聲等影響,可能導(dǎo)致切分結(jié)果的準(zhǔn)確性較差,出現(xiàn)由于個別異常值導(dǎo)致的整體性能下降的情況。
3、因此,如何提高文本切分的準(zhǔn)確性,是當(dāng)前亟待解決的問題。
技術(shù)實現(xiàn)思路
1、本申請的主要目的在于提供一種文本切分方法、裝置、設(shè)備、存儲介質(zhì)及產(chǎn)品,旨在解決如何提高文本切分的準(zhǔn)確性的技術(shù)問題。
2、為實現(xiàn)上述目的,本申請?zhí)岢鲆环N文本切分方法,文本切分方法包括:
3、獲取目標(biāo)長文本,所述目標(biāo)長文本包括多個依次排列的短句;
4、計算相鄰所述短句之間的相似度得分,得到所述目標(biāo)長文本的相似度序列;
5、對所述相似度序列進行平滑處理,得到平滑相似度序列;
6、基于所述平滑相似度序列以及拆分閾值,對所述目標(biāo)長文本進行切分。
7、在一些實施例中,對相似度序列進行平滑處理,得到平滑相似度序列,包括:
8、針對相似度序列中的首個相似度得分,基于首個相似度得分和首個相似度值的下一相似度得分,獲得首個相似度得分對應(yīng)的平滑相似度得分;
9、針對相似度序列中的末尾相似度得分,基于末尾相似度得分和末尾相似度值的上一相似度得分,獲得末尾相似度得分對應(yīng)的平滑相似度得分;
10、針對相似度序列中除首個相似度得分和末尾相似度得分之外的任一其余相似度得分,基于任一其余相似度得分、任一其余相似度得分的下一相似度得分以及上一相似度得分,獲得任一其余相似度得分對應(yīng)的平滑相似度得分。
11、在一些實施例中,基于平滑相似度序列以及拆分閾值,對目標(biāo)長文本進行切分,包括:
12、從平滑相似度序列中確定出初選切分得分;
13、將平滑相似度按照數(shù)值大小重新排序,得到新序列;
14、確定新序列的四分位間距值;
15、基于四分位間距值,確定出拆分閾值;
16、在初選切分得分小于或者等于拆分閾值的情況下,將初選切分得分作為有效切分得分;
17、將有效切分得分對應(yīng)的短句作為主題分界短句,對目標(biāo)長文本進行切分。
18、在一些實施例中,確定新序列的四分位間距值,包括:
19、確定出新序列的第一四分位值和第三四分位值;
20、針對第一四分位值和第三四分位值中的任一者,在新序列中確定出對應(yīng)的第一參數(shù)值和第二參數(shù)值,第一參數(shù)值在新序列的序號值與任一者的整數(shù)部分相等,第二參數(shù)值為第一參數(shù)值的下一參數(shù)值;
21、針對第一四分位值和第三四分位值中的任一者,將任一者的小數(shù)部分作為第二參數(shù)值的第二權(quán)重系數(shù),并基于第二權(quán)重系數(shù)確定出第一參數(shù)值的第一權(quán)重系數(shù);
22、針對第一四分位值和第三四分位值中的任一者,基于第一權(quán)重系數(shù)與第一參數(shù)值的乘積以及第二權(quán)重系數(shù)和第二參數(shù)值的乘積兩者的和,更新任一者,以確定出新序列的四分位間距值。
23、在一些實施例中,從平滑相似度序列中確定出初選切分得分,包括:
24、針對平滑相似度序列中的每一個平滑相似度得分,在平滑相似度得分小于前后兩個相鄰的平滑相似度得分的情況下,將平滑相似度得分確定為初選切分得分。
25、在一些實施例中,主題分界短句為所處的主題段落的結(jié)束語句。
26、此外,為實現(xiàn)上述目的,本申請還提出一種文本切分裝置,文本切分裝置包括:
27、文本獲取模塊,用于獲取目標(biāo)長文本,目標(biāo)長文本包括多個依次排列的短句;
28、序列獲取模塊,用于計算相鄰短句之間的相似度得分,得到目標(biāo)長文本的相似度序列;
29、平滑處理模塊,用于對相似度序列進行平滑處理,得到平滑相似度序列;
30、文本切分模塊,用于基于平滑相似度序列以及拆分閾值,對目標(biāo)長文本進行切分。
31、此外,為實現(xiàn)上述目的,本申請還提出一種文本切分設(shè)備,文本切分設(shè)備包括:存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述計算機程序配置為實現(xiàn)如上文所述的文本切分方法的步驟。
32、此外,為實現(xiàn)上述目的,本申請還提出一種存儲介質(zhì),存儲介質(zhì)為計算機可讀存儲介質(zhì),存儲介質(zhì)上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如上文所述的文本切分方法的步驟。
33、此外,為實現(xiàn)上述目的,本申請還提供一種計算機程序產(chǎn)品,計算機程序產(chǎn)品包括計算機程序,計算機程序被處理器執(zhí)行時實現(xiàn)如上文所述的文本切分方法的步驟。
34、本申請?zhí)岢龅囊粋€或多個技術(shù)方案,至少具有以下技術(shù)效果:
35、通過對相似度得分序列進行平滑,減弱極端相似度得分對整體序列的影響,避免因個別異常值導(dǎo)致的誤判或誤差,提高文本切分結(jié)果的穩(wěn)健性。另外,平滑處理還可以使相似度得分更好地反映文本中的短句之間的上下文關(guān)系,有助于更好地理解文本結(jié)構(gòu)和內(nèi)容,提升對目標(biāo)長文本執(zhí)行自然語言處理任務(wù)時的處理效果。
1.一種文本切分方法,其特征在于,所述文本切分方法包括:
2.如權(quán)利要求1所述的文本切分方法,其特征在于,所述對所述相似度序列進行平滑處理,得到平滑相似度序列,包括:
3.如權(quán)利要求1所述的文本切分方法,其特征在于,所述基于所述平滑相似度序列以及拆分閾值,對所述目標(biāo)長文本進行切分,包括:
4.如權(quán)利要求3所述的文本切分方法,其特征在于,所述確定所述新序列的四分位間距值,包括:
5.如權(quán)利要求3所述的文本切分方法,其特征在于,所述從所述平滑相似度序列中確定出初選切分得分,包括:
6.如權(quán)利要求3所述的文本切分方法,其特征在于,所述主題分界短句為所處的主題段落的結(jié)束語句。
7.一種文本切分裝置,其特征在于,所述文本切分裝置包括:
8.一種文本切分設(shè)備,其特征在于,所述文本切分設(shè)備包括:存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述計算機程序配置為實現(xiàn)如權(quán)利要求1至6中任一項所述的文本切分方法的步驟。
9.一種存儲介質(zhì),其特征在于,所述存儲介質(zhì)為計算機可讀存儲介質(zhì),所述存儲介質(zhì)上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至6中任一項所述的文本切分方法的步驟。
10.一種計算機程序產(chǎn)品,其特征在于,所述計算機程序產(chǎn)品包括計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至6中任一項所述的文本切分方法的步驟。