本公開涉及自然語言處理,尤其涉及一種文本查重并突出顯示的方法、裝置、存儲介質(zhì)、程序產(chǎn)品。
背景技術(shù):
1、隨著數(shù)字化文檔的廣泛應用,文本查重在學術(shù)研究、內(nèi)容創(chuàng)作、法律文件審查等領(lǐng)域的重要性日益凸顯。傳統(tǒng)查重工具能夠?qū)ξ谋具M行快速查重并在檢測到重復內(nèi)容后進行突出顯示,以便用戶快速定位和處理,但這種突出顯示往往與文本的原始格式相沖突。然而,這種突出顯示功能在實際應用中卻存在顯著的局限性,由于傳統(tǒng)查重工具的設(shè)計側(cè)重于快速查重和高亮顯示,往往忽略了文本的原始格式保留問題,導致突出顯示部分與文本的原始格式產(chǎn)生沖突,這種沖突可能表現(xiàn)為突出顯示部分覆蓋或影響文本原有的編輯格式,如字體、樣式、布局等,進而干擾用戶的文檔編輯習慣。
技術(shù)實現(xiàn)思路
1、有鑒于此,本公開實施例提供了一種文本查重并突出顯示的方法、裝置、存儲介質(zhì)、程序產(chǎn)品,能夠在提高查重精度的同時,確保目標文本的原始格式不被破壞,提高用戶使用體驗。
2、第一方面,本公開實施例提供了一種文本查重并突出顯示的方法,采用如下技術(shù)方案:
3、接收目標文本,對所述目標文本進行結(jié)構(gòu)化解析,分離出原始格式和第一純文本;
4、基于第一長度閾值和第二長度閾值,獲取所述第一純文本與預設(shè)文本之間的重復片段;
5、定位所述重復片段在所述第一純文本中的起止位置;
6、根據(jù)所述起止位置在所述第一純文本中添加突出顯示標記,形成帶有突出顯示標記的文本結(jié)構(gòu);
7、將所述文本結(jié)構(gòu)與所述原始格式整合,生成格式化文本;
8、對所述格式文本進行展示。
9、可選地,所述接收目標文本,對所述目標文本進行結(jié)構(gòu)化解析,分離出原始格式和第一純文本,包括:
10、通過接口服務接收所述目標文本,對所述目標文本進行安全檢測;
11、若安全檢測通過,則采用預設(shè)的分離工具將所述目標文本中的文本內(nèi)容轉(zhuǎn)化為所述第一純文本,并從所述目標文本中提取出所述原始格式并存儲到數(shù)據(jù)庫中;
12、若安全檢測未通過,則向用戶終端設(shè)備傳輸文本優(yōu)化提示。
13、可選地,所述基于第一長度閾值和第二長度閾值,獲取所述第一純文本與預設(shè)文本之間的重復片段,包括:
14、對所述第一純文本進行粗粒度語義劃分,獲得多個語義片段;
15、對所述多個語義片段進行細粒度語義劃分,獲得多個句子;
16、基于第一長度閾值和第二長度閾值,對所述多個句子進行長度標準化,得到多個標準短句;
17、對所述預設(shè)文本進行內(nèi)容提取,獲得第二純文本;
18、將所述第二純文本劃分為多個語段;
19、獲取所述標準短句與每個語段之間的相似度;
20、當最大相似度不小于預設(shè)相似度閾值時,獲取所述標準短句的連續(xù)重復字數(shù);
21、當所述連續(xù)重復字數(shù)不小于預設(shè)字數(shù)閾值時,將所述標準短句判定為所述重復片段。
22、可選地,所述基于第一長度閾值和第二長度閾值,對所述多個句子進行長度標準化,得到多個標準短句,包括:
23、按照所述多個句子在所述第一純文本中的先后位置,對所述多個句子進行排序,獲取句子總數(shù);
24、判斷第i個句子是否小于所述第二長度閾值,i初始為1;
25、若小于所述第二長度閾值,則將第i個句子與第i+1個句子合并,形成新的句子,i=i+2;
26、若不小于所述第二長度閾值,則i=i+1;
27、當i等于句子總數(shù)時,判斷所述句子是否大于所述第一長度閾值;
28、若不大于所述第一長度閾值,則將所述句子判定為標準短句;
29、若大于所述第一長度閾值,則檢測所述句子中是否包含結(jié)束標志關(guān)鍵詞;
30、若不包含所述結(jié)束標志關(guān)鍵詞,則基于標點符號將所述句子劃分為標準短句;
31、若包含所述結(jié)束標志關(guān)鍵詞,則判斷所述結(jié)束標志關(guān)鍵詞的數(shù)量是否大于1;
32、若不大于1,則基于所述結(jié)束標志關(guān)鍵詞和標點符號將所述句子劃分為標準短句;
33、若大于1,則分別以每個結(jié)束標志關(guān)鍵詞為節(jié)點,將所述句子劃分為多對短句;
34、獲取每對短句之間的長度差值,選擇長度差值最小的一對短句為標準短句。
35、可選地,在所述基于第一長度閾值和第二長度閾值,對所述多個句子進行長度標準化,得到多個標準短句之前,還包括:
36、基于所述多個句子構(gòu)建句子長度分布圖;
37、獲取所述句子長度分布圖中的最大值和最小值;
38、基于所述最大值和所述最小值獲取中位數(shù);
39、基于所述中位數(shù)在所述句子長度分布圖中繪制中位線,將所述句子長度分布圖劃分為上區(qū)域和下區(qū)域;
40、獲取所述上區(qū)域的第一面積和所述下區(qū)域的第二面積;
41、若所述第一面積等于所述第二面積,則將預設(shè)第一閾值判定為所述第一長度閾值,將預設(shè)第二閾值判定為所述第二長度閾值;
42、若所述第一面積不等于所述第二面積,則基于所述中位數(shù)、所述第一面積、所述第二面積,獲取調(diào)整倍數(shù);
43、基于所述預設(shè)第一閾值、所述預設(shè)第二閾值和所述調(diào)整倍數(shù),獲取所述第一長度閾值和所述第二長度閾值。
44、可選地,所述調(diào)整倍數(shù)的計算公式如下:
45、
46、其中,f為調(diào)整倍數(shù);a為第一面積;b為第二面積;t1為預設(shè)第一閾值;t2為預設(shè)第二閾值;m為中位數(shù);為預設(shè)的正數(shù)。
47、可選地,所述根據(jù)所述起止位置在所述第一純文本中添加突出顯示標記,形成帶有突出顯示標記的文本結(jié)構(gòu),包括:
48、根據(jù)獲取的每個起止位置,分別在所述第一純文本中添加一對內(nèi)聯(lián)樣式標簽;
49、在每對內(nèi)聯(lián)樣式標簽中嵌入預設(shè)的高亮顏色代碼,形成帶有突出顯示標記的文本結(jié)構(gòu)。
50、第二方面,本公開實施例還提供了一種文本查重并突出顯示的系統(tǒng),采用如下技術(shù)方案:
51、分離模塊,用于接收目標文本,對所述目標文本進行結(jié)構(gòu)化解析,分離出原始格式和第一純文本;
52、獲取模塊,用于基于第一長度閾值和第二長度閾值,獲取所述第一純文本與預設(shè)文本之間的重復片段;
53、定位模塊,用于定位所述重復片段在所述第一純文本中的起止位置;
54、添加模塊,用于根據(jù)所述起止位置在所述第一純文本中添加突出顯示標記,形成帶有突出顯示標記的文本結(jié)構(gòu);
55、整合模塊,用于將所述文本結(jié)構(gòu)與所述原始格式整合,生成格式化文本;
56、展示模塊,用于對所述格式文本進行展示。
57、第三方面,本公開實施例還提供了一種計算機裝置,采用如下技術(shù)方案:
58、所述計算機裝置包括:
59、至少一個處理器;以及,
60、與所述至少一個處理器通信連接的存儲器;其中,
61、所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令,所述指令被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行以上任一所述的文本查重并突出顯示的方法。
62、第四方面,本公開實施例還提供了一種計算機可讀存儲介質(zhì),該計算機可讀存儲介質(zhì)存儲計算機指令,該計算機指令用于使計算機執(zhí)行以上任一所述的文本查重并突出顯示的方法?。
63、第五方面,本公開實施例還提供了一種計算機程序產(chǎn)品,包括計算機程序/指令,該計算機程序/指令被處理器執(zhí)行時實現(xiàn)以上任一項所述方法的步驟。
64、本公開實施例提供的文本查重并突出顯示的方法,通過結(jié)構(gòu)化解析和對純文本的處理,能夠快速識別出目標文本與預設(shè)文本之間的重復片段,在此過程中,通過第一長度閾值和第二長度閾值,有效減少傳統(tǒng)查重方法中可能存在的誤差或遺漏,提高了查重的準確性。通過精確地定位重復片段在第一純文本中的起止位置,并在這些位置上添加突出顯示標記,確保了高亮顯示的精確性,用戶可以直觀地看到哪些部分是重復的,這種視覺上的強調(diào)使得查重結(jié)果更加明顯,便于用戶快速識別重復內(nèi)容。通過在查重過程中分離出原始格式,并在最終生成格式化文本時進行整合,確保查重結(jié)果在顯示時保持原始文本的格式(如段落、字體、字號、對齊方式等),這樣既保證了查重結(jié)果的準確性,也提升了用戶體驗。從接收目標文本、解析、分離、定位重復片段、添加標記到最終生成格式化文本,整個過程都是自動化的,這不僅提高了查重的效率,也減少了人工干預的需要。
65、上述說明僅是本公開技術(shù)方案的概述,為了能更清楚了解本公開的技術(shù)手段,而可依照說明書的內(nèi)容予以實施,并且為讓本公開的上述和其他目的、特征和優(yōu)點能夠更明顯易懂,以下特舉較佳實施例,并配合附圖,詳細說明如下。