文本查重并突出顯示的方法、裝置、存儲介質(zhì)、程序產(chǎn)品與流程

文檔序號：40632746發(fā)布日期：2025-01-10 18:38閱讀：5來源：國知局

本公開涉及自然語言處理，尤其涉及一種文本查重并突出顯示的方法、裝置、存儲介質(zhì)、程序產(chǎn)品。

背景技術(shù)：

1、隨著數(shù)字化文檔的廣泛應用，文本查重在學術(shù)研究、內(nèi)容創(chuàng)作、法律文件審查等領(lǐng)域的重要性日益凸顯。傳統(tǒng)查重工具能夠?qū)ξ谋具M行快速查重并在檢測到重復內(nèi)容后進行突出顯示，以便用戶快速定位和處理，但這種突出顯示往往與文本的原始格式相沖突。然而，這種突出顯示功能在實際應用中卻存在顯著的局限性，由于傳統(tǒng)查重工具的設(shè)計側(cè)重于快速查重和高亮顯示，往往忽略了文本的原始格式保留問題，導致突出顯示部分與文本的原始格式產(chǎn)生沖突，這種沖突可能表現(xiàn)為突出顯示部分覆蓋或影響文本原有的編輯格式，如字體、樣式、布局等，進而干擾用戶的文檔編輯習慣。

技術(shù)實現(xiàn)思路

1、有鑒于此，本公開實施例提供了一種文本查重并突出顯示的方法、裝置、存儲介質(zhì)、程序產(chǎn)品，能夠在提高查重精度的同時，確保目標文本的原始格式不被破壞，提高用戶使用體驗。

2、第一方面，本公開實施例提供了一種文本查重并突出顯示的方法，采用如下技術(shù)方案：

3、接收目標文本，對所述目標文本進行結(jié)構(gòu)化解析，分離出原始格式和第一純文本；

4、基于第一長度閾值和第二長度閾值，獲取所述第一純文本與預設(shè)文本之間的重復片段；

5、定位所述重復片段在所述第一純文本中的起止位置；

6、根據(jù)所述起止位置在所述第一純文本中添加突出顯示標記，形成帶有突出顯示標記的文本結(jié)構(gòu)；

7、將所述文本結(jié)構(gòu)與所述原始格式整合，生成格式化文本；

8、對所述格式文本進行展示。

9、可選地，所述接收目標文本，對所述目標文本進行結(jié)構(gòu)化解析，分離出原始格式和第一純文本，包括：

10、通過接口服務接收所述目標文本，對所述目標文本進行安全檢測；

11、若安全檢測通過，則采用預設(shè)的分離工具將所述目標文本中的文本內(nèi)容轉(zhuǎn)化為所述第一純文本，并從所述目標文本中提取出所述原始格式并存儲到數(shù)據(jù)庫中；

12、若安全檢測未通過，則向用戶終端設(shè)備傳輸文本優(yōu)化提示。

13、可選地，所述基于第一長度閾值和第二長度閾值，獲取所述第一純文本與預設(shè)文本之間的重復片段，包括：

14、對所述第一純文本進行粗粒度語義劃分，獲得多個語義片段；

15、對所述多個語義片段進行細粒度語義劃分，獲得多個句子；

16、基于第一長度閾值和第二長度閾值，對所述多個句子進行長度標準化，得到多個標準短句；

17、對所述預設(shè)文本進行內(nèi)容提取，獲得第二純文本；

18、將所述第二純文本劃分為多個語段；

19、獲取所述標準短句與每個語段之間的相似度；

20、當最大相似度不小于預設(shè)相似度閾值時，獲取所述標準短句的連續(xù)重復字數(shù)；

21、當所述連續(xù)重復字數(shù)不小于預設(shè)字數(shù)閾值時，將所述標準短句判定為所述重復片段。

22、可選地，所述基于第一長度閾值和第二長度閾值，對所述多個句子進行長度標準化，得到多個標準短句，包括：

23、按照所述多個句子在所述第一純文本中的先后位置，對所述多個句子進行排序，獲取句子總數(shù)；

24、判斷第i個句子是否小于所述第二長度閾值，i初始為1；

25、若小于所述第二長度閾值，則將第i個句子與第i+1個句子合并，形成新的句子，i=i+2；

26、若不小于所述第二長度閾值，則i=i+1；

27、當i等于句子總數(shù)時，判斷所述句子是否大于所述第一長度閾值；

28、若不大于所述第一長度閾值，則將所述句子判定為標準短句；

29、若大于所述第一長度閾值，則檢測所述句子中是否包含結(jié)束標志關(guān)鍵詞；

30、若不包含所述結(jié)束標志關(guān)鍵詞，則基于標點符號將所述句子劃分為標準短句；

31、若包含所述結(jié)束標志關(guān)鍵詞，則判斷所述結(jié)束標志關(guān)鍵詞的數(shù)量是否大于1；

32、若不大于1，則基于所述結(jié)束標志關(guān)鍵詞和標點符號將所述句子劃分為標準短句；

33、若大于1，則分別以每個結(jié)束標志關(guān)鍵詞為節(jié)點，將所述句子劃分為多對短句；

34、獲取每對短句之間的長度差值，選擇長度差值最小的一對短句為標準短句。

35、可選地，在所述基于第一長度閾值和第二長度閾值，對所述多個句子進行長度標準化，得到多個標準短句之前，還包括：

36、基于所述多個句子構(gòu)建句子長度分布圖；

37、獲取所述句子長度分布圖中的最大值和最小值；

38、基于所述最大值和所述最小值獲取中位數(shù)；

39、基于所述中位數(shù)在所述句子長度分布圖中繪制中位線，將所述句子長度分布圖劃分為上區(qū)域和下區(qū)域；

40、獲取所述上區(qū)域的第一面積和所述下區(qū)域的第二面積；

41、若所述第一面積等于所述第二面積，則將預設(shè)第一閾值判定為所述第一長度閾值，將預設(shè)第二閾值判定為所述第二長度閾值；

42、若所述第一面積不等于所述第二面積，則基于所述中位數(shù)、所述第一面積、所述第二面積，獲取調(diào)整倍數(shù)；

43、基于所述預設(shè)第一閾值、所述預設(shè)第二閾值和所述調(diào)整倍數(shù)，獲取所述第一長度閾值和所述第二長度閾值。

44、可選地，所述調(diào)整倍數(shù)的計算公式如下：

45、

46、其中，f為調(diào)整倍數(shù)；a為第一面積；b為第二面積；t1為預設(shè)第一閾值；t2為預設(shè)第二閾值；m為中位數(shù)；為預設(shè)的正數(shù)。

47、可選地，所述根據(jù)所述起止位置在所述第一純文本中添加突出顯示標記，形成帶有突出顯示標記的文本結(jié)構(gòu)，包括：

48、根據(jù)獲取的每個起止位置，分別在所述第一純文本中添加一對內(nèi)聯(lián)樣式標簽；

49、在每對內(nèi)聯(lián)樣式標簽中嵌入預設(shè)的高亮顏色代碼，形成帶有突出顯示標記的文本結(jié)構(gòu)。

50、第二方面，本公開實施例還提供了一種文本查重并突出顯示的系統(tǒng)，采用如下技術(shù)方案：

51、分離模塊，用于接收目標文本，對所述目標文本進行結(jié)構(gòu)化解析，分離出原始格式和第一純文本；

52、獲取模塊，用于基于第一長度閾值和第二長度閾值，獲取所述第一純文本與預設(shè)文本之間的重復片段；

53、定位模塊，用于定位所述重復片段在所述第一純文本中的起止位置；

54、添加模塊，用于根據(jù)所述起止位置在所述第一純文本中添加突出顯示標記，形成帶有突出顯示標記的文本結(jié)構(gòu)；

55、整合模塊，用于將所述文本結(jié)構(gòu)與所述原始格式整合，生成格式化文本；

56、展示模塊，用于對所述格式文本進行展示。

57、第三方面，本公開實施例還提供了一種計算機裝置，采用如下技術(shù)方案：

58、所述計算機裝置包括：

59、至少一個處理器；以及，

60、與所述至少一個處理器通信連接的存儲器；其中，

61、所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令，所述指令被所述至少一個處理器執(zhí)行，以使所述至少一個處理器能夠執(zhí)行以上任一所述的文本查重并突出顯示的方法。

62、第四方面，本公開實施例還提供了一種計算機可讀存儲介質(zhì)，該計算機可讀存儲介質(zhì)存儲計算機指令，該計算機指令用于使計算機執(zhí)行以上任一所述的文本查重并突出顯示的方法?。

63、第五方面，本公開實施例還提供了一種計算機程序產(chǎn)品，包括計算機程序/指令，該計算機程序/指令被處理器執(zhí)行時實現(xiàn)以上任一項所述方法的步驟。

64、本公開實施例提供的文本查重并突出顯示的方法，通過結(jié)構(gòu)化解析和對純文本的處理，能夠快速識別出目標文本與預設(shè)文本之間的重復片段，在此過程中，通過第一長度閾值和第二長度閾值，有效減少傳統(tǒng)查重方法中可能存在的誤差或遺漏，提高了查重的準確性。通過精確地定位重復片段在第一純文本中的起止位置，并在這些位置上添加突出顯示標記，確保了高亮顯示的精確性，用戶可以直觀地看到哪些部分是重復的，這種視覺上的強調(diào)使得查重結(jié)果更加明顯，便于用戶快速識別重復內(nèi)容。通過在查重過程中分離出原始格式，并在最終生成格式化文本時進行整合，確保查重結(jié)果在顯示時保持原始文本的格式（如段落、字體、字號、對齊方式等），這樣既保證了查重結(jié)果的準確性，也提升了用戶體驗。從接收目標文本、解析、分離、定位重復片段、添加標記到最終生成格式化文本，整個過程都是自動化的，這不僅提高了查重的效率，也減少了人工干預的需要。

65、上述說明僅是本公開技術(shù)方案的概述，為了能更清楚了解本公開的技術(shù)手段，而可依照說明書的內(nèi)容予以實施，并且為讓本公開的上述和其他目的、特征和優(yōu)點能夠更明顯易懂，以下特舉較佳實施例，并配合附圖，詳細說明如下。

完整全部詳細技術(shù)資料下載

當前第1頁1 2

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：賈威達
技術(shù)所有人：北京輕松怡康信息技術(shù)有限公司
我是此專利的發(fā)明人

上一篇：銘牌鋼印錘擊器的制作方法
上一篇：一種廚房空調(diào)裝置及其廚房空調(diào)抽油煙一體機的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

文本查重并突出顯示的方法、裝置、存儲介質(zhì)、程序產(chǎn)品與流程

文本查重并突出顯示的方法、裝置、存儲介質(zhì)、程序產(chǎn)品與流程