两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

文本查重并突出顯示的方法、裝置、存儲介質(zhì)、程序產(chǎn)品與流程

文檔序號:40632746發(fā)布日期:2025-01-10 18:38閱讀:5來源:國知局
文本查重并突出顯示的方法、裝置、存儲介質(zhì)、程序產(chǎn)品與流程

本公開涉及自然語言處理,尤其涉及一種文本查重并突出顯示的方法、裝置、存儲介質(zhì)、程序產(chǎn)品。


背景技術(shù):

1、隨著數(shù)字化文檔的廣泛應用,文本查重在學術(shù)研究、內(nèi)容創(chuàng)作、法律文件審查等領(lǐng)域的重要性日益凸顯。傳統(tǒng)查重工具能夠?qū)ξ谋具M行快速查重并在檢測到重復內(nèi)容后進行突出顯示,以便用戶快速定位和處理,但這種突出顯示往往與文本的原始格式相沖突。然而,這種突出顯示功能在實際應用中卻存在顯著的局限性,由于傳統(tǒng)查重工具的設(shè)計側(cè)重于快速查重和高亮顯示,往往忽略了文本的原始格式保留問題,導致突出顯示部分與文本的原始格式產(chǎn)生沖突,這種沖突可能表現(xiàn)為突出顯示部分覆蓋或影響文本原有的編輯格式,如字體、樣式、布局等,進而干擾用戶的文檔編輯習慣。


技術(shù)實現(xiàn)思路

1、有鑒于此,本公開實施例提供了一種文本查重并突出顯示的方法、裝置、存儲介質(zhì)、程序產(chǎn)品,能夠在提高查重精度的同時,確保目標文本的原始格式不被破壞,提高用戶使用體驗。

2、第一方面,本公開實施例提供了一種文本查重并突出顯示的方法,采用如下技術(shù)方案:

3、接收目標文本,對所述目標文本進行結(jié)構(gòu)化解析,分離出原始格式和第一純文本;

4、基于第一長度閾值和第二長度閾值,獲取所述第一純文本與預設(shè)文本之間的重復片段;

5、定位所述重復片段在所述第一純文本中的起止位置;

6、根據(jù)所述起止位置在所述第一純文本中添加突出顯示標記,形成帶有突出顯示標記的文本結(jié)構(gòu);

7、將所述文本結(jié)構(gòu)與所述原始格式整合,生成格式化文本;

8、對所述格式文本進行展示。

9、可選地,所述接收目標文本,對所述目標文本進行結(jié)構(gòu)化解析,分離出原始格式和第一純文本,包括:

10、通過接口服務接收所述目標文本,對所述目標文本進行安全檢測;

11、若安全檢測通過,則采用預設(shè)的分離工具將所述目標文本中的文本內(nèi)容轉(zhuǎn)化為所述第一純文本,并從所述目標文本中提取出所述原始格式并存儲到數(shù)據(jù)庫中;

12、若安全檢測未通過,則向用戶終端設(shè)備傳輸文本優(yōu)化提示。

13、可選地,所述基于第一長度閾值和第二長度閾值,獲取所述第一純文本與預設(shè)文本之間的重復片段,包括:

14、對所述第一純文本進行粗粒度語義劃分,獲得多個語義片段;

15、對所述多個語義片段進行細粒度語義劃分,獲得多個句子;

16、基于第一長度閾值和第二長度閾值,對所述多個句子進行長度標準化,得到多個標準短句;

17、對所述預設(shè)文本進行內(nèi)容提取,獲得第二純文本;

18、將所述第二純文本劃分為多個語段;

19、獲取所述標準短句與每個語段之間的相似度;

20、當最大相似度不小于預設(shè)相似度閾值時,獲取所述標準短句的連續(xù)重復字數(shù);

21、當所述連續(xù)重復字數(shù)不小于預設(shè)字數(shù)閾值時,將所述標準短句判定為所述重復片段。

22、可選地,所述基于第一長度閾值和第二長度閾值,對所述多個句子進行長度標準化,得到多個標準短句,包括:

23、按照所述多個句子在所述第一純文本中的先后位置,對所述多個句子進行排序,獲取句子總數(shù);

24、判斷第i個句子是否小于所述第二長度閾值,i初始為1;

25、若小于所述第二長度閾值,則將第i個句子與第i+1個句子合并,形成新的句子,i=i+2;

26、若不小于所述第二長度閾值,則i=i+1;

27、當i等于句子總數(shù)時,判斷所述句子是否大于所述第一長度閾值;

28、若不大于所述第一長度閾值,則將所述句子判定為標準短句;

29、若大于所述第一長度閾值,則檢測所述句子中是否包含結(jié)束標志關(guān)鍵詞;

30、若不包含所述結(jié)束標志關(guān)鍵詞,則基于標點符號將所述句子劃分為標準短句;

31、若包含所述結(jié)束標志關(guān)鍵詞,則判斷所述結(jié)束標志關(guān)鍵詞的數(shù)量是否大于1;

32、若不大于1,則基于所述結(jié)束標志關(guān)鍵詞和標點符號將所述句子劃分為標準短句;

33、若大于1,則分別以每個結(jié)束標志關(guān)鍵詞為節(jié)點,將所述句子劃分為多對短句;

34、獲取每對短句之間的長度差值,選擇長度差值最小的一對短句為標準短句。

35、可選地,在所述基于第一長度閾值和第二長度閾值,對所述多個句子進行長度標準化,得到多個標準短句之前,還包括:

36、基于所述多個句子構(gòu)建句子長度分布圖;

37、獲取所述句子長度分布圖中的最大值和最小值;

38、基于所述最大值和所述最小值獲取中位數(shù);

39、基于所述中位數(shù)在所述句子長度分布圖中繪制中位線,將所述句子長度分布圖劃分為上區(qū)域和下區(qū)域;

40、獲取所述上區(qū)域的第一面積和所述下區(qū)域的第二面積;

41、若所述第一面積等于所述第二面積,則將預設(shè)第一閾值判定為所述第一長度閾值,將預設(shè)第二閾值判定為所述第二長度閾值;

42、若所述第一面積不等于所述第二面積,則基于所述中位數(shù)、所述第一面積、所述第二面積,獲取調(diào)整倍數(shù);

43、基于所述預設(shè)第一閾值、所述預設(shè)第二閾值和所述調(diào)整倍數(shù),獲取所述第一長度閾值和所述第二長度閾值。

44、可選地,所述調(diào)整倍數(shù)的計算公式如下:

45、

46、其中,f為調(diào)整倍數(shù);a為第一面積;b為第二面積;t1為預設(shè)第一閾值;t2為預設(shè)第二閾值;m為中位數(shù);為預設(shè)的正數(shù)。

47、可選地,所述根據(jù)所述起止位置在所述第一純文本中添加突出顯示標記,形成帶有突出顯示標記的文本結(jié)構(gòu),包括:

48、根據(jù)獲取的每個起止位置,分別在所述第一純文本中添加一對內(nèi)聯(lián)樣式標簽;

49、在每對內(nèi)聯(lián)樣式標簽中嵌入預設(shè)的高亮顏色代碼,形成帶有突出顯示標記的文本結(jié)構(gòu)。

50、第二方面,本公開實施例還提供了一種文本查重并突出顯示的系統(tǒng),采用如下技術(shù)方案:

51、分離模塊,用于接收目標文本,對所述目標文本進行結(jié)構(gòu)化解析,分離出原始格式和第一純文本;

52、獲取模塊,用于基于第一長度閾值和第二長度閾值,獲取所述第一純文本與預設(shè)文本之間的重復片段;

53、定位模塊,用于定位所述重復片段在所述第一純文本中的起止位置;

54、添加模塊,用于根據(jù)所述起止位置在所述第一純文本中添加突出顯示標記,形成帶有突出顯示標記的文本結(jié)構(gòu);

55、整合模塊,用于將所述文本結(jié)構(gòu)與所述原始格式整合,生成格式化文本;

56、展示模塊,用于對所述格式文本進行展示。

57、第三方面,本公開實施例還提供了一種計算機裝置,采用如下技術(shù)方案:

58、所述計算機裝置包括:

59、至少一個處理器;以及,

60、與所述至少一個處理器通信連接的存儲器;其中,

61、所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令,所述指令被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行以上任一所述的文本查重并突出顯示的方法。

62、第四方面,本公開實施例還提供了一種計算機可讀存儲介質(zhì),該計算機可讀存儲介質(zhì)存儲計算機指令,該計算機指令用于使計算機執(zhí)行以上任一所述的文本查重并突出顯示的方法?。

63、第五方面,本公開實施例還提供了一種計算機程序產(chǎn)品,包括計算機程序/指令,該計算機程序/指令被處理器執(zhí)行時實現(xiàn)以上任一項所述方法的步驟。

64、本公開實施例提供的文本查重并突出顯示的方法,通過結(jié)構(gòu)化解析和對純文本的處理,能夠快速識別出目標文本與預設(shè)文本之間的重復片段,在此過程中,通過第一長度閾值和第二長度閾值,有效減少傳統(tǒng)查重方法中可能存在的誤差或遺漏,提高了查重的準確性。通過精確地定位重復片段在第一純文本中的起止位置,并在這些位置上添加突出顯示標記,確保了高亮顯示的精確性,用戶可以直觀地看到哪些部分是重復的,這種視覺上的強調(diào)使得查重結(jié)果更加明顯,便于用戶快速識別重復內(nèi)容。通過在查重過程中分離出原始格式,并在最終生成格式化文本時進行整合,確保查重結(jié)果在顯示時保持原始文本的格式(如段落、字體、字號、對齊方式等),這樣既保證了查重結(jié)果的準確性,也提升了用戶體驗。從接收目標文本、解析、分離、定位重復片段、添加標記到最終生成格式化文本,整個過程都是自動化的,這不僅提高了查重的效率,也減少了人工干預的需要。

65、上述說明僅是本公開技術(shù)方案的概述,為了能更清楚了解本公開的技術(shù)手段,而可依照說明書的內(nèi)容予以實施,并且為讓本公開的上述和其他目的、特征和優(yōu)點能夠更明顯易懂,以下特舉較佳實施例,并配合附圖,詳細說明如下。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
分宜县| 监利县| 雅江县| 汉中市| 合肥市| 湘阴县| 和田县| 乐都县| 凉城县| 本溪市| 集贤县| 敦煌市| 平乡县| 二手房| 双鸭山市| 密山市| 孟连| 新余市| 阿图什市| 元朗区| 多伦县| 凤冈县| 开封县| 巴彦县| 南投县| 南木林县| 华容县| 沂南县| 漠河县| 合作市| 台山市| 宁国市| 霍城县| 丹江口市| 文成县| 广河县| 五原县| 闽侯县| 鹤山市| 镇坪县| 同江市|