一種中文變異文本匹配識別方法

文檔序號：6334498閱讀：323來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種中文變異文本匹配識別方法
技術(shù)領(lǐng)域：
本發(fā)明涉及中文信息檢索及內(nèi)容過濾方法，尤其是中文信息匹配方法。該方法可以廣泛的應(yīng)用于需要對中文信息進行匹配的入侵防御系統(tǒng)、信息檢索等系統(tǒng)中。
背景技術(shù)：
IPS(入侵防御系統(tǒng))一直以來充當了安全防護系統(tǒng)的重要角色，IPS技術(shù)能夠?qū)?網(wǎng)絡(luò)進行多層、深層、主動的防護以有效的保證企業(yè)網(wǎng)絡(luò)安全。字符串匹配則是IPS系統(tǒng)性能的一個重要指標，字符串匹配是指給定一組特定的字符串P (模式字符串)，找出P在文本 T(目標文本)中所有出現(xiàn)。如在文本T中查找到一個與模式字符串P相同的字符串，則模式字符串P與目標文本T匹配，否則不匹配。在中文環(huán)境下，信息檢索和內(nèi)容過濾一般選用基于精確字符串匹配的方法。但為了規(guī)避檢測，出現(xiàn)了一些以同音字、形近字、錯別字替換敏感詞，拆分字及在關(guān)鍵詞中添加若干無意義符號等變異文本。在國家高技術(shù)研究發(fā)展計劃(即863計劃)的917子項的《中文信息模糊匹配技術(shù)》中，通過將關(guān)鍵詞根據(jù)拼音進行歸類并將待匹配字符串按照拼音編碼，然后在類串層面上進行精確匹配來解決同音字替換，及部分基于拼音的錯別字替換難以匹配的情況；它還通過在預(yù)處理時預(yù)先將可拆分的關(guān)鍵詞進行拆分，并擴展關(guān)鍵詞庫來解決拆分字無法匹配的情況；另外，它在預(yù)處理階段采用先將無效字符過濾，然后進行精確匹配的方法解決關(guān)鍵字中穿插無效字符難以匹配的情況。該技術(shù)很好的解決了同音字替換，拆分字及在關(guān)鍵詞中添加無效字符的文本變異情況，但沒有將形近字替換或基于形近錯別字替換的文本變異情況作為研究對象。OCR (Optical Character Recognition光學(xué)字符識別)系統(tǒng)已經(jīng)廣泛用于字體識別，它通過對文本資料進行掃描，然后對圖像文件進行分析處理，以獲取文字及版面信息。識別過程主要包括圖像輸入，預(yù)處理，版面分析，字符分割，字符識別，版面恢復(fù)，后處理，校對。其中公開號為CN1808468(中國申請?zhí)枮?00510002097. 0)的《光學(xué)字符識別方法及系統(tǒng)》針對兩種語言混排的圖像提出了相應(yīng)的處理方法。然而圖像質(zhì)量對該方法的效果有著重要影響，并且該方法的整體時間復(fù)雜度較大，其中僅圖像分割算法的最小時間復(fù)雜度為 0(m· η)，即將圖像按像素掃描一遍，其中m，η分別為圖像的長和寬。這兩方面成為該方法移植到IPS系統(tǒng)的瓶頸。除此之外，針對形近字替換及基于形近錯別字的文本變異情況目前還沒有有效的解決方案。鑒于這種情況，本發(fā)明提出一種在形近字替換及基于形近錯別字替換的文本變異情況下可以有效檢測關(guān)鍵字的方法。

發(fā)明內(nèi)容
為了解決變異文本中形近字替換及基于形近的錯別字替換難以匹配的問題，本發(fā) 明通過將目標文本和模式字符串進行特殊的編碼轉(zhuǎn)換以提高文本的相似度，然后采用帶有通配符的精確字符串匹配算法進行匹配。
3
本匹配識別方法包括預(yù)處理和模式匹配兩個階段。在預(yù)處理階段，讀取模式字符串，對模式字符串進行編碼轉(zhuǎn)換，讀取目標文本數(shù)據(jù)，通過查表完成目標文本編碼轉(zhuǎn)換；在模式匹配階段讀取模式字符串和目標文本，調(diào)用CV-BM算法(面向中文變異文本的精確字符串匹配算法)，對數(shù)據(jù)進行模式匹配；報告匹配結(jié)果。構(gòu)建由通配符和標識符組成的基于部首字符編碼表和模式字符串編碼轉(zhuǎn)換表?；?于部首字符編碼表的構(gòu)建具體方法為，拆分單元按照模式字符串字符結(jié)構(gòu)將其拆分為包括字符部首和形旁的字符基本單元；用不同標識符代替字符基本單元，每個字符基本單元設(shè) 置對應(yīng)的標識符。根據(jù)模式字符串字符，按照漢字字符串結(jié)構(gòu)特征將其結(jié)構(gòu)構(gòu)造為包括字符部首和形旁的字符基本單元，然后查詢基于部首字符編碼表，根據(jù)字符中形旁位置是否固定確定用相應(yīng)的通配符替換該字符在基于部首字符編碼表中對應(yīng)標識符的位置。字符識別單元依次讀取模式字符串中字符，逐個與模式字符串編碼轉(zhuǎn)換表中標識符比較，將匹配的字符存放在待匹配模式字符串存儲單元中。字符識別單元讀取模式字符串一個字符，信息匹配單元查詢模式字符串編碼轉(zhuǎn)換表，如果模式字符串編碼轉(zhuǎn)換表中存在當前提取的模式字符串中的字符，則從編碼轉(zhuǎn)換表中讀取該字符對應(yīng)的編碼轉(zhuǎn)換表中的字符，將其存放在待匹配模式字符串存儲單元中，指針信號控制單元觸發(fā)計數(shù)器將模式字符串當前指針加1，字符識別單元讀取模式字符串中下一個字符進行查詢判斷，直至模式字符串中所有字符完成轉(zhuǎn)換。查詢模塊查詢基于部首字符編碼表，獲取字符基本單元中形旁存在的位置，并根據(jù)形旁存在的位置，在字符基本單元中將表示部首部分的標識符用通配符代替。信息匹配單元調(diào)用CV-BM算法對存儲單元中的數(shù)據(jù)進行模式匹配，具體過程為，將模式字符串和待匹配目標文本左對齊后，從右向左掃描(或從左到右)，比較模式字符串和待匹配目標文本對應(yīng)的字符，若對應(yīng)的字符相同，則繼續(xù)掃描，直至整個模式字符串掃描完成。若對應(yīng)的字符不相同時，匹配后跳單元根據(jù)CV-BM算法中的壞字符規(guī)則、好后綴規(guī)則及整'塊'后跳規(guī)則計算后跳距離。匹配后跳單元選擇后跳距離最大者，將最大后跳距離寫入后跳臨時存儲單元，指針控制單元讀取后跳臨時存儲單元的信息，并觸發(fā)計數(shù)器將待匹配目標文本指針移動相應(yīng)幅度，使模式字符串和待匹配目標文本重新對齊，并繼續(xù)掃描，直至整個待匹配文本完成掃描。本發(fā)明能夠解決形近字替換及基于形近錯別字替換的文本變異難以匹配的情況，同時利用CV-BM算法進行匹配進一步提高匹配速度；該方法較圖像分割識別方法有著更小的時間和空間復(fù)雜度，更適宜于高速網(wǎng)絡(luò)數(shù)據(jù)傳輸環(huán)境中的中文信息快速匹配。

圖1本發(fā)明的系統(tǒng)流程圖
具體實施例方式下面結(jié)合附圖和具體實施方式
詳細描述本發(fā)明。以下針對附圖和具體實例對本發(fā)明的實施作具體描述。如圖1為本發(fā)明中文變異文本匹配識別流程圖。構(gòu)建基于部首字符編碼表以及模式字符串編碼轉(zhuǎn)換編碼表。
基于部首字符編碼表的構(gòu)建具體為，將每個漢字按照結(jié)構(gòu)拆分為包括字符部首和形旁的字符基本單元，用不同標識符(如可采用大小寫英文字母，阿拉伯數(shù)字等64個字符) 作為字符基本單元，本實例基于64個編碼轉(zhuǎn)換字符(標識符)構(gòu)建基于部首字符編碼表 (如表1)，編碼表中，每個漢字(模式字符串)采用四個及四個以上不同標識符編碼(本發(fā) 明以四個標識符為例進行介紹)。其中如果不足四位的通過添加特殊的標識符補足(如添加'=')。表1 用于構(gòu)建基于部首字符編碼表的標識符
權(quán)利要求
中文變異文本匹配識別方法，其特征在于，構(gòu)建由通配符和標識符組成的基于部首字符編碼表及模式字符串編碼轉(zhuǎn)換編碼表；字符識別單元依次讀取模式字符串中字符，逐個與模式字符串編碼轉(zhuǎn)換表中標識符比較，將模式字符串存放在待匹配模式字符串存儲單元中；將待匹配目標文本與模式字符串對齊，逐個比較模式字符串和待匹配目標文本中對應(yīng)的字符，若對應(yīng)的字符不相同時，匹配后跳單元計算后跳距離，將最大后跳距離寫入后跳臨時存儲單元，指針控制單元讀取后跳臨時存儲單元的信息，并觸發(fā)計數(shù)器將待匹配目標文本指針移動最大后跳距離，使模式字符串和待匹配目標文本按最大后跳距離重新對齊，并繼續(xù)掃描，直至完成整個待匹配文本匹配。
2.根據(jù)權(quán)利要求1所述的中文變異文本匹配識別方法，其特征在于，基于部首字符編碼表的構(gòu)建方法為，拆分單元按照模式字符串字符結(jié)構(gòu)將字符拆分為包括字符部首和形旁的字符基本單元，用不同標識符代替字符基本單元，每個字符基本單元設(shè)置對應(yīng)的標識符。
3.根據(jù)權(quán)利要求1所述的中文變異文本匹配識別方法，其特征在于，模式字符串編碼轉(zhuǎn)換編碼表的構(gòu)建方法為，查詢模塊查詢基于部首字符編碼表，獲取字符基本單元中形旁存在的位置，根據(jù)形旁位置在字符中是否固定確定用相應(yīng)的通配符替換該字符在基于部首字符編碼表中對應(yīng)標識符的位置。
4.根據(jù)權(quán)利要求1所述的中文變異文本匹配識別方法，其特征在于，計算后跳距離具體為，如模式字符串中某字符在待匹配目標文本中沒有出現(xiàn)，后跳距離為模式字符串長度，如某字符在模式字符串中出現(xiàn)，則以模式字符串中該字符和待匹配目標文本中該字符為準對齊。
5.根據(jù)權(quán)利要求1所述的中文變異文本匹配識別方法，其特征在于，計算后跳距離具體為，如果模式字符串中已匹配部分在待匹配模式字符串中出現(xiàn)，且該已匹配部分之前匹配位置的前一個字符與下一次匹配位置的前一個字符不同，則將已匹配部分對齊，如果模式字符串中已匹配部分在模式字符串中沒有出現(xiàn)，則尋找模式字符串中與已匹配部分的最長后綴相同的最長前綴，并將這兩部分對齊。
6.根據(jù)權(quán)利要求1所述的中文變異文本匹配識別方法，其特征在于，計算后跳距離具體為，將目標文本中相互連續(xù)的標識符看做一個’塊’。并以’塊’為基本單位作為一個字符，采用權(quán)利要求4或5的方法確定后跳距離。
7.根據(jù)權(quán)利要求2所述的中文變異文本匹配識別方法，其特征在于，每個模式字符串采用四個或四個以上不同標識符編碼，如果不足四位通過添加特殊標識符補足四位。
全文摘要
一種中文變異文本匹配識別方法，該方法通過將目標文本和模式字符串進行特殊的編碼轉(zhuǎn)換以提高文本的相似度，并根據(jù)模式字符串中漢字字符結(jié)構(gòu)特征對轉(zhuǎn)換后的模式字符串添加適當?shù)耐ㄅ浞?，然后采用精確字符串匹配算法(即CV-BM算法)進行匹配。解決了變異文本中形近字替換及基于形近錯別字替換的難以匹配的問題。能夠解決形近字替換及基于形近錯別字替換的文本變異難以匹配的情況，較圖像分割識別方法有著更小的時間和空間復(fù)雜度，更適宜于高速網(wǎng)絡(luò)數(shù)據(jù)傳輸環(huán)境中的中文信息快速匹配，可以廣泛的應(yīng)用于需要對中文信息進行匹配的入侵防御系統(tǒng)、信息檢索等系統(tǒng)中。
文檔編號G06F17/30GK101976253SQ201010521160
公開日2011年2月16日申請日期2010年10月27日優(yōu)先權(quán)日2010年10月27日
發(fā)明者席珍, 李紅波, 程克非, 郭瑞杰申請人:重慶郵電大學(xué)

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：程克非;李紅波;郭瑞杰;席珍
技術(shù)所有人：重慶郵電大學(xué)
我是此專利的發(fā)明人

上一篇：一種安全計算平臺的制作方法
上一篇：一種異構(gòu)圖像拼接方法及其系統(tǒng)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

文本匹配算法相關(guān)技術(shù)

vlookup文本模糊匹配相關(guān)技術(shù)

文本匹配相關(guān)技術(shù)

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種中文變異文本匹配識別方法