專利名稱:一種基于多詞表的關(guān)鍵詞快速匹配的系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本實(shí)用新型涉及一種基于多詞表的關(guān)鍵詞快速匹配的系統(tǒng),屬于文本數(shù)據(jù)檢索領(lǐng) 域。
背景技術(shù):
多關(guān)鍵詞匹配時計算機(jī)科學(xué)領(lǐng)域中的基本問題之一,它需要解決的問題就是快速 準(zhǔn)確地判斷某一文本或數(shù)據(jù)塊中是否包含給定的關(guān)鍵詞集合中的某個或者某些關(guān)鍵詞。隨 著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展和網(wǎng)絡(luò)應(yīng)用的普及,數(shù)據(jù)處理量日益增大。在網(wǎng)絡(luò)應(yīng)用環(huán)境中,存 在大量的實(shí)時數(shù)據(jù)處理的需求。同時網(wǎng)絡(luò)攻擊行為和手段的日益復(fù)雜化,病毒的不斷涌現(xiàn), 網(wǎng)絡(luò)安全應(yīng)用的關(guān)鍵詞規(guī)模也隨之不斷擴(kuò)大。網(wǎng)絡(luò)內(nèi)容及敏感信息過濾所用到的規(guī)則集一 般是幾萬條,甚至更多。現(xiàn)有的多關(guān)鍵詞匹配技術(shù),通常對任何關(guān)鍵詞的查找都使用一個詞庫,對詞庫中 所有的詞都進(jìn)行查找。由于網(wǎng)絡(luò)關(guān)鍵詞的規(guī)模擴(kuò)大,使得查找范圍變大,過濾不相關(guān)的關(guān)鍵 詞的工作量也增加,導(dǎo)致查找速度慢、效率低,并且查找的過程中還需要根據(jù)關(guān)鍵詞的查找 來另行建立關(guān)鍵詞的集合詞表,會占用一定的存儲空間更需要花費(fèi)時間,查詢效率低。以上 多關(guān)鍵詞匹配技術(shù)的缺陷,會導(dǎo)致關(guān)鍵詞匹配的速度下降,給用戶帶來不好的檢索體驗。
實(shí)用新型內(nèi)容本實(shí)用新型的目的在于,提供一種基于多詞表的關(guān)鍵詞快速匹配的系統(tǒng),它能夠 把詞庫中的關(guān)鍵詞按照內(nèi)容的不同劃分為多個詞表,從而提高了關(guān)鍵詞的匹配速度。為解決上述技術(shù)問題,本實(shí)用新型采用如下的技術(shù)方案一種基于多詞表的關(guān)鍵 詞快速匹配的系統(tǒng),它包括web服務(wù)器,用于將接收到的關(guān)鍵詞查詢請求發(fā)送給文本處理設(shè)備,查找詞表存儲 設(shè)備中與之對應(yīng)的詞表發(fā)送給關(guān)鍵詞服務(wù)器;文本處理設(shè)備,用于將需要進(jìn)行關(guān)鍵詞查找的文本信息發(fā)送給關(guān)鍵詞服務(wù)器;關(guān)鍵詞服務(wù)器,用于結(jié)合詞表和文本信息進(jìn)行檢索匹配,將匹配結(jié)果返回給web 服務(wù)器;設(shè)于關(guān)鍵詞服務(wù)器上的詞表存儲設(shè)備,用于存儲多個詞表,所述詞表為按照不同 內(nèi)容劃分的關(guān)鍵詞的集合;其中,web服務(wù)器與文本處理設(shè)備和關(guān)鍵詞服務(wù)器分別連接,文本處理設(shè)備連接關(guān) 鍵詞服務(wù)器。本實(shí)用新型設(shè)置詞表存儲設(shè)備,將詞庫中的關(guān)鍵詞按照內(nèi)容的不同劃分為多小 個詞表,查找時根據(jù)關(guān)鍵詞直接調(diào)用相應(yīng)的小詞表,而不是統(tǒng)一使用一個大詞表對詞庫中 所有的詞進(jìn)行查找,減少了詞表容量,進(jìn)行關(guān)鍵詞匹配時無需另行建立詞表,節(jié)約了建表時 間,提高了匹配速度。所述web服務(wù)器,根據(jù)關(guān)鍵詞所涉及的類別,查找詞表存儲設(shè)備中與之對應(yīng)的詞表,將詞表發(fā)送給關(guān)鍵詞服務(wù)器。所述的文本處理設(shè)備,根據(jù)客戶端設(shè)備發(fā)出的請求,將需要進(jìn)行關(guān)鍵詞查找的文 本信息發(fā)送給關(guān)鍵詞服務(wù)器。所述的關(guān)鍵詞服務(wù)器,結(jié)合web服務(wù)器提供的詞表和文本處理設(shè)備提供的文本進(jìn) 行檢索匹配。所述的文本信息是以電子形式存儲的信息,并且文本長度比較大,從幾個字節(jié)到 幾千字節(jié),甚至更大。用戶可能對文本的內(nèi)容并不感興趣,只是想找出關(guān)鍵詞所處的位置, 或者想快速定位到關(guān)鍵詞的位置,查看關(guān)鍵詞前后的內(nèi)容,或者想知道被查找的文本中有 沒有他輸入的關(guān)鍵詞。所述詞表中的關(guān)鍵詞的長度是不相等的。本實(shí)用新型所述的詞表常駐在內(nèi)存,不 需要查找時再根據(jù)關(guān)鍵詞另行建立。詞表按照一定的內(nèi)容進(jìn)行劃分,對于不同的搜索或檢 索,使用不同的詞表。例如對于對話的內(nèi)容和日志的標(biāo)題就需要使用不同的詞表進(jìn)行過濾。前述的一種基于多詞表的關(guān)鍵詞快速匹配的系統(tǒng)中,所述的關(guān)鍵詞服務(wù)器設(shè)有兩 個數(shù)據(jù)接口,分別與文本處理設(shè)備和web服務(wù)器連接。其中一個接口用于接收詞表,另一個 用于接收文本內(nèi)容。這種結(jié)構(gòu)具有使用方便,簡潔,通用性強(qiáng)等優(yōu)點(diǎn)。前述的一種基于多詞表的關(guān)鍵詞快速匹配的系統(tǒng)中,所述關(guān)鍵詞服務(wù)器中設(shè)有結(jié) 果處理設(shè)備,用于向web服務(wù)器返回匹配結(jié)果。當(dāng)前文本中有詞表中的關(guān)鍵詞時,返回匹配 成功信息,當(dāng)前文本中沒有詞表中的關(guān)鍵詞時,返回匹配失敗信息。為了讓用戶使用方便, 無論是匹配成功還是匹配失敗,都給用戶返回一個消息,以通知用戶查到的結(jié)果。與現(xiàn)有技術(shù)相比,本實(shí)用新型通過在服務(wù)器中設(shè)置詞表存儲設(shè)備,來存儲按照詞 庫中關(guān)鍵詞內(nèi)容的不同劃分為多個小詞表,減少了詞表容量,需要進(jìn)行關(guān)鍵詞匹配時,直接 從詞表存儲設(shè)備中調(diào)用對應(yīng)的詞表,無需另行建立詞表,節(jié)約了建表時間,從而提高了關(guān)鍵 詞的匹配速度。另外,本實(shí)用新型由于設(shè)置了專門的關(guān)鍵詞服務(wù)器,使關(guān)鍵詞服務(wù)器的應(yīng)用 范圍變得廣泛,既可以用于查找好友時對姓名的過濾,也可以用于對關(guān)鍵詞的定位,可擴(kuò)展 性強(qiáng),關(guān)鍵詞服務(wù)器具有兩個數(shù)據(jù)接口,分別與web服務(wù)器連接,這種結(jié)構(gòu)具有使用方便, 簡潔,通用性強(qiáng)等優(yōu)點(diǎn)。
圖1是本實(shí)用新型的一種實(shí)施例的結(jié)構(gòu)示意圖;圖2是本實(shí)用新型的一種實(shí)施例的工作流程圖。附圖中的標(biāo)記1- web服務(wù)器,2-關(guān)鍵詞服務(wù)器,3-文本處理設(shè)備,4-詞表存儲設(shè) 備,5-結(jié)果處理設(shè)備。
以下結(jié)合附圖和具體實(shí)施方式
對本實(shí)用新型作進(jìn)一步的說明。
具體實(shí)施方式
本實(shí)用新型的實(shí)施例一種基于多詞表的關(guān)鍵詞快速匹配的系統(tǒng),結(jié)構(gòu)如圖1所 示;包括web服務(wù)器1,用于接收客戶端設(shè)備發(fā)出的關(guān)鍵詞查詢請求并將此信息發(fā)送給文 本處理設(shè)備3,同時根據(jù)關(guān)鍵詞所涉及的類別,查找詞表存儲設(shè)備4中與之對應(yīng)的詞表,將詞表發(fā)送給關(guān)鍵詞服務(wù)器2 ;文本處理設(shè)備3,用于根據(jù)客戶端設(shè)備發(fā)出的請求,將需要進(jìn)行關(guān)鍵詞查找的文本 信息發(fā)送給關(guān)鍵詞服務(wù)器2 ;關(guān)鍵詞服務(wù)器2,用于結(jié)合web服務(wù)器1提供的詞表和文本處理設(shè)備3提供的文本 進(jìn)行檢索匹配,得到匹配結(jié)果并將結(jié)果返回給web服務(wù)器1 ;設(shè)于關(guān)鍵詞服務(wù)器2上的詞表存儲設(shè)備4,用于存儲多個詞表,所述詞表為按照不 同內(nèi)容劃分的關(guān)鍵詞的集合;其中,web服務(wù)器1與文本處理設(shè)備3和關(guān)鍵詞服務(wù)器2分別連接,文本處理設(shè)備 3連接關(guān)鍵詞服務(wù)器2。所述web服務(wù)器,根據(jù)關(guān)鍵詞所涉及的類別,查找詞表存儲設(shè)備中與之對應(yīng)的詞 表,將詞表發(fā)送給關(guān)鍵詞服務(wù)器。所述的文本處理設(shè)備,根據(jù)客戶端設(shè)備發(fā)出的請求,將需要進(jìn)行關(guān)鍵詞查找的文 本信息發(fā)送給關(guān)鍵詞服務(wù)器。所述的關(guān)鍵詞服務(wù)器,結(jié)合web服務(wù)器提供的詞表和文本處理設(shè)備提供的文本進(jìn) 行檢索匹配。所述的文本信息是以電子形式存儲的信息,并且文本長度比較大,從幾個字節(jié)到 幾千字節(jié),甚至更大。用戶可能對文本的內(nèi)容并不感興趣,只是想找出關(guān)鍵詞所處的位置, 或者想快速定位到關(guān)鍵詞的位置,查看關(guān)鍵詞前后的內(nèi)容,或者想知道被查找的文本中有 沒有他輸入的關(guān)鍵詞。所述詞表中的關(guān)鍵詞的長度是不相等的。本實(shí)用新型所述的詞表常駐在內(nèi)存,不 需要查找時再根據(jù)關(guān)鍵詞另行建立。詞表按照一定的內(nèi)容進(jìn)行劃分,對于不同的搜索或檢 索,使用不同的詞表。例如對于對話的內(nèi)容和日志的標(biāo)題就需要使用不同的詞表進(jìn)行過濾。所述的關(guān)鍵詞服務(wù)器2具有兩個數(shù)據(jù)接口,分別與文本處理設(shè)備3和web服務(wù)器 1連接;其中一個接口用于接收詞表,另一個用于接收文本內(nèi)容。這種結(jié)構(gòu)具有使用方便, 簡潔,通用性強(qiáng)等優(yōu)點(diǎn)。所述關(guān)鍵詞服務(wù)器2中設(shè)有結(jié)果處理設(shè)備5,用于向web服務(wù)器1返回匹配結(jié)果, 當(dāng)前文本中有詞表中的關(guān)鍵詞時,返回匹配成功信息,當(dāng)前文本中沒有詞表中的關(guān)鍵詞時, 返回匹配失敗信息。為了讓用戶使用方便,無論是匹配成功還是匹配失敗,都給用戶返回一 個消息,以通知用戶查到的結(jié)果。本實(shí)用新型的工作流程(如圖2所示)SlO 接收關(guān)鍵詞查詢請求;S20 :web服務(wù)器將需要進(jìn)行關(guān)鍵詞查找的文本信息發(fā)送給關(guān)鍵詞服務(wù)器;S30 :web服務(wù)器調(diào)用關(guān)鍵詞對應(yīng)的詞表并發(fā)送給關(guān)鍵詞服務(wù)器;S40 關(guān)鍵詞服務(wù)器結(jié)合詞表和文本進(jìn)行檢索匹配,將結(jié)果返回給web服務(wù)器;S50: web服務(wù)器接收并處理匹配結(jié)果。
權(quán)利要求1.一種基于多詞表的關(guān)鍵詞快速匹配的系統(tǒng),其特征在于,包括web服務(wù)器(1),用于將接收到的關(guān)鍵詞查詢請求發(fā)送給文本處理設(shè)備(3),查找詞表 存儲設(shè)備(4)中與之對應(yīng)的詞表發(fā)送給關(guān)鍵詞服務(wù)器(2);文本處理設(shè)備(3),用于將需要進(jìn)行關(guān)鍵詞查找的文本信息發(fā)送給關(guān)鍵詞服務(wù)器(2);關(guān)鍵詞服務(wù)器(2),用于結(jié)合詞表和文本信息進(jìn)行檢索匹配,將匹配結(jié)果返回給web服 務(wù)器(1);設(shè)于關(guān)鍵詞服務(wù)器(2)上的詞表存儲設(shè)備(4),用于存儲多個詞表;其中,web服務(wù)器(1)與文本處理設(shè)備(3 )和關(guān)鍵詞服務(wù)器(2 )分別連接,文本處理設(shè) 備(3)連接關(guān)鍵詞服務(wù)器(2)。
2.根據(jù)權(quán)利要求1所述的一種基于多詞表的關(guān)鍵詞快速匹配的系統(tǒng),其特征在于,所 述的關(guān)鍵詞服務(wù)器(2)具有兩個數(shù)據(jù)接口,分別與文本處理設(shè)備(3)和web服務(wù)器(1)連 接。
3.根據(jù)權(quán)利要求1或2所述的一種基于多詞表的關(guān)鍵詞快速匹配的系統(tǒng),其特征在于, 所述關(guān)鍵詞服務(wù)器(2)中設(shè)有結(jié)果處理設(shè)備(5),用于向web服務(wù)器(1)返回匹配結(jié)果。
專利摘要本實(shí)用新型公開了一種基于多詞表的關(guān)鍵詞快速匹配的系統(tǒng),包括web服務(wù)器(1)、文本處理設(shè)備(3)、關(guān)鍵詞服務(wù)器(2)和設(shè)于關(guān)鍵詞服務(wù)器(2)上的詞表存儲設(shè)備(4);其中,web服務(wù)器(1)與文本處理設(shè)備(3)和關(guān)鍵詞服務(wù)器(2)分別連接,文本處理設(shè)備(3)連接關(guān)鍵詞服務(wù)器(2);本實(shí)用新型通過在服務(wù)器中設(shè)置詞表存儲設(shè)備,來存儲按照關(guān)鍵詞內(nèi)容劃分的多個詞表,關(guān)鍵詞匹配時,直接調(diào)用對應(yīng)的詞表,無需另行建立詞表,節(jié)約了建表時間,從而提高了關(guān)鍵詞匹配速度。另外,本實(shí)用新型由于設(shè)置了專門的關(guān)鍵詞服務(wù)器,使關(guān)鍵詞服務(wù)器應(yīng)用范圍變得廣泛,既可以用于查找好友時對姓名的過濾,也可以用于對關(guān)鍵詞的定位,可擴(kuò)展性強(qiáng)。
文檔編號G06F17/30GK201867808SQ20102052359
公開日2011年6月15日 申請日期2010年9月9日 優(yōu)先權(quán)日2010年9月9日
發(fā)明者伍星, 洪林, 熊家貴 申請人:北京開心人信息技術(shù)有限公司