專利名稱:一種基于關(guān)鍵詞的web服務(wù)器擴展檢索方法
技術(shù)領(lǐng)域:
本發(fā)明屬于計算機與通信技術(shù)領(lǐng)域,尤其涉及一種基于關(guān)鍵詞的TOB服務(wù)器擴展 檢索方法。
背景技術(shù):
互聯(lián)網(wǎng)與計算機網(wǎng)絡(luò)技術(shù)的發(fā)展給人們帶來了前所未有的方便,其蘊涵的大量共 享資源,已成為人類獲得信息的重要途徑之一。互聯(lián)網(wǎng)絡(luò)中的文本信息的數(shù)量不斷增加,個 人和組織擁有的文檔數(shù)量也越來越多。隨著人們對信息獲取所要求的準確性和全面性,從 而如何從海量的信息資源中快速的檢索出滿足用戶所需的信息已成為亟需解決的問題。近幾十年來,文本檢索的研究取得了很大進展,典型的有決策樹、K近鄰、樸素貝葉 斯和向量空間模型中基于特征向量與向量機、潛在語義分析(Latent Semantic Analysis, 簡稱LSA)等。但大多數(shù)方法存在嚴重的魯棒性問題,這些文本檢索系統(tǒng)都是基于詞頻統(tǒng)計 的向量空間模型(Vector Space Model,簡稱VSM)的改進或推廣,其基本思想是用向量之間 的距離來逼近文本之間的語義相似性,VSM的優(yōu)點是將文本和檢索簡化為詞項及權(quán)重集合 的向量表示,從而把檢索操作變成向量空間上的向量運算,從而使得檢索簡便快捷,適合于 大規(guī)模文檔庫的文本檢索。基于現(xiàn)有VSM模型的互聯(lián)網(wǎng)絡(luò)檢索模式,是將海量的信息以文 本的形式存儲在WEB服務(wù)器的信息文本數(shù)據(jù)庫中,用戶使用計算機客戶端輸入藥檢所的關(guān) 鍵詞并通過互聯(lián)網(wǎng)絡(luò)向WEB服務(wù)器發(fā)送檢索請求,WEB服務(wù)器的檢索請求解析程序解析獲 得關(guān)鍵詞,并通過搜索引擎檢索信息文本數(shù)據(jù)庫,獲得與關(guān)鍵詞相匹配的項檢索結(jié)果返回 至發(fā)送檢索請求的客戶端,完成信息檢索。但是,VSM模型假定的關(guān)鍵詞僅唯一地代表一個概念或語義單元,這種基于關(guān)鍵詞 頻統(tǒng)計的文本處理方法,其兩個文本的相似度取決于它們包含的公共詞語的數(shù)量,而無法 體現(xiàn)語義信息。然而,在很多情況下,人們需要檢索的信息是包含關(guān)鍵詞所體現(xiàn)的語義信息 的,例如外地游客需要查詢陌生城市中的住宿地點,輸入關(guān)鍵詞“住宿”,實際上該游客需要 查詢的內(nèi)容包括了旅社、賓館、酒店等各種與“住宿”相關(guān)的信息,針對這種情況,現(xiàn)有的檢 索技術(shù)是難以滿足用戶檢索需求的,因此用戶只能夠針對含有相同語義的不同關(guān)鍵詞進行 反復的檢索,以從中搜尋自己需要的信息,非常麻煩。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)中存在的上述問題,本發(fā)明綜合考慮到人們對于語義信息檢索的靈 活性需求,提出一種基于關(guān)鍵詞的WEB服務(wù)器擴展檢索方法,通過該方法增強WEB服務(wù)器的 語義擴展檢索性能。為實現(xiàn)上述目的,本發(fā)明采用了如下的技術(shù)手段—種基于關(guān)鍵詞的TOB服務(wù)器擴展檢索方法,包括如下步驟1)在TOB服務(wù)器的檢索請求解析程序與搜索引擎之間設(shè)置關(guān)鍵詞擴展程序;所述 關(guān)鍵詞擴展程序由擴展信息注冊線程、擴展條件生成線程、擴展信息解析線程以及關(guān)聯(lián)詞映射表、拼音漢字映射表、英漢對照映射表、同義詞映射表、錯別字映射別和縮寫詞映射表 組成;2)通過擴展信息注冊線程,將關(guān)聯(lián)詞對應關(guān)系、拼音與漢字對應關(guān)系、英文與漢字 對應關(guān)系、同義詞對應關(guān)系、錯別字對應關(guān)系和縮寫詞對應關(guān)系分別存入或更新到關(guān)聯(lián)詞 映射表、拼音漢字映射表、英漢對照映射表、同義詞映射表、錯別字映射別和縮寫詞映射表 中;3)當WEB服務(wù)器收到來自客戶端的檢索請求時,檢索請求解析程序解析檢索請求 獲得檢索的關(guān)鍵詞以及擴展條件選項,所述擴展條件選項用于指定關(guān)聯(lián)詞映射表、拼音漢 字映射表、英漢對照映射表、同義詞映射表、錯別字映射別、縮寫詞映射表中的一項或幾項 映射表作為擴展條件;擴展條件生成線程將擴展條件選項所選擇各項映射表生成為一份擴 展條件映射總表;擴展信息解析線程查詢擴展條件映射總表中的各項映射表,獲得與關(guān)鍵 詞相對應的擴展詞;搜索引擎則根據(jù)檢索請求解析程序解析獲得的關(guān)鍵詞以及擴展信息解 析線程查詢獲得的對應的擴展詞檢索信息文本數(shù)據(jù)庫,獲得分別與關(guān)鍵詞及其對應的擴展 詞相匹配的各項檢索結(jié)果,并將所述檢索結(jié)果返回至發(fā)送檢索請求的客戶端。上述的基于關(guān)鍵詞的WEB服務(wù)器擴展檢索方法中,進一步,所述關(guān)聯(lián)詞對應關(guān)系, 是針對一個候選詞,建立一個包含該候選詞的文本庫,通過基于廣義jaccard系數(shù)的相似 度算法從所述文本庫中計算與該候選詞相關(guān)度,取相關(guān)度排列前三的三個詞作為與該候選 詞對應的關(guān)聯(lián)詞;由此獲得關(guān)聯(lián)詞對應關(guān)系。進一步,所述拼音與漢字對應關(guān)系根據(jù)漢語詞典獲得。進一步,所述英文與漢字對應關(guān)系根據(jù)英漢對照詞典獲得。進一步,所述同義詞對應關(guān)系根據(jù)同義詞詞典獲得。相比于現(xiàn)有技術(shù),本發(fā)明具有如下優(yōu)點1、本發(fā)明方法針對人們對文本檢索準確性和高效性的需求,研究了查詢擴展技術(shù) 以及其在文本檢索中的應用,設(shè)計出一種基于關(guān)鍵詞的WEB服務(wù)器擴展檢索方法,增強WEB 服務(wù)器的語義擴展檢索性能,能夠更好的滿足人們對于語義信息檢索的靈活性需求。2、用戶可通過擴展條件選項指定關(guān)聯(lián)詞映射表、拼音漢字映射表、英漢對照映射 表、同義詞映射表、錯別字映射別、縮寫詞映射表中的一項或幾項映射表作為擴展條件,更 具自己的實際檢索需求進行關(guān)鍵詞擴展,使用靈活。3、采用本發(fā)明方法的TOB服務(wù)器不需要在硬件上作改動,不會增加服務(wù)器的硬件 建設(shè)成本,并且易于實現(xiàn),更新和維護都很方便,具有很好的工業(yè)實用性。
圖1為采用本發(fā)明方法的檢索過程流程框圖。
具體實施例方式采用現(xiàn)有的檢索技術(shù),由于輸入的關(guān)鍵詞不匹配問題的存在,很多時候用戶不得 不反復針對含有相同語義的不同關(guān)鍵詞進行檢索,才能找到所需要的信息。本發(fā)明基于關(guān) 鍵詞的WEB服務(wù)器擴展檢索方法就能夠減輕用戶的這一負擔,由WEB服務(wù)器提供的檢索系 統(tǒng)自動擴展出與用戶所輸入關(guān)鍵詞相對應的擴展詞進行輔助檢索,即查詢擴展技術(shù);簡單地說來,就是WEB服務(wù)器的檢索系統(tǒng)在進行檢索之前,先根據(jù)擴展條件自動把用戶查詢的 關(guān)鍵詞進行語義擴展,從而形成新的查詢條件,并檢索相匹配的信息文本返回給用戶。本發(fā)明基于關(guān)鍵詞的TOB服務(wù)器擴展檢索方法的的流程框圖如圖1所示,其具體 步驟如下1)在TOB服務(wù)器的檢索請求解析程序與搜索引擎之間設(shè)置關(guān)鍵詞擴展程序;所述 關(guān)鍵詞擴展程序由擴展信息注冊線程、擴展條件生成線程、擴展信息解析線程以及關(guān)聯(lián)詞 映射表、拼音漢字映射表、英漢對照映射表、同義詞映射表、錯別字映射別和縮寫詞映射表 組成;2)通過擴展信息注冊線程,將關(guān)聯(lián)詞對應關(guān)系、拼音與漢字對應關(guān)系、英文與漢字 對應關(guān)系、同義詞對應關(guān)系、錯別字對應關(guān)系和縮寫詞對應關(guān)系分別存入或更新到關(guān)聯(lián)詞 映射表、拼音漢字映射表、英漢對照映射表、同義詞映射表、錯別字映射別和縮寫詞映射表 中;3)當WEB服務(wù)器收到來自客戶端的檢索請求時,檢索請求解析程序解析檢索請求 獲得檢索的關(guān)鍵詞以及擴展條件選項,所述擴展條件選項用于指定關(guān)聯(lián)詞映射表、拼音漢 字映射表、英漢對照映射表、同義詞映射表、錯別字映射別、縮寫詞映射表中的一項或幾項 映射表作為擴展條件;擴展條件生成線程將擴展條件選項所選擇各項映射表生成為一份擴 展條件映射總表;擴展信息解析線程查詢擴展條件映射總表中的各項映射表,獲得與關(guān)鍵 詞相對應的擴展詞;搜索引擎則根據(jù)檢索請求解析程序解析獲得的關(guān)鍵詞以及擴展信息解 析線程查詢獲得的對應的擴展詞檢索信息文本數(shù)據(jù)庫,獲得分別與關(guān)鍵詞及其對應的擴展 詞相匹配的各項檢索結(jié)果,并將所述檢索結(jié)果返回至發(fā)送檢索請求的客戶端。通過上述的檢索方法,WEB服務(wù)器即可根據(jù)用戶通過擴展條件選項指定的關(guān)聯(lián)詞 映射表、拼音漢字映射表、英漢對照映射表、同義詞映射表、錯別字映射別、縮寫詞映射表中 的一項或幾項映射表作為擴展條件,對關(guān)鍵詞進行擴展檢索,更好的滿足人們對于語義信 息檢索的靈活性需求。由上述方法可見,要在現(xiàn)有的WEB服務(wù)器上實現(xiàn)本發(fā)明的檢索方法, 不需要在服務(wù)器的硬件上添加任何的額外裝置,只需要在軟件上增加關(guān)鍵詞擴展程序即 可,對于熟悉服務(wù)器編程的技術(shù)人員而言非常容易實現(xiàn),而且關(guān)鍵詞擴展程序中各映射表 的更新和維護都很方便。下面通過具體實施方式
對本發(fā)明作進一步的說明。根據(jù)目前網(wǎng)絡(luò)語言的的特點以及漢語意思表達形式的多樣化,結(jié)合現(xiàn)行所研究出 來的語義擴展方法,本發(fā)明基于關(guān)鍵詞的WEB服務(wù)器擴展檢索方法中共設(shè)計了六個用于語 義擴展的映射表,分別為關(guān)聯(lián)詞映射表、拼音漢字映射表、英漢對照映射表、同義詞映射表、 錯別字映射別和縮寫詞映射表。對于不同的映射表,其對應關(guān)系需要通過不同的方式獲得。A、關(guān)聯(lián)詞對應關(guān)系的獲得基于關(guān)鍵詞匹配的現(xiàn)有檢索技術(shù)中,由于單個的關(guān)鍵詞所表達的語義并不明確, 所以對于每個關(guān)鍵詞計算其關(guān)聯(lián)詞也就是與之相關(guān)度高的詞匯,以關(guān)聯(lián)詞作為體現(xiàn)關(guān)鍵詞 語義的一個方面。本發(fā)明方法中通過關(guān)聯(lián)詞映射表來記錄關(guān)聯(lián)詞對應關(guān)系,而關(guān)聯(lián)詞對應 關(guān)系則通過計算詞匯的相關(guān)度來獲得。對于詞匯相關(guān)度的計算方式,現(xiàn)行研究出來的已有很多,具體可參考文獻“田萱、 杜小勇、李海華.語義查詢擴展中詞語-概念相關(guān)度的計算[J]軟件學報,2008,19 (8)第2043 2053頁”以及“Ricardo Baeza Yates.現(xiàn)代信息檢索[M],王知津,譯.北京機械 工業(yè)出版社2004”。為了提高檢索效率,結(jié)合WEB服務(wù)器自身的一些特征,本實施例中采用 基于廣義Jaccard系數(shù)的相似度計算方法來計算詞與詞之間的相關(guān)度,針對一個候選詞, 建立一個包含該候選詞的文本庫,通過基于廣義jaccard系數(shù)的相似度算法從所述文本庫 中計算與該候選詞相關(guān)度,取相關(guān)度排列前三的三個詞作為與該候選詞對應的關(guān)聯(lián)詞;由 此獲得關(guān)聯(lián)詞對應關(guān)系,從而建立不同詞語的關(guān)聯(lián)詞。一般數(shù)據(jù)類型有標稱型變量、序數(shù)型變量、二元變量、比例標度型變量、混合類型 變量等。綜合以上變量類型,文本字符串適合歸為二元變量,所以可利用分詞技術(shù)先將字符 串分成若干個詞,每個獨立詞作為二元變量的一個屬性。把全部詞設(shè)定為一個二元變量屬 性集合R,字符串A和字符串B的詞包含于這個集合R。設(shè)m是字符串A詞總數(shù),η是字符 串B詞總數(shù),ρ是字符串A、B共有詞總數(shù)。m、η、ρ是字符串比較的3個狀態(tài)分量。采用廣義Jaccard系數(shù)來描述兩個字符串間(可以把一個詞語看做一個字符串) 的相關(guān)程度,即相似度=p/(m+n-p)。根據(jù)字符串相似度計算公式,結(jié)合向量空間模型中文本的表示,本文所采用的相 關(guān)度算法如下假設(shè)一文本庫中文本集合為W,其中總的文本數(shù)為R篇,W中出現(xiàn)詞a的文本 集合為Wa,Wa = {ffal, Wa2,...,WaJ。設(shè)文本集合W中出現(xiàn)詞b的文本集合為Wb,Wb = {ffbl, wb2, ...,Wbn}。設(shè)Wa中含有詞b的文章集合為Wab e Wa以及Wb中含有詞a的文章集合為 Wba e Wb,則出現(xiàn)詞a的集合中含有詞b的子集應等于出現(xiàn)詞b的集合中含有詞a的子集, 即Wab = Wba = Wa η Wb, Wab = Iffabl,Wab2,. . .,WabJ。再設(shè)W中或者出現(xiàn)詞a和或者出現(xiàn)詞b 的文本集合為Waub,則Waub = Wa U Wb,WaUb = Wa+Wb-Wab。從而由字符串相似度的定義有詞 a和詞b的相似度Sim (a,b)必定正比于集合Wab與集合Wa, b大小之比,由此得到詞a與詞 b相似度計算公式如下
權(quán)利要求
1.一種基于關(guān)鍵詞的WEB服務(wù)器擴展檢索方法,其特征在于,包括如下步驟1)在WEB服務(wù)器的檢索請求解析程序與搜索引擎之間設(shè)置關(guān)鍵詞擴展程序;所述關(guān) 鍵詞擴展程序由擴展信息注冊線程、擴展條件生成線程、擴展信息解析線程以及關(guān)聯(lián)詞映 射表、拼音漢字映射表、英漢對照映射表、同義詞映射表、錯別字映射別和縮寫詞映射表組 成;2)通過擴展信息注冊線程,將關(guān)聯(lián)詞對應關(guān)系、拼音與漢字對應關(guān)系、英文與漢字對應 關(guān)系、同義詞對應關(guān)系、錯別字對應關(guān)系和縮寫詞對應關(guān)系分別存入或更新到關(guān)聯(lián)詞映射 表、拼音漢字映射表、英漢對照映射表、同義詞映射表、錯別字映射別和縮寫詞映射表中;3)當WEB服務(wù)器收到來自客戶端的檢索請求時,檢索請求解析程序解析檢索請求獲得 檢索的關(guān)鍵詞以及擴展條件選項,所述擴展條件選項用于指定關(guān)聯(lián)詞映射表、拼音漢字映 射表、英漢對照映射表、同義詞映射表、錯別字映射別、縮寫詞映射表中的一項或幾項映射 表作為擴展條件;擴展條件生成線程將擴展條件選項所選擇各項映射表生成為一份擴展條 件映射總表;擴展信息解析線程查詢擴展條件映射總表中的各項映射表,獲得與關(guān)鍵詞相 對應的擴展詞;搜索引擎則根據(jù)檢索請求解析程序解析獲得的關(guān)鍵詞以及擴展信息解析線 程查詢獲得的對應的擴展詞檢索信息文本數(shù)據(jù)庫,獲得分別與關(guān)鍵詞及其對應的擴展詞相 匹配的各項檢索結(jié)果,并將所述檢索結(jié)果返回至發(fā)送檢索請求的客戶端。
2.根據(jù)權(quán)利要求1所述的基于關(guān)鍵詞的TOB服務(wù)器擴展檢索方法,其特征在于所 述關(guān)聯(lián)詞對應關(guān)系,是針對一個候選詞,建立一個包含該候選詞的文本庫,通過基于廣義 jaccard系數(shù)的相似度算法從所述文本庫中計算與該候選詞相關(guān)度,取相關(guān)度排列前三的 三個詞作為與該候選詞對應的關(guān)聯(lián)詞;由此獲得關(guān)聯(lián)詞對應關(guān)系。
3.根據(jù)權(quán)利要求1所述的基于關(guān)鍵詞的WEB服務(wù)器擴展檢索方法,其特征在于所述 拼音與漢字對應關(guān)系根據(jù)漢語詞典獲得。
4.根據(jù)權(quán)利要求1所述的基于關(guān)鍵詞的WEB服務(wù)器擴展檢索方法,其特征在于所述 英文與漢字對應關(guān)系根據(jù)英漢對照詞典獲得。
5.根據(jù)權(quán)利要求1所述的基于關(guān)鍵詞的WEB服務(wù)器擴展檢索方法,其特征在于所述 同義詞對應關(guān)系根據(jù)同義詞詞典獲得。
全文摘要
本發(fā)明提供了一種基于關(guān)鍵詞的WEB服務(wù)器擴展檢索方法,該方法由WEB服務(wù)器提供的檢索系統(tǒng)自動擴展出與用戶所輸入關(guān)鍵詞相對應的擴展詞進行輔助檢索,即WEB服務(wù)器的檢索系統(tǒng)在進行檢索之前,先根據(jù)擴展條件自動把用戶查詢的關(guān)鍵詞進行語義擴展,從而形成新的查詢條件,并檢索相匹配的信息文本返回給用戶。本發(fā)明方法可增強WEB服務(wù)器的語義擴展檢索性能,并且擴展條件可靈活選擇,能夠更好的滿足人們對于語義信息檢索的靈活性需求。
文檔編號G06F17/30GK102110174SQ201110089889
公開日2011年6月29日 申請日期2011年4月11日 優(yōu)先權(quán)日2011年4月11日
發(fā)明者劉春偉, 葉蕾, 鄒國奇 申請人:重慶大學