两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種文本案例匹配方法

文檔序號:6509384閱讀:300來源:國知局
一種文本案例匹配方法
【專利摘要】本發(fā)明涉及一種文本案例匹配方法,該方法包括:構(gòu)建案例庫、構(gòu)建標識詞組、構(gòu)建檢索詞組、求出語義距離、根據(jù)語義距離求出語義相似度、為檢索詞組分配權(quán)重、確定綜合相似度、確定綜合相似度閾值、判斷是否全部匹配完成最后輸出匹配結(jié)果,本發(fā)明能夠根據(jù)相關(guān)概念以及相關(guān)背景知識進行推理,挖掘出文本中的隱含信息,為相關(guān)檢索式進行賦權(quán),從而可以實現(xiàn)基于概念的智能檢索。在實際系統(tǒng)應(yīng)用中具有較好的查詢效果。
【專利說明】一種文本案例匹配方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及智能檢索領(lǐng)域,具體涉及一種文本案例匹配方法。
【背景技術(shù)】
[0002]案例推理(CBR)是最近三十多年來日益發(fā)展的區(qū)別于規(guī)則推理的一種新的推理模式。它是一種重要的基于所積累的知識進行現(xiàn)有問題求解和學習的方式,強調(diào)人類對于過去積累的知識經(jīng)驗以及前人的智慧結(jié)晶的重視。一個典型的案例推理問題求解過程的基本步驟可以歸納為四個主要過程:案例檢索(Retrieve)、案例重用(Reuse)、案例修正(Revise)和案例保存(Retain)。案例推理的關(guān)鍵在于檢索與當前新發(fā)案例最相近的歷史案例,即案例檢索,以便直接利用或稍加修改其解決方案來應(yīng)對當前問題,避免了對類似問題做重復(fù)的分析工作,從而大量節(jié)省處理問題的時間,因此該推理方法廣泛受到國內(nèi)外研究學者的關(guān)注。而如何提高新舊案例匹配相似率,一直是學者們研究的重點。
[0003]案例匹配是根據(jù)已知的案例內(nèi)容,去案例庫尋找與此最相近的歷史案例,從而快速得到解決方案或以此作為參考。分析以往文獻可以發(fā)現(xiàn),過去案例匹配的方法多數(shù)是通過比較案例間的屬性數(shù)值來獲取最相似案例,而對于文本的相似計算卻研究甚少。實際上,在案例中,文本信息占據(jù)很大的比例,它主要以文字或輔以圖片呈現(xiàn)。因此,案例匹配的準率通常取決于案例中相關(guān)文本信息的匹配的精確性。
[0004]傳統(tǒng)的文本信息檢索采用的方法有布爾檢索、向量空間檢索和概率檢索。早期的信息檢索系統(tǒng)采用“布爾查詢”的方法來進行全文檢索。布爾檢索(Boolean Retrieval)是一種簡單而常用的嚴格匹配模型,它定義了一個詞組集合來標識文檔,該詞組被稱為標識詞組。同時運用布爾邏輯運算符將檢索詞連接起來形成檢索式,再與文檔標識詞組做逐一匹配。如此,布爾檢索的本質(zhì)就是將文本匹配轉(zhuǎn)化成詞組間的相互匹配。雖然布爾模型具有簡單、易理解、易在計算機上實現(xiàn)且檢索速度快等優(yōu)點。但是這種方法很難全面地表達用戶需求,對于模糊的信息需求不能很好的處理,用戶必須詳細的規(guī)劃自己的查詢,其復(fù)雜程度不亞于編程語言。而且這種檢索方式對于檢索詞的重要度不加區(qū)分,忽視索引詞與詞之間的內(nèi)在關(guān)系,所以對檢索詞與標識詞的比較過于嚴格,對于文檔與查詢的評價就只有“匹配”,“不匹配”兩種而已。
[0005]向量空間模型(Vector Space Model)由Salton等人于20世紀70年代提出。該模型用檢索項的高維向量空間來表示用戶的提問和文本集信息,其中每一維為一個特征。一個用戶提問向量或文本向量的第i個元素表示用戶提問或文本的第i個特征的重要度,或稱權(quán)值。用戶提問向量的權(quán)值由用戶指定;文本向量的權(quán)值則根據(jù)特征在文本或文本集中的出現(xiàn)頻率決定。提問向量與文本向量間的余弦角通常用來測定該文本與該用戶提問詞之間的匹配程度。向量空間模型為索引詞引進了權(quán)值,通過調(diào)節(jié)詞的權(quán)值的大小來反映標引詞與被標引文檔的相關(guān)程度,部分地克服了傳統(tǒng)布爾檢索的缺陷,但是此模型在各個維度間缺乏相關(guān)性,標引詞被認為是相互獨立的,因而無法對文檔中各個詞的相關(guān)性提供信息。從宏觀上看,仍然沒有擺脫“關(guān)鍵詞匹配”的窠臼。[0006]概率模型(Probabilistic Model)最早由Maron和Kuhn在1960年提出。概率模型通常利用檢索單元作為線索,通過統(tǒng)計得到每個檢索單元在相關(guān)的文檔集中出現(xiàn)和不出現(xiàn)的概率以及其在與該查詢不相關(guān)的文檔集中出現(xiàn)和不出現(xiàn)的概率。最終利用這些概率值,計算文檔與查詢的相似度。在檢索過程中,它通過反復(fù)反饋結(jié)果和用戶需求,使結(jié)果得到了很好的調(diào)整,但是它沿用了索引詞之間相互獨立的基本假設(shè),忽略了內(nèi)在語義關(guān)系,影響查詢結(jié)果的準確性。而且在該模型理論中沒有考慮到索引屬于在文檔中的頻率。
[0007]總結(jié)來看,傳統(tǒng)的文本匹配方法已經(jīng)越來越難滿足當前日益增長的案例信息的檢索需求了。它們在一定程度上忽略了對詞語義關(guān)系的處理,而僅局限于文本表面的字符匹配。目前還沒有出現(xiàn)對一些沒有被文字直接表述出來但隱含在案例中的信息進行較好檢索的方法。

【發(fā)明內(nèi)容】

[0008]有鑒于此,本發(fā)明提供了一種文本案例匹配方法,突出對詞語義關(guān)系的處理,能夠?qū)⒁恍]有被文字直接表述出來但隱含在案例中的信息較好地檢索出來。
[0009]本發(fā)明的具體方案是這樣的:一種文本案例匹配方法,包括:
[0010]步驟一、從新聞或檔案中搜集案例,將所述案例集合起來構(gòu)建案例庫;
[0011]步驟二、對案例庫中的所有案例進行關(guān)鍵詞提取,利用關(guān)鍵詞之間存在著的上下位關(guān)系構(gòu)建多個關(guān)鍵詞樹,每一個關(guān)鍵詞樹上的關(guān)鍵詞均為同一類的關(guān)鍵詞,同義詞之間只顯示一個詞,其余的均隱藏在該詞的后面,同時將每一個案例提取出的關(guān)鍵詞構(gòu)建多個形如Q = {%,q2,的標識詞組,每一個標識詞組中的關(guān)鍵詞均為同一類,η表示標識詞的個數(shù);
[0012]步驟三、利用關(guān)鍵詞樹從用戶輸入的檢索案例中提取關(guān)鍵詞,構(gòu)建多個形如P ={Pl, P2,…Pj的檢索詞組,每一個檢索詞組內(nèi)的關(guān)鍵詞均屬于同一類;
[0013]步驟四、將檢索案例與案例庫中的案例進行匹配,利用關(guān)鍵詞樹對內(nèi)部關(guān)鍵詞屬于同一類的標識詞組和檢索詞組做最近距離匹配,求出檢索詞組與標識詞組的語義距離
d.uP — Q ,
[0014]步驟五、利用語義距離dP — Q求出包含著同一類關(guān)鍵詞的檢索詞組與標識詞組之間的語義相似度simP —Q ;
[0015]步驟六、為包含一個類別的檢索詞組分配權(quán)重Xi,其中,i=l……η’,λ1+λ2+…
+ 入 η, = I ;
[0016]步驟七、根據(jù)公式求出整個案例的綜合相似度SIM,設(shè)SimiS每個類別檢索詞組的相似度,Xi表示該因子在匹配過程中所占的權(quán)重,權(quán)重默認值為I/η,其中η為檢索詞組的
分類數(shù),那么
【權(quán)利要求】
1.一種文本案例匹配方法,其特征在于,包括: 步驟一、從新聞或檔案中搜集案例,將所述案例集合起來構(gòu)建案例庫; 步驟二、對案例庫中的所有案例進行關(guān)鍵詞提取,利用關(guān)鍵詞之間存在著的上下位關(guān)系構(gòu)建多個關(guān)鍵詞樹,每一個關(guān)鍵詞樹上的關(guān)鍵詞均為同一類的關(guān)鍵詞,同義詞之間只顯示一個詞,其余的均隱藏在該詞的后面;同時將每一個案例提取出的關(guān)鍵詞構(gòu)建多個形如Q= Iq1, Q2, -qj的標識詞組,每一個標識詞組中的關(guān)鍵詞均為同一類,η表示標識詞的個數(shù); 步驟三、利用關(guān)鍵詞樹從用戶輸入的檢索案例中提取關(guān)鍵詞,構(gòu)建多個形如P ={Pl, P2,…Pj的檢索詞組,每一個檢索詞組內(nèi)的關(guān)鍵詞均屬于同一類; 步驟四、將檢索案例與案例庫中的案例進行匹配,利用關(guān)鍵詞樹對內(nèi)部關(guān)鍵詞屬于同一類的標識詞組和檢索詞組做最近距離匹配,求出檢索詞組與標識詞組的語義距離dP — Q ;步驟五、利用語義距離dP—Q求出包含著同一類關(guān)鍵詞的檢索詞組與標識詞組之間的語義相似度simP —Q ; 步驟六、為包含一個類別的檢索詞組分配權(quán)重Ai,其中,i=l……η’,λ1+λ2^..+ 入 η, =1 ; 步驟七、根據(jù)公式求出整個案例的綜合相似度SIM,設(shè)Simi為每個類別檢索詞組的相似度,Xi表示該因子在匹配過程中所占的權(quán)重,權(quán)重默認值為1/η’,其中η’為檢索詞組的分類數(shù),那
【文檔編號】G06F17/30GK103473283SQ201310385122
【公開日】2013年12月25日 申請日期:2013年8月29日 優(yōu)先權(quán)日:2013年8月29日
【發(fā)明者】陶坤旺, 張福浩, 仇阿根, 湯磊 申請人:中國測繪科學研究院
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
健康| 铜山县| 玉田县| 延寿县| 绥江县| 兖州市| 镇平县| 阿尔山市| 隆回县| 德兴市| 承德县| 景宁| 开平市| 凤冈县| 台东市| 宿松县| 林州市| 平果县| 襄垣县| 咸丰县| 威远县| 莱西市| 正阳县| 色达县| 广西| 垫江县| 辉南县| 祁连县| 攀枝花市| 信阳市| 博野县| 遵义县| 司法| 嘉兴市| 鄂尔多斯市| 鹿邑县| 稻城县| 手机| 肥东县| 江西省| 安西县|