一種基于Ontology的語(yǔ)義檢索方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種基于Ontology的語(yǔ)義檢索方法。首先,構(gòu)建本體庫(kù),完成本體規(guī)則的建立。用戶(hù)輸入檢索關(guān)鍵字,在本體支持下,通過(guò)概念相似度計(jì)算得到相似度的大小。然后,根據(jù)設(shè)定的閾值,把相似度的值高于閾值的概念添加到原始的檢索關(guān)鍵字集合中,擴(kuò)展為新的概念集。把新的概念集作為源輸入詞到本體庫(kù)中進(jìn)行檢索。最后把檢索到的結(jié)果返回給用戶(hù)。本發(fā)明在本體推理技術(shù)的支持下,通過(guò)對(duì)本體中屬性的應(yīng)用實(shí)現(xiàn)了實(shí)例的準(zhǔn)確查找,使信息檢索的查全率、查準(zhǔn)率比現(xiàn)有技術(shù)都有所提高。本發(fā)明將關(guān)鍵字簡(jiǎn)單匹配的語(yǔ)法層次提高到計(jì)算機(jī)可以理解的語(yǔ)義層次,使計(jì)算機(jī)能夠讀懂輸入的關(guān)鍵詞,從而實(shí)現(xiàn)了檢索的智能化。
【專(zhuān)利說(shuō)明】—種基于Ontology的語(yǔ)義檢索方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于自然語(yǔ)言處理和機(jī)器智能的交叉領(lǐng)域,就是借助Ontology (本體)技術(shù),把目前信息檢索技術(shù)從關(guān)鍵字匹配方式提高到計(jì)算機(jī)可理解的語(yǔ)義檢索方式,把這項(xiàng)技術(shù)應(yīng)用到旅游信息檢索上,實(shí)現(xiàn)了智能化的旅游檢索服務(wù)。
技術(shù)背景
[0002]隨著Internet和移動(dòng)通信技術(shù)的迅猛發(fā)展,Web已成為全球的信息源,如何快速、準(zhǔn)確地從浩瀚的信息資源中尋找自己所需的信息,成為困擾用戶(hù)的一個(gè)難題。傳統(tǒng)的信息檢索提供給用戶(hù)的檢索方式是以用戶(hù)輸入的關(guān)鍵詞進(jìn)行匹配的檢索方式,但是大多數(shù)的情況下這種簡(jiǎn)單的關(guān)鍵詞匹配很難理解用戶(hù)真正的檢索目的,因此導(dǎo)致目前這種信息檢索方式的精確度不高。
[0003]國(guó)外的一些專(zhuān)家已經(jīng)在本體方面進(jìn)行了實(shí)踐性的操作,例如Ontoseek黃頁(yè)系統(tǒng),是一個(gè)基于內(nèi)容檢索的系統(tǒng),該系統(tǒng)集成了產(chǎn)品樹(shù)型結(jié)構(gòu)和在線黃頁(yè)。它把具有表示形式化能力的系統(tǒng)與本體內(nèi)容匹配機(jī)制結(jié)合起來(lái),并把本體庫(kù)與數(shù)據(jù)庫(kù)詞典整合在一起,提供用戶(hù)一個(gè)可以通過(guò)輸入自然語(yǔ)言,然后轉(zhuǎn)化為領(lǐng)域本體中的詞匯,實(shí)現(xiàn)語(yǔ)義層面的檢索系統(tǒng)。從Ontoseek黃頁(yè)系統(tǒng)中可得知,其中的概念詞匯和詞匯之間的關(guān)系是不受任何約束的,所以詞匯之間關(guān)系圖也許是不起任何作用的,因此會(huì)發(fā)生檢索到的結(jié)果不是用戶(hù)所需的。目前的旅游黃頁(yè)服務(wù)系統(tǒng),如“攜程網(wǎng)”、“途牛網(wǎng)”,在檢索上對(duì)用戶(hù)輸入的關(guān)鍵詞信息只是進(jìn)行了字詞的簡(jiǎn)單匹配,不能在語(yǔ)義上理解用戶(hù)輸入的信息,也就不能很好地檢索出用戶(hù)真正需要的信息。因此,必須將信息檢索方式從現(xiàn)有的基于關(guān)鍵詞匹配級(jí)別提升到基于知識(shí)理解級(jí)別、基于語(yǔ)義級(jí)別來(lái)對(duì)信息進(jìn)行組織和表達(dá),從而設(shè)計(jì)一種可以理解用戶(hù)語(yǔ)義的信息檢索模型。
【發(fā)明內(nèi)容】
[0004]針對(duì)現(xiàn)有技術(shù)中存在的上述問(wèn)題,本發(fā)明提出了一種基于Ontology的語(yǔ)義檢索方法,目的是實(shí)現(xiàn)計(jì)算機(jī)對(duì)用戶(hù)輸入內(nèi)容的理解,實(shí)現(xiàn)語(yǔ)義層面的檢索。
[0005]為實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案是:首先,構(gòu)建本體庫(kù),完成本體規(guī)則的建立。用戶(hù)輸入的檢索關(guān)鍵字,在本體的支持下,通過(guò)概念相似度計(jì)算得到相似度的大小。然后根據(jù)設(shè)定的閾值,把相似度的值高于閾值的概念添加到原始的檢索關(guān)鍵字集合中,擴(kuò)展為新的概念集。把新的概念集作為源輸入詞到本體庫(kù)中進(jìn)行檢索。最后把檢索到的結(jié)果返回給用戶(hù)。
[0006]—種基于Ontology的語(yǔ)義檢索方法,包括以下步驟:
[0007]步驟一,借助本體開(kāi)發(fā)工具完成本體庫(kù)的構(gòu)建,通過(guò)人工方式,分析旅游領(lǐng)域的概念或核心詞匯。構(gòu)建的本體庫(kù)形成樹(shù)型的數(shù)據(jù)結(jié)構(gòu)。
[0008]步驟二,根據(jù)領(lǐng)域概念之間的關(guān)系,利用Jena規(guī)則語(yǔ)法格式,完成本體規(guī)則庫(kù)的建立。[0009]步驟三,用戶(hù)輸入檢索詞匯或者語(yǔ)句,分詞搜索引擎進(jìn)行分詞處理。
[0010]步驟四,根據(jù)概念相似度的計(jì)算進(jìn)行語(yǔ)義檢索擴(kuò)展,形成新的概念集合。
[0011]步驟五,用新的集合作為原始詞,進(jìn)行檢索,并在本體規(guī)則的支持下,對(duì)本體進(jìn)行推理,檢索出本體庫(kù)中隱含的信息。
[0012]步驟六,檢索到的結(jié)果按相似度大小進(jìn)行排序。
[0013]步驟七,將檢索結(jié)果返回給用戶(hù)。
[0014]與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn):
[0015](I)本發(fā)明在本體推理技術(shù)的支持下,通過(guò)對(duì)本體中屬性的應(yīng)用實(shí)現(xiàn)了實(shí)例的準(zhǔn)確查找,使信息檢索的查全率、查準(zhǔn)率比現(xiàn)有技術(shù)都有所提高。
[0016](2)本發(fā)明所述方法將關(guān)鍵字簡(jiǎn)單匹配的語(yǔ)法層次提高到計(jì)算機(jī)可以理解的語(yǔ)義層次,使計(jì)算機(jī)能夠讀懂輸入的關(guān)鍵詞,從而實(shí)現(xiàn)了檢索的智能化。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0017]圖1為本發(fā)明所涉及的方法流程圖;
[0018]圖2為本發(fā)明實(shí)施例公交檢索結(jié)果;
[0019]圖3為本發(fā)明實(shí)施例酒店檢索結(jié)果;
[0020]圖4為本發(fā)明實(shí)施例景點(diǎn)檢索結(jié)果。
【具體實(shí)施方式】
[0021]下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明做進(jìn)一步說(shuō)明。
[0022]本發(fā)明的需要的軟件環(huán)境:Windows操作系統(tǒng),Myeclipse開(kāi)發(fā)工具,WEB服務(wù)器:Tomcat,數(shù)據(jù)庫(kù):Mysql, Spring+Struts+Hibernate 框架。
[0023]本發(fā)明所述方法流程圖如圖1所示,包括以下步驟:
[0024]步驟一,借助本體開(kāi)發(fā)工具Prot6g6完成本體庫(kù)的構(gòu)建,通過(guò)人工方式,分析旅游領(lǐng)域的概念或核心詞匯。構(gòu)建的本體庫(kù)形成樹(shù)型的數(shù)據(jù)結(jié)構(gòu)。
[0025]步驟二,根據(jù)領(lǐng)域概念之間的關(guān)系,例如:公交和車(chē)站之間的關(guān)系,可以用“經(jīng)過(guò)”或者“到達(dá)”這樣的屬性建立聯(lián)系,利用Jena規(guī)則語(yǔ)法格式,完成本體規(guī)則庫(kù)的建立。
[0026]步驟三,用戶(hù)輸入檢索請(qǐng)求:用戶(hù)通過(guò)檢索界面輸入檢索請(qǐng)求,提交給后臺(tái)處理程序。
[0027]用戶(hù)界面是利用Jsp和Jquery技術(shù)實(shí)現(xiàn)的,點(diǎn)擊檢索按鈕觸發(fā)OnclickO事件,通過(guò)javascript功能函數(shù)把頁(yè)面輸入的關(guān)鍵詞傳給后臺(tái)代碼。
[0028]步驟四,語(yǔ)義檢索擴(kuò)展:
[0029](I)把用戶(hù)輸入的關(guān)鍵詞進(jìn)行分詞處理,形成初始化的集合,其中借助了開(kāi)源工具Lucene0
[0030](2)擴(kuò)展出整個(gè)本體庫(kù)中與初始化集合中的詞語(yǔ)語(yǔ)義相同或相似的領(lǐng)域概念,形成新的概念集合。
[0031 ] (3)計(jì)算本體概念相似度。
[0032]概念距離的計(jì)算公式為:
[0033]Distance (a, b) = N [a, Ancestor (a, b) ] +N [b, Ancestor (a, b)]
【權(quán)利要求】
1.一種基于Ontology的語(yǔ)義檢索方法,其特征在于將信息檢索從傳統(tǒng)的關(guān)鍵詞檢索提高到語(yǔ)義檢索,包括以下步驟: 步驟一,借助本體開(kāi)發(fā)工具完成本體庫(kù)的構(gòu)建,通過(guò)人工方式,分析旅游領(lǐng)域的概念或核心詞匯; 步驟二,根據(jù)領(lǐng)域概念之間的關(guān)系,利用Jena規(guī)則語(yǔ)法格式,完成本體規(guī)則庫(kù)的建立; 步驟三,用戶(hù)輸入檢索詞匯或者語(yǔ)句,分詞搜索引擎進(jìn)行分詞處理; 步驟四,根據(jù)概念相似度的計(jì)算進(jìn)行語(yǔ)義檢索擴(kuò)展,形成新的概念集合; 步驟五,用新的集合作為原始詞,進(jìn)行檢索,并在本體規(guī)則的支持下,對(duì)本體進(jìn)行推理,檢索出本體庫(kù)中隱含的信息; 步驟六,檢索到的結(jié)果按相似度大小進(jìn)行排序; 步驟七,將檢索結(jié)果返回給用戶(hù)。
2.根據(jù)權(quán)利要求1所述的一種基于Ontology的語(yǔ)義檢索方法,其特征在于步驟四進(jìn)行語(yǔ)義檢索擴(kuò)展的方法還包括以下步驟: (1)把用戶(hù)輸入的關(guān)鍵詞進(jìn)行分詞處理,形成初始化的集合; (2)擴(kuò)展出整個(gè)本體庫(kù)中與初始化集合中的詞語(yǔ)語(yǔ)義相同或相似的領(lǐng)域概念,形成新的概念集合; (3)計(jì)算本體概念相似度; 概念距離的計(jì)算公式為:
【文檔編號(hào)】G06F17/30GK103440314SQ201310378833
【公開(kāi)日】2013年12月11日 申請(qǐng)日期:2013年8月27日 優(yōu)先權(quán)日:2013年8月27日
【發(fā)明者】沈琦, 張猛, 湯艷, 宋清明 申請(qǐng)人:北京工業(yè)大學(xué)