两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于語義相似度的地理要素查詢擴(kuò)展方法

文檔序號:6655104閱讀:284來源:國知局
專利名稱:基于語義相似度的地理要素查詢擴(kuò)展方法
技術(shù)領(lǐng)域
本發(fā)明屬于地球空間信息系統(tǒng)領(lǐng)域,尤其涉及一種基于地理本體語義相似度進(jìn)行地理要素查詢擴(kuò)展方法。
背景技術(shù)
“人類正在被數(shù)據(jù)淹沒,但人類卻貧乏于知識?!彪S著計算機(jī)和互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)上的信息量急劇增長,面對龐大的信息資源,人們感到無所適從,迷失在 Internet這張巨大的信息網(wǎng)中,“信息過載”和“信息迷航”已經(jīng)成為人們談?wù)撟疃嗟脑掝}之一。面對浩如煙海的信息,信息技術(shù)領(lǐng)域的一個熱點問題就是如何幫助用戶高質(zhì)量地檢索獲取真正有用的信息。但是目前實用的信息檢索系統(tǒng),主要是基于人工分類目錄和關(guān)鍵詞匹配的。前者由于需要手工操作,對海量信息資源的揭示的效率和深度都很有限,后者僅局限在字符形式匹配的層面上,對信息的語義、語用的揭示極為有限,同時多義詞、同義詞等異構(gòu)信息的存在使得這種詞形匹配方式的缺陷日益明顯,因此許多檢索系統(tǒng)經(jīng)常會出現(xiàn)檢索不全、答非所問的情況。而對于約占人類信息80%左右的空間信息來說,由于具有分布性、多樣性、異構(gòu)性的特點,給空間信息的共享和互操作帶來了許多不便。同時,限于相關(guān)技術(shù)的研制與發(fā)展, 目前空間信息資源的提供者對數(shù)據(jù)的描述只停留在數(shù)據(jù)的表面層次上,數(shù)據(jù)之間缺乏必要的關(guān)聯(lián),導(dǎo)致計算機(jī)無法理解數(shù)據(jù)的內(nèi)涵,難以準(zhǔn)確地發(fā)現(xiàn)滿足用戶需求的數(shù)據(jù),從而直接影響到用戶獲取信息的速度和效率。而在傳統(tǒng)的地理信息檢索方式中,以下問題日益明顯(1)地理空間信息表現(xiàn)形式的多樣性。傳統(tǒng)的地理空間信息常以地名或空間坐標(biāo)數(shù)據(jù)的形式出現(xiàn),這是多數(shù)人所認(rèn)可和熟知的。但這兩類常見的地理空間信息因為國度、文化、承載介質(zhì)的不同而表現(xiàn)各異。隨著人類對地理信息世界認(rèn)識的不斷深入以及地理空間信息解決方案的不斷改進(jìn),地理空間信息的表現(xiàn)形式逐漸走向多樣化,這為地理空間信息的檢索帶來了許多挑戰(zhàn)。(2)地理空間信息描述的模糊性。這主要表現(xiàn)在兩個方面。一方面是在描述地理空間信息時使用了無法精確定位的名稱。另一方面是對地理空間信息的描述存在歧義。如部分不同地區(qū)的地名稱謂相同、或者地名與方位名相同,這些名稱在傳統(tǒng)的詞形匹配方式信息檢索時極易造成混淆,給地理空間信息的檢索造成障礙。(3)傳統(tǒng)信息檢索主要以關(guān)鍵詞詞形匹配的方式實現(xiàn),多義詞、同義詞等異構(gòu)信息的存在使得這種詞形匹配方式的缺陷日益明顯。在傳統(tǒng)信息檢索基礎(chǔ)上發(fā)展而來的地理空間屬性特征信息的檢索同樣繼承了這個缺陷。另外,用戶在查詢需要的地理信息時,往往并不了解數(shù)據(jù)在數(shù)據(jù)庫中的名稱和存儲結(jié)構(gòu),另外人們對世界認(rèn)知的不同方式,導(dǎo)致對同一地理現(xiàn)象的觀察描述會側(cè)重于對象不同的側(cè)面,從而產(chǎn)生觀點上的差異,并形成語義異構(gòu)。即由于用戶認(rèn)知和概念世界中的概念與系統(tǒng)模型中的概念之間存在語義異質(zhì)性,用戶查詢出來的數(shù)據(jù)往往并不是他們真正需要的。這就要求系統(tǒng)能夠?qū)τ脩舯磉_(dá)的查詢語句進(jìn)行相似匹配,把滿足條件的信息返回給用戶,因此可以利用地理本體來建立智能地理信息發(fā)現(xiàn)和查詢系統(tǒng)以及地理信息服務(wù)系統(tǒng)。所謂地理本體就是,把有關(guān)地理科學(xué)領(lǐng)域的知識、信息和數(shù)據(jù)抽象成由一個個具有共識的對象(或?qū)嶓w),并按照一定的關(guān)系而組成的體系,同時進(jìn)行概念化處理和明 確的定義,最后以形式化表達(dá)的理論與方法。相似度的計算方法目前有三種途徑一是利用語料庫統(tǒng)計的方法,根據(jù)兩個概念在上下文出現(xiàn)的頻率,計算概念間語義相似度;二是利用語義詞典如WorNet、HowNet等的同義詞或義原組成的樹狀層次體系結(jié)構(gòu),通過計算兩個概念之間的信息熵或語義距離,計算概念間的語義距離;三是利用本體中兩個概念節(jié)點之間的語義距離計算概念的相似度?;谡Z料庫的方法比較客觀,綜合反映了詞語在句法、語義、語用等方面的相似性和差異。但是,這種方法比較依賴于訓(xùn)練所用的語料庫,計算量大,計算方法復(fù)雜,另外,受數(shù)據(jù)稀疏和數(shù)據(jù)噪聲的干擾較大,有時會出現(xiàn)明顯的錯誤?;谠~典的方法簡單有效,也比較直觀、易于理解,但這種方法得到的結(jié)果受人的主觀意識影響較大,有時并不能準(zhǔn)確反映客觀事實。另外,這種方法比較準(zhǔn)確地反映了詞語之間語義方面的相似性和差異,而對于詞語之間的句法和語用特點考慮得比較少。第三類方法雖然對影響概念語義相似度的節(jié)點深度、節(jié)點密度、屬性信息等因素加以考慮,但僅考慮到基本的屬性信息,而忽略了地理概念間的空間關(guān)系這一影響因子,這恰恰是地理本體中對語義相似度影響最大的因素,因此在計算地理要素相似度方面很難加以應(yīng)用。本發(fā)明提出的基于語義相似度的地理概念的查詢擴(kuò)展算法在第三類方法的基礎(chǔ)上,對影響語義相似度計算的因子進(jìn)行充分的考慮和取舍,重點考慮空間關(guān)系對地理要素語義相似度的影響,最終得到較理想的結(jié)果,很好的解決了語義查詢擴(kuò)展這一問題。

發(fā)明內(nèi)容
本發(fā)明在分析、評價現(xiàn)有的相似度算法模型的基礎(chǔ)上,充分考慮和選取各種影響因子,實現(xiàn)基于地理本體語義相似度模型的地理要素查詢擴(kuò)展,能夠快速、準(zhǔn)確的得到用戶查找的信息,改變了單純的詞形匹配的查詢方式,提高了查詢的效率。由此,本發(fā)明提供了一種基于地理本體語義的相似度獲取方法,包括如下步驟(1)從地理信息系統(tǒng)中提取基礎(chǔ)地理信息,從中獲取描述地理本體所需的各概念以及各概念之間的關(guān)系;(2)將所述各概念以及各概念之間的關(guān)系用網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)進(jìn)行描述,使用不同節(jié)點來描述不同概念,使用節(jié)點之間的連線來描述概念之間的關(guān)系;(3)根據(jù)概念節(jié)點間不同的空間關(guān)系,對概念節(jié)點之間的連線進(jìn)行賦值,對每種不同關(guān)系連線賦予不同的權(quán)重系數(shù);(4)查找待分析的兩概念節(jié)點之間最短路徑,根據(jù)所述最短路徑上各關(guān)系連線的不同權(quán)重計算獲得兩概念節(jié)點之間的語義距離;(5)查找待分析的兩概念節(jié)點所共有的公共祖先節(jié)點,計算獲得待分析的兩概念節(jié)點到公共祖先節(jié)點的深度;(6)計算獲得待分析的兩概念節(jié)點的公共祖先節(jié)點密度;
(7)計算獲得待分析的兩概念節(jié)點的共有屬性比例(主要是空間關(guān)系);(8)通過所述步驟(4)至步驟(7)中獲得的兩概念節(jié)點之間的語義距離、兩概念節(jié)點到公共祖先節(jié)點的深度、兩概念節(jié)點的公共祖先節(jié)點密度、兩概念節(jié)點的共有屬性計算得到帶分析的兩概念之間的相似度。在上述技術(shù)方案中,在所述步驟(8)中進(jìn)一步包括分別對兩概念節(jié)點之間的語義距離、兩概念節(jié)點到公共祖先節(jié)點的深度、兩概念節(jié)點的公共祖先節(jié)點密度、兩概念節(jié)點的共有屬性設(shè)置調(diào)節(jié)參數(shù)。在上述技術(shù)方案中,相似度計算公式如下
權(quán)利要求
1.一種基于地理本體語義的相似度獲取方法,其特征在于包括如下步驟(1)從地理信息數(shù)據(jù)庫中提取基礎(chǔ)地理信息,從中獲取描述地理本體所需的各概念以及各概念之間的空間關(guān)系,所述空間關(guān)系包括方位關(guān)系、拓?fù)潢P(guān)系以及度量關(guān)系;(2)將所述各概念以及各概念之間的空間關(guān)系用網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)進(jìn)行描述,使用不同節(jié)點來描述不同概念,使用節(jié)點之間的連線來描述概念之間的關(guān)系;(3)根據(jù)概念節(jié)點間不同的空間關(guān)系,對概念節(jié)點之間的連線進(jìn)行賦值,對每種不同關(guān)系連線賦予不同的權(quán)重系數(shù);(4)查找待分析的兩概念節(jié)點之間最短路徑,根據(jù)所述最短路徑上各關(guān)系連線的不同權(quán)重計算獲得兩概念節(jié)點之間的語義距離;(5)查找待分析的兩概念節(jié)點所共有的公共祖先節(jié)點,計算獲得待分析的兩概念節(jié)點到公共祖先節(jié)點的深度;(6)計算獲得待分析的兩概念節(jié)點的公共祖先節(jié)點密度;(7)計算獲得待分析的兩概念節(jié)點的共有屬性比例,特別是空間屬性;(8)通過所述步驟(4)至步驟(7)中獲得的兩概念節(jié)點之間的語義距離、兩概念節(jié)點到公共祖先節(jié)點的深度、兩概念節(jié)點的公共祖先節(jié)點密度、兩概念節(jié)點的共有屬性計算得到待分析的兩概念之間的相似度。
2.如權(quán)利要求1中所述的基于地理本體語義的相似度獲取方法,其特征在于在所述步驟(8)中進(jìn)一步包括分別對兩概念節(jié)點之間的語義距離、兩概念節(jié)點到公共祖先節(jié)點的深度、兩概念節(jié)點的公共祖先節(jié)點密度、兩概念節(jié)點的共有屬性設(shè)置調(diào)節(jié)參數(shù)。
3.如權(quán)利要求2中所述的基于地理本體語義的相似度獲取方法,其特征在于在所述步驟(8)中使用如下公式計算相似度
4.一種使用權(quán)利要求1-4中任一項所述基于地理本體語義的相似度獲取方法的地理要素查詢擴(kuò)展方法,其特征在于除查詢用戶直接輸入的概念外,還擴(kuò)展查詢相關(guān)概念,所述相關(guān)概念與所述用戶直接輸入的概念通過所述基于地理本體語義的相似度獲取方法所計算得到的相似度大于所設(shè)定的閾值。
5.如權(quán)利要求4中所述的地理要素查詢擴(kuò)展方法,其特征在于所述相關(guān)概念的查詢結(jié)果根據(jù)計算得到的相似度進(jìn)行排序,相似度高的相關(guān)概念的查詢結(jié)果排序靠前。
全文摘要
本發(fā)明涉及一種基于語義相似度的地理要素查詢擴(kuò)展方法,利用地理本體中兩個概念節(jié)點之間的最短連線距離計算概念的相似度,同時還考慮到節(jié)點深度、節(jié)點密度影響因子、共有屬性比例和公共祖先節(jié)點密度等影響因素。此外,充分考慮地理本體區(qū)別于一般領(lǐng)域本體的特性-地理概念之間的空間關(guān)系,例如方位關(guān)系、拓?fù)潢P(guān)系、度量關(guān)系等,這一重要的影響因子,根據(jù)概念間空間關(guān)系的不同,賦予它們不同的權(quán)值,從而將空間關(guān)系對語義相似度的影響進(jìn)行量化。在充分考慮和選取各種影響因子的基礎(chǔ)上,實現(xiàn)基于地理本體語義相似度模型的地理要素查詢擴(kuò)展,能夠快速、準(zhǔn)確的得到用戶查找的信息,改變了單純的詞形匹配的查詢方式,提高了查詢的效率。
文檔編號G06F17/30GK102156726SQ20111008150
公開日2011年8月17日 申請日期2011年4月1日 優(yōu)先權(quán)日2011年4月1日
發(fā)明者劉紀(jì)平, 張東, 張福浩 申請人:中國測繪科學(xué)研究院
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
呼和浩特市| 合作市| 彩票| 如东县| 遵义市| 华阴市| 府谷县| 永寿县| 中宁县| 刚察县| 诸暨市| 靖江市| 思茅市| 汕尾市| 绵阳市| 麦盖提县| 曲水县| 绿春县| 龙山县| 泰和县| 土默特左旗| 静宁县| 开江县| 巩义市| 阿拉善盟| 乌苏市| 开阳县| 佛山市| 牡丹江市| 彭水| 筠连县| 陵川县| 岳池县| 都兰县| 溆浦县| 格尔木市| 定州市| 罗山县| 三江| 高碑店市| 大英县|