本發(fā)明涉及油田搜索領域,具體地說是一種基于語義的油田搜索引擎構建方法。
背景技術:
隨著因特網(wǎng)應用的普及,internet已發(fā)展成為一個巨大的分布式信息空間。由于internet面向社會和個人,信息的產(chǎn)生不受約束,人類的信息世界呈現(xiàn)出前所未有的復雜現(xiàn)象。web信息的大容量、異構性、分布性、動態(tài)性等特點造成了“信息過載”,如何有效地為用戶提供web信息檢索已經(jīng)成為一項重要的研究課題。20世紀60年代以來,信息檢索領域取得了許多研究成果,這些成果被成功地應用在web上,產(chǎn)生了搜索引擎,例如雅虎,谷歌,百度等。大量各種語言的搜索引擎的出現(xiàn),使這些成熟的搜索引擎系統(tǒng)也成為信息的寶貴資源,成為人們獲取信息的重要途徑。目前,在網(wǎng)上常見的檢索工具有幾十種,按檢索內(nèi)容可將其大致分為3類:綜合型檢索工具,主題型檢索工具,特殊型檢索工具。綜合型檢索工具應用的最為廣泛,這種類型檢索工具可以就任何領域、任何關鍵詞的組合進行檢索,但返回結果往往成千上萬,所能夠檢索的內(nèi)容包羅萬象,而檢索某一特定專業(yè)網(wǎng)絡信息的效果不太理想。主題型檢索工具是針對某一特定領域的信息進行檢索,由于每個學科專業(yè)都有自己專門的詞匯和用語,主題型檢索工具使用與之相應的標引和檢索語言進行檢索,其效果優(yōu)于綜合型檢索工具。專題型檢索工具為有效利用網(wǎng)上科技信息、共享最新科技成果的工具,但是,目前網(wǎng)上專題型檢索工具的數(shù)量不多,無法滿足社會各個行業(yè)工作者的需求。特殊型檢索工具是指用來在網(wǎng)上檢索地址、電話號碼、圖片、地圖等特殊信息的檢索工具,特殊型檢索工具的開發(fā)往往受到各方面的限制。
大型油田都具有信息來源分散、數(shù)據(jù)保密級別高和通用性較低等特點。在開展油氣田數(shù)字化建設的程中,由于各個部門的要求的工作性質(zhì)不一樣,因此 在開發(fā)過程中針對許多部門的個別要求建立了應用數(shù)據(jù)庫和工作文檔,雖然這些信息化的數(shù)據(jù)都能很好為各個部門服務,但也不可避免的帶來了一些問題,比如信息分布散、資源共享難、建設周期長等。這些問題的存在,嚴重影響和制約了油田科技工作者的工作效率,也使得油氣田資源并沒有得到充分的開發(fā)與利用。
在油氣田開發(fā)過程中,為了進一步的為地質(zhì)勘探,油田開發(fā)提供科學的方法和強有力的數(shù)據(jù),面向油田知識的信息檢索工具的研發(fā)和應用已經(jīng)破在眉睫了。
技術實現(xiàn)要素:
針對現(xiàn)有技術的不足,本發(fā)明提供一種能夠方便的實現(xiàn)資源共享,信息整合的基于語義的油田搜索引擎構建方法。
本發(fā)明為實現(xiàn)上述目的所采用的技術方案是:
一種基于語義的油田搜索引擎構建方法,包括以下步驟:
首先構建油田本體庫,然后抓取油田領域網(wǎng)絡中的信息,最后構建油田搜索引擎。
所述油田本體庫的構建包括以下過程:
首先,定義類和類的層次,確保類的等級是“is-a”關系;
其次,定義類的屬性和屬性分面,類的屬性根據(jù)內(nèi)在特性、外在特性、局部關系和個體關系四種特性進行分層和定義;屬性分面包括屬性取值類型、允許的取值、取值個數(shù)、同義詞和其它屬性取值特征;
最后,實現(xiàn)油田本體庫的構建。
所述抓取油田領域網(wǎng)絡中的信息包括以下步驟:
步驟1:將種子網(wǎng)站作為抓取源頭,選取目標url,按評分由高到低依次選取若干url;
步驟2:對蜘蛛線程進行調(diào)度,如果緩存中文件數(shù)目大于所選取url的1/2 時,蜘蛛線程休眠;否則蜘蛛線程從休眠狀態(tài)喚醒,并將url分配給該蜘蛛線程,開始爬取油田領域網(wǎng)絡中的信息;
步驟3:如果url分配完畢,則完成抓取過程,蜘蛛線程進入休眠狀態(tài)。
url與域名為一一對應關系。
所述構建油田搜索引擎包括以下步驟:
步驟1:對網(wǎng)頁文本進行過濾,把無用廣告和彈出窗口過濾掉;
步驟2:對過濾后的網(wǎng)頁文本進行分詞,并將分詞結果與本體庫中的油田專業(yè)詞匯進行匹配,保留匹配結果;
步驟3:在本體庫中找出與匹配結果同義的關鍵詞,即為關鍵詞的同義詞;
步驟4:將關鍵詞以及關鍵詞的同義詞利用lucene構建倒排索引。
本發(fā)明具有以下有益效果及優(yōu)點:
本發(fā)明提高工作效率,為油田信息提供專業(yè)的信息檢索,提高采油廠經(jīng)濟效益。
附圖說明
圖1是本發(fā)明的方法流程圖;
圖2是本發(fā)明的抓取流程圖;
圖3是油田本體庫構建圖。
具體實施方式
下面結合附圖及實施例對本發(fā)明做進一步的詳細說明。
如圖1所示為本發(fā)明的方法流程圖。
油田語義搜索引擎總體構建流程
石油行業(yè)語義搜索引擎的處理流程分析如下:首先,構建油田語義本體;其次,由網(wǎng)絡信息采集器依據(jù)url專業(yè)數(shù)據(jù)庫中配置的地址,抓取石油行業(yè)相關的互聯(lián)網(wǎng)和企業(yè)內(nèi)網(wǎng)上的網(wǎng)頁,保存到本體文件中,網(wǎng)頁處理后轉(zhuǎn)變成純文本格式;再次,進行分詞,將有意義的關鍵詞提取出來,經(jīng)過索引后存入索引 數(shù)據(jù)庫,另一方面,將語義本體庫中的同義詞詞庫信息與關鍵詞進行關聯(lián),并將這些同義詞更新、補充到系統(tǒng)的專業(yè)數(shù)據(jù)庫中;最后,當用戶提出查詢請求時,首先根據(jù)索引數(shù)據(jù)庫找到相應數(shù)據(jù),然后由純文本文件生成摘要,并同時定位到網(wǎng)頁文件位置,以便用戶進一步地瀏覽。根據(jù)上述流程,語義搜索引擎的模塊進一步細分為:本體構建、信息抓取、索引構建、信息檢索。該搜索引擎為油田專業(yè)領域的專業(yè)搜索引擎;其次,該搜索引擎實現(xiàn)了語義關聯(lián)檢索。為保證這兩點的完成,專利設計了專業(yè)的油田本體庫,并根據(jù)本體庫信息完成了語義數(shù)據(jù)的搜集,索引的構建和查詢檢索模塊。
如圖2所示為本發(fā)明的抓取流程圖。
語義搜索引擎的搜索范圍較小,搜索效率高,通過從url數(shù)據(jù)庫中獲得種子網(wǎng)頁作為搜索的起點,索引的內(nèi)容只限于特定主題或?qū)iT領域,因此垂直搜索的抓取更傾向于結構化數(shù)據(jù)和元數(shù)據(jù)。垂直搜索引擎抓取是通過蜘蛛線程的工作來完成的。
網(wǎng)頁蜘蛛主要讀取程序的配置文件,連接數(shù)據(jù)庫并獲取未爬取的網(wǎng)頁url,然后分配給各個爬取線程。爬取線程根據(jù)自己分配到的url逐一爬取,當爬完時調(diào)用控制模塊的url分配功能為自己分配新的url。爬取時需要及時更新對應的url的信息;對于已經(jīng)爬取過的網(wǎng)頁,蜘蛛會根據(jù)網(wǎng)頁是否更新(size是否改變)決定是否抓取并同時修改url中的status,方便處理器處理。
基本流程簡要描述如下:
(1)將種子網(wǎng)站作為抓取源頭,選取要抓取的url,根據(jù)一個域名對應一個url的原則,先選取2000條評分高的url;
(2)對蜘蛛線程進行調(diào)度,當緩存中文件數(shù)目達到2500時蜘蛛線程休眠,低于2500時,即從休眠中喚醒,將url分配給該蜘蛛線程,開始爬??;
(3)線程狀態(tài)判斷器判斷url是否分配完畢,如果分配完畢回到(2)重復執(zhí)行,否則進入下一步(4);
(4)抓取完畢,蜘蛛線程進入休眠。
索引構建
垂直搜索引擎的索引構建器對網(wǎng)絡蜘蛛抓取到的網(wǎng)頁進行處理,任務包括文本處理、文檔分析和分詞、語義同義詞加入、構建倒排表索引。主要任務包括以下四個方面:
(1)網(wǎng)頁文本的過濾和預處理,自動把無用廣告、彈出窗口等過濾掉,留下主體部分供后續(xù)處理;
(2)文檔分析和分詞,從過濾后的網(wǎng)頁中分出主題內(nèi)容經(jīng)過詞頻統(tǒng)計出通用詞、專業(yè)詞出現(xiàn)的頻度和次數(shù),以及分類特征向量數(shù)據(jù);網(wǎng)頁的相關性的分析技術和算法,即判別該網(wǎng)頁是否是與石油行業(yè)相關的網(wǎng)頁;
(3)語義同義詞加入,根據(jù)分詞得到的油田關鍵字,在語義同義詞詞庫中,找到這些關鍵字的同義詞。
(4)將關鍵字以及關鍵字的同義詞利用lucene構建倒排索引。
如圖3所示為本發(fā)明的油田本體構建圖。
本體的目標是獲取、描述和表示相關領域的知識,提供對該領域知識的共同理解,確定該領域內(nèi)共同認可的詞匯,并從不同層次的形式化模式上給出這些詞匯和詞匯間相互關系的明確定義,本系統(tǒng)中利用owl網(wǎng)絡本體語言建立了油田中油井、注水井、儲油罐等詞匯及詞匯間的關系,并利用protégé建立了油田中的本體模型。將廣義數(shù)據(jù)進行層級化的劃分,形成了類與子類的關系,例如日產(chǎn)量、含水率以及月產(chǎn)量為產(chǎn)油量的子類;油井這個類中包含了設備序號、工作狀態(tài)、產(chǎn)油量、油壓、套壓等子類。
首先,定義類和類的層次,類的定義要明確,保證無歧義,類的層次定義可根據(jù)具體情況選擇自頂向下,自底向上和綜合法,并確保類的等級是“is-a”關系,避免類循環(huán)和保證一個類應有直接子類數(shù)量為2-12個;其次,定義類屬性和屬性分面,類的屬性可根據(jù)內(nèi)在特性,外在特性,局部和個體關系四種特性進行分層和定義,同時根據(jù)屬性值的特征定義屬性的約束及分面,一個屬性可能由多個分面組成,包括屬性取值類型,允許的取值,取值個數(shù)和其它屬性 取值特征;最后,本體實現(xiàn),用形式化語言描述傳感器本體。