本發(fā)明涉及知識工程技術領域,尤其涉及一種城市管理本體知識庫的構建方法及系統(tǒng)。
背景技術:
隨著城市信息化進程的日益加快,人們的生產(chǎn)生活方式發(fā)生了翻天覆地的變化。人們對城市服務能力的要求也越來越高,于是智慧城市理念應運而生。尤其在城市管理方面,公眾希望政府的施政手段更加人性化,市政部門不再是單純的城市管理者,更要向城市服務者的身份轉變。因此,借助知識工程及相關技術開發(fā)一個基于城市管理的本體知識庫應用顯得尤為重要,因為它可以有效地解決上述那些困擾城市發(fā)展的瓶頸問題。
所謂本體知識庫,即知識工程中結構化、易操作、易利用、全面有組織的知識集群。通常是針對某一(或某些)領域問題求解的需要,采用某種(或若干)知識表示方式在計算機存儲器中存儲、組織、管理及使用的互相聯(lián)系的知識片集合。傳統(tǒng)的關系型數(shù)據(jù)庫相比,傳統(tǒng)數(shù)據(jù)庫只能通過二維表存儲一些基本的事實數(shù)據(jù),且其不具備表達和處理知識的能力。而知識庫不僅蘊含顯式表達的事實知識,也包含顯式表達的包括常識、經(jīng)驗等在內的領域知識和啟發(fā)式知識。在某些確定的規(guī)則下,知識庫能夠推導出新的數(shù)據(jù)項,有專門的推理機制支持帶控制的知識檢索。
目前,人們已經(jīng)對通用知識庫的構建開展了大量的工作,現(xiàn)有本體知識庫的實現(xiàn)往往存在如下問題:僅針對某一特定領域來構建知識庫;構建知識庫所需的數(shù)據(jù)來源和格式也較為單一,多數(shù)是基于互聯(lián)網(wǎng)數(shù)據(jù)。而且,現(xiàn)有的研究應用中更是少有關于城市管理領域的知識 庫構建案例,即使有類似的應用場景,其涉及的領域也往往局限在城市管理體系的某一側面,如軌道交通系統(tǒng)、醫(yī)療衛(wèi)生系統(tǒng)、基礎設施建設系統(tǒng)等。并且這些知識庫的數(shù)據(jù)來源依然以互聯(lián)網(wǎng)數(shù)據(jù)為主,這相對于城市管理知識庫的需求還存在著缺乏權威性、不具時效性和沒有針對性等缺點??梢姡斍斑@些基于知識庫的研究應用并沒有從根本上解決好城市管理系統(tǒng)所面臨的跨體系、多平臺、數(shù)據(jù)源復雜的問題。目前各個行政管理部門普遍購置了屬于自己的信息化部門管理系統(tǒng)(簡稱部門系統(tǒng)或系統(tǒng)),但由于行政領域的差異,不同部門系統(tǒng)所產(chǎn)生的數(shù)據(jù)信息在結構和語義上都存在較大差異,因此,在知識庫的構建過程中存在各部門的數(shù)據(jù)融合及統(tǒng)一問題。由于城市管理體系過于龐雜,為了保證對城市管理領域描述的完整性,構建知識庫的數(shù)據(jù)來源不可能僅限于某一種特定的數(shù)據(jù)結構,在知識庫的構建過程中存在對各種異構數(shù)據(jù)的轉換及處理問題。相比其他領域知識,城市管理領域的知識數(shù)量龐大、信息龐雜,在實現(xiàn)對海量數(shù)據(jù)的知識庫的構建過程中,還存在查詢效率低的問題。
技術實現(xiàn)要素:
鑒于上述問題,本發(fā)明提出了一種城市管理本體知識庫的構建方法及系統(tǒng),解決了部門間信息的互通問題,實現(xiàn)自動化的知識抽取和本體知識庫構建。
根據(jù)本發(fā)明的一個方面,提供了一種城市管理本體知識庫的構建方法,該方法包括:
獲取各城市管理部門系統(tǒng)的數(shù)據(jù)集以及與各部門相關的法律法規(guī)文檔;
根據(jù)預設策略對所述各部門系統(tǒng)的數(shù)據(jù)集以及與各部門相關的法律法規(guī)文檔進行知識抽取,得到所述各部門系統(tǒng)的數(shù)據(jù)集對應的第一知識實體集和與各部門相關的法律法規(guī)文檔對應的第二知識實體集;
為所述第一知識實體集和第二知識實體集中的所有知識實體添加關鍵字標簽和唯一標識符,并根據(jù)所述關鍵字標簽建立所述第一知識實體集中的知識實體與第二知識實體集中的知識實體之間的實體鏈接關系,得到本體知識庫中的實例;
獲取與每一實例相匹配的互聯(lián)網(wǎng)數(shù)據(jù),并建立每一實例與對應的互聯(lián)網(wǎng)數(shù)據(jù)之間的鏈接。
其中,在所述根據(jù)預設策略對所述各部門系統(tǒng)的數(shù)據(jù)集以及與各部門相關的法律法規(guī)文檔進行知識抽取之前,所述方法還包括:
對所述各部門系統(tǒng)的數(shù)據(jù)集的數(shù)據(jù)格式轉換為數(shù)據(jù)文檔;
根據(jù)預設的專家系統(tǒng)對格式轉換后的各部門系統(tǒng)的數(shù)據(jù)集的有效性進行校驗,得到有效元數(shù)據(jù)。
其中,所述根據(jù)預設策略對所述各部門系統(tǒng)的數(shù)據(jù)集以及與各部門相關的法律法規(guī)文檔進行知識抽取,包括:
采用關鍵詞提取方式或預設規(guī)則對所述各部門系統(tǒng)的數(shù)據(jù)集進行知識抽??;
采用正則表達式匹配的方式對所述與各部門相關的法律法規(guī)文檔進行知識抽取。
其中,所述方法還包括:
當各部門系統(tǒng)的數(shù)據(jù)集和/或與各部門相關的法律法規(guī)文檔發(fā)生變更時,根據(jù)每一知識實體的唯一標識符更新發(fā)生變更的數(shù)據(jù)對應的知識實體。
其中,所述根據(jù)所述關鍵字標簽建立所述第一知識實體集中的知識實體與第二知識實體集中的知識實體之間的實體鏈接關系,包括:
提取第一知識實體集和第二知識實體集中各個知識實體的關鍵字標簽;
獲取不同的知識實體集中任意兩個知識實體的關鍵字標簽的相 識度;
根據(jù)所述相識度建立不同的知識實體集中任意兩個知識實體之間的實體鏈接關系。
其中,所述獲取不同的知識實體集中任意兩個知識實體的關鍵字標簽的相識度,具體包括:
計算不同的知識實體集中任意兩個知識實體的關鍵字標簽的編輯距離;
計算不同的知識實體集中任意兩個知識實體的關鍵字標簽的余弦相識度;
根據(jù)所述編輯距離和余弦相識度計算不同的知識實體集中任意兩個知識實體的關鍵字標簽的相識度sim(x,y),公式如下:
其中,x為第一個知識實體的關鍵字標簽的向量表示,y為第二個知識實體的關鍵字標簽的向量表示,cossim(x,y)為x向量和y向量的余弦相似度,levin(x,y)為x向量和y向量的編輯距離。
其中,所述獲取與每一實例相匹配的互聯(lián)網(wǎng)數(shù)據(jù),并建立每一實例與對應的互聯(lián)網(wǎng)數(shù)據(jù)之間的鏈接,包括:
提取每一實例的特征信息,根據(jù)所述特征信息從互聯(lián)網(wǎng)中抓取與所述特征信息相匹配的互聯(lián)網(wǎng)數(shù)據(jù);
建立每一實例與對應的互聯(lián)網(wǎng)數(shù)據(jù)之間的鏈接。
根據(jù)本發(fā)明的另一個方面,提供了一種城市管理本體知識庫的構建系統(tǒng),該系統(tǒng)包括:
數(shù)據(jù)獲取單元,用于獲取各城市管理部門系統(tǒng)的數(shù)據(jù)集以及與各部門相關的法律法規(guī)文檔;
知識抽取單元,用于根據(jù)預設策略對所述各部門系統(tǒng)的數(shù)據(jù)集以及與各部門相關的法律法規(guī)文檔進行知識抽取,得到所述各部門 系統(tǒng)的數(shù)據(jù)集對應的第一知識實體集和與各部門相關的法律法規(guī)文檔對應的第二知識實體集;
實體鏈接建立單元,用于為所述第一知識實體集和第二知識實體集中的所有知識實體添加關鍵字標簽和唯一標識符,并根據(jù)所述關鍵字標簽建立所述第一知識實體集中的知識實體與第二知識實體集中的知識實體之間的實體鏈接關系,得到本體知識庫中的實例;
網(wǎng)絡數(shù)據(jù)鏈接建立單元,用于獲取與每一實例相匹配的互聯(lián)網(wǎng)數(shù)據(jù),并建立每一實例與對應的互聯(lián)網(wǎng)數(shù)據(jù)之間的鏈接。
其中,所述知識抽取單元,包括:
第一處理模塊,用于采用關鍵詞提取方式或預設規(guī)則對所述各部門系統(tǒng)的數(shù)據(jù)集進行知識抽??;
第二處理模塊,用于采用正則表達式匹配的方式對所述與各部門相關的法律法規(guī)文檔進行知識抽取。
其中,所述實體鏈接建立單元,包括:
提取模塊,用于提取第一知識實體集和第二知識實體集中各個知識實體的關鍵字標簽;
獲取模塊,用于獲取不同的知識實體集中任意兩個知識實體的關鍵字標簽的相識度;
鏈接建立模塊,用于根據(jù)所述相識度建立不同的知識實體集中任意兩個知識實體之間的實體鏈接關系。
本發(fā)明的有益效果為:
本發(fā)明提供的一種城市管理本體知識庫的構建方法及系統(tǒng),以各城市管理部門系統(tǒng)公開的數(shù)據(jù)集為數(shù)據(jù)源頭,并吸納了相關領域的法律法規(guī)文檔和互聯(lián)網(wǎng)公開數(shù)據(jù)為構建城市管理本體知識庫,通過異構數(shù)據(jù)的知識抽取,實現(xiàn)自動化的知識抽取和知識庫構建。利用語義信息建立知識實體之間的鏈接,高效準確地得到搜索結果并返回給用戶,保證了知識庫的查詢效率和質量,提升用戶體驗。而 且,由于進行了相關實體間的自動匹配與鏈接,進而實現(xiàn)了各部門間信息的互通互信。
附圖說明
通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領域普通技術人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
圖1為本發(fā)明實施例提出的一種城市管理本體知識庫的構建方法的流程圖;
圖2為本發(fā)明實施例提出的一種城市管理本體知識庫的構建系統(tǒng)的結構框圖。
具體實施方式
下面詳細描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發(fā)明,而不能解釋為對本發(fā)明的限制。
本技術領域技術人員可以理解,除非特意聲明,這里使用的單數(shù)形式“一”、“一個”、“所述”和“該”也可包括復數(shù)形式。應該進一步理解的是,本發(fā)明的說明書中使用的措辭“包括”是指存在所述特征、整數(shù)、步驟、操作、元件和/或組件,但是并不排除存在或添加一個或多個其他特征、整數(shù)、步驟、操作、元件、組件和/或它們的組。
本技術領域技術人員可以理解,除非另外定義,這里使用的所有術語(包括技術術語和科學術語),具有與本發(fā)明所屬領域中的普通技術人員的一般理解相同的意義。還應該理解的是,諸如通用字典中定義的那些術語,應該被理解為具有與現(xiàn)有技術的上下文中的意義一致的意義,并且除非被特定定義,否則不會用理想化或過于正式的含義來解釋。
圖1示出了本發(fā)明實施例提出的一種城市管理本體知識庫的構建方法的流程圖。
參照圖1,本發(fā)明實施例提出的城市管理本體知識庫的構建方法包括:
S11、獲取各城市管理部門系統(tǒng)的數(shù)據(jù)集以及與各部門相關的法律法規(guī)文檔;
S12、根據(jù)預設策略對所述各部門系統(tǒng)的數(shù)據(jù)集以及與各部門相關的法律法規(guī)文檔進行知識抽取,得到所述各部門系統(tǒng)的數(shù)據(jù)集對應的第一知識實體集和與各部門相關的法律法規(guī)文檔對應的第二知識實體集;
S13、為所述第一知識實體集和第二知識實體集中的所有知識實體添加關鍵字標簽和唯一標識符,并根據(jù)所述關鍵字標簽建立所述第一知識實體集中的知識實體與第二知識實體集中的知識實體之間的實體鏈接關系,得到本體知識庫中的實例;
S14、獲取與每一實例相匹配的互聯(lián)網(wǎng)數(shù)據(jù),并建立每一實例與對應的互聯(lián)網(wǎng)數(shù)據(jù)之間的鏈接。
本實施例提供的基于異構元數(shù)據(jù)的城市管理本體知識庫的構建方法,解決了現(xiàn)有技術中在知識庫構建過程中有待解決的問題。
本實施例中,在步驟S12中的根據(jù)預設策略對所述各部門系統(tǒng)的數(shù)據(jù)集以及與各部門相關的法律法規(guī)文檔進行知識抽取之前,進一步包括:
對所述各部門系統(tǒng)的數(shù)據(jù)集的數(shù)據(jù)格式轉換為數(shù)據(jù)文檔;
根據(jù)預設的專家系統(tǒng)對格式轉換后的各部門系統(tǒng)的數(shù)據(jù)集的有效性進行校驗,得到有效元數(shù)據(jù)。
實際應用中,由于各部門系統(tǒng)的數(shù)據(jù)集的數(shù)據(jù)格式不一定統(tǒng)一,因此,首先需要對各部門系統(tǒng)的數(shù)據(jù)集進行預處理,具體包括:
對所述各部門系統(tǒng)的數(shù)據(jù)集的數(shù)據(jù)格式轉換為數(shù)據(jù)文檔,即xls 文件,將各部門系統(tǒng)的數(shù)據(jù)集處理成統(tǒng)一格式的數(shù)據(jù)文檔,然后交由相關領域的專家系統(tǒng)對數(shù)據(jù)集的正確性和有效性進行校驗,所得到的有效元數(shù)據(jù)將用于后續(xù)的知識抽取工作中。然后,將部門系統(tǒng)元數(shù)據(jù)由計算機不易處理的xls文件轉為計算機易處理的csv格式。同時,對一些有待完善的元數(shù)據(jù)文檔做標準化處理。
此外,本步驟還包括:基于法律法規(guī)文本的結構特點,從每條法律中抽象出若干個基本單元,如法律名稱、內容描述、執(zhí)法主體等,最后統(tǒng)一處理成csv格式。
本實施例中,步驟S12中的根據(jù)預設策略對所述各部門系統(tǒng)的數(shù)據(jù)集以及與各部門相關的法律法規(guī)文檔進行知識抽取,進一步包括以下圖中未示出的步驟:
S121、采用關鍵詞提取方式或預設規(guī)則對所述各部門系統(tǒng)的數(shù)據(jù)集進行知識抽??;
S122、采用正則表達式匹配的方式對所述與各部門相關的法律法規(guī)文檔進行知識抽取。
下面以執(zhí)法行為“處罰以欺騙手段取得資質證書承攬城鄉(xiāng)規(guī)劃編制工作”的元數(shù)據(jù)為例,對本發(fā)明實施例中提供的各部門系統(tǒng)的數(shù)據(jù)集的知識抽取進行解釋說明。
元數(shù)據(jù)為二維表結構,在知識庫的構建過程中元數(shù)據(jù)里每一個條目都被當成一個實體處理,每一個實體都有四個元素對其描述,即業(yè)務標識、元素名稱、類型和類別?!皹I(yè)務標識”有兩個作用,一個是在數(shù)據(jù)集成過程中作為鏈接本地系統(tǒng)和數(shù)據(jù)庫的全局標識符,另一個是描述業(yè)務的層次結構。例如,C.1.1.1.10.23是C.1.1.1.10.23.1父級;“元素名稱”是起到簡要描述作用的標簽;最后兩列分別為“類型”和“類別”,兩者的不同之處在于“類型”是基于城市管理邏輯的分類,例如活動、操作者、地點等,而“類別”主要用于描述物理屬性,如數(shù)字、附圖、次序等。因此在知識庫概念模型的構建中, 我們制定如下規(guī)則策略:使用類型構建概念體系,類別作為實體屬性用來表示上級實體中實例與下級實體中概念間的關系。運用本策略即可得到活動、操作者、參與者、地點等概念以及實施、崗位、次序、單位等實體屬性,進而我們可以構建出<處罰以欺騙手段取得資質證書承攬城鄉(xiāng)規(guī)劃編制工作有崗位經(jīng)辦人>這樣的三元組關系來描述實例‘處罰以欺騙手段取得資質證書承攬城鄉(xiāng)規(guī)劃編制工作’與實例‘經(jīng)辦人’間的關系,當然我們還可以描述出實體‘處罰以欺騙手段取得資質證書承攬城鄉(xiāng)規(guī)劃編制工作’是‘活動’概念的一個實例,‘經(jīng)辦人’是‘操作者’概念的一個實例。通過實現(xiàn)一個基于上述策略算法的程序即可實現(xiàn)無需深層次人工判斷的自動化知識抽取,將系統(tǒng)元數(shù)據(jù)中的知識抽取出來并保留其中的語義信息。
對于法律法規(guī)的知識抽取工作將包含對系統(tǒng)元數(shù)據(jù)和純文本法律法規(guī)兩方面的抽取。法律法規(guī)文本通常都存在一個明確的格式規(guī)范,可以被分為若干個基本單元進行抽取。遵循一個固定的模板,即以一個阿拉伯數(shù)字開頭,其后跟隨一個與元數(shù)據(jù)相關的標題,后面便是該法律法規(guī)的具體描述信息。對法律法規(guī)文檔的知識抽取是通過正則表達式匹配實現(xiàn)的。此外,對法律法規(guī)標題的近一步抽取也是通過正則表達式匹配實現(xiàn)。
最后,在實體中將補充進從開放互聯(lián)網(wǎng)中抽取到的相匹配的互聯(lián)網(wǎng)數(shù)據(jù)信息,形成最終的城市管理知識庫。
進一步地,本實施例提出的城市管理本體知識庫的構建方法,還包括以下步驟:
當各部門系統(tǒng)的數(shù)據(jù)集和/或與各部門相關的法律法規(guī)文檔發(fā)生變更時,根據(jù)每一知識實體的唯一標識符更新發(fā)生變更的數(shù)據(jù)對應的知識實體。
本實施例中,當某一部門的行政管理工作流程發(fā)生改變時,系統(tǒng)將借助唯一標示符實現(xiàn)原知識和新知識的變更,相應變更會通過 對部門系統(tǒng)元數(shù)據(jù)的更新及時反映到城市管理知識庫上,公眾能夠直觀的了解到行政流程發(fā)生怎樣的變化,避免了由于信息的快速更新所造成的公共信息失效。
本實施例中,在步驟S13中的根據(jù)所述關鍵字標簽建立所述第一知識實體集中的知識實體與第二知識實體集中的知識實體之間的實體鏈接關系,具體包括以下圖中未示出的步驟:
S131、提取第一知識實體集和第二知識實體集中各個知識實體的關鍵字標簽;
S132、獲取不同的知識實體集中任意兩個知識實體的關鍵字標簽的相識度;
S133、根據(jù)所述相識度建立不同的知識實體集中任意兩個知識實體之間的實體鏈接關系。
進一步地,所述步驟S132,具體包括:
計算不同的知識實體集中任意兩個知識實體的關鍵字標簽的編輯距離;
計算不同的知識實體集中任意兩個知識實體的關鍵字標簽的余弦相識度;
根據(jù)所述編輯距離和余弦相識度計算不同的知識實體集中任意兩個知識實體的關鍵字標簽的相識度sim(x,y),公式如下:
其中,x為第一個知識實體的關鍵字標簽的向量表示,y為第二個知識實體的關鍵字標簽的向量表示,cossim(x,y)為x向量和y向量的余弦相似度,levin(x,y)為x向量和y向量的編輯距離。
本發(fā)明實施例中,通過對部門系統(tǒng)元數(shù)據(jù)的實例抽取和法律法規(guī)文本的實例抽取生成業(yè)務活動相對應的實例和法律法規(guī)相應的實例。本步驟通過計算業(yè)務活動實例和法律法規(guī)實例間的相似度來進 行自動關聯(lián)。鑒于活動實例和法律實例都是抽象的對象,我們采用對其中文標簽進行相似度計算來識別是否關聯(lián),比較通用的字符串相似度計算有余弦相似度和編輯距離,我們采用了兩者的一個綜合的算法,相似度公式如下所示:
其中,x為第一個知識實體的關鍵字標簽的向量表示,y為第二個知識實體的關鍵字標簽的向量表示,等號右式子的分子為x向量和y向量的笛卡兒積,即相同字的頻度的乘機的和。分母為x向量的模和y向量的模的成績,向量的模即向量中每一個元素的平方的和再解二次方跟。式子中n為向量的長度,i是一個變量指示器。
編輯距離通過Apache Common的Levenshtein函數(shù)獲得。綜合相似度評分公式如下:
其中,x為第一個知識實體的關鍵字標簽的向量表示,y為第二個知識實體的關鍵字標簽的向量表示,cossim(x,y)為x向量和y向量的余弦相似度,levin(x,y)為x向量和y向量的編輯距離。
最后通過匹配其標簽關聯(lián)活動實體與法律實體,步驟如下:
其中,所述獲取與每一實例相匹配的互聯(lián)網(wǎng)數(shù)據(jù),并建立每一實例與對應的互聯(lián)網(wǎng)數(shù)據(jù)之間的鏈接,包括:
提取每一實例的特征信息,根據(jù)所述特征信息從互聯(lián)網(wǎng)中抓取與所述特征信息相匹配的互聯(lián)網(wǎng)數(shù)據(jù);
建立每一實例與對應的互聯(lián)網(wǎng)數(shù)據(jù)之間的鏈接。
實際應用中,本體知識庫構建是基于在線百科資源的。Xlore是一種基于這四種在線百科資源構建的交叉語義知識庫。Xlore有超過85000個類和700萬個實例。本實施例中。本體知識庫中,對每一個實體都要生成一個與之對應的概要描述以便于市民理解,因此需要對 實體的摘要做抽取。這部分工作是通過Xlore小組所提供的API實現(xiàn)的。通過與Xlore提供的實例查找API,可以把城市管理知識庫的實例定位到相應在Xlore的實例。具體的,Xlore提供的實例查詢的API為:http://www.xlore.org/sparql。
本發(fā)明實施例,通過建立每一實例與對應的互聯(lián)網(wǎng)數(shù)據(jù)之間的鏈接,來對城市管理本體知識庫中所缺失的信息進行補充,如實例的描述信息和簡要說明等。
為了驗證本發(fā)明在實際操作過程中的性能和效果,使用本發(fā)明實施例提供的方法構建了一個輕量級的市政管理知識庫,并對該知識庫的各項指標作了統(tǒng)計分析。
本知識庫示例系統(tǒng)基于新疆克拉瑪依市的市政管理資源構建,采用克拉瑪依市部門系統(tǒng)元數(shù)據(jù)共計7985項,相關法律法規(guī)共58件340項。通過本專利所提出的知識庫構建方法對上述數(shù)據(jù)源處理,共得到概念14個,實例3516項,屬性45個以及三元組20993條。本方法所生成的知識庫具有完整的知識體系結構,對知識的描述準確合理,能夠較為完整地保留原有資源中的語義關系。
由此可見,本發(fā)明能夠完成多種市政管理資源的自動化知識抽取及知識庫構建。相對于以往的知識庫構建方法,本發(fā)明在市政管理領域的知識庫構建上具有明顯優(yōu)勢,達到了預期目的。
圖2示出了本發(fā)明實施例提出的一種城市管理本體知識庫的構建系統(tǒng)的結構框圖。
參照圖2,本發(fā)明實施例提出的城市管理本體知識庫的構建系統(tǒng),包括:數(shù)據(jù)獲取單元201、知識抽取單元202、實體鏈接建立單元203以及網(wǎng)絡數(shù)據(jù)鏈接建立單元204,其中:
所述的數(shù)據(jù)獲取單元201,用于獲取各城市管理部門系統(tǒng)的數(shù)據(jù)集以及與各部門相關的法律法規(guī)文檔;
所述的知識抽取單元202,用于根據(jù)預設策略對所述各部門系統(tǒng) 的數(shù)據(jù)集以及與各部門相關的法律法規(guī)文檔進行知識抽取,得到所述各部門系統(tǒng)的數(shù)據(jù)集對應的第一知識實體集和與各部門相關的法律法規(guī)文檔對應的第二知識實體集;
所述的實體鏈接建立單元203,用于為所述第一知識實體集和第二知識實體集中的所有知識實體添加關鍵字標簽和唯一標識符,并根據(jù)所述關鍵字標簽建立所述第一知識實體集中的知識實體與第二知識實體集中的知識實體之間的實體鏈接關系,得到本體知識庫中的實例;
所述的網(wǎng)絡數(shù)據(jù)鏈接建立單元204,用于獲取與每一實例相匹配的互聯(lián)網(wǎng)數(shù)據(jù),并建立每一實例與對應的互聯(lián)網(wǎng)數(shù)據(jù)之間的鏈接。
本實施例中,所述知識抽取單元202,進一步包括:第一處理模塊和第二處理模塊,其中:
所述的第一處理模塊,用于采用關鍵詞提取方式或預設規(guī)則對所述各部門系統(tǒng)的數(shù)據(jù)集進行知識抽取;
所述的第二處理模塊,用于采用正則表達式匹配的方式對所述與各部門相關的法律法規(guī)文檔進行知識抽取。
本實施例中,所述實體鏈接建立單元203,進一步包括:提取模塊、獲取模塊以及鏈接建立模塊,其中:
所述的提取模塊,用于提取第一知識實體集和第二知識實體集中各個知識實體的關鍵字標簽;
所述的獲取模塊,用于獲取不同的知識實體集中任意兩個知識實體的關鍵字標簽的相識度;
所述的鏈接建立模塊,用于根據(jù)所述相識度建立不同的知識實體集中任意兩個知識實體之間的實體鏈接關系。
對于系統(tǒng)實施例而言,由于其與方法實施例基本相似,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
綜上所述,本發(fā)明實施例提供的一種城市管理本體知識庫的構 建方法及系統(tǒng),以各城市管理部門系統(tǒng)公開的數(shù)據(jù)集為數(shù)據(jù)源頭,并吸納了相關領域的法律法規(guī)文檔和互聯(lián)網(wǎng)公開數(shù)據(jù)為構建城市管理本體知識庫,通過異構數(shù)據(jù)的知識抽取,實現(xiàn)自動化的知識抽取和知識庫構建。利用語義信息建立知識實體之間的鏈接,高效準確地得到搜索結果并返回給用戶,保證了知識庫的查詢效率和質量,提升用戶體驗。而且,由于進行了相關實體間的自動匹配與鏈接,進而實現(xiàn)了各部門間信息的互通互信。
通過以上的實施方式的描述,本領域的技術人員可以清楚地了解到本發(fā)明可以通過硬件實現(xiàn),也可以借助軟件加必要的通用硬件平臺的方式來實現(xiàn)?;谶@樣的理解,本發(fā)明的技術方案可以以軟件產(chǎn)品的形式體現(xiàn)出來,該軟件產(chǎn)品可以存儲在一個非易失性存儲介質(可以是CD-ROM,U盤,移動硬盤等)中,包括若干指令用以使得一臺計算機設備(可以是個人計算機,服務器,或者網(wǎng)絡設備等)執(zhí)行本發(fā)明各個實施例所述的方法。
本領域技術人員可以理解附圖只是一個優(yōu)選實施例的示意圖,附圖中的模塊或流程并不一定是實施本發(fā)明所必須的。
本領域技術人員可以理解實施例中的系統(tǒng)中的模塊可以按照實施例描述進行分布于實施例的系統(tǒng)中,也可以進行相應變化位于不同于本實施例的一個或多個系統(tǒng)中。上述實施例的模塊可以合并為一個模塊,也可以進一步拆分成多個子模塊。
以上所述僅是本發(fā)明的部分實施方式,應當指出,對于本技術領域的普通技術人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應視為本發(fā)明的保護范圍。