本發(fā)明涉及數(shù)據(jù)融合與集成技術(shù)領(lǐng)域,特別涉及一種基于知識(shí)圖譜技術(shù)的海量非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)集成方法。
背景技術(shù):
電網(wǎng)包括營(yíng)銷系統(tǒng)、生產(chǎn)系統(tǒng)、配電數(shù)據(jù)采集與監(jiān)控系統(tǒng)、以及電能表等信息化系統(tǒng),為增強(qiáng)電網(wǎng)運(yùn)營(yíng)能力和擴(kuò)充電力客戶服務(wù)能力和質(zhì)量,需要高效、快速地采集來自于配網(wǎng)設(shè)備的海量數(shù)據(jù),并結(jié)合營(yíng)銷系統(tǒng)、生產(chǎn)系統(tǒng)等業(yè)務(wù)系統(tǒng)數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行有效識(shí)別和過濾,最終輸出有利于電力運(yùn)營(yíng)、提高客戶服務(wù)質(zhì)量和服務(wù)水平的相關(guān)數(shù)據(jù)。
從各個(gè)信息化系統(tǒng)采集到的配網(wǎng)數(shù)據(jù)可分為兩類,一種是結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)或符號(hào)類數(shù)據(jù),另一種是非結(jié)構(gòu)化數(shù)據(jù),如用戶語音、圖像、文本等?,F(xiàn)有的非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)的集成方法是建立一個(gè)統(tǒng)一的數(shù)據(jù)中心平臺(tái),采用數(shù)據(jù)適配器等技術(shù)將采集到的非結(jié)構(gòu)化數(shù)據(jù)拷貝到數(shù)據(jù)中心平臺(tái),然后對(duì)數(shù)據(jù)進(jìn)行清洗后集成,從而解決各部門之間頻繁的數(shù)據(jù)交換的需求。
然而,這種方法一方面普遍在數(shù)據(jù)中心進(jìn)行集中數(shù)據(jù)清洗,導(dǎo)致數(shù)據(jù)中心清洗量大,集成速度慢,無法滿足海量的非結(jié)構(gòu)化數(shù)據(jù)的集成要求;另一方面,各個(gè)信息化系統(tǒng)的非結(jié)構(gòu)化數(shù)據(jù)在業(yè)務(wù)邏輯、數(shù)據(jù)格式和存儲(chǔ)上均存在差異,因此,當(dāng)數(shù)據(jù)傳輸至數(shù)據(jù)中心平臺(tái)后,不僅不利于海量數(shù)據(jù)的分類存儲(chǔ),還給數(shù)據(jù)提取和查詢帶來不便,大大增加了數(shù)據(jù)中心平臺(tái)的工作量。
技術(shù)實(shí)現(xiàn)要素:
為解決上述技術(shù)問題,本發(fā)明提供一種基于知識(shí)圖譜技術(shù)的海量非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)集成方法。
根據(jù)本發(fā)明的實(shí)施例,提供了一種基于知識(shí)圖譜技術(shù)的海量非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)集成方法,包括:
由數(shù)據(jù)采集單元采集各信息化系統(tǒng)的非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù),并分別對(duì)所述各信息化系統(tǒng)的非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)進(jìn)行質(zhì)量分析和數(shù)據(jù)清洗處理;
根據(jù)處理后的所述各信息化系統(tǒng)的非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù),構(gòu)建基于局部知識(shí)圖譜的數(shù)據(jù)局部索引,所述基于局部知識(shí)圖譜的數(shù)據(jù)局部索引包括:所述各信息化系統(tǒng)的局部知識(shí)圖譜和局部數(shù)據(jù)索引表;
將所述基于局部知識(shí)圖譜的數(shù)據(jù)局部索引通過大數(shù)據(jù)連接器發(fā)送至數(shù)據(jù)管理中心;
由所述數(shù)據(jù)管理中心構(gòu)建基于全局知識(shí)圖譜的數(shù)據(jù)全局索引,所述基于全局知識(shí)圖譜的數(shù)據(jù)全局索引包括全局知識(shí)圖譜和全局?jǐn)?shù)據(jù)索引表。
進(jìn)一步地,所述根據(jù)處理后的所述各信息化系統(tǒng)的非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù),構(gòu)建基于局部知識(shí)圖譜的數(shù)據(jù)局部索引的步驟包括:
對(duì)處理后的所述各信息化系統(tǒng)的非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)進(jìn)行實(shí)體提取,以獲取所述各信息化系統(tǒng)的非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)的實(shí)體庫(kù),所述實(shí)體庫(kù)包括所述各信息化系統(tǒng)的非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)的實(shí)體、類和屬性信息;
根據(jù)所述實(shí)體庫(kù)中各實(shí)體的關(guān)系,構(gòu)建所述局部知識(shí)圖譜;
以所述實(shí)體庫(kù)中各實(shí)體的實(shí)體名為關(guān)鍵詞,構(gòu)建局部數(shù)據(jù)索引表,所述局部數(shù)據(jù)索引表包括與所述實(shí)體庫(kù)中各實(shí)體相對(duì)應(yīng)的局部索引信息,所述局部索引信息包括屬性、實(shí)例、所屬文本、數(shù)據(jù)源名稱、所屬數(shù)據(jù)庫(kù)。
進(jìn)一步地,所述由數(shù)據(jù)管理中心構(gòu)建基于全局知識(shí)圖譜的數(shù)據(jù)全局索引的步驟包括:
對(duì)所述各信息化系統(tǒng)的局部知識(shí)圖譜進(jìn)行沖突檢測(cè),所述沖突檢測(cè)包括實(shí)體名沖突檢測(cè)、上下位關(guān)系沖突監(jiān)測(cè)、單值屬性沖突檢測(cè)和多值屬性沖突檢測(cè);
如果所述各信息化系統(tǒng)的局部知識(shí)圖譜之間存在沖突,則消除沖突;
根據(jù)檢測(cè)和消除沖突過程中獲得的所述局部知識(shí)圖譜的實(shí)體、類、屬性值和上下位關(guān)系,統(tǒng)一所述局部數(shù)據(jù)索引表中各實(shí)體的局部索引信息,并構(gòu)建全局知識(shí)圖譜;
構(gòu)建所述全局知識(shí)圖譜與所述各信息化系統(tǒng)的局部知識(shí)圖譜的映射關(guān)系;
根據(jù)所述映射關(guān)系和所述局部數(shù)據(jù)索引表,以所述實(shí)體庫(kù)中各實(shí)體的實(shí)體名為關(guān)鍵詞,構(gòu)建全局?jǐn)?shù)據(jù)索引表,所述全局?jǐn)?shù)據(jù)索引表包括與所述實(shí)體庫(kù)中各實(shí)體相對(duì)應(yīng)的全局索引信息,所述全部索引信息包括所屬關(guān)系、所引發(fā)沖突、所述局部索引信息和所屬局部知識(shí)圖譜。
進(jìn)一步地,所述如果所述各信息化系統(tǒng)的局部知識(shí)圖譜之間存在沖突,則消除沖突的步驟包括:
創(chuàng)建各信息化系統(tǒng)的局部知識(shí)圖譜的優(yōu)先級(jí);
如果所述各信息化系統(tǒng)的局部知識(shí)圖譜之間存在實(shí)體名沖突或上下位關(guān)系沖突,則選擇優(yōu)先級(jí)最高的局部知識(shí)圖譜的實(shí)體名或上下位關(guān)系作為所述全局知識(shí)圖譜的實(shí)體名或者上下位關(guān)系,并修改對(duì)應(yīng)的所述局部知識(shí)圖譜的實(shí)體名和上下位關(guān)系;
在各所述局部知識(shí)圖譜中遍歷單值屬性,如果檢測(cè)到某一所述單值屬性為多值,選擇優(yōu)先級(jí)最高的局部知識(shí)圖譜的屬性值作為全局知識(shí)圖譜中該屬性的屬性值,并修改相對(duì)應(yīng)的所述局部知識(shí)圖譜的屬性值;
如果檢測(cè)到各所述局部知識(shí)圖譜的多值屬性值不一致,則將所有局部知識(shí)圖譜的屬性值合并,構(gòu)成全局知識(shí)圖譜的屬性值,同時(shí)修改相對(duì)應(yīng)的所述局部知識(shí)圖譜的屬性值。
進(jìn)一步地,所述對(duì)處理后的所述各信息化系統(tǒng)的非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)進(jìn)行實(shí)體提取的步驟包括:
判斷處理后的所述各信息化系統(tǒng)的非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)是否為文本數(shù)據(jù);
如果處理后的所述各信息化系統(tǒng)的非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)為文本數(shù)據(jù),根據(jù)預(yù)設(shè)規(guī)則和詞典方法提取實(shí)體、類和屬性信息;
如果處理后的所述各信息化系統(tǒng)的非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)不是文本數(shù)據(jù),將處理后的所述各信息化系統(tǒng)的非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)轉(zhuǎn)化為文本;
對(duì)所述文本進(jìn)行分詞,采用基于自然語言處理的語法分析算法分析所述文本的句法結(jié)構(gòu)和句中詞語間的依存關(guān)系,然后提取實(shí)體、類和屬性信息。
進(jìn)一步地,所述根據(jù)所述實(shí)體庫(kù)中各實(shí)體的關(guān)系,構(gòu)建所述局部知識(shí)圖譜的步驟包括:
將文本化的所述非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)的字符串序列內(nèi)一定長(zhǎng)度的任意子序列進(jìn)行內(nèi)積,計(jì)算句子之間的相似性;
將所述字符串序列的核作為支持向量機(jī)的核進(jìn)行統(tǒng)計(jì)學(xué)習(xí),獲取所述實(shí)體庫(kù)中各實(shí)體關(guān)系,采用下式所示的三元組構(gòu)建所示局部知識(shí)圖譜:
gl=(e,r,s)
其中,gl為所述局部知識(shí)圖譜;e={e1,e2,…,e|e|}為所述實(shí)體庫(kù)中各實(shí)體的集合,共包含|e|種不同的實(shí)體;r={r1,r2,…,r|r|}是所述實(shí)體庫(kù)中各實(shí)體關(guān)系的集合,共包含|r|種不同的實(shí)體關(guān)系;
進(jìn)一步地,所述實(shí)體名沖突檢測(cè)的方法包括:
根據(jù)下式計(jì)算某一所述局部知識(shí)圖譜的實(shí)體a與其它所述局部知識(shí)圖譜的實(shí)體b的相似度;
sim(a,b)=dis(la,lb)+dis(sa,sb)
其中,sim(a,b)為所述實(shí)體a與所述實(shí)體b的相似度;dis(la,lb)為所述實(shí)體a的類la與所述實(shí)體b的類lb的距離;dis(sa,sb)為所述實(shí)體a的屬性sa與所述實(shí)體b的屬性sb的距離;
如果所述實(shí)體a與所述實(shí)體b的相似度大于閾值時(shí),判斷所述實(shí)體a與所述實(shí)體b的實(shí)體名是否相同;
如果所述實(shí)體a與所述實(shí)體b的實(shí)體名相同,則檢測(cè)結(jié)果為存在實(shí)體名沖突。
進(jìn)一步地,所述上下位關(guān)系沖突監(jiān)測(cè)的方法包括:
提取某一所述局部知識(shí)圖譜中的實(shí)體a的上下位關(guān)系圖;
在其它所述局部知識(shí)圖譜中查找出與所述實(shí)體a相關(guān)的上下位關(guān)系實(shí)體集合,并提取所述上下位關(guān)系實(shí)體集合中各實(shí)體的上下位關(guān)系圖;
根據(jù)下式得到合并后的上下位關(guān)系圖;
g=ga∪gq1∪gq2…∪gqn
其中,g為合并后的上下位關(guān)系圖;ga為所述實(shí)體a的上下位關(guān)系圖;gq1、gq2…gqn分別為取所述上下位關(guān)系實(shí)體集合中各實(shí)體的上下位關(guān)系圖,n為所述上下位關(guān)系實(shí)體集合中的實(shí)體數(shù)量;
刪除所述合并后的上下位關(guān)系圖中所有入度為零的頂點(diǎn)和相關(guān)的出邊,直至所述合并后的上下位關(guān)系圖中無頂點(diǎn)輸出;
如果所述合并后的上下位關(guān)系圖中的結(jié)點(diǎn)均被刪除,則檢測(cè)結(jié)果為不存在上下位關(guān)系沖突;如果所述合并后的上下位關(guān)系圖中至少存在一個(gè)結(jié)點(diǎn),則檢測(cè)結(jié)果為存在上下位關(guān)系沖突。
進(jìn)一步地,所述方法還包括:根據(jù)新設(shè)備和/或新用戶的非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù),對(duì)所述基于局部知識(shí)圖譜的數(shù)據(jù)局部索引和所述基于全局知識(shí)圖譜的數(shù)據(jù)全局索引進(jìn)行更新。
進(jìn)一步地,所述根據(jù)新設(shè)備和/或新用戶的非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù),對(duì)所述基于局部知識(shí)圖譜的數(shù)據(jù)局部索引和所述基于全局知識(shí)圖譜的數(shù)據(jù)全局索引進(jìn)行更新的步驟包括:
獲取新設(shè)備和/或新用戶的非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù),并提取所述新設(shè)備和/或新用戶的非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)的實(shí)體、類和屬性信息;
判斷所述新設(shè)備和/或新用戶的非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)的實(shí)體和類是否與某一所述局部知識(shí)圖譜中的實(shí)體和類相匹配;
如果判斷結(jié)果為匹配,則將所述新設(shè)備和/或新用戶的非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)的實(shí)體與該所述局部知識(shí)圖譜相融合,并更新對(duì)應(yīng)的實(shí)體屬性和實(shí)體之間的上下位關(guān)系,根據(jù)融合后的所述局部知識(shí)圖譜更新所述局部數(shù)據(jù)索引表和所述基于全局知識(shí)圖譜的數(shù)據(jù)全局索引;
如果判斷結(jié)果為不匹配,則創(chuàng)建新的實(shí)體和類,并根據(jù)所述新的實(shí)體和類,更新所述基于局部知識(shí)圖譜的數(shù)據(jù)局部索引和所述基于全局知識(shí)圖譜的數(shù)據(jù)全局索引。
由以上技術(shù)方案可知,本發(fā)明提供一種基于知識(shí)圖譜技術(shù)的海量非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)集成方法,在營(yíng)銷系統(tǒng)、生產(chǎn)系統(tǒng)、配電數(shù)據(jù)采集與監(jiān)控系統(tǒng)、電能表等各信息化系統(tǒng)布置大數(shù)據(jù)連接器和數(shù)據(jù)采集單元,將分布式多源異構(gòu)數(shù)據(jù)的采集、質(zhì)量分析和數(shù)據(jù)清洗的過程前置到各信息化系統(tǒng),降低數(shù)據(jù)管理中心的數(shù)據(jù)融合計(jì)算量、存儲(chǔ)壓力和數(shù)據(jù)調(diào)度負(fù)擔(dān)。數(shù)據(jù)采集單元將各信息化系統(tǒng)的用戶語音、圖片、文本等非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)進(jìn)行數(shù)據(jù)抽樣、質(zhì)量分析和數(shù)據(jù)清洗,利用處理后的非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)構(gòu)建每一個(gè)信息化系統(tǒng)的局部知識(shí)圖譜和局部數(shù)據(jù)索引表,并通過大數(shù)據(jù)連接器傳輸?shù)綌?shù)據(jù)管理中心。數(shù)據(jù)管理中心檢測(cè)和消除局部知識(shí)圖譜之間的沖突,構(gòu)建適用于全部數(shù)據(jù)的全局知識(shí)圖譜和全局?jǐn)?shù)據(jù)索引表,從而利用全局知識(shí)圖譜和全局?jǐn)?shù)據(jù)索引表對(duì)數(shù)據(jù)源進(jìn)行集成。在新增數(shù)據(jù)集成過程中,利用全局知識(shí)圖譜可以優(yōu)化數(shù)據(jù)集成,利用采集到的新設(shè)備和/或新用戶的非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)來更新基于局部知識(shí)圖譜的數(shù)據(jù)局部索引和基于全局知識(shí)圖譜的數(shù)據(jù)全局索引。隨著集成設(shè)備和數(shù)據(jù)的增加,所構(gòu)建的局部知識(shí)圖譜和全局知識(shí)圖譜不停更新,便于后續(xù)開展配網(wǎng)海量數(shù)據(jù)檢索查詢、大數(shù)據(jù)分析等。
附圖說明
圖1為本發(fā)明一實(shí)施例示出的分布式多源異構(gòu)數(shù)據(jù)索引構(gòu)建的流程圖;
圖2為本發(fā)明一實(shí)施例示出的一種基于知識(shí)圖譜技術(shù)的海量非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)集成方法的流程圖;
圖3為本發(fā)明一實(shí)施例示出的構(gòu)建基于局部知識(shí)圖譜的數(shù)據(jù)局部索引的方法流程圖;
圖4為本發(fā)明一實(shí)施例示出的局部數(shù)據(jù)索引表的示意圖;
圖5為本發(fā)明一實(shí)施例示出的基于局部知識(shí)圖譜的局部數(shù)據(jù)索引的示意圖;
圖6為本發(fā)明一實(shí)施例示出的構(gòu)建基于全局知識(shí)圖譜的數(shù)據(jù)全局索引的方法流程圖;
圖7為本發(fā)明一實(shí)施例示出的全局?jǐn)?shù)據(jù)索引表的示意圖;
圖8為本發(fā)明一實(shí)施例示出的消除各局部知識(shí)圖譜之間沖突的方法流程圖;
圖9為本發(fā)明一實(shí)施例示出的非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)實(shí)體提取的方法流程圖;
圖10為本發(fā)明又一實(shí)施例示出的一種基于知識(shí)圖譜技術(shù)的海量非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)集成方法的流程圖;
圖11為本發(fā)明又一實(shí)施例示出的更新知識(shí)圖譜的方法流程圖。
具體實(shí)施方式
為了使本技術(shù)領(lǐng)域的人員更好地理解本申請(qǐng)中的技術(shù)方案,下面將結(jié)合附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述。
如圖1所示,為本發(fā)明一實(shí)施例示出的分布式多源異構(gòu)數(shù)據(jù)索引構(gòu)建的流程圖,包括多個(gè)信息化系統(tǒng),如智能電表、scada(supervisorycontrolanddataacquisition,配電數(shù)據(jù)采集與監(jiān)控)系統(tǒng)、營(yíng)銷系統(tǒng)和生產(chǎn)系統(tǒng)等,其中,每一個(gè)信息化系統(tǒng)都配備有數(shù)據(jù)采集單元和大數(shù)據(jù)連接器,數(shù)據(jù)采集單元用于對(duì)各信息化系統(tǒng)的非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)進(jìn)行采集、質(zhì)量分析和數(shù)據(jù)清洗,發(fā)現(xiàn)并糾正數(shù)據(jù)中可識(shí)別的錯(cuò)誤,包括檢查數(shù)據(jù)一致性,處理無效值和缺失值等。如數(shù)據(jù)采集單元采集并處理:智能電表的電表數(shù)據(jù),scada系統(tǒng)的遙測(cè)、遙控、遙調(diào)數(shù)據(jù),營(yíng)銷系統(tǒng)的用戶信息數(shù)據(jù),生產(chǎn)系統(tǒng)的設(shè)備信息數(shù)據(jù)等。大數(shù)據(jù)連接器用于將基于局部知識(shí)圖譜的數(shù)據(jù)局部索引傳輸至數(shù)據(jù)管理中心。
本發(fā)明中,各信息化系統(tǒng)的非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)的架構(gòu)為分布式多源異構(gòu)形式,通過將分布式多源異構(gòu)數(shù)據(jù)的采集、質(zhì)量分析和數(shù)據(jù)清洗的過程前置到各信息化系統(tǒng),無需數(shù)據(jù)管理中心進(jìn)行相應(yīng)操作,因而,有利于降低數(shù)據(jù)管理中心的數(shù)據(jù)融合計(jì)算量、存儲(chǔ)壓力和數(shù)據(jù)調(diào)度負(fù)擔(dān)。
如圖2所示,為本發(fā)明一實(shí)施例示出的一種基于知識(shí)圖譜技術(shù)的海量非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)集成方法,包括:
步驟s10,由數(shù)據(jù)采集單元采集各信息化系統(tǒng)的非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù),并分別對(duì)所述各信息化系統(tǒng)的非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)進(jìn)行質(zhì)量分析和數(shù)據(jù)清洗處理。
本發(fā)明中,各信息化系統(tǒng)的非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)來源于不同的信息化系統(tǒng),數(shù)據(jù)結(jié)構(gòu)和類型多樣化,如用戶語音數(shù)據(jù)、圖像和/或文本數(shù)據(jù)等,因此,各信息化系統(tǒng)的非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)的架構(gòu)為分布式多源異構(gòu)形式,通過將分布式多源異構(gòu)數(shù)據(jù)的采集、質(zhì)量分析和數(shù)據(jù)清洗的過程前置到各信息化系統(tǒng),無需數(shù)據(jù)管理中心進(jìn)行相應(yīng)操作,因而,有利于降低數(shù)據(jù)管理中心的數(shù)據(jù)融合計(jì)算量、存儲(chǔ)壓力和數(shù)據(jù)調(diào)度負(fù)擔(dān)。
步驟s20,根據(jù)處理后的所述各信息化系統(tǒng)的非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù),構(gòu)建基于局部知識(shí)圖譜的數(shù)據(jù)局部索引,所述基于局部知識(shí)圖譜的數(shù)據(jù)局部索引包括:所述各信息化系統(tǒng)的局部知識(shí)圖譜和局部數(shù)據(jù)索引表。
為了消除各個(gè)信息化系統(tǒng)數(shù)據(jù)在業(yè)務(wù)邏輯、數(shù)據(jù)格式和存儲(chǔ)上的差異,需要將各信息化系統(tǒng)的非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)抽象成實(shí)體、屬性和實(shí)體間關(guān)系等知識(shí),構(gòu)建局部知識(shí)圖譜和局部數(shù)據(jù)索引表,從而構(gòu)建基于局部知識(shí)圖譜的數(shù)據(jù)局部索引。
步驟s30,將所述基于局部知識(shí)圖譜的數(shù)據(jù)局部索引通過大數(shù)據(jù)連接器發(fā)送至數(shù)據(jù)管理中心。
大數(shù)據(jù)連接器可選擇oracle大數(shù)據(jù)連接器或者其它標(biāo)準(zhǔn)的數(shù)據(jù)庫(kù)大數(shù)據(jù)連接器。
步驟s40,由所述數(shù)據(jù)管理中心構(gòu)建基于全局知識(shí)圖譜的數(shù)據(jù)全局索引,所述基于全局知識(shí)圖譜的數(shù)據(jù)全局索引包括全局知識(shí)圖譜和全局?jǐn)?shù)據(jù)索引表。
如圖3所示,步驟s20包括:
s201,對(duì)處理后的所述各信息化系統(tǒng)的非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)進(jìn)行實(shí)體提取,以獲取所述各信息化系統(tǒng)的非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)的實(shí)體庫(kù),所述實(shí)體庫(kù)包括所述各信息化系統(tǒng)的非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)的實(shí)體、類和屬性信息。
s202,根據(jù)所述實(shí)體庫(kù)中各實(shí)體的上下位關(guān)系,構(gòu)建所述局部知識(shí)圖譜。
構(gòu)建的局部知識(shí)圖譜不是通用知識(shí)圖譜,而是一個(gè)針對(duì)電力配網(wǎng)的專用知識(shí)圖譜,所述類是指所述實(shí)體的分類,如用戶實(shí)體、設(shè)備實(shí)體等;所述實(shí)體是指在某一類下的實(shí)體名,如用戶名、設(shè)備名、廠家名等;所述屬性是指某一實(shí)體采集到的信息和數(shù)據(jù)。
其中,設(shè)備名主要包括架空線路、電纜、桿塔、配電變壓器、隔離開關(guān)、斷路器、重合器、分段器、柱上負(fù)荷開關(guān)、環(huán)網(wǎng)柜、調(diào)壓器、無功補(bǔ)償電容器,以及饋線終端單元(feederterminalunit,ftu)、數(shù)據(jù)采集與監(jiān)控終端單元(distributionterminalunit,dtu)、配電變壓器監(jiān)測(cè)終端單元(transformerterminalunit,ttu)、遠(yuǎn)程終端單元(remoteterminalunit,rtu)等一些附屬設(shè)施。
從各信息化系統(tǒng)提取的檔案信息、停電信息、電價(jià)信息、電費(fèi)信息和手機(jī)app返回的用戶信息等作為用戶實(shí)體的屬性;將設(shè)備檔案、設(shè)備類型、電壓等級(jí)、所屬臺(tái)區(qū)、位置信息、gis信息、電能表數(shù)據(jù)、四分路用電情況和狀態(tài)信息等作為設(shè)備實(shí)體的屬性。
s203,以所述實(shí)體庫(kù)中各實(shí)體的實(shí)體名為關(guān)鍵詞,構(gòu)建局部數(shù)據(jù)索引表,所述局部數(shù)據(jù)索引表包括與所述實(shí)體庫(kù)中各實(shí)體相對(duì)應(yīng)的局部索引信息,所述局部索引信息包括屬性、實(shí)例、所屬文本、數(shù)據(jù)源名稱、所屬數(shù)據(jù)庫(kù)。其中,所述數(shù)據(jù)源名稱為實(shí)體所在的信息化系統(tǒng)的名稱,所屬數(shù)據(jù)庫(kù)為實(shí)體對(duì)應(yīng)的非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)所在的數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)中可包括多個(gè)存儲(chǔ)數(shù)據(jù)的數(shù)據(jù)塊。
如圖4所示,為本發(fā)明一實(shí)施例示出的局部數(shù)據(jù)索引表的示意圖,表中第一列為某一信息化系統(tǒng)的實(shí)體庫(kù)中各實(shí)體的實(shí)體名,以實(shí)體庫(kù)中各實(shí)體的實(shí)體名為關(guān)鍵詞,將實(shí)體庫(kù)中各實(shí)體進(jìn)行羅列和區(qū)分;在表中行向上羅列出與該行實(shí)體對(duì)應(yīng)的屬性、實(shí)例、所屬文本、數(shù)據(jù)源名稱、所屬數(shù)據(jù)庫(kù)等信息。
如圖5所示,為本發(fā)明一實(shí)施例示出的基于局部知識(shí)圖譜的局部數(shù)據(jù)索引的示意圖,以實(shí)體名1為例進(jìn)行說明,當(dāng)需要對(duì)實(shí)體名1在文本2下的數(shù)據(jù)進(jìn)行索引時(shí),根據(jù)各信息化系統(tǒng)的局部知識(shí)圖譜和局部數(shù)據(jù)索引表,查找出實(shí)體名1在文本2下對(duì)應(yīng)的所屬數(shù)據(jù)庫(kù)為數(shù)據(jù)庫(kù)1,再繼續(xù)查找出在數(shù)據(jù)庫(kù)1中,數(shù)據(jù)塊1、數(shù)據(jù)塊2和數(shù)據(jù)塊n為對(duì)應(yīng)的目標(biāo)數(shù)據(jù)塊,也就索引出了所需非結(jié)構(gòu)化數(shù)據(jù);當(dāng)需要對(duì)實(shí)體名1在實(shí)例1下的數(shù)據(jù)進(jìn)行索引時(shí),根據(jù)各信息化系統(tǒng)的局部知識(shí)圖譜和局部數(shù)據(jù)索引表,查找出實(shí)體名1在實(shí)例1下對(duì)應(yīng)的所述數(shù)據(jù)庫(kù)為數(shù)據(jù)庫(kù)2,且數(shù)據(jù)庫(kù)2是專用來存儲(chǔ)實(shí)體名1在實(shí)例1下的數(shù)據(jù)。由此可知,根據(jù)基于局部知識(shí)圖譜的局部數(shù)據(jù)索引,即可查詢處用戶所需的目標(biāo)數(shù)據(jù),方便快捷且準(zhǔn)確率高。
各信息化系統(tǒng)和數(shù)據(jù)源將非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)抽象出來的各局部知識(shí)圖譜是相互獨(dú)立的,形成了系統(tǒng)多樣、信息分散的“信息孤島”,很難集中起來進(jìn)行檢索和分析。因此,需要建立一個(gè)統(tǒng)一的中介,實(shí)現(xiàn)各應(yīng)用系統(tǒng)之間數(shù)據(jù)的共享和集成。具體地,如圖6所示,步驟s40包括:
s401,對(duì)所述各信息化系統(tǒng)的局部知識(shí)圖譜進(jìn)行沖突檢測(cè),所述沖突檢測(cè)包括實(shí)體名沖突檢測(cè)、上下位關(guān)系沖突監(jiān)測(cè)、單值屬性沖突檢測(cè)和多值屬性沖突檢測(cè)。
對(duì)于營(yíng)銷系統(tǒng)、生產(chǎn)系統(tǒng)、scada系統(tǒng)、智能電表等不同數(shù)據(jù)源抽取的實(shí)體,難免出現(xiàn)不同名字指代相同事物或者相同名字指代不同實(shí)體的情況,當(dāng)進(jìn)行數(shù)據(jù)集成的時(shí)候,在各個(gè)局部知識(shí)圖譜之間不可避免地存在一些沖突,因此必須對(duì)各局部知識(shí)圖譜進(jìn)行圖譜檢測(cè),以有針對(duì)性地消除沖突,識(shí)別與合并等價(jià)實(shí)體,清除冗余知識(shí)和矛盾知識(shí),從而形成準(zhǔn)確的全局知識(shí)圖譜。
s402,如果所述各信息化系統(tǒng)的局部知識(shí)圖譜之間存在沖突,則消除沖突。
消除各信息化系統(tǒng)的局部知識(shí)圖譜之間存在沖突后,能夠生成準(zhǔn)確的全局知識(shí)圖譜,使個(gè)信息化系統(tǒng)的非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)能夠更好地集成,便于數(shù)據(jù)管理中心對(duì)數(shù)據(jù)的集成管理和查詢、索引。
s403,根據(jù)檢測(cè)和消除沖突過程中獲得的所述局部知識(shí)圖譜的實(shí)體、類、屬性值和上下位關(guān)系,統(tǒng)一所述局部數(shù)據(jù)索引表中各實(shí)體的局部索引信息,并構(gòu)建全局知識(shí)圖譜。
s404,構(gòu)建所述全局知識(shí)圖譜與所述各信息化系統(tǒng)的局部知識(shí)圖譜的映射關(guān)系。
即通過局部知識(shí)圖譜之間的沖突檢測(cè)和消除過程,統(tǒng)一實(shí)體在所有局部知識(shí)圖譜的索引;然后在全局范圍內(nèi),構(gòu)建各局部知識(shí)圖譜在全局知識(shí)圖譜的索引,建立跨局部知識(shí)圖譜的數(shù)據(jù)映射關(guān)系,在局部數(shù)據(jù)索引表的基礎(chǔ)上,對(duì)數(shù)據(jù)源抽取的每一個(gè)實(shí)體,增加所屬局部知識(shí)圖譜、所引發(fā)沖突等信息,建立跨越各個(gè)局部知識(shí)圖譜的數(shù)據(jù)索引,從而實(shí)現(xiàn)跨系統(tǒng)、跨數(shù)據(jù)庫(kù)的數(shù)據(jù)集成。
s405,根據(jù)所述映射關(guān)系和所述局部數(shù)據(jù)索引表,以所述實(shí)體庫(kù)中各實(shí)體的實(shí)體名為關(guān)鍵詞,構(gòu)建全局?jǐn)?shù)據(jù)索引表,所述全局?jǐn)?shù)據(jù)索引表包括與所述實(shí)體庫(kù)中各實(shí)體相對(duì)應(yīng)的全局索引信息,所述全部索引信息包括所屬關(guān)系、所引發(fā)沖突、所述局部索引信息和所屬局部知識(shí)圖譜,圖7為全局?jǐn)?shù)據(jù)索引表的示意圖。
如圖8所示,步驟s402包括:
s4021,創(chuàng)建各信息化系統(tǒng)的局部知識(shí)圖譜的優(yōu)先級(jí).
s4022,如果所述各信息化系統(tǒng)的局部知識(shí)圖譜之間存在實(shí)體名沖突或上下位關(guān)系沖突,則選擇優(yōu)先級(jí)最高的局部知識(shí)圖譜的實(shí)體名或上下位關(guān)系作為所述全局知識(shí)圖譜的實(shí)體名或者上下位關(guān)系,并修改對(duì)應(yīng)的所述局部知識(shí)圖譜的實(shí)體名和上下位關(guān)系。
當(dāng)檢測(cè)到實(shí)體名稱沖突或者上下位關(guān)系沖突,選擇優(yōu)先級(jí)最高的局部知識(shí)圖譜的實(shí)體名稱或上下位關(guān)系作為全局知識(shí)圖譜的實(shí)體或者上下位關(guān)系,同時(shí)該實(shí)體或上下位關(guān)系即納入到全局知識(shí)圖譜中,并修改相對(duì)應(yīng)的局部知識(shí)圖譜的實(shí)體名稱和上下位關(guān)系,實(shí)現(xiàn)實(shí)體名稱和上下位關(guān)系的全局一致;當(dāng)局部知識(shí)圖譜之間發(fā)生沖突時(shí),以全局知識(shí)圖譜的實(shí)體名稱和上下位關(guān)系為準(zhǔn)。
s4023,在各所述局部知識(shí)圖譜中遍歷單值屬性,如果檢測(cè)到某一所述單值屬性為多值,選擇優(yōu)先級(jí)最高的局部知識(shí)圖譜的屬性值作為全局知識(shí)圖譜中該屬性的屬性值,并修改相對(duì)應(yīng)的所述局部知識(shí)圖譜的屬性值。
當(dāng)單值屬性檢測(cè)到多值時(shí),選擇優(yōu)先級(jí)最高的局部知識(shí)圖譜的值作為全局知識(shí)圖譜中該屬性的值,同時(shí)該屬性即納入到全局知識(shí)圖譜中,并修改相對(duì)應(yīng)的局部知識(shí)圖譜的屬性值,實(shí)現(xiàn)單值屬性的全局一致。當(dāng)局部知識(shí)圖譜之間發(fā)生沖突時(shí),以全局知識(shí)圖譜的屬性值為準(zhǔn)。
s4024,如果檢測(cè)到各所述局部知識(shí)圖譜的多值屬性值不一致,則將所有局部知識(shí)圖譜的屬性值合并,構(gòu)成全局知識(shí)圖譜的屬性值,同時(shí)修改相對(duì)應(yīng)的所述局部知識(shí)圖譜的屬性值。
對(duì)于多值屬性,如果檢測(cè)到局部知識(shí)圖譜之間屬性值不一致,則將所有局部知識(shí)圖譜的值合并,構(gòu)成全局知識(shí)圖譜的屬性即可,同時(shí)修改相對(duì)應(yīng)的局部知識(shí)圖譜的屬性值,實(shí)現(xiàn)多值屬性的全局一致。當(dāng)局部知識(shí)圖譜之間發(fā)生沖突時(shí),以全局知識(shí)圖譜的屬性值為準(zhǔn)。
如圖9所示,步驟s201包括:
s2011,判斷處理后的所述各信息化系統(tǒng)的非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)是否為文本數(shù)據(jù)。
非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)可以包括用戶語音、圖像和/或文本等不同類型的數(shù)據(jù)形式,針對(duì)不同類型的數(shù)據(jù),實(shí)體抽取的方法不同。
s2012,如果處理后的所述各信息化系統(tǒng)的非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)為文本數(shù)據(jù),根據(jù)預(yù)設(shè)規(guī)則和詞典方法提取實(shí)體、類和屬性信息。
對(duì)于生產(chǎn)系統(tǒng)中的設(shè)備檔案、操作手冊(cè)、標(biāo)準(zhǔn)等格式較為固定的文本數(shù)據(jù),采用基于規(guī)則和詞典的方法提取其中的實(shí)體、類和屬性信息;即請(qǐng)電網(wǎng)專家制定符合電網(wǎng)行業(yè)的實(shí)體提取規(guī)則,利用詞典方法抽取出文本中的設(shè)備名、設(shè)備類型、人名、地名、組織機(jī)構(gòu)名、特定時(shí)間等實(shí)體及其類和屬性信息。
s2013,如果處理后的所述各信息化系統(tǒng)的非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)不是文本數(shù)據(jù),將處理后的所述各信息化系統(tǒng)的非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)轉(zhuǎn)化為文本。
s2014,對(duì)所述文本進(jìn)行分詞,采用基于自然語言處理的語法分析算法分析所述文本的句法結(jié)構(gòu)和句中詞語間的依存關(guān)系,然后提取實(shí)體、類和屬性信息。
當(dāng)非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)為用戶語音數(shù)據(jù)時(shí),采用基于隱馬爾科夫模型的語音轉(zhuǎn)換技術(shù)轉(zhuǎn)化為文本;當(dāng)非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)為圖像時(shí),采用基于支持向量機(jī)的圖片識(shí)別技術(shù)將圖片中的文字轉(zhuǎn)化為文本。然后采用基于字符串匹配的自然語言分詞技術(shù)將文本進(jìn)行分詞,然后提取其中的實(shí)體、類和屬性,即先將文本進(jìn)行分詞,利用自然語言處理的語法分析算法分析句子的句法結(jié)構(gòu)和句中詞語間的依存關(guān)系,然后識(shí)別出實(shí)體、類和屬性。
當(dāng)實(shí)體、屬性等抽取完成,獲得實(shí)體庫(kù),在此基礎(chǔ)上,采用基于字符串序列核的支持向量機(jī)模型的實(shí)體關(guān)系抽取技術(shù)識(shí)別兩個(gè)實(shí)體之間的關(guān)系,建立實(shí)體之間的聯(lián)系,即步驟s202包括:
將文本化的所述非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)的字符串序列內(nèi)一定長(zhǎng)度的任意子序列進(jìn)行內(nèi)積,計(jì)算句子之間的相似性;
將所述字符串序列的核作為支持向量機(jī)的核進(jìn)行統(tǒng)計(jì)學(xué)習(xí),獲取所述實(shí)體庫(kù)中各實(shí)體關(guān)系,采用下式所示的三元組構(gòu)建所示局部知識(shí)圖譜:
gl=(e,r,s)
其中,gl為所述局部知識(shí)圖譜;e={e1,e2,…,e|e|}為所述實(shí)體庫(kù)中各實(shí)體的集合,共包含|e|種不同的實(shí)體;r={r1,r2,…,r|r|}是所述實(shí)體庫(kù)中各實(shí)體關(guān)系的集合,共包含|r|種不同的實(shí)體關(guān)系;
三元組的基本形式主要包括實(shí)體1、關(guān)系、實(shí)體2,和概念、屬性、屬性值等,通過三元組集合,就能夠建立任何實(shí)體和實(shí)體所在的原始數(shù)據(jù)的映射,該映射由局部數(shù)據(jù)索引表來實(shí)現(xiàn);對(duì)數(shù)據(jù)源抽取的每一個(gè)實(shí)體,以該實(shí)體名為關(guān)鍵字建立一個(gè)索引表,該索引表包括屬性、數(shù)據(jù)源名稱、所屬關(guān)系、所屬數(shù)據(jù)庫(kù)、所屬表、所屬文本、實(shí)例、所屬局部知識(shí)圖譜等一系列與數(shù)據(jù)相關(guān)的信息,通過該局部數(shù)據(jù)索引表,在單個(gè)配網(wǎng)信息化系統(tǒng)中即可迅速定位數(shù)據(jù),從而查詢和提取數(shù)據(jù)。
步驟s401中,所述實(shí)體名沖突檢測(cè)的方法包括:
根據(jù)下式計(jì)算某一所述局部知識(shí)圖譜的實(shí)體a與其它所述局部知識(shí)圖譜的實(shí)體b的相似度;
sim(a,b)=dis(la,lb)+dis(sa,sb)
其中,sim(a,b)為所述實(shí)體a與所述實(shí)體b的相似度;dis(la,lb)為所述實(shí)體a的類la與所述實(shí)體b的類lb的距離;dis(sa,sb)為所述實(shí)體a的屬性sa與所述實(shí)體b的屬性sb的距離;
如果所述實(shí)體a與所述實(shí)體b的相似度大于閾值時(shí),判斷所述實(shí)體a與所述實(shí)體b的實(shí)體名是否相同;
如果所述實(shí)體a與所述實(shí)體b的實(shí)體名相同,則檢測(cè)結(jié)果為存在實(shí)體名沖突。
在各個(gè)局部知識(shí)圖譜中分別對(duì)實(shí)體、實(shí)體的類和屬性建立索引,即局部數(shù)據(jù)索引表,然后,對(duì)于某一個(gè)局部知識(shí)圖譜中的實(shí)體a,在其它局部知識(shí)圖譜的索引中查找實(shí)體b,計(jì)算a與b的相似度sim(a,b),如果當(dāng)前局部知識(shí)圖譜中實(shí)體的類la和屬性sa與其它局部知識(shí)圖譜中則的某一個(gè)實(shí)體b的類lb和屬性sb很相似,但是實(shí)體名不同,則檢測(cè)到存在實(shí)體名沖突。
步驟s401中,所述上下位關(guān)系沖突監(jiān)測(cè)的方法包括:
提取某一所述局部知識(shí)圖譜中的實(shí)體a的上下位關(guān)系圖;
在其它所述局部知識(shí)圖譜中查找出與所述實(shí)體a相關(guān)的上下位關(guān)系實(shí)體集合,并提取所述上下位關(guān)系實(shí)體集合中各實(shí)體的上下位關(guān)系圖;
根據(jù)下式得到合并后的上下位關(guān)系圖;
g=ga∪gq1∪gq2…∪gqn
其中,g為合并后的上下位關(guān)系圖;ga為所述實(shí)體a的上下位關(guān)系圖;gq1、gq2…gqn分別為取所述上下位關(guān)系實(shí)體集合中各實(shí)體的上下位關(guān)系圖,n為所述上下位關(guān)系實(shí)體集合中的實(shí)體數(shù)量;
刪除所述合并后的上下位關(guān)系圖中所有入度為零的頂點(diǎn)和相關(guān)的出邊,直至所述合并后的上下位關(guān)系圖中無頂點(diǎn)輸出;
如果所述合并后的上下位關(guān)系圖中的結(jié)點(diǎn)均被刪除,則檢測(cè)結(jié)果為不存在上下位關(guān)系沖突;如果所述合并后的上下位關(guān)系圖中至少存在一個(gè)結(jié)點(diǎn),則檢測(cè)結(jié)果為存在上下位關(guān)系沖突。
如圖10所示,為本發(fā)明又一實(shí)施例示出的一種基于知識(shí)圖譜技術(shù)的海量非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)集成方法,步驟s203之后還包括:
s50,根據(jù)新設(shè)備和/或新用戶的非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù),對(duì)所述基于局部知識(shí)圖譜的數(shù)據(jù)局部索引和所述基于全局知識(shí)圖譜的數(shù)據(jù)全局索引進(jìn)行更新。
數(shù)據(jù)管理中心負(fù)責(zé)維護(hù)和更新全局知識(shí)圖譜、局部知識(shí)圖譜、全局?jǐn)?shù)據(jù)索引表、局部數(shù)據(jù)索引表,管理數(shù)據(jù)的交換。根據(jù)新設(shè)備和/或新用戶的非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù),對(duì)所述基于局部知識(shí)圖譜的數(shù)據(jù)局部索引和所述基于全局知識(shí)圖譜的數(shù)據(jù)全局索引進(jìn)行更新,可以使數(shù)據(jù)管理中心的集成數(shù)據(jù)具有實(shí)時(shí)性、準(zhǔn)確性,當(dāng)增設(shè)新的配網(wǎng)設(shè)備和信息化系統(tǒng)時(shí),可以適應(yīng)于配電網(wǎng)的動(dòng)態(tài)狀態(tài)變化,實(shí)現(xiàn)數(shù)據(jù)集中管理。當(dāng)需要查詢某實(shí)體相關(guān)數(shù)據(jù)時(shí),通過全局?jǐn)?shù)據(jù)索引表,即可查詢到數(shù)據(jù)相關(guān)信息和所屬數(shù)據(jù)庫(kù),從而實(shí)現(xiàn)各信息化系統(tǒng)中的數(shù)據(jù)集成。
具體地,如圖11所示,步驟s50包括:
s501,獲取新設(shè)備和/或新用戶的非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù),并提取所述新設(shè)備和/或新用戶的非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)的實(shí)體、類和屬性信息;
s502,判斷所述新設(shè)備和/或新用戶的非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)的實(shí)體和類是否與某一所述局部知識(shí)圖譜中的實(shí)體和類相匹配;
s503,如果判斷結(jié)果為匹配,則將所述新設(shè)備和/或新用戶的非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)的實(shí)體與該所述局部知識(shí)圖譜相融合,并更新對(duì)應(yīng)的實(shí)體屬性和實(shí)體之間的上下位關(guān)系,根據(jù)融合后的所述局部知識(shí)圖譜更新所述局部數(shù)據(jù)索引表和所述基于全局知識(shí)圖譜的數(shù)據(jù)全局索引;
s504,如果判斷結(jié)果為不匹配,則創(chuàng)建新的實(shí)體和類,并根據(jù)所述新的實(shí)體和類,更新所述基于局部知識(shí)圖譜的數(shù)據(jù)局部索引和所述基于全局知識(shí)圖譜的數(shù)據(jù)全局索引。
全局知識(shí)圖譜中的實(shí)體、類和屬性來自于多個(gè)局部知識(shí)圖譜,具有普遍性,對(duì)配網(wǎng)數(shù)據(jù)具有很強(qiáng)的識(shí)別作用,采用全局和局部知識(shí)圖譜快速抽取新增數(shù)據(jù)源的實(shí)體和屬性,提高新增數(shù)據(jù)源集成的速度和準(zhǔn)確率,實(shí)現(xiàn)數(shù)據(jù)集成的優(yōu)化;對(duì)于知識(shí)圖譜無法識(shí)別的實(shí)體,抽取出相應(yīng)的實(shí)體、類和屬性,與原有知識(shí)圖譜中的類和實(shí)體進(jìn)行匹配,如果匹配度高則進(jìn)行融合,更新實(shí)體屬性和實(shí)體之間的上下位關(guān)系,否則就創(chuàng)建新的類,然后更新基于局部知識(shí)圖譜的數(shù)據(jù)局部索引和基于全局知識(shí)圖譜的數(shù)據(jù)全局索引,從而實(shí)現(xiàn)知識(shí)圖譜的優(yōu)化。
由以上技術(shù)方案可知,本發(fā)明提供一種基于知識(shí)圖譜技術(shù)的海量非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)集成方法,在營(yíng)銷系統(tǒng)、生產(chǎn)系統(tǒng)、配電數(shù)據(jù)采集與監(jiān)控系統(tǒng)、電能表等各信息化系統(tǒng)布置大數(shù)據(jù)連接器和數(shù)據(jù)采集單元,將分布式多源異構(gòu)數(shù)據(jù)的采集、質(zhì)量分析和數(shù)據(jù)清洗的過程前置到各信息化系統(tǒng),降低數(shù)據(jù)管理中心的數(shù)據(jù)融合計(jì)算量、存儲(chǔ)壓力和數(shù)據(jù)調(diào)度負(fù)擔(dān)。數(shù)據(jù)采集單元將各信息化系統(tǒng)的用戶語音、圖片、文本等非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)進(jìn)行數(shù)據(jù)抽樣、質(zhì)量分析和數(shù)據(jù)清洗,利用處理后的非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)構(gòu)建每一個(gè)信息化系統(tǒng)的局部知識(shí)圖譜和局部數(shù)據(jù)索引表,并通過大數(shù)據(jù)連接器傳輸?shù)綌?shù)據(jù)管理中心。數(shù)據(jù)管理中心檢測(cè)和消除局部知識(shí)圖譜之間的沖突,構(gòu)建適用于全部數(shù)據(jù)的全局知識(shí)圖譜和全局?jǐn)?shù)據(jù)索引表,從而利用全局知識(shí)圖譜和全局?jǐn)?shù)據(jù)索引表對(duì)數(shù)據(jù)源進(jìn)行集成。在新增數(shù)據(jù)集成過程中,利用全局知識(shí)圖譜可以優(yōu)化數(shù)據(jù)集成,利用采集到的新設(shè)備和/或新用戶的非結(jié)構(gòu)化配網(wǎng)數(shù)據(jù)來更新基于局部知識(shí)圖譜的數(shù)據(jù)局部索引和基于全局知識(shí)圖譜的數(shù)據(jù)全局索引。隨著集成設(shè)備和數(shù)據(jù)的增加,所構(gòu)建的局部知識(shí)圖譜和全局知識(shí)圖譜不停更新,便于后續(xù)開展配網(wǎng)海量數(shù)據(jù)檢索查詢、大數(shù)據(jù)分析等。
本領(lǐng)域技術(shù)人員在考慮說明書及實(shí)踐這里公開的發(fā)明后,將容易想到本發(fā)明的其它實(shí)施方案。本申請(qǐng)旨在涵蓋本發(fā)明的任何變型、用途或者適應(yīng)性變化,這些變型、用途或者適應(yīng)性變化遵循本發(fā)明的一般性原理并包括本發(fā)明未公開的本技術(shù)領(lǐng)域中的公知常識(shí)或慣用技術(shù)手段。說明書和實(shí)施例僅被視為示例性的,本發(fā)明的真正范圍和精神由權(quán)利要求指出。
應(yīng)當(dāng)理解的是,本發(fā)明并不局限于上面已經(jīng)描述并在附圖中示出的精確結(jié)構(gòu),并且可以在不脫離其范圍進(jìn)行各種修改和改變。本發(fā)明的范圍僅由所附的權(quán)利要求來限制。