本發(fā)明涉及在電力領域,具體是一種電力行業(yè)非結(jié)構(gòu)化元數(shù)據(jù)關聯(lián)方法及系統(tǒng)。
背景技術(shù):
隨著社會經(jīng)濟發(fā)展進入“互聯(lián)網(wǎng)+”時代,數(shù)據(jù)已被業(yè)界公認為企業(yè)最寶貴的資產(chǎn)之一,如何管好數(shù)據(jù),挖掘數(shù)據(jù)資產(chǎn)價值已成為當前公司加快業(yè)務創(chuàng)新、提高精細化管理和科學決策水平的重要基礎工作之一。企業(yè)數(shù)據(jù)類型包括結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、海量數(shù)據(jù)、gis數(shù)據(jù)等,對大量的企業(yè)信息資產(chǎn)進行深入分析,挖掘有益信息,為智能決策服務,打破數(shù)據(jù)流轉(zhuǎn)和共享的壁壘,實現(xiàn)企業(yè)各類型數(shù)據(jù)有效整合,需開展四類數(shù)據(jù)存儲設計,并進行關聯(lián)模型設計。其中非結(jié)構(gòu)化數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)在數(shù)據(jù)類型方面存在較大的差異,尤其在電力行業(yè),非結(jié)構(gòu)化數(shù)據(jù)存在范圍廣、存在形式多樣化、數(shù)據(jù)資源缺乏統(tǒng)一管理,無法實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)的高度融合,因此本專利提出了一種電力行業(yè)非結(jié)構(gòu)化元數(shù)據(jù)關聯(lián)方法及系統(tǒng)。
技術(shù)實現(xiàn)要素:
本發(fā)明旨在提供一種電力行業(yè)非結(jié)構(gòu)化元數(shù)據(jù)關聯(lián)方法及系統(tǒng),以解決現(xiàn)有技術(shù)方案中的無法實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)的融合。
根據(jù)本發(fā)明的一方面,本發(fā)明提供了一種電力行業(yè)非結(jié)構(gòu)化元數(shù)據(jù)關聯(lián)方法,包括以下步驟:
結(jié)構(gòu)化數(shù)據(jù)中心建立結(jié)構(gòu)化數(shù)據(jù)表,用于存放設備信息以及對應的文檔編碼;
非結(jié)構(gòu)化數(shù)據(jù)管理平臺建立非結(jié)構(gòu)化數(shù)據(jù)表,用于存放設備的文檔信息及對應的文檔編碼;
當非結(jié)構(gòu)化數(shù)據(jù)管理平臺有文檔上傳時,獲取文檔的元數(shù)據(jù),對每一個上傳的文檔都分配一個唯一的文檔編碼,并將文檔編碼及對應的元數(shù)據(jù)存放到非結(jié)構(gòu)化數(shù)據(jù)元數(shù)據(jù)表中;同時將該文檔編碼添加到結(jié)構(gòu)化數(shù)據(jù)表中,用以通過文檔編碼將非結(jié)構(gòu)化數(shù)據(jù)中的數(shù)據(jù)關聯(lián)到結(jié)構(gòu)化數(shù)據(jù)表中。
進一步的,所述元數(shù)據(jù)包括文檔路徑和文檔名稱。
進一步的,所述文檔路徑為通過設定ip方式定義的網(wǎng)絡位置。
進一步的,所述元數(shù)據(jù)還包括文檔數(shù)據(jù)大小、文檔類型、文檔修改時間、文檔數(shù)據(jù)存儲方式、文檔數(shù)據(jù)的生產(chǎn)者和文檔數(shù)據(jù)的傳播方式。
進一步的,當文檔被復制到多個位置時,非結(jié)構(gòu)化數(shù)據(jù)元數(shù)據(jù)表中存儲多個文檔路徑。
根據(jù)本發(fā)明的另一方面,本發(fā)明提供了一種電力行業(yè)非結(jié)構(gòu)化元數(shù)據(jù)關聯(lián)系統(tǒng),包括:
結(jié)構(gòu)化數(shù)據(jù)模塊,用于存放設備信息以及對應的文檔編碼;
非結(jié)構(gòu)化數(shù)據(jù)模塊,用于存放設備的文檔信息及對應的文檔編碼;
關聯(lián)模塊,用于當非結(jié)構(gòu)化數(shù)據(jù)管理平臺有文檔上傳時,存儲上傳的文檔并獲取文檔的元數(shù)據(jù),對每一個上傳的文檔都分配一個唯一的文檔編碼,并將文檔編碼及對應的元數(shù)據(jù)存放到非結(jié)構(gòu)化數(shù)據(jù)元數(shù)據(jù)模塊中;將該文檔編碼添加到結(jié)構(gòu)化數(shù)據(jù)模塊中,用以通過文檔編碼將非結(jié)構(gòu)化數(shù)據(jù)中的數(shù)據(jù)關聯(lián)到結(jié)構(gòu)化數(shù)據(jù)模塊中。
進一步的,所述元數(shù)據(jù)包括文檔路徑和文檔名稱。
進一步的,所述文檔路徑為通過設定ip方式定義的網(wǎng)絡位置。
進一步的,所述元數(shù)據(jù)還包括文檔數(shù)據(jù)大小、文檔類型、文檔修改時間、文檔數(shù)據(jù)存儲方式、文檔數(shù)據(jù)的生產(chǎn)者和文檔數(shù)據(jù)的傳播方式。
進一步的,當文檔被復制到多個位置時,非結(jié)構(gòu)化數(shù)據(jù)元數(shù)據(jù)表中存儲多個文檔路徑。
通過實施本發(fā)明可以取得以下有益技術(shù)效果:當非結(jié)構(gòu)化數(shù)據(jù)管理平臺有文檔上傳時,獲取文檔的元數(shù)據(jù),分配唯一的文檔編碼,并將文檔編碼及對應的元數(shù)據(jù)存放到非結(jié)構(gòu)化數(shù)據(jù)元數(shù)據(jù)表中,同時將該文檔編碼添加到結(jié)構(gòu)化數(shù)據(jù)表中,通過文檔編碼實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)表與結(jié)構(gòu)化數(shù)據(jù)表的關聯(lián)。
附圖說明
圖1為本發(fā)明一種電力行業(yè)非結(jié)構(gòu)化元數(shù)據(jù)關聯(lián)方法的流程圖;
圖2為本發(fā)明一種電力行業(yè)非結(jié)構(gòu)化元數(shù)據(jù)關聯(lián)方法的實例圖;
圖3為本發(fā)明一種電力行業(yè)非結(jié)構(gòu)化元數(shù)據(jù)關聯(lián)系統(tǒng)的連接圖。
具體實施方式
為了便于本領域技術(shù)人員的理解,下面結(jié)合具體實施例對本發(fā)明作進一步的說明:
實施例1:
如圖1所示,本發(fā)明一種電力行業(yè)非結(jié)構(gòu)化元數(shù)據(jù)關聯(lián)方法,包括以下步驟:
s1:結(jié)構(gòu)化數(shù)據(jù)中心建立結(jié)構(gòu)化數(shù)據(jù)表,用于存放設備信息以及對應的文檔編碼;
s2:非結(jié)構(gòu)化數(shù)據(jù)管理平臺建立非結(jié)構(gòu)化數(shù)據(jù)表,用于存放設備的文檔信息及對應的文檔編碼;
s3:當非結(jié)構(gòu)化數(shù)據(jù)管理平臺有文檔上傳時,存儲上傳的文檔并獲取文檔的元數(shù)據(jù),對每一個上傳的文檔都分配一個唯一的文檔編碼,并將文檔編碼及對應的元數(shù)據(jù)存放到非結(jié)構(gòu)化數(shù)據(jù)元數(shù)據(jù)表中;同時將該文檔編碼添加到結(jié)構(gòu)化數(shù)據(jù)表中,用以通過文檔編碼將非結(jié)構(gòu)化數(shù)據(jù)中的數(shù)據(jù)關聯(lián)到結(jié)構(gòu)化數(shù)據(jù)表中。
本發(fā)明通過唯一編碼實現(xiàn)結(jié)構(gòu)化數(shù)據(jù)表中信息與非結(jié)構(gòu)化數(shù)據(jù)元數(shù)據(jù)表中信息的關聯(lián),實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)的融合。
非結(jié)構(gòu)化數(shù)據(jù)分別以實體文檔與元數(shù)據(jù)(metadata)的形式存在著,元數(shù)據(jù)包含版本號,每個文檔可以有多個文檔版本,每個文檔版本有獨立的一對一的訪問權(quán)限數(shù)據(jù)和公共元數(shù)據(jù);元數(shù)據(jù)包含文檔路徑,當文檔被復制到多個位置時,非結(jié)構(gòu)化數(shù)據(jù)元數(shù)據(jù)表中存儲多個文檔路徑,客戶端訪問文檔時,就近訪問文檔。文檔路徑可以為設定ip方式定義的網(wǎng)絡位置;即通過ip地址+具體路徑的方式定義網(wǎng)絡位置。
非結(jié)構(gòu)化數(shù)據(jù)管理平臺可以通過如下方法實現(xiàn)就近訪問文檔,當客戶端訪問文檔時,非結(jié)構(gòu)化數(shù)據(jù)管理平臺獲取該文檔對應的所有文檔路徑和該客戶端的ip地址,獲取所有文檔路徑對應的ip地址,通過文檔路徑對應的ip地址獲取該文檔路徑的所有物理位置和對應的網(wǎng)絡供應商(移動、聯(lián)通等),通過客戶端的ip地址獲取客戶端的物理位置和網(wǎng)絡供應商;計算文檔路徑的各個物理位置與客戶端的物理位置之間的距離di,di表示客戶端與文檔路徑i之間的物理距離,文檔路徑i的優(yōu)先級p通過p=pi=di÷(s×m)計算,s為距離參數(shù),可選擇5km,或根據(jù)實際情況設定,m為網(wǎng)絡供應商參數(shù),如果客戶端的網(wǎng)絡供應商與文檔路徑對應的網(wǎng)絡供應商相同,則m=2;如果客戶端的網(wǎng)絡供應商與文檔路徑對應的網(wǎng)絡供應商不同,則m=1,對p進行降序排序,獲取p值最高的文檔路徑作為該客戶端訪問該文檔的訪問路徑,進而實現(xiàn)就近訪問文檔,提高訪問速度。當客戶端訪問文檔路徑時,獲取客戶端對訪問速度的反饋,該反饋可以通過人工反饋,反饋包括快、較快、較慢、慢;如果反饋是快,則對該文檔路徑的優(yōu)先級p進行加一處理,即pi=pi+1,如果反饋較快,則不對該文檔路徑的優(yōu)先級p做處理,如果反饋較慢,則對該文檔路徑的優(yōu)先級p進行減一處理,即pi=pi+1,如果反饋較快,則對該文檔路徑的優(yōu)先級p進行置零處理,即pi=0,通過處理后的文檔路徑優(yōu)先級作為該客戶端下次獲取該文件時,該文檔路徑的優(yōu)先級。
該方法無需讀取其他文檔路徑,相比于每個路徑進行下載測速,選擇下載測速速度最快的文檔路徑作為讀取路徑要方便,因為選擇下載測速速度最快的文檔路徑作為讀取路徑需要測試每個文檔路徑的下載速度,而且當其中某個文檔路徑與客戶端無法通訊時,會大幅度增加下載測速的所需的時間。而采用本發(fā)明的方法,無需進行下載速度測試,大大提高了訪問速度。
元數(shù)據(jù)還包含:文檔內(nèi)容的擁有者、版本號、建入日期、數(shù)據(jù)大小、類型、修改時間、存儲位置、數(shù)據(jù)存儲方式、數(shù)據(jù)的生產(chǎn)者、數(shù)據(jù)的傳播方式等。
為了更好的一種電力行業(yè)非結(jié)構(gòu)化元數(shù)據(jù)關聯(lián)方法做進一步描述,舉一個簡單的例子:如圖2所示,結(jié)構(gòu)化數(shù)據(jù)表中包括開關的信息、斷路器的信息和導線的信息;其中開關的信息包括:開關id、手冊文檔id等;斷路器的信息包括:斷路器id、合同文檔id等;導線包括導線id、合同文檔id等,其中手冊文檔id是開關手冊的唯一編碼,合同文檔id是合同文檔的唯一編碼;當業(yè)務應用向結(jié)構(gòu)化數(shù)據(jù)中心發(fā)送請求查詢斷路器的信息及合同文檔時,結(jié)構(gòu)化數(shù)據(jù)中心將斷路器的信息和合同文檔id發(fā)回至業(yè)務應用,業(yè)務應用根據(jù)合同文檔id向非結(jié)構(gòu)化數(shù)據(jù)管理平臺發(fā)送請求,查詢斷路器相關合同文檔信息,查找到合同文檔的ftp路徑(即文檔路徑),根據(jù)ftp路徑獲取文檔。非結(jié)構(gòu)化數(shù)據(jù)管理平臺根據(jù)業(yè)務應用的請求,通過合同文檔id獲取相關文檔,并返回給業(yè)務應用。
為實現(xiàn)對文檔的全文檢索,建立支持對文檔內(nèi)容、文檔元數(shù)據(jù)等的全文檢索的搜索引擎,以支持各種文件的搜索,文件格式可以包括word、excel、ppt、wps、pdf、html/xml、tif、text等常見文件格式,也可以包括實現(xiàn)音頻和視頻文件的元數(shù)據(jù)。
非結(jié)構(gòu)化數(shù)據(jù)按照ieccim標準設計,以規(guī)范非結(jié)構(gòu)化數(shù)據(jù)存儲。
實施例2:
如圖3所示,一種電力行業(yè)非結(jié)構(gòu)化元數(shù)據(jù)關聯(lián)系統(tǒng),包括:
結(jié)構(gòu)化數(shù)據(jù)模塊1,用于存放設備信息以及對應的文檔編碼;
非結(jié)構(gòu)化數(shù)據(jù)模塊2,用于存放設備的文檔信息及對應的文檔編碼;
關聯(lián)模塊3,用于當非結(jié)構(gòu)化數(shù)據(jù)管理平臺有文檔上傳時,存儲上傳的文檔并獲取文檔的元數(shù)據(jù),對每一個上傳的文檔都分配一個唯一的文檔編碼,并將文檔編碼及對應的元數(shù)據(jù)存放到非結(jié)構(gòu)化數(shù)據(jù)元數(shù)據(jù)模塊中;將該文檔編碼添加到結(jié)構(gòu)化數(shù)據(jù)模塊中,用以通過文檔編碼將非結(jié)構(gòu)化數(shù)據(jù)中的數(shù)據(jù)關聯(lián)到結(jié)構(gòu)化數(shù)據(jù)模塊中。
非結(jié)構(gòu)化數(shù)據(jù)分別以實體文檔與元數(shù)據(jù)(metadata)的形式存在著,元數(shù)據(jù)包含版本號,每個文檔可以有多個文檔版本,每個文檔版本有獨立的一對一的訪問權(quán)限數(shù)據(jù)和公共元數(shù)據(jù);元數(shù)據(jù)包含文檔路徑和文檔名稱,當文檔被復制到多個位置時,非結(jié)構(gòu)化數(shù)據(jù)元數(shù)據(jù)表中存儲多個文檔路徑,可以通過判斷文檔路徑的加權(quán)信息判斷哪個文檔離客戶端最近,實現(xiàn)就近訪問。文檔路徑為通過可以設定ip方式定義的網(wǎng)絡位置。
元數(shù)據(jù)還包含:文檔內(nèi)容的擁有者、版本號、建入日期、數(shù)據(jù)大小、類型、修改時間、數(shù)據(jù)存儲方式、數(shù)據(jù)的生產(chǎn)者、數(shù)據(jù)的傳播方式等。
以上所述僅為本發(fā)明的具體實施例,但本發(fā)明的技術(shù)特征并不局限于此,任何本領域的技術(shù)人員在本發(fā)明的領域內(nèi),所作的變化或修飾皆涵蓋在本發(fā)明的專利范圍之中。