本發(fā)明涉及數(shù)據(jù)觀,具體是用于數(shù)據(jù)提取的智能化數(shù)據(jù)管理方法。
背景技術(shù):
1、數(shù)據(jù)提取通過數(shù)據(jù)收集、整理和分析等操作,實現(xiàn)對數(shù)據(jù)的集中管理、支持決策、提高業(yè)務(wù)效率等效果,因此對數(shù)據(jù)提取流程的異常監(jiān)控是系統(tǒng)整體業(yè)務(wù)不可或缺的部分;
2、在現(xiàn)有的數(shù)據(jù)提取異常監(jiān)控中,通常分為以下幾種技術(shù)方案:首先是通過對系統(tǒng)整體進行宏觀監(jiān)控,分析系統(tǒng)特征,使用聚類等方式判斷是否發(fā)生異常;其次是通過對系統(tǒng)提取的各項數(shù)據(jù)進行實時監(jiān)控,分析每項數(shù)據(jù)特征,判斷數(shù)據(jù)提取流程是否發(fā)生異常;
3、而上述的技術(shù)方案中也存在以下的技術(shù)缺陷:一方面,通過宏觀監(jiān)控整體系統(tǒng)的特征狀態(tài),對部分節(jié)點的掌控較為寬泛,容易忽略一些規(guī)模較小的數(shù)據(jù)異常,而如果提高異常警告閾值,又會因為正常波動觸發(fā)警告信號;另一方面,通過監(jiān)控數(shù)據(jù)提取流程中各項數(shù)據(jù)的特征進行異常判斷,在高度集成的系統(tǒng)中,由于數(shù)據(jù)流量較大,對每項數(shù)據(jù)進行監(jiān)控的算力成本極為龐大,而且在實時性需求較高的場景中,也無法滿足需求;
4、因此,需要用于數(shù)據(jù)提取的智能化數(shù)據(jù)管理方法以彌補上述技術(shù)缺陷。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于提供用于數(shù)據(jù)提取的智能化數(shù)據(jù)管理方法,以解決現(xiàn)有技術(shù)中提出的問題。
2、為實現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
3、用于數(shù)據(jù)提取的智能化數(shù)據(jù)管理方法,所述方法包括以下分析步驟:
4、步驟s100:獲取系統(tǒng)各數(shù)據(jù)處理節(jié)點所有數(shù)據(jù)提取處理歷史日志信息,將歷史日志信息中所有提取處理的數(shù)據(jù)包劃分為數(shù)據(jù)單元;
5、步驟s200:對數(shù)據(jù)提取處理歷史日志信息中所有數(shù)據(jù)包的提取處理操作進行評估分析,分析各數(shù)據(jù)處理節(jié)點提取處理各數(shù)據(jù)單元的預(yù)計評估結(jié)果;
6、步驟s300:實時監(jiān)測各數(shù)據(jù)處理節(jié)點數(shù)據(jù)提取處理信息,對各數(shù)據(jù)處理節(jié)點的數(shù)據(jù)提取處理操作進行異常判斷;
7、步驟s400:回溯異常狀態(tài)數(shù)據(jù)處理節(jié)點的數(shù)據(jù)提取處理操作,計算每次數(shù)據(jù)提取處理操作中數(shù)據(jù)包的總數(shù)據(jù)轉(zhuǎn)化率,定位數(shù)據(jù)處理節(jié)點的異常數(shù)據(jù)提取處理操作;
8、步驟s500:計算分析數(shù)據(jù)處理節(jié)點異常數(shù)據(jù)提取處理操作中數(shù)據(jù)包與各數(shù)據(jù)處理節(jié)點的匹配度,根據(jù)計算結(jié)果對系統(tǒng)中各數(shù)據(jù)處理節(jié)點進行異常狀態(tài)監(jiān)測反饋。
9、根據(jù)上述技術(shù)方案,所述步驟s100中包括以下內(nèi)容:
10、在所有系統(tǒng)歷史日志中篩選各數(shù)據(jù)處理節(jié)點進行數(shù)據(jù)提取處理的歷史日志信息,識別各項數(shù)據(jù)的表述功能,并按照不同的表述功能將系統(tǒng)數(shù)據(jù)流中的綜合數(shù)據(jù)分割為不同的數(shù)據(jù)單元;
11、通過精確劃分各數(shù)據(jù)包中的數(shù)據(jù)單元,確保后續(xù)評估各數(shù)據(jù)處理節(jié)點在進行數(shù)據(jù)提取處理操作時的預(yù)計處理成效,也為后續(xù)數(shù)據(jù)包與數(shù)據(jù)處理節(jié)點間匹配度計算提供數(shù)據(jù)基礎(chǔ)。
12、根據(jù)上述技術(shù)方案,所述步驟s200中對數(shù)據(jù)提取處理歷史日志信息中所有數(shù)據(jù)包的提取處理操作進行評估分析方法如下:
13、獲取各數(shù)據(jù)包屬性信息及各數(shù)據(jù)包提取處理人工標(biāo)注評估得分信息;其中,所述數(shù)據(jù)包屬性信息包括各數(shù)據(jù)包整體大小、數(shù)據(jù)包中各數(shù)據(jù)單元大小、數(shù)據(jù)包提取處理時間;
14、對于任一數(shù)據(jù)包a,對數(shù)據(jù)包a提取處理操作的評估結(jié)果計算公式如下:
15、;
16、其中,為數(shù)據(jù)包a人工標(biāo)注評估得分,和分別為數(shù)據(jù)包a的大小和提取處理時間,k為數(shù)據(jù)包a評估系數(shù)。
17、根據(jù)上述技術(shù)方案,所述步驟s200中各數(shù)據(jù)處理節(jié)點提取處理各數(shù)據(jù)單元的預(yù)計評估結(jié)果分析方法如下:
18、將歷史日志信息中所有數(shù)據(jù)包評估結(jié)果根據(jù)所分配的數(shù)據(jù)處理節(jié)點進行分類,對于任一數(shù)據(jù)處理節(jié)點n,數(shù)據(jù)處理節(jié)點n提取處理各數(shù)據(jù)單元的預(yù)計評估結(jié)果計算公式如下:
19、;
20、其中,為數(shù)據(jù)處理節(jié)點n提取處理數(shù)據(jù)單元u的預(yù)計評估結(jié)果,為歷史日志信息中數(shù)據(jù)處理節(jié)點n處理的數(shù)據(jù)包數(shù)量,i為數(shù)據(jù)處理節(jié)點n處理的數(shù)據(jù)包編號,為數(shù)據(jù)單元u的大小,為數(shù)據(jù)包i大小,為數(shù)據(jù)包i的提取處理操作評估結(jié)果;
21、通過數(shù)據(jù)單元占比加權(quán)綜合計算各數(shù)據(jù)處理節(jié)點提取處理不同數(shù)據(jù)單元時的預(yù)計評估結(jié)果,為后續(xù)異常數(shù)據(jù)提取處理操作的定位判斷提供了可靠的數(shù)據(jù)基礎(chǔ)。
22、計算數(shù)據(jù)處理節(jié)點n提取處理所有數(shù)據(jù)單元的預(yù)計評估結(jié)果,并構(gòu)建預(yù)計評估結(jié)果向量,記為,x為所有數(shù)據(jù)單元數(shù)量,為數(shù)據(jù)處理節(jié)點n分別提取處理數(shù)據(jù)單元的預(yù)計評估結(jié)果。
23、根據(jù)上述技術(shù)方案,所述步驟s300中包括以下內(nèi)容:
24、測量系統(tǒng)數(shù)據(jù)處理節(jié)點在不同負(fù)載率下提取處理各數(shù)據(jù)單元的數(shù)據(jù)轉(zhuǎn)化率,根據(jù)數(shù)據(jù)處理節(jié)點在歷史日志信息中處理的各數(shù)據(jù)單元比例,加權(quán)計算各數(shù)據(jù)處理節(jié)點在不同負(fù)載率下數(shù)據(jù)提取處理操作預(yù)計數(shù)據(jù)轉(zhuǎn)化率,使用曲線擬合獲取負(fù)載率-數(shù)據(jù)轉(zhuǎn)化率曲線;所述數(shù)據(jù)轉(zhuǎn)化率指數(shù)據(jù)采集節(jié)點處理完成輸出的數(shù)據(jù)量與提取的數(shù)據(jù)量比例;
25、實時監(jiān)測各數(shù)據(jù)處理節(jié)點負(fù)載率,使用負(fù)載率-數(shù)據(jù)轉(zhuǎn)化率曲線進行曲線匹配獲取數(shù)據(jù)處理節(jié)點預(yù)計數(shù)據(jù)轉(zhuǎn)化率,并設(shè)定轉(zhuǎn)化率閾值,當(dāng)數(shù)據(jù)處理節(jié)點的實時數(shù)據(jù)轉(zhuǎn)化率小于或等于轉(zhuǎn)化率閾值時,判定該數(shù)據(jù)處理節(jié)點處于異常狀態(tài);其中,為轉(zhuǎn)化率偏離系數(shù),k為數(shù)據(jù)處理節(jié)點實時負(fù)載率在負(fù)載率-數(shù)據(jù)轉(zhuǎn)化率曲線中對應(yīng)點斜率;
26、使用曲線擬合分析數(shù)據(jù)處理節(jié)點不同負(fù)載率時數(shù)據(jù)轉(zhuǎn)化率,動態(tài)設(shè)置轉(zhuǎn)化率閾值,實現(xiàn)對數(shù)據(jù)處理節(jié)點異常數(shù)據(jù)提取處理操作的自適應(yīng)綜合判斷,相較于對系統(tǒng)整體宏觀監(jiān)控而言,提高了系統(tǒng)數(shù)據(jù)提取處理異常的精確性和靈活性,相較于對每項數(shù)據(jù)精確的監(jiān)控,減少數(shù)據(jù)提取處理操作監(jiān)控的系統(tǒng)運算壓力,提高了系統(tǒng)的實時性和穩(wěn)定性,進而在不同需求層面提高了系統(tǒng)普適性和科學(xué)性。
27、根據(jù)上述技術(shù)方案,所述步驟s400包括以下內(nèi)容:
28、記錄監(jiān)測到數(shù)據(jù)處理節(jié)點異常狀態(tài)的時間點作為該數(shù)據(jù)處理節(jié)點異常時間點,設(shè)置異?;厮荽翱?,回溯異常時間點向前時間段內(nèi)該數(shù)據(jù)處理節(jié)點進行的所有數(shù)據(jù)提取處理操作,并將各次數(shù)據(jù)提取處理操作中數(shù)據(jù)包以提取處理時間向前的順序排序,并依次分析各數(shù)據(jù)包在當(dāng)前數(shù)據(jù)處理節(jié)點中提取處理的總數(shù)據(jù)轉(zhuǎn)化率;
29、將各數(shù)據(jù)包中總轉(zhuǎn)化率小于或等于轉(zhuǎn)化率閾值的提取處理操作記錄為當(dāng)前異常時間點該數(shù)據(jù)處理節(jié)點的異常數(shù)據(jù)提取處理操作;其中,為轉(zhuǎn)化率偏離系數(shù),k為數(shù)據(jù)處理節(jié)點實時負(fù)載率在負(fù)載率-數(shù)據(jù)轉(zhuǎn)化率曲線中對應(yīng)點斜率。
30、根據(jù)上述技術(shù)方案,所述步驟s500中包括以下內(nèi)容:
31、對于任一異常數(shù)據(jù)提取處理操作中的數(shù)據(jù)包,獲取該數(shù)據(jù)包提取處理時間點,同步獲取該時間點各數(shù)據(jù)處理節(jié)點實時負(fù)載率及待處理數(shù)據(jù)量,計算分析數(shù)據(jù)包與各數(shù)據(jù)處理節(jié)點的匹配度,并將與該數(shù)據(jù)包匹配度計算結(jié)果大于當(dāng)前數(shù)據(jù)處理節(jié)點的所有數(shù)據(jù)處理節(jié)點記錄為該數(shù)據(jù)包的待排查數(shù)據(jù)處理節(jié)點;
32、將該數(shù)據(jù)包與當(dāng)前數(shù)據(jù)處理節(jié)點及所有待排查數(shù)據(jù)處理節(jié)點匹配度及該數(shù)據(jù)包提取處理時間點當(dāng)前數(shù)據(jù)處理節(jié)點及所有待排查數(shù)據(jù)處理節(jié)點的負(fù)載率和待處理數(shù)據(jù)量進行記錄并向監(jiān)管人員發(fā)送數(shù)據(jù)處理節(jié)點排查信號。
33、根據(jù)上述技術(shù)方案,所述步驟s500中數(shù)據(jù)包與各數(shù)據(jù)處理節(jié)點的匹配度計算分析方法如下:
34、將數(shù)據(jù)包拆分為數(shù)據(jù)單元,并獲取數(shù)據(jù)包提取處理時間點各數(shù)據(jù)處理節(jié)點實時負(fù)載率及待處理數(shù)據(jù)量,對于任一數(shù)據(jù)包a和數(shù)據(jù)處理節(jié)點n匹配度計算公式如下:
35、;
36、;
37、;
38、其中,為數(shù)據(jù)處理節(jié)點n提取處理數(shù)據(jù)包a的評估期望,j為數(shù)據(jù)單元編號,x為所有數(shù)據(jù)單元數(shù)量,為數(shù)據(jù)單元j大小,為數(shù)據(jù)包a大小,為數(shù)據(jù)處理節(jié)點n提取處理數(shù)據(jù)單元j的預(yù)計評估結(jié)果,為負(fù)載評估系數(shù),為自然對數(shù)指數(shù)函數(shù),為數(shù)據(jù)處理節(jié)點負(fù)載率上限閾值,為數(shù)據(jù)包a提取處理時間點數(shù)據(jù)處理節(jié)點n的實時負(fù)載率,為數(shù)據(jù)包a和數(shù)據(jù)處理節(jié)點n匹配度,為數(shù)據(jù)積壓系數(shù),為數(shù)據(jù)包a提取處理時間點數(shù)據(jù)處理節(jié)點n中等待處理數(shù)據(jù)量;所述數(shù)據(jù)處理節(jié)點負(fù)載率上限閾值指數(shù)據(jù)處理節(jié)點負(fù)載處于臨界擁堵狀態(tài)的負(fù)載率。
39、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
40、本發(fā)明旨在通過實時監(jiān)控分析系統(tǒng)數(shù)據(jù)處理節(jié)點數(shù)據(jù)轉(zhuǎn)化率,判斷系統(tǒng)數(shù)據(jù)提取處理是否存在異常,進而根據(jù)數(shù)據(jù)包和數(shù)據(jù)處理節(jié)點間的匹配度計算結(jié)果核實各數(shù)據(jù)處理節(jié)點的異常判斷信號;其中,通過監(jiān)測各數(shù)據(jù)處理節(jié)點,規(guī)避了對每項數(shù)據(jù)精確監(jiān)控所帶來的系統(tǒng)運算壓力,提高了系統(tǒng)整體運行及異常監(jiān)控的穩(wěn)定性和實時性;此外,本發(fā)明還通過分析各數(shù)據(jù)處理節(jié)點不同負(fù)載率時預(yù)計數(shù)據(jù)轉(zhuǎn)化率,從而對各數(shù)據(jù)處理節(jié)點設(shè)置動態(tài)轉(zhuǎn)化率閾值,減少對系統(tǒng)狀態(tài)宏觀監(jiān)控導(dǎo)致的數(shù)據(jù)提取處理異常狀態(tài)的錯誤判斷,確保不同負(fù)載狀態(tài)的各數(shù)據(jù)處理節(jié)點異常狀態(tài)監(jiān)控的精確性和靈活性。