两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種智能分析日志數(shù)據(jù)的方法及裝置與流程

文檔序號:12906008閱讀:369來源:國知局
一種智能分析日志數(shù)據(jù)的方法及裝置與流程

本發(fā)明涉及日志分析技術領域,特別涉及一種智能分析日志數(shù)據(jù)的方法及裝置。



背景技術:

日志數(shù)據(jù)是故障排除、監(jiān)控、安全、合規(guī)、電子取證等許多安全應用的基礎。日志數(shù)據(jù)具有巨大的分析價值,利用日志數(shù)據(jù)可以分析點擊流、社交媒體、以及以客戶為中心的使用案例中的行為記錄數(shù)據(jù),如活躍用戶數(shù)、應用使用數(shù)量、服務質(zhì)量、使用偏好等。隨著日志數(shù)據(jù)容量和類型的增長,日志數(shù)據(jù)已經(jīng)超出了人類的認知能力,對日志數(shù)據(jù)內(nèi)容進行分析并追蹤潛在的問題越來越困難,尤其是在多日志數(shù)據(jù)相關性分析出現(xiàn)之后,需要經(jīng)驗豐富的操作人員跟蹤事件鏈、過濾噪音,并最終診斷出問題出現(xiàn)的根本原因。針對日志數(shù)據(jù)信息的it異常檢測告警,常常假設數(shù)據(jù)服從正態(tài)分布,然后根據(jù)3σ原則,認定99.7%區(qū)間以外的數(shù)據(jù)屬于異常。

現(xiàn)有技術中,基于日志數(shù)據(jù)檢測的告警需要用戶自行配置數(shù)據(jù),需要用戶具備較高的專業(yè)技能才能夠預先編寫好查詢語句,設置查詢頻率,設定查詢時間等條件,上述操作為用戶增添繁瑣復雜的負擔,而且出現(xiàn)用戶沒有考慮到的告警情況,將無法及時獲取告警信息。而且,目前常見的基于正態(tài)分布的告警模式會帶來兩個問題:一、永遠都有0.3%的數(shù)據(jù)被認定為異常,而事實可能是100%正常的數(shù)據(jù);二、在真實it環(huán)境中,絕大多數(shù)數(shù)據(jù)并不服從正態(tài)分布,會導致誤報增加。



技術實現(xiàn)要素:

本發(fā)明提供一種智能分析日志數(shù)據(jù)的方法及裝置,可無需用戶具備相應的知識儲備來自行配置檢測數(shù)據(jù)和警告條件。同時也避免了過度依賴歷史數(shù)據(jù)的弊端,還有效的降低了誤報出現(xiàn)的概率。

根據(jù)本發(fā)明實施例的第一方面,提供一種智能分析日志數(shù)據(jù)的方法,包括:

將接收到日志數(shù)據(jù)劃分為多個樣本;

生成各個所述樣本的檢測組;

分析出各個所述樣本的檢測組中數(shù)據(jù)異常的檢測組;

實時發(fā)出警告信息到用戶端,所述警告信息包括所述數(shù)據(jù)異常的檢測組的相關信息。

在一個實施例中,所述將接收到日志數(shù)據(jù)劃分為多個樣本,包括:

每間隔一個預設的執(zhí)行時間周期,將預設的執(zhí)行時間周期內(nèi)接收到的全部的日志數(shù)據(jù)構成待分析集合;

計算出所述待分析集合中的日志數(shù)據(jù)的數(shù)量與預設的第一數(shù)量閾值的商;

將所述待分析集合中的日志數(shù)據(jù)分配到各個樣本中,其中,所述樣本的數(shù)量為所述商的數(shù)值。

在一個實施例中,所述生成各個所述樣本的檢測組,包括:

通過機器學習抽取出各個所述樣本中的日志數(shù)據(jù)的關鍵字段,所述關鍵字段包括訪問數(shù)量、權限更改和錯誤信息中的任一者或多者;

對各個所述樣本的日志數(shù)據(jù)的關鍵字段進行分析統(tǒng)計;

根據(jù)分析統(tǒng)計的結果,生成各個所述樣本的檢測組。

在一個實施例中,所述分析出各個所述樣本的檢測組中數(shù)據(jù)異常的檢測組,包括:

分別對各個所述樣本的檢測組進行非參數(shù)分布校驗;

對非參數(shù)分布校驗的檢驗結果進行組間對比;

通過組間對比,確認出數(shù)據(jù)異常的檢測組。

在一個實施例中,還包括:

根據(jù)所述警告信息,可直接跳轉至所述數(shù)據(jù)異常的檢測組的樣本。

根據(jù)本發(fā)明實施例的第二方面,提供一種智能分析日志數(shù)據(jù)的裝置,包括:

劃分模塊,用于將接收到日志數(shù)據(jù)劃分為多個樣本;

生成模塊,用于生成各個所述樣本的檢測組;

分析模塊,用于分析出各個所述樣本的檢測組中數(shù)據(jù)異常的檢測組;

警告模塊,用于實時發(fā)出警告信息到用戶端,所述警告信息包括所述數(shù)據(jù)異常的檢測組的相關信息。

在一個實施例中,所述劃分模塊,包括:

構成子模塊,用于每間隔一個預設的執(zhí)行時間周期,將預設的執(zhí)行時間周期內(nèi)接收到的全部的日志數(shù)據(jù)構成待分析集合;

計算子模塊,用于計算出所述待分析集合中的日志數(shù)據(jù)的數(shù)量與預設的第一數(shù)量閾值的商;

分配子模塊,用于將所述待分析集合中的日志數(shù)據(jù)分配到各個樣本中,其中,所述樣本的數(shù)量為所述商的數(shù)值。

在一個實施例中,所述生成模塊,包括:

抽取子模塊,用于通過機器學習抽取出各個所述樣本中的日志數(shù)據(jù)的關鍵字段,所述關鍵字段包括訪問數(shù)量、權限更改和錯誤信息中的任一者或多者;

統(tǒng)計子模塊,用于對各個所述樣本的日志數(shù)據(jù)的關鍵字段進行分析統(tǒng)計;

生成子模塊,用于根據(jù)分析統(tǒng)計的結果,生成各個所述樣本的檢測組。

在一個實施例中,所述分析模塊,包括:

校驗子模塊,用于分別對各個所述樣本的檢測組進行非參數(shù)分布校驗;

對比子模塊,用于對非參數(shù)分布校驗的檢驗結果進行組間對比;

確認子模塊,用于通過組間對比,確認出數(shù)據(jù)異常的檢測組。

在一個實施例中,還包括:

跳轉模塊,用于根據(jù)所述警告信息,可直接跳轉至所述數(shù)據(jù)異常的檢測組的樣本。

本發(fā)明的其它特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點可通過在所寫的說明書、權利要求書、以及附圖中所特別指出的結構來實現(xiàn)和獲得。

下面通過附圖和實施例,對本發(fā)明的技術方案做進一步的詳細描述。

附圖說明

附圖用來提供對本發(fā)明的進一步理解,并且構成說明書的一部分,與本發(fā)明的實施例一起用于解釋本發(fā)明,并不構成對本發(fā)明的限制。在附圖中:

圖1為本發(fā)明一示例性實施例示出的一種智能分析日志數(shù)據(jù)的方法的流程圖;

圖2為本發(fā)明一示例性實施例示出的一種智能分析日志數(shù)據(jù)的方法的步驟s11的流程圖;

圖3為本發(fā)明一示例性實施例示出的一種智能分析日志數(shù)據(jù)的方法的步驟s12的流程圖;

圖4為本發(fā)明一示例性實施例示出的一種智能分析日志數(shù)據(jù)的方法的步驟s13的流程圖;

圖5為本發(fā)明另一示例性實施例示出的一種智能分析日志數(shù)據(jù)的方法的流程圖;

圖6為本發(fā)明一示例性實施例示出的一種智能分析日志數(shù)據(jù)的裝置的框圖;

圖7為本發(fā)明一示例性實施例示出的一種智能分析日志數(shù)據(jù)的裝置的劃分模塊61的框圖;

圖8為本發(fā)明一示例性實施例示出的一種智能分析日志數(shù)據(jù)的裝置的生成模塊62的框圖;

圖9為本發(fā)明一示例性實施例示出的一種智能分析日志數(shù)據(jù)的裝置的分析模塊63的框圖;

圖10為本發(fā)明另一示例性實施例示出的一種智能分析日志數(shù)據(jù)的裝置的框圖。

具體實施方式

以下結合附圖對本發(fā)明的優(yōu)選實施例進行說明,應當理解,此處所描述的優(yōu)選實施例僅用于說明和解釋本發(fā)明,并不用于限定本發(fā)明。

圖1是根據(jù)一示例性實施例示出的一種智能分析日志數(shù)據(jù)的方法流程圖,如圖1所示,該智能分析日志數(shù)據(jù)的方法,包括以下步驟s11-s14:

在步驟s11中,將接收到日志數(shù)據(jù)劃分為多個樣本;

在步驟s12中,生成各個所述樣本的檢測組;

在步驟s13中,分析出各個所述樣本的檢測組中數(shù)據(jù)異常的檢測組;

在步驟s14中,實時發(fā)出警告信息到用戶端,所述警告信息包括所述數(shù)據(jù)異常的檢測組的相關信息。

在一個實施例中,日志數(shù)據(jù)是故障排除、監(jiān)控、安全、合規(guī)、電子取證等許多安全應用的基礎。日志數(shù)據(jù)具有巨大的分析價值,利用日志數(shù)據(jù)可以分析點擊流、社交媒體、以及以客戶為中心的使用案例中的行為記錄數(shù)據(jù),如活躍用戶數(shù)、應用使用數(shù)量、服務質(zhì)量、使用偏好等。隨著日志數(shù)據(jù)容量和類型的增長,日志數(shù)據(jù)已經(jīng)超出了人類的認知能力,對日志數(shù)據(jù)內(nèi)容進行分析并追蹤潛在的問題越來越困難,尤其是在多日志數(shù)據(jù)相關性分析出現(xiàn)之后,需要經(jīng)驗豐富的操作人員跟蹤事件鏈、過濾噪音,并最終診斷出問題出現(xiàn)的根本原因。針對日志數(shù)據(jù)信息的it異常檢測告警,常常假設數(shù)據(jù)服從正態(tài)分布,然后根據(jù)3σ原則,認定99.7%區(qū)間以外的數(shù)據(jù)屬于異常。

現(xiàn)有技術中,基于日志數(shù)據(jù)檢測的告警需要用戶自行配置數(shù)據(jù),需要用戶具備較高的專業(yè)技能才能夠預先編寫好查詢語句,設置查詢頻率,設定查詢時間等條件,上述操作為用戶增添繁瑣復雜的負擔,而且出現(xiàn)用戶沒有考慮到的告警情況,將無法及時獲取告警信息。而且,目前常見的基于正態(tài)分布的告警模式會帶來兩個問題:一、永遠都有0.3%的數(shù)據(jù)被認定為異常,而事實可能是100%正常的數(shù)據(jù);二、在真實it環(huán)境中,絕大多數(shù)數(shù)據(jù)并不服從正態(tài)分布,會導致誤報增加。本實施例中的技術方案可妥善的解決上述問題。

首先將接收到日志數(shù)據(jù)劃分為多個樣本。進一步的,每間隔一個預設的執(zhí)行時間周期,將預設的執(zhí)行時間周期內(nèi)接收到的全部的日志數(shù)據(jù)構成待分析集合;計算出該待分析集合中的日志數(shù)據(jù)的數(shù)量與預設的第一數(shù)量閾值的商;將該待分析集合中的日志數(shù)據(jù)分配到各個樣本中,其中,該樣本的數(shù)量為該商的數(shù)值。

然后生成各個該樣本的檢測組。進一步的,通過機器學習抽取出各個該樣本中的日志數(shù)據(jù)的關鍵字段,該關鍵字段包括訪問數(shù)量、權限更改和錯誤信息中的任一者或多者;對各個該樣本的日志數(shù)據(jù)的關鍵字段進行分析統(tǒng)計;根據(jù)分析統(tǒng)計的結果,生成各個該樣本的檢測組。

接著分析出各個該樣本的檢測組中數(shù)據(jù)異常的檢測組,進一步的,分別對各個該樣本的檢測組進行非參數(shù)分布校驗;對非參數(shù)分布校驗的檢驗結果進行組間對比;通過組間對比,確認出數(shù)據(jù)異常的檢測組。

最后實時發(fā)出警告信息到用戶端,該警告信息包括該數(shù)據(jù)異常的檢測組的相關信息。

采用本實施例中的技術方案可無需用戶具備相應的知識儲備來自行配置檢測數(shù)據(jù)和警告條件,系統(tǒng)可自動的分析出異常的日志數(shù)據(jù)。同時也避免了過度依賴歷史數(shù)據(jù)的弊端,還有效的降低了誤報出現(xiàn)的概率。

在一個實施例中,如圖2所示,步驟s11包括如下步驟s21-s23:

在步驟s21中,每間隔一個預設的執(zhí)行時間周期,將預設的執(zhí)行時間周期內(nèi)接收到的全部的日志數(shù)據(jù)構成待分析集合;

在步驟s22中,計算出所述待分析集合中的日志數(shù)據(jù)的數(shù)量與預設的第一數(shù)量閾值的商;

在步驟s23中,將所述待分析集合中的日志數(shù)據(jù)分配到各個樣本中,其中,所述樣本的數(shù)量為所述商的數(shù)值。

在一個實施例中,每間隔一個預設的執(zhí)行時間周期,該執(zhí)行時間周期用戶可以自行指定,還可以根據(jù)日志數(shù)據(jù)高峰期設置較小的執(zhí)行時間周期,在日志數(shù)據(jù)低谷期設置較大的執(zhí)行時間周期。將預設的執(zhí)行時間周期內(nèi)接收到的全部的日志數(shù)據(jù)構成待分析集合,即為樣本的母本。系統(tǒng)中預設的第一數(shù)量閾值為一個樣本中包含的日志數(shù)據(jù)的數(shù)量,通過計算可得出該待分析結合中日志數(shù)據(jù)的數(shù)量與預設的第一數(shù)量閾值的商,該商的數(shù)值大小代表著樣本的組數(shù),如果存在余數(shù)則舍棄該余數(shù)。將待分析集合中的日志數(shù)據(jù)分配到各個樣本中,各個樣本中的日志數(shù)據(jù)的數(shù)量都是一致的,且都是預設的第一數(shù)量閾值的數(shù)值;樣本的組數(shù)就是商的數(shù)值。

例如,一個預設的執(zhí)行時間周期為5分鐘,預設的第一數(shù)量的閾值為10000,在該預設的執(zhí)行時間周期內(nèi)獲取到的日志數(shù)據(jù)為121911個日志數(shù)據(jù)(既待分析集合中的日志數(shù)據(jù)為121911個),計算出待分析集合中的日志數(shù)據(jù)的數(shù)量(121911)與預設的第一數(shù)量閾值(10000)的商,可計算出該商為12,余數(shù)為1911,舍棄該余數(shù)??傻玫?2個樣本,每個樣本中的日志數(shù)據(jù)量為10000。

在一個實施例中,如圖3所示,步驟s12包括如下步驟s31-s33:

在步驟s31中,通過機器學習抽取出各個所述樣本中的日志數(shù)據(jù)的關鍵字段,所述關鍵字段包括訪問數(shù)量、權限更改和錯誤信息中的任一者或多者;

在步驟s32中,對各個所述樣本的日志數(shù)據(jù)的關鍵字段進行分析統(tǒng)計;

在步驟s33中,根據(jù)分析統(tǒng)計的結果,生成各個所述樣本的檢測組。

在一個實施例中,通過機器學習(machinelearning,ml)是一門多領域交叉學科,涉及概率論、統(tǒng)計學、逼近論、凸分析、算法復雜度理論等多門學科。專門研究計算機怎樣模擬或實現(xiàn)人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。本實施例中的機器學習可以不斷的豐富對日志數(shù)據(jù)的分析能力,其中包括對日志數(shù)據(jù)中關鍵字段的分析能力,該關鍵字段包括訪問數(shù)量、權限更改和錯誤信息中的任一者或多者。然后對各個樣本中的日子數(shù)據(jù)的關鍵字段進行分析統(tǒng)計。根據(jù)分析統(tǒng)計的結果來生成各個樣本的檢測組。

在一個實施例中,如圖4所示,步驟s13包括如下步驟s41-s43:

在步驟s41中,分別對各個所述樣本的檢測組進行非參數(shù)分布校驗;

在步驟s42中,對非參數(shù)分布校驗的檢驗結果進行組間對比;

在步驟s43中,通過組間對比,確認出數(shù)據(jù)異常的檢測組。

在一個實施例中,分別對各個樣本的檢測組進行非參數(shù)分布校驗,該非參數(shù)分布校驗包括ks統(tǒng)計量檢驗(kolmogorov-smirnovtest,柯爾莫可洛夫-斯米洛夫檢驗)、w統(tǒng)計量檢驗(shapiro-wilktest)和l統(tǒng)計量統(tǒng)計(lillieforstest)。因為對于大數(shù)據(jù)的分布是具有一定的穩(wěn)定性,對非參數(shù)分布校驗的檢驗結果進行組間對比,其中,組的檢驗結果的期望值是一致的。通過組間對比,根據(jù)預設的檢測對比規(guī)則,確認出數(shù)據(jù)異常的檢測組。采用非參數(shù)分布校驗和組間對比,無需根據(jù)歷史數(shù)據(jù)進行校驗,可避免傳統(tǒng)的縱向檢測過分依賴歷史數(shù)據(jù)。其中,類型為發(fā)展過程中會發(fā)生較大變化的日志數(shù)據(jù),若采用了縱向檢測法,其歷史數(shù)據(jù)將帶來的負面影響。

在一個實施例中,如圖5所示,還包括如下步驟s51:

在步驟s51中,根據(jù)所述警告信息,可直接跳轉至所述數(shù)據(jù)異常的檢測組的樣本。

在一個實施例中,用戶可通過客戶端來直接點擊發(fā)送來的警告信息,進行點擊操作之后將直接跳轉到數(shù)據(jù)異常的檢測組的樣本。從而方便用戶查看樣本內(nèi)的具體的日志數(shù)據(jù),從而有助于用戶進行下一步的操作。

在一個實施例中,圖6是根據(jù)一示例性實施例示出的一種智能分析日志數(shù)據(jù)的裝置框圖。如圖6示,該裝置包括劃分模塊61、生成模塊62、分析模塊63和警告模塊64。

該劃分模塊61,用于將接收到日志數(shù)據(jù)劃分為多個樣本;

該生成模塊62,用于生成各個所述樣本的檢測組;

該分析模塊63,用于分析出各個所述樣本的檢測組中數(shù)據(jù)異常的檢測組;

該警告模塊64,用于實時發(fā)出警告信息到用戶端,所述警告信息包括所述數(shù)據(jù)異常的檢測組的相關信息。

如圖7所示,該劃分模塊61包括構成子模塊71、計算子模塊72和分配子模塊73。

該構成子模塊71,用于每間隔一個預設的執(zhí)行時間周期,將預設的執(zhí)行時間周期內(nèi)接收到的全部的日志數(shù)據(jù)構成待分析集合;

該計算子模塊72,用于計算出所述待分析集合中的日志數(shù)據(jù)的數(shù)量與預設的第一數(shù)量閾值的商;

該分配子模塊73,用于將所述待分析集合中的日志數(shù)據(jù)分配到各個樣本中,其中,所述樣本的數(shù)量為所述商的數(shù)值。

如圖8所示,生成模塊62包括抽取子模塊81、統(tǒng)計子模塊82和生成子模塊83。

該抽取子模塊81,用于通過機器學習抽取出各個所述樣本中的日志數(shù)據(jù)的關鍵字段,所述關鍵字段包括訪問數(shù)量、權限更改和錯誤信息中的任一者或多者;

該統(tǒng)計子模塊82,用于對各個所述樣本的日志數(shù)據(jù)的關鍵字段進行分析統(tǒng)計;

該生成子模塊83,用于根據(jù)分析統(tǒng)計的結果,生成各個所述樣本的檢測組。

如圖9所示,該分析模塊63包括校驗子模塊91、對比子模塊92和確認子模塊93。

該校驗子模塊91,用于分別對各個所述樣本的檢測組進行非參數(shù)分布校驗;

該對比子模塊92,用于對非參數(shù)分布校驗的檢驗結果進行組間對比;

該確認子模塊93,用于通過組間對比,確認出數(shù)據(jù)異常的檢測組。

如圖10所示,還包括跳轉模塊101。

該跳轉模塊101,用于根據(jù)所述警告信息,可直接跳轉至所述數(shù)據(jù)異常的檢測組的樣本。

本領域內(nèi)的技術人員應明白,本發(fā)明的實施例可提供為方法、系統(tǒng)、或計算機程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實施例、完全軟件實施例、或結合軟件和硬件方面的實施例的形式。而且,本發(fā)明可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(zhì)(包括但不限于磁盤存儲器和光學存儲器等)上實施的計算機程序產(chǎn)品的形式。

本發(fā)明是參照根據(jù)本發(fā)明實施例的方法、設備(系統(tǒng))、和計算機程序產(chǎn)品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合。可提供這些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設備的處理器以產(chǎn)生一個機器,使得通過計算機或其他可編程數(shù)據(jù)處理設備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。

這些計算機程序指令也可存儲在能引導計算機或其他可編程數(shù)據(jù)處理設備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。

這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設備上,使得在計算機或其他可編程設備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理,從而在計算機或其他可編程設備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。

顯然,本領域的技術人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權利要求及其等同技術的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
周口市| 阜新| 常德市| 乡宁县| 元阳县| 胶州市| 灵山县| 普兰店市| 城口县| 沙湾县| 讷河市| 兰西县| 巨野县| 吉首市| 白山市| 友谊县| 怀化市| 潢川县| 铜陵市| 扬中市| 历史| 安庆市| 平潭县| 神池县| 五原县| 衡东县| 郎溪县| 喀喇沁旗| 渑池县| 平乡县| 新泰市| 晋中市| 久治县| 九龙城区| 广宗县| 大名县| 兴安盟| 渝中区| 安新县| 乡宁县| 上栗县|