本發(fā)明涉及信息技術領域,尤其涉及一種日志統(tǒng)計方法及裝置。
背景技術:
目前,通常采用Hadoop分布式文件系統(tǒng)存儲海量的日志,同時采用MapReduce(Map:映射;Reduce:歸約)框架或者構建于MapReduce框架上的Hive系統(tǒng)對日志進行離線統(tǒng)計和分析。當出現(xiàn)一個新的統(tǒng)計需求時,開發(fā)人員需要為該新的統(tǒng)計需求編寫對應的MapReduce程序或者Hive-SQL語句,并在指定的數(shù)據集上運行。
在實現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術至少存在以下問題:對于每一個統(tǒng)計需求都需要單獨開發(fā)程序,造成開發(fā)效率較低,且代碼量大,維護工作量大;且對于同一份日志的多次掃描將占用大量的集群計算資源。
技術實現(xiàn)要素:
技術問題
有鑒于此,本發(fā)明要解決的技術問題是,現(xiàn)有的日志統(tǒng)計方式的開發(fā)工作量較大,維護難度大,且占用大量的集群計算資源。
解決方案
為了解決上述技術問題,根據本發(fā)明的一實施例,提供了一種日志統(tǒng)計方法,包括:
獲取日志,并將所述日志的每行分別轉換為日志項目;
分別將每個所述日志項目在統(tǒng)計規(guī)則集中進行匹配,以確定與每個所述日志項目匹配的統(tǒng)計規(guī)則;
根據與每個所述日志項目匹配的統(tǒng)計規(guī)則,統(tǒng)計每條統(tǒng)計規(guī)則匹配的所述日志項目的數(shù)量。
對于上述方法,在一種可能的實現(xiàn)方式中,在分別將每個所述日志項目在統(tǒng)計規(guī)則集中進行匹配之前,所述方法還包括:
根據用戶的統(tǒng)計需求創(chuàng)建統(tǒng)計規(guī)則;
根據所述統(tǒng)計規(guī)則生成所述統(tǒng)計規(guī)則集。
對于上述方法,在一種可能的實現(xiàn)方式中,根據所述統(tǒng)計規(guī)則生成所述統(tǒng)計規(guī)則集,具體為:
根據已啟用的統(tǒng)計規(guī)則生成所述統(tǒng)計規(guī)則集。
對于上述方法,在一種可能的實現(xiàn)方式中,在分別將每個所述日志項目在統(tǒng)計規(guī)則集中進行匹配之前,所述方法還包括:采用所述統(tǒng)計規(guī)則集初始化規(guī)則引擎;
分別將每個所述日志項目在統(tǒng)計規(guī)則集中進行匹配,具體為:調用所述規(guī)則引擎分別將每個所述日志項目與所述統(tǒng)計規(guī)則集中的每條統(tǒng)計規(guī)則進行匹配。
對于上述方法,在一種可能的實現(xiàn)方式中,在統(tǒng)計每條統(tǒng)計規(guī)則匹配的所述日志項目的數(shù)量之后,所述方法還包括:
將每條統(tǒng)計規(guī)則匹配的所述日志項目的數(shù)量寫入結果數(shù)據庫中。
為了解決上述技術問題,根據本發(fā)明的另一實施例,提供了一種日志統(tǒng)計裝置,包括:
轉換模塊,用于獲取日志,并將所述日志的每行分別轉換為日志項目;
統(tǒng)計規(guī)則匹配模塊,用于分別將每個所述日志項目在統(tǒng)計規(guī)則集中進行匹配,以確定與每個所述日志項目匹配的統(tǒng)計規(guī)則;
統(tǒng)計模塊,用于根據與每個所述日志項目匹配的統(tǒng)計規(guī)則,統(tǒng)計每條統(tǒng)計規(guī)則匹配的所述日志項目的數(shù)量。
對于上述裝置,在一種可能的實現(xiàn)方式中,所述裝置還包括:
統(tǒng)計規(guī)則創(chuàng)建模塊,用于根據用戶的統(tǒng)計需求創(chuàng)建統(tǒng)計規(guī)則;
統(tǒng)計規(guī)則集生成模塊,用于根據所述統(tǒng)計規(guī)則生成所述統(tǒng)計規(guī)則集。
對于上述裝置,在一種可能的實現(xiàn)方式中,所述統(tǒng)計規(guī)則集生成模塊具體用于:
根據已啟用的統(tǒng)計規(guī)則生成所述統(tǒng)計規(guī)則集。
對于上述裝置,在一種可能的實現(xiàn)方式中,所述裝置還包括:
規(guī)則引擎初始化模塊,用于采用所述統(tǒng)計規(guī)則集初始化規(guī)則引擎;
所述統(tǒng)計規(guī)則匹配模塊具體用于:調用所述規(guī)則引擎分別將每個所述日志項目與所述統(tǒng)計規(guī)則集中的每條統(tǒng)計規(guī)則進行匹配。
對于上述裝置,在一種可能的實現(xiàn)方式中,所述裝置還包括:
統(tǒng)計結果寫入模塊,用于將每條統(tǒng)計規(guī)則匹配的所述日志項目的數(shù)量寫入結果數(shù)據庫中。
有益效果
通過獲取日志,將日志的每行分別轉換為日志項目,分別將每個日志項目在統(tǒng)計規(guī)則集中進行匹配,以確定與每個日志項目匹配的統(tǒng)計規(guī)則,根據與每個日志項目匹配的統(tǒng)計規(guī)則,統(tǒng)計每條統(tǒng)計規(guī)則匹配的日志項目的數(shù)量,根據本發(fā)明實施例的日志統(tǒng)計方法及裝置在統(tǒng)計需求新增和修改時無需改動代碼,減小了代碼量和開發(fā)工作量,減少了相關代碼和腳本的維護工作,提高了開發(fā)效率,便于統(tǒng)計需求的擴展,且對于一個日志僅需掃描一次,節(jié)省了集群計算資源,提高了統(tǒng)計效率。
根據下面參考附圖對示例性實施例的詳細說明,本發(fā)明的其它特征及方面將變得清楚。
附圖說明
包含在說明書中并且構成說明書的一部分的附圖與說明書一起示出了本發(fā)明的示例性實施例、特征和方面,并且用于解釋本發(fā)明的原理。
圖1示出根據本發(fā)明一實施例的日志統(tǒng)計方法的實現(xiàn)流程圖;
圖2示出根據本發(fā)明一實施例的日志統(tǒng)計方法的一示例性的實現(xiàn)流程圖;
圖3示出根據本發(fā)明一實施例的日志統(tǒng)計方法的一示例性的實現(xiàn)流程圖;
圖4示出根據本發(fā)明一實施例的日志統(tǒng)計方法的一示例性的實現(xiàn)流程圖;
圖5示出根據本發(fā)明一實施例的日志統(tǒng)計方法的一示例性的實現(xiàn)流程圖;
圖6示出根據本發(fā)明一實施例的日志統(tǒng)計方法的一示例性的實現(xiàn)流程圖;
圖7示出根據本發(fā)明另一實施例的日志統(tǒng)計裝置的結構框圖;
圖8示出根據本發(fā)明另一實施例的日志統(tǒng)計裝置的一示例性的結構框圖;
圖9示出了本發(fā)明的另一個實施例的一種日志統(tǒng)計設備的結構框圖。
具體實施方式
以下將參考附圖詳細說明本發(fā)明的各種示例性實施例、特征和方面。附圖中相同的附圖標記表示功能相同或相似的元件。盡管在附圖中示出了實施例的各種方面,但是除非特別指出,不必按比例繪制附圖。
在這里專用的詞“示例性”意為“用作例子、實施例或說明性”。這里作為“示例性”所說明的任何實施例不必解釋為優(yōu)于或好于其它實施例。
另外,為了更好的說明本發(fā)明,在下文的具體實施方式中給出了眾多的具體細節(jié)。本領域技術人員應當理解,沒有某些具體細節(jié),本發(fā)明同樣可以實施。在一些實例中,對于本領域技術人員熟知的方法、手段、元件和電路未作詳細描述,以便于凸顯本發(fā)明的主旨。
實施例1
圖1示出根據本發(fā)明一實施例的日志統(tǒng)計方法的實現(xiàn)流程圖。如圖1所示,該方法主要包括:
在步驟S101中,獲取日志,并將日志的每行分別轉換為日志項目。
作為本發(fā)明實施例的一個示例,在步驟S101之前,該方法還可以包括:通過日志采集系統(tǒng)進行收集各業(yè)務相關的日志,并通過日志采集系統(tǒng)對收集的日志進行處理,再將處理后的日志存儲在例如HDFS(Hadoop Distributed File System,Hadoop分布式文件系統(tǒng))中。HDFS可以按照指定格式存儲日志,例如,在HDFS中存儲的日志的每一行的各個字段都可以根據指定格式有明確的含義,各個字段之間還可以用約定的分隔符進行間隔。
作為本發(fā)明實施例的一個示例,獲取日志可以為:從HDFS中獲取日志。
在步驟S102中,分別將每個日志項目在統(tǒng)計規(guī)則集中進行匹配,以確定與每個日志項目匹配的統(tǒng)計規(guī)則。
在步驟S103中,根據與每個日志項目匹配的統(tǒng)計規(guī)則,統(tǒng)計每條統(tǒng)計規(guī)則匹配的日志項目的數(shù)量。
作為本發(fā)明實施例的一個示例,在確定與每個日志項目匹配的統(tǒng)計規(guī)則后,可以進行Reduce(歸約)處理,從而得到每條統(tǒng)計規(guī)則匹配的日志項目的數(shù)量。
圖2示出根據本發(fā)明一實施例的日志統(tǒng)計方法的一示例性的實現(xiàn)流程圖。如圖2所示,該方法包括:
在步驟S201中,根據用戶的統(tǒng)計需求創(chuàng)建統(tǒng)計規(guī)則。
例如,統(tǒng)計需求可以為統(tǒng)計頁面訪問量、統(tǒng)計每小時的頁面訪問量或者統(tǒng)計用戶的訪問設備等。以視頻網站為例,統(tǒng)計需求可以為統(tǒng)計視頻的曝光量、點擊量、評論量或者頂踩量等。需要說明的是,統(tǒng)計需求可以由統(tǒng)計人員根據具體應用場景進行設計,在這里僅僅是對統(tǒng)計需求進行舉例,并不對統(tǒng)計需求進行具體限定。
在步驟S202中,根據統(tǒng)計規(guī)則生成統(tǒng)計規(guī)則集。
作為本發(fā)明實施例的一個示例,統(tǒng)計需求可以用統(tǒng)計規(guī)則來描述,根據統(tǒng)計需求可以創(chuàng)建統(tǒng)計規(guī)則,并可以將統(tǒng)計規(guī)則存儲在統(tǒng)計規(guī)則配置庫中,由此,各個統(tǒng)計需求都可以通過配置統(tǒng)計規(guī)則配置庫來存儲,從而能夠方便統(tǒng)計需求的新增與修改。例如,統(tǒng)計規(guī)則的核心可以為regex(Regular Expression,正則表達式)字段,regex字段的書寫可以遵循DRL(Drools Rule Language,Drools規(guī)則語言)中LHS(Left Hand Side,左邊)條件部分的域約束(Field Constraints)的語法規(guī)范。
在步驟S203中,獲取日志,并將日志的每行分別轉換為日志項目。
在步驟S204中,分別將每個日志項目在統(tǒng)計規(guī)則集中進行匹配,以確定與每個日志項目匹配的統(tǒng)計規(guī)則。
在步驟S205中,根據與每個日志項目匹配的統(tǒng)計規(guī)則,統(tǒng)計每條統(tǒng)計規(guī)則匹配的日志項目的數(shù)量。
圖3示出根據本發(fā)明一實施例的日志統(tǒng)計方法的一示例性的實現(xiàn)流程圖。如圖3所示,該方法包括:
在步驟S301中,根據用戶的統(tǒng)計需求創(chuàng)建統(tǒng)計規(guī)則。
在步驟S302中,根據已啟用的統(tǒng)計規(guī)則生成統(tǒng)計規(guī)則集。
作為本發(fā)明實施例的一個示例,統(tǒng)計規(guī)則可以包含開關字段,例如enabled字段。各條統(tǒng)計規(guī)則的開關字段可以分別用于確定各條統(tǒng)計規(guī)則是否啟用。在該示例中,可以由統(tǒng)計人員通過開關字段控制統(tǒng)計規(guī)則的啟用與停用。
在步驟S303中,獲取日志,并將日志的每行分別轉換為日志項目。
在步驟S304中,分別將每個日志項目在統(tǒng)計規(guī)則集中進行匹配,以確定與每個日志項目匹配的統(tǒng)計規(guī)則。
在步驟S305中,根據與每個日志項目匹配的統(tǒng)計規(guī)則,統(tǒng)計每條統(tǒng)計規(guī)則匹配的日志項目的數(shù)量。
圖4示出根據本發(fā)明一實施例的日志統(tǒng)計方法的一示例性的實現(xiàn)流程圖。如圖4所示,該方法包括:
在步驟S401中,采用統(tǒng)計規(guī)則集初始化規(guī)則引擎。
作為本發(fā)明實施例的一個示例,用于初始化規(guī)則引擎的統(tǒng)計規(guī)則集可以包括所有已啟用的統(tǒng)計規(guī)則,而不包括已停用的統(tǒng)計規(guī)則。
在步驟S402中,獲取日志,并將日志的每行分別轉換為日志項目。
作為本發(fā)明實施例的一個示例,日志項目可以作為item(項目)對象,例如JavaBean,以通過規(guī)則引擎進行匹配處理。
在步驟S403中,調用規(guī)則引擎分別將每個日志項目與統(tǒng)計規(guī)則集中的每條統(tǒng)計規(guī)則進行匹配,以確定與每個日志項目匹配的統(tǒng)計規(guī)則。
作為本發(fā)明實施例的一個示例,可以調用規(guī)則引擎對每個日志項目逐一進行匹配處理。若某個日志項目命中某條統(tǒng)計規(guī)則,則確定該日志項目與該條統(tǒng)計規(guī)則匹配。在確定某條統(tǒng)計規(guī)則與某個日志項目匹配之后,可以將該條統(tǒng)計規(guī)則的ID(Identification,唯一編號)添加到該日志項目對應的規(guī)則ID列表中。
在步驟S404中,根據與每個日志項目匹配的統(tǒng)計規(guī)則,統(tǒng)計每條統(tǒng)計規(guī)則匹配的日志項目的數(shù)量。
圖5示出根據本發(fā)明一實施例的日志統(tǒng)計方法的一示例性的實現(xiàn)流程圖。如圖5所示,該方法包括:
在步驟S501中,獲取日志,并將日志的每行分別轉換為日志項目。
在步驟S502中,分別將每個日志項目在統(tǒng)計規(guī)則集中進行匹配,以確定與每個日志項目匹配的統(tǒng)計規(guī)則。
在步驟S503中,根據與每個日志項目匹配的統(tǒng)計規(guī)則,統(tǒng)計每條統(tǒng)計規(guī)則匹配的日志項目的數(shù)量。
在步驟S504中,將每條統(tǒng)計規(guī)則匹配的日志項目的數(shù)量寫入結果數(shù)據庫中。
作為本發(fā)明實施例的一個示例,在統(tǒng)計得到每條統(tǒng)計規(guī)則匹配的日志項目的數(shù)量之后,可以按照統(tǒng)計規(guī)則的ID,將每條統(tǒng)計規(guī)則匹配的日志項目的數(shù)量寫入結果數(shù)據庫中,從而通過結果數(shù)據庫存儲統(tǒng)計結果。
圖6示出根據本發(fā)明一實施例的日志統(tǒng)計方法的一示例性的實現(xiàn)流程圖。如圖6所示,該方法包括:
在步驟S601中,從統(tǒng)計規(guī)則配置庫中讀取統(tǒng)計規(guī)則集。
在步驟S602中,將統(tǒng)計規(guī)則集中的每個統(tǒng)計規(guī)則設置DRL為:若一日志項目命中該統(tǒng)計規(guī)則,則將該統(tǒng)計規(guī)則的ID添加到該日志項目對應的規(guī)則ID列表中。
在步驟S603中,采用統(tǒng)計規(guī)則集初始化規(guī)則引擎。
在步驟S604中,按行掃描日志,并將日志的每行分別轉換為日志項目(JavaBean)。
在步驟S605中,對日志項目執(zhí)行規(guī)則引擎。
在步驟S606中,對執(zhí)行規(guī)則引擎的結果進行歸約處理,得到與每條統(tǒng)計規(guī)則匹配的日志項目的數(shù)量。
在步驟S607中,按照統(tǒng)計規(guī)則的ID將統(tǒng)計結果寫入結果數(shù)據庫中。
這樣,通過獲取日志,將日志的每行分別轉換為日志項目,分別將每個日志項目在統(tǒng)計規(guī)則集中進行匹配,以確定與每個日志項目匹配的統(tǒng)計規(guī)則,根據與每個日志項目匹配的統(tǒng)計規(guī)則,統(tǒng)計每條統(tǒng)計規(guī)則匹配的日志項目的數(shù)量,根據本發(fā)明實施例的日志統(tǒng)計方法在統(tǒng)計需求新增和修改時無需改動代碼,減小了代碼量和開發(fā)工作量,減少了相關代碼和腳本的維護工作,提高了開發(fā)效率,便于統(tǒng)計需求的擴展,且對于一個日志僅需掃描一次,節(jié)省了集群計算資源,提高了統(tǒng)計效率。
實施例2
圖7示出根據本發(fā)明另一實施例的日志統(tǒng)計裝置的結構框圖。該裝置可以用于運行圖1所示的日志統(tǒng)計方法。為了便于說明,在圖7中僅示出了與該實施例相關的部分。
如圖7所示,該裝置包括:轉換模塊71,用于獲取日志,并將所述日志的每行分別轉換為日志項目;統(tǒng)計規(guī)則匹配模塊72,用于分別將每個所述日志項目在統(tǒng)計規(guī)則集中進行匹配,以確定與每個所述日志項目匹配的統(tǒng)計規(guī)則;統(tǒng)計模塊73,用于根據與每個所述日志項目匹配的統(tǒng)計規(guī)則,統(tǒng)計每條統(tǒng)計規(guī)則匹配的所述日志項目的數(shù)量。
圖8示出根據本發(fā)明另一實施例的日志統(tǒng)計裝置的一示例性的結構框圖。該裝置可以用于運行圖1至圖6所示的日志統(tǒng)計方法。圖8中標號與圖7相同的組件具有相同的功能,為簡明起見,省略對這些組件的詳細說明。為了便于說明,在圖8中僅示出了與該實施例相關的部分。如圖8所示:
在一種可能的實現(xiàn)方式中,所述裝置還包括:統(tǒng)計規(guī)則創(chuàng)建模塊74,用于根據用戶的統(tǒng)計需求創(chuàng)建統(tǒng)計規(guī)則;統(tǒng)計規(guī)則集生成模塊75,用于根據所述統(tǒng)計規(guī)則生成所述統(tǒng)計規(guī)則集。
在一種可能的實現(xiàn)方式中,所述統(tǒng)計規(guī)則集生成模塊75具體用于:根據已啟用的統(tǒng)計規(guī)則生成所述統(tǒng)計規(guī)則集。
在一種可能的實現(xiàn)方式中,所述裝置還包括:規(guī)則引擎初始化模塊76,用于采用所述統(tǒng)計規(guī)則集初始化規(guī)則引擎;所述統(tǒng)計規(guī)則匹配模塊72具體用于:調用所述規(guī)則引擎分別將每個所述日志項目與所述統(tǒng)計規(guī)則集中的每條統(tǒng)計規(guī)則進行匹配。
在一種可能的實現(xiàn)方式中,所述裝置還包括:統(tǒng)計結果寫入模塊77,用于將每條統(tǒng)計規(guī)則匹配的所述日志項目的數(shù)量寫入結果數(shù)據庫中。
需要說明的是,這樣,通過獲取日志,將日志的每行分別轉換為日志項目,分別將每個日志項目在統(tǒng)計規(guī)則集中進行匹配,以確定與每個日志項目匹配的統(tǒng)計規(guī)則,根據與每個日志項目匹配的統(tǒng)計規(guī)則,統(tǒng)計每條統(tǒng)計規(guī)則匹配的日志項目的數(shù)量,根據本發(fā)明實施例的日志統(tǒng)計裝置在統(tǒng)計需求新增和修改時無需改動代碼,減小了代碼量和開發(fā)工作量,減少了相關代碼和腳本的維護工作,提高了開發(fā)效率,便于統(tǒng)計需求的擴展,且對于一個日志僅需掃描一次,節(jié)省了集群計算資源,提高了統(tǒng)計效率。
實施例3
圖9示出了本發(fā)明的另一個實施例的一種日志統(tǒng)計設備的結構框圖。所述日志統(tǒng)計設備1100可以是具備計算能力的主機服務器、個人計算機PC、或者可攜帶的便攜式計算機或終端等。本發(fā)明具體實施例并不對計算節(jié)點的具體實現(xiàn)做限定。
所述日志統(tǒng)計設備1100包括處理器(processor)1110、通信接口(Communications Interface)1120、存儲器(memory)1130和總線1140。其中,處理器1110、通信接口1120、以及存儲器1130通過總線1140完成相互間的通信。
通信接口1120用于與網絡設備通信,其中網絡設備包括例如虛擬機管理中心、共享存儲等。
處理器1110用于執(zhí)行程序。處理器1110可能是一個中央處理器CPU,或者是專用集成電路ASIC(Application Specific Integrated Circuit),或者是被配置成實施本發(fā)明實施例的一個或多個集成電路。
存儲器1130用于存放文件。存儲器1130可能包含高速RAM存儲器,也可能還包括非易失性存儲器(non-volatile memory),例如至少一個磁盤存儲器。存儲器1130也可以是存儲器陣列。存儲器1130還可能被分塊,并且所述塊可按一定的規(guī)則組合成虛擬卷。
在一種可能的實施方式中,上述程序可為包括計算機操作指令的程序代碼。該程序具體可用于:實現(xiàn)實施例1中各步驟的操作。
本領域普通技術人員可以意識到,本文所描述的實施例中的各示例性單元及算法步驟,能夠以電子硬件、或者計算機軟件和電子硬件的結合來實現(xiàn)。這些功能究竟以硬件還是軟件形式來實現(xiàn),取決于技術方案的特定應用和設計約束條件。專業(yè)技術人員可以針對特定的應用選擇不同的方法來實現(xiàn)所描述的功能,但是這種實現(xiàn)不應認為超出本發(fā)明的范圍。
如果以計算機軟件的形式來實現(xiàn)所述功能并作為獨立的產品銷售或使用時,則在一定程度上可認為本發(fā)明的技術方案的全部或部分(例如對現(xiàn)有技術做出貢獻的部分)是以計算機軟件產品的形式體現(xiàn)的。該計算機軟件產品通常存儲在計算機可讀取的非易失性存儲介質中,包括若干指令用以使得計算機設備(可以是個人計算機、服務器、或者網絡設備等)執(zhí)行本發(fā)明各實施例方法的全部或部分步驟。而前述的存儲介質包括U盤、移動硬盤、只讀存儲器(ROM,Read-Only Memory)、隨機存取存儲器(RAM,Random Access Memory)、磁碟或者光盤等各種可以存儲程序代碼的介質。
以上所述,僅為本發(fā)明的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何熟悉本技術領域的技術人員在本發(fā)明揭露的技術范圍內,可輕易想到變化或替換,都應涵蓋在本發(fā)明的保護范圍之內。因此,本發(fā)明的保護范圍應以所述權利要求的保護范圍為準。