本申請涉及數(shù)據(jù)安全,尤其涉及一種泄露事件監(jiān)測方法、裝置、設備及存儲介質。
背景技術:
1、隨著互聯(lián)網的發(fā)展,互聯(lián)網的安全問題也日益凸顯。近年來,數(shù)據(jù)泄露事件的發(fā)生給個人和企業(yè)帶來了嚴重的安全隱患。
2、目前,已知技術中一般通過硬編碼的方式對指定的網站進行監(jiān)測,實現(xiàn)下述過程:提取網站頁面中的數(shù)據(jù),該數(shù)據(jù)包括該頁面的標題和正文的文本內容。進一步的,通過關鍵詞匹配頁面的標題和正文的文本內容,以確定相應頁面是否涉及關注的數(shù)據(jù)泄露事件。
3、上述過程中,存在易錯報、漏報泄露事件的缺陷,從而不利于準確地監(jiān)測泄露事件。
技術實現(xiàn)思路
1、本申請?zhí)峁┮环N泄露事件監(jiān)測方法、裝置、設備及存儲介質,用以提升泄露事件監(jiān)測的準確性。
2、第一方面,本申請?zhí)峁┮环N泄露事件監(jiān)測方法,所述方法包括:
3、獲取被監(jiān)測平臺中包含預設關鍵詞的頁面數(shù)據(jù);
4、從所述頁面數(shù)據(jù)中提取待分析事件,并計算所述待分析事件與各歷史泄露事件的事件相似度;所述待分析事件包括至少一個預設關鍵詞和所述預設關鍵詞對應的詞特征;
5、在根據(jù)所述事件相似度確定所述待分析事件不是所述歷史泄露事件時,計算所述待分析事件包括的各所述預設關鍵詞對應的詞特征和預設數(shù)據(jù)庫中的用戶信息對應的特征字段的匹配度;
6、根據(jù)所述匹配度,確定所述待分析事件為真實泄露事件或虛假泄露事件。
7、在一種可能的設計中,所述方法還包括:
8、在存在多個待分析事件時,根據(jù)預設算法中的任一種確定屬于同一事件的待分析事件,所述預設算法包括余弦相似度算法、聚類算法;
9、對于屬于同一事件的至少兩個待分析事件,對所述至少兩個待分析事件分別與各歷史泄露事件的事件相似度進行聚合,得到整體相似度;
10、若所述至少兩個待分析事件與任一歷史泄露事件的整體相似度大于第一預設閾值,則將所述至少兩個待分析事件標記為對應的歷史泄露事件;
11、若所述至少兩個待分析事件與各所述歷史泄露事件的整體相似度均不大于所述第一預設閾值,則確定所述至少兩個待分析事件不是所述歷史泄露事件。
12、在一種可能的設計中,所述計算所述待分析事件與各歷史泄露事件的事件相似度,包括:
13、獲取所述待分析事件的第一向量表示、各所述歷史泄露事件分別對應的第二向量表示;
14、對所述第一向量表示和各所述第二向量表示分別進行余弦相似度計算,得到所述待分析事件與對應歷史泄露事件的事件相似度。
15、在一種可能的設計中,所述獲取被監(jiān)測平臺中包含預設關鍵詞的頁面數(shù)據(jù),包括:
16、獲取動態(tài)配置信息,所述動態(tài)配置信息用于指示所述被監(jiān)測平臺;
17、根據(jù)預設方式中的任一種獲取所述被監(jiān)測平臺的頁面數(shù)據(jù),所述預設方式包括爬蟲技術。
18、在一種可能的設計中,所述從所述頁面數(shù)據(jù)中提取待分析事件,包括:
19、若所述頁面數(shù)據(jù)包括圖片數(shù)據(jù),則通過光學字符識別ocr技術從所述圖片數(shù)據(jù)中提取所述待分析事件;
20、若所述頁面數(shù)據(jù)包括文件數(shù)據(jù),則對所述文件數(shù)據(jù)進行解析,以提取所述待分析事件。
21、在一種可能的設計中,所述方法還包括:
22、將所述待分析事件和所述待分析事件對應的標記信息,存儲至待復核隊列,并向用戶反饋復核提醒信息;所述標記信息用于指示所述待分析事件為所述歷史泄露事件、所述真實泄露事件、所述虛假泄露事件中的一種。
23、在一種可能的設計中,所述方法還包括:
24、接收所述用戶反饋的復核結果信息,所述復核結果信息用于指示所述待分析事件是否確認為所述歷史泄露事件、所述真實泄露事件、所述虛假泄露事件中的一種;
25、根據(jù)所述復核結果信息,更新所述歷史泄露事件。
26、第二方面,本申請?zhí)峁┮环N泄露事件監(jiān)測裝置,包括:
27、獲取模塊,用于獲取被監(jiān)測平臺中包含預設關鍵詞的頁面數(shù)據(jù);
28、計算模塊,用于從所述頁面數(shù)據(jù)中提取待分析事件,并計算所述待分析事件與各歷史泄露事件的事件相似度;所述待分析事件包括至少一個預設關鍵詞和所述預設關鍵詞對應的詞特征;
29、所述計算模塊,還用于在根據(jù)所述事件相似度確定所述待分析事件不是所述歷史泄露事件時,計算所述待分析事件包括的各所述預設關鍵詞對應的詞特征和預設數(shù)據(jù)庫中的用戶信息對應的特征字段的匹配度;
30、確定模塊,用于根據(jù)所述匹配度,確定所述待分析事件為真實泄露事件或虛假泄露事件。
31、第三方面,本申請實施例提供一種電子設備,包括:至少一個處理器和存儲器;所述存儲器存儲計算機執(zhí)行指令;所述至少一個處理器執(zhí)行所述存儲器存儲的計算機執(zhí)行指令,使得所述至少一個處理器執(zhí)行如上第一方面以及第一方面各種可能的設計所述的方法。
32、第四方面,本申請實施例提供一種計算機可讀存儲介質,所述計算機可讀存儲介質中存儲有計算機執(zhí)行指令,當處理器執(zhí)行所述計算機執(zhí)行指令時,實現(xiàn)如上第一方面以及第一方面各種可能的設計所述的方法。
33、第五方面,本申請實施例提供一種計算機程序產品,包括計算機程序,所述計算機程序被處理器執(zhí)行時,實現(xiàn)如上第一方面以及第一方面各種可能的設計所述的方法。
34、本申請?zhí)峁┑男孤妒录O(jiān)測方法、裝置、設備及存儲介質,在本申請中,對于獲取的被監(jiān)測平臺的頁面數(shù)據(jù),首先根據(jù)多個預設關鍵詞從頁面數(shù)據(jù)中提取待分析事件,并計算待分析事件和已記錄的各歷史泄露事件間的事件相似度,以確定待分析事件是否為歷史泄露事件。進一步的,在待分析事件不是歷史泄露事件時,計算待分析事件包括的各個預設關鍵詞的詞特征和預設數(shù)據(jù)庫中的用戶信息對應的特征字段的匹配度,以確定待分析事件是否為真實泄露事件或虛假泄露事件。通過本申請的方法,對于每個被監(jiān)測平臺,在其頁面數(shù)據(jù)包含預設關鍵詞時,電子設備能夠依次分析其對應的待分析事件是否為歷史泄露事件、真實泄露事件、虛假泄露事件,即對待分析事件進行更全面的分析,從而能夠有效降低漏報、錯報泄露事件,提高監(jiān)測泄露事件的準確性。
1.一種泄露事件監(jiān)測方法,其特征在于,所述方法包括:
2.根據(jù)權利要求1所述的方法,其特征在于,所述方法還包括:
3.根據(jù)權利要求1或2所述的方法,其特征在于,所述計算所述待分析事件與各歷史泄露事件的事件相似度,包括:
4.根據(jù)權利要求1或2所述的方法,其特征在于,所述獲取被監(jiān)測平臺中包含預設關鍵詞的頁面數(shù)據(jù),包括:
5.根據(jù)權利要求1或2所述的方法,其特征在于,所述從所述頁面數(shù)據(jù)中提取待分析事件,包括:
6.根據(jù)權利要求5所述的方法,其特征在于,所述方法還包括:
7.根據(jù)權利要求6所述的方法,其特征在于,所述方法還包括:
8.一種泄露事件監(jiān)測裝置,其特征在于,所述裝置包括:
9.一種電子設備,其特征在于,包括:處理器,以及與所述處理器通信連接的存儲器;
10.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質中存儲有計算機執(zhí)行指令,所述計算機執(zhí)行指令被處理器執(zhí)行時用于實現(xiàn)如權利要求1-7中任一項所述的方法。
11.一種計算機程序產品,其特征在于,包括計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)權利要求1-7中任一項所述的方法。