專利名稱:過濾以及監(jiān)控程序的行為的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)的安全領(lǐng)域,更具體地,涉及對程序的行為進(jìn)行過濾 和監(jiān)控的方法。
背景技術(shù):
對程序的行為進(jìn)行攔截與監(jiān)控是安全軟件在防御病毒時(shí)常用的手段。在 實(shí)踐中,基于非特征碼檢測的安全軟件產(chǎn)品通常通過對程序行為的監(jiān)控與分 析來識(shí)別出可疑的程序(例如病毒、木馬)。例如,可以基于某些特定的拄截 點(diǎn)(例如,系統(tǒng)資源的調(diào)用)攔截和監(jiān)控程序的行為,包括對文件讀寫操作、 對注冊表讀寫操作等,然后根據(jù)這些行為判斷程序的類型(病毒、木馬、系 統(tǒng)程序等)。
在統(tǒng)計(jì)語言處理中, 一些常用的副詞、連詞等詞類,例如"的"、"得"、 "中,,等,應(yīng)用過于廣泛,以至于在絕大部分的文章中都會(huì)出現(xiàn),因此這些 詞匯在文本分類中基本沒有作用。相應(yīng)地,這些詞語在統(tǒng)計(jì)語言學(xué)中稱為"停
止詞"(Stop Words )。"停止詞"在文本分類的過程中常常被刪除掉,以免影 響處理。
類似地,程序行為可分為兩種類型具有分類意義的行為(又稱為"特 征行為,,);不具有分類意義的行為(又稱為"非特征行為")。例如,有的行 為是絕大部分程序都使用到的,或者被絕大部分程序頻繁使用,這種行為就 不具有分類與分析的意義,屬于非特征行為。在程序行為的處理當(dāng)中,識(shí)別 出這種非特征行為,并且在進(jìn)行分類或者分析處理之前刪除掉這些非特征行 為,可以有效的減少非特征行為對程序樣本分類的干擾(例如,如果這類非 特征行為被作為病毒特征處理,可能會(huì)帶來嚴(yán)重的誤報(bào)問題)。
5現(xiàn)有的一種對程序的行為進(jìn)行監(jiān)控方法中,監(jiān)聽待監(jiān)控的程序的所有行 為,并對所有的行為進(jìn)行分析和監(jiān)控。這種方案的缺陷在于數(shù)據(jù)處理量很大, 復(fù)雜度高,且存在較高的出錯(cuò)率(例如,如果這類非特征行為被作為病毒特 征處理,很可能會(huì)帶來嚴(yán)重的誤報(bào)問題)。
現(xiàn)有的另 一種對程序的行為進(jìn)行監(jiān)控方法中,首先使用人工識(shí)別的方式 識(shí)別和過濾掉這種非特征行為,再對其余的行為進(jìn)行和分析。這種監(jiān)控方法 需要大量的人力,成本很高,監(jiān)控結(jié)果也不夠穩(wěn)定和準(zhǔn)確,難以推廣。
發(fā)明內(nèi)容
本發(fā)明的一個(gè)目的在于提供一種過濾程序的行為的方法,這種方法用于 在監(jiān)控或者分析程序的行為之前過濾掉程序的非特征行為,以減少非特征行 為對監(jiān)控或者分析的干擾,降低計(jì)算機(jī)的處理量,提高監(jiān)控和分析的準(zhǔn)確度。
為此,本發(fā)明提供的過濾程序的行為的方法,包括以下步驟步驟S1、 構(gòu)造行為樣本庫,所述行為樣本庫包括從若干程序樣本收集的行為樣本、每 一種行為樣本的基于該種行為樣本的出現(xiàn)頻率計(jì)算出來的權(quán)重;步驟S2、獲 取待處理的程序行為,判斷所述行為樣本庫是否存在與所述程序行為相同的 行為樣本,若所述行為樣本庫不存在與所述程序行為相同的行為樣本,就保 留所述程序行為;若所述行為樣本庫存在與所述程序行為相同的行為樣本, 就判斷所述行為樣本的權(quán)重是否落入預(yù)設(shè)的過濾閾值范圍,如果落入就過濾 掉所述程序行為,否則,就保留所述程序行為。
與現(xiàn)有技術(shù)相比,本發(fā)明在監(jiān)控或者分析程序的程序行為之前,根據(jù)行 為樣本庫內(nèi)的行為樣本、預(yù)設(shè)的過濾閾值范圍對過濾掉其中的非特征行為,
減少了非特征行為對監(jiān)控或者分析的干擾,降低了計(jì)算機(jī)的處理量,提高了 監(jiān)控和分析的準(zhǔn)確度。
優(yōu)選地在所述行為樣本庫中,每一種行為樣本的出現(xiàn)頻率是出現(xiàn)該種行為樣本的程序樣本的數(shù)量與所有程序樣本的總量的比值,或者是該種行為
值;行為樣本的權(quán)重為該種行為樣本的出現(xiàn)頻率;所述判斷行為樣本的權(quán)重 是否落入預(yù)設(shè)的過濾閾值范圍的步驟具體為如果所述行為樣本的出現(xiàn)頻率 大于預(yù)設(shè)的過濾閾值下限,就判定為落入所述預(yù)設(shè)的過濾閾值范圍。在該優(yōu) 選方案中,根據(jù)出現(xiàn)頻率判斷某個(gè)程序行為是否屬于需要過濾掉的非特征行 為,因?yàn)槌霈F(xiàn)頻率過大的行為通常屬于不具有分類或分析意義的非特征行為, 因此,本優(yōu)選方案根據(jù)預(yù)設(shè)的過濾閾值下限過濾掉這些非特征行為。該優(yōu)選 方案簡單,計(jì)算量不大,容易實(shí)現(xiàn)。
優(yōu)選地在所述行為樣本庫中,每一種行為樣本的出現(xiàn)頻率是出現(xiàn)該種 行為樣本的程序樣本的數(shù)量與所有程序樣本的總量的比值,或者是該種行為 樣本在所有程序樣本中的出現(xiàn)次數(shù)與所有程序樣本包含的行為樣本總量的比
值;行為樣本的權(quán)重為該種行為樣本的逆文本頻率指數(shù),行為樣本的逆文本 頻率指數(shù)等于該種行為樣本的出現(xiàn)頻率的倒數(shù)的對數(shù);所述判斷行為樣本的 權(quán)重是否落入預(yù)設(shè)的過濾閾值范圍的步驟具體為如果所述行為樣本的逆文 本頻率指數(shù)小于預(yù)設(shè)的過濾閾值上限,就判定為落入所述預(yù)設(shè)的過濾閾值范 圍。在該優(yōu)選方案中,根據(jù)逆文本頻率指數(shù)判斷某個(gè)行為是否屬于需要過濾 掉的非特征行為,在統(tǒng)計(jì)學(xué)領(lǐng)域,逆文本頻率指數(shù)是公認(rèn)的量度相關(guān)性、價(jià) 值的一種重要參數(shù)。通常,逆文本頻率指數(shù)過小的行為通常屬于不具有分類 或分析意義的非特征行為,因此,本優(yōu)選方案根據(jù)預(yù)設(shè)的過濾閾值上限過濾 掉這些非特征行為。該優(yōu)選方案采用逆文本頻率指數(shù)來識(shí)別和過濾掉"非特 征行為",效果更好,過濾結(jié)果更可靠。
優(yōu)選地,所述行為樣本庫還包括所有程序樣本的總量、所有行為樣本的 總量;所述方法還包括更新所述行為樣本庫,所述更新包括若步驟S2中所 述行為樣本庫不存在與所述程序行為相同的行為樣本,則在步驟S2之后,將 所述程序行為作為新的行為樣本添加到所述行為樣本庫中,更新所述行為樣本庫的程序樣本的總量、行為樣本的總量并重新計(jì)算每一種行為樣本的權(quán)重。 在該優(yōu)選方案中,根據(jù)當(dāng)前的處理情況對行為樣本進(jìn)行及時(shí)的更新,使得行 為樣本庫包含的內(nèi)容更廣、更全面以及更準(zhǔn)確,從而進(jìn)一步提高了過濾的準(zhǔn) 確性。
優(yōu)選地,所述更新還包括若步驟S2中所述行為樣本庫存在與所述程序 行為相同的行為樣本,則在步驟S2之后,更新所述行為樣本庫的程序樣本的 總量、行為樣本的總量并重新計(jì)算每一種行為樣本的權(quán)重。同樣地,在該優(yōu) 選方案中,根據(jù)當(dāng)前的處理情況對行為樣本進(jìn)行及時(shí)的更新,使得行為樣本 庫包含的內(nèi)容更廣、更全面以及更準(zhǔn)確,從而進(jìn)一步提高了過濾的準(zhǔn)確性。
另一方面,本發(fā)明的另一個(gè)發(fā)明目的在于提供一種監(jiān)控程序的行為的方 法,這種方法能過濾掉程序的非特征行為,以減少非特征行為對監(jiān)控或者分 析的干擾,降低計(jì)算機(jī)的處理量,提高監(jiān)控和分析的準(zhǔn)確度。
為此,本發(fā)明提供的監(jiān)控程序的行為的方法,包括步驟S0:收集被監(jiān) 控的程序的程序行為;步驟S4:分析和監(jiān)控所述程序行為;在所述步驟S0 和步驟S4之間,還包括以下步驟步驟Sl、構(gòu)造行為樣本庫,所述行為樣 本庫包括從若干程序樣本收集的行為樣本、每一種行為樣本的基于該種行為 樣本的出現(xiàn)頻率計(jì)算出來的權(quán)重;步驟S2、獲取所述# 控的程序的程序行 為,判斷所述行為樣本庫是否存在與所述程序行為相同的行為樣本,若所述 行為樣本庫不存在與所述程序行為相同的行為樣本,就保留所述程序行為; 若所述行為樣本庫存在與所述程序行為相同的行為樣本,就判斷所述行為樣 本的權(quán)重是否落入預(yù)設(shè)的過濾閾值范圍,如果落入就過濾掉所述程序行為, 否則,就保留所述程序行為。
類似地,與現(xiàn)有技術(shù)相比,本發(fā)明提供的監(jiān)控程序的行為的方法在監(jiān)控 或者分析程序的行為之前,根據(jù)行為樣本庫內(nèi)的行為樣本、預(yù)設(shè)的過濾閾值 范圍對程序的行為進(jìn)行比較,過濾掉非特征行為,從而以減少非特征行為對監(jiān)控或者分析的干擾,降低了計(jì)算機(jī)的處理量,提高了監(jiān)控和分析的準(zhǔn)確度。
優(yōu)選地在所述行為樣本庫中,每一種行為樣本的出現(xiàn)頻率是出現(xiàn)該種 行為樣本的程序樣本的數(shù)量與所有程序樣本的總量的比值,或者是該種行為 樣本在所有程序樣本中的出現(xiàn)次數(shù)與所有程序樣本包含的行為樣本總量的比 值;行為樣本的權(quán)重為該種行為樣本的出現(xiàn)頻率;所述判斷行為樣本的權(quán)重 是否落入預(yù)設(shè)的過濾閾值范圍的步驟具體為如果所述行為樣本的出現(xiàn)頻率 大于預(yù)設(shè)的過濾闊值下限,就判定為落入所述預(yù)設(shè)的過濾閾值范圍。在該優(yōu) 選方案中,根據(jù)出現(xiàn)頻率判斷某個(gè)行為是否屬于需要過濾掉的"非特征行為", 因?yàn)槌霈F(xiàn)頻率過大的行為通常屬于不具有分類或分析意義的"非特征行為", 因此,本優(yōu)選方案根據(jù)預(yù)設(shè)的過濾閾值下限過濾掉這些非特征行為。該優(yōu)選 方案簡單,計(jì)算量不大,容易實(shí)現(xiàn)。
優(yōu)選地在所述行為樣本庫中,每一種行為樣本的出現(xiàn)頻率是出現(xiàn)該種 行為樣本的程序樣本的數(shù)量與所有程序樣本的總量的比值,或者是該種行為
值;行為樣本的權(quán)重為該種行為樣本的逆文本頻率指數(shù),行為樣本的逆文本 頻率指數(shù)等于該種行為樣本的出現(xiàn)頻率的倒數(shù)的對數(shù);所述判斷行為樣本的 權(quán)重是否落入預(yù)設(shè)的過濾闊值范圍的步驟具體為如果所述行為樣本的逆文 本頻率指數(shù)小于預(yù)設(shè)的過濾閾值上限,就判定為落入所述預(yù)設(shè)的過濾閾值范 圍。在該優(yōu)選方案中,根據(jù)逆文本頻率指數(shù)判斷某個(gè)行為是否屬于需要過濾 掉的非特征行為,在統(tǒng)計(jì)學(xué)領(lǐng)域,逆文本頻率指數(shù)是公認(rèn)的量度相關(guān)性、價(jià) 值的一種重要參數(shù)。通常,逆文本頻率指數(shù)過小的行為通常屬于不具有分類 或分析意義的非特征行為,因此,本優(yōu)選方案根據(jù)預(yù)設(shè)的過濾閾值上限過濾 掉這些非特征行為。該優(yōu)選方案采用逆文本頻率指數(shù)來識(shí)別和過濾掉"非特 征行為",效果更好,過濾結(jié)果更可靠。
優(yōu)選地,所述行為樣本庫還包括所有程序樣本的總量、所有行為樣本的 總量;所述方法還包括更新所述行為樣本庫,所述更新包括若步驟S2中所述行為樣本庫不存在與所述程序行為相同的行為樣本,則在步驟S2之后,將 所述程序行為作為新的行為樣本添加到所述行為樣本庫中,更新所述行為樣 本庫的程序樣本的總量、行為樣本的總量并重新計(jì)算每一種行為樣本的權(quán)重。 在該優(yōu)選方案中,根據(jù)當(dāng)前的處理情況對行為樣本進(jìn)行及時(shí)的更新,使得行 為樣本庫包含的內(nèi)容更廣、更全面以及更準(zhǔn)確,從而進(jìn)一步提高了過濾的準(zhǔn) 確性。
優(yōu)選地,所述更新還包括若步驟S2中所述行為樣本庫存在與所述程序 行為相同的行為樣本,則在步驟S2之后,更新所述行為樣本庫的程序樣本的 總量、行為樣本的總量并重新計(jì)算每一種行為樣本的權(quán)重。同樣地,在該優(yōu) 選方案中,根據(jù)當(dāng)前的處理情況對行為樣本進(jìn)行及時(shí)的更新,使得行為樣本 庫包含的內(nèi)容更廣、更全面以及更準(zhǔn)確,從而進(jìn)一步提高了過濾的準(zhǔn)確性。
圖l是本發(fā)明一個(gè)實(shí)施例中構(gòu)造行為樣本庫的流程圖2是應(yīng)用圖1所示的行為樣本庫對程序的行為進(jìn)行過濾的流程圖3是本發(fā)明另一個(gè)實(shí)施例中構(gòu)造行為樣本庫的流程圖4是應(yīng)用圖3所示的行為樣本庫對程序的行為進(jìn)行過濾的流程圖。
具體實(shí)施例方式
本發(fā)明涉及監(jiān)控或者分析程序的行為方法,尤其是涉及在監(jiān)控或者分析 程序的行為之前過濾掉程序的非特征行為的方法。實(shí)施本發(fā)明,能減少非特 征行為對監(jiān)控或者分析的干擾,降低計(jì)算機(jī)的處理量,提高監(jiān)控和分析的準(zhǔn) 確度。
10為此,首先構(gòu)造行為樣本庫,所述行為樣本庫包括從若干程序樣本收集 的行為樣本、每一種行為樣本的基于該種行為樣本的出現(xiàn)頻率計(jì)算出來的權(quán) 重。其中,行為樣本的權(quán)重用來表示這種行為的價(jià)值、相關(guān)性或者重要性。 權(quán)重可以是但不限于出現(xiàn)頻率、根據(jù)出現(xiàn)頻率估計(jì)的出現(xiàn)概率,或者逆文本 頻率指數(shù)。進(jìn)一步地,行為樣本的出現(xiàn)頻率可以是出現(xiàn)該種行為樣本的程序 樣本的數(shù)量與所有程序樣本的總量的比值。例如,假如構(gòu)造行為樣本庫的過
程中,收集了 100個(gè)程序樣本的行為樣本,如果有30個(gè)程序樣本出現(xiàn)了行為 樣本A,那么,行為樣本A的出現(xiàn)頻率為30/100=30%。替換地,-f亍為樣本的
本包含的行為樣本總量的比值,例如,在上述的例子中,假如所述100個(gè)程 序樣本總共具有9000個(gè)行為樣本,而行為樣本A的出現(xiàn)次數(shù)是2500次,那 么,行為樣本A的出現(xiàn)頻率為2500/9000 - 27.8% 。
行為樣本庫構(gòu)造好之后,可用于對程序行為進(jìn)行過濾。具體地,先獲取 待處理的程序行為,判斷所述行為樣本庫是否存在與所述程序行為相同的行 為樣本,若所述行為樣本庫不存在與所述程序行為相同的行為樣本,就保留 所述程序行為;若所述行為樣本庫存在與所述程序行為相同的行為樣本,就 判斷所述行為樣本的權(quán)重是否落入預(yù)設(shè)的過濾閾值范圍,如果落入就過濾掉 所述程序行為,否則,就保留所述程序行為。
下面結(jié)合附圖對本發(fā)明進(jìn)行更詳細(xì)的闡述。
實(shí)施例一
圖1是本發(fā)明一個(gè)實(shí)施例中構(gòu)造行為樣本庫的流程圖,圖2是應(yīng)用圖1 所示的行為樣本庫對程序的行為進(jìn)行過濾的流程圖。
如圖1所示,開始步驟S100之后,在步驟S102中,收集大量的程序樣 本的行為,得到大量的行為樣本,并記錄所收集到的行為樣本的總量D。根據(jù)統(tǒng)計(jì)學(xué)原理,樣本的規(guī)模越大,得到的統(tǒng)計(jì)結(jié)果越接近真實(shí)值。因此,在 構(gòu)造行為樣本庫的過程中,優(yōu)選收集盡可能多的程序樣本的行為樣本。本領(lǐng) 域的技術(shù)人員應(yīng)當(dāng)意識(shí)到,利用現(xiàn)有的技術(shù),可以通過設(shè)置攔截點(diǎn)等方式收 集大量程序樣本的行為,例如對文件讀寫操作、對注冊表讀寫操作等。
接著,步驟S104中,計(jì)算行為樣本的出現(xiàn)次數(shù)Dwi,其中,Dwi表示第i 種行為樣本在出現(xiàn)在所述行為樣本庫中的次數(shù),顯然,Dw實(shí)際上等于該行為
樣本庫中與第i種行為樣本相同的行為樣本的數(shù)目。
然后,步驟S106中,計(jì)算行為樣本的出現(xiàn)頻率fi,其中,fj表示第i種行 為樣本在出現(xiàn)在所述行為樣本庫中的頻率,第i中行為樣本的頻率fi等于該種 行為樣本的出現(xiàn)次數(shù)Dwi與行為樣本庫中行為樣本的總量D的比值,即 fi=Dwi/D。如上所迷,出現(xiàn)頻率fi作為行為樣本的一種表現(xiàn)方式,用于表示這 種行為樣本的相關(guān)性、重要性等。顯然,0<fKl,且fj越大表示該種行為樣 本的出現(xiàn)頻率或者出現(xiàn)概率越高。如上所述,雖然在該實(shí)施例中,將某種行
比值作為該種行為樣本的出現(xiàn)頻率,但是,也將出現(xiàn)某種行為樣本的程序樣 本的數(shù)量與所有程序樣本的總量的比值作為該種行為樣本的出現(xiàn)頻率。
計(jì)算完所有的行為樣本的出現(xiàn)頻率fi之后,保存上述的行為樣本的總量 D、各個(gè)行為樣本的出現(xiàn)次數(shù)Dwi以及出現(xiàn)頻率fi,就完成了行為樣本庫的構(gòu) 造,如步驟S108所示。
接著,如圖2所示,在實(shí)際應(yīng)用時(shí),在開始步驟S200之后,在步驟S201 中,收集或者讀取需要處理的程序行為。同樣,本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)意識(shí) 到,利用現(xiàn)有的技術(shù),可以通過設(shè)置攔截點(diǎn)等方式收集大量程序樣本的行為, 例如對文件讀寫操作、對注冊表讀寫操作等。
接著,步驟S202中,判斷所述行為樣本庫是否存在與所述程序行為相同 的行為樣本。如果不存在,就說明該程序行為是一種新的程序行為或者是出 現(xiàn)頻率較低的程序行為,不屬于非特征行為,因此,保留該程序行為,以便于后續(xù)步驟中對該程序行為進(jìn)行處理(例如監(jiān)聽、分析或者監(jiān)控),如步驟
S205所示。
反之,如果步驟S202中發(fā)現(xiàn)行為樣本庫存在與所述程序行為相同的行為 樣本,就進(jìn)一步讀取該相同的行為樣本的出現(xiàn)頻率,如步驟S203。
接著,步驟S203之后,在步驟S204中判斷該出現(xiàn)頻率是否落入預(yù)設(shè)的 過濾閾值范圍。如上所述,由于頻率越高的程序行為,就越可能屬于非特征 行為,因此,如果某個(gè)程序行為的出現(xiàn)頻率大于預(yù)設(shè)的過濾閾值下限,如步 驟S206所示,就可以將該程序行為作為非特征行為,過濾掉該程序行為。這 樣,后續(xù)的處理流程中,不再需要對該程序行為進(jìn)行分析、監(jiān)聽、監(jiān)控等, 有效地減少了后期的處理量,并減少了這種非特征行為對監(jiān)控或者分析的干 擾,提高了監(jiān)控和分析的準(zhǔn)確度。
相反,如果在步驟S204中,發(fā)現(xiàn)該該程序行為的出現(xiàn)頻率沒有落入預(yù)設(shè) 的過濾閾值范圍,也就是說,如果該出現(xiàn)頻率小于預(yù)設(shè)的過濾閾值下限,就 說明該程序行為的出現(xiàn)頻率較低,不屬于非特征行為,因此,流程進(jìn)入步驟 S205,在步驟S205中保留該程序行為,以便于后續(xù)步驟中對該程序行為進(jìn)行 處理(例如監(jiān)聽、分析或者監(jiān)控)。
步驟S205以及步驟S206結(jié)束于步驟S207,至此,整個(gè)過濾流程結(jié)束。
在這個(gè)實(shí)施例中,根據(jù)出現(xiàn)頻率判斷某個(gè)行為是否屬于需要過濾掉的非 特征行為,如果程序行為屬于非特征行為,就過濾掉該程序行為,以減輕后 續(xù)的處理量,提高后續(xù)處理的準(zhǔn)確度。這種方案簡單,計(jì)算量不大,容易實(shí) 現(xiàn)。
實(shí)施例二
圖3是本發(fā)明另一個(gè)實(shí)施例中構(gòu)造行為樣本庫的流程圖;圖4是應(yīng)用圖3 所示的行為樣本庫對程序的行為進(jìn)行過濾的流程圖。圖3所示的構(gòu)造行為樣本庫的流程與圖1所示的構(gòu)造流程大同小異。更 具體地,圖3所示的步驟S300至步驟S304與圖1所示的步驟S100至步驟 S104相同,分別是開始步驟、收集大量的行為樣本并記錄行為樣本的總量D、 計(jì)算每一種行為樣本的出現(xiàn)次數(shù)Dwi。
接著,步驟S306中,計(jì)算每一種行為樣本的逆文本頻率指數(shù)(IDF)。如 上所述,逆文本頻率指數(shù)是公認(rèn)的量度相關(guān)性、價(jià)值的一種重要參數(shù)。第i 種行為樣本的逆文本頻率指數(shù)1DF(i)等于該第i種行為樣本在該行為樣本庫
中的出現(xiàn)頻率的倒數(shù)的對數(shù),即/z^(/)二log(1)。其中,D為行為樣本庫
D術(shù)'
中的行為樣本的總量;Dwi為第i種行為在行為樣本庫中出現(xiàn)過的次數(shù)。顯然, 某種行為樣本的IDF (i)與其出現(xiàn)頻率(Dwi/D)是成反比的,具體地,如果 第i種行為樣本出現(xiàn)得很頻繁,這種行為樣本的逆文本指數(shù)IDF (i)將越小, 1DF(i)的最小值等于0。反之,如果第i種行為樣本出現(xiàn)得很少,其IDF(i) 就會(huì)越高。因此,當(dāng)ID F(i)低于某個(gè)預(yù)設(shè)的過濾閾值時(shí),可以認(rèn)為這個(gè)行為 樣本屬于非特征行為,可以被過濾掉。
構(gòu)造好行為樣本庫之后,就可以利用該行為樣本庫對程序的行為進(jìn)行識(shí) 別和判斷。具體如圖4所示。
圖4所示的步驟S400至步驟S407和圖2所示的步驟S200至步驟S207 基本相同,稍有區(qū)別的地方在于步驟S403和步驟S404。具體地,在步驟S403
而在步驟S404中,若該IDF值小于預(yù)設(shè)的過濾閾值上限,就說明該IDF值 落入預(yù)設(shè)的過濾閾值范圍,相應(yīng)地,該程序行為屬于非特征行為,可以過濾 掉(步驟S406);否則,流程從步驟S404中進(jìn)入步驟S405,即保留該程序行 為,留待后續(xù)的處理(分析、監(jiān)聽或者監(jiān)控)等。
在本實(shí)施例采用的方案中,根據(jù)逆文本頻率指數(shù)判斷某個(gè)行為是否屬于 需要過濾掉的非特征行為,在統(tǒng)計(jì)學(xué)領(lǐng)域,逆文本頻率指數(shù)是公認(rèn)的量度相
14關(guān)性、價(jià)值的一種重要參數(shù)。通常,逆文本頻率指數(shù)過小的行為通常屬于不 具有分類或分析意義的非特征行為,因此,本優(yōu)選方案根據(jù)預(yù)設(shè)的過濾閾值 上限過濾掉這些非特征行為。該優(yōu)選方案采用逆文本頻率指數(shù)來識(shí)別和過濾 掉非特征行為,效果更好,過濾結(jié)果更可靠。
上面已經(jīng)結(jié)合附圖對本發(fā)明進(jìn)行闡述。應(yīng)當(dāng)意識(shí)到,本發(fā)明不僅可以用 于過濾掉非特征行為,還可以應(yīng)用到對程序的監(jiān)控中,例如應(yīng)用到安全軟件 中。具體地,安全軟件利用現(xiàn)有的技術(shù)獲得被監(jiān)控的程序的行為后,可以利 用上述的過濾方法過濾掉其中的非特征行為,然后再按照現(xiàn)有的監(jiān)控方法對 剩余的程序行為進(jìn)行監(jiān)控。與現(xiàn)有技術(shù)相比,本發(fā)明提供的這種監(jiān)控程序的 行為的方法在監(jiān)控或者分析程序的行為之前,根據(jù)行為樣本庫內(nèi)的行為樣本、 預(yù)設(shè)的過濾閾值范圍對程序的行為進(jìn)行比較,過濾掉非特征行為,從而以減 少非特征行為對監(jiān)控或者分析的干擾,降低了計(jì)算機(jī)的處理量,提高了監(jiān)控 和分析的準(zhǔn)確度。
作為對上述各種實(shí)施例的一種改進(jìn),還可以定期地或者實(shí)時(shí)地更新行為 樣本庫。為了更好地更新行為樣本庫,所述行為樣本庫應(yīng)當(dāng)存儲(chǔ)著程序樣本
的總量、行為樣本的總量D等信息。在實(shí)施時(shí),例如,如果在圖2所示的步 驟S202中發(fā)現(xiàn)行為樣本庫不存在與所述程序行為相同的行為樣本,那么,可 以在流程結(jié)束之后將所述程序行為作為新的行為樣本添加到所述行為樣本庫 中,更新程序樣本的總量、所述行為樣本的總量D等信息,并重新計(jì)算每一 種行為樣本的出現(xiàn)頻率。再例如,如果在圖4所示的步驟S402中發(fā)現(xiàn)行為樣 本庫不存在與所述程序行為相同的行為樣本,那么,可以在流程結(jié)束之后將 所述程序行為作為新的行為樣本添加到所述行為樣本庫中,更新所述行為樣 本的總量D并重新計(jì)算每一種行為樣本的逆文本頻率指數(shù)IDF。這樣,通過 對行為樣本進(jìn)行及時(shí)的更新,使得行為樣本庫包含的內(nèi)容更廣、更全面以及更準(zhǔn)確,從而進(jìn)一步提高了過濾的準(zhǔn)確性。
類似地,如果圖2所示的步驟S202中發(fā)現(xiàn)行為樣本庫存在與所述程序行 為相同的行為樣本,那么,在流程結(jié)束之后,可以更新所述行為樣本的總量 D以及所述相同的行為樣本的出現(xiàn)頻率,并重新計(jì)算每一種行為樣本的出現(xiàn) 頻率。同樣地,如果圖4所示的步驟S402中發(fā)現(xiàn)行為樣本庫存在與所述程序 行為相同的行為樣本,那么,在流程結(jié)束之后,可以更新所述行為樣本的總 量D以及所述相同的行為樣本的逆文本頻率指數(shù)IDF。在該優(yōu)選方案中,根 據(jù)當(dāng)前的處理情況對行為樣本進(jìn)行及時(shí)的更新,使得行為樣本庫包含的內(nèi)容 更廣、更全面以及更準(zhǔn)確,從而進(jìn)一步提高了過濾的準(zhǔn)確性。
以上所述的本發(fā)明實(shí)施方式,并不構(gòu)成對本發(fā)明保護(hù)范圍的限定。任何 在本發(fā)明的精神和原則之內(nèi)所作的修改、等同替換和改進(jìn)等,均應(yīng)包含在本 發(fā)明的權(quán)利要求保護(hù)范圍之內(nèi)。
權(quán)利要求
1、一種過濾程序的行為的方法,其特征在于,包括以下步驟步驟S1、構(gòu)造行為樣本庫,所述行為樣本庫包括從若干程序樣本收集的行為樣本、每一種行為樣本的基于該種行為樣本的出現(xiàn)頻率計(jì)算出來的權(quán)重;步驟S2、獲取待處理的程序行為,判斷所述行為樣本庫是否存在與所述程序行為相同的行為樣本,若所述行為樣本庫不存在與所述程序行為相同的行為樣本,就保留所述程序行為;若所述行為樣本庫存在與所述程序行為相同的行為樣本,就判斷所述行為樣本的權(quán)重是否落入預(yù)設(shè)的過濾閾值范圍,如果落入就過濾掉所述程序行為,否則,就保留所述程序行為。
2、 根據(jù)權(quán)利要求l所述的過濾程序的行為的方法,其特征在于在所述行為樣本庫中,每一種行為樣本的出現(xiàn)頻率是出現(xiàn)該種行為樣本 的程序樣本的數(shù)量與所有程序樣本的總量的比值,或者是該種行為樣本在所 有程序樣本中的出現(xiàn)次數(shù)與所有程序樣本包含的行為樣本總量的比值;行為 樣本的權(quán)重為該種行為樣本的出現(xiàn)頻率;所述判斷行為樣本的權(quán)重是否落入預(yù)設(shè)的過濾閣值范圍的步驟具體為 如果所述行為樣本的出現(xiàn)頻率大于預(yù)設(shè)的過濾閾值下限,就判定為落入所述 預(yù)設(shè)的過濾閾值范圍。
3、 根據(jù)權(quán)利要求l所述的過濾程序的行為的方法,其特征在于:在所述行為樣本庫中,每一種行為樣本的出現(xiàn)頻率是出現(xiàn)該種行為樣本 的程序樣本的數(shù)量與所有程序樣本的總量的比值,或者是該種行為樣本在所 有程序樣本中的出現(xiàn)次數(shù)與所有程序樣本包含的行為樣本總量的比值;行為 樣本的權(quán)重為該種行為樣本的逆文本頻率指數(shù),行為樣本的逆文本頻率指數(shù)等于該種行為樣本的出現(xiàn)頻率的倒數(shù)的對數(shù);所述判斷行為樣本的權(quán)重是否落入預(yù)設(shè)的過濾閾值范圍的步驟具體為 如果所述行為樣本的逆文本頻率指數(shù)小于預(yù)設(shè)的過濾閾值上限,就判定為落入所述預(yù)設(shè)的過濾閾值范圍。
4、 根據(jù)權(quán)利要求1至3中任意一項(xiàng)所述的過濾程序的行為的方法,其特 征在于所述行為樣本庫還包括所有程序樣本的總量、所有行為樣本的總量;所述方法還包括更新所述行為樣本庫,所述更新行為樣本庫包括若步 驟S2中所述行為樣本庫不存在與所述程序行為相同的行為樣本,則在步驟 S2之后,將所述程序行為作為新的行為樣本添加到所述行為樣本庫中,更新 所述行為樣本庫的程序樣本的總量、行為樣本的總量并重新計(jì)算每一種行為 樣本的權(quán)重。
5、 根據(jù)權(quán)利要求4所述的過濾程序的行為的方法,其特征在于,所述更 新行為樣本庫還包括若步驟S2中所述行為樣本庫存在與所述程序行為相同 的行為樣本,則在步驟S2之后,更新所述行為樣本庫的程序樣本的總量、行 為樣本的總量并重新計(jì)算每一種行為樣本的權(quán)重。
6、 一種監(jiān)控程序的行為的方法,包括步驟S0:收集纟皮監(jiān)控的程序的 程序行為;步驟S4:分析和監(jiān)控所述程序行為;其特征在于,在所述步驟S0 和步驟S4之間,還包括以下步驟步驟S1、構(gòu)造行為樣本庫,所述行為樣本庫包括從若干程序樣本收集的 行為樣本、每一種行為樣本的基于該種行為樣本的出現(xiàn)頻率計(jì)算出來的權(quán)重;步驟S2、獲取所述被監(jiān)控的程序的程序行為,判斷所述行為樣本庫是否 存在與所述程序行為相同的行為樣本,若所述行為樣本庫不存在與所述程序 行為相同的行為樣本,就保留所述程序行為;若所述行為樣本庫存在與所述 程序行為相同的行為樣本,就判斷所述行為樣本的權(quán)重是否落入預(yù)設(shè)的過濾 閾值范圍,如果落入就過濾掉所述程序行為,否則,就保留所述程序行為。
7、 根據(jù)權(quán)利要求6所述的監(jiān)控程序的行為的方法,其特征在于在所述行為樣本庫中,每一種行為樣本的出現(xiàn)頻率是出現(xiàn)該種行為樣本 的程序樣本的數(shù)量與所有程序樣本的總量的比值,或者是該種行為樣本在所有程序樣本中的出現(xiàn)次數(shù)與所有程序樣本包含的行為樣本總量的比值;行為 樣本的權(quán)重為該種行為樣本的出現(xiàn)頻率;所述判斷行為樣本的權(quán)重是否落入預(yù)設(shè)的過濾閾值范圍的步驟具體為 如果所述行為樣本的出現(xiàn)頻率大于預(yù)設(shè)的過濾閾值下限,就判定為落入所述 預(yù)設(shè)的過濾閾值范圍。
8、 根據(jù)權(quán)利要求6所述的監(jiān)控程序的行為的方法,其特征在于在所述行為樣本庫中,每一種行為樣本的出現(xiàn)頻率是出現(xiàn)該種行為樣本 的程序樣本的數(shù)量與所有程序樣本的總量的比值,或者是該種行為樣本在所 有程序樣本中的出現(xiàn)次數(shù)與所有程序樣本包含的行為樣本總量的比值;行為 樣本的權(quán)重為該種行為樣本的逆文本頻率指數(shù),行為樣本的逆文本頻率指數(shù) 等于該種行為樣本的出現(xiàn)頻率的倒數(shù)的對數(shù);所述判斷行為樣本的權(quán)重是否落入預(yù)設(shè)的過濾閾值范圍的步驟具體為 如果所述行為樣本的逆文本頻率指數(shù)小于預(yù)設(shè)的過濾閾值上限,就判定為落 入所述預(yù)設(shè)的過濾閾值范圍。
9、 才艮據(jù)權(quán)利要求6至8中任意一項(xiàng)所述的監(jiān)控程序的行為的方法,其特 征在于所述行為樣本庫還包括所有程序樣本的總量、所有行為樣本的總量;所述方法還包括更新所述行為樣本庫,所述更新包括若步驟S2中所述 行為樣本庫不存在與所述程序行為相同的行為樣本,則在步驟S2之后,將所 述程序行為作為新的行為樣本添加到所述行為樣本庫中,更新所述行為樣本 庫的程序樣本的總量、行為樣本的總量并重新計(jì)算每一種行為樣本的權(quán)重。
10、 根據(jù)權(quán)利要求9所述的監(jiān)控程序的行為的方法,其特征在于,所述 更新還包括若步驟S2中所述行為樣本庫存在與所述程序行為相同的行為樣 本,則在步驟S2之后,更新所述行為樣本庫的程序樣本的總量、行為樣本的 總量并重新計(jì)算每一種行為樣本的權(quán)重。
全文摘要
本發(fā)明涉及過濾以及監(jiān)控程序的行為的方法,所述過濾程序的行為的方法包括以下步驟構(gòu)造行為樣本庫,該行為樣本庫包括從若干程序樣本收集的行為樣本、每一種行為樣本的基于該種行為樣本的出現(xiàn)頻率計(jì)算出來的權(quán)重,所述權(quán)重可以是逆文本頻率指數(shù)、出現(xiàn)概率等;獲取待處理的程序行為,判斷行為樣本庫是否存在與該程序行為相同的行為樣本,若行為樣本庫不存在與該程序行為相同的行為樣本,就保留該程序行為;若行為樣本庫存在與該程序行為相同的行為樣本,就判斷該行為樣本的權(quán)重是否落入預(yù)設(shè)的過濾閾值范圍,如果落入就過濾掉該程序行為,否則,就保留該程序行為。本發(fā)明能減少非特征行為對監(jiān)控或者分析的干擾,降低處理量,提高準(zhǔn)確度。
文檔編號(hào)G06F21/22GK101645125SQ20081003000
公開日2010年2月10日 申請日期2008年8月5日 優(yōu)先權(quán)日2008年8月5日
發(fā)明者黃聲聲 申請人:珠海金山軟件股份有限公司