應(yīng)用程序動態(tài)行為的特征向量的生成方法及裝置制造方法
【專利摘要】一種應(yīng)用程序動態(tài)行為的特征向量的生成方法,包括:獲取多個應(yīng)用程序的動態(tài)行為記錄數(shù)據(jù),根據(jù)該動態(tài)行為記錄數(shù)據(jù)獲取該應(yīng)用程序的動態(tài)行為特征,并為該動態(tài)行為特征生成對應(yīng)的原始特征向量;根據(jù)該原始特征向量,建立用于預(yù)測該應(yīng)用程序的動態(tài)行為特征的預(yù)測模型,求解該預(yù)測模型得到特征向量變換矩陣;根據(jù)該特征向量變換矩陣以及該原始特征向量獲得該動態(tài)行為特征的目標(biāo)特征向量,并輸出。此外,本發(fā)明還提供一種應(yīng)用程序動態(tài)行為的特征向量的生成裝置。上述應(yīng)用程序動態(tài)行為的特征向量的生成方法及裝置,可減少應(yīng)用程序動態(tài)行為的特征向量的表示長度,并使得相近似的動態(tài)行為特征他們的向量表示也相近。
【專利說明】應(yīng)用程序動態(tài)行為的特征向量的生成方法及裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計算機(jī)【技術(shù)領(lǐng)域】,尤其涉及一種應(yīng)用程序動態(tài)行為的特征向量的生成 方法及裝置。
【背景技術(shù)】
[0002] 應(yīng)用程序的動態(tài)行為是指應(yīng)用程序在運行時發(fā)生的一系列行為,例如:創(chuàng)建新文 件進(jìn)程、進(jìn)程退出、創(chuàng)建本地線程、枚舉進(jìn)程、隱藏窗口創(chuàng)建進(jìn)程、創(chuàng)建可執(zhí)行文件、打開文 件等等。在惡意程序分析中,通常需要獲取程序的動態(tài)行為,并通過這些行為去判斷該程序 是否為惡意程序。隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,機(jī)器學(xué)習(xí)技術(shù)也被應(yīng)用到惡意程序分析領(lǐng)域。 為使用機(jī)器學(xué)習(xí)技術(shù)對惡意軟件進(jìn)行分析,需要將獲取的程序的動態(tài)行為特征轉(zhuǎn)換為機(jī)器 學(xué)習(xí)模型可以進(jìn)行識別和計算的向量。
[0003] 現(xiàn)有技術(shù)在處理這些動態(tài)行為特征時,會把每一個特征表示為一個很長的向量, 這個向量的維度是特征總數(shù)大小,其中只有一個維度的值是1,這個維度代表了當(dāng)前的動態(tài) 行為特征,其他維度的值是0。
[0004] 例如:假設(shè)共有V種不同特征,然后為每一個動態(tài)行為分配一個特征標(biāo)識,則"創(chuàng) 建新文件進(jìn)程",可以被表示為:
【權(quán)利要求】
1. 一種應(yīng)用程序動態(tài)行為的特征向量的生成方法,其特征在于,包括: 獲取多個應(yīng)用程序的動態(tài)行為記錄數(shù)據(jù),根據(jù)所述動態(tài)行為記錄數(shù)據(jù)獲取所述應(yīng)用程 序的動態(tài)行為特征,并為所述動態(tài)行為特征生成對應(yīng)的原始特征向量; 根據(jù)所述原始特征向量,建立用于預(yù)測所述應(yīng)用程序的動態(tài)行為特征的預(yù)測模型,求 解所述預(yù)測模型得到特征向量變換矩陣; 根據(jù)所述特征向量變換矩陣以及所述原始特征向量獲得所述動態(tài)行為特征的目標(biāo)特 征向量,并輸出。
2. 如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述動態(tài)行為記錄數(shù)據(jù)獲取所述 應(yīng)用程序的動態(tài)行為特征,并為所述動態(tài)行為特征生成對應(yīng)的原始特征向量,包括: 根據(jù)所述動態(tài)行為記錄數(shù)據(jù),獲取所述應(yīng)用程序的動態(tài)行為; 根據(jù)預(yù)置的劃分規(guī)則,對獲取的動態(tài)行為進(jìn)行劃分; 將劃分的每一組動態(tài)行為作為所述應(yīng)用程序的一種動態(tài)行為特征并為其分配一個對 應(yīng)的特征標(biāo)識; 根據(jù)預(yù)置的生成規(guī)則,為每一種動態(tài)行為特征生成一個對應(yīng)的原始特征向量。
3. 如權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述原始特征向量,建立用于預(yù)測 所述應(yīng)用程序的動態(tài)行為特征的預(yù)測模型包括: 根據(jù)所述原始特征向量建立用于預(yù)測所述應(yīng)用程序的動態(tài)行為特征的Skip-Gram模 型。
4. 如權(quán)利要求3所述的方法,其特征在于,所述求解所述預(yù)測模型得到特征向量變換 矩陣包括: 求解所述Skip-Gram模型得到特征向量變換矩陣S ; 所述Skip-Gram模型的目標(biāo)函數(shù)為: 其中,
V表示獲取到的所有所述應(yīng)用程序中所包含的所有動態(tài)行為特征的數(shù)量,N表示所述 應(yīng)用程序的數(shù)量,M^O < j < N)表示獲取到的每個所述應(yīng)用程序中所包含的動態(tài)行為特征 的數(shù)量,C表示窗口大小,Vw;表示動態(tài)行為特征Wi的原始特征向量。P(WitkIw i)表示已知 出現(xiàn)動態(tài)行為特征Wi,下一個動態(tài)行為特征是wi+k的概率。
5. 如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述原始特征向量,建立用于預(yù)測 所述應(yīng)用程序的動態(tài)行為特征的預(yù)測模型包括: 根據(jù)所述原始特征向量建立用于預(yù)測所述應(yīng)用程序的動態(tài)行為特征的Continues Bag-〇f-words 模型。
6. 如權(quán)利要求5所述的方法,其特征在于,所述求解所述預(yù)測模型得到特征向量變換 矩陣包括: 求解所述Continues Bag-〇f-words模型得到特征向量變換矩陣S ; 所述Continues Bag-〇f-words模型的目標(biāo)函數(shù)為:
V表示獲取到的所有所述應(yīng)用程序中所包含的所有動態(tài)行為特征的數(shù)量,N表 示所述應(yīng)用程序的數(shù)量,M^O < j < N)表示獲取到的每個所述應(yīng)用程序中所包 含的動態(tài)行為特征的數(shù)量,c表示窗口大小,表示動態(tài)行為特征Wi的原始特 征向量。為輸入的具有上下文關(guān)系的動態(tài)行為特征的原始特征向量Vm,;的加 和:
表示已知出現(xiàn)特征 ?ν。,· · ·,Wh, wi+1, · · ·,wi+c,中間是特征 Wi 的概率。
7. 如權(quán)利要求4或6所述的方法,其特征在于,所述根據(jù)所述特征向量變換矩陣以及所 述原始特征向量獲得所述動態(tài)行為特征的目標(biāo)特征向量,包括: 根據(jù)Vw以及S計算Vw S作為所述動態(tài)行為特征的目標(biāo)特征向量。 Wj Wi
8. -種應(yīng)用程序動態(tài)行為的特征向量的生成裝置,其特征在于,包括: 獲取模塊,用于獲取多個應(yīng)用程序的動態(tài)行為記錄數(shù)據(jù),根據(jù)所述動態(tài)行為記錄數(shù)據(jù) 獲取所述應(yīng)用程序的動態(tài)行為特征; 生成模塊,用于為所述獲取模塊獲取的所述動態(tài)行為特征生成對應(yīng)的原始特征向量; 建模模塊,用于根據(jù)所述原始特征向量,建立用于預(yù)測所述應(yīng)用程序的動態(tài)行為特征 的預(yù)測模型; 運算模塊,用于求解所述建模模塊建立的所述預(yù)測模型得到特征向量變換矩陣; 所述運算模塊,還用于根據(jù)所述特征向量變換矩陣以及所述原始特征向量獲得所述動 態(tài)行為特征的目標(biāo)特征向量; 輸出模塊,用于輸出所述目標(biāo)特征向量。
9. 如權(quán)利要求8所述的裝置,其特征在于,所述獲取模塊還用于根據(jù)所述動態(tài)行為記 錄數(shù)據(jù),獲取所述應(yīng)用程序的動態(tài)行為; 所述生成模塊,包括: 劃分單元,用于根據(jù)預(yù)置的劃分規(guī)則,對獲取的動態(tài)行為進(jìn)行劃分; 分配單元,用于將劃分的每一組動態(tài)行為作為所述應(yīng)用程序的一種動態(tài)行為特征并為 其分配一個對應(yīng)的特征標(biāo)識; 生成單元,用于根據(jù)預(yù)置的生成規(guī)則,為每一種動態(tài)行為特征生成一個對應(yīng)的原始特 征向量。
10. 如權(quán)利要求9所述的裝置,其特征在于,所述建模模塊包括: 第一建模單元,用于根據(jù)所述原始特征向量建立用于預(yù)測所述應(yīng)用程序的動態(tài)行為特 征的Skip-Gram模型。
11. 如權(quán)利要求10所述的裝置,其特征在于,所述運算模塊還用于求解所述Skip-Gram 模型得到特征向量變換矩陣S ; 所述Skip-Gram模型的目標(biāo)函數(shù)為:
V表示獲取到的所有所述應(yīng)用程序中所包含的所有動態(tài)行為特征的數(shù)量,N表示所述 應(yīng)用程序的數(shù)量,M^O < j < N)表示獲取到的每個所述應(yīng)用程序中所包含的動態(tài)行為特征 的數(shù)量,C表示窗口大小,表示動態(tài)行為特征Wi的原始特征向量。P(WitkIwi)表示已知 出現(xiàn)動態(tài)行為特征Wi,下一個動態(tài)行為特征是wi+k的概率。
12. 如權(quán)利要求8所述的裝置,其特征在于,所述建模模塊還包括: 第二建模單元,用于根據(jù)所述原始特征向量建立用于預(yù)測所述應(yīng)用程序的動態(tài)行為特 征的 Continues Bag-〇f-words 模型。
13. 如權(quán)利要求12所述的裝置,其特征在于,所述運算模塊還用于求解所述Continues Bag-of-words模型得到特征向量變換矩陣S ; 所述Continues Bag-〇f-words模型的目標(biāo)函數(shù)為:
V表示獲取到的所有所述應(yīng)用程序中所包含的所有動態(tài)行為特征的數(shù)量,N表 示所述應(yīng)用程序的數(shù)量,M^O < j < N)表示獲取到的每個所述應(yīng)用程序中所包 含的動態(tài)行為特征的數(shù)量,C表示窗口大小,vWi表示動態(tài)行為特征Wi的原始特 征向量。為輸入的具有上下文關(guān)系的動態(tài)行為特征的原始特征向量vw;的加 和:
表示已知出現(xiàn)特征 Wi-C, · · ·,Wh,wi+1,· · ·,wi+c,中間是特征 Wi 的概率。
14.如權(quán)利要求11或13所述的裝置,其特征在于,所述運算模塊還用于根據(jù)Vw,.以及 S計算S作為所述動態(tài)行為特征的目標(biāo)特征向量。
【文檔編號】G06F21/56GK104392174SQ201410570820
【公開日】2015年3月4日 申請日期:2014年10月23日 優(yōu)先權(quán)日:2014年10月23日
【發(fā)明者】楊宜, 于濤, 李璐鑫 申請人:騰訊科技(深圳)有限公司