本申請(qǐng)涉及機(jī)器學(xué)習(xí),特別是涉及一種流量分類方法、裝置、計(jì)算機(jī)設(shè)備、可讀存儲(chǔ)介質(zhì)和程序產(chǎn)品。
背景技術(shù):
1、加密流量分類系統(tǒng)為網(wǎng)絡(luò)管理與服務(wù)優(yōu)化提供必要的保障信息,可以識(shí)別出關(guān)鍵業(yè)務(wù)應(yīng)用(如視頻會(huì)議、在線辦公等)和非關(guān)鍵業(yè)務(wù)應(yīng)用(如文件下載、社交媒體等),從而為關(guān)鍵業(yè)務(wù)應(yīng)用提供優(yōu)先的網(wǎng)絡(luò)資源分配和保障。
2、相關(guān)技術(shù)中,流量分類通常采用元數(shù)據(jù)、統(tǒng)計(jì)特征、域名系統(tǒng)(domain?namesystem,dns)查詢、安全套接字層/傳輸層安全(secure?sockets?layer/transport?layersecurity,ssl/tls)指紋以及主流加密流量分類方法等方法。而且這些流量分類的方法大多使用機(jī)器學(xué)習(xí)方法進(jìn)行識(shí)別分類。但是,傳統(tǒng)機(jī)器學(xué)習(xí)算法特征工程復(fù)雜且模型泛化能力有限,容易過(guò)擬合訓(xùn)練數(shù)據(jù),訓(xùn)練樣本的分布不均衡會(huì)導(dǎo)致分類準(zhǔn)確性降低。
技術(shù)實(shí)現(xiàn)思路
1、基于此,有必要針對(duì)上述技術(shù)問(wèn)題,提供一種能夠提高流量分類的準(zhǔn)確率的流量分類方法、裝置、計(jì)算機(jī)設(shè)備、可讀存儲(chǔ)介質(zhì)和程序產(chǎn)品。
2、第一方面,本申請(qǐng)?zhí)峁┝艘环N流量分類方法,包括:
3、提取待檢測(cè)傳輸流的時(shí)序特征;
4、根據(jù)預(yù)設(shè)分類算法和所述待檢測(cè)傳輸流的時(shí)序特征,在預(yù)設(shè)索引層中搜索目標(biāo)區(qū)域;基于所述目標(biāo)區(qū)域中的樣本傳輸流的類別,確定所述待檢測(cè)傳輸流的類別。
5、在其中一個(gè)實(shí)施例中,所述預(yù)設(shè)索引層包括n層索引層,所述方法還包括:
6、將樣本流量數(shù)據(jù)包按照預(yù)設(shè)標(biāo)簽進(jìn)行分類,得到多條樣本傳輸流;
7、提取每條樣本數(shù)據(jù)流的時(shí)序特征;
8、基于預(yù)設(shè)密度聚類算法和所述時(shí)序特征,將所述多條樣本傳輸流進(jìn)行聚類,得到至少一個(gè)第一區(qū)域,基于所述至少一個(gè)第一區(qū)域確定第一層索引層;
9、針對(duì)于第i層,基于所述預(yù)設(shè)密度聚類算法,分別對(duì)第i-1層索引層中的每個(gè)區(qū)域包含的樣本傳輸流進(jìn)行聚類,得到各區(qū)域分別對(duì)應(yīng)的至少一個(gè)子區(qū)域,基于所述至少一個(gè)子區(qū)域確定第i層索引層,1<i≤n,i為正整數(shù);
10、將所述第一層索引層和多個(gè)第i層索引層確定為所述預(yù)設(shè)索引層。
11、在其中一個(gè)實(shí)施例中,每層索引層中包括至少一個(gè)索引鍵值,每個(gè)索引鍵值為所在區(qū)域的中心點(diǎn)。
12、在其中一個(gè)實(shí)施例中,所述方法還包括:
13、當(dāng)每個(gè)子區(qū)域中的所述樣本傳輸流的數(shù)量小于或等于所在索引層的索引鍵值的數(shù)量,則將所述索引層確定為第n層索引層。
14、在其中一個(gè)實(shí)施例中,所述根據(jù)預(yù)設(shè)分類算法和所述待檢測(cè)傳輸流的時(shí)序特征,在預(yù)設(shè)索引層中搜索目標(biāo)區(qū)域,包括:
15、基于所述待檢測(cè)傳輸流的時(shí)序特征與所述第一層索引層包含的各索引鍵值進(jìn)行最近鄰搜索處理,得到多個(gè)第一索引值;將滿足預(yù)設(shè)索引條件的第一索引值對(duì)應(yīng)的區(qū)域,確定為第一待索引區(qū)域;
16、在第一待索引區(qū)域包含的多個(gè)子區(qū)域中,針對(duì)第i層索引層,在第i-1層的索引層的待索引區(qū)域中,基于所述待檢測(cè)傳輸流的時(shí)序特征在所述待索引區(qū)域中的子區(qū)域進(jìn)行最近鄰搜索處理,得到多個(gè)索引值,將滿足預(yù)設(shè)索引條件的索引值對(duì)應(yīng)的區(qū)域,確定為第二待索引區(qū)域;
17、當(dāng)i=n時(shí),將所述第二待索引區(qū)域確定為目標(biāo)區(qū)域。
18、在其中一個(gè)實(shí)施例中,所述基于所述目標(biāo)區(qū)域中的樣本傳輸流的類別,確定所述待檢測(cè)傳輸流的類別,包括:
19、確定所述目標(biāo)區(qū)域中樣本傳輸流的類別的數(shù)量;
20、選取最多數(shù)量的所述樣本傳輸流的類別,將所述最多數(shù)量的所述樣本傳輸流的類別確定為所述待檢測(cè)傳輸流的類別。
21、在其中一個(gè)實(shí)施例中,所述預(yù)設(shè)標(biāo)簽包括五元組,所述五元組包括源地址、源端口、目的地址、目的端口以及協(xié)議類型。
22、第二方面,本申請(qǐng)還提供了一種流量分類裝置,包括:
23、特征提取模塊,用于提取待檢測(cè)傳輸流的時(shí)序特征;
24、分類模塊,用于根據(jù)預(yù)設(shè)分類算法和所述待檢測(cè)傳輸流的時(shí)序特征,在預(yù)設(shè)索引層中搜索目標(biāo)區(qū)域;基于所述目標(biāo)區(qū)域中的樣本傳輸流的類別,確定所述待檢測(cè)傳輸流的類別。
25、第三方面,本申請(qǐng)還提供了一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)以下步驟:
26、提取待檢測(cè)傳輸流的時(shí)序特征;
27、根據(jù)預(yù)設(shè)分類算法和所述待檢測(cè)傳輸流的時(shí)序特征,在預(yù)設(shè)索引層中搜索目標(biāo)區(qū)域;基于所述目標(biāo)區(qū)域中的樣本傳輸流的類別,確定所述待檢測(cè)傳輸流的類別。
28、第四方面,本申請(qǐng)還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)以下步驟:
29、提取待檢測(cè)傳輸流的時(shí)序特征;
30、根據(jù)預(yù)設(shè)分類算法和所述待檢測(cè)傳輸流的時(shí)序特征,在預(yù)設(shè)索引層中搜索目標(biāo)區(qū)域;基于所述目標(biāo)區(qū)域中的樣本傳輸流的類別,確定所述待檢測(cè)傳輸流的類別。
31、第五方面,本申請(qǐng)還提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)以下步驟:
32、提取待檢測(cè)傳輸流的時(shí)序特征;
33、根據(jù)預(yù)設(shè)分類算法和所述待檢測(cè)傳輸流的時(shí)序特征,在預(yù)設(shè)索引層中搜索目標(biāo)區(qū)域;基于所述目標(biāo)區(qū)域中的樣本傳輸流的類別,確定所述待檢測(cè)傳輸流的類別。
34、上述流量分類方法、裝置、計(jì)算機(jī)設(shè)備、可讀存儲(chǔ)介質(zhì)和程序產(chǎn)品,通過(guò)提取待檢測(cè)傳輸流的時(shí)序特征,根據(jù)預(yù)設(shè)分類算法,使用時(shí)序特征在預(yù)設(shè)索引層中搜索目標(biāo)區(qū)域,根據(jù)目標(biāo)區(qū)域中的樣本傳輸流的類別,確定待檢測(cè)傳輸流的類別。采用時(shí)序特征在預(yù)設(shè)索引層中進(jìn)行搜索,可以大幅度的減少數(shù)據(jù)計(jì)算的次數(shù),而且提高對(duì)待檢測(cè)傳輸流類別檢測(cè)的準(zhǔn)確率和速率。
1.一種流量分類方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述預(yù)設(shè)索引層包括n層索引層,所述方法還包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,每層索引層中包括至少一個(gè)索引鍵值,每個(gè)索引鍵值為所在區(qū)域的中心點(diǎn)。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述方法還包括:
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)預(yù)設(shè)分類算法和所述待檢測(cè)傳輸流的時(shí)序特征,在預(yù)設(shè)索引層中搜索目標(biāo)區(qū)域,包括:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述目標(biāo)區(qū)域中的樣本傳輸流的類別,確定所述待檢測(cè)傳輸流的類別,包括:
7.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述預(yù)設(shè)標(biāo)簽包括五元組,所述五元組包括源地址、源端口、目的地址、目的端口以及協(xié)議類型。
8.一種流量分類裝置,其特征在于,所述裝置包括:
9.一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任一項(xiàng)所述的方法的步驟。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任一項(xiàng)所述的方法的步驟。
11.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任一項(xiàng)所述的方法的步驟。