專利名稱:一種識別p2p數(shù)據(jù)流的方法、裝置和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域,尤其涉及一種識別P2P數(shù)據(jù)流的方法、裝置和 系統(tǒng)。
背景技術(shù):
P2P (Peer-to-Peer,點對點)技術(shù)自出現(xiàn)以來,便得到了快速的普及和發(fā) 展,尤其是應(yīng)用最為廣泛的P2P文件共享技術(shù)。傳統(tǒng)意義上人們下載文件是 從服務(wù)器上下載,而P2P則是多個終端用戶各下載一部分,然后互相下載共 享。P2P以其獨特的技術(shù)優(yōu)勢在這幾年內(nèi)迅速發(fā)展,其應(yīng)用不斷增長。據(jù)統(tǒng)計, P2P應(yīng)用已占ISP業(yè)務(wù)總量的60°/。~80%,躍然成為網(wǎng)絡(luò)帶寬最大的消費者。
但是,P2P以其獨特的技術(shù)優(yōu)勢占據(jù)了大部分帶寬,只把僅有的部分帶寬 留給非P2P用戶,于是致使其他業(yè)務(wù)難以展開,而隨著P2P技術(shù)的不斷發(fā)展 和不斷完善,將會有越來越多的人選擇直接在線觀看節(jié)目而沒有足夠的耐心 等待數(shù)十分鐘甚至數(shù)小時的下載時間再觀看自己喜歡的節(jié)目。因此,為了確 保其他正常網(wǎng)絡(luò)用戶的服務(wù),同時為了更好地發(fā)揮P2P技術(shù)的優(yōu)勢,對P2P 數(shù)據(jù)流進行分類、識別就成為目前業(yè)內(nèi)研究的一個熱點。為了加強ISP對P2P 網(wǎng)絡(luò)的監(jiān)測并做出適當?shù)奶幚?,也方便研究人員更好的研究P2P技術(shù),首先 要識別P2P凄t悟流。
現(xiàn)有技術(shù)中為了達到識別P2P數(shù)據(jù)流的目的提出 一種解決方案
基于應(yīng)用層協(xié)議內(nèi)容分析的P2P數(shù)據(jù)流識別應(yīng)用層協(xié)議內(nèi)容的分析方 法是通過監(jiān)測網(wǎng)絡(luò)中的數(shù)據(jù)流,獲取該數(shù)據(jù)流中數(shù)據(jù)包的有效載荷,并將有 效載荷中的協(xié)議特征字與預(yù)先建立好的由一些已知P2P數(shù)據(jù)流的協(xié)議特征字 組成的協(xié)議特征字庫進行匹配識別,以確定這些數(shù)據(jù)流是否為某個特定的P2P 數(shù)據(jù)流。表1是一些主要P2P數(shù)據(jù)流的協(xié)議特征字。
5表l
P2P數(shù)據(jù)流類型協(xié)議特征字
BitTorrent eDonkey2000 Gnutella Fasttrack WinMx0xl3BitTorrent p rotocol 0xe319010000 0xc53fD10000 GNUT, GIV GND Get /. hash 0x270000002980 SEND, GET 0x20 0x22
基于應(yīng)用層協(xié)議內(nèi)容的分析方法是對數(shù)據(jù)流中的協(xié)議特征字進行匹配來 確定是否采取下一步的動作。但是,發(fā)明人在實現(xiàn)本發(fā)明的過程中,發(fā)現(xiàn)現(xiàn)
有技術(shù)至少存在以下缺點若P2P開發(fā)者們將P2P協(xié)議進行加密,這樣P2P 協(xié)議的數(shù)據(jù)包有效載荷將呈現(xiàn)無規(guī)律狀,將無法提煉出各種P2P協(xié)議的標識 特征,這就使得協(xié)議分析與識別變得十分困難。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明實施例的目的在于提供一種識別P2P數(shù)據(jù)流的方法、裝 置和系統(tǒng),能夠更準確和快速地識別P2P數(shù)據(jù)流。
根據(jù)本發(fā)明的一方面,提供一種識別點對點P2P數(shù)據(jù)流的方法,包括a) 獲取待測數(shù)據(jù)流的原始流量特征值并進行預(yù)處理;
b) 將所述預(yù)處理后的流量特征值與預(yù)先建立的多維支持向量機MSVM 的支持向量庫進行匹配,如果匹配成功,則識別該待測數(shù)據(jù)流為P2P數(shù)據(jù)流。
根據(jù)本發(fā)明的另一方面,還提供一種識別點對點P2P數(shù)據(jù)流的裝置,包
括
特征獲取單元,用于從待測數(shù)據(jù)流中獲取原始流量特征值;
預(yù)處理單元,用于對所述原始流量特征值進行預(yù)處理;
支持向量匹配單元,用于所述預(yù)處理后的流量特征值與預(yù)先建立的多維 支持向量機MSVM的支持向量庫進行匹配,根據(jù)匹配結(jié)果識別待測數(shù)據(jù)流是 否為P2P數(shù)據(jù)流。根據(jù)本發(fā)明的又一方面,還提供一種網(wǎng)絡(luò)系統(tǒng),包括 數(shù)據(jù)采集單元,用于采集待測數(shù)據(jù)流;
識別點對點P2P數(shù)據(jù)流的裝置,用于從待測數(shù)據(jù)流中獲取原始流量特征 值并進行預(yù)處理,將預(yù)處理后的流量特征值與預(yù)先建立的多維支持向量機 MSVM的支持向量庫進行匹配,根據(jù)匹配結(jié)果識別待測數(shù)據(jù)流是否為P2P數(shù) 據(jù)流。
由上述公開的技術(shù)方案可以看出,在本發(fā)明實施例中,利用MSVM對P2P 數(shù)據(jù)流進行識別,可以有效地提高識別準確率,另外還預(yù)先建立了支持向量 庫,在計算判決函數(shù)的值之前,首先將待測數(shù)據(jù)流的流量特征值與支持向量 庫中的支持向量進行匹配,由于支持向量庫中的支持向量都是對應(yīng)P2P數(shù)據(jù) 流,所以,如果能夠匹配成功,則可直接認定該待測數(shù)據(jù)流為P2P數(shù)據(jù)流, 對于沒有與支持向量庫匹配成功的待測數(shù)據(jù)流才去由MSVM利用判決函數(shù)判 斷是否為P2P數(shù)據(jù)流,這樣可以提高識別的效率,達到快速識別P2P數(shù)據(jù)流 的目的。
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實 施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面 描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講, 在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是本發(fā)明實施例一提供的識別P2P數(shù)據(jù)流的方法流程圖2是本發(fā)明實施例二提供的識別P2P數(shù)據(jù)流的方法流程圖3是本發(fā)明實施例三提供的識別P2P數(shù)據(jù)流的方法流程圖4是本發(fā)明實施例四提供的識別P2P數(shù)據(jù)流的方法流程圖5是本發(fā)明實施例五提供的識別P2P數(shù)據(jù)流的裝置示意圖6是本發(fā)明實施例六提供的網(wǎng)絡(luò)系統(tǒng)的示意圖。
具體實施例方式
下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行 清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而 不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作 出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
下面結(jié)合附圖對本發(fā)明實施例進行詳細描述。
SVM (Support Vector Machines,支持向量機)是20世紀90年代初由 V.Vipnik等人根據(jù)統(tǒng)計學(xué)習(xí)理論(Statistical Learning Theory, SLT)提出的一 種新的機器學(xué)習(xí)方法,在解決小樣本、非線性及高維模式識別問題中表現(xiàn)出 許多特有的優(yōu)勢,并且已經(jīng)在模式識別、函數(shù)逼近和概率密度估計等方面取 得了良好的效果。SVM從本質(zhì)上講是一種前向神經(jīng)網(wǎng)絡(luò)形式的分類器,根據(jù) 結(jié)構(gòu)風險最小化準則,在使訓(xùn)練樣本分類誤差極小化的前提下,盡量提高分 類器的泛化推廣能力。從實施的角度,訓(xùn)練SVM的核心思想等價于求解一個 線性約束的二次規(guī)劃問題,從而構(gòu)造一個超平面作為決策平面,使得特征空 間中兩類才莫式之間的距離最大,而且它能保證得到的解為全局最優(yōu)解。
SVM的是利用滿足Mercer條件的核函數(shù)代替一個非線性映射,使得輸入 空間中的樣本點能映射到一個高維的特征空間,并使得在該空間線性可分, 然后構(gòu)造一個最優(yōu)超平面來逼近理想分類效果。由于SVM自身的特點,為了 提高P2P數(shù)據(jù)流的識別準確率,本方案將對SVM進行采用多維支持向量機 (MSVM)進行P2P數(shù)據(jù)流的識別。
需要說明的是,傳統(tǒng)的SVM不適合直接用來識別P2P數(shù)據(jù)流,所以本發(fā) 明采用改進的MSVM對P2P數(shù)據(jù)流進行識別。
下面對本發(fā)明各個實施例做進一步詳細描述。
實施例一
參見圖1,本發(fā)明實施例一提供一種識別P2P數(shù)據(jù)流的方法,該方法包括如下步驟
步驟S101:獲取待測數(shù)據(jù)流的原始流量特征值;
其中,所述獲取的原始流量特征值可以包括反映數(shù)據(jù)流的時間特性的 特征值、數(shù)據(jù)流的速率、數(shù)據(jù)流的長度等。
另外,所述待測數(shù)據(jù)流可以從實際的網(wǎng)絡(luò)環(huán)境中采集,也可以從預(yù)先存 儲的數(shù)據(jù)流中讀取,或者采用其他獲取方式獲得。
步驟S102:對所述原始流量特征值進行預(yù)處理,得到機器能夠識別的預(yù) 處理后的流量特征值;
由于步驟SIOI中獲取的流量特征值為的原始流量特征值數(shù)據(jù),這些數(shù)據(jù) 中存在連續(xù)特征和離散特征,即這些特征值數(shù)據(jù)時異構(gòu)的,不能直接用于機 器識別,所以需要進行預(yù)處理,得到機器可識別的預(yù)處理后的流量特征值。
步驟S102:將所述預(yù)處理后的流量特征值與預(yù)先建立的多維支持向量機 MSVM的支持向量庫進行匹配;
本領(lǐng)域技術(shù)人員應(yīng)該能夠理解訓(xùn)練MSVM的過程就是利用已有的訓(xùn)練樣 本建立最優(yōu)超平面,以使不同類別的樣本點的距離最遠。最優(yōu)超平面對應(yīng)著 判決函數(shù)等于預(yù)先設(shè)定的標準值表示的超平面,如果待測數(shù)據(jù)流對應(yīng)的點位 于該最優(yōu)超平面上,則可以識別該數(shù)據(jù)流為P2P數(shù)據(jù)流,所以在具體判斷是 否在最優(yōu)超平面上時,可以借助相應(yīng)的判決函數(shù)的輸出結(jié)果來判斷。在最優(yōu) 超平面上的樣本點稱為支持向量,所以通過對MSVM的訓(xùn)練可以得到支持向 量并建立由支持向量組成的支持向量庫。
步驟S103:判斷所述匹配結(jié)果,如果匹配成功,則執(zhí)行步驟S104:識別 該待測數(shù)據(jù)流為P2P數(shù)據(jù)流。
通過本發(fā)明實施例,利用預(yù)先建立的支持向量庫對待測數(shù)據(jù)流進行識別, 可以更準確地識別出P2P^:據(jù)流。
實施例二本發(fā)明實施例二提供一種識別P2P數(shù)據(jù)流的方法,該方法在實施例一的
基礎(chǔ)上增加了對待測數(shù)據(jù)流與支持向量庫匹配不成功時,進一步利用MSVM 進行識別的步驟。如圖2所示,該方法包括
步驟S201:采集待測數(shù)據(jù)流;
需要說明的是,本發(fā)明實施例中待測數(shù)據(jù)流可以從實際網(wǎng)絡(luò)中采集獲得, 也可以從預(yù)先存儲的數(shù)據(jù)流中讀取獲得,或者可以采用其他的獲取方式,而 本實施例中特別地以待測數(shù)據(jù)流是采集獲得的為例進行說明,本領(lǐng)域技術(shù)人 員應(yīng)該能夠明白,步驟S201并不構(gòu)成對本發(fā)明實施例實質(zhì)內(nèi)容的限制。
步驟S202:獲取上述采集的待測數(shù)據(jù)流中的原始流量特征值;
其中,所述獲取的原始流量特征值可以包括反映數(shù)據(jù)流的時間特性的 特征值、數(shù)據(jù)流的速率、數(shù)據(jù)流的長度等。
步驟S203:對所述獲取的原始流量特征值進行預(yù)處理,得到機器能夠識 別的預(yù)處理后的流量特征值;
由于步驟S202中獲取的流量特征值為的原始流量特征值數(shù)據(jù),這些數(shù)據(jù) 中存在連續(xù)特征和離散特征,即這些特征值數(shù)據(jù)時異構(gòu)的,不能直接用于機 器識別,所以需要進行預(yù)處理,得到機器可識別的預(yù)處理后的流量特征值。
步驟S204:將上述的預(yù)處理后的流量特征值與預(yù)先建立的MSVM的支持 向量庫進行匹配,如果匹配成功,則執(zhí)行步驟S206:直接識別該待測數(shù)據(jù)流 為P2P數(shù)據(jù)流;如果匹配不成功,則扭J亍步驟S205;
步驟S205:預(yù)先訓(xùn)練完成的MSVM將所述預(yù)處理后的流量特征值輸入到 訓(xùn)練MSVM過程中形成的判決函數(shù)中,根據(jù)判決函數(shù)的輸出結(jié)果識別待測數(shù) 據(jù)流是否為P2P數(shù)據(jù)流。
其中,根據(jù)判決函數(shù)的輸出結(jié)果識別待測數(shù)據(jù)流是否為P2P數(shù)據(jù)流具體 可以實現(xiàn)為
如果判決函數(shù)的輸出結(jié)果等于預(yù)先設(shè)定的標準值,則識別該待測數(shù)據(jù)流為P2P數(shù)據(jù)流,否則識別該待測數(shù)據(jù)流為非P2P數(shù)據(jù)流。在本發(fā)明實施例中,
上述判決函數(shù)對應(yīng)的標準值可以選為l或-l。
本領(lǐng)域技術(shù)人員應(yīng)該能夠理解訓(xùn)練MSVM的過程就是利用已有的訓(xùn)練樣 本建立最優(yōu)超平面,以使不同類別的樣本點的距離最遠。最優(yōu)超平面對應(yīng)著 判決函數(shù)等于預(yù)先設(shè)定的標準值表示的超平面,如果待測數(shù)據(jù)流對應(yīng)的點位 于該最優(yōu)超平面上,則可以識別該數(shù)據(jù)流為P2P數(shù)據(jù)流,所以在具體判斷是 否在最優(yōu)超平面上時,可以借助相應(yīng)的判決函數(shù)的輸出結(jié)果來判斷。在最優(yōu) 超平面上的樣本點稱為支持向量,所以通過對MSVM的訓(xùn)練可以得到支持向 量并建立由支持向量組成的支持向量庫。
在本發(fā)明實施例中,判決函數(shù)(以下記為f(x))等于1或-1對應(yīng)經(jīng)過訓(xùn)練 完成的MSVM的最優(yōu)超平面,判決函數(shù)優(yōu)選為
/(x) = sgn(Z("J(x,,x) —
在上述判決函數(shù)中,^為樣本數(shù)據(jù),"'為拉格朗日乘子,《(x,,x)為判決函
數(shù)的核函數(shù),A為各樣本的加權(quán)系數(shù),用于對每個樣本數(shù)據(jù)賦權(quán)值,s'可以是
函數(shù),如隨樣本到達的時間變化的函數(shù)""G,");"'為^的重復(fù)因子(《"); 《為非負松弛變量。在本實施例中,核函數(shù)^",力優(yōu)選為徑向基函數(shù),即
K(XpX)=expj
2ct2
在該判決函數(shù)中對各個樣本引入了加權(quán)系數(shù),即對各個樣本進行了加權(quán) 處理,這是因為不同的樣本對判決結(jié)果的影響可能是不同的,因此對網(wǎng)絡(luò)的 數(shù)據(jù)流的流量特征進行加權(quán)處理得到的判決函數(shù)能夠更有利于P2P數(shù)據(jù)流的 準確識別。
本領(lǐng)域技術(shù)人員應(yīng)該能夠理解,MSVM的判決函數(shù)中的核函數(shù)是用來簡 化高維空間中構(gòu)造最優(yōu)超平面時引入的,如果直接求解高維空間的最優(yōu)超平 面問題和判決函數(shù)需要計算非線性函數(shù),而引入了核函數(shù)后,只需要計算該 核函數(shù)即可,從而避免特征空間維數(shù)災(zāi)難等問題的發(fā)生。本發(fā)明實施例在計算判決函數(shù)的值之前,首先將待測數(shù)據(jù)流的流量特征 值與支持向量庫中的支持向量進行匹配,由于支持向量庫中的支持向量都是 對應(yīng)P2P數(shù)據(jù)流,所以,如果能夠匹配成功,則可直接認定該待測數(shù)據(jù)流為
P2P數(shù)據(jù)流,對于沒有與支持向量庫匹配成功的待測數(shù)據(jù)流才去由MSVM利 用判決函數(shù)判斷是否為P2P數(shù)據(jù)流,即執(zhí)行MSVM的識別過程,所以對于已 知的P2P數(shù)據(jù)類型可以省去利用MSVM的識別過程,有利于節(jié)約識別過程, 而對于沒有與支持向量庫匹配成功的待測數(shù)據(jù)流,本實施例又利用MSVM判 決函數(shù)進行再次識別,從而相對于實施例二,本實施例提供的方法更有利于 P2P凄t據(jù)流的準確識別。
實施例三
本實施例中提供一種識別P2P數(shù)據(jù)流的方法,該方法與實施例二的不同 在于,在實際識別待測數(shù)據(jù)流的同時,對于支持向量庫中沒有與之匹配的情 況,MSVM還會進行自學(xué)習(xí)的過程。
具體地,如圖3所示,本實施例提供的方法包括
步驟S301:采集待測數(shù)據(jù)流;
需要說明的是,本發(fā)明實施例中待測數(shù)據(jù)流可以從實際網(wǎng)絡(luò)中采集獲得, 也可以從預(yù)先存儲的數(shù)據(jù)流中讀取獲得,或者可以采用其他的獲取方式,而 本實施例中特別地以待測數(shù)據(jù)流是采集獲得的為例進行說明,本領(lǐng)域技術(shù)人 員應(yīng)該能夠明白,步驟S301并不構(gòu)成對本發(fā)明實施例實質(zhì)內(nèi)容的限制。
步驟S302:獲取上述采集的待測數(shù)據(jù)流中的原始流量特征值;
步驟S303:對所述獲取的原始流量特征值進行預(yù)處理,得到機器能夠識 別的預(yù)處理后的流量特征值;
步驟S304:將上述的預(yù)處理后的流量特征值與預(yù)先建立的MSVM的支持 向量庫進行匹配,如果匹配成功,則執(zhí)行步驟S307:直接識別該待測數(shù)據(jù)流 為P2P數(shù)據(jù)流;如果匹配不成功,則執(zhí)行步驟S305;步驟S305:預(yù)先訓(xùn)練完成的MSVM將所述預(yù)處理后的流量特征值輸入到 訓(xùn)練MSVM過程中形成的判決函數(shù)中,根據(jù)判決函數(shù)的輸出結(jié)果識別待測數(shù) 據(jù)流是否為P2P數(shù)據(jù)流。
步驟S306:判斷所述步驟S305中對待測數(shù)據(jù)流是否識別為P2P數(shù)據(jù)流, 如果是,則執(zhí)行步驟S307,否則結(jié)束流程;
步驟S307:利用步驟S305中識別為P2P數(shù)據(jù)流的待測數(shù)據(jù)流的流量特 征值組成訓(xùn)練樣本數(shù)據(jù)對MSVM進行訓(xùn)練,并更新支持向量庫;
其中,不難看出,在步驟S305中識別為P2P數(shù)據(jù)流的待測數(shù)據(jù)流滿足條 件該待測數(shù)據(jù)流與支持向量庫匹配沒有成功,并且在步驟S305中利用判決 函數(shù)被識別為P2P數(shù)據(jù)流。這種情況經(jīng)常會發(fā)生在網(wǎng)絡(luò)中出現(xiàn)了原來沒有的 新類型的P2P數(shù)據(jù)流,而之前在訓(xùn)練MSVM時,沒有包含在訓(xùn)練樣本數(shù)據(jù)中, 當然在現(xiàn)有的支持向量庫中沒有與之對應(yīng)的支持向量。為了使該類型的P2P 數(shù)據(jù)流再次出現(xiàn)時不再需要進行計算判決函數(shù)來識別,本實施例中不僅給出 了將該待測數(shù)據(jù)流識別為P2P數(shù)據(jù)流的識別結(jié)果,而且,還將該待測數(shù)據(jù)流 組成訓(xùn)練樣本數(shù)據(jù)對MSVM進行訓(xùn)練,并更新支持向量庫。這樣在識別待測 數(shù)據(jù)流的過程中,MSVM也可以根據(jù)實際情況,將新的P2P數(shù)據(jù)流更新進支 持向量庫中,這樣在該P2P數(shù)據(jù)流在后續(xù)的時間內(nèi)再次出現(xiàn)的時候,利用該 更新后的支持向量庫就可以對該P2P數(shù)據(jù)流進行識別,上述過程可以稱為 MSVM的自學(xué)習(xí)過程。因此,通過本發(fā)明實施例,可以進一步提高對新類型 的P2P數(shù)據(jù)流檢測的效率和準確率。
實施例四
本實施例四提供一種識別P2P數(shù)據(jù)流的方法,該方法與前三個實施例的 區(qū)別在于,在利用MSVM對待測數(shù)據(jù)流識別之前,首先借助應(yīng)用層協(xié)議內(nèi)容 分析方法,對待測^t據(jù)流進行識別,只有利用應(yīng)用層協(xié)議內(nèi)容分析方法識別 該待測數(shù)據(jù)流為非P2P lt據(jù)流時才利用MSVM對待測數(shù)據(jù)流進行識別。
如圖4所示,本發(fā)明實施例中提供的識別P2P數(shù)據(jù)流的方法具體包括如下步驟
步驟S401:釆集待測數(shù)據(jù) 流;
需要說明的是,本發(fā)明實施例中待測數(shù)據(jù)流可以從實際網(wǎng)絡(luò)中采集獲得, 也可以從預(yù)先存儲的數(shù)據(jù)流中讀取獲得,或者可以釆用其他的獲取方式,而 本實施例中特別地以待測數(shù)據(jù)流是采集獲得的為例進行說明,本領(lǐng)域技術(shù)人
員應(yīng)該能夠明白,步驟S401并不構(gòu)成對本發(fā)明實施例實質(zhì)內(nèi)容的限制。
步驟S402:從待測數(shù)據(jù)流中獲取有效載荷的協(xié)議特征字;
步驟S403:將待測數(shù)據(jù)流中的協(xié)議特征字與預(yù)先建立由已知P2P數(shù)據(jù)流 中的協(xié)議特征字組成協(xié)議特征字庫進行匹配,如果匹配成功,則執(zhí)行步驟 S408:直接識別該待測數(shù)據(jù)流為P2P數(shù)據(jù)流;如果匹配不成功,則執(zhí)行步驟 S404;
,步驟S404:獲取所述待測數(shù)據(jù)流中的原始流量特征值;
步驟S405:對上述獲取的原始流量特征值進行預(yù)處理,得到機器能夠識 別的預(yù)處理后的流量特征值;
步驟S406:將上述的預(yù)處理后的流量特征值與預(yù)先建立的MSVM的支持 向量庫進行匹配,如果匹配成功,則執(zhí)行步驟S408:直接識別該待測數(shù)據(jù)流 為P2P數(shù)據(jù)流;如果匹配不成功,則執(zhí)行步驟S407;
步驟S407:預(yù)先訓(xùn)練完成的MSVM將所述預(yù)處理后的流量特征值輸入到 訓(xùn)練MSVM過程中形成的判決函數(shù)中,根據(jù)判決函數(shù)的輸出結(jié)果識別待測數(shù) 據(jù)流是否為P2P數(shù)據(jù)流;
需要說明的是,本實施例中提供的方法還可以包括
步驟S409:判斷步驟S407中是否將待測數(shù)據(jù)流識別為P2P數(shù)據(jù)流,如 果是,則執(zhí)行步驟S410。
步驟S409:利用步驟S407中識別為P2P數(shù)據(jù)流的待測數(shù)據(jù)流的流量特 征值組成訓(xùn)練樣本數(shù)據(jù)對MSVM進行訓(xùn)練,并更新支持向量庫;
14由于數(shù)據(jù)流中有效載荷的協(xié)議特征字更能準確表達該數(shù)據(jù)流的類型,通 過預(yù)先建立由已知P2P數(shù)據(jù)流的協(xié)議特征字組成的協(xié)議特征字庫,并在利用
MSVM進行識別之前,首先運用應(yīng)用層協(xié)議內(nèi)容分析方法,將待測數(shù)據(jù)流中 有效載荷的協(xié)議特征字與上述協(xié)議特征字庫進行匹配,如果匹配成功,則證 明協(xié)議特征字庫中已經(jīng)預(yù)先建立了該類型數(shù)據(jù)流的協(xié)議特征字,因此可以直 接識別該待測數(shù)據(jù)流為P2P數(shù)據(jù)流,這樣就節(jié)省了再去利用MSVM并基于流 量特征值識別的過程,而且基于協(xié)議特征字和基于流量特征值識別相比,前 者對協(xié)議特征字庫中已經(jīng)存在的類型的P2P數(shù)據(jù)流的識別的比較準確,因此, 本實施例中首先基于協(xié)議特征字進行識別,也可以進一步地提高識別正確率。
實施例五
本發(fā)明實施例五相應(yīng)提供一種識別P2P數(shù)據(jù)流的裝置,如圖5所示,該 裝置500包括
特征獲取單元501,用于從待測數(shù)據(jù)流中獲耳又原始流量特征值;
預(yù)處理單元502,用于對所述原始流量特征值進行預(yù)處理,得到機器能夠 識別的預(yù)處理后的流量特征值;
支持向量匹配單元503,用于所述預(yù)處理后的流量特征值與預(yù)先建立的多 維支持向量機MSVM的支持向量庫進行匹配,根據(jù)匹配結(jié)果識別待測數(shù)據(jù)流 是否為P2P數(shù)據(jù)流。
本發(fā)明實施例4是供識別P2P數(shù)據(jù)流的裝置還可以包括
識別單元504,用于預(yù)先訓(xùn)練完成的MSVM將所述預(yù)處理后的流量特征
值輸入到訓(xùn)練MSVM過程中形成的判決函數(shù)中,根據(jù)判決函數(shù)的輸出結(jié)果識
別待測數(shù)據(jù)流是否為P2P數(shù)據(jù)流;
其中,所述預(yù)處理后的流量特征值與預(yù)先建立的多維支持向量機MSVM 的支持向量庫匹配成功,則直接識別該待測數(shù)據(jù)流為P2P數(shù)據(jù)流,如果匹配 不成功,則所述支持向量匹配單元503觸發(fā)識別單元504工作。
另外,本實施例中的裝置500還可以包括協(xié)議特征字獲取單元505,用于從待測數(shù)據(jù)流中獲取有效載荷的協(xié)議特征
字;
協(xié)議特征字匹配單元506,用于將所述協(xié)議特征字與預(yù)先建立的由已知 P2P數(shù)據(jù)流中的協(xié)議特征字組成協(xié)議特征字庫進行匹配;
其中,如果匹配成功,則直接識別該待測數(shù)據(jù)流為P2P數(shù)據(jù)流,如果匹 配不成功,則觸發(fā)特征獲耳又單元501工作。
本發(fā)明實施例提供的裝置能夠更準確地識別P2P數(shù)據(jù)流。
實施例六
本實施例六提供一種網(wǎng)絡(luò)系統(tǒng),如圖6所示,該網(wǎng)絡(luò)系統(tǒng)600包括 數(shù)據(jù)采集單元601,用于采集待測數(shù)據(jù)流;
識別P2P數(shù)據(jù)流的裝置602,用于從待測數(shù)據(jù)流中獲取原始流量特征值并 進行預(yù)處理,將預(yù)處理后的流量特征值與預(yù)先建立的多維支持向量機MSVM 的支持向量庫進行匹配,根據(jù)匹配結(jié)果識別待測數(shù)據(jù)流是否為P2P數(shù)據(jù)流。
其中,所述識別P2P數(shù)據(jù)流的裝置602可以包括 特征獲取單元6021,用于從待測數(shù)據(jù)流中獲取原始流量特征值; 預(yù)處理單元6022,用于對所述原始流量特征值進行預(yù)處理;
支持向量匹配單元6023,用于所述預(yù)處理后的流量特征值與預(yù)先建立的 多維支持向量機MSVM的支持向量庫進行匹配,根據(jù)匹配結(jié)果識別待測數(shù)據(jù) 流是否為P2P數(shù)據(jù)流。
所述識別P2P數(shù)據(jù)流的裝置602還可以包括
識別單元6024,用于當匹配不成功時,通過預(yù)先訓(xùn)練完成的MSVM將所 述預(yù)處理后的流量特征值輸入到訓(xùn)練MSVM過程中形成的判決函數(shù)中,根據(jù) 判決函數(shù)的輸出結(jié)果識別待測數(shù)據(jù)流是否為P2P數(shù)據(jù)流。
另外,所述識別P2P數(shù)據(jù)流的裝置602還可以包括
16協(xié)議特征字獲取單元6025,用于從待測數(shù)據(jù)流中獲取有效載荷的協(xié)議特 征字;
協(xié)議特征字匹配單元6026,用于將所述協(xié)議特征字與預(yù)先建立的由已知 P2P數(shù)據(jù)流中的協(xié)議特征字組成協(xié)議特征字庫進行匹配;
其中,如果匹配成功,則直接識別該待測數(shù)據(jù)流為P2P數(shù)據(jù)流,如果匹 配不成功,則觸發(fā)特征獲取單元6021工作。
根據(jù)實際需要,對于識別P2P數(shù)據(jù)流的數(shù)據(jù)流經(jīng)常需要對其進行后續(xù)的 操作,因此本實施例提供的網(wǎng)絡(luò)系統(tǒng)中還可以包括
P2P數(shù)據(jù)流標記單元603,用于對識別為P2P數(shù)據(jù)流的數(shù)據(jù)流進行標記; 和/或
P2P數(shù)據(jù)流限制單元604,用于對識別為P2P數(shù)據(jù)流的數(shù)據(jù)流的傳輸速度 進行限制,或切斷識別為P2P數(shù)據(jù)流的數(shù)據(jù)流。
本發(fā)明實施例提供的網(wǎng)絡(luò)系統(tǒng)能夠更準確地識別P2P數(shù)據(jù)流。
以上所述僅是本發(fā)明的優(yōu)選實施方式,應(yīng)當指出,對于本技術(shù)領(lǐng)域的普
通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進和潤
飾,這些改進和潤飾也應(yīng)視為本發(fā)明的保護范圍。
權(quán)利要求
1、一種識別點對點P2P數(shù)據(jù)流的方法,包括a)獲取待測數(shù)據(jù)流的原始流量特征值并進行預(yù)處理;b)將所述預(yù)處理后的流量特征值與預(yù)先建立的多維支持向量機MSVM的支持向量庫進行匹配,如果匹配成功,則識別該待測數(shù)據(jù)流為P2P數(shù)據(jù)流。
2、 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括c) 當步驟b)中匹配不成功時,通過預(yù)先訓(xùn)練完成的MSVM將所述預(yù)處 理后的流量特征值輸入到訓(xùn)練MSVM過程中形成的判決函數(shù)中,根據(jù)判決函 數(shù)的輸出結(jié)果識別待測數(shù)據(jù)流是否為P2P數(shù)據(jù)流。
3、 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)判決函數(shù)的輸出 結(jié)果識別待測數(shù)據(jù)流是否為P2P數(shù)據(jù)流包括如果所述判決函數(shù)的輸出結(jié)果等于預(yù)先設(shè)定的標準值,則識別該待測數(shù) 據(jù)流為P2P數(shù)據(jù)流,否則,則識別該待測數(shù)據(jù)流為非P2P數(shù)據(jù)流。
4、 根據(jù)權(quán)利要求1至3中任意一項所述的方法,其特征在于,所述方法 還包括在所述步驟a)之前,從所述待測數(shù)據(jù)流中獲取有效載荷的協(xié)議特征 字,將所述協(xié)議特征字與預(yù)先建立的由已知P2P數(shù)據(jù)流中的協(xié)議特征字組成 協(xié)議特征字庫進行匹配,如果匹配不成功,執(zhí)行步驟a)。
5、 根據(jù)權(quán)利要求2或3所述的方法,其特征在于,在對MSVM進行訓(xùn) 練的過程中,對所述訓(xùn)練樣本數(shù)據(jù)中的各個訓(xùn)練樣本進行加權(quán)處理。
6、 根據(jù)權(quán)利要求2或3所述的方法,其特征在于,所述方法還包括在 所述步驟c)后,利用步驟c)中識別為P2P數(shù)據(jù)流的待測數(shù)據(jù)流的流量特征 值組成訓(xùn)練樣本數(shù)據(jù)對MSVM進行訓(xùn)練,并更新支持向量庫。
7、 一種識別點對點P2P數(shù)據(jù)流的裝置,包括 特征獲取單元,用于從待測數(shù)據(jù)流中獲取原始流量特征值; 預(yù)處理單元,用于對所述原始流量特征值進行預(yù)處理;支持向量匹配單元,用于所述預(yù)處理后的流量特征值與預(yù)先建立的多維支持向量機MSVM的支持向量庫進行匹配,根據(jù)匹配結(jié)果識別待測數(shù)據(jù)流是 否為P2P數(shù)據(jù)流。
8、 根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述裝置還包括識別單元,用于當匹配不成功時,通過預(yù)先訓(xùn)練完成的MSVM將所述預(yù) 處理后的流量特征值輸入到訓(xùn)練MSVM過程中形成的判決函數(shù)中,根據(jù)判決 函數(shù)的輸出結(jié)果識別待測數(shù)據(jù)流是否為P2P數(shù)據(jù)流。
9、 根據(jù)權(quán)利要求7或8所述的裝置,其特征在于,所述裝置還包括 協(xié)議特征字獲取單元,用于從待測數(shù)據(jù)流中獲取有效載荷的協(xié)議特征字;協(xié)議特征字匹配單元,用于將所述協(xié)議特征字與預(yù)先建立的由已知P2P 數(shù)據(jù)流中的協(xié)議特征字組成協(xié)議特征字庫進行匹配;其中,如果匹配不成功,則直接識別該待測數(shù)據(jù)流為P2P數(shù)據(jù)流,如果 匹配不成功,則觸發(fā)所述特征獲取單元工作。
10、 一種網(wǎng)絡(luò)系統(tǒng),包括 數(shù)據(jù)采集單元,用于采集待測數(shù)據(jù)流;識別點對點P2P數(shù)據(jù)流的裝置,用于從待測數(shù)據(jù)流中獲取原始流量特征 值并進行預(yù)處理,將預(yù)處理后的流量特征值與預(yù)先建立的多維支持向量機 MSVM的支持向量庫進行匹配,根據(jù)匹配結(jié)果識別待測數(shù)據(jù)流是否為P2P數(shù) 據(jù)流。
11、 根據(jù)權(quán)利要求IO所述的網(wǎng)絡(luò)系統(tǒng),其特征在于,識別點對點P2P數(shù) 據(jù)流的裝置包括特征獲取單元,用于從待測數(shù)據(jù)流中獲取原始流量特征值;預(yù)處理單元,用于對所述原始流量特征值進行預(yù)處理;支持向量匹配單元,用于所述預(yù)處理后的流量特征值與預(yù)先建立的多維支持向量機MSVM的支持向量庫進行匹配,根據(jù)匹配結(jié)果識別待測數(shù)據(jù)流是否為P2P凄t據(jù)流。
12、 根據(jù)權(quán)利要求11所述的網(wǎng)絡(luò)系統(tǒng),其特征在于,所述識別點對點P2P數(shù)據(jù)流的裝置還包括識別單元,用于當匹配不成功時,通過預(yù)先訓(xùn)練完成的MSVM將所述預(yù) 處理后的流量特征值輸入到訓(xùn)練MSVM過程中形成的判決函數(shù)中,根據(jù)判決 函數(shù)的輸出結(jié)果識別待測數(shù)據(jù)流是否為P2P數(shù)據(jù)流。
13、 根據(jù)權(quán)利要求10至12中任意一項所述的網(wǎng)絡(luò)系統(tǒng),其特征在于, 所述網(wǎng)絡(luò)系統(tǒng)還包括P2P數(shù)據(jù)流標記單元,用于對識別為P2P數(shù)據(jù)流的^t據(jù)流進行標記。
14、 根據(jù)權(quán)利要求10至12中任意一項所述的網(wǎng)絡(luò)系統(tǒng),其特征在于, 所述網(wǎng)絡(luò)系統(tǒng)還包括P2P數(shù)據(jù)流限制單元,用于對識別為P2P數(shù)據(jù)流的數(shù)據(jù)流的傳輸速度進 行限制,或切斷識別為P2P數(shù)據(jù)流的數(shù)據(jù)流。
全文摘要
本發(fā)明提供一種識別點對點P2P數(shù)據(jù)流的方法、裝置和系統(tǒng),該方法包括獲取待測數(shù)據(jù)流的原始流量特征值并進行預(yù)處理;將所述預(yù)處理后的流量特征值與預(yù)先建立的多維支持向量機MSVM的支持向量庫進行匹配,如果匹配成功,則識別該待測數(shù)據(jù)流為P2P數(shù)據(jù)流。該裝置包括特征獲取單元,用于從待測數(shù)據(jù)流中獲取原始流量特征值;預(yù)處理單元,用于對所述原始流量特征值進行預(yù)處理;支持向量匹配單元,用于所述預(yù)處理后的流量特征值與預(yù)先建立的多維支持向量機MSVM的支持向量庫進行匹配,根據(jù)匹配結(jié)果識別待測數(shù)據(jù)流是否為P2P數(shù)據(jù)流。本發(fā)明實施例提供的方法、裝置和系統(tǒng)能夠提高P2P數(shù)據(jù)路的識別準確率和識別效率。
文檔編號H04L29/06GK101447995SQ200810188860
公開日2009年6月3日 申請日期2008年12月30日 優(yōu)先權(quán)日2008年12月30日
發(fā)明者震 劉, 勇 喻, 孫知信, 婧 宮, 張玉峰 申請人:成都市華為賽門鐵克科技有限公司;南京郵電大學(xué)