專利名稱:網(wǎng)絡(luò)信息的云聚類提取方法
技術(shù)領(lǐng)域:
本發(fā)明涉及云計(jì)算以及數(shù)據(jù)挖掘技術(shù),尤其涉及網(wǎng)絡(luò)信息內(nèi)容的云聚類提取方法。
背景技術(shù):
隨著網(wǎng)站數(shù)量和存在于互聯(lián)網(wǎng)上的網(wǎng)頁(yè)數(shù)以指數(shù)級(jí)增長(zhǎng),電子政務(wù)和電子商務(wù)的廣泛開(kāi)展,這些極大地促進(jìn)了國(guó)家的信息化建設(shè),并且給人們的學(xué)習(xí)、工作、生活等帶來(lái)越來(lái)越多的便利。但是,與此同時(shí),互聯(lián)網(wǎng)也成了色情、邪教、反動(dòng)、臺(tái)獨(dú)、暴力信息傳播的場(chǎng)所。因此,如何防止互聯(lián)網(wǎng)上非法信息的傳播和瀏覽,對(duì)網(wǎng)上信息的內(nèi)容進(jìn)行監(jiān)管和控制,保護(hù)網(wǎng)絡(luò)信息的安全,有效阻止不良信息在我國(guó)的非法傳播,確保網(wǎng)上信息內(nèi)容的安全成為十分重要的課題,并關(guān)系到國(guó)家安全與社會(huì)穩(wěn)定。目前解決的方法如地址過(guò)濾,基于關(guān)鍵字搜索等技術(shù)未能很好的解決這一問(wèn)題。究其原因,主要是因?yàn)檫@些技術(shù)都沒(méi)有實(shí)現(xiàn)對(duì)信息本身的內(nèi)容進(jìn)行深入的分析與理解。因此,從基于內(nèi)容的角度去分析網(wǎng)絡(luò)信息并將其與安全結(jié)合起來(lái),是解決這一問(wèn)題的有效途徑。Stanford大學(xué)的TakW. Yan等開(kāi)發(fā)了基于內(nèi)容的過(guò)濾系統(tǒng)(Stanfordinformation filtering tool, SIFT),該系統(tǒng)用于互聯(lián)網(wǎng)上新聞組的過(guò)濾;它使用向量空間模型來(lái)實(shí)現(xiàn)用戶信息需求與新聞資料之間的匹配。它使用向量空間模型來(lái)實(shí)現(xiàn)用戶信息需求與新聞資料之間的匹配。它的用戶信息需求,即用戶模型,是由用戶通過(guò)提交喜歡的詞匯和想要避免的詞匯手工建立的,并且可以自我更新。法國(guó)國(guó)防部也建立了一套完全類似的情報(bào)獲取系統(tǒng),稱為“Frenchelon”。據(jù)稱這套系統(tǒng)不但對(duì)敏感信息進(jìn)行監(jiān)管,還能為本國(guó)的公司提供相關(guān)的商業(yè)情報(bào)。哈爾濱工業(yè)大學(xué)的張宏莉等,將網(wǎng)絡(luò)透視技術(shù)應(yīng)用于網(wǎng)絡(luò)預(yù)警研究中,從主動(dòng)探測(cè)的角度出發(fā),利用網(wǎng)絡(luò)拓?fù)浞钟蚍椒?,從宏觀的角度對(duì)大規(guī)模網(wǎng)絡(luò)進(jìn)行實(shí)時(shí)監(jiān)測(cè)和主動(dòng)預(yù)警。相對(duì)于傳統(tǒng)網(wǎng)絡(luò)預(yù)警技術(shù)中采用的偵聽(tīng)技術(shù),該方法更適合于對(duì)無(wú)法獲得內(nèi)部設(shè)備配合的網(wǎng)絡(luò)進(jìn)行主動(dòng)預(yù)警。中國(guó)科學(xué)院聲學(xué)研究所提出的基于語(yǔ)境框架的文本過(guò)濾系統(tǒng)。語(yǔ)境框架是過(guò)濾系統(tǒng)的語(yǔ)義模型,是黃曾陽(yáng)在概念層次網(wǎng)絡(luò)理論(hierarchical network of concepts,HNC)體系下,提出的文本內(nèi)容的形式化結(jié)構(gòu)。語(yǔ)境框架把信息抽象成3個(gè)側(cè)面信息所屬的領(lǐng)域范疇政治、經(jīng)濟(jì)、文化、軍事、法律等;信息所關(guān)涉的對(duì)象和內(nèi)容,以及對(duì)象之間的語(yǔ)義關(guān)系參與者和參與的內(nèi)容;信息所在的背景環(huán)境時(shí)間、空間、目的、參照等。這3個(gè)側(cè)面構(gòu)成了語(yǔ)境三要素領(lǐng)域、情景、背景。通過(guò)這三要素對(duì)文本進(jìn)行語(yǔ)義分析。我國(guó)在網(wǎng)絡(luò)內(nèi)容監(jiān)控領(lǐng)域的研究工作處于剛起步的階段,目前出現(xiàn)的一些常見(jiàn)的網(wǎng)絡(luò)內(nèi)容監(jiān)控軟件大都是被動(dòng)的工作模式,通常在網(wǎng)關(guān)運(yùn)行,當(dāng)發(fā)現(xiàn)非法詞匯時(shí)將包含該詞匯的網(wǎng)頁(yè)屏蔽,這種方式一般是對(duì)網(wǎng)卡進(jìn)行控制,抓取網(wǎng)絡(luò)數(shù)據(jù)包,并分析數(shù)據(jù)包的內(nèi)容,這一類型的軟件可以是用戶免受非法詞匯的影響,但是無(wú)法得到非法內(nèi)容的來(lái)源,不能進(jìn)行整體網(wǎng)絡(luò)的監(jiān)控。而且隨著網(wǎng)站數(shù)量和存在于互聯(lián)網(wǎng)上的網(wǎng)頁(yè)數(shù)以指數(shù)級(jí)增長(zhǎng),傳統(tǒng)的基于串行算法技術(shù)很難處理如此海量的數(shù)據(jù)。
發(fā)明內(nèi)容
鑒于上述問(wèn)題,本發(fā)明提供了一種網(wǎng)絡(luò)信息的云聚類提取方法,結(jié)合云計(jì)算技術(shù)和人工智能技術(shù),主動(dòng)進(jìn)行網(wǎng)絡(luò)內(nèi)容監(jiān)控預(yù)警,主動(dòng)采集網(wǎng)站的內(nèi)容,獲得網(wǎng)站里的熱點(diǎn)網(wǎng)頁(yè)信息,得到熱點(diǎn)網(wǎng)頁(yè)所包含的內(nèi)容,并對(duì)內(nèi)容進(jìn)行分析。通過(guò)丟棄不相關(guān)特征和冗余特征,有效降維,減少計(jì)算用時(shí),提高系統(tǒng)工作效率。網(wǎng)絡(luò)信息內(nèi)容變化多樣,從中提取涉及危害國(guó)家和大眾社會(huì)的有害信息,難度很大。發(fā)明提出重點(diǎn)采取云聚類方法提取有害信息的特征,再用GP (遺傳程序設(shè)計(jì))預(yù)測(cè)算法對(duì)有害信息進(jìn)行分析,提高對(duì)有害信息的命中率和檢測(cè)效率。為了達(dá)到上述目的,本發(fā)明采用了如下的技術(shù)方案一種網(wǎng)絡(luò)信息的云聚類提取方法,其中,該方法主要包括以下步驟
步驟a :利用分布式文件系統(tǒng)(Hadoop Distributed File System,簡(jiǎn)稱HDFS)進(jìn)行文件寫入、數(shù)據(jù)存儲(chǔ)及訪問(wèn)網(wǎng)絡(luò)信息,該分布式文件系統(tǒng)包括一個(gè)主節(jié)點(diǎn)以及若干個(gè)子節(jié)點(diǎn),主節(jié)點(diǎn)用以存儲(chǔ)該分布式文件系統(tǒng)的元數(shù)據(jù),所述元數(shù)據(jù)包括文件系統(tǒng)的名字空間以及管理文件的存儲(chǔ),所述子節(jié)點(diǎn)用以存放數(shù)據(jù),由客戶端直接與各子節(jié)點(diǎn)建立數(shù)據(jù)通信;
步驟b :利用SOM、Kmeans經(jīng)典聚類算法與云計(jì)算的計(jì)算模型Map/Reduce進(jìn)行無(wú)縫結(jié)合,從而得到基于云計(jì)算的Map/Reduce化的SOM、Kmeans聚類算法,其采用JobTracker/TaskTrackers的結(jié)構(gòu)來(lái)實(shí)現(xiàn)Map/Reduce計(jì)算模式,JobTracker負(fù)責(zé)整個(gè)Map/Reduce的控制工作,首先選擇空閑的TaskTracker來(lái)分配這些Map任務(wù)或者Reduce任務(wù);TaskTracker執(zhí)行從JobTracker發(fā)來(lái)的指令并同時(shí)處理Map和Reduce階段之間數(shù)據(jù)的移動(dòng),每個(gè)TaskTracker節(jié)點(diǎn)會(huì)周期性的報(bào)告完成的工作和狀態(tài)的更新,若其中一個(gè)TaskTracker節(jié)點(diǎn)保持沉默超過(guò)一個(gè)預(yù)設(shè)的時(shí)間間隔,則JobTracker記錄下這個(gè)節(jié)點(diǎn)狀態(tài)為死亡,并把分配給這個(gè)節(jié)點(diǎn)的數(shù)據(jù)發(fā)到別的節(jié)點(diǎn)。較佳的,本發(fā)明提供了一種網(wǎng)絡(luò)信息的云聚類提取方法,其中,所述分布式文件系統(tǒng)中,以塊序列的形式存儲(chǔ)各個(gè)文件。較佳的,本發(fā)明提供了一種網(wǎng)絡(luò)信息的云聚類提取方法,其中,所述存儲(chǔ)各個(gè)文件的塊被復(fù)制,且塊的大小和副本的個(gè)數(shù)都可以配置,主節(jié)點(diǎn)控制所有的塊復(fù)制操,其周期性地接收子節(jié)點(diǎn)的心跳回應(yīng)和塊報(bào)告,收到子節(jié)點(diǎn)的心跳回應(yīng)表示這個(gè)子節(jié)點(diǎn)是正常的,而一個(gè)塊報(bào)告包括該子節(jié)點(diǎn)上的所有的塊列表。較佳的,本發(fā)明提供了一種網(wǎng)絡(luò)信息的云聚類提取方法,其中,所述分布式文件系統(tǒng)中,所述文件寫入主要包括以下步驟
步驟al :客戶端向主節(jié)點(diǎn)發(fā)起文件寫入的請(qǐng)求;
步驟a2 :主節(jié)點(diǎn)根據(jù)文件大小和文件塊向客戶端返回該主節(jié)點(diǎn)所管理的子節(jié)點(diǎn)的地址信息;以及
步驟a3:客戶端將文件劃分為若干個(gè)塊,根據(jù)子節(jié)點(diǎn)的地址信息,按順序?qū)懭氲矫恳粋€(gè)子節(jié)點(diǎn)的塊中。較佳的,本發(fā)明提供了一種網(wǎng)絡(luò)信息的云聚類提取方法,其中,所述基于云計(jì)算的Map/Reduce化的SOM、Kmeans聚類算法主要包括以下步驟
步驟bl :輸入網(wǎng)絡(luò)信息;步驟b2 :根據(jù)聚類算法提供Map和Reduce函數(shù),Map/Reduce框架把用戶作業(yè)的輸入看作是若干組〈key, value)鍵值對(duì),Map/Reduce框架會(huì)調(diào)用用戶自定義的Map函數(shù)處理每一組〈key, value〉鍵值對(duì),生成一批新的中間〈key, value〉鍵值對(duì),這兩組鍵值對(duì)的類型不一定相同;
步驟b3 :在Shuffle階段,Map/Reduce框架通過(guò)HTTP為每個(gè)鍵值對(duì);在Sort階段,由于不同map的輸出中可能會(huì)有相同的key, Map/Reduce框架將按照key的值對(duì)Reduce的輸入進(jìn)行分組,Shuffle階段和Sort階段是同時(shí)進(jìn)行的,Reduce的輸入也是一邊被取出,一邊被合并,以保證Reduce的輸入是Map排好序的輸出;
步驟b4 :在Reduce階段中,遍歷中間數(shù)據(jù),對(duì)每一個(gè)唯一 key,執(zhí)行用戶自定義的Reduce函數(shù),輸出新的〈key, value〉鍵值對(duì);
步驟b5 :這Output階段中,把Reduce輸出的結(jié)果寫入到輸出目錄的文件中。較佳的,本發(fā)明提供了一種網(wǎng)絡(luò)信息的云聚類提取方法,其中,Map/Reduce框架和分布式文件系統(tǒng)運(yùn)行在一組相同的節(jié)點(diǎn)上。相較于先前技術(shù),本發(fā)明提供了一種網(wǎng)絡(luò)信息的云聚類提取方法,解決了 S0M、Kmeans等經(jīng)典聚類算法如何和云計(jì)算的計(jì)算模型Map/Reduce進(jìn)行無(wú)縫結(jié)合,從而得到基于云計(jì)算的Map/Reduce化SOM、Kmeans聚類算法,使用K_means等聚類算法,提出基于聚類的核主成分分析方法,具有良好的特征提取性能,相比核主成分分析有更高的特征提取速度,使用GP預(yù)測(cè)算法來(lái)進(jìn)行網(wǎng)絡(luò)流量的預(yù)測(cè),解決現(xiàn)有的網(wǎng)絡(luò)流量時(shí)間序列分析和預(yù)測(cè)算法中主觀性太強(qiáng)的缺點(diǎn),可以應(yīng)用于網(wǎng)絡(luò)安全監(jiān)測(cè)中。
圖1為HDFS結(jié)構(gòu)示意2為Map/Reduce算法示意3為本發(fā)明的方法流程圖
圖4為文件寫入的步驟流程圖
圖5為基于云計(jì)算的Map/Reduce化的SOM、Kmeans聚類算法的步驟流程圖
具體實(shí)施例方式請(qǐng)參考圖1至圖5,本發(fā)明提供了一種網(wǎng)絡(luò)信息的云聚類提取方法,結(jié)合云計(jì)算技術(shù)和人工智能技術(shù),主動(dòng)進(jìn)行網(wǎng)絡(luò)內(nèi)容監(jiān)控預(yù)警,主動(dòng)采集網(wǎng)站的內(nèi)容,獲得網(wǎng)站里的熱點(diǎn)網(wǎng)頁(yè)信息,得到熱點(diǎn)網(wǎng)頁(yè)所包含的內(nèi)容,并對(duì)內(nèi)容進(jìn)行分析。通過(guò)丟棄不相關(guān)特征和冗余特征,有效降維,減少計(jì)算用時(shí),提高系統(tǒng)工作效率。網(wǎng)絡(luò)信息內(nèi)容變化多樣,從中提取涉及危害國(guó)家和大眾社會(huì)的有害信息,難度很大。發(fā)明提出重點(diǎn)采取云聚類方法提取有害信息的特征,再用GP (遺傳程序設(shè)計(jì))預(yù)測(cè)算法對(duì)有害信息進(jìn)行分析,提高對(duì)有害信息的命中率和檢測(cè)效率。其中,參考圖3,該方法主要包括以下步驟
步驟10 :利用分布式文件系統(tǒng)(Hadoop Distributed File System,簡(jiǎn)稱HDFS)進(jìn)行文件寫入、數(shù)據(jù)存儲(chǔ)及訪問(wèn)網(wǎng)絡(luò)信息,該分布式文件系統(tǒng)包括一個(gè)主節(jié)點(diǎn)以及若干個(gè)子節(jié)點(diǎn),主節(jié)點(diǎn)用以存儲(chǔ)該分布式文件系統(tǒng)的元數(shù)據(jù),所述元數(shù)據(jù)包括文件系統(tǒng)的名字空間以及管理文件的存儲(chǔ),所述子節(jié)點(diǎn)用以存放數(shù)據(jù),由客戶端直接與各子節(jié)點(diǎn)建立數(shù)據(jù)通信;
步驟20 :利用SOM、Kmeans經(jīng)典聚類算法與云計(jì)算的計(jì)算模型Map/Reduce進(jìn)行無(wú)縫結(jié)合,從而得到基于云計(jì)算的Map/Reduce化的S0M、Kmeans聚類算法,其采用JobTracker/TaskTrackers的結(jié)構(gòu)來(lái)實(shí)現(xiàn)Map/Reduce計(jì)算模式,JobTracker負(fù)責(zé)整個(gè)Map/Reduce的控制工作,首先選擇空閑的TaskTracker來(lái)分配這些Map任務(wù)或者Reduce任務(wù);TaskTracker執(zhí)行從JobTracker發(fā)來(lái)的指令并同時(shí)處理Map和Reduce階段之間數(shù)據(jù)的移動(dòng),每個(gè)TaskTracker節(jié)點(diǎn)會(huì)周期性的報(bào)告完成的工作和狀態(tài)的更新,若其中一個(gè)TaskTracker節(jié)點(diǎn)保持沉默超過(guò)一個(gè)預(yù)設(shè)的時(shí)間間隔,則JobTracker記錄下這個(gè)節(jié)點(diǎn)狀態(tài)為死亡,并把分配給這個(gè)節(jié)點(diǎn)的數(shù)據(jù)發(fā)到別的節(jié)點(diǎn)。其中,所述分布式文件系統(tǒng)中,以塊序列的形式存儲(chǔ)各個(gè)文件,所述存儲(chǔ)各個(gè)文件的塊被復(fù)制,且塊的大小和副本的個(gè)數(shù)都可以配置,主節(jié)點(diǎn)控制所有的塊復(fù)制操,其周期性地接收子節(jié)點(diǎn)的心跳回應(yīng)和塊報(bào)告,收到子節(jié)點(diǎn)的心跳回應(yīng)表示這個(gè)子節(jié)點(diǎn)是正常的,而一個(gè)塊報(bào)告包括該子節(jié)點(diǎn)上的所有的塊列表。其中,Map/Reduce框架和分布式文件系統(tǒng)運(yùn)行在一組相同的節(jié)點(diǎn)上。于本實(shí)施例中,云計(jì)算的Map/Reduce模型是需要大集群機(jī)器才能運(yùn)行的,比如Google的機(jī)器群達(dá)到200X5000的規(guī)模。首先,該方法搭建了一個(gè)小型的Hadoop并行計(jì)算平臺(tái),主要利用了 DistributedFile System(DFS)、BigTable 和 Map/Reduce 模型等技術(shù),利用 Map/Reduce 模型,云計(jì)算可以很容易的將經(jīng)典數(shù)據(jù)挖掘算法進(jìn)行并行運(yùn)行以提高效率,而且不影響算法的運(yùn)行結(jié)果,該Hadoop分布式計(jì)算平臺(tái)以后根據(jù)需要還可以不斷擴(kuò)容。目前搭建的Hadoop分布式計(jì)算平臺(tái)由八臺(tái)機(jī)器組建而成,其中包括了一臺(tái)Datanode用于管理整個(gè)集群的HDFS文件系統(tǒng),一臺(tái)Jobtracker用于掌控全局計(jì)算系統(tǒng),以及六臺(tái)用于存儲(chǔ)數(shù)據(jù)和分布式計(jì)算。除了安裝Hadoop分布式計(jì)算平臺(tái)之外,系統(tǒng)還配置有給予Hadoop系統(tǒng)的Hive,Pig以及Hbase,其中Hive能夠使用SQL語(yǔ)言進(jìn)行對(duì)集群上的數(shù)據(jù)進(jìn)行查詢和操作,且其計(jì)算是依據(jù)Map/Reduce運(yùn)行的,這已經(jīng)被用于日常查詢。而Pig能夠?qū)旱臄?shù)據(jù)進(jìn)行更簡(jiǎn)單的管理和操作,Hbase作為鏈?zhǔn)綌?shù)據(jù)庫(kù)系統(tǒng),亦有很強(qiáng)的應(yīng)用前景。又,使用Hadoop HDFS來(lái)存儲(chǔ)網(wǎng)絡(luò)內(nèi)容信息。Hadoop HDFS被設(shè)計(jì)成適合運(yùn)行在通用硬件上的分布式文件系統(tǒng),它和現(xiàn)有的分布式文件系統(tǒng)有很多共同點(diǎn),但同時(shí),它和其他的分布式文件系統(tǒng)的區(qū)別也是很明顯的。HDFS是一個(gè)高度容錯(cuò)性的系統(tǒng),適合部署在廉價(jià)的機(jī)器上。HDFS能提供高吞吐量的數(shù)據(jù)訪問(wèn),非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。HDFS由一個(gè)名叫NameNode的主節(jié)點(diǎn)和多個(gè)名叫DataNode的子節(jié)點(diǎn)組成,是一種典型的主從式(Master/Slave)架構(gòu),這種架構(gòu)方法可以通過(guò)主節(jié)點(diǎn)屏蔽底層的復(fù)雜結(jié)構(gòu),并向Client提供方便的文件目錄映射。NameNode存儲(chǔ)著文件系統(tǒng)的元數(shù)據(jù),這些元數(shù)據(jù)包括文件系統(tǒng)的名字空間等,并管理文件的存儲(chǔ)等服務(wù),但實(shí)際的數(shù)據(jù)并不存放在NameNode,而是由HDFS中的DataNode來(lái)存放數(shù)據(jù),然后由Client(客戶端)直接與DataNode建立數(shù)據(jù)通信。此外,HDFS為了可靠地海量存儲(chǔ)文件,各個(gè)文件以塊序列的形式存儲(chǔ)。為了保證故障容錯(cuò),文件的塊被復(fù)制。塊的大小和副本的個(gè)數(shù)都可以配置。一般地,默認(rèn)的HDFS的數(shù)據(jù)塊的大小是64M,也就是說(shuō)如果放置到HDFS上的數(shù)據(jù)小于64M,那么將只有一個(gè)數(shù)據(jù)塊,此時(shí)會(huì)被放置到某一個(gè)DataNode中;NameN0de控制所有的塊復(fù)制操作。它周期性地接收來(lái)自集群中DataNode的“心跳”回應(yīng)和塊報(bào)告。收到一個(gè)節(jié)點(diǎn)的“心跳”回應(yīng)表示這個(gè)DataNode是正常的。一個(gè)塊報(bào)告包括該數(shù)據(jù)節(jié)點(diǎn)上的所有的塊列表。HDFS的體系結(jié)構(gòu)如圖1所示。從圖1及圖4中可以看出NameNode、DataNode和Client三者之間的交互關(guān)系,例如文件寫入主要包括以下步驟
步驟101 :客戶端向主節(jié)點(diǎn)發(fā)起文件寫入的請(qǐng)求;
步驟102 :主節(jié)點(diǎn)根據(jù)文件大小和文件塊向客戶端返回該主節(jié)點(diǎn)所管理的子節(jié)點(diǎn)的地址信息;以及
步驟103 :客戶端將文件劃分為若干個(gè)塊,根據(jù)子節(jié)點(diǎn)的地址信息,按順序?qū)懭氲矫恳粋€(gè)子節(jié)點(diǎn)的塊中。再者,S0M>Kmeans等經(jīng)典聚類算法如何和云計(jì)算的計(jì)算模型Map/Reduce結(jié)合,從而得到基于云計(jì)算的Map/Reduce化SOM、Kmeans聚類算法。基于Hadoop Map/Reduce的SOM、Kmeans聚類算法流程如圖2及圖5所不。所述基于云計(jì)算的Map/Reduce化的SOM、Kmeans聚類算法主要包括以下步驟步驟201 :輸入網(wǎng)絡(luò)信息;
步驟202 :根據(jù)聚類算法提供Map和Reduce函數(shù),Map/Reduce框架把用戶作業(yè)的輸入看作是若干組〈key, value)鍵值對(duì),Map/Reduce框架會(huì)調(diào)用用戶自定義的Map函數(shù)處理每一組〈key, value〉鍵值對(duì),生成一批新的中間〈key, value〉鍵值對(duì),這兩組鍵值對(duì)的類型不一定相同;
步驟203 :在Shuffle階段,Map/Reduce框架通過(guò)HTTP為每個(gè)鍵值對(duì);在Sort階段,由于不同map的輸出中可能會(huì)有相同的key,Map/Reduce框架將按照key的值對(duì)Reduce的輸入進(jìn)行分組,Shuffle階段和Sort階段是同時(shí)進(jìn)行的,Reduce的輸入也是一邊被取出,一邊被合并,以保證Reduce的輸入是Map排好序的輸出;
步驟204 :在Reduce階段中,遍歷中間數(shù)據(jù),對(duì)每一個(gè)唯一 key,執(zhí)行用戶自定義的Reduce函數(shù),輸出新的〈key, value〉鍵值對(duì);
步驟205 :這Output階段中,把Reduce輸出的結(jié)果寫入到輸出目錄的文件中。Hadoop 米用了 JobTracker/TaskTrackers 的結(jié)構(gòu)來(lái)實(shí)現(xiàn) Map/Reduce 計(jì)算模式,該結(jié)構(gòu)也是一種典型的主從式結(jié)構(gòu)。JobTracker負(fù)責(zé)整個(gè)Map/Reduce的控制工作,首先選擇空閑的TaskTracker來(lái)分配這些Map任務(wù)或者Reduce任務(wù);TaskTracker執(zhí)行從JobTracker發(fā)來(lái)的指令并同時(shí)處理Map和Reduce階段之間數(shù)據(jù)的移動(dòng),每個(gè)TaskTracker節(jié)點(diǎn)會(huì)周期性的報(bào)告完成的工作和狀態(tài)的更新。如果一個(gè)TaskTracker節(jié)點(diǎn)保持沉默超過(guò)一個(gè)預(yù)設(shè)的時(shí)間間隔,JobTracker會(huì)記錄下這個(gè)節(jié)點(diǎn)狀態(tài)為死亡,并把分配給這個(gè)節(jié)點(diǎn)的數(shù)據(jù)發(fā)到別的節(jié)點(diǎn)。通常,Map/Reduce框架和分布式文件系統(tǒng)HDFS是運(yùn)行在一組相同的節(jié)點(diǎn)上的,也就是說(shuō),計(jì)算節(jié)點(diǎn)和存儲(chǔ)節(jié)點(diǎn)通常在一起。這種配置允許框架在那些已經(jīng)存好數(shù)據(jù)的節(jié)點(diǎn)上高效地調(diào)度任務(wù),這可以使整個(gè)集群的網(wǎng)絡(luò)帶寬被高效地利用。(I)在網(wǎng)絡(luò)信息內(nèi)容分析中嘗試使用了云計(jì)算和Hadoop技術(shù),以避免海量數(shù)據(jù)的處理瓶頸。(2)K_means、S0M等聚類算法的應(yīng)用。大量網(wǎng)絡(luò)內(nèi)容分析的方法很有效果,但其會(huì)遇到計(jì)算上的困難(與樣本數(shù)有關(guān))。使用K-means等聚類算法,提出基于聚類的核主成分分析方法,具有良好的特征提取性能,相比核主成分分析有更高的特征提取速度。(3)云計(jì)算和Hadoop技術(shù)與SOM、Kmeans等聚類算法的完美結(jié)合,可以進(jìn)一步提高計(jì)算效率。而用云聚類方法得出的網(wǎng)絡(luò)信息內(nèi)容可以進(jìn)一步用于各種目前成熟的網(wǎng)絡(luò)信息內(nèi)容分析方法中去,以提高這些方法的效率和精度。(4)使用GP預(yù)測(cè)算法來(lái)進(jìn)行網(wǎng)絡(luò)流量的預(yù)測(cè)。改進(jìn)混沌系統(tǒng)中的兩個(gè)重要特征量嵌入維數(shù)和時(shí)間延遲的計(jì)算,根據(jù)計(jì)算得出的上述兩個(gè)參數(shù)重構(gòu)相空間;然后在相空間中作軌跡的線性擬合,選擇軌跡中的最近鄰點(diǎn)作一次性的預(yù)測(cè)。提出的算法可在相空間中很好地把軌跡的線性擬合與最近鄰方法結(jié)合起來(lái),解決現(xiàn)有的網(wǎng)絡(luò)流量時(shí)間序列分析和預(yù)測(cè)算法中主觀性太強(qiáng)的缺點(diǎn),可以應(yīng)用于網(wǎng)絡(luò)安全監(jiān)測(cè)中。以上所述僅為本發(fā)明的較佳實(shí)施例,并非用來(lái)限定本發(fā)明的實(shí)施范圍;凡是依本發(fā)明所作的等效變化與修改,都被本發(fā)明權(quán)利要求書的范圍所覆蓋。
權(quán)利要求
1.一種網(wǎng)絡(luò)信息的云聚類提取方法,其特征在于,該方法主要包括以下步驟 步驟a:利用分布式文件系統(tǒng)進(jìn)行文件寫入、數(shù)據(jù)存儲(chǔ)及訪問(wèn)網(wǎng)絡(luò)信息,該分布式文件系統(tǒng)包括一個(gè)主節(jié)點(diǎn)以及若干個(gè)子節(jié)點(diǎn),主節(jié)點(diǎn)用以存儲(chǔ)該分布式文件系統(tǒng)的元數(shù)據(jù),所述元數(shù)據(jù)包括文件系統(tǒng)的名字空間以及管理文件的存儲(chǔ),所述子節(jié)點(diǎn)用以存放數(shù)據(jù),由客戶端直接與各子節(jié)點(diǎn)建立數(shù)據(jù)通信; 步驟b :利用SOM、Kmeans聚類算法與云計(jì)算的計(jì)算模型Map/Reduce進(jìn)行無(wú)縫結(jié)合,得到基于云計(jì)算的Map/Reduce化的SOM、Kmeans聚類算法,其米用JobTracker/TaskTrackers的結(jié)構(gòu)實(shí)現(xiàn)Map/Reduce計(jì)算模式,JobTracker負(fù)責(zé)整個(gè)Map/Reduce的控制工作,首先選擇空閑的TaskTracker來(lái)分配這些Map任務(wù)或者Reduce任務(wù),TaskTracker執(zhí)行從JobTracker發(fā)出的指令并同時(shí)處理Map和Reduce階段之間數(shù)據(jù)的移動(dòng),每個(gè)TaskTracker節(jié)點(diǎn)會(huì)周期性的報(bào)告完成的工作及狀態(tài)的更新,若其中一個(gè)TaskTracker節(jié)點(diǎn)保持沉默超過(guò)一個(gè)預(yù)設(shè)的時(shí)間間隔,則JobTracker將這個(gè)節(jié)點(diǎn)狀態(tài)記錄為死亡,并把分配給這個(gè)節(jié)點(diǎn)的數(shù)據(jù)發(fā)到別的節(jié)點(diǎn)。
2.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)信息的云聚類提取方法,其特征在于,所述分布式文件系統(tǒng)中,以塊序列的形式存儲(chǔ)各個(gè)文件。
3.根據(jù)權(quán)利要求2所述的網(wǎng)絡(luò)信息的云聚類提取方法,其特征在于,所述存儲(chǔ)各個(gè)文件的塊被復(fù)制,且塊的大小和副本的個(gè)數(shù)都可以配置,主節(jié)點(diǎn)控制所有的塊復(fù)制操,其周期性地接收子節(jié)點(diǎn)的心跳回應(yīng)和塊報(bào)告,收到子節(jié)點(diǎn)的心跳回應(yīng)表示這個(gè)子節(jié)點(diǎn)是正常的,而一個(gè)塊報(bào)告包括該子節(jié)點(diǎn)上的所有的塊列表。
4.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)信息的云聚類提取方法,其特征在于,所述分布式文件系統(tǒng)中,所述文件寫入主要包括以下步驟 步驟al :客戶端向主節(jié)點(diǎn)發(fā)起文件寫入的請(qǐng)求; 步驟a2 :主節(jié)點(diǎn)根據(jù)文件大小和文件塊向客戶端返回該主節(jié)點(diǎn)所管理的子節(jié)點(diǎn)的地址信息;以及 步驟a3:客戶端將文件劃分為若干個(gè)塊,根據(jù)子節(jié)點(diǎn)的地址信息,按順序?qū)懭氲矫恳粋€(gè)子節(jié)點(diǎn)的塊中。
5.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)信息的云聚類提取方法,其特征在于,所述基于云計(jì)算的Map/Reduce化的SOM、Kmeans聚類算法主要包括以下步驟 步驟bl :輸入網(wǎng)絡(luò)信息; 步驟b2 :根據(jù)聚類算法提供Map和Reduce函數(shù),Map/Reduce框架把用戶作業(yè)的輸入看作是若干組〈key, value)鍵值對(duì),Map/Reduce框架會(huì)調(diào)用用戶自定義的Map函數(shù)處理每一組〈key, value〉鍵值對(duì),生成一批新的中間〈key, value〉鍵值對(duì),這兩組鍵值對(duì)的類型不一定相同; 步驟b3 :在Shuffle階段,Map/Reduce框架通過(guò)HTTP為每個(gè)鍵值對(duì);在Sort階段,由于不同map的輸出中可能會(huì)有相同的key, Map/Reduce框架將按照key的值對(duì)Reduce的輸入進(jìn)行分組,Shuffle階段和Sort階段是同時(shí)進(jìn)行的,Reduce的輸入也是一邊被取出,一邊被合并,以保證Reduce的輸入是Map排好序的輸出; 步驟b4 :在Reduce階段中,遍歷中間數(shù)據(jù),對(duì)每一個(gè)唯一 key,執(zhí)行用戶自定義的Reduce函數(shù),輸出新的〈key, value〉鍵值對(duì);步驟b5 :這Output階段中,把Reduce輸出的結(jié)果寫入到輸出目錄的文件中。
6.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)信息的云聚類提取方法,其特征在于,Map/Reduce框架和分布式文件系統(tǒng)運(yùn)行在一組相同的節(jié)點(diǎn)上。
全文摘要
本發(fā)明提供了一種網(wǎng)絡(luò)信息的云聚類提取方法,分布式文件系統(tǒng)進(jìn)行文件寫入、數(shù)據(jù)存儲(chǔ)及訪問(wèn)網(wǎng)絡(luò)信息;SOM、Kmeans聚類算法與云計(jì)算的計(jì)算模型Map/Reduce進(jìn)行無(wú)縫結(jié)合,得到基于云計(jì)算的Map/Reduce化的SOM、Kmeans聚類算法,JobTracker負(fù)責(zé)整個(gè)Map/Reduce的控制工作,空閑的TaskTracker來(lái)分配這些Map任務(wù)或者Reduce任務(wù);TaskTracker執(zhí)行從JobTracker發(fā)來(lái)的指令并同時(shí)處理Map和Reduce階段之間數(shù)據(jù)的移動(dòng),每個(gè)TaskTracker節(jié)點(diǎn)會(huì)周期性的報(bào)告完成的工作和狀態(tài)的更新,若其中一個(gè)TaskTracker節(jié)點(diǎn)保持沉默超過(guò)一個(gè)預(yù)設(shè)的時(shí)間間隔,則JobTracker記錄下這個(gè)節(jié)點(diǎn)狀態(tài)為死亡,并把分配給這個(gè)節(jié)點(diǎn)的數(shù)據(jù)發(fā)到別的節(jié)點(diǎn)。本發(fā)明具有良好的特征提取性能,解決現(xiàn)有的網(wǎng)絡(luò)流量時(shí)間序列分析和預(yù)測(cè)算法中主觀性太強(qiáng)的缺點(diǎn)。
文檔編號(hào)H04L29/08GK102999633SQ201210550759
公開(kāi)日2013年3月27日 申請(qǐng)日期2012年12月18日 優(yōu)先權(quán)日2012年12月18日
發(fā)明者呂威 申請(qǐng)人:北京師范大學(xué)珠海分校