網(wǎng)絡(luò)信息的云聚類提取方法

文檔序號(hào)：7869176閱讀：174來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

專利名稱：網(wǎng)絡(luò)信息的云聚類提取方法
技術(shù)領(lǐng)域：
本發(fā)明涉及云計(jì)算以及數(shù)據(jù)挖掘技術(shù)，尤其涉及網(wǎng)絡(luò)信息內(nèi)容的云聚類提取方法。
背景技術(shù)：
隨著網(wǎng)站數(shù)量和存在于互聯(lián)網(wǎng)上的網(wǎng)頁(yè)數(shù)以指數(shù)級(jí)增長(zhǎng)，電子政務(wù)和電子商務(wù)的廣泛開(kāi)展，這些極大地促進(jìn)了國(guó)家的信息化建設(shè)，并且給人們的學(xué)習(xí)、工作、生活等帶來(lái)越來(lái)越多的便利。但是，與此同時(shí)，互聯(lián)網(wǎng)也成了色情、邪教、反動(dòng)、臺(tái)獨(dú)、暴力信息傳播的場(chǎng)所。因此，如何防止互聯(lián)網(wǎng)上非法信息的傳播和瀏覽，對(duì)網(wǎng)上信息的內(nèi)容進(jìn)行監(jiān)管和控制，保護(hù)網(wǎng)絡(luò)信息的安全，有效阻止不良信息在我國(guó)的非法傳播，確保網(wǎng)上信息內(nèi)容的安全成為十分重要的課題，并關(guān)系到國(guó)家安全與社會(huì)穩(wěn)定。目前解決的方法如地址過(guò)濾，基于關(guān)鍵字搜索等技術(shù)未能很好的解決這一問(wèn)題。究其原因，主要是因?yàn)檫@些技術(shù)都沒(méi)有實(shí)現(xiàn)對(duì)信息本身的內(nèi)容進(jìn)行深入的分析與理解。因此，從基于內(nèi)容的角度去分析網(wǎng)絡(luò)信息并將其與安全結(jié)合起來(lái)，是解決這一問(wèn)題的有效途徑。Stanford大學(xué)的TakW. Yan等開(kāi)發(fā)了基于內(nèi)容的過(guò)濾系統(tǒng)(Stanfordinformation filtering tool, SIFT),該系統(tǒng)用于互聯(lián)網(wǎng)上新聞組的過(guò)濾；它使用向量空間模型來(lái)實(shí)現(xiàn)用戶信息需求與新聞資料之間的匹配。它使用向量空間模型來(lái)實(shí)現(xiàn)用戶信息需求與新聞資料之間的匹配。它的用戶信息需求，即用戶模型，是由用戶通過(guò)提交喜歡的詞匯和想要避免的詞匯手工建立的，并且可以自我更新。法國(guó)國(guó)防部也建立了一套完全類似的情報(bào)獲取系統(tǒng)，稱為“Frenchelon”。據(jù)稱這套系統(tǒng)不但對(duì)敏感信息進(jìn)行監(jiān)管，還能為本國(guó)的公司提供相關(guān)的商業(yè)情報(bào)。哈爾濱工業(yè)大學(xué)的張宏莉等，將網(wǎng)絡(luò)透視技術(shù)應(yīng)用于網(wǎng)絡(luò)預(yù)警研究中，從主動(dòng)探測(cè)的角度出發(fā)，利用網(wǎng)絡(luò)拓?fù)浞钟蚍椒?，從宏觀的角度對(duì)大規(guī)模網(wǎng)絡(luò)進(jìn)行實(shí)時(shí)監(jiān)測(cè)和主動(dòng)預(yù)警。相對(duì)于傳統(tǒng)網(wǎng)絡(luò)預(yù)警技術(shù)中采用的偵聽(tīng)技術(shù)，該方法更適合于對(duì)無(wú)法獲得內(nèi)部設(shè)備配合的網(wǎng)絡(luò)進(jìn)行主動(dòng)預(yù)警。中國(guó)科學(xué)院聲學(xué)研究所提出的基于語(yǔ)境框架的文本過(guò)濾系統(tǒng)。語(yǔ)境框架是過(guò)濾系統(tǒng)的語(yǔ)義模型，是黃曾陽(yáng)在概念層次網(wǎng)絡(luò)理論(hierarchical network of concepts,HNC)體系下，提出的文本內(nèi)容的形式化結(jié)構(gòu)。語(yǔ)境框架把信息抽象成3個(gè)側(cè)面信息所屬的領(lǐng)域范疇政治、經(jīng)濟(jì)、文化、軍事、法律等；信息所關(guān)涉的對(duì)象和內(nèi)容，以及對(duì)象之間的語(yǔ)義關(guān)系參與者和參與的內(nèi)容；信息所在的背景環(huán)境時(shí)間、空間、目的、參照等。這3個(gè)側(cè)面構(gòu)成了語(yǔ)境三要素領(lǐng)域、情景、背景。通過(guò)這三要素對(duì)文本進(jìn)行語(yǔ)義分析。我國(guó)在網(wǎng)絡(luò)內(nèi)容監(jiān)控領(lǐng)域的研究工作處于剛起步的階段，目前出現(xiàn)的一些常見(jiàn)的網(wǎng)絡(luò)內(nèi)容監(jiān)控軟件大都是被動(dòng)的工作模式，通常在網(wǎng)關(guān)運(yùn)行，當(dāng)發(fā)現(xiàn)非法詞匯時(shí)將包含該詞匯的網(wǎng)頁(yè)屏蔽，這種方式一般是對(duì)網(wǎng)卡進(jìn)行控制，抓取網(wǎng)絡(luò)數(shù)據(jù)包，并分析數(shù)據(jù)包的內(nèi)容，這一類型的軟件可以是用戶免受非法詞匯的影響，但是無(wú)法得到非法內(nèi)容的來(lái)源，不能進(jìn)行整體網(wǎng)絡(luò)的監(jiān)控。而且隨著網(wǎng)站數(shù)量和存在于互聯(lián)網(wǎng)上的網(wǎng)頁(yè)數(shù)以指數(shù)級(jí)增長(zhǎng)，傳統(tǒng)的基于串行算法技術(shù)很難處理如此海量的數(shù)據(jù)。

發(fā)明內(nèi)容
鑒于上述問(wèn)題，本發(fā)明提供了一種網(wǎng)絡(luò)信息的云聚類提取方法，結(jié)合云計(jì)算技術(shù)和人工智能技術(shù)，主動(dòng)進(jìn)行網(wǎng)絡(luò)內(nèi)容監(jiān)控預(yù)警，主動(dòng)采集網(wǎng)站的內(nèi)容，獲得網(wǎng)站里的熱點(diǎn)網(wǎng)頁(yè)信息，得到熱點(diǎn)網(wǎng)頁(yè)所包含的內(nèi)容，并對(duì)內(nèi)容進(jìn)行分析。通過(guò)丟棄不相關(guān)特征和冗余特征，有效降維，減少計(jì)算用時(shí)，提高系統(tǒng)工作效率。網(wǎng)絡(luò)信息內(nèi)容變化多樣，從中提取涉及危害國(guó)家和大眾社會(huì)的有害信息，難度很大。發(fā)明提出重點(diǎn)采取云聚類方法提取有害信息的特征，再用GP (遺傳程序設(shè)計(jì))預(yù)測(cè)算法對(duì)有害信息進(jìn)行分析，提高對(duì)有害信息的命中率和檢測(cè)效率。為了達(dá)到上述目的，本發(fā)明采用了如下的技術(shù)方案一種網(wǎng)絡(luò)信息的云聚類提取方法，其中，該方法主要包括以下步驟
步驟a :利用分布式文件系統(tǒng)(Hadoop Distributed File System,簡(jiǎn)稱HDFS)進(jìn)行文件寫入、數(shù)據(jù)存儲(chǔ)及訪問(wèn)網(wǎng)絡(luò)信息，該分布式文件系統(tǒng)包括一個(gè)主節(jié)點(diǎn)以及若干個(gè)子節(jié)點(diǎn)，主節(jié)點(diǎn)用以存儲(chǔ)該分布式文件系統(tǒng)的元數(shù)據(jù)，所述元數(shù)據(jù)包括文件系統(tǒng)的名字空間以及管理文件的存儲(chǔ)，所述子節(jié)點(diǎn)用以存放數(shù)據(jù)，由客戶端直接與各子節(jié)點(diǎn)建立數(shù)據(jù)通信；
步驟b :利用SOM、Kmeans經(jīng)典聚類算法與云計(jì)算的計(jì)算模型Map/Reduce進(jìn)行無(wú)縫結(jié)合，從而得到基于云計(jì)算的Map/Reduce化的SOM、Kmeans聚類算法,其采用JobTracker/TaskTrackers的結(jié)構(gòu)來(lái)實(shí)現(xiàn)Map/Reduce計(jì)算模式,JobTracker負(fù)責(zé)整個(gè)Map/Reduce的控制工作，首先選擇空閑的TaskTracker來(lái)分配這些Map任務(wù)或者Reduce任務(wù)；TaskTracker執(zhí)行從JobTracker發(fā)來(lái)的指令并同時(shí)處理Map和Reduce階段之間數(shù)據(jù)的移動(dòng)，每個(gè)TaskTracker節(jié)點(diǎn)會(huì)周期性的報(bào)告完成的工作和狀態(tài)的更新,若其中一個(gè)TaskTracker節(jié)點(diǎn)保持沉默超過(guò)一個(gè)預(yù)設(shè)的時(shí)間間隔，則JobTracker記錄下這個(gè)節(jié)點(diǎn)狀態(tài)為死亡，并把分配給這個(gè)節(jié)點(diǎn)的數(shù)據(jù)發(fā)到別的節(jié)點(diǎn)。較佳的，本發(fā)明提供了一種網(wǎng)絡(luò)信息的云聚類提取方法，其中，所述分布式文件系統(tǒng)中，以塊序列的形式存儲(chǔ)各個(gè)文件。較佳的，本發(fā)明提供了一種網(wǎng)絡(luò)信息的云聚類提取方法，其中，所述存儲(chǔ)各個(gè)文件的塊被復(fù)制，且塊的大小和副本的個(gè)數(shù)都可以配置，主節(jié)點(diǎn)控制所有的塊復(fù)制操，其周期性地接收子節(jié)點(diǎn)的心跳回應(yīng)和塊報(bào)告，收到子節(jié)點(diǎn)的心跳回應(yīng)表示這個(gè)子節(jié)點(diǎn)是正常的，而一個(gè)塊報(bào)告包括該子節(jié)點(diǎn)上的所有的塊列表。較佳的，本發(fā)明提供了一種網(wǎng)絡(luò)信息的云聚類提取方法，其中，所述分布式文件系統(tǒng)中，所述文件寫入主要包括以下步驟
步驟al :客戶端向主節(jié)點(diǎn)發(fā)起文件寫入的請(qǐng)求；
步驟a2 :主節(jié)點(diǎn)根據(jù)文件大小和文件塊向客戶端返回該主節(jié)點(diǎn)所管理的子節(jié)點(diǎn)的地址信息；以及
步驟a3:客戶端將文件劃分為若干個(gè)塊，根據(jù)子節(jié)點(diǎn)的地址信息，按順序?qū)懭氲矫恳粋€(gè)子節(jié)點(diǎn)的塊中。較佳的，本發(fā)明提供了一種網(wǎng)絡(luò)信息的云聚類提取方法，其中，所述基于云計(jì)算的Map/Reduce化的SOM、Kmeans聚類算法主要包括以下步驟
步驟bl :輸入網(wǎng)絡(luò)信息；步驟b2 :根據(jù)聚類算法提供Map和Reduce函數(shù),Map/Reduce框架把用戶作業(yè)的輸入看作是若干組〈key, value)鍵值對(duì),Map/Reduce框架會(huì)調(diào)用用戶自定義的Map函數(shù)處理每一組〈key, value〉鍵值對(duì),生成一批新的中間〈key, value〉鍵值對(duì),這兩組鍵值對(duì)的類型不一定相同；
步驟b3 :在Shuffle階段，Map/Reduce框架通過(guò)HTTP為每個(gè)鍵值對(duì)；在Sort階段，由于不同map的輸出中可能會(huì)有相同的key, Map/Reduce框架將按照key的值對(duì)Reduce的輸入進(jìn)行分組，Shuffle階段和Sort階段是同時(shí)進(jìn)行的，Reduce的輸入也是一邊被取出，一邊被合并，以保證Reduce的輸入是Map排好序的輸出；
步驟b4 :在Reduce階段中，遍歷中間數(shù)據(jù)，對(duì)每一個(gè)唯一 key,執(zhí)行用戶自定義的Reduce函數(shù),輸出新的〈key, value〉鍵值對(duì)；
步驟b5 :這Output階段中，把Reduce輸出的結(jié)果寫入到輸出目錄的文件中。較佳的，本發(fā)明提供了一種網(wǎng)絡(luò)信息的云聚類提取方法，其中，Map/Reduce框架和分布式文件系統(tǒng)運(yùn)行在一組相同的節(jié)點(diǎn)上。相較于先前技術(shù)，本發(fā)明提供了一種網(wǎng)絡(luò)信息的云聚類提取方法，解決了 S0M、Kmeans等經(jīng)典聚類算法如何和云計(jì)算的計(jì)算模型Map/Reduce進(jìn)行無(wú)縫結(jié)合,從而得到基于云計(jì)算的Map/Reduce化SOM、Kmeans聚類算法,使用K_means等聚類算法,提出基于聚類的核主成分分析方法，具有良好的特征提取性能，相比核主成分分析有更高的特征提取速度，使用GP預(yù)測(cè)算法來(lái)進(jìn)行網(wǎng)絡(luò)流量的預(yù)測(cè)，解決現(xiàn)有的網(wǎng)絡(luò)流量時(shí)間序列分析和預(yù)測(cè)算法中主觀性太強(qiáng)的缺點(diǎn)，可以應(yīng)用于網(wǎng)絡(luò)安全監(jiān)測(cè)中。

圖1為HDFS結(jié)構(gòu)示意2為Map/Reduce算法示意3為本發(fā)明的方法流程圖
圖4為文件寫入的步驟流程圖
圖5為基于云計(jì)算的Map/Reduce化的SOM、Kmeans聚類算法的步驟流程圖
具體實(shí)施例方式請(qǐng)參考圖1至圖5，本發(fā)明提供了一種網(wǎng)絡(luò)信息的云聚類提取方法，結(jié)合云計(jì)算技術(shù)和人工智能技術(shù)，主動(dòng)進(jìn)行網(wǎng)絡(luò)內(nèi)容監(jiān)控預(yù)警，主動(dòng)采集網(wǎng)站的內(nèi)容，獲得網(wǎng)站里的熱點(diǎn)網(wǎng)頁(yè)信息，得到熱點(diǎn)網(wǎng)頁(yè)所包含的內(nèi)容，并對(duì)內(nèi)容進(jìn)行分析。通過(guò)丟棄不相關(guān)特征和冗余特征，有效降維，減少計(jì)算用時(shí)，提高系統(tǒng)工作效率。網(wǎng)絡(luò)信息內(nèi)容變化多樣，從中提取涉及危害國(guó)家和大眾社會(huì)的有害信息，難度很大。發(fā)明提出重點(diǎn)采取云聚類方法提取有害信息的特征，再用GP (遺傳程序設(shè)計(jì))預(yù)測(cè)算法對(duì)有害信息進(jìn)行分析，提高對(duì)有害信息的命中率和檢測(cè)效率。其中，參考圖3，該方法主要包括以下步驟
步驟10 :利用分布式文件系統(tǒng)(Hadoop Distributed File System,簡(jiǎn)稱HDFS)進(jìn)行文件寫入、數(shù)據(jù)存儲(chǔ)及訪問(wèn)網(wǎng)絡(luò)信息，該分布式文件系統(tǒng)包括一個(gè)主節(jié)點(diǎn)以及若干個(gè)子節(jié)點(diǎn)，主節(jié)點(diǎn)用以存儲(chǔ)該分布式文件系統(tǒng)的元數(shù)據(jù)，所述元數(shù)據(jù)包括文件系統(tǒng)的名字空間以及管理文件的存儲(chǔ)，所述子節(jié)點(diǎn)用以存放數(shù)據(jù)，由客戶端直接與各子節(jié)點(diǎn)建立數(shù)據(jù)通信；
步驟20 :利用SOM、Kmeans經(jīng)典聚類算法與云計(jì)算的計(jì)算模型Map/Reduce進(jìn)行無(wú)縫結(jié)合，從而得到基于云計(jì)算的Map/Reduce化的S0M、Kmeans聚類算法,其采用JobTracker/TaskTrackers的結(jié)構(gòu)來(lái)實(shí)現(xiàn)Map/Reduce計(jì)算模式,JobTracker負(fù)責(zé)整個(gè)Map/Reduce的控制工作，首先選擇空閑的TaskTracker來(lái)分配這些Map任務(wù)或者Reduce任務(wù)；TaskTracker執(zhí)行從JobTracker發(fā)來(lái)的指令并同時(shí)處理Map和Reduce階段之間數(shù)據(jù)的移動(dòng)，每個(gè)TaskTracker節(jié)點(diǎn)會(huì)周期性的報(bào)告完成的工作和狀態(tài)的更新,若其中一個(gè)TaskTracker節(jié)點(diǎn)保持沉默超過(guò)一個(gè)預(yù)設(shè)的時(shí)間間隔，則JobTracker記錄下這個(gè)節(jié)點(diǎn)狀態(tài)為死亡，并把分配給這個(gè)節(jié)點(diǎn)的數(shù)據(jù)發(fā)到別的節(jié)點(diǎn)。其中，所述分布式文件系統(tǒng)中，以塊序列的形式存儲(chǔ)各個(gè)文件，所述存儲(chǔ)各個(gè)文件的塊被復(fù)制，且塊的大小和副本的個(gè)數(shù)都可以配置，主節(jié)點(diǎn)控制所有的塊復(fù)制操，其周期性地接收子節(jié)點(diǎn)的心跳回應(yīng)和塊報(bào)告，收到子節(jié)點(diǎn)的心跳回應(yīng)表示這個(gè)子節(jié)點(diǎn)是正常的，而一個(gè)塊報(bào)告包括該子節(jié)點(diǎn)上的所有的塊列表。其中，Map/Reduce框架和分布式文件系統(tǒng)運(yùn)行在一組相同的節(jié)點(diǎn)上。于本實(shí)施例中，云計(jì)算的Map/Reduce模型是需要大集群機(jī)器才能運(yùn)行的，比如Google的機(jī)器群達(dá)到200X5000的規(guī)模。首先，該方法搭建了一個(gè)小型的Hadoop并行計(jì)算平臺(tái)，主要利用了 DistributedFile System(DFS)、BigTable 和 Map/Reduce 模型等技術(shù)，利用 Map/Reduce 模型，云計(jì)算可以很容易的將經(jīng)典數(shù)據(jù)挖掘算法進(jìn)行并行運(yùn)行以提高效率，而且不影響算法的運(yùn)行結(jié)果，該Hadoop分布式計(jì)算平臺(tái)以后根據(jù)需要還可以不斷擴(kuò)容。目前搭建的Hadoop分布式計(jì)算平臺(tái)由八臺(tái)機(jī)器組建而成，其中包括了一臺(tái)Datanode用于管理整個(gè)集群的HDFS文件系統(tǒng)，一臺(tái)Jobtracker用于掌控全局計(jì)算系統(tǒng)，以及六臺(tái)用于存儲(chǔ)數(shù)據(jù)和分布式計(jì)算。除了安裝Hadoop分布式計(jì)算平臺(tái)之外，系統(tǒng)還配置有給予Hadoop系統(tǒng)的Hive,Pig以及Hbase，其中Hive能夠使用SQL語(yǔ)言進(jìn)行對(duì)集群上的數(shù)據(jù)進(jìn)行查詢和操作，且其計(jì)算是依據(jù)Map/Reduce運(yùn)行的，這已經(jīng)被用于日常查詢。而Pig能夠?qū)旱臄?shù)據(jù)進(jìn)行更簡(jiǎn)單的管理和操作，Hbase作為鏈?zhǔn)綌?shù)據(jù)庫(kù)系統(tǒng)，亦有很強(qiáng)的應(yīng)用前景。又，使用Hadoop HDFS來(lái)存儲(chǔ)網(wǎng)絡(luò)內(nèi)容信息。Hadoop HDFS被設(shè)計(jì)成適合運(yùn)行在通用硬件上的分布式文件系統(tǒng)，它和現(xiàn)有的分布式文件系統(tǒng)有很多共同點(diǎn)，但同時(shí)，它和其他的分布式文件系統(tǒng)的區(qū)別也是很明顯的。HDFS是一個(gè)高度容錯(cuò)性的系統(tǒng)，適合部署在廉價(jià)的機(jī)器上。HDFS能提供高吞吐量的數(shù)據(jù)訪問(wèn)，非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。HDFS由一個(gè)名叫NameNode的主節(jié)點(diǎn)和多個(gè)名叫DataNode的子節(jié)點(diǎn)組成，是一種典型的主從式(Master/Slave)架構(gòu)，這種架構(gòu)方法可以通過(guò)主節(jié)點(diǎn)屏蔽底層的復(fù)雜結(jié)構(gòu)，并向Client提供方便的文件目錄映射。NameNode存儲(chǔ)著文件系統(tǒng)的元數(shù)據(jù)，這些元數(shù)據(jù)包括文件系統(tǒng)的名字空間等，并管理文件的存儲(chǔ)等服務(wù)，但實(shí)際的數(shù)據(jù)并不存放在NameNode,而是由HDFS中的DataNode來(lái)存放數(shù)據(jù),然后由Client(客戶端)直接與DataNode建立數(shù)據(jù)通信。此外，HDFS為了可靠地海量存儲(chǔ)文件，各個(gè)文件以塊序列的形式存儲(chǔ)。為了保證故障容錯(cuò)，文件的塊被復(fù)制。塊的大小和副本的個(gè)數(shù)都可以配置。一般地，默認(rèn)的HDFS的數(shù)據(jù)塊的大小是64M，也就是說(shuō)如果放置到HDFS上的數(shù)據(jù)小于64M，那么將只有一個(gè)數(shù)據(jù)塊，此時(shí)會(huì)被放置到某一個(gè)DataNode中；NameN0de控制所有的塊復(fù)制操作。它周期性地接收來(lái)自集群中DataNode的“心跳”回應(yīng)和塊報(bào)告。收到一個(gè)節(jié)點(diǎn)的“心跳”回應(yīng)表示這個(gè)DataNode是正常的。一個(gè)塊報(bào)告包括該數(shù)據(jù)節(jié)點(diǎn)上的所有的塊列表。HDFS的體系結(jié)構(gòu)如圖1所示。從圖1及圖4中可以看出NameNode、DataNode和Client三者之間的交互關(guān)系，例如文件寫入主要包括以下步驟
步驟101 :客戶端向主節(jié)點(diǎn)發(fā)起文件寫入的請(qǐng)求；
步驟102 :主節(jié)點(diǎn)根據(jù)文件大小和文件塊向客戶端返回該主節(jié)點(diǎn)所管理的子節(jié)點(diǎn)的地址信息；以及
步驟103 :客戶端將文件劃分為若干個(gè)塊，根據(jù)子節(jié)點(diǎn)的地址信息，按順序?qū)懭氲矫恳粋€(gè)子節(jié)點(diǎn)的塊中。再者,S0M>Kmeans等經(jīng)典聚類算法如何和云計(jì)算的計(jì)算模型Map/Reduce結(jié)合,從而得到基于云計(jì)算的Map/Reduce化SOM、Kmeans聚類算法。基于Hadoop Map/Reduce的SOM、Kmeans聚類算法流程如圖2及圖5所不。所述基于云計(jì)算的Map/Reduce化的SOM、Kmeans聚類算法主要包括以下步驟步驟201 :輸入網(wǎng)絡(luò)信息；
步驟202 :根據(jù)聚類算法提供Map和Reduce函數(shù)，Map/Reduce框架把用戶作業(yè)的輸入看作是若干組〈key, value)鍵值對(duì),Map/Reduce框架會(huì)調(diào)用用戶自定義的Map函數(shù)處理每一組〈key, value〉鍵值對(duì),生成一批新的中間〈key, value〉鍵值對(duì),這兩組鍵值對(duì)的類型不一定相同；
步驟203 :在Shuffle階段，Map/Reduce框架通過(guò)HTTP為每個(gè)鍵值對(duì)；在Sort階段，由于不同map的輸出中可能會(huì)有相同的key，Map/Reduce框架將按照key的值對(duì)Reduce的輸入進(jìn)行分組，Shuffle階段和Sort階段是同時(shí)進(jìn)行的，Reduce的輸入也是一邊被取出，一邊被合并，以保證Reduce的輸入是Map排好序的輸出；
步驟204 :在Reduce階段中，遍歷中間數(shù)據(jù)，對(duì)每一個(gè)唯一 key,執(zhí)行用戶自定義的Reduce函數(shù),輸出新的〈key, value〉鍵值對(duì)；
步驟205 :這Output階段中，把Reduce輸出的結(jié)果寫入到輸出目錄的文件中。Hadoop 米用了 JobTracker/TaskTrackers 的結(jié)構(gòu)來(lái)實(shí)現(xiàn) Map/Reduce 計(jì)算模式，該結(jié)構(gòu)也是一種典型的主從式結(jié)構(gòu)。JobTracker負(fù)責(zé)整個(gè)Map/Reduce的控制工作，首先選擇空閑的TaskTracker來(lái)分配這些Map任務(wù)或者Reduce任務(wù)；TaskTracker執(zhí)行從JobTracker發(fā)來(lái)的指令并同時(shí)處理Map和Reduce階段之間數(shù)據(jù)的移動(dòng)，每個(gè)TaskTracker節(jié)點(diǎn)會(huì)周期性的報(bào)告完成的工作和狀態(tài)的更新。如果一個(gè)TaskTracker節(jié)點(diǎn)保持沉默超過(guò)一個(gè)預(yù)設(shè)的時(shí)間間隔，JobTracker會(huì)記錄下這個(gè)節(jié)點(diǎn)狀態(tài)為死亡，并把分配給這個(gè)節(jié)點(diǎn)的數(shù)據(jù)發(fā)到別的節(jié)點(diǎn)。通常，Map/Reduce框架和分布式文件系統(tǒng)HDFS是運(yùn)行在一組相同的節(jié)點(diǎn)上的，也就是說(shuō)，計(jì)算節(jié)點(diǎn)和存儲(chǔ)節(jié)點(diǎn)通常在一起。這種配置允許框架在那些已經(jīng)存好數(shù)據(jù)的節(jié)點(diǎn)上高效地調(diào)度任務(wù)，這可以使整個(gè)集群的網(wǎng)絡(luò)帶寬被高效地利用。(I)在網(wǎng)絡(luò)信息內(nèi)容分析中嘗試使用了云計(jì)算和Hadoop技術(shù)，以避免海量數(shù)據(jù)的處理瓶頸。(2)K_means、S0M等聚類算法的應(yīng)用。大量網(wǎng)絡(luò)內(nèi)容分析的方法很有效果，但其會(huì)遇到計(jì)算上的困難(與樣本數(shù)有關(guān))。使用K-means等聚類算法，提出基于聚類的核主成分分析方法，具有良好的特征提取性能，相比核主成分分析有更高的特征提取速度。(3)云計(jì)算和Hadoop技術(shù)與SOM、Kmeans等聚類算法的完美結(jié)合,可以進(jìn)一步提高計(jì)算效率。而用云聚類方法得出的網(wǎng)絡(luò)信息內(nèi)容可以進(jìn)一步用于各種目前成熟的網(wǎng)絡(luò)信息內(nèi)容分析方法中去，以提高這些方法的效率和精度。(4)使用GP預(yù)測(cè)算法來(lái)進(jìn)行網(wǎng)絡(luò)流量的預(yù)測(cè)。改進(jìn)混沌系統(tǒng)中的兩個(gè)重要特征量嵌入維數(shù)和時(shí)間延遲的計(jì)算，根據(jù)計(jì)算得出的上述兩個(gè)參數(shù)重構(gòu)相空間；然后在相空間中作軌跡的線性擬合，選擇軌跡中的最近鄰點(diǎn)作一次性的預(yù)測(cè)。提出的算法可在相空間中很好地把軌跡的線性擬合與最近鄰方法結(jié)合起來(lái)，解決現(xiàn)有的網(wǎng)絡(luò)流量時(shí)間序列分析和預(yù)測(cè)算法中主觀性太強(qiáng)的缺點(diǎn)，可以應(yīng)用于網(wǎng)絡(luò)安全監(jiān)測(cè)中。以上所述僅為本發(fā)明的較佳實(shí)施例，并非用來(lái)限定本發(fā)明的實(shí)施范圍；凡是依本發(fā)明所作的等效變化與修改，都被本發(fā)明權(quán)利要求書的范圍所覆蓋。
權(quán)利要求
1.一種網(wǎng)絡(luò)信息的云聚類提取方法，其特征在于，該方法主要包括以下步驟步驟a:利用分布式文件系統(tǒng)進(jìn)行文件寫入、數(shù)據(jù)存儲(chǔ)及訪問(wèn)網(wǎng)絡(luò)信息，該分布式文件系統(tǒng)包括一個(gè)主節(jié)點(diǎn)以及若干個(gè)子節(jié)點(diǎn)，主節(jié)點(diǎn)用以存儲(chǔ)該分布式文件系統(tǒng)的元數(shù)據(jù)，所述元數(shù)據(jù)包括文件系統(tǒng)的名字空間以及管理文件的存儲(chǔ)，所述子節(jié)點(diǎn)用以存放數(shù)據(jù)，由客戶端直接與各子節(jié)點(diǎn)建立數(shù)據(jù)通信；步驟b :利用SOM、Kmeans聚類算法與云計(jì)算的計(jì)算模型Map/Reduce進(jìn)行無(wú)縫結(jié)合,得到基于云計(jì)算的Map/Reduce化的SOM、Kmeans聚類算法,其米用JobTracker/TaskTrackers的結(jié)構(gòu)實(shí)現(xiàn)Map/Reduce計(jì)算模式，JobTracker負(fù)責(zé)整個(gè)Map/Reduce的控制工作，首先選擇空閑的TaskTracker來(lái)分配這些Map任務(wù)或者Reduce任務(wù)，TaskTracker執(zhí)行從JobTracker發(fā)出的指令并同時(shí)處理Map和Reduce階段之間數(shù)據(jù)的移動(dòng)，每個(gè)TaskTracker節(jié)點(diǎn)會(huì)周期性的報(bào)告完成的工作及狀態(tài)的更新，若其中一個(gè)TaskTracker節(jié)點(diǎn)保持沉默超過(guò)一個(gè)預(yù)設(shè)的時(shí)間間隔，則JobTracker將這個(gè)節(jié)點(diǎn)狀態(tài)記錄為死亡,并把分配給這個(gè)節(jié)點(diǎn)的數(shù)據(jù)發(fā)到別的節(jié)點(diǎn)。
2.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)信息的云聚類提取方法，其特征在于，所述分布式文件系統(tǒng)中，以塊序列的形式存儲(chǔ)各個(gè)文件。
3.根據(jù)權(quán)利要求2所述的網(wǎng)絡(luò)信息的云聚類提取方法，其特征在于，所述存儲(chǔ)各個(gè)文件的塊被復(fù)制，且塊的大小和副本的個(gè)數(shù)都可以配置，主節(jié)點(diǎn)控制所有的塊復(fù)制操，其周期性地接收子節(jié)點(diǎn)的心跳回應(yīng)和塊報(bào)告，收到子節(jié)點(diǎn)的心跳回應(yīng)表示這個(gè)子節(jié)點(diǎn)是正常的，而一個(gè)塊報(bào)告包括該子節(jié)點(diǎn)上的所有的塊列表。
4.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)信息的云聚類提取方法，其特征在于，所述分布式文件系統(tǒng)中，所述文件寫入主要包括以下步驟步驟al :客戶端向主節(jié)點(diǎn)發(fā)起文件寫入的請(qǐng)求；步驟a2 :主節(jié)點(diǎn)根據(jù)文件大小和文件塊向客戶端返回該主節(jié)點(diǎn)所管理的子節(jié)點(diǎn)的地址信息；以及步驟a3:客戶端將文件劃分為若干個(gè)塊，根據(jù)子節(jié)點(diǎn)的地址信息，按順序?qū)懭氲矫恳粋€(gè)子節(jié)點(diǎn)的塊中。
5.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)信息的云聚類提取方法，其特征在于，所述基于云計(jì)算的Map/Reduce化的SOM、Kmeans聚類算法主要包括以下步驟步驟bl :輸入網(wǎng)絡(luò)信息；步驟b2 :根據(jù)聚類算法提供Map和Reduce函數(shù),Map/Reduce框架把用戶作業(yè)的輸入看作是若干組〈key, value)鍵值對(duì),Map/Reduce框架會(huì)調(diào)用用戶自定義的Map函數(shù)處理每一組〈key, value〉鍵值對(duì),生成一批新的中間〈key, value〉鍵值對(duì),這兩組鍵值對(duì)的類型不一定相同；步驟b3 :在Shuffle階段，Map/Reduce框架通過(guò)HTTP為每個(gè)鍵值對(duì)；在Sort階段，由于不同map的輸出中可能會(huì)有相同的key, Map/Reduce框架將按照key的值對(duì)Reduce的輸入進(jìn)行分組，Shuffle階段和Sort階段是同時(shí)進(jìn)行的，Reduce的輸入也是一邊被取出，一邊被合并，以保證Reduce的輸入是Map排好序的輸出；步驟b4 :在Reduce階段中，遍歷中間數(shù)據(jù)，對(duì)每一個(gè)唯一 key,執(zhí)行用戶自定義的Reduce函數(shù),輸出新的〈key, value〉鍵值對(duì)；步驟b5 :這Output階段中，把Reduce輸出的結(jié)果寫入到輸出目錄的文件中。
6.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)信息的云聚類提取方法，其特征在于，Map/Reduce框架和分布式文件系統(tǒng)運(yùn)行在一組相同的節(jié)點(diǎn)上。
全文摘要
本發(fā)明提供了一種網(wǎng)絡(luò)信息的云聚類提取方法，分布式文件系統(tǒng)進(jìn)行文件寫入、數(shù)據(jù)存儲(chǔ)及訪問(wèn)網(wǎng)絡(luò)信息；SOM、Kmeans聚類算法與云計(jì)算的計(jì)算模型Map/Reduce進(jìn)行無(wú)縫結(jié)合，得到基于云計(jì)算的Map/Reduce化的SOM、Kmeans聚類算法，JobTracker負(fù)責(zé)整個(gè)Map/Reduce的控制工作，空閑的TaskTracker來(lái)分配這些Map任務(wù)或者Reduce任務(wù)；TaskTracker執(zhí)行從JobTracker發(fā)來(lái)的指令并同時(shí)處理Map和Reduce階段之間數(shù)據(jù)的移動(dòng)，每個(gè)TaskTracker節(jié)點(diǎn)會(huì)周期性的報(bào)告完成的工作和狀態(tài)的更新，若其中一個(gè)TaskTracker節(jié)點(diǎn)保持沉默超過(guò)一個(gè)預(yù)設(shè)的時(shí)間間隔，則JobTracker記錄下這個(gè)節(jié)點(diǎn)狀態(tài)為死亡，并把分配給這個(gè)節(jié)點(diǎn)的數(shù)據(jù)發(fā)到別的節(jié)點(diǎn)。本發(fā)明具有良好的特征提取性能，解決現(xiàn)有的網(wǎng)絡(luò)流量時(shí)間序列分析和預(yù)測(cè)算法中主觀性太強(qiáng)的缺點(diǎn)。
文檔編號(hào)H04L29/08GK102999633SQ201210550759
公開(kāi)日2013年3月27日申請(qǐng)日期2012年12月18日優(yōu)先權(quán)日2012年12月18日
發(fā)明者呂威申請(qǐng)人:北京師范大學(xué)珠海分校

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：呂威
技術(shù)所有人：北京師范大學(xué)珠海分校
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開(kāi)發(fā) 4.機(jī)械工程測(cè)試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開(kāi)發(fā)
3、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測(cè)試系統(tǒng)設(shè)計(jì) 2.汽車檢測(cè)系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

點(diǎn)云聚類相關(guān)技術(shù)

點(diǎn)云聚類分割相關(guān)技術(shù)

點(diǎn)云聚類算法相關(guān)技術(shù)

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

網(wǎng)絡(luò)信息的云聚類提取方法