两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于Topology模型的數(shù)據(jù)流頻繁閉項(xiàng)集的挖掘方法

文檔序號(hào):10512271閱讀:250來(lái)源:國(guó)知局
一種基于Topology模型的數(shù)據(jù)流頻繁閉項(xiàng)集的挖掘方法
【專利摘要】本發(fā)明公開(kāi)了一種基于Topology模型的數(shù)據(jù)流頻繁閉項(xiàng)集的挖掘方法,該方法通過(guò)單遍掃描輸入數(shù)據(jù)流并基于基礎(chǔ)窗口的概念進(jìn)行劃分,對(duì)若干基礎(chǔ)窗口組成一個(gè)滑動(dòng)窗口處理單元,數(shù)據(jù)流更新和刪除以基礎(chǔ)窗口為單位;對(duì)當(dāng)前滑動(dòng)窗口利用Topology分布式并行模型處理基礎(chǔ)窗口,每個(gè)基礎(chǔ)窗口利用CET樹(shù)結(jié)構(gòu)挖掘臨界結(jié)果并合并插入GCFI?tree樹(shù)中,挖掘出整個(gè)滑動(dòng)窗口的全局頻繁閉項(xiàng)集合并存儲(chǔ)至Result?List表。轉(zhuǎn)而進(jìn)入下一次滑動(dòng)窗口的迭代過(guò)程。實(shí)驗(yàn)證明,本文的方法能夠保證挖掘結(jié)果準(zhǔn)確性的同時(shí),大大提高挖掘速度和存儲(chǔ)空間,效果顯著,具有較強(qiáng)的實(shí)用價(jià)值。
【專利說(shuō)明】
一種基于Topo I ogy模型的數(shù)據(jù)流頻繁閉項(xiàng)集的挖掘方法
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及數(shù)據(jù)挖掘技術(shù)中的數(shù)據(jù)流頻繁模式挖掘方法,尤其涉及一種基于Topology模型的數(shù)據(jù)流頻繁閉項(xiàng)集的挖掘方法,屬于數(shù)據(jù)處理領(lǐng)域。
【背景技術(shù)】
[0002]隨著計(jì)算機(jī)網(wǎng)絡(luò)和信息全球化的發(fā)展,人類進(jìn)入大數(shù)據(jù)時(shí)代。諸多網(wǎng)絡(luò)入侵監(jiān)控、傳感器網(wǎng)絡(luò)、通訊訪問(wèn)數(shù)據(jù)、股票交易記錄、天氣、環(huán)境或交通監(jiān)測(cè)等領(lǐng)域中,信息量的指數(shù)式增長(zhǎng)、大量數(shù)據(jù)流形式信息的出現(xiàn),使得人們迫切需要從中獲取有用的知識(shí)和信息。由此,數(shù)據(jù)流的挖掘和分析已成為一個(gè)研究熱點(diǎn),而頻繁閉模式挖掘作為其中一個(gè)重要分支顯得尤為重要。
[0003]通常挖掘數(shù)據(jù)流頻繁項(xiàng)集的方法存在著不足之處:有可能產(chǎn)生組合爆炸問(wèn)題,嚴(yán)重影響算法的時(shí)間和空間效率,同時(shí)用戶難以理解和應(yīng)用數(shù)量眾多的頻繁項(xiàng)集結(jié)果。頻繁閉項(xiàng)集作為頻繁項(xiàng)集的一個(gè)子集,能夠確定挖掘頻繁模式的準(zhǔn)確支持度,并且相較于頻繁項(xiàng)集小了幾個(gè)數(shù)量級(jí),尤其適合于存在大量強(qiáng)模式、長(zhǎng)模式和要求閾值較低的實(shí)際應(yīng)用,具有很好的實(shí)用意義。
[0004]為了解決數(shù)據(jù)流的無(wú)限性,人們將窗口模式應(yīng)用于數(shù)據(jù)流挖掘模式中。大致可主要分為3類不同的模式:界標(biāo)窗口模型(Landmark Window Model)、時(shí)間衰減窗口模型
[0005](Damped Window Model)和滑動(dòng)窗口模型(Sliding Window Model)。界標(biāo)窗口指特定一時(shí)間點(diǎn)(或數(shù)據(jù)流中一條特定的數(shù)據(jù))到當(dāng)前時(shí)間(或當(dāng)前條數(shù)據(jù))之間的數(shù)據(jù);時(shí)間衰減窗口和界標(biāo)窗口所包含的數(shù)據(jù)是相同的,但衰減窗口中的每條數(shù)據(jù)有不同的權(quán)重,距離當(dāng)前時(shí)間越近,數(shù)據(jù)的權(quán)重越大;滑動(dòng)窗口模型中,當(dāng)前處理數(shù)據(jù)的個(gè)數(shù)固定或者當(dāng)前處理數(shù)據(jù)的時(shí)間段長(zhǎng)度是固定的。實(shí)際應(yīng)用中人們往往只對(duì)數(shù)據(jù)流中的某一部分?jǐn)?shù)據(jù)感興趣,因此利用滑動(dòng)窗口模式不但能提高數(shù)據(jù)處理效率,減少系統(tǒng)資源浪費(fèi),而且能夠得到用戶需求的挖掘結(jié)果。
[0006]與此同時(shí),隨著信息化和數(shù)據(jù)規(guī)模的增長(zhǎng),催生出了一批新的處理技術(shù),面向不同場(chǎng)景的大數(shù)據(jù)處理平臺(tái)相繼出現(xiàn):用于批處理的Hadoop平臺(tái)、立足于內(nèi)存計(jì)算的分布式計(jì)算系統(tǒng)Spark、分布式實(shí)時(shí)計(jì)算系統(tǒng)Storm等,這些技術(shù)的應(yīng)用,解決了大數(shù)據(jù)背景下現(xiàn)有單機(jī)環(huán)境處理數(shù)據(jù)存在的吞吐量小、實(shí)時(shí)性差、難以達(dá)到預(yù)期效果的缺陷??偠灾瑐鹘y(tǒng)的數(shù)據(jù)流挖掘算法無(wú)法應(yīng)對(duì)大數(shù)據(jù)環(huán)境所產(chǎn)生的海量實(shí)時(shí)數(shù)據(jù)處理需求,并且在處理效率和資源使用上也達(dá)不到用戶預(yù)期的需求,需要對(duì)其進(jìn)行改進(jìn)和研究。

【發(fā)明內(nèi)容】

[0007]本發(fā)明所要解決的技術(shù)問(wèn)題是針對(duì)【背景技術(shù)】的不足提供了一種基于Topology模型的數(shù)據(jù)流頻繁閉項(xiàng)集的挖掘方法。
[0008]本發(fā)明為解決上述技術(shù)問(wèn)題采用以下技術(shù)方案:
[0009]—種基于Topology模型的數(shù)據(jù)流頻繁閉項(xiàng)集的挖掘方法,具體包含如下步驟:
[0010]步驟一,輸入數(shù)據(jù)流并劃分為多個(gè)基礎(chǔ)窗口 ;
[0011 ] 步驟二,若干基礎(chǔ)窗口組成一個(gè)滑動(dòng)窗口處理單元,利用Topology模型對(duì)每個(gè)滑動(dòng)窗口處理單元進(jìn)行操作;
[0012]步驟三,在滑動(dòng)窗口處理單元中利用CET樹(shù)結(jié)構(gòu)并行化計(jì)算挖掘每個(gè)基礎(chǔ)窗口的臨界頻繁閉集合;
[0013]步驟四,將步驟三挖掘的臨界頻繁閉集合插入GCF1-tree樹(shù)中,進(jìn)而挖掘全局頻繁閉集合;
[OOM] 步驟五,將步驟四挖掘的全局頻繁閉集合存儲(chǔ)至Result-List表中。
[0015]作為本發(fā)明一種基于Topology模型的數(shù)據(jù)流頻繁閉項(xiàng)集的挖掘方法的進(jìn)一步優(yōu)選方案,所述Topology模型包含依次連接的DS-Spout模塊、CET-Bolt模塊、Count-Bolt模塊、GCF1-tree-Bolt模塊、Result-Bolt模塊,所述CET-Bolt模塊用于并行化計(jì)算,設(shè)置其執(zhí)行并行度為滑動(dòng)窗口包含的基礎(chǔ)窗口數(shù)目;所述Count-Bolt用于統(tǒng)計(jì)臨界挖掘結(jié)果,并行度與CET-Bolt模塊保持一致;所述GCF1-tree-Bolt用于匯總結(jié)果;所述Result-Bolt模塊負(fù)責(zé)全局te掘結(jié)果輸出。
[0016]作為本發(fā)明一種基于Topology模型的數(shù)據(jù)流頻繁閉項(xiàng)集的挖掘方法的進(jìn)一步優(yōu)選方案,所述CET樹(shù)結(jié)構(gòu)的子節(jié)點(diǎn)包含非頻繁節(jié)點(diǎn)、無(wú)希望節(jié)點(diǎn)、中間節(jié)點(diǎn)和閉合節(jié)點(diǎn)四種節(jié)點(diǎn)類型。
[0017 ]作為本發(fā)明一種基于Topology模型的數(shù)據(jù)流頻繁閉項(xiàng)集的挖掘方法的進(jìn)一步優(yōu)選方案,所述CET樹(shù)結(jié)構(gòu)由五個(gè)域組成,所述五個(gè)域具體包含:滑動(dòng)窗口中的基礎(chǔ)窗口序列號(hào)、節(jié)點(diǎn)表示的項(xiàng)集名、項(xiàng)集在基礎(chǔ)窗口中的支持度計(jì)數(shù)、用于鏈接該節(jié)點(diǎn)的子節(jié)點(diǎn)或父節(jié)點(diǎn)節(jié)點(diǎn)指針鏈表、臨界頻繁閉項(xiàng)集節(jié)點(diǎn)判斷標(biāo)識(shí)符。
[0018]作為本發(fā)明一種基于Topology模型的數(shù)據(jù)流頻繁閉項(xiàng)集的挖掘方法的進(jìn)一步優(yōu)選方案,所述GCF1-tree中的節(jié)點(diǎn)由k+3個(gè)域組成,即:
[0019](Itemname,SumCount,fi,fi+i,fi+2,....fi+k-1,Bffn-List)
[0020]其中,Itemname為項(xiàng)目名;SumCount為滑動(dòng)窗口的項(xiàng)集支持度總計(jì)數(shù);i為第i次挖掘迭代過(guò)程中的第i個(gè)滑動(dòng)窗口,f為各基礎(chǔ)窗口的支持度計(jì)數(shù),k為設(shè)置的基礎(chǔ)窗口數(shù)目,BWn-List為指向BWr^最后一臨界頻繁閉項(xiàng)集的尾節(jié)點(diǎn),i < η < i+k-Ι。
[0021]本發(fā)明采用以上技術(shù)方案與現(xiàn)有技術(shù)相比,具有以下技術(shù)效果:
[0022]1、通過(guò)引入Topology分布式并行處理模型,優(yōu)化了算法的執(zhí)行效率,大大減少了計(jì)算時(shí)間成本;
[0023]2、只需挖掘存儲(chǔ)基礎(chǔ)窗口中的臨界頻繁閉合項(xiàng)集,CET樹(shù)結(jié)構(gòu)在使用得出輸出結(jié)果后即可釋放其占用內(nèi)存空間,大大加強(qiáng)了算法的靈活性,節(jié)省了存儲(chǔ)空間消耗;
[0024]3、改善了傳統(tǒng)算法頻繁更新造成的難維護(hù)和數(shù)據(jù)顛簸問(wèn)題,提高了穩(wěn)定性。
【附圖說(shuō)明】
[0025]圖1是本發(fā)明數(shù)據(jù)流頻繁模式挖掘的實(shí)現(xiàn)流程圖;
[0026]圖2是Topology模型各處理模塊的示意圖;
[0027]圖3是CET模式樹(shù)結(jié)構(gòu)的示意圖;
[0028]圖4是前綴壓縮樹(shù)結(jié)構(gòu)GCF1-tree的示意圖。
【具體實(shí)施方式】
[0029]下面結(jié)合附圖對(duì)本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)說(shuō)明:
[0030]如圖1所示,一種基于Topology模型的數(shù)據(jù)流頻繁閉項(xiàng)集的挖掘方法,具體包含如下步驟:
[0031 ]步驟一,輸入數(shù)據(jù)流并劃分為多個(gè)基礎(chǔ)窗口 ;
[0032]步驟二,若干基礎(chǔ)窗口組成一個(gè)滑動(dòng)窗口處理單元,利用Topology模型對(duì)每個(gè)滑動(dòng)窗口處理單元進(jìn)行操作;
[0033]步驟三,在滑動(dòng)窗口處理單元中利用CET樹(shù)結(jié)構(gòu)并行化計(jì)算挖掘每個(gè)基礎(chǔ)窗口的臨界頻繁閉集合;
[0034]步驟四,將步驟三挖掘的臨界頻繁閉集合插入GCF1-tree樹(shù)中,進(jìn)而挖掘全局頻繁閉集合;
[0035]步驟五,將步驟四挖掘的全局頻繁閉集合存儲(chǔ)至Result-List表中。
[0036]其中,所述Topo1gy模型包含依次連接的DS-Spout模塊、CET-BoIt模塊、Count-Bolt模塊、GCF1-tree-Bolt模塊、Result-Bolt模塊,所述CET-Bolt模塊用于并行化計(jì)算,設(shè)置其執(zhí)行并行度為滑動(dòng)窗口包含的基礎(chǔ)窗口數(shù)目;所述Count-Bolt用于統(tǒng)計(jì)臨界挖掘結(jié)果,并行度與CET-BoIt模塊保持一致;所述GCF1-tree-Bolt用于匯總結(jié)果;所述Result-Boltl^塊負(fù)責(zé)全局fe掘結(jié)果輸出。
[0037]所述CET樹(shù)結(jié)構(gòu)的子節(jié)點(diǎn)包含非頻繁節(jié)點(diǎn)、無(wú)希望節(jié)點(diǎn)、中間節(jié)點(diǎn)和閉合節(jié)點(diǎn)四種節(jié)點(diǎn)類型,所述CET樹(shù)結(jié)構(gòu)由五個(gè)域組成,所述五個(gè)域具體包含:滑動(dòng)窗口中的基礎(chǔ)窗口序列號(hào)、節(jié)點(diǎn)表示的項(xiàng)集名、項(xiàng)集在基礎(chǔ)窗口中的支持度計(jì)數(shù)、用于鏈接該節(jié)點(diǎn)的子節(jié)點(diǎn)或父節(jié)點(diǎn)節(jié)點(diǎn)指針鏈表、臨界頻繁閉項(xiàng)集節(jié)點(diǎn)判斷標(biāo)識(shí)符。
[0038]所述GCF1-tree中的節(jié)點(diǎn)由k+3個(gè)域組成,即:
[0039](Itemname,SumCount,fi,fi+i,fi+2,....fi+k-1,Bffn-List)
[0040]其中,Itemname為項(xiàng)目名;SumCount為滑動(dòng)窗口的項(xiàng)集支持度總計(jì)數(shù);i為第i次挖掘迭代過(guò)程中的第i個(gè)滑動(dòng)窗口,f為各基礎(chǔ)窗口的支持度計(jì)數(shù),k為設(shè)置的基礎(chǔ)窗口數(shù)目,BWn-List為指向BWr^最后一臨界頻繁閉項(xiàng)集的尾節(jié)點(diǎn),i < η < i+k-Ι。
[0041]本發(fā)明公開(kāi)了一種基于Topology模型的數(shù)據(jù)流頻繁閉項(xiàng)集的挖掘方法,該方法通過(guò)單遍掃描輸入數(shù)據(jù)流并基于基礎(chǔ)窗口的概念進(jìn)行劃分,對(duì)若干基礎(chǔ)窗口組成一個(gè)滑動(dòng)窗口處理單元,數(shù)據(jù)流更新和刪除以基礎(chǔ)窗口為單位;對(duì)當(dāng)前滑動(dòng)窗口利用Topology模型對(duì)每個(gè)滑動(dòng)窗口處理單元進(jìn)行操作,每個(gè)基礎(chǔ)窗口利用CET樹(shù)結(jié)構(gòu)挖掘臨界結(jié)果并合并插入GCF1-tree樹(shù)中,挖掘出整個(gè)滑動(dòng)窗口的全局頻繁閉項(xiàng)集合并存儲(chǔ)至Result-List表。轉(zhuǎn)而進(jìn)入下一次滑動(dòng)窗口的迭代過(guò)程。實(shí)驗(yàn)證明,本文的方法能夠保證挖掘結(jié)果準(zhǔn)確性的同時(shí),大大提高挖掘速度和存儲(chǔ)空間,效果顯著,具有較強(qiáng)的實(shí)用價(jià)值。
[0042]具體步驟如下:
[0043 ]本發(fā)明提供一種基于T opo 1gy模型的數(shù)據(jù)流頻繁閉項(xiàng)集的改進(jìn)挖掘方法,基于所述滑動(dòng)窗口進(jìn)行操作,數(shù)據(jù)流隨著時(shí)間的推進(jìn)不斷滑動(dòng),以基礎(chǔ)窗口作為迭代挖掘過(guò)程的更新處理單元,一次挖掘過(guò)程包括以下步驟:
[0044]步驟I,單遍掃描預(yù)處理事務(wù)數(shù)據(jù)流對(duì)其劃分事務(wù)片段,獲得基礎(chǔ)窗口單元BW,標(biāo)注基礎(chǔ)窗口序列號(hào)BWi;
[0045]步驟2,向一個(gè)滑動(dòng)窗口處理單元SW不斷加入新到達(dá)的基礎(chǔ)窗口,判斷滑動(dòng)窗口是否填滿,所述滑動(dòng)窗口內(nèi)包含k個(gè)所述基礎(chǔ)窗口,當(dāng)所述基礎(chǔ)窗口序列號(hào)i小于k時(shí),往滑動(dòng)窗口中加入新到達(dá)的基礎(chǔ)窗口 ;當(dāng)滑動(dòng)窗口積滿時(shí),即新的基礎(chǔ)窗口序列號(hào)i大于k時(shí),先對(duì)過(guò)期窗口進(jìn)行刪除,再加入新到達(dá)的基礎(chǔ)窗口;
[0046]步驟3,對(duì)當(dāng)前處理滑動(dòng)窗口的每個(gè)基礎(chǔ)窗口,構(gòu)建CET樹(shù)結(jié)構(gòu)存儲(chǔ)數(shù)據(jù)流中的事務(wù)項(xiàng)集信息。首先對(duì)基礎(chǔ)窗口中的L個(gè)事務(wù)項(xiàng)集先按字典順序排序,統(tǒng)計(jì)生成事務(wù)項(xiàng)集集合Σ,依次按照Σ中的項(xiàng)順序,插入到CET樹(shù)結(jié)構(gòu)中,計(jì)算各子節(jié)點(diǎn)的支持度計(jì)數(shù),并判斷出節(jié)點(diǎn)所屬類型;
[0047]步驟4,根據(jù)每個(gè)基礎(chǔ)窗口的CET樹(shù)結(jié)構(gòu),找出對(duì)應(yīng)節(jié)點(diǎn)類型為閉合節(jié)點(diǎn),輸出其節(jié)點(diǎn)信息作為臨界頻繁閉項(xiàng)集合信息CFI;
[0048]步驟5,根據(jù)輸出的基礎(chǔ)窗口序列號(hào)i和對(duì)應(yīng)的臨界頻繁閉項(xiàng)集合信息CFI,依次插入存儲(chǔ)到前綴壓縮樹(shù)結(jié)構(gòu)GCF1-tree中,統(tǒng)計(jì)各基礎(chǔ)窗口的項(xiàng)集支持度得出GCF1-tree的項(xiàng)集支持度總數(shù),生成記錄基礎(chǔ)窗口信息的BWn-Li st指針鏈表;
[0049]步驟6,單遍遍歷GCF1-tree,根據(jù)推論得出的定理,找到樹(shù)中不小于用戶定義的最小支持度閾值的頻繁項(xiàng)集輸出作為最終在當(dāng)前滑動(dòng)窗口挖掘得到的全局頻繁項(xiàng)集集合信息,存儲(chǔ)至Result-List表中。
[0050]所述滑動(dòng)窗口定義包含k個(gè)所述基礎(chǔ)窗口 3BSSW:〈BWi,BWi+1,...,BWi+k-1>,其中i
[0051]表示第i個(gè)操作的滑動(dòng)窗口數(shù)。
[0052]所述字典序列為用戶事先定義的項(xiàng)目集中項(xiàng)目的順序排序項(xiàng)目A按字典順序小于B記為A〈B;同樣可定義項(xiàng)集間的字典序列,如AB〈ABC〈⑶E。
[0053]如圖2所示,所述Topology模型包含依次連接的DS-Spout模塊、CET-Bolt模塊、Count-Bo 11 模塊、GCF1-tree-Bo 11 模塊、Resul t_Bo 11 模塊,所述 CET-Bo 11 模塊用于并行化計(jì)算,設(shè)置其執(zhí)行并行度為滑動(dòng)窗口包含的基礎(chǔ)窗口數(shù)目;所述Count-Bolt用于統(tǒng)計(jì)臨界挖掘結(jié)果,并行度與CET-BoIt模塊保持一致;所述GCF1-tree-BoIt用于匯總結(jié)果;所述Result-Bolt模塊負(fù)責(zé)全局挖掘結(jié)果輸出。DS-Spout模塊對(duì)到達(dá)的數(shù)據(jù)流進(jìn)行事務(wù)集的分害J,按照設(shè)置的基礎(chǔ)窗口大小將事務(wù)數(shù)據(jù)集封裝為一個(gè)Tuple元組,每個(gè)Tuple有唯一的Id來(lái)保證數(shù)據(jù)的順序性,然后分配到待處理的Bolt中;CET-Bolt模塊對(duì)滑動(dòng)窗口的每個(gè)基礎(chǔ)窗口在一個(gè)Bolt中利用CET結(jié)構(gòu)發(fā)現(xiàn)臨界閉項(xiàng)集合,設(shè)置Bolt執(zhí)行的并行度k即為滑動(dòng)窗口中的基礎(chǔ)窗口數(shù)目,當(dāng)數(shù)據(jù)流在滑動(dòng)窗口中流動(dòng)更新時(shí),清空最先分配到的窗口序號(hào)最小的Bolt中的樹(shù)結(jié)構(gòu),并分配新到達(dá)的基礎(chǔ)窗口到Bolt中處理;Count-Bolt模塊存儲(chǔ)基礎(chǔ)窗口中挖掘出的臨界頻繁閉項(xiàng)集合信息并傳遞給下一級(jí)Bolt處理,當(dāng)數(shù)據(jù)流更新時(shí)其更新過(guò)程與CET-Bolt保持一致;GCF1-tree-Bolt模塊接收匯總k個(gè)Count-Bolt中存儲(chǔ)的臨界閉項(xiàng)集合,依次插入并構(gòu)建整個(gè)滑動(dòng)窗口的GCF1-tree樹(shù)結(jié)構(gòu),以基礎(chǔ)窗口為更新單位進(jìn)行樹(shù)結(jié)構(gòu)的更新;Result-Bol t模塊利用GCF1-tree挖掘滑動(dòng)窗口中的全局頻繁閉項(xiàng)集,輸出最終挖掘結(jié)果并存儲(chǔ)。
[0054]如圖3所示,所述CET樹(shù)結(jié)構(gòu)一棵具有根節(jié)點(diǎn)的壓縮擴(kuò)展模式樹(shù),樹(shù)中的子節(jié)點(diǎn)分為4種節(jié)點(diǎn)類型,非頻繁(infrequent)節(jié)點(diǎn)、無(wú)希望(unpromising)節(jié)點(diǎn)、中間(intermediate)節(jié)點(diǎn)和閉合(closed)節(jié)點(diǎn),由5個(gè)域組成:(I)BW1:滑動(dòng)窗口中的基礎(chǔ)窗口序列號(hào);(2) Items:節(jié)點(diǎn)表示的項(xiàng)集名;(3 )Count:項(xiàng)集在基礎(chǔ)窗口中的支持度計(jì)數(shù);(4)NodeLinks:節(jié)點(diǎn)指針鏈表,用于鏈接該節(jié)點(diǎn)的子節(jié)點(diǎn)或父節(jié)點(diǎn)節(jié)點(diǎn)指針鏈表;(5)FCTag:判斷節(jié)點(diǎn)是否為臨界頻繁閉項(xiàng)集。所述CET樹(shù)結(jié)構(gòu)用來(lái)挖掘每個(gè)基礎(chǔ)窗口中的臨界頻繁閉項(xiàng)集合信息。
[0055]判斷樹(shù)中節(jié)點(diǎn)類型的步驟如下:(I)創(chuàng)建空的CET-tree,確定根節(jié)點(diǎn)root; (2)如果sup(ru, I).I D I <min_sup將ru標(biāo)記為非頻繁的節(jié)點(diǎn),置FCTag為O; (3)否則判斷調(diào)用函數(shù)leftCheck(ru) =true滿足將ru標(biāo)記為無(wú)希望節(jié)點(diǎn),置FCTag為O ; (4)不滿足則進(jìn)行遍歷foreach(m以及右兄弟節(jié)點(diǎn)nj)作并運(yùn)算產(chǎn)生新節(jié)點(diǎn)r/ i,重復(fù)上述判斷流程;(5)比較父節(jié)點(diǎn)和子節(jié)點(diǎn)支持度sup(ru)和supl;' i),如果兩者支持度相同滿足sup(rn) = =sup(n/ i)將ru標(biāo)記為為中間節(jié)點(diǎn),置FCTag為O; (6)否則將m標(biāo)記為為閉合節(jié)點(diǎn),保留為臨界頻繁閉節(jié)點(diǎn),置FCTag為I。IeftCheck函數(shù)的作用是檢查判斷節(jié)點(diǎn)ru是否為無(wú)希望節(jié)點(diǎn),返回false則需要進(jìn)一步判斷來(lái)確定其節(jié)點(diǎn)性質(zhì)。
[0056]如圖4所示,所述GCF1-tree樹(shù)采用一種新的前綴壓縮樹(shù)結(jié)構(gòu)GCF1-tree。前綴子樹(shù)中的節(jié)點(diǎn)由k+3個(gè)域組成:(Itemname,SumCount,fi,fi+i,fi+2,...,fi+k-1,BWn-List),其中,Itemname為項(xiàng)目名;SumCount為滑動(dòng)窗口的項(xiàng)集支持度總計(jì)數(shù);i為第i次挖掘迭代過(guò)程中的第i個(gè)滑動(dòng)窗口,f為各基礎(chǔ)窗口的支持度計(jì)數(shù),k為設(shè)置的基礎(chǔ)窗口數(shù)目,BWn-List為指向BWn中最后一臨界頻繁閉項(xiàng)集的尾節(jié)點(diǎn),i < η < i+k-1 list指針將BWn的所有臨界頻繁閉項(xiàng)集的尾節(jié)點(diǎn)鏈接起來(lái)。
[0057]更新GCF1-tree的過(guò)程分為2步:刪除過(guò)時(shí)的基礎(chǔ)窗口的臨界頻繁閉項(xiàng)集及相關(guān)信息和將新到來(lái)的基礎(chǔ)窗口項(xiàng)集信息插入到GCF1-tree中進(jìn)行重構(gòu)。利用定義的BW1-List指針即可找到過(guò)時(shí)基礎(chǔ)窗口中所有的臨界頻繁閉項(xiàng)集合,避免遍歷整棵GCF1-tree。同時(shí)各節(jié)點(diǎn)的SumCount值分別減去尾節(jié)點(diǎn)的fi值作為新的SumCount值,刪除SumCount為O的節(jié)點(diǎn)。最后再插入新基礎(chǔ)窗口信息完成重構(gòu)。
[0058]挖掘全局頻繁閉項(xiàng)集所用定理描述如下:若項(xiàng)集X既是某個(gè)基礎(chǔ)窗口BWn(iSn < i+k-1)內(nèi)的臨界頻繁閉項(xiàng)集又是滑動(dòng)窗口 SW中的頻繁項(xiàng)集,則X必定是滑動(dòng)窗口 SW中的全局頻繁閉項(xiàng)集。證明,設(shè)X在基本窗口BWi內(nèi)是頻繁閉合項(xiàng)集(支持?jǐn)?shù)為A),若在其他基本窗口內(nèi)不出現(xiàn)X的超集,顯然,如果X是滑動(dòng)窗口中的頻繁項(xiàng)集,則X也一定是頻繁閉合項(xiàng)集;若在其他基本窗口內(nèi)出現(xiàn)X的超集Y(支持?jǐn)?shù)為B),則X是滑動(dòng)窗口中的支持?jǐn)?shù)變?yōu)锳+B,大于其超集的支持?jǐn)?shù),X也是頻繁閉合項(xiàng)集。
[0059]在IBM合成數(shù)據(jù)發(fā)生器產(chǎn)生的數(shù)據(jù)集T10I4D1000K上測(cè)試該方法的性能。T10I4D1000K數(shù)據(jù)集仿真真實(shí)購(gòu)物數(shù)據(jù)集,數(shù)據(jù)流事務(wù)平均長(zhǎng)度為10,數(shù)據(jù)流潛在頻繁項(xiàng)集平均長(zhǎng)度為4,包含的事務(wù)集數(shù)目大小為1000K。實(shí)驗(yàn)對(duì)比了該方法與Moment算法的時(shí)空性能。所述方法性能提升較大。
[0060]需要申明的是,本發(fā)明的內(nèi)容以及【具體實(shí)施方式】意在證明本發(fā)明所提供的技術(shù)方案的實(shí)際應(yīng)用,在本領(lǐng)域普通技術(shù)人員所具備的知識(shí)范圍內(nèi),還可以在不脫離本發(fā)明宗旨的前提下做出各種變化。
【主權(quán)項(xiàng)】
1.一種基于Topology模型的數(shù)據(jù)流頻繁閉項(xiàng)集的挖掘方法,其特征在于:具體包含如下步驟: 步驟一,輸入數(shù)據(jù)流并劃分為多個(gè)基礎(chǔ)窗口; 步驟二,若干基礎(chǔ)窗口組成一個(gè)滑動(dòng)窗口處理單元,利用Topology模型對(duì)每個(gè)滑動(dòng)窗口處理單元進(jìn)行操作; 步驟三,在滑動(dòng)窗口處理單元中利用CET樹(shù)結(jié)構(gòu)并行化計(jì)算挖掘每個(gè)基礎(chǔ)窗口的臨界頻繁閉集合; 步驟四,將步驟三挖掘的臨界頻繁閉集合插入GCF1-tree樹(shù)中,進(jìn)而挖掘全局頻繁閉集合; 步驟五,將步驟四挖掘的全局頻繁閉集合存儲(chǔ)至Result-List表中。2.根據(jù)權(quán)利要求1所述的一種基于Topology模型的數(shù)據(jù)流頻繁閉項(xiàng)集的挖掘方法,其特征在于:所述Topology模型包含依次連接的DS-Spout模塊、CET-Bolt模塊、Count-Bolt模塊、GCF1-tree-Bolt模塊、Result-Bolt模塊,所述CET-Bolt模塊用于并行化計(jì)算,設(shè)置其執(zhí)行并行度為滑動(dòng)窗口包含的基礎(chǔ)窗口數(shù)目;所述Count-Bolt用于統(tǒng)計(jì)臨界挖掘結(jié)果,并行度與CET-Bolt模塊保持一致;所述GCF1-tree-Bolt用于匯總結(jié)果;所述Result-Bolt模塊負(fù)責(zé)全局te掘結(jié)果輸出。3.根據(jù)權(quán)利要求1所述的一種基于Topology模型的數(shù)據(jù)流頻繁閉項(xiàng)集的挖掘方法,其特征在于:所述CET樹(shù)結(jié)構(gòu)的子節(jié)點(diǎn)包含非頻繁節(jié)點(diǎn)、無(wú)希望節(jié)點(diǎn)、中間節(jié)點(diǎn)和閉合節(jié)點(diǎn)四種節(jié)點(diǎn)類型。4.根據(jù)權(quán)利要求1所述的一種基于Topology模型的數(shù)據(jù)流頻繁閉項(xiàng)集的挖掘方法,其特征在于:所述CET樹(shù)結(jié)構(gòu)由五個(gè)域組成,所述五個(gè)域具體包含:滑動(dòng)窗口中的基礎(chǔ)窗口序列號(hào)、節(jié)點(diǎn)表示的項(xiàng)集名、項(xiàng)集在基礎(chǔ)窗口中的支持度計(jì)數(shù)、用于鏈接該節(jié)點(diǎn)的子節(jié)點(diǎn)或父節(jié)點(diǎn)節(jié)點(diǎn)指針鏈表、臨界頻繁閉項(xiàng)集節(jié)點(diǎn)判斷標(biāo)識(shí)符。5.根據(jù)權(quán)利要求1所述的一種基于Topology模型的數(shù)據(jù)流頻繁閉項(xiàng)集的挖掘方法,其特征在于:所述GCF1-tree中的節(jié)點(diǎn)由k+3個(gè)域組成,即:(Itemname,SumCount,fi,fi+i,fi+2,....fi+k-1 ,Bffn-List) 其中,Itemname為項(xiàng)目名;SumCount為滑動(dòng)窗口的項(xiàng)集支持度總計(jì)數(shù);i為第i次挖掘迭代過(guò)程中的第i個(gè)滑動(dòng)窗口,f?為各基礎(chǔ)窗口的支持度計(jì)數(shù),k為設(shè)置的基礎(chǔ)窗口數(shù)目;BWn-List為指向BWn*最后一臨界頻繁閉項(xiàng)集的尾節(jié)點(diǎn),i SnS i+k-1。
【文檔編號(hào)】G06F17/30GK105868293SQ201610172070
【公開(kāi)日】2016年8月17日
【申請(qǐng)日】2016年3月24日
【發(fā)明人】王誠(chéng), 許曉
【申請(qǐng)人】南京郵電大學(xué)
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
阜宁县| 霸州市| 邓州市| 那坡县| 三河市| 新巴尔虎左旗| 比如县| 岫岩| 长顺县| 宝丰县| 和田市| 呼图壁县| 日土县| 高邮市| 开阳县| 太原市| 缙云县| 南木林县| 广德县| 微山县| 鄂伦春自治旗| 鄂伦春自治旗| 兖州市| 天门市| 丹江口市| 木兰县| 沙田区| 泌阳县| 四会市| 孟津县| 灵石县| 兴和县| 怀仁县| 定安县| 奉化市| 利津县| 锦屏县| 巴南区| 华池县| 泗水县| 黎川县|