專利名稱:一種隨機型分布式數(shù)據(jù)流頻繁項集挖掘系統(tǒng)及其方法
技術(shù)領(lǐng)域:
本發(fā)明屬于數(shù)據(jù)流處理技術(shù),具體地說,是一種隨機型分布式數(shù)據(jù)流頻繁項集挖 掘系統(tǒng)及其方法。
背景技術(shù):
數(shù)據(jù)流是由一系列高速、實時、無限、有序到達(dá)的數(shù)據(jù)組成的數(shù)據(jù)序列,數(shù)據(jù)流數(shù) 據(jù)廣泛地存在于日常生活的多個領(lǐng)域中,例如,網(wǎng)絡(luò)流量監(jiān)控、氣象監(jiān)測、傳感器網(wǎng)絡(luò)數(shù)據(jù) 管理、Web日志分析等。在這些領(lǐng)域中,發(fā)現(xiàn)事務(wù)數(shù)據(jù)流的頻繁模式具有很重要的意義,例 如,在網(wǎng)絡(luò)流量監(jiān)控中,頻繁模式可能意味著網(wǎng)絡(luò)堵塞,而網(wǎng)絡(luò)堵塞正可能是網(wǎng)絡(luò)受到攻擊 的征兆,當(dāng)網(wǎng)絡(luò)中目的地址相同的IP數(shù)據(jù)包大量出現(xiàn)時,則可能發(fā)生了拒絕服務(wù)攻擊;在 氣象監(jiān)測領(lǐng)域,氣象臺每天都要實時地處理由氣象衛(wèi)星傳輸回地球的衛(wèi)星云圖、地表狀況、 大氣濕度分布、降水區(qū)和降水量的分布等重要的氣象信息;在傳感器網(wǎng)絡(luò)中,傳感器時刻 檢測其工作區(qū)域內(nèi)的情況,從而產(chǎn)生大量的檢測數(shù)據(jù),同時通過無線網(wǎng)絡(luò)將數(shù)據(jù)源源不斷 地傳輸?shù)教幚碇行模幚碇行牡臄?shù)據(jù)分析服務(wù)器必須實時地對這些檢測數(shù)據(jù)進(jìn)行分析和處 理,來判斷受監(jiān)控的區(qū)域是否正常。在數(shù)據(jù)挖掘中,頻繁模式挖掘無論在理論還是應(yīng)用上均得到了廣泛的研究并取得 了非常多的成果,出現(xiàn)了許多經(jīng)典的算法,但是這些算法難以增量式更新,不適合數(shù)據(jù)流挖 掘,因為挖掘頻繁模式是一系列連續(xù)操作的集合,在看到所有過去和將來的數(shù)據(jù)之前,任何 項集的計算不可能完整地完成,使得在數(shù)據(jù)流環(huán)境中挖掘和更新頻率模式變得困難;與對 靜態(tài)數(shù)據(jù)集的挖掘相比,數(shù)據(jù)流有更多信息要追蹤和更復(fù)雜的情況要處理,頻繁項集會隨 著時間而變化,非頻繁項在后來可能成為頻繁項也不容忽視,存儲結(jié)構(gòu)需要動態(tài)調(diào)整以反 映頻繁項集隨時間變化的情況。目前,傳統(tǒng)的數(shù)據(jù)流頻繁項集挖掘方法都是基于事務(wù)數(shù)據(jù)項,采用集中式的挖掘 模式,時間效率和空間效率都比較低,對于大量的數(shù)據(jù)不能滿足用戶實時性的要求。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是,提供一種挖掘精度和運行效率高,能夠滿足用戶 大量數(shù)據(jù)流應(yīng)用實時性要求的隨機型分布式數(shù)據(jù)流頻繁項集挖掘系統(tǒng),并提供內(nèi)存空間占 用小,響應(yīng)速度快,同時能夠通過增加頻繁項集挖掘器數(shù)量或反饋次數(shù)來確保模式挖掘的 覆蓋率的隨機型分布式數(shù)據(jù)流頻繁項集挖掘方法。本發(fā)明基于數(shù)據(jù)項事務(wù)的頻繁項集挖掘模式的構(gòu)思,解決其技術(shù)問題采用的技術(shù) 方案是,一種隨機型分布式數(shù)據(jù)流頻繁項集挖掘系統(tǒng),其特征是,它包含有—數(shù)據(jù)項分割器,用于將事務(wù)中所包含的不同項按項進(jìn)行分割,并將分割的若干 數(shù)據(jù)項分別發(fā)送至η個頻繁項集挖掘器;η個頻繁項集挖掘器,根據(jù)基于頻繁項事務(wù)的頻繁項集挖掘方法,對若干個數(shù)據(jù)項 挖掘頻繁項集;
一頻繁項集存儲器,用于匯總存儲挖掘器挖掘出的頻繁項集;一頻繁項隨機混合器,將數(shù)據(jù)項順序隨機混合后,反饋n+1次至數(shù)據(jù)項分割器。一種隨機型分布式數(shù)據(jù)流頻繁項集挖掘方法,其特征是,它包括以下步驟(1)當(dāng)數(shù)據(jù)流到達(dá)數(shù)據(jù)項分割器時,根據(jù)數(shù)據(jù)流中不同事務(wù)到達(dá)的順序?qū)⑶癗個 事務(wù)組成的一個基本窗口《,對窗口中的每個不同項im用一個長度為N+1的一維數(shù)組存儲, 其中所述一維數(shù)組中的第一項表示頻繁項,后N項表示N個事務(wù)中是否包含此頻繁項,包含 則取1,否則取0,將生成的m個數(shù)組分成[m/n]組,分別發(fā)送至η個頻繁項集挖掘器;(2)在頻繁項集挖掘器中通過對不同的“頻繁項_事務(wù)”進(jìn)行與操作以挖掘頻繁項 集,并將挖掘出的頻繁項集匯總至頻繁項集存儲器存儲,設(shè)定最小支持度閾值s和用戶允 許誤差ε,其中s的取值范圍為(0,1),0< ε << s,將產(chǎn)生的m個一維數(shù)組兩兩與運算, 生成新的長度為N+1的數(shù)組,其中第一項為頻繁項集,將新生成的數(shù)組的后N項求和,如果超出最小支持度計數(shù),則生成頻繁項集,其中 所述最小支持度計數(shù)為最小支持度閾值s與事務(wù)數(shù)N的乘積,重復(fù)對窗口中的每個不同項 im用一個長度為N+1的一維數(shù)組存儲,并重復(fù)將生成的m個數(shù)組分成[m/n]組,分別發(fā)送至 η個頻繁項集挖掘器,直到產(chǎn)生的頻繁項集為空為止;(3)將數(shù)據(jù)項通過頻繁項隨機混合器反饋n+1次至數(shù)據(jù)項分割器,再進(jìn)行深層次 挖掘。本發(fā)明一種隨機型分布式數(shù)據(jù)流頻繁項集挖掘系統(tǒng),首先通過數(shù)據(jù)項分割器將基 本窗口數(shù)量的事務(wù)中所包含的不同項分別發(fā)送至η個頻繁項集挖掘器,不同的數(shù)據(jù)項附有 其所屬事務(wù)號,在頻繁項集挖掘器中通過對不同的頻繁項事務(wù)進(jìn)行與操作以挖掘頻繁項 集,并將挖掘出的頻繁項集匯總至頻繁項集存儲器存儲,最后將數(shù)據(jù)項通過頻繁項隨機混 合器反饋n+1次至數(shù)據(jù)項分割器,提高挖掘精度。由于頻繁項集挖掘器的并行處理以及頻 繁項事務(wù)的引入,大大提高了數(shù)據(jù)流挖掘的精度和運行效率高,能夠有效的滿足用戶大量 數(shù)據(jù)流應(yīng)用的實時性要求。其方法科學(xué),內(nèi)存空間占用小,響應(yīng)速度快,同時能夠通過增加 頻繁項集挖掘器數(shù)量或反饋次數(shù)來確保模式挖掘的覆蓋率。
圖1為本發(fā)明的一種隨機型分布式數(shù)據(jù)流頻繁項集挖掘系統(tǒng)結(jié)構(gòu)方框圖。圖2為本發(fā)明的一種隨機型分布式數(shù)據(jù)流頻繁項集挖掘方法流程圖。
具體實施例方式下面利用附圖和實施例對本發(fā)明作進(jìn)一步說明。參照圖1,一種隨機型分布式數(shù)據(jù)流頻繁項集挖掘系統(tǒng),它包含有一數(shù)據(jù)項分割器,用于將事務(wù)中所包含的不同項按項進(jìn)行分割,并將分割的若干 數(shù)據(jù)項分別發(fā)送至η個頻繁項集挖掘器;η個頻繁項集挖掘器,根據(jù)基于頻繁項事務(wù)的頻繁項集,對若干個數(shù)據(jù)項挖掘頻繁 項集;一頻繁項集存儲器,用于匯總存儲挖掘器挖掘出的頻繁項集;一頻繁項隨機混合器,將數(shù)據(jù)項順序隨機混合后,反饋n+1次至數(shù)據(jù)項分割器。其中n頻繁項集挖掘器數(shù)目;N基本窗口中事務(wù)數(shù)#基本窗口 ;im第m個數(shù)據(jù)項;m數(shù)據(jù)項個 數(shù)、亦即一維數(shù)組個數(shù);s最小支持度閾值;ε用戶允許誤差。數(shù)據(jù)項分割數(shù)據(jù)見表1 當(dāng)數(shù)據(jù)流中N個事務(wù)到達(dá)時組成一個基本窗口 W,對窗口中的每個不同項im用一 個長度為N+1的一維數(shù)組存儲,其中所述一維數(shù)組中的第一項表示頻繁項,后N項表示N個 事務(wù)中是否包含此頻繁項,包含則取1,否則取0。參照圖2,一種隨機型分布式數(shù)據(jù)流頻繁項集挖掘方法,它包括以下步驟(1)當(dāng)數(shù)據(jù)流到達(dá)數(shù)據(jù)項分割器時,根據(jù)數(shù)據(jù)流中不同事務(wù)到達(dá)的順序?qū)⑶癗個 事務(wù)組成的一個基本窗口《,對窗口中的每個不同項im用一個長度為N+1的一維數(shù)組存儲, 其中所述一維數(shù)組中的第一項表示頻繁項,后N項表示N個事務(wù)中是否包含此頻繁項,包含 則取1,否則取0,將生成的m個數(shù)組分成[m/n]組,分別發(fā)送至η個頻繁項挖掘器;(2)在頻繁項集挖掘器中通過對不同的“頻繁項_事務(wù)”進(jìn)行與操作以挖掘頻繁項 集,并將挖掘出的頻繁項集匯總至頻繁項集存儲器存儲,設(shè)定最小支持度閾值s和用戶允 許誤差ε,其中s的取值范圍為(0,1),0< ε << s,將產(chǎn)生的m個一維數(shù)組兩兩與運算, 生成新的長度為N+1的數(shù)組,其中第一項為頻繁項集,將新生成的數(shù)組的后N項求和,如果超出最小支持度計數(shù),則生成頻繁項集,其中 所述最小支持度計數(shù)為最小支持度閾值s與事務(wù)數(shù)N的乘積,重復(fù)對窗口中的每個不同項 im用一個長度為N+1的一維數(shù)組存儲,并重復(fù)將生成的m個數(shù)組分成[m/n]組,分別發(fā)送至 η個頻繁項挖掘器,直到產(chǎn)生的頻繁項集為空為止;(3)將數(shù)據(jù)項通過頻繁項隨機混合器反饋n+1次至數(shù)據(jù)項分割器,再進(jìn)行深層次 挖掘。本發(fā)明的數(shù)據(jù)項分割器為浪潮英信若干F5280服務(wù)器;頻繁項集挖掘器為浪潮英 信若干F5120服務(wù)器;數(shù)據(jù)項集存儲器為浪潮英信若干F5280服務(wù)器;頻繁項隨機混合器 為浪潮英信若干F5120服務(wù)器;均為市售產(chǎn)品。數(shù)據(jù)項分割器、頻繁項集挖掘器、數(shù)據(jù)項集存儲器和數(shù)據(jù)項集存儲器的各軟件程序依據(jù)各自的功能和用途,采用信息自動化、計算機 處理等技術(shù)編制,其軟件程序的編制是本領(lǐng)域技術(shù)人員所熟悉的技術(shù)。
權(quán)利要求
一種隨機型分布式數(shù)據(jù)流頻繁項集挖掘系統(tǒng),其特征是,它包含有一數(shù)據(jù)項分割器,用于將事務(wù)中所包含的不同項按項進(jìn)行分割,并將分割的若干數(shù)據(jù)項分別發(fā)送至n個頻繁項集挖掘器;n個頻繁項集挖掘器,根據(jù)基于頻繁項事務(wù)的頻繁項集,對若干個數(shù)據(jù)項挖掘頻繁項集;一頻繁項集存儲器,用于匯總存儲挖掘器挖掘出的頻繁項集;一頻繁項隨機混合器,將數(shù)據(jù)項順序隨機混合后,反饋n+1次至數(shù)據(jù)項分割器。
2.一種隨機型分布式數(shù)據(jù)流頻繁項集挖掘方法,其特征是,它包括以下步驟(1)當(dāng)數(shù)據(jù)流到達(dá)數(shù)據(jù)項分割器時,根據(jù)數(shù)據(jù)流中不同事務(wù)到達(dá)的順序?qū)⑶癗個事務(wù) 組成的一個基本窗口《,對窗口中的每個不同項im用一個長度為Ν+1的一維數(shù)組存儲,其中 所述一維數(shù)組中的第一項表示頻繁項,后N項表示N個事務(wù)中是否包含此頻繁項,包含則取 1,否則取0,將生成的m個數(shù)組分成m/n組,分別發(fā)送至η個頻繁項集挖掘器;(2)在頻繁項集挖掘器中通過對不同的“頻繁項_事務(wù)”進(jìn)行與操作以挖掘頻繁項集, 并將挖掘出的頻繁項集匯總至頻繁項集存儲器存儲,設(shè)定最小支持度閾值s和用戶允許誤 差ε,其中s的取值范圍為(0,1),0< ε << s,將產(chǎn)生的m個一維數(shù)組兩兩與運算,生成 新的長度為N+1的數(shù)組,其中第一項為頻繁項集,將新生成的數(shù)組的后N項求和,如果超出 最小支持度計數(shù),則生成頻繁項集,其中所述最小支持度計數(shù)為最小支持度閾值s與事務(wù) 數(shù)N的乘積,重復(fù)對窗口中的每個不同項im用一個長度為N+1的一維數(shù)組存儲,并重復(fù)將生 成的m個數(shù)組分成m/n組,分別發(fā)送至η個頻繁項挖掘器,直到產(chǎn)生的頻繁項集為空為止;(3)將數(shù)據(jù)項通過頻繁項隨機混合器反饋n+1次至數(shù)據(jù)項分割器,再進(jìn)行深層次挖掘。
全文摘要
本發(fā)明是一種隨機型分布式數(shù)據(jù)流頻繁項集挖掘系統(tǒng),采用全新的頻繁項事務(wù)的分布式數(shù)據(jù)流挖掘模式,并引入隨機型頻繁項混合器提高挖掘精度,數(shù)據(jù)流中到達(dá)基本窗口數(shù)量的新事務(wù)時,按事務(wù)中所包含的不同項根據(jù)數(shù)據(jù)項分割方法分別發(fā)送至n個頻繁項集挖掘器,不同的數(shù)據(jù)項附有其所屬事務(wù)號,在頻繁項集挖掘器中通過對不同的頻繁項事務(wù)進(jìn)行與操作以挖掘頻繁項集,并將挖掘出的頻繁項集匯總至頻繁項集存儲器存儲。最后將數(shù)據(jù)項通過頻繁項隨機混合器反饋至數(shù)據(jù)項分割器,進(jìn)行深層次挖掘。其方法與其它方法相比,具有內(nèi)存空間占用小、響應(yīng)速度快等優(yōu)點,同時能夠通過增加頻繁項集挖掘器數(shù)量或反饋次數(shù)來確保模式挖掘的覆蓋率。
文檔編號G06F17/30GK101887450SQ20101017944
公開日2010年11月17日 申請日期2010年5月19日 優(yōu)先權(quán)日2010年5月19日
發(fā)明者孟凡奇, 張亮, 曲朝陽, 李鵬, 王敬東, 程成, 董如意 申請人:東北電力大學(xué)