两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于Apriori算法的數(shù)據(jù)挖掘方法及系統(tǒng)的制作方法

文檔序號:9839651閱讀:1368來源:國知局
一種基于Apriori算法的數(shù)據(jù)挖掘方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明數(shù)據(jù)挖掘技術(shù)領(lǐng)域,尤其涉及的是一種基于Apriori算法的數(shù)據(jù)挖掘方法 及系統(tǒng)。
【背景技術(shù)】
[0002] 關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘,是從巨大的數(shù)據(jù)集中找出感興趣規(guī)則和相關(guān)關(guān)系。這些項集 常存儲在交易數(shù)據(jù)庫中。關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘的核心技術(shù)之一,并得到了廣泛的商業(yè)和學(xué) 術(shù)研究,特別是對于處于大數(shù)據(jù)時代的今天。關(guān)聯(lián)規(guī)則技術(shù)的研究和發(fā)展一直是業(yè)界熱門 話題。
[0003] 現(xiàn)有技術(shù)中,大多數(shù)關(guān)聯(lián)規(guī)則算法可以分為一下兩類: (1) 廣度優(yōu)先算法:是從下到上的搜索數(shù)據(jù)集,先是找出候選集,然后從中找出頻繁集 (2) 深度優(yōu)先算法:和廣度優(yōu)先算法比,這類算法不需要生成候集,是基于頻繁模式增 長的異類算法 在關(guān)聯(lián)規(guī)則算法中最著名的算法是Apriori算法,是Agrawal和Srikantt于1994年 提出的,也是一個廣度優(yōu)先的算法。Apriori算法采取了自底向上、分層搜索策略,這意味 要找到k-項集,就需要做k次迭代。Apriori算法可以簡單分為兩步。第一步為連接(類矩 陣運算),第二步為剪枝(去掉那些沒必要的中間結(jié)果)。首先找出所有頻繁1 一項集的集合 L1,L1用于找頻繁2-項集的集合L2,而L2用于找L3,如此下去,直到不能找到頻繁k一項 集。并利用事先設(shè)定好的最小支持度閾值進行篩選,將小于最小支持度的候選項集刪除,再 進行下一次的合并生成該層的頻繁項集。
[0004]傳統(tǒng)的Apriori算法在實際應(yīng)用時存在著以下的缺陷:該算法會產(chǎn)生大量的頻繁 項集,而且其中會存在著規(guī)則冗余現(xiàn)象;會重復(fù)掃描事務(wù)數(shù)據(jù)庫,增加讀取數(shù)據(jù)庫的1/0次 數(shù),從而因計算項過多而造成執(zhí)行緩慢,導(dǎo)致運算效率低下。
[0005] 因此,現(xiàn)有技術(shù)有待于進一步的改進。

【發(fā)明內(nèi)容】

[0006] 鑒于上述現(xiàn)有技術(shù)中的不足之處,本發(fā)明的目的在于為用戶提供一種基于 Apriori算法的數(shù)據(jù)挖掘方法及系統(tǒng),用于克服現(xiàn)有技術(shù)的數(shù)據(jù)挖掘算法重復(fù)掃描事務(wù)數(shù) 據(jù)庫,不僅運算效率低下,而且增加運算服務(wù)器負擔(dān)的缺陷。
[0007] 本發(fā)明解決技術(shù)問題所采用的技術(shù)方案如下: 一種基于Apriori算法的數(shù)據(jù)挖掘方法,其中,包括: A、 掃描事務(wù)數(shù)據(jù)庫中的每一條事務(wù)記錄,以其中含有的事務(wù)項是否在事務(wù)中出現(xiàn)為基 準,將事務(wù)數(shù)據(jù)庫中記錄的信息轉(zhuǎn)化成布爾矩陣,同時還記錄同一個事務(wù)項在事務(wù)數(shù)據(jù)庫 中重復(fù)出現(xiàn)次數(shù)的數(shù)組TS[s]; B、 根據(jù)所述數(shù)組TS[s]和所述布爾矩陣中每個事務(wù)項所對應(yīng)的行向量的值,計算第一 候選集中每個事務(wù)項的支持度;將支持度大于預(yù)設(shè)的支持度閾值的事務(wù)項劃入第一頻繁 集,將支持度小于預(yù)設(shè)的支持度閾值的事務(wù)項刪除; C、 根據(jù)所述第一頻繁集生成第二候選集,根據(jù)所述數(shù)組TS[s]和所述第二候選集中任 意兩個事務(wù)項所對應(yīng)的布爾矩陣中的行向量,迭代計算第二候選集中任意兩個事務(wù)項組合 后的支持度,將支持度大于預(yù)設(shè)的支持度閾值的兩個組合事務(wù)項劃入第二頻繁集,將支持 度小于預(yù)設(shè)的支持度閾值的兩個組合事務(wù)項刪除; D、 根據(jù)所述第二頻繁集生成第三候選集,迭代計算第三候選集至第k候選集的支持度, 直到所述第k+Ι頻繁集為空或者只含有一個事務(wù)項,結(jié)束數(shù)據(jù)處理,并輸出所有頻繁集;所 述K為大于1的自然數(shù)。
[0008] 所述基于Apriori算法的數(shù)據(jù)挖掘方法,其中,所述步驟A包括: A1、以該事務(wù)項中記錄的信息在事務(wù)中出現(xiàn),則標識為1,若該事務(wù)項中記錄的信息在 事務(wù)中未出現(xiàn),則標識為〇為基準,將事務(wù)數(shù)據(jù)庫中記載的信息轉(zhuǎn)化成布爾矩陣; A2、刪除布爾矩陣中數(shù)組TS[s]記錄的重復(fù)次數(shù)小于預(yù)定數(shù)值的事務(wù)項。
[0009] 所述基于Apriori算法的數(shù)據(jù)挖掘方法,其中,所述步驟A中記錄同一個事務(wù)項在 事務(wù)中重復(fù)出現(xiàn)次數(shù)的數(shù)組TS[ s ]的方法包括: 掃描每一條事務(wù)數(shù)據(jù)庫中的事務(wù)記錄,并將所述事務(wù)記錄轉(zhuǎn)化成代表事務(wù)的列向量; 判斷所述列向量是否存在事務(wù)矩陣中,若存在,則將該條列向量的事務(wù)計數(shù)上加1;否 則將該條列向量保存到事務(wù)矩陣中,并將該條列向量對應(yīng)的事務(wù)計數(shù)為1; 遍歷事務(wù)數(shù)據(jù)庫后,得到同一個事務(wù)項在事務(wù)中重復(fù)出現(xiàn)次數(shù)的數(shù)組TS[s]。
[0010] 所述基于Apriori算法的數(shù)據(jù)挖掘方法,其中,所述步驟D中還包括: 在迭代計算第三候選集至第k候選集的支持度后,將計算出支持度小于預(yù)設(shè)的支持度 閾值的事務(wù)項組合刪除。
[0011] 所述基于Apriori算法的數(shù)據(jù)挖掘方法,其中,所述步驟A之前還包括: 將事務(wù)數(shù)據(jù)庫中的數(shù)據(jù)分割成N部分,基于Hadoop平臺實現(xiàn)數(shù)據(jù)的并行化處理。
[0012] -種基于Apriori算法的數(shù)據(jù)挖掘系統(tǒng),其中,包括: 數(shù)據(jù)壓縮模塊,用于掃描事務(wù)數(shù)據(jù)庫中的每一條事務(wù)記錄,以其中含有的事務(wù)項是否 在事務(wù)中出現(xiàn)為基準,將事務(wù)數(shù)據(jù)庫中的記錄的信息轉(zhuǎn)化成布爾矩陣,同時還記錄同一個 事務(wù)項在事務(wù)中重復(fù)出現(xiàn)次數(shù)的數(shù)組TS[s]; 第一級數(shù)據(jù)處理模塊,用于根據(jù)所述數(shù)組TS[s]和所述布爾矩陣中每個事務(wù)項所對應(yīng) 的行向量的值,計算第一候選集中每個事務(wù)項的支持度;將支持度大于預(yù)設(shè)的支持度閾值 的事務(wù)項劃入第一頻繁集,將支持度小于預(yù)設(shè)的支持度閾值的事務(wù)項刪除; 第二級數(shù)據(jù)處理模塊,用于根據(jù)所述第一頻繁集生成第二候選集,根據(jù)所述數(shù)組TS [ s ] 和所述第二候選集中任意兩個事務(wù)項所對應(yīng)的布爾矩陣中的行向量,迭代計算第二候選集 中任意兩個事務(wù)項組合后的支持度,將支持度大于預(yù)設(shè)的支持度閾值的兩個組合事務(wù)項劃 入第二頻繁集,將支持度小于預(yù)設(shè)的支持度閾值的兩個組合事務(wù)項刪除; 循環(huán)迭代計算及結(jié)果輸出模塊,用于根據(jù)所述第二頻繁集生成第三候選集,迭代計算 第三候選集至第k候選集的支持度,直到所述第k+Ι頻繁集為空或者只含有一個事務(wù)項,結(jié) 束數(shù)據(jù)處理,并輸出所有頻繁集;所述K為大于1的自然數(shù)。
[0013] 所述基于Apriori算法的數(shù)據(jù)挖掘系統(tǒng),其中,在所述數(shù)據(jù)壓縮模塊中包括: 矩陣轉(zhuǎn)化單元,以該事務(wù)項中記錄的信息在事務(wù)中出現(xiàn),則標識為1,若該事務(wù)項中記 錄的信息在事務(wù)中未出現(xiàn),則標識為0為基準,將事務(wù)數(shù)據(jù)庫中記載的信息轉(zhuǎn)化成布爾矩 陣; 事務(wù)項簡化單元,用于刪除布爾矩陣中數(shù)組TS[s]記錄的重復(fù)次數(shù)小于預(yù)定數(shù)值的事 務(wù)項。
[0014] 所述基于Apriori算法的數(shù)據(jù)挖掘系統(tǒng),其中,在所述數(shù)據(jù)壓縮模塊中包括: 掃描記錄單元,用于掃描每一條事務(wù)數(shù)據(jù)庫中的事務(wù)記錄,并將所述事務(wù)記錄轉(zhuǎn)化成 代表事務(wù)的列向量; 計數(shù)單元,用于判斷所述列向量是否存在事務(wù)矩陣中,若存在,則將該條列向量的事務(wù) 計數(shù)上加1;否則將該條列向量保存到事務(wù)矩陣中,并將該條列向量對應(yīng)的事務(wù)計數(shù)為1; 數(shù)組輸出單元,用于遍歷事務(wù)數(shù)據(jù)庫,得到同一個事務(wù)項在事務(wù)數(shù)據(jù)庫中重復(fù)出現(xiàn)次 數(shù)的數(shù)組TS[s]。
[0015] 所述基于Apriori算法的數(shù)據(jù)挖掘系統(tǒng),其中,在循環(huán)迭代計算及結(jié)
當(dāng)前第1頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
玉林市| 湟中县| 康定县| 三门县| 即墨市| 临夏市| 永福县| 舞阳县| 星子县| 岗巴县| 京山县| 星子县| 郎溪县| 西充县| 高台县| 满城县| 固原市| 梓潼县| 库车县| 循化| 秦安县| 长阳| 赣榆县| 鸡西市| 靖西县| 济宁市| 新野县| 灯塔市| 北安市| 敖汉旗| 喀什市| 天门市| 临朐县| 奎屯市| 文化| 尼勒克县| 嘉荫县| 汾阳市| 屏山县| 永福县| 保亭|