两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種關(guān)聯(lián)規(guī)則的挖掘方法和關(guān)聯(lián)規(guī)則的挖掘裝置的制造方法

文檔序號:9911203閱讀:594來源:國知局
一種關(guān)聯(lián)規(guī)則的挖掘方法和關(guān)聯(lián)規(guī)則的挖掘裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及遙感影像領(lǐng)域,尤其涉及一種關(guān)聯(lián)規(guī)則的挖掘方法和關(guān)聯(lián)規(guī)則的挖掘 裝置。
【背景技術(shù)】
[0002] 關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘領(lǐng)域中一個非常重要的分支,主要用于從大數(shù)據(jù)量的事 務(wù)集中找出滿足用戶最小支持度的頻繁項目集。對遙感影像數(shù)據(jù)挖掘而言,其過程可以理 解為從遙感影像中抽取不同層次的知識,分析知識之間的關(guān)系,從而挖掘出遙感影像中隱 含的潛在的規(guī)律性知識。
[0003] 現(xiàn)有的Sampling算法、Part it ion算法、DIC算法等都試圖減少軒交易數(shù)據(jù)集合的 搜索次數(shù),但仍有很多缺點。Sampling算法從原數(shù)據(jù)集合中隨機抽樣出一部分樣本,利用樣 本來挖掘關(guān)聯(lián)規(guī)則以減少算法的搜索次數(shù),但是由于數(shù)據(jù)集合中經(jīng)常存在數(shù)據(jù)分布不均勻 的情況,所以隨機抽樣根本就無法保證能夠抽取到有代表性的樣本;Partition算法雖然通 過對數(shù)據(jù)集合分區(qū)分別挖掘,最后進行匯總的方法來減輕I/O的負(fù)擔(dān),事實上它是增加了 CPU的負(fù)擔(dān);DIC算法采用動態(tài)計算的策略來減少搜索次數(shù)以提高算法的效率,但與Apriori 算法在思想上沒有根本不同之處,它也還是一個多趟搜索算法。這些算法在讀入交易數(shù)據(jù) 時生成候選項目集,產(chǎn)生許多不必要的候選項目集,計算量大。尤其對海量數(shù)據(jù)集合來說, 以上算法只有在較高的最小支持度和最小可信度下或增加其它約束后才有一定的挖掘效 率,否則將會產(chǎn)生頻繁項目集的組合爆炸,而變得效率低下甚至超過機器的存儲和計算能 力。因為任何算法都必須計算項目集及其支持度,所以真正影響算法效率的是對項目集及 其支持度的計算問題。每一次的計算不僅花費大量CPU時間,而且還牽涉I/O的請求。
[0004] 也就說,現(xiàn)有關(guān)聯(lián)規(guī)則挖掘算法由于需要多次遍歷事務(wù)數(shù)據(jù)庫,導(dǎo)致挖掘效率低 下,需要花費大量CPU時間。另外現(xiàn)有的Apriori、FP-Growth及其改進算法對數(shù)據(jù)有一定的 要求,即同一個事務(wù)中,項的取值不能相同,否則挖掘算法將不能運行。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。為此本發(fā)明的第 一個目的在于提出一種關(guān)聯(lián)規(guī)則的挖掘方法。
[0006] 本發(fā)明的第二個目的在于提出關(guān)聯(lián)規(guī)則的挖掘裝置。
[0007] 為了實現(xiàn)上述目的,本發(fā)明第一方面實施例的關(guān)聯(lián)規(guī)則的挖掘方法,所述挖掘方 法包括以下步驟:
[0008] 獲取和掃描事務(wù)集,將所述事務(wù)集轉(zhuǎn)化為多維數(shù)據(jù)立方體,并記錄下整個事務(wù)集 的長度;
[0009] 根據(jù)所述多維數(shù)據(jù)立方體得到1-項集和1-項頻繁集;
[0010] 根據(jù)1-項頻繁集得到k-項集和k-項頻繁集,以及根據(jù)k-項集得到k+i-項集和k+i-項頻繁集,其中k為大于且等于2的正整數(shù);
[0011] 根據(jù)1-項頻繁集和k-項頻繁集,產(chǎn)生1-項頻繁集的所有子集和k-項頻繁集的所有 子集以生成所述事務(wù)集的關(guān)聯(lián)規(guī)則。
[0012] 本發(fā)明實施例的關(guān)聯(lián)規(guī)則的挖掘方法,所述挖掘方法包括以下步驟:
[0013] 獲取和掃描事務(wù)集,將所述事務(wù)集轉(zhuǎn)化為多維數(shù)據(jù)立方體,并記錄下整個事務(wù)集 的長度;
[0014] 根據(jù)所述多維數(shù)據(jù)立方體得到1-項集和1-項頻繁集;
[0015] 根據(jù)1-項頻繁集得到k_項集和k_項頻繁集,以及根據(jù)k_項頻繁集得到k+Ι-項集和 k+l_項頻繁集,其中k為大于且等于2的正整數(shù);
[0016] 根據(jù)1-項頻繁集和k-項頻繁集,產(chǎn)生1-項頻繁集的所有子集和k-項頻繁集的所有 子集以生成所述事務(wù)集的關(guān)聯(lián)規(guī)則。
[0017] 本發(fā)明實施例的關(guān)聯(lián)規(guī)則的挖掘方法,整個關(guān)聯(lián)規(guī)則挖掘過程僅遍歷了一遍事務(wù) 集,雖然在獲取頻繁項集及關(guān)聯(lián)規(guī)則時需要多次遍歷多維數(shù)據(jù)立方體,但遍歷后者的時間 消耗要遠(yuǎn)小于遍歷事務(wù)集,因此從運行速度上來說,本發(fā)明的方法要明顯快于傳統(tǒng)的挖掘 算法。
[0018] 為了實現(xiàn)上述目的,本發(fā)明第二方面實施例的關(guān)聯(lián)規(guī)則的挖掘裝置,所述挖掘裝 置包括:
[0019] 轉(zhuǎn)化模塊,用于獲取和掃描事務(wù)集,將所述事務(wù)集轉(zhuǎn)化為多維數(shù)據(jù)立方體,并記錄 下整個事務(wù)集的長度;
[0020] 第一生成模塊,用于根據(jù)所述多維數(shù)據(jù)立方體得到1-項集和1-項頻繁集;
[0021] 第二生成模塊,用于根據(jù)1-項頻繁集得到k_項集和k_項頻繁集,以及根據(jù)k_項頻 繁集得到k+Ι-項集和k+Ι-項頻繁集,其中k為大于且等于2的正整數(shù);
[0022]第三生成模塊,用于根據(jù)1-項頻繁集和k-項頻繁集,產(chǎn)生1-項頻繁集的所有子集 和k_項頻繁集的所有子集以生成所述事務(wù)集的關(guān)聯(lián)規(guī)則。
[0023] 本發(fā)明實施例的關(guān)聯(lián)規(guī)則的挖掘裝置,整個關(guān)聯(lián)規(guī)則挖掘過程僅遍歷了一遍事務(wù) 集,雖然在獲取頻繁項集及關(guān)聯(lián)規(guī)則時需要多次遍歷多維數(shù)據(jù)立方體,但遍歷后者的時間 消耗要遠(yuǎn)小于遍歷事務(wù)集,因此從運行速度上來說,本發(fā)明的方法要明顯快于傳統(tǒng)的挖掘 算法。
【附圖說明】
[0024] 圖1是本發(fā)明關(guān)聯(lián)規(guī)則的挖掘方法一實施例的流程圖;
[0025] 圖2是本發(fā)明生成k_項集的方法第一實施例的流程圖;
[0026] 圖3是本發(fā)明生成k_項集的方法第二實施例的流程圖;
[0027]圖4是本發(fā)明生成k_項集的方法第三實施例的流程圖;
[0028] 圖5是本發(fā)明關(guān)聯(lián)規(guī)則的挖掘裝置一實施例的結(jié)構(gòu)示意圖;
[0029] 圖6是本發(fā)明關(guān)聯(lián)規(guī)則的挖掘方法的運行時間示意圖;
[0030] 圖7是現(xiàn)有挖掘方法的運行時間示意圖。
【具體實施方式】
[0031] 下面詳細(xì)描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終 相同或類似的標(biāo)號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附 圖描述的實施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。
[0032] 下面參考附圖描述本發(fā)明實施例的關(guān)聯(lián)規(guī)則的挖掘方法和關(guān)聯(lián)規(guī)則的挖掘裝置。
[0033] 圖1是根據(jù)本發(fā)明一個實施例關(guān)聯(lián)規(guī)則的挖掘方法的流程圖。如圖1所示,所述關(guān) 聯(lián)規(guī)則的挖掘方法,包括以下步驟:
[0034] S11,獲取和掃描事務(wù)集,將所述事務(wù)集轉(zhuǎn)化為多維數(shù)據(jù)立方體,并記錄下整個事 務(wù)集每一個項的長度。
[0035] 具體地,根據(jù)所述事務(wù)集中每個事務(wù)的項的取值,將所述事務(wù)集轉(zhuǎn)化為多維數(shù)據(jù) 立方體。其中,多維數(shù)據(jù)立方體用于實現(xiàn)對數(shù)據(jù)倉庫中多維數(shù)據(jù)的多角度多層面的分析和 處理。本實施例中,將事務(wù)集中的每一個項定義為一個維,而每一個項的取值范圍定義為該 維的長度,例如,一個事務(wù)集的結(jié)構(gòu)如下:
[00361
[0037]在所述事務(wù)集中,包含3個維,分別為Iteml,Item2和Item3,這3個維的長度分別為 5,4,4。由此可以將該事務(wù)集用一個三維數(shù)據(jù)立方體表示,三維數(shù)據(jù)立方體可以用如下的三 維直角坐標(biāo)系表達:
[003
[0039] 具體的,事務(wù)集中的每一個事務(wù),均可以用三維直角坐標(biāo)系中的一個點來表示。在 物理存儲上,該三維數(shù)據(jù)立方體可以用一個三維數(shù)組來存儲,如果將三維數(shù)據(jù)立方體用C表 示,則T1事務(wù)可以用C[l] [4] [3] = 1來表示,同理可表示T2和T3事務(wù)。事務(wù)集中的所有事務(wù) 均可以用三維數(shù)組中的一個點來存儲,而三維數(shù)組中不包含在事務(wù)集中的點則用〇來表示。 由此,即可將數(shù)據(jù)集轉(zhuǎn)換為一個三維數(shù)據(jù)立方體。同理,包含N個項的事務(wù)集可以表示為N維 數(shù)據(jù)立方體,而在存儲上,N維數(shù)據(jù)立方體可以表示為一個N維數(shù)組。
[0040] 另外,所述多維數(shù)據(jù)立方體包括單值數(shù)據(jù)立方體,多值無序數(shù)據(jù)立方體,多值有序 數(shù)據(jù)立方體和屬性數(shù)據(jù)立方體。
[0041 ]其中,單值數(shù)據(jù)立方體對應(yīng)于單值事務(wù)集,也稱為布爾型事務(wù)集,是指在事務(wù)集 中,每個事務(wù)的項的取值僅包含0和1,表示該項在該事務(wù)中的存在性。例如: 「00421
'[0043]~上述事務(wù)集中,a~i表示每一個事務(wù)所包含的項,并不是每個事務(wù)都包含所有的, 項,因此上述事務(wù)集可以轉(zhuǎn)化為如下的單值或布爾型事務(wù)集:
[0044]
[0045] 表中字母a~i表示項,而1和0表示該項在事務(wù)中的取值。在將上述事務(wù)集轉(zhuǎn)換為 多維數(shù)
當(dāng)前第1頁1 2 3 4 5 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
宜阳县| 津南区| 泽州县| 华池县| 哈尔滨市| 临沭县| 惠安县| 平南县| 泸水县| 兴义市| 巢湖市| 宁津县| 桦川县| 黄浦区| 河北省| 长宁县| 禹州市| 崇信县| 罗平县| 库伦旗| 萨嘎县| 讷河市| 雷州市| 横山县| 宣化县| 上杭县| 靖江市| 临高县| 两当县| 永昌县| 台东县| 安国市| 沧州市| 安泽县| 乌兰浩特市| 石嘴山市| 中阳县| 航空| 河曲县| 驻马店市| 平谷区|