两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種商品合格率關(guān)聯(lián)規(guī)則的挖掘方法和裝置與流程

文檔序號:11323818閱讀:447來源:國知局
一種商品合格率關(guān)聯(lián)規(guī)則的挖掘方法和裝置與流程

本發(fā)明涉及一種商品合格率關(guān)聯(lián)規(guī)則的挖掘方法和裝置。



背景技術(shù):

檢驗(yàn)檢疫業(yè)務(wù)統(tǒng)計(jì)數(shù)據(jù)是對日常檢驗(yàn)檢疫業(yè)務(wù)所產(chǎn)生的數(shù)據(jù)的匯總與統(tǒng)計(jì),從總體上反映一定時(shí)期檢驗(yàn)檢疫業(yè)務(wù)的運(yùn)行狀況,并支持從不同角度對檢驗(yàn)檢疫各項(xiàng)業(yè)務(wù)進(jìn)行分析,包括檢驗(yàn)檢疫業(yè)務(wù)企業(yè)報(bào)檢、集中審單、現(xiàn)場查驗(yàn)、檢驗(yàn)檢測等所產(chǎn)生的數(shù)據(jù)。

在日常的檢驗(yàn)檢疫業(yè)務(wù)中通常采用抽樣檢驗(yàn)的方式,全面的檢測檢驗(yàn)幾乎無法做到;對給定批次的商品,并非每批都檢驗(yàn),挖掘進(jìn)出口商品的質(zhì)量規(guī)律,確定重點(diǎn)檢驗(yàn)內(nèi)容、檢測項(xiàng)和風(fēng)險(xiǎn)程度,就成為大數(shù)據(jù)輔助質(zhì)檢部門解決這棘手問題的重要手段。

目前業(yè)內(nèi)采用大數(shù)據(jù)分析來解讀規(guī)則,較常見的是采用多維關(guān)聯(lián)規(guī)則,但多維關(guān)聯(lián)規(guī)則具有:

數(shù)據(jù)庫表非常龐大、且對輸入數(shù)據(jù)無篩查能力,導(dǎo)致無效或無關(guān)聯(lián)變量信息過多產(chǎn)生,且算法模型生成易過于泛化,以及支持度較低時(shí)加入大量hash函數(shù)時(shí),多維關(guān)聯(lián)規(guī)則算法效率會非常低的缺點(diǎn)。



技術(shù)實(shí)現(xiàn)要素:

針對上述商品檢驗(yàn)檢疫商品大數(shù)據(jù)分析采用的多維關(guān)聯(lián)規(guī)則數(shù)據(jù)龐大無篩查能力,效率低的技術(shù)問題,本發(fā)明提供一種使用決策樹模型算法優(yōu)化多維關(guān)聯(lián)規(guī)則的方法和裝置,具體如下:

一種商品合格率關(guān)聯(lián)規(guī)則的挖掘方法,所述挖掘方法包括以下步驟:

a.獲取原始訓(xùn)練數(shù)據(jù)集;

b.使用決策樹算法對數(shù)據(jù)訓(xùn)練集進(jìn)行特征分類,并提取出分類特征變量重要性數(shù)據(jù)集;

c.設(shè)置特征參數(shù)重要性閥值對步驟b得到的特征變量重要性數(shù)據(jù)集和調(diào)參數(shù)據(jù)交叉排除多維關(guān)聯(lián)規(guī)則訓(xùn)練數(shù)據(jù)集干擾項(xiàng),篩選得到純凈特征變量參數(shù)集;

d.對步驟c得到的純凈特征變量參數(shù)集通過多維關(guān)聯(lián)規(guī)則得到商品合格率規(guī)則模型。

在上述技術(shù)方案的基礎(chǔ)上,進(jìn)一步的,所述步驟b使用決策樹算法對數(shù)據(jù)訓(xùn)練集進(jìn)行特征分類中所述決策樹算法是c4.5決策樹算法。

進(jìn)一步的,一種商品合格率關(guān)聯(lián)規(guī)則的挖掘的裝置,其特征在于,包括:

存儲模塊,用于獲取和存儲原始訓(xùn)練數(shù)據(jù)集;

第一挖掘模塊,用于使用決策樹算法對數(shù)據(jù)訓(xùn)練集進(jìn)行特征分類,并提取出分類特征變量重要性數(shù)據(jù)集;

第二挖掘模塊,用于將設(shè)置特征參數(shù)重要性閥值對得到的特征變量重要性數(shù)據(jù)集和調(diào)參數(shù)據(jù)交叉排除多維關(guān)聯(lián)規(guī)則訓(xùn)練數(shù)據(jù)集干擾項(xiàng),篩選得到純凈特征變量參數(shù)集;

第三挖掘模塊,用于將純凈特征變量參數(shù)集通過多維關(guān)聯(lián)規(guī)則得到商品合格率規(guī)則模型。

本發(fā)明的優(yōu)點(diǎn)在于:優(yōu)化了關(guān)聯(lián)規(guī)則模型的輸入變量優(yōu)化,同時(shí)利用決策樹生成樹的信息增益標(biāo)準(zhǔn)化后的值,避免了決策樹面對連續(xù)變量及序列型數(shù)據(jù)的計(jì)算性能問題;無決策樹生成樹泛化剪枝優(yōu)化問題。

附圖說明

圖1是本發(fā)明商品合格率關(guān)聯(lián)規(guī)則的挖掘方法的流程示意圖;

圖2是本發(fā)明商品合格率關(guān)聯(lián)規(guī)則的挖掘裝置的結(jié)構(gòu)示意圖。

具體實(shí)施方式

下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的實(shí)力在附圖中示出,其中自始至終相同或類似的標(biāo)號表示相同或類似的原件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。

如圖1所示,種商品合格率關(guān)聯(lián)規(guī)則的挖掘方法,所述挖掘方法包括以下步驟:

a.獲取原始訓(xùn)練數(shù)據(jù)集;

b.使用決策樹算法對數(shù)據(jù)訓(xùn)練集進(jìn)行特征分類,并提取出分類特征變量重要性數(shù)據(jù)集;

c.設(shè)置特征參數(shù)重要性閥值對步驟b得到的特征變量重要性數(shù)據(jù)集和調(diào)參數(shù)據(jù)交叉排除多維關(guān)聯(lián)規(guī)則訓(xùn)練數(shù)據(jù)集干擾項(xiàng),篩選得到純凈特征變量參數(shù)集;

d.對步驟c得到的純凈特征變量參數(shù)集通過多維關(guān)聯(lián)規(guī)則得到商品合格率規(guī)則模型。

其中步驟b具體如下:

b1:根據(jù)步驟a獲取的訓(xùn)練集,判斷所述訓(xùn)練集是多節(jié)點(diǎn)或單節(jié)點(diǎn)數(shù)據(jù)集,若是單節(jié)點(diǎn)數(shù)據(jù)集直接轉(zhuǎn)入步驟d建立模型;

b2:設(shè)s是n個(gè)數(shù)據(jù)樣本的集合,將樣本集劃分為c個(gè)不同的類

,每個(gè)類含有的樣本數(shù)目為,則s劃分為c個(gè)類的信息熵或期望信息,有

其中是s中樣本屬于第i類的概率,即

假設(shè)屬性a的所有不同值得集合為,是s中屬性a的值為v的樣本子集,即,在選擇屬性a后的每一個(gè)分支節(jié)點(diǎn)上,對該節(jié)點(diǎn)的樣本集分類的熵。選擇a導(dǎo)致的期望熵定義為每個(gè)子集的熵的加權(quán)和,權(quán)值為屬于的樣本占原始樣本s的比例,即期望熵為

其中,是將中的樣本劃分到c個(gè)類的信息熵,屬性a相對樣本集合s的信息增益gain定義為

信息增益gain是指知道屬性a的值后導(dǎo)致的熵的期望壓縮,gain越大,說明選擇測試屬性a對分類提供的信息越多。

信息增益比作為劃分訓(xùn)練數(shù)據(jù)集的特征,存在偏向于選擇取值較多的特征問題,使用信息增益比(informationgainratio)可以對這一問題進(jìn)行校正。這是特征選擇的另一準(zhǔn)則信息增益比定義如下

b3:選取信息增益比當(dāng)前最大的構(gòu)建當(dāng)前子節(jié)點(diǎn),并記錄此特征分類參數(shù);

b4:對應(yīng)節(jié)點(diǎn)構(gòu)建決策樹遍歷數(shù)據(jù)集,得到所有信息增益比。

b5:將信息增益比標(biāo)準(zhǔn)化后作為分類特征變量重要性數(shù)據(jù)集保存輸出。

其中步驟c如下:

c1:輸入步驟b得到的特征變量重要性數(shù)據(jù)集db及多維關(guān)聯(lián)規(guī)則最小支持度;

c2:首先掃描數(shù)據(jù)集找出所有的頻集,這些項(xiàng)集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持度一樣;然后由頻集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度;然后使用c1找到的頻集產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合的項(xiàng)的所有規(guī)則,其中每一條規(guī)則的右部只有一項(xiàng)。

定義如下:可表示成形如a→b的蘊(yùn)涵式,a和b分別表示為規(guī)則的合取范式構(gòu)成的邏輯公式,a∩b=?。其主要參數(shù)有支持度與置信度。

(1)支持度s

事務(wù)集d中同時(shí)包含事務(wù)a和b的百分比,稱為規(guī)則a→b具有支持度s。

支持度的計(jì)算方法為:

s(a→b)=包含a和b的事物數(shù)/事物總數(shù)×100%

(2)置信度c

事務(wù)集d中包含a的事務(wù)數(shù)與同時(shí)包含b的事務(wù)數(shù)的百分比,稱為規(guī)則a→b具有置信度c。

置信度的計(jì)算方法為:

c(a→b)=包含a和b的事物數(shù)/包含a的事物數(shù)×100%

同時(shí)滿足最小支持度和最小置信度的規(guī)則稱為強(qiáng)關(guān)聯(lián)規(guī)則,即在關(guān)聯(lián)規(guī)則挖掘中所希望發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則。

c3:利用向下封閉屬性,即如果一個(gè)項(xiàng)集是頻繁項(xiàng)目集,那么它的非空子集必定是頻繁項(xiàng)目集,頻繁集的子集也一定是頻繁集。依次類推,生成所有的頻繁項(xiàng)目集,然后從頻繁項(xiàng)目集中找出符合條件的關(guān)聯(lián)規(guī)則。

c4:通過聯(lián)合和剪枝兩步,生成一個(gè)頻繁集。例如:

1,其中l(wèi)k-1為頻繁集。合并只有最后一個(gè)元素不同的item,如

{1,2},{1,3},{1,4},{2,3},{2,4}

生成3-頻繁項(xiàng)目集:

因?yàn)閧1,2},{1,3},{1,4}除了最后一個(gè)元素以外都相同,所以求{1,2},{1,3}的并集得到{1,2,3},{1,2}和{1,4}的并集得到{1,2,4},{1,3}和{1,4}的并集得到{1,3,4}。但是由于{1,3,4}的子集{3,4}不在2-頻繁項(xiàng)目集中,所以需要把{1,3,4}剔除掉。

2,合并后的集合,如果支持度不滿足要求,則把該合并集合刪除。

c5:對于所有滿足最小支持度的頻繁集,根據(jù)最小置信度得到強(qiáng)規(guī)則關(guān)聯(lián)。

如圖2所示,一種商品合格率關(guān)聯(lián)規(guī)則的挖掘的裝置,其特征在于,包括:

存儲模塊10,用于獲取和存儲原始訓(xùn)練數(shù)據(jù)集;

第一挖掘模塊11,用于使用決策樹算法對數(shù)據(jù)訓(xùn)練集進(jìn)行特征分類,并提取出分類特征變量重要性數(shù)據(jù)集;

第二挖掘模塊12,用于將設(shè)置特征參數(shù)重要性閥值對得到的特征變量重要性數(shù)據(jù)集和調(diào)參數(shù)據(jù)交叉排除多維關(guān)聯(lián)規(guī)則訓(xùn)練數(shù)據(jù)集干擾項(xiàng),篩選得到純凈特征變量參數(shù)集;

第三挖掘模塊13,用于將純凈特征變量參數(shù)集通過多維關(guān)聯(lián)規(guī)則得到商品合格率規(guī)則模型。

盡管上面已經(jīng)示出和描述了本發(fā)明的實(shí)施例,可以理解的是,上述實(shí)施例是示例性的,不能理解為對本發(fā)明的限制,本領(lǐng)域的普通技術(shù)人員在不脫離本發(fā)明的原理和宗旨的情況下在本發(fā)明的范圍內(nèi)可以對上述實(shí)施例進(jìn)行變化、修改、替換和變型。本發(fā)明的范圍由所附權(quán)利要求極其等同限定。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
攀枝花市| 当阳市| 信丰县| 安泽县| 玉树县| 香格里拉县| 饶阳县| 麦盖提县| 贞丰县| 荆州市| 华池县| 桓台县| 青田县| 南丰县| 新昌县| 两当县| 南汇区| 海林市| 镇赉县| 湘西| 西青区| 富顺县| 大邑县| 南乐县| 江津市| 彰化市| 南陵县| 汾西县| 五寨县| 江门市| 增城市| 昌图县| 三门县| 芦溪县| 长沙市| 六枝特区| 萨迦县| 遂宁市| 汕头市| 石柱| 赣州市|