專利名稱:一種基于Apriori方法的氣象災(zāi)害智能感知方法
技術(shù)領(lǐng)域:
本發(fā)明涉及智能感知和數(shù)據(jù)挖掘領(lǐng)域,尤其是一種基于Apriori方法的氣象災(zāi)害智能感知方法。
背景技術(shù):
目前,決策支持系統(tǒng)(DSS)是指綜合利用大量數(shù)據(jù),將數(shù)學(xué)模型和數(shù)據(jù)處理模型、管理學(xué)、控制論、運(yùn)籌學(xué)等多學(xué)科知識(shí)有機(jī)組合,通過人機(jī)交互輔助各級(jí)決策者實(shí)現(xiàn)科學(xué)決策的系統(tǒng)。它通過信息、仿真和計(jì)算機(jī)等技術(shù)手段綜合利用現(xiàn)有的數(shù)據(jù)模型,輔助決策者解決半結(jié)構(gòu)化或非結(jié)構(gòu)化決策問題。從決策支持系統(tǒng)的定義來看,信息、決策者和模型是決策支持系統(tǒng)的三個(gè)最基本要素,DSS的目的是輔助決策者做出決策方案,提高決策者的決策技能和組織決策的水平,最終提高組織技能,取得更好的經(jīng)濟(jì)效益。目前DSS發(fā)展的重要方向及其衍生主要有以下幾個(gè)方向:(1)模型驅(qū)動(dòng)的智能決策支持系統(tǒng)(Model- driven IDSS),(2)數(shù)據(jù)驅(qū)動(dòng)的智能決策支持系統(tǒng)(Data-DrivenIDSS), (3)知識(shí)驅(qū)動(dòng)的決策支持系統(tǒng)(Knowledge-Driven IDSS)。IDSS主要通過對(duì)關(guān)聯(lián)隱藏的數(shù)據(jù)進(jìn)行處理并模型化,利用數(shù)值模型的計(jì)算結(jié)果來進(jìn)行決策支持。對(duì)于一個(gè)智能系統(tǒng)來說,知識(shí)庫是其核心,在這個(gè)知識(shí)庫中,往往包含大量模糊、隨機(jī)、不可靠或不確定性因素的數(shù)據(jù),顯然用于海量數(shù)據(jù)的處理的數(shù)據(jù)挖掘技術(shù)是實(shí)現(xiàn)智能感知與優(yōu)化發(fā)展的核心。Apriori方法的基本思想是“利用頻繁項(xiàng)集的先驗(yàn)知識(shí),也就是說使用一種逐層搜索的迭代方法來尋找頻繁項(xiàng)集進(jìn)而求出關(guān)聯(lián)規(guī)則”。該方法是一種尋找頻繁項(xiàng)集的最基本方法,至今仍作為關(guān)聯(lián)規(guī)則挖掘的經(jīng)典方法被廣泛研究改進(jìn)應(yīng)用。Apriori具有良好可伸縮性和實(shí)用性能,尤其是在處理離散數(shù)據(jù)時(shí)能夠有突出的表現(xiàn)。不過,在產(chǎn)生候選項(xiàng)目集類方法中存在固有不足,比如在處理高相關(guān)性的稠密數(shù)據(jù)時(shí),存在著以下缺點(diǎn):容易并呈現(xiàn)組合式的增長(zhǎng)速度,產(chǎn)生巨大的候選項(xiàng)目集。必須要對(duì)數(shù)據(jù)庫多次掃描。如果最長(zhǎng)的模式是η的話,則需要(η+1)次數(shù)據(jù)庫掃描。產(chǎn)生大量冗余規(guī)則等。
發(fā)明內(nèi)容
本發(fā)明在基于傳統(tǒng)Apriori關(guān)聯(lián)方法的基礎(chǔ)上,提出一種改進(jìn)的Apriori方法,并應(yīng)用于一個(gè)氣象災(zāi)害智能感知系統(tǒng)。相較傳統(tǒng)方法的不足之處,該方法降低了磁盤訪問率,提升了運(yùn)行效率,減少了冗余規(guī)則。這個(gè)改進(jìn)方法主要通過矩陣存儲(chǔ)法和事務(wù)壓縮提升了系統(tǒng)效率,并通過約束規(guī)則降低了規(guī)則冗余。該方法可以直接運(yùn)用在該氣象災(zāi)害智能感知系統(tǒng)中,經(jīng)過實(shí)驗(yàn)驗(yàn)證,該系統(tǒng)可以通過知識(shí)庫中的數(shù)據(jù)利用關(guān)聯(lián)規(guī)則導(dǎo)出到規(guī)則庫。本發(fā)明的技術(shù)方案是: 一種基于Apriori方法的氣象災(zāi)害智能感知方法,它包括如下步驟:
O定義知識(shí)庫和規(guī)則庫;
2)采用矩陣存儲(chǔ)法降低磁盤訪問率;
3)采用事務(wù)壓縮方法進(jìn)一步減少候選項(xiàng)目集ck中的候選項(xiàng)的數(shù)量;
4)采用約束規(guī)則更新項(xiàng)目集,
進(jìn)行智能感知,得到相應(yīng)的氣象災(zāi)害預(yù)測(cè)信息。本發(fā)明的知識(shí)庫中包含了氣象災(zāi)害歷史感知數(shù)據(jù),氣象災(zāi)害預(yù)警預(yù)案數(shù)據(jù),法律法規(guī)數(shù)據(jù)的內(nèi)容;規(guī)則庫用于存儲(chǔ)通過關(guān)聯(lián)規(guī)則方法導(dǎo)出的規(guī)則數(shù)據(jù),包含氣象災(zāi)害數(shù)據(jù)及其對(duì)應(yīng)的智能感知信息。本發(fā)明的矩陣存儲(chǔ)法為:首先對(duì)數(shù)據(jù)庫進(jìn)行編碼,采用矩陣存儲(chǔ)方法一次性將數(shù)據(jù)全部讀進(jìn)內(nèi)存并存儲(chǔ)項(xiàng)集。本發(fā)明的事務(wù)壓縮方法:在候選項(xiàng)目集Ck產(chǎn)生前,對(duì)Lk-1進(jìn)一步裁剪,統(tǒng)計(jì)Lk-1中所有的項(xiàng)目出現(xiàn)的次數(shù),刪除Lk-1中包含出現(xiàn)次數(shù)小于k-Ι的項(xiàng)目的項(xiàng)目集,以減少參加連接的k-Ι項(xiàng)目集的數(shù)量。本發(fā)明的約束規(guī)則為:直接將不符合社會(huì)基本事實(shí)的連接生成項(xiàng)從候選項(xiàng)集中刪除。本發(fā)明的有益效果:
本發(fā)明提出的一種改進(jìn)的Apriori關(guān)聯(lián)方法在現(xiàn)在的氣象災(zāi)害智能感知系統(tǒng)中有明顯的優(yōu)化作用。相對(duì)于傳統(tǒng)的Apriori關(guān)聯(lián)方法,本方法在運(yùn)行過程中需要掃描數(shù)據(jù)庫次數(shù)減少,減輕了數(shù)據(jù)庫負(fù)擔(dān),并大大減少了生成的候選數(shù)據(jù)項(xiàng)。顯著提高了運(yùn)行效率。
圖1為氣象災(zāi)害智能感知系統(tǒng)業(yè)務(wù)流程圖。圖2為傳統(tǒng)方法和改進(jìn)后的方法時(shí)間對(duì)比圖。
具體實(shí)施例方式下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步的說明。如圖1所示,Apriori方法采用一種逐步搜索的方式,它需要枚舉出所有的頻繁項(xiàng)集,從以上學(xué)習(xí)過程中可以得知,該方法的不足表現(xiàn)有以下幾個(gè)方面。首先,在運(yùn)行過程中需要反復(fù)掃描數(shù)據(jù)庫,這樣就會(huì)造成方法需要計(jì)算機(jī)IO負(fù)荷過重和運(yùn)行時(shí)間長(zhǎng)等缺點(diǎn)。其次,當(dāng)事務(wù)數(shù)據(jù)庫較小時(shí),由這類數(shù)據(jù)得到的頻繁項(xiàng)集模式通常比較短,普通的關(guān)聯(lián)規(guī)則挖掘方法都能獲得良好的性能。但是當(dāng)該方法需要運(yùn)用到大型事務(wù)數(shù)據(jù)庫中時(shí)(如醫(yī)學(xué)領(lǐng)域、商業(yè)領(lǐng)域等等),由于大量場(chǎng)模式的出現(xiàn),導(dǎo)致方法性能急劇下降。這有以下三方面的原因:
(I)若事務(wù)數(shù)據(jù)庫的最長(zhǎng)的頻集的長(zhǎng)度為n,則方法需要掃描數(shù)據(jù)庫η次。多次掃描大型數(shù)據(jù)庫大大增加了方法的FO負(fù)荷。(2)生成一個(gè)頻集模式意味著需要生成大量額外的頻集并計(jì)算其支持度,生成大量候選集并計(jì)算其支持度,消耗了大量的時(shí)間。(3)不考慮任何現(xiàn)實(shí)意義,將連接生成的任意一項(xiàng)都作為候選項(xiàng)集來考慮,需要做無用的搜索與計(jì)數(shù)。本發(fā)明主要通過以下三點(diǎn)對(duì)Apriori方法進(jìn)行改進(jìn):
矩陣存儲(chǔ)法
數(shù)據(jù)庫中的矩陣存儲(chǔ)法(即數(shù)組存儲(chǔ)),就是指在處理大量數(shù)據(jù)的問題時(shí),為了方便起見,把具有相同類型的若干數(shù)據(jù)按有序的形式組織起來,這些按順序排列的同類數(shù)據(jù)元素的集合稱為數(shù)組。在對(duì)方法優(yōu)化處理時(shí),首先對(duì)數(shù)據(jù)庫進(jìn)行編碼,采用矩陣存儲(chǔ)方法一次性將數(shù)據(jù)全部讀進(jìn)內(nèi)存并存儲(chǔ)項(xiàng)集,這樣可以高速緩存中掃描數(shù)據(jù)庫,有效的避免掃描物理數(shù)據(jù)庫多次執(zhí)行。經(jīng)過上述處理以二元數(shù)組形式把數(shù)據(jù)存放在數(shù)據(jù)庫中,大大減少了計(jì)算機(jī)處理1/0負(fù)載,提高方法效率。事務(wù)壓縮
雖然目前相關(guān)學(xué)者對(duì)事務(wù)壓縮已有大量的研究,本課題仍將進(jìn)一步減少候選項(xiàng)目集Ck中的候選項(xiàng)的數(shù)量。在經(jīng)典Apriori方法中,事務(wù)壓縮主要是在Ck-1,產(chǎn)生后,將Ck-1中的項(xiàng)與支持度進(jìn)行比較,小于支持度的項(xiàng)集將被去掉,剩下的大項(xiàng)集將生成Lk-1,然后Lk-1與Lk-1進(jìn)行連接產(chǎn)生Ck。為了壓縮Ck容量,利用Apriori性質(zhì)這一原理來裁剪候選項(xiàng)集中的項(xiàng)目數(shù)量。根據(jù)Apriori性質(zhì),任何非頻繁的(k_l)項(xiàng)集都不能包含在頻繁K-項(xiàng)集中。因此如果一個(gè)候選k-項(xiàng)集的(k 一 I)子集不在Lk-1中,則該候選絕對(duì)不可能是頻繁的,可以直接從候選項(xiàng)集Ck中刪除掉,達(dá)到了壓縮Ck的目的。在改進(jìn)過程中,壓縮事務(wù)在產(chǎn)生候選項(xiàng)目集Ck之前。主要是對(duì)Lk-1進(jìn)行分析修剪,統(tǒng)計(jì)L`k-1中各項(xiàng)目出現(xiàn)的次數(shù),將一些項(xiàng)目集(包含Lk-1中出現(xiàn)次數(shù)小于k 一 I的項(xiàng)目)刪除掉,這樣就減少了 Lk-1自連接時(shí)的項(xiàng)目集數(shù)量,從而減少了所產(chǎn)生Ck中候選項(xiàng)的數(shù)量。約束規(guī)則
經(jīng)典Apriori方法在其剪枝過程中,對(duì)連接生成的所有項(xiàng)不做任何分析,均作為候選項(xiàng)在數(shù)據(jù)庫中來查找其出現(xiàn)的計(jì)數(shù)。比如氣象災(zāi)害規(guī)則庫中可能會(huì)出現(xiàn)如下候選頻繁項(xiàng)集::{“災(zāi)害名=高溫”,“等級(jí)=暴雨”。。。}而這不符合社會(huì)基本事實(shí)的,應(yīng)該直接將該項(xiàng)從候選項(xiàng)集中刪除掉,從而減少候選集內(nèi)項(xiàng)的數(shù)量。而傳統(tǒng)APriori方法把連接生成的項(xiàng)都作為候選項(xiàng),通過掃描數(shù)據(jù)庫,獲取該項(xiàng)集的支持度,并不考慮其現(xiàn)實(shí)意義,增加了沒必要的計(jì)算量。由上面的討論可知,在生成候選項(xiàng)時(shí)加入相關(guān)條件的約束規(guī)則,可以減少候選項(xiàng)集中的項(xiàng)目數(shù)量,生成的候選項(xiàng)更可能是頻繁項(xiàng),且減輕掃描數(shù)據(jù)庫的負(fù)擔(dān)。這就大大提高了方法的效率,尤其是在擁有海量數(shù)據(jù)的數(shù)據(jù)庫中,其效果更加明顯本發(fā)明未涉及部分均與現(xiàn)有技術(shù)相同或可采用現(xiàn)有技術(shù)加以實(shí)現(xiàn)。
權(quán)利要求
1.一種基于Apriori方法的氣象災(zāi)害智能感知方法,其特征是它包括如下步驟: O定義知識(shí)庫和規(guī)則庫; 2)采用矩陣存儲(chǔ)法降低磁盤訪問率; 3)采用事務(wù)壓縮方法進(jìn)一步減少候選項(xiàng)目集ck中的候選項(xiàng)的數(shù)量; 4)采用約束規(guī)則更新項(xiàng)目集, 進(jìn)行智能感知,得到相應(yīng)的氣象災(zāi)害預(yù)測(cè)信息。
2.根據(jù)權(quán)利要求1所述的基于Apriori方法的氣象災(zāi)害智能感知方法,其特征在于:所述的知識(shí)庫中包含了氣象災(zāi)害歷史感知數(shù)據(jù),氣象災(zāi)害預(yù)警預(yù)案數(shù)據(jù),法律法規(guī)數(shù)據(jù)的內(nèi)容;規(guī)則庫用于存儲(chǔ)通過關(guān)聯(lián)規(guī)則方法導(dǎo)出的規(guī)則數(shù)據(jù),包含氣象災(zāi)害數(shù)據(jù)及其對(duì)應(yīng)的智能感知信息。
3.根據(jù)權(quán)利要求1所述的基于Apriori方法的氣象災(zāi)害智能感知方法,其特征在于所述的矩陣存儲(chǔ)法為:首先對(duì)數(shù)據(jù)庫進(jìn)行編碼,采用矩陣存儲(chǔ)方法一次性將數(shù)據(jù)全部讀進(jìn)內(nèi)存并存儲(chǔ)項(xiàng)集。
4.根據(jù)權(quán)利要求1所述的基于Apriori方法的氣象災(zāi)害智能感知方法,其特征在于所述的事務(wù)壓縮方法:在候選項(xiàng)目集Ck產(chǎn)生前,對(duì)Lk-1進(jìn)一步裁剪,統(tǒng)計(jì)Lk-1中所有的項(xiàng)目出現(xiàn)的次數(shù),刪除Lk-1中包含出現(xiàn)次數(shù)小于k-Ι的項(xiàng)目的項(xiàng)目集,以減少參加連接的k-1項(xiàng)目集的數(shù)量。
5.根據(jù)權(quán)利要求1所述的基于Apriori方法的氣象災(zāi)害智能感知方法,其特征在于所述的約束規(guī)則為:直接將不符合社會(huì)基本事實(shí)的連接生成項(xiàng)從候選項(xiàng)集中刪除。
全文摘要
一種基于Apriori方法的氣象災(zāi)害智能感知方法,利用該方法可以對(duì)知識(shí)庫中的氣象災(zāi)害信息和感知信息進(jìn)行關(guān)聯(lián)分析,并可以導(dǎo)出規(guī)則加入規(guī)則庫。該方法的優(yōu)化主要包括一下內(nèi)容通過矩陣存儲(chǔ)法降低磁盤訪問率,進(jìn)一步減少候選項(xiàng)目集ck中的候選項(xiàng)的數(shù)量的事務(wù)壓縮方法,經(jīng)典約束規(guī)則的改進(jìn)。這個(gè)改進(jìn)方法具有磁盤訪問率低,運(yùn)行效率高,冗余規(guī)則少等特點(diǎn)。
文檔編號(hào)G06F19/00GK103106321SQ20111036092
公開日2013年5月15日 申請(qǐng)日期2011年11月15日 優(yōu)先權(quán)日2011年11月15日
發(fā)明者李千目, 戚湧, 錢潔龍, 張宏, 侯君 申請(qǐng)人:無錫南理工科技發(fā)展有限公司