一種基于遺傳規(guī)劃算法的增量數(shù)據(jù)挖掘方法
【專利摘要】本發(fā)明提供一種基于遺傳規(guī)劃算法的增量數(shù)據(jù)挖掘方法,增量數(shù)據(jù)挖掘能夠完成數(shù)據(jù)樣本由少到多的增量模型學(xué)習(xí)任務(wù),將數(shù)據(jù)輸入到模型,輸入層對(duì)數(shù)據(jù)做線性映射,將結(jié)果傳入中間層;中間層分別做非線性變換和空間提升映射,將結(jié)果輸出到投票系統(tǒng);投票系統(tǒng)確定所屬類別;反饋系統(tǒng)優(yōu)化網(wǎng)絡(luò)參數(shù)。多次迭代完成學(xué)習(xí)過程。處理增量數(shù)據(jù)時(shí),新舊數(shù)據(jù)樣本的耦合度低,挖掘新數(shù)據(jù)時(shí)不再考慮舊數(shù)據(jù)樣本,有很好的繼承性。
【專利說明】一種基于遺傳規(guī)劃算法的增量數(shù)據(jù)挖掘方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,特別是一種增量數(shù)據(jù)挖掘模型。采用樣本批量學(xué)習(xí)模 式,模型結(jié)合遺傳規(guī)劃與神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì),能夠很好地實(shí)現(xiàn)增量數(shù)據(jù)挖掘。具體地說是一種 基于遺傳規(guī)劃算法的增量數(shù)據(jù)挖掘方法。
【背景技術(shù)】
[0002] 大數(shù)據(jù)時(shí)代聚集的大規(guī)模數(shù)據(jù)樣本為商業(yè)模式創(chuàng)新和科學(xué)新發(fā)現(xiàn)提供可能,如何 從大規(guī)模數(shù)據(jù)中發(fā)現(xiàn)有用的信息或資源成為大數(shù)據(jù)時(shí)代所需解決的最重要的問題,數(shù)據(jù)挖 掘作為模型發(fā)現(xiàn)技術(shù)無疑是大數(shù)據(jù)時(shí)代中的核心技術(shù)。
[0003] 在數(shù)據(jù)采樣過程中,往往一定時(shí)間內(nèi)采集的樣本有限且局限性大,這時(shí)的學(xué)習(xí)模 型往往也具有局限性。隨著時(shí)間的積累,采集到的樣本逐漸增加,樣本覆蓋范圍更廣泛,對(duì) 應(yīng)的模型也需相應(yīng)的更新。傳統(tǒng)的數(shù)據(jù)挖掘算法在解決這樣的問題是,往往是基于新的樣 本群重新構(gòu)建模型。主要原因在于此類算法需要針對(duì)數(shù)據(jù)群作為模型學(xué)習(xí)基礎(chǔ),數(shù)據(jù)間有 很大的耦合性。而增量數(shù)據(jù)挖掘可以在原模型基礎(chǔ)上進(jìn)一步優(yōu)化得到適應(yīng)新樣本的模型。
[0004] 傳統(tǒng)的遺傳規(guī)劃算法在學(xué)習(xí)過程中雖然樣本間無耦合,但是因?yàn)榫幋a方式和進(jìn)化 機(jī)理問題,算法解決增量數(shù)據(jù)時(shí),無論增量數(shù)據(jù)規(guī)模大小,學(xué)習(xí)過程仍需很大的代價(jià)。且需 要繼續(xù)參考原樣本集。這使得遺傳規(guī)劃算法在分類分析上的模型簡(jiǎn)單可讀性高的優(yōu)勢(shì)被埋 沒。本發(fā)明利用遺傳規(guī)劃算法的通過重構(gòu)由簡(jiǎn)單初等函數(shù)組成的函數(shù)式模型這一特點(diǎn),實(shí) 現(xiàn)算法在增量學(xué)習(xí)上的應(yīng)用。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的是為了更好的解決增量數(shù)據(jù)挖掘中的學(xué)習(xí)能力問題。繼承遺傳規(guī)劃 算法的優(yōu)勢(shì),學(xué)習(xí)過程中樣本作為輸入逐個(gè)處理,通過多個(gè)中間層的反饋過程,沿梯度下降 方向逐步優(yōu)化模型中的系數(shù)和偏移量。從而能夠很好地提高學(xué)習(xí)能力提供種基于遺傳規(guī)劃 算法的增量數(shù)據(jù)挖掘方法。
[0006] 本發(fā)明的目的是按以下方式實(shí)現(xiàn)的,針對(duì)遺傳規(guī)劃算法增量數(shù)據(jù)挖掘的需求及高 可讀性與高分類準(zhǔn)確度的優(yōu)點(diǎn),使用設(shè)計(jì)函數(shù)集并引入神經(jīng)網(wǎng)絡(luò)優(yōu)化思想提取出替代交叉 變異過程的全新搜索過程,設(shè)計(jì)優(yōu)化算法搜索機(jī)理,實(shí)現(xiàn)增量數(shù)據(jù)挖掘任務(wù); 遺傳規(guī)劃算法學(xué)習(xí)方法由常規(guī)初等函數(shù)、常數(shù)和變量組成的函數(shù)解析式,該解析式多 階可微,根據(jù)泰勒公式,可將其解析為形式相似的組分疊加,這樣,原來的交叉變異過程簡(jiǎn) 化為優(yōu)化組分的系數(shù)和偏移量的過程,引入反饋網(wǎng)絡(luò)和核函數(shù)模型,通過模型的輸出結(jié)果 與期望結(jié)果的偏差,反向調(diào)整疊加系數(shù),通過逐步迭代得到預(yù)期的模型,步驟內(nèi)容如下: (1) 確定輸入層個(gè)數(shù);確定中間層1的函數(shù)組成;批量樣本數(shù)目N設(shè)置算法框架中的中 間層2的個(gè)數(shù);約定每次輸入網(wǎng)絡(luò)中進(jìn)化的代數(shù)n; (2) 訓(xùn)練數(shù)據(jù)集獲取,對(duì)已有類標(biāo)數(shù)據(jù)樣本篩選、去噪處理得到學(xué)習(xí)所需的訓(xùn)練數(shù)據(jù) 集; (3) 隨機(jī)生成中間層1與中間層2中的權(quán)重系數(shù)和偏移量; (4) 訓(xùn)練集中樣本批量輸入網(wǎng)絡(luò)中,分別通過中間層1和中間層2的映射,最后經(jīng)過投 票系統(tǒng)得出最終分類結(jié)果; (5) 計(jì)算投票系統(tǒng)的輸出結(jié)果與目標(biāo)結(jié)果的距離; (6) 根據(jù)誤差通過反饋網(wǎng)絡(luò)優(yōu)化網(wǎng)絡(luò)參數(shù); (7) 通過檢查迭代次數(shù)檢測(cè)優(yōu)化過程是否完成,若未完成,進(jìn)入步驟(4)繼續(xù)優(yōu)化參數(shù); 若完成則轉(zhuǎn)向步驟(8); (8) 輸入下一批次的樣本,轉(zhuǎn)向步驟(4),循環(huán)直至所有樣本輸入完畢; (9) 保存網(wǎng)絡(luò)層1和網(wǎng)絡(luò)層2的中間權(quán)重值和偏移量,核函數(shù)以及投票過程,學(xué)習(xí)過程 結(jié)束, (10) 步驟(1)中所述的中間層1的函數(shù)選擇,中間層2的核函數(shù)個(gè)數(shù),按照如下方式進(jìn) 行: 根據(jù)泰勒公式,選取1、X、r3、X4的系數(shù)和作為一般函數(shù)表達(dá)式的近似表示, 在中間層1,選擇此五個(gè)元素作為節(jié)點(diǎn)元素,中間層2的節(jié)點(diǎn)個(gè)數(shù)為3-5個(gè),作為決策前的空 間提升過程,核函數(shù)選擇sigmoid核函數(shù); 步驟(2)中所述的樣本篩選與去噪主要濾除原始數(shù)據(jù)樣本集中出現(xiàn)的錯(cuò)誤數(shù)據(jù),防止 學(xué)習(xí)過程中因此產(chǎn)生大的偏差,同時(shí)學(xué)習(xí)模型更加有效; 步驟(3)中所述的初始系數(shù)和偏移量,按照隨機(jī)生成一組位于[-10, 10]的實(shí)數(shù)作為各 節(jié)點(diǎn)的系數(shù),隨機(jī)生成一組位于[-1,1]的實(shí)數(shù)作為中間層1各節(jié)點(diǎn)的偏移量,節(jié)點(diǎn)系數(shù)和 偏移量將在優(yōu)化中被逐漸調(diào)整,最終達(dá)到合適的值; 步驟(4)中所述的樣本輸入網(wǎng)絡(luò),按照如下方式進(jìn)行: 網(wǎng)絡(luò)的輸入層,按照樣本維度的大小設(shè)計(jì)輸入層節(jié)點(diǎn)個(gè)數(shù),根據(jù)順序,樣本的每一維度 分別輸入到網(wǎng)絡(luò)的輸入層中,輸入層做系數(shù)與偏移量變換,將變換結(jié)果傳遞給中間層1,中 間層1做函數(shù)映射并根據(jù)各節(jié)點(diǎn)的系數(shù)和偏移量計(jì)算結(jié)果作為輸出傳遞到中間層2,如公 式(1)所示; 公式(1):
【權(quán)利要求】
1. 一種基于遺傳規(guī)劃算法的增量數(shù)據(jù)挖掘方法,其特征在于,針對(duì)遺傳規(guī)劃算法增量 數(shù)據(jù)挖掘的需求及高可讀性與高分類準(zhǔn)確度的優(yōu)點(diǎn),使用設(shè)計(jì)函數(shù)集并引入神經(jīng)網(wǎng)絡(luò)優(yōu)化 思想提取出替代交叉變異過程的全新搜索過程,設(shè)計(jì)優(yōu)化算法搜索機(jī)理,實(shí)現(xiàn)增量數(shù)據(jù)挖 掘任務(wù); 遺傳規(guī)劃算法學(xué)習(xí)方法由常規(guī)初等函數(shù)、常數(shù)和變量組成的函數(shù)解析式,該解析式多 階可微,根據(jù)泰勒公式,可將其解析為形式相似的組分疊加,這樣,原來的交叉變異過程簡(jiǎn) 化為優(yōu)化組分的系數(shù)和偏移量的過程,引入反饋網(wǎng)絡(luò)和核函數(shù)模型,通過模型的輸出結(jié)果 與期望結(jié)果的偏差,反向調(diào)整疊加系數(shù),通過逐步迭代得到預(yù)期的模型,步驟內(nèi)容如下: (1) 確定輸入層個(gè)數(shù);確定中間層1的函數(shù)組成;批量樣本數(shù)目N設(shè)置算法框架中的中 間層2的個(gè)數(shù);約定每次輸入網(wǎng)絡(luò)中進(jìn)化的代數(shù)n ; (2) 訓(xùn)練數(shù)據(jù)集獲取,對(duì)已有類標(biāo)數(shù)據(jù)樣本篩選、去噪處理得到學(xué)習(xí)所需的訓(xùn)練數(shù)據(jù) 集; (3) 隨機(jī)生成中間層1與中間層2中的權(quán)重系數(shù)和偏移量; (4) 訓(xùn)練集中樣本批量輸入網(wǎng)絡(luò)中,分別通過中間層1和中間層2的映射,最后經(jīng)過投 票系統(tǒng)得出最終分類結(jié)果; (5) 計(jì)算投票系統(tǒng)的輸出結(jié)果與目標(biāo)結(jié)果的距離£ ; (6) 根據(jù)誤差通過反饋網(wǎng)絡(luò)優(yōu)化網(wǎng)絡(luò)參數(shù); (7) 通過檢查迭代次數(shù)檢測(cè)優(yōu)化過程是否完成,若未完成,進(jìn)入步驟(4)繼續(xù)優(yōu)化參數(shù); 若完成則轉(zhuǎn)向步驟(8); (8) 輸入下一批次的樣本,轉(zhuǎn)向步驟(4),循環(huán)直至所有樣本輸入完畢; (9) 保存網(wǎng)絡(luò)層1和網(wǎng)絡(luò)層2的中間權(quán)重值和偏移量,核函數(shù)以及投票過程,學(xué)習(xí)過程 結(jié)束; (10) 步驟(1)中所述的中間層1的函數(shù)選擇,中間層2的核函數(shù)個(gè)數(shù),按照如下方式進(jìn) 行: 根據(jù)泰勒公式,選取1、X、X2、¥、x4的系數(shù)和作為一般函數(shù)表達(dá)式的近似表示, 在中間層1,選擇此五個(gè)元素作為節(jié)點(diǎn)元素,中間層2的節(jié)點(diǎn)個(gè)數(shù)為3-5個(gè),作為決策前的空 間提升過程,核函數(shù)選擇sigmoid核函數(shù); 步驟(2)中所述的樣本篩選與去噪主要濾除原始數(shù)據(jù)樣本集中出現(xiàn)的錯(cuò)誤數(shù)據(jù),防止 學(xué)習(xí)過程中因此產(chǎn)生大的偏差,同時(shí)學(xué)習(xí)模型更加有效; 步驟(3)中所述的初始系數(shù)和偏移量,按照隨機(jī)生成一組位于[-10, 10]的實(shí)數(shù)作為各 節(jié)點(diǎn)的系數(shù),隨機(jī)生成一組位于[-1,1]的實(shí)數(shù)作為中間層1各節(jié)點(diǎn)的偏移量,節(jié)點(diǎn)系數(shù)和 偏移量將在優(yōu)化中被逐漸調(diào)整,最終達(dá)到合適的值; 步驟(4)中所述的樣本輸入網(wǎng)絡(luò),按照如下方式進(jìn)行: 網(wǎng)絡(luò)的輸入層,按照樣本維度的大小設(shè)計(jì)輸入層節(jié)點(diǎn)個(gè)數(shù),根據(jù)順序,樣本的每一維度 分別輸入到網(wǎng)絡(luò)的輸入層中,輸入層做系數(shù)與偏移量變換,將變換結(jié)果傳遞給中間層1,中 間層1做函數(shù)映射并根據(jù)各節(jié)點(diǎn)的系數(shù)和偏移量計(jì)算結(jié)果作為輸出傳遞到中間層2,如公 式(1)所示;
其中4為中間層1節(jié)點(diǎn)I的輸出,為;輸入到節(jié)點(diǎn)J的系數(shù),每為節(jié)點(diǎn)f的偏移 量,r為網(wǎng)絡(luò)入口數(shù); 中間層2經(jīng)過大小縮放和核函數(shù)變換,將變換后結(jié)果傳遞給投票系統(tǒng);如公式(2)所示;
其中g(shù)為中間層2節(jié)點(diǎn)的輸出,為中間層1的節(jié)點(diǎn)J到節(jié)點(diǎn)|的系數(shù),g為節(jié) 點(diǎn)的偏移量,M為中間層2的節(jié)點(diǎn)數(shù),.:¥為中間層1的節(jié)點(diǎn)個(gè)數(shù); 步驟(5)中描述的投票系統(tǒng),按照如下方式進(jìn)行: 投票系統(tǒng)根據(jù)輸入值的分布,根據(jù)M個(gè)核函數(shù)節(jié)點(diǎn)的投票結(jié)果,選出命中類別最多的 那一類作為輸出結(jié)果,若各類標(biāo)得票結(jié)果相同,按隨機(jī)選擇方式?jīng)Q定輸出結(jié)果,決策最終的 樣本所屬類別,計(jì)算最終類別與目標(biāo)類別的誤差,誤差計(jì)算方法如公式(3)所示:
其中,^為第&個(gè)樣本的真實(shí)類別,為中間層2第個(gè)|節(jié)點(diǎn)的輸出; 步驟(6)中描述的根據(jù)誤差調(diào)整網(wǎng)絡(luò)參數(shù)的反饋網(wǎng)絡(luò),按照如下方式進(jìn)行: 反饋網(wǎng)絡(luò)的優(yōu)化過程如下所示,根據(jù)中間層2的輸出結(jié)果和目標(biāo)值的誤差,為使得優(yōu) 化過程能夠按照梯度下降的方向進(jìn)行,從而優(yōu)化過程使得誤差函數(shù)下降,計(jì)算中間層2的 偏微分,得出其系數(shù)變化量和偏移量變化量,據(jù)此變化量更新二者的值:
其中I?為優(yōu)化速率,本方案中設(shè)為0. 1 ; 步驟(7)中描述的迭代過程,按照如下所述的方式進(jìn)行: 根據(jù)步驟(4)中系數(shù)與偏移量的更新方法,更新網(wǎng)絡(luò)中的系數(shù)和偏移量,重新學(xué)習(xí)該批 次樣本,計(jì)算中間層2的輸出與目標(biāo)類別的誤差,并再次進(jìn)行前向反饋,如此迭代預(yù)設(shè)的n 次,停止迭代過程; 在此n取值1000 ; 步驟(8)中描述的選擇下一批次的樣本,按照如下方式進(jìn)行: 在本次樣本集迭代終止后,網(wǎng)絡(luò)保存?zhèn)€節(jié)點(diǎn)的參數(shù),此時(shí)增量數(shù)據(jù)只需直接輸入網(wǎng)絡(luò) 中,即實(shí)現(xiàn)網(wǎng)絡(luò)對(duì)此增量樣本的繼續(xù)學(xué)習(xí),學(xué)習(xí)過程從步驟(4)開始,逐層傳遞而后逐步回 饋,迭代完成優(yōu)化過程。
2. 根據(jù)權(quán)利要求書1中所述的方法,其特征在于,解析式簡(jiǎn)化部分,遺傳規(guī)劃算法將加 減乘除以及開方、平方的函數(shù)作為函數(shù)集,采用深度可變的樹形結(jié)構(gòu)來優(yōu)化學(xué)習(xí)模型,學(xué)習(xí) 模型解碼為函數(shù)解析式,根據(jù)泰勒公式指出,一個(gè)N階可微的函數(shù)可以用多個(gè)冪函數(shù)組成 的多項(xiàng)式來表示,而遺傳規(guī)劃算法學(xué)習(xí)到的模型大部分情況下符合多階可微的情況,因此 可將遺傳規(guī)劃算法的學(xué)習(xí)過程簡(jiǎn)化為尋找多個(gè)冪函數(shù)組成的多項(xiàng)式過程,具體的就是尋找 組合冪函數(shù)的系數(shù)及偏移量的過程,在此,使用的冪函數(shù)有比例函數(shù)、平方函數(shù)、立方函數(shù)、 四次方函數(shù)組分組成網(wǎng)絡(luò)的中間1層節(jié)點(diǎn)。
3. 根據(jù)權(quán)利要求書1中所述的方法,其特征在于,核函數(shù)模型,作為網(wǎng)絡(luò)的中間2層,中 間1層結(jié)果作為輸入,核函數(shù)結(jié)果通過投票過程得到最終的模型輸出,sigmoid函數(shù)作為網(wǎng) 絡(luò)中的中間層2 ;投票系統(tǒng)做最終的分類決策,數(shù)據(jù)樣本的每個(gè)維度數(shù)據(jù)作為各函數(shù)的輸 入,輸入節(jié)點(diǎn)對(duì)輸入數(shù)據(jù)通過系數(shù)和偏移量進(jìn)行預(yù)處理,節(jié)點(diǎn)輸出結(jié)果傳遞給中間層1,中 間層1各節(jié)點(diǎn)根據(jù)自身所代表的函數(shù)計(jì)算出對(duì)應(yīng)的映射關(guān)系,并將結(jié)果依據(jù)中間層1的系 數(shù)和偏移量進(jìn)一步處理,輸出結(jié)果傳遞給中間2層,中間2層節(jié)點(diǎn)做空間變換映射,得出中 間層2的輸出結(jié)果,網(wǎng)絡(luò)反饋過程中,沿梯度下降方向調(diào)整系數(shù)和偏移量。
4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,通過檢查迭代次數(shù)檢測(cè)優(yōu)化過程是否完 成,是根據(jù)訓(xùn)練集中樣本批量輸入網(wǎng)絡(luò)中的系數(shù)與偏移量的更新方法,更新網(wǎng)絡(luò)中的系數(shù) 和偏移量,重新學(xué)習(xí)該批次樣本,計(jì)算中間層2的輸出與目標(biāo)類別的誤差,并再次進(jìn)行前向 反饋,如此迭代預(yù)設(shè)的n次,停止迭代過程,在此n取值1000。
5. 根據(jù)權(quán)利要求1所述的方法,其特征在于,選擇下一批次的樣本,是在本次樣本集迭 代終止后,網(wǎng)絡(luò)保存?zhèn)€節(jié)點(diǎn)的參數(shù),此時(shí)增量數(shù)據(jù)只需直接輸入網(wǎng)絡(luò)中,即實(shí)現(xiàn)網(wǎng)絡(luò)對(duì)此增 量樣本的繼續(xù)學(xué)習(xí),學(xué)習(xí)過程從訓(xùn)練集中樣本批量輸入網(wǎng)絡(luò)中,分別通過中間層1和中間 層2的映射,最后經(jīng)過投票系統(tǒng)得出最終分類結(jié)果,逐層傳遞而后逐步回饋,迭代完成優(yōu)化 過程。
【文檔編號(hào)】G06F17/30GK104346448SQ201410585693
【公開日】2015年2月11日 申請(qǐng)日期:2014年10月28日 優(yōu)先權(quán)日:2014年10月28日
【發(fā)明者】楊振庚, 吳楠 申請(qǐng)人:浪潮電子信息產(chǎn)業(yè)股份有限公司