一種基于遺傳規(guī)劃算法的增量數(shù)據(jù)挖掘方法

文檔序號(hào)：6631919閱讀：277來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于遺傳規(guī)劃算法的增量數(shù)據(jù)挖掘方法
【專利摘要】本發(fā)明提供一種基于遺傳規(guī)劃算法的增量數(shù)據(jù)挖掘方法,增量數(shù)據(jù)挖掘能夠完成數(shù)據(jù)樣本由少到多的增量模型學(xué)習(xí)任務(wù)，將數(shù)據(jù)輸入到模型，輸入層對(duì)數(shù)據(jù)做線性映射，將結(jié)果傳入中間層；中間層分別做非線性變換和空間提升映射，將結(jié)果輸出到投票系統(tǒng)；投票系統(tǒng)確定所屬類別；反饋系統(tǒng)優(yōu)化網(wǎng)絡(luò)參數(shù)。多次迭代完成學(xué)習(xí)過程。處理增量數(shù)據(jù)時(shí)，新舊數(shù)據(jù)樣本的耦合度低，挖掘新數(shù)據(jù)時(shí)不再考慮舊數(shù)據(jù)樣本，有很好的繼承性。
【專利說明】一種基于遺傳規(guī)劃算法的增量數(shù)據(jù)挖掘方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域，特別是一種增量數(shù)據(jù)挖掘模型。采用樣本批量學(xué)習(xí)模式，模型結(jié)合遺傳規(guī)劃與神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)，能夠很好地實(shí)現(xiàn)增量數(shù)據(jù)挖掘。具體地說是一種基于遺傳規(guī)劃算法的增量數(shù)據(jù)挖掘方法。

【背景技術(shù)】
[0002] 大數(shù)據(jù)時(shí)代聚集的大規(guī)模數(shù)據(jù)樣本為商業(yè)模式創(chuàng)新和科學(xué)新發(fā)現(xiàn)提供可能，如何從大規(guī)模數(shù)據(jù)中發(fā)現(xiàn)有用的信息或資源成為大數(shù)據(jù)時(shí)代所需解決的最重要的問題，數(shù)據(jù)挖掘作為模型發(fā)現(xiàn)技術(shù)無疑是大數(shù)據(jù)時(shí)代中的核心技術(shù)。
[0003] 在數(shù)據(jù)采樣過程中，往往一定時(shí)間內(nèi)采集的樣本有限且局限性大，這時(shí)的學(xué)習(xí)模型往往也具有局限性。隨著時(shí)間的積累，采集到的樣本逐漸增加，樣本覆蓋范圍更廣泛，對(duì) 應(yīng)的模型也需相應(yīng)的更新。傳統(tǒng)的數(shù)據(jù)挖掘算法在解決這樣的問題是，往往是基于新的樣本群重新構(gòu)建模型。主要原因在于此類算法需要針對(duì)數(shù)據(jù)群作為模型學(xué)習(xí)基礎(chǔ)，數(shù)據(jù)間有很大的耦合性。而增量數(shù)據(jù)挖掘可以在原模型基礎(chǔ)上進(jìn)一步優(yōu)化得到適應(yīng)新樣本的模型。
[0004] 傳統(tǒng)的遺傳規(guī)劃算法在學(xué)習(xí)過程中雖然樣本間無耦合，但是因?yàn)榫幋a方式和進(jìn)化機(jī)理問題，算法解決增量數(shù)據(jù)時(shí)，無論增量數(shù)據(jù)規(guī)模大小，學(xué)習(xí)過程仍需很大的代價(jià)。且需要繼續(xù)參考原樣本集。這使得遺傳規(guī)劃算法在分類分析上的模型簡(jiǎn)單可讀性高的優(yōu)勢(shì)被埋沒。本發(fā)明利用遺傳規(guī)劃算法的通過重構(gòu)由簡(jiǎn)單初等函數(shù)組成的函數(shù)式模型這一特點(diǎn)，實(shí) 現(xiàn)算法在增量學(xué)習(xí)上的應(yīng)用。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明的目的是為了更好的解決增量數(shù)據(jù)挖掘中的學(xué)習(xí)能力問題。繼承遺傳規(guī)劃算法的優(yōu)勢(shì)，學(xué)習(xí)過程中樣本作為輸入逐個(gè)處理，通過多個(gè)中間層的反饋過程，沿梯度下降方向逐步優(yōu)化模型中的系數(shù)和偏移量。從而能夠很好地提高學(xué)習(xí)能力提供種基于遺傳規(guī)劃算法的增量數(shù)據(jù)挖掘方法。
[0006] 本發(fā)明的目的是按以下方式實(shí)現(xiàn)的，針對(duì)遺傳規(guī)劃算法增量數(shù)據(jù)挖掘的需求及高可讀性與高分類準(zhǔn)確度的優(yōu)點(diǎn)，使用設(shè)計(jì)函數(shù)集并引入神經(jīng)網(wǎng)絡(luò)優(yōu)化思想提取出替代交叉變異過程的全新搜索過程，設(shè)計(jì)優(yōu)化算法搜索機(jī)理，實(shí)現(xiàn)增量數(shù)據(jù)挖掘任務(wù)；遺傳規(guī)劃算法學(xué)習(xí)方法由常規(guī)初等函數(shù)、常數(shù)和變量組成的函數(shù)解析式，該解析式多階可微，根據(jù)泰勒公式，可將其解析為形式相似的組分疊加，這樣，原來的交叉變異過程簡(jiǎn) 化為優(yōu)化組分的系數(shù)和偏移量的過程，引入反饋網(wǎng)絡(luò)和核函數(shù)模型，通過模型的輸出結(jié)果與期望結(jié)果的偏差，反向調(diào)整疊加系數(shù)，通過逐步迭代得到預(yù)期的模型，步驟內(nèi)容如下： (1) 確定輸入層個(gè)數(shù)；確定中間層1的函數(shù)組成；批量樣本數(shù)目N設(shè)置算法框架中的中間層2的個(gè)數(shù)；約定每次輸入網(wǎng)絡(luò)中進(jìn)化的代數(shù)n; (2) 訓(xùn)練數(shù)據(jù)集獲取，對(duì)已有類標(biāo)數(shù)據(jù)樣本篩選、去噪處理得到學(xué)習(xí)所需的訓(xùn)練數(shù)據(jù) 集； (3) 隨機(jī)生成中間層1與中間層2中的權(quán)重系數(shù)和偏移量； (4) 訓(xùn)練集中樣本批量輸入網(wǎng)絡(luò)中，分別通過中間層1和中間層2的映射，最后經(jīng)過投票系統(tǒng)得出最終分類結(jié)果； (5) 計(jì)算投票系統(tǒng)的輸出結(jié)果與目標(biāo)結(jié)果的距離； (6) 根據(jù)誤差通過反饋網(wǎng)絡(luò)優(yōu)化網(wǎng)絡(luò)參數(shù)； (7) 通過檢查迭代次數(shù)檢測(cè)優(yōu)化過程是否完成，若未完成，進(jìn)入步驟（4)繼續(xù)優(yōu)化參數(shù)；若完成則轉(zhuǎn)向步驟（8); (8) 輸入下一批次的樣本，轉(zhuǎn)向步驟（4)，循環(huán)直至所有樣本輸入完畢； (9) 保存網(wǎng)絡(luò)層1和網(wǎng)絡(luò)層2的中間權(quán)重值和偏移量，核函數(shù)以及投票過程，學(xué)習(xí)過程結(jié)束， (10) 步驟（1)中所述的中間層1的函數(shù)選擇，中間層2的核函數(shù)個(gè)數(shù)，按照如下方式進(jìn) 行：根據(jù)泰勒公式，選取1、X、r3、X4的系數(shù)和作為一般函數(shù)表達(dá)式的近似表示，在中間層1，選擇此五個(gè)元素作為節(jié)點(diǎn)元素，中間層2的節(jié)點(diǎn)個(gè)數(shù)為3-5個(gè)，作為決策前的空間提升過程，核函數(shù)選擇sigmoid核函數(shù)；步驟（2)中所述的樣本篩選與去噪主要濾除原始數(shù)據(jù)樣本集中出現(xiàn)的錯(cuò)誤數(shù)據(jù)，防止學(xué)習(xí)過程中因此產(chǎn)生大的偏差，同時(shí)學(xué)習(xí)模型更加有效；步驟（3)中所述的初始系數(shù)和偏移量，按照隨機(jī)生成一組位于[-10, 10]的實(shí)數(shù)作為各節(jié)點(diǎn)的系數(shù)，隨機(jī)生成一組位于[-1，1]的實(shí)數(shù)作為中間層1各節(jié)點(diǎn)的偏移量，節(jié)點(diǎn)系數(shù)和偏移量將在優(yōu)化中被逐漸調(diào)整，最終達(dá)到合適的值；步驟（4)中所述的樣本輸入網(wǎng)絡(luò)，按照如下方式進(jìn)行：網(wǎng)絡(luò)的輸入層，按照樣本維度的大小設(shè)計(jì)輸入層節(jié)點(diǎn)個(gè)數(shù)，根據(jù)順序，樣本的每一維度分別輸入到網(wǎng)絡(luò)的輸入層中，輸入層做系數(shù)與偏移量變換，將變換結(jié)果傳遞給中間層1，中間層1做函數(shù)映射并根據(jù)各節(jié)點(diǎn)的系數(shù)和偏移量計(jì)算結(jié)果作為輸出傳遞到中間層2,如公式（1)所示；公式（1):

【權(quán)利要求】
1. 一種基于遺傳規(guī)劃算法的增量數(shù)據(jù)挖掘方法，其特征在于，針對(duì)遺傳規(guī)劃算法增量數(shù)據(jù)挖掘的需求及高可讀性與高分類準(zhǔn)確度的優(yōu)點(diǎn)，使用設(shè)計(jì)函數(shù)集并引入神經(jīng)網(wǎng)絡(luò)優(yōu)化思想提取出替代交叉變異過程的全新搜索過程，設(shè)計(jì)優(yōu)化算法搜索機(jī)理，實(shí)現(xiàn)增量數(shù)據(jù)挖掘任務(wù)；遺傳規(guī)劃算法學(xué)習(xí)方法由常規(guī)初等函數(shù)、常數(shù)和變量組成的函數(shù)解析式，該解析式多階可微，根據(jù)泰勒公式，可將其解析為形式相似的組分疊加，這樣，原來的交叉變異過程簡(jiǎn) 化為優(yōu)化組分的系數(shù)和偏移量的過程，引入反饋網(wǎng)絡(luò)和核函數(shù)模型，通過模型的輸出結(jié)果與期望結(jié)果的偏差，反向調(diào)整疊加系數(shù)，通過逐步迭代得到預(yù)期的模型，步驟內(nèi)容如下： (1) 確定輸入層個(gè)數(shù)；確定中間層1的函數(shù)組成；批量樣本數(shù)目N設(shè)置算法框架中的中間層2的個(gè)數(shù)；約定每次輸入網(wǎng)絡(luò)中進(jìn)化的代數(shù)n ; (2) 訓(xùn)練數(shù)據(jù)集獲取，對(duì)已有類標(biāo)數(shù)據(jù)樣本篩選、去噪處理得到學(xué)習(xí)所需的訓(xùn)練數(shù)據(jù) 集； (3) 隨機(jī)生成中間層1與中間層2中的權(quán)重系數(shù)和偏移量； (4) 訓(xùn)練集中樣本批量輸入網(wǎng)絡(luò)中，分別通過中間層1和中間層2的映射，最后經(jīng)過投票系統(tǒng)得出最終分類結(jié)果； (5) 計(jì)算投票系統(tǒng)的輸出結(jié)果與目標(biāo)結(jié)果的距離￡ ; (6) 根據(jù)誤差通過反饋網(wǎng)絡(luò)優(yōu)化網(wǎng)絡(luò)參數(shù)； (7) 通過檢查迭代次數(shù)檢測(cè)優(yōu)化過程是否完成，若未完成，進(jìn)入步驟（4)繼續(xù)優(yōu)化參數(shù)；若完成則轉(zhuǎn)向步驟（8); (8) 輸入下一批次的樣本，轉(zhuǎn)向步驟（4)，循環(huán)直至所有樣本輸入完畢； (9) 保存網(wǎng)絡(luò)層1和網(wǎng)絡(luò)層2的中間權(quán)重值和偏移量，核函數(shù)以及投票過程，學(xué)習(xí)過程結(jié)束； (10) 步驟（1)中所述的中間層1的函數(shù)選擇，中間層2的核函數(shù)個(gè)數(shù)，按照如下方式進(jìn) 行：根據(jù)泰勒公式，選取1、X、X2、￥、x4的系數(shù)和作為一般函數(shù)表達(dá)式的近似表示，在中間層1，選擇此五個(gè)元素作為節(jié)點(diǎn)元素，中間層2的節(jié)點(diǎn)個(gè)數(shù)為3-5個(gè)，作為決策前的空間提升過程，核函數(shù)選擇sigmoid核函數(shù)；步驟（2)中所述的樣本篩選與去噪主要濾除原始數(shù)據(jù)樣本集中出現(xiàn)的錯(cuò)誤數(shù)據(jù)，防止學(xué)習(xí)過程中因此產(chǎn)生大的偏差，同時(shí)學(xué)習(xí)模型更加有效；步驟（3)中所述的初始系數(shù)和偏移量，按照隨機(jī)生成一組位于[-10, 10]的實(shí)數(shù)作為各節(jié)點(diǎn)的系數(shù)，隨機(jī)生成一組位于[-1，1]的實(shí)數(shù)作為中間層1各節(jié)點(diǎn)的偏移量，節(jié)點(diǎn)系數(shù)和偏移量將在優(yōu)化中被逐漸調(diào)整，最終達(dá)到合適的值；步驟（4)中所述的樣本輸入網(wǎng)絡(luò)，按照如下方式進(jìn)行：網(wǎng)絡(luò)的輸入層，按照樣本維度的大小設(shè)計(jì)輸入層節(jié)點(diǎn)個(gè)數(shù)，根據(jù)順序，樣本的每一維度分別輸入到網(wǎng)絡(luò)的輸入層中，輸入層做系數(shù)與偏移量變換，將變換結(jié)果傳遞給中間層1，中間層1做函數(shù)映射并根據(jù)各節(jié)點(diǎn)的系數(shù)和偏移量計(jì)算結(jié)果作為輸出傳遞到中間層2,如公式（1)所示；
其中4為中間層1節(jié)點(diǎn)I的輸出，為；輸入到節(jié)點(diǎn)J的系數(shù)，每為節(jié)點(diǎn)f的偏移量，r為網(wǎng)絡(luò)入口數(shù)；中間層2經(jīng)過大小縮放和核函數(shù)變換，將變換后結(jié)果傳遞給投票系統(tǒng)；如公式（2)所示；
其中g(shù)為中間層2節(jié)點(diǎn)的輸出，為中間層1的節(jié)點(diǎn)J到節(jié)點(diǎn)|的系數(shù)，g為節(jié) 點(diǎn)的偏移量，M為中間層2的節(jié)點(diǎn)數(shù)，.：￥為中間層1的節(jié)點(diǎn)個(gè)數(shù)；步驟（5)中描述的投票系統(tǒng)，按照如下方式進(jìn)行：投票系統(tǒng)根據(jù)輸入值的分布，根據(jù)M個(gè)核函數(shù)節(jié)點(diǎn)的投票結(jié)果，選出命中類別最多的那一類作為輸出結(jié)果，若各類標(biāo)得票結(jié)果相同，按隨機(jī)選擇方式?jīng)Q定輸出結(jié)果，決策最終的樣本所屬類別，計(jì)算最終類別與目標(biāo)類別的誤差，誤差計(jì)算方法如公式（3)所示：
其中，^為第&個(gè)樣本的真實(shí)類別，為中間層2第個(gè)|節(jié)點(diǎn)的輸出；步驟（6)中描述的根據(jù)誤差調(diào)整網(wǎng)絡(luò)參數(shù)的反饋網(wǎng)絡(luò)，按照如下方式進(jìn)行：反饋網(wǎng)絡(luò)的優(yōu)化過程如下所示，根據(jù)中間層2的輸出結(jié)果和目標(biāo)值的誤差，為使得優(yōu) 化過程能夠按照梯度下降的方向進(jìn)行，從而優(yōu)化過程使得誤差函數(shù)下降，計(jì)算中間層2的偏微分，得出其系數(shù)變化量和偏移量變化量，據(jù)此變化量更新二者的值：
其中I?為優(yōu)化速率，本方案中設(shè)為0. 1 ; 步驟（7)中描述的迭代過程，按照如下所述的方式進(jìn)行：根據(jù)步驟（4)中系數(shù)與偏移量的更新方法，更新網(wǎng)絡(luò)中的系數(shù)和偏移量，重新學(xué)習(xí)該批次樣本，計(jì)算中間層2的輸出與目標(biāo)類別的誤差，并再次進(jìn)行前向反饋，如此迭代預(yù)設(shè)的n 次，停止迭代過程；在此n取值1000 ; 步驟（8)中描述的選擇下一批次的樣本，按照如下方式進(jìn)行：在本次樣本集迭代終止后，網(wǎng)絡(luò)保存?zhèn)€節(jié)點(diǎn)的參數(shù)，此時(shí)增量數(shù)據(jù)只需直接輸入網(wǎng)絡(luò) 中，即實(shí)現(xiàn)網(wǎng)絡(luò)對(duì)此增量樣本的繼續(xù)學(xué)習(xí)，學(xué)習(xí)過程從步驟（4)開始，逐層傳遞而后逐步回饋，迭代完成優(yōu)化過程。
2. 根據(jù)權(quán)利要求書1中所述的方法，其特征在于，解析式簡(jiǎn)化部分，遺傳規(guī)劃算法將加減乘除以及開方、平方的函數(shù)作為函數(shù)集，采用深度可變的樹形結(jié)構(gòu)來優(yōu)化學(xué)習(xí)模型，學(xué)習(xí) 模型解碼為函數(shù)解析式，根據(jù)泰勒公式指出，一個(gè)N階可微的函數(shù)可以用多個(gè)冪函數(shù)組成的多項(xiàng)式來表示，而遺傳規(guī)劃算法學(xué)習(xí)到的模型大部分情況下符合多階可微的情況，因此可將遺傳規(guī)劃算法的學(xué)習(xí)過程簡(jiǎn)化為尋找多個(gè)冪函數(shù)組成的多項(xiàng)式過程，具體的就是尋找組合冪函數(shù)的系數(shù)及偏移量的過程，在此，使用的冪函數(shù)有比例函數(shù)、平方函數(shù)、立方函數(shù)、四次方函數(shù)組分組成網(wǎng)絡(luò)的中間1層節(jié)點(diǎn)。
3. 根據(jù)權(quán)利要求書1中所述的方法，其特征在于，核函數(shù)模型，作為網(wǎng)絡(luò)的中間2層，中間1層結(jié)果作為輸入，核函數(shù)結(jié)果通過投票過程得到最終的模型輸出，sigmoid函數(shù)作為網(wǎng) 絡(luò)中的中間層2 ;投票系統(tǒng)做最終的分類決策，數(shù)據(jù)樣本的每個(gè)維度數(shù)據(jù)作為各函數(shù)的輸入，輸入節(jié)點(diǎn)對(duì)輸入數(shù)據(jù)通過系數(shù)和偏移量進(jìn)行預(yù)處理，節(jié)點(diǎn)輸出結(jié)果傳遞給中間層1，中間層1各節(jié)點(diǎn)根據(jù)自身所代表的函數(shù)計(jì)算出對(duì)應(yīng)的映射關(guān)系，并將結(jié)果依據(jù)中間層1的系數(shù)和偏移量進(jìn)一步處理，輸出結(jié)果傳遞給中間2層，中間2層節(jié)點(diǎn)做空間變換映射，得出中間層2的輸出結(jié)果，網(wǎng)絡(luò)反饋過程中，沿梯度下降方向調(diào)整系數(shù)和偏移量。
4. 根據(jù)權(quán)利要求1所述的方法，其特征在于，通過檢查迭代次數(shù)檢測(cè)優(yōu)化過程是否完成，是根據(jù)訓(xùn)練集中樣本批量輸入網(wǎng)絡(luò)中的系數(shù)與偏移量的更新方法，更新網(wǎng)絡(luò)中的系數(shù) 和偏移量，重新學(xué)習(xí)該批次樣本，計(jì)算中間層2的輸出與目標(biāo)類別的誤差，并再次進(jìn)行前向反饋，如此迭代預(yù)設(shè)的n次，停止迭代過程，在此n取值1000。
5. 根據(jù)權(quán)利要求1所述的方法，其特征在于，選擇下一批次的樣本，是在本次樣本集迭代終止后，網(wǎng)絡(luò)保存?zhèn)€節(jié)點(diǎn)的參數(shù)，此時(shí)增量數(shù)據(jù)只需直接輸入網(wǎng)絡(luò)中，即實(shí)現(xiàn)網(wǎng)絡(luò)對(duì)此增量樣本的繼續(xù)學(xué)習(xí)，學(xué)習(xí)過程從訓(xùn)練集中樣本批量輸入網(wǎng)絡(luò)中，分別通過中間層1和中間層2的映射，最后經(jīng)過投票系統(tǒng)得出最終分類結(jié)果，逐層傳遞而后逐步回饋，迭代完成優(yōu)化過程。
【文檔編號(hào)】G06F17/30GK104346448SQ201410585693
【公開日】2015年2月11日申請(qǐng)日期:2014年10月28日優(yōu)先權(quán)日:2014年10月28日
【發(fā)明者】楊振庚, 吳楠申請(qǐng)人:浪潮電子信息產(chǎn)業(yè)股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：楊振庚;吳楠
技術(shù)所有人：浪潮電子信息產(chǎn)業(yè)股份有限公司
我是此專利的發(fā)明人

上一篇：一種二維碼信息的處理方法及通信終端的制作方法
上一篇：基于二維碼的新型打印方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

遺傳算法路徑規(guī)劃代碼相關(guān)技術(shù)