專利名稱:基于模糊劃分的判別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及機(jī)器學(xué)習(xí)領(lǐng)域,特別是涉及信息處理中的優(yōu)化問題領(lǐng)域.
背景技術(shù):
在很多優(yōu)化問題中,目標(biāo)值是連續(xù)的,對這類問題可采用線性或非線性回歸的方法,神經(jīng)網(wǎng)絡(luò)的方法等進(jìn)行建模,然后優(yōu)化。但在許多情況下,這些算法的預(yù)測準(zhǔn)確率不高,原因是數(shù)據(jù)往往噪聲大,而前面所提到的方法追求的是對所有樣本的擬合誤差最小,受到噪聲的影響特別大。而且這些方法得到的結(jié)果可理解性差,不利于和相關(guān)領(lǐng)域知識相結(jié)合。另外在很多情況下,我們只是期望能夠?qū)⑤敵隹刂圃谝欢ǖ膬?yōu)區(qū)范圍內(nèi)。在這些情況下,可將目標(biāo)值根據(jù)實(shí)際需要離散化,再采用模式識別的方法進(jìn)行建模,提取相應(yīng)的模型,再進(jìn)行優(yōu)化。這在一定程度上可提高正確率,并增加結(jié)果的可理解性。
發(fā)明內(nèi)容
本發(fā)明提供了基于模糊劃分的判別方法,使得判別的正確率更高,更進(jìn)一步優(yōu)化了分類方法的性能。本發(fā)明提出的模糊劃分方法的流程包括,具體的模糊劃分,參數(shù)修改和具體分類算法。在本發(fā)明中,對一個(gè)分類問題或規(guī)則學(xué)習(xí)問題,決策樹的生成是一個(gè)從上至下,分而治之的過程。它從根結(jié)點(diǎn)開始,對數(shù)據(jù)樣本進(jìn)行測試,根據(jù)不同的結(jié)果,將數(shù)據(jù)樣本劃分成不同的數(shù)據(jù)樣本子集,每個(gè)數(shù)據(jù)樣本子集構(gòu)成一子結(jié)點(diǎn)。對每個(gè)子結(jié)點(diǎn)再進(jìn)行劃分,生成新的子結(jié)點(diǎn)。不斷反復(fù),直至達(dá)到特定的終止準(zhǔn)則。生成的決策樹每個(gè)葉結(jié)點(diǎn)對應(yīng)一個(gè)分類。對于生成的決策樹,可從根結(jié)點(diǎn)開始,由上至下,提取規(guī)則,也可對數(shù)據(jù)點(diǎn)進(jìn)行分類或預(yù)報(bào)。對一個(gè)樣本進(jìn)行分類時(shí),從樹的根節(jié)點(diǎn)開始,根據(jù)每個(gè)節(jié)點(diǎn)對應(yīng)的劃分將其歸到相應(yīng)的子節(jié)點(diǎn),直至葉節(jié)點(diǎn)。葉節(jié)點(diǎn)所對應(yīng)的類別就是該樣本對應(yīng)的分類。
具體實(shí)施例方式本發(fā)明中分類具體方法為對一個(gè)樣本進(jìn)行分類時(shí),從樹的根節(jié)點(diǎn)開始,根據(jù)每個(gè)節(jié)點(diǎn)對應(yīng)的劃分將其歸到相應(yīng)的子節(jié)點(diǎn),直至葉節(jié)點(diǎn)。葉節(jié)點(diǎn)所對應(yīng)的類別就是該樣本對應(yīng)的分類。劃分模型的確定是決策樹生成算法中的一個(gè)關(guān)鍵問題,決定了生成決策樹的優(yōu)劣。對于連續(xù)值屬性的問題而言,采取屬性之間的線性組合作為劃分模型是比較有效而合理的。這樣的劃分模型形式簡單,模型參數(shù)求解也相對簡單。并且提取的規(guī)則利于理解。即使樣本空間分布復(fù)雜,通過多次超平面劃分,總可將樣本空間簡化。在本發(fā)明中,對連續(xù)的目標(biāo)值采用模糊劃分,可實(shí)現(xiàn)各個(gè)區(qū)間的平滑過渡,從而克服清晰劃分所帶來的缺陷。根據(jù)數(shù)據(jù)定義相應(yīng)的隸屬度,從而修改最終的決策樹法則。
本發(fā)明所提出的基于模糊劃分的判別方法有效地改進(jìn)了原有的 性能。
權(quán)利要求
1.將目標(biāo)值根據(jù)實(shí)際需要離散化,再采用模式識別的方法進(jìn)行建模,提取相應(yīng)的模型,再進(jìn)行優(yōu)化。這在一定程度上可提高正確率,并增加結(jié)果的可理解性。
2.如權(quán)利要求I所述,為了克服離散劃分帶來的邊界突變,可采用模糊劃分來實(shí)現(xiàn)各個(gè)區(qū)間的平滑過渡。
3.具體模糊劃分方法的流程包括,具體的模糊劃分,參數(shù)修改和具體分類算法。
4.從ー棵決策樹中提取分類規(guī)則的方法如下對每ー個(gè)葉節(jié)點(diǎn),求出從根節(jié)點(diǎn)到該葉節(jié)點(diǎn)的路徑。該路徑上所有的節(jié)點(diǎn)的劃分條件并在一起,即構(gòu)成一條分類規(guī)則。多少個(gè)節(jié)點(diǎn)對應(yīng)著多少條規(guī)則。
5.如權(quán)利要求4中所述,決策樹的生成是ー個(gè)從上至下,分而治之的過程。它從根結(jié)點(diǎn)開始,對數(shù)據(jù)樣本進(jìn)行測試,根據(jù)不同的結(jié)果,將數(shù)據(jù)樣本劃分成不同的數(shù)據(jù)樣本子集,每個(gè)數(shù)據(jù)樣本子集構(gòu)成一子結(jié)點(diǎn)。對每個(gè)子結(jié)點(diǎn)再進(jìn)行劃分,生成新的子結(jié)點(diǎn)。不斷反復(fù),直至達(dá)到特定的終止準(zhǔn)則。生成的決策樹姆個(gè)葉結(jié)點(diǎn)對應(yīng)ー個(gè)分類。對于生成的決策樹,可從根結(jié)點(diǎn)開始,由上至下,提取規(guī)則,也可對數(shù)據(jù)點(diǎn)進(jìn)行分類或預(yù)報(bào)。
6.如權(quán)利要求5中所述,對ー個(gè)樣本進(jìn)行分類時(shí),從樹的根節(jié)點(diǎn)開始,根據(jù)每個(gè)節(jié)點(diǎn)對應(yīng)的劃分將其歸到相應(yīng)的子節(jié)點(diǎn),直至葉節(jié)點(diǎn)。葉節(jié)點(diǎn)所對應(yīng)的類別就是該樣本對應(yīng)的分類。
7.對于連續(xù)值屬性的問題而言,采取屬性之間的線性組合作為劃分模型是比較有效而合理的。這樣的劃分模型形式簡單,模型參數(shù)求解也相對簡単。并且提取的規(guī)則利于理解。即使樣本空間分布復(fù)雜,通過多次超平面劃分,總可將樣本空間簡化。
全文摘要
在許多優(yōu)化問題中,目標(biāo)值是連續(xù)的。對于這類問題,首先對目標(biāo)值進(jìn)行離散化,再采用分類的方法提取規(guī)則。在一定程度上,相比直接對連續(xù)的目標(biāo)值優(yōu)化可提高正確率,并增加結(jié)果的可理解性。為了克服分段劃分帶來的突變性,可將目標(biāo)值進(jìn)行模糊劃分,再采用分類的方法提取規(guī)則,進(jìn)而判別,這樣進(jìn)一步可提高正確率。
文檔編號G06F15/18GK102779111SQ20111012291
公開日2012年11月14日 申請日期2011年5月13日 優(yōu)先權(quán)日2011年5月13日
發(fā)明者薛蓮 申請人:薛蓮