一種對分類數(shù)據(jù)集進行測試的方法
【技術(shù)領(lǐng)域】
[0001] 本申請涉及多標簽分類技術(shù)領(lǐng)域,尤其涉及一種對分類數(shù)據(jù)集進行測試的方法。
【背景技術(shù)】
[0002] 多標簽學習源自于文本分類問題,如每個文件可能會屬于幾個預(yù)定義的主題:衛(wèi) 生和政府。但是現(xiàn)在,該類問題也非常廣泛的存在于現(xiàn)實生活的應(yīng)用中:在視頻搜索領(lǐng)域, 每個音頻剪輯可以劃分到不同的情感標簽,例如"歡快"和"愉悅";在基因功能學中,基因 可能對應(yīng)到多個功能標簽,例如"身材高大"和"皮膚白皙";在圖像歸屬領(lǐng)域,一副圖像可能 同時屬于幾個場景標簽,例如"大樹"和"高樓"。凡此種種,多標簽分類問題在越來越多的 實際應(yīng)用程序中得到廣泛應(yīng)用,對其進行更深入研究將會給我們的日常生活帶來更大的益 處。在機器學習和數(shù)據(jù)挖掘領(lǐng)域,分類成為了一個研究最多的任務(wù)。這個任務(wù)主要包括根 據(jù)所給數(shù)據(jù)集的特點,構(gòu)造一個分類器,然后利用所構(gòu)造的分類器對未知類標簽的對象實 例賦予類標簽的過程。
[0003] 作為一種具有監(jiān)督和指導功能的學習方法,樸素貝葉斯分類器(Naive Bayes Classifier,NBC)憑借其簡單、高效的優(yōu)點,成為了眾多分類學習方法中的佼佼者。樸素貝 葉斯(NaWeBaye S,NB)技術(shù),是基于所謂的貝葉斯定理,而且即使針對于高維問題也具有 適用性。雖然其原理很簡單,但樸素貝葉斯通常表現(xiàn)了很好的分類效果。但是,樸素貝葉斯 分類器是基于一個簡單但是卻不現(xiàn)實的假設(shè),就是"假定屬性間的相互獨立性",因此其分 類精度不高。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明了提供了一種對分類數(shù)據(jù)集進行測試的方法,以解決現(xiàn)有技術(shù)中分類精度 不高的技術(shù)問題。
[0005] 為解決上述技術(shù)問題,本發(fā)明提供了一種對分類數(shù)據(jù)集進行測試的方法,所述方 法包括:
[0006] Sl,獲得所述分類數(shù)據(jù)集;
[0007] S2,判斷所述分類數(shù)據(jù)集是否需要標準化;若需要標準化,使用絕對標準差的方式 對所述分類數(shù)據(jù)集進行標準化;
[0008] S3,標準化之后,將所述分類數(shù)據(jù)集分成訓練集和測試集;
[0009] S4,利用小生境文化算法對雙重加權(quán)樸素貝葉斯多標簽分類器的雙重權(quán)值進行學 習,對所述訓練集進行訓練,得到優(yōu)化權(quán)重值;
[0010] S5,基于所述優(yōu)化權(quán)重值,對所述測試集進行分類測試。
[0011] 優(yōu)選的,所述S4包括:
[0012] 步驟1,初始化所述訓練集的種群空間個體,獲得初始種群;
[0013] 步驟2,將所述初始種群隔離成m個子種群,每個子種群的數(shù)目為Nk;
[0014] 步驟3,根據(jù)每個子種群對應(yīng)的適應(yīng)度函數(shù),計算各自子種群中的每個個體的適應(yīng) 值,綜合獲得所述初始種群的第一平均適應(yīng)度值;
[0015] 步驟4,按照所述第一平均適應(yīng)度值,重新將所述初始種群中的Nk*m個初始個體隔 離成m個子種群,每個子種群的數(shù)目為N k。
[0016] 優(yōu)選的,所述S4還包括:
[0017] 步驟5,利用第一信仰空間對重新隔離的m個子種群中的每個個體進行進化演化, 獲得進化演化后的m個子種群;
[0018] 步驟6,計算進化演化后的m個子種群中的每個個體的適應(yīng)度值,獲得第二平均適 應(yīng)度值;
[0019] 步驟7,根據(jù)所述第二平均適應(yīng)度值,確定新種群的規(guī)模,其中,最小子種群規(guī)模< 新的規(guī)模<最大子種群規(guī)模;
[0020] 步驟8,對所述新種群設(shè)置保護措施;
[0021] 步驟9,判斷所述新種群是否陷入局部最優(yōu);
[0022] 步驟10,若所述新種群沒有陷入局部最優(yōu),基于所述新種群的平均適應(yīng)度值獲得 所述最優(yōu)權(quán)重值。
[0023] 優(yōu)選的,在所述步驟9之后,所述方法還包括:
[0024] 步驟11,若所述新種群陷入局部最優(yōu),判斷當前進化代數(shù)是否已經(jīng)達到最大進化 代數(shù);
[0025] 步驟12 :若所述當前進化代數(shù)已經(jīng)達到所述最大進化代數(shù),基于所述新種群的平 均適應(yīng)度值獲得所述最優(yōu)權(quán)重值。
[0026] 優(yōu)選的,在所述步驟12之后,所述方法還包括:
[0027] 步驟13 :若所述當前進化代數(shù)沒有所述達到最大進化代數(shù),更新所述第一信仰空 間獲得第二信仰空間,然后使用所述第二信仰空間替換所述第一信仰空間,轉(zhuǎn)入所述步驟5 執(zhí)行。
[0028] 優(yōu)選的,所述適應(yīng)度函數(shù)的公式為:
[0029]
其中,/?(Α,表示計算第k個小種群的第i個體#的適應(yīng) 度值的計算模型,η為第k個小種群中的測試實例數(shù)目,m為類標簽集合的維度。
[0030] 所述適應(yīng)度函數(shù)根據(jù)不同類標簽進行劃分,對應(yīng)不同的小種群,針對類標簽有不 同的適應(yīng)度函數(shù)。
[0031] 優(yōu)選的,在所述步驟9中,所述局部最優(yōu)的條件是:所述新種群中的子種群在連續(xù) 進化20代之后的平均適應(yīng)度值都是最小。
[0032] 優(yōu)選的,所述S5中的步驟具體為:
[0033] 對迭代之后獲得的最后一代種群中的個體適應(yīng)度值進行排序,選取最好適應(yīng)度值 對應(yīng)的權(quán)值組合;
[0034] 選取所述最后一代種群的適應(yīng)度值拓撲排名為前10、前20、前30的個體對應(yīng)的權(quán) 值組合,分別對應(yīng)求取平均值,得出各自對應(yīng)的3組權(quán)值組合,加上所述最好適應(yīng)度值對應(yīng) 的權(quán)值組合;
[0035] 利用所述最好適應(yīng)度值對應(yīng)的權(quán)值組合以及所述3組權(quán)值組合,分別對所述測試 集進行類標簽的預(yù)測,根據(jù)實驗評價準則,得出分類精度。
[0036] 優(yōu)選的,所述S5中的步驟具體為:
[0037] 對迭代之后獲得的最后一代種群中且對應(yīng)最好適應(yīng)度值的個體求取平均值,將是 平均值作為最好適應(yīng)度值對應(yīng)的權(quán)值組合;
[0038] 選取所述最后一代種群的適應(yīng)度值拓撲排名為前10、前20、前30的個體對應(yīng)的權(quán) 值組合,分別對應(yīng)求取平均值,得出各自對應(yīng)的3組權(quán)值組合,加上所述最好適應(yīng)度值對應(yīng) 的權(quán)值組合;
[0039] 利用所述最好適應(yīng)度值對應(yīng)的權(quán)值組合以及所述3組權(quán)值組合,分別對所述測試 集進行類標簽的預(yù)測,根據(jù)實驗評價準則,得出分類精度。
[0040] 優(yōu)選的,所述S5中的步驟具體為:
[0041] 將在迭代之后獲得的最后一代種群中且對應(yīng)最好適應(yīng)度值的個體的權(quán)值組合分 別循環(huán)代入到所述測試集中,進行類標簽取值預(yù)測,選取最大預(yù)測準確度的個體作為最優(yōu) 的預(yù)測準確度;
[0042] 分別選取前10、前20、前30的個體對應(yīng)的權(quán)值組合,依照循環(huán)迭代的方法分別求 出各自對應(yīng)的最好的分類準確度;
[0043] 基于所述最優(yōu)的預(yù)測準確度和三組分類準確度對所述測試集進行分類精度測試。
[0044] 通過本發(fā)明的一個或者多個技術(shù)方案,本發(fā)明具有以下有益效果或者優(yōu)點:
[0045] 在本發(fā)明中,描述了一種測試分類數(shù)據(jù)集的方法。在獲得分類數(shù)據(jù)集之后,若需要 對其進行標準化處理,則使用絕對標準差的方式對所述分類數(shù)據(jù)集進行標準化;然后將分 類數(shù)據(jù)集分成訓練集和測試集,并利用小生境文化算法學習獲得雙重加權(quán)樸素貝葉斯多標 簽分類器的雙重權(quán)值,然后對所述訓練集進行訓練,得到優(yōu)化權(quán)重值;然后代入測試集進行 預(yù)測。本發(fā)明在傳統(tǒng)樸素貝葉斯多標簽算法的基礎(chǔ)上增加了數(shù)據(jù)的訓練過程,然后再對分 類數(shù)據(jù)集進行預(yù)測。本發(fā)明通過使用粒子群優(yōu)化算法對傳統(tǒng)的數(shù)據(jù)分類進行改進,改進后 的算法可以提高分類的準確度。
[0046] 進一步的,在計算初始度適應(yīng)值時,是根據(jù)多標記學習中的二分類評估標準,采用 0/1向量標記集的方式,設(shè)計相應(yīng)的適應(yīng)度函數(shù)。
[0047] 進一步的,采用了兩種不同的方式對測試數(shù)據(jù)集進行預(yù)測,以提高分類的準確度。
【附圖說明】
[0048] 圖1為本發(fā)明實施例中一種對分類數(shù)據(jù)集進行測試的方法的實施過程圖;
[0049] 圖2為本發(fā)明實施例計算優(yōu)化權(quán)重值的實施過程圖;
[0050] 圖3為本發(fā)明實施例信仰空間的示意圖;
[0051] 圖4A-圖4B為本發(fā)明實施例中以高斯分布、柯西分布和連續(xù)屬性離散化為擬合 方式的NCA-DWNB與NBMLC算法在兩種預(yù)測方法下,各自運行10次計算所得的最優(yōu)權(quán)值 (best)對應(yīng)的預(yù)測準確度;
[0052] 圖5A-圖5B為本發(fā)明實施例中以高斯分布、柯西分布和連續(xù)屬性離散化為擬合 方式的NCA-DWNB與NBMLC算法在兩種