一種對分類數(shù)據(jù)集進行測試的方法

文檔序號：9375880閱讀：1408來源：國知局

一種對分類數(shù)據(jù)集進行測試的方法
【技術(shù)領(lǐng)域】
[0001] 本申請涉及多標簽分類技術(shù)領(lǐng)域，尤其涉及一種對分類數(shù)據(jù)集進行測試的方法。
【背景技術(shù)】
[0002] 多標簽學習源自于文本分類問題，如每個文件可能會屬于幾個預(yù)定義的主題：衛(wèi) 生和政府。但是現(xiàn)在，該類問題也非常廣泛的存在于現(xiàn)實生活的應(yīng)用中：在視頻搜索領(lǐng)域，每個音頻剪輯可以劃分到不同的情感標簽，例如"歡快"和"愉悅";在基因功能學中，基因可能對應(yīng)到多個功能標簽，例如"身材高大"和"皮膚白皙";在圖像歸屬領(lǐng)域，一副圖像可能同時屬于幾個場景標簽，例如"大樹"和"高樓"。凡此種種，多標簽分類問題在越來越多的實際應(yīng)用程序中得到廣泛應(yīng)用，對其進行更深入研究將會給我們的日常生活帶來更大的益處。在機器學習和數(shù)據(jù)挖掘領(lǐng)域，分類成為了一個研究最多的任務(wù)。這個任務(wù)主要包括根據(jù)所給數(shù)據(jù)集的特點，構(gòu)造一個分類器，然后利用所構(gòu)造的分類器對未知類標簽的對象實例賦予類標簽的過程。
[0003] 作為一種具有監(jiān)督和指導功能的學習方法，樸素貝葉斯分類器（Naive Bayes Classifier，NBC)憑借其簡單、高效的優(yōu)點，成為了眾多分類學習方法中的佼佼者。樸素貝葉斯（NaWeBaye S，NB)技術(shù)，是基于所謂的貝葉斯定理，而且即使針對于高維問題也具有適用性。雖然其原理很簡單，但樸素貝葉斯通常表現(xiàn)了很好的分類效果。但是，樸素貝葉斯分類器是基于一個簡單但是卻不現(xiàn)實的假設(shè)，就是"假定屬性間的相互獨立性"，因此其分類精度不高。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明了提供了一種對分類數(shù)據(jù)集進行測試的方法，以解決現(xiàn)有技術(shù)中分類精度不高的技術(shù)問題。
[0005] 為解決上述技術(shù)問題，本發(fā)明提供了一種對分類數(shù)據(jù)集進行測試的方法，所述方法包括：
[0006] Sl，獲得所述分類數(shù)據(jù)集；
[0007] S2,判斷所述分類數(shù)據(jù)集是否需要標準化；若需要標準化，使用絕對標準差的方式對所述分類數(shù)據(jù)集進行標準化；
[0008] S3,標準化之后，將所述分類數(shù)據(jù)集分成訓練集和測試集；
[0009] S4,利用小生境文化算法對雙重加權(quán)樸素貝葉斯多標簽分類器的雙重權(quán)值進行學習，對所述訓練集進行訓練，得到優(yōu)化權(quán)重值；
[0010] S5,基于所述優(yōu)化權(quán)重值，對所述測試集進行分類測試。
[0011] 優(yōu)選的，所述S4包括：
[0012] 步驟1，初始化所述訓練集的種群空間個體，獲得初始種群；
[0013] 步驟2,將所述初始種群隔離成m個子種群，每個子種群的數(shù)目為Nk;
[0014] 步驟3,根據(jù)每個子種群對應(yīng)的適應(yīng)度函數(shù)，計算各自子種群中的每個個體的適應(yīng) 值，綜合獲得所述初始種群的第一平均適應(yīng)度值；
[0015] 步驟4,按照所述第一平均適應(yīng)度值，重新將所述初始種群中的Nk*m個初始個體隔離成m個子種群，每個子種群的數(shù)目為N k。
[0016] 優(yōu)選的，所述S4還包括：
[0017] 步驟5,利用第一信仰空間對重新隔離的m個子種群中的每個個體進行進化演化，獲得進化演化后的m個子種群；
[0018] 步驟6,計算進化演化后的m個子種群中的每個個體的適應(yīng)度值，獲得第二平均適應(yīng)度值；
[0019] 步驟7,根據(jù)所述第二平均適應(yīng)度值，確定新種群的規(guī)模，其中，最小子種群規(guī)模< 新的規(guī)模<最大子種群規(guī)模；
[0020] 步驟8,對所述新種群設(shè)置保護措施；
[0021] 步驟9,判斷所述新種群是否陷入局部最優(yōu)；
[0022] 步驟10,若所述新種群沒有陷入局部最優(yōu)，基于所述新種群的平均適應(yīng)度值獲得所述最優(yōu)權(quán)重值。
[0023] 優(yōu)選的，在所述步驟9之后，所述方法還包括：
[0024] 步驟11，若所述新種群陷入局部最優(yōu)，判斷當前進化代數(shù)是否已經(jīng)達到最大進化代數(shù)；
[0025] 步驟12 :若所述當前進化代數(shù)已經(jīng)達到所述最大進化代數(shù)，基于所述新種群的平均適應(yīng)度值獲得所述最優(yōu)權(quán)重值。
[0026] 優(yōu)選的，在所述步驟12之后，所述方法還包括：
[0027] 步驟13 :若所述當前進化代數(shù)沒有所述達到最大進化代數(shù)，更新所述第一信仰空間獲得第二信仰空間，然后使用所述第二信仰空間替換所述第一信仰空間，轉(zhuǎn)入所述步驟5 執(zhí)行。
[0028] 優(yōu)選的，所述適應(yīng)度函數(shù)的公式為：
[0029]
其中，/?(Α，表示計算第k個小種群的第i個體#的適應(yīng) 度值的計算模型，η為第k個小種群中的測試實例數(shù)目，m為類標簽集合的維度。
[0030] 所述適應(yīng)度函數(shù)根據(jù)不同類標簽進行劃分，對應(yīng)不同的小種群，針對類標簽有不同的適應(yīng)度函數(shù)。
[0031] 優(yōu)選的，在所述步驟9中，所述局部最優(yōu)的條件是：所述新種群中的子種群在連續(xù) 進化20代之后的平均適應(yīng)度值都是最小。
[0032] 優(yōu)選的，所述S5中的步驟具體為：
[0033] 對迭代之后獲得的最后一代種群中的個體適應(yīng)度值進行排序，選取最好適應(yīng)度值對應(yīng)的權(quán)值組合；
[0034] 選取所述最后一代種群的適應(yīng)度值拓撲排名為前10、前20、前30的個體對應(yīng)的權(quán) 值組合，分別對應(yīng)求取平均值，得出各自對應(yīng)的3組權(quán)值組合，加上所述最好適應(yīng)度值對應(yīng) 的權(quán)值組合；
[0035] 利用所述最好適應(yīng)度值對應(yīng)的權(quán)值組合以及所述3組權(quán)值組合，分別對所述測試集進行類標簽的預(yù)測，根據(jù)實驗評價準則，得出分類精度。
[0036] 優(yōu)選的，所述S5中的步驟具體為：
[0037] 對迭代之后獲得的最后一代種群中且對應(yīng)最好適應(yīng)度值的個體求取平均值，將是平均值作為最好適應(yīng)度值對應(yīng)的權(quán)值組合；
[0038] 選取所述最后一代種群的適應(yīng)度值拓撲排名為前10、前20、前30的個體對應(yīng)的權(quán) 值組合，分別對應(yīng)求取平均值，得出各自對應(yīng)的3組權(quán)值組合，加上所述最好適應(yīng)度值對應(yīng) 的權(quán)值組合；
[0039] 利用所述最好適應(yīng)度值對應(yīng)的權(quán)值組合以及所述3組權(quán)值組合，分別對所述測試集進行類標簽的預(yù)測，根據(jù)實驗評價準則，得出分類精度。
[0040] 優(yōu)選的，所述S5中的步驟具體為：
[0041] 將在迭代之后獲得的最后一代種群中且對應(yīng)最好適應(yīng)度值的個體的權(quán)值組合分別循環(huán)代入到所述測試集中，進行類標簽取值預(yù)測，選取最大預(yù)測準確度的個體作為最優(yōu) 的預(yù)測準確度；
[0042] 分別選取前10、前20、前30的個體對應(yīng)的權(quán)值組合，依照循環(huán)迭代的方法分別求出各自對應(yīng)的最好的分類準確度；
[0043] 基于所述最優(yōu)的預(yù)測準確度和三組分類準確度對所述測試集進行分類精度測試。
[0044] 通過本發(fā)明的一個或者多個技術(shù)方案，本發(fā)明具有以下有益效果或者優(yōu)點：
[0045] 在本發(fā)明中，描述了一種測試分類數(shù)據(jù)集的方法。在獲得分類數(shù)據(jù)集之后，若需要對其進行標準化處理，則使用絕對標準差的方式對所述分類數(shù)據(jù)集進行標準化；然后將分類數(shù)據(jù)集分成訓練集和測試集，并利用小生境文化算法學習獲得雙重加權(quán)樸素貝葉斯多標簽分類器的雙重權(quán)值，然后對所述訓練集進行訓練，得到優(yōu)化權(quán)重值；然后代入測試集進行預(yù)測。本發(fā)明在傳統(tǒng)樸素貝葉斯多標簽算法的基礎(chǔ)上增加了數(shù)據(jù)的訓練過程，然后再對分類數(shù)據(jù)集進行預(yù)測。本發(fā)明通過使用粒子群優(yōu)化算法對傳統(tǒng)的數(shù)據(jù)分類進行改進，改進后的算法可以提高分類的準確度。
[0046] 進一步的，在計算初始度適應(yīng)值時，是根據(jù)多標記學習中的二分類評估標準，采用 0/1向量標記集的方式，設(shè)計相應(yīng)的適應(yīng)度函數(shù)。
[0047] 進一步的，采用了兩種不同的方式對測試數(shù)據(jù)集進行預(yù)測，以提高分類的準確度。
【附圖說明】
[0048] 圖1為本發(fā)明實施例中一種對分類數(shù)據(jù)集進行測試的方法的實施過程圖；
[0049] 圖2為本發(fā)明實施例計算優(yōu)化權(quán)重值的實施過程圖；
[0050] 圖3為本發(fā)明實施例信仰空間的示意圖；
[0051] 圖4A-圖4B為本發(fā)明實施例中以高斯分布、柯西分布和連續(xù)屬性離散化為擬合方式的NCA-DWNB與NBMLC算法在兩種預(yù)測方法下，各自運行10次計算所得的最優(yōu)權(quán)值 (best)對應(yīng)的預(yù)測準確度；
[0052] 圖5A-圖5B為本發(fā)明實施例中以高斯分布、柯西分布和連續(xù)屬性離散化為擬合方式的NCA-DWNB與NBMLC算法在兩種

完整全部詳細技術(shù)資料下載

當前第1頁1 2 3 4

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：顏雪松;
技術(shù)所有人：中國地質(zhì)大學（武漢）;
我是此專利的發(fā)明人

上一篇：一種分布式文件系統(tǒng)緩存管理方法和系統(tǒng)的制作方法
上一篇：網(wǎng)頁訪問處理方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

用于分類的測試數(shù)據(jù)集相關(guān)技術(shù)

文本分類數(shù)據(jù)集相關(guān)技術(shù)

圖像分類數(shù)據(jù)集相關(guān)技術(shù)

中文文本分類數(shù)據(jù)集相關(guān)技術(shù)