两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于相關向量機的多類數據分類方法

文檔序號:6560458閱讀:249來源:國知局
專利名稱:基于相關向量機的多類數據分類方法
技術領域
本發(fā)明屬于數據處理技術領域,涉及數據分類,特別是一種針對多類數據的識別分類方法,用于目標識別中。
背景技術
數據分類是用來區(qū)分不同目標數據,把不同的目標數據盡可能的區(qū)分開,從而能在大量不同目標數據中識別出各個目標數據。現階段的數據分類方法主要是研究兩類數據分類的問題,兩類數據分類方法主要有支持向量機方法和相關向量機方法。支持向量機 SVM是Cortes和Vapnik于1995年首次提出的,它在解決小樣本、非線性及高維模式識別中表現出許多特有的優(yōu)勢。SVM最初用于解決兩類數據分類問題,不能直接用于多類數據分類問題。相關向量機RVM是Tipping于2001年在貝葉斯框架的基礎上提出的,它與SVM 一樣,通過核函數映射將低維空間的非線性問題轉化為高維空間的線性問題。與SVM相比, RVM不需要估計正則化參數,核函數也不需要滿足Mercer條件,需要更少的相關向量,訓練時間長,測試時間短。對于Logistic模型和ftx)bit模型的RVM兩類數據分類方法,可以很容易的推廣到多類數據分類上。目前,多類數據分類方法主要有以下幾種一、SVM多類數據分類方法。這種方法大致可以分為兩大類一是通過某種方式構造一系列的兩類數據分類器,并將它們組合在一起來實現多類數據分類,這類SVM多類數據分類方法包括一對多算法和一對一算法;二是將多個分類面的參數求解合并到一個最優(yōu)化問題中,通過求解最優(yōu)化問題“一次性”地實現多類數據分類,這類方法主要有二次規(guī)劃算法。其中一對多算法,依次用一個兩類SVM分類器將每一類數據與其它所有類數據區(qū)分開,得到K個分類函數,分類時將未知數據分類為具有最大分類函數值的那一類。這種方法的好處是每個優(yōu)化問題的規(guī)模都很小,而且分類時速度比較快,但會有分類重疊或不可分類現象,造成數據集的偏斜。一對一算法,是在每兩類數據間訓練一個兩類SVM分類器,對于一個K類問題,將有Κ(Κ-1)/2個分類函數,當對一個未知樣本進行分類時,每個分類器都對其類別進行判斷,并為相應的類別“投上一票”,最后得票最多的類別即作為該未知樣本的類另U。雖然分類器的數目多了,但在算出這些分類器的分類平面時,所用的總時間卻比一對多方法少,但又存在分類重疊現象。二次規(guī)劃算法,是在訓練時將K個分類面的參數求解合并到一個最優(yōu)化問題中, 通過二次規(guī)劃方法求解最優(yōu)化問題所需的參數,在測試時采用與一對多算法相同的判決方法,即對于某個輸入樣本,其分類結果為各子分類器輸出值最大的那個類別,此算法不適合對類別數多的數據分類。二、基于Logistic模型的多類數據分類方法。該方法是一種基于多元Logistic Regression 模型的多類表述,如文獻“Sparse Multinomial Logistic Regression :FastAlgorithms and Generalization Bounds,IEEE Trans, on Pattern Analysis and Machine Intelligence, Vol. 27,2005. ”。該文獻通過邊界優(yōu)化方法與按分量逐個迭代的結合,實現對大樣本數及高特征維數據的稀疏多類數據分類。此方法假設具有稀疏化特性的拉普拉斯先驗信息,在最大后驗準則下構造分類器,存在近似計算的不足。

發(fā)明內容
本發(fā)明的目的在于克服上述已有多類數據分類技術的缺點,提出一種基于相關向量機的多類數據分類方法,以減小近似計算量,避免分類重疊,實現對類別數多的數據分類。實現本發(fā)明目的的技術方案是以多元ftx)bit為模型,利用變分貝葉斯方法進行最優(yōu)化問題的求解,通過一次性的求解出分類所需參數,而無需構造多個兩類分類器進行組合分類,避免分類重疊現象,適用類別數多的數據分類;同時通過假設參數的先驗分布為共軛先驗分布,使后驗分布與先驗分布具有相同的形式,從而很方便的寫出參數的后驗分布,進行后驗參數的求解,以減小近似計算。具體步驟包括如下(1)將多類數據集劃分成交叉驗證數據集V、訓練數據集R和測試數據集T,并對其進行歸一化預處理,使數據的不同特征在同一尺度上;(2)確定相關向量機的核函數類型,根據歸一化預處理后的交叉驗證數據集V' 確定該相關向量機的核參數;(3)基本參數設置;(3a)設置相關向量機的迭代次數L = 100、迭代數1。= 0、收斂閾值ο = 10_6 ;(3b)設置權值參數矩陣W= [wi; L, wk, L, wK]中Wk先驗分布的均值是零向量、方差是(diagfek))—1的高斯分布,其中權值方差向量%的每個元素Cimk服從形狀參數= 10_6、 尺度參數K = 10_6的伽馬分布,diag(ak)表示對角矩陣,即對角線元素為向量%,其余元素為零的矩陣,(Γ1表示矩陣求逆,k= 1,L,K,K為類別數,m= 1,L,M,M為歸一化預處理后訓練數據集R'的映射矩陣的行數;(3c)設置噪聲參數ε η服從均值為零、方差為G1的高斯先驗分布,其中噪聲準確度參數τ η服從形狀參數Ctl= 10_6、尺度參數dQ= 10_6的伽馬分布,η = 1,L,N,N為訓練數據集R的樣本數;(4)根據歸一化預處理后的訓練數據集R'、核函數類型、核參數和(3)中設置的基本參數,利用如下分類面參數更新公式計算相關向量機的分類面參數mn=9n{W),Sn=<Tny%,
權利要求
1. 一種基于相關向量機的多類數據分類方法,包括如下步驟(1)將多類數據集劃分成交叉驗證數據集V、訓練數據集R和測試數據集T,并對其進行歸一化預處理,使數據的不同特征在同一尺度上;(2)確定相關向量機的核函數類型,根據歸一化預處理后的交叉驗證數據集V'確定該相關向量機的核參數;(3)基本參數設置;(3a)設置相關向量機的迭代次數L = 100、迭代數1。= 0、收斂閾值σ = 10_6 ; (3b)設置權值參數矩陣W = [wi; L,wk, L,wK]中Wk先驗分布的均值是零向量、方差是 (Cliag(Cik))-1的高斯分布,其中權值方差向量Cik的每個元素Cimk服從形狀參數= 10_6、 尺度參數K = 10_6的伽馬分布,Cliag(Cik)表示對角矩陣,即對角線元素為向量ak,其余元素為零的矩陣,(Γ1表示矩陣求逆,k= 1,L,K,K為類別數,m= 1,L,M,M為歸一化預處理后訓練數據集R'的映射矩陣的行數;(3c)設置噪聲參數ε n服從均值為零、方差為G1的高斯先驗分布,其中噪聲準確度參數 τ n服從形狀參數Ctl= 10_6、尺度參數dQ= 10_6的伽馬分布,η = 1,L,N,N為訓練數據集R 的樣本數;(4)根據歸一化預處理后的訓練數據集R'、核函數類型、核參數和(3)中設置的基本參數,利用如下分類面參數更新公式計算相關向量機的分類面參數
2.根據權利要求1所述的多類數據分類方法,其中步驟4中分類面參數更新公式中(<k)、<Y k>和〈義〉的求解如下
3.根據權利要求1所述的多類數據分類方法,其中步驟(7)所述的根據更新完成后的相關向量機的分類面參數,對歸一化預處理后的測試數據集T'進行預測,是通過如下公式進行
全文摘要
本發(fā)明提出了一種基于相關向量機的多類數據分類方法,主要解決現有多類數據分類方法不能整體求解分類面參數或需要近似計算的問題。其實現過程是劃分多類數據集,并進行歸一化預處理;確定核函數類型和核參數;設置基本參數;計算分類面參數;計算對數下界并求其變化值,把迭代數加1;若對數下界變化值收斂或迭代數達到迭代次數,則完成分類面參數更新,否則繼續(xù)更新;根據更新完成后的分類面參數,得預測概率矩陣,矩陣每行最大值對應的列數組成測試數據集的分類類別,預測概率小于虛警概率與檢測概率對應曲線中設定的虛警概率值的樣本被據判。本發(fā)明具有用較少的關聯向量,得到與SVM相比擬的分類及拒判性能的優(yōu)點,可用于目標識別中。
文檔編號G06K9/66GK102254193SQ20111019936
公開日2011年11月23日 申請日期2011年7月16日 優(yōu)先權日2011年7月16日
發(fā)明者劉宏偉, 徐丹蕾, 李志鵬, 杜蘭, 馬田香 申請人:西安電子科技大學
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
锦屏县| 云阳县| 白玉县| 海南省| 福州市| 美姑县| 西峡县| 酉阳| 浙江省| 怀柔区| 满洲里市| 浦北县| 东光县| 黄冈市| 桃园市| 洞头县| 海口市| 大关县| 徐水县| 景德镇市| 吉木萨尔县| 绥德县| 衢州市| 安西县| 吐鲁番市| 凉城县| 全椒县| 开平市| 东明县| 隆回县| 平武县| 望谟县| 彝良县| 湄潭县| 望江县| 云梦县| 曲阜市| 信宜市| 昌邑市| 汉寿县| 寿光市|