專利名稱:用于構(gòu)建多級別分類模型的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般地涉及信息分類,尤其是將信息樣本分類到多個類別的多類別 (multi-class)分類和多級別(multi-level)分類。更具體而言,本發(fā)明涉及用于構(gòu)建多級 別分類模型的方法和系統(tǒng)。
背景技術(shù):
在傳統(tǒng)的多類別信息分類方法中,類別通常是相互獨立和無序的。例如,在新聞分 類中,新聞的類別可以包括政治、經(jīng)濟(jì)、軍事、科學(xué)等等。然而,在現(xiàn)實生活中,存在另一種特殊的多類別問題。即,各個類別之間有序關(guān)聯(lián) 并且平滑分布。這種分類問題被稱為多級別分類問題。在多級別分類問題中,信息樣本被 分類到不同的級別而非不同的類別。例如,在產(chǎn)品評價分類中,用戶對產(chǎn)品的評價意見的等 級可以包括差、一般、好、非常好等等。因特網(wǎng)上信息的不斷增長使得對信息分類的需求越來越明顯。因此,近年來,針對 傳統(tǒng)的多類別分類問題已經(jīng)進(jìn)行了很多研究。但是,作為一種特殊的多類別問題,對多級別 分類問題的研究尚不充分。下面將簡單介紹幾個與本發(fā)明相關(guān)的現(xiàn)有自動信息分類算法的 示例。Chu>S. Sathiya Keerhi 白勺 11 “New Approaches toSupport Vector Ordinal Regression”的論文(參見ICML2005,第145-152頁)中,提出了兩種用于序回歸 (ordinal regression)的監(jiān)督支持向量方法。該方法用于優(yōu)化多個有序的尺度閾值,這多 個閾值限定了多個平行的分類超平面。要了解更多細(xì)節(jié),請具體參考第7節(jié)“發(fā)明的詳細(xì)描 述”。另外,于2008年3月17日遞交的美國專利US 7533076B2 (下稱“現(xiàn)有技術(shù)1 ”)提 出了一種有效的多類別支持向量機(jī)分類方法。該方法通過使用一組監(jiān)督二元支持向量機(jī)分 類器將各個數(shù)據(jù)樣本分類到多個類別中。在構(gòu)建分類模型的過程中,該方法基于各個相鄰 級別之間的局部鄰接性(local level adjacency)對初始分類模型進(jìn)行調(diào)整。圖1示出根 據(jù)該現(xiàn)有技術(shù)的用于產(chǎn)生和優(yōu)化分類模型的系統(tǒng)100的結(jié)構(gòu)框圖。在圖1中,系統(tǒng)100主 要包括分類模型初始化裝置101和基于本地級別鄰接性的分類模型調(diào)整裝置102。在信息 分類中,分類模型需要被表示為某種機(jī)器可讀格式。例如,在該方法中,多級別分類模型由 一系列平行的分類超平面組成,各個超平面具有相應(yīng)的級別閾值,這些級別閾值指示相鄰 級別之間的邊界(margin)。在學(xué)習(xí)分類模型的最初,首先需要生成一初始模型。分類模型 初始化裝置101用于基于輸入的標(biāo)注訓(xùn)練數(shù)據(jù)產(chǎn)生初始分類模型。產(chǎn)生初始分類模型的方 法可以采用本領(lǐng)域技術(shù)人員所公知的方法,這里不對此進(jìn)行贅述。調(diào)整裝置102用于基于 各個級別之間的局部級別鄰接性對所生成的初始分類模型進(jìn)行調(diào)整和優(yōu)化。在多級別問題 中,級別是順序相關(guān)的,即,級別距離越近則越相似。因此,在該方法中,這種級別關(guān)系被表 示為第i級別的閾值必須低于第(i+Ι)級別的閾值。這種表示級別相鄰關(guān)系的局部級別 鄰接性被用于調(diào)整已生成的初始分類模型,從而得到優(yōu)化的分類模型。
再例如,在P. N. M. Belkin 和 V. Sindhwani 的題為 “ManifoldRegularization :A Geometric Framework for Learning from Labeled andUnlabeled Examples,,的論文(參 見 Journal of Machine Learning Research,第 23"_2434 頁,2OO6 年)(下稱“現(xiàn)有技術(shù) 2”)中,提出一種學(xué)習(xí)一系列半監(jiān)督多類別分類模型的方法。該方法是一種典型的半監(jiān)督 學(xué)習(xí)方法,其核心組件在于“基于樣本相似性的分類模型平滑”。圖2示出根據(jù)該現(xiàn)有技術(shù) 的用于產(chǎn)生和優(yōu)化分類模型的系統(tǒng)200的結(jié)構(gòu)框圖。在圖2中,系統(tǒng)200包括分類模型初 始化裝置201和基于樣本相似性的分類模型平滑裝置202。在半監(jiān)督學(xué)習(xí)情形中,大多數(shù) 數(shù)據(jù)樣本是未標(biāo)注的。就是說,大多數(shù)數(shù)據(jù)樣本的類別標(biāo)簽是未知的。但是,這些未標(biāo)注的 訓(xùn)練數(shù)據(jù)樣本的存在可被用于更好地擬合總體的數(shù)據(jù)分布內(nèi)在幾何結(jié)構(gòu)。其基于這樣的假 設(shè)相似的數(shù)據(jù)樣本更可能處于相同的類別中。樣本相似性可以根據(jù)數(shù)據(jù)樣本的特征來計 算,并隨后被用于調(diào)整標(biāo)注數(shù)據(jù)樣本和未標(biāo)注數(shù)據(jù)樣本上的預(yù)測的類別標(biāo)簽。這樣一來,這 些類別標(biāo)簽可以根據(jù)總體上的數(shù)據(jù)分布而平滑地變化,從而達(dá)到優(yōu)化分類模型的目的。在多類別分類模型中,并沒有考慮到多級別情形下各個級別之間的兩兩有序關(guān) 系。這一點姑且不論,即便是現(xiàn)有技術(shù)的多級別分類模型優(yōu)化方法也不可避免地存在諸多 缺陷。在上述現(xiàn)有技術(shù)1的序回歸模型優(yōu)化方法中,僅僅考慮到有限的相鄰級別之間的順 序關(guān)系。并且,序回歸模型中的輸出級別標(biāo)簽是離散的,不能被連續(xù)地測量。此外,在諸如 現(xiàn)有技術(shù)2之類的半監(jiān)督學(xué)習(xí)情形中,沒有現(xiàn)有的多級別或序回歸方法可以被應(yīng)用。
發(fā)明內(nèi)容
本發(fā)明正是考慮到上述現(xiàn)有技術(shù)中存在的問題而研制的。本發(fā)明的多級別分類模型優(yōu)化方案主要包括四種分別用于監(jiān)督和半監(jiān)督情形的 分類模型優(yōu)化功能,即,基于全局級別值間距的分類模型調(diào)整功能(第一調(diào)整),基于數(shù)據(jù) 樣本序關(guān)系的分類模型調(diào)整功能(第二調(diào)整),基于數(shù)據(jù)樣本相似性的分類模型平滑功能 (第一平滑)和基于級別相似性的分類模型平滑功能(第二平滑)。其中,第一和第二調(diào)整 主要應(yīng)用于監(jiān)督情形,即,基于標(biāo)注數(shù)據(jù)樣本,而第一和第二平滑是在第一和第二調(diào)整的基 礎(chǔ)上引入的,用于使模型可被應(yīng)用到半監(jiān)督情形,即,基于標(biāo)注和未標(biāo)注數(shù)據(jù)樣本兩者。第一調(diào)整(即,基于全局級別值間距的分類模型調(diào)整)是基于所有分類級別之間 的全局關(guān)系對分類模型進(jìn)行調(diào)整的功能。不同于上述現(xiàn)有技術(shù)1所記載的僅局限于相鄰 級別之間的局部順序的情形,該第一調(diào)整功能利用級別值之間的間距來懲罰全局誤分類誤 差,從而使得所有級別之間的全局序關(guān)系被引入分類模型的調(diào)整過程。因此,在使得關(guān)于所 有數(shù)據(jù)樣本的總誤分類誤差最小化的同時,分類模型的全局級別序關(guān)系也可以被宏觀地優(yōu) 化。第二調(diào)整(即,基于數(shù)據(jù)樣本序關(guān)系的分類模型調(diào)整)是基于如下考量而設(shè)計的 基于多個級別之間序的本質(zhì),級別之間的序也可以反映在每個數(shù)據(jù)樣本上。因此,該第二調(diào) 整功能被設(shè)計成使得每兩個標(biāo)注數(shù)據(jù)樣本之間的序關(guān)系,與它們的級別標(biāo)簽所對應(yīng)的級別 序關(guān)系保持一致。從而,級別的序關(guān)系可以根據(jù)數(shù)據(jù)樣本被微觀地進(jìn)一步優(yōu)化。第一平滑(即,基于數(shù)據(jù)樣本相似性的分類模型平滑)類似于現(xiàn)有方法,例如上述 現(xiàn)有技術(shù)2所描述的方法。在本發(fā)明中,標(biāo)注數(shù)據(jù)樣本和未標(biāo)注數(shù)據(jù)樣本兩者的預(yù)測級別 標(biāo)簽都基于它們之間的相似性被平滑。
第二平滑(即,基于級別相似性的分類模型平滑)是根據(jù)數(shù)據(jù)樣本的級別相似性 來調(diào)整分類模型的功能。在基于樣本相似性的第一平滑功能中,僅僅利用了數(shù)據(jù)分布的內(nèi) 在幾何結(jié)構(gòu)。進(jìn)一步的,第二平滑被用于對級別分布的內(nèi)在幾何結(jié)構(gòu)建模?;诜诸惣墑e之 間的距離以及數(shù)據(jù)樣本屬于某一級別的概率,數(shù)據(jù)樣本之間的級別相似性可以被計算。因 此,分類模型可以根據(jù)數(shù)據(jù)樣本的級別相似性被進(jìn)一步優(yōu)化。從而,預(yù)測的級別標(biāo)簽不僅能 夠針對總體的數(shù)據(jù)分布平滑地變化,還可以與級別之間的序關(guān)系保持一致。根據(jù)不同的實施例,本發(fā)明利用上述第一調(diào)整、第二調(diào)整、第一平滑和第二平滑的 不同組合來優(yōu)化多級別分類模型。根據(jù)本發(fā)明第一方面,提供了一種用于構(gòu)建多級別分類模型的方法,該方法包括 輸入標(biāo)注數(shù)據(jù)樣本;利用標(biāo)注數(shù)據(jù)樣本生成初始多級別分類模型;以及基于所有級別之間 的全局級別值間距對所述初始多級別分類模型進(jìn)行優(yōu)化。在另一實施例中,所述優(yōu)化步驟 還基于數(shù)據(jù)樣本之間的序關(guān)系進(jìn)行進(jìn)一步調(diào)整。在又一實施例中,所述方法被擴(kuò)展應(yīng)用到 半監(jiān)督情形,其中所述優(yōu)化步驟還基于數(shù)據(jù)樣本之間的相似性以及級別之間的相似性對分 類模型進(jìn)行平滑。根據(jù)本發(fā)明第二方面,提供了一種用于構(gòu)建多級別分類模型的系統(tǒng),包括第一輸 入裝置,用于輸入標(biāo)注數(shù)據(jù)樣本;分類模型初始化裝置,用于利用所述標(biāo)注數(shù)據(jù)樣本生成初 始多級別分類模型;以及分類模型優(yōu)化裝置,用于對所生成的所述初始多級別分類模型進(jìn) 行優(yōu)化。在一個實施例中,分類模型優(yōu)化裝置基于所有級別之間的全局級別值間距對初始 多級別分類模型進(jìn)行調(diào)整。在另一實施例中,分類模型優(yōu)化裝置基于所有級別之間的全局 級別值間距以及數(shù)據(jù)樣本之間的序關(guān)系對初始多級別分類模型進(jìn)行調(diào)整。在又一實施例 中,所述系統(tǒng)被擴(kuò)展應(yīng)用到半監(jiān)督學(xué)習(xí)情形。在此情況下,除了基于所有級別之間的全局級 別值間距以及數(shù)據(jù)樣本之間的序關(guān)系對初始多級別分類模型進(jìn)行調(diào)整之外,分類模型優(yōu)化 裝置還考慮到數(shù)據(jù)樣本之間的相似性以及級別之間的相似性對初始多級別分類模型進(jìn)行 平滑,以實現(xiàn)最終優(yōu)化。本發(fā)明的技術(shù)優(yōu)勢主要體現(xiàn)在如下幾個方面。首先,通過利用級別值和相似性,級別之間的序關(guān)系被充分地結(jié)合到分類模型中, 從而提高了多級別分類的精確性。其次,由于針對所有級別構(gòu)建統(tǒng)一的分類功能,因此每個數(shù)據(jù)樣本按照一致的度 量被計算。這樣一來,分類器不僅輸出離散的級別標(biāo)簽,還輸出級別標(biāo)簽據(jù)其量化的連續(xù)的 度量值,從而使得多級別分類器的輸出是可測量的。此外,通過引入兩種平滑功能,使得分類模型不僅可以被應(yīng)用到傳統(tǒng)的監(jiān)督問題, 也可以被應(yīng)用到在實際信息處理應(yīng)用中更普遍的半監(jiān)督問題,從而提高了多級別分類的實 用性。
結(jié)合附圖,從下面對本發(fā)明實施例的詳細(xì)描述,將更好地理解本發(fā)明,附圖中類似 的標(biāo)號指示類似的部分,其中圖1是示出根據(jù)現(xiàn)有技術(shù)1的分類模型優(yōu)化系統(tǒng)100的結(jié)構(gòu)框圖;圖2是示出根據(jù)現(xiàn)有技術(shù)2的分類模型優(yōu)化系統(tǒng)200的結(jié)構(gòu)框圖3是示出根據(jù)本發(fā)明的分類模型優(yōu)化系統(tǒng)300的結(jié)構(gòu)框圖;圖4A至圖4C分別示出圖3所示的分類模型優(yōu)化系統(tǒng)300的三種不同組合工作方 式的流程圖。
具體實施例方式為了描述方便,下面首先給出說明書中將使用的一些基本符號的定義。1 個標(biāo)注數(shù)據(jù)樣本,記作 Xl= {(Xi,yi)},i = 1,...,1,u 個未標(biāo)注數(shù)據(jù)樣本,記作 Xu = {(Xi,? )},i = 1+1,···,1+u,其中,y e {rk},k = 1,. . .,K,是第k級別的值,并且K是級別總數(shù)目。Ye = {yj,i = 1,...,1表示1個標(biāo)注數(shù)據(jù)樣本的級別標(biāo)簽向量。本發(fā)明要構(gòu)建 的是統(tǒng)一的預(yù)測或分類函數(shù)f (稱之為級別函數(shù)),其針對數(shù)據(jù)樣本X的輸出是數(shù)值f(x), 即X所屬級別值。優(yōu)化后的級別函數(shù)記作f。本發(fā)明所提出的分類模型優(yōu)化方案用于構(gòu)建多級別分類模型,其將級別之間的序 關(guān)系結(jié)合到分類模型中。本發(fā)明所提出的方法可以被應(yīng)用到監(jiān)督和半監(jiān)督情形兩者,作為 示例,其統(tǒng)一的構(gòu)架可以用下式(1)來表示
權(quán)利要求
1.一種用于構(gòu)建多級別分類模型的方法,包括輸入標(biāo)注數(shù)據(jù)樣本;利用所述標(biāo)注數(shù)據(jù)樣本生成初始多級別分類模型;以及對所述初始多級別分類模型進(jìn)行優(yōu)化,其中,所述優(yōu)化步驟包括基于所有級別之間的全局級別值間距對所述初始多級別分類 模型進(jìn)行調(diào)整。
2.如權(quán)利要求1所述的方法,其中,所述基于全局級別值間距進(jìn)行調(diào)整的步驟包括對所有所述標(biāo)注數(shù)據(jù)樣本,調(diào)整級別分類函數(shù),以使得以下各項之和最小(1)級別分類函數(shù)所對應(yīng)的分類超平面的間距的倒數(shù);( 所有標(biāo)注數(shù)據(jù)樣本的預(yù)測級別標(biāo)簽值與其 已標(biāo)注的級別標(biāo)簽值的間距的數(shù)學(xué)和。
3.如權(quán)利要求1所述的方法,其中所述優(yōu)化步驟還包括基于標(biāo)注數(shù)據(jù)樣本之間的序關(guān) 系對所述初始多級別分類模型進(jìn)行調(diào)整。
4.如權(quán)利要求3所述的方法,其中,所述基于標(biāo)注數(shù)據(jù)樣本之間的序關(guān)系進(jìn)行調(diào)整的 步驟包括對所有所述標(biāo)注數(shù)據(jù)樣本,調(diào)整級別分類函數(shù),以使得以下各項之和最小(1)級別分 類函數(shù)所對應(yīng)的分類超平面的間距的倒數(shù);( 所有標(biāo)注數(shù)據(jù)樣本的預(yù)測級別標(biāo)簽值與其 已標(biāo)注的級別標(biāo)簽值的間距的數(shù)學(xué)和;以及C3)在按照級別標(biāo)簽重新排序后的標(biāo)注數(shù)據(jù)樣 本序列中,鄰接數(shù)據(jù)樣本間預(yù)測值的序錯誤的數(shù)學(xué)和。
5.如權(quán)利要求3所述的方法,該方法被擴(kuò)展應(yīng)用到半監(jiān)督學(xué)習(xí)情形,所述方法還包括輸入未標(biāo)注數(shù)據(jù)樣本;并且利用所述標(biāo)注數(shù)據(jù)樣本和所述未標(biāo)注數(shù)據(jù)樣本生成所述初始多級別分類模型。
6.如權(quán)利要求5所述的方法,其中所述優(yōu)化步驟還包括基于數(shù)據(jù)樣本之間的相似性以 及級別之間的相似性對所述初始多級別分類模型進(jìn)行平滑。
7.如權(quán)利要求6所述的方法,其中所述平滑步驟包括對所有所述標(biāo)注和未標(biāo)注數(shù)據(jù)樣本,調(diào)整級別分類函數(shù),以使得以下各項之和最小 (1)級別分類函數(shù)所對應(yīng)的分類超平面的間距的倒數(shù);( 所有標(biāo)準(zhǔn)數(shù)據(jù)樣本的預(yù)測級別 標(biāo)簽值與其已標(biāo)注的級別標(biāo)簽值的間距的數(shù)學(xué)和;C3)在按照級別標(biāo)簽重新排序后的所有 標(biāo)注數(shù)據(jù)樣本序列中,鄰接數(shù)據(jù)樣本間預(yù)測值的序錯誤的數(shù)學(xué)和;(4)所有標(biāo)注與未標(biāo)注 數(shù)據(jù)樣本上,基于樣本相似性加權(quán)的預(yù)測級別標(biāo)簽值間距的數(shù)學(xué)和;以及(5)所有標(biāo)注與 未標(biāo)注數(shù)據(jù)樣本上,基于數(shù)據(jù)樣本的級別相似性加權(quán)的預(yù)測級別標(biāo)簽值間距的數(shù)學(xué)和。
8.如權(quán)利要求2、4和7中的任何一個所述的方法,其中,所述數(shù)學(xué)和是絕對值之和、平 方和或高次方和。
9.如權(quán)利要求2、4和7中的任何一個所述的方法,還包括對各項數(shù)學(xué)和分別配置一 個可調(diào)整的權(quán)重參數(shù),其中,每個所述權(quán)重參數(shù)取值大于或等于0。
10.如權(quán)利要求9所述的方法,其中所述優(yōu)化步驟使如下等式最小化
11.一種用于構(gòu)建多級別分類模型的系統(tǒng),包括 第一輸入裝置,用于輸入標(biāo)注數(shù)據(jù)樣本;分類模型初始化裝置,用于利用所述標(biāo)注數(shù)據(jù)樣本生成初始多級別分類模型;以及 分類模型優(yōu)化裝置,用于對所生成的所述初始多級別分類模型進(jìn)行優(yōu)化, 其中,所述分類模型優(yōu)化裝置基于所有級別之間的全局級別值間距對所述初始多級別 分類模型進(jìn)行調(diào)整。
12.如權(quán)利要求11所述的系統(tǒng),其中所述分類模型優(yōu)化裝置還基于數(shù)據(jù)樣本之間的序 關(guān)系對所述初始多級別分類模型進(jìn)行調(diào)整。
13.如權(quán)利要求12所述的系統(tǒng),該系統(tǒng)被擴(kuò)展應(yīng)用到半監(jiān)督學(xué)習(xí)情形,所述系統(tǒng)還包括第二輸入裝置,用于輸入未標(biāo)注數(shù)據(jù)樣本;并且所述分類模型初始化裝置利用所述標(biāo)注數(shù)據(jù)樣本和所述未標(biāo)注數(shù)據(jù)樣本生成所述初 始多級別分類模型。
14.如權(quán)利要求13所述的系統(tǒng),其中所述分類模型優(yōu)化裝置還基于數(shù)據(jù)樣本之間的相 似性以及級別之間的相似性對所述初始多級別分類模型進(jìn)行平滑。
全文摘要
本發(fā)明提供了用于構(gòu)建多級別分類模型的方法和系統(tǒng)。提出的方法包括輸入標(biāo)注數(shù)據(jù)樣本;利用標(biāo)注數(shù)據(jù)樣本生成初始多級別分類模型;以及對初始多級別分類模型進(jìn)行優(yōu)化,其中,所述優(yōu)化步驟可以包括基于所有級別之間的全局級別值間距對初始多級別分類模型進(jìn)行調(diào)整。在另一實施例中,優(yōu)化步驟還包括基于數(shù)據(jù)樣本之間的序關(guān)系對初始多級別分類模型進(jìn)行調(diào)整。在又一實施例中,本發(fā)明的方法被擴(kuò)展應(yīng)用到半監(jiān)督學(xué)習(xí)情形,通過參考標(biāo)注和未標(biāo)注數(shù)據(jù)樣本兩者,可以基于數(shù)據(jù)樣本之間的相似性以及級別之間的相似性對初始多級別分類模型進(jìn)行進(jìn)一步平滑。
文檔編號G06K9/62GK102117411SQ200910258920
公開日2011年7月6日 申請日期2009年12月30日 優(yōu)先權(quán)日2009年12月30日
發(fā)明者杉山高弘, 錢明杰, 陳博, 齊紅威 申請人:日電(中國)有限公司