專利名稱:數(shù)據(jù)分類方法及數(shù)據(jù)分類裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)分類方法及數(shù)據(jù)分類裝置,特別涉及一種通過(guò)利用多個(gè)分離面能夠?qū)⒁阎悇e及偏離值同時(shí)進(jìn)行分類的數(shù)據(jù)分類方法及數(shù)據(jù)分類裝置。該申請(qǐng)基于2007年9月28日申請(qǐng)的日本專利申請(qǐng)2007-253703號(hào)。該日本專利申請(qǐng)公開(kāi)的內(nèi)容通過(guò)參照援引在本申請(qǐng)中。
背景技術(shù):
數(shù)據(jù)分類是在被給出未分類數(shù)據(jù)的情況下對(duì)該數(shù)據(jù)隸屬的類別進(jìn)行推測(cè)的技術(shù),是數(shù)據(jù)分析最基本的要素之一。特別是利用了類別之間的分離面等、將特征空間分為多個(gè)區(qū)域的分離面的數(shù)據(jù)分類技術(shù)的模型表現(xiàn)力高。因此,不僅能夠應(yīng)用于以畫(huà)像數(shù)據(jù)、蛋白質(zhì)或遺傳因子數(shù)據(jù)為代表的數(shù)據(jù)分類,也能夠應(yīng)用于將類別標(biāo)簽作為故障信息的情況下的故障診斷、將因特網(wǎng)或社會(huì)網(wǎng)絡(luò)等網(wǎng)絡(luò)間的鏈接的有無(wú)作為類別標(biāo)簽的情況下的鏈接的預(yù)測(cè)等廣泛的問(wèn)題及數(shù)據(jù)結(jié)構(gòu)。
利用分離面的數(shù)據(jù)分類方法較大地分為識(shí)別和偏離值分類的2個(gè)技術(shù)。前者是學(xué)習(xí)從附帶有類別標(biāo)簽的數(shù)據(jù)將類別分離的分離面,將分類對(duì)象數(shù)據(jù)向已知類別進(jìn)行分類的技術(shù)。后者是將學(xué)習(xí)數(shù)據(jù)視為1個(gè)類別,學(xué)習(xí)將學(xué)習(xí)數(shù)據(jù)所分布的區(qū)域和除此之外的區(qū)域分離的分離面,由此,對(duì)分類對(duì)象數(shù)據(jù)隸屬于該類別還是偏離該類別進(jìn)行分類的技術(shù)。此外,作為同時(shí)實(shí)施識(shí)別和偏離值分類的數(shù)據(jù)分類方法,作為利用分離面的數(shù)據(jù)分類方法的組合的方法,能夠容易地類推出來(lái)的方法有幾種。
首先,在與學(xué)習(xí)數(shù)據(jù)有關(guān)的類別的數(shù)量為1的情況下,數(shù)據(jù)分類為偏離值分類,因此可以想到利用1類別支持向量機(jī)(文獻(xiàn)5的第8章、文獻(xiàn)3)等公知的偏離值分類技術(shù)。
接著,在與學(xué)習(xí)數(shù)據(jù)有關(guān)的類別的數(shù)量為2以上的情況下,可以想到,分別針對(duì)各類別學(xué)習(xí)1類別支持向量機(jī)等的偏離值分類方法,在將分類對(duì)象數(shù)據(jù)判定為是相對(duì)于全部類別的偏離值的情況下,將該分類對(duì)象數(shù)據(jù)作為偏離值,在將1個(gè)或多個(gè)類別判定為隸屬于該類別的情況下,在這些類別的1個(gè)或多個(gè)中進(jìn)行分類的方法。
作為與學(xué)習(xí)數(shù)據(jù)有關(guān)的類別的數(shù)量為2個(gè)以上的情況下的其他方法,可以想到有如下方法將1類別支持向量機(jī)等的偏離值分類方法和利用支持向量機(jī)(文獻(xiàn)1、文獻(xiàn)2、文獻(xiàn)6)等的分離面的識(shí)別方法組合,首先根據(jù)偏離值分類方法統(tǒng)一學(xué)習(xí)全部類別,接著學(xué)習(xí)與已知類別有關(guān)的識(shí)別方法。在該方法中,首先根據(jù)偏離值檢測(cè)方法判定分類對(duì)象數(shù)據(jù)是否是偏離值,在不是偏離值的情況下,根據(jù)識(shí)別方法對(duì)是隸屬于已知的哪個(gè)類別進(jìn)行分類。
另一方面,作為利用多個(gè)分離面的技術(shù)有多類別支持向量機(jī)。多類別支持向量機(jī)的實(shí)現(xiàn)方法有幾種,有按照類別的每個(gè)組合分別計(jì)算2類別的支持向量機(jī)而采取按數(shù)量多決定的方法和如文獻(xiàn)7和文獻(xiàn)4中提出的方法那樣使多個(gè)超空間同時(shí)最優(yōu)化的方法。
以下,列舉文獻(xiàn)一覽。
文獻(xiàn)1日本特開(kāi)2007-115245號(hào)公報(bào) 文獻(xiàn)2日本特開(kāi)2007-95069號(hào)公報(bào) 文獻(xiàn)3日本特開(kāi)2005-345154號(hào)公報(bào) 文獻(xiàn)4日本特開(kāi)2007-52507號(hào)公報(bào) 文獻(xiàn)5Bernhard Scholkopf and Alex Smola.Learning with Kernels、Support Vector Machines、Regularization、Optimization and Beyond.MITPress.2002. 文獻(xiàn)6Bernhard Scholkopf、Alex J.Smola、Robert C.Williamson andPeter L.Bartlett.New Support Vector Algorithms.Neural Computation.Vol.12page 1207-1245.2000. 文獻(xiàn)7Ioannis Tsochantaridis、Thorsten Joachims、ThomasHofmann、Yasemin Altun.Large Margin Methods for Structured andInterdependent Output Variables.Journal of Machine Learning ResearchVol.6page 1453-1484.2005. 文獻(xiàn)8A.L.Yuille and A.Rangarajan.The concave-convexprocedure.Neural Computation.Vol.15page 915-936.2003. 在以往的同時(shí)實(shí)施識(shí)別及偏離值分類的數(shù)據(jù)分類方法中存在以下的問(wèn)題。
首先,在通過(guò)1類別支持向量機(jī)或支持向量機(jī)的單一的分離面對(duì)數(shù)據(jù)進(jìn)行分類的情況下,僅考慮了數(shù)據(jù)一側(cè)的邊界面,而不能夠考慮相反側(cè)的邊界,因此,存在分類進(jìn)行得并不縝密的問(wèn)題。
其理由如圖18所示那樣,在利用分離超平面(也僅稱作“超平面”)的1類別支持向量機(jī)中,僅考慮了數(shù)據(jù)單面的分離邊界,而沒(méi)有考慮相反側(cè)的邊界。此外,如圖19所示,是因?yàn)椋诶梅蛛x超球面(也僅稱作“超球面”)的1類別支持向量機(jī)中,僅考慮了數(shù)據(jù)外側(cè)的分離邊界,而沒(méi)有考慮內(nèi)側(cè)的邊界。上述問(wèn)題是其他利用分離面的公知的數(shù)據(jù)分類裝置中共同存在的問(wèn)題。
此外,在將利用分離面的公知的數(shù)據(jù)分類技術(shù)進(jìn)行組合的情況下,存在數(shù)據(jù)分類精度的可靠性低下的問(wèn)題。
其理由為,在將相對(duì)于各類別的偏離值分類進(jìn)行組合的情況下,獨(dú)立地對(duì)各類別進(jìn)行處理,而沒(méi)有考慮類別間的關(guān)系。此外,在將偏離值分類和識(shí)別組合的情況下,將不同類別當(dāng)作1個(gè)類別,因此偏離值分類的精度下降。上述問(wèn)題是在采取除了上述組合方法之外的組合方式的情況下也可能產(chǎn)生的問(wèn)題。
在這些組合公知技術(shù)的情況下,雖然利用了多個(gè)分離面,但是該多個(gè)分離面是被獨(dú)立地計(jì)算而進(jìn)行利用的,因此與利用一個(gè)一個(gè)的分離面的情況實(shí)質(zhì)相同。
此外,在以往的利用分離面的數(shù)據(jù)分類方法中,不存在同時(shí)進(jìn)行偏離值分類和識(shí)別的觀點(diǎn),因此,還存在不能夠通過(guò)相同的模化參數(shù)同時(shí)進(jìn)行偏離值分類和識(shí)別的問(wèn)題。
此外,多類別支持向量機(jī)雖然利用多個(gè)分離面,但是存在不能夠進(jìn)行偏離值分類的問(wèn)題。
其理由為,在多類別支持向量機(jī)中,僅考慮了在已知類別間進(jìn)行分類的分離面,而沒(méi)有考慮未知類別和已知類別的邊界。換言之,已知類別隔著1個(gè)分離面與其他已知類別相鄰接,沒(méi)有考慮到在已知類別之間夾有未知類別的情況。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種能夠以相同的順序同時(shí)進(jìn)行可靠性高的識(shí)別和偏離值分類的數(shù)據(jù)分類方法及數(shù)據(jù)分類裝置。
本發(fā)明的一個(gè)實(shí)施方式中的數(shù)據(jù)分類裝置具備存儲(chǔ)規(guī)定多個(gè)分離面的信息的分離面集合存儲(chǔ)部,所述多個(gè)分離面將特征空間分離為與至少1個(gè)已知類別分別對(duì)應(yīng)的至少1個(gè)已知類別區(qū)域和未知類別區(qū)域。至少1個(gè)已知類別區(qū)域的每個(gè)通過(guò)多個(gè)分離面中相互不相交的2個(gè)以上的分離面與外部區(qū)域相分離。數(shù)據(jù)分類裝置還具備分類部,該分類部通過(guò)對(duì)能夠計(jì)算內(nèi)積的分類對(duì)象數(shù)據(jù)隸屬于由存儲(chǔ)在分離面存儲(chǔ)部中的信息規(guī)定的至少1個(gè)已知類別區(qū)域和未知類別區(qū)域中的哪個(gè)區(qū)域進(jìn)行計(jì)算,來(lái)決定分類對(duì)象數(shù)據(jù)的分類。
本發(fā)明的一個(gè)實(shí)施方式中的數(shù)據(jù)分類方法包括(a)輸入能夠計(jì)算特征空間中的內(nèi)積的分類對(duì)象數(shù)據(jù)的工序;(b)從分離面存儲(chǔ)部輸入將特征空間分離為與至少1個(gè)已知類別分別對(duì)應(yīng)的至少1個(gè)已知類別區(qū)域和未知類別區(qū)域的多個(gè)分離面的工序。至少1個(gè)的多個(gè)已知類別區(qū)域分別通過(guò)多個(gè)分離面中不相交的2個(gè)以上分離面與外部區(qū)域相分離。數(shù)據(jù)分類方法還包括(c)通過(guò)計(jì)算分類對(duì)象數(shù)據(jù)隸屬于至少1個(gè)已知類別區(qū)域和未知類別區(qū)域中的哪個(gè)區(qū)域,來(lái)決定分類對(duì)象數(shù)據(jù)的分類的工序。
本發(fā)明的一個(gè)實(shí)施方式中的分離面集合計(jì)算裝置具備學(xué)習(xí)數(shù)據(jù)存儲(chǔ)部,存儲(chǔ)有能夠計(jì)算特征空間中的內(nèi)積且被分別分類在至少1個(gè)已知類別的某個(gè)中的多個(gè)學(xué)習(xí)數(shù)據(jù);分離面集合計(jì)算部,基于存儲(chǔ)在學(xué)習(xí)數(shù)據(jù)存儲(chǔ)部中的多個(gè)學(xué)習(xí)數(shù)據(jù)及多個(gè)學(xué)習(xí)數(shù)據(jù)的各自的分類,計(jì)算將特征空間分離為與至少1個(gè)已知類別分別對(duì)應(yīng)的至少1個(gè)已知類別區(qū)域和未知類別區(qū)域的多個(gè)分離面。至少1個(gè)已知類別區(qū)域的每個(gè)通過(guò)多個(gè)分離面中不相交的2個(gè)以上分離面與外部區(qū)域相分離。分離面集合計(jì)算裝置還具備存儲(chǔ)有規(guī)定多個(gè)分離面的信息的分離面集合存儲(chǔ)部。
本發(fā)明的一個(gè)實(shí)施方式中的程序使計(jì)算機(jī)執(zhí)行具備以下的(a)~(c)的方法。
(a)輸入能夠計(jì)算特征空間中的內(nèi)積的分類對(duì)象數(shù)據(jù)的工序。
(b)從分離面存儲(chǔ)部輸入將特征空間分離成與至少1個(gè)已知類別分別對(duì)應(yīng)的至少1個(gè)已知類別區(qū)域和未知類別區(qū)域的多個(gè)分離面的工序。至少1個(gè)的多個(gè)已知類別區(qū)域的每個(gè)通過(guò)多個(gè)分離面中不相交的2個(gè)以上分離面與外部區(qū)域相分離。
(c)通過(guò)計(jì)算分類對(duì)象數(shù)據(jù)隸屬于至少1個(gè)已知類別區(qū)域和未知類別區(qū)域中的哪個(gè)區(qū)域,來(lái)決定分類對(duì)象數(shù)據(jù)的分類的工序。
本發(fā)明的一個(gè)實(shí)施方式中的程序使計(jì)算機(jī)執(zhí)行具備以下的(a)~(c)的方法。
(a)存儲(chǔ)能夠計(jì)算特征空間中的內(nèi)積且分別分類到至少1個(gè)已知類別的某個(gè)中的多個(gè)學(xué)習(xí)數(shù)據(jù)的工序。
(b)基于存儲(chǔ)在學(xué)習(xí)數(shù)據(jù)存儲(chǔ)部中的多個(gè)學(xué)習(xí)數(shù)據(jù)及多個(gè)學(xué)習(xí)數(shù)據(jù)的各自的分類,計(jì)算將特征空間分離成與至少1個(gè)已知類別分別對(duì)應(yīng)的至少1個(gè)已知類別區(qū)域和未知類別區(qū)域的多個(gè)分離面的工序。至少1個(gè)已知類別區(qū)域的每個(gè)通過(guò)多個(gè)分離面中不相交的2個(gè)以上分離面與外部區(qū)域相分離。
(c)存儲(chǔ)規(guī)定多個(gè)分離面的信息的工序。
根據(jù)本發(fā)明,能夠以相同的步驟同時(shí)進(jìn)行可靠性高的識(shí)別和偏離值分類。能夠以相同步驟同時(shí)進(jìn)行識(shí)別和偏離值分類的理由在于,基于能夠計(jì)算內(nèi)積且被分離在1個(gè)以上的已知類別中的特征空間中的多個(gè)學(xué)習(xí)數(shù)據(jù)及多個(gè)學(xué)習(xí)數(shù)據(jù)的分類,針對(duì)將特征空間分離成與1個(gè)以上的已知類別分別對(duì)應(yīng)的1個(gè)以上的已知類別區(qū)域和未知類別區(qū)域的多個(gè)分離面,每1個(gè)類別計(jì)算2個(gè)以上且不相交的多個(gè)分離面,在對(duì)分類未知的、能夠計(jì)算所述特征空間中的內(nèi)積的分類對(duì)象數(shù)據(jù)進(jìn)行分類時(shí),通過(guò)計(jì)算分類對(duì)象數(shù)據(jù)隸屬于由多個(gè)分離面分離的1個(gè)以上的類別區(qū)域和除此之外的未知類別區(qū)域的特征空間內(nèi)的哪個(gè)區(qū)域,來(lái)決定該分類對(duì)象數(shù)據(jù)的分類。此外,作為能夠進(jìn)行可靠性高的數(shù)據(jù)分類的理由在于,各個(gè)已知類別通過(guò)2個(gè)以上的分離面確定邊界,因此,與通過(guò)1個(gè)分離面確定邊界的情況相比,數(shù)據(jù)分類的可靠性更高。
圖1是表示本發(fā)明的第一實(shí)施方式所涉及的數(shù)據(jù)分類裝置的結(jié)構(gòu)的框圖。
圖2是本發(fā)明的第一實(shí)施方式所涉及的利用超平面的數(shù)據(jù)分類的一例。
圖3是本發(fā)明的第一實(shí)施方式所涉及的利用超球面的數(shù)據(jù)分類的一例。
圖4是本發(fā)明的第一實(shí)施方式所涉及的規(guī)定超平面的數(shù)據(jù)的存儲(chǔ)方法的一例。
圖5是本發(fā)明的第一實(shí)施方式所涉及的規(guī)定超球面的數(shù)據(jù)的存儲(chǔ)方法的一例。
圖6是表示本發(fā)明的第一實(shí)施方式所涉及的數(shù)據(jù)分類裝置的處理例的流程圖。
圖7是表示本發(fā)明的第二實(shí)施方式所涉及的數(shù)據(jù)分類裝置的結(jié)構(gòu)的框圖。
圖8是表示本發(fā)明的第二實(shí)施方式所涉及的分離面集合計(jì)算裝置的結(jié)構(gòu)的框圖。
圖9是表示本發(fā)明的第三實(shí)施方式所涉及的數(shù)據(jù)分類裝置的結(jié)構(gòu)的框圖。
圖10是表示本發(fā)明的第三實(shí)施方式所涉及的超平面集合計(jì)算裝置的結(jié)構(gòu)的框圖。
圖11是根據(jù)本發(fā)明的第三實(shí)施方式所涉及的數(shù)據(jù)分類裝置,在類別數(shù)量為1個(gè)的情況下所計(jì)算的數(shù)據(jù)分類的概念圖。
圖12是根據(jù)本發(fā)明的第三實(shí)施方式所涉及的數(shù)據(jù)分類裝置,在類別數(shù)量為2個(gè)的情況下所計(jì)算的數(shù)據(jù)分類的概念圖。
圖13是根據(jù)本發(fā)明的第三實(shí)施方式所涉及的數(shù)據(jù)分類裝置,在類別數(shù)量為3個(gè)以上的情況下所計(jì)算的數(shù)據(jù)分類的概念圖。
圖14是不優(yōu)選在本發(fā)明的第三實(shí)施方式所涉及的數(shù)據(jù)分類裝置中使用的超平面的說(shuō)明圖。
圖15是表示本發(fā)明的第四實(shí)施方式所涉及的數(shù)據(jù)分類裝置的結(jié)構(gòu)的框圖。
圖16是表示本發(fā)明的第四實(shí)施方式所涉及的超球面集合計(jì)算裝置的結(jié)構(gòu)的框圖。
圖17是根據(jù)本發(fā)明的第四實(shí)施方式所涉及的數(shù)據(jù)分類裝置計(jì)算的數(shù)據(jù)分類的概念圖。
圖18是本發(fā)明相關(guān)的、利用超平面的數(shù)據(jù)分類技術(shù)的例子。
圖19是本發(fā)明相關(guān)的、利用超球面的數(shù)據(jù)分類技術(shù)的例子。
具體實(shí)施例方式 接下來(lái),參照附圖詳細(xì)地說(shuō)明本發(fā)明的實(shí)施方式。
第一實(shí)施方式 參照?qǐng)D1,本發(fā)明的第一實(shí)施方式所涉及的數(shù)據(jù)分類裝置100具備帶偏離值分類功能的數(shù)據(jù)分類部110、分類結(jié)果輸出部120、存儲(chǔ)裝置130和分離面集合存儲(chǔ)裝置140。數(shù)據(jù)分類裝置100能夠通過(guò)個(gè)人計(jì)算機(jī)等計(jì)算機(jī)來(lái)實(shí)現(xiàn)。在該情況下,帶偏離值分類功能的數(shù)據(jù)分類部110和分類結(jié)果輸出部120通過(guò)CPU等處理裝置讀出保存在存儲(chǔ)裝置中的程序、按照上述步驟執(zhí)行該程序來(lái)實(shí)現(xiàn)。
該數(shù)據(jù)分類裝置100輸入分類對(duì)象數(shù)據(jù)150,通過(guò)計(jì)算分類對(duì)象數(shù)據(jù)150隸屬于由多個(gè)分離面分離的1個(gè)以上的類別區(qū)域(已知類別區(qū)域)和除此之外的未知類別區(qū)域的特征空間內(nèi)的哪個(gè)區(qū)域,來(lái)推測(cè)是應(yīng)該將分類對(duì)象數(shù)據(jù)150分類到已知的哪個(gè)類別,還是應(yīng)該分類為偏離值,將該推測(cè)結(jié)果作為分類結(jié)果160輸出。
分類對(duì)象數(shù)據(jù)150是分類未知的向量數(shù)據(jù)。現(xiàn)在將分類對(duì)象數(shù)據(jù)150中包含的屬性的數(shù)量設(shè)為d,將分類對(duì)象數(shù)據(jù)150如式(1)所示那樣表示為d維的向量。在式(1)中,在右邊括弧的右上方附加的標(biāo)號(hào)′表示倒置(也有時(shí)代替標(biāo)號(hào)′使用標(biāo)號(hào)T)。此外,xj表示分類對(duì)象數(shù)據(jù)150的第j號(hào)的屬性,可以是實(shí)數(shù)值,也可以是符號(hào)值。另外,將x向特征空間映射的映像設(shè)為φ,x在特征空間中的像表示為φ(x)。以下,在提到分類對(duì)象數(shù)據(jù)的情況下,指分類對(duì)象數(shù)據(jù)和特征空間中的像中的哪個(gè)都可以。
x=(x1,...,xj,...,xd)′ (1) 分離面集合存儲(chǔ)裝置140存儲(chǔ)著對(duì)將特征空間分離為與1個(gè)以上的已知類別分別對(duì)應(yīng)的1個(gè)以上的類別區(qū)域和除此之外的未知類別區(qū)域的多個(gè)分離面進(jìn)行規(guī)定的信息。分離面可以是如圖2所示的超平面A-D那樣在特征空間上形成平面的面,也可以是如圖3所示的超球面E~H那樣在特征空間上形成球面的面,除此之外,還可以是超圓柱面、超錐面等。但是,如圖2所示的相互平行的超平面A-D、圖3所示的同心的超球面E~H那樣,需要使多個(gè)分離面不相交。另外,在圖2中,類別1的區(qū)域通過(guò)2個(gè)超平面A、B、類別2的區(qū)域通過(guò)2個(gè)超平面C、D、圖3中的類別3的區(qū)域通過(guò)2個(gè)超球面E、F、類別4的區(qū)域通過(guò)2個(gè)超球面G、H分別確定邊界。這樣,已知的每1個(gè)類別通過(guò)2個(gè)以上的分離面確定各已知類別的邊界。
存儲(chǔ)在分離面集合存儲(chǔ)裝置140中的信息只要是特定分離面的信息即可,什么樣的信息都可以。例如,若將特征空間的第i號(hào)的基函數(shù)設(shè)為ψi,則特征空間中的分離面能夠利用基函數(shù)進(jìn)行表達(dá)。例如,在分離面表示為∑wiψiφ(x)+b=0的超平面的情況下,將基底ψi及基底的權(quán)重wi、切片b作為規(guī)定超平面的信息進(jìn)行存儲(chǔ)即可。此時(shí),基底ψi在全部的超平面中是共同的,因此例如圖4所示,將權(quán)重wi和切片b作為表格形式存儲(chǔ)在每個(gè)超平面中,能夠存儲(chǔ)共同的基底ψi。另外,在超球面的情況下,若將中心設(shè)為c、將半徑設(shè)為r,則表示為|φ(x)-c|2=r,并且中心c是特征空間內(nèi)的點(diǎn),因此表示為c=∑wiψi。因此,將權(quán)重wi和半徑r如圖5所示那樣以表格形式保存在每個(gè)超球面中,能夠預(yù)先存儲(chǔ)共同的基底ψi。另外,關(guān)于基函數(shù),能夠利用任意的基函數(shù),但是作為被廣泛利用的基底,可以列舉出例如x的維空間中的基函數(shù)或核函數(shù)等。在該情況下,基底彼此的內(nèi)積已被定義(核函數(shù)是指,給出滿足特定條件的任意的基函數(shù)相關(guān)的內(nèi)積的函數(shù))。
存儲(chǔ)裝置130中存儲(chǔ)有用于根據(jù)分類對(duì)象數(shù)據(jù)150與存儲(chǔ)在分離面集合存儲(chǔ)裝置140中的多個(gè)分離面之間的位置關(guān)系對(duì)分類對(duì)象數(shù)據(jù)150進(jìn)行分類的規(guī)則。例如在如圖2所示那樣根據(jù)多個(gè)超平面分類數(shù)據(jù)的情況下,在存儲(chǔ)裝置130中存儲(chǔ)有例如“向超平面A的負(fù)方向→偏離值進(jìn)行分類”、“向超平面C的正方向且超平面D的負(fù)方向→類別2進(jìn)行分類”等的規(guī)則。另外,在如圖3所示那樣根據(jù)多個(gè)超球面對(duì)數(shù)據(jù)進(jìn)行分類的情況下,在存儲(chǔ)裝置130中存儲(chǔ)有例如“向超球面E的內(nèi)側(cè)→偏離值進(jìn)行分類”、“向超球面G的外側(cè)且超球面H的內(nèi)側(cè)→類別4進(jìn)行分類”等的規(guī)則。在該例子中說(shuō)明了超平面和超球面的情況,但是如上所述那樣,分離面不限于這兩種。作為分離面,也能夠利用其它形狀的超曲面,也可以組合不同種類的分離面。另外,也可以在存儲(chǔ)裝置130中存儲(chǔ)由帶偏離值分類功能的數(shù)據(jù)分類部110判定的分類結(jié)果。
帶偏離值分類功能的數(shù)據(jù)分類部110讀入分類對(duì)象數(shù)據(jù)150和與存儲(chǔ)在分離面集合存儲(chǔ)裝置140中的多個(gè)分離面有關(guān)的信息,計(jì)算分類對(duì)象數(shù)據(jù)150與多個(gè)分離面之間的位置關(guān)系。分離面如上所述那樣,例如是超平面、超球面、超圓柱面、超錐面等。關(guān)于位置關(guān)系,例如在超平面的情況下是指數(shù)據(jù)在超平面上處于正側(cè)、負(fù)側(cè)的哪個(gè)位置,在超球面的情況下是指在超球面上位于超球面的內(nèi)側(cè)、超球面的外側(cè)的哪個(gè)位置。根據(jù)該位置關(guān)系將數(shù)據(jù)進(jìn)行分類的規(guī)則如上所述那樣保存在存儲(chǔ)裝置130中,帶偏離值分類功能的數(shù)據(jù)分類部110利用位置關(guān)系及分類規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類。
分類結(jié)果輸出部120從帶偏離值分類功能的數(shù)據(jù)分類部110直接接受由帶偏離值分類功能的數(shù)據(jù)分類部110判定的分類結(jié)果或者讀出在存儲(chǔ)裝置130中存儲(chǔ)的分類結(jié)果,進(jìn)行輸出。輸出目的地可以是與數(shù)據(jù)分類裝置100連接的顯示器等輸出裝置,也可以是經(jīng)由網(wǎng)絡(luò)連接的輸出裝置或終端裝置。
接著,說(shuō)明本實(shí)施方式所涉及的數(shù)據(jù)分類裝置的整體動(dòng)作。
參照?qǐng)D6,數(shù)據(jù)分類裝置100的帶偏離值分類功能的數(shù)據(jù)分類部110輸入包含d個(gè)屬性的分類對(duì)象數(shù)據(jù)150(S100),并且從分離面集合存儲(chǔ)裝置150輸入多個(gè)分離面的信息(S101)。
接著,帶偏離值分類功能的數(shù)據(jù)分類部110利用所輸入的分類對(duì)象數(shù)據(jù)150及多個(gè)分離面的信息,計(jì)算分類對(duì)象數(shù)據(jù)150與多個(gè)分離面之間的位置關(guān)系(S102)。計(jì)算在例如以圖2及圖4的超平面A作為例子時(shí),針對(duì)數(shù)據(jù)x,計(jì)算∑wiAψiφ(x)+bA,能夠判定該值的位置關(guān)系(根據(jù)0、正、負(fù),分別分類為在超平面A上、在超平面A的正側(cè)、超平面A的負(fù)側(cè)中的某一個(gè))。另外,在圖3及圖5的超球面E的情況下也能夠判定位置關(guān)系(針對(duì)數(shù)據(jù)x,根據(jù)|φ(x)-∑wiEψi|2是等于rE、大于rE、還是小于rE,分別分類為在超球面E上、超球面E的外側(cè)、超球面E的內(nèi)側(cè)中的某一個(gè))。
接著,帶偏離值分類功能的數(shù)據(jù)分類部110讀入在存儲(chǔ)裝置130中存儲(chǔ)的分類規(guī)則,判定分類對(duì)象數(shù)據(jù)150隸屬于哪個(gè)類別(S103)。然后,分類結(jié)果輸出部120輸出帶偏離值分類功能的數(shù)據(jù)分類部110的分類結(jié)果(S104)。
關(guān)于數(shù)據(jù)分類,已知類別數(shù)量為1個(gè)或多個(gè),在1個(gè)的情況下作為進(jìn)行偏離值分類的數(shù)據(jù)分類裝置發(fā)揮功能。
接著,對(duì)本實(shí)施方式的效果進(jìn)行說(shuō)明。
根據(jù)本實(shí)施方式,能夠以相同的步驟同時(shí)進(jìn)行識(shí)別和偏離值分類。其理由在于,計(jì)算將特征空間分離為與1個(gè)以上的已知類別分別對(duì)應(yīng)的1個(gè)以上的類別區(qū)域和除此之外的未知類別區(qū)域的多個(gè)分離面與分類對(duì)象數(shù)據(jù)150之間的位置關(guān)系,通過(guò)計(jì)算分類對(duì)象數(shù)據(jù)150隸屬于1個(gè)以上的類別區(qū)域和除此之外的未知類別區(qū)域中的哪個(gè)區(qū)域,來(lái)決定分類對(duì)象數(shù)據(jù)150的分類。
此外,根據(jù)本實(shí)施方式,能夠進(jìn)行可靠性高的數(shù)據(jù)分類。其理由在于,各個(gè)已知類別通過(guò)2個(gè)以上的分離面確定邊界,因此,與通過(guò)1個(gè)分離面確定邊界的情況相比,數(shù)據(jù)分類的可靠性更高。
第二實(shí)施方式 參照?qǐng)D7,本發(fā)明的第二實(shí)施方式所涉及的數(shù)據(jù)分類裝置200與圖1所示的第一實(shí)施方式所涉及的數(shù)據(jù)分類裝置100相比,在代替分離面集合存儲(chǔ)裝置140具有分離面集合存儲(chǔ)裝置210這一點(diǎn)、和連接有分離面集合計(jì)算裝置220這一點(diǎn)不同。
分離面集合計(jì)算裝置220基于被分類在1個(gè)以上的已知類別中的多個(gè)學(xué)習(xí)數(shù)據(jù)及其分類計(jì)算多個(gè)分離面。多個(gè)分離面將特征空間分離成與1個(gè)以上的已知類別分別對(duì)應(yīng)的1個(gè)以上的類別區(qū)域和除此之外的未知類別區(qū)域。1個(gè)以上的類別區(qū)域的每個(gè)通過(guò)該多個(gè)分離面中不相交的2個(gè)以上分離面與其他區(qū)域相分離。另外,分離面集合存儲(chǔ)裝置210是用于存儲(chǔ)由分離面集合計(jì)算裝置220計(jì)算出的規(guī)定多個(gè)分離面的信息的裝置。
如圖8所示,分離面集合計(jì)算裝置220具備分離面集合最優(yōu)化部221、存儲(chǔ)裝置222和分離面集合輸出部223。分離面集合最優(yōu)化部221從學(xué)習(xí)數(shù)據(jù)存儲(chǔ)裝置224輸入學(xué)習(xí)用的數(shù)據(jù)。分離面集合輸出部223輸出最優(yōu)化后的分離面集合225。
學(xué)習(xí)數(shù)據(jù)存儲(chǔ)裝置224中存儲(chǔ)有具有與分類對(duì)象數(shù)據(jù)150相同屬性的數(shù)據(jù)xi、數(shù)據(jù)xi所隸屬的類別標(biāo)簽yi的組的集合。在此,i作為學(xué)習(xí)數(shù)據(jù)的指數(shù),N作為規(guī)定的整數(shù),學(xué)習(xí)數(shù)據(jù)被輸入i=1、…、N為止。
分離面集合最優(yōu)化部221計(jì)算使對(duì)學(xué)習(xí)數(shù)據(jù)的分類誤差的最小化、分離面集合復(fù)雜性的最小化及各類別區(qū)域大小的最小化同時(shí)最優(yōu)化的多個(gè)分離面。關(guān)于所利用的多個(gè)分離面,預(yù)先將作為候選的分離面的組合向存儲(chǔ)裝置222進(jìn)行存儲(chǔ),在進(jìn)行最優(yōu)化時(shí),從存儲(chǔ)裝置222讀入上述分離面的候選進(jìn)行利用即可。或者也可以是,通過(guò)對(duì)任意的分離面的組合進(jìn)行最優(yōu)化來(lái)選擇最優(yōu)的分離面集合。
分類誤差可以利用任意的誤差,作為例子能夠舉出誤分類數(shù)據(jù)數(shù)量、針對(duì)誤分類數(shù)據(jù)的平方損失、針對(duì)誤分類數(shù)據(jù)的絕對(duì)值損失、針對(duì)誤分類數(shù)據(jù)的節(jié)點(diǎn)損失(hinge loss)等。
分離面集合的復(fù)雜性能夠利用任意的復(fù)雜性的基準(zhǔn)。作為例子,若將第j號(hào)的分離面設(shè)為fj,則能夠舉出fj的L1復(fù)雜性|fj|、L2復(fù)雜性|fj|2、L∞復(fù)雜性|fj|∞等。在此,fj的L1復(fù)雜性、L2復(fù)雜性、L∞復(fù)雜性是表示函數(shù)(分離面)范數(shù)(大小)的量。就向量v=(v1、…、vn)而言,L1復(fù)雜性是指∑|vi|,L2復(fù)雜性是指∑vi2,L∞復(fù)雜性是max|vi|。
關(guān)于各類別區(qū)域的大小,例如在圖2所示的類別1的情況下為由超平面A和超平面B夾著的區(qū)域的大小、例如在圖3所示的類別3的情況下為由超球面E和超球面F夾著的區(qū)域的大小。為了表示這些大小而能夠利用任意的基準(zhǔn)。
一般而言,越增大分離面的復(fù)雜性針對(duì)學(xué)習(xí)數(shù)據(jù)的分類誤差就越小,但是這將造成對(duì)學(xué)習(xí)數(shù)據(jù)的過(guò)學(xué)習(xí),從而導(dǎo)致降低對(duì)未知的分類數(shù)據(jù)的分類精度。因此,為了學(xué)習(xí)在較小地保持分離面的復(fù)雜性的狀態(tài)下減小分類誤差的分離面,選擇使兩者的和(還加上各類別區(qū)域的大小的基準(zhǔn)之后的和)最小的分離面集合。
接下來(lái),對(duì)本實(shí)施方式的動(dòng)作進(jìn)行說(shuō)明。
本實(shí)施方式的動(dòng)作大體分為分離面集合計(jì)算裝置220進(jìn)行的分離面的計(jì)算處理和利用該計(jì)算出的分離面進(jìn)行的分類對(duì)象數(shù)據(jù)150的分類處理。
在分離面集合計(jì)算裝置220進(jìn)行的分離面的計(jì)算處理中,通過(guò)分離面集合最優(yōu)化部221從學(xué)習(xí)數(shù)據(jù)存儲(chǔ)裝置224讀入分類已知的學(xué)習(xí)數(shù)據(jù),計(jì)算使針對(duì)該學(xué)習(xí)數(shù)據(jù)的分類誤差的最小化、分離面集合的復(fù)雜性的最小化及各類別區(qū)域的大小的最小化同時(shí)最優(yōu)化的多個(gè)分離面,將其存儲(chǔ)于存儲(chǔ)裝置222。接著,通過(guò)分離面集合輸出部223從存儲(chǔ)裝置222讀出規(guī)定多個(gè)分離面的數(shù)據(jù),并作為分離面集合225存儲(chǔ)在分離面集合存儲(chǔ)裝置210中。
本實(shí)施方式的數(shù)據(jù)分類裝置200的動(dòng)作與圖1所示的第一實(shí)施方式所涉及的數(shù)據(jù)分類裝置100的動(dòng)作基本相同。
根據(jù)這樣的本實(shí)施方式,能夠得到與第一實(shí)施方式相同的效果,同時(shí),能夠用由分離面集合計(jì)算裝置220計(jì)算出的最新的多個(gè)分離面來(lái)置換在分離面集合存儲(chǔ)裝置210中存儲(chǔ)的多個(gè)分離面,能夠得到不但充實(shí)學(xué)習(xí)數(shù)據(jù)而且提高性能的效果。
第三實(shí)施方式 參照?qǐng)D9,本發(fā)明的第三實(shí)施方式所涉及的數(shù)據(jù)分類裝置300與圖7所示的第二實(shí)施方式所涉及的數(shù)據(jù)分類裝置200相比,在具有超平面集合存儲(chǔ)裝置310代替分離面集合存儲(chǔ)裝置210這一點(diǎn)和連接有超平面集合計(jì)算裝置320代替分離面集合計(jì)算裝置220這一點(diǎn)不同。
超平面集合計(jì)算裝置320基于被分類為1個(gè)以上的已知類別中的多個(gè)學(xué)習(xí)數(shù)據(jù)及其分類,對(duì)將特征空間分離成與1個(gè)以上的已知類別分別對(duì)應(yīng)的1個(gè)以上的類別區(qū)域和除此之外的未知類別區(qū)域的多個(gè)超平面進(jìn)行計(jì)算。1個(gè)以上的類別區(qū)域分別通過(guò)該多個(gè)分離面中不相交的2個(gè)以上分離面與其他區(qū)域相分離。此外,超平面集合存儲(chǔ)裝置310是用于存儲(chǔ)由超平面集合計(jì)算裝置320計(jì)算出的規(guī)定多個(gè)超平面的信息的裝置。
參照?qǐng)D10,超平面集合計(jì)算裝置320具備超平面集合最優(yōu)化部321、存儲(chǔ)裝置222、數(shù)學(xué)規(guī)劃問(wèn)題計(jì)算裝置322、超平面集合輸出部323。超平面集合最優(yōu)化部321從學(xué)習(xí)數(shù)據(jù)存儲(chǔ)裝置224輸入學(xué)習(xí)用的數(shù)據(jù)。超平面集合輸出部323輸出最優(yōu)化后的超平面集合324。即,超平面集合計(jì)算裝置320為了進(jìn)行數(shù)據(jù)分類而計(jì)算多個(gè)互相平行的超平面。因此,在本實(shí)施方式的數(shù)據(jù)分類裝置300中,如圖2所示,通過(guò)平行的超平面分割各類別的區(qū)域,由此實(shí)現(xiàn)數(shù)據(jù)分類。
以下,關(guān)于超平面的具體的計(jì)算步驟,以幾個(gè)例子為基礎(chǔ)進(jìn)行說(shuō)明。
將從學(xué)習(xí)數(shù)據(jù)存儲(chǔ)裝置224輸入的數(shù)據(jù)相關(guān)的類別的指數(shù)設(shè)為j=1、…、C(C為1以上的整數(shù))。在以下,將xij設(shè)為隸屬于第j號(hào)的類別的第i號(hào)數(shù)據(jù),將隸屬于各類別的學(xué)習(xí)數(shù)據(jù)的數(shù)量設(shè)為Nj。特征空間中的超平面作為關(guān)于某個(gè)權(quán)重w及切片b滿足wTφ(x)+b=0的點(diǎn)的集合來(lái)進(jìn)行表述。在此,設(shè)定f(x)=wTφ(x)?,F(xiàn)在,超平面平行,因此權(quán)重w是共同的,所以針對(duì)w及第j號(hào)的類別的超平面的切片bj+及bi-通過(guò)超平面集合最優(yōu)化部321被最優(yōu)化。
另外,在φ(x)為線性的情況下,特征空間是與學(xué)習(xí)數(shù)據(jù)(及分類對(duì)象數(shù)據(jù))相同維數(shù)的向量空間。φ(x)為非線性的情況下,特征空間是與將學(xué)習(xí)數(shù)據(jù)(及分類對(duì)象數(shù)據(jù))進(jìn)行非線性變換之后的向量數(shù)據(jù)相同維數(shù)的向量空間。
作為用于最優(yōu)化的基準(zhǔn),通過(guò)同時(shí)最優(yōu)化以下3個(gè)條件,來(lái)計(jì)算針對(duì)w和各j的bj+即bj-,所述3個(gè)條件為 (a)分類誤差最小化 (b)f(x)的復(fù)雜性最小化 (c)各已知類別區(qū)域的大小最小化。
也可以是,除了上述3個(gè)條件之外,最優(yōu)化下述2個(gè)條件中的1個(gè)或者同時(shí)最優(yōu)化雙方,由此來(lái)計(jì)算針對(duì)w和各j的bj+即bj-,所述2個(gè)條件為 (d)原點(diǎn)周?chē)奈粗獏^(qū)域的大小最大化 (e)各類別的區(qū)域不重疊(或者各類別區(qū)域的重疊的最小化)。
關(guān)于(c)的基準(zhǔn),針對(duì)超平面使各已知類別的區(qū)域的大小最小化。由此,要求從兩面緊貼地按壓各類別區(qū)域。
(d)的基準(zhǔn)對(duì)各超平面要求使原點(diǎn)附近成為未知類別的區(qū)域。這是因?yàn)?,可以想到學(xué)習(xí)數(shù)據(jù)覆蓋空間的補(bǔ)空間的數(shù)據(jù)隸屬于未知類別,但是在將該數(shù)據(jù)向?qū)W習(xí)數(shù)據(jù)的覆蓋空間進(jìn)行投影的情況下,必然被投影于原點(diǎn)。例如考慮3維的情況。如學(xué)習(xí)數(shù)據(jù)全部表示為a(1,0,0)+b(0,1,0)那樣,假設(shè)學(xué)習(xí)數(shù)據(jù)僅分布在第1維和第2維中。在該情況下,分布在第3維的未知類別的數(shù)據(jù)c(0,0,1)在第1維中和第2維中的成分為0,因此,必然相對(duì)于數(shù)據(jù)的覆蓋空間投影在原點(diǎn)。
下面舉出幾個(gè)同時(shí)最優(yōu)化(a)至(e)的多個(gè)基準(zhǔn)的具體例子。
C=1的情況 在從學(xué)習(xí)數(shù)據(jù)存儲(chǔ)裝置224輸入的數(shù)據(jù)相關(guān)的類別唯一的情況,計(jì)算出互相平行的2個(gè)超平面。這樣的2個(gè)超平面通過(guò)求解作為例子的(2)式所示的最優(yōu)化問(wèn)題而求出。
subject to 在(2)式中,(a)至(d)的基準(zhǔn)作為(a)第2項(xiàng)、(b)第1項(xiàng)、(c)第3項(xiàng)、(d)第4項(xiàng)進(jìn)行表示。關(guān)于(e)的基準(zhǔn),在1類別的情況下沒(méi)有必要進(jìn)行考慮。v0及v1是用于決定在哪個(gè)基準(zhǔn)上施加權(quán)重的參數(shù),是大于0小于1的實(shí)數(shù)值。根據(jù)(2)式計(jì)算出來(lái)的2個(gè)超平面是圖11所示那樣的超平面。以下,對(duì)(2)式中的目的函數(shù)及制約條件進(jìn)行說(shuō)明。
式(2)的目的函數(shù)中的第1項(xiàng)是最優(yōu)化的基準(zhǔn)(b)所必需的項(xiàng),若作為復(fù)雜性采用L2復(fù)雜性,則f(x)的L2復(fù)雜性被這樣計(jì)算。第2項(xiàng)是最優(yōu)化的基準(zhǔn)(a)所必需的項(xiàng),ξi1+和ξi1-是用于表示誤差的松弛變量。第3項(xiàng)是最優(yōu)化的基準(zhǔn)(c)所需的項(xiàng),由于有b1-≤w′φ(xi1)≤b1+,因此通過(guò)將b1--b1+設(shè)定得較小,來(lái)使包含已知類別的區(qū)域最小化。第4項(xiàng)是最優(yōu)化的基準(zhǔn)(d)所必需的項(xiàng)。使原點(diǎn)周?chē)奈粗獏^(qū)域的大小最大化意思是指使已知區(qū)域遠(yuǎn)離原點(diǎn)。因此,通過(guò)使已知區(qū)域的中心(b1--b1+)/2遠(yuǎn)離原點(diǎn)來(lái)實(shí)現(xiàn)(d)的基準(zhǔn)。
式(2)的制約條件中的、w′φ(xi1)-b1+≤ξi1+、w′φ(xi1)-b1-≥-ξi1-、ξi1+≥0、ξi1-≥0具有下述意義。即,如圖11所示,隸屬于類別1的數(shù)據(jù)需要進(jìn)入b1+和b1-之間(也就是說(shuō),b1-≤w′φ(xi1)≤b1+),但是,沒(méi)有進(jìn)入的部分作為誤差進(jìn)行計(jì)數(shù)。b1+≥b1-是使b1-≤w′(xi1)≤b1+成立的必要的制約條件。b1-≥0是用于將原點(diǎn)區(qū)域設(shè)為未知區(qū)域的必要的制約條件。也就是說(shuō),這是因?yàn)?,若沒(méi)有b1-≥0的制約條件,就有可能成為b1-≤0≤b1-。另外,代替b1-≥0,b1+≤0也可以。
(2)式是標(biāo)準(zhǔn)的凸2維規(guī)劃問(wèn)題,通過(guò)超平面集合最優(yōu)化部321及數(shù)學(xué)規(guī)劃問(wèn)題計(jì)算裝置322計(jì)算出最佳答案。
另外,在特征空間為非線性,向特征空間的映像φ沒(méi)有被明確地給出的情況下,一般不能夠直接求解(2)式。但是,在特征空間中的內(nèi)積作為核函數(shù)進(jìn)行定義的情況下,通過(guò)求解(2)式的對(duì)偶問(wèn)題能夠計(jì)算出超平面。
(2)式的對(duì)偶問(wèn)題通過(guò)(3)式那樣導(dǎo)入拉格朗日的待定乘數(shù),得到(4)式。
subject to 拉格朗日的待定乘數(shù)為αi1+、αi1-、μ0、μ1、γ1+、γ1-、δ。但是,k(xi1,xi′1)=φ(xi1)Tφ(xi′1)為特征空間的內(nèi)積,在對(duì)偶問(wèn)題中不管φ(x)為什么函數(shù),只要能夠計(jì)算其內(nèi)積φ(xi1)Tφ(xi′1)就能夠進(jìn)行求解。(4)式所表示的對(duì)偶問(wèn)題也是凸2維規(guī)劃問(wèn)題。
對(duì)于對(duì)偶問(wèn)題,權(quán)重w表示為(5)式,因此,f(x)=wTφ(x)由(6)式表示。在解出了對(duì)偶問(wèn)題的情況下,所存儲(chǔ)的內(nèi)容不是圖4的wi和b的組,而是αi和b的組。
C=2的情況 在從學(xué)習(xí)數(shù)據(jù)存儲(chǔ)裝置224輸入的數(shù)據(jù)相關(guān)的類別為2個(gè)的情況下,針對(duì)各類別計(jì)算平行的2個(gè)超平面。這樣的多個(gè)超平面能夠通過(guò)求解作為例子的(7)式所示的最優(yōu)化問(wèn)題計(jì)算出來(lái)。
subject to 在(7)式中,(a)至(e)的基準(zhǔn)表現(xiàn)為(a)第2項(xiàng)、(b)第1項(xiàng)、(c)第3項(xiàng)、(d)第4項(xiàng)。關(guān)于(e)的基準(zhǔn),由于自動(dòng)地滿足b1-≥b2-,因此明顯沒(méi)有必要進(jìn)行考慮。v0、v1及v2是決定在哪個(gè)基準(zhǔn)上施加權(quán)重的參數(shù),是大于0小于1的實(shí)數(shù)值。通過(guò)(7)式計(jì)算出來(lái)的多個(gè)超平面是如圖12所示那樣的超平面。以下,對(duì)(7)式中的目的函數(shù)及制約條件進(jìn)行補(bǔ)充說(shuō)明。
式(7)的目的函數(shù)中的第4項(xiàng)是最優(yōu)化的基準(zhǔn)(e)所必需的項(xiàng),附帶有絕對(duì)值標(biāo)號(hào)的理由是,j=2時(shí)b2-、b2+均為負(fù)。式(7)的制約條件中的0≥b2+是為了使有2個(gè)類別的雙方都不橫跨原點(diǎn)0的制約條件。也就是說(shuō),為了避免b1-≤0≤b1+、b2-≤0≤b2+這樣的狀沉,能夠考慮到接下來(lái)的3種情況。即。兩個(gè)類別在正側(cè)(即、0≤b1-且0≤b2-)、兩個(gè)類別在負(fù)側(cè)(即、b1+≤0且b2+≤0)、各類別夾著原點(diǎn)0相互在相反的一側(cè)。式(7)是采用了最后的情況。
與C=1的情況相同,(7)式是凸2維規(guī)劃問(wèn)題。另外,利用與得到(2)式至(4)式相同的步驟導(dǎo)出對(duì)偶問(wèn)題,也能夠通過(guò)解出對(duì)偶問(wèn)題進(jìn)行最優(yōu)化。(7)式的對(duì)偶問(wèn)題也是凸2維規(guī)劃問(wèn)題。
C≥3的情況 在從學(xué)習(xí)數(shù)據(jù)存儲(chǔ)裝置224輸入的數(shù)據(jù)相關(guān)的類別為3個(gè)以上的一般情況下,為了計(jì)算平行的多個(gè)超平面的組,可以想到,對(duì)輸入的類別的任意的2個(gè)組合實(shí)施C=2的情況時(shí)的最優(yōu)化,利用所得到的多個(gè)超平面的組采取多數(shù)決定。
另外,通過(guò)求解例如(8)式所示的最優(yōu)化問(wèn)題,也能夠計(jì)算平行的多個(gè)超平面的組。
subject to 在(8)式中,(a)至(e)的基準(zhǔn)表現(xiàn)為(a)第2項(xiàng)、(b)第1項(xiàng)、(c)第3項(xiàng)、(d)第4項(xiàng)。關(guān)于(e)的基準(zhǔn),通過(guò)關(guān)于φ的制約條件進(jìn)行表現(xiàn)。以下,對(duì)(8)式中的目的函數(shù)及制約條件進(jìn)行補(bǔ)充說(shuō)明。
在式(2)及式(7)所示的1類別及2類別的情況下已經(jīng)決定了特征空間中的類別的區(qū)域的順序,因此,能夠以使各類別的區(qū)域遠(yuǎn)離原點(diǎn)的方式實(shí)現(xiàn)基準(zhǔn)(e)。但是,一般而言,在多類別時(shí),如何設(shè)置類別的區(qū)域的順序不是顯而易見(jiàn)的。作為一個(gè)方案,可以想到用全部的組合進(jìn)行求解的方法,但是,存在計(jì)算量多的缺點(diǎn)?;?8)式的最優(yōu)化不存在組合的考慮,能夠自動(dòng)地決定為最佳的順序。
為此,首先如圖13所示,將原點(diǎn)周?chē)奈粗悇e的區(qū)域設(shè)為b0-和b0+所夾的區(qū)域,作為這樣設(shè)定的制約條件,使b0+≥0、0≥b0-,利用目的函數(shù)的第4項(xiàng)使該區(qū)域最大化(第4項(xiàng)的符號(hào)為負(fù),目的函數(shù)最小化,因此該區(qū)域成為最大化)。
接著,需要有用于使已知類別的區(qū)域(及原點(diǎn)周?chē)奈粗悇e區(qū)域)如圖14所示那樣不能重迭的制約。這樣的制約在各類別的區(qū)域的順序與原點(diǎn)之間的位置關(guān)系被明確地決定的情況下,能夠如b1-≤0、b2-≥0、b2+≤b3-那樣、明確地寫(xiě)出作為順序不重復(fù)的制約。在考慮整個(gè)組合的情況下附帶這樣的制約條件,但是,(8)式是以事先不知道順序?yàn)榍疤岬?,因此,不能夠?qū)懨鬟@樣的制約。因此,通過(guò)bj-≥bk+-ψjk-、bj+≤bk-+ψjk+、ψjk-ψjk+=0及bj-≥b0+-ψj0-、b0-≤bj++ψj0+、ψj0-ψj0+=0這樣的制約條件,來(lái)實(shí)施已知類別的區(qū)域(及原點(diǎn)周?chē)奈粗悇e區(qū)域)不能重迭的制約。
另外,關(guān)于bj-≥bk+-ψjk-,在bj-≥bk+成立的情況下(即、類別j在類別k的正方向上),ψjk-=0。相反,關(guān)于bj+≤bk-+ψjk+,在bj+≤bk-成立的情況下(即、類別j在類別k的負(fù)方向上),ψjk+=0。為了使類別間沒(méi)有重復(fù),不得不需要使bj-≥bk+-或者bj+≤bk-,因此需要ψjk-=0成立或者ψjk+=0成立。因此,通過(guò)ψj0-ψj0+=0這樣的制約,能夠?qū)嵤└黝悇e沒(méi)有重復(fù)的制約。
與ψj0-、ψj0+有關(guān)的制約條件表示與原點(diǎn)周?chē)膮^(qū)域和已知類別的區(qū)域有關(guān)的相同的制約。
接著,對(duì)本實(shí)施方式的動(dòng)作進(jìn)行說(shuō)明。
本實(shí)施方式的動(dòng)作大體分為超平面集合計(jì)算裝置320進(jìn)行的超平面的計(jì)算處理和利用該計(jì)算出的超平面進(jìn)行的分類對(duì)象數(shù)據(jù)150的分類處理。
在超平面集合計(jì)算裝置320進(jìn)行的超平面的計(jì)算處理中,通過(guò)超平面集合最優(yōu)化部321從學(xué)習(xí)數(shù)據(jù)存儲(chǔ)裝置224讀入分類已知的學(xué)習(xí)數(shù)據(jù),計(jì)算同時(shí)最優(yōu)化針對(duì)該學(xué)習(xí)數(shù)據(jù)的分類誤差的最小化、超平面集合的復(fù)雜性的最小化及各類別區(qū)域的大小的最小化的多個(gè)超平面,并存儲(chǔ)于存儲(chǔ)裝置222。接著,通過(guò)超平面集合輸出部323從存儲(chǔ)裝置222讀出規(guī)定多個(gè)超平面的數(shù)據(jù),并作為超平面集合324存儲(chǔ)在超平面集合存儲(chǔ)裝置310中。
本實(shí)施方式的數(shù)據(jù)分類裝置300的動(dòng)作與圖1所示的第一實(shí)施方式所涉及的數(shù)據(jù)分類裝置100的動(dòng)作基本相同。
根據(jù)這樣的本實(shí)施方式,能夠得到與第一實(shí)施方式相同的效果,同時(shí),能夠用由超平面集合計(jì)算裝置320計(jì)算出的最新的多個(gè)超平面來(lái)置換在超平面集合存儲(chǔ)裝置310中存儲(chǔ)的多個(gè)超平面,能夠得到不但充實(shí)學(xué)習(xí)數(shù)據(jù)并且提高性能的效果。
第四實(shí)施方式 參照?qǐng)D15,本發(fā)明的第四實(shí)施方式所涉及的數(shù)據(jù)分類裝置400與圖7所示的第二實(shí)施方式所涉及的數(shù)據(jù)分類裝置200相比,在具有超球面集合存儲(chǔ)裝置410代替分離面集合存儲(chǔ)裝置210這一點(diǎn)和連接有超球面集合計(jì)算裝置420代替分離面集合計(jì)算裝置220這一點(diǎn)不同。
超球面集合計(jì)算裝置420基于被分類為1個(gè)以上的已知類別中的多個(gè)學(xué)習(xí)數(shù)據(jù)及其分類,針對(duì)將特征空間分離為與1個(gè)以上的已知類別分別對(duì)應(yīng)的1個(gè)以上的類別區(qū)域和除此之外的未知類別區(qū)域的多個(gè)超球面,對(duì)每1類別計(jì)算2個(gè)以上且互相同心的多個(gè)超球面。另外,超球面集合存儲(chǔ)裝置410是用于存儲(chǔ)規(guī)定由超球面集合計(jì)算裝置420計(jì)算出的多個(gè)超球面的信息的裝置。
參照?qǐng)D16,超球面集合計(jì)算裝置420具備超球面集合最優(yōu)化部421、存儲(chǔ)裝置222、數(shù)學(xué)規(guī)劃問(wèn)題計(jì)算裝置422和超球面集合輸出部423,從學(xué)習(xí)數(shù)據(jù)存儲(chǔ)裝置224輸入學(xué)習(xí)用的數(shù)據(jù),輸出最優(yōu)化后的超球面集合424。即,超球面集合計(jì)算裝置420為了進(jìn)行數(shù)據(jù)分類計(jì)算多個(gè)同心的超球面。因此,在本實(shí)施方式的數(shù)據(jù)分類裝置400中,如圖3所示,通過(guò)同心的超球面分割各類別的區(qū)域,由此來(lái)實(shí)現(xiàn)數(shù)據(jù)分類。
以下,關(guān)于超球面的具體的計(jì)算步驟,以幾個(gè)例子為基礎(chǔ)進(jìn)行說(shuō)明。
將從學(xué)習(xí)數(shù)據(jù)存儲(chǔ)裝置224輸入的數(shù)據(jù)相關(guān)的類別的指數(shù)設(shè)為j=1、…、C。以下,將xij設(shè)為隸屬于第j號(hào)的類別的第1號(hào)的數(shù)據(jù),將隸屬于各類別的學(xué)習(xí)數(shù)據(jù)的數(shù)量設(shè)為Nj。若將超球面的中心設(shè)為c、半徑設(shè)為r,則超球面可以寫(xiě)成|φ(x)-c|2=r。現(xiàn)在,超球面同心,因此,中心c在各類別中是共同的,所以,c及第j號(hào)的類別的外側(cè)的半徑rj+及內(nèi)側(cè)的半徑rj-通過(guò)超球面集合最優(yōu)化部421被最優(yōu)化。
作為用于最優(yōu)化的基準(zhǔn),通過(guò)同時(shí)最優(yōu)化以下的3個(gè)條件,計(jì)算針對(duì)c和各j的rj+及rj-。
(a′)分類誤差最小化; (b′)c的復(fù)雜性最小化; (c′)各已知類別區(qū)域的大小的最小化。
另外,也可以是,除了上述條件以外,還對(duì)下述2個(gè)條件中的一個(gè)或同時(shí)對(duì)雙方進(jìn)行最優(yōu)化,由此計(jì)算針對(duì)c和各j的rj+及rj-。所述2個(gè)條件是 (d′)原點(diǎn)周?chē)奈粗獏^(qū)域的大小最大化; (e′)各類別的區(qū)域不重疊。
同時(shí)最優(yōu)化(a′)至(e′)的多個(gè)基準(zhǔn)的具體例子例如能夠舉出式(9)。式(9)不管類別是幾個(gè)都能夠適用,但是以知道類別的順序?yàn)榍疤帷?br>
subject to 在圖17中示出通過(guò)式(9)計(jì)算出來(lái)的超球面集合的一例。式(9)是將目的函數(shù)及制約條件的凹部分和凸部分相加的形式,因此利用concave-convex Procedure(參照文獻(xiàn)8)等能夠高效地計(jì)算最佳答案。以下,對(duì)式(9)中的目的函數(shù)及制約條件進(jìn)行說(shuō)明。
式(9)的目的函數(shù)中的第1項(xiàng)由于是類別j的區(qū)域的外半徑-內(nèi)半徑的形式,是最優(yōu)化的基準(zhǔn)(c′)所必需的項(xiàng)。第2項(xiàng)相當(dāng)于式(7)的第2項(xiàng),是最優(yōu)化的基準(zhǔn)(a′)所必需的項(xiàng)。第3項(xiàng)是最優(yōu)化的基準(zhǔn)(d′)所必需的項(xiàng)。其理由如下所述。
首先,根據(jù)制約條件的c2≤min{rj-}2,實(shí)施原點(diǎn)位于最小的超球面的內(nèi)側(cè)的制約。這是因?yàn)?,c2是原點(diǎn)與超球面的中心之間的距離,min{rj-}2是超球面的中心與最內(nèi)側(cè)的超球面之間的距離距離(即半徑)。也就是說(shuō),最內(nèi)側(cè)的球的內(nèi)部為原點(diǎn)周?chē)奈粗獏^(qū)域。因此,通過(guò)較大地設(shè)定min{rj-}2,實(shí)現(xiàn)基準(zhǔn)(d′)。
基準(zhǔn)(b′)在式(9)的目的函數(shù)中沒(méi)有明確地被包含,而暗含在制約條件之中?;鶞?zhǔn)(e′)通過(guò)rj+≥rj-和rj+1-≥rj+制約。
接著,對(duì)本實(shí)施方式的動(dòng)作進(jìn)行說(shuō)明。
本實(shí)施方式的動(dòng)作大體具有超球面集合計(jì)算裝置420進(jìn)行的超球面的計(jì)算處理和利用該計(jì)算出的超球面進(jìn)行的分類對(duì)象數(shù)據(jù)150的分類處理。
在超球面集合計(jì)算裝置420進(jìn)行的超球面的計(jì)算處理中,超球面集合最優(yōu)化部421從學(xué)習(xí)數(shù)據(jù)存儲(chǔ)裝置224讀入分類已知的學(xué)習(xí)數(shù)據(jù),計(jì)算同時(shí)最優(yōu)化針對(duì)該學(xué)習(xí)數(shù)據(jù)的分類誤差的最小化、超球面集合的復(fù)雜性的最小化及各類別區(qū)域的大小的最小化的多個(gè)超球面,并存儲(chǔ)于存儲(chǔ)裝置222。接著,超球面集合輸出部323從存儲(chǔ)裝置222讀出規(guī)定多個(gè)超球面的數(shù)據(jù),并作為超球面集合424存儲(chǔ)在超球面集合存儲(chǔ)裝置410中。
本實(shí)施方式的數(shù)據(jù)分類裝置400的動(dòng)作與圖1所示的第一實(shí)施方式所涉及的數(shù)據(jù)分類裝置100的動(dòng)作基本相同。
根據(jù)這樣的本實(shí)施方式,能夠得到與第一實(shí)施方式相同的效果,同時(shí),能夠用由超球面集合計(jì)算裝置420計(jì)算出的最新的多個(gè)超球面置換在超球面集合存儲(chǔ)裝置410中存儲(chǔ)的多個(gè)超球面。因此,能夠得到不但充實(shí)學(xué)習(xí)數(shù)據(jù)而且提高性能的效果。
以上對(duì)本發(fā)明的實(shí)施方式進(jìn)行了說(shuō)明,但是本發(fā)明不限于以上的實(shí)施方式,能夠進(jìn)行其他各種的附加變更。此外,本發(fā)明的數(shù)據(jù)分類裝置不但能夠硬件地實(shí)施其具有的功能,并且能夠通過(guò)計(jì)算機(jī)和程序進(jìn)行實(shí)施。程序記錄在磁盤(pán)或半導(dǎo)體存儲(chǔ)器等的計(jì)算機(jī)可讀記錄媒體中進(jìn)行提供,在計(jì)算機(jī)開(kāi)啟時(shí)等被計(jì)算機(jī)讀取,通過(guò)控制該計(jì)算機(jī)的動(dòng)作,使該計(jì)算機(jī)作為所述的各實(shí)施方式中的數(shù)據(jù)分類裝置、分離面集合計(jì)算裝置、超平面集合計(jì)算裝置、超球面集合計(jì)算裝置發(fā)揮功能,執(zhí)行所述的處理。
權(quán)利要求
1.一種數(shù)據(jù)分類裝置,其特征在于,具備
分離面集合存儲(chǔ)部,存儲(chǔ)有對(duì)將特征空間分離為與至少1個(gè)已知類別分別對(duì)應(yīng)的至少1個(gè)已知類別區(qū)域和未知類別區(qū)域的多個(gè)分離面進(jìn)行規(guī)定的信息,其中,所述至少1個(gè)已知類別區(qū)域的每個(gè)通過(guò)所述多個(gè)分離面中不相交的2個(gè)以上分離面與外部區(qū)域相分離;以及
分類部,通過(guò)對(duì)能夠計(jì)算內(nèi)積的分類對(duì)象數(shù)據(jù)隸屬于在所述分離面存儲(chǔ)部中存儲(chǔ)的所述信息所規(guī)定所述至少1個(gè)已知類別區(qū)域和所述未知類別區(qū)域中的哪個(gè)區(qū)域進(jìn)行計(jì)算,來(lái)決定所述分類對(duì)象數(shù)據(jù)的分類。
2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)分類裝置,其特征在于,還具備
分離面集合計(jì)算部,基于能夠計(jì)算所述特征空間中的內(nèi)積且分別被分類到所述至少1個(gè)已知類別中的某個(gè)類別中的多個(gè)學(xué)習(xí)數(shù)據(jù)及所述多個(gè)學(xué)習(xí)數(shù)據(jù)的各自的分類,計(jì)算多個(gè)分離面,將規(guī)定所述多個(gè)分離面的信息存儲(chǔ)在所述分離面集合存儲(chǔ)部中。
3.根據(jù)權(quán)利要求2所述的數(shù)據(jù)分類裝置,其特征在于,
所述分離面集合計(jì)算部以針對(duì)所述多個(gè)學(xué)習(xí)數(shù)據(jù)的分類誤差的最小化、所述多個(gè)分離面各自的復(fù)雜性的最小化及所述至少1個(gè)已知類別區(qū)域的大小的最小化分別作為最優(yōu)化目的來(lái)計(jì)算所述多個(gè)分離面。
4.根據(jù)權(quán)利要求3所述的數(shù)據(jù)分類裝置,其特征在于,
所述分離面集合計(jì)算部還以原點(diǎn)周?chē)乃鑫粗悇e區(qū)域的大小的最大化作為最優(yōu)化目的之一。
5.根據(jù)權(quán)利要求3所述的數(shù)據(jù)分類裝置,其特征在于,
所述分離面集合計(jì)算部還以所述至少1個(gè)已知類別區(qū)域相互之間的重疊的最小化作為最優(yōu)化目的之一。
6.根據(jù)權(quán)利要求1~5中任一項(xiàng)所述的數(shù)據(jù)分類裝置,其特征在于,
所述多個(gè)分離面分別形成為在所述特征空間上展開(kāi)的超平面。
7.根據(jù)權(quán)利要求1~5中任一項(xiàng)所述的數(shù)據(jù)分類裝置,其特征在于,
所述多個(gè)分離面分別形成為在所述特征空間上封閉的超平面。
8.根據(jù)權(quán)利要求1~7中任一項(xiàng)所述的數(shù)據(jù)分類裝置,其特征在于,
所述特征空間是與所述學(xué)習(xí)數(shù)據(jù)及所述分類對(duì)象數(shù)據(jù)維數(shù)相同的向量空間。
9.根據(jù)權(quán)利要求1~7中任一項(xiàng)所述的數(shù)據(jù)分類裝置,其特征在于,
所述特征空間是通過(guò)對(duì)所述學(xué)習(xí)數(shù)據(jù)及所述分類對(duì)象數(shù)據(jù)進(jìn)行非線性變換而被賦予了特征的空間。
10.一種數(shù)據(jù)分類方法,其特征在于,包括
(a)輸入能夠計(jì)算特征空間中的內(nèi)積的分類對(duì)象數(shù)據(jù)的工序;
(b)從分離面存儲(chǔ)部輸入將特征空間分離為與至少1個(gè)已知類別分別對(duì)應(yīng)的至少1個(gè)已知類別區(qū)域和未知類別區(qū)域的多個(gè)分離面的工序,其中,所述至少1個(gè)的多個(gè)已知類別區(qū)域分別通過(guò)所述多個(gè)分離面中的不相交的2個(gè)以上分離面與外部區(qū)域相分離;以及
(c)通過(guò)計(jì)算所述分類對(duì)象數(shù)據(jù)隸屬于至少1個(gè)已知類別區(qū)域和所述未知類別區(qū)域中的哪個(gè)區(qū)域,來(lái)決定所述分類對(duì)象數(shù)據(jù)的分類的工序。
11.根據(jù)權(quán)利要求10所述的數(shù)據(jù)分類方法,其特征在于,還包括
(d)基于能夠計(jì)算所述特征空間中的內(nèi)積且被分別分類在所述至少1個(gè)已知類別的某個(gè)中的多個(gè)學(xué)習(xí)數(shù)據(jù)及所述多個(gè)學(xué)習(xí)數(shù)據(jù)的各自的分類,計(jì)算所述多個(gè)分離面,將規(guī)定所述多個(gè)分離面的信息存儲(chǔ)在所述分離面集合存儲(chǔ)部中的工序。
12.根據(jù)權(quán)利要求11所述的數(shù)據(jù)分類方法,其特征在于,
在所述工序(d)中,以針對(duì)所述多個(gè)學(xué)習(xí)數(shù)據(jù)的分類誤差的最小化、所述多個(gè)分離面各自的復(fù)雜性的最小化及所述至少1個(gè)已知類別區(qū)域的最小化分別作為最優(yōu)化目的來(lái)計(jì)算所述多個(gè)分離面。
13.根據(jù)權(quán)利要求12所述的數(shù)據(jù)分類方法,其特征在于,
在所述工序(d)中,還以原點(diǎn)周?chē)乃鑫粗悇e區(qū)域的大小的最大化作為最優(yōu)化目的之一。
14.根據(jù)權(quán)利要求12所述的數(shù)據(jù)分類方法,其特征在于,
在所述工序(d)中,還以所述至少1個(gè)已知類別區(qū)域相互之間的重疊的最小化作為最優(yōu)化目的之一。
15.一種分離面集合計(jì)算裝置,其特征在于,具備
學(xué)習(xí)數(shù)據(jù)存儲(chǔ)部,存儲(chǔ)能夠計(jì)算存儲(chǔ)特征空間中的內(nèi)積且被分別分類到至少1個(gè)已知類別的某個(gè)中的多個(gè)學(xué)習(xí)數(shù)據(jù);
分離面集合計(jì)算部,基于存儲(chǔ)在所述學(xué)習(xí)數(shù)據(jù)存儲(chǔ)部中的所述多個(gè)學(xué)習(xí)數(shù)據(jù)及所述多個(gè)學(xué)習(xí)數(shù)據(jù)各自的分類,計(jì)算將所述特征空間分離為與所述至少1個(gè)已知類別分別對(duì)應(yīng)的至少1個(gè)已知類別區(qū)域和未知類別區(qū)域的多個(gè)分離面,其中,所述至少1個(gè)已知類別區(qū)域的每個(gè)通過(guò)所述多個(gè)分離面中不相交的2個(gè)以上分離面與外部區(qū)域相分離;以及
分離面集合存儲(chǔ)部,存儲(chǔ)規(guī)定所述多個(gè)分離面的信息。
16.根據(jù)權(quán)利要求15所述的分離面集合計(jì)算裝置,其特征在于,
所述分離面集合計(jì)算部以針對(duì)所述多個(gè)學(xué)習(xí)數(shù)據(jù)的分類誤差的最小化、所述多個(gè)分離面各自的復(fù)雜性的最小化及所述至少1個(gè)已知類別區(qū)域的大小的最小化分別作為最優(yōu)化目的來(lái)計(jì)算所述多個(gè)分離面。
17.根據(jù)權(quán)利要求16所述的分離面集合計(jì)算裝置,其特征在于,
所述分離面集合計(jì)算部還以原點(diǎn)周?chē)乃鑫粗悇e區(qū)域的大小的最大化作為最優(yōu)化目的之一。
18.根據(jù)權(quán)利要求16所述的分離面集合計(jì)算裝置,其特征在于,
所述分離面集合計(jì)算部還以所述至少1個(gè)已知類別區(qū)域相互之間的重疊的最小化作為最優(yōu)化目的之一。
19.一種程序,用于使計(jì)算機(jī)執(zhí)行具備下述工序的方法,所述工序?yàn)?br>
(a)輸入能夠計(jì)算特征空間中的內(nèi)積的分類對(duì)象數(shù)據(jù)的工序;
(b)從分離面存儲(chǔ)部輸入將特征空間分離為與至少1個(gè)已知類別分別對(duì)應(yīng)的至少1個(gè)已知類別區(qū)域和未知類別區(qū)域的多個(gè)分離面的工序,其中,所述至少1個(gè)的多個(gè)已知類別區(qū)域的每個(gè)通過(guò)所述多個(gè)分離面中不相交的2個(gè)以上分離面與外部區(qū)域相分離;以及
(c)通過(guò)計(jì)算所述分類對(duì)象數(shù)據(jù)隸屬于至少1個(gè)已知類別區(qū)域和所述未知類別區(qū)域中的哪個(gè)區(qū)域,來(lái)決定所述分類對(duì)象數(shù)據(jù)的分類的工序。
20.根據(jù)權(quán)利要求19所述的程序,其特征在于,使計(jì)算機(jī)執(zhí)行的方法還包括
(d)基于能夠計(jì)算所述特征空間中的內(nèi)積且被分別分類在所述至少1個(gè)已知類別的某個(gè)中的多個(gè)學(xué)習(xí)數(shù)據(jù)及所述多個(gè)學(xué)習(xí)數(shù)據(jù)的各自的分類,計(jì)算所述多個(gè)分離面,將規(guī)定所述多個(gè)分離面的信息存儲(chǔ)在所述分離面集合存儲(chǔ)部中的工序。
21.根據(jù)權(quán)利要求20所述的程序,其特征在于,
在所述工序(d)中,以針對(duì)所述多個(gè)學(xué)習(xí)數(shù)據(jù)的分類誤差的最小化、所述多個(gè)分離面各自的復(fù)雜性的最小化及所述至少1個(gè)已知類別區(qū)域的最小化分別作為最優(yōu)化目的來(lái)計(jì)算所述多個(gè)分離面。
22.根據(jù)權(quán)利要求21所述的程序,其特征在于,
在所述工序(d)中,還以原點(diǎn)周?chē)乃鑫粗悇e區(qū)域的大小的最大化作為最優(yōu)化目的之一。
23.如權(quán)利要求21所述的程序,其特征在于,
在所述工序(d)中,還以所述至少1個(gè)已知類別區(qū)域相互之間的重疊的最小化作為最優(yōu)化目的之一。
24.一種程序,使計(jì)算機(jī)執(zhí)行具備以下工序的方法,所述工序?yàn)?br>
(a)存儲(chǔ)能夠計(jì)算特征空間中的內(nèi)積且分別被分類在至少1個(gè)已知類別的某個(gè)中的多個(gè)學(xué)習(xí)數(shù)據(jù)的工序;
(b)基于存儲(chǔ)在所述學(xué)習(xí)數(shù)據(jù)存儲(chǔ)部中的所述多個(gè)學(xué)習(xí)數(shù)據(jù)及所述多個(gè)學(xué)習(xí)數(shù)據(jù)的各自的分類,計(jì)算將所述特征空間分離為與所述至少1個(gè)已知類別分別對(duì)應(yīng)的至少1個(gè)已知類別區(qū)域和未知類別區(qū)域的多個(gè)分離面的工序,其中,所述至少1個(gè)已知類別區(qū)域的每個(gè)通過(guò)所述多個(gè)分離面中不相交的2個(gè)以上分離面與外部區(qū)域相分離;以及
(c)存儲(chǔ)規(guī)定所述多個(gè)分離面的信息的工序。
25.根據(jù)權(quán)利要求24所述的程序,其特征在于,
在所述(c)計(jì)算工序中,所述分離面集合計(jì)算部以針對(duì)所述多個(gè)學(xué)習(xí)數(shù)據(jù)的分類誤差的最小化、所述多個(gè)分離面各自的復(fù)雜性的最小化及所述至少1個(gè)已知類別區(qū)域的大小的最小化分別作為最優(yōu)化目的來(lái)計(jì)算所述多個(gè)分離面。
全文摘要
分離面集合存儲(chǔ)部存儲(chǔ)有規(guī)定將特征空間分離為與至少1個(gè)已知類別分別對(duì)應(yīng)的至少1個(gè)已知類別區(qū)域和未知區(qū)域的多個(gè)分離面的信息。各已知類別區(qū)域通過(guò)不相交的2個(gè)以上分離面而分離。數(shù)據(jù)分類裝置通過(guò)計(jì)算能夠計(jì)算特征空間中的內(nèi)積的分類對(duì)象數(shù)據(jù)隸屬于至少1個(gè)已知類別區(qū)域和未知類別區(qū)域中的哪個(gè)區(qū)域,來(lái)決定分類對(duì)象數(shù)據(jù)的分類。提供能夠在相同的步驟中同時(shí)進(jìn)行可靠性高的識(shí)別和偏離值分類的數(shù)據(jù)分類方法和數(shù)據(jù)分類裝置。
文檔編號(hào)G06N3/00GK101809574SQ20088010949
公開(kāi)日2010年8月18日 申請(qǐng)日期2008年4月21日 優(yōu)先權(quán)日2007年9月28日
發(fā)明者藤卷遼平 申請(qǐng)人:日本電氣株式會(huì)社