專利名稱:自適應(yīng)分類器以及建立其分類參數(shù)的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于從多變量采樣數(shù)據(jù)中生成分類器參數(shù)的裝置和方法。
背景技術(shù):
io 模式識別器(Pattern recognizer)(分類器)是公知的。其用于各種機(jī)械識別任務(wù)。其中最具挑戰(zhàn)性的任務(wù)是欺詐檢測。例如,紙幣的自動 檢測器必須將紙幣分類為真幣或者假幣。同樣,隨著物理盜竊(physical theft)或者"身份盜竊(identitytheft)"發(fā)生率的日益增長,自動交易系 統(tǒng)(諸如自動取款機(jī)(ATM)系統(tǒng)或者信用卡網(wǎng)絡(luò))必須能夠檢測潛在15的欺詐交易。對欺詐檢測系統(tǒng)必須進(jìn)行敏感地調(diào)節(jié),從而使得假陽(false positive)與真陽(陽=欺詐)的比值以及假陰(false negative)與真陰的 比值都很小。太多的假陽會由于錯(cuò)誤地禁止用戶而導(dǎo)致用戶流失從而降 低收入,而太多的假陰會由于欺詐會成功而直接導(dǎo)致收入損失。這種高 度準(zhǔn)確性、實(shí)時(shí)識別的任務(wù)完全超出了人類的能力,從而需要可靠的、20高速的機(jī)器識別。欺詐檢測系統(tǒng)通常使用分類模型,該分類模型接收作 為輸入的交易細(xì)節(jié)并產(chǎn)生作為輸出的欺詐指示。必須對許多識別系統(tǒng)進(jìn)行更新以應(yīng)付數(shù)據(jù)的累進(jìn)變化。這一點(diǎn)對于 欺詐檢測系統(tǒng)來說尤其重要,這是因?yàn)槠墼p模式隨著欺詐人員因欺詐檢 測方案的成功而調(diào)整他們的行為而具有高度的動態(tài)性。25 為了支持欺詐檢測方案的設(shè)計(jì)、調(diào)整和維護(hù),需要使用適合的分類模型。基于模糊規(guī)則的系統(tǒng)適于該用途,由于觀察人員可以容易地解釋 該系統(tǒng)(從而允許在錯(cuò)誤地使用該規(guī)則的情況進(jìn)行方便的校正),這種系 統(tǒng)容許數(shù)據(jù)的微小變化,容易對這種系統(tǒng)進(jìn)行調(diào)節(jié)并且可以通過所謂的 神經(jīng)模糊(neuro-fozzy)技術(shù)從數(shù)據(jù)中學(xué)習(xí)該系統(tǒng)。L.A.Zadeh引入了模糊集合(fUzzy set)的概念(L.A.Zadeh, Fuzzy Sets. Information and Control 8 (1965),338-353)。模糊系統(tǒng)的初始設(shè)計(jì)和每次以后的更新都需要對各種參數(shù)進(jìn)行定義和選擇。當(dāng)根據(jù)數(shù)據(jù)構(gòu)建模糊系統(tǒng)時(shí),必須確定 5 每個(gè)屬性的模糊集合的數(shù)量; 模糊集合的形狀; 我們要使用的規(guī)則的數(shù)量;以及 每個(gè)規(guī)則的結(jié)構(gòu)。當(dāng)前例如通過如由Nauck等人描述的NEFCLASS (D. Nauck, F. io Klawonn, R. Kruse: "Foundations of Neuro-Fuzzy Systems", Wiley, Chichester, 1997 )執(zhí)行的神經(jīng)模糊系統(tǒng)進(jìn)行根據(jù)數(shù)據(jù)對模糊分類規(guī)則的學(xué) 習(xí)。該系統(tǒng)接收作為輸入的交易數(shù)據(jù)。每筆交易均被標(biāo)明真實(shí)或者欺詐。 為了獲得欺詐檢測分類器,該神經(jīng)模糊系統(tǒng)需要針對各個(gè)屬性指定 模糊集合的數(shù)量以及初始模糊集合。這是關(guān)鍵設(shè)計(jì)因素并且在現(xiàn)有技術(shù) 15中,由用戶負(fù)責(zé)該任務(wù)。在該步驟后,基于這些模糊集合,可以學(xué)習(xí)規(guī) 則庫(rule base),接著對該模糊集合進(jìn)行優(yōu)化。最后,進(jìn)行對規(guī)則和模 糊集合的刪改。盡管在刪改的步驟中可以消除某些冗余,但是初始模糊集合的不良 選擇可能明顯降低學(xué)習(xí)處理的速度,甚至使訓(xùn)練算法在局部極小化方面 20發(fā)生停滯(get stuck)。因此,這種策略或者需要人為千預(yù)并且詳細(xì)了解 底層數(shù)據(jù)(這對于實(shí)時(shí)分類器的快速更新來說顯然太慢),或者在沒有此 類干預(yù)或了解的情況下,需要進(jìn)行長時(shí)間的反復(fù)試驗(yàn)來查找適當(dāng)(多個(gè)) 的模糊集合(同樣太慢而無法用于更新實(shí)時(shí)分類器)。25 發(fā)明內(nèi)容本發(fā)明的實(shí)施方式旨在提供一種快速的方法來確定模糊分類器(所 述模糊分類器是通過學(xué)習(xí)處理從數(shù)據(jù)中建立的)的適當(dāng)?shù)某跏寄:希?從而使得能夠快速更新在諸如欺詐檢測等的時(shí)間關(guān)鍵應(yīng)用(time-critical application)中使用的分類器。通過根據(jù)權(quán)利要求1所述的裝置或者根據(jù)
權(quán)利要求14所述的方法可以實(shí)現(xiàn)這一點(diǎn)。本發(fā)明的實(shí)施方式根據(jù)各屬性的區(qū)間之間的分隔自動建立初始模糊 分隔來操作。本發(fā)明的實(shí)施方式目的在于對于大量的屬性和/或集合計(jì)算 分隔。多個(gè)實(shí)施方式提供了通過考慮對屬性進(jìn)行組合來減少分隔的數(shù)量 5 (從而減少集合數(shù)量)的方法。 一實(shí)施方式通過同時(shí)成對地考慮屬性對 來減少高維問題的分隔數(shù)量。多個(gè)實(shí)施方式使用基于熵的策略針對分類問題尋找模糊集合的初始 數(shù)量以及初始分布。優(yōu)選實(shí)施方式首先獨(dú)立考慮所有屬性并為每個(gè)屬性建立模糊分隔。 10在第二步驟,使用屬性之間的依存性以針對盡可能多地減少屬性的分隔 (模糊集合的數(shù)量)。以下,對其他優(yōu)選特征和實(shí)施方式進(jìn)行描述和請求保護(hù),其優(yōu)點(diǎn)通 過如下描述將變得顯而易見。這里,應(yīng)該提到的是事后發(fā)現(xiàn)與非模糊分類器相關(guān)的一些現(xiàn)有技術(shù)15和本發(fā)明的實(shí)施方式存在著一些相似之處。例如,F(xiàn)ayyad和Irani(U.M. Fayyad, K.B. Irani: "On the Handling of Continuous-Valued Attributes in Decision Tree Generation", Machine Learning, 8 (1992), 87-102)描述了對于 非模糊區(qū)間的邊界點(diǎn)的計(jì)算方法,并且Elomaa和Rousu(T. Elomaa, J. Rousu: "Finding Optimal Multi-Splits for Numerical Attributes in Decision20 Tree Learning", Technical Report NC-TR-96-041, Department of Computer Science, Royal Holloway University of London (1996))提供了在問題的特征 在于小低維數(shù)據(jù)集合的特殊情況下用來計(jì)算最優(yōu)非模糊區(qū)間分隔的算 法。然而,這些工作都遠(yuǎn)未暗示如何提供模糊分類器的參數(shù)。Elomaa和Rousu的另一篇題目為"General and E伍cient Multisplitting25 of Numerical Attributes" (Machine Learning, 36 (1999), 201匿244)的文章在 基于邊界點(diǎn)方法查找最優(yōu)多重分割(即,對屬性域進(jìn)行分隔)的情況下 檢查不同屬性評價(jià)函數(shù)和它們的性能。然而,該篇文章沒有引入除了上 述現(xiàn)有技術(shù)內(nèi)容以外的任何新的分隔或者分割技術(shù)。該篇文章僅涉及驗(yàn) 證某些評價(jià)指標(biāo)限定了邊界點(diǎn)的最優(yōu)分割。這意味著并非必須檢查所有可能的切割點(diǎn),而是只檢查作為切割點(diǎn)的子集的邊界點(diǎn)。本發(fā)明的實(shí)施 方式并不基于該"邊界點(diǎn)"方法。Elomaa禾Q Rousu的另一篇題目為"Efficient Multisplitting Revisited:Optima Preserving Elimination of Partition Candidates" (Data Mining and5 Knowledge Discovery, 8 (2004), 97-126)的文章將他們的論證從上面提到 的文章擴(kuò)展到作為邊界點(diǎn)子集的分段邊界(segment borders),即他們指 出沒必要為了尋找最優(yōu)分割而檢査所有的邊界點(diǎn)。然而,這基本上仍然 是邊界點(diǎn)方法,并且如上面提到的,本發(fā)明的實(shí)施方式并不基于該方法。 該篇文章繼續(xù)指出如何在尋找最優(yōu)分隔(分割)期間通過舍棄分隔候選10 (即,對分段邊界進(jìn)行組合)來使該改進(jìn)的邊界點(diǎn)方法(分段邊界)執(zhí) 行得更快,但是應(yīng)該理解這仍然不構(gòu)成本發(fā)明所涉及的類型的分隔方法。 簡單參照另外的兩篇文章,Zeidler等人的"Fuzzy Decision Trees and Numerical Attributes" (Proceedings of the Fifth IEEE International Conference on Fuzzy Systems, 1996, Volume 2, 985-990)描述了應(yīng)用邊界點(diǎn)15算法來生成在(模糊)決策樹中使用的數(shù)值變量的模糊集合,并且Peng禾口 Flach的"Soft Discretization to Enhance the Continuous Decision Tree Induction" (Integrating Aspects of Data Mining, Decision Support and Meta-Learning, ECML/PKDD workshop notes, September 2001, l-ll)也僅應(yīng)用邊界點(diǎn)算法來分隔變量并且生成模糊集合,但是僅限于二進(jìn)制分割。 20 參照與背景相關(guān)的現(xiàn)有專利文獻(xiàn),EP 0681249 (IBM)涉及用于欺詐檢測的模糊系統(tǒng),并且EP 1081622 (NCRinternational)涉及用于決策 支持的專家系統(tǒng)。
25 現(xiàn)在將參照附圖對僅作為示例的本發(fā)明的實(shí)施方式進(jìn)行描述,其中圖1是示出了根據(jù)本發(fā)明優(yōu)選實(shí)施方式的自適應(yīng)分類器的結(jié)構(gòu)的框圖2a是示出了自身為公知的模糊分類器的結(jié)構(gòu)和圖1的自適應(yīng)分類 器的形成部分的框圖2b是示出了用于產(chǎn)生圖2a的分類器的更新參數(shù)的訓(xùn)練(training) 裝置的結(jié)構(gòu)和圖1的自適應(yīng)分類器的形成部分的框圖;圖3是示出了用于欺詐檢測的圖1的自適應(yīng)分類器的整體操作的流 程圖;5 圖4是形成了圖3的一部分的流程圖,示出了圖2的模糊分類器的操作;圖5是為了例示圖2的分類器的操作而示出集合之間分隔(本身是 公知的)的對照屬性值的模糊隸屬函數(shù)的示例圖;圖6是示出了用于在優(yōu)選實(shí)施方式中對屬性進(jìn)行分隔以產(chǎn)生模糊集 io合的主算法的流程圖;圖7是形成了圖6的一部分的流程圖,示出了在優(yōu)選實(shí)施方式中分 隔單個(gè)屬性的算法;圖8是形成了圖7的一部分的流程圖,示出了在優(yōu)選實(shí)施方式中計(jì) 算屬性分隔的算法;15 圖9是形成了圖8的一部分的流程圖,示出了在優(yōu)選實(shí)施方式中在存在過多邊界點(diǎn)的情況用于計(jì)算分隔的試探法;圖10是形成了圖6的一部分的流程圖,示出了在優(yōu)選實(shí)施方式中用 于多維分隔簡化的算法;圖11是形成了圖6的一部分的流程圖,示出了在優(yōu)選實(shí)施方式中用 20于逐對地分隔簡化的算法;圖12與圖5相對應(yīng)并且例示了根據(jù)采樣數(shù)據(jù)的區(qū)間分隔而形成的模 糊分隔;以及圖13是通過三個(gè)屬性作為軸而限定的三位空間的圖,示出由于其中 遺漏了一個(gè)屬性值的數(shù)據(jù)產(chǎn)生的盒。2具體實(shí)施方式
參照圖1,根據(jù)本發(fā)明優(yōu)選實(shí)施方式的自適應(yīng)分類系統(tǒng)ioo包括分 類器110和訓(xùn)練裝置120。在諸如嵌入式微控制器的計(jì)算系統(tǒng)上實(shí)施該分 類系統(tǒng)100,并且因此該分類系統(tǒng)100包括存儲器150 (例如RAM)、長期存儲裝置160(例如EPROM或者閃速存儲器,或者另選地磁盤驅(qū)動器)、 中央處理單元170 (例如,微計(jì)算機(jī))以及適當(dāng)?shù)耐ㄐ趴偩€180。為了清 楚起見,在附圖中省略了這些常規(guī)組件。參照圖2a,在該優(yōu)選實(shí)施方式中的分類器是一種公知的基于模糊規(guī)5則的分類器,Zadeh以及幾份隨后的文章中對其理論進(jìn)行了描述。分類器 110包括模糊集合存儲器112 (例如在存儲裝置160內(nèi)的文件)、規(guī)則存 儲器114 (例如在存儲裝置160內(nèi)的文件)以及計(jì)算裝置116 (實(shí)踐上由 CPU 170實(shí)現(xiàn),并在存儲裝置160中存儲的控制程序的控制下操作)。 連接到分類器110的有多個(gè)傳感器200a、 200b、 200c的輸出,各傳io感器均響應(yīng)于對應(yīng)的輸入產(chǎn)生輸出??傮w來說,響應(yīng)于外部事件(諸如 交易)的所有傳感器200的輸出包括多個(gè)屬性值的矢量,該矢量是對分 類器110的輸入。參照圖2b,訓(xùn)練裝置120包括訓(xùn)練數(shù)據(jù)存儲器122 (例如在存儲裝 置160內(nèi)的文件)以及計(jì)算裝置126 (實(shí)踐中由CPU 170實(shí)現(xiàn),并在存15儲裝置160中存儲的控制程序的控制下操作)。參照圖3,在欺詐檢測中,圖1和圖2的系統(tǒng)如下操作。在步驟1002, 用戶請求進(jìn)行交易,并因此通過傳感器200a-200c收集一系列的屬性值。 例如,數(shù)據(jù)可以包括通過終端輸入的信用卡號、在觸控板(touch sensitive pad)上收集的簽名以及多個(gè)生物測定測量值(例如,指紋和/或聲音參數(shù)20測量值)、關(guān)于用戶位置的位置數(shù)據(jù),以及表示交易的性質(zhì)(例如,貨物 的類型)和交易的價(jià)格的產(chǎn)品數(shù)據(jù)。另選的是,傳感器可以分別感測輸 入的貨幣單元(諸如紙幣)的參數(shù),因此屬性可以是多個(gè)不同的尺寸和/ 或紙幣的顏色測量值。在步驟1004,執(zhí)行圖4的處理(后文描述)以對交易進(jìn)行分類。在25步驟1006,對各可能的類的輸出進(jìn)行處理以判斷該交易是否是真實(shí)的。 一個(gè)或者更多個(gè)輸出類對應(yīng)于欺詐交易,并且如果這樣的類是來自分類 器的最高類輸出,則認(rèn)為該交易是欺詐交易。此外例如如果另一 (非欺 詐)類具有較高的值,但是非欺詐類的輸出和最接近的欺詐類的輸出之 間的差值沒有超出預(yù)定閾值,則同樣認(rèn)為該交易是欺詐交易。如果將交 易確定為欺詐,則該交易在步驟1008被阻止,而如果沒有將該交易確定 為欺詐,則在步驟1010許可該交易。存儲交易數(shù)據(jù)和類輸出(步驟1012)。 如果隨后確定出被認(rèn)為是欺詐的交易實(shí)際上是真實(shí)的,或者隨后確定出 被認(rèn)為是真實(shí)的交易實(shí)際上是欺詐的,則收集該數(shù)據(jù)(步驟1014)以供 5將來再次訓(xùn)練該分類器時(shí)使用(步驟1016)。 分類器的概述現(xiàn)在將對步驟1004中執(zhí)行的分類器110的操作進(jìn)行更詳細(xì)的說明。 來自傳感器200的測試數(shù)據(jù)輸入(步驟1102)形成了由n個(gè)屬性值 構(gòu)成的矢量 io {Xl,...,x }efl(/,{ })各矢量數(shù)據(jù)Xj具有位于區(qū)間乙...,Ip的p個(gè)實(shí)數(shù)值(real-valued)屬 性,但是在一個(gè)或者更多個(gè)屬性中可能存在遺漏值'(用符號"?"表示)。 來自傳感器200的整數(shù)值或者分類屬性被編碼在實(shí)數(shù)值屬性輸出中。為各數(shù)據(jù)分配類。存在c個(gè)類,編號為{1,...,4。 C(Xi)表示被分配給 15 Xi的類。分類器110執(zhí)行映射K,使得K:,u{ })—{l,...,c}在優(yōu)選實(shí)施方式中使用的模糊分類器利用存儲在集合存儲器112的 各區(qū)間Ij上的一個(gè)或者更多個(gè)合適的模糊集合^),…,/^以及"如果屬性ji是W)并且…并且屬性Jr是A力,則該類是k"形式的一組規(guī)則(存儲20在規(guī)則存儲器114中)進(jìn)行操作,其中h(l,...,c)是相應(yīng)類的編號,而"力是在相應(yīng)屬性范圍上限定的模糊集合。不要求在一個(gè)規(guī)則中出現(xiàn)所有的 屬性。規(guī)則的前提中涉及屬性的子集即可。在圖5中示出了模糊集合沿一個(gè)屬性軸的典型分布。各集合均具有 數(shù)值位于0和+l之間的隸屬函數(shù)(membership fimction)。各集合均具有25中點(diǎn),在中點(diǎn)處隸屬函數(shù)處于+1。第一個(gè)和最后一個(gè)集合的函數(shù)分別在中點(diǎn)以下和中點(diǎn)以上為+1。所有其他集合的隸屬函數(shù)在中點(diǎn)以上和中點(diǎn)以下以線性或者非線性方式減小為o。相鄰集合的隸屬函數(shù)交叉的點(diǎn)限定了集合之間的分隔(partiticm)。
各集合與類相對應(yīng)。多個(gè)集合可以對應(yīng)于單個(gè)類(即,正討論的屬 性的數(shù)據(jù)是雙峰的或者多峰的)。計(jì)算裝置116確定各輸入屬性落入的集合(步驟1104),然后應(yīng)用所 述規(guī)則(步驟1106)來判斷該輸入的數(shù)據(jù)矢量被分到的類(步驟1108)。 5 評價(jià)單個(gè)規(guī)則假設(shè)數(shù)據(jù)x e u{ }),分類器通過計(jì)算在規(guī)則中提到的所有屬性值的隸屬程度(membership degree)的最小值(即,與模糊集合具有最差 的對應(yīng)性)而對單個(gè)規(guī)則進(jìn)行評價(jià)。如Berthold等人所述的(M.Berthold, K.-P. Huber: "Tolerating Missing Values in a Fuzzy Environment", M. Mares,io R. Mesiar, V. Novak, J. Ramik, A. Stupnanova (eds.): Proc. Seventh International Fuzzy Systems Association World Congress IFSA'97, Vol. I. Academia, Prague (1997), 359-362),如果數(shù)據(jù)x的屬性值被遺漏,則將對 相應(yīng)模糊集合的隸屬程度設(shè)定為1 (即,最大可能隸屬程度)。對于各類來說,分類器利用指向相應(yīng)類的所有規(guī)則的最大值來確定15 x的隸屬程度。該模糊分類器將x分配給具有最高隸屬程度的類。然后分類器通常以一個(gè)或者更多個(gè)類標(biāo)簽的形式(即,識別該類的 文本,諸如"真實(shí)"或者"欺詐")輸出結(jié)果(步驟lllO)。訓(xùn)練利用多個(gè)訓(xùn)練數(shù)據(jù)對分類器110進(jìn)行"訓(xùn)練"(即,對分類器提供存 20儲的以及在隨后分類中使用的集合和規(guī)則),訓(xùn)練數(shù)據(jù)包括來自過去交易 的傳感器屬性輸出以及它們的(已知的)類。在訓(xùn)練數(shù)據(jù)集合中的各矢 量均具有n個(gè)屬性(雖然,如上所述, 一個(gè)或者更多個(gè)屬性可能被遺漏)。基于一部分采樣(訓(xùn)練)數(shù)據(jù)集合,通過訓(xùn)練裝置120推導(dǎo)出集合 參數(shù)和規(guī)則參數(shù),然后根據(jù)針對未用于學(xué)習(xí)的數(shù)據(jù)計(jì)數(shù)的誤分類來評價(jià) 25該訓(xùn)練。現(xiàn)在將對在優(yōu)選實(shí)施方式中推導(dǎo)參數(shù)的處理進(jìn)行更詳細(xì)的描述。在通過禾ll用神經(jīng)模糊學(xué)習(xí)程序(neuro-fozzy learning procedure)建立 用于欺詐檢測系統(tǒng)的模糊分類器以前,必須對交易的各個(gè)屬性指定模糊 分隔,即模糊集合的數(shù)量、形狀和位置。在以下的實(shí)施方式中,自動進(jìn) 行該操作。首先,對所有屬性進(jìn)行獨(dú)立分析,并且為每個(gè)屬性建立分隔,
從而限定模糊集合的數(shù)量和位置。第二,為了盡可能多地減少屬性的分 隔數(shù)量(并因此減少模糊集合的數(shù)量),使用屬性之間的依存性。參照圖6,在步驟1202中,輸入訓(xùn)練數(shù)據(jù)集合,并將其存儲在訓(xùn)練 數(shù)據(jù)存儲器122中。在步驟1204,計(jì)數(shù)器i被初始化為0,并在步驟1206 5將該計(jì)數(shù)器加1 。在步驟1208,計(jì)算裝置126判斷該屬性計(jì)數(shù)器i是否已經(jīng)超出了最 末屬性值n,如果沒有,則執(zhí)行圖7的處理以計(jì)算所選擇的屬性的分隔, 隨后,計(jì)算裝置126返回到步驟1206以選擇下一屬性。在處理完所有屬性時(shí)(步驟1208),接著在步驟1212,計(jì)算裝置116 io判斷能否在合理的時(shí)間內(nèi)以計(jì)算方式處理該數(shù)量的針對所有屬性的屬性 分隔的可能組合,如果可以,則在步驟1214,計(jì)算裝置執(zhí)行圖11的逐對 的分隔簡化處理。如果以計(jì)算方式處理這些組合是不可行的(即,該組 合超出了步驟1212的預(yù)定閾值T),則計(jì)算裝置在步驟1216執(zhí)行圖10 的多維分隔簡化處理。在執(zhí)行了圖ll或者圖10的處理以后,在步驟1218 15從訓(xùn)練裝置120輸出針對屬性計(jì)算的模糊集合參數(shù)數(shù)據(jù),以通過分類器 IIO存儲供隨后分類使用。對單個(gè)屬性進(jìn)行分隔僅使用單個(gè)屬性的模糊分類器將屬性范圍分隔為多個(gè)沒有交集的區(qū) 間。至少在模糊集合滿足典型限制(例如模糊集合是單峰的并且永遠(yuǎn)不 20會有兩個(gè)以上的模糊集合交疊)的情況下,這是成立的。在圖5中示出了模糊集合的典型選擇。在這種情況下,對于小于^的值,模糊集合A占優(yōu),對于分布于X,和X2之間的值,化占優(yōu),對于分布 于X2和X3之間的值,^占優(yōu),而對于大于X3的值,A占優(yōu)。如果考慮一個(gè)以上的屬性,情況則大不相同。如圖5所示的模糊分25隔針對一個(gè)屬性將分隔變?yōu)闆]有交集的區(qū)間。通過這些區(qū)間分隔,所有屬性范圍的乘積空間(product space)被分隔為多個(gè)超盒(hyper-boxes)。 根據(jù)Kuncheva所述 (L.I. Kuncheva: "How Good are Fuzzy If曙Then Classifiers ", IEEE Transactions on Systems, Man, and Cybernetics, Part B: 30 (2000), 501-509),如果使用所有可能的規(guī)則,并且各規(guī)則都涉及所有
的屬性,則產(chǎn)生的分類器會向各超盒分配一個(gè)類。如果并沒有使用所有 的規(guī)則,則在超盒內(nèi)可以找到類邊界。 針對固定數(shù)量的區(qū)間查找分隔為了更好地說明要執(zhí)行的處理,現(xiàn)在給出一些背景描述。如果分類 5器近似地基于輸入空間到超盒的分隔,則可以將分類器類似地看作決策 樹。設(shè)計(jì)標(biāo)準(zhǔn)決策樹以利用二進(jìn)制屬性或者更通常地利用具有有限數(shù)量 值的目錄屬性來構(gòu)建該分類器。為了在存在實(shí)數(shù)值屬性的情況下構(gòu)造決 策樹,需要對相應(yīng)范圍進(jìn)行離散化。然后,該決策樹向因進(jìn)行屬性離散化而產(chǎn)生的超盒(這些超盒的并集(union))分配多個(gè)類來執(zhí)行分類任務(wù)。10 通過與決策樹自身的構(gòu)建一樣的原理指導(dǎo)決策樹的離散化任務(wù)。在 構(gòu)建決策樹的各步驟中,針對最大化信息增益的進(jìn)一步分隔來選擇屬性, 這通常被限定為熵的預(yù)期減少。在二進(jìn)制決策樹領(lǐng)域中,Elomaa和Rousu在"Finding Optimal Multi-Splits for Numerical Attributes in Decision Tree Learning" (1996)(前15文中提到的)中提出了一種用于將一個(gè)范圍分割/離散化為兩個(gè)以上區(qū)間的技術(shù)。這一點(diǎn)是通過綜合Fayyad和Irani在"On the Handling of Continuous-Valued Attributes in Decision Tree Generation (1992)"(也在前 文中提到過)中描述的二進(jìn)制分割方法來實(shí)現(xiàn)的。對該問題可以進(jìn)行如下限定(當(dāng)在考慮的屬性中具有遺漏值的數(shù)據(jù)20被忽略時(shí))。我們考慮單個(gè)屬性j并想將該范圍分隔為固定數(shù)量的t個(gè)區(qū)間。這意味著我們必須在這個(gè)范圍內(nèi)指定t-l個(gè)切割點(diǎn)T^ TM。應(yīng)該 以分隔的熵最小化的方式選擇切割點(diǎn)。設(shè)T。和Tt分別表示該范圍的左邊 界和右邊界。當(dāng)我們僅考慮第j個(gè)屬性時(shí),假設(shè)n個(gè)數(shù)據(jù)中的ni (i =1,..., t)個(gè)落入 25 Tw和Ti之間的區(qū)間。設(shè)kq表示ni個(gè)數(shù)據(jù)中屬于類q的數(shù)量。則該區(qū)間 的熵給定如下£,=_t&.l0gfi) 公式l通過切割點(diǎn)產(chǎn)生的分隔的總熵是單個(gè)熵的加權(quán)和五=力1五, 公式2應(yīng)該通過切割點(diǎn)的選擇對總熵進(jìn)行最小化。這里,n是在屬性j沒有遺漏 值的情況下數(shù)據(jù)的數(shù)量。 確定區(qū)間的數(shù)量5 由于本實(shí)施方式?jīng)]有提前固定區(qū)間的數(shù)量,因此必須使用應(yīng)該提供多少個(gè)區(qū)間的標(biāo)準(zhǔn)。顯然,熵公式2會隨著至少用于最優(yōu)分隔的區(qū)間t 的數(shù)量而降低。因此,本發(fā)明的實(shí)施方式從兩個(gè)區(qū)間的二元分隔開始, 并且迭代增加區(qū)間的數(shù)量,直到與前一分隔相比該增加使熵的降低不大 于某一百分比,或者直到超出了預(yù)定最大區(qū)間數(shù)。10 參照圖7,在步驟1302,分隔數(shù)量計(jì)數(shù)器i被初始化為1。在步驟1304,變量E (熵)被初始化為單個(gè)分隔時(shí)的數(shù)值。在步驟1306,計(jì)算 裝置1306將計(jì)數(shù)器i遞增1。在步驟1308,執(zhí)行圖8的處理(后文進(jìn)行 更詳細(xì)的描述)以針對i個(gè)分隔計(jì)算分隔位置。在步驟1310,計(jì)算具有i 個(gè)區(qū)間的屬性的熵E'。在步驟1312,計(jì)算熵的前一數(shù)值與當(dāng)前數(shù)值E'15的差(即,因又添加了一個(gè)分隔造成的熵降低),并且相對于經(jīng)驗(yàn)確定的 閾值q進(jìn)行測試。如果熵的降低超出了該閾值,則在步驟1314,將當(dāng)前 熵值E設(shè)為E',并且計(jì)算裝置126返回步驟1306以重復(fù)再多一個(gè)分隔的 處理。最后,當(dāng)進(jìn)一步添加的分隔不再導(dǎo)致熵明顯降低時(shí)(步驟1312), 則在步驟1316,存儲所有前面的迭代中計(jì)算出的分隔位置(對其位置進(jìn)20行存儲的原因?qū)⒃诤竺孢M(jìn)行描述),并且為隨后的應(yīng)用保存分隔數(shù)量以及 區(qū)間的數(shù)值i-l。圖7的處理返回到圖6。 計(jì)算分隔如果針對第j個(gè)屬性中的數(shù)值對數(shù)據(jù)進(jìn)行排序,Elomaa等人在 "Finding Optimal Multi-Splits for Numerical Attributes in Decision Tree 25 Learning" (1996)(參照前文)中證實(shí)要想迸行最優(yōu)分隔,只有邊界點(diǎn) 必須被考慮為切割點(diǎn)。因此本實(shí)施方式計(jì)算各屬性的邊界點(diǎn)。在以下情況下將屬性j范圍內(nèi)的數(shù)值T在形式上定義為邊界點(diǎn)假 設(shè)在按屬性j的值排序的數(shù)據(jù)序列中,存在兩個(gè)數(shù)據(jù)x和y,它們分別 具有不同的類,滿足Xj〈T〈yj,并且不存在滿足Xj〈Zj〈yj的其他數(shù)據(jù)101520值:123 3 45566788910類331 1 1221333332在如下的實(shí)施例(表l)中,在上行示出了數(shù)據(jù)點(diǎn)的屬性j的數(shù)值, 各數(shù)值根據(jù)它們的屬性值以升序排列,并且在下行示出數(shù)據(jù)的相應(yīng)分類。 用線標(biāo)記出邊界點(diǎn)。''' ' '11 11 1211 1表1:邊界點(diǎn)應(yīng)該指出的是,不同的數(shù)據(jù)可以具有相同的屬性值(如表l所示)。 盡管當(dāng)該屬性是實(shí)數(shù)形式的連續(xù)值時(shí)該情況很少出現(xiàn),但是其對于整數(shù)取值的屬性卻很常見。邊界點(diǎn)T是在相鄰數(shù)據(jù)x和y之間的中間分配的 值(例如,在表1的情況下為2.5、 4.5、 5.5、 5.5、 9.5和10.5)。在步驟1352,利用Fayyad禾口 Imni在"On the Handling of Continuous-Valued Attributes in Decision Tree Generation (1992)"(前文中 提到過)中描述方法來計(jì)算屬性的邊界點(diǎn),并且在步驟1354中將計(jì)數(shù)器 b設(shè)置得等于邊界點(diǎn)的數(shù)量。根據(jù)該計(jì)算出的邊界點(diǎn),可以確定用于固定數(shù)量的區(qū)間的最優(yōu)離散化最小化公式2。對于b個(gè)邊界點(diǎn)和t個(gè)區(qū)間來說,必然得到,6 、 —1木分隔。最差的情況是邊界點(diǎn)的數(shù)量b和采樣數(shù)據(jù)n-l相等的情況(即,在每 個(gè)數(shù)據(jù)和其相鄰數(shù)據(jù)之間都存在邊界)。但是通常1)<<11,從而即使在較:數(shù)據(jù)集合的情況,6'也能保持使t為易于計(jì)算處理的數(shù)量的小數(shù)值-因此,在步驟1356,計(jì)算裝置126判斷在b個(gè)邊界點(diǎn)內(nèi)的具有不同 排列的(t-1)個(gè)分隔的總數(shù)是否超出了預(yù)定閾值N,并且如果沒有,在 步驟1358通過以上引用的Elomaa和Rousu的方法直接計(jì)算最優(yōu)的分隔。根據(jù)在前一段中提到的f \)數(shù)量,只要該基于邊界點(diǎn)的方法似乎易于計(jì)算處理,我們就應(yīng)用該邊界點(diǎn)方法。另一方面,如果(步驟1360),6 一25在計(jì)算時(shí)間方面,f一l是不可接受的,則使用圖9中描述的試探法來查找用來產(chǎn)生公式2中的小值的分隔(步驟1360),
無論以何種方式,都要將所選擇的分隔位置的集合(即,選擇b個(gè)邊界點(diǎn)中的t-l個(gè)充當(dāng)分隔)返回圖7的處理(步驟1362)。在存在太多邊界點(diǎn)的情況下計(jì)算分隔參照圖9,如果對使用上述方法而言存在太多邊界點(diǎn)(步驟1356),5則執(zhí)行如下步驟在步驟1402收到當(dāng)前分隔數(shù)量i以后,建立初始邊界組合,諸如將 屬性范圍分隔為分別包含相同數(shù)量(或者大致相同)的數(shù)據(jù)點(diǎn)的區(qū)間, 并對其進(jìn)行存儲。在步驟1404,如上所述地針對這些分隔計(jì)算屬性的熵 E。在步驟1406,將循環(huán)計(jì)數(shù)器j初始化為1。在步驟1408,重新調(diào)節(jié)區(qū)io間以改變他們的寬度;具體地,縮短具有相對較高的熵的區(qū)間(如前面 計(jì)算的),而延長具有相對較低的熵的區(qū)間??梢岳缤ㄟ^乘以預(yù)定常數(shù) 的方式進(jìn)行延長以及通過除以預(yù)定常數(shù)的方式進(jìn)行縮短來執(zhí)行該調(diào)整。在步驟1410,計(jì)算經(jīng)過重新調(diào)整了分隔后的屬性的總熵E'(如步驟 1404),并在步驟1412,計(jì)算裝置126計(jì)算是否由于對區(qū)間進(jìn)行的重新調(diào)15整導(dǎo)致了熵的降低(即,是否E'小于E)。如果是,則在步驟1414存儲 經(jīng)重新調(diào)整的分隔并用相關(guān)的熵E'替代以前計(jì)算的數(shù)值E。如果沒有, 則在步驟1416,降低縮放比例(例如通過降低所述預(yù)定常數(shù)的數(shù)值)。在任一種情況下,不管是重新分隔還是降低縮放常數(shù),在假設(shè)步驟 1418循環(huán)計(jì)數(shù)器j沒有到達(dá)預(yù)定閾值J,則在步驟1420對該循環(huán)計(jì)數(shù)器20進(jìn)行累加,然后計(jì)算裝置126返回步驟1408。(在步驟1418)對分隔執(zhí) 行了 J次反復(fù),就將計(jì)算結(jié)果返回給圖8的處理。因此,該處理首先從對所述范圍進(jìn)行均勻分隔開始,該范圍中的各 區(qū)間具有一樣的長度或者分別包含一樣數(shù)量的數(shù)據(jù)。接著計(jì)算裝置126 參照公式1和公式2來確定各區(qū)間對于總的熵具有多少貢獻(xiàn),對于各區(qū)25間,其確定如下數(shù)值<formula>formula see original document page 16</formula>公式3、",基于這些數(shù)值,在寬度上放大對于其來講公式3很小的區(qū)間并在寬 度上縮小對于熵具有較大貢獻(xiàn)的區(qū)間(g卩,對于這些區(qū)間,公式3很大)。 重復(fù)該縮放步驟直到在固定數(shù)量的步驟內(nèi)不能再實(shí)現(xiàn)進(jìn)一步的改進(jìn)為從區(qū)間分隔到模糊分隔根據(jù)針對各屬性計(jì)算的分隔,參照圖12通過計(jì)算裝置16以如下方 式構(gòu)建模糊集合。5 通過切割點(diǎn)Th Tt.J艮定對于t個(gè)區(qū)間的分隔。To和Tt分別表示相應(yīng)的屬性范圍的左邊界和右邊界。對除各范圍的左、右邊界以外的其 他區(qū)間,應(yīng)用三角隸屬函數(shù),并令最大值在各區(qū)間中心并且在相鄰區(qū)間 的中心到達(dá)隸屬程度0。在該范圍的左右邊界處,使用梯形隸屬函數(shù),該 函數(shù)在范圍的邊界和第一區(qū)間的中心之間以及在范圍的邊界與最后一個(gè)io區(qū)間的中心之間分別是l,并且在相鄰區(qū)間的中心處到達(dá)隸屬程度O。 考慮相關(guān)性(分隔簡化)在獨(dú)立地考慮每個(gè)變量時(shí),模糊集合的構(gòu)建(即,離散化)基于熵/ 信息增益的減少。然而,在對多個(gè)屬性進(jìn)行相關(guān)時(shí),則可以進(jìn)一步減少 區(qū)間(即模糊集合)的數(shù)量。為了針對多個(gè)變量的組合的分隔的信息增 15益進(jìn)行評估,我們必須考慮由單個(gè)域的區(qū)間分隔來產(chǎn)生乘積空間向超盒 的分隔。原則上,必須對超盒而不是區(qū)間應(yīng)用公式1和公式2,并求出轉(zhuǎn)為 超盒的最優(yōu)分隔。在這種情況下,我們不能忽略具有遺漏值的數(shù)據(jù),而 是將它們分配給與超盒的并集相對應(yīng)的較大的超盒。在圖13中,示出了 20這種較大的盒子,其中通過選擇屬性a,的第二個(gè)(三個(gè)中的)區(qū)間、屬 性&2的第一區(qū)間(兩個(gè)中的)和屬性a3的遺漏值得到該較大盒子。然而,不幸的是,選擇切割點(diǎn)作為邊界點(diǎn)的技術(shù)對于多維空間來說 并沒有意義。原則上上述通過針對熵調(diào)整區(qū)間來最小化總熵的試探法也 可以用于多維空間的情況,但是其是以在屬性數(shù)量方面的計(jì)算成本成指 25數(shù)增加為代價(jià)的。假設(shè)我們對屬性j (j = l,...,P)設(shè)定tj個(gè)區(qū)間,則我們必須針對轉(zhuǎn)為超盒的一次分隔的總熵值計(jì)算flfc +1)個(gè)超盒的熵,包括表示具有遺漏值的區(qū)域的超盒。在具有6個(gè)屬性、各屬性被分割為3個(gè)區(qū)間的情況下, 對一次分隔的評估,我們必須考慮(3+l)6 = 4096個(gè)超盒。 因此,根據(jù)優(yōu)選實(shí)施方式,計(jì)算裝置126并不嘗試查找轉(zhuǎn)為超盒的 總體最優(yōu)分隔,而是簡化已經(jīng)從單個(gè)域分隔獲得的多個(gè)分隔。以如上所 述的遞增方式產(chǎn)生分隔。其好處在于,不但存儲了最終產(chǎn)生的分隔,而 且在查找最終產(chǎn)生的分隔的處理期間導(dǎo)出的這些分隔具有更少的區(qū)間。 這使得計(jì)算裝置126能夠針對給定的屬性來驗(yàn)證在結(jié)合其他屬性評論 該屬性時(shí),在不明顯增加熵的情況下是否能返回具有較少區(qū)間的分隔。存在利用不同策略的兩種實(shí)施方式,根據(jù)數(shù)據(jù)的數(shù)量和通過單個(gè)域 分隔產(chǎn)生的超盒數(shù)量而應(yīng)用相應(yīng)的策略。在數(shù)據(jù)集合不太大并且超盒數(shù) 量足夠小的情況下,選擇第一策略(圖IO)。參照圖10,在該實(shí)施方式中,首先(步驟1452),針對它們相關(guān)區(qū) 間分隔所提供的熵的減少情況通過計(jì)算裝置126對屬性進(jìn)行排序。為了 進(jìn)行比較,要求該排序應(yīng)該考慮在訓(xùn)練數(shù)據(jù)中遺漏的屬性值。設(shè)E表示具有n個(gè)數(shù)據(jù)的數(shù)據(jù)集合的總熵。假定對于mj個(gè)數(shù)據(jù),屬性j有遺漏值。根據(jù)公式2,相應(yīng)的熵是£ = 土~^.£,(忽略不計(jì)具有 遺漏值的數(shù)據(jù))。在對于屬性j來說除了一個(gè)以外的所有數(shù)據(jù)都有遺漏值的極端情況 下,該熵降為0,通過了解屬性j知道實(shí)際信息增益幾乎為O。因此,我們定義<formula>formula see original document page 18</formula>En^ing是對于第j個(gè)屬性來說具有遺漏值的數(shù)據(jù)的熵。假設(shè)遺漏值隨 機(jī)出現(xiàn),Emis^g將與該數(shù)據(jù)集合的總熵一致。在步驟1454,將屬性循環(huán)計(jì)數(shù)器i初始化為0并且在步驟1456開始遞增。因此對屬性以如下次序進(jìn)行處理,即該處理從其分隔導(dǎo)致熵產(chǎn)生 最大降低的屬性開始,并繼續(xù)檢查熵發(fā)生次最大降低的屬性。在步驟1458,計(jì)算裝置126判斷是否己經(jīng)處理完所有的屬性(即,i是否不低于 屬性數(shù)量),并且如果是,則在步驟1460,返回當(dāng)前分隔以供形成如上所 述的模糊集合時(shí)的后續(xù)應(yīng)用。如果沒有處理完所有屬性,則在步驟1462,計(jì)算到現(xiàn)在為止并且包
括當(dāng)前屬性的所有屬性的總熵E。在步驟1464,計(jì)算裝置126判斷當(dāng)前 屬性的區(qū)間數(shù)量是否可以被減少??紤]對這兩個(gè)屬性范圍進(jìn)行分隔產(chǎn)生 的超盒。單獨(dú)考慮單個(gè)屬性,為對于熵減少次好的屬性選擇t個(gè)區(qū)間。檢 索在圖7的處理期間先前對于t-l個(gè)區(qū)間計(jì)算(并存儲)的分隔的熵(步5驟1466)。將與利用該分隔的最優(yōu)屬性相關(guān)的(超盒)熵和檢索到的熵進(jìn) 行比較(步驟1468)。再次針對屬性1到i計(jì)算產(chǎn)生的熵E,(如步驟1462 那樣)。如果具有t-l個(gè)區(qū)間的分隔沒有明顯增加該熵(即,熵的增加量 低于閾值p,步驟1470),則選擇該分隔來替代當(dāng)前分隔(步驟1466)并 從步驟1464重復(fù)該過程,直到不能進(jìn)一步進(jìn)行簡化。因此,該過程檢查10具有t-2、 t-3等區(qū)間的分隔,直到熵的增加似乎不可接受為止。此后,該處理返回到步驟1452以選擇下一個(gè)屬性(根據(jù)單個(gè)域熵減 少進(jìn)行排序的,如以上公開的)進(jìn)行處理,直到處理完所有的屬性(步 驟1458)。由于該策略意味著我們可能必須對要研究的最后屬性考慮大量的超 15盒,因此當(dāng)前一個(gè)策略(圖10)似乎對計(jì)算來講是無法接受的時(shí)候,應(yīng) 用第二策略(圖11)。其遵循和第一策略一樣的原則,但是向所有的屬性 對應(yīng)用成對方法以在較少地減少每對的熵的情況下來嘗試減少屬性區(qū)間 的數(shù)量。步驟1552到步驟1570實(shí)質(zhì)上對應(yīng)于步驟1452到步驟1470,不同 20之處在于將屬性成對排序,并依次選擇每個(gè)對,然后處理下一對,直到 完成所有處理,而不是逐個(gè)屬性地進(jìn)行處理。此外,在步驟1562和1568中計(jì)算熵時(shí),該熵是被計(jì)算的屬性對的 熵,而不是如圖IO所述到現(xiàn)在位置并包括當(dāng)前屬性的所有屬性的熵。因 此,在每次重復(fù)中執(zhí)行的計(jì)算具有同樣的復(fù)雜度,而不會像圖10那樣對 25于后面屬性的計(jì)算變得越來越復(fù)雜,從而使該處理更加可擴(kuò)展。圖6示出了如何通過考慮所有屬性的相關(guān)性或者從屬性對前面引入 的算法進(jìn)行組合從而獲得針對所有屬性計(jì)算適當(dāng)分隔的整體策略。其他實(shí)施方式和修改顯然可以對上述實(shí)施方式進(jìn)行許多變型和修改。例如,上述實(shí)施方式可以用于任意形式的模式識別任務(wù),而不限于檢測欺詐文檔或者交易 領(lǐng)域。各上述的實(shí)施方式都可以獨(dú)立于其他實(shí)施方式使用,而不是以所 述組合方式使用。替代三角集合(triangular set),可以通過某些可由中央和邊緣參數(shù) 5描述的其他形狀(例如高斯曲線)來計(jì)算隸屬函數(shù)。還可以通過t-共范數(shù)(最大值、代數(shù)和、或者OR類型)運(yùn)算以及 t-范數(shù)(乘積或者AND類型)運(yùn)算的其他適合的組合來替代根據(jù)最大-最小(max-min)推導(dǎo)方案的規(guī)則評價(jià)。因此,本發(fā)明擴(kuò)展到任意以及所有此類修改和變型。為了避免出現(xiàn) io疑義,這里要求對公開的所有新穎主題或者組合進(jìn)行保護(hù)。
權(quán)利要求
1. 一種根據(jù)多個(gè)多變量采樣數(shù)據(jù)生成在隨后的分類中使用的分類器 參數(shù)的裝置,所述分類器參數(shù)涉及與所述變量中的各變量相關(guān)的多個(gè)區(qū)5間,所述區(qū)間與類相關(guān)聯(lián),所述裝置包括 輸入裝置,用于輸入所述采樣數(shù)據(jù); 存儲裝置,用于存儲所述采樣數(shù)據(jù);計(jì)算裝置,用于根據(jù)所述釆樣數(shù)據(jù)為所述變量中的每一個(gè)計(jì)算多個(gè) 邊界;以及10 推導(dǎo)裝置,用于根據(jù)所述邊界推導(dǎo)限定所述區(qū)間的參數(shù)。
2. 根據(jù)權(quán)利要求l所述的裝置,其中,所述計(jì)算裝置包括 用于選擇所述區(qū)間的第一數(shù)量的裝置,所述區(qū)間具有基于所述邊界的位置,以及用于選擇所述區(qū)間增加了的數(shù)量的裝置,該裝置用以判斷所述增加 15了的數(shù)量是否比所述第一數(shù)量更有利于分類,如果有利,則用所述增加了的數(shù)量替換所述第一數(shù)量,而如果不利,則保留所述區(qū)間的數(shù)量。
3. 根據(jù)權(quán)利要求1所述的裝置,其中,所述計(jì)算裝置包括如下裝置,艮卩,該裝置用于評價(jià)可以由所述邊界構(gòu)造的區(qū)間的所有集合,并保留所 述集合中的優(yōu)選的一個(gè)。
4.根據(jù)權(quán)利要求1所述的裝置,其中,所述計(jì)算裝置包括如下裝置,艮口,該裝置用于確定所述邊界的數(shù)量的裝置,并且如果所述數(shù)量小于預(yù) 定閾值,則評價(jià)由所述邊界構(gòu)造的區(qū)間的所有集合并保留所述集合中的 優(yōu)選的一個(gè),如果所述數(shù)量大于所述閾值,則選擇所述區(qū)間的增加數(shù)量, 判斷所述增加的數(shù)量是否比所述第一數(shù)量更有利于分類,如果有利,則25用所述增加的數(shù)量替換所述第一數(shù)量,而如果不利,則保留所述區(qū)間的 數(shù)量。
5. 根據(jù)權(quán)利要求1所述的裝置,包括這樣的裝置,該裝置用于確定限定了預(yù)定數(shù)量的所述區(qū)間的邊界的數(shù)據(jù)。
6. 根據(jù)權(quán)利要求5所述的裝置,其中,所述確定裝置包括用于放大第一所述區(qū)間并縮小第二所述區(qū)間以改善對所述采樣數(shù)據(jù)的分類的裝置。
7.根據(jù)前述任一權(quán)利要求所述的裝置,所述裝置包括用于基于其他 所述變量的所述邊界對各所述變量上的所述邊界的數(shù)量進(jìn)行重新計(jì)算的 裝置。5
8.根據(jù)權(quán)利要求7所述的裝置,其中,所述重新計(jì)算裝置包括用于測試各所述變量上的區(qū)間數(shù)量的減少帶來的效果的裝置。
9. 根據(jù)權(quán)利要求8所述的裝置,當(dāng)從屬于權(quán)利要求4時(shí),所述裝置 包括存儲用于各所述變量的各所述第一數(shù)量的裝置。
10. 根據(jù)前述任一權(quán)利要求所述的裝置,其中, 一個(gè)或者更多個(gè)所 io述區(qū)間是模糊集合。
11. 根據(jù)前述任一權(quán)利要求所述的裝置,所述裝置包括用于輸入多 個(gè)測試數(shù)據(jù)并用于將所述測試數(shù)據(jù)進(jìn)行分類使其屬于多個(gè)類的其中之一 的裝置。
12. 根據(jù)權(quán)利要求ll所述的裝置,其中, 一個(gè)或者更多個(gè)所述類與 15被歸類為表示一個(gè)或者更多個(gè)欺詐項(xiàng)或者欺詐行為的數(shù)據(jù)相對應(yīng)。
13. 根據(jù)權(quán)利要求12所述的裝置,所述裝置包括產(chǎn)生所述變量的多 個(gè)傳感器。
14. 一種根據(jù)多個(gè)多變量采樣數(shù)據(jù)生成在隨后的分類中使用的分類 器參數(shù)的方法,所述分類器參數(shù)涉及與所述變量中的各變量相關(guān)的多個(gè)20區(qū)間,所述區(qū)間與類相關(guān)聯(lián),所述方法包括輸入所述采樣數(shù)據(jù);根據(jù)所述采樣數(shù)據(jù),針對所述變量中的每一個(gè)計(jì)算多個(gè)邊界;以及 根據(jù)所述邊界推導(dǎo)限定所述區(qū)間的參數(shù)。
15. 根據(jù)權(quán)利要求14所述的方法,所述方法還包括利用所述參數(shù)對 25測試數(shù)據(jù)進(jìn)行分類。
16. 根據(jù)權(quán)利要求15所述的方法,所述方法還包括利用另外的采樣 數(shù)據(jù)再次生成所述參數(shù)。
17. 根據(jù)權(quán)利要求16所述的方法,其中,所述另外的采樣數(shù)據(jù)源自 以前的測試數(shù)據(jù)。
全文摘要
本發(fā)明涉及自適應(yīng)分類器以及建立其分類參數(shù)的方法。用于根據(jù)多個(gè)多變量采樣數(shù)據(jù)生成用于隨后分類使用的分類器參數(shù)的方法,所述分類器參數(shù)涉及與多個(gè)變量中的各變量相關(guān)的多個(gè)區(qū)間,所述區(qū)間與類相關(guān)聯(lián),所述方法包括輸入所述采樣數(shù)據(jù);根據(jù)所述采樣數(shù)據(jù)針對所述變量中的每一個(gè)計(jì)算多個(gè)邊界;以及根據(jù)所述邊界推導(dǎo)限定所述區(qū)間的參數(shù)。
文檔編號G06K9/66GK101147160SQ200680008954
公開日2008年3月19日 申請日期2006年3月21日 優(yōu)先權(quán)日2005年4月1日
發(fā)明者弗蘭克·克拉旺, 德特勒夫·丹尼爾·瑙克 申請人:英國電訊有限公司