两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

信息過濾系統(tǒng)、信息過濾方法以及信息過濾程序的制作方法

文檔序號:6479386閱讀:175來源:國知局
專利名稱:信息過濾系統(tǒng)、信息過濾方法以及信息過濾程序的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及例如對輸入文檔進行分類的信息過濾系統(tǒng)、信息過濾方法以及信息過 濾程序。
背景技術(shù)
信息過濾是指,通過是否與用戶事先設(shè)定的要求(過濾條件)符合,來自動地挑選 信息的信息處理。在信息過濾中,一般采用如下方法為了提高過濾的精度,使用通過機械 學(xué)習(xí)進行的文檔的自動分類技術(shù),通過用戶指定的反饋來追加或者變更過濾條件(專利文 獻1)。將其稱為學(xué)習(xí)型過濾器。進而,作為用于提高過濾的精度的方法,還有組合了具有不同的過濾條件的多個 學(xué)習(xí)型過濾器的過濾方法(專利文獻2)。在該方法中,多個過濾器的輸出(對過濾條件的 適應(yīng)性)根據(jù)用戶的指定而合成,成為最終輸出。專利文獻1 日本特開平9-288683號公報專利文獻2 日本特開2001-229164號公報

發(fā)明內(nèi)容
但是,在這樣的學(xué)習(xí)型過濾器中,存在在學(xué)習(xí)量少的初始狀態(tài)下過濾精度較低這 樣的課題。為了解決該課題,例如,在系統(tǒng)的運用前準備充分的量的學(xué)習(xí)樣品數(shù)據(jù),直到得 到充分的精度為止系統(tǒng)進行學(xué)習(xí)即可。但是,在學(xué)習(xí)樣品數(shù)據(jù)的制作中需要通過人工識別 是否與要求(過濾條件)符合。因此,在實際的系統(tǒng)中難以準備充分的量的學(xué)習(xí)樣品數(shù)據(jù)。另外,在由于環(huán)境變化(例如,企業(yè)內(nèi)的組織改變)等,而用戶的要求、過濾對象的 數(shù)據(jù)內(nèi)容在短時間內(nèi)大幅變化這樣的情況下,在該變化時過濾精度臨時大幅降低。而且,存 在如下課題在通過用戶指定的反饋而使學(xué)習(xí)型過濾器追隨該變化的情況下,為了使過濾 精度返回到原來而需要時間。本發(fā)明是為了解決例如上述那樣的課題而完成的,其目的在于提供一種信息過濾 系統(tǒng),即使在學(xué)習(xí)量少的初始狀態(tài)時或者用戶要求、或?qū)ο髷?shù)據(jù)內(nèi)容大幅變化時,也可以確 保一定水平的過濾精度。本發(fā)明提供一種信息過濾系統(tǒng),其特征在于,具備第1過濾器部,從輸入設(shè)備輸入屬于多個種類中的至少任意一個種類的文檔數(shù) 據(jù),使用CPU (Central Processing Unit,中央處理單元)來執(zhí)行確定所輸入的上述文檔 數(shù)據(jù)所屬的種類的規(guī)定的分類處理,將輸入的上述文檔數(shù)據(jù)所屬的種類確定為第1分類信 息;第2過濾器部,從輸入設(shè)備輸入上述文檔數(shù)據(jù),使用CPU來執(zhí)行與上述第1過濾器 部的上述分類處理不同的規(guī)定的分類處理,將輸入的上述文檔數(shù)據(jù)所屬的種類確定為第2 分類信息;第1正確答案比較部,使用CPU,對將預(yù)先確定了所屬的種類的多個學(xué)習(xí)文檔數(shù)據(jù)分別作為上述文檔數(shù)據(jù)而由上述第1過濾器部確定出的上述多個學(xué)習(xí)文檔數(shù)據(jù)的上述第1 分類信息、與表示預(yù)先確定的上述所屬的種類的上述多個學(xué)習(xí)文檔數(shù)據(jù)的正確答案信息進 行比較,根據(jù)比較結(jié)果來生成表示上述第1分類信息是否與上述正確答案信息一致的上述 多個學(xué)習(xí)文檔數(shù)據(jù)的第1學(xué)習(xí)結(jié)果信息,將生成的上述多個學(xué)習(xí)文檔數(shù)據(jù)的上述第1學(xué)習(xí) 結(jié)果信息存儲在存儲設(shè)備中;第2正確答案比較部,使用CPU,對將上述多個學(xué)習(xí)文檔數(shù)據(jù)分別作為上述文檔數(shù) 據(jù)而由上述第2過濾器部確定出的上述多個學(xué)習(xí)文檔數(shù)據(jù)的上述第2分類信息、與上述多 個學(xué)習(xí)文檔數(shù)據(jù)的上述正確答案信息進行比較,根據(jù)比較結(jié)果來生成表示上述第2分類信 息是否與上述正確答案信息一致的上述多個學(xué)習(xí)文檔數(shù)據(jù)的第2學(xué)習(xí)結(jié)果信息,將生成的 上述多個學(xué)習(xí)文檔數(shù)據(jù)的上述第2學(xué)習(xí)結(jié)果信息存儲在存儲設(shè)備中;錯誤率計算部,使用CPU,根據(jù)上述第1正確答案比較部生成的上述多個上述學(xué)習(xí) 文檔數(shù)據(jù)的上述第1學(xué)習(xí)結(jié)果信息,計算表示上述第1分類信息與上述正確答案信息不一 致的比例的第1錯誤率,并且使用CPU,根據(jù)上述第2正確答案比較部生成的上述多個上述 學(xué)習(xí)文檔數(shù)據(jù)的上述第2學(xué)習(xí)結(jié)果信息,計算表示上述第2分類信息與上述正確答案信息 不一致的比例的第2錯誤率;以及結(jié)果輸出部,使用CPU,根據(jù)將分類為特定的種類的對象即分類對象文檔數(shù)據(jù)作為 上述文檔數(shù)據(jù)而由上述第1過濾器部確定出的上述第1分類信息、將上述分類對象文檔數(shù) 據(jù)作為上述文檔數(shù)據(jù)而由上述第2過濾器部確定出的上述第2分類信息、上述錯誤率計算 部計算出的上述第1錯誤率、以及上述錯誤率計算部計算出的上述第2錯誤率,確定上述分 類對象文檔數(shù)據(jù)所屬的種類,將確定出的種類作為分類結(jié)果而輸出到輸出設(shè)備。上述第1過濾器部是具備如下部件的學(xué)習(xí)型過濾器部學(xué)習(xí)部,從輸入設(shè)備輸入多組上述學(xué)習(xí)文檔數(shù)據(jù)與上述正確答案信息的組,根據(jù) 上述多組使用CPU來執(zhí)行將屬于各種類的各學(xué)習(xí)文檔數(shù)據(jù)中通用的統(tǒng)計信息作為學(xué)習(xí)數(shù) 據(jù)而生成的統(tǒng)計處理,將通過上述統(tǒng)計處理生成的上述學(xué)習(xí)數(shù)據(jù)存儲在存儲設(shè)備中;以及學(xué)習(xí)型分類部,從輸入設(shè)備輸入上述分類對象文檔數(shù)據(jù),使用CPU,針對每個種類, 計算上述分類對象文檔數(shù)據(jù)對應(yīng)于由上述學(xué)習(xí)部生成的上述學(xué)習(xí)數(shù)據(jù)表示的上述統(tǒng)計信 息的比率而作為分類概率,根據(jù)每個種類的上述分類概率來確定上述分類對象文檔數(shù)據(jù)所 屬的種類。上述學(xué)習(xí)部使用貝葉斯理論、SVM(Support Vector Machine,支持向量機)、神經(jīng) 網(wǎng)絡(luò)模型或其它學(xué)習(xí)型算法進行上述統(tǒng)計處理。上述第2過濾器部是如下字符串匹配型過濾器部從輸入設(shè)備輸入上述文檔數(shù)據(jù),從將屬于各種類的分類關(guān)鍵字預(yù)先存儲為匹配條 件信息的存儲設(shè)備中輸入上述匹配條件信息,使用CPU,執(zhí)行判定上述匹配條件信息表示的 各種類的上述分類關(guān)鍵字是否包含在上述文檔數(shù)據(jù)中的字符串匹配處理,將通過上述字符 串匹配處理判定為包含在上述文檔數(shù)據(jù)中的上述分類關(guān)鍵字所屬的種類確定為上述文檔 數(shù)據(jù)所屬的種類。上述字符串匹配型過濾器部使用決定性有限自動機來進行上述字符串匹配處理。上述字符串匹配型過濾器部將表示上述分類關(guān)鍵字的上述決定性有限自動機的 狀態(tài)遷移表作為上述匹配條件信息而執(zhí)行上述字符串匹配處理。
7
上述字符串匹配型過濾器部使用非決定性有限自動機來進行上述字符串匹配處理。上述結(jié)果輸出部在上述第1錯誤率小于上述第2錯誤率的情況下,將上述第1分 類信息作為上述分類結(jié)果而輸出,在上述第2錯誤率小于上述第1錯誤率的情況下,將上述 第2分類信息作為上述分類結(jié)果而輸出。上述結(jié)果輸出部用規(guī)定的數(shù)值來表示上述第1分類信息與上述第2分類信息,根 據(jù)上述第1錯誤率對上述第1分類信息進行加權(quán),并且根據(jù)上述第2錯誤率對上述第2分 類信息進行加權(quán),計算加權(quán)后的上述第1分類信息與加權(quán)后的上述第2分類信息的平均值 而作為加權(quán)平均值,對計算出的加權(quán)平均值與規(guī)定的閾值進行比較,根據(jù)比較結(jié)果輸出上 述分類結(jié)果。上述匹配條件信息將多個上述分類關(guān)鍵字中的特定的上述分類關(guān)鍵字表示為特 定關(guān)鍵字,上述結(jié)果輸出部輸出上述特定關(guān)鍵字所屬的種類,而作為由上述字符串匹配型過 濾器部判定為包括上述特定關(guān)鍵字的上述分類對象文檔數(shù)據(jù)的上述分類結(jié)果。上述錯誤率計算部根據(jù)在規(guī)定的期間內(nèi)生成的上述第1學(xué)習(xí)結(jié)果信息來計算上 述第1錯誤率,并且根據(jù)在上述規(guī)定的期間內(nèi)生成的上述第2學(xué)習(xí)結(jié)果信息來計算上述第 2錯誤率。上述學(xué)習(xí)型過濾器部具備第1學(xué)習(xí)型過濾器部與第2學(xué)習(xí)型過濾器部,上述第1學(xué)習(xí)型過濾器部與上述第2學(xué)習(xí)型過濾器部分別具備上述學(xué)習(xí)部與上述 學(xué)習(xí)型分類部,上述第1學(xué)習(xí)型過濾器部的上述學(xué)習(xí)部與上述第2學(xué)習(xí)型過濾器部的上述學(xué)習(xí)部 執(zhí)行分別不同的上述統(tǒng)計處理,上述第1分類信息表示第1學(xué)習(xí)分類信息和第2學(xué)習(xí)分類信息,其中,第1學(xué)習(xí)分 類信息表示由上述第1學(xué)習(xí)型過濾器部的上述學(xué)習(xí)型分類部確定出的上述種類,第2學(xué)習(xí) 分類信息表示由上述第2學(xué)習(xí)型過濾器部的上述學(xué)習(xí)型分類部確定出的上述種類。上述結(jié)果輸出部在將上述第1分類信息作為上述分類結(jié)果而輸出的情況下,求出 上述第1學(xué)習(xí)分類信息表示的上述種類與上述第2學(xué)習(xí)分類信息表示的上述種類的邏輯 和,將求出的上述邏輯和表示的上述種類作為上述分類結(jié)果而輸出。上述結(jié)果輸出部在將上述第1分類信息作為上述分類結(jié)果而輸出的情況下,根據(jù) 上述第1學(xué)習(xí)分類信息表示的上述種類的上述分類概率與上述第2學(xué)習(xí)分類信息表示的上 述種類的上述分類概率,輸出上述分類結(jié)果。上述結(jié)果輸出部在將上述第1分類信息作為上述分類結(jié)果而輸出的情況下,根據(jù) 上述第1學(xué)習(xí)分類信息的上述第1錯誤率對上述第1學(xué)習(xí)分類信息進行加權(quán),并且根據(jù)上 述第1學(xué)習(xí)分類信息的上述第1錯誤率對上述第1學(xué)習(xí)分類信息進行加權(quán),計算加權(quán)后的 上述第1學(xué)習(xí)分類信息與加權(quán)后的上述第2學(xué)習(xí)分類信息的平均值而作為加權(quán)平均值,對 計算出的加權(quán)平均值與規(guī)定的閾值進行比較,根據(jù)比較結(jié)果輸出上述分類結(jié)果。上述學(xué)習(xí)型過濾器部具備多個上述學(xué)習(xí)部與上述學(xué)習(xí)型分類部的組,多個上述學(xué)習(xí)部執(zhí)行分別不同的上述統(tǒng)計處理,上述第1分類信息表示由各組的上述學(xué)習(xí)型分類部分別確定出的上述種類,
上述結(jié)果輸出部在將上述第1分類信息作為上述分類結(jié)果而輸出的情況下,將在 最多的組中確定的上述種類作為上述分類結(jié)果而輸出。本發(fā)明提供一種信息過濾方法,其特征在于,第1過濾器部進行第1過濾器處理,其中,從輸入設(shè)備輸入屬于多個種類中的至少 任意一個種類的文檔數(shù)據(jù),使用CPUKentralProcessing Unit)來執(zhí)行確定所輸入的上述 文檔數(shù)據(jù)所屬的種類的規(guī)定的分類處理,將輸入的上述文檔數(shù)據(jù)所屬的種類確定為第1分
類fe息,第2過濾器部進行第2過濾器處理,其中,從輸入設(shè)備輸入上述文檔數(shù)據(jù),使用CPU 來執(zhí)行與上述第1過濾器部的上述分類處理不同的規(guī)定的分類處理,將輸入的上述文檔數(shù) 據(jù)所屬的種類確定為第2分類信息;第1正確答案比較部進行第1正確答案比較處理,其中,使用CPU,對將預(yù)先確定了 所屬的種類的多個學(xué)習(xí)文檔數(shù)據(jù)分別作為上述文檔數(shù)據(jù)而由上述第1過濾器部確定出的 上述多個學(xué)習(xí)文檔數(shù)據(jù)的上述第1分類信息、與表示預(yù)先確定的上述所屬的種類的上述多 個學(xué)習(xí)文檔數(shù)據(jù)的正確答案信息進行比較,根據(jù)比較結(jié)果,生成表示上述第1分類信息是 否與上述正確答案信息一致的上述多個學(xué)習(xí)文檔數(shù)據(jù)的第1學(xué)習(xí)結(jié)果信息,將生成的上述 多個學(xué)習(xí)文檔數(shù)據(jù)的上述第1學(xué)習(xí)結(jié)果信息存儲在存儲設(shè)備中,第2正確答案比較部進行第2正確答案比較處理,其中,使用CPU,對將上述多個學(xué) 習(xí)文檔數(shù)據(jù)分別作為上述文檔數(shù)據(jù)而由上述第2過濾器部確定出的上述多個學(xué)習(xí)文檔數(shù) 據(jù)的上述第2分類信息、與上述多個學(xué)習(xí)文檔數(shù)據(jù)的上述正確答案信息進行比較,根據(jù)比 較結(jié)果來生成表示上述第2分類信息是否與上述正確答案信息一致的上述多個學(xué)習(xí)文檔 數(shù)據(jù)的第2學(xué)習(xí)結(jié)果信息,將生成的上述多個學(xué)習(xí)文檔數(shù)據(jù)的上述第2學(xué)習(xí)結(jié)果信息存儲 在存儲設(shè)備中,錯誤率計算部進行錯誤率計算處理,其中,使用CPU,根據(jù)上述第1正確答案比較 部生成的上述多個上述學(xué)習(xí)文檔數(shù)據(jù)的上述第1學(xué)習(xí)結(jié)果信息,計算表示上述第1分類信 息與上述正確答案信息不一致的比例的第1錯誤率,并且使用CPU,根據(jù)上述第2正確答案 比較部生成的上述多個上述學(xué)習(xí)文檔數(shù)據(jù)的上述第2學(xué)習(xí)結(jié)果信息,計算表示上述第2分 類信息與上述正確答案信息不一致的比例的第2錯誤率;以及結(jié)果輸出部進行結(jié)果輸出處理,其中,使用CPU,根據(jù)將分類成特定的種類的對象 即分類對象文檔數(shù)據(jù)作為上述文檔數(shù)據(jù)而由上述第1過濾器部確定出的上述第1分類信 息、將上述分類對象文檔數(shù)據(jù)作為上述文檔數(shù)據(jù)而由上述第2過濾器部確定出的上述第2 分類信息、上述錯誤率計算部計算出的上述第1錯誤率、以及上述錯誤率計算部計算出的 上述第2錯誤率,確定上述分類對象文檔數(shù)據(jù)所屬的種類,將確定出的種類作為分類結(jié)果 而輸出到輸出設(shè)備。本發(fā)明提供一種信息過濾程序,其特征在于,使計算機執(zhí)行上述信息過濾方法。根據(jù)本發(fā)明,例如,通過結(jié)果輸出部根據(jù)由第1過濾器部確定出的第1分類信息、 由第2過濾器部確定出的第2分類信息、以及各過濾器部的錯誤率來輸出分類結(jié)果,信息過 濾系統(tǒng)可以確保一定等級的過濾精度。


圖1是實施方式1中的信息過濾系統(tǒng)900的功能結(jié)構(gòu)圖。圖2是示出實施方式1中的信息過濾系統(tǒng)900的外觀的一個例子的圖。圖3是示出實施方式1中的信息過濾系統(tǒng)900的硬件資源的一個例子的圖。圖4是示出實施方式1中的學(xué)習(xí)結(jié)果生成處理的流程的流程圖。圖5是示出實施方式1中的DFA的狀態(tài)遷移表的一個例子的圖。圖6是示出實施方式1中的信息過濾系統(tǒng)900的過濾處理的流程的流程圖。圖7是示出實施方式1中的信息過濾系統(tǒng)900的運用步驟的流程圖。圖8是實施方式2中的信息過濾系統(tǒng)900的功能結(jié)構(gòu)圖。(標號說明)100 字符串匹配型過濾器部;101 符合信息;102 符合錯誤有無信息;108 分類 關(guān)鍵字;109 匹配條件信息;110 字符串匹配部;120 正確答案比較部;190 字符串匹配 型過濾器存儲部;200、200a、200b、200C 學(xué)習(xí)型過濾器部;201 分類信息;202 分類錯誤 有無信息;209 學(xué)習(xí)數(shù)據(jù);210 學(xué)習(xí)部;220 分類部;290 學(xué)習(xí)型過濾器存儲部;300 結(jié) 果判定部;301 分類結(jié)果;308 錯誤率信息;309 學(xué)習(xí)結(jié)果信息;310 錯誤率計算部;320 結(jié)果輸出部;390 結(jié)果判定存儲部;400 學(xué)習(xí)型過濾器集合部;801 輸入文檔;802 學(xué)習(xí) 用文檔;803 正確答案信息;804 分類對象文檔;900 信息過濾系統(tǒng);901 顯示裝置;902 鍵盤;903 鼠標;904 =FDD ;905 :CDD ;906 打印機裝置;907 掃描器裝置;910 系統(tǒng)單元; 911 =CPU ;912 總線;913 =ROM ;914 =RAM ;915 通信板;920 磁盤裝置;921 =OS ;922 視窗 系統(tǒng);923 程序組;924 文件組;931 電話機;932 傳真機;940 因特網(wǎng);941 網(wǎng)關(guān);942 LAN。
具體實施例方式實施方式1圖1是實施方式1中的信息過濾系統(tǒng)900的功能結(jié)構(gòu)圖。根據(jù)圖1,以下說明實施方式1中的信息過濾系統(tǒng)900的功能結(jié)構(gòu)。信息過濾系統(tǒng)900具備字符串匹配型過濾器部100、學(xué)習(xí)型過濾器部200以及結(jié)果 判定部300。字符串匹配型過濾器部100(第2過濾器部)具備字符串匹配部110、正確答案比 較部120以及字符串匹配型過濾器存儲部190,從輸入設(shè)備輸入屬于多個分類類型(分類 種類)中的至少任意一個類型的輸入文檔801 (學(xué)習(xí)用文檔802、分類對象文檔804),對輸 入文檔801使用CPU執(zhí)行字符串匹配處理(規(guī)定的分類處理的一個例子),將輸入文檔801 所屬的類型確定為符合信息101 (第2分類信息)。字符串匹配型過濾器存儲部190是存儲字符串匹配型過濾器部100使用的各種信 息的存儲設(shè)備。例如,在字符串匹配型過濾器存儲部190中,預(yù)先存儲有表示屬于各類型的 分類關(guān)鍵字108的匹配條件信息109。字符串匹配部110從字符串匹配型過濾器存儲部190輸入匹配條件信息109,使 用CPU來執(zhí)行判定匹配條件信息109所示的各類型的分類關(guān)鍵字108是否包含在輸入文檔 801中的字符串匹配處理。然后,字符串匹配部110將判定為包含在輸入文檔801中的分類關(guān)鍵字108所屬的類型設(shè)為該輸入文檔801的符合信息101。例如,字符串匹配部110使用 決定性有限自動機(automaton)或者非決定性有限自動機來進行字符串匹配處理。在通過 決定性有限自動機來進行字符串匹配處理的情況下,將表示分類關(guān)鍵字108的決定性有限 自動機的狀態(tài)遷移表作為匹配條件信息109而預(yù)先存儲在字符串匹配型過濾器存儲部190 中。字符串匹配部110使用預(yù)先存儲在字符串匹配型過濾器存儲部190中的狀態(tài)遷移表來 執(zhí)行字符串匹配處理。例如,在信息過濾系統(tǒng)900的運用開始前生成該狀態(tài)遷移表,并存儲 在字符串匹配型過濾器存儲部190中。正確答案比較部120(第2正確答案比較部)使用CPU,對字符串匹配部110確定 出的學(xué)習(xí)用文檔802(學(xué)習(xí)文檔數(shù)據(jù))的符合信息101、與表示預(yù)先確定的學(xué)習(xí)用文檔802 所屬的類型的正確答案信息803進行比較。接下來,正確答案比較部120根據(jù)比較結(jié)果來 生成表示符合信息101是否與正確答案信息803 —致的符合錯誤有無信息102 (第2學(xué)習(xí) 結(jié)果信息)。然后,正確答案比較部120將生成的符合錯誤有無信息102作為學(xué)習(xí)結(jié)果信息 309而存儲在結(jié)果判定存儲部390中。正確答案比較部120對多個學(xué)習(xí)用文檔802,針對每 個學(xué)習(xí)用文檔802生成符合錯誤有無信息102并將其存儲。學(xué)習(xí)型過濾器部200(第1過濾器部)具備學(xué)習(xí)部210、分類部220以及學(xué)習(xí)型過 濾器存儲部290,從輸入設(shè)備輸入輸入文檔801,使用CPU來執(zhí)行學(xué)習(xí)型過濾器處理(與字 符串匹配型過濾器部100的分類處理不同的規(guī)定的分類處理的一個例子),將輸入文檔801 所屬的類型確定為分類信息201 (第1分類信息)。學(xué)習(xí)型過濾器存儲部290是存儲學(xué)習(xí)型過濾器部200使用的各種信息的存儲設(shè) 備。例如,在學(xué)習(xí)型過濾器存儲部290中,針對每個類型將屬于該類型的各輸入文檔801中 通用的統(tǒng)計信息存儲為學(xué)習(xí)數(shù)據(jù)209。學(xué)習(xí)部210從輸入設(shè)備輸入多組學(xué)習(xí)用文檔802與正確答案信息803的組,使用 CPU來執(zhí)行基于所輸入的多組的統(tǒng)計處理,將通過統(tǒng)計處理生成的學(xué)習(xí)數(shù)據(jù)209存儲在學(xué) 習(xí)型過濾器存儲部290中。例如,學(xué)習(xí)部210使用貝葉斯(Bayesian)理論、SVM(Support VectorMachine,支持向量機)或者神經(jīng)網(wǎng)絡(luò)模型來進行統(tǒng)計處理。分類部220 (學(xué)習(xí)型分類部)從輸入設(shè)備輸入分類為特定的類型的對象即分類對 象文檔804 (分類對象文檔數(shù)據(jù)),針對每個類型,利用CPU計算分類對象文檔804相對于由 學(xué)習(xí)部210生成的學(xué)習(xí)數(shù)據(jù)209表示的統(tǒng)計信息所對應(yīng)的比率,作為分類概率。然后,分類 部220根據(jù)每個類型的分類概率,將分類對象文檔804所屬的類型確定為分類信息201。另外,學(xué)習(xí)部210 (第1正確答案比較部)使用CPU,對分類部220確定出的學(xué)習(xí)用 文檔802的分類信息201與正確答案信息803進行比較。接下來,學(xué)習(xí)部210根據(jù)比較結(jié) 果來生成表示分類信息201是否與正確答案信息803 —致的分類錯誤有無信息202(第2 學(xué)習(xí)結(jié)果信息)。然后,學(xué)習(xí)部210將生成的分類錯誤有無信息202作為學(xué)習(xí)結(jié)果信息309 而存儲在結(jié)果判定存儲部390中。學(xué)習(xí)部210對多個學(xué)習(xí)用文檔802,針對每個學(xué)習(xí)用文檔 802生成分類錯誤有無信息202并將其存儲。結(jié)果判定部300具備錯誤率計算部310、結(jié)果輸出部320以及結(jié)果判定存儲部 390,將分類對象文檔804的分類結(jié)果301輸出到輸出設(shè)備。結(jié)果判定存儲部390是存儲結(jié)果判定部300使用的各種信息的存儲設(shè)備。例如, 在結(jié)果判定存儲部390中,存儲字符串匹配型過濾器部100的正確答案比較部120生成的多個符合錯誤有無信息102、學(xué)習(xí)型過濾器部200的學(xué)習(xí)部210生成的多個分類錯誤有無信 息202,而作為學(xué)習(xí)結(jié)果信息309。另外例如,在結(jié)果判定存儲部390中,存儲字符串匹配型 過濾器部100的分類錯誤率、學(xué)習(xí)型過濾器部200的分類錯誤率而作為錯誤率信息308。錯誤率計算部310根據(jù)字符串匹配型過濾器部100的正確答案比較部120生成的 多個符合錯誤有無信息102,使用CPU來計算表示符合信息101與正確答案信息803不一 致的比例的字符串匹配型過濾器部100的分類錯誤率(第2錯誤率)。另外,錯誤率計算 部310根據(jù)學(xué)習(xí)型過濾器部200的學(xué)習(xí)部210生成的多個分類錯誤有無信息202,使用CPU 來計算表示分類信息201與正確答案信息803不一致的比例的學(xué)習(xí)型過濾器部200的分類 錯誤率(第1錯誤率)。將錯誤率計算部310計算出的字符串匹配型過濾器部100的分類 錯誤率以及學(xué)習(xí)型過濾器部200的分類錯誤率在結(jié)果判定存儲部390中存儲為錯誤率信息 308。另外,錯誤率計算部310根據(jù)在規(guī)定的期間內(nèi)生成的學(xué)習(xí)結(jié)果信息309來計算出 字符串匹配型過濾器部100的分類錯誤率與學(xué)習(xí)型過濾器部200的分類錯誤率。此處,分類錯誤率是指,從100%減去分類正確答案率而得到的值,所以可以將計 算分類錯誤率置換為計算分類正確答案率。即,錯誤率計算部310還可以被稱為計算分類 正確答案率。結(jié)果輸出部320根據(jù)字符串匹配型過濾器部100的字符串匹配部110確定出的符 合信息101、學(xué)習(xí)型過濾器部200的分類部220確定出的分類信息201、以及錯誤率計算部 310計算出的錯誤率信息308,使用CPU來確定分類對象文檔804所屬的類型。然后,結(jié)果 輸出部320將確定出的類型作為分類結(jié)果301而輸出到輸出設(shè)備。其相當于,結(jié)果輸出部 320根據(jù)符合信息101、分類信息201、以及各過濾器部的分類正確答案率來確定分類對象 文檔804的類型。例如,結(jié)果輸出部320在字符串匹配型過濾器部100的分類錯誤率比學(xué)習(xí)型過濾 器部200的分類錯誤率小的情況下將符合信息101表示的類型作為分類結(jié)果301而輸出, 在學(xué)習(xí)型過濾器部200的分類錯誤率比字符串匹配型過濾器部100的分類錯誤率小的情況 下將分類信息201表示的類型作為分類結(jié)果301而輸出。其相當于,在字符串匹配型過濾 器部100的分類正確答案率比學(xué)習(xí)型過濾器部200的分類正確答案率大的情況下將符合信 息101表示的類型作為分類結(jié)果301而輸出,在學(xué)習(xí)型過濾器部200的分類正確答案率比 字符串匹配型過濾器部100的分類正確答案率大的情況下將分類信息201表示的類型作為 分類結(jié)果301而輸出。另外例如,結(jié)果輸出部320用規(guī)定的數(shù)值來表示符合信息101與分類信息201,根 據(jù)字符串匹配型過濾器部100的分類錯誤率對符合信息101進行加權(quán),并且根據(jù)學(xué)習(xí)型過 濾器部200的分類錯誤率對分類信息201進行加權(quán)。接下來,結(jié)果輸出部320計算加權(quán)后 的符合信息101與加權(quán)后的分類信息201的平均值而作為加權(quán)平均值。然后,結(jié)果輸出部 320對計算出的加權(quán)平均值與規(guī)定的閾值進行比較,根據(jù)比較結(jié)果來輸出分類結(jié)果301。另外例如,在匹配條件信息109中,預(yù)先設(shè)定應(yīng)作為分類結(jié)果而優(yōu)先的特定的關(guān) 鍵字(優(yōu)先關(guān)鍵字)。然后,在字符串匹配型過濾器部100的字符串匹配部110判定為在分 類對象文檔804中不包含優(yōu)先關(guān)鍵字的情況下,結(jié)果輸出部320與字符串匹配型過濾器部 100和學(xué)習(xí)型過濾器部200的分類錯誤率的大小、加權(quán)平均值等無關(guān)地,將優(yōu)先關(guān)鍵字所屬的類型輸出為分類結(jié)果301。圖2是示出實施方式1中的信息過濾系統(tǒng)900的外觀的一個例子的圖。在圖2中,信息過濾系統(tǒng)900具備系統(tǒng)單元910、具有CRT (Cathode Ray Tube,陰 極射線管)、或LCD(液晶)顯示畫面的顯示裝置901、鍵盤902(Key Board :K/B)、鼠標903、 FDD904 (FlexibleDisk Drive,軟盤驅(qū)動器)、CDD905 (高密度盤裝置)、打印機裝置906、以 及掃描器裝置907等硬件資源,用電纜、或信號線來連接它們。系統(tǒng)單元910是計算機,通過電纜與傳真機932、電話機931連接,并且經(jīng)由 LAN942(局域網(wǎng))、網(wǎng)關(guān)941與因特網(wǎng)940連接。圖3是示出實施方式1中的信息過濾系統(tǒng)900的硬件資源的一個例子的圖。在圖3中,信息過濾系統(tǒng)900具備執(zhí)行程序的CPU911 (CentralProcessing Unit, 還被稱為中央處理裝置、處理裝置、運算裝置、微處理器、微計算機、以及處理器)。CPU911 經(jīng)由總線912與R0M913、RAM914、通信板915、顯示裝置901、鍵盤902、鼠標903、FDD904、 ⑶D905、打印機裝置906、掃描器裝置907、以及磁盤裝置920連接,對這些硬件設(shè)備進行控 制。也可以代替磁盤裝置920,而使用光盤裝置、存儲卡讀寫裝置等存儲裝置。RAM914是易失性存儲器的一個例子。R0M913、FDD904、⑶D905、以及磁盤裝置920 的存儲介質(zhì)是非易失性存儲器的一個例子。它們是存儲設(shè)備、存儲裝置或者存儲部的一個 例子。另外,存儲有輸入數(shù)據(jù)的存儲設(shè)備是輸入設(shè)備、輸入裝置或者輸入部的一個例子,存 儲有輸出數(shù)據(jù)的存儲設(shè)備是輸出設(shè)備、輸出裝置或者輸出部的一個例子。通信板915、鍵盤902、掃描器裝置907、以及FDD904等是輸入設(shè)備、輸入裝置或者 輸入部的一個例子。另外,通信板915、顯示裝置901、以及打印機裝置906等是輸出設(shè)備、輸出裝置或 者輸出部的一個例子。通信板915與傳真機932、電話機931、以及LAN942等連接。通信板915不限于 LAN942,而也可以與因特網(wǎng)940、ISDN等WAN(廣域網(wǎng))等連接。在與因特網(wǎng)940或者ISDN 等WAN連接的情況下,無需網(wǎng)關(guān)941。在磁盤裝置920中,存儲有0S921(操作系統(tǒng))、視窗系統(tǒng)922、程序組923、以及文 件組924。由CPU911、0S921、以及視窗系統(tǒng)922執(zhí)行程序組923的程序。在上述程序組923中,存儲有執(zhí)行在實施方式中說明為“ 部”的功能的程序。由 CPU911讀出程序并執(zhí)行該程序。在文件組924中,在實施方式中,將執(zhí)行了 “ 部”的功能時的“ 的判定結(jié)果”、 “ 的計算結(jié)果”、及“ 的處理結(jié)果”等結(jié)果數(shù)據(jù)、在執(zhí)行“ 部”的功能的程序之間交換的 數(shù)據(jù)、其他信息、數(shù)據(jù)、信號值、變量值、以及參數(shù)存儲為“ 文件”、“ 數(shù)據(jù)庫”的各項目。 符合信息101、匹配條件信息109、分類信息201、學(xué)習(xí)數(shù)據(jù)209、分類結(jié)果301、錯誤率信息 308、以及學(xué)習(xí)結(jié)果信息309等是包含在文件組924中的電子數(shù)據(jù)的一個例子。將“ 文件”、“ 數(shù)據(jù)庫”存儲在盤、存儲器等記錄介質(zhì)中。由CPU911通過讀寫電 路將存儲在盤、存儲器等存儲介質(zhì)中的信息、數(shù)據(jù)、信號值、變量值、以及參數(shù)讀出到主存儲 器、高速緩存存儲器中,而用于抽出、檢索、參照、比較、運算、計算、處理、輸出、印刷、以及顯 示等CPU的動作。在抽出、檢索、參照、比較、運算、計算、處理、輸出、印刷、以及顯示的CPU 的動作的期間,將信息、數(shù)據(jù)、信號值、變量值、以及參數(shù)臨時存儲在主存儲器、高速緩存存
13儲器、以及緩沖存儲器中。另外,在實施方式中說明的流程圖的箭頭的部分主要表示數(shù)據(jù)、信號的輸入輸出, 將數(shù)據(jù)、信號值記錄在RAM914的存儲器、FDD904的軟盤、CDD905的高密度盤、磁盤裝置920 的磁盤、其他光盤、迷你盤、以及DVD (Digital Versatile Disc,數(shù)字通用盤)等記錄介質(zhì) 中。另外,通過總線912、信號線、電纜、以及其他傳送介質(zhì),聯(lián)機傳送數(shù)據(jù)、信號值。另外,在實施方式中說明為“ 部”的部分,既可以是“ 電路”、“ 裝置”、以及“ 設(shè)備”,并且,也可以是“ 階段”、“ 步驟”、以及“ 處理”。即,說明為“ 部”的部分也可 以通過存儲在R0M913中的固件來實現(xiàn)?;蛘摺⒁部梢詢H通過軟件,或者僅通過元件、設(shè)備、 基板、以及布線等硬件,或者通過軟件與硬件的組合,進而通過與固件的組合來實施。將固 件與軟件作為程序,而存儲在磁盤、軟盤、光盤、高密度盤、迷你盤、以及DVD等記錄介質(zhì)中。 程序由CPU911讀出,并由CPU911執(zhí)行。即,信息過濾程序等程序使計算機作為“ 部”而 發(fā)揮功能?;蛘?,使計算機執(zhí)行“ 部”的步驟、方法。圖4是示出實施方式1中的學(xué)習(xí)結(jié)果生成處理的流程的流程圖。以下,參照圖4,對信息過濾系統(tǒng)900生成學(xué)習(xí)數(shù)據(jù)209、學(xué)習(xí)結(jié)果信息309以及錯 誤率信息308的方法進行說明。構(gòu)成信息過濾系統(tǒng)900的各部使用CPU來執(zhí)行以下說明的各處理。<S110 第2學(xué)習(xí)分類處理〉字符串匹配型過濾器部100的字符串匹配部110根據(jù)匹配條件信息109對學(xué)習(xí)用 文檔802進行字符串匹配,輸出符合信息101。以下,詳細說明第2學(xué)習(xí)分類處理(SllO)。首先,字符串匹配部110從輸入設(shè)備輸入學(xué)習(xí)用文檔802。由用戶預(yù)先確定學(xué)習(xí)用文檔802所屬的類型。接下來,字符串匹配部110從字符串匹配型過濾器存儲部190輸入匹配條件信息 109。在系統(tǒng)的運用前或者系統(tǒng)的運用中由用戶設(shè)定匹配條件信息109并存儲在字符 串匹配型過濾器存儲部190中。在匹配條件信息109中,針對每個類型設(shè)定了 1個以上的 屬于對輸入文檔801進行分類的各類型的分類關(guān)鍵字108。分類關(guān)鍵字108既可以是固定的用語,也可以是正規(guī)表現(xiàn)。例如,在匹配條件信息 109中,作為屬于“公司信息(機密信息的一個例子)”類型的分類關(guān)鍵字108,設(shè)定了“公 司外機密”這樣的固定的用語、或者、“公司*外*機密”這樣的正規(guī)表現(xiàn)?!?”表示任意的 1個文字或者任意的字符串(連續(xù)的多個文字、文字組),在“公司*外*機密”中還包括如 “公司_外_機密”(“_”表示空格)這樣在文字間包括空格的情形。即,對于正規(guī)表現(xiàn),在 1個標記中,可以將由于標記變化引起的不同的多個標記表示為相同意思的單詞。標記變化 是指,漢字后邊標記的假名、發(fā)音符號(長音符)、以及空格的有無。通過用正規(guī)表現(xiàn)來表示 分類關(guān)鍵字108,字符串匹配部110不僅可以將簡單的用語設(shè)為匹配對象,而且還可以將復(fù) 雜的表現(xiàn)設(shè)為匹配對象。另外,用戶也可以將各分類種類分別分成多個組,并且針對每個組設(shè)定分類關(guān)鍵 字108,對匹配條件信息109進行詳細化、分層化。例如,為了使信息過濾系統(tǒng)900檢測機密信息,用戶也可以將機密文檔分成“個人信息”、“顧客信息”、以及“新技術(shù)信息”等類型,作為屬于“個人信息”類型的組而設(shè)置“姓 名”、“住址”等,作為屬于“姓名”組的分類關(guān)鍵字108而設(shè)定“姓名”、”住址”、各個姓名 (“鈴木”、“佐藤”、以及“田中”等)、地名(“東京都”、“千代田區(qū)”等)等單詞(包括正規(guī) 表現(xiàn))。在該情況下,表示“姓名”、“住址”、各個姓名、以及地名的各分類關(guān)鍵字108屬于機 密文檔的“個人信息”類型。另外例如,用戶也可以針對表示機密的等級的每個級別對各類型進行分組。另外例如,用戶也可以按照時間單位(1年單位、1個月單位等)對各類型進行分 組。將公司設(shè)立時的部署名(包括簡稱)設(shè)為分類關(guān)鍵字108的組、將在XXXX年YY月ZZ 日通過組織改正變更的部署名設(shè)為分類關(guān)鍵字108的組是按照時間單位區(qū)分的組的一個 例子。用戶既可以針對每個分類關(guān)鍵字108進行追加、變更以及刪除而設(shè)定匹配條件信 息109,也可以針對每個組或者每個類型設(shè)定匹配條件信息109。匹配條件信息109表示由用戶設(shè)定的“1個以上的類型”、“屬于各類型的1個以上 的組”以及“屬于各組的1個以上的分類關(guān)鍵字108”。另外,用ID (Identifier,標識符)來 識別各組。匹配條件信息109既可以是羅列了類型、組以及分類關(guān)鍵字108的文本文件,也可 以是表示DFA (Deterministic Finite Automaton,決定性有限自動機)的狀態(tài)遷移表的表 文件。在作為DFA已知的方法中,對表示各分類關(guān)鍵字108的正規(guī)表現(xiàn)的匹配條件進行 編譯,生成表示匹配條件的狀態(tài)遷移表,根據(jù)該狀態(tài)遷移表來進行字符串匹配。預(yù)先,通過對匹配條件進行編譯并將狀態(tài)遷移表保存為匹配條件信息109,可以無 需系統(tǒng)起動時的編譯時間,而使系統(tǒng)的起動處理高速化。在DFA的狀態(tài)遷移表中,將文字的排列順序表示為“狀態(tài)(例如,狀態(tài)0、狀態(tài) 1、...)”,將“當前的狀態(tài)”與“接下來的文字”表示為表的列項目以及行項目,將“當前的狀 態(tài)”與“接下來的文字”的組合表示為“接下來的狀態(tài)”。字符串匹配部110從輸入文檔801 依次輸入文字,與輸入的文字對應(yīng)地從“當前的狀態(tài)”向“接下來的狀態(tài)”反復(fù)狀態(tài)遷移,在 “當前的狀態(tài)”成為最終狀態(tài)(表示分類關(guān)鍵字108的開頭文字至最終文字的排列順序的狀 態(tài))的情況下,判定為該分類關(guān)鍵字108包含在輸入文檔801中。圖5是示出實施方式1中的DFA的狀態(tài)遷移表的一個例子的圖。例如,用圖5的狀態(tài)遷移表來表示“abc”這樣的分類關(guān)鍵字108。其中,在圖5中, 僅針對“a”、“b”、“c”這3個文字示出狀態(tài)遷移,對其他文字M_,“d”、“e”、... “ζ”)進 行省略。在圖5中,第1列中示出的“狀態(tài)0 ”、“狀態(tài)1 ”、“狀態(tài)2 ”、以及“狀態(tài)3 ”表示當前 的狀態(tài),第1行中示出的“a”、“b”、以及“C”表示新的輸入文字(接下來的文字),第2行2 列至第5行4列的值表示接下來的狀態(tài)?!盃顟B(tài)0”表示沒有輸入分類關(guān)鍵字108的開頭文字“a”的狀態(tài)?!盃顟B(tài)1”表示輸入了類關(guān)鍵字108的開頭文字“a”的狀態(tài)。“狀態(tài)2”表示接著“a”輸入了 “b”的狀態(tài)?!盃顟B(tài)3”表示接著“油”輸入了 “C”的最終狀態(tài)。
在當前的狀態(tài)是“狀態(tài)0”的情況下,如果接下來的文字是“a”,則狀態(tài)遷移到“狀 態(tài)1 ”,如果接下來的文字是“b”或者“C”,則狀態(tài)保持“狀態(tài)0”。在當前的狀態(tài)是“狀態(tài)1”的情況下,如果接下來的文字是“a”則狀態(tài)保持“狀態(tài) 1”,如果接下來的文字是“b”則狀態(tài)遷移到“狀態(tài)2”,如果接下來的文字是“C”則狀態(tài)返回 到“狀態(tài)0”。在當前的狀態(tài)是“狀態(tài)2”的情況下,如果接下來的文字是“a”,則狀態(tài)返回到“狀 態(tài)1”,如果接下來的文字是“b”,則狀態(tài)返回到“狀態(tài)0”,如果接下來的文字是“C”則狀態(tài) 遷移到最終狀態(tài)即“狀態(tài)3”。S卩,僅限于文字的排列順序是“a — b — C”的情況,狀態(tài)成為表示“abc”這樣的分 類關(guān)鍵字108的最終狀態(tài)。字符串匹配部110在從字符串匹配型過濾器存儲部190輸入了匹配條件信息109 后,進行判定對匹配條件信息109設(shè)定的各分類關(guān)鍵字108是否包含在學(xué)習(xí)用文檔802中 的字符串匹配處理。例如,在字符串匹配處理中,使用C語言的strstr函數(shù)、gr印、sed、及perl等工 具、以及其他正規(guī)表現(xiàn)庫。字符串匹配處理既可以是將對匹配條件信息109設(shè)定的各分類關(guān)鍵字108作為檢 索關(guān)鍵字而檢索學(xué)習(xí)用文檔802的處理,也可以是對包含在學(xué)習(xí)用文檔802中的各詞與對 匹配條件信息109設(shè)定的各分類關(guān)鍵字108進行比較的處理。例如,通過形態(tài)分析來抽出 包含在學(xué)習(xí)用文檔802中的各詞。然后,字符串匹配部110根據(jù)字符串匹配處理的結(jié)果來生成符合信息101,將生成 的符合信息101輸出到正確答案比較部120。符合信息101表示學(xué)習(xí)用文檔802 (輸入文檔801的一個例子)符合哪個類型的 匹配條件(分類關(guān)鍵字108)、即學(xué)習(xí)用文檔802屬于哪個類型。符合信息101表示的類型 (學(xué)習(xí)用文檔802符合匹配條件的類型)表示字符串匹配部110確定出的學(xué)習(xí)用文檔802 所屬的類型。例如,字符串匹配部110在字符串匹配處理中,當判定為屬于某類型(例如,“個人 信息”)的多個分類關(guān)鍵字108中的至少1個分類關(guān)鍵字108 (例如,“姓名”)包含于學(xué)習(xí) 用文檔802中的情況下,判定為學(xué)習(xí)用文檔802屬于該類型(“個人信息”)。然后,字符串 匹配部110將學(xué)習(xí)用文檔802符合該類型(“個人信息”)的匹配條件這樣的信息設(shè)定到符 合信息101。另外例如,字符串匹配部110在字符串匹配處理中,對學(xué)習(xí)用文檔802針對每個類 型計算分類關(guān)鍵字108的出現(xiàn)次數(shù)(比特數(shù))的合計值。然后,字符串匹配部110判定為 學(xué)習(xí)用文檔802屬于所屬的分類關(guān)鍵字108的出現(xiàn)次數(shù)的合計值是規(guī)定的閾值以上的類 型,將學(xué)習(xí)用文檔802符合該類型的匹配條件這樣的信息設(shè)定到符合信息101。例如,將閾 值設(shè)為“10”。此時,字符串匹配部110判定是否在學(xué)習(xí)用文檔802內(nèi)的合計10個以上的部 位包含了“姓名”、“住址”、各個姓名、地名等屬于“個人信息”的各分類關(guān)鍵字108。然后, 字符串匹配部110在判定為在10個以上部位包含了屬于“個人信息”的各分類關(guān)鍵字108 的情況下,判定為學(xué)習(xí)用文檔802屬于“個人信息”。符合信息101既可以針對所有類型表示“符合”或者“不符合”,也可以并非以類型單位而按照組單位來表示“符合”或者“不符合”。接下來,對圖4的第2正確答案比較處理(S120)進行說明。<S120:第2正確答案比較處理〉在SllO后,字符串匹配型過濾器部100的正確答案比較部120對符合信息101與 正確答案信息803進行比較,將符合錯誤有無信息102積蓄為學(xué)習(xí)結(jié)果信息309。以下,對第2正確答案比較處理(S120)進行詳細說明。首先,正確答案比較部120輸入字符串匹配部110在SllO中輸出的符合信息101, 并且從輸入設(shè)備輸入正確答案信息803。接下來,正確答案比較部120對符合信息101與正確答案信息803進行比較,判定 符合信息101與正確答案信息803是否一致。正確答案信息803與學(xué)習(xí)用文檔802構(gòu)成組,設(shè)定了由用戶預(yù)先確定出的學(xué)習(xí)用 文檔802所屬的類型。對正確答案信息803設(shè)定的類型相對1個學(xué)習(xí)用文檔802既可以是 1個也可以是多個。例如,設(shè)為對正確答案信息803設(shè)定1個類型。此時,正確答案比較部120在對正 確答案信息803設(shè)定的類型以符合信息101表示為“符合”的情況下,判定為符合信息101 與正確答案信息803 —致。另外例如,設(shè)為對正確答案信息803設(shè)定多個類型。此時,正確答案比較部120在 針對對正確答案信息803設(shè)定的多個類型中的至少1個類型,符合信息101表示“符合”的 情況下,判定為符合信息101與正確答案信息803 —致。另外,正確答案比較部120也可以 僅在針對對正確答案信息803設(shè)定的多個類型的全部,符合信息101表示“符合”的情況下, 判定為符合信息101與正確答案信息803 —致。另外,正確答案比較部120也可以針對每 個類型判定符合信息101與正確答案信息803是否一致。然后,正確答案比較部120將表示判定結(jié)果的符合錯誤有無信息102作為學(xué)習(xí)結(jié) 果信息309而積蓄在結(jié)果判定存儲部390中。符合錯誤有無信息102將符合信息101與正確答案信息803的一致表示為“正確 答案”,將符合信息101與正確答案信息803的不一致表示為“錯誤”。接下來,對圖4的第1學(xué)習(xí)分類處理(S130)進行說明。<S130 第1學(xué)習(xí)分類處理>學(xué)習(xí)型過濾器部200的分類部220根據(jù)學(xué)習(xí)數(shù)據(jù)209對學(xué)習(xí)用文檔802進行分類, 輸出分類信息201。以下,對第1學(xué)習(xí)分類處理(S130)進行詳細說明。首先,分類部220從輸入設(shè)備輸入學(xué)習(xí)用文檔802,并且從學(xué)習(xí)型過濾器存儲部 290輸入學(xué)習(xí)數(shù)據(jù)209。學(xué)習(xí)數(shù)據(jù)209是學(xué)習(xí)部210根據(jù)正確答案信息803生成的統(tǒng)計信息,針對文檔的 每個類型設(shè)定了屬于該類型的各輸入文檔801中通用的統(tǒng)計信息。例如,在學(xué)習(xí)數(shù)據(jù)209 中,作為統(tǒng)計信息,設(shè)定了屬于該類型的文檔中出現(xiàn)的各用語的出現(xiàn)頻度。以下,設(shè)為在學(xué)習(xí)數(shù)據(jù)209中針對每個類型設(shè)定了各用語的出現(xiàn)頻度。出現(xiàn)頻度是指,例如,針對每一個輸入文檔801的出現(xiàn)次數(shù)、或針對每文字數(shù)的出 現(xiàn)次數(shù)。
17
接下來,分類部220抽出包含在學(xué)習(xí)用文檔802中的各詞,計算從學(xué)習(xí)用文檔802 中抽出的各詞的出現(xiàn)頻度。例如,對于包含在學(xué)習(xí)用文檔802中的各詞,既可以將對學(xué)習(xí)數(shù)據(jù)209設(shè)定的用語 作為檢索關(guān)鍵字而檢索學(xué)習(xí)用文檔802來抽出,也可以通過針對學(xué)習(xí)用文檔802的形態(tài)解 析來抽出。接下來,分類部220對包含在學(xué)習(xí)用文檔802中的各詞的出現(xiàn)頻度與對學(xué)習(xí)數(shù)據(jù) 209設(shè)定的各用語的出現(xiàn)頻度進行比較,確定學(xué)習(xí)用文檔802所屬的類型。例如,分類部220根據(jù)包含在學(xué)習(xí)用文檔802中的各詞的出現(xiàn)頻度與對學(xué)習(xí)數(shù)據(jù) 209設(shè)定的各用語的出現(xiàn)頻度,計算學(xué)習(xí)用文檔802屬于每個類型的概率(分類概率)。然 后,分類部220將分類概率最高的類型、或分類概率是規(guī)定的閾值(分類概率的第1閾值) 以上的類型確定為學(xué)習(xí)用文檔802所屬的類型。例如,根據(jù)樸素·貝葉斯(Naive Bayesian)分類法,通過下式1來計算分類概率。[式1] 此處,P(Ck|dm)輸入文Sdm屬于分類類型Ck的分類概率ck:分類類型dm:輸入文檔801Xi 包含在輸入文檔dm中的詞P(Ck)=(屬于分類類型Ck的學(xué)習(xí)用文檔802的數(shù)量)/(所有學(xué)習(xí)用文檔802的 數(shù)量)P(Xjck)=(在屬于分類類型Ck的學(xué)習(xí)用文檔802中包括詞Xi的文檔的數(shù)量)/ (屬于分類類型ck的學(xué)習(xí)用文檔802的數(shù)量)。然后,分類部220將確定出的學(xué)習(xí)用文檔802所屬的類型作為分類信息201而輸 出到學(xué)習(xí)部210。另外,也可以在分類信息201中設(shè)定類型的分類概率。接下來,對圖4的第1正確答案比較處理(S140)進行詳細說明。<S140 第1正確答案比較處理>在S130后,學(xué)習(xí)型過濾器部200的學(xué)習(xí)部210對分類信息201與正確答案信息 803進行比較,將分類錯誤有無信息202積蓄為學(xué)習(xí)結(jié)果信息309。以下,對第1正確答案比較處理(S140)進行詳細說明。首先,學(xué)習(xí)部210輸入分類部220輸出的分類信息201,并且從輸入設(shè)備輸入正確 答案信息803。接下來,學(xué)習(xí)部210對分類信息201與正確答案信息803進行比較,判定符合信息 101與正確答案信息803是否一致。例如,設(shè)為對正確答案信息803設(shè)定1個類型。此時,學(xué)習(xí)部210當在分類信息 201中示出對正確答案信息803設(shè)定的類型的情況下,判定為分類信息201與正確答案信息803 一致。另外例如,設(shè)為對正確答案信息803設(shè)定多個類型。此時,學(xué)習(xí)部210在分類信息 201中示出對正確答案信息803設(shè)定的多個類型中的至少1個類型的情況下,判定為分類信 息201與正確答案信息803 —致。另外,學(xué)習(xí)部210也可以僅在分類信息201中示出了對 正確答案信息803設(shè)定的多個類型的全部的情況下,判定為符合信息101與正確答案信息 803 一致。另外,學(xué)習(xí)部210也可以針對每個類型,判定分類信息201與正確答案信息803 是否一致。然后,學(xué)習(xí)部210將表示判定結(jié)果的分類錯誤有無信息202作為學(xué)習(xí)結(jié)果信息309 而積蓄在結(jié)果判定存儲部390中。分類錯誤有無信息202將分類信息201與正確答案信息803的一致表示為“正確 答案”,將分類信息201與正確答案信息803的不一致表示為“錯誤”。接下來,對圖4的學(xué)習(xí)處理(S150)進行說明。<S150:學(xué)習(xí)處理〉學(xué)習(xí)部210根據(jù)第1正確答案比較處理(S140)的判定結(jié)果來判定是否需要學(xué)習(xí) (S151),在判定為需要學(xué)習(xí)的情況下,根據(jù)學(xué)習(xí)用文檔802與正確答案信息803生成學(xué)習(xí)數(shù) 據(jù) 209(S152)。以下,對S151與S152進行詳細說明。<S151 是否需要學(xué)習(xí)判定處理〉學(xué)習(xí)部210在第1正確答案比較處理(S140)中判定為分類信息201與正確答案 信息803不一致的情況下,判定為需要學(xué)習(xí),在第1正確答案比較處理(S140)中判定為分 類信息201與正確答案信息803 —致的情況下判定為無需學(xué)習(xí)。學(xué)習(xí)是指,學(xué)習(xí)數(shù)據(jù)209的生成。僅在分類信息201與正確答案信息803不一致的情況下,即僅在發(fā)生了分類錯誤 的情況下,通過生成學(xué)習(xí)數(shù)據(jù)209,不需要的學(xué)習(xí)減少,可以實現(xiàn)學(xué)習(xí)時間的削減、分類精度 的提高。另外,學(xué)習(xí)部210也可以根據(jù)在第1學(xué)習(xí)分類處理(S130)中分類部220計算出的 分類概率或者正確答案信息803表示的類型來判定是否需要學(xué)習(xí)。例如,也可以設(shè)為即使在判定為分類信息201與正確答案信息803 —致的情況下, 在對分類信息201設(shè)定的類型的分類概率是規(guī)定的閾值(分類概率的第2閾值)以下的情 況下,學(xué)習(xí)部210判斷為沒有進行充分的學(xué)習(xí),而判定為需要學(xué)習(xí)。由此,可以進一步提高 分類精度。另外例如,也可以設(shè)為不論分類信息201與正確答案信息803是一致還是不一致, 在對正確答案信息803設(shè)定的類型是特定的類型的情況下,學(xué)習(xí)部210都判定為需要學(xué)習(xí)。 例如,在“個人信息”是特定的類型的情況下,屬于“個人信息”類型的學(xué)習(xí)用文檔802 —定 成為學(xué)習(xí)的對象。另外,也可以設(shè)為不論分類信息201與正確答案信息803是一致還是不一致,學(xué)習(xí) 部210 —定判定為需要學(xué)習(xí),而將所有學(xué)習(xí)用文檔802作為學(xué)習(xí)對象。即,也可以不執(zhí)行是 否需要學(xué)習(xí)判定處理(S151)。在判定為不需要學(xué)習(xí)的情況下,接下來,執(zhí)行S160。
<S152 學(xué)習(xí)數(shù)據(jù)生成處理>在S151中判定為需要學(xué)習(xí)的情況下,學(xué)習(xí)部210對學(xué)習(xí)用文檔802進行分析而計 算學(xué)習(xí)用文檔802的統(tǒng)計信息,將計算出的統(tǒng)計信息作為屬于與學(xué)習(xí)用文檔802相同的類 型的輸入文檔801的統(tǒng)計信息而反映在學(xué)習(xí)數(shù)據(jù)209中。例如,學(xué)習(xí)部210根據(jù)使用了貝葉斯理論(貝葉斯統(tǒng)計)、SVM或者神經(jīng)網(wǎng)絡(luò)模型 的算法來進行統(tǒng)計處理,而計算學(xué)習(xí)用文檔802的統(tǒng)計信息。例如,統(tǒng)計信息如上所述表示各用語的出現(xiàn)頻度。<S160>接下來,信息過濾系統(tǒng)900 (例如,字符串匹配型過濾器部100、學(xué)習(xí)型過濾器部 200)判定是否處理了由用戶輸入的所有學(xué)習(xí)用文檔802。在存在未處理的學(xué)習(xí)用文檔802的情況下,對未處理的學(xué)習(xí)用文檔802執(zhí)行 SllO S150的各處理。即,字符串匹配型過濾器部100以及學(xué)習(xí)型過濾器部200針對每個 學(xué)習(xí)用文檔802執(zhí)行SllO S150的各處理。在判定為處理了所有學(xué)習(xí)用文檔802的情況下,接下來,執(zhí)行錯誤率計算處理 (S170)。〈S 170 錯誤率計算處理>在對所有學(xué)習(xí)用文檔802執(zhí)行了 SllO S150的各處理后,結(jié)果判定部300的錯 誤率計算部310根據(jù)學(xué)習(xí)結(jié)果信息309計算字符串匹配型過濾器部100的分類錯誤率與學(xué) 習(xí)型過濾器部200的分類錯誤率。以下,對錯誤率計算處理(S170)進行詳細說明。首先,結(jié)果判定部300的錯誤率計算部310從結(jié)果判定存儲部390輸入學(xué)習(xí)結(jié)果 信息309。在學(xué)習(xí)結(jié)果信息309中包括從字符串匹配型過濾器部100的正確答案比較部120 輸出的各符合錯誤有無信息102與從學(xué)習(xí)型過濾器部200的學(xué)習(xí)部210輸出的各分類錯誤 有無信息202。即,學(xué)習(xí)結(jié)果信息309針對每個學(xué)習(xí)用文檔802,表示字符串匹配型過濾器 部100的分類是否正確以及學(xué)習(xí)型過濾器部200的分類是否正確。接下來,錯誤率計算部310根據(jù)學(xué)習(xí)結(jié)果信息309計算下式2,計算字符串匹配型 過濾器部100的分類錯誤率與學(xué)習(xí)型過濾器部200的分類錯誤率。分類錯誤率=錯誤發(fā)生數(shù)/學(xué)習(xí)文檔數(shù)...(式2)“錯誤發(fā)生數(shù)”是指,設(shè)定了“錯誤”的符合錯誤有無信息102或者分類錯誤有無信 息202的數(shù)量。“學(xué)習(xí)文檔數(shù)”是指,學(xué)習(xí)用文檔802的總數(shù)。另外,“學(xué)習(xí)文檔數(shù)”表示設(shè)定了“錯 誤”的符合錯誤有無信息102與設(shè)定了“正確答案”的符合錯誤有無信息102的合計數(shù)(符 合錯誤有無信息102的總數(shù))或者設(shè)定了“錯誤”的分類錯誤有無信息202與設(shè)定了“正確 答案”的分類錯誤有無信息202的合計數(shù)(分類錯誤有無信息202的總數(shù))。錯誤率計算部310也可以使用在一定期間內(nèi)積蓄的學(xué)習(xí)結(jié)果信息309來計算最近 的分類錯誤率。在分類對象文檔804中包含大量的新的用語這樣的情況下發(fā)生分類錯誤。 即,分類錯誤的發(fā)生頻度隨著時間的經(jīng)過而變化,舊的分類精度信息變得不重要。因此,錯 誤率計算部310通過考慮最近的分類錯誤的發(fā)生頻度,可以應(yīng)對分類錯誤的發(fā)生頻度的變 化。例如,在一定期間內(nèi)積蓄的學(xué)習(xí)結(jié)果信息309是指,依照新生成的順序的規(guī)定的件數(shù)的
20學(xué)習(xí)結(jié)果信息309(例如,最新的100件的學(xué)習(xí)結(jié)果信息309)。另外例如,一定期間內(nèi)積蓄 的學(xué)習(xí)結(jié)果信息309是指,以分類錯誤率的計算時、或生成了最新的學(xué)習(xí)結(jié)果信息309的時 刻為基準而在過去的規(guī)定的時間內(nèi)生成的學(xué)習(xí)結(jié)果信息309(例如,在過去1個月內(nèi)生成的 學(xué)習(xí)結(jié)果信息309)。然后,錯誤率計算部310將字符串匹配型過濾器部100的分類錯誤率與學(xué)習(xí)型過 濾器部200的分類錯誤率作為錯誤率信息308而存儲在結(jié)果判定存儲部390中。錯誤率信息308是用分類錯誤率來表示字符串匹配型過濾器部100的分類可靠性 與學(xué)習(xí)型過濾器部200的分類可靠性的信息。以上說明了學(xué)習(xí)結(jié)果生成處理(S110 S170)。在上述學(xué)習(xí)結(jié)果生成處理(S110 S170)中,字符串匹配型過濾器部100執(zhí)行的處理(S110 S120)與學(xué)習(xí)型過濾器部200執(zhí) 行的處理(S130 S150)是相互獨立的處理,也可以并行處理。例如,信息過濾系統(tǒng)900也 可以將字符串匹配型過濾器部100的處理設(shè)為一個線程,并且將學(xué)習(xí)型過濾器部200的處 理設(shè)為另一個線程,對字符串匹配型過濾器部100的處理與學(xué)習(xí)型過濾器部200的處理進 行多線程處理。通過對字符串匹配型過濾器部100的處理與學(xué)習(xí)型過濾器部200的處理進 行并行處理,學(xué)習(xí)結(jié)果生成處理(S110 S170)所需的處理時間被縮短。通過上述學(xué)習(xí)結(jié)果生成處理(S110 S170),生成學(xué)習(xí)數(shù)據(jù)209、學(xué)習(xí)結(jié)果信息309 以及錯誤率信息308。圖6是示出實施方式1中的信息過濾系統(tǒng)900的過濾處理的流程的流程圖。以下,根據(jù)圖6,說明使用通過學(xué)習(xí)結(jié)果生成處理(S110 S170)生成的學(xué)習(xí)數(shù)據(jù) 209以及錯誤率信息308,確定分類對象文檔804所屬的類型的過濾方法。構(gòu)成信息過濾系統(tǒng)900的各部使用CPU來執(zhí)行以下說明的各處理。<S210 第2分類處理〉字符串匹配型過濾器部100的字符串匹配部110與第2學(xué)習(xí)分類處理(SllO)同 樣地,根據(jù)匹配條件信息109對分類對象文檔804進行字符串匹配,輸出符合信息101。在S210中,字符串匹配的對象不是學(xué)習(xí)用文檔802而是分類對象文檔804,符合信 息101的輸出目的地不是正確答案比較部120而是結(jié)果判定部300的結(jié)果輸出部320。<S220 第1分類處理〉學(xué)習(xí)型過濾器部200的分類部220與第1學(xué)習(xí)分類處理(S130)同樣地,根據(jù)學(xué)習(xí) 數(shù)據(jù)209對分類對象文檔804進行分類,輸出分類信息201。在S220中,分類對象不是學(xué)習(xí)用文檔802而是分類對象文檔804,分類信息201的 輸出目的地不是學(xué)習(xí)部210而是結(jié)果判定部300的結(jié)果輸出部320。<S230 結(jié)果輸出處理>結(jié)果判定部300的結(jié)果輸出部320根據(jù)符合信息101、分類信息201、以及錯誤率 信息308,輸出分類結(jié)果301。以下,對結(jié)果輸出處理(S230)進行詳細說明。首先,結(jié)果輸出部320輸入字符串匹配型過濾器部100的字符串匹配部110在 S210的處理中輸出的符合信息101,輸入學(xué)習(xí)型過濾器部200的分類部220在S220的處理 中輸出的分類信息201,從結(jié)果判定存儲部390輸入錯誤率信息308。接下來,結(jié)果輸出部320根據(jù)符合信息101、分類信息201以及錯誤率信息308,確定分類對象文檔804所屬的類型。例如,結(jié)果輸出部320參照錯誤率信息308,將由分類錯誤率小(分類可靠性大) 的過濾器部(字符串匹配型過濾器部100或者學(xué)習(xí)型過濾器部200)確定出的類型選擇為 分類對象文檔804所屬的類型。S卩,如果字符串匹配型過濾器部100的分類錯誤率小于學(xué)習(xí)型過濾器部200的分 類錯誤率,則結(jié)果輸出部320將在字符串匹配型過濾器部100的符合信息101中設(shè)定為“符 合”的類型作為分類對象文檔804的類型。另外,如果學(xué)習(xí)型過濾器部200的分類錯誤率小 于字符串匹配型過濾器部100的分類錯誤率,則結(jié)果輸出部320將在學(xué)習(xí)型過濾器部200 的分類信息201中設(shè)定的類型作為分類對象文檔804的類型。另外,結(jié)果輸出部320在字符 串匹配型過濾器部100的分類錯誤率與學(xué)習(xí)型過濾器部200的分類錯誤率相同(或者差在 規(guī)定的范圍內(nèi))的情況下,求出在符合信息101中設(shè)定為“符合”的類型與在分類信息201 中設(shè)定的類型的邏輯和,將邏輯和表示的各類型設(shè)為分類對象文檔804的類型。例如,在符 合信息101中設(shè)定為“符合”的類型是A與B,在分類信息201中設(shè)定的類型是B與C,則分 類對象文檔804的類型成為A、B以及C。另外例如,結(jié)果輸出部320根據(jù)符合信息101與分類信息201的加權(quán)平均值和規(guī) 定的閾值的比較結(jié)果,來確定分類對象文檔804所屬的類型。此時,結(jié)果輸出部320用規(guī)定的數(shù)值來表示符合信息101與分類信息201。例如, 符合信息101被映射為“0”,分類信息201被映射為“1”。接下來,結(jié)果輸出部320通過下式3,計算基于對符合信息101的數(shù)值進行加權(quán)后 的符合信息101的加權(quán)值與對分類信息201的數(shù)值進行加權(quán)后的分類信息201的加權(quán)值的 加權(quán)平均值。在下式3中,利用相對兩個過濾器部的分類正確答案率(=1-分類錯誤率) (分類可靠性)的合計值的各過濾器部的分類正確答案率,對符合信息101與分類信息201 進行加權(quán)。加權(quán)平均值=匹配型過濾器結(jié)果X (匹配型過濾器正確答案率/(匹配型過濾器正確答案率+學(xué)習(xí)型過濾器正確答 案率))+學(xué)習(xí)型過濾器結(jié)果X (學(xué)習(xí)型過濾器正確答案率/(匹配型過濾器正確答案率+學(xué)習(xí)型過濾器正確答 案率))· · ·(式 3)“匹配型過濾器結(jié)果”是指,符合信息101的數(shù)值(例如,“0”)。“學(xué)習(xí)型過濾器結(jié)果”是指,分類信息201的數(shù)值(例如,“1”)?!捌ヅ湫瓦^濾器正確答案率”是指,字符串匹配型過濾器部100的分類正確答案率。“學(xué)習(xí)型過濾器正確答案率”是指,學(xué)習(xí)型過濾器部200的分類正確答案率。式3的第1項(匹配型過濾器結(jié)果X(...學(xué)習(xí)型過濾器正確答案率))表示符合 信息101的加權(quán)值,式3的第2項(學(xué)習(xí)型過濾器結(jié)果X (學(xué)習(xí)型過濾器正確答案率))表 示分類信息201的加權(quán)值。然后,結(jié)果輸出部320對通過上述式3計算出的加權(quán)平均值與規(guī)定的閾值進行比較,根據(jù)比較結(jié)果來確定分類對象文檔804的類型。例如,在符合信息101的數(shù)值是“0”、分類信息201的數(shù)值是“ 1”、字符串匹配型過 濾器部100的分類正確答案率是“0. 6(60% ) ”、學(xué)習(xí)型過濾器部200的分類正確答案率是 “0.4(40% )”的情況下,加權(quán)平均值成為“0.4( = (0X0. 6)+ (1X0. 4))。此時,如果閾值 是“0. 5”,則加權(quán)平均值(0. 4)小于閾值,與閾值相比接近符合信息101的值(0),所以結(jié)果 輸出部320將在符合信息101中設(shè)定為“符合”的類型作為分類對象文檔804的類型。另 外,如果閾值是“0. 3”,則加權(quán)平均值(0. 4)是閾值以上,與閾值相比接近分類信息201的值 (1),所以結(jié)果輸出部320將在分類信息201中設(shè)定的類型作為分類對象文檔804的類型。S卩,結(jié)果輸出部320在加權(quán)平均值小于閾值的情況下,將映射了小于閾值的值的 一方的過濾器部所確定的類型作為分類對象文檔804的類型,在加權(quán)平均值是閾值以上的 情況下,將映射了閾值以上的值的一方的過濾器部所確定的類型作為分類對象文檔804的 類型。與加權(quán)平均值的比較中使用的閾值表示重視哪個過濾器部的結(jié)果的程度。另外例如,結(jié)果輸出部320對各過濾器部的分類正確答案率乘上表示針對各過濾器 部的結(jié)果的重要度的加權(quán)系數(shù),對加權(quán)后的各過濾器部的分類正確答案率進行比較,將加權(quán) 后的分類正確答案率大的一方的過濾器部所確定的類型作為分類對象文檔804的類型。在字符串匹配型過濾器部100的分類正確答案率與學(xué)習(xí)型過濾器部200的分類正 確答案率都是“0. 5(50% ) ”、符合信息101的加權(quán)系數(shù)是“0. 7”、分類信息201的加權(quán)系數(shù) 是“1.0”的情況下,結(jié)果輸出部320對加權(quán)后的字符串匹配型過濾器部100的分類正確答 案率“0. 35( = 0. 5X0. 7),,與加權(quán)后的學(xué)習(xí)型過濾器部200的分類正確答案率“0. 5 (= 0.5X1. 0) ”進行比較。然后,由于學(xué)習(xí)型過濾器部200的加權(quán)后的分類正確答案率更大,所 以結(jié)果輸出部320將學(xué)習(xí)型過濾器部200所確定的類型作為分類對象文檔804的類型。另外例如,結(jié)果輸出部320將在分類信息201中設(shè)定的類型的分類概率與規(guī)定的 閾值(分類概率的第3閾值)進行比較,在分類概率是閾值以上的情況下,將在分類信息 201中設(shè)定的類型作為分類對象文檔804的類型,在分類概率小于閾值的情況下,將在符合 信息101中設(shè)定為“符合”的類型作為分類對象文檔804的類型。即,結(jié)果輸出部320根據(jù) 在分類信息201中設(shè)定的類型的分類概率的大小來確定分類對象文檔804的類型。另外例如,在字符串匹配型過濾器部100的匹配條件信息109中預(yù)先設(shè)定了優(yōu)先 關(guān)鍵字,并且在符合信息101中設(shè)定了優(yōu)先關(guān)鍵字所屬的類型的“符合”的情況下,結(jié)果輸 出部320與分類錯誤率的大小、加權(quán)平均值無關(guān)地,將優(yōu)先關(guān)鍵字所屬的類型作為分類對 象文檔804所屬的類型。例如,在匹配條件信息109中,對屬于類型的各分類關(guān)鍵字108進行分組,在用ID 來識別各組的情況下,用64比特整數(shù)來表示各組的ID,并且將最上位比特使用為優(yōu)先標 志。該情況下的優(yōu)先關(guān)鍵字是屬于對ID的優(yōu)先標志設(shè)定了 “1”的組(優(yōu)先組)的所有分 類關(guān)鍵字108。在機密信息檢測的應(yīng)用領(lǐng)域中,有時在機密信息中也要求對某特定的內(nèi)容(輸入 文檔801)進行100%檢測。例如,是用戶希望對包括表示特定的顧客的“XXX株式會社”這 樣的記述的文檔進行100%檢測的情況等。在這樣的情況下,設(shè)定了優(yōu)先關(guān)鍵字的信息過濾 系統(tǒng)900也不依賴于統(tǒng)計的方法(學(xué)習(xí)型過濾器部200的分類方法),而可以對包括優(yōu)先關(guān)
23鍵字的特定的文檔進行100%確定。另外,在由于用戶的環(huán)境的變化等而應(yīng)檢測的用語的詞匯(分類關(guān)鍵字108)大幅 增加的情況下,用戶將增加量的各新用語作為“新技術(shù)信息”類型的新的1組,并對該新的 組設(shè)定優(yōu)先標志,從而可以針對“新技術(shù)信息”類型從信息過濾系統(tǒng)900中得到高精度的分 類結(jié)果301。對新用語的組設(shè)定了優(yōu)先標志的信息過濾系統(tǒng)900針對包括新用語的學(xué)習(xí)用 文檔802在通過學(xué)習(xí)型過濾器部200進行的學(xué)習(xí)沒有結(jié)束的時刻,也與新用語對應(yīng)地將分 類對象文檔804分類為“新技術(shù)信息”類型,可以抑制分類結(jié)果301的精度降低。進而,通 過信息過濾系統(tǒng)900針對“新技術(shù)信息”類型高精度地輸出分類結(jié)果301,用戶可以將屬于 “新技術(shù)信息”類型的分類對象文檔804作為學(xué)習(xí)用文檔802而反饋給信息過濾系統(tǒng)900, 提高學(xué)習(xí)型過濾器部200的分類精度。確定了分類對象文檔804所屬的類型的結(jié)果輸出部320在分類結(jié)果301中設(shè)定所 確定的類型,將分類結(jié)果301輸出到輸出設(shè)備。結(jié)果輸出部320通過設(shè)定由分類可靠性高的一方的過濾器部確定的類型,可以提 高分類結(jié)果301的精度。另外,結(jié)果輸出部320也可以將由沒有選擇的一方的過濾器部確定的類型也作為 參考信息而設(shè)定到分類結(jié)果301。由此,可以催促用戶綜合性地判斷結(jié)果。在上述過濾處理(S210 S230)中,也可以對字符串匹配型過濾器部100的處理 (S210)與學(xué)習(xí)型過濾器部200的處理(S220)進行并行處理。通過對字符串匹配型過濾器 部100的處理與學(xué)習(xí)型過濾器部200的處理進行并行處理,過濾處理(S210 S220)所需 的處理時間被縮短。通過上述過濾處理(S210 S230),輸出表示分類對象文檔804所屬的類型的分類 結(jié)果301。 信息過濾系統(tǒng)900針對輸入的每個分類對象文檔804,執(zhí)行上述過濾處理(S210 S230)。圖7是示出實施方式1中的信息過濾系統(tǒng)900的運用步驟的流程圖。以下,根據(jù)圖7,對實施方式1中的信息過濾系統(tǒng)900的運用方法進行說明。〈S310 匹配條件設(shè)定處理>首先,用戶定義分類關(guān)鍵字108來生成匹配條件信息109,將生成的匹配條件信息 109存儲在字符串匹配型過濾器部100的字符串匹配型過濾器存儲部190中。<S320 學(xué)習(xí)結(jié)果生成處理>接下來,用戶對信息過濾系統(tǒng)900輸入學(xué)習(xí)用文檔802以及正確答案信息803,使 信息過濾系統(tǒng)900執(zhí)行根據(jù)圖4說明的學(xué)習(xí)結(jié)果生成處理(S110 S170)。信息過濾系統(tǒng) 900執(zhí)行學(xué)習(xí)結(jié)果生成處理(Si 10 S170)來生成學(xué)習(xí)結(jié)果信息309。但是,用戶也可以不必執(zhí)行學(xué)習(xí)結(jié)果生成處理(S320)。<S330 過濾處理 >接下來,用戶對信息過濾系統(tǒng)900輸入分類對象文檔804,使信息過濾系統(tǒng)900執(zhí) 行根據(jù)圖6說明的過濾處理(S210 S230)。信息過濾系統(tǒng)900通過執(zhí)行過濾處理(S210 S230)來輸出分類結(jié)果301。<S340 反饋判定處理〉
接下來,用戶根據(jù)分類結(jié)果301,判斷是否需要將分類對象文檔804作為學(xué)習(xí)用文 檔802而反饋到信息過濾系統(tǒng)900。在判定為無需反饋的情況下,用戶使處理進入到S360。通過分類對象文檔804的反饋,信息過濾系統(tǒng)900可以提高學(xué)習(xí)型過濾器部200 的分類精度。用戶考慮與用戶作業(yè)量的折衷(trade-off)來判斷是否反饋即可。通過反饋 所有過濾器通過文檔(輸出了分類結(jié)果301的所有分類對象文檔804),信息過濾系統(tǒng)900 加快學(xué)習(xí)型過濾器部200的分類精度的提高。但是,用戶通常通過僅將符合特定的條件(例 如,分類為“新技術(shù)用語”類型的條件)的分類對象文檔804作為反饋對象這樣的最低限的 用戶作業(yè),可以使信息過濾系統(tǒng)900提高學(xué)習(xí)型過濾器部200的分類精度。<S350 學(xué)習(xí)數(shù)據(jù)生成處理>在S340中判斷為需要反饋的用戶將分類對象文檔804作為學(xué)習(xí)用文檔802而輸 入到信息過濾系統(tǒng)900,并且生成分類對象文檔804的正確答案信息803,將生成的正確答 案信息803輸入到信息過濾系統(tǒng)900。在輸入了學(xué)習(xí)用文檔802與正確答案信息803的信 息過濾系統(tǒng)900中,學(xué)習(xí)型過濾器部200根據(jù)學(xué)習(xí)用文檔802與正確答案信息803,執(zhí)行圖 4中說明的學(xué)習(xí)數(shù)據(jù)生成處理(S152),生成學(xué)習(xí)數(shù)據(jù)209。<S360>用戶判斷是否使信息過濾系統(tǒng)900處理了所有分類對象文檔804。在存在未處理的分類對象文檔804的情況下,用戶使處理返回到S310。在對所有分類對象文檔804結(jié)束了處理的情況下,用戶結(jié)束信息過濾系統(tǒng)900的 運用。在上述說明中以機密信息文檔的分類為例子,但信息過濾系統(tǒng)900的分類對象不 限于機密信息,而可以廣泛用于一般的文檔的分類。另外,在上述說明中以日語文檔的分 類為例子,但信息過濾系統(tǒng)900的分類對象不限于日語文檔,而對任何文字代碼的文檔都 可以應(yīng)用。另外,在上述說明中作為非學(xué)習(xí)型過濾器的例子舉出了字符串匹配型過濾器部 100。但是,即使是如學(xué)習(xí)型過濾器部200那樣通過學(xué)習(xí)來生成分類條件(學(xué)習(xí)數(shù)據(jù)209) 的過濾器,在通過預(yù)先進行的學(xué)習(xí)來預(yù)先生成分類條件,而不進行追加學(xué)習(xí)的情況下,由于 分類條件被固定,所以可以將該過濾器考慮為非學(xué)習(xí)型過濾器。在實施方式1中,對以下那樣的信息過濾系統(tǒng)900進行了說明。信息過濾系統(tǒng)900具備2個以上的針對輸入文檔801判定相應(yīng)于多個規(guī)定的分類 中的哪一個的過濾器(字符串匹配型過濾器部100、學(xué)習(xí)型過濾器部200)。另外,信息過濾系統(tǒng)900具備根據(jù)各過濾器的結(jié)果(符合信息101、分類信息201) 判定輸入文檔801的分類的最終結(jié)果(分類結(jié)果301)的學(xué)習(xí)型過濾器部200。過濾器中的至少1個是如下學(xué)習(xí)型過濾器部200 將附加了表示對多個分類相應(yīng) 于哪個分類的正確答案信息803的學(xué)習(xí)取樣輸入文檔(學(xué)習(xí)用文檔802)作為輸入而進行 學(xué)習(xí)來更新學(xué)習(xí)數(shù)據(jù)209,根據(jù)該學(xué)習(xí)數(shù)據(jù)來判定過濾對象輸入文檔(分類對象文檔804) 相應(yīng)于哪個分類。各過濾器在學(xué)習(xí)動作時,對正確答案信息803與學(xué)習(xí)取樣輸入文檔的分類結(jié)果 (符合信息101、分類信息201)進行比較,進行是否為錯誤的判定,輸出錯誤信息(符合錯 誤有無信息102、分類錯誤有無信息202)。
25
結(jié)果判定部300分別積蓄各過濾器的錯誤信息,計算各個過濾器的錯誤率。結(jié)果判定部300在分類動作時,根據(jù)各過濾器的判定結(jié)果(符合信息101、分類信 息201)與錯誤信息來輸出最終結(jié)果(分類結(jié)果301)。另外,在信息過濾系統(tǒng)900中,上述過濾器中的至少1個(字符串匹配型過濾器部 100)是在學(xué)習(xí)動作時不進行學(xué)習(xí)數(shù)據(jù)(匹配條件信息109)的更新,而僅進行錯誤信息(符 合錯誤有無信息102)的輸出的非學(xué)習(xí)型過濾器。另外,結(jié)果判定部300將錯誤率小的過濾器的結(jié)果作為最終結(jié)果而輸出。另外,結(jié)果判定部300根據(jù)錯誤率,取得各過濾器的判定結(jié)果的加權(quán)平均,輸出最 終結(jié)果。另外,結(jié)果判定部300在積蓄錯誤信息時,積蓄過去一定件數(shù)的錯誤信息。另外,非學(xué)習(xí)型過濾器對輸入文檔進行基于1個以上的匹配條件(分類關(guān)鍵字 108)的字符串匹配,將匹配結(jié)果是否與正確答案信息803符合作為判定結(jié)果(符合錯誤有 無信息102)。另外,將匹配條件表示為匹配條件ID和與其對應(yīng)的匹配條件的組(group)的集
口 O字符串匹配過濾器針對各個匹配條件ID中的每個匹配條件ID輸出是否符合的判
定結(jié)果。結(jié)果判定部300在輸入文檔801符合于特定的匹配條件ID的情況下,與其他結(jié)果 無關(guān)地將其作為最終結(jié)果而輸出。另外,字符串匹配過濾器進行基于決定性有限自動機(DFA)的字符串匹配。另外,字符串匹配過濾器對匹配條件進行編譯而制作狀態(tài)遷移表,將該狀態(tài)遷移 表保存為匹配條件文件,使用匹配條件文件表示的狀態(tài)遷移表來執(zhí)行匹配處理。另外,字符串匹配過濾器進行基于非決定性有限自動機(NFA)的字符串匹配。實施方式2.在實施方式2中,對具有多個學(xué)習(xí)型過濾器的信息過濾系統(tǒng)900進行說明。以下,主要說明與實施方式1不同的事項,省略說明的事項與實施方式1相同。圖8是實施方式2中的信息過濾系統(tǒng)900的功能結(jié)構(gòu)圖。以下,根據(jù)圖8,對實施方式2中的信息過濾系統(tǒng)900的功能結(jié)構(gòu)進行說明。信息過濾系統(tǒng)900具備學(xué)習(xí)型過濾器部200a、學(xué)習(xí)型過濾器部200b、以及學(xué)習(xí)型 過濾器部200c等多個學(xué)習(xí)型過濾器部200。將多個學(xué)習(xí)型過濾器部200作為學(xué)習(xí)型過濾器 集合部400。學(xué)習(xí)型過濾器部200a、學(xué)習(xí)型過濾器部200b、以及學(xué)習(xí)型過濾器部200c等各學(xué)習(xí) 型過濾器部200與實施方式1的學(xué)習(xí)型過濾器部200同樣地,具備學(xué)習(xí)部210、分類部220 以及學(xué)習(xí)型過濾器存儲部290 (省略圖示),具有與實施方式1的學(xué)習(xí)型過濾器部200相同 的功能。但是,各學(xué)習(xí)型過濾器部200的學(xué)習(xí)部210執(zhí)行分別不同的統(tǒng)計處理。例如,學(xué)習(xí) 型過濾器部200a的學(xué)習(xí)部210進行基于貝葉斯理論的統(tǒng)計處理,學(xué)習(xí)型過濾器部200b的 學(xué)習(xí)部210進行基于SVM的統(tǒng)計處理,學(xué)習(xí)型過濾器部200c的學(xué)習(xí)部210進行基于神經(jīng)網(wǎng) 絡(luò)模型的統(tǒng)計處理。由此,各學(xué)習(xí)型過濾器部200分別生成獨自的學(xué)習(xí)數(shù)據(jù)209,根據(jù)各自的學(xué)習(xí)數(shù)據(jù)209來生成分類信息201。通過各學(xué)習(xí)型過濾器部200進行不同的統(tǒng)計處理,由至少某一個學(xué)習(xí)型過濾器部 200正確地對分類對象文檔804進行分類的可能性變高,分類結(jié)果301的分類精度提高。各學(xué)習(xí)型過濾器部200分別將針對分類對象文檔804的分類信息201輸出到結(jié)果 輸出部320。在結(jié)果判定存儲部390中,作為學(xué)習(xí)結(jié)果信息309,積蓄有字符串匹配型過濾器部 100的符合錯誤有無信息102與各學(xué)習(xí)型過濾器部200的分類錯誤有無信息202。錯誤率計算部310既可以將針對每個學(xué)習(xí)型過濾器部200計算出的各分類錯誤率 作為學(xué)習(xí)型過濾器集合部400的分類錯誤率,也可以將各學(xué)習(xí)型過濾器部200的分類錯誤 率合并而計算學(xué)習(xí)型過濾器集合部400的分類錯誤率。例如,學(xué)習(xí)型過濾器集合部400的 分類錯誤率成為各學(xué)習(xí)型過濾器部200的分類錯誤率的平均值、各學(xué)習(xí)型過濾器部200的 分類錯誤率中的最大值或者最小值。錯誤率信息308表示字符串匹配型過濾器部100的分類錯誤率與學(xué)習(xí)型過濾器集 合部400的分類錯誤率。結(jié)果輸出部320根據(jù)字符串匹配型過濾器部100的分類錯誤率與學(xué)習(xí)型過濾器集 合部400的分類錯誤率,與實施方式1同樣地,確定分類對象文檔804所屬的類型,將確定 出的類型作為分類結(jié)果301而輸出。例如,結(jié)果輸出部320在字符串匹配型過濾器部100的分類錯誤率小于學(xué)習(xí)型過 濾器集合部400的合并的分類錯誤率的情況下,將字符串匹配型過濾器部100所確定出的 類型設(shè)為分類對象文檔804所屬的類型,在學(xué)習(xí)型過濾器集合部400的合并的分類錯誤率 小于字符串匹配型過濾器部100的分類錯誤率的情況下,將學(xué)習(xí)型過濾器集合部400所確 定出的類型設(shè)為分類對象文檔804所屬的類型。另外例如,結(jié)果輸出部320將由字符串匹配型過濾器部100與各學(xué)習(xí)型過濾器部 200中的分類錯誤率最小的過濾器確定出的類型設(shè)為分類對象文檔804所屬的類型。另外,結(jié)果輸出部320將合并了各學(xué)習(xí)型過濾器部200的分類信息201的結(jié)果作 為學(xué)習(xí)型過濾器集合部400所確定出的類型。例如,結(jié)果輸出部320通過多數(shù)決定法(majority vote)來合并各分類信息201。 即,結(jié)果輸出部320將在各學(xué)習(xí)型過濾器部200的分類信息201中設(shè)定的類型中的、在最多 的分類信息201中設(shè)定的類型作為學(xué)習(xí)型過濾器集合部400所確定出的類型。另外例如,結(jié)果輸出部320將在各分類信息201中設(shè)定的各類型的邏輯和作為合
并結(jié)果。另外例如,結(jié)果輸出部320與實施方式1同樣地,計算各分類信息201的加權(quán)平均 值,對計算出的加權(quán)平均值與規(guī)定的閾值進行比較,根據(jù)比較結(jié)果來選擇1個(或者多個) 分類信息201,將選擇出的分類信息201作為合并結(jié)果。另外例如,結(jié)果輸出部320與實施方式1同樣地,對加權(quán)后的各學(xué)習(xí)型過濾器部 200的分類正確答案率進行比較,將分類正確答案率最大的學(xué)習(xí)型過濾器部200的分類信 息201作為合并結(jié)果。另外例如,結(jié)果輸出部320對在各分類信息201中設(shè)定的類型的分類概率進行比 較,將分類概率最高的類型作為合并結(jié)果。
27
另外,結(jié)果輸出部320也可以通過多數(shù)決定法、邏輯和、加權(quán)平均值、以及加權(quán)分 類正確答案率等對字符串匹配型過濾器部100的符合信息101與各學(xué)習(xí)型過濾器部200的 分類信息201進行合并,將合并結(jié)果作為分類對象文檔804所屬的類型。例如,在由于希望檢測屬于機密信息的分類對象文檔804,所以消除檢測遺漏被優(yōu) 先,而過剩檢測增加也可以這樣的情況下,將通過邏輯和得到的合并結(jié)果作為分類對象文 檔804所屬的類型的方法是有效的。另外例如,在希望將檢測遺漏與過剩檢測都抑制為最小限這樣的情況下,將通過 多數(shù)決定法得到的合并結(jié)果作為分類對象文檔804所屬的類型的方法是有效的。另外,信息過濾系統(tǒng)900的外觀、硬件資源、學(xué)習(xí)結(jié)果生成處理、過濾處理、以及運 用步驟等與實施方式1相同。在實施方式2中,對以下那樣的的信息過濾系統(tǒng)900進行了說明。結(jié)果輸出部320合并多個學(xué)習(xí)型過濾器的輸出(分類信息201)而視為1個學(xué)習(xí) 型過濾器輸出。另外,結(jié)果輸出部320在合并多個學(xué)習(xí)型過濾器的輸出而視為1個學(xué)習(xí)型過濾器 輸出時,通過邏輯和來合并各個學(xué)習(xí)型過濾器的輸出。另外,結(jié)果輸出部320在合并多個學(xué)習(xí)型過濾器的輸出而視為1個學(xué)習(xí)型過濾器 輸出時,通過多數(shù)決定法來合并各個學(xué)習(xí)型過濾器的輸出。
28
權(quán)利要求
一種信息過濾系統(tǒng),其特征在于,具備第1過濾器部,從輸入設(shè)備輸入屬于多個種類中的至少任意一個種類的文檔數(shù)據(jù),使用CPU(Central Processing Unit,中央處理單元)來執(zhí)行確定所輸入的上述文檔數(shù)據(jù)所屬的種類的規(guī)定的分類處理,將輸入的上述文檔數(shù)據(jù)所屬的種類確定為第1分類信息;第2過濾器部,從輸入設(shè)備輸入上述文檔數(shù)據(jù),使用CPU來執(zhí)行與上述第1過濾器部的上述分類處理不同的規(guī)定的分類處理,將輸入的上述文檔數(shù)據(jù)所屬的種類確定為第2分類信息;第1正確答案比較部,使用CPU,對將預(yù)先確定了所屬的種類的多個學(xué)習(xí)文檔數(shù)據(jù)分別作為上述文檔數(shù)據(jù)而由上述第1過濾器部確定出的上述多個學(xué)習(xí)文檔數(shù)據(jù)的上述第1分類信息、與表示預(yù)先確定的上述所屬的種類的上述多個學(xué)習(xí)文檔數(shù)據(jù)的正確答案信息進行比較,根據(jù)比較結(jié)果來生成表示上述第1分類信息是否與上述正確答案信息一致的上述多個學(xué)習(xí)文檔數(shù)據(jù)的第1學(xué)習(xí)結(jié)果信息,將生成的上述多個學(xué)習(xí)文檔數(shù)據(jù)的上述第1學(xué)習(xí)結(jié)果信息存儲在存儲設(shè)備中;第2正確答案比較部,使用CPU,對將上述多個學(xué)習(xí)文檔數(shù)據(jù)分別作為上述文檔數(shù)據(jù)而由上述第2過濾器部確定出的上述多個學(xué)習(xí)文檔數(shù)據(jù)的上述第2分類信息、與上述多個學(xué)習(xí)文檔數(shù)據(jù)的上述正確答案信息進行比較,根據(jù)比較結(jié)果來生成表示上述第2分類信息是否與上述正確答案信息一致的上述多個學(xué)習(xí)文檔數(shù)據(jù)的第2學(xué)習(xí)結(jié)果信息,將生成的上述多個學(xué)習(xí)文檔數(shù)據(jù)的上述第2學(xué)習(xí)結(jié)果信息存儲在存儲設(shè)備中;錯誤率計算部,使用CPU,根據(jù)上述第1正確答案比較部生成的上述多個上述學(xué)習(xí)文檔數(shù)據(jù)的上述第1學(xué)習(xí)結(jié)果信息,計算表示上述第1分類信息與上述正確答案信息不一致的比例的第1錯誤率,并且使用CPU,根據(jù)上述第2正確答案比較部生成的上述多個上述學(xué)習(xí)文檔數(shù)據(jù)的上述第2學(xué)習(xí)結(jié)果信息,計算表示上述第2分類信息與上述正確答案信息不一致的比例的第2錯誤率;以及結(jié)果輸出部,使用CPU,根據(jù)將分類為特定的種類的對象即分類對象文檔數(shù)據(jù)作為上述文檔數(shù)據(jù)而由上述第1過濾器部確定出的上述第1分類信息、將上述分類對象文檔數(shù)據(jù)作為上述文檔數(shù)據(jù)而由上述第2過濾器部確定出的上述第2分類信息、上述錯誤率計算部計算出的上述第1錯誤率、以及上述錯誤率計算部計算出的上述第2錯誤率,確定上述分類對象文檔數(shù)據(jù)所屬的種類,將確定出的種類作為分類結(jié)果而輸出到輸出設(shè)備。
2.根據(jù)權(quán)利要求1所述的信息過濾系統(tǒng),其特征在于, 上述第1過濾器部是具備如下部件的學(xué)習(xí)型過濾器部學(xué)習(xí)部,從輸入設(shè)備輸入多組上述學(xué)習(xí)文檔數(shù)據(jù)與上述正確答案信息的組,根據(jù)上述 多組使用CPU來執(zhí)行將屬于各種類的各學(xué)習(xí)文檔數(shù)據(jù)中通用的統(tǒng)計信息作為學(xué)習(xí)數(shù)據(jù)而 生成的統(tǒng)計處理,將通過上述統(tǒng)計處理生成的上述學(xué)習(xí)數(shù)據(jù)存儲在存儲設(shè)備中;以及學(xué)習(xí)型分類部,從輸入設(shè)備輸入上述分類對象文檔數(shù)據(jù),使用CPU,針對每個種類,計算 上述分類對象文檔數(shù)據(jù)對應(yīng)于由上述學(xué)習(xí)部生成的上述學(xué)習(xí)數(shù)據(jù)表示的上述統(tǒng)計信息的 比率而作為分類概率,根據(jù)每個種類的上述分類概率來確定上述分類對象文檔數(shù)據(jù)所屬的 種類。
3.根據(jù)權(quán)利要求2所述的信息過濾系統(tǒng),其特征在于,上述學(xué)習(xí)部使用貝葉斯理論、SVM(Support Vector Machine,支持向量機)、和神經(jīng)網(wǎng)絡(luò)模型中的某一個進行上述統(tǒng)計處理。
4.根據(jù)權(quán)利要求3所述的信息過濾系統(tǒng),其特征在于,上述第2過濾器部是如下字符串匹配型過濾器部從輸入設(shè)備輸入上述文檔數(shù)據(jù),從將屬于各種類的分類關(guān)鍵字預(yù)先存儲為匹配條件信 息的存儲設(shè)備中輸入上述匹配條件信息,使用CPU,執(zhí)行判定上述匹配條件信息表示的各種 類的上述分類關(guān)鍵字是否包含在上述文檔數(shù)據(jù)中的字符串匹配處理,將通過上述字符串匹 配處理判定為包含在上述文檔數(shù)據(jù)中的上述分類關(guān)鍵字所屬的種類確定為上述文檔數(shù)據(jù) 所屬的種類。
5.根據(jù)權(quán)利要求4所述的信息過濾系統(tǒng),其特征在于,上述字符串匹配型過濾器部使用決定性有限自動機來進行上述字符串匹配處理。
6.根據(jù)權(quán)利要求5所述的信息過濾系統(tǒng),其特征在于,上述字符串匹配型過濾器部將表示上述分類關(guān)鍵字的上述決定性有限自動機的狀態(tài) 遷移表作為上述匹配條件信息而執(zhí)行上述字符串匹配處理。
7.根據(jù)權(quán)利要求4所述的信息過濾系統(tǒng),其特征在于,上述字符串匹配型過濾器部使用非決定性有限自動機來進行上述字符串匹配處理。
8.根據(jù)權(quán)利要求4所述的信息過濾系統(tǒng),其特征在于,上述結(jié)果輸出部在上述第1錯誤率小于上述第2錯誤率的情況下,將上述第1分類信 息作為上述分類結(jié)果而輸出,在上述第2錯誤率小于上述第1錯誤率的情況下,將上述第2 分類信息作為上述分類結(jié)果而輸出。
9.根據(jù)權(quán)利要求4所述的信息過濾系統(tǒng),其特征在于,上述結(jié)果輸出部用規(guī)定的數(shù)值來表示上述第1分類信息與上述第2分類信息,根據(jù)上 述第1錯誤率對上述第1分類信息進行加權(quán),并且根據(jù)上述第2錯誤率對上述第2分類信 息進行加權(quán),計算加權(quán)后的上述第1分類信息與加權(quán)后的上述第2分類信息的平均值而作 為加權(quán)平均值,對計算出的加權(quán)平均值與規(guī)定的閾值進行比較,根據(jù)比較結(jié)果輸出上述分 類結(jié)果。
10.根據(jù)權(quán)利要求4所述的信息過濾系統(tǒng),其特征在于,上述匹配條件信息將多個上述分類關(guān)鍵字中的特定的上述分類關(guān)鍵字表示為特定關(guān) 鍵字,上述結(jié)果輸出部輸出上述特定關(guān)鍵字所屬的種類,作為由上述字符串匹配型過濾器部 判定為包括上述特定關(guān)鍵字的上述分類對象文檔數(shù)據(jù)的上述分類結(jié)果。
11.根據(jù)權(quán)利要求4所述的信息過濾系統(tǒng),其特征在于,上述錯誤率計算部根據(jù)在規(guī)定的期間內(nèi)生成的上述第1學(xué)習(xí)結(jié)果信息來計算上述第1 錯誤率,并且根據(jù)在上述規(guī)定的期間內(nèi)生成的上述第2學(xué)習(xí)結(jié)果信息來計算上述第2錯誤率。
12.根據(jù)權(quán)利要求2所述的信息過濾系統(tǒng),其特征在于,上述學(xué)習(xí)型過濾器部具備第1學(xué)習(xí)型過濾器部與第2學(xué)習(xí)型過濾器部,上述第1學(xué)習(xí)型過濾器部與上述第2學(xué)習(xí)型過濾器部分別具備上述學(xué)習(xí)部與上述學(xué)習(xí) 型分類部,上述第1學(xué)習(xí)型過濾器部的上述學(xué)習(xí)部與上述第2學(xué)習(xí)型過濾器部的上述學(xué)習(xí)部執(zhí)行分別不同的上述統(tǒng)計處理,上述第1分類信息表示第1學(xué)習(xí)分類信息和第2學(xué)習(xí)分類信息,其中,第1學(xué)習(xí)分類信 息表示由上述第1學(xué)習(xí)型過濾器部的上述學(xué)習(xí)型分類部確定出的上述種類,第2學(xué)習(xí)分類 信息表示由上述第2學(xué)習(xí)型過濾器部的上述學(xué)習(xí)型分類部確定出的上述種類。
13.根據(jù)權(quán)利要求12所述的信息過濾系統(tǒng),其特征在于,上述結(jié)果輸出部在將上述第1分類信息作為上述分類結(jié)果而輸出的情況下,求出上述 第1學(xué)習(xí)分類信息表示的上述種類與上述第2學(xué)習(xí)分類信息表示的上述種類的邏輯和,將 求出的上述邏輯和表示的上述種類作為上述分類結(jié)果而輸出。
14.根據(jù)權(quán)利要求12所述的信息過濾系統(tǒng),其特征在于,上述結(jié)果輸出部在將上述第1分類信息作為上述分類結(jié)果而輸出的情況下,根據(jù)上述 第1學(xué)習(xí)分類信息表示的上述種類的上述分類概率與上述第2學(xué)習(xí)分類信息表示的上述種 類的上述分類概率,輸出上述分類結(jié)果。
15.根據(jù)權(quán)利要求12所述的信息過濾系統(tǒng),其特征在于,上述結(jié)果輸出部在將上述第1分類信息作為上述分類結(jié)果而輸出的情況下,根據(jù)上述 第1學(xué)習(xí)分類信息的上述第1錯誤率對上述第1學(xué)習(xí)分類信息進行加權(quán),并且根據(jù)上述第 1學(xué)習(xí)分類信息的上述第1錯誤率對上述第1學(xué)習(xí)分類信息進行加權(quán),計算加權(quán)后的上述 第1學(xué)習(xí)分類信息與加權(quán)后的上述第2學(xué)習(xí)分類信息的平均值而作為加權(quán)平均值,對計算 出的加權(quán)平均值與規(guī)定的閾值進行比較,根據(jù)比較結(jié)果輸出上述分類結(jié)果。
16.根據(jù)權(quán)利要求2所述的信息過濾系統(tǒng),其特征在于,上述學(xué)習(xí)型過濾器部具備多個上述學(xué)習(xí)部與上述學(xué)習(xí)型分類部的組,多個上述學(xué)習(xí)部執(zhí)行分別不同的上述統(tǒng)計處理,上述第1分類信息表示由各組的上述學(xué)習(xí)型分類部分別確定出的上述種類,上述結(jié)果輸出部在將上述第1分類信息作為上述分類結(jié)果而輸出的情況下,將在最多 的組中確定的上述種類作為上述分類結(jié)果而輸出。
17.一種信息過濾方法,其特征在于,第1過濾器部進行第1過濾器處理,其中,從輸入設(shè)備輸入屬于多個種類中的至少任意 一個種類的文檔數(shù)據(jù),使用CPWCentralProcessing Unit)來執(zhí)行確定所輸入的上述文檔 數(shù)據(jù)所屬的種類的規(guī)定的分類處理,將輸入的上述文檔數(shù)據(jù)所屬的種類確定為第1分類信 息?第2過濾器部進行第2過濾器處理,其中,從輸入設(shè)備輸入上述文檔數(shù)據(jù),使用CPU來 執(zhí)行與上述第1過濾器部的上述分類處理不同的規(guī)定的分類處理,將輸入的上述文檔數(shù)據(jù) 所屬的種類確定為第2分類信息;第1正確答案比較部進行第1正確答案比較處理,其中,使用CPU,對將預(yù)先確定了所屬 的種類的多個學(xué)習(xí)文檔數(shù)據(jù)分別作為上述文檔數(shù)據(jù)而由上述第1過濾器部確定出的上述 多個學(xué)習(xí)文檔數(shù)據(jù)的上述第1分類信息、與表示預(yù)先確定的上述所屬的種類的上述多個學(xué) 習(xí)文檔數(shù)據(jù)的正確答案信息進行比較,根據(jù)比較結(jié)果,生成表示上述第1分類信息是否與 上述正確答案信息一致的上述多個學(xué)習(xí)文檔數(shù)據(jù)的第1學(xué)習(xí)結(jié)果信息,將生成的上述多個 學(xué)習(xí)文檔數(shù)據(jù)的上述第1學(xué)習(xí)結(jié)果信息存儲在存儲設(shè)備中,第2正確答案比較部進行第2正確答案比較處理,其中,使用CPU,對將上述多個學(xué)習(xí)文檔數(shù)據(jù)分別作為上述文檔數(shù)據(jù)而由上述第2過濾器部確定出的上述多個學(xué)習(xí)文檔數(shù)據(jù)的 上述第2分類信息、與上述多個學(xué)習(xí)文檔數(shù)據(jù)的上述正確答案信息進行比較,根據(jù)比較結(jié) 果來生成表示上述第2分類信息是否與上述正確答案信息一致的上述多個學(xué)習(xí)文檔數(shù)據(jù) 的第2學(xué)習(xí)結(jié)果信息,將生成的上述多個學(xué)習(xí)文檔數(shù)據(jù)的上述第2學(xué)習(xí)結(jié)果信息存儲在存 儲設(shè)備中,錯誤率計算部進行錯誤率計算處理,其中,使用CPU,根據(jù)上述第1正確答案比較部生 成的上述多個上述學(xué)習(xí)文檔數(shù)據(jù)的上述第1學(xué)習(xí)結(jié)果信息,計算表示上述第1分類信息與 上述正確答案信息不一致的比例的第1錯誤率,并且使用CPU,根據(jù)上述第2正確答案比較 部生成的上述多個上述學(xué)習(xí)文檔數(shù)據(jù)的上述第2學(xué)習(xí)結(jié)果信息,計算表示上述第2分類信 息與上述正確答案信息不一致的比例的第2錯誤率;以及結(jié)果輸出部進行結(jié)果輸出處理,其中,使用CPU,根據(jù)將分類成特定的種類的對象即分 類對象文檔數(shù)據(jù)作為上述文檔數(shù)據(jù)而由上述第1過濾器部確定出的上述第1分類信息、將 上述分類對象文檔數(shù)據(jù)作為上述文檔數(shù)據(jù)而由上述第2過濾器部確定出的上述第2分類信 息、上述錯誤率計算部計算出的上述第1錯誤率、以及上述錯誤率計算部計算出的上述第2 錯誤率,確定上述分類對象文檔數(shù)據(jù)所屬的種類,將確定出的種類作為分類結(jié)果而輸出到 輸出設(shè)備。
18. 一種信息過濾程序,其特征在于,使計算機執(zhí)行權(quán)利要求17所述的信息過濾方法。
全文摘要
字符串匹配部(110)通過輸入文檔(801)與匹配條件信息(109)表示的分類關(guān)鍵字的字符串匹配來確定輸入文檔(801)的類型。學(xué)習(xí)數(shù)據(jù)(209)表示各類型的統(tǒng)計信息。分類部(220)根據(jù)輸入文檔(801)與學(xué)習(xí)數(shù)據(jù)(209)表示的統(tǒng)計信息的對應(yīng)比率確定輸入文檔(801)的類型。正確答案比較部(120)比較字符串匹配部(110)確定的類型與正確答案信息(803)的類型。學(xué)習(xí)部(210)比較分類部(220)確定的類型與正確答案信息(803)的類型。錯誤率計算部(310)根據(jù)正確答案比較部(120)的比較結(jié)果與學(xué)習(xí)部(210)的比較結(jié)果計算字符串匹配型過濾器部(100)與學(xué)習(xí)型過濾器部(200)的分類錯誤率。結(jié)果輸出部(320)將由分類錯誤率小的過濾器確定出的類型作為分類對象文檔(804)的分類結(jié)果(301)而輸出。
文檔編號G06F17/30GK101911067SQ20088012428
公開日2010年12月8日 申請日期2008年1月8日 優(yōu)先權(quán)日2008年1月8日
發(fā)明者加藤守, 郡光則 申請人:三菱電機株式會社
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
南澳县| 石泉县| 连城县| 新安县| 界首市| 白水县| 白玉县| 太仓市| 河南省| 温州市| 阜宁县| 桂平市| 乐亭县| 威远县| 根河市| 睢宁县| 南雄市| 永昌县| 阳原县| 娱乐| 调兵山市| 尤溪县| 通江县| 许昌县| 公安县| 呼伦贝尔市| 靖西县| 察隅县| 德兴市| 新建县| 克拉玛依市| 瑞丽市| 那坡县| 庆云县| 淄博市| 澄迈县| 杭锦旗| 新密市| 罗山县| 彭山县| 广平县|