及預(yù)設(shè)的分詞方法等對預(yù)處理文本進行分詞。
[0032]每個文本的預(yù)處理文本的分詞結(jié)果中每個文本的預(yù)處理文本被切分為多個詞,例如為M個,獲取每個文本的預(yù)處理文本中各個詞的統(tǒng)計特征,例如為每個詞提取一個統(tǒng)計特征,則每個文本的預(yù)處理文本中可以提取M個統(tǒng)計特征,根據(jù)每個文本的預(yù)處理文本的分詞結(jié)果中各個詞的統(tǒng)計特征,對待聚類的多個文本進行聚類。
[0033]每個文本的預(yù)處理文本可以提取M個統(tǒng)計特征,則根據(jù)這M個統(tǒng)計特征,對每個文本的預(yù)處理文本進行聚類,如果多個文本的的預(yù)處理文本被聚類為一個簇,則該多個文本也被聚類到一個簇中。
[0034]通過預(yù)處理操作和分詞處理,多個待聚類的文本可以通過一系列詞的統(tǒng)計特征來體現(xiàn),根據(jù)這些詞的統(tǒng)計特征來對文本進行聚類,使得不再僅根據(jù)文本的內(nèi)容的相似度進行聚類,而是將文本的內(nèi)容替換為標識并對相鄰標識進行合并,用標識來表現(xiàn)文本內(nèi)容的格式,這樣通過文本的格式來對文本進行聚類,可以提升文本的聚類精度。
[0035]可選的,對每個文本執(zhí)行預(yù)處理操作前,還包括:將待聚類的多個文本中的字素替換為第二標識,則預(yù)處理操作還包括將相鄰的兩個第二標識合并為一個第二標識。進一步的,不僅替換文本中的數(shù)字,還將文本中的字素替換為第二標識,使得獲得的預(yù)處理文本能夠更好的表現(xiàn)文本的格式,以提升聚類精度。
[0036]處理器402將待聚類的多個文本聚類為多個文本簇后,從每個文本簇包括的文本中提取該文本簇對應(yīng)的正則表達式,每個文本簇對應(yīng)的正則表達式體現(xiàn)了該文本簇在內(nèi)容上的一些共同點。獲取新文本后,如果需要將新文本也聚類到某一現(xiàn)存的文本簇中,則判斷新文本是否滿足任一文本簇對應(yīng)的正則表達式,如果新文本滿足某一文本簇對應(yīng)的正則表達式,則該新文本屬于該文本簇。
[0037]處理器402將待聚類的多個文本聚類為多個文本簇后,從每個文本簇包括的文本的預(yù)處理文本中提取該文本簇對應(yīng)的正則表達式,每個文本簇對應(yīng)的正則表達式體現(xiàn)了該文本簇中的文本的預(yù)處理文本在內(nèi)容上的一些共同點。獲取新文本后,如果需要將新文本也聚類到某一現(xiàn)存的文本簇中,則判斷新文本的預(yù)處理文本是否滿足任一文本簇對應(yīng)的正則表達式,如果新文本的預(yù)處理文本滿足某一文本簇對應(yīng)的正則表達式,則該新文本屬于該文本簇。
[0038]將待聚類的文本分類到不同的文本簇之后,如果文本聚類系統(tǒng)獲取了新的文本,無須將全部文本重新聚類,只需從已經(jīng)獲取的文本簇或文本簇對應(yīng)的預(yù)處理文本中提取正則表達式,新文本滿足哪個文本簇或文本簇對應(yīng)的預(yù)處理文本中提取出的正則表達式,則該新文本就歸類于哪個文本簇中,加快了新文本的聚類速度。
[0039]本發(fā)明還提供了一種文本聚類方法,圖1中的文本聚類設(shè)備202以及圖2中的計算設(shè)備400運行時執(zhí)行該文本聚類方法,其流程示意圖如圖3所示。
[0040]步驟602,將多個文本中的數(shù)字替換為第一標識。
[0041]獲取待聚類的多個文本,將待聚類的多個文本中的數(shù)字替換為第一標識,本說明書中以第一標識為字符“d”為例。文本I為待聚類的多個文本中的一個,文本I包括Aug1704: 27: 2203peloton kernel: [pid]uid tgid totalvm,將文本I 中的數(shù)字替換為第一標識后,文本I包括Aug dd dd:dd:dddd peloton kernel: [pid]uid tgid totalvm。
[0042]可選的,步驟602中還可以將待聚類的多個文本中的字素替換為第二標識,本說明書中以第二標識為字符V’為例,則執(zhí)行完步驟602后,文本I包括WWW dd dd:dd:dddd
WWWWWW WWWWWW:[WWW]WWW WWWW WWWWW WWo
[0043]步驟604,對每個文本執(zhí)行預(yù)處理操作,獲取每個文本的預(yù)處理文本,預(yù)處理操作包括:將相鄰的兩個第一標識合并為一個第一標識。
[0044]待聚類的多個文本中的數(shù)字均替換為第一標識后,對每個文本執(zhí)行預(yù)處理操作,預(yù)處理操作即將每一個文本中相鄰的兩個第一標識合并為一個第一標識。如果文本中有多個相鄰的第一標識,則可以將多個相鄰的第一標識合并為一個第一標識。文本中的空格、標點符號可以保留。以文本I為例,文本I執(zhí)行預(yù)處理操作后,文本I的預(yù)處理文本包括Aug dd:d:ddd peloton kernel: [pid]uid tgid totalvm,也可以對文本I中相鄰的第一標識進一步進行合并,直至文本I的預(yù)處理文本中無相鄰的第一標識,即文本I的預(yù)處理文本包括Aug d d:d:d peloton kernel: [pid]uid tgid totalvm。兩個字符之間無標點符號且無空格且無其他字符則稱這兩個數(shù)字相鄰。
[0045]可選的,如果步驟602中還將待聚類的多個文本中的字素替換為第二標識則,預(yù)處理操作還包括:將相鄰的兩個第二標識合并為一個第二標識。合并的過程參考將相鄰的兩個第一標識合并為一個第一標識的過程。還可以進一步對相鄰的第一標識進行合并且對相鄰的第二標識進行合并,直至文本I的預(yù)處理文本中無相鄰的第一標識且無相鄰的第二標識,例如文本I的預(yù)處理文本包括ww d d:d:ddd wwwww wwwww: [ww]ww www wwwww,則文本I的預(yù)處理文本包括w d d:d:d w w: [w]w w w。
[0046]步驟606,對每個文本的預(yù)處理文本進行分詞,獲取每個文本的預(yù)處理文本的分詞結(jié)果。
[0047]對文本的預(yù)處理文本進行分詞的方法有多種,常見對有邊界語言的分詞方法包括N-Gram分詞法,對無邊界語言的分詞方法一般需要結(jié)合詞庫中的已知詞,對預(yù)處理文本進行分詞后,預(yù)處理文本的分詞結(jié)果中包含預(yù)處理文本被切分出來的各個詞。以3-Gram分詞為例,文本I的預(yù)處理文本w d d:d:d w w:[w]w w w的分詞結(jié)果包括w d d:d:d,d d:d:dw,d:d:d w w: ,w w: [w] ,w: [w]w, [w]w w,w w w,共7個詞。
[0048]步驟608,獲取每個文本的預(yù)處理文本的分詞結(jié)果中各個詞的統(tǒng)計特征。
[0049]獲取每個文本的預(yù)處理文本的分詞結(jié)果后,進一步獲取分詞結(jié)果中各個詞的統(tǒng)計特征,統(tǒng)計特征包括詞頻、詞的方差、詞的詞頻-逆文檔頻率(英文:term frequency-1nverse document frequency,縮寫:TF-1DF)等。如果一個文本的預(yù)處理文本的分詞結(jié)果中包括K個詞,且為K個詞中的每個詞提取L個統(tǒng)計特征,則該文本的預(yù)處理文本總共可以提取K*L個統(tǒng)計特征,因此,該文本的預(yù)處理文本可以通過K*L維的向量表達。每個待聚類的文本的預(yù)處理文本均提取了對應(yīng)的統(tǒng)計特征后,每個待聚類的文本的預(yù)處理文本可以通過一個向量表達。
[0050]步驟610,根據(jù)每個文本的預(yù)處理文本的分詞結(jié)果中各個詞的統(tǒng)計特征,對多個文本進行聚類。
[0051]獲取每個待聚類的文本的預(yù)處理文本對應(yīng)的統(tǒng)計特征后,根據(jù)每個文本的預(yù)處理文本的分詞結(jié)果中各個詞的統(tǒng)計特征,通過聚類算法可以對待聚類的文本進行聚類。聚類算法包括k -means,k—medoid,clarans,birch,cure,chameleon,dbscan,optics,deneIue等。一個文本對應(yīng)于一個預(yù)處理文本,一個預(yù)處理文本對應(yīng)于一個分詞結(jié)果,一個分詞結(jié)果對應(yīng)于一系列詞的統(tǒng)計特征,因此,如果兩個文本的分詞結(jié)果包括的詞的統(tǒng)計特征被聚類算法識別為屬于同一簇,則這兩個文本屬于同一文本簇。
[0052]以待聚類的文本如下文本I至文本7為例:
[0053]文本l:Aug17 04:27:22peloton kernel: [pid]uid tgid totalvm
[0054]文本2:Aug17 03:41:44peloton kernel: [pid]uid tgid totalvm
[0055]文本3:Aug17 03:26:41peloton kernel:Free swap
[0056]文本4:Aug17 03:37:33peloton kernel: Total swap
[0057]文本5:Sep 17 08:51:66peloton kernel: [pid]uid tgid total
[0058]文本6:Jan 23 08:51:66peloton kernel: ?do_page
[0059]文本7:Jan 27 11:51:66peloton kernel: ?security_real
[0060]經(jīng)過文本預(yù)處理后,文本I至文本7分別對應(yīng)的預(yù)處理文本為:
[0061]文本I的預(yù)處理文本:w d d:d:d w w: [w]w w w
[0062]文本2的預(yù)處理文本:w d d:d:d w w: [w]w w w
[0063]文本3的預(yù)處理文本:w d d:d:d w w:w w
[0064]文本4的預(yù)處理文本:w d d:d:d