w w:w w
[0065]文本5的預(yù)處理文本:w d d:d:d w w: [w]w w w
[0066]文本6的預(yù)處理文本:w d d:d:d w w: ?w_w
[0067]文本7的預(yù)處理文本:w d d:d:d w w: ?w_w
[0068]通過對文本I至文本7的預(yù)處理文本進行聚類后,文本1、文本2、文本5聚類為文本簇I,文本3和文本4聚類為文本簇2,文本6和文本7聚類為文本簇3。
[0069]獲得了多個文本簇后,可以根據(jù)已獲得的文本簇結(jié)果,進一步對文本簇進行合并,例如如果文本簇I和文本簇3中包括的文本相關(guān),因此可以將文本簇I和文本簇3再次合并,合并出來的文本簇4包括文本1、文本2、文本5、文本6以及文本7。具體的,可以通過預(yù)設(shè)的條件,或用戶根據(jù)其需求對聚類獲得的文本簇進行合并。
[0070]需要說明的是,本發(fā)明中的文本,也可以為待聚類的對象的一部分。常見的待聚類的對象例如日志,包括:CPU: 9OMEM: 80info: Aug 1704: 27: 22peloton kernel: [pid]uidtgid totalvm,其中info字段包括的內(nèi)容可以為本發(fā)明所述的文本。因此,待聚類的對象除了包括文本之外,還包括了其他字段包括的內(nèi)容,例如CPU字段包括的內(nèi)容指示該日志生成時CPU的利用率,MEM字段包括的內(nèi)容指示該日志生成時內(nèi)存的利用率。這部分內(nèi)容已經(jīng)為數(shù)字類型,可以直接用于聚類。
[0071]文本經(jīng)過預(yù)處理和分詞并進一步對這些詞提取統(tǒng)計特征后,如步驟608中所述,該文本的預(yù)處理文本可以通過K*L維的向量表達。因此,如果該文本是待聚類的日志的一部分,則該日志可以通過K*L+2維的向量表達,S卩K*L維的從文本的預(yù)處理文本中提取的統(tǒng)計特征,以及日志中已有的CPU和MEM兩個字段包括的內(nèi)容。
[0072]由于文本的預(yù)處理文本分詞獲得的詞的個數(shù)往往較多,且每個詞能夠提取的統(tǒng)計特征也可以有多個,因此K*L的數(shù)量往往較高。如果日志通過K*L+2個向量表達,且該向量的每個維度對聚類結(jié)果影響的權(quán)重相同,則日志在聚類的過程中,會過多的被文本的內(nèi)容所影響,導致日志中其他字段包括的內(nèi)容對聚類結(jié)果的影響太小。因此,從文本中提取了K*L維的統(tǒng)計特征后,還可以為這K*L維的統(tǒng)計特征設(shè)置權(quán)重,例如這K*L維中每個維度的權(quán)重為P/K*L,P為預(yù)設(shè)的參數(shù),而CPU和MEM兩個字段后包括的內(nèi)容的權(quán)重為I,則文本中提取的K*L維的統(tǒng)計特征的權(quán)重之和為P,根據(jù)P的設(shè)置可以調(diào)整文本的內(nèi)容對聚類結(jié)果的影響,避免了K*L過大的情況下,待聚類的對象中除文本外的其他字段的內(nèi)容對聚類結(jié)果的影響被過度淡化,提升了聚類精度。
[0073]可選的,步驟610后還包括步驟612至步驟616。
[0074]步驟612,多個文本進行聚類后,獲取多個文本簇。
[0075]步驟614,從每個文本簇的文本中提取該文本簇對應(yīng)的正則表達式。
[0076]從步驟612獲取的每個文本簇中提取該文本簇對應(yīng)的正則表達式,例如如果一個文本簇中包括的全部文本均以“11^1:;[1]16”開頭,且以311011^17300^”結(jié)尾,“則這個文本簇可以提取出正則表達式“'mytime.*anomalyScore$”。每個文本簇提取的正則表達式,能夠讓本文本簇中的每個文本均符合,或本文本簇中超過一定比例的文本符合。
[0077]步驟616,獲取新文本,判斷新文本是否滿足第一文本簇對應(yīng)的正則表達式,第一文本簇為所述多個文本簇中任一文本簇,若新文本符合第一文本簇對應(yīng)的正則表達式,則新文本屬于所述第一文本簇。
[0078]用于文本聚類的設(shè)備獲取了待聚類的新文本后,判斷該新文本能否滿足任一文本簇對應(yīng)的正則表達式。如果該新文本能夠滿足某一文本簇對應(yīng)的正則表達式,則該新文本屬于該文本簇。如果該新文本同時滿足多個文本簇對應(yīng)的正則表達式,則該新文本可以被歸類于這多個文本簇中的任一個。
[0079]用于文本聚類的設(shè)備可以用其已有的文本中的一部分來執(zhí)行步驟602至步驟612,以獲取多個文本簇,然后用已有的文本中的另一部分來執(zhí)行步驟614與步驟616,則該已有的文本中的另一部分即新文本。該過程類似于機械學習算法中采用一部分樣本用于訓練模型,采用訓練完畢的模型來對剩余的樣本進行識別的過程,使得用于文本聚類的設(shè)備無須對全部文本進行聚類,提升了文本聚類的效率。用于文本聚類的設(shè)備也可以其已有的全部文本來執(zhí)行步驟602至步驟612,以獲取多個文本簇,然后獲取到新生成或用戶新輸入的文本后,用新生成或用戶新輸入的文本來執(zhí)行步驟614與步驟616,則新生成或用戶新輸入的文本即新文本。
[0080]通過步驟612至步驟616,新文本得以被歸類到某一文本簇中,如果新文本無法滿足任一文本簇對應(yīng)的正則表達式,該新文本也可以屬于一個新的文本簇。使得獲取了新文本的情況下,無須將新文本連同已經(jīng)執(zhí)行過聚類的文本重新進行聚類,通過已經(jīng)獲取的文本簇的正則表達式來對新文本進行聚類,提升了新文本的聚類的速度。
[0081 ] 可選的,步驟610后還包括步驟618至步驟624
[0082]步驟618,多個文本進行聚類后,獲取多個文本簇。
[0083]步驟620,從每個文本簇的文本的預(yù)處理文本中提取該文本簇對應(yīng)的正則表達式。
[0084]從步驟618獲取的每個文本簇所包括的文本的預(yù)處理文本中提取該文本簇對應(yīng)的正則表達式,例如如果一個文本簇中全部文本的預(yù)處理文本均以“mytime”開頭,且以“d:d”結(jié)尾,則這個文本簇的預(yù)處理文本可以提取出正則表達式“'mytime.*d: d$”。每個文本簇對應(yīng)的正則表達式,能夠讓本文本簇中的每個文本的預(yù)處理文本均符合,或本文本簇中超過一定比例的文本的預(yù)處理文本符合。
[0085]步驟622,獲取新文本,對新文本進行預(yù)處理操作,獲取新文本對應(yīng)的預(yù)處理文本。
[0086]步驟622中對新文本進行的預(yù)處理操作參考步驟604及步驟604的可選方案。
[0087]步驟624,判斷新文本對應(yīng)的預(yù)處理文本是否滿足第二文本簇對應(yīng)的正則表達式,第二文本簇為多個文本簇中任一文本簇,若新文本對應(yīng)的預(yù)處理文本符合第二文本簇對應(yīng)的正則表達式,則新文本屬于第二文本簇。
[0088]用于文本聚類的設(shè)備獲取了待聚類的新文本后,判斷該新文本對應(yīng)的預(yù)處理文本能否滿足任一文本簇對應(yīng)的正則表達式。如果該新文本對應(yīng)的預(yù)處理文本能夠滿足某一文本簇對應(yīng)的正則表達式,則該新文本屬于該文本簇。如果該新文本對應(yīng)的預(yù)處理文本同時滿足多個文本簇對應(yīng)的正則表達式,則該新文本可以被歸類于這多個文本簇中的任一個。
[0089]用于文本聚類的設(shè)備可以用其已有的文本中的一部分來執(zhí)行步驟602至步驟618,以獲取多個文本簇,然后用已有的文本中的另一部分來執(zhí)行步驟620至步驟624,則該已有的文本中的另一部分即新文本。該過程類似于機械學習算法中采用一部分樣本用于訓練模型,采用訓練完畢的模型來對剩余的樣本進行識別的過程,使得用于文本聚類的設(shè)備無須對全部文本進行聚類,提升了文本聚類的效率。用于文本聚類的設(shè)備也可以其已有的全部文本來執(zhí)行步驟602至步驟618,以獲取多個文本簇,然后獲取到新生成或用戶新輸入的文本后,用新生成或用戶新輸入的文本來執(zhí)行步驟620至步驟624,則新生成或用戶新輸入的文本即新文本。
[0090]通過步驟618至步驟624,新文本得以被歸類到某一文本簇中,如果新文本無法滿足任一文本簇對應(yīng)的正則表達式,該新文本也可以屬于一個新的文本簇。使得獲取了新文本的情況下,無須將新文本連同已經(jīng)執(zhí)行過聚類的文本重新進行聚類,通過已經(jīng)獲取的文本簇的正則表達式來對新文本進行聚類,提升了新文本的聚類的速度。
[0091]上述實施例提供了一種文本聚類方法,對待聚類的文本進行預(yù)處理后,對文本的預(yù)處理文本進行分詞并聚類,使得對文本的聚類能夠根據(jù)文本的格式進行,提升了文本聚類的精度。
[0092]本發(fā)明實施例還提供了文本聚類裝置800,該文本聚類裝置800可以通過圖1所示的文本聚類設(shè)備202實現(xiàn),還可以通過圖2所示的計算設(shè)備400實現(xiàn),還可以通過專用集成電路(英文:applicat1n-specific integrated circuit,縮寫:ASIC)實現(xiàn),或可編程邏輯器件(英文:programmable logic device,縮寫:PLD)實現(xiàn)。上述PLD可以是復(fù)雜可編程邏輯器件(英文:complex programmable logic device,縮寫:CPLD),可編程邏輯門陣列(英文:field-programmable gate array,縮寫:FPGA),通用陣列邏輯(英文:generic arraylogic,縮寫:GAL)或其任意組合。該文本聚類裝置800用于實現(xiàn)圖3所示的文本聚類方法。
[0093]文本聚類裝置800包括獲取單元802,用于將多個文本中的數(shù)字替換為第一標識;以及處理單元804,用于對每個文本執(zhí)行預(yù)處理操作,獲取每個文本的預(yù)處理文本,