文本聚類方法、裝置及計算設(shè)備的制造方法_3

文檔序號：9810683閱讀：來源：國知局

w w:w w
[0065]文本5的預(yù)處理文本:w d d:d:d w w: [w]w w w
[0066]文本6的預(yù)處理文本:w d d:d:d w w: ?w_w
[0067]文本7的預(yù)處理文本:w d d:d:d w w: ?w_w
[0068]通過對文本I至文本7的預(yù)處理文本進行聚類后，文本1、文本2、文本5聚類為文本簇I，文本3和文本4聚類為文本簇2，文本6和文本7聚類為文本簇3。
[0069]獲得了多個文本簇后，可以根據(jù)已獲得的文本簇結(jié)果，進一步對文本簇進行合并，例如如果文本簇I和文本簇3中包括的文本相關(guān)，因此可以將文本簇I和文本簇3再次合并，合并出來的文本簇4包括文本1、文本2、文本5、文本6以及文本7。具體的，可以通過預(yù)設(shè)的條件，或用戶根據(jù)其需求對聚類獲得的文本簇進行合并。
[0070]需要說明的是，本發(fā)明中的文本，也可以為待聚類的對象的一部分。常見的待聚類的對象例如日志，包括:CPU: 9OMEM: 80info: Aug 1704: 27: 22peloton kernel: [pid]uidtgid totalvm，其中info字段包括的內(nèi)容可以為本發(fā)明所述的文本。因此，待聚類的對象除了包括文本之外，還包括了其他字段包括的內(nèi)容，例如CPU字段包括的內(nèi)容指示該日志生成時CPU的利用率，MEM字段包括的內(nèi)容指示該日志生成時內(nèi)存的利用率。這部分內(nèi)容已經(jīng)為數(shù)字類型，可以直接用于聚類。
[0071]文本經(jīng)過預(yù)處理和分詞并進一步對這些詞提取統(tǒng)計特征后，如步驟608中所述，該文本的預(yù)處理文本可以通過K*L維的向量表達。因此，如果該文本是待聚類的日志的一部分，則該日志可以通過K*L+2維的向量表達，S卩K*L維的從文本的預(yù)處理文本中提取的統(tǒng)計特征，以及日志中已有的CPU和MEM兩個字段包括的內(nèi)容。
[0072]由于文本的預(yù)處理文本分詞獲得的詞的個數(shù)往往較多，且每個詞能夠提取的統(tǒng)計特征也可以有多個，因此K*L的數(shù)量往往較高。如果日志通過K*L+2個向量表達，且該向量的每個維度對聚類結(jié)果影響的權(quán)重相同，則日志在聚類的過程中，會過多的被文本的內(nèi)容所影響，導致日志中其他字段包括的內(nèi)容對聚類結(jié)果的影響太小。因此，從文本中提取了K*L維的統(tǒng)計特征后，還可以為這K*L維的統(tǒng)計特征設(shè)置權(quán)重，例如這K*L維中每個維度的權(quán)重為P/K*L，P為預(yù)設(shè)的參數(shù)，而CPU和MEM兩個字段后包括的內(nèi)容的權(quán)重為I，則文本中提取的K*L維的統(tǒng)計特征的權(quán)重之和為P，根據(jù)P的設(shè)置可以調(diào)整文本的內(nèi)容對聚類結(jié)果的影響，避免了K*L過大的情況下，待聚類的對象中除文本外的其他字段的內(nèi)容對聚類結(jié)果的影響被過度淡化，提升了聚類精度。
[0073]可選的，步驟610后還包括步驟612至步驟616。
[0074]步驟612，多個文本進行聚類后，獲取多個文本簇。
[0075]步驟614，從每個文本簇的文本中提取該文本簇對應(yīng)的正則表達式。
[0076]從步驟612獲取的每個文本簇中提取該文本簇對應(yīng)的正則表達式，例如如果一個文本簇中包括的全部文本均以“11^1:；[1]16”開頭，且以311011^17300^”結(jié)尾，“則這個文本簇可以提取出正則表達式“'mytime.*anomalyScore$”。每個文本簇提取的正則表達式，能夠讓本文本簇中的每個文本均符合，或本文本簇中超過一定比例的文本符合。
[0077]步驟616，獲取新文本，判斷新文本是否滿足第一文本簇對應(yīng)的正則表達式，第一文本簇為所述多個文本簇中任一文本簇，若新文本符合第一文本簇對應(yīng)的正則表達式，則新文本屬于所述第一文本簇。
[0078]用于文本聚類的設(shè)備獲取了待聚類的新文本后，判斷該新文本能否滿足任一文本簇對應(yīng)的正則表達式。如果該新文本能夠滿足某一文本簇對應(yīng)的正則表達式，則該新文本屬于該文本簇。如果該新文本同時滿足多個文本簇對應(yīng)的正則表達式，則該新文本可以被歸類于這多個文本簇中的任一個。
[0079]用于文本聚類的設(shè)備可以用其已有的文本中的一部分來執(zhí)行步驟602至步驟612，以獲取多個文本簇，然后用已有的文本中的另一部分來執(zhí)行步驟614與步驟616，則該已有的文本中的另一部分即新文本。該過程類似于機械學習算法中采用一部分樣本用于訓練模型，采用訓練完畢的模型來對剩余的樣本進行識別的過程，使得用于文本聚類的設(shè)備無須對全部文本進行聚類，提升了文本聚類的效率。用于文本聚類的設(shè)備也可以其已有的全部文本來執(zhí)行步驟602至步驟612，以獲取多個文本簇，然后獲取到新生成或用戶新輸入的文本后，用新生成或用戶新輸入的文本來執(zhí)行步驟614與步驟616，則新生成或用戶新輸入的文本即新文本。
[0080]通過步驟612至步驟616，新文本得以被歸類到某一文本簇中，如果新文本無法滿足任一文本簇對應(yīng)的正則表達式，該新文本也可以屬于一個新的文本簇。使得獲取了新文本的情況下，無須將新文本連同已經(jīng)執(zhí)行過聚類的文本重新進行聚類，通過已經(jīng)獲取的文本簇的正則表達式來對新文本進行聚類，提升了新文本的聚類的速度。
[0081 ] 可選的，步驟610后還包括步驟618至步驟624
[0082]步驟618，多個文本進行聚類后，獲取多個文本簇。
[0083]步驟620，從每個文本簇的文本的預(yù)處理文本中提取該文本簇對應(yīng)的正則表達式。
[0084]從步驟618獲取的每個文本簇所包括的文本的預(yù)處理文本中提取該文本簇對應(yīng)的正則表達式，例如如果一個文本簇中全部文本的預(yù)處理文本均以“mytime”開頭，且以“d:d”結(jié)尾，則這個文本簇的預(yù)處理文本可以提取出正則表達式“'mytime.*d: d$”。每個文本簇對應(yīng)的正則表達式，能夠讓本文本簇中的每個文本的預(yù)處理文本均符合，或本文本簇中超過一定比例的文本的預(yù)處理文本符合。
[0085]步驟622，獲取新文本，對新文本進行預(yù)處理操作，獲取新文本對應(yīng)的預(yù)處理文本。
[0086]步驟622中對新文本進行的預(yù)處理操作參考步驟604及步驟604的可選方案。
[0087]步驟624，判斷新文本對應(yīng)的預(yù)處理文本是否滿足第二文本簇對應(yīng)的正則表達式，第二文本簇為多個文本簇中任一文本簇，若新文本對應(yīng)的預(yù)處理文本符合第二文本簇對應(yīng)的正則表達式，則新文本屬于第二文本簇。
[0088]用于文本聚類的設(shè)備獲取了待聚類的新文本后，判斷該新文本對應(yīng)的預(yù)處理文本能否滿足任一文本簇對應(yīng)的正則表達式。如果該新文本對應(yīng)的預(yù)處理文本能夠滿足某一文本簇對應(yīng)的正則表達式，則該新文本屬于該文本簇。如果該新文本對應(yīng)的預(yù)處理文本同時滿足多個文本簇對應(yīng)的正則表達式，則該新文本可以被歸類于這多個文本簇中的任一個。
[0089]用于文本聚類的設(shè)備可以用其已有的文本中的一部分來執(zhí)行步驟602至步驟618，以獲取多個文本簇，然后用已有的文本中的另一部分來執(zhí)行步驟620至步驟624，則該已有的文本中的另一部分即新文本。該過程類似于機械學習算法中采用一部分樣本用于訓練模型，采用訓練完畢的模型來對剩余的樣本進行識別的過程，使得用于文本聚類的設(shè)備無須對全部文本進行聚類，提升了文本聚類的效率。用于文本聚類的設(shè)備也可以其已有的全部文本來執(zhí)行步驟602至步驟618，以獲取多個文本簇，然后獲取到新生成或用戶新輸入的文本后，用新生成或用戶新輸入的文本來執(zhí)行步驟620至步驟624，則新生成或用戶新輸入的文本即新文本。
[0090]通過步驟618至步驟624，新文本得以被歸類到某一文本簇中，如果新文本無法滿足任一文本簇對應(yīng)的正則表達式，該新文本也可以屬于一個新的文本簇。使得獲取了新文本的情況下，無須將新文本連同已經(jīng)執(zhí)行過聚類的文本重新進行聚類，通過已經(jīng)獲取的文本簇的正則表達式來對新文本進行聚類，提升了新文本的聚類的速度。
[0091]上述實施例提供了一種文本聚類方法，對待聚類的文本進行預(yù)處理后，對文本的預(yù)處理文本進行分詞并聚類，使得對文本的聚類能夠根據(jù)文本的格式進行，提升了文本聚類的精度。
[0092]本發(fā)明實施例還提供了文本聚類裝置800，該文本聚類裝置800可以通過圖1所示的文本聚類設(shè)備202實現(xiàn)，還可以通過圖2所示的計算設(shè)備400實現(xiàn)，還可以通過專用集成電路(英文:applicat1n-specific integrated circuit，縮寫:ASIC)實現(xiàn)，或可編程邏輯器件(英文:programmable logic device，縮寫:PLD)實現(xiàn)。上述PLD可以是復(fù)雜可編程邏輯器件(英文:complex programmable logic device，縮寫:CPLD)，可編程邏輯門陣列(英文:field-programmable gate array，縮寫:FPGA)，通用陣列邏輯(英文:generic arraylogic，縮寫:GAL)或其任意組合。該文本聚類裝置800用于實現(xiàn)圖3所示的文本聚類方法。
[0093]文本聚類裝置800包括獲取單元802，用于將多個文本中的數(shù)字替換為第一標識；以及處理單元804，用于對每個文本執(zhí)行預(yù)處理操作，獲取每個文本的預(yù)處理文本，

完整全部詳細技術(shù)資料下載

當前第3頁1 2 3 4

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

文本聚類相關(guān)技術(shù)

文本聚類算法相關(guān)技術(shù)

文本聚類工具相關(guān)技術(shù)

短文本聚類相關(guān)技術(shù)

文本聚類方法、裝置及計算設(shè)備的制造方法_3

文本聚類方法、裝置及計算設(shè)備的制造方法_3