文本聚類方法、裝置及計算設(shè)備的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計算機技術(shù)領(lǐng)域,尤其涉及一種文本聚類方法,文本聚類裝置以及用于文本聚類的計算設(shè)備。
【背景技術(shù)】
[0002]當存在大量文本時,常需要對這些文本進行聚類,即將大量文本歸類到一定數(shù)量的簇(英文:cluster)中,以方便后續(xù)對這些文本的處理。
[0003]文本的聚類過程,也即將相似的文本聚集到一起的過程?,F(xiàn)有技術(shù)中,常根據(jù)文本內(nèi)包含的內(nèi)容來計算文本之間的相似度,一般包含相同內(nèi)容較多的多個文本被視為相似程度較高。
[0004]然而,一些類型的文本,例如日志,包含的內(nèi)容會隨著輸入?yún)?shù)和輸出參數(shù)的變化而變化,因此根據(jù)文本包含的內(nèi)容來對這些文本進行聚類的精度不高。
【發(fā)明內(nèi)容】
[0005]本申請?zhí)峁┝艘环N文本聚類方法,文本聚類裝置以及用于文本聚類的計算設(shè)備,以提升文本聚類的精度。
[0006]本申請的第一方面提供了一種文本聚類方法,該方法由計算機執(zhí)行,包括:接收待聚類的N個文本,N為大于I的整數(shù),將這N個文本中的數(shù)字替換為第一標識。對這N個文本執(zhí)行預處理操作,將這N個文本中相鄰的第一標識合并,獲得這N個文本對應的N個預處理文本。對N個預處理文本進行分詞,獲取這N個預處理文本的分詞結(jié)果,并獲取這N個預處理文本的分詞結(jié)果中各個詞的統(tǒng)計特征。根據(jù)這N個預處理文本的分詞結(jié)果中各個詞的統(tǒng)計特征,對這N個文本進行聚類。
[0007]通過對待聚類的文本進行預處理操作,使得文本的預處理文本中保留的不再是文本的內(nèi)容本身,而是文本的格式,隨后根據(jù)各個文本的預處理文本來對文本進行聚類,使得聚類過程能夠?qū)⑽谋镜母袷郊尤肟紤],提升了文本聚類的精度。
[0008]結(jié)合第一方面,在第一方面的第一種實現(xiàn)方式中,不僅將N個文本中的數(shù)字替換為第一標識,還將這N文本中的字素替換為第二標識。因此,預處理操作還包括:將相鄰的兩個第二標識合并為一個第二標識。
[0009]進一步的,不僅僅針對待聚類的文本中的數(shù)字進行處理,還對待聚類的文本中的字素進行處理,進一步抽象出待處理的文本的格式,以供后續(xù)聚類中使用,能夠進一步提升文本聚類的精度。
[0010]結(jié)合第一方面和第一方面的第一種實現(xiàn)方式,在第一方面的第二種實現(xiàn)方式中,對N個文本進行聚類后,獲取M個文本簇。從每個文本簇的文本中提取該文本簇對應的正則表達式;獲取新文本,判斷新文本是否滿足M個文本簇中任一文本簇對應的正則表達式,如果該新文本符合任一文本簇對應的正則表達式,則該新文本屬于該文本簇。
[0011]從已經(jīng)獲得的文本簇中提取正則表達式,獲取各個文本簇在內(nèi)容上的共性,獲取了新文本之后,無須將新文本和已經(jīng)執(zhí)行過聚類的文本一起重新進行聚類,而是將新文本與各個文本簇對應的正則表達式進行匹配,大幅提升了新文本的聚類速度。
[0012]結(jié)合第一方面和第一方面的第一種實現(xiàn)方式,在第一方面的第三種實現(xiàn)方式中,對N個文本進行聚類后,獲取M個文本簇。從每個文本簇包括的文本的預處理文本中提取該文本簇對應的正則表達式;獲取新文本,判斷新文本是否滿足M個文本簇中任一文本簇對應的正則表達式,如果該新文本符合任一文本簇對應的正則表達式,則該新文本屬于該文本簇。
[0013]從已經(jīng)獲得的文本簇的預處理文本中提取正則表達式,獲取各個文本簇的預處理文本在格式上的共性,獲取了新文本之后,無須將新文本和已經(jīng)執(zhí)行過聚類的文本一起重新進行聚類,而是將新文本與各個文本簇對應的正則表達式進行匹配,大幅提升了新文本的聚類速度。
[0014]本申請的第二方面提供了一種文本聚類裝置,該裝置包括獲取單元和處理單元。獲取單元用于,接收待聚類的N個文本,N為大于I的整數(shù),將這N個文本中的數(shù)字替換為第一標識。處理單元用于,對這N個文本執(zhí)行預處理操作,將這N個文本中相鄰的第一標識合并,獲得這N個文本對應的N個預處理文本;并對這N個預處理文本進行分詞,獲取這N個預處理文本的分詞結(jié)果,并獲取這N個預處理文本的分詞結(jié)果中各個詞的統(tǒng)計特征;隨后根據(jù)這N個預處理文本的分詞結(jié)果中各個詞的統(tǒng)計特征,對這N個文本進行聚類。該裝置用于實現(xiàn)第一方面提供的文本聚類方法。
[0015]本申請的第三方面提供了一種計算設(shè)備,包括處理器、存儲器。該計算設(shè)備運行時能夠?qū)崿F(xiàn)第一方面提供的文本聚類方法,用于實現(xiàn)第一方面提供的文本聚類方法的程序代碼可以保存在存儲器中,并由處理器來執(zhí)行。
[0016]本申請的第四方面提供了一種存儲介質(zhì),該存儲介質(zhì)中存儲的程序代碼被執(zhí)行時能夠?qū)崿F(xiàn)第一方面提供的文本聚類方法。該程序代碼由實現(xiàn)第一方面提供的文本聚類方法的計算機指令構(gòu)成。
【附圖說明】
[0017]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例中所需要使用的附圖作以簡單地介紹,顯而易見的,下面描述中的附圖是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0018]圖1為本發(fā)明提供的文本聚類系統(tǒng)的組織結(jié)構(gòu)示意圖;
[0019]圖2為本發(fā)明提供的計算設(shè)備的組織結(jié)構(gòu)示意圖;
[0020]圖3為本發(fā)明提供的文本聚類方法的流程示意圖;
[0021 ]圖4為本發(fā)明提供的文本聚類裝置的組織結(jié)構(gòu)示意圖。
【具體實施方式】
[0022]下面結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行描述。
[0023]貫穿本說明書,術(shù)語“無邊界語言”指代字符間沒有用于劃定界限的標點符號或空格的語言,常見的無邊界語言包括中文、日文等。相應的,有邊界語言指代字符間有用于劃定界限的標點符號或空格的語言,最常見的有邊界語言包括英文。
[0024]貫穿本說明書,術(shù)語“聚類”指代根據(jù)不同對象的特征,將對象歸類到不同的簇的過程。每一個簇包含了有一定共性或者相似程度較高的多個對象。
[0025]貫穿本說明書,術(shù)語“正則表達式”指代一串字符串,該字符串用于描述一系列句法規(guī)則,例如包括什么字符、字符位置、字符順序等。
[0026]圖1為文本聚類系統(tǒng)200的一種實現(xiàn)方式,包括存儲設(shè)備206、文本聚類設(shè)備202。其中存儲設(shè)備206中存儲了用于存儲待聚類的文本的文本庫,存儲設(shè)備206可以通過通信網(wǎng)絡204與文本聚類設(shè)備202建立通信,存儲設(shè)備206也可以直接設(shè)置在文本聚類設(shè)備202中,通過輸入輸入單元2021與文本聚類設(shè)備202建立通信。文本聚類設(shè)備202中包括輸入輸出單元2021和處理單元2022。如果存儲設(shè)備206通過通信網(wǎng)絡204與文本聚類設(shè)備202通信,則輸入輸出單元2021可以為網(wǎng)絡接口,如果存儲設(shè)備206部署于文本聚類設(shè)備202內(nèi),則輸入輸出單元2021還可以為文本聚類設(shè)備202訪問本地存儲設(shè)備的接口。
[0027]其中,處理器402、存儲器404和通信接口406可以通過總線408實現(xiàn)彼此之間的通信連接,也可以通過無線傳輸?shù)绕渌侄螌崿F(xiàn)通信。
[0028]存儲器404存儲器可以包括易失性存儲器(英文volatile memory),例如隨機存取存儲器(英文:random-access memory,縮寫:RAM);存儲器也可以包括非易失性存儲器(英文:non_volatile memory),例如只讀存儲器(英文:read_only memory,縮寫:ROM),快閃存儲器(英文:f lash memory),硬盤(英文:hard disk drive,縮寫:HDD)或固態(tài)硬盤(英文:solid-state drive,縮寫:SSD);存儲器404還可以包括上述種類的存儲器的組合。計算設(shè)備400運行時,存儲器404加載存儲設(shè)備206中文本庫中存儲的文本,以供處理器402使用。在通過軟件來實現(xiàn)本發(fā)明提供的技術(shù)方案時,用于實現(xiàn)本發(fā)明圖3提供的文本聚類方法的程序代碼可以保存在存儲器404中,并由處理器402來執(zhí)行。
[0029]計算設(shè)備400通過通信接口406獲取待處理的文本,當獲取文本聚類的結(jié)果后,還可以通過通信接口 406返回給用戶。
[0030]處理器402可以為中央處理器(英文:central processing unit,縮寫:CPU)。處理器402獲取文本庫中存儲的多個文本,并將這些文本中的數(shù)字替換為第一標識,第一標識可以為一個特定的字符,例如字母d。對執(zhí)行完替換操作的文本進行預處理操作,預處理操作即將每一個執(zhí)行完替換操作的文本中相鄰的兩個第一標識合并為一個第一標識。如果文本中有多個相鄰的第一標識,則可以將多個相鄰的第一標識合并為一個第一標識。文本中的空格、標點符號可以保留。
[0031]一個文本執(zhí)行完預處理操作后,生成該文本對應的一個預處理文本。因此,N個文本對應于N個預處理文本,N為正整數(shù)且N等于待聚類的文本的數(shù)量。對每個文本的預處理文本進行分詞,如果預處理文本中僅包括標點符號和第一標識,或僅包括有邊界語言,例如英文,則根據(jù)空格對文本進行分詞即可,如果文本中包括無邊界語言,則分詞還需根據(jù)詞庫中已有詞、以