專利名稱:對(duì)消息進(jìn)行聚類的方法和設(shè)備的制作方法
技術(shù)領(lǐng)域:
本申請(qǐng)總體上涉及消息處理的領(lǐng)域,尤其涉及對(duì)消息進(jìn)行聚類的方法和設(shè)備。
背景技術(shù):
近來(lái),出現(xiàn)了各種信息傳遞方式。例如,在企業(yè)內(nèi)部,常見的信息傳遞方式例如有IP電話、電子郵件、即時(shí)消息、日歷表、CRM等;在企業(yè)外部,常見的信息傳遞方式例如有微博、博客等。作為信息來(lái)源的這些信息傳遞方式產(chǎn)生了大量的消息。由于所產(chǎn)生的消息的量非常大,所以如果對(duì)大量的消息中的每條消息分別進(jìn)行處理,則消息處理的效率相當(dāng)?shù)?。而且,大量的消息?huì)淹沒重要的消息,使得難以從大量的消息中獲取重要的消息。
發(fā)明內(nèi)容
在下文中將給出關(guān)于本發(fā)明的簡(jiǎn)要概述,以便提供關(guān)于本發(fā)明的某些方面的基本理解。應(yīng)當(dāng)理解,這個(gè)概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關(guān)鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡(jiǎn)化的形式給出某些概念,以此作為稍后論述的更詳細(xì)描述的前序。根據(jù)本發(fā)明的實(shí)施例,提供了一種對(duì)消息進(jìn)行聚類的方法,包括:對(duì)消息進(jìn)行分詞,并分別計(jì)算通過分詞獲得的詞的詞頻作為其權(quán)重;生成與消息對(duì)應(yīng)的特征向量,其中,特征向量的每個(gè)元素分別與詞相對(duì)應(yīng),每個(gè)元素的值分別為相對(duì)應(yīng)的詞的權(quán)重;根據(jù)詞被用戶關(guān)注的程度和/或包含詞的消息的數(shù)目與全部消息的數(shù)目之間的相對(duì)比例,調(diào)整作為特征向量中的元素的值的詞的權(quán)重,使得程度和/或比例越高,則權(quán)重被調(diào)整得越高;計(jì)算權(quán)重被調(diào)整后的特征向量之間的相 似度;以及根據(jù)相似度將全部消息聚類為分組。根據(jù)上述對(duì)消息進(jìn)行聚類的方法,其中,詞被用戶關(guān)注的程度由詞在關(guān)注標(biāo)簽向量中的權(quán)重來(lái)表示,其中,根據(jù)消息的重要度得分和/或用戶處理消息的類型,更新詞在關(guān)注標(biāo)簽向量中的權(quán)重,使得消息的重要度得分越高,則詞在關(guān)注標(biāo)簽向量中的權(quán)重被更新得越高,與該類型相對(duì)應(yīng)的系數(shù)被應(yīng)用于更新詞在關(guān)注標(biāo)簽向量中的權(quán)重。根據(jù)上述對(duì)消息進(jìn)行聚類的方法,在對(duì)消息進(jìn)行分詞的步驟之前,還包括:收集來(lái)自不同來(lái)源的消息;以及分別采用與來(lái)源對(duì)應(yīng)的轉(zhuǎn)換方式,將來(lái)自不同來(lái)源的消息轉(zhuǎn)換成統(tǒng)一的格式。根據(jù)上述對(duì)消息進(jìn)行聚類的方法,還包括:計(jì)算分組中的每個(gè)消息的重要度得分和/或緊急度得分;根據(jù)分組中的每個(gè)消息的重要度得分和/或緊急度得分,獲得分組的重要度得分和/或緊急度得分;以及根據(jù)分組的重要度得分和/或緊急度得分,對(duì)分組進(jìn)行排序。根據(jù)上述對(duì)消息進(jìn)行聚類的方法,還包括:根據(jù)分組的重要度得分和/或緊急度得分、以及環(huán)境因素,選擇用于發(fā)送相應(yīng)的分組中的消息的通知方式;按照預(yù)定義的模板,對(duì)相應(yīng)的分組中的消息進(jìn)行渲染以生成通知內(nèi)容;以及通過所選擇的通知方式將生成的通知內(nèi)容發(fā)送給用戶。根據(jù)本申請(qǐng)的另一實(shí)施例,提供了一種對(duì)消息進(jìn)行聚類的設(shè)備,包括:分詞單元,其被配置成對(duì)消息進(jìn)行分詞,并分別計(jì)算通過分詞獲得的詞的詞頻作為其權(quán)重;向量生成單元,其被配置成生成與消息對(duì)應(yīng)的特征向量,其中,特征向量的每個(gè)元素分別與詞相對(duì)應(yīng),每個(gè)元素的值分別為相對(duì)應(yīng)的詞的權(quán)重;權(quán)重調(diào)整單元,其被配置成根據(jù)詞被用戶關(guān)注的程度和/或包含詞的消息的數(shù)目與全部消息的數(shù)目之間的相對(duì)比例,調(diào)整作為特征向量中的元素的值的詞的權(quán)重,使得程度和/或比例越高,則權(quán)重被調(diào)整得越高;相似度計(jì)算單元,其被配置成計(jì)算權(quán)重被調(diào)整后的特征向量之間的相似度;以及消息聚類單元,其被配置成根據(jù)相似度將全部消息聚類為分組。根據(jù)上述對(duì)消息進(jìn)行聚類的設(shè)備,其中,詞被用戶關(guān)注的程度由詞在關(guān)注標(biāo)簽向量中的權(quán)重來(lái)表示,其中,根據(jù)消息的重要度得分和/或根據(jù)用戶處理消息的類型,更新詞在關(guān)注標(biāo)簽向量中的權(quán)重,使得消息的重要度得分越高,則詞在關(guān)注標(biāo)簽向量中的權(quán)重被更新得越高,與類型相對(duì)應(yīng)的系數(shù)被應(yīng)用于更新詞在關(guān)注標(biāo)簽向量中的權(quán)重。根據(jù)上述對(duì)消息進(jìn)行聚類的設(shè)備,還包括:消息收集單元,其被配置成收集來(lái)自不同來(lái)源的消息;以及格式轉(zhuǎn)換單元,其被配置成分別采用與來(lái)源對(duì)應(yīng)的轉(zhuǎn)換方式,將來(lái)自不同來(lái)源的消息轉(zhuǎn)換成統(tǒng)一的格式。根據(jù)上述對(duì)消息進(jìn)行聚類的設(shè)備,還包括:消息得分計(jì)算單元,其被配置成計(jì)算分組中的每個(gè)消息的重要度得分和/或緊急度得分;分組得分計(jì)算單元,其被配置成根據(jù)分組中的每個(gè)消息的重要度得分和/或緊急度得分,獲得分組的重要度得分和/或緊急度得分;以及分組排序單元,其被配置成根據(jù)分組的重要度得分和/或緊急度得分,對(duì)分組進(jìn)行排序。根據(jù)上 述對(duì)消息進(jìn)行聚類的設(shè)備,還包括:選擇單元,其被配置成根據(jù)分組的重要度得分和/或緊急度得分、以及環(huán)境因素,選擇用于發(fā)送相應(yīng)的分組中的消息的通知方式;渲染單元,其被配置成按照預(yù)定義的模板,對(duì)相應(yīng)的分組中的消息進(jìn)行渲染以生成通知內(nèi)容;以及發(fā)送單元,其被配置成通過所選擇的通知方式將生成的通知內(nèi)容發(fā)送給用戶。
本發(fā)明可以通過參考下文中結(jié)合附圖所給出的描述而得到更好的理解,其中在所有附圖中使用了相同或相似的附圖標(biāo)記來(lái)表示相同或者相似的部件。所述附圖連同下面的詳細(xì)說(shuō)明一起包含在本說(shuō)明書中并且形成本說(shuō)明書的一部分,而且用來(lái)進(jìn)一步舉例說(shuō)明本發(fā)明的優(yōu)選實(shí)施例和解釋本發(fā)明的原理和優(yōu)點(diǎn)。在附圖中:圖1是示出根據(jù)本發(fā)明實(shí)施例的對(duì)消息進(jìn)行聚類的處理的流程圖;圖2是示出根據(jù)本發(fā)明實(shí)施例的對(duì)消息分組進(jìn)行排序的處理的流程圖;圖3是示出根據(jù)本發(fā)明實(shí)施例的將消息通知給用戶的處理的流程圖;圖4是示出根據(jù)本發(fā)明實(shí)施例的對(duì)消息進(jìn)行預(yù)處理的處理的流程圖;圖5是示出根據(jù)本發(fā)明實(shí)施例的對(duì)消息進(jìn)行聚類的設(shè)備的框圖;圖6是示出根據(jù)本發(fā)明實(shí)施例的對(duì)消息分組進(jìn)行排序的裝置的框圖;圖7是示出根據(jù)本發(fā)明實(shí)施例的將消息通知給用戶的裝置的框圖;圖8是示出根據(jù)本發(fā)明實(shí)施例的對(duì)消息進(jìn)行預(yù)處理的裝置的框圖9是示出消息的緊急度得分隨時(shí)間的變化的示意圖;以及圖10是示出可用于作為實(shí)施根據(jù)本發(fā)明的實(shí)施例的信息處理設(shè)備的示意性框圖。
具體實(shí)施例方式在下文中將結(jié)合附圖對(duì)本發(fā)明的示范性實(shí)施例進(jìn)行描述。為了清楚和簡(jiǎn)明起見,在說(shuō)明書中并未描述實(shí)際實(shí)施方式的所有特征。然而,應(yīng)該了解,在開發(fā)任何這種實(shí)際實(shí)施方式的過程中可以做出很多特定于實(shí)施方式的決定,以便實(shí)現(xiàn)開發(fā)人員的具體目標(biāo),并且這些決定可能會(huì)隨著實(shí)施方式的不同而有所改變。在此,還需要說(shuō)明的一點(diǎn)是,為了避免因不必要的細(xì)節(jié)而模糊了本發(fā)明,在附圖中僅僅示出了與根據(jù)本發(fā)明的方案密切相關(guān)的裝置結(jié)構(gòu),而省略了與本發(fā)明關(guān)系不大的其他細(xì)節(jié)。雖然所產(chǎn)生的消息的量非常大,但是這些消息之間可能存在冗余。例如,通過不同信息傳遞方式傳遞的消息可能表示相同內(nèi)容。例如,通過IP電話、電子郵件、或微博等傳遞的消息可能表示相同內(nèi)容。本發(fā)明能夠?qū)@些通過不同信息傳遞方式傳遞的表示相同內(nèi)容的消息進(jìn)行聚類,因此能夠減少需要處理的消息的數(shù)量,從而提高處理的效率。另外,不同的消息的重要度不同。本發(fā)明能夠根據(jù)消息的重要度對(duì)消息進(jìn)行排序,因此能夠?qū)⒅匾雀叩南?yōu)先傳遞給用戶,從而可容易地從大量的消息中獲得重要度更高的消息。另外,不同的信息傳遞方式在傳遞信息的及時(shí)性方面不同。例如,相比于電子郵件,短消息的及時(shí)性更高。本發(fā)明能夠根據(jù)消息的重要度、緊急度等選擇相應(yīng)的信息傳遞方式,因此能夠提高消息傳遞的及時(shí)性。下面將結(jié)合圖1來(lái) 描述根據(jù)本發(fā)明實(shí)施例的對(duì)消息進(jìn)行聚類的處理。圖1是示出根據(jù)本發(fā)明實(shí)施例的對(duì)消息進(jìn)行聚類的處理的流程圖。如圖1所示,該方法在步驟100開始。在步驟102,對(duì)消息進(jìn)行分詞,并分別計(jì)算通過分詞獲得的詞的詞頻作為其權(quán)重??梢詫?duì)獲得的消息進(jìn)行分詞處理,并且去除其中沒有實(shí)在意義的詞?,F(xiàn)有技術(shù)中已經(jīng)存在用于進(jìn)行分詞處理的各種技術(shù),其具體細(xì)節(jié)在此不再贅述。在對(duì)消息進(jìn)行分詞后,可以獲得多個(gè)詞。假設(shè)存在消息M,對(duì)消息M進(jìn)行分詞后可以獲得多個(gè)詞t1;t2,…,tk,…,tn,其中,η和k為大于或等于I的自然數(shù),并且I彡k彡η。一般,tk為消息M中具有實(shí)在含義的實(shí)義詞??梢苑謩e統(tǒng)計(jì)每個(gè)詞出現(xiàn)的次數(shù),并且計(jì)算每個(gè)詞出現(xiàn)的次數(shù)與全部詞的總數(shù)之比作為該詞的權(quán)重,即分別計(jì)算每個(gè)詞的詞頻作為該詞的權(quán)重。在統(tǒng)計(jì)每個(gè)詞出現(xiàn)的次數(shù)時(shí),可以根據(jù)詞出現(xiàn)的位置增加詞的次數(shù)。例如,如果詞出現(xiàn)在標(biāo)題、摘要等中時(shí),則例如該詞每出現(xiàn)一次就統(tǒng)計(jì)為二次。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,將詞的詞頻作為詞的權(quán)重僅是示例性的而非限制性的,還可以采用其它參數(shù)作為詞的權(quán)重,例如,為了方便起見,可以預(yù)先為每個(gè)詞設(shè)定缺省的權(quán)重。以上述分詞后得到的多個(gè)詞t1; t2,-, tk,…,tn為例,假設(shè)通過上述詞頻計(jì)算后獲得的詞頻分別為W1, W2,..., Wk,..., Wn,貝U可以將詞頻W1, W2,...,Wk,…,¥ 分別作為t1; t2,…,tk,…,、的權(quán)重。
在步驟102之后,該方法前進(jìn)到步驟104。在步驟104,生成與消息對(duì)應(yīng)的特征向量,其中,特征向量的每個(gè)元素分別與詞相對(duì)應(yīng),每個(gè)元素的值分別為相對(duì)應(yīng)的詞的權(quán)重。根據(jù)本實(shí)施例,可以生成與消息M對(duì)應(yīng)的特征向量V = (XtpW1), (t2,w2),..., (tk,wk),..., (tn,wn)),其中,η和k為大于或等于I的自然數(shù),并且I彡k彡η。其中,特征向量V中的每個(gè)元素(tk,wk)分別與詞tk相對(duì)應(yīng),每個(gè)元素(tk,wk)的值分別為相對(duì)應(yīng)的詞tk的權(quán)重wk。在步驟104之后,該方法前進(jìn)到步驟106。在步驟106,根據(jù)詞被用戶關(guān)注的程度和/或包含詞的消息的數(shù)目與全部消息的數(shù)目之間的相對(duì)比例,調(diào)整作為特征向量中的元素的值的詞的權(quán)重,使得程度和/或比例越高,則權(quán)重被調(diào)整得越高。根據(jù)本實(shí)施例,消息中的詞的權(quán)重不是恒定不變的,而是可以動(dòng)態(tài)地進(jìn)行調(diào)整。在以上示例中,消息M= (t1;t2, -,tk,…,tn)中的任意詞tk的權(quán)重wk不是恒定不變的,而是可以動(dòng)態(tài)地進(jìn)行調(diào)整??梢愿鶕?jù)影響權(quán)重的不同因素對(duì)權(quán)重動(dòng)態(tài)地進(jìn)行調(diào)整。例如,可以根據(jù)詞被用戶關(guān)注的程度來(lái)動(dòng)態(tài)地調(diào)整該詞的權(quán)重。如果詞被用戶關(guān)注的程度越大,則為該詞分配的權(quán)重就越大。因此,詞被用戶關(guān)注的程度越高,則該詞的權(quán)重越高。例如,如果消息M= (t1;t2, -,tk,…,tn)中的詞h被用戶關(guān)注的程度大于詞t2被用戶關(guān)注的程度,則詞h的權(quán)重^大于詞t2的權(quán)重w2。另外,如果詞h被用戶關(guān)注的程度發(fā)生了改變,則詞h的權(quán)重W1也相應(yīng)地發(fā)生改變。下文中將對(duì)如何計(jì)算詞被用戶關(guān)注的程度進(jìn)行詳細(xì)說(shuō)明。另外,可以根據(jù)詞與不同的消息之間的相互關(guān)系來(lái)動(dòng)態(tài)地調(diào)整該詞的權(quán)重。例如,可以對(duì)詞在多個(gè)消息中的每個(gè)消息中是否出現(xiàn)以及出現(xiàn)的次數(shù)進(jìn)行統(tǒng)計(jì),并且根據(jù)統(tǒng)計(jì)的結(jié)果分析詞與不同的消息之間的相互關(guān)系。如果某個(gè)詞在若干個(gè)消息中均出現(xiàn),則這若干個(gè)消息可能表示相同內(nèi)容。假設(shè)存在以下三個(gè)消息=M1= (t1;t2,…,0),M2= (0,t2,…,O) ,M3= (2t1; 0,t3,…,O)。由此可見,詞L在消息M1中出現(xiàn)一次,在消息仏中沒有出現(xiàn),在消息M1中出現(xiàn)兩次。由于詞h在消息M1與消息M2中均出現(xiàn),因此消息M1與消息M2可能表示相同的內(nèi)容。下面,將對(duì)如何計(jì)算詞與不同的消息之間的相互關(guān)系進(jìn)行詳細(xì)說(shuō)明。詞與不同消息之間的相互關(guān)系由包含詞的消息的數(shù)目與全部消息的數(shù)目之間的相對(duì)比例來(lái)表示,其中,如果包含詞的消息的數(shù)目越多,則根據(jù)詞與不同消息之間的相互關(guān)系所調(diào)整的所述詞的權(quán)重越大。如上所述,可以對(duì)詞在多個(gè)消息中的每個(gè)消息中是否出現(xiàn)以及出現(xiàn)的次數(shù)進(jìn)行統(tǒng)計(jì),并且根據(jù)統(tǒng)計(jì)的結(jié)果分析詞與不同的消息之間的相互關(guān)系。具體地,例如,可以用詞t在消息d中出現(xiàn)的次數(shù)tft,d與消息d中全部詞語(yǔ)的數(shù)目Ld之比KDt,d = tfu/^來(lái)表示消息d中的詞t與消息d之間的關(guān)系。另外,例如可以用包含詞的消息的數(shù)目dft與用來(lái)分組的全部消息的數(shù)目N之間的相對(duì)比例1g2 (N/dft)/1g2N來(lái)表示詞與不同消息之間的相互關(guān)系。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,上述兩種用來(lái)計(jì)算詞與不同消息之間的相互關(guān)系的方法僅是示例性的而非限制性的,還可以采用其它的方法來(lái)計(jì)算詞與不同消息之間的相互關(guān)系O另外,如果包含詞的消息的數(shù)目越多,包含詞的消息的數(shù)目與全部消息的數(shù)目之間的相對(duì)比例越高,則根據(jù)詞與不同消息之間的相互關(guān)系所調(diào)整的所述詞的權(quán)重越大。具體地,例如可以根據(jù)以下公式(I)來(lái)調(diào)整消息d中的詞t的權(quán)重Wt,d:wtjd = KDtjdX (wtjV+l-log2(N/dft)/1g2N)......公式(I)在以上公式(I)中,KDt, d = tft, d/Ld表示消息d中詞t的密度,tft, d是詞t在消息d中出現(xiàn)的次數(shù),Ld是消息d中全部詞語(yǔ)的數(shù) 量;N是用來(lái)分組的全部消息的數(shù)目,dft是包含詞t的消息的數(shù)目;wt,v是詞t在關(guān)注標(biāo)簽向量中的原有的權(quán)重,如果關(guān)注標(biāo)簽向量中沒有該詞t,則用較小的常量c來(lái)代替wt, v。由以上公式(5)可知,消息d中詞t出現(xiàn)的次數(shù)越多,則該詞t所對(duì)應(yīng)的權(quán)重wt,d越大。同理,根據(jù)以上公式(1),(1-1og2(NMft)/1g2N)=(l-(log2N-log2dft)/log2N) = (l-(l-log2dft/log2N)) = log2dft/log2N,所以包含詞 t 的消息的數(shù)目越多,即包含詞的消息的數(shù)目與全部消息的數(shù)目之間的相對(duì)比例越高,則該詞t所對(duì)應(yīng)的權(quán)重Wt,d越大。同理,詞t在關(guān)注標(biāo)簽向量中的原有的權(quán)重wt,v越高,則消息d中的詞t的權(quán)重Wt, d越高。下文中將對(duì)關(guān)注標(biāo)簽向量進(jìn)行詳細(xì)說(shuō)明。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,上述根據(jù)公式(I)來(lái)調(diào)整消息d中的詞t的權(quán)重wt, d的方法僅是示例性的而非限制性的,還可以采用其它的方法來(lái)調(diào)整消息d中的詞t的權(quán)重wt,d。另外,上述公式(I)中同時(shí)考慮了詞被用戶關(guān)注的程度(即詞t在關(guān)注標(biāo)簽向量中的原有的權(quán)重wt,v)和詞與不同消息之間的相互關(guān)系(即消息d中詞t的密度KDt,d以及包含詞的消息的數(shù)目與全部消息的數(shù)目之間的相對(duì)比例(1-1og2 (N/dft)/1g2N))來(lái)調(diào)整詞的權(quán)項(xiàng),但是這不是必須的。例如,可以僅考慮上述兩者之一來(lái)調(diào)整詞的權(quán)重。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,上述兩個(gè)影響權(quán)重的因素僅是示例性的而非限制性的,還可以根據(jù)影響權(quán)重的其它因素對(duì)權(quán)重動(dòng)態(tài)地進(jìn)行調(diào)整。在步驟106之后,該方法前進(jìn)到步驟108。在步驟108,計(jì)算權(quán)重被調(diào)整后的向量之間的相似度。 例如,可以根據(jù)權(quán)重被調(diào)整后的向量之間的余弦距離來(lái)判斷權(quán)重被調(diào)整后的向量之間是否相同或相似。下面對(duì)計(jì)算權(quán)重被調(diào)整后的向量之間的余弦距離的過程進(jìn)行說(shuō)明。假設(shè)根據(jù)上述步驟104生成了與消息M1相對(duì)應(yīng)的權(quán)重被調(diào)整后的向量Va,并且生成了與消息M2相對(duì)應(yīng)的權(quán)重被調(diào)整后的向量Vb,其中,權(quán)重被調(diào)整后的向量V1可表示為(wal, wa2,..., Wan);權(quán)重被調(diào)整后的向量Vb可表示為(wbl, wb2,..., wbn)。其中,Wan表示消息M1中的詞tln的權(quán)重,Wbn表示消息M2中的詞t2n的權(quán)重??梢杂靡韵碌墓?2)來(lái)計(jì)算對(duì)應(yīng)于消息M1的權(quán)重被調(diào)整后的向量Va與對(duì)應(yīng)于消息M2的權(quán)重被調(diào)整后的向量Vb之間的余弦相似度:相似度(Va,Vb) = ( Σ wakXwbk)/sqrt[( Σ WakXwak) X ( Σ WbkXwbk)]......公式(2)其中,I彡k彡n,n為大于或等于I的整數(shù)。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,上述利用向量之間的余弦距離來(lái)計(jì)算向量之間的相似度僅是示例性的而非限制性的,還可以采用向量之間的其它距離來(lái)計(jì)算向量之間的相似度,例如可以采用向量之間的歐式距離等來(lái)計(jì)算向量之間的相似度。在步驟108之后,該方法前進(jìn)到步驟110。在步驟110,根據(jù)相似度將全部消息聚類為分組。根據(jù)上述公式(2)所計(jì)算出的與消息相對(duì)應(yīng)的權(quán)重被調(diào)整后的向量之間的余弦相似度的值的大小表示消息之間的相似程度,并且余弦相似度的值越大,則消息之間越相似。因此,可以根據(jù)所計(jì)算出的相似度,來(lái)判斷消息是否相似,并且將相似的消息聚類成分組。最后,該方法在步驟112處結(jié)束。根據(jù)本實(shí)施例,由于可以對(duì)消息中的詞的權(quán)重動(dòng)態(tài)地進(jìn)行調(diào)整,因此能夠提高計(jì)算消息之間的相似度的準(zhǔn)確度,從而提高對(duì)消息進(jìn)行聚類的準(zhǔn)確度和效率。下面,將對(duì)如何計(jì)算詞被用戶關(guān)注的程度進(jìn)行詳細(xì)說(shuō)明。詞被用戶關(guān)注的程度由詞在關(guān)注標(biāo)簽向量中的權(quán)重來(lái)表示,其中,根據(jù)消息的重要度得分和/或根據(jù)處理消息的類型,更新詞在關(guān)注標(biāo)簽向量中的權(quán)重,使得消息的重要度得分越高,則詞在關(guān)注標(biāo)簽向量中的權(quán)重被更新得越高,與該類型相對(duì)應(yīng)的系數(shù)被應(yīng)用于更新詞在關(guān)注標(biāo)簽向量中的權(quán)重。關(guān)注標(biāo)簽向量由被用戶關(guān)注的詞及其權(quán)重的對(duì)組成,其中,被用戶關(guān)注的詞的權(quán)重表示該詞被用戶關(guān)注的程度。假設(shè)詞tfl是被用戶關(guān)注的詞,詞tfl的權(quán)重為Wfl,則權(quán)重Wfl表示詞tfl被用戶關(guān)注的程度,從而得到詞tfl及其權(quán)重Wfl的對(duì)(tfl,wfl)。同理,假設(shè)詞tfk是被用戶關(guān)注的詞,詞tfk的權(quán)重為Wfk,則權(quán)重Wfk表示詞tfk被用戶關(guān)注的程度,從而得到詞tfk及其權(quán)重Wfk的對(duì)(tfk,Wfk);假設(shè)詞tfn是被用戶關(guān)注的詞,詞tfn的權(quán)重為Wfn,則權(quán)重Wfn表示詞tfn被用戶關(guān)注的程度,從而得到詞tfn及其權(quán)重Wfn的對(duì)(tfn,Wfn)。因此,可以得到由被用戶關(guān)注的詞及其權(quán)重的對(duì)組成的關(guān)注標(biāo)簽向量Vf = ((tfl, Wfl),…,(tfk,Wfk),..., (tfn, Wfn)),其中,η和k為大于或等于I的自然數(shù),并且I彡k彡η??梢灶A(yù)先為關(guān)注標(biāo)簽向量Vf = ((tfl,wfl),..., (tfk, wfk),..., (tfn, wfn))中的每個(gè)詞tfk所對(duì)應(yīng)的權(quán)重Wfk設(shè)定缺省值。另外,用戶也可以設(shè)定關(guān)注標(biāo)簽向量Vf = ((tfl,wfl),…,(tfk, wfk),…,(tfn, wfn))中的每個(gè)詞tfk所對(duì)應(yīng)的權(quán)重wfk。例如,可以通過調(diào)整消息的重要度來(lái)設(shè)定詞在關(guān)注標(biāo)簽向量中的權(quán)重。下面,將對(duì)通過調(diào)整消息的重要度來(lái)設(shè)定詞在關(guān)注標(biāo)簽向量中的權(quán)重的過程進(jìn)行詳細(xì)說(shuō)明。首先,對(duì)于給定的消息M= (t1;t2,…,tk,…,tn),假設(shè)其向量為V = ((tpW),(t2,w2),..., (tk,wk),..., (tn,wn)),其中,η和k為大于或等于I的自然數(shù),并且I彡k彡η。接著,對(duì)于向量V= ((t1 W1), (t2, w2),..., (tk, wk),..., (tn, wn))中的每個(gè)詞tk(假設(shè)其對(duì)應(yīng)于關(guān)注標(biāo)簽向量Vf中的詞tfk),通過調(diào)整消息M的重要度來(lái)設(shè)定詞tk在關(guān)注標(biāo)簽向量中的權(quán)重wfk。例如,可以根據(jù)以下公式(3)來(lái)設(shè)定關(guān)注標(biāo)簽向量中的權(quán)重wfk:wfk = Wfk+s X β......公式(3)在公式(3)中,β為常量因子。s是一個(gè)變量。s的取值與如何調(diào)整消息M = (t1;t2,…,tk,…,tn)的重要度有關(guān)。例如,如果增加消息M= (t1; t2,…,tk,…,tn)的重要度,則s的值取I ;如果減少消息M = (t1; t2,…,tk,…,tn)的重要度,則s的值取-1。最后,當(dāng)所有消息都被處理完后,可以對(duì)關(guān)注標(biāo)簽向量進(jìn)行歸一化處理。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,上述根據(jù)公式(3)設(shè)定關(guān)注標(biāo)簽向量中的權(quán)重Wfk的方法僅是示例性的而非限制性的,還可以采用其它的方法來(lái)設(shè)定關(guān)注標(biāo)簽向量中的權(quán)重wfk。另外,可以根據(jù)不同的因素來(lái)更新詞在關(guān)注標(biāo)簽向量中的權(quán)重。例如,可以根據(jù)消息的重要度得分來(lái)更新詞在關(guān)注標(biāo)簽向量中的權(quán)重,或者可以根據(jù)用戶對(duì)消息進(jìn)行操作的類型來(lái)更新關(guān)注標(biāo)簽向量,或者可以同時(shí)考慮上述兩個(gè)因素來(lái)更新詞在關(guān)注標(biāo)簽向量中的權(quán)重。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,上述因素僅是示例性的而非限制性的,還可以根據(jù)其它的因素來(lái)更新詞在關(guān)注標(biāo)簽向量中的權(quán)重。下面,將對(duì)如何計(jì)算消息的重要度得分進(jìn)行詳細(xì)說(shuō)明??梢圆捎枚喾N方式來(lái)計(jì)算消息的重要度得分。例如,可以采用下面的公式(4)來(lái)計(jì)算消息的重要度得分:重要度得分=FXSX(T+R+A)......公式(4)在上面的公式(4)中:F是消息來(lái)源因子,可以針對(duì)不同的消息來(lái)源,例如IP電話、電子郵件、微博等,為F設(shè)定不同的缺省值。S是消息發(fā)送者因子,其值取決于當(dāng)前用戶是否是該消息的發(fā)送者。R是消息接收者因子,其值取決于當(dāng)前用戶是否在接收者列表中。T是消息內(nèi)容因子,其值等于消息的詞中出現(xiàn)在關(guān)注標(biāo)簽向量中的詞的權(quán)重之和。A是額外因子,依據(jù)消息來(lái)源的不同,額外因子A可以為常量,也可以為與消息中某些參數(shù)有關(guān)的變量。例如,如果消息的來(lái)源為電子郵件,則額外因子A為與郵件有關(guān)的特性。如果消息的來(lái)源為日程表,則額外因子A可為基于事件本身的重要度。如果消息的來(lái)源是博客,則額外因子A可依據(jù)該消息所在的文章是否這頂來(lái)確定。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,上述根據(jù)公式(4)計(jì)算消息的重要度得分的方法僅是示例性的而非限制性的,還可以采用其它的方法來(lái)計(jì)算消息的重要度得分。下面,將對(duì)根據(jù)消息的重要度得分和/或根據(jù)用戶對(duì)消息進(jìn)行操作的類型更新詞在關(guān)注標(biāo)簽向量中的權(quán)重的過程進(jìn)行詳細(xì)說(shuō)明。首先,對(duì)于給定的消息M = (t1; t2,…,tk,…,tn),假設(shè)其之前的重要度得分為IS,其向量為 V= ((t1; W1), (t2, W2),..., (tk, Wk),..., (tn, Wn)),其中,η 和 k 為大于或等于I的自然數(shù),并且I彡k彡η。接著,對(duì)于向量V= ((t1 W1) , (t2, w2) ,..., (tk, wk) ,..., (tn, wn))中的每個(gè)詞tk(假設(shè)其對(duì)應(yīng)于關(guān)注標(biāo)簽向量Vf中的詞tfk),更新其在關(guān)注標(biāo)簽向量中的權(quán)重wfk。例如,可以根據(jù)以下公式(5)來(lái)更新關(guān)注標(biāo)簽向量中的權(quán)重wfk:wfk = Wfk+λ XsXIS......公式(5)在公式(5)中,λ為常量因子。IS是消息的重要度得分。由以上公式(5)可知,消息的重要度得分越高,則詞在關(guān)注標(biāo)簽向量中的權(quán)重被更新得越高。s是一個(gè)系數(shù)。系數(shù)S的取值與用戶對(duì)消息進(jìn)行操作的類型相對(duì)應(yīng)。`例如,如果該消息是用戶本身創(chuàng)建的,則系數(shù)S被設(shè)定為大于I的常數(shù)C。如果該消息被用戶轉(zhuǎn)發(fā)或回復(fù),則系數(shù)S被設(shè)定為其它的大于I的常數(shù)d。如果用戶僅查看了該消息的詳情,則系數(shù)s被設(shè)定為I。如此設(shè)定的原因是考慮到被創(chuàng)建、轉(zhuǎn)發(fā)或回復(fù)等的消息的重要度大于僅被查看的消息的重要度。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,上述設(shè)定變量s的值的方法僅是示例性的而非限制性的,還可以采用其它方法來(lái)設(shè)定變量s的值。另夕卜,如果向量V = (XtpW1) , (t2, W2),…,(tk,wk),…,(tn, Wn))中的詞 tk 不在原來(lái)的關(guān)注標(biāo)簽向量Vf= ((tfl,wfl),…,(tfk,wfk),…,(tfn,wfn))中,則假設(shè)詞tk原來(lái)的權(quán)重為一個(gè)小的常量。最后,當(dāng)所有消息都被處理完后,對(duì)關(guān)注標(biāo)簽向量進(jìn)行歸一化處理。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,上述根據(jù)公式(5)更新關(guān)注標(biāo)簽向量中的權(quán)重Wfk的方法僅是示例性的而非限制性的,還可以采用其它的方法來(lái)更新關(guān)注標(biāo)簽向量中的權(quán)重wfk。下面,將結(jié)合圖2詳細(xì)說(shuō)明對(duì)消息分組進(jìn)行排序的處理。圖2是示出根據(jù)本發(fā)明實(shí)施例的對(duì)消息分組進(jìn)行排序的處理的流程圖。如圖2所示,該方法在步驟200開始。在步驟202,計(jì)算分組中的每個(gè)消息的重要度得分和/或緊急度得分??梢圆捎枚喾N方式來(lái)計(jì)算消息的重要度得分。例如,可以采用上文中的公式(4)來(lái)計(jì)算消息的重要度得分。上文中已經(jīng)對(duì)公式(4)進(jìn)行了詳細(xì)說(shuō)明,此處不再贅述。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,上述根據(jù)公式(4)計(jì)算消息的重要度得分的方法僅是示例性的而非限制性的,還可以采用其它的方法來(lái)計(jì)算消息的重要度得分??梢圆捎枚喾N方法來(lái)計(jì)算消息的緊急度得分。例如,可以根據(jù)下面的公式(6)來(lái)計(jì)算消息的緊急度得分。緊急度得分=FlXSlXexp(-min(|t_ET|)/M)......(公式 6)其中,F(xiàn)l是信息來(lái)源的緊急度因子,可以針對(duì)不同的消息來(lái)源,例如IP電話、電子郵件、微博等,為Fl設(shè)定不同的缺省值。SI是發(fā)送者的緊急度因子,其值取決于當(dāng)前用戶是否是該消息的發(fā)送者。t是當(dāng)前時(shí)間。ET是事件的時(shí)間。M是常量。由于ET可能表示一段時(shí)間,因此min( It-ET I)例如可以通過以下方法來(lái)計(jì)算:
minET-t (t<minET)min(|t-ET|) = O(minET < t < maxET)
t-maxET (t>maxET)其中,minET表示事件開始`時(shí)間,而maxET表示事件結(jié)束時(shí)間。如果ET在消息中被清晰的描述,例如消息的來(lái)源是日程表,則ET表示日程表中的事件時(shí)間。如果ET在消息中的表述比較模糊,例如消息的來(lái)源是電子郵件,則可以將收到消息的時(shí)間作為事件開始時(shí)間,并且根據(jù)消息來(lái)源將開始時(shí)間之后的某個(gè)固定時(shí)間(例如一天后)作為事件結(jié)束時(shí)間。圖9是示出消息的緊急度得分隨時(shí)間的變化的示意圖。如圖9所示,橫軸表示時(shí)間t,縱軸表示消息的緊急度得分。在圖9中,時(shí)間minET表示表示事件開始時(shí)間,而maxET表示事件結(jié)束時(shí)間。如圖9所示,在時(shí)間t小于事件開始時(shí)間minET時(shí),如曲線902所示,隨著時(shí)間t逐漸鄰近事件開始時(shí)間minET,事件的緊急度得分也逐漸升高。當(dāng)時(shí)間t到達(dá)事件開始時(shí)間minET時(shí),時(shí)間的緊急度得分也到達(dá)最大值。如圖9中的直線904所示,當(dāng)時(shí)間t在事件開始時(shí)間minET與事件結(jié)束時(shí)間maxET之間(包括端點(diǎn))時(shí),事件的緊急度得分一直保持為最大值。如圖9中的曲線906所示,在時(shí)間t大于事件結(jié)束時(shí)間maxET時(shí),隨著時(shí)間t逐漸離開事件結(jié)束時(shí)間maxET,事件的緊急度得分逐漸降低??梢噪S著時(shí)間的變化,根據(jù)以上所述的方法,定期對(duì)緊急度得分重新進(jìn)行計(jì)算。另夕卜,也可以采用預(yù)先計(jì)算好閾值,在某個(gè)時(shí)間點(diǎn)觸發(fā)事件的方式來(lái)處理。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,上述計(jì)算消息的緊急度得分的方法僅是示例性的而非限制性的,還可以采用其它的方法來(lái)計(jì)算消息的緊急度得分。另外,本領(lǐng)域技術(shù)人員還應(yīng)當(dāng)理解,可以計(jì)算消息的重要度得分和緊急度得分兩者,也可以只計(jì)算消息的重要度得分和緊急度得分之一,而且消息的重要度得分的計(jì)算與消息的緊急度得分的計(jì)算之間沒有前后順序的限制。在步驟202之后,該方法前進(jìn)到步驟204。在步驟204,根據(jù)分組中的每個(gè)消息的重要度得分和/或緊急度得分,獲得分組的重要度得分和/或緊急度得分。在完成消息的重要度得分和緊急度得分的計(jì)算之后,可以計(jì)算消息分組的重要度得分和緊急度得分。例如,可以將消息分組中所有消息的重要度得分之和作為該消息分組的重要度得分,以及可以將消息分組中緊急度得分最大的消息的相應(yīng)數(shù)值作為該消息分組的緊急度得分。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,上述計(jì)算消息分組的重要度得分和緊急度得分的方法僅是示例性的而非限制性的,還可以采用其它的方法來(lái)計(jì)算消息分組的重要度得分和緊急度得分。在步驟204之后,該方法前進(jìn)到步驟206。在步驟206,以及根據(jù)分組的重要度得分和/或緊急度得分,對(duì)分組進(jìn)行排序。在計(jì)算出消息分組的重要度得分和/或緊急度得分之后,可以根據(jù)重要度得分和/或緊急度得分的升序或降序進(jìn)行排序,最后,該方法在步驟208處結(jié)束。根據(jù)本實(shí)施例,能夠?qū)⒅匾雀吆?或緊急度更高的消息優(yōu)先傳遞給用戶,從而可容易地從大量的消息中獲得重要度更高和/或緊急度更高的消息。下面將參考圖3詳細(xì)描述將消息通知給用戶的處理。圖3是示出根據(jù)本發(fā)明實(shí)施例的將消息通知給用戶的處理的流程圖。如圖3所示, 該方法在步驟300開始。
在步驟302,根據(jù)分組的重要度得分和/或緊急度得分、以及環(huán)境因素,選擇用于發(fā)送相應(yīng)的分組中的消息的通知方式。在計(jì)算出消息分組的重要度得分和/或緊急度得分之后,可以將計(jì)算的重要度得分和/或緊急度得分與預(yù)定閾值進(jìn)行比較,并且考慮諸如當(dāng)前時(shí)間段是辦公時(shí)間還是休息時(shí)間的環(huán)境因素,來(lái)選擇用于發(fā)送相應(yīng)的分組中的消息的通知方式。下面,將以表I為例詳細(xì)說(shuō)明如何選擇用于發(fā)送相應(yīng)的分組中的消息的通知方式。表I
權(quán)利要求
1.一種對(duì)消息進(jìn)行聚類的方法,包括: 對(duì)所述消息進(jìn)行分詞,并分別計(jì)算通過分詞獲得的詞的詞頻作為其權(quán)重; 生成與所述消息對(duì)應(yīng)的特征向量,其中,所述特征向量的每個(gè)元素分別與所述詞相對(duì)應(yīng),每個(gè)元素的值分別為相對(duì)應(yīng)的詞的權(quán)重; 根據(jù)所述詞被用戶關(guān)注的程度和/或包含所述詞的消息的數(shù)目與全部消息的數(shù)目之間的相對(duì)比例,調(diào)整作為所述特征向量中的元素的值的所述詞的權(quán)重,使得所述程度和/或比例越高,則所述權(quán)重被調(diào)整得越高; 計(jì)算權(quán)重被調(diào)整后的特征向量之間的相似度;以及 根據(jù)所述相似度將全部消息聚類為分組。
2.根據(jù)權(quán)利要求1所述的方法,其中: 所述詞被用戶關(guān)注的程度由所述詞在關(guān)注標(biāo)簽向量中的權(quán)重來(lái)表示,其中,根據(jù)消息的重要度得分和/或用戶處理消息的類型,更新所述詞在所述關(guān)注標(biāo)簽向量中的權(quán)重,使得消息的重要度得分越高,則所述詞在所述關(guān)注標(biāo)簽向量中的權(quán)重被更新得越高,與所述類型相對(duì)應(yīng)的系數(shù)被應(yīng)用于更新所述詞在所述關(guān)注標(biāo)簽向量中的權(quán)重。
3.根據(jù)權(quán)利要求1所述的方法,在對(duì)所述消息進(jìn)行分詞的步驟之前,還包括: 收集來(lái)自不同來(lái)源的消息;以及 分別采用與所述來(lái)源對(duì)應(yīng)的轉(zhuǎn)換方式,將所述來(lái)自不同來(lái)源的消息轉(zhuǎn)換成統(tǒng)一的格式。
4.根據(jù)權(quán)利要求1所述的方法,還包括: 計(jì)算所述分組中的每個(gè)消息的重要度得分和/或緊急度得分; 根據(jù)所述分組中的每個(gè)消息的重要度得分和/或緊急度得分,獲得所述分組的重要度得分和/或緊急度得分;以及 根據(jù)所述分組的重要度得分和/或緊急度得分,對(duì)所述分組進(jìn)行排序。
5.根據(jù)權(quán)利要求4所述的方法,還包括: 根據(jù)所述分組的重要度得分和/或所述緊急度得分、以及環(huán)境因素,選擇用于發(fā)送相應(yīng)的分組中的消息的通知方式; 按照預(yù)定義的模板,對(duì)所述相應(yīng)的分組中的消息進(jìn)行渲染以生成通知內(nèi)容;以及 通過所選擇的通知方式將生成的通知內(nèi)容發(fā)送給用戶。
6.一種對(duì)消息進(jìn)行聚類的設(shè)備,包括: 分詞單元,其被配置成對(duì)所述消息進(jìn)行分詞,并分別計(jì)算通過分詞獲得的詞的詞頻作為其權(quán)重; 向量生成單元,其被配置成生成與所述消息對(duì)應(yīng)的特征向量,其中,所述特征向量的每個(gè)元素分別與所述詞相對(duì)應(yīng),每個(gè)元素的值分別為相對(duì)應(yīng)的詞的權(quán)重; 權(quán)重調(diào)整單元,其被配置成根據(jù)所述詞被用戶關(guān)注的程度和/或包含所述詞的消息的數(shù)目與全部消息的數(shù)目之間的相對(duì)比例,調(diào)整作為所述特征向量中的元素的值的所述詞的權(quán)重,使得所述程度和/或比例越高,則所述權(quán)重被調(diào)整得越高; 相似度計(jì)算單元,其被配置成計(jì)算權(quán)重被調(diào)整后的特征向量之間的相似度;以及 消息聚類單元,其被配置成根據(jù)所述相似度將全部消息聚類為分組。
7.根據(jù)權(quán)利要求6所述的設(shè)備,其中:所述詞被用戶關(guān)注的程度由所述詞在關(guān)注標(biāo)簽向量中的權(quán)重來(lái)表示,其中,根據(jù)消息的重要度得分和/或用戶處理消息的類型,更新所述詞在所述關(guān)注標(biāo)簽向量中的權(quán)重,使得消息的重要度得分越高,則所述詞在所述關(guān)注標(biāo)簽向量中的權(quán)重被更新得越高,與所述類型相對(duì)應(yīng)的系數(shù)被應(yīng)用于更新所述詞在所述關(guān)注標(biāo)簽向量中的權(quán)重。
8.根據(jù)權(quán)利要求6所述的設(shè)備,還包括: 消息收集單元,其被配置成收集來(lái)自不同來(lái)源的消息;以及 格式轉(zhuǎn)換單元,其被配置成分別采用與所述來(lái)源對(duì)應(yīng)的轉(zhuǎn)換方式,將所述來(lái)自不同來(lái)源的消息轉(zhuǎn)換成統(tǒng)一的格式。
9.根據(jù)權(quán)利要求6所述的設(shè)備,還包括: 消息得分計(jì)算單元,其被配置成計(jì)算所述分組中的每個(gè)消息的重要度得分和/或緊急度得分; 分組得分計(jì)算單元,其被配置成根據(jù)所述分組中的每個(gè)消息的重要度得分和/或緊急度得分,獲得所述分組的重要度得分和/或緊急度得分;以及 分組排序單元,其被配置成根據(jù)所述分組的重要度得分和/或緊急度得分,對(duì)所述分組進(jìn)行排序。
10.根據(jù)權(quán)利要求9所述的設(shè)備,還包括: 選擇單元,其被配置成根據(jù)所述分組的重要度得分和/或緊急度得分、以及環(huán)境因素,選擇用于發(fā)送相應(yīng)的分組中的消息的通知方式; 渲染單元,其被配置成按照預(yù)定義的模板,對(duì)所述相應(yīng)的分組中的消息進(jìn)行渲染以生成通知內(nèi)容;以及 發(fā)送單元,其被配置成通過所選擇的通知方式將生成的通知內(nèi)容發(fā)送給用戶。
全文摘要
提供一種對(duì)消息進(jìn)行聚類的方法和設(shè)備。對(duì)消息進(jìn)行聚類的方法包括對(duì)消息進(jìn)行分詞,并分別計(jì)算通過分詞獲得的詞的詞頻作為其權(quán)重;生成與消息對(duì)應(yīng)的特征向量,其中,特征向量的每個(gè)元素分別與詞相對(duì)應(yīng),每個(gè)元素的值分別為相對(duì)應(yīng)的詞的權(quán)重;根據(jù)詞被用戶關(guān)注的程度和/或包含詞的消息的數(shù)目與全部消息的數(shù)目之間的相對(duì)比例,調(diào)整作為特征向量中的元素的值的詞的權(quán)重,使得程度和/或比例越高,則權(quán)重被調(diào)整得越高;計(jì)算權(quán)重被調(diào)整后的特征向量之間的相似度;以及根據(jù)相似度將全部消息聚類為分組。
文檔編號(hào)G06F17/30GK103246676SQ201210030679
公開日2013年8月14日 申請(qǐng)日期2012年2月10日 優(yōu)先權(quán)日2012年2月10日
發(fā)明者李邵明, 張軍, 鐘朝亮, 鄒綱, 松尾昭彥 申請(qǐng)人:富士通株式會(huì)社