專利名稱:一種挖掘熱點詞的方法與裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機通信技術(shù),特別涉及一種挖掘熱點詞的方法與裝置。
背景技術(shù):
隨著計算機通信技術(shù)的發(fā)展,尤其是3g網(wǎng)絡(luò)和智能移動終端的發(fā)展,用戶的網(wǎng)絡(luò)生活越來越豐富,在網(wǎng)絡(luò)上聊天、瀏覽新聞、看電影、玩游戲、搜索、購物、發(fā)布信息等,越來越成為網(wǎng)絡(luò)生活的一部分。例如,微博客(MicroBlog),即微博作為一個基于用戶關(guān)系的信息分享、傳播以及獲取平臺,用戶可以通過WEB、WAP以及各種客戶端組建個人社區(qū),以140字左右的文字更新信息,并實現(xiàn)即時分享。由于網(wǎng)絡(luò)內(nèi)容的豐富,網(wǎng)絡(luò)用戶從中獲取相關(guān)信息所花費的時間也越來越多,為了提高用戶的網(wǎng)絡(luò)體驗,各運營商通過熱點詞挖掘的方法,自動獲取最新的時訊,及時向網(wǎng)絡(luò)用戶進(jìn)行推薦,例如,根據(jù)微博輸入的文本流信息,自動識別其中包含的熱點詞,并向關(guān)注的用戶推薦熱點信息,這樣,在提升網(wǎng)絡(luò)服務(wù)的同時,也有效降低了用戶獲取熱點信息所需的時間。圖1為現(xiàn)有挖掘熱點詞的方法流程示意圖。參見圖1,該流程包括步驟101,獲取輸入的文本流;本步驟中,通過對網(wǎng)頁、微博包含的內(nèi)容進(jìn)行處理,獲取網(wǎng)頁、微博內(nèi)容對應(yīng)的文本流,文本流可以按照預(yù)先設(shè)定的時間周期進(jìn)行獲取,也可以進(jìn)行隨機獲取。步驟102,對文本流進(jìn)行分詞,獲取候選詞集;本步驟中,對文本流進(jìn)行分詞獲取文本流中包含的詞語,具體可參見相關(guān)技術(shù)文獻(xiàn)。步驟103,將獲取的候選詞集與預(yù)先設(shè)置的熱點詞詞表進(jìn)行匹配,獲取熱點候選詞集,并統(tǒng)計熱點候選詞的頻率;本步驟中,可以以人工的方式預(yù)先整理、收集一批熱點事件中可能包含的待關(guān)注詞語,例如地震、火災(zāi)、演講、事故、北京、旅游、購物等詞語組成熱點詞詞表。文本流輸入之后,將經(jīng)過分詞處理獲取的候選詞集與熱點詞詞表進(jìn)行匹配,如果候選詞集中的候選詞包含在熱點詞詞表中,則將候選詞集中的該候選詞作為熱點候選詞,放入熱點候選詞集中,并統(tǒng)計該熱點候選詞在候選詞集中出現(xiàn)的次數(shù)或頻率,即統(tǒng)計分詞后出現(xiàn)在熱點詞詞表中的詞的頻率。步驟104,選取頻率最高的預(yù)定數(shù)目的熱點候選詞作為熱點詞輸出。本步驟中,將頻率最高的N個熱點候選詞作為熱點詞輸出。由上述可見,現(xiàn)有的挖掘熱點詞的方法,需要人工整理熱點詞詞表,工作量大;同時,大量新出現(xiàn)的人名、地名、機構(gòu)名可能是未登錄詞,即未被整理至熱點詞詞表中進(jìn)行收錄,但這些詞又往往是一個熱點事件或主題的主要部分,使得基于人工整理形成的熱點詞詞表挖掘范圍小,不能挖掘到此類熱點事件或主題,使得熱點詞挖掘效率較低;進(jìn)一步地,很多熱點詞,例如北京、電影、緋聞等往往是一些頻率較高的詞,由于多個事件會包含該詞,尤其是在微博平臺中,網(wǎng)友聊天對話中極有可能夾帶北京、緋聞這些詞語,使得這些詞被提及或頻繁出現(xiàn),但頻繁出現(xiàn)的該詞并不能反映出一個熱點事件或是話題,也就是說,僅僅依靠詞語在一定時間內(nèi)的出現(xiàn)頻率不能夠真正反映出這個詞語的熱度;而且,輸出的熱點詞是單個的詞語,在缺乏上下文的環(huán)境中,單個詞語難以反映一個熱點事件或是話題,例如,對于輸出的熱點詞為科特迪瓦的情形,在缺乏相關(guān)知識背景下,用戶難以了解這個詞語代表了哪一個熱點的事件或是話題。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的主要目的在于提出一種挖掘熱點詞的方法,能夠擴展熱點詞的挖掘范圍、提高熱點詞挖掘效率。本發(fā)明的另一目的在于提出一種挖掘熱點詞的裝置,能夠擴展熱點詞的挖掘范圍、提聞熱點詞挖掘效率。為達(dá)到上述目的,本發(fā)明提供了一種挖掘熱點詞的方法,該方法包括獲取輸入的文本流,對文本流進(jìn)行分詞,獲取候選詞集;統(tǒng)計候選詞集中各候選詞在文本流中出現(xiàn)的當(dāng)前頻率,獲取各候選詞在預(yù)先存儲的歷史數(shù)據(jù)中的各歷史頻率;根據(jù)候選詞的當(dāng)前頻率以及各歷史頻率計算該候選詞的頻率異常性值,在歷史數(shù)據(jù)中存儲該候選詞的當(dāng)前頻率信息并輸出預(yù)定數(shù)目的頻率異常的候選詞。 在獲取候選詞集后,進(jìn)一步包括將預(yù)先設(shè)置的停用詞表與獲取的候選詞集進(jìn)行匹配,將候選詞集中與停用詞表相匹配的詞語進(jìn)行過濾。所述停用詞表包括無意義詞語、和/或,高文檔率詞語。所述獲取各候選詞在預(yù)先存儲的歷史數(shù)據(jù)中的各歷史頻率包括如果歷史數(shù)據(jù)中存儲有該候選詞的各歷史頻率,讀取該候選詞的各歷史頻率;如果歷史數(shù)據(jù)中未存儲有該候選詞的歷史頻率,計算歷史數(shù)據(jù)中存儲的所有候選詞的各歷史頻率的平均值,作為該候選詞的各歷史頻率。所述根據(jù)候選詞的當(dāng)前頻率以及各歷史頻率計算該候選詞的頻率異常性值包括根據(jù)候選詞的各歷史頻率獲取該候選詞的歷史頻率的平均值;根據(jù)該候選詞的各歷史頻率以及獲取的該候選詞的歷史頻率的平均值,計算該候選詞的方差;獲取該候選詞的當(dāng)前頻率與歷史頻率的平均值的差的絕對值,計算該絕對值與所述方差的商,得到該候選詞的頻率異常性值。所述輸出預(yù)定數(shù)目的頻率異常的候選詞為將預(yù)定數(shù)目的頻率異常的候選詞聚合成用以描述一個事件或主題的詞簇進(jìn)行輸出。所述將預(yù)定數(shù)目的頻率異常的候選詞聚合成用以描述一個事件或主題的詞簇包括基于預(yù)定數(shù)目的頻率異常的候選詞,統(tǒng)計每兩個候選詞組成的詞組在同一文本流中出現(xiàn)的次數(shù);統(tǒng)計該兩個候選詞在同一文本流中分別出現(xiàn)的次數(shù),并獲取該兩個候選詞在同一文本流中分別出現(xiàn)的次數(shù)的乘積;獲取所述詞組在同一文本流中出現(xiàn)的次數(shù)與所述乘積的商,作為所述兩個候選詞之間的點間互信息距離;如果獲取的點間互信息距離值大于預(yù)先設(shè)置的點間互信息距離值閾值,則將該點間互信息距離值對應(yīng)的兩個候選詞合成為一個詞簇。進(jìn)一步包括基于選擇的預(yù)定數(shù)目的頻率異常的候選詞或者通過候選詞聚合形成的詞簇,觸發(fā)從預(yù)先設(shè)置的外部數(shù)據(jù)源執(zhí)行搜索,并將搜索結(jié)果與預(yù)定數(shù)目的頻率異常的候選詞或者詞簇同時向用戶展示。一種挖掘熱點詞的裝置,該裝置包括分詞模塊、歷史數(shù)據(jù)存儲模塊以及頻率異常性值處理模塊,其中,分詞模塊,用于獲取輸入的文本流,對文本流進(jìn)行分詞,獲取候選詞集;歷史數(shù)據(jù)存儲模塊,用于存儲候選詞的各歷史頻率;頻率異常性值處理模塊,用于統(tǒng)計候選詞集中各候選詞在文本流中出現(xiàn)的當(dāng)前頻率,根據(jù)候選詞的當(dāng)前頻率以及歷史數(shù)據(jù)存儲模塊存儲的該候選詞的各歷史頻率計算該候選詞的頻率異常性值,將計算得到的候選詞的當(dāng)前頻率信息輸出至歷史數(shù)據(jù)存儲模塊,并輸出預(yù)定數(shù)目的頻率異常的候選詞。進(jìn)一步包括去噪模塊,用于根據(jù)預(yù)先設(shè)置的停用詞表,與分詞模塊獲取的候選詞集進(jìn)行匹配,將候選詞集中與停用詞表相匹配的詞語進(jìn)行去噪處理。進(jìn)一步包括候選詞聚合模塊,用于接收頻率異常性值處理模塊輸出的預(yù)定數(shù)目的頻率異常的候選詞,將獲取的候選詞聚合成用以描述一個事件或主題的詞簇。進(jìn)一步包括搜索模塊,用于以獲取的詞簇或候選詞為搜索關(guān)鍵詞,觸發(fā)從預(yù)先設(shè)置的數(shù)據(jù)源執(zhí)行搜索,向用戶展示詞簇以及搜索結(jié)果,或者,候選詞以及搜索結(jié)果。所述頻率異常性值處理模塊包括當(dāng)前頻率統(tǒng)計單元、歷史頻率平均值計算單元、方差計算單元、異常性值計算單元以及候選詞輸出判斷單元,其中,當(dāng)前頻率統(tǒng)計單元,用于統(tǒng)計候選詞集中各候選詞在輸入文本流中出現(xiàn)的當(dāng)前頻率,將當(dāng)前頻率信息分別輸出至歷史數(shù)據(jù)存儲模塊以及異常性值計算單元;歷史頻率平均值計算單元,用于讀取歷史數(shù)據(jù)存儲模塊存儲的各候選詞的歷史頻率,計算各候選詞的歷史頻率的平均值,輸出至異常性值計算單元;方差計算單元,用于根據(jù)歷史數(shù)據(jù)存儲模塊存儲的各候選詞的歷史頻率以及歷史頻率平均值計算單元計算得到的該候選詞的歷史頻率的平均值,計算各候選詞的方差,輸出至異常性值計算單元;異常性值計算單元,用于根據(jù)各候選詞的當(dāng)前頻率、歷史頻率的平均值以及方差,分別計算各候選詞的異常性值;
候選詞輸出判斷單元,用于將異常性值大于預(yù)先設(shè)置的異常性值閾值的候選詞或?qū)惓P灾底畲蟮念A(yù)定數(shù)目的候選詞進(jìn)行輸出展示。由上述的技術(shù)方案可見,本發(fā)明提供的一種挖掘熱點詞的方法與裝置,獲取輸入的文本流;對文本流進(jìn)行分詞,獲取候選詞集;統(tǒng)計候選詞集中各候選詞在文本流中出現(xiàn)的當(dāng)前頻率,獲取各候選詞在預(yù)先存儲的歷史數(shù)據(jù)中的各歷史頻率;根據(jù)候選詞的當(dāng)前頻率以及各歷史頻率計算該候選詞的頻率異常性值,在歷史數(shù)據(jù)中存儲該候選詞的當(dāng)前頻率信息并輸出預(yù)定數(shù)目的頻率異常的候選詞。這樣,通過記錄候選詞集中各候選詞的歷史頻率,結(jié)合該候選詞當(dāng)前的頻率,計算其頻率異常性值,通過頻率異常性值挖掘熱點詞,能夠擴展熱點詞的挖掘范圍、提高熱點詞挖掘效率。
圖1為現(xiàn)有挖掘熱點詞的方法流程示意圖。圖2為本發(fā)明實施例挖掘熱點詞的方法流程示意圖。圖3為本發(fā)明實施例抽取熱點詞的方法流程示意圖。圖4為本發(fā)明實施例熱點詞擴展的方法流程示意圖。圖5為本發(fā)明實施例的挖掘熱點詞的裝置結(jié)構(gòu)示意圖。
具體實施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖及具體實施例對本發(fā)明作進(jìn)一步地詳細(xì)描述。現(xiàn)有挖掘熱點詞的方法,將候選詞集與熱點詞詞表進(jìn)行匹配后,將頻率最高的N個熱點候選詞作為熱點詞輸出。由于熱點詞詞表更新周期較長,使得候選詞集中較多的熱點詞被熱點詞詞表過濾,使得熱點詞的挖掘范圍較小、挖掘效率較低。本發(fā)明實施例中,考慮并記錄候選詞集中各候選詞的歷史頻率,結(jié)合該候選詞當(dāng)前的頻率,計算其頻率異常度,通過頻率異常度挖掘熱點詞,使得挖掘的熱點詞與熱點詞詞表無關(guān),擴展了熱點詞的挖掘范圍,從而提聞了熱點詞的挖掘效率。圖2為本發(fā)明實施例挖掘熱點詞的方法流程示意圖。參見圖2,該流程包括步驟201,獲取輸入的文本流;本發(fā)明實施例中,較佳地,由于是基于候選詞的歷史頻率進(jìn)行挖掘,需要保持計算頻率的周期一致,因而,可以按照預(yù)先設(shè)置的時間周期獲取輸入的文本流,例如,以天為時間周期,獲取每天輸入的文本流。步驟202,對文本流進(jìn)行分詞,獲取候選詞集;本步驟中,獲取的候選詞集中,可能包含了大量噪音,例如,包含有一些無意義的“的”、“了”、“呢”等詞語,這類詞語對熱點詞輸出毫無益處,稱之為噪音。為了減少最后輸出的熱點詞包含的無意義詞語,本發(fā)明實施例中,在獲取候選詞集后,可以根據(jù)預(yù)先設(shè)置的停用詞表對獲取的候選詞集進(jìn)行去噪處理,即通過設(shè)置停用詞表,與獲取的候選詞集進(jìn)行匹配,將候選詞集中與停用詞表相匹配的詞語進(jìn)行去噪(過濾)處理。如前所述,對于例如北京、電影、緋聞等頻率較高卻不能反映出一個熱點事件或是話題的詞語,本發(fā)明實施例中,進(jìn)一步在停用詞表中設(shè)置該類詞語,具體可通過大規(guī)模文本集的分析,篩選一批文檔率高的詞語,加入到停用詞表中,即停用詞表包括無意義詞語以及 高文檔率詞語。
當(dāng)然,實際應(yīng)用中,在獲取去噪處理后的候選詞集后,還可以將獲取的去噪處理后 的候選詞集與預(yù)先設(shè)置的熱點詞詞表進(jìn)行匹配,獲取熱點候選詞集,并基于該熱點候選詞 集進(jìn)行統(tǒng)計,這樣,可以以犧牲一部分召回率的基礎(chǔ)上得到更為精確的輸出。
步驟203,統(tǒng)計候選詞集中各候選詞在文本流中出現(xiàn)的當(dāng)前頻率,獲取各候選詞在 預(yù)先存儲的歷史數(shù)據(jù)中的各歷史頻率;
本步驟中,如前所述,如果是按照預(yù)先設(shè)置的時間周期獲取輸入的文本流,則統(tǒng)計 候選詞集中各候選詞在文本流中出現(xiàn)的次數(shù),該次數(shù)即為該候選詞的當(dāng)前頻率;如果隨機 獲取輸入的文本流,則統(tǒng)計候選詞集中各候選詞在文本流中出現(xiàn)的次數(shù),換算為在預(yù)先設(shè) 置的時間周期內(nèi)對應(yīng)的次數(shù),該對應(yīng)的次數(shù)即為該候選詞的當(dāng)前頻率。
獲取各候選詞在預(yù)先存儲的歷史數(shù)據(jù)中的各歷史頻率包括
如果歷史數(shù)據(jù)中存儲有該候選詞的各歷史頻率,讀取該候選詞的各歷史頻率;
如果歷史數(shù)據(jù)中未存儲有該候選詞的歷史頻率,計算歷史數(shù)據(jù)中存儲的所有候選 詞的各歷史頻率的平均值,作為該候選詞的各歷史頻率。
步驟204,根據(jù)候選詞的當(dāng)前頻率以及各歷史頻率計算該候選詞的頻率異常性值, 在歷史數(shù)據(jù)中存儲該候選詞的當(dāng)前頻率信息并輸出預(yù)定數(shù)目的頻率異常的候選詞。
本步驟中,計算頻率異常性值的公式后續(xù)再進(jìn)行詳細(xì)描述。
如前所述,輸出的熱點詞是單個的詞語,在缺乏上下文的環(huán)境中,單個詞語難以反 映一個熱點事件或是話題,在缺乏相關(guān)知識背景下,用戶難以了解這個詞語代表了哪一個 熱點的事件或是話題。本發(fā)明實施例中,輸出預(yù)定數(shù)目的頻率異常的候選詞可以為
將預(yù)定數(shù)目的頻率異常的候選詞聚合成用以描述一個事件或主題的詞簇進(jìn)行輸 出。其中,詞簇是指屬于同一個事件或話題的兩個或兩個以上候選詞,例如,對于輸出詞簇 為“科特迪瓦體育”的情形,即使在缺乏相關(guān)知識背景下,用戶也可以了解這個詞簇代表的 是關(guān)于科特迪瓦體育的事件或是話題。
進(jìn)一步地,本發(fā)明實施例中,還可以基于選擇的預(yù)定數(shù)目的頻率異常的候選詞或 者詞簇,觸發(fā)從預(yù)先設(shè)置的外部數(shù)據(jù)源執(zhí)行搜索,并將搜索結(jié)果與預(yù)定數(shù)目的頻率異常的 候選詞或者詞簇同時向用戶展示。這樣,用戶可以詳細(xì)了解展示的候選詞或者詞簇所屬熱 點事件或話題的具體內(nèi)容,提高了用戶體驗。
由上述可見,本發(fā)明實施例的挖掘熱點詞的方法,獲取輸入的文本流;對文本流進(jìn) 行分詞,獲取候選詞集;統(tǒng)計候選詞集中各候選詞在文本流中出現(xiàn)的當(dāng)前頻率,獲取各候選 詞在預(yù)先存儲的歷史數(shù)據(jù)中的各歷史頻率;根據(jù)候選詞的當(dāng)前頻率以及各歷史頻率計算該 候選詞的頻率異常性值,在歷史數(shù)據(jù)中存儲該候選詞的當(dāng)前頻率信息并輸出預(yù)定數(shù)目的頻 率異常的候選詞。這樣,通過記錄候選詞集中各候選詞的歷史頻率,結(jié)合該候選詞當(dāng)前的頻 率,計算其頻率異常度,通過頻率異常度挖掘熱點詞,能夠擴展熱點詞的挖掘范圍、提高了 熱點詞挖掘效率;同時,不需要人工整理熱點詞詞表,降低了工作量;進(jìn)一步地,通過停用 詞表對候選詞集進(jìn)行過濾,避免了頻繁出現(xiàn)、但不能反映熱點事件或是話題的熱點詞的輸 出;而且,通過將預(yù)定數(shù)目的頻率異常的候選詞聚合成用以描述一個事件或主題的詞簇、和 /或,基于詞簇或候選詞觸發(fā)從預(yù)先設(shè)置的外部數(shù)據(jù)源執(zhí)行搜索,并將搜索結(jié)果與預(yù)定數(shù)目的頻率異常的候選詞或者詞簇同時向用戶展示,可以使用戶在缺乏相關(guān)知識背景下,詳細(xì)了解展示的候選詞或者詞簇所屬熱點事件或話題的具體內(nèi)容,提高了用戶體驗。
由上述描述可見,本發(fā)明實施例的挖掘熱點詞的方法,從步驟201至步驟204,主要是熱點詞的抽取流程,而詞簇合成、搜索,則是熱點詞的擴展流程,下面分別進(jìn)行具體說明。
圖3為本發(fā)明實施例抽取熱點詞的方法流程示意圖。參見圖3,該流程包括
步驟301,獲取輸入的文本流;
步驟302,對文本流進(jìn)行分詞,獲取候選詞集;
步驟301、302分別與步驟101、102相同。
步驟303,根據(jù)預(yù)先設(shè)置的停用詞表對獲取的候選詞集進(jìn)行去噪處理;
本步驟中,停用詞表包括無意義詞語、和/或,高文檔率詞語。
步驟304,統(tǒng)計去噪處理后的候選詞集中各候選詞出現(xiàn)的當(dāng)前頻率;
本步驟中,統(tǒng)計各候選詞出現(xiàn)的當(dāng)前頻率后,將該統(tǒng)計出的當(dāng)前頻率信息輸出至歷史數(shù)據(jù)中進(jìn)行存儲。
步驟305,獲取各候選詞在預(yù)先存儲的歷史數(shù)據(jù)中的各歷史頻率;
本步驟中,歷史頻率與當(dāng)前頻率的單位相一致,如果當(dāng)前頻率單位與歷史頻率單位不一致,則將當(dāng)前頻率單位換算為與歷史頻率單位相一致。
步驟306,根據(jù)當(dāng)前頻率與歷史頻率,獲取頻率異常的預(yù)定數(shù)目的候選詞并輸出。
本步驟中,找出頻率異常最突出的N個詞作為熱點詞輸出。
高斯分布(正態(tài)分布)是一種最常見的連續(xù)性隨機變量的概率分布,具有兩個參數(shù)μ和σ2,參數(shù)μ是服從正態(tài)分布的隨機變量的均值,參數(shù)σ 2是該隨機變量的方差,記作 N ( μ , σ 2)。
假定候選詞滿足高斯分布,這樣,對每個候選詞,可以通過統(tǒng)計該候選詞在歷史數(shù)據(jù)中各個單位時間段(時間周期)內(nèi)出現(xiàn)的頻率得到高斯分布的均值,然后根據(jù)最大似然估計的方式計算得到高斯分布的方差,計算均值具體如下
設(shè)μ i為候選詞在第i個單位時間段內(nèi)出現(xiàn)的頻率,即第i個歷史頻率,則該候選詞對應(yīng)的高斯分布的均值(各歷史頻率的平均值)μ為
權(quán)利要求
1.一種挖掘熱點詞的方法,其特征在于,該方法包括 獲取輸入的文本流,對文本流進(jìn)行分詞,獲取候選詞集; 統(tǒng)計候選詞集中各候選詞在文本流中出現(xiàn)的當(dāng)前頻率,獲取各候選詞在預(yù)先存儲的歷史數(shù)據(jù)中的各歷史頻率; 根據(jù)候選詞的當(dāng)前頻率以及各歷史頻率計算該候選詞的頻率異常性值,在歷史數(shù)據(jù)中存儲該候選詞的當(dāng)前頻率信息并輸出預(yù)定數(shù)目的頻率異常的候選詞。
2.如權(quán)利要求1所述的方法,其特征在于,在獲取候選詞集后,進(jìn)一步包括 將預(yù)先設(shè)置的停用詞表與獲取的候選詞集進(jìn)行匹配,將候選詞集中與停用詞表相匹配的詞語進(jìn)行過濾。
3.如權(quán)利要求2所述的方法,其特征在于,所述停用詞表包括無意義詞語、和/或,高文檔率詞語。
4.如權(quán)利要求1所述的方法,其特征在于,所述獲取各候選詞在預(yù)先存儲的歷史數(shù)據(jù)中的各歷史頻率包括 如果歷史數(shù)據(jù)中存儲有該候選詞的各歷史頻率,讀取該候選詞的各歷史頻率; 如果歷史數(shù)據(jù)中未存儲有該候選詞的歷史頻率,計算歷史數(shù)據(jù)中存儲的所有候選詞的各歷史頻率的平均值,作為該候選詞的各歷史頻率。
5.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)候選詞的當(dāng)前頻率以及各歷史頻率計算該候選詞的頻率異常性值包括 根據(jù)候選詞的各歷史頻率獲取該候選詞的歷史頻率的平均值; 根據(jù)該候選詞的各歷史頻率以及獲取的該候選詞的歷史頻率的平均值,計算該候選詞的方差; 獲取該候選詞的當(dāng)前頻率與歷史頻率的平均值的差的絕對值,計算該絕對值與所述方差的商,得到該候選詞的頻率異常性值。
6.如權(quán)利要求1至5任一項所述的方法,其特征在于,所述輸出預(yù)定數(shù)目的頻率異常的候選詞為 將預(yù)定數(shù)目的頻率異常的候選詞聚合成用以描述一個事件或主題的詞簇進(jìn)行輸出。
7.如權(quán)利要求6所述的方法,其特征在于,所述將預(yù)定數(shù)目的頻率異常的候選詞聚合成用以描述一個事件或主題的詞簇包括 基于預(yù)定數(shù)目的頻率異常的候選詞,統(tǒng)計每兩個候選詞組成的詞組在同一文本流中出現(xiàn)的次數(shù); 統(tǒng)計該兩個候選詞在同一文本流中分別出現(xiàn)的次數(shù),并獲取該兩個候選詞在同一文本流中分別出現(xiàn)的次數(shù)的乘積; 獲取所述詞組在同一文本流中出現(xiàn)的次數(shù)與所述乘積的商,作為所述兩個候選詞之間的點間互信息距離; 如果獲取的點間互信息距離值大于預(yù)先設(shè)置的點間互信息距離值閾值,則將該點間互信息距離值對應(yīng)的兩個候選詞合成為一個詞簇。
8.如權(quán)利要求1至5任一項所述的方法,其特征在于,進(jìn)一步包括 基于選擇的預(yù)定數(shù)目的頻率異常的候選詞或者通過候選詞聚合形成的詞簇,觸發(fā)從預(yù)先設(shè)置的外部數(shù)據(jù)源執(zhí)行搜索,并將搜索結(jié)果與預(yù)定數(shù)目的頻率異常的候選詞或者詞簇同時向用戶展示。
9.一種挖掘熱點詞的裝置,其特征在于,該裝置包括分詞模塊、歷史數(shù)據(jù)存儲模塊以及頻率異常性值處理模塊,其中, 分詞模塊,用于獲取輸入的文本流,對文本流進(jìn)行分詞,獲取候選詞集; 歷史數(shù)據(jù)存儲模塊,用于存儲候選詞的各歷史頻率; 頻率異常性值處理模塊,用于統(tǒng)計候選詞集中各候選詞在文本流中出現(xiàn)的當(dāng)前頻率,根據(jù)候選詞的當(dāng)前頻率以及歷史數(shù)據(jù)存儲模塊存儲的該候選詞的各歷史頻率計算該候選詞的頻率異常性值,將計算得到的候選詞的當(dāng)前頻率信息輸出至歷史數(shù)據(jù)存儲模塊,并輸出預(yù)定數(shù)目的頻率異常的候選詞。
10.如權(quán)利要求9所述的裝置,其特征在于,進(jìn)一步包括 去噪模塊,用于根據(jù)預(yù)先設(shè)置的停用詞表,與分詞模塊獲取的候選詞集進(jìn)行匹配,將候選詞集中與停用詞表相匹配的詞語進(jìn)行去噪處理。
11.如權(quán)利要求9或10所述的裝置,其特征在于,進(jìn)一步包括 候選詞聚合模塊,用于接收頻率異常性值處理模塊輸出的預(yù)定數(shù)目的頻率異常的候選詞,將獲取的候選詞聚合成用以描述一個事件或主題的詞簇。
12.如權(quán)利要求11所述的裝置,其特征在于,進(jìn)一步包括 搜索模塊,用于以獲取的詞簇或候選詞為搜索關(guān)鍵詞,觸發(fā)從預(yù)先設(shè)置的數(shù)據(jù)源執(zhí)行搜索,向用戶展示詞簇以及搜索結(jié)果,或者,候選詞以及搜索結(jié)果。
13.如權(quán)利要求12所述的裝置,其特征在于,所述頻率異常性值處理模塊包括當(dāng)前頻率統(tǒng)計單元、歷史頻率平均值計算單元、方差計算單元、異常性值計算單元以及候選詞輸出判斷單元,其中, 當(dāng)前頻率統(tǒng)計單元,用于統(tǒng)計候選詞集中各候選詞在輸入文本流中出現(xiàn)的當(dāng)前頻率,將當(dāng)前頻率分別輸出至歷史數(shù)據(jù)存儲模塊以及異常性值計算單元; 歷史頻率平均值計算單元,用于讀取歷史數(shù)據(jù)存儲模塊存儲的各候選詞的歷史頻率,計算各候選詞的歷史頻率的平均值,輸出至異常性值計算單元; 方差計算單元,用于根據(jù)歷史數(shù)據(jù)存儲模塊存儲的各候選詞的歷史頻率以及歷史頻率平均值計算單元計算得到的該候選詞的歷史頻率的平均值,計算各候選詞的方差,輸出至異常性值計算單元; 異常性值計算單元,用于根據(jù)各候選詞的當(dāng)前頻率、歷史頻率的平均值以及方差,分別計算各候選詞的異常性值; 候選詞輸出判斷單元,用于將異常性值大于預(yù)先設(shè)置的異常性值閾值的候選詞或?qū)惓P灾底畲蟮念A(yù)定數(shù)目的候選詞進(jìn)行輸出展示。
全文摘要
本發(fā)明公開了一種挖掘熱點詞的方法與裝置。該方法包括獲取輸入的文本流;對文本流進(jìn)行分詞,獲取候選詞集;統(tǒng)計候選詞集中各候選詞在文本流中出現(xiàn)的當(dāng)前頻率,獲取各候選詞在預(yù)先存儲的歷史數(shù)據(jù)中的各歷史頻率;根據(jù)候選詞的當(dāng)前頻率以及各歷史頻率計算該候選詞的頻率異常性值,在歷史數(shù)據(jù)中存儲該候選詞的當(dāng)前頻率信息并輸出預(yù)定數(shù)目的頻率異常的候選詞。應(yīng)用本發(fā)明,可以擴展熱點詞的挖掘范圍、提高熱點詞挖掘效率。
文檔編號G06F17/30GK103049443SQ20111030784
公開日2013年4月17日 申請日期2011年10月12日 優(yōu)先權(quán)日2011年10月12日
發(fā)明者羅侃, 陳洪亮, 楊志峰 申請人:騰訊科技(深圳)有限公司