两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

用于網(wǎng)絡用戶發(fā)表狀態(tài)的實時熱點檢測方法

文檔序號:6490010閱讀:788來源:國知局
用于網(wǎng)絡用戶發(fā)表狀態(tài)的實時熱點檢測方法
【專利摘要】本發(fā)明涉及一種用于網(wǎng)絡用戶發(fā)表狀態(tài)的實時熱點檢測方法。方法包括步驟:根據(jù)由用戶所發(fā)表的狀態(tài)中詞出現(xiàn)的頻率檢測熱詞,其中當檢測到在單位時間內一個詞出現(xiàn)的頻率出現(xiàn)跳變時,將該詞識別為熱詞;計算與熱詞最相關的多個關鍵詞;將多個關鍵詞聚合成熱點。通過應用根據(jù)本發(fā)明的用于網(wǎng)絡用戶發(fā)表狀態(tài)的實時熱點檢測方法,本發(fā)明能夠降低算法復雜度,增強實用性強,可以實時的對大數(shù)據(jù)量進行計算,而且可以根據(jù)社會網(wǎng)絡中的特性,利用可得到的社會網(wǎng)絡獨有的一些特征對檢測到的熱點進行自動分類,并取得很高的準確率、比較好的效果。
【專利說明】用于網(wǎng)絡用戶發(fā)表狀態(tài)的實時熱點檢測方法
【技術領域】
[0001]本發(fā)明涉及社交網(wǎng)絡應用,更具體地,涉及用于網(wǎng)絡用戶發(fā)表狀態(tài)的實時熱點檢測方法。
【背景技術】
[0002]在過去的幾年中,社交網(wǎng)絡這一概念逐漸為人熟悉,社交網(wǎng)絡平臺規(guī)模迅速發(fā)展,其提供的服務功能越來越豐富,而熱點事件和熱點話題發(fā)現(xiàn)和推薦已經成為幾乎所有社交網(wǎng)絡平臺共有的主要功能。目前工業(yè)界對熱點發(fā)現(xiàn)的策略較為粗糙,而且在滿足用戶多樣的需求上效果一般。
[0003]“微博客熱點話題發(fā)現(xiàn)策略研究”(楊冠超,浙江大學)從當前學術界對微博平臺上的一些現(xiàn)象研究和目前解決熱點話題發(fā)現(xiàn)的方法入手,總結了近些年來在微博平臺上前人的工作。通過對熱點話題發(fā)現(xiàn)這一命題的分析,該文選擇語義分析這一文本處理技術作為立論基礎,并結合微博平臺上的時間序列和文本特點提出了一個迭代式的語義分析和話題熱度預測模型——TopicRank0該模型通過時間片劃分和話題的關鍵詞集合兩個概念對話題在連續(xù)時間段內的影響力進行計算,從而對話題在未來一段時間內的影響力變化趨勢作出預測。該文還引入了微博客上的社交網(wǎng)絡結構并基于用戶本身的特點信息和用戶之間的關注關系所組成的網(wǎng)絡關系進行了研究,并通過對這個網(wǎng)絡的觀察提出了基于用戶角色對話題熱度排序進行輔助的方法TopicRank-U。該文給出了一個模塊化的系統(tǒng)原型設計,并通過一系列的測試和實驗證明了該系統(tǒng)實現(xiàn)的兩個熱度排序模型的有效性。
[0004]“基于主題模型的網(wǎng)絡突發(fā)熱點事件檢測方法”(申請公布號:CN102289487A,申請公布目:2011.12.21)公開了一種基于主題模型的網(wǎng)絡突發(fā)熱點事件檢測方法。包括如下步驟:1)首先對文檔數(shù)據(jù)集進行分詞處理,得到單詞列表、文檔單詞關系矩陣、單詞文檔分布矩陣、單詞日期分布矩陣;2)根據(jù)網(wǎng)絡熱點事件涌現(xiàn)過程中相關單詞和文檔的突發(fā)特性對數(shù)據(jù)集進行篩選;3)然后通過主題建模得到突發(fā)熱點事件的特征單詞和特征文本;4)計算出熱點事件的關注度日期分布。
[0005]“基于極大團發(fā)現(xiàn)的網(wǎng)絡熱點話題檢測方法及裝置”(申請公布號:CN102346766A,申請公布日:2012.02.08)公開了一種基于極大團發(fā)現(xiàn)的網(wǎng)絡熱點話題檢測方法及裝置。其中,該方法包括如下步驟:實時采集網(wǎng)絡新聞網(wǎng)站、論壇、博客、微博數(shù)據(jù);對采集的數(shù)據(jù)進行分詞、詞頻統(tǒng)計等處理,發(fā)現(xiàn)所有的熱點詞對,構建熱點詞對集合;將每個熱點詞用唯一的編號進行表示;將熱點詞對集合看作無向圖,對其進行挖掘,得到所有的極大團;將每個極大團變換為一個詞組合,代表一個熱點話題。還公開了一種網(wǎng)絡熱點話題檢測裝置。
[0006]總而言之,現(xiàn)有技術中,熱點檢測復雜度高,實用性弱,難以實時對大數(shù)據(jù)量進行計算。

【發(fā)明內容】

[0007]本發(fā)明的目的在于,提供能夠在社交網(wǎng)絡中對熱點進行實時檢測與分類的手段。[0008]根據(jù)本發(fā)明的一個方面,提供了一種用于網(wǎng)絡用戶發(fā)表狀態(tài)的實時熱點檢測方法。方法包括步驟:根據(jù)由用戶所發(fā)表的狀態(tài)中詞出現(xiàn)的頻率檢測熱詞,其中當檢測到在單位時間內一個詞出現(xiàn)的頻率出現(xiàn)跳變時,將該詞識別為熱詞;計算與熱詞最相關的多個關鍵詞;將多個關鍵詞聚合成熱點。
[0009]在本發(fā)明的一個實施方式中,在檢測熱詞時,計算作為詞出現(xiàn)的頻率的函數(shù)的沖擊能量,并且當沖擊能量大于閾值時,判定出現(xiàn)跳變。
[0010]在本發(fā)明的一個實施方式中,在預定時間長度的時間窗內計算沖擊能量。
[0011]在本發(fā)明的一個實施方式中,在計算多個關鍵詞時,計算作為包含熱詞的狀態(tài)集合和包含其他詞的狀態(tài)集合的函數(shù)的相關度,并且選取相關度最高的多個其他詞作為關鍵
ο
[0012]在本發(fā)明的一個實施方式中,只保留最近一定數(shù)量的熱點。
[0013]在本發(fā)明的一個實施方式中,計算當前熱點與之前的熱點的歐幾里德距離,如果距離小于閾值,則將當前熱點與之前的熱點合并。
[0014]在本發(fā)明的一個實施方式中,以時間逆序的方式計算當前熱點與之前的熱點的歐幾里德距離。
[0015]在本發(fā)明的一個實施方式中,根據(jù)參與用戶數(shù)、相關狀態(tài)數(shù)、最大傳播長度、獨立爆發(fā)源數(shù)、信息熵、社交緊密度、位置緊密度、用戶表述相似性中的一項或多項對熱點進行分類。
[0016]在本發(fā)明的一個實施方式中,將熱點分類成全局熱點、區(qū)域熱點、流行熱點。
[0017]不同于現(xiàn)有技術,根據(jù)本發(fā)明的各種實施方式,通過應用根據(jù)本發(fā)明的用于網(wǎng)絡用戶發(fā)表狀態(tài)的實時熱點檢測方法,能夠降低算法復雜度,增強實用性強,可以實時的對大數(shù)據(jù)量進行計算(每小時用戶發(fā)表的狀態(tài)數(shù)> 50,000),而且可以根據(jù)社會網(wǎng)絡中的特性,利用可得到的社會網(wǎng)絡獨有的一些特征對檢測到的熱點進行自動分類,并取得很高的準確率、比較好的效果。
【專利附圖】

【附圖說明】
[0018]通過對結合附圖所示出的實施方式進行詳細說明,本發(fā)明的上述以及其他特征將更加明顯,本發(fā)明附圖中相同的參考標號表示相同或相似的元素。在附圖中:
[0019]圖1是根據(jù)本發(fā)明的實施方式的用于網(wǎng)絡用戶發(fā)表狀態(tài)的實時熱點檢測方法的流程圖;
[0020]圖2是根據(jù)本發(fā)明的實施方式的狀態(tài)數(shù)隨時間變化的示意圖;
[0021]圖3是根據(jù)本發(fā)明的實施方式的詞頻隨時間變化的示意圖;
[0022]圖4、圖5和圖6是根據(jù)本發(fā)明的實施方式的熱點分類的示意圖。
【具體實施方式】
[0023]下面結合圖1來闡述根據(jù)本發(fā)明的實施方式的用于網(wǎng)絡用戶發(fā)表狀態(tài)的實時熱點檢測方案。
[0024]在步驟S102中,根據(jù)由用戶所發(fā)表的狀態(tài)中詞出現(xiàn)的頻率檢測熱詞。當檢測到在單位時間內一個詞出現(xiàn)的頻率出現(xiàn)跳變時,將該詞識別為熱詞。優(yōu)選地,計算作為詞出現(xiàn)的頻率的函數(shù)的沖擊能量,并且當沖擊能量大于閾值時,判定出現(xiàn)跳變。沖擊能量可以在預定時間長度的時間窗內計算。
[0025]在步驟S104中,計算與熱詞最相關的多個關鍵詞。優(yōu)選地,計算作為包含熱詞的狀態(tài)集合和包含其他詞的狀態(tài)集合的函數(shù)的相關度,并且選取相關度最高的多個其他詞作為關鍵詞。
[0026]在步驟S106中,將多個關鍵詞聚合成熱點。優(yōu)選地,計算當前熱點與之前的熱點的歐幾里德距離,如果距離小于閾值,則將當前熱點與之前的熱點合并??梢砸詴r間逆序的方式計算當前熱點與之前的熱點的歐幾里德距離。
[0027]由于熱點會隨著時間變化,所以可以只保留最近一定數(shù)量的熱點。
[0028]此外,可以對熱點進行分類。分類依據(jù)可以包括但不限于參與用戶數(shù)、相關狀態(tài)數(shù)、最大傳播長度、獨立爆發(fā)源數(shù)、信息熵、社交緊密度、位置緊密度、用戶表述相似性等??梢詫狳c分類成全局熱點、區(qū)域熱點、流行熱點等。
[0029]下面來詳細描述根據(jù)本發(fā)明的實施方式的基于時間窗和詞頻峰變的實時熱點檢測與分類。
[0030]本發(fā)明的實施方式的目標在于實時檢測在線社交網(wǎng)絡中出現(xiàn)的爆發(fā)性熱點事件與熱點話題,并自動對檢測到的熱點進行分類。
[0031]輸入內容為SNS (Social Networking Services,社會性網(wǎng)絡服務)用戶實時發(fā)表的狀態(tài)(例如:人人網(wǎng)的狀態(tài),新浪微博中用戶發(fā)的微博)。
[0032]輸出內容為在固定時間窗內發(fā)生的熱點事件及其類別(全局熱點、區(qū)域熱點、流行話題等)。
[0033]首先,進行熱點檢測。
[0034]通過分析詞頻變化,識別詞頻(所謂詞頻就是詞出現(xiàn)的頻率,單位時間內出現(xiàn)的次數(shù))的跳變,檢測熱詞(spike)。以熱詞為線索,計算與其top相關的k個關鍵詞(就是最相關,相關性最大的前k個詞),聚合為一個熱點。
[0035]圖2示出“一個”是一個普通的出現(xiàn)頻率比較高的詞,可以發(fā)現(xiàn)它隨狀態(tài)數(shù)呈現(xiàn)周期性變化,比較穩(wěn)定。而圖3示出“動車”從23號21點左右開始(以去年7月23號溫州動車事故為例),呈現(xiàn)出明顯的沖擊(spike)。
[0036]對熱詞的檢測可以利用模型抽象。
[0037]將狀態(tài)按時間(15分鐘)劃分,切為不同的時間窗,每一個時間窗內的狀態(tài)構成一
個文檔集合。
[0038]對每個時間窗內的用戶發(fā)表所有的狀態(tài)切詞,并建立倒排索引,定義每一個詞的“沖擊”能量為energy:
【權利要求】
1.一種用于網(wǎng)絡用戶發(fā)表狀態(tài)的實時熱點檢測方法,包括步驟: 根據(jù)由用戶所發(fā)表的狀態(tài)中詞出現(xiàn)的頻率檢測熱詞,其中當檢測到在單位時間內一個詞出現(xiàn)的頻率出現(xiàn)跳變時,將該詞識別為熱詞; 計算與所述熱詞最相關的多個關鍵詞; 將所述多個關鍵詞聚合成熱點。
2.根據(jù)權利要求1所述的實時熱點檢測方法,其中,在檢測熱詞時,計算作為詞出現(xiàn)的頻率的函數(shù)的沖擊能量,并且當所述沖擊能量大于閾值時,判定出現(xiàn)跳變。
3.根據(jù)權利要求2所述的實時熱點檢測方法,其中,在預定時間長度的時間窗內計算沖擊能量。
4.根據(jù)權利要求1所述的實時熱點檢測方法,其中,在計算多個關鍵詞時,計算作為包含所述熱詞的狀態(tài)集合和包含其他詞的狀態(tài)集合的函數(shù)的相關度,并且選取相關度最高的多個所述其他詞作為關鍵詞。
5.根據(jù)權利要求1所述的實時熱點檢測方法,其中,只保留最近一定數(shù)量的熱點。
6.根據(jù)權利要求1-5中任一項所述的實時熱點檢測方法,其中,計算當前熱點與之前的熱點的歐幾里德距離,如果所述距離小于閾值,則將所述當前熱點與所述之前的熱點合并。
7.根據(jù)權利要求6所述的實時熱點檢測方法,其中,以時間逆序的方式計算當前熱點與之前的熱點的歐幾里德距離。
8.根據(jù)權利要求1-5中任一項所述的實時熱點檢測方法,其中,根據(jù)參與用戶數(shù)、相關狀態(tài)數(shù)、最大傳播長度、獨立爆發(fā)源數(shù)、信息熵、社交緊密度、位置緊密度、用戶表述相似性中的一項或多項對熱點進行分類。
9.根據(jù)權利要求8所述的實時熱點檢測方法,其中,將熱點分類成全局熱點、區(qū)域熱點、流行熱點。
【文檔編號】G06F17/30GK103729388SQ201210401311
【公開日】2014年4月16日 申請日期:2012年10月16日 優(yōu)先權日:2012年10月16日
【發(fā)明者】楊曉勇 申請人:北京千橡網(wǎng)景科技發(fā)展有限公司, 北京大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
陕西省| 富蕴县| 孟津县| 莒南县| 津市市| 克拉玛依市| 丰县| 五莲县| 莱阳市| 若尔盖县| 淳化县| 达尔| 桂林市| 延庆县| 弥勒县| 湘乡市| 孙吴县| 巧家县| 威海市| 常德市| 达孜县| 扎鲁特旗| 南雄市| 太仆寺旗| 乌拉特中旗| 东安县| 抚远县| 当阳市| 江安县| 洛扎县| 和静县| 洮南市| 伊春市| 连云港市| 文安县| 温泉县| 金堂县| 西吉县| 宁河县| 玉树县| 太保市|