两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種網絡輿情事件多維信息提取的方法及裝置與流程

文檔序號:12541290閱讀:439來源:國知局
一種網絡輿情事件多維信息提取的方法及裝置與流程
本發(fā)明涉及網絡信息處理技術領域,特別是涉及一種網絡輿情事件多維信息提取的方法及裝置。

背景技術:
隨著互聯(lián)網的不斷普及,越來越多的人們通過互聯(lián)網來表達自己的觀點、發(fā)表和交流對熱點事件的看法等,使得互聯(lián)網日漸成為輿情產生和傳播主要場所之一。由于網絡輿情傳播簡單、身份隱藏,具有隱蔽性和突發(fā)性,并且社會影響力大,使得對網絡輿情的研究逐步受到各國政府的高度關注。因此,本領域技術人員迫切需要解決的問題之一在于,提出一種網絡輿情事件多維信息提取的方法及裝置,用以分析輿論事件,提高輿論事件分析的準確度。

技術實現(xiàn)要素:
本發(fā)明所要解決的技術問題是提供一種網絡輿情事件多維信息提取的方法及裝置,用以分析輿論事件,提高輿論事件分析的準確度。為了解決上述問題,本發(fā)明公開了一種網絡輿情事件多維信息提取的方法,包括:基于用戶搜索行為從搜索日志中提取種子網頁,采用所述種子網頁構建網絡輿情事件初始的主題;依據(jù)所述主題按照預設時間段分時獲取特征網頁;獲取在上一預設時間段及在當前預設時間段相應獲取的特征網頁的文本屬性信息;依據(jù)所述在上一預設時間段的文本屬性信息,獲取上一預設時間段用戶關注度的分析數(shù)據(jù)、媒體關注度的分析數(shù)據(jù)以及用戶態(tài)度的分析數(shù)據(jù);依據(jù)所述在當前預設時間段的文本屬性信息,獲取當前預設時間段用戶關注度的分析數(shù)據(jù)、媒體關注度的分析數(shù)據(jù)以及用戶態(tài)度的分析數(shù)據(jù);分別對比上一預設時間段與當前時間段用戶關注度的分析數(shù)據(jù),媒體關注度的分析數(shù)據(jù)以及用戶態(tài)度的分析數(shù)據(jù),獲得網絡輿情事件的趨勢演化信息。優(yōu)選地,所述采用種子網頁構建網絡輿情事件初始的主題的步驟包括:獲取各種子網頁的文本屬性信息;分別針對各種子網頁的文本屬性信息進行分詞及識別命名實體;采用詞頻-逆向文件頻率算法TF*IDF計算所述分詞及命名實體的權重;提取權重大于預設權重閾值的分詞及命名實體作為所述各種子網頁對應的特征詞;依據(jù)所述特征詞中的命名實體生成主命名實體向量,依據(jù)所述特征詞中除命名實體外的特征詞生成主內容向量;依據(jù)所述主命名實體向量及主內容向量構建主質心向量;其中,所述主質心向量為網絡輿情事件的主題。優(yōu)選地,所述按照預設時間段分時獲取特征網頁的步驟包括:分別在預設時間段抓取指定網頁;所述指定網頁包括新聞、論壇和微博網頁;計算各指定網頁的內容向量和命名實體向量;依據(jù)所述各指定網頁的內容向量和命名實體向量,以及,上一預設時間的段的主內容向量和主命名實體向量計算相似度;若所述相似度大于預設相似度閾值,則獲取所述指定網頁為特征網頁。優(yōu)選地,所述依據(jù)各指定網頁的內容向量和命名實體向量,以及,上一預設時間的段的主內容向量和主命名實體向量計算相似度的步驟包括:采用余弦法依據(jù)各指定網頁的內容向量與上一預設時間段的主內容向量計算內容向量距離;采用余弦法依據(jù)各指定網頁的命名實體向量與上一預設時間段的主命名實體向量計算命名實體向量距離;分別針對所述內容向量距離及所述命名實體向量距離添加對應的權重值;依據(jù)所述內容向量距離與其對應添加的權重值,命名實體向量距離與其對應添加的權重值計算相似度。優(yōu)選地,所述方法還包括:在各預設時間段分別采用相應獲取的特征網頁對所述網絡輿情事件的主題進行更新;所述在各預設時間段分別采用相應獲取的特征網頁對所述網絡輿情事件的主題進行更新的步驟包括:依據(jù)所述在各預設時間段相應獲取的特征網頁計算在當前預設時間段的質心向量;針對上一預設時間段的主質心向量及所述當前預設時間段的質心向量添加對應的權重值;依據(jù)所述當前預設時間段的質心向量與其對應添加的權重值,上一預設時間段的主質心向量與其對應添加的權重值計算當前的主質心向量。本發(fā)明實施例還公開了一種網絡輿情事件多維信息提取的裝置,包括:種子網頁提取模塊,用于基于用戶搜索行為從搜索日志中提取種子網頁,采用所述種子網頁構建網絡輿情事件初始的主題;特征網頁獲取模塊,用于依據(jù)所述主題按照預設時間段分時獲取特征網頁;文本信息獲取模塊,用于獲取在上一預設時間段及在當前預設時間段相應獲取的特征網頁的文本屬性信息;第一分析數(shù)據(jù)獲取模塊,用于依據(jù)所述在上一預設時間段的文本屬性 信息,獲取上一預設時間段用戶關注度的分析數(shù)據(jù)、媒體關注度的分析數(shù)據(jù)以及用戶態(tài)度的分析數(shù)據(jù);第二分析數(shù)據(jù)獲取模塊,用于依據(jù)所述在當前預設時間段的文本屬性信息,獲取當前預設時間段用戶關注度的分析數(shù)據(jù)、媒體關注度的分析數(shù)據(jù)以及用戶態(tài)度的分析數(shù)據(jù);對比和趨勢分析模塊,用于分別對比上一預設時間段與當前時間段用戶關注度的分析數(shù)據(jù),媒體關注度的分析數(shù)據(jù)以及用戶態(tài)度的分析數(shù)據(jù),獲得網絡輿情事件的趨勢演化信息。優(yōu)選地,所述種子網頁提取模塊包括:文本信息獲取子模塊,用于獲取各種子網頁的文本屬性信息;文本信息處理子模塊,用于分別針對各種子網頁的文本屬性信息進行分詞及識別命名實體;權重計算子模塊,用于采用詞頻-逆向文件頻率算法TF*IDF計算所述分詞及命名實體的權重;特征詞提取子模塊,用于提取權重大于預設權重閾值的分詞及命名實體作為所述各種子網頁對應的特征詞;主向量生成子模塊,用于依據(jù)所述特征詞中的命名實體生成主命名實體向量,依據(jù)所述特征詞中除命名實體外的特征詞生成主內容向量;主質心向量構建子模塊,用于依據(jù)所述主命名實體向量及主內容向量構建主質心向量;其中,所述主質心向量為網絡輿情事件的主題。優(yōu)選地,所述特征網頁獲取模塊包括:指定網頁抓取子模塊,用于分別在預設時間段抓取指定網頁;質心向量計算子模塊,用于計算各指定網頁的內容向量和命名實體向量;相似度計算子模塊,用于依據(jù)所述各指定網頁的內容向量和命名實體向量,以及,上一預設時間的段的主內容向量和主命名實體向量計算相似度;特征網頁獲取子模塊,用于若所述相似度大于預設相似度閾值,則獲 取所述指定網頁為特征網頁。優(yōu)選地,所述相似度計算子模塊包括:內容向量距離計算單元,用于采用余弦法依據(jù)各指定網頁的內容向量與上一預設時間段的主內容向量計算內容向量距離;命名實體向量距離計算單元,用于采用余弦法依據(jù)各指定網頁的命名實體向量與上一預設時間段的主命名實體向量計算命名實體向量距離;第一權重值添加單元,用于分別針對所述內容向量距離及所述命名實體向量距離添加對應的權重值;相似度計算單元,用于依據(jù)所述內容向量距離與其對應添加的權重值,命名實體向量距離與其對應添加的權重值計算相似度。優(yōu)選地,所述裝置還包括:主題更新模塊,用于在各預設時間段分別采用相應獲取的特征網頁對所述網絡輿情事件的主題進行更新;所述主題信息更新模塊包括:當前質心向量計算子模塊,用于依據(jù)所述在各預設時間段相應獲取的特征網頁計算在當前預設時間段的質心向量;第二權重值添加子模塊,用于針對上一預設時間段的主質心向量及所述當前預設時間段的質心向量添加對應的權重值;當前主質心向量計算子模塊,用于依據(jù)所述當前預設時間段的質心向量與其對應添加的權重值,上一預設時間段的主質心向量與其對應添加的權重值計算當前的主質心向量。與現(xiàn)有技術相比,本發(fā)明包括以下優(yōu)點:本發(fā)明基于用戶行為進行網絡輿情初始網頁采集、網絡輿情初始網頁分析與事件主題表示、面向網絡輿情主題的網頁增量聚類、網絡輿情多維度分析和結果展示。通過本發(fā)明可以采集互聯(lián)網上網絡輿情事件傳播和評論等相關信息,并從多個維度對信息進行分析,展現(xiàn)該事件的產生、演化過程等,可幫助相關網絡輿情管理人員能夠更全面地了解網絡 輿情事件的態(tài)勢,提高輿論事件分析的準確度。附圖說明圖1是本發(fā)明的一種網絡輿情事件多維信息提取的方法實施例的步驟流程圖;圖2是本發(fā)明的一種網絡輿情事件多維分析的流程示意圖;圖3是本發(fā)明的一種網絡輿情事件多維信息提取的裝置實施例的結構框圖。具體實施方式為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結合附圖和具體實施方式對本發(fā)明作進一步詳細的說明。本發(fā)明實施例的核心構思之一在于,基于用戶行為進行網絡輿情初始網頁采集、網絡輿情初始網頁分析與事件主題表示、面向網絡輿情主題的網頁增量聚類、網絡輿情多維度分析和結果展示。參照圖1,示出了本發(fā)明一種網絡輿情事件多維信息提取的方法實施例的步驟流程圖,可以包括如下步驟:步驟101,基于用戶搜索行為從搜索日志中提取種子網頁,采用所述種子網頁構建網絡輿情事件初始的主題;在本發(fā)明實施例中,種子網頁可以從搜索日志中提取,其中,種子網頁可以基于用戶搜索行為獲取,例如可以是在指定時間段內用戶采用并搜索次數(shù)在前M位的關鍵詞搜索得到的,并且跳轉次數(shù)排序在前N位的網頁,種子網頁可以基于用戶搜索行為獲取,其中,用戶搜索行為可以表示為<t,S,k>,其中t表示用戶執(zhí)行搜索的時間,S表示用戶使用的搜索引擎,k表示用戶輸入的搜索關鍵詞。這樣對大量用戶的搜索行為的分析,可以得到用戶各個搜索關鍵詞的搜索數(shù)量,可表示為<K,count>,k和count分別表示搜索關鍵詞和搜索數(shù),在此基礎上,可以進一步獲得用戶通過搜索引擎跳轉到的網頁,即<k,((url1,num1),(url2,num2),…… (urli,numi))>,其中,k則表示搜索關鍵詞,((url1,num1),(url2,num2),……(urli,numi))表示用戶通過搜索引擎跳轉到種子網頁,對于各種子網頁分別包含其對應的url(UniformResourceLocator,統(tǒng)一資源定位符)和該url相應的跳轉次數(shù)。在本發(fā)明的一種優(yōu)選實施例中,所述步驟101可以包括如下子步驟:子步驟S11,獲取各種子網頁的文本屬性信息;子步驟S12,分別針對各種子網頁的文本屬性信息進行分詞及識別命名實體;子步驟S13,采用詞頻-逆向文件頻率算法TF*IDF計算所述分詞及命名實體的權重;子步驟S14,提取權重大于預設權重閾值的分詞及命名實體作為所述各種子網頁對應的特征詞;子步驟S15,依據(jù)所述特征詞中的命名實體生成主命名實體向量,依據(jù)所述特征詞中除命名實體外的特征詞生成主內容向量;子步驟S16,依據(jù)所述主命名實體向量及主內容向量構建主質心向量;其中,所述主質心向量為網絡輿情事件的主題。在具體實現(xiàn)中,可以利用爬蟲來獲取種子網頁的文本屬性信息,并作為網絡輿情事件的初始種子數(shù)據(jù)。其中,所述文本屬性信息可以包括網頁標題、網頁正文、網頁描述等。針對獲取的文本屬性信息可以進行相應的分析,根據(jù)文本屬性信息進行分詞和詞性標注、停用詞過濾等工作,并且從文本屬性信息中提取出命名實體(NamedEntity),其中,命名實體可以包括人名、地名、機構名等。作為本實施例的一種優(yōu)選示例,可以通過采用VSM(VectorSpaceModel,向量空間模)生成網絡輿情事件的主題,VSM可以將種子網頁表示成一個向量,向量的每一維表示一個特征詞。具體地,可通過TF*IDF(termfrequency–inversedocumentfrequency,詞頻-逆向文件頻率)來定義特征詞的權重,例如,可以通過如下的TF*IDF的公式計算特征詞權重:wi=tfsi*log(N/ni)其中,公式中的wi表示詞項ti的權重,詞項ti可以包括分詞及命名實體,tfsi表示詞項ti在當前網頁中的重要程度,N表示所述熱點種子網頁對應背景語料庫中所包括的網頁文檔數(shù)量,ni表示背景語料庫中包含詞項ti的網頁文檔數(shù)量。在本發(fā)明實施例中還可以分別依據(jù)詞項ti在網頁標題、網頁內容和網頁表述中出現(xiàn)的數(shù),并按重要性求加權和,以得到詞項ti在當前網頁中的重要程度tfsi,具體地,可以通過如下公式計算詞項ti在當前網頁中的重要程度tfsi:tfsi=hi*α+mi*β+ci*γ其中,hi,mi,ci分別表示詞項ti在網頁標題、網頁內容和網頁表述中中出現(xiàn)的數(shù),α,β,γ則分別表示各自的權重值。當然,上述計算權重的方法僅是本發(fā)明實施例的一種示例,本領域技術人員采用其他的權重計算方法均是可以的,本發(fā)明對此無需加以限制。優(yōu)選地,為降低特征維度數(shù),簡化計算,以及防止過擬合等現(xiàn)象,在本發(fā)明實施例中,可以按照詞項ti的權重值w的大小對某熱點種子網頁的詞項ti進行排序,并選取權重值大于指定閾值w的詞項ti作為種子網頁的特征詞,某熱點種子網頁的所有特征詞構成該網頁的特征向量。指定閾值w可由用戶根據(jù)其需求自行設置。由于在網絡輿情事件中,一般涉及到具體人名、地點或者機構名稱,因此,本發(fā)明實施例中采用兩個向量來表示一個種子網頁,兩個向量分別可以為命名實體向量ve和內容向量ve,命名實體向量ve中的維度可以由命名實體構成,而內容向量vc則由命名實體之外的其他特征詞構成。本發(fā)明實施例用主質心向量來表示網絡輿情事件的主題信息,取種子網頁中質心向量中權重較大的前n的特征詞構成的向量來表示主題。在本發(fā)明的一種優(yōu)選示例中,可以依據(jù)命名實體向量ve和內容向量vc構建主質心向量,具體的公式如下所示:其中,vi表示命名實體向量ve和內容向量vc。這樣通過合并各特征網頁的命名實體向量ve和內容向量vc,組成了主質心向量,即網絡輿情事件的主題。在本發(fā)明的一種優(yōu)選實施例中,所述方法還可以包括如下步驟:在各預設時間段分別采用相應獲取的特征網頁對所述網絡輿情事件的主題進行更新;所述在各預設時間段分別采用相應獲取的特征網頁對所述網絡輿情事件的主題進行更新的步驟可以包括如下子步驟:子步驟S21,依據(jù)所述在當前預設時間段內獲取的相關的網頁計算在當前的質心向量;子步驟S22,針對上一預設時間段內的主質心向量及所述當前的質心向量添加對應的權重值;子步驟S23,依據(jù)所述當前的質心向量與其對應添加的權重值,上一預設時間段內的主質心向量與其對應添加的權重值計算當前的主質心向量。在具體實現(xiàn)中,在采集特征網頁后,根據(jù)特征網頁內容調整更新網絡輿情的主題,以應對可能出現(xiàn)的主題漂移等問題。在本發(fā)明實施例中,可以采用預設公式來進行相應的調整,并針對不同時間段的質心向量添加對應的權重值,對于每個時間段的獲取的特征網頁,可以先計算出質心向量,依據(jù)計算出的質心向量來更新當前的質心向量,更新網絡輿情事件主題的計算公式如下所示:Ct+1=β×Ct+γ×CΔt其中Ct和Ct+1分別表示上一預設時間段內和當前的主質心向量,CΔt則表示時間段t內事件相關熱點特征網頁形成的質心向量。這樣通過上述公式計算出當前的主質心向量,更新網絡輿情事件的主題。步驟104,將所述更新的主題與在先的主題進行對比,獲得網絡輿情 事件的變化信息。在實際運用中,還可以將更新的主題與在先的主題進行比對,得到網絡輿情事件變化的信息,得到網絡輿情事件的變化規(guī)律。步驟102,依據(jù)所述主題按照預設時間段分時獲取特征網頁;在本發(fā)明的一種優(yōu)選實施例中,所述步驟102可以包括如下子步驟:子步驟S31,分別在預設時間段抓取指定網頁;子步驟S32,計算各指定網頁的內容向量和命名實體向量;子步驟S33,依據(jù)所述各指定網頁的內容向量和命名實體向量,以及,上一預設時間的段的主內容向量和主命名實體向量計算相似度;子步驟S34,若所述相似度大于預設相似度閾值,則獲取所述指定網頁為特征網頁。在本發(fā)明的一種優(yōu)選實施例中,所述子步驟S23可以包括如下子步驟:子步驟S33-1,采用余弦法依據(jù)各指定網頁的內容向量與上一預設時間段的主內容向量計算內容向量距離;子步驟S33-2,采用余弦法依據(jù)各指定網頁的命名實體向量與上一預設時間段的主命名實體向量計算命名實體向量距離;子步驟S33-3,分別針對所述內容向量距離及所述命名實體向量距離添加對應的權重值;子步驟S33-4,依據(jù)所述內容向量距離與其對應添加的權重值,命名實體向量距離與其對應添加的權重值計算相似度。在實際中,可以利用垂直搜索引擎定向抓取一段時間內的新聞、論壇和微博等網頁文檔,并根據(jù)主題對這些網頁文檔進行增量聚類,調整當前網絡輿情的主題。其中,抓取的目標網站可由用戶自行設置指定。對于在預設時間段內抓取的指定網頁,可以計算其與上一預設時間段的主質心向量的相似度,去除相似度低的網頁,以此可提高主題計算的準確度。具體地,相似度可以采用余弦距離來度量,具體的余弦距離計算公式可以為如下公式:依據(jù)上述公式分別計算指定網頁的向量v與主命名實體向量ve和主內容向量vc之間的命名實體向量距離sim(v,ve)和內容向量距離sim(v,vc),并將兩者按如下公式組成,形成最終的相似度,最終的相似度計算公式如下所示:sim(P,E)=α×sim(v,vc)+(1-α)×sim(v,ve)其中,α表示權重值,若是指定網頁的相似度大于或等于某個相似度閾值θ,則將相似度大的指定網頁作為特征網頁歸入到該網絡輿情事件中,若否則不作任何處理。步驟103,獲取在上一預設時間段及在當前預設時間段相應獲取的特征網頁的文本屬性信息;步驟104,依據(jù)所述在上一預設時間段的文本屬性信息,獲取上一預設時間段用戶關注度的分析數(shù)據(jù)、媒體關注度的分析數(shù)據(jù)以及用戶態(tài)度的分析數(shù)據(jù);步驟105,依據(jù)所述在當前預設時間段的文本屬性信息,獲取當前預設時間段用戶關注度的分析數(shù)據(jù)、媒體關注度的分析數(shù)據(jù)以及用戶態(tài)度的分析數(shù)據(jù);步驟106,分別對比上一預設時間段與當前時間段用戶關注度的分析數(shù)據(jù),媒體關注度的分析數(shù)據(jù)以及用戶態(tài)度的分析數(shù)據(jù)。在本發(fā)明實施例中,可以結合基于用戶搜索行為獲取的在不同預設時間段的特征網頁的文本屬性信息,即用戶網絡行為數(shù)據(jù),實現(xiàn)網絡輿情事件相關數(shù)據(jù)地更高效采集,并從用戶、媒體、關注度等多個維度對網絡輿情進行深入分析,對網絡輿情演化過程和趨勢進行追蹤。1,用戶維度分析;用戶維度分析主要分析關注該網絡輿情事件的用戶信息,具體可以包括用戶的數(shù)量、性別、年齡、學歷、地域分布信息。用戶維度分析的主要步驟可以包括:(1)根據(jù)用戶的性別、年齡、學歷、地域等信息,對互聯(lián)網用戶進行分層抽樣,形成可利用的互聯(lián)網用戶樣本庫;分析事件相關網頁的用戶訪問信息,并將訪問過這些網頁的用戶與用戶樣本庫中的樣本進行匹配,得到事件關注用戶的樣本;(2)從事件關注用戶的樣本信息推斷得到整個互聯(lián)網上事件關注用戶維度的信息。2,媒體維度分析;分析網絡輿情事件的各預設時間段的特征網頁的文本屬性信息,得到網絡輿情事件關注媒體的信息,具體地,可以包括媒體對該網絡輿情事件進行報道和報道的數(shù)量分布信息。3,用戶情感傾向分析;依據(jù)各預設時間段的特征網頁的文本屬性信息對網絡輿情事件進行情感分析,采用情感分析技術分析各特征網頁的文本特征信息和評論對該網絡輿情事件態(tài)度的褒貶傾向進行統(tǒng)計,統(tǒng)計出用戶情感傾向。4,對于各維度的分析進行網絡輿情事件演化追蹤;在本發(fā)明實施例中,還將在不同的預設時間段基于網絡輿情事件主題抓取的特征網頁的文本屬性信息,從各個維度進行分析,并與上一時間段內相關分析數(shù)據(jù)進行比較,進行得出網絡輿情事件演化趨勢。具體地,例如可以是用戶關注度的變化,例如剛開始多少人,后來多少人,媒體關注度的變化,網民態(tài)度的變化等。為了使本領域技術人員進一步了解本發(fā)明實施例,下面通過一個具體的示例來說明本發(fā)明的網絡輿情多維分析的步驟流程。參照圖2所示的本發(fā)明的一種網絡輿情事件多維分析的流程示意圖,具體的步驟如下所示:1,針對用戶搜索行為進行分析,并獲取相關網頁;2,從所述相關網頁中獲取事件的關鍵詞TopK網頁的URL;3,獲取網頁文本屬性信息,并進行分析與文本的聚類;4,依據(jù)網頁文本屬性信息生成網絡輿情事件主題;5,基于主題的獲取相關網頁;6,提取所述相關網頁的網頁文本屬性信息;7,針對所述主題獲取相關網頁進行增量聚類,更新網絡輿情事件的主題;8,針對事件進行多維度的分析,包括用戶維度分析、媒體維度分析以及用戶的情感傾向分析。需要說明的是,對于方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本申請并不受所描述的動作順序的限制,因為依據(jù)本申請,某些步驟可以采用其他順序或者同時進行。其,本領域技術人員也應該知悉,說明書中所描述的實施例均屬于優(yōu)選實施例,所涉及的動作并不一定是本申請所必須的。參照圖3,示出了本發(fā)明的一種網絡輿情事件信息提取的裝置實施例的結構框圖,可以包括如下模塊:種子網頁提取模塊201,用于基于用戶搜索行為從搜索日志中提取種子網頁,采用所述種子網頁構建網絡輿情事件初始的主題;在本發(fā)明的一種優(yōu)選實施例中,所述種子網頁提取模塊201可以包括如下子模塊:文本信息獲取子模塊,用于獲取各種子網頁的文本屬性信息;文本信息處理子模塊,用于分別針對各種子網頁的文本屬性信息進行分詞及識別命名實體;權重計算子模塊,用于采用詞頻-逆向文件頻率算法TF*IDF計算所述分詞及命名實體的權重;特征詞提取子模塊,用于提取權重大于預設權重閾值的分詞及命名實體作為所述各種子網頁對應的特征詞;主向量生成子模塊,用于依據(jù)所述特征詞中的命名實體生成主命名實體向量,依據(jù)所述特征詞中除命名實體外的特征詞生成主內容向量;主質心向量構建子模塊,用于依據(jù)所述主命名實體向量及主內容向量構建主質心向量;其中,所述主質心向量為網絡輿情事件的主題。在本發(fā)明的一種優(yōu)選實施例中,所述裝置還可以包括如下模塊:主題更新模塊,用于在各預設時間段分別采用相應獲取的特征網頁對所述網絡輿情事件的主題進行更新;在本發(fā)明的一種優(yōu)選實施例中,所述主題信息更新模塊可以包括如下子模塊:當前質心向量計算子模塊,用于依據(jù)所述在各預設時間段相應獲取的特征網頁計算在當前預設時間段的質心向量;第二權重值添加子模塊,用于針對上一預設時間段的主質心向量及所述當前預設時間段的質心向量添加對應的權重值;當前主質心向量計算子模塊,用于依據(jù)所述當前預設時間段的質心向量與其對應添加的權重值,上一預設時間段的主質心向量與其對應添加的權重值計算當前的主質心向量。特征網頁獲取模塊202,用于依據(jù)所述主題按照預設時間段分時獲取特征網頁;在本發(fā)明的一種優(yōu)選實施例中,所述特征網頁獲取模塊202可以包括如下子模塊:指定網頁抓取子模塊,用于分別在預設時間段抓取指定網頁;質心向量計算子模塊,用于計算各指定網頁的內容向量和命名實體向量;相似度計算子模塊,用于依據(jù)所述各指定網頁的內容向量和命名實體向量,以及,上一預設時間的段的主內容向量和主命名實體向量計算相似度;特征網頁獲取子模塊,用于若所述相似度大于預設相似度閾值,則獲取所述指定網頁為特征網頁。在本發(fā)明的一種優(yōu)選實施例中,所述相似度計算子模塊可以包括如下單元:內容向量距離計算單元,用于采用余弦法依據(jù)各指定網頁的內容向量與上一預設時間段的主內容向量計算內容向量距離;命名實體向量距離計算單元,用于采用余弦法依據(jù)各指定網頁的命名實體向量與上一預設時間段的主命名實體向量計算命名實體向量距離;第一權重值添加單元,用于分別針對所述內容向量距離及所述命名實體向量距離添加對應的權重值;相似度計算單元,用于依據(jù)所述內容向量距離與其對應添加的權重值,命名實體向量距離與其對應添加的權重值計算相似度。文本獲取模塊203,用于獲取在上一預設時間段及在當前預設時間段相應獲取的特征網頁的文本屬性信息;第一分析數(shù)據(jù)獲取模塊204,用于依據(jù)所述在上一預設時間段的文本屬性信息,獲取上一預設時間段用戶關注度的分析數(shù)據(jù)、媒體關注度的分析數(shù)據(jù)以及用戶態(tài)度的分析數(shù)據(jù);第二分析數(shù)據(jù)獲取模塊205,用于依據(jù)所述在當前預設時間段的文本屬性信息,獲取當前預設時間段用戶關注度的分析數(shù)據(jù)、媒體關注度的分析數(shù)據(jù)以及用戶態(tài)度的分析數(shù)據(jù);對比和趨勢分析模塊206,用于分別對比上一預設時間段與當前時間段用戶關注度的分析數(shù)據(jù),媒體關注度的分析數(shù)據(jù)以及用戶態(tài)度的分析數(shù)據(jù)。對于裝置實施例而言,由于其與方法實施例基本相似,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。本說明書中的各個實施例均采用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。本領域內的技術人員應明白,本申請的實施例可提供為方法、裝置、或計算機程序產品。因此,本申請可采用完全硬件實施例、完全軟件實施例、或結合軟件和硬件方面的實施例的形式。而且,本申請可采用在 一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(包括但不限于磁盤存儲器、CD-ROM、光學存儲器等)上實施的計算機程序產品的形式。本申請是參照根據(jù)本申請實施例的方法、設備(系統(tǒng))、和計算機程序產品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合??商峁┻@些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設備的處理器以產生一個機器,使得通過計算機或其他可編程數(shù)據(jù)處理設備的處理器執(zhí)行的指令產生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。這些計算機程序指令也可存儲在能引導計算機或其他可編程數(shù)據(jù)處理設備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設備上,使得在計算機或其他可編程設備上執(zhí)行一系列操作步驟以產生計算機實現(xiàn)的處理,從而在計算機或其他可編程設備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。盡管已描述了本申請的優(yōu)選實施例,但本領域內的技術人員一旦得知了基本創(chuàng)造性概念,則可對這些實施例做出另外的變更和修改。所以,所附權利要求意欲解釋為包括優(yōu)選實施例以及落入本申請范圍的所有變更和修改。最后,還需要說明的是,在本文中,諸如第一和第二等之類的關系術語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關系或者順 序。而且,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設備中還存在另外的相同要素。以上對本發(fā)明所提供的基于一種網絡輿情事件多維信息提取的方法及裝置,進行了詳細介紹,本文中應用了具體個例對本發(fā)明的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領域的一般技術人員,依據(jù)本發(fā)明的思想,在具體實施方式及應用范圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本發(fā)明的限制。
當前第1頁1 2 3 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
遂平县| 庄河市| 永寿县| 遵义市| 馆陶县| 阜阳市| 湘西| 准格尔旗| 津市市| 新邵县| 米易县| 巫山县| 南城县| 抚松县| 海盐县| 林西县| 南乐县| 秦皇岛市| 台安县| 舒城县| 吉隆县| 通化市| 井陉县| 安多县| 额尔古纳市| 遂昌县| 潜江市| 子长县| 南投县| 临湘市| 龙海市| 镇平县| 盐亭县| 靖远县| 青浦区| 湘潭市| 巴楚县| 彰武县| 清远市| 肥东县| 洛南县|