網絡事件自動搜集分析系統及方法
【技術領域】
[0001]本發(fā)明為一種網絡輿情的處理技術,特別是一種網絡事件自動搜集分析系統及方法。
【背景技術】
[0002]由于網絡的使用與發(fā)展成熟與龐大,造成過去的2年來,人類在網絡上制造的資料量,占人類史上總資料量九成。預估到2020年數據量會比2010年大50倍,將有500億個戶聯設備在搜集數據。網絡上存在的這些巨量資料中有著珍貴的訊息,像是相關性(UnknownCorrelat1n)、未顯露的模式(Hidden Patterns)、市場趨勢(Market Trend),可能埋藏著前所未見的知識跟應用等著被挖掘發(fā)現。因此從這些巨量資料中萃取出那些有價值的資訊來利用是目前各方產業(yè)研究的方向。
[0003]網絡輿情搜集是目前其中一種在網絡巨量資料中萃取有價值資訊的手段。由于目前公眾人物、執(zhí)政者或管理、領導人經常因為對于輿情情勢的誤判而延誤事件處理先機,或是處理方向錯誤導致事件成為事故。輿情包含社會輿情及網絡輿情,其中網絡輿情是社會輿情在網絡空間的映射,是社會輿情的直接反映。傳統的社會輿情存在于民間,存在于大眾的思想觀念和日常的街頭巷尾的議論之中,前者難以捕捉,后者稍縱即逝,輿情的獲取只能通過社會明察暗訪、民意調查等方式進行,獲取效率低下,樣本少而且容易流于偏頗,耗費巨大。而隨著網際網絡的發(fā)展,大眾往往以資訊化的方式發(fā)表各自看法,網絡輿情比社會輿情更容易獲取。
[0004]然而,目前的輿情監(jiān)測產品或服務,有些屬于人與機構的監(jiān)測,目的在監(jiān)控人與機構在網絡上的言行并對監(jiān)控者自動提出特定行為發(fā)生的警示訊息;有些屬于被動的事件監(jiān)測,需由使用者自行設定特定事件主題及關鍵字,系統方能依據設定事件主題進行監(jiān)測及分析。前者無法反映社會輿情的變化;后者則緩不濟急,等需求者意識到重要主題時,往往已經錯失處理先機。
[0005]因此需要一種能夠即時反應社會輿情變化,主動獲知輿情的輕重緩急的系統及方法。
【發(fā)明內容】
[0006]本發(fā)明的一目的,在于提供一種根據搜集到的每一熱門主題的一關注度參數的高低及一關注時間參數的長短予以重要性分級的網絡事件自動搜集分析系統及方法。
[0007]本發(fā)明的另一目的,在于提供一種主動搜集網絡資源并即時反應網絡上的事件變化,顯示網絡上事件的輕重緩急的網絡事件自動搜集分析系統及方法。
[0008]為達上述目的,本發(fā)明提供一種網絡事件自動搜集分析方法,包括下列步驟:經由一事件取樣模組取得網絡資訊的內容及發(fā)布時間訊息儲存在一資料庫;經由一主題產生模組根據該資料庫內的網絡資訊數量的累計產生數個事件主題;經由一主題篩選模組針對每一事件主題依據數個參數得到一綜合指數,并在該綜合指數超過一預設警示值時將該事件主題判定為熱門主題,且依據各該綜合指數的高低依序排列各該熱門主題;經由一事件決策支援模組的一事件決策次模組根據每一熱門主題的一關注度參數及一關注時間參數決定該熱門主題的重要性等級。
[0009]本發(fā)明另外提供一種網絡事件自動搜集分析系統,包括:一事件取樣模組,用以取得網絡資訊的內容及發(fā)布時間訊息;一資料庫,連接該事件取樣模組,儲存取得的網絡資訊的內容及發(fā)布時間訊息;一主題產生模組,連接該資料庫產生數個事件主題:一主題篩選模組,針對每一事件主題依據數個參數得到一綜合指數,并在該綜合指數超過一預設警示值時將該事件主題判定為熱門主題,且依據各該綜合指數的高低依序排列各該熱門主題;一事件決策支援模組,包括一事件決策次模組根據每一熱門主題的一關注度參數及一關注時間參數決定該熱門主題的重要性等級。
【附圖說明】
[0010]下列附圖的目的在于使本發(fā)明能更容易被理解,于本文中會詳加描述該些附圖,并使其構成具體實施例的一部份。通過本文中的具體實施例并參考相對應的附圖,以詳細解說本發(fā)明的具體實施例,并用以闡述發(fā)明的作用原理。
[0011]圖1為本發(fā)明的系統方塊示意圖;
[0012]圖2為系統的次模組的方塊示意圖;
[0013]圖3為系統的次模組的方塊示意圖;
[0014]圖4為本發(fā)明的方法流程示意圖;
[0015]圖5為本發(fā)明重要性等級區(qū)分的示意圖;
[0016]圖6為本發(fā)明顯示在一客戶端的示意圖。
[0017]【附圖標記說明】
[0018]10 系統
[0019]11事件取樣模組
[0020]12 資料庫
[0021]13主題產生模組
[0022]131詞句分析次模組
[0023]132分類/聚類次模組
[0024]133群組關鍵詞句次模組
[0025]134事件主題產生次模組
[0026]14主題篩選模組
[0027]15事件決策支援模組
[0028]151事件決策次模組
[0029]152事件支援次模組
[0030]20網絡資料源
[0031]31顯示屏幕
[0032]SOl ?S04 步驟。
【具體實施方式】
[0033]以下將參照相關附圖,說明本發(fā)明較佳實施,其中相同的元件將以相同的元件符號加以說明。
[0034]請參閱圖1為本發(fā)明的系統方塊示意圖;圖2為系統的次模組的方塊示意圖。如圖所示該系統10包括一事件取樣模組11、一資料庫12、一主題產生模組13、一主題篩選模組14及一事件決策支援模組15。該事件取樣模組11用以從網絡資料源20取得網絡資訊的內容及發(fā)布時間訊息,網絡資料源20包括網站、部落格、網絡論壇、網絡社群平臺,例如但不限制為Facebook、Twitter、P lurk、Goog Ie+、Youtube、Google、Yahoo、Sina、批踢踢等。該資料庫 12連接該事件取樣模組11以儲存取得的網絡資訊的內容及發(fā)布時間訊息。
[0035]該主題產生模組13,連接該資料庫12產生數個事件主題。該主題產生模組13包括一詞句分析次模組131、一分類/聚類次模組132、一群組關鍵詞句次模組133及一事件主題產生次模組134(如圖2所示)。
[0036]該詞句分析次模組131系對資料庫12內的每一網絡資訊內容分析后找出至少一關鍵詞句及至少一正負情緒詞句,其中分析技術例如但不限制利用目前的中文分詞技術、自然語言處理技術或中文訊息處理技術及情緒分析方法對網絡資訊的內容文字進行去重復、斷詞、斷句、語意分析后萃取出該關鍵詞句及該正負情緒詞句。尤其要說明的是,該詞句分析次模組131是利用情緒分析方法從每一篇網絡資訊的內容文字找出正負情緒詞句,并判斷該篇網絡資訊為正評論或負評論。該情緒分析方法例如但不限制為首先建立情緒詞庫,其次將文本比對該情緒詞庫,最后計算出該正負面詞句的分數。具體例如但不限制為中國臺灣專利公告號I477987B揭示一種分析文本的方法,包含:拆解該文本成數句子,各該句子包括至少一分句,且各該至少一分句包括至少一詞匯;分析該至少一詞匯的一屬性,其中該屬性選自由一樂觀詞匯、一悲觀詞匯、一非情緒詞匯及一否定修飾詞匯所組成的群組其中之一;累計各該分句中的所有詞匯的各該屬性,以推算各該分句