两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種對網(wǎng)絡(luò)輿情信息進(jìn)行情感分類的方法

文檔序號:8922702閱讀:778來源:國知局
一種對網(wǎng)絡(luò)輿情信息進(jìn)行情感分類的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及自然語言處理領(lǐng)域,特別涉及一種對網(wǎng)絡(luò)輿情信息進(jìn)行情感分類的方 法。
【背景技術(shù)】
[0002] 互聯(lián)網(wǎng)輿情,或者稱為網(wǎng)絡(luò)輿情,是一個伴隨著近半個多世紀(jì)計算機信息技術(shù)的 發(fā)展和近二十年互聯(lián)網(wǎng)的出現(xiàn)和普及而逐漸浮出水面的一個全新概念?;ヂ?lián)網(wǎng)輿情由兩個 概念結(jié)合而成一互聯(lián)網(wǎng)(Internet)和輿情(PublicOpinion)。
[0003] 互聯(lián)網(wǎng)的開放性、全球性、即時性、廣泛性、海量性、互動性、平等性、低成本性和 多媒體性等諸多特點決定了對于普通民眾而言,遍布全球每一個角落的、觸手可及的互 聯(lián)網(wǎng)是最佳的觀點表達(dá)和傳播媒介,愈來愈多的普通民眾傾向于通過網(wǎng)絡(luò),而不是報紙 (newspaper)、雜志(magazine)、廣播(broadcast)或電視(television),來表達(dá)自己在自 由言論方面的訴求。
[0004] 根據(jù)針對我國的實際情況所展開的相關(guān)分析和研宄可知,我國國內(nèi)的互聯(lián)網(wǎng)輿 情的表現(xiàn)形式和承載平臺主要有以下四種:
[0005] (l)BBS論壇,包括社會論壇(天涯)、高校論壇(水木)、主題論壇(強國論壇) 和地方論壇(深圳人)等等;
[0006] (2)博客,包括新浪博客、百度空間、搜狐博客、北郵人博客、騰訊空間等在內(nèi)的各 式各樣的個人博客和名人博客;
[0007] (3)新聞及新聞跟帖,包括新浪新聞、搜狐新聞、騰訊新聞、網(wǎng)易新聞等大塑門戶 網(wǎng)站的新聞欄目及每條新聞后面的跟帖和回復(fù);
[0008] (4)微博和社交網(wǎng)絡(luò),包括新浪微博、搜狐微博、新華微博、騰訊微博等微博和幵 心網(wǎng)、人人網(wǎng)等SNS社交網(wǎng)絡(luò)平臺上網(wǎng)民的言論、評論、回復(fù)、轉(zhuǎn)發(fā)、分享等內(nèi)容。
[0009] 近年來,網(wǎng)絡(luò)輿情對政治生活秩序和社會穩(wěn)定的影響與日俱增,一些重大的網(wǎng)絡(luò) 輿情事件使人們開始認(rèn)識到網(wǎng)絡(luò)對社會監(jiān)督起到的巨大作用。同時,網(wǎng)絡(luò)輿情突發(fā)事件如 果處理不當(dāng),極有可能誘發(fā)民眾的不良情緒,引發(fā)群眾的違規(guī)和過激行為,進(jìn)而對社會穩(wěn)定 構(gòu)成威脅。此外企業(yè)自身的輿情信息的正負(fù)面性判別對于企業(yè)本身有著重要意義。對于網(wǎng) 絡(luò)輿情的上述特點,對現(xiàn)實中出現(xiàn)的各種網(wǎng)絡(luò)輿論,應(yīng)能做出及時反饋,防微杜漸,防患于 未然。因此,必須利用現(xiàn)代信息技術(shù)對網(wǎng)絡(luò)輿情予以分析,從而進(jìn)行控制和引導(dǎo)。由于網(wǎng)上 的信息量十分巨大,僅依靠人工的方法難以應(yīng)對網(wǎng)上海量信息的收集和處理,需要自動化 的網(wǎng)絡(luò)輿情分析方法,及時應(yīng)對網(wǎng)絡(luò)輿情。

【發(fā)明內(nèi)容】

[0010] 本發(fā)明的目的在于克服現(xiàn)有技術(shù)中所存在的上述不足,提供一種基于對網(wǎng)絡(luò)輿情 信息進(jìn)行情感分類的方法,采用漢語詞法分析系統(tǒng)一一ICTCLAS對文本進(jìn)行分詞,保留名 詞,動詞和形容詞來作為特征,以x2統(tǒng)計來選擇特征,然后用BP神經(jīng)網(wǎng)絡(luò)分類器進(jìn)行情感 分類。
[0011] 為了實現(xiàn)上述發(fā)明目的,本發(fā)明提供了以下技術(shù)方案:
[0012] 一種對網(wǎng)絡(luò)輿情信息進(jìn)行情感分類的方法,包括以下步驟:
[0013] (1)對網(wǎng)絡(luò)輿情信息的文章進(jìn)行中文分詞;
[0014] (2)將分詞后的詞匯輸入神經(jīng)網(wǎng)絡(luò);
[0015] (3)計算出所述文章的正負(fù)面性完成情感分類。
[0016] 優(yōu)選的,所述中文分詞采用ICTCLAC中文分詞系統(tǒng)。
[0017] 優(yōu)選的,所述中文分詞采用ICTCLAC中文分詞系統(tǒng)對所述文章進(jìn)行分詞,保留名 詞、動詞和形容詞作為特征。
[0018] 優(yōu)選的,所述中文分詞采用ICTCLAC中文分詞系統(tǒng)對所述文章進(jìn)行分詞,保留名 詞、動詞和形容詞作為特征之后、輸入神經(jīng)網(wǎng)絡(luò)之前還包括特征選擇步驟。
[0019] 優(yōu)選的,所述特征選擇步驟具體為:采用文檔頻率、X2統(tǒng)計、信息增益或互信息 方法,選擇所需的特征作為神經(jīng)網(wǎng)絡(luò)的輸入。
[0020] 優(yōu)選的,所述神經(jīng)網(wǎng)絡(luò)為BP神經(jīng)網(wǎng)絡(luò)。
[0021] 優(yōu)選的,所述BP神經(jīng)網(wǎng)絡(luò)為3層或大于3層的前饋型BP網(wǎng)絡(luò)。
[0022] 優(yōu)選的,所述BP神經(jīng)網(wǎng)絡(luò)為經(jīng)過訓(xùn)練的BP神經(jīng)網(wǎng)絡(luò),所述訓(xùn)練步驟如下:
[0023]a.通過網(wǎng)絡(luò)爬蟲技術(shù)爬取網(wǎng)絡(luò)輿情信息的文章;
[0024]b.對爬取的文章通過ICTCLAC中文分詞系統(tǒng)進(jìn)行分詞;
[0025]c.分詞后采用x2統(tǒng)計法進(jìn)行文本特征選擇,選擇所需的中文詞匯;
[0026]d.將爬取的文章進(jìn)行文章正負(fù)面性的人工判別,判別文章是正面的,負(fù)面的,還是 中性的;
[0027]e.將x2統(tǒng)計法后選擇的中文詞匯出現(xiàn)的數(shù)量作為神經(jīng)網(wǎng)絡(luò)的輸入,文章正負(fù)面 性的判別結(jié)果作為神經(jīng)網(wǎng)絡(luò)的輸出,對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,計算出神經(jīng)網(wǎng)絡(luò)的各層權(quán)值。
[0028] 與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果:
[0029]1.本發(fā)明的方法采用了ICTCLAC中文分詞系統(tǒng)對網(wǎng)絡(luò)輿情信息的目標(biāo)文章進(jìn)行 中文分詞,x2統(tǒng)計法進(jìn)行特征選取,大大降低了文本特征空間的維數(shù),提高了自動分類的 效率;
[0030] 2.本發(fā)明的方法采用BP神經(jīng)網(wǎng)絡(luò)進(jìn)行情感分類,神經(jīng)網(wǎng)絡(luò)的各層權(quán)值可通過網(wǎng) 絡(luò)爬蟲技術(shù)爬取網(wǎng)上文章進(jìn)行訓(xùn)練得到,分類有效性和準(zhǔn)確率高。
【附圖說明】
[0031] 圖1為本發(fā)明BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程
[0032] 圖2為本發(fā)明方法的情感分類過程
【具體實施方式】
[0033] 下面結(jié)合試驗例及【具體實施方式】對本發(fā)明作進(jìn)一步的詳細(xì)描述。但不應(yīng)將此理解 為本發(fā)明上述主題的范圍僅限于以下的實施例,凡基于本
【發(fā)明內(nèi)容】
所實現(xiàn)的技術(shù)均屬于本 發(fā)明的范圍。
[0034] 如圖2所示,本發(fā)明的對網(wǎng)絡(luò)輿情信息進(jìn)行情感分類的方法步驟如下:
[0035] (1)采用ICTCLAC中文分詞系統(tǒng)對網(wǎng)絡(luò)輿情信息的目標(biāo)文章進(jìn)行中文分詞;
[0036] (2)將分詞后的詞匯按照BP神經(jīng)網(wǎng)絡(luò)的輸入需求對每一個輸入賦值;
[0037] (3)計算出所述文章的正負(fù)面性得到情感分類結(jié)果。
[0038] 對目標(biāo)文章進(jìn)行情感分類前首先要對文章進(jìn)行文本預(yù)處理,文本預(yù)處理主要包括 分詞處理,去停用詞兩個部分。為把文本形式化地表示,采用向量空間模型(VectorSpace Model)把文本表示成N維向量,用詞來表示文本的向量。中文是連續(xù)的字符串,為了抽取文 本的詞條,這就需要對中文文本進(jìn)行分詞處理。去停用詞主要是去除那些對文章內(nèi)容沒有 意義的詞。由于在文章中名字、動詞、形容詞是最具有實際意義的詞。這里采用中國科學(xué)院 計算技術(shù)研宄所的漢語詞法分析系統(tǒng)ICTCLAS,該系統(tǒng)在分詞的同
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
枣强县| 荆门市| 呼和浩特市| 会理县| 临沧市| 奉贤区| 深泽县| 葫芦岛市| 衡山县| 讷河市| 张家口市| 盈江县| 玉环县| 武义县| 翁牛特旗| 电白县| 商城县| 如东县| 太康县| 临洮县| 江口县| 邹城市| 山东省| 诸暨市| 南和县| 蒙自县| 佳木斯市| 横峰县| 怀远县| 呼伦贝尔市| 堆龙德庆县| 前郭尔| 遵义县| 阳西县| 宿迁市| 余庆县| 正安县| 义马市| 隆昌县| 新晃| 昌黎县|