两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種判定評論文本極性的方法及其應用的制作方法

文檔序號:6373602閱讀:168來源:國知局
專利名稱:一種判定評論文本極性的方法及其應用的制作方法
技術領域
本發(fā)明提供ー種判定評論文本的極性的方法,具體涉及ー種形容詞的極性判定方法,屬于計算語言學領域,該方法可以應用于網(wǎng)絡輿情監(jiān)控。
背景技術
網(wǎng)絡輿情監(jiān)測是ー項重要的工作。對于網(wǎng)上發(fā)布的各種新聞事件所產(chǎn)生的影響進行分析,有助于及時正確地進行相應處理。在很多情況下,針對某個新聞事件,我們希望了解究竟是正面評價多還是負面評價多。比如,以下一則新聞(見圖1,詳見http://edU.sina. com. cn/gaokao/2012-06-28/1700346332. shtml)引起了網(wǎng)民的熱烈評論。
·
為了獲得正負面評論的比例,傳統(tǒng)的作法是采用人工分析。比如說,根據(jù)人工閱讀判斷得知,對該新聞中“文史哲禍害社會”論調的態(tài)度分布分別是66%不同意、24%同意,此外10%持中立態(tài)度。人工對評論文本進行極性分類的準確度較高,但是極為耗時,不利于大批量的文本處理。本文提出的方法,首先對評論文本中出現(xiàn)的形容詞進行極性判定,然后再根據(jù)判定的結果對熱點新聞的評論文本進行極性判定,確定該評論文本是正面評論、負面評論還是中性評論。需要指出,本文采用的方法,完全自動完成,適合大批量文本處理。本發(fā)明中用來判斷形容詞極性的方法與已有授權專利《一種詞匯語義褒貶獲得方法、系統(tǒng)及裝置》(申請?zhí)?00710099802. 2)在總體框架上類似。該專利和本文都采用了Turney所提出的用互信息值對單詞極性判定的框架(PMI-IR)。本發(fā)明方法與該專利有三點不同I.已有專利中的方法用到了搜索引擎中的AND運算符,而本申請專利的方法不需要使用AND運算符??梢耘懦T如“美麗但驕傲”、“悲傷和歡樂”等噪聲。因為,對于AND運算符來說,這些極性相反的單詞(“美麗”為正極性,“驕傲”為負極性;“悲傷”為負極性,“歡樂”為正極性)都是影響最終結果的噪聲。因此本發(fā)明方法能夠獲得更高的準確度。2.本方法是從語言分析的實際出發(fā),考慮到了形容詞和其它詞性的差異,也說明本方法更加有針對性。3.本申請專利選擇的極性指示器為“不”和“有點”,而不需要如該專利中根據(jù)經(jīng)驗選擇PWords (正極性范例詞集合)和NWords (負極性范例詞集合),這種根據(jù)經(jīng)驗進行的選擇容易帶來結果的不確定性。

發(fā)明內容
本發(fā)明的目的是提供一種新的方法,能夠自動判定評論文本的極性。發(fā)明內容包括兩部分判定形容詞的極性和判定評論文本的極性。其中,形容詞極性的判定是評論文本極性判定的基礎環(huán)節(jié)。本發(fā)明提供的技術方案如下 ー種判定形容詞極性的方法,其特征是,對于給定形容詞word,判斷其極性的步驟如下I)在搜索引擎中用精確匹配模式查找“不word”,記下返回結果數(shù)目,得到hits ( “不 word”);2)在搜索引擎中用精確匹配模式查找“有點word”,記下返回結果數(shù)目,得到hits ( “有點 word”);3)在搜索引擎中用精確匹配模式查找“不”,記下返回結果數(shù)目,得到hits( “不,,);4)在搜索引擎中用精確匹配模式查找“有點”,記下返回結果數(shù)目,得到hits ( “有點,,);5)計算 word 的極性 SO-PMI-IR
SQ-PMl-IR(Word) = tog. hits(-4word-)hits(-YL'n6)若極性SO-PMI-IR(word) > 0,則word為正極性,否則word為負極性;其中,hits (query)是提交查詢串query到搜索引擎后返回的命中記錄數(shù),即返回
結果數(shù)目。所述的判定形容詞極性的方法,其特征是,為了避免運算溢出,當出現(xiàn)命中記錄數(shù)為零時,用0.01替換。本發(fā)明同時提供ー種判定評論文本極性的方法,其特征是,對于給定的評論文本,判定其極性的步驟如下a)將評論文本用漢語分詞工具進行分詞和詞性標注;b)根據(jù)詞性標注結果,選出形容詞集合;c)用上面所述的方法對形容詞集合中的單詞分別進行形容詞極性判定;d)比較正極性單詞的個數(shù)與負極性單詞的個數(shù)如果正極性單詞的個數(shù)大于負極性單詞的個數(shù),則判定該評論文本為正面評價;如果正極性單詞的個數(shù)等于負極性單詞的個數(shù),則判定該評論文本為中立評價;如果正極性單詞的個數(shù)小于負極性單詞的個數(shù),則判定該評論文本為負面評價。所述的判定評論文本極性的方法,其特征是,所述漢語分詞工具為中國科學院計算技術研究所漢語詞法分析系統(tǒng)ICTCLAS。上面所述方法可以應用于網(wǎng)絡輿情監(jiān)控,方法為,對于帶有用戶評論功能的某一條網(wǎng)絡新聞,執(zhí)行如下步驟對于該新聞的每一條用戶評論,用上面所述的方法自動判別所述用戶評論文本的極性;展示所述網(wǎng)絡新聞的用戶評論的極性(即正面評價、中立評價、負面評價)情況。所述的網(wǎng)絡輿情監(jiān)控方法,其特征是,展示的內容包括正面評價、中立評價以及負面評價的數(shù)量和/或百分比;展示方式為文本或者圖形(如柱狀圖、餅狀圖等)。所述的網(wǎng)絡輿情監(jiān)控方法,其特征是,展示的對象為普通讀者,展示的位置為該網(wǎng)絡新聞頁面。所述的網(wǎng)絡輿情監(jiān)控方法,其特征是,展示的對象為輿情監(jiān)控部門。所述的網(wǎng)絡輿情監(jiān)控方法,其特征是,對于已經(jīng)計算過極性的用戶評論,其極性結果自動保存;當有新的用戶評論產(chǎn)生時,僅計算新的評論的極性,并更新展示結果。所述的網(wǎng)絡輿情監(jiān)控方法,其特征是,所用到的分詞、單詞極性判定、評論文本極性判定、以及最后的展示均由計算機程序自動完成。本工作主要從語言學的角度來考察極性的非対稱性,并將這些非對稱性應用到自然語言處理的情感分析中?!安弧薄ⅰ坝悬c”兩個極性指示器具有充分的語言學解釋。


圖I實施例用圖新聞截圖。圖2本發(fā)明中判定評論文本極性的流程圖。圖3本發(fā)明中判定形容詞極性的流程圖。
·
圖4實施例用圖新聞評論文本。圖5實施例用圖標注結果。
具體實施例方式針對判定形容詞的極性和判定評論文本的極性兩個部分,分別采用例子進行說明,以便理解具體實施過程。A.判定評論文本的極性 針對圖I中的新聞,假設有評論文本如圖4。判定該評論文本極性的流程圖如圖2所示。具體實施過程如下步驟ー將其中的文字用ICTCLAS (中國科學院計算技術研究所漢語詞法分析系統(tǒng) Institute ofComputing Technology,Chinese Lexical Analysis Systemノ進オ丁分詞ネロ詞性標注后得到結果如圖5所示(換用其它合理完善的漢語詞法分析系統(tǒng)進行分詞和詞性標注也可以,本發(fā)明并不僅限于ICTCLAS);步驟ニ 在圖5所示結果中,/a為形容詞的詞性標記,根據(jù)詞性選出形容詞集合為“少”、“淺薄”、“狂妄”、“科學”。步驟三對以上四個單詞分別進行形容詞極性判定(見B判定形容詞的極性),得到的結果為I個正極性(“科學”)和3個負極性(“少”,“淺薄”,“狂妄”)。步驟四由于正極性單詞的個數(shù)小于負極性單詞的個數(shù),因此判定該評論是對新聞中“文史哲禍害社會”論調的負面評價。通過自動的頁面抽取工具,對該新聞已有的152條評論進行抽取,并按照上面的方法進行自動分析,得到的結果是負面評價121,正面評價19,中立評價8 ;人工統(tǒng)計的結果是負面評價119,正面評價18,中立評價15 ;由此可以看出使用本發(fā)明所得結果和人工統(tǒng)計結果基本吻合。這說明本文提出的方法具有較強的實用性,且能夠極大地節(jié)省人工成本。需要注意,有一些評論文本經(jīng)過ICTCLAS分詞和詞性標注后,其中不含形容詞,這類評論在分析時不作考慮(例如,上述統(tǒng)計結果中有4個評論未考慮)。B.判定形容詞的極性給定形容詞word ;選定某個搜索引擎,判定word的極性的流程圖如圖3所示。以兩個具體的例子解釋實施方式。例I :假設待判定極性的形容詞為“美麗”,選擇即刻搜索引擎(www. jike. com)。判定步驟如下步驟ー在即刻搜索引擎中輸入“不美麗”(注意有雙引號),返回記錄1,820,000條,即 hits ( “不美麗” )=1,820, 000 ;步驟ニ 在即刻搜索引擎中輸入“有點美麗”(注意有雙引號),返回記錄28,000條,即hits ( “有點美麗” )=28,000 ;步驟三在即刻搜索引擎中輸入“不”(注意有雙引號),返回記錄10,500,000,000條,即 hits ( “不” )=10,500,000,000 ;步驟四在即刻搜索引擎中輸入“有點”(注意有雙引號),返回記錄663,000,000條,即 hits ( “有點” )=663,000,000 ;
「 I 止^^ cr, ^, hits(” 不美麗”)hits(”有點”) 步驟五SO- PMI - IR(美匪)=Iog2 ; nニニ パ,了,,(
hits("有點美匪)hits("不”)
, 1,820.000*663,000.000 …
= Iog-,-:-:-:-=z.Oj
28,000 ”0,500,000ユ)00步驟六由于SO-PMI-IR(美麗)=2. 03>0,因此,“美麗”的極性為正,這個結果與
事實相符。查詢串〃不word"是在待判定極性的單詞“word”前加“不”,注意中間沒有空格。雙引號操作符("")是為了保證搜索引擎采用精確匹配,而非部分匹配。百度、谷歌等主流搜索引擎都采用雙引號操作符進行文本串的精確匹配。例2 :假設待判定極性的形容詞為“丑曬”,選擇即刻搜索引擎(www. jike. com,當然,選用其它所有引擎也可以,例如,WWW. baidu. com,www. google, com等)。判定步驟如下步驟ー在即刻搜索引擎中輸入“不丑陋”(注意有雙引號),返回記錄75,100條,即 hits( “不丑陋”)=75,100 ;步驟ニ 在即刻搜索引擎中輸入“有點丑陋”(注意有雙引號),返回記錄46,900條,即hits ( “有點丑陋” )=46,900 ;步驟三在即刻搜索引擎中輸入“不”(注意有雙引號),返回記錄10,500,000,000條,即 hits ( “不” )=10,500,000,000 ;步驟四在即刻搜索引擎中輸入“有點”(注意有雙引號),返回記錄663,000,000條,即 hits ( “有點” )=663,000,000 ;
_5]步驟五S。撒卿_),
, 75.100*663,000.000
]0(T -------
=& 46,900 *10,500,000,000 =_3 30步驟六由于S0-PMI-IR(丑陋)=-3. 30〈0,因此,“丑陋”的極性為負,這與事實相符。本發(fā)明所述的方法可以應用到網(wǎng)絡輿情監(jiān)控,例如對于某ー篇網(wǎng)絡新聞,其用戶評論往往是存在數(shù)據(jù)庫中的,實施者需要在后臺(即服務器端)做一個計算機程序,使用本發(fā)明所述方法,使之可以自動判斷并對該新聞的所有用戶評論的極性,迅速判斷出該新聞的輿情走向,從而為相關部門進行及時決策提供有力的支持。為了顯示更加直觀,可以在新聞網(wǎng)頁頁面提供關于該新聞評價極性數(shù)量和/或圖形的顯示,當有新評論時自動更新該顯示或人工驅動更新顯示?!?br> 權利要求
1.一種判定形容詞極性的方法,其特征是,對于給定形容詞word,判斷其極性的步驟如下 1)在搜索引擎中用精確匹配模式查找“不word”,記下返回結果數(shù)目,得到hits(“不word,,); 2)在搜索引擎中用精確匹配模式查找“有點word”,記下返回結果數(shù)目,得到hits(“有點 word”); 3)在搜索引擎中用精確匹配模式查找“不”,記下返回結果數(shù)目,得到hits(“不”); 4)在搜索引擎中用精確匹配模式查找“有點”,記下返回結果數(shù)目,得到hits(“有占,,). 5)計算word 的極性 S0-PMI-IR
2.如權利要求I所述的判定形容詞極性的方法,其特征是,為了避免運算溢出,當出現(xiàn)命中記錄數(shù)為零時,用O. 01替換。
3.一種判定評論文本極性的方法,其特征是,對于給定的評論文本,判定其極性的步驟如下 a)將評論文本用漢語分詞工具進行分詞和詞性標注; b)根據(jù)詞性標注結果,選出形容詞集合; c)用權利要求I所述的方法對形容詞集合中的單詞分別進行形容詞極性判定; d)比較正極性單詞的個數(shù)與負極性單詞的個數(shù)如果正極性單詞的個數(shù)大于負極性單詞的個數(shù),則判定該評論文本為正面評價;如果正極性單詞的個數(shù)等于負極性單詞的個數(shù),則判定該評論文本為中立評價;如果正極性單詞的個數(shù)小于負極性單詞的個數(shù),則判定該評論文本為負面評價。
4.如權利要求3所述的判定評論文本極性的方法,其特征是,所述漢語分詞工具為中國科學院計算技術研究所漢語詞法分析系統(tǒng)ICTCLAS。
5.一種網(wǎng)絡輿情監(jiān)控方法,其特征是,對于帶有用戶評論功能的某一條網(wǎng)絡新聞,執(zhí)行如下步驟對于該新聞的每一條用戶評論,用權利要求3所述的方法自動判別所述用戶評論文本的極性;展示所述網(wǎng)絡新聞的用戶評論的極性情況。
6.如權利要求5所述的網(wǎng)絡輿情監(jiān)控方法,其特征是,展示的內容包括正面評價、中立評價以及負面評價的數(shù)量和/或百分比;展示方式為文本或者圖形。
7.如權利要求6所述的網(wǎng)絡輿情監(jiān)控方法,其特征是,展示的對象為普通讀者,展示的位置為該網(wǎng)絡新聞頁面。
8.如權利要求6所述的網(wǎng)絡輿情監(jiān)控方法,其特征是,展示的對象為輿情監(jiān)控部門。
9.如權利要求5所述的網(wǎng)絡輿情監(jiān)控方法,其特征是,對于已經(jīng)計算過極性的用戶評論,其極性結果自動保存;當有新的用戶評論產(chǎn)生時,僅計算新的評論的極性,并更新展示結果。
10.如權利要求5所述的網(wǎng)絡輿情監(jiān)控方法,其特征是,所用到的分詞、單詞極性判定、評論文本極性判定、以及最后的展示均由計算機程序自動完成。
全文摘要
本發(fā)明公布了一種判定評論文本極性的方法,所述方法可以應用于網(wǎng)絡輿情監(jiān)控。將評論文本用漢語分詞工具進行分詞和詞性標注;根據(jù)詞性標注結果,選出形容詞集合;對形容詞集合中的單詞分別進行形容詞極性判定;比較正極性單詞的個數(shù)與負極性單詞的個數(shù)如果正極性單詞的個數(shù)大于負極性單詞的個數(shù),則判定該評論文本為正面評價;如果正極性單詞的個數(shù)等于負極性單詞的個數(shù),則判定該評論文本為中立評價;如果正極性單詞的個數(shù)小于負極性單詞的個數(shù),則判定該評論文本為負面評價。本工作主要從語言學的角度來考察極性的非對稱性,并將這些非對稱性應用到自然語言處理的情感分析中?!安弧?、“有點”兩個極性指示器具有充分的語言學解釋。
文檔編號G06F17/30GK102855276SQ20121025258
公開日2013年1月2日 申請日期2012年7月20日 優(yōu)先權日2012年7月20日
發(fā)明者徐戈, 王厚峰 申請人:北京大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
邓州市| 白水县| 游戏| 镇赉县| 荆州市| 萨嘎县| 湘潭市| 北流市| 西峡县| 清原| 闽清县| 建瓯市| 孟连| 增城市| 高碑店市| 辽宁省| 米林县| 黑河市| 阿拉善右旗| 竹溪县| 建湖县| 信丰县| 舞阳县| 醴陵市| 图木舒克市| 都江堰市| 青龙| 兴业县| 恩施市| 偏关县| 东城区| 岗巴县| 都江堰市| 江北区| 九江县| 仙居县| 南涧| 汨罗市| 绵阳市| 建平县| 屏南县|