一種中文評(píng)論分析方法及其系統(tǒng)的制作方法
【專利摘要】本發(fā)明適用于收集中文“偽評(píng)論”語料,公開了一種中文評(píng)論分析方法,對(duì)用戶的中文評(píng)論進(jìn)行分析以確定其是否可作為語料,用戶向網(wǎng)站提交評(píng)論,網(wǎng)站前臺(tái)向控制中心發(fā)送分析請(qǐng)求,控制中心將其傳遞至分析部件,分析部件對(duì)其進(jìn)行分主題分析,分詞服務(wù)器進(jìn)行分詞和詞性標(biāo)注,分析部件依次進(jìn)行句法分析和情感分析,數(shù)據(jù)中心將分析結(jié)論保存至用戶評(píng)論表中。本發(fā)明提供的一種中文評(píng)論分析方法,控制中心能夠直接通過主題分析來排除不合格語料,而且分析部件依次對(duì)用戶評(píng)論進(jìn)行句法分析和情感傾向分析,有效地得出中文評(píng)論的情感傾向結(jié)論,提高分析系統(tǒng)的準(zhǔn)確度,此時(shí)管理員可以只瀏覽傾向性為正的評(píng)論,以確定它是否符合要求。
【專利說明】一種中文評(píng)論分析方法及其系統(tǒng) 【【技術(shù)領(lǐng)域】】
[0001 ] 本發(fā)明涉及一種中文評(píng)論分析方法,特別涉及一種中文宣傳性"偽評(píng)論"搜集時(shí)的 分析方法及其系統(tǒng)。 【【背景技術(shù)】】
[0002] 我國"十二五"信息化規(guī)劃明確提出了 "提高網(wǎng)絡(luò)輿情監(jiān)測(cè)能力"、"網(wǎng)絡(luò)有害信息 監(jiān)測(cè)和管控能力"的互聯(lián)網(wǎng)信息化發(fā)展目標(biāo),并規(guī)劃建立針對(duì)互聯(lián)網(wǎng)信息的"檢測(cè)評(píng)估和監(jiān) 測(cè)預(yù)警等技術(shù)支撐體系"。可見網(wǎng)絡(luò)輿情、互聯(lián)網(wǎng)信息監(jiān)控已經(jīng)成為國家信息化戰(zhàn)略層面的 重要任務(wù)。而其中一個(gè)關(guān)鍵基礎(chǔ)技術(shù)是情感分析(SentimentAnalysis),即本發(fā)明的關(guān)鍵 技術(shù)之一。
[0003] 情感分析,又稱觀點(diǎn)挖掘(OpinionMining),是指通過挖掘文本中的觀點(diǎn)、看法、 情緒、好惡等主觀信息,對(duì)文本的情感傾向做出類別判斷。情感有著寬泛的內(nèi)涵,可以是人 們對(duì)于產(chǎn)品、社會(huì)的判斷,也可是一種審美態(tài)度。文本的情感傾向是指文本所反映的傾向性 以及其情感傾向強(qiáng)度,視不同的用途有不同的分類標(biāo)準(zhǔn)。
[0004] 除了在互聯(lián)網(wǎng)輿情監(jiān)控領(lǐng)域的應(yīng)用,情感分析也被廣泛應(yīng)用于生活信息服務(wù)、醫(yī) 療服務(wù)等關(guān)系民生的眾多行業(yè)。用戶上網(wǎng)查詢相關(guān)產(chǎn)品的評(píng)論,并通過對(duì)比來做出最終的 購買決策;衛(wèi)生保健系統(tǒng)來評(píng)估病人的態(tài)度,以提供更好的處方。本項(xiàng)目關(guān)注的是文本情感 分析在電子商務(wù)中的應(yīng)用。
[0005] 互聯(lián)網(wǎng)上垃圾評(píng)論無處不在,如社區(qū)中的垃圾評(píng)論、博客中的垃圾評(píng)論、電子商務(wù) 網(wǎng)站中有關(guān)廣品的垃圾評(píng)論等,不同的垃圾評(píng)論各有特點(diǎn)。電子商務(wù)網(wǎng)站中,有些特殊的 評(píng)論:有的評(píng)論把好的產(chǎn)品/服務(wù)說成是不好的,有的把不好的產(chǎn)品/服務(wù)說成是好的,這 兩類評(píng)論合稱為"偽評(píng)論",偽評(píng)論是垃圾評(píng)論的一種。在現(xiàn)實(shí)中,這兩類評(píng)論都是非常有害 的,前者損害商家的利益,后者損害消費(fèi)者的利益。但是,偽評(píng)論與真實(shí)評(píng)論混在一起,用人 工的方法很難區(qū)分開來。
[0006] 偽評(píng)論的識(shí)別需要借助于文本情感分析技術(shù),該技術(shù)本質(zhì)上是自動(dòng)文本分類的一 種,在文本分類中常用的訓(xùn)練數(shù)據(jù)集(又稱語料)獲取方法是人工標(biāo)注。但是,"偽評(píng)論"是 人工不可識(shí)別的,也就是說,無法采用專家標(biāo)注的方法對(duì)其進(jìn)行標(biāo)注。
[0007] 我們對(duì)現(xiàn)有的觀點(diǎn)挖掘語料進(jìn)行了調(diào)查,TREC【TREC(TextRetrieval Conference),文本檢索會(huì)議】設(shè)置的BlogTrack、NTCIR的評(píng)測(cè)MOAT、中文傾向性分析評(píng)測(cè) COAE系列提供了一定規(guī)模的中文觀點(diǎn)挖掘語料。除此之外,不少研宄單位和個(gè)人也提供了 一定規(guī)模的觀點(diǎn)挖掘語料。但是,迄今為止,我們未發(fā)現(xiàn)專門用于中文偽評(píng)論檢測(cè)的語料。
[0008] Ott等人針對(duì)偽評(píng)論難于獲得的問題,借助AmazonMechanicalTurk平臺(tái),分配 了 400個(gè)HIT(Human-IntelligenceTasks)任務(wù),收集了 400篇欺騙性垃圾評(píng)論(宣傳性 的"偽評(píng)論"),實(shí)驗(yàn)結(jié)論表明crowdsourcing是有效的。不幸的是,國內(nèi)沒有這樣的平臺(tái); 我們國內(nèi)的用戶又不可能到AmazonMechanicalTurk平臺(tái)上找活做。
[0009] 目前既沒有垃圾產(chǎn)品評(píng)論分析用的中文語料,也沒有相關(guān)的中文評(píng)論語料收集網(wǎng) 站。為了取得"偽評(píng)論"語料,我們需要自己開發(fā)一個(gè)類似于AmazonMechanicalTurk的 平臺(tái)。已有的研宄及實(shí)踐為本項(xiàng)目研發(fā)提供了許多可供借鑒的思路與技術(shù)準(zhǔn)備,但還需做 進(jìn)一步整合與改進(jìn)。 【
【發(fā)明內(nèi)容】
】
[0010] 本發(fā)明的目的在于克服上述現(xiàn)有技術(shù)的不足,提供一種中文評(píng)論分析方法及其系 統(tǒng),其旨在解決現(xiàn)有技術(shù)中無法對(duì)偽評(píng)論進(jìn)行自動(dòng)區(qū)分、對(duì)網(wǎng)站的評(píng)論進(jìn)行情感傾向分析 不準(zhǔn)確的技術(shù)問題。
[0011] 為實(shí)現(xiàn)上述目的,本發(fā)明提出了一種中文評(píng)論分析方法,對(duì)用戶提交的中文評(píng)論 進(jìn)行分析,其具體步驟如下:
[0012] A)用戶向網(wǎng)站提交評(píng)論,網(wǎng)站前臺(tái)對(duì)用戶的評(píng)論進(jìn)行整理后,將整理的用戶評(píng)論 傳遞至數(shù)據(jù)中心,并向控制中心發(fā)送分析請(qǐng)求;
[0013] B)數(shù)據(jù)中心收到用戶評(píng)論后,將其記錄在用戶評(píng)論表中,并為每一條用戶評(píng)論添 加是否已經(jīng)分析過的分析標(biāo)注;
[0014] C)控制中心收到請(qǐng)求后,主動(dòng)與數(shù)據(jù)中心連接,數(shù)據(jù)中心將所有分析標(biāo)注為未分 析的用戶評(píng)論傳遞至控制中心;
[0015] D)控制中心收到用戶評(píng)論后,將其傳遞至分析部件;
[0016] E)分析部件收到用戶評(píng)論后,對(duì)其進(jìn)行分主題分析,如果用戶評(píng)論的主題與其評(píng) 論的產(chǎn)品相關(guān),則將用戶評(píng)論傳遞至分詞服務(wù)器,并轉(zhuǎn)至步驟F);如果用戶評(píng)論的主題與 其評(píng)論的產(chǎn)品無關(guān),則直接生成"主題無關(guān)"的分析結(jié)論,并轉(zhuǎn)至步驟H);
[0017]F)分詞服務(wù)器收到用戶評(píng)論后,對(duì)用戶評(píng)論進(jìn)行分詞和詞性標(biāo)注,并將帶有詞性 標(biāo)注的用戶評(píng)論返回到分析部件;
[0018] G)分析部件收到帶有詞性標(biāo)注的用戶評(píng)論后,依次進(jìn)行句法分析和情感分析,得 出該用戶評(píng)論的情感傾向的分析結(jié)論,并將該分析結(jié)論傳遞到本地存儲(chǔ)中進(jìn)行存儲(chǔ);
[0019] H)分析部件將得出的分析結(jié)論反饋至控制中心,控制中心在收到分析結(jié)論后,將 其傳遞到數(shù)據(jù)中心進(jìn)行存儲(chǔ);
[0020] I)數(shù)據(jù)中心收到分析結(jié)論后,將分析結(jié)論保存至用戶評(píng)論表中,并將其相對(duì)應(yīng)的 用戶評(píng)論的分析標(biāo)注更改為已標(biāo)注;
[0021] J)當(dāng)管理員需要審核分析結(jié)論時(shí),管理員通過監(jiān)管平臺(tái)對(duì)數(shù)據(jù)中心的分析結(jié)論進(jìn) 行操作;
[0022] K)網(wǎng)站主動(dòng)與數(shù)據(jù)中心處讀取分析結(jié)論,并當(dāng)用戶請(qǐng)求了解評(píng)論結(jié)論時(shí),網(wǎng)站將 該分析結(jié)論展示給用戶。
[0023] 作為優(yōu)選,步驟G)包括以下具體步驟:
[0024] Gl)分析部件收到分詞服務(wù)器傳來的用戶評(píng)論后,采用基于正則表達(dá)式的匹配方 法對(duì)其進(jìn)行句法分析,根據(jù)用戶評(píng)論中的短語構(gòu)成,將其組合成不同短句,得出句法分析結(jié) 論;
[0025]G2)根據(jù)情感分析資源,對(duì)組合后的短句中的形容詞、動(dòng)詞、名詞和情感符號(hào)進(jìn)行 情感極性判斷,并得出用戶評(píng)論的初步傾向結(jié)論;
[0026] G3)根據(jù)情感分析資源,對(duì)帶有詞性標(biāo)注的短句中的副詞進(jìn)行情感標(biāo)注,并根據(jù)初 步傾向結(jié)論,得出情感傾向結(jié)論;
[0027] G4)用句法關(guān)系找到情感短語所評(píng)價(jià)的情感對(duì)象,形成若干個(gè)〈情感對(duì)象,情感短 語〉二元對(duì)。對(duì)不同的情感對(duì)象賦予不同的權(quán)值,采用加權(quán)方法,得出整個(gè)用戶評(píng)論的情感 結(jié)論,當(dāng)情感結(jié)論為正傾向性時(shí),分析部件生成"基本符合要求,等待審核"的分析結(jié)論;當(dāng) 情感結(jié)論為負(fù)傾向性是,分析部件生成"不合格評(píng)論,需要正面評(píng)論"的分析結(jié)論;
[0028] G5)將句法分析結(jié)論和傾向性分析結(jié)果單獨(dú)存儲(chǔ)至本地存儲(chǔ)中。
[0029] 作為優(yōu)選,步驟K)包括以下具體步驟:
[0030]Kl)為當(dāng)管理員需要查看分析結(jié)論時(shí),監(jiān)管平臺(tái)將審核請(qǐng)求傳遞至數(shù)據(jù)中心;
[0031] K2)數(shù)據(jù)中心收到審核請(qǐng)求后,將分析標(biāo)注為已標(biāo)注的用戶評(píng)論所對(duì)應(yīng)的分析結(jié) 論傳遞至監(jiān)管平臺(tái);
[0032] K3)監(jiān)管平臺(tái)收到分析結(jié)論后,將分析結(jié)論展示給管理員,管理員對(duì)其查看或者修 改;
[0033] K4)在管理員完成操作后,監(jiān)管平臺(tái)生成相對(duì)應(yīng)的審核結(jié)論,并將審核結(jié)論回復(fù)至 數(shù)據(jù)中心;
[0034] K5)數(shù)據(jù)中心收到審核結(jié)論后,將審核結(jié)論添加至用戶評(píng)論表中的分析結(jié)論中形 成新的分析結(jié)論。
[0035] 作為優(yōu)選,所述的分詞服務(wù)器以中科院計(jì)算所的NLPIR/ICTCLAS2014DLL模塊為 核心。
[0036] 作為優(yōu)選,在步驟A)中,整理后的用戶評(píng)論還包括評(píng)價(jià)用戶的ID和評(píng)價(jià)的產(chǎn)品類 型,在步驟E)中,主題分析根據(jù)產(chǎn)品類型的特征數(shù)據(jù)庫來判斷用戶評(píng)論是否包含相對(duì)應(yīng)的 產(chǎn)品類型名稱或者產(chǎn)品品牌名稱。
[0037] 作為優(yōu)選,所述的網(wǎng)站前臺(tái)、控制中心、分析部件和分詞服務(wù)器均采用基于Socket 的數(shù)據(jù)傳輸方式,網(wǎng)站前臺(tái)作為Socket客戶端發(fā)送請(qǐng)求消息給控制中心,控制中心作為 Socket服務(wù)端進(jìn)行監(jiān)聽,分析部件作為Socket客戶端發(fā)送消息給分詞服務(wù)器,分詞服務(wù)器 作為Socket服務(wù)器端進(jìn)行監(jiān)聽。
[0038] 作為優(yōu)選,所述的數(shù)據(jù)中心采用數(shù)據(jù)庫技術(shù)對(duì)網(wǎng)站前臺(tái)、控制中心和監(jiān)管平臺(tái)傳 遞的不同數(shù)據(jù)進(jìn)行管理。
[0039] 為了更好地實(shí)現(xiàn)本發(fā)明的技術(shù)目的,本發(fā)明還提出了一種中文評(píng)論分析系統(tǒng),采 用上述的一種中文評(píng)論分析方法,包括與用戶交互的網(wǎng)站前臺(tái)、存儲(chǔ)用戶評(píng)論的數(shù)據(jù)中心、 與網(wǎng)站前臺(tái)及數(shù)據(jù)中心相連的控制中心、對(duì)用戶評(píng)論進(jìn)行分詞和標(biāo)注的分詞服務(wù)器、對(duì)分 詞后的用戶評(píng)論進(jìn)行分析的分析部件、與管理員交互的監(jiān)管平臺(tái)和存儲(chǔ)分析結(jié)論的本地存 儲(chǔ);
[0040] 所述的網(wǎng)站前臺(tái)傳遞分析請(qǐng)求至控制中心,所述的控制中心將用戶評(píng)論傳遞至分 析部件,所述的分析部件將用戶評(píng)論傳遞至分詞服務(wù)器,所述的分詞服務(wù)器將帶有詞性標(biāo) 注的用戶評(píng)論回饋至分析部件,所述的分析部件回饋分析結(jié)論至控制中心,所述的數(shù)據(jù)中 心分別接收網(wǎng)站前臺(tái)傳遞的用戶評(píng)論數(shù)據(jù)、控制中心傳遞的分析結(jié)論和監(jiān)管平臺(tái)的審核結(jié) 論。
[0041] 本發(fā)明的有益效果:與現(xiàn)有技術(shù)相比,本發(fā)明提供的一種中文評(píng)論分析方法,結(jié)構(gòu) 合理,采用控制中心和數(shù)據(jù)中心來協(xié)調(diào)、連接各部件的工作。當(dāng)用戶從前臺(tái)提交一個(gè)評(píng)論 時(shí),控制中心能夠直接通過主題分析來排除不相關(guān)評(píng)論,使得只有主題相關(guān)的用戶評(píng)論才 能進(jìn)行下一步的分析,而且分析部件依次對(duì)用戶評(píng)論進(jìn)行句法分析和情感傾向分析,有效 地得出中文評(píng)論的情感傾向結(jié)論,提高分析系統(tǒng)的準(zhǔn)確度,此時(shí)管理員可以只瀏覽傾向性 為正的評(píng)論,以確定它是否符合要求,從而減輕管理員處理偽評(píng)論的工作量,提高偽評(píng)論收 集的效率,而用戶也可以得知自己所提交的評(píng)論是否符合要求。
[0042] 本發(fā)明的特征及優(yōu)點(diǎn)將通過實(shí)施例結(jié)合附圖進(jìn)行詳細(xì)說明。 【【專利附圖】
【附圖說明】】
[0043] 圖1是本發(fā)明實(shí)施例的流程示意圖;
[0044] 圖2是本發(fā)明實(shí)施例的分析部件的部分流程示意圖。 【【具體實(shí)施方式】】
[0045] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明了,下面通過附圖中及實(shí)施例,對(duì) 本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。但是應(yīng)該理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā) 明,并不用于限制本發(fā)明的范圍。此外,在以下說明中,省略了對(duì)公知結(jié)構(gòu)和技術(shù)的描述,以 避免不必要地混淆本發(fā)明的概念。
[0046] 參閱圖1和圖2,本發(fā)明實(shí)施例提供一種中文評(píng)論分析方法,以用戶的中文評(píng)論作 為語料進(jìn)行分析,其具體步驟如下:
[0047] A)用戶向網(wǎng)站提交評(píng)論,網(wǎng)站前臺(tái)1對(duì)用戶的評(píng)論進(jìn)行整理后,向控制中心2發(fā)送 分析請(qǐng)求,并將整理的用戶評(píng)論傳遞至數(shù)據(jù)中心3。
[0048] 其中,網(wǎng)站前臺(tái)1和控制中心2采用基于Socket的數(shù)據(jù)傳輸方式,Socket通常也 稱作"套接字",應(yīng)用程序通常通過"套接字"向網(wǎng)絡(luò)發(fā)出請(qǐng)求或者應(yīng)答網(wǎng)絡(luò)請(qǐng)求。根據(jù)連接 啟動(dòng)的方式以及本地套接字要連接的目標(biāo),套接字之間的連接過程可以分為三個(gè)步驟:月艮 務(wù)器監(jiān)聽,客戶端請(qǐng)求,連接確認(rèn)。
[0049] 服務(wù)器監(jiān)聽:服務(wù)器端套接字并不定位具體的客戶端套接字,而是處于等待連接 的狀態(tài),實(shí)時(shí)監(jiān)控網(wǎng)絡(luò)狀態(tài)。
[0050] 客戶端請(qǐng)求:由客戶端的套接字提出連接請(qǐng)求,要連接的目標(biāo)是服務(wù)器端的套接 字。為此,客戶端的套接字必須首先描述它要連接的服務(wù)器的套接字,指出服務(wù)器端套接字 的地址和端口號(hào),然后就向服務(wù)器端套接字提出連接請(qǐng)求。
[0051] 連接確認(rèn):當(dāng)服務(wù)器端套接字監(jiān)聽到或者說接收到客戶端套接字的連接請(qǐng)求,它 就響應(yīng)客戶端套接字的請(qǐng)求,建立一個(gè)新的線程,把服務(wù)器端套接字的描述發(fā)給客戶端,一 旦客戶端確認(rèn)了此描述,連接就建立好了。而服務(wù)器端套接字繼續(xù)處于監(jiān)聽狀態(tài),繼續(xù)接收 其他客戶端套接字的連接請(qǐng)求。
[0052] 在此種結(jié)構(gòu)中,網(wǎng)站前臺(tái)1作為Socket客戶端發(fā)送請(qǐng)求消息給控制中心2,控制中 心2作為Socket服務(wù)端進(jìn)行監(jiān)聽。也就是說用戶通過網(wǎng)絡(luò)查看相關(guān)資料介紹、撰寫并提交 評(píng)論給網(wǎng)站前臺(tái)1后,網(wǎng)站通過網(wǎng)絡(luò)套接字,向控制中心2發(fā)送分析請(qǐng)求,由控制中心2觸 發(fā)系統(tǒng)開始工作。
[0053] B)數(shù)據(jù)中心3收到用戶評(píng)論后,將其記錄在用戶評(píng)論表中,并為每一條用戶評(píng)論 添加是否已經(jīng)分析過的分析標(biāo)注。
[0054] C)控制中心2收到請(qǐng)求后,主動(dòng)與數(shù)據(jù)中心3連接,數(shù)據(jù)中心3將所有分析標(biāo)注為 未分析的用戶評(píng)論傳遞至控制中心2。
[0055] D)控制中心2收到用戶評(píng)論后,將其傳遞至分析部件4。
[0056]E)分析部件4收到用戶評(píng)論后,對(duì)其進(jìn)行分主題分析,如果用戶評(píng)論的主題與其 評(píng)論的產(chǎn)品相關(guān),則將分詞后的用戶評(píng)論傳遞至分詞服務(wù)器5,并轉(zhuǎn)至步驟F);如果用戶評(píng) 論的主題與其評(píng)論的產(chǎn)品無關(guān),則直接生成"主題無關(guān)"的分析結(jié)論,并轉(zhuǎn)至步驟H)。
[0057] 其中,分析部件4和分詞服務(wù)器5也采用基于Socket的數(shù)據(jù)傳輸方式,分析部件 4作為Socket客戶端發(fā)送消息給分詞服務(wù)器5,分詞服務(wù)器5作為Socket服務(wù)器端進(jìn)行監(jiān) 聽。也就是說,分析部件4在工作過程中,對(duì)通過主題分析的用戶評(píng)論進(jìn)行進(jìn)一步處理時(shí), 需要與分詞服務(wù)器5進(jìn)行通信,分詞服務(wù)器5作為Socket服務(wù)器端,通過設(shè)置的端口號(hào)進(jìn) 行監(jiān)聽,如果收到分析部件4這個(gè)端口的連接請(qǐng)求則建立連接,獲取數(shù)據(jù)并將處理結(jié)論返 回給分析部件4。
[0058]F)分詞服務(wù)器5收到用戶評(píng)論后,對(duì)用戶評(píng)論進(jìn)行分詞和詞性標(biāo)注,并將帶有詞 性標(biāo)注的用戶評(píng)論回復(fù)至分析部件4。
[0059] 其中,分詞服務(wù)器5是封裝中科院計(jì)算所的NLPIR/ICTCLAS2014DLL模塊得到的, 采用端口監(jiān)聽的方式工作。分詞服務(wù)器5采用Socket形式提供服務(wù),由分析部件4把需要 標(biāo)注的參數(shù)形式、評(píng)論文本及應(yīng)用相關(guān)的用戶詞典組織好,發(fā)給分詞服務(wù)器5,處理完成之 后把帶詞性標(biāo)注的文本返回給分析部件4。
[0060] G)分析部件4收到帶有詞性標(biāo)注的用戶評(píng)論后,依次進(jìn)行句法分析和情感分析, 得出該用戶評(píng)論的情感傾向的分析結(jié)論,并將該分析結(jié)論傳遞到本地存儲(chǔ)6中進(jìn)行存儲(chǔ)。
[0061] 由于NLPIR/ICTCLAS2014分詞系統(tǒng)名詞識(shí)別及詞性標(biāo)注較準(zhǔn)確,但是有關(guān)動(dòng)詞的 知識(shí)提供得并不多,所以,對(duì)于NLPIR/ICTCLAS2014分詞系統(tǒng)標(biāo)注過詞性的用戶評(píng)論,分析 部件4還需要進(jìn)一步處理,補(bǔ)充動(dòng)詞的相關(guān)知識(shí),以提高動(dòng)詞短語結(jié)構(gòu)分析的準(zhǔn)確率。
[0062]H)分析部件4將得出的分析結(jié)論反饋至控制中心2,控制中心2在收到分析結(jié)論 后,將其又傳遞至數(shù)據(jù)中心3進(jìn)行存儲(chǔ)。
[0063] I)數(shù)據(jù)中心3收到分析結(jié)論后,將分析結(jié)論保存至用戶評(píng)論表中,并將其相對(duì)應(yīng) 的用戶評(píng)論的分析標(biāo)注更改為已標(biāo)注。
[0064] J)當(dāng)管理員需要審核分析結(jié)論時(shí),管理員通過監(jiān)管平臺(tái)7對(duì)數(shù)據(jù)中心3的分析結(jié) 論進(jìn)行操作。
[0065] K)網(wǎng)站主動(dòng)與數(shù)據(jù)中心3處讀取分析結(jié)論,并當(dāng)用戶請(qǐng)求了解評(píng)論結(jié)論時(shí),網(wǎng)站 將該分析結(jié)論展示給用戶。
[0066] 在本發(fā)明的實(shí)施例中,采用控制中心2為核心??刂浦行?監(jiān)聽來至前臺(tái)網(wǎng)站的 分析請(qǐng)求,調(diào)用各個(gè)模塊工作,處理網(wǎng)站傳送過來的請(qǐng)求。其中,控制中心2被設(shè)計(jì)為易擴(kuò) 展的,可通過簡單地添加功能函數(shù)、調(diào)用命令,不需更改其他部分,便能夠?qū)崿F(xiàn)程序的擴(kuò)展, 使得整個(gè)分析系統(tǒng)的動(dòng)態(tài)擴(kuò)展能夠輕易地實(shí)現(xiàn)。
[0067] 具體地,步驟G)包括以下具體步驟:
[0068] Gl)分析部件4收到分詞服務(wù)器5傳來的用戶評(píng)論后,采用基于正則表達(dá)式的匹配 方法對(duì)其進(jìn)行句法分析,根據(jù)用戶評(píng)論中的短語構(gòu)成,將其組合成不同短句,得出句法分析 結(jié)論。
[0069] 正則表達(dá)式使用單個(gè)字符串來描述、匹配一系列符合某個(gè)句法規(guī)則的字符串。表 1是部分本發(fā)明實(shí)施例所使用的正則表達(dá)式示例。
[0070]
【權(quán)利要求】
1. 一種中文評(píng)論分析方法,其特征在于:對(duì)用戶提交的中文評(píng)論進(jìn)行分析,其具體步 驟如下: A) 用戶向網(wǎng)站提交評(píng)論,網(wǎng)站前臺(tái)(1)對(duì)用戶的評(píng)論進(jìn)行整理后,將整理的用戶評(píng)論 傳遞至數(shù)據(jù)中心(3),并向控制中心(2)發(fā)送分析請(qǐng)求; B) 數(shù)據(jù)中心(3)收到用戶評(píng)論后,將其記錄在用戶評(píng)論表中,并為每一條用戶評(píng)論添 加是否已經(jīng)分析過的分析標(biāo)注; C) 控制中心(2)收到請(qǐng)求后,主動(dòng)與數(shù)據(jù)中心(3)連接,數(shù)據(jù)中心(3)將所有分析標(biāo)注 為未分析的用戶評(píng)論傳遞至控制中心(2); D) 控制中心⑵收到用戶評(píng)論后,將其傳遞至分析部件⑷; E) 分析部件(4)收到用戶評(píng)論后,對(duì)其進(jìn)行分主題分析,如果用戶評(píng)論的主題與其評(píng) 論的產(chǎn)品相關(guān),則將用戶評(píng)論傳遞至分詞服務(wù)器(5),并轉(zhuǎn)至步驟F);如果用戶評(píng)論的主題 與其評(píng)論的產(chǎn)品無關(guān),則直接生成"主題無關(guān)"的分析結(jié)論,并轉(zhuǎn)至步驟H); F) 分詞服務(wù)器(5)收到用戶評(píng)論后,對(duì)用戶評(píng)論進(jìn)行分詞和詞性標(biāo)注,并將帶有詞性 標(biāo)注的用戶評(píng)論返回到分析部件(4); G) 分析部件(4)收到帶有詞性標(biāo)注的用戶評(píng)論后,依次進(jìn)行句法分析和情感分析,得 出該用戶評(píng)論的情感傾向的分析結(jié)論,并將該分析結(jié)論傳遞到本地存儲(chǔ)(6)中進(jìn)行存儲(chǔ); H) 分析部件(4)將得出的分析結(jié)論反饋至控制中心(2),控制中心(2)在收到分析結(jié) 論后,將其傳遞到數(shù)據(jù)中心(3)進(jìn)行存儲(chǔ); I) 數(shù)據(jù)中心(3)收到分析結(jié)論后,將分析結(jié)論保存至用戶評(píng)論表中,并將其相對(duì)應(yīng)的 用戶評(píng)論的分析標(biāo)注更改為已標(biāo)注; J) 當(dāng)管理員需要審核分析結(jié)論時(shí),管理員通過監(jiān)管平臺(tái)(7)對(duì)數(shù)據(jù)中心(3)的分析結(jié) 論進(jìn)行操作; K) 網(wǎng)站從數(shù)據(jù)中心(3)處讀取分析結(jié)論,并當(dāng)用戶請(qǐng)求了解評(píng)論結(jié)論時(shí),網(wǎng)站將該分 析結(jié)論展示給用戶。
2. 如權(quán)利要求1所述的一種中文評(píng)論分析方法,其特征在于:步驟G)包括以下具體步 驟: G1)分析部件(4)收到分詞服務(wù)器(5)傳來的用戶評(píng)論后,采用基于正則表達(dá)式的匹配 方法對(duì)其進(jìn)行句法分析,根據(jù)用戶評(píng)論中的短語構(gòu)成,將其組合成不同短句,得出句法分析 結(jié)論; G2)根據(jù)情感分析資源,對(duì)組合后的短句中的形容詞、動(dòng)詞、名詞和情感符號(hào)進(jìn)行情感 極性判斷,并得出詞匯一級(jí)的情感值; G3)根據(jù)情感分析資源,對(duì)帶有詞性標(biāo)注的短句中的副詞進(jìn)行情感標(biāo)注,并根據(jù)詞匯級(jí) 的情感值,得出修正后的情感傾向值; G4)用句法關(guān)系找到情感短語所評(píng)價(jià)的情感對(duì)象,形成若干個(gè)〈情感對(duì)象,情感短語〉 二元對(duì)。對(duì)不同的情感對(duì)象賦予不同的權(quán)值,采用加權(quán)方法,得出整個(gè)用戶評(píng)論的情感結(jié) 論,當(dāng)情感結(jié)論為正傾向性時(shí),分析部件(4)生成"基本符合要求,等待審核"的分析結(jié)論; 當(dāng)情感結(jié)論為負(fù)傾向性是,分析部件(4)生成"不合格評(píng)論,需要正面評(píng)論"的分析結(jié)論; G5)將句法分析結(jié)論和傾向性分析結(jié)論單獨(dú)存儲(chǔ)至本地存儲(chǔ)(6)中。
3. 如權(quán)利要求1所述的一種中文評(píng)論分析方法,其特征在于:步驟K)包括以下具體步 驟: K1)為當(dāng)管理員需要查看分析結(jié)論時(shí),監(jiān)管平臺(tái)(7)將審核請(qǐng)求傳遞至數(shù)據(jù)中心(3); K2)數(shù)據(jù)中心(3)收到審核請(qǐng)求后,將分析標(biāo)注為已標(biāo)注的用戶評(píng)論所對(duì)應(yīng)的分析結(jié) 論傳遞至監(jiān)管平臺(tái)(7); K3)監(jiān)管平臺(tái)(7)收到分析結(jié)論后,將分析結(jié)論展示給管理員,管理員對(duì)其查看或者修 改; K4)在管理員完成操作后,監(jiān)管平臺(tái)(7)生成相對(duì)應(yīng)的審核結(jié)論,并將審核結(jié)論回復(fù)至 數(shù)據(jù)中心(3); K5)數(shù)據(jù)中心(3)收到審核結(jié)論后,將審核結(jié)論添加至用戶評(píng)論表中的分析結(jié)論中形 成新的分析結(jié)論。
4. 如權(quán)利要求1所述的一種中文評(píng)論分析方法,其特征在于:所述的分詞服務(wù)器(5) 以中科院計(jì)算所的NLPIR/ICTCLAS2014DLL模塊為核心。
5. 如權(quán)利要求1所述的一種中文評(píng)論分析方法,其特征在于:在步驟A)中,整理后的 用戶評(píng)論還包括評(píng)價(jià)用戶的ID和評(píng)價(jià)的產(chǎn)品類型,在步驟E)中,主題分析根據(jù)產(chǎn)品類型的 特征數(shù)據(jù)庫來判斷用戶評(píng)論是否包含相對(duì)應(yīng)的產(chǎn)品類型名稱或者產(chǎn)品品牌名稱。
6. 如權(quán)利要求1所述的一種中文評(píng)論分析方法,其特征在于:所述的網(wǎng)站前臺(tái)(1)、控 制中心(2)、分析部件(4)和分詞服務(wù)器(5)均采用基于Socket的數(shù)據(jù)傳輸方式,網(wǎng)站前臺(tái) (1)作為Socket客戶端發(fā)送請(qǐng)求消息給控制中心(2),控制中心(2)作為Socket服務(wù)端進(jìn) 行監(jiān)聽,分析部件(4)作為Socket客戶端發(fā)送消息給分詞服務(wù)器(5),分詞服務(wù)器(5)作為 Socket服務(wù)器端進(jìn)行監(jiān)聽。
7. 如權(quán)利要求1所述的一種中文評(píng)論分析方法,其特征在于:所述的數(shù)據(jù)中心(3)采 用數(shù)據(jù)庫技術(shù)對(duì)網(wǎng)站前臺(tái)(1)、控制中心(2)和監(jiān)管平臺(tái)(7)傳遞的不同數(shù)據(jù)進(jìn)行管理。
8. -種中文評(píng)論分析系統(tǒng),其特征在于:采用如權(quán)利要求1至7中任一項(xiàng)所述的一種 中文評(píng)論分析方法,包括與用戶交互的網(wǎng)站前臺(tái)(1)、存儲(chǔ)用戶評(píng)論的數(shù)據(jù)中心(3)、與網(wǎng) 站前臺(tái)(1)及數(shù)據(jù)中心(3)相連的控制中心(2)、對(duì)用戶評(píng)論進(jìn)行分詞和標(biāo)注的分詞服務(wù) 器(5)、對(duì)分詞后的用戶評(píng)論進(jìn)行分析的分析部件(4)、與管理員交互的監(jiān)管平臺(tái)(7)和存 儲(chǔ)分析結(jié)果的本地存儲(chǔ)(6); 所述的網(wǎng)站前臺(tái)(1)傳遞分析請(qǐng)求至控制中心(2),所述的控制中心(2)將用戶評(píng)論傳 遞至分析部件(4),所述的分析部件(4)將用戶評(píng)論傳遞至分詞服務(wù)器(5),所述的分詞服 務(wù)器(5)將帶有詞性標(biāo)注的用戶評(píng)論回饋至分析部件(4),所述的分析部件(4)回饋分析結(jié) 論至控制中心(2),所述的數(shù)據(jù)中心(3)分別接收網(wǎng)站前臺(tái)(1)傳遞的用戶評(píng)論數(shù)據(jù)、控制 中心(2)傳遞的分析結(jié)論和監(jiān)管平臺(tái)(7)的審核結(jié)論。
【文檔編號(hào)】G06F17/30GK104484336SQ201410663427
【公開日】2015年4月1日 申請(qǐng)日期:2014年11月19日 優(yōu)先權(quán)日:2014年11月19日
【發(fā)明者】郝秀蘭, 蔣云良, 許方曲 申請(qǐng)人:湖州師范學(xué)院