两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于詞匯語義和句法依存的情感關(guān)鍵句識(shí)別方法

文檔序號(hào):6624778閱讀:255來源:國知局
一種基于詞匯語義和句法依存的情感關(guān)鍵句識(shí)別方法
【專利摘要】本發(fā)明涉及一種基于詞匯語義和句法依存的情感關(guān)鍵句識(shí)別方法,屬于自然語言處理應(yīng)用【技術(shù)領(lǐng)域】,包括以下步驟:首先對(duì)語料及其分詞結(jié)果進(jìn)行規(guī)范化處理;然后基于一定規(guī)則擴(kuò)展情感詞典、創(chuàng)建關(guān)鍵詞詞典和提取依存結(jié)構(gòu)模板,并通過擴(kuò)展后的情感詞典和關(guān)鍵詞詞典獲取候選情感關(guān)鍵句;最后設(shè)計(jì)一種位置打分函數(shù),輔以情感詞特征、關(guān)鍵詞特征和依存模板特征,利用這四種特征訓(xùn)練SVM分類器,并以之完成情感關(guān)鍵句的最終識(shí)別。對(duì)比現(xiàn)有技術(shù),通過采用規(guī)則與統(tǒng)計(jì)相結(jié)合的策略,能夠有效利用不同層級(jí)詞匯語義和句法依存信息進(jìn)行識(shí)別,使用戶能夠更快速而且準(zhǔn)確地找到語料中置信度較高的情感關(guān)鍵句,提高中文情感關(guān)鍵句的識(shí)別率。
【專利說明】一種基于詞匯語義和句法依存的情感關(guān)鍵句識(shí)別方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種情感關(guān)鍵句識(shí)別方法,特別涉及一種基于詞匯語義和句法依存的 情感關(guān)鍵句識(shí)別方法,屬于自然語言處理應(yīng)用【技術(shù)領(lǐng)域】。

【背景技術(shù)】
[0002] 隨著我國互聯(lián)網(wǎng)事業(yè)的迅速發(fā)展,網(wǎng)絡(luò)作為一種新型媒體不但成為各種社會(huì)思 潮、利益訴求和意識(shí)形態(tài)較量的場(chǎng)所,而且也成為民眾評(píng)議時(shí)政、談?wù)撌欠?、交流觀點(diǎn)的集 散地。有關(guān)網(wǎng)絡(luò)輿情監(jiān)測(cè)和分析的研究由此引起研究人員的重視。抽取出一篇文章的情感 關(guān)鍵句,對(duì)了解社會(huì)動(dòng)態(tài)和輿情狀況有著重要的作用。但在如今這個(gè)大數(shù)據(jù)時(shí)代,海量信息 層出不窮,同時(shí)處理這么多信息無疑是件費(fèi)時(shí)費(fèi)力的事情。因此,我們需要一種情感關(guān)鍵句 抽取技術(shù)來幫助我們自動(dòng)從海量信息中抽取出與主題相關(guān)的情感關(guān)鍵句,這是一項(xiàng)既有學(xué) 術(shù)意義又有實(shí)用意義的研究課題。
[0003] 情感關(guān)鍵句又叫主題情感句,情感關(guān)鍵句需要包含兩個(gè)要素:主題關(guān)鍵詞和情感 關(guān)鍵詞。主題關(guān)鍵詞用來概括篇章的主題;情感關(guān)鍵詞用來概括情感傾向。目前,關(guān)于情感 關(guān)鍵句抽取方面的研究并不多??偟膩碚f,情感關(guān)鍵句抽取的研究尚不系統(tǒng)和成熟,目前還 處于起步階段。而中文語言的靈活性及表達(dá)的多樣性,也使情感關(guān)鍵句抽取的研究相對(duì)更 加困難。目前情感關(guān)鍵句抽取的方法大多是基于規(guī)則或基于統(tǒng)計(jì)的,鮮有兩者結(jié)合的方法。 而且在抽取過程中只進(jìn)行了淺層語義分析,沒有挖掘句子的深層信息。


【發(fā)明內(nèi)容】

[0004] 本發(fā)明的目的是為解決以往在情感關(guān)鍵句識(shí)別中不能有效利用詞匯語義和句法 依存信息的問題,盡可能發(fā)揮不同層級(jí)的語義、句法信息特征,提出一種基于詞匯語義和句 法依存的情感關(guān)鍵句識(shí)別方法。
[0005] 為實(shí)現(xiàn)上述目的,本發(fā)明所采用的技術(shù)方案如下:
[0006] 本發(fā)明技術(shù)方案的思想是首先對(duì)語料及其分詞結(jié)果進(jìn)行規(guī)范化處理,然后基于一 定規(guī)則擴(kuò)展情感詞典、創(chuàng)建關(guān)鍵詞詞典和提取依存結(jié)構(gòu)模板,并通過擴(kuò)展后的情感詞典和 關(guān)鍵詞詞典獲取候選情感關(guān)鍵句;最后設(shè)計(jì)一種位置打分函數(shù),輔以情感詞特征、關(guān)鍵詞特 征和依存特征,利用這四種特征構(gòu)造 SVM分類器,找到使性能達(dá)到最優(yōu)的特征形式完成情 感關(guān)鍵句的識(shí)別。
[0007] 本發(fā)明的具體技術(shù)方案如下:
[0008] -種基于詞匯語義和句法依存的中文情感關(guān)鍵句識(shí)別方法,該方法包括以下步 驟:
[0009] 步驟一、語料預(yù)處理:對(duì)語料集S的每一個(gè)句子進(jìn)行分詞、詞性標(biāo)注得到帶有詞性 標(biāo)注的語料集合T;分詞以及詞性標(biāo)注可以手工進(jìn)行,也可以使用現(xiàn)有的工具,本發(fā)明使用 中科院的分詞工具ICTCLAS對(duì)S自動(dòng)分詞以及詞性標(biāo)注;
[0010] 步驟二、情感詞典擴(kuò)建:通過分別計(jì)算基礎(chǔ)情感詞典與候選詞集合之間的點(diǎn)間互 信息PMI,為每個(gè)基礎(chǔ)情感詞典中的詞語選取至多5個(gè)PMI最高的候選詞作為擴(kuò)展詞,加入 基礎(chǔ)情感詞典,用這些詞加上其在語料集合中的出現(xiàn)概率生成最終的領(lǐng)域相關(guān)的情感詞典 DEL ;
[0011] 步驟三、關(guān)鍵詞詞典構(gòu)建:對(duì)于語料集S中的每一篇文章,通過LDA與textrank相 結(jié)合的方法,同時(shí)采用一種全新的加權(quán)方法PCF0為該文章在各主題建立對(duì)應(yīng)的圖模型,最 后利用textrank為圖中每個(gè)節(jié)點(diǎn),即詞語打分,選擇得分較高的詞語作為本篇文章的關(guān)鍵 詞,加入關(guān)鍵詞詞典KL;
[0012] 步驟四、依存知識(shí)庫構(gòu)建:對(duì)語料集S中的每一個(gè)句子進(jìn)行依存分析,然后通過依 存模板提取算法獲取依存模板,加入依存知識(shí)庫DB ;
[0013] 步驟五、候選情感關(guān)鍵句生成:分別將語料集T中的每一個(gè)句子與上文已經(jīng)構(gòu)建 好的領(lǐng)域相關(guān)的情感詞典DEL和關(guān)鍵詞詞典KL進(jìn)行匹配,選擇既含有情感詞又含有關(guān)鍵詞 的句子作為候選情感關(guān)鍵句,記候選情感關(guān)鍵句的集合為A ;
[0014] 步驟六、SVM分類:將集合A置于經(jīng)過訓(xùn)練的SVM分類器中進(jìn)行分類,得到情感 關(guān)鍵句集合Y和非情感關(guān)鍵句集合N,SVM分類器的訓(xùn)練特征為:情感詞特征(emotional feature),關(guān)鍵詞特征(key-word feature),依存模板特征(dependency feature)和位置 特征(position feature)這四種;
[0015] 步驟七、識(shí)別完成:輸出識(shí)別結(jié)果Y。
[0016] 有益效果
[0017] 本發(fā)明對(duì)比現(xiàn)有技術(shù),通過采用規(guī)則與統(tǒng)計(jì)相結(jié)合的策略,先通過DEL和KL篩選 出候選情感關(guān)鍵句,然后再利用SVM分類器進(jìn)行分類,這樣就彌補(bǔ)了基于概率統(tǒng)計(jì)的機(jī)器 學(xué)習(xí)方法導(dǎo)致的錯(cuò)判,兩種方法相互補(bǔ)充,能夠有效利用不同層級(jí)詞匯語義和句法依存信 息進(jìn)行識(shí)別,使用戶能夠更快速而且準(zhǔn)確地找到語料中置信度較高的情感關(guān)鍵句,提高中 文情感關(guān)鍵句的識(shí)別率。

【專利附圖】

【附圖說明】
[0018] 圖1為本發(fā)明方法的處理流程圖。

【具體實(shí)施方式】
[0019] 在介紹實(shí)施例以前,先做如下定義:
[0020] 情感關(guān)鍵句是指一篇文章中既能表現(xiàn)文章主題又能表現(xiàn)情感傾向的句子,需要包 含兩個(gè)要素:主題關(guān)鍵詞和情感關(guān)鍵詞。主題關(guān)鍵詞用來彰顯篇章主題;情感關(guān)鍵詞用來 表明情感傾向。
[0021] 下面結(jié)合實(shí)施例對(duì)本發(fā)明做進(jìn)一步說明。
[0022] 本實(shí)施例首先介紹情感詞典的擴(kuò)展方法,關(guān)鍵詞詞典的構(gòu)建方法,依存知識(shí)庫的 形成方法以及SVM分類器的特征選擇方法,最后介紹中文情感關(guān)鍵句的識(shí)別方法。
[0023] 本實(shí)施例選取第六屆中文傾向性分析評(píng)測(cè)(The Sixth Chinese Opinion Analysis Evaluation,簡(jiǎn)稱C0AE2014)任務(wù)一:面向新聞的情感關(guān)鍵句抽取與判定提供的 數(shù)據(jù)集作為實(shí)驗(yàn)語料集,用于情感詞典的擴(kuò)展,關(guān)鍵詞詞典的構(gòu)建,依存知識(shí)庫的形成以及 SVM分類器的訓(xùn)練。該語料集含有多篇文章,每篇文章由多個(gè)句子組成,每個(gè)句子含有類別 標(biāo)注(Y :表不是情感關(guān)鍵句/N :表不不是情感關(guān)鍵句)。
[0024] 以下文檔為語料集S中的一篇文章:
[0025]

【權(quán)利要求】
1. 一種基于詞匯語義和句法依存的中文情感關(guān)鍵句識(shí)別方法,其特征在于,包括以下 步驟: 步驟一、語料預(yù)處理:對(duì)待識(shí)別的語料集的每一個(gè)句子進(jìn)行分詞、詞性標(biāo)注得到帶有詞 性標(biāo)注的語料集合T ; 步驟二、候選情感關(guān)鍵句生成:分別將T中的每一個(gè)句子與領(lǐng)域相關(guān)的情感詞典DEL和 關(guān)鍵詞詞典KL進(jìn)行匹配,選擇既含有情感詞又含有關(guān)鍵詞的句子作為候選情感關(guān)鍵句,記 候選情感關(guān)鍵句的集合為A ; 步驟三、SVM分類器分類:從情感詞特征、關(guān)鍵詞特征、依存模板特征和位置特征四個(gè) 方面對(duì)集合A的每個(gè)句子提取特征向量,并將特征向量置于經(jīng)過訓(xùn)練的SVM分類器中進(jìn)行 分類,得到情感關(guān)鍵句集合Y和非情感關(guān)鍵句集合N ; 步驟四、識(shí)別完成:輸出識(shí)別結(jié)果Y。
2. 根據(jù)權(quán)利要求1所述的一種基于詞匯語義和句法依存的中文情感關(guān)鍵句識(shí)別方法, 其特征在于,領(lǐng)域相關(guān)的情感詞典DEL構(gòu)建方法包括以下步驟: 步驟一、采用知網(wǎng)(Hownet)提供的情感分析用詞語集中的正面情感詞語、負(fù)面情感詞 語、正面評(píng)價(jià)詞語、負(fù)面評(píng)價(jià)詞語加上由臺(tái)灣大學(xué)整理和發(fā)布的簡(jiǎn)體中文的NTUSD構(gòu)成基 礎(chǔ)情感詞典(Basic Emotion Lexicon); 步驟二、對(duì)語料集S中的所有句子進(jìn)行分詞、詞性標(biāo)注后得到語料集合T,按詞性篩選 出名詞、動(dòng)詞和形容詞作為候選詞; 步驟三、分別計(jì)算上文構(gòu)建的Basic Emotion Lexicon中每個(gè)詞與這些候選詞之間的 點(diǎn)間互信息,關(guān)于兩個(gè)詞語^和《2之間的點(diǎn)間互信息PMI(Wl,w2)的計(jì)算公式如下(計(jì)算 過程中過濾掉P (Wi&W2),P (W),P (w2)為零的情況
): 其中P^&wJ表示…和%在同一個(gè)句子中共同出現(xiàn)的概率,P(Wi)和P(w2)分別表示 兩個(gè)詞語單獨(dú)出現(xiàn)的概率;P(Wl&w2)、P(Wl)和p(w 2)都可以通過對(duì)語料集合T的統(tǒng)計(jì)得到, 其計(jì)算公式如下: P (Wi&wJ = numsen /N P(w!) = nurnsen (wj)/N P (w2) = numsen (w2) /N 其中,numjwi&wj表示集合中即出現(xiàn)&又出現(xiàn)w2的句子數(shù),numjwi)表示出現(xiàn)&的 句子數(shù),numS6n(w2)表示出現(xiàn)w2的句子數(shù),N表示語料集合T的全部句子數(shù); 步驟四、對(duì)于Basic Emotion Lexicon中的每個(gè)詞,選取至多前5個(gè)與之點(diǎn)間互信 息最高的候選詞作為擴(kuò)展詞,與其在語料集合T中的出現(xiàn)頻率一起加入Basic Emotion Lexicon,并對(duì)Basic Emotion Lexicon中的每個(gè)情感詞也分別計(jì)算其在語料集合T中的出 現(xiàn)概率,生成最終的領(lǐng)域相關(guān)的情感詞典DEL。
3. 根據(jù)權(quán)利要求1所述的一種基于詞匯語義和句法依存的中文情感關(guān)鍵句識(shí)別方法, 其特征在于,關(guān)鍵詞詞典的構(gòu)建方法包括以下步驟: 步驟一、對(duì)語料集S中的所有句子進(jìn)行分詞、詞性標(biāo)注后得到語料集合T,設(shè)置語料集 合T的主題個(gè)數(shù)為n,某個(gè)主題用Zt表示,其中t為1到n之間的自然數(shù),通過LDA模型求 出文檔-主題分布P(Zt|d)和主題-詞分布P(w|Zt);計(jì)算隨機(jī)跳轉(zhuǎn)概率P(Z t|w),計(jì)算公式 如下:
其中,m表示語料集合T中的文檔個(gè)數(shù),w表示一個(gè)詞,屯表示語料集合T的第i篇文 章 ,i G {1,2,3......whPWi)表示文章屯在語料集合T中的出現(xiàn)概率; 步驟二、對(duì)語料集合T中的每一篇文章按詞性選擇名詞和形容詞作為候選關(guān)鍵詞,并 以這些詞為節(jié)點(diǎn),分別在每一個(gè)主題下構(gòu)建圖模型:圖G= (V,E),節(jié)點(diǎn)集合V= {Vl,v2, V3......Vk},連接從節(jié)點(diǎn)Vi到節(jié)點(diǎn)Vj的邊得到邊集(Vi, Vi) G E,其中k表示候選關(guān)鍵詞的 個(gè)數(shù),i, j G {1,2,3......,k},i 關(guān) j ; 確定兩個(gè)節(jié)點(diǎn)之間是否存在邊以及邊的方向的方法如下: 在原文中設(shè)置一個(gè)大小為window的滑動(dòng)窗口,分別按照順序從第一個(gè)詞性為名詞或 形容詞的詞語指向窗口內(nèi)與第一個(gè)詞不同的其他詞性為名詞或形容詞的詞語,由此得到邊 集E,依次遍歷集合E中的每條邊,按以下方法對(duì)每條邊設(shè)置權(quán)重: 權(quán)重設(shè)置主要考慮四個(gè)因素:位置重要性的影響力、覆蓋重要性的影響力、頻度重要性 的影響力和共現(xiàn)重要性的影響力;對(duì)于任意兩個(gè)結(jié)點(diǎn)Vi和Vj,結(jié)點(diǎn)Vi對(duì) Vj的影響力通過其 有向邊e =< v" Vj >傳遞,邊的權(quán)重決定了 Vj最終所獲得Vi部分的分值大小,令wu表示結(jié)點(diǎn)\和\的整體影響力權(quán)重,a,0,Y,S分別表示這四類不同的影響力所占的 比重,且a+@ + Y + S = 1,則兩節(jié)點(diǎn)之間的權(quán)值Wii可以根據(jù)下式計(jì)算: Wij = a wpos (vj, Vj) + wcov (vj, Vj) + y wfreq (vj, Vj) + 8 wco_occur (vj, Vj) a)wP〇s(vi,vj)表示節(jié)點(diǎn) ' 的位置影響力傳遞到vj的權(quán)重,計(jì)算公式如下:
其中,OUt(Vi)表示以Vi為起點(diǎn)所指向的節(jié)點(diǎn)的集合,P(Vj)表示節(jié)點(diǎn)Vj的位置重要性 得分,具體賦值方式如下:
其中,入是一個(gè)比1大的數(shù)字,值為1. 5 ; tOWcoJv" Vj)表示節(jié)點(diǎn)Vi的覆蓋影響力傳遞到Vj的權(quán)重,計(jì)算公式如下:
其中,| Out (Vi) I表示節(jié)點(diǎn)Vi的出度; C) Wfreq (Vi,Vj)表示節(jié)點(diǎn)Vi的頻度影響力傳遞到Vj的權(quán)重,計(jì)算公式如下:
其中,Out(Vi)表示以ViS起點(diǎn)所指向的節(jié)點(diǎn)的集合,f(Vj)表示節(jié)點(diǎn)Vj所代表的詞語 在文章中出現(xiàn)的次數(shù); Vj)表示節(jié)點(diǎn)Vi的共現(xiàn)影響力傳遞到V」的權(quán)重,計(jì)算公式如下:
其中,Co (Vi,Vj)表示節(jié)點(diǎn)Vi,Vj所代表的詞語在一定窗口內(nèi)共現(xiàn)的次數(shù); 步驟三、圖模型建立完畢之后,利用textrank的思想對(duì)各節(jié)點(diǎn)進(jìn)行打分排序,用以下 公式迭代計(jì)算每一個(gè)節(jié)點(diǎn)在特定主題下的得分:
其中,W(Vj,Vi)即為步驟二中求得的節(jié)點(diǎn)Vj,Vi之間的權(quán)值Wji ;P(Zt|Vi)即為步驟一中 求得的p(zt|w) 為阻尼因子,值為〇. 75 ;j -\表示節(jié)點(diǎn)'在以節(jié)點(diǎn)Vi為終點(diǎn)的節(jié) 點(diǎn)集合內(nèi)遍歷;按以上公式迭代前設(shè)置所有節(jié)點(diǎn)得分初值KZt(Vi:)為1 ;當(dāng)連續(xù)兩次迭代, 所有節(jié)點(diǎn)得分誤差都在〇. 〇〇〇1范圍之內(nèi)時(shí),迭代終止,將此時(shí)的得分作為每一個(gè)節(jié)點(diǎn)在特 定主題下的得分。 步驟四、求得每一個(gè)節(jié)點(diǎn)在特定主題下的得分之后,按照下述公式計(jì)算每一個(gè)節(jié)點(diǎn)在 一篇文章下的最終得分R(Vi):
選取最終得分排名靠前的節(jié)點(diǎn),將節(jié)點(diǎn)所代表的候選關(guān)鍵詞與此節(jié)點(diǎn)的最終得分一塊 加入關(guān)鍵詞詞典KL,依此方法生成對(duì)應(yīng)于語料集合T中所有文章的最終的關(guān)鍵詞詞典KL。
4.根據(jù)權(quán)利要求1所述的一種基于詞匯語義和句法依存的中文情感關(guān)鍵句識(shí)別方法, 其特征在于,所述SVM分類器的訓(xùn)練特征包括情感詞特征、關(guān)鍵詞特征、依存模板特征和位 置特征四種,所述特征向量由這四種特征構(gòu)成的特征向量分量相連接得到,將特征向量與 對(duì)應(yīng)句子的類別置入SVM分類器完成SVM分類器的訓(xùn)練;情感詞特征、關(guān)鍵詞特征、依存模 板特征和位置特征對(duì)應(yīng)的特征向量分量的生成方法如下: 首先對(duì)訓(xùn)練用語料集進(jìn)行分詞、詞性標(biāo)注得到語料集合T,對(duì)T中的每一個(gè)句子按以下 方法提取各特征向量的分量: 情感詞特征的特征向量維度為9,第一維分量表示每個(gè)句子中出現(xiàn)在DEL中情感詞的 個(gè)數(shù),后八維分量分別表示這些情感詞在語料集合T中出現(xiàn)的概率;如果句子中出現(xiàn)在DEL 中情感詞的個(gè)數(shù)不足8個(gè),不足的部分其對(duì)應(yīng)的分量概率設(shè)置為0 ;如果句子中出現(xiàn)在DEL 中情感詞的個(gè)數(shù)多于8個(gè),按概率由大到小的順序取前8個(gè); 關(guān)鍵詞特征的特征向量維度為9,第一維分量表示每個(gè)句子中出現(xiàn)在KL中關(guān)鍵詞的個(gè) 數(shù),后八維分量分別表示這些關(guān)鍵詞在KL中對(duì)應(yīng)的得分;如果句子中出現(xiàn)在KL中關(guān)鍵詞的 個(gè)數(shù)不足8個(gè),不足的部分其對(duì)應(yīng)的分量概率設(shè)置為0 ;如果句子中出現(xiàn)在KL中關(guān)鍵詞的 個(gè)數(shù)多于8個(gè),按得分由大到小的順序取前8個(gè); 依存模板特征的特征向量維度為9,第一維分量表示從每個(gè)句子中提取的依存模板出 現(xiàn)在DB中的個(gè)數(shù),后八維分量分別表示這些依存模板在DB中對(duì)應(yīng)的出現(xiàn)概率;如果從每個(gè) 句子中提取的依存模板出現(xiàn)在DB中的個(gè)數(shù)不足8個(gè),不足的部分其對(duì)應(yīng)的分量的出現(xiàn)概率 設(shè)置為〇 ;如果從每個(gè)句子中提取的依存模板出現(xiàn)在DB中的個(gè)數(shù)多于8個(gè),按出現(xiàn)概率由 大到小順序取前8個(gè); 位置特征的特征向量維度為1,其值按下式計(jì)算: scoresen (pos (sen)) = a X pos (sen) 2+b X pos (sen) +c 其中,
i表示句子所在文章中的句子總數(shù),a > 0, b < 0, pos (sen)表示 句子在文章中的位置,sen表示句子序號(hào)。
5. 根據(jù)權(quán)利要求4所述的一種基于詞匯語義和句法依存的中文情感關(guān)鍵 句識(shí)別方法,其特征在于,b = -1。
6. 根據(jù)權(quán)利要求1所述的一種基于詞匯語義和句法依存的中文情感關(guān)鍵句識(shí)別方法, 其特征在于,依存知識(shí)庫的構(gòu)建方法包括以下步驟: 步驟一、使用哈工大LTP的依存句法分析模塊分析語料集S中的所有句子得到依存分 析結(jié)果D ; 步驟二、對(duì)依存分析結(jié)果D進(jìn)行分析,找到句子的中心詞,將之與在DEL或hownet提供 的情感分析用詞語集中的主張?jiān)~中出現(xiàn)的詞一起作為中心特征詞(CoreWord),以這些詞為 起點(diǎn),對(duì)附屬或依存于該詞的詞匯進(jìn)行關(guān)系提取,并統(tǒng)計(jì)它們相互之間的關(guān)系,根據(jù)統(tǒng)計(jì)數(shù) 據(jù)提取出符合要求的依存關(guān)系模板,形成最終的依存知識(shí)庫DB ;具體的依存關(guān)系模板提取 算法如下: 輸入:語料集S經(jīng)過分詞及詞性分析得到的語料集合T,依存分析結(jié)果D ; 輸出:依存知識(shí)庫DB ; 處理流程: Step 1 :遍歷語料集合T中每條情感關(guān)鍵句中的所有詞語,如果該詞語在上文構(gòu)建的 DEL或hownet提供的情感分析用詞語集中的主張?jiān)~中出現(xiàn),或者依存分析結(jié)果中relate = "HED",則把它作為CoreWord ; Step 2 :將與CoreWord有依存關(guān)系,parent等于CoreWord的id的詞語存入依存詞的 集合 dpWords ; Step 3 :遍歷dpWords中的每個(gè)詞與CoreWord的關(guān)系,如果其依存關(guān)系為C00,則將它 作為CoreWord重復(fù)Step2 ;如果其依存關(guān)系為WP,則將其從dpWords中刪除; Step 4 :將情感關(guān)鍵句中的所有包括CoreWorcUdpWords以及dpWords中的每一個(gè)詞與 其父節(jié)點(diǎn)CoreWord相互之間的依存關(guān)系存入情感關(guān)鍵句的模板集合中,并且不改變其出 現(xiàn)順序; Step 5 :從Step4中得出的模板集合中的模板按"一個(gè)前面的詞與中心詞的關(guān)系+中 心詞+-個(gè)后面的詞與中心詞的關(guān)系"、"一個(gè)前面的詞與中心詞的關(guān)系+中心詞"、"中心詞 + -個(gè)后面的詞與中心詞的關(guān)系"三種方式作為候選模板進(jìn)行提取,對(duì)于同一個(gè)中心詞取最 長(zhǎng)模板,并統(tǒng)計(jì)其在情感關(guān)鍵句、非情感關(guān)鍵句中出現(xiàn)的概率; Step 6:將由Step 5得到的候選模板集合中在情感關(guān)鍵句中出現(xiàn)的概率大于在非情 感關(guān)鍵句中出現(xiàn)概率的模板提取出來,與它在情感關(guān)鍵句中的出現(xiàn)概率一起加入依存關(guān)系 知識(shí)庫DB中,直至處理完語料集合T的所有語句。
【文檔編號(hào)】G06F17/30GK104281645SQ201410425148
【公開日】2015年1月14日 申請(qǐng)日期:2014年8月27日 優(yōu)先權(quán)日:2014年8月27日
【發(fā)明者】馮沖, 廖純, 劉至潤, 黃河燕 申請(qǐng)人:北京理工大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
安岳县| 宁化县| 蒲城县| 抚顺县| 高碑店市| 林甸县| 确山县| 张家港市| 台江县| 曲靖市| 思茅市| 陇南市| 翼城县| 嘉善县| 三门县| 怀宁县| 鲁山县| 尤溪县| 石嘴山市| 红原县| 忻州市| 恭城| 博罗县| 宜都市| 辽中县| 和硕县| 资兴市| 建平县| 辽宁省| 潮安县| 灵璧县| 衡阳县| 沧源| 鄂托克前旗| 墨江| 公安县| 越西县| 曲阳县| 团风县| 申扎县| 香河县|