一種基于詞匯語義和句法依存的情感關(guān)鍵句識(shí)別方法

文檔序號(hào)：6624778閱讀：255來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于詞匯語義和句法依存的情感關(guān)鍵句識(shí)別方法
【專利摘要】本發(fā)明涉及一種基于詞匯語義和句法依存的情感關(guān)鍵句識(shí)別方法，屬于自然語言處理應(yīng)用【技術(shù)領(lǐng)域】，包括以下步驟：首先對(duì)語料及其分詞結(jié)果進(jìn)行規(guī)范化處理；然后基于一定規(guī)則擴(kuò)展情感詞典、創(chuàng)建關(guān)鍵詞詞典和提取依存結(jié)構(gòu)模板，并通過擴(kuò)展后的情感詞典和關(guān)鍵詞詞典獲取候選情感關(guān)鍵句；最后設(shè)計(jì)一種位置打分函數(shù)，輔以情感詞特征、關(guān)鍵詞特征和依存模板特征，利用這四種特征訓(xùn)練SVM分類器，并以之完成情感關(guān)鍵句的最終識(shí)別。對(duì)比現(xiàn)有技術(shù)，通過采用規(guī)則與統(tǒng)計(jì)相結(jié)合的策略，能夠有效利用不同層級(jí)詞匯語義和句法依存信息進(jìn)行識(shí)別，使用戶能夠更快速而且準(zhǔn)確地找到語料中置信度較高的情感關(guān)鍵句，提高中文情感關(guān)鍵句的識(shí)別率。
【專利說明】一種基于詞匯語義和句法依存的情感關(guān)鍵句識(shí)別方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種情感關(guān)鍵句識(shí)別方法，特別涉及一種基于詞匯語義和句法依存的情感關(guān)鍵句識(shí)別方法，屬于自然語言處理應(yīng)用【技術(shù)領(lǐng)域】。

【背景技術(shù)】
[0002] 隨著我國互聯(lián)網(wǎng)事業(yè)的迅速發(fā)展，網(wǎng)絡(luò)作為一種新型媒體不但成為各種社會(huì)思潮、利益訴求和意識(shí)形態(tài)較量的場(chǎng)所，而且也成為民眾評(píng)議時(shí)政、談?wù)撌欠?、交流觀點(diǎn)的集散地。有關(guān)網(wǎng)絡(luò)輿情監(jiān)測(cè)和分析的研究由此引起研究人員的重視。抽取出一篇文章的情感關(guān)鍵句，對(duì)了解社會(huì)動(dòng)態(tài)和輿情狀況有著重要的作用。但在如今這個(gè)大數(shù)據(jù)時(shí)代，海量信息層出不窮，同時(shí)處理這么多信息無疑是件費(fèi)時(shí)費(fèi)力的事情。因此，我們需要一種情感關(guān)鍵句抽取技術(shù)來幫助我們自動(dòng)從海量信息中抽取出與主題相關(guān)的情感關(guān)鍵句，這是一項(xiàng)既有學(xué) 術(shù)意義又有實(shí)用意義的研究課題。
[0003] 情感關(guān)鍵句又叫主題情感句，情感關(guān)鍵句需要包含兩個(gè)要素：主題關(guān)鍵詞和情感關(guān)鍵詞。主題關(guān)鍵詞用來概括篇章的主題；情感關(guān)鍵詞用來概括情感傾向。目前，關(guān)于情感關(guān)鍵句抽取方面的研究并不多?？偟膩碚f，情感關(guān)鍵句抽取的研究尚不系統(tǒng)和成熟，目前還處于起步階段。而中文語言的靈活性及表達(dá)的多樣性，也使情感關(guān)鍵句抽取的研究相對(duì)更加困難。目前情感關(guān)鍵句抽取的方法大多是基于規(guī)則或基于統(tǒng)計(jì)的，鮮有兩者結(jié)合的方法。而且在抽取過程中只進(jìn)行了淺層語義分析，沒有挖掘句子的深層信息。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明的目的是為解決以往在情感關(guān)鍵句識(shí)別中不能有效利用詞匯語義和句法依存信息的問題，盡可能發(fā)揮不同層級(jí)的語義、句法信息特征，提出一種基于詞匯語義和句法依存的情感關(guān)鍵句識(shí)別方法。
[0005] 為實(shí)現(xiàn)上述目的，本發(fā)明所采用的技術(shù)方案如下：
[0006] 本發(fā)明技術(shù)方案的思想是首先對(duì)語料及其分詞結(jié)果進(jìn)行規(guī)范化處理，然后基于一定規(guī)則擴(kuò)展情感詞典、創(chuàng)建關(guān)鍵詞詞典和提取依存結(jié)構(gòu)模板，并通過擴(kuò)展后的情感詞典和關(guān)鍵詞詞典獲取候選情感關(guān)鍵句；最后設(shè)計(jì)一種位置打分函數(shù)，輔以情感詞特征、關(guān)鍵詞特征和依存特征，利用這四種特征構(gòu)造 SVM分類器，找到使性能達(dá)到最優(yōu)的特征形式完成情感關(guān)鍵句的識(shí)別。
[0007] 本發(fā)明的具體技術(shù)方案如下：
[0008] -種基于詞匯語義和句法依存的中文情感關(guān)鍵句識(shí)別方法，該方法包括以下步驟：
[0009] 步驟一、語料預(yù)處理：對(duì)語料集S的每一個(gè)句子進(jìn)行分詞、詞性標(biāo)注得到帶有詞性標(biāo)注的語料集合T;分詞以及詞性標(biāo)注可以手工進(jìn)行，也可以使用現(xiàn)有的工具，本發(fā)明使用中科院的分詞工具ICTCLAS對(duì)S自動(dòng)分詞以及詞性標(biāo)注；
[0010] 步驟二、情感詞典擴(kuò)建：通過分別計(jì)算基礎(chǔ)情感詞典與候選詞集合之間的點(diǎn)間互信息PMI，為每個(gè)基礎(chǔ)情感詞典中的詞語選取至多5個(gè)PMI最高的候選詞作為擴(kuò)展詞，加入基礎(chǔ)情感詞典，用這些詞加上其在語料集合中的出現(xiàn)概率生成最終的領(lǐng)域相關(guān)的情感詞典 DEL ；
[0011] 步驟三、關(guān)鍵詞詞典構(gòu)建：對(duì)于語料集S中的每一篇文章，通過LDA與textrank相結(jié)合的方法，同時(shí)采用一種全新的加權(quán)方法PCF0為該文章在各主題建立對(duì)應(yīng)的圖模型，最后利用textrank為圖中每個(gè)節(jié)點(diǎn)，即詞語打分，選擇得分較高的詞語作為本篇文章的關(guān)鍵詞，加入關(guān)鍵詞詞典KL;
[0012] 步驟四、依存知識(shí)庫構(gòu)建：對(duì)語料集S中的每一個(gè)句子進(jìn)行依存分析，然后通過依存模板提取算法獲取依存模板，加入依存知識(shí)庫DB ;
[0013] 步驟五、候選情感關(guān)鍵句生成：分別將語料集T中的每一個(gè)句子與上文已經(jīng)構(gòu)建好的領(lǐng)域相關(guān)的情感詞典DEL和關(guān)鍵詞詞典KL進(jìn)行匹配，選擇既含有情感詞又含有關(guān)鍵詞的句子作為候選情感關(guān)鍵句，記候選情感關(guān)鍵句的集合為A ;
[0014] 步驟六、SVM分類：將集合A置于經(jīng)過訓(xùn)練的SVM分類器中進(jìn)行分類，得到情感關(guān)鍵句集合Y和非情感關(guān)鍵句集合N，SVM分類器的訓(xùn)練特征為：情感詞特征（emotional feature)，關(guān)鍵詞特征（key-word feature)，依存模板特征（dependency feature)和位置特征（position feature)這四種；
[0015] 步驟七、識(shí)別完成：輸出識(shí)別結(jié)果Y。
[0016] 有益效果
[0017] 本發(fā)明對(duì)比現(xiàn)有技術(shù)，通過采用規(guī)則與統(tǒng)計(jì)相結(jié)合的策略，先通過DEL和KL篩選出候選情感關(guān)鍵句，然后再利用SVM分類器進(jìn)行分類，這樣就彌補(bǔ)了基于概率統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法導(dǎo)致的錯(cuò)判，兩種方法相互補(bǔ)充，能夠有效利用不同層級(jí)詞匯語義和句法依存信息進(jìn)行識(shí)別，使用戶能夠更快速而且準(zhǔn)確地找到語料中置信度較高的情感關(guān)鍵句，提高中文情感關(guān)鍵句的識(shí)別率。

【專利附圖】

【附圖說明】
[0018] 圖1為本發(fā)明方法的處理流程圖。

【具體實(shí)施方式】
[0019] 在介紹實(shí)施例以前，先做如下定義：
[0020] 情感關(guān)鍵句是指一篇文章中既能表現(xiàn)文章主題又能表現(xiàn)情感傾向的句子，需要包含兩個(gè)要素：主題關(guān)鍵詞和情感關(guān)鍵詞。主題關(guān)鍵詞用來彰顯篇章主題；情感關(guān)鍵詞用來表明情感傾向。
[0021] 下面結(jié)合實(shí)施例對(duì)本發(fā)明做進(jìn)一步說明。
[0022] 本實(shí)施例首先介紹情感詞典的擴(kuò)展方法，關(guān)鍵詞詞典的構(gòu)建方法，依存知識(shí)庫的形成方法以及SVM分類器的特征選擇方法，最后介紹中文情感關(guān)鍵句的識(shí)別方法。
[0023] 本實(shí)施例選取第六屆中文傾向性分析評(píng)測(cè)（The Sixth Chinese Opinion Analysis Evaluation，簡(jiǎn)稱C0AE2014)任務(wù)一：面向新聞的情感關(guān)鍵句抽取與判定提供的數(shù)據(jù)集作為實(shí)驗(yàn)語料集，用于情感詞典的擴(kuò)展，關(guān)鍵詞詞典的構(gòu)建，依存知識(shí)庫的形成以及 SVM分類器的訓(xùn)練。該語料集含有多篇文章，每篇文章由多個(gè)句子組成，每個(gè)句子含有類別標(biāo)注（Y :表不是情感關(guān)鍵句/N :表不不是情感關(guān)鍵句）。
[0024] 以下文檔為語料集S中的一篇文章：
[0025]

【權(quán)利要求】
1. 一種基于詞匯語義和句法依存的中文情感關(guān)鍵句識(shí)別方法，其特征在于，包括以下步驟：步驟一、語料預(yù)處理：對(duì)待識(shí)別的語料集的每一個(gè)句子進(jìn)行分詞、詞性標(biāo)注得到帶有詞性標(biāo)注的語料集合T ; 步驟二、候選情感關(guān)鍵句生成：分別將T中的每一個(gè)句子與領(lǐng)域相關(guān)的情感詞典DEL和關(guān)鍵詞詞典KL進(jìn)行匹配，選擇既含有情感詞又含有關(guān)鍵詞的句子作為候選情感關(guān)鍵句，記候選情感關(guān)鍵句的集合為A ; 步驟三、SVM分類器分類：從情感詞特征、關(guān)鍵詞特征、依存模板特征和位置特征四個(gè) 方面對(duì)集合A的每個(gè)句子提取特征向量，并將特征向量置于經(jīng)過訓(xùn)練的SVM分類器中進(jìn)行分類，得到情感關(guān)鍵句集合Y和非情感關(guān)鍵句集合N ; 步驟四、識(shí)別完成：輸出識(shí)別結(jié)果Y。
2. 根據(jù)權(quán)利要求1所述的一種基于詞匯語義和句法依存的中文情感關(guān)鍵句識(shí)別方法，其特征在于，領(lǐng)域相關(guān)的情感詞典DEL構(gòu)建方法包括以下步驟：步驟一、采用知網(wǎng)（Hownet)提供的情感分析用詞語集中的正面情感詞語、負(fù)面情感詞語、正面評(píng)價(jià)詞語、負(fù)面評(píng)價(jià)詞語加上由臺(tái)灣大學(xué)整理和發(fā)布的簡(jiǎn)體中文的NTUSD構(gòu)成基礎(chǔ)情感詞典（Basic Emotion Lexicon); 步驟二、對(duì)語料集S中的所有句子進(jìn)行分詞、詞性標(biāo)注后得到語料集合T，按詞性篩選出名詞、動(dòng)詞和形容詞作為候選詞；步驟三、分別計(jì)算上文構(gòu)建的Basic Emotion Lexicon中每個(gè)詞與這些候選詞之間的點(diǎn)間互信息，關(guān)于兩個(gè)詞語^和《2之間的點(diǎn)間互信息PMI(Wl，w2)的計(jì)算公式如下（計(jì)算過程中過濾掉P (Wi&W2)，P (W)，P (w2)為零的情況
）：其中P^&wJ表示…和％在同一個(gè)句子中共同出現(xiàn)的概率，P(Wi)和P(w2)分別表示兩個(gè)詞語單獨(dú)出現(xiàn)的概率；P(Wl&w2)、P(Wl)和p(w 2)都可以通過對(duì)語料集合T的統(tǒng)計(jì)得到，其計(jì)算公式如下： P (Wi&wJ = numsen /N P(w!) = nurnsen (wj)/N P (w2) = numsen (w2) /N 其中，numjwi&wj表示集合中即出現(xiàn)&又出現(xiàn)w2的句子數(shù)，numjwi)表示出現(xiàn)&的句子數(shù)，numS6n(w2)表示出現(xiàn)w2的句子數(shù)，N表示語料集合T的全部句子數(shù)；步驟四、對(duì)于Basic Emotion Lexicon中的每個(gè)詞，選取至多前5個(gè)與之點(diǎn)間互信息最高的候選詞作為擴(kuò)展詞，與其在語料集合T中的出現(xiàn)頻率一起加入Basic Emotion Lexicon,并對(duì)Basic Emotion Lexicon中的每個(gè)情感詞也分別計(jì)算其在語料集合T中的出現(xiàn)概率，生成最終的領(lǐng)域相關(guān)的情感詞典DEL。
3. 根據(jù)權(quán)利要求1所述的一種基于詞匯語義和句法依存的中文情感關(guān)鍵句識(shí)別方法，其特征在于，關(guān)鍵詞詞典的構(gòu)建方法包括以下步驟：步驟一、對(duì)語料集S中的所有句子進(jìn)行分詞、詞性標(biāo)注后得到語料集合T，設(shè)置語料集合T的主題個(gè)數(shù)為n，某個(gè)主題用Zt表示，其中t為1到n之間的自然數(shù)，通過LDA模型求出文檔-主題分布P(Zt|d)和主題-詞分布P(w|Zt);計(jì)算隨機(jī)跳轉(zhuǎn)概率P(Z t|w)，計(jì)算公式如下：
其中，m表示語料集合T中的文檔個(gè)數(shù)，w表示一個(gè)詞，屯表示語料集合T的第i篇文章，i G {1，2,3......whPWi)表示文章屯在語料集合T中的出現(xiàn)概率；步驟二、對(duì)語料集合T中的每一篇文章按詞性選擇名詞和形容詞作為候選關(guān)鍵詞，并以這些詞為節(jié)點(diǎn)，分別在每一個(gè)主題下構(gòu)建圖模型：圖G= (V，E)，節(jié)點(diǎn)集合V= {Vl，v2， V3......Vk},連接從節(jié)點(diǎn)Vi到節(jié)點(diǎn)Vj的邊得到邊集（Vi, Vi) G E,其中k表示候選關(guān)鍵詞的個(gè)數(shù)，i, j G {1,2,3......，k}，i 關(guān) j ; 確定兩個(gè)節(jié)點(diǎn)之間是否存在邊以及邊的方向的方法如下：在原文中設(shè)置一個(gè)大小為window的滑動(dòng)窗口，分別按照順序從第一個(gè)詞性為名詞或形容詞的詞語指向窗口內(nèi)與第一個(gè)詞不同的其他詞性為名詞或形容詞的詞語，由此得到邊集E，依次遍歷集合E中的每條邊，按以下方法對(duì)每條邊設(shè)置權(quán)重：權(quán)重設(shè)置主要考慮四個(gè)因素：位置重要性的影響力、覆蓋重要性的影響力、頻度重要性的影響力和共現(xiàn)重要性的影響力；對(duì)于任意兩個(gè)結(jié)點(diǎn)Vi和Vj，結(jié)點(diǎn)Vi對(duì) Vj的影響力通過其有向邊e =< v" Vj >傳遞，邊的權(quán)重決定了 Vj最終所獲得Vi部分的分值大小，令wu表示結(jié)點(diǎn)\和\的整體影響力權(quán)重，a，0，Y，S分別表示這四類不同的影響力所占的比重，且a+@ + Y + S = 1，則兩節(jié)點(diǎn)之間的權(quán)值Wii可以根據(jù)下式計(jì)算： Wij = a wpos (vj, Vj) + wcov (vj, Vj) + y wfreq (vj, Vj) + 8 wco_occur (vj, Vj) a)wP〇s(vi，vj)表示節(jié)點(diǎn) ' 的位置影響力傳遞到vj的權(quán)重，計(jì)算公式如下：
其中，OUt(Vi)表示以Vi為起點(diǎn)所指向的節(jié)點(diǎn)的集合,P(Vj)表示節(jié)點(diǎn)Vj的位置重要性得分，具體賦值方式如下：
其中，入是一個(gè)比1大的數(shù)字，值為1. 5 ; tOWcoJv" Vj)表示節(jié)點(diǎn)Vi的覆蓋影響力傳遞到Vj的權(quán)重，計(jì)算公式如下：
其中，| Out (Vi) I表示節(jié)點(diǎn)Vi的出度； C) Wfreq (Vi，Vj)表示節(jié)點(diǎn)Vi的頻度影響力傳遞到Vj的權(quán)重，計(jì)算公式如下：
其中，Out(Vi)表示以ViS起點(diǎn)所指向的節(jié)點(diǎn)的集合，f(Vj)表示節(jié)點(diǎn)Vj所代表的詞語在文章中出現(xiàn)的次數(shù)； Vj)表示節(jié)點(diǎn)Vi的共現(xiàn)影響力傳遞到V」的權(quán)重，計(jì)算公式如下：
其中，Co (Vi，Vj)表示節(jié)點(diǎn)Vi，Vj所代表的詞語在一定窗口內(nèi)共現(xiàn)的次數(shù)；步驟三、圖模型建立完畢之后，利用textrank的思想對(duì)各節(jié)點(diǎn)進(jìn)行打分排序，用以下公式迭代計(jì)算每一個(gè)節(jié)點(diǎn)在特定主題下的得分：
其中，W(Vj，Vi)即為步驟二中求得的節(jié)點(diǎn)Vj，Vi之間的權(quán)值Wji ;P(Zt|Vi)即為步驟一中求得的p(zt|w) 為阻尼因子，值為〇. 75 ;j -\表示節(jié)點(diǎn)'在以節(jié)點(diǎn)Vi為終點(diǎn)的節(jié) 點(diǎn)集合內(nèi)遍歷；按以上公式迭代前設(shè)置所有節(jié)點(diǎn)得分初值KZt(Vi：)為1 ;當(dāng)連續(xù)兩次迭代，所有節(jié)點(diǎn)得分誤差都在〇. 〇〇〇1范圍之內(nèi)時(shí)，迭代終止，將此時(shí)的得分作為每一個(gè)節(jié)點(diǎn)在特定主題下的得分。步驟四、求得每一個(gè)節(jié)點(diǎn)在特定主題下的得分之后，按照下述公式計(jì)算每一個(gè)節(jié)點(diǎn)在一篇文章下的最終得分R(Vi):
選取最終得分排名靠前的節(jié)點(diǎn)，將節(jié)點(diǎn)所代表的候選關(guān)鍵詞與此節(jié)點(diǎn)的最終得分一塊加入關(guān)鍵詞詞典KL，依此方法生成對(duì)應(yīng)于語料集合T中所有文章的最終的關(guān)鍵詞詞典KL。
4.根據(jù)權(quán)利要求1所述的一種基于詞匯語義和句法依存的中文情感關(guān)鍵句識(shí)別方法，其特征在于，所述SVM分類器的訓(xùn)練特征包括情感詞特征、關(guān)鍵詞特征、依存模板特征和位置特征四種，所述特征向量由這四種特征構(gòu)成的特征向量分量相連接得到，將特征向量與對(duì)應(yīng)句子的類別置入SVM分類器完成SVM分類器的訓(xùn)練；情感詞特征、關(guān)鍵詞特征、依存模板特征和位置特征對(duì)應(yīng)的特征向量分量的生成方法如下：首先對(duì)訓(xùn)練用語料集進(jìn)行分詞、詞性標(biāo)注得到語料集合T，對(duì)T中的每一個(gè)句子按以下方法提取各特征向量的分量：情感詞特征的特征向量維度為9,第一維分量表示每個(gè)句子中出現(xiàn)在DEL中情感詞的個(gè)數(shù)，后八維分量分別表示這些情感詞在語料集合T中出現(xiàn)的概率；如果句子中出現(xiàn)在DEL 中情感詞的個(gè)數(shù)不足8個(gè)，不足的部分其對(duì)應(yīng)的分量概率設(shè)置為0 ;如果句子中出現(xiàn)在DEL 中情感詞的個(gè)數(shù)多于8個(gè)，按概率由大到小的順序取前8個(gè)；關(guān)鍵詞特征的特征向量維度為9,第一維分量表示每個(gè)句子中出現(xiàn)在KL中關(guān)鍵詞的個(gè) 數(shù)，后八維分量分別表示這些關(guān)鍵詞在KL中對(duì)應(yīng)的得分；如果句子中出現(xiàn)在KL中關(guān)鍵詞的個(gè)數(shù)不足8個(gè)，不足的部分其對(duì)應(yīng)的分量概率設(shè)置為0 ;如果句子中出現(xiàn)在KL中關(guān)鍵詞的個(gè)數(shù)多于8個(gè)，按得分由大到小的順序取前8個(gè)；依存模板特征的特征向量維度為9,第一維分量表示從每個(gè)句子中提取的依存模板出現(xiàn)在DB中的個(gè)數(shù)，后八維分量分別表示這些依存模板在DB中對(duì)應(yīng)的出現(xiàn)概率；如果從每個(gè) 句子中提取的依存模板出現(xiàn)在DB中的個(gè)數(shù)不足8個(gè)，不足的部分其對(duì)應(yīng)的分量的出現(xiàn)概率設(shè)置為〇 ;如果從每個(gè)句子中提取的依存模板出現(xiàn)在DB中的個(gè)數(shù)多于8個(gè)，按出現(xiàn)概率由大到小順序取前8個(gè)；位置特征的特征向量維度為1，其值按下式計(jì)算： scoresen (pos (sen)) = a X pos (sen) 2+b X pos (sen) +c 其中，
i表示句子所在文章中的句子總數(shù)，a > 0, b < 0, pos (sen)表示句子在文章中的位置，sen表示句子序號(hào)。
5. 根據(jù)權(quán)利要求4所述的一種基于詞匯語義和句法依存的中文情感關(guān)鍵句識(shí)別方法，其特征在于，b = -1。
6. 根據(jù)權(quán)利要求1所述的一種基于詞匯語義和句法依存的中文情感關(guān)鍵句識(shí)別方法，其特征在于，依存知識(shí)庫的構(gòu)建方法包括以下步驟：步驟一、使用哈工大LTP的依存句法分析模塊分析語料集S中的所有句子得到依存分析結(jié)果D ; 步驟二、對(duì)依存分析結(jié)果D進(jìn)行分析，找到句子的中心詞，將之與在DEL或hownet提供的情感分析用詞語集中的主張?jiān)~中出現(xiàn)的詞一起作為中心特征詞（CoreWord)，以這些詞為起點(diǎn)，對(duì)附屬或依存于該詞的詞匯進(jìn)行關(guān)系提取，并統(tǒng)計(jì)它們相互之間的關(guān)系，根據(jù)統(tǒng)計(jì)數(shù) 據(jù)提取出符合要求的依存關(guān)系模板，形成最終的依存知識(shí)庫DB ;具體的依存關(guān)系模板提取算法如下：輸入：語料集S經(jīng)過分詞及詞性分析得到的語料集合T，依存分析結(jié)果D ; 輸出：依存知識(shí)庫DB ; 處理流程： Step 1 :遍歷語料集合T中每條情感關(guān)鍵句中的所有詞語，如果該詞語在上文構(gòu)建的 DEL或hownet提供的情感分析用詞語集中的主張?jiān)~中出現(xiàn)，或者依存分析結(jié)果中relate = "HED"，則把它作為CoreWord ; Step 2 :將與CoreWord有依存關(guān)系，parent等于CoreWord的id的詞語存入依存詞的集合 dpWords ; Step 3 :遍歷dpWords中的每個(gè)詞與CoreWord的關(guān)系，如果其依存關(guān)系為C00,則將它作為CoreWord重復(fù)Step2 ;如果其依存關(guān)系為WP，則將其從dpWords中刪除； Step 4 :將情感關(guān)鍵句中的所有包括CoreWorcUdpWords以及dpWords中的每一個(gè)詞與其父節(jié)點(diǎn)CoreWord相互之間的依存關(guān)系存入情感關(guān)鍵句的模板集合中，并且不改變其出現(xiàn)順序； Step 5 :從Step4中得出的模板集合中的模板按"一個(gè)前面的詞與中心詞的關(guān)系+中心詞+-個(gè)后面的詞與中心詞的關(guān)系"、"一個(gè)前面的詞與中心詞的關(guān)系+中心詞"、"中心詞 + -個(gè)后面的詞與中心詞的關(guān)系"三種方式作為候選模板進(jìn)行提取，對(duì)于同一個(gè)中心詞取最長(zhǎng)模板，并統(tǒng)計(jì)其在情感關(guān)鍵句、非情感關(guān)鍵句中出現(xiàn)的概率； Step 6:將由Step 5得到的候選模板集合中在情感關(guān)鍵句中出現(xiàn)的概率大于在非情感關(guān)鍵句中出現(xiàn)概率的模板提取出來，與它在情感關(guān)鍵句中的出現(xiàn)概率一起加入依存關(guān)系知識(shí)庫DB中，直至處理完語料集合T的所有語句。
【文檔編號(hào)】G06F17/30GK104281645SQ201410425148
【公開日】2015年1月14日申請(qǐng)日期:2014年8月27日優(yōu)先權(quán)日:2014年8月27日
【發(fā)明者】馮沖, 廖純, 劉至潤, 黃河燕申請(qǐng)人:北京理工大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：馮沖;廖純;劉至潤;黃河燕
技術(shù)所有人：北京理工大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于詞匯語義和句法依存的情感關(guān)鍵句識(shí)別方法