两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

Web主題傾向性挖掘與決策支持的方法

文檔序號(hào):6399713閱讀:196來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):Web主題傾向性挖掘與決策支持的方法
技術(shù)領(lǐng)域
本發(fā)明涉及Web數(shù)據(jù)的主題傾向性挖掘和決策支持的方法,尤其是針對(duì)海量Web數(shù)據(jù)的主題情感傾向性分析及決策支持。
背景技術(shù)
全球金融危機(jī)給許多傳統(tǒng)產(chǎn)業(yè)帶來(lái)了深度影響,使產(chǎn)業(yè)人士和投資者更加認(rèn)識(shí)到可信賴(lài)商業(yè)資訊及其獲取技術(shù)的重要性。對(duì)于企業(yè)來(lái)說(shuō),這些技術(shù)能輔助他們迅速有效地形成商業(yè)決策,有效地對(duì)風(fēng)險(xiǎn)進(jìn)行管理和控制,提高他們的商業(yè)競(jìng)爭(zhēng)力并最終令他們?cè)谑袌?chǎng)競(jìng)爭(zhēng)中獲勝。基于上述共識(shí),產(chǎn)業(yè)界對(duì)網(wǎng)絡(luò)信息挖掘和智能決策服務(wù)的需求變得日益迫切。網(wǎng)絡(luò)信息挖掘和智能決策服務(wù)涉及信息獲取技術(shù)、文本分類(lèi)技術(shù)、文本聚類(lèi)技術(shù)、主題識(shí)別與跟蹤技術(shù)以及文本傾向性分析等。這些技術(shù)一向是國(guó)內(nèi)外資訊工作者關(guān)注的領(lǐng)域。文本檢索會(huì)議(TREC)、情報(bào)檢索專(zhuān)業(yè)組會(huì)議(SIGIR)、文本檢測(cè)與跟蹤會(huì)議(TDT)等都是展示此類(lèi)技術(shù)最新研究成果的最主要的國(guó)際會(huì)議和論壇。當(dāng)前研究者提出了不少網(wǎng)絡(luò)文本傾向性分析算法,主要集中在句子級(jí)和篇章級(jí)的文本傾向性分析上。目前的研究工作可分為兩種研究思路:基于情感知識(shí)的方法以及基于特征分類(lèi)的方法。前者主要是依靠一些已有的情感詞典或領(lǐng)域詞典,以及主觀文本中帶有情感極性的組合評(píng)價(jià)單元進(jìn)行計(jì)算,來(lái)獲取主觀文本的極性。后者主要是使用機(jī)器學(xué)習(xí)的方法,選取大量的有意義的特征來(lái)完成分類(lèi)任務(wù)。這兩種研究思路有很多代表性的研究工作。在基于特征分類(lèi)的方法中,Pang首次將機(jī)器學(xué)習(xí)的方法應(yīng)用于篇章級(jí)的情感分類(lèi)任務(wù)中。他們嘗試使用了 n-gram詞語(yǔ)特征和詞性特征,并對(duì)比了 Navie Bayes> Max Entropy和Support Vector Machine (SVM)三種分類(lèi)模型,發(fā)現(xiàn)unigram特征效果最好。然而,Cui通過(guò)實(shí)驗(yàn)證明,當(dāng)訓(xùn)練語(yǔ)料較少的時(shí)候,unigram的效果較優(yōu),但隨著訓(xùn)練語(yǔ)料的增多,n-gram(n>3)發(fā)揮了越來(lái)越重要的作用。Kim除了考察傳統(tǒng)的n-gram模型外,還引入了位置特征和評(píng)價(jià)詞特征來(lái)完成句子級(jí)的褒貶分類(lèi)。Zhao則將句子級(jí)情感分類(lèi)任務(wù)提煉為一個(gè)三層分類(lèi)任務(wù),利用各層之間類(lèi)別標(biāo)簽的相互作用,并考慮上下句之間情感的互相影響,使用Conditional Random Field (CRF)模型將這些特征進(jìn)行融合。類(lèi)似于主客觀信息分類(lèi)任務(wù),基于特征的方法的研究重點(diǎn)在于有效特征的發(fā)現(xiàn),以及特征選擇和特征融合等問(wèn)題的研究。除了對(duì)主觀文本信息的褒貶二元分類(lèi)之外,還有一些研究工作進(jìn)行更細(xì)致的情感分類(lèi)任務(wù)。Pang將褒貶等級(jí)分為三類(lèi),并使用了 one-vs-all多元分類(lèi)算法和回歸分類(lèi)算法完成情感分類(lèi)。Goldberg則使用了一種基于圖的半指導(dǎo)的分類(lèi)算法,完成評(píng)論的褒貶包括四個(gè)等級(jí)的分類(lèi)。綜上所述,目前針對(duì)互聯(lián)網(wǎng)上企業(yè)熱點(diǎn)話(huà)題的傾向性情感分析和挖掘的方法還很少,距離即時(shí)商業(yè)智慧尚有距離。因此,有必要提供一種Web主題傾向性情感分析挖掘和決策支持的方法與系統(tǒng),以彌補(bǔ)現(xiàn)有技術(shù)的不足。主題檢測(cè)與跟蹤可自動(dòng)從Web數(shù)據(jù)流中自動(dòng)發(fā)現(xiàn)主題并把主題相關(guān)的內(nèi)容聯(lián)系在一起,對(duì)企業(yè)相關(guān)的Web主題進(jìn)行傾向性情感分析和挖掘,實(shí)現(xiàn)即時(shí)商業(yè)智慧,能更好地為企業(yè)提供決策支持服務(wù)。

發(fā)明內(nèi)容
基于此,針對(duì)上述現(xiàn)有技術(shù)中存在的問(wèn)題,本發(fā)明的目的在于提供一種Web主題傾向性挖掘與決策支持的方法,旨在針對(duì)互聯(lián)網(wǎng)上企業(yè)熱點(diǎn)話(huà)題的傾向性情感分析和挖掘,為企業(yè)的決策提供參考與支持。為達(dá)到上述目的,本發(fā)明技術(shù)方案為:
一種Web主題傾向性挖掘與決策支持的方法,包括步驟:
51.網(wǎng)絡(luò)信息抽取與儲(chǔ)存,通過(guò)網(wǎng)絡(luò)挖掘技術(shù),在互聯(lián)網(wǎng)上獲取信息,并將結(jié)果存入數(shù)據(jù)庫(kù)和本地文件系統(tǒng);
52.信息的觀點(diǎn)主題檢測(cè)與跟蹤,利用專(zhuān)題評(píng)論數(shù)據(jù),檢測(cè)識(shí)別出感興趣的具有完整語(yǔ)義信息的觀點(diǎn)主題,并持續(xù)跟蹤和關(guān)注該觀點(diǎn)主題;
53.觀點(diǎn)主題情感傾向性識(shí)別,對(duì)企業(yè)的熱點(diǎn)話(huà)題進(jìn)行話(huà)題情感傾向性分類(lèi),挖掘出觀點(diǎn)主題的情感傾向性。進(jìn)一步地,所述步驟SI還包括:
Sll.自然語(yǔ)言處理對(duì)原始網(wǎng)絡(luò)信息進(jìn)行預(yù)處理,包括:中文分詞、詞性標(biāo)注、停用詞處理,命名實(shí)體識(shí)別。進(jìn)一步地,所述步驟S2中網(wǎng)絡(luò)資訊的觀點(diǎn)主題檢測(cè)與跟蹤的過(guò)程具體包括:
521.從網(wǎng)絡(luò)上采集到的信息,經(jīng)過(guò)基于模板的信息分類(lèi),過(guò)濾噪聲信息;
522.將過(guò)濾后的相關(guān)信息,采用基于時(shí)間函數(shù)的增量聚類(lèi)方法,實(shí)現(xiàn)子話(huà)題的檢測(cè),并將結(jié)果存儲(chǔ)到數(shù)據(jù)庫(kù)子話(huà)題表中;
523.根據(jù)子話(huà)題的結(jié)果,提取出子話(huà)題的摘要和關(guān)鍵詞,并修改子話(huà)題表相關(guān)信息;
524.在根據(jù)子話(huà)題的信息,再次根據(jù)間窗口相似度比較的增量聚類(lèi)方法,進(jìn)行話(huà)題檢測(cè),并提取關(guān)鍵詞,得到話(huà)題信息存入數(shù)據(jù)庫(kù);
525.根據(jù)話(huà)題中信息的時(shí)間和話(huà)題中信息的數(shù)量,發(fā)現(xiàn)熱點(diǎn)話(huà)題,并呈現(xiàn)給用戶(hù)。進(jìn)一步地,所述步驟S22中子話(huà)題的檢測(cè)的過(guò)程具體包括:
5221.順序處理信息中的每篇文檔;
5222.利用層次聚類(lèi)方法對(duì)未處理過(guò)的文檔進(jìn)行聚類(lèi);
5223.若不存在歷史聚類(lèi),則根據(jù)當(dāng)前聚類(lèi)結(jié)果,存儲(chǔ)子話(huà)題;
5224.若存在歷史聚類(lèi),則對(duì)歷史子話(huà)題和新聚類(lèi)出的子話(huà)題,再次進(jìn)行層次聚類(lèi);
5225.將新產(chǎn)生的子話(huà)題存入數(shù)據(jù)庫(kù);
5226.更新子話(huà)題與文檔的關(guān)系;
5227.計(jì)算新產(chǎn)生和更新過(guò)的子話(huà)題的關(guān)鍵詞、多文檔摘要等信息存入數(shù)據(jù)庫(kù)。進(jìn)一步地,所述步驟S24中話(huà)題的檢測(cè)的過(guò)程具體包括:
5241.順序處理每個(gè)子話(huà)題;
5242.第一個(gè)子話(huà)題的向量自動(dòng)成為第一個(gè)聚類(lèi)的聚類(lèi)中心;
5243.如果相似度大于某個(gè)閾值,則該子話(huà)題被分配給這個(gè)聚類(lèi);
5244.當(dāng)一篇子話(huà)題分配給某個(gè)聚類(lèi)的時(shí)候,重新計(jì)算這個(gè)聚類(lèi)的聚類(lèi)中心;
5245.若某子話(huà)題沒(méi)有分配給任何的聚類(lèi),則該子話(huà)題成為一個(gè)新的聚類(lèi),同時(shí)也是這個(gè)聚類(lèi)的聚類(lèi)中心; 5246.將新產(chǎn)生的話(huà)題,添加到數(shù)據(jù)庫(kù);
5247.更新話(huà)題的信息。進(jìn)一步地,所述步驟S3中網(wǎng)絡(luò)主題情感傾向性識(shí)別的過(guò)程具體包括:
531.訓(xùn)練話(huà)題情感分類(lèi)模型,讀取標(biāo)注好的話(huà)題語(yǔ)料和情感詞典,利用SVM分類(lèi)算法,通過(guò)訓(xùn)練得到話(huà)題情感分類(lèi)模型;
532.子話(huà)題情感分類(lèi),對(duì)子話(huà)題抽取情感特征,利用話(huà)題情感分類(lèi)模型及SVM分類(lèi)算法獲取子話(huà)題分類(lèi)結(jié)果;
533.話(huà)題情感分類(lèi),利用子話(huà)題情感分類(lèi)的結(jié)果,構(gòu)建基于子話(huà)題的圖模型,根據(jù)圖模型輸出話(huà)題情感分類(lèi)結(jié)果;
進(jìn)一步地,所述步驟S31中訓(xùn)練話(huà)題情感分類(lèi)模型的過(guò)程具體包括:
5311.讀入標(biāo)注好的話(huà)題情感分類(lèi)語(yǔ)料;
5312.通過(guò)自然語(yǔ)言處理,得到經(jīng)中文分詞和詞性標(biāo)注好的語(yǔ)料;
5313.根據(jù)情感詞典和語(yǔ)法模式庫(kù),從語(yǔ)料中抽取情感特征,構(gòu)造話(huà)題分類(lèi)訓(xùn)練數(shù)據(jù)
集;
5314.分類(lèi)器讀取訓(xùn)練數(shù)據(jù)集,利用SVM分類(lèi)算法,通過(guò)訓(xùn)練得到話(huà)題情感分類(lèi)模型。進(jìn)一步地,所述步驟S32中子話(huà)題情感分類(lèi)的過(guò)程具體包括:
5321.讀入待分類(lèi)的子話(huà)題;
5322.通過(guò)自然語(yǔ)言處理,得到經(jīng)中文分詞和詞性標(biāo)注好的子話(huà)題;
5323.根據(jù)情感詞典和語(yǔ)法模式庫(kù),從子話(huà)題中抽取情感特征,構(gòu)造測(cè)試數(shù)據(jù)集;
5324.分類(lèi)器讀取測(cè)試數(shù)據(jù)和之前訓(xùn)練好的話(huà)題情感分類(lèi)模型,利用SVM分類(lèi)算法,輸出子話(huà)題情感分類(lèi)結(jié)果。進(jìn)一步地,所述步驟S33中話(huà)題情感分類(lèi)的過(guò)程具體包括:
5331.讀入待分類(lèi)話(huà)題;
5332.對(duì)待分類(lèi)話(huà)題進(jìn)行解析,得到子話(huà)題集;
5333.調(diào)用子話(huà)題情感分類(lèi)器,對(duì)每個(gè)子話(huà)題進(jìn)行分類(lèi),得到子話(huà)題情感分類(lèi)結(jié)果;
5334.根據(jù)子話(huà)題之間的相似度,構(gòu)建LexRank圖模型,利用所構(gòu)建的圖模型,計(jì)算子話(huà)題的重要性和冗余度,最終輸出話(huà)題情感分類(lèi)結(jié)果。與現(xiàn)有技術(shù)相比,本發(fā)明具有如下有益效果:本發(fā)明通過(guò)網(wǎng)絡(luò)挖掘和信息抽取技術(shù)從互聯(lián)網(wǎng)中獲取相關(guān)商業(yè)資訊,對(duì)商業(yè)資訊進(jìn)行分析,發(fā)現(xiàn)新的話(huà)題,并持續(xù)跟蹤和關(guān)注該話(huà)題,通過(guò)對(duì)話(huà)題的得到話(huà)題的情感傾向性及情感趨勢(shì)。本發(fā)明能快速有效地從海量網(wǎng)絡(luò)資訊中挖掘企業(yè)相關(guān)的主題傾向性走勢(shì),實(shí)現(xiàn)即時(shí)商業(yè)智慧,能更好地為企業(yè)提供決策支持服務(wù)。


圖1是本發(fā)明的實(shí)施例一流程示意圖。圖2是本發(fā)明的實(shí)施例二流程示意圖。
具體實(shí)施例方式下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明。
實(shí)施例一
圖1中示出了本發(fā)明實(shí)施例一的流程示意圖。如圖1所示,在該實(shí)施例中,一種Web主題傾向性挖掘與決策支持的方法,包括步驟:
5101.網(wǎng)絡(luò)信息抽取與儲(chǔ)存,通過(guò)網(wǎng)絡(luò)挖掘技術(shù),在互聯(lián)網(wǎng)上獲取信息,并將結(jié)果存入數(shù)據(jù)庫(kù)和本地文件系統(tǒng);
5102.自然語(yǔ)言處理對(duì)原始網(wǎng)絡(luò)信息進(jìn)行預(yù)處理,包括:中文分詞、詞性標(biāo)注、停用詞處理,命名實(shí)體識(shí)別;
5103.信息的觀點(diǎn)主題檢測(cè)與跟蹤,利用專(zhuān)題評(píng)論數(shù)據(jù),檢測(cè)識(shí)別出感興趣的具有完整語(yǔ)義信息的觀點(diǎn)主題。并持續(xù)跟蹤和關(guān)注該觀點(diǎn)主題;
5104.觀點(diǎn)主題情感傾向性識(shí)別,對(duì)企業(yè)的熱點(diǎn)話(huà)題進(jìn)行話(huà)題情感傾向性分類(lèi),挖掘出觀點(diǎn)主題的情感傾向性。實(shí)施例二
圖2中示出了本發(fā)明實(shí)施例二的流程示意圖。如圖2所示,在該實(shí)施例中,
一種Web主題傾向性挖掘與決策支持的方法,包括步驟:
5201.網(wǎng)絡(luò)信息抽取與儲(chǔ)存,通過(guò)網(wǎng)絡(luò)挖掘技術(shù),在互聯(lián)網(wǎng)上獲取信息,并將結(jié)果存入數(shù)據(jù)庫(kù)和本地文件系統(tǒng);
5202.自然語(yǔ)言處理對(duì)原始網(wǎng)絡(luò)信息進(jìn)行預(yù)處理,包括:中文分詞、詞性標(biāo)注、停用詞處理,命名實(shí)體識(shí)別;
5203.將從網(wǎng)絡(luò)上采集到的信息,經(jīng)過(guò)基于模板的信息分類(lèi),過(guò)濾噪聲信息;
5204.將過(guò)濾后的相關(guān)信息,采用基于時(shí)間函數(shù)的增量聚類(lèi)方法,實(shí)現(xiàn)子話(huà)題的檢測(cè),并將結(jié)果存儲(chǔ)到數(shù)據(jù)庫(kù)子話(huà)題表中;
5205.根據(jù)子話(huà)題的結(jié)果,提取出子話(huà)題的摘要和關(guān)鍵詞,并修改子話(huà)題表相關(guān)信息;
5206.在根據(jù)子話(huà)題的信息,再次根據(jù)間窗口相似度比較的增量聚類(lèi)方法,進(jìn)行話(huà)題檢測(cè),并提取關(guān)鍵詞,得到話(huà)題信息存入數(shù)據(jù)庫(kù);
5207.根據(jù)話(huà)題中信息的時(shí)間和話(huà)題中信息的數(shù)量,發(fā)現(xiàn)熱點(diǎn)話(huà)題,并呈現(xiàn)給用戶(hù);
5208.訓(xùn)練話(huà)題情感分類(lèi)模型,讀取標(biāo)注好的話(huà)題語(yǔ)料和情感詞典,利用SVM分類(lèi)算法,通過(guò)訓(xùn)練得到話(huà)題情感分類(lèi)模型;
5209.子話(huà)題情感分類(lèi),對(duì)子話(huà)題抽取情感特征,利用話(huà)題情感分類(lèi)模型及SVM分類(lèi)算法獲取子話(huà)題分類(lèi)結(jié)果;
5210.話(huà)題情感分類(lèi),利用子話(huà)題情感分類(lèi)的結(jié)果,構(gòu)建基于子話(huà)題的圖模型,根據(jù)圖模型輸出話(huà)題情感分類(lèi)結(jié)果。實(shí)施例三
一種Web主題傾向性挖掘與決策支持的方法,包括步驟:
5301.網(wǎng)絡(luò)信息抽取與儲(chǔ)存,通過(guò)網(wǎng)絡(luò)挖掘技術(shù),在互聯(lián)網(wǎng)上獲取信息,并將結(jié)果存入數(shù)據(jù)庫(kù)和本地文件系統(tǒng);
5302.自然語(yǔ)言處理對(duì)原始網(wǎng)絡(luò)信息進(jìn)行預(yù)處理,包括:中文分詞、詞性標(biāo)注、停用詞處理,命名實(shí)體識(shí)別; 5303.從網(wǎng)絡(luò)上采集到的信息,經(jīng)過(guò)基于模板的信息分類(lèi),過(guò)濾噪聲信息;
5304.順序處理信息中的每篇文檔;
5305.利用層次聚類(lèi)方法對(duì)未處理過(guò)的文檔進(jìn)行聚類(lèi);
5306.若不存在歷史聚類(lèi),則根據(jù)當(dāng)前聚類(lèi)結(jié)果,存儲(chǔ)子話(huà)題;
5307.若存在歷史聚類(lèi),則對(duì)歷史子話(huà)題和新聚類(lèi)出的子話(huà)題,再次進(jìn)行層次聚類(lèi);
5308.將新產(chǎn)生的子話(huà)題存入數(shù)據(jù)庫(kù);
5309.更新子話(huà)題與文檔的關(guān)系;
5310.計(jì)算新產(chǎn)生和更新過(guò)的子話(huà)題的關(guān)鍵詞、多文檔摘要等信息存入數(shù)據(jù)庫(kù);
5311.根據(jù)子話(huà)題的結(jié)果,提取出子話(huà)題的摘要和關(guān)鍵詞,并修改子話(huà)題表相關(guān)信息;
5312.順序處理每個(gè)子話(huà)題;
5313.第一個(gè)子話(huà)題的向量自動(dòng)成為第一個(gè)聚類(lèi)的聚類(lèi)中心;
5314.如果相似度大于某個(gè)閾值,則該子話(huà)題被分配給這個(gè)聚類(lèi);
5315.當(dāng)一篇子話(huà)題分配給某個(gè)聚類(lèi)的時(shí)候,重新計(jì)算這個(gè)聚類(lèi)的聚類(lèi)中心;
5316.若某子話(huà)題沒(méi)有分配給任何的聚類(lèi),則該子話(huà)題成為一個(gè)新的聚類(lèi),同時(shí)也是這個(gè)聚類(lèi)的聚類(lèi)中心;
5317.將新產(chǎn)生的話(huà)題,添加到數(shù)據(jù)庫(kù);
5318.更新話(huà)題的信息;
5319.根據(jù)話(huà)題中信息的時(shí)間和話(huà)題中信息的數(shù)量,發(fā)現(xiàn)熱點(diǎn)話(huà)題,并呈現(xiàn)給用戶(hù);
5320.讀入標(biāo)注好的話(huà)題情感分類(lèi)語(yǔ)料;
5321.通過(guò)自然語(yǔ)言處理,得到經(jīng)中文分詞和詞性標(biāo)注好的語(yǔ)料;
5322.根據(jù)情感詞典和語(yǔ)法模式庫(kù),從語(yǔ)料中抽取情感特征,構(gòu)造話(huà)題分類(lèi)訓(xùn)練數(shù)據(jù)
集;
5323.分類(lèi)器讀取訓(xùn)練數(shù)據(jù)集,利用SVM分類(lèi)算法,通過(guò)訓(xùn)練得到話(huà)題情感分類(lèi)模型;
5324.讀入待分類(lèi)的子話(huà)題;
5325.通過(guò)自然語(yǔ)言處理,得到經(jīng)中文分詞和詞性標(biāo)注好的子話(huà)題;
5326.根據(jù)情感詞典和語(yǔ)法模式庫(kù),從子話(huà)題中抽取情感特征,構(gòu)造測(cè)試數(shù)據(jù)集;
S327分類(lèi)器讀取測(cè)試數(shù)據(jù)和之前訓(xùn)練好的話(huà)題情感分類(lèi)模型,利用SVM分類(lèi)算法,輸
出子話(huà)題情感分類(lèi)結(jié)果;
5328.讀入待分類(lèi)話(huà)題;
5329.對(duì)待分類(lèi)話(huà)題進(jìn)行解析,得到子話(huà)題集;
5330.調(diào)用子話(huà)題情感分類(lèi)器,對(duì)每個(gè)子話(huà)題進(jìn)行分類(lèi),得到子話(huà)題情感分類(lèi)結(jié)果;
5331.根據(jù)子話(huà)題之間的相似度,構(gòu)建LexRank圖模型,利用所構(gòu)建的圖模型,計(jì)算子話(huà)題的重要性和冗余度,輸出話(huà)題情感分類(lèi)結(jié)果。如采用爬蟲(chóng)負(fù)責(zé)從互聯(lián)網(wǎng)上目標(biāo)網(wǎng)站下載網(wǎng)頁(yè),并對(duì)網(wǎng)頁(yè)進(jìn)行解析和信息抽取,處理結(jié)果存入數(shù)據(jù)庫(kù)和本地文件系統(tǒng)。采用聚焦爬蟲(chóng),根據(jù)一定的網(wǎng)頁(yè)分析算法過(guò)濾與主題無(wú)關(guān)的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊(duì)列。然后,它將根據(jù)一定的搜索策略從隊(duì)列中選擇下一步要抓取的網(wǎng)頁(yè)URL,并重復(fù)上述過(guò)程,直到達(dá)到系統(tǒng)的某一條件時(shí)停止。另外,所有被爬蟲(chóng)抓取的網(wǎng)頁(yè)將會(huì)被系統(tǒng)存貯,進(jìn)行一定的分析、過(guò)濾,并建立索弓丨,以便之后的查詢(xún)和檢索。
在子話(huà)題檢測(cè)和話(huà)題檢測(cè)中,具體的聚類(lèi)方法如下:
先對(duì)文本進(jìn)行預(yù)處理,然后提取并選擇言論特征從而合理表示言論,最后根據(jù)言論特征和話(huà)題特征計(jì)算相似度進(jìn)行話(huà)題聚類(lèi)。進(jìn)行話(huà)題聚類(lèi)后,再更新話(huà)題特征。首先,將每一個(gè)言論看作一個(gè)只含有一個(gè)言論的話(huà)題,并且計(jì)算每一個(gè)言論隊(duì)的相似度。其次,計(jì)算每一個(gè)類(lèi)簇的相似度。類(lèi)簇A和類(lèi)簇B的相似度可以看作是每個(gè)類(lèi)簇中的言論隊(duì)的相似度的算數(shù)平均值。最后,假設(shè)A和B是相似度最高的類(lèi)簇對(duì),如果相似度高于預(yù)先設(shè)定的閾值,則將類(lèi)簇A,B合并成一個(gè)新的類(lèi)簇,并且繼續(xù)執(zhí)行第二步,否則停止話(huà)題聚類(lèi)。以上僅為本發(fā)明的優(yōu)選實(shí)施例,但本發(fā)明的設(shè)計(jì)構(gòu)思并不局限于此,凡利用此構(gòu)思對(duì)本發(fā)明做出的非實(shí)質(zhì)性修改,也均落入本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種Web主題傾向性挖掘與決策支持的方法,其特征在于,包括步驟:絡(luò)信息抽取與儲(chǔ)存,通過(guò)網(wǎng)絡(luò)挖掘技術(shù),在互聯(lián)網(wǎng)上獲取信息,并將結(jié)果存入數(shù)據(jù)庫(kù)和本地文件系統(tǒng);息的觀點(diǎn)主題檢測(cè)與跟蹤,利用專(zhuān)題評(píng)論數(shù)據(jù),檢測(cè)識(shí)別出感興趣的具有完整語(yǔ)義信息的觀點(diǎn)主題,并持續(xù)跟蹤和關(guān)注該觀點(diǎn)主題;點(diǎn)主題情感傾向性識(shí)別,對(duì)企業(yè)的熱點(diǎn)話(huà)題進(jìn)行話(huà)題情感傾向性分類(lèi),挖掘出觀點(diǎn)主題的情感傾向性。
2.根據(jù)權(quán)利要求1所述的Web主題傾向性挖掘與決策支持的方法,其特征在于,所述步驟SI還包括: Sll.自然語(yǔ)言處理對(duì)原始網(wǎng)絡(luò)信息進(jìn)行預(yù)處理,包括:中文分詞、詞性標(biāo)注、停用詞處理,命名實(shí)體識(shí)別。
3.根據(jù)權(quán)利要求2所述的Web主題傾向性挖掘與決策支持的方法,其特征在于,所述步驟S2中觀點(diǎn)主題檢測(cè)與跟蹤的過(guò)程具體包括:網(wǎng)絡(luò)上采集到的信息,經(jīng)過(guò)基于模板的信息分類(lèi),過(guò)濾噪聲信息;過(guò)濾后的相關(guān)信息,采用基于時(shí)間函數(shù)的增量聚類(lèi)方法,實(shí)現(xiàn)子話(huà)題的檢測(cè),并將結(jié)果存儲(chǔ)到數(shù)據(jù)庫(kù)子話(huà)題表中;據(jù)子話(huà)題的結(jié)果,提取出子話(huà)題的摘要和關(guān)鍵詞,并修改子話(huà)題表相關(guān)信息;根據(jù)子話(huà)題的信息,再次根據(jù)間窗口相似度比較的增量聚類(lèi)方法,進(jìn)行話(huà)題檢測(cè),并提取關(guān)鍵詞,得到話(huà)題信息存入數(shù)據(jù)庫(kù); 據(jù)話(huà)題中信息的時(shí)間和話(huà)題中信息的數(shù)量,發(fā)現(xiàn)熱點(diǎn)話(huà)題,并呈現(xiàn)給用戶(hù)。
4.根據(jù)權(quán)利要求3所述的Web主題傾向性挖掘與決策支持的方法,其特征在于,所述步驟S22中子話(huà)題的檢測(cè)的過(guò)程具體包括:序處理相關(guān)信息中的每篇文檔;用層次聚類(lèi)方法對(duì)未處理過(guò)的文檔進(jìn)行聚類(lèi);不存在歷史聚類(lèi),則根據(jù)當(dāng)前聚類(lèi)結(jié)果,存儲(chǔ)子話(huà)題;存在歷史聚類(lèi),則對(duì)歷史子話(huà)題和新聚類(lèi)出的子話(huà)題,再次進(jìn)行層次聚類(lèi);新產(chǎn)生的子話(huà)題存入數(shù)據(jù)庫(kù);新子話(huà)題與文檔的關(guān)系;算新產(chǎn)生和更新過(guò)的子話(huà)題的關(guān)鍵詞、多文檔摘要等信息存入數(shù)據(jù)庫(kù)。
5.根據(jù)權(quán)利要求3所述的Web主題傾向性挖掘與決策支持的方法,其特征在于,所述步驟S24中話(huà)題的檢測(cè)的過(guò)程具體包括:序處理每個(gè)子話(huà)題;一個(gè)子話(huà)題的向量自動(dòng)成為第一個(gè)聚類(lèi)的聚類(lèi)中心;果相似度大于某個(gè)閾值,則該子話(huà)題被分配給這個(gè)聚類(lèi);一篇子話(huà)題分配給某個(gè)聚類(lèi)的時(shí)候,重新計(jì)算這個(gè)聚類(lèi)的聚類(lèi)中心;某子話(huà)題沒(méi)有分配給任何的聚類(lèi),則該子話(huà)題成為一個(gè)新的聚類(lèi),同時(shí)也是這個(gè)聚類(lèi)的聚類(lèi)中心;新產(chǎn)生的話(huà)題,添加到數(shù)據(jù)庫(kù);新話(huà)題的信息。
6.根據(jù)權(quán)利要求1所述的Web主題傾向性挖掘與決策支持的方法,其特征在于,所述步驟S3中網(wǎng)絡(luò)主題情感傾向性識(shí)別的過(guò)程具體包括:練話(huà)題情感分類(lèi)模型,讀取標(biāo)注好的話(huà)題語(yǔ)料和情感詞典,利用SVM分類(lèi)算法,通過(guò)訓(xùn)練得到話(huà)題情感分類(lèi)模型;話(huà)題情感分類(lèi),對(duì)子話(huà)題抽取情感特征,利用話(huà)題情感分類(lèi)模型及SVM分類(lèi)算法獲取子話(huà)題分類(lèi)結(jié)果;題情感分類(lèi),利用子話(huà)題情感分類(lèi)的結(jié)果,構(gòu)建基于子話(huà)題的圖模型,根據(jù)圖模型輸出話(huà)題情感分類(lèi)結(jié)果。
7.根據(jù)權(quán)利要求6所述的Web主題傾向性挖掘與決策支持的方法,其特征在于,所述步驟S31中訓(xùn)練話(huà)題情感分類(lèi)模型的過(guò)程具體包括:入標(biāo)注好的話(huà)題情感分類(lèi)語(yǔ)料;過(guò)自然語(yǔ)言處理,得到經(jīng)中文分詞和詞性標(biāo)注好的語(yǔ)料; 據(jù)情感詞典和語(yǔ)法模式庫(kù),從語(yǔ)料 中抽取情感特征,構(gòu)造話(huà)題分類(lèi)訓(xùn)練數(shù)據(jù)集;類(lèi)器讀取訓(xùn)練數(shù)據(jù)集,利用SVM分類(lèi)算法,通過(guò)訓(xùn)練得到話(huà)題情感分類(lèi)模型。
8.根據(jù)權(quán)利要求6所述的Web主題傾向性挖掘與決策支持的方法,其特征在于,所述步驟S32中子話(huà)題情感分類(lèi)的過(guò)程具體包括:入待分類(lèi)的子話(huà)題;過(guò)自然語(yǔ)言處理,得到經(jīng)中文分詞和詞性標(biāo)注好的子話(huà)題;據(jù)情感詞典和語(yǔ)法模式庫(kù),從子話(huà)題中抽取情感特征,構(gòu)造測(cè)試數(shù)據(jù)集;類(lèi)器讀取測(cè)試數(shù)據(jù)和之前訓(xùn)練好的話(huà)題情感分類(lèi)模型,利用SVM分類(lèi)算法,輸出子話(huà)題情感分類(lèi)結(jié)果。
9.根據(jù)權(quán)利要求6所述的Web主題傾向性挖掘與決策支持的方法,其特征在于,所述步驟S33中話(huà)題情感分類(lèi)的過(guò)程具體包括:入待分類(lèi)話(huà)題;待分類(lèi)話(huà)題進(jìn)行解析,得到子話(huà)題集;用子話(huà)題情感分類(lèi)器,對(duì)每個(gè)子話(huà)題進(jìn)行分類(lèi),得到子話(huà)題情感分類(lèi)結(jié)果;據(jù)子話(huà)題之間的相似度,構(gòu)建LexRank圖模型,利用所構(gòu)建的圖模型,計(jì)算子話(huà)題的重要性和冗余度,最終輸出話(huà)題情感分類(lèi)結(jié)果。
全文摘要
本發(fā)明公開(kāi)一種Web主題傾向性挖掘與決策支持的方法,包括步驟S1.網(wǎng)絡(luò)信息抽取與儲(chǔ)存,通過(guò)網(wǎng)絡(luò)挖掘技術(shù),在互聯(lián)網(wǎng)上獲取信息,并將結(jié)果存入數(shù)據(jù)庫(kù)和本地文件系統(tǒng);S2.信息的觀點(diǎn)主題檢測(cè)與跟蹤,利用專(zhuān)題評(píng)論數(shù)據(jù),檢測(cè)識(shí)別出感興趣的具有完整語(yǔ)義信息的觀點(diǎn)主題,并持續(xù)跟蹤和關(guān)注該觀點(diǎn)主題;S3.觀點(diǎn)主題情感傾向性識(shí)別,對(duì)企業(yè)的熱點(diǎn)話(huà)題進(jìn)行話(huà)題情感傾向性分類(lèi),挖掘出觀點(diǎn)主題的情感傾向性。本發(fā)明通過(guò)從互聯(lián)網(wǎng)中獲取相關(guān)商業(yè)資訊,快速有效地從海量網(wǎng)絡(luò)資訊中挖掘企業(yè)相關(guān)的主題傾向性走勢(shì),實(shí)現(xiàn)即時(shí)商業(yè)智慧,更好地為企業(yè)提供決策支持服務(wù)。
文檔編號(hào)G06F17/30GK103116644SQ201310059170
公開(kāi)日2013年5月22日 申請(qǐng)日期2013年2月26日 優(yōu)先權(quán)日2013年2月26日
發(fā)明者張振剛, 徐浩, 楊沛, 丁卓 申請(qǐng)人:華南理工大學(xué)
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
久治县| 章丘市| 巧家县| 双柏县| 巴楚县| 晴隆县| 钦州市| 锦州市| 紫金县| 屯留县| 吉隆县| 连平县| 江阴市| 东乌珠穆沁旗| 桓仁| 安远县| 昌黎县| 平果县| 将乐县| 泾川县| 上饶市| 鹤岗市| 罗山县| 怀柔区| 上犹县| 博白县| 惠来县| 庆阳市| 依兰县| 天长市| 遂平县| 彝良县| 平南县| 贵溪市| 无为县| 杭州市| 启东市| 兴化市| 阿鲁科尔沁旗| 南昌市| 建昌县|