两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種單篇文本關(guān)鍵詞的提取方法

文檔序號(hào):6475007閱讀:525來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):一種單篇文本關(guān)鍵詞的提取方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種單篇文本關(guān)鍵詞的提取方法,具體是涉及一種對(duì)TFIDF方法提取 領(lǐng)域文集中單篇文本關(guān)鍵詞的改進(jìn)方法。
背景技術(shù)
單篇文本關(guān)鍵詞是文本知識(shí)流生成、語(yǔ)義鏈網(wǎng)絡(luò)構(gòu)建、文本語(yǔ)境復(fù)雜度和信息量 中文本表示的基本元素。單篇文本關(guān)鍵詞的提取精度直接影響到文本分類(lèi)、聚類(lèi)、詞語(yǔ)關(guān)聯(lián) 分析、文本自動(dòng)摘要、文本過(guò)濾、信息檢索、話題檢測(cè)、標(biāo)注網(wǎng)頁(yè)等文本信息處理的質(zhì)量與效 果。目前對(duì)單篇文本關(guān)鍵詞提取技術(shù)的研究主要有TFIDF方法、樸素貝葉斯分類(lèi)法、互信 息方法、最大熵模型法、最大似然性和前綴樹(shù)法等。目前應(yīng)用最廣的單篇文本關(guān)鍵詞的提取方法是TFIDF方法。TFIDF方法認(rèn)為,單 篇文本的關(guān)鍵詞應(yīng)該在文本中經(jīng)常出現(xiàn),并且在其他文集中很少出現(xiàn)。TFIDF方法用詞權(quán) 公式計(jì)算一個(gè)詞對(duì)于文集中的單篇文本的重要程度。TFIDF方法的詞權(quán)就是詞頻TF(Term Frequency)與逆文檔頻率 IDF(Inverse Document Frequency)的乘積。TFIDF 詞權(quán)公式如 下TFIDFt = TFt X IDFt = TFt X log (N/nt)其中,TFt為詞t的詞頻,也就是詞t在文本中出現(xiàn)的次數(shù)。IDFt為詞t的逆文檔 頻率,它通過(guò)Iog(NAit)計(jì)算;N為文集的文本總數(shù);nt為詞t的篇頻,也就是文集中包含詞 t的文本數(shù)。詞的逆文檔頻率與篇頻成反比,篇頻越高則逆文檔頻率越低。所以,通過(guò)檢驗(yàn) 詞的逆文檔頻率可以過(guò)濾掉那些在文集里最普遍出現(xiàn)的高篇頻詞。但是用TFIDF方法提取領(lǐng)域文集中的單篇文本關(guān)鍵詞時(shí),存在以下不足(I)TFIDF方法中無(wú)關(guān)領(lǐng)域文集涉及的領(lǐng)域和文本總數(shù)會(huì)降低單篇文本關(guān)鍵詞的 提取質(zhì)量。(2)由于詞的逆文檔頻率與詞在文集中出現(xiàn)的篇頻成反比,TFIDF詞權(quán)會(huì)傾向于 低篇頻詞,導(dǎo)致單篇文本關(guān)鍵詞的提取精度降低。(3)當(dāng)領(lǐng)域文集屬于單一領(lǐng)域時(shí),一些代表領(lǐng)域整體的高篇頻也會(huì)被過(guò)濾掉,最終 關(guān)鍵詞提取結(jié)果只能保留文本特性而不能保持領(lǐng)域特性。

發(fā)明內(nèi)容
本發(fā)明的目的在于針對(duì)TFIDF方法的不足,提供一種單篇文本關(guān)鍵詞的提取方 法,該方法能避免無(wú)關(guān)領(lǐng)域文集對(duì)關(guān)鍵詞提取結(jié)果的影響,提高關(guān)鍵詞的提取精度,還能提 高關(guān)鍵詞提取結(jié)果的領(lǐng)域特性。為了達(dá)到上述的目的,本發(fā)明的構(gòu)思如下采用搜索引擎輔助法提取單篇文本的 關(guān)鍵詞,提高領(lǐng)域文集中單篇文本關(guān)鍵詞的提取精度,提高關(guān)鍵詞提取的領(lǐng)域特性;所述的 搜索引擎輔助法是通過(guò)搜索引擎檢驗(yàn)詞的普遍性,再通過(guò)改進(jìn)的TFIDF詞權(quán)公式提取關(guān) 鍵詞。
3
根據(jù)上述的發(fā)明構(gòu)思,本發(fā)明采用下述技術(shù)方案一種單篇文本關(guān)鍵詞的提取方法,其特征在于,其具體步驟如下(1)打開(kāi)領(lǐng)域文集中的單篇文本;(2)文本內(nèi)容預(yù)處理,包括分詞、詞性標(biāo)注;(3)提取有意義的實(shí)詞;(4)統(tǒng)計(jì)實(shí)詞的詞頻;(5)打開(kāi)領(lǐng)域文集的所有文本;(6)統(tǒng)計(jì)實(shí)詞在領(lǐng)域文集中的篇頻;(7)統(tǒng)計(jì)搜索引擎檢索實(shí)詞所返回的頁(yè)面數(shù);(8)用改進(jìn)的TFIDF詞權(quán)公式計(jì)算單篇文本所有實(shí)詞的權(quán)重,從中提取一定比例 的關(guān)鍵詞。所述的改進(jìn)的TFIDF詞權(quán)公式,記為T(mén)FMIDF,其計(jì)算式如下
權(quán)利要求
一種單篇文本關(guān)鍵詞的提取方法,其特征在于,采用搜索引擎輔助法提取單篇文本的關(guān)鍵詞,提高領(lǐng)域文集中單篇文本關(guān)鍵詞的提取精度,提高關(guān)鍵詞提取的領(lǐng)域特性;所述的搜索引擎輔助法是通過(guò)搜索引擎檢驗(yàn)詞的普遍性,再通過(guò)改進(jìn)的TFIDF詞權(quán)公式提取關(guān)鍵詞,其具體步驟如下(1)打開(kāi)領(lǐng)域文集中的單篇文本;(2)文本內(nèi)容預(yù)處理,包括分詞、詞性標(biāo)注;(3)提取有意義的實(shí)詞;(4)統(tǒng)計(jì)實(shí)詞的詞頻;(5)打開(kāi)領(lǐng)域文集的所有文本;(6)統(tǒng)計(jì)實(shí)詞在領(lǐng)域文集中的篇頻;(7)統(tǒng)計(jì)搜索引擎檢索實(shí)詞所返回的頁(yè)面數(shù);(8)用改進(jìn)的TFIDF詞權(quán)公式計(jì)算單篇文本所有實(shí)詞的權(quán)重,從中提取一定比例的關(guān)鍵詞。
2.按權(quán)利要求1所述的一種單篇文本關(guān)鍵詞的提取方法,其特征在于,上述步驟(8)中 所述的改進(jìn)的TFIDF詞權(quán)公式,記為T(mén)FMIDF,其計(jì)算式如下TFMDFt = TFtX (a *DIDFt+(l-a )*SIDFt)其中TFt是詞t在文本中出現(xiàn)的次數(shù);DIDFt是領(lǐng)域文集中的逆文檔頻率,SIDFt是利用 搜索引擎計(jì)算的逆文檔頻率;α是用來(lái)調(diào)節(jié)原始DIDF與SIDF之間的權(quán)重;當(dāng)a = 1時(shí), TFMDFt = TFtXDIDFt,詞權(quán)賦值依賴(lài)領(lǐng)域文集數(shù);當(dāng)a = 0時(shí),TFMDFt = TFt X SIDFt,詞權(quán) 賦值不依賴(lài)領(lǐng)域文集數(shù),提取關(guān)鍵詞直接面向單篇文本。
3.按權(quán)利要求2所述的一種單篇文本關(guān)鍵詞的提取方法,其特征在于,所述的領(lǐng)域文集中的逆文檔頻率,其計(jì)算公式如下MDIDF , = log(nt其中Nd是領(lǐng)域文集的文本總數(shù),nt是領(lǐng)域文集中包含詞t的文本數(shù)。
4.按權(quán)利要求2所述的一種單篇文本關(guān)鍵詞的提取方法,其特征在于,所述的利用搜索引擎計(jì)算的逆文檔頻率,其計(jì)算公式如下 NsSIDFt = log(—) Pt其中Ns等價(jià)于搜索引擎的索引總頁(yè)面數(shù),pt為一個(gè)檢索查到詞t的頁(yè)面數(shù)。
全文摘要
本發(fā)明公開(kāi)了一種單篇文本關(guān)鍵詞的提取方法,該方法具體步驟如下(1)打開(kāi)領(lǐng)域文集中的單篇文本;(2)文本內(nèi)容預(yù)處理;(3)提取有意義的實(shí)詞;(4)統(tǒng)計(jì)實(shí)詞的詞頻;(5)打開(kāi)領(lǐng)域文集的所有文本;(6)統(tǒng)計(jì)實(shí)詞在領(lǐng)域文集中的篇頻;(7)統(tǒng)計(jì)搜索引擎檢索實(shí)詞所返回的頁(yè)面數(shù);(8)用改進(jìn)的TFIDF詞權(quán)公式計(jì)算單篇文本中所有實(shí)詞的權(quán)重,從中提取一定比例的關(guān)鍵詞。該方法能夠彌補(bǔ)TFIDF算法的不足,能避免無(wú)關(guān)領(lǐng)域文集對(duì)關(guān)鍵詞提取的影響,提高關(guān)鍵詞的提取精度,保持關(guān)鍵詞提取結(jié)果的領(lǐng)域特性。
文檔編號(hào)G06F17/30GK101968801SQ201010290828
公開(kāi)日2011年2月9日 申請(qǐng)日期2010年9月21日 優(yōu)先權(quán)日2010年9月21日
發(fā)明者張順香, 徐煒民, 梁國(guó)寧, 殷曉波, 駱祥峰 申請(qǐng)人:上海大學(xué)
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
十堰市| 富裕县| 改则县| 大安市| 金塔县| 虞城县| 昌都县| 交城县| 泰来县| 防城港市| 乐至县| 茌平县| 建宁县| 基隆市| 库伦旗| 栖霞市| 安塞县| 开封县| 榆社县| 商水县| 康平县| 綦江县| 舟山市| 正阳县| 遂平县| 富源县| 镇安县| 彩票| 中超| 阿荣旗| 普洱| 鄂伦春自治旗| 宁阳县| 赤峰市| 青阳县| 昭苏县| 泗水县| 儋州市| 扎兰屯市| 三原县| 古田县|