两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種動態(tài)多文檔文摘建模方法

文檔序號:6560470閱讀:290來源:國知局
專利名稱:一種動態(tài)多文檔文摘建模方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種動態(tài)多文檔文摘建模方法。
背景技術(shù)
隨著hternet的迅猛發(fā)展,網(wǎng)絡(luò)信息日益劇增,面對互聯(lián)網(wǎng)上90%以上的文本信息,如何有效地組織和分析信息、滿足人們的需求、提高人們獲取信息的效率,使信息過濾、 信息檢索、自動文摘等技術(shù)成為研究的熱點。文摘是以提供原文內(nèi)容梗概為目的,簡明、確切地記述原文主要內(nèi)容的短文。文摘應(yīng)客觀、如實地反映原文的內(nèi)容,但又比原文文字簡潔。文摘可以使得人們能夠很快地判斷出原文中是否有感興趣的內(nèi)容,可以讓人們很快找到自己真正需要的文章,而不必將時間浪費在相關(guān)文章的閱讀上,大大提高人們獲取信息的效率。自動文摘的目的就是以一種快速、準(zhǔn)確地方式向用戶提交簡潔、全面的信息。在0時代,網(wǎng)絡(luò)上的各種新聞、論壇、博客、在線聊天等信息跟靜態(tài)網(wǎng)頁信息相比體現(xiàn)出非常明顯的動態(tài)演化性,網(wǎng)絡(luò)信息隨著時間的變化而出現(xiàn)、發(fā)展直至消亡,一個話題在不同的時刻具有不同的側(cè)重點,而不同時刻的話題內(nèi)容之間具有關(guān)聯(lián)性,如何針對這類持續(xù)發(fā)展變化的話題或者事件提供動態(tài)摘要已經(jīng)成為一個新的研究方向。傳統(tǒng)的靜態(tài)文摘方法只能對靜態(tài)的話題內(nèi)容生成文摘,無法滿足網(wǎng)絡(luò)環(huán)境下,動態(tài)演化的網(wǎng)絡(luò)信息進行摘要的提取。因此,在微軟和NIST等機構(gòu)的倡導(dǎo)下,動態(tài)文摘問題在國際多文檔理解會議(Document Understanding Conferences) DUC2007上首次提出。動態(tài)文摘是傳統(tǒng)靜態(tài)文摘的延伸和擴展,除了需要保證文摘信息的主題相關(guān)性和內(nèi)容的低冗余性之外,還需保證針對內(nèi)容的動態(tài)演化性分析歷史信息和新出現(xiàn)信息的關(guān)系,消除舊信息,摘要新信息,使文摘信息隨話題的演化而動態(tài)更新。傳統(tǒng)的多文檔摘要方法以句子或自然段落作為基本處理單元,通過計算各文本單元與當(dāng)前主題的相關(guān)程度以及不同文本單元之間的信息重復(fù)程度,選取與主題相關(guān)度較高,與其余文本重復(fù)度較低的文本單元來生成摘要,以提高摘要信息的全面性,降低冗余度。然而,這種策略孤立地考察各個文本單元,難以從整個文檔集的角度全局性地把握當(dāng)前主題下的各個信息側(cè)面(即子主題)的內(nèi)容、分布以及關(guān)聯(lián)情況,往往造成大量摘要片段來自同一個子主題的現(xiàn)象,嚴(yán)重影響摘要的全面性。

發(fā)明內(nèi)容
本發(fā)明是要解決傳統(tǒng)的多文檔摘要方法難以全局性地把握當(dāng)前主題下的各個信息側(cè)面的內(nèi)容、分布以及關(guān)聯(lián)情況,而造成大量摘要片段來自同一個子主題的現(xiàn)象,從而嚴(yán)重影響摘要的全面性的問題,提供一種動態(tài)多文檔文摘建模方法。本發(fā)明動態(tài)多文檔文摘建模方法的具體步驟為步驟一、建立特征抽取模塊,計算文檔集合中包含主題詞的句子的特征值;所述句子的特征值為句子的歷史冗余性特征值、句子的顯著性特征值、句子的時間特征值、句子的長度特征值和句子的位置特征值,所述文檔集合由當(dāng)前文檔集合和歷史文檔集合組成;步驟二、建立信息過濾模塊,對文檔集合進行信息過濾,得到動態(tài)句子集合;步驟三、建立句子加權(quán)模塊,計算動態(tài)句子集合中句子的權(quán)值;步驟四、建立文摘生成模塊,生成最佳文摘;步驟五、使用輸出模塊將最佳文摘輸出,即完成動態(tài)多文檔文摘建模。本發(fā)明使用的測試語料為TAC2008 CText Analysis Conference2008)的語料庫, 該語料庫中總共包含50個主題,每個主題為一個文檔集合,每個文檔集合包含20個文檔且按時間順序分為兩個子文檔集分別稱為歷史文檔集合和當(dāng)前文檔集合,每個子文檔集中包含10個文檔。步驟一所述建立特征抽取模塊,計算文檔集合中包含主題詞的句子的特征值的方法為步驟——、計算主題詞W 的權(quán)值 Wgt (w) =Wgt (w) = (w) *IDF (w) *ISF (w);其中 TF(w)為主題詞w的詞頻,IDF(W)為主題詞w的反文檔頻率,ISF(W)為主題詞w的反句子
頻率;步驟一二、計算句子s的歷史冗余性特征值NWgt(S)
權(quán)利要求
1.一種動態(tài)多文檔文摘建模方法,其特征在于,該動態(tài)多文檔文摘建模方法的具體步驟為步驟一、建立特征抽取模塊,計算文檔集合中包含主題詞的句子的特征值;所述句子的特征值為句子的歷史冗余性特征值、句子的顯著性特征值、句子的時間特征值、句子的長度特征值和句子的位置特征值,所述文檔集合由當(dāng)前文檔集合和歷史文檔集合組成; 步驟二、建立信息過濾模塊,對文檔集合進行信息過濾,得到動態(tài)句子集合; 步驟三、建立句子加權(quán)模塊,計算動態(tài)句子集合中句子的權(quán)值; 步驟四、建立文摘生成模塊,生成最佳文摘;步驟五、使用輸出模塊將最佳文摘輸出,即完成動態(tài)多文檔文摘建模。
2.根據(jù)權(quán)利要求1所述一種動態(tài)多文檔文摘建模方法,其特征在于,步驟一所述建立特征抽取模塊,計算文檔集合中包含主題詞的句子的特征值的方法為步驟——、計算主題詞 w 的權(quán)值 Wgt (w) =Wgt (w) = TF(w)*IDF(w)*ISF(w);其中 TF (w) 為主題詞w的詞頻,IDF (w)為主題詞w的反文檔頻率,ISF(W)為主題詞w的反句子頻率; 步驟一二、計算句子s的歷史冗余性特征值NWgt (s)YjWgt(Wj)一一NWgt(s)--) KlengtKsr count) ; s^表示歷史文檔集合中的句子,表示Iength(Si)句子s與句子Si的同現(xiàn)詞,m為歷史文摘中文摘句的總數(shù),η為句子歷史文摘中句子Si的同現(xiàn)主題詞數(shù)量,Wgt (Wj)為主題詞Wj的權(quán)重,Iength(Si)和Iength(S)分別為句子Si與句子s中的主題詞詞語總數(shù),count為歷史文摘句子集合中句子的總數(shù)量; 步驟一三、計算句子s的顯著性特征值SWgt(s)TWgt(Wi)SWgt(sh t盧_;m為當(dāng)前文檔集合中句子的總數(shù),n為句Iength(Si)子Si與句子s中同現(xiàn)的主題詞總數(shù),Wgt (Wj)為主題詞Wj的權(quán)重,Iength(Si) length (s)分別為句子Si與句子s中的主題詞詞語總數(shù),count為當(dāng)前文檔集合中句子的總數(shù)量;步驟一四、計算句子s的時間特征值TWgt (s) :TWgt(s) = 1/n ;其中,η代表按照發(fā)表時間排序后的文檔集中句子所屬文檔的排序值;步驟一五、計算句子s的長度特征值LWgt(s)如果Length(s) > 0. 5*MaxLength,則 LWgt(s) = 1/(Length (s)-0· 5*MaxLength);如果 Length (s)彡 0. 5*MaxLength,則 LWgt (s) =1/(0. 5*MaxLength-Length(s));其中,Length (s)表示句子 s 的長度,MaxLength 表示當(dāng)前文檔集合中句子的最大長度;步驟一六、計算句子s的位置特征值PWgt(s) = 1/n ;其中,η代表句子s在其所屬文檔中的位置值。
3.根據(jù)權(quán)利要求1所述一種動態(tài)多文檔文摘建模方法,其特征在于,步驟二所述建立信息過濾模塊,對文檔集合進行信息過濾,得到動態(tài)句子集合的方法為首先根據(jù)句子s的歷史冗余性特征值對當(dāng)前文檔集句子集合中的所有句子按從高到低進行排序,刪除排序的前50個句子,得到動態(tài)句子集合。
4.根據(jù)權(quán)利要求1所述一種動態(tài)多文檔文摘建模方法,其特征在于,步驟三所述建立句子加權(quán)模塊,計算動態(tài)句子集合中句子的權(quán)值的方法為步驟三一、計算動態(tài)句子集合中句子s的初值FWgt(S)
5.根據(jù)權(quán)利要求1所述一種動態(tài)多文檔文摘建模方法,其特征在于,步驟四所述建立文摘生成模塊,生成最佳文摘的方法為計算改進去冗余算法處理后的候選文摘句s的權(quán)值A(chǔ)ZWgt(s), Σ wgt{W])AZWgt(S) = a * BZWgt(S) -β*^ -;其中 Wgt(Wj)和 Wgt(Wk)分別為主題詞 %和 wk的權(quán)值,n為文摘句集合中的句子數(shù)量,Simcount為候選文摘句s和文摘句Si同現(xiàn)的主題詞的數(shù)量,Count(Si)為文摘句Si的總的主題詞數(shù)量,α =0.3,β = 0. 7 ;根據(jù)AZWgt (s) 的值對當(dāng)前文檔集句子集合中的所有句子按從高到低進行排序,取前300 400個字符,生成當(dāng)前文檔集合的最佳文摘。
全文摘要
一種動態(tài)多文檔文摘建模方法,涉及一種動態(tài)多文檔文摘建模方法。本發(fā)明是要解決傳統(tǒng)的多文檔摘要方法難以全局性地把握當(dāng)前主題下的各個信息側(cè)面的內(nèi)容、分布以及關(guān)聯(lián)情況,而造成大量摘要片段來自同一個子主題的現(xiàn)象,從而嚴(yán)重影響摘要的全面性的問題。具體步驟文檔集合的預(yù)處理;建立特征抽取模塊;建立信息過濾模塊;建立句子加權(quán)模塊;建立文摘生成模塊,生成最佳文摘;使用輸出模塊將最佳文摘輸出,即完成動態(tài)多文檔文摘建模。本發(fā)明的方法使動態(tài)演化的文摘具有較高的信息新穎性和歷史信息的演化性,進而提高動態(tài)文摘的性能。本發(fā)明方法獲得的文摘全面性更高。應(yīng)用于文摘抽取領(lǐng)域。
文檔編號G06F17/30GK102254011SQ201110200590
公開日2011年11月23日 申請日期2011年7月18日 優(yōu)先權(quán)日2011年7月18日
發(fā)明者劉美玲, 趙鐵軍, 鄭德權(quán) 申請人:哈爾濱工業(yè)大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
静海县| 栾川县| 镇沅| 庆云县| 永兴县| 杂多县| 四子王旗| 汉川市| 东丽区| 静乐县| 阿拉尔市| 海口市| 湖北省| 巢湖市| 夏津县| 利川市| 岑巩县| 永安市| 武胜县| 金溪县| 吴桥县| 河南省| 平乡县| 西城区| 洛川县| 石柱| 南丹县| 合水县| 阿拉善右旗| 和硕县| 前郭尔| 特克斯县| 宁南县| 高台县| 水富县| 建昌县| 宿迁市| 肃北| 静乐县| 阜宁县| 闻喜县|