專利名稱:數(shù)字圖書系統(tǒng)中的個性化自動文摘方法
技術領域:
本發(fā)明涉及信息處理技術領域,確切地說涉及一種數(shù)字圖書系統(tǒng)中的個性化自動文摘方法。
背景技術:
基于查詢的自動文摘,即對于給定的文檔,返回一個或者多個與查詢相關的摘要信息,當一個文本集合建立好或者更新之后,自動將文檔分為多個離散的摘要信息?,F(xiàn)在的自動文摘處理,一種方法是根據(jù)與當前文檔相關的一些文檔,預先估計摘要信息長度,有了文檔摘要的大概長度之后,查找與查詢最匹配的指定長度的信息片段作為文章摘要。另一種方法是通過預處理,先把文檔切分成一個或者多個語義信息塊。語義信息塊確定之后,匹配查詢語句和語義信息塊之間的關聯(lián)度,選擇與查詢語句關聯(lián)度最高的,并能覆蓋文檔主要信息的信息塊作為文檔摘要。然而,第一種方法中摘要信息的長度很難預先確定;而第二種方法,通過預處理之后,固定了摘要信息的始末位置,而且文檔預處理之后,如果文檔的主要信息出現(xiàn)在幾個不同的分割片段中,這種情況下提取的摘要信息對文檔主要信息的覆蓋率較低。比如,一篇文檔可以被切分為多個沒有重合的片段,但這樣切分會有一個潛在的問題,當最佳文檔摘要需要覆蓋兩個相鄰片段的內容時,由于預處理分離了文檔片段,自動提取的摘要信息不完離
iF. ο如公開號為CN 101231634,
公開日為2008年7月30日得中國專利文獻公開了一種利用圖劃分方法來自動提取多文檔文摘的方法,包括以下步驟進行句子邊界切分,把文檔用切分出來的句子表示;將句子表示成向量,計算句子兩兩間的相似度構成句子關聯(lián)矩陣,并按指定的閾值對關聯(lián)矩陣進行約簡,同時進行規(guī)范化處理;在多文檔文摘中引入主題的隱性邏輯結構的挖掘,將文檔集按主題劃分成不同的隱性子主題,從而把文摘任務轉化為對子主題的選取和抽取過程;利用圖劃分的方法,既從全局特性上保證句子所在子主題的重要度,又從局部特性上保證不同子主題之間內容的低冗余性,從而有效提高了文摘質量。但以上述專利文獻為代表的現(xiàn)有技術,仍然存在著如下技術問題CN 101231634 專利中按照句子計算權重向量,導致摘要信息按句子分割,這種情況下提取的摘要信息對文檔主要信息的覆蓋率較低。
發(fā)明內容
為解決上述技術問題,本發(fā)明提出了一種數(shù)字圖書系統(tǒng)中的個性化自動文摘方法,采用本方法,能解決上述現(xiàn)有技術中所存在的“提取的摘要信息對文檔主要信息的覆蓋率較低”的技術問題,并且,不會固定摘要信息的長度,能靈活的獲得摘要信息,在提取文檔摘要時,能很好的判斷出文檔片段和查詢的相關度,提取的摘要信息抗干擾能力強,并且采用本方法所獲取的文章摘要,比用傳統(tǒng)的摘要算法獲得的文章摘要的準確率高。本發(fā)明是通過采用下述技術方案實現(xiàn)的
一種數(shù)字圖書系統(tǒng)中的個性化自動文摘方法,其特征在于包括如下步驟
權利要求
1.一種數(shù)字圖書系統(tǒng)中的個性化自動文摘方法,其特征在于包括如下步驟a、輸入查詢信息,所述查詢信息包括關鍵字和和用戶的個性化信息;b、根據(jù)所輸入的查詢信息建立相關模型和不相關模型,所述相關模型是指查詢語句的自然語言模型的概率分布函數(shù),用關鍵字查詢數(shù)字圖書系統(tǒng),得到最前面的5-50篇文檔;所述的不相關模型是所述相關模型的補充概率分布函數(shù),指數(shù)字圖書系統(tǒng)中的所有文檔集合;C、對需要得到摘要信息的文檔中的每一個字,計算所述字在相關模型和不相關模型下產生的概率,并用相關模型下的概率減去不相關模型下得概率作為所述字和查詢信息的相關度;d、將每個關鍵字的所述相關度保存到一個隊列中,并對隊列進行平滑處理;e、選取所述隊列中一組連續(xù)關鍵字相關度相加,相關度最高的文檔片段做為一條文檔摘要,將這條相關度最高的文檔片段放入摘要數(shù)據(jù)集合中,并在所述隊列中刪除這條相關度最高的文檔片段;f、根據(jù)閾值大小判斷是否繼續(xù)尋找下條文摘;g、如果需要,繼續(xù)e步驟操作,如果不需要,就返回摘要數(shù)據(jù)集合中的所有文檔作為摘要信息。
2.根據(jù)權利要求1所述的數(shù)字圖書系統(tǒng)中的個性化自動文摘方法,其特征在于 所述c步驟中,計算所述字在相關模型和不相關模型下產生的概率具體包括所述字在不相關模型下產生的概率方法為在給定關鍵字w和整個文檔集合的情況下,文檔中出現(xiàn)關鍵字“^的次數(shù)用J&表示,而整個文檔集合中的數(shù)量用J 表示,不相關模型中關鍵字·》產生的概率為
3.根據(jù)權利要求1或2所述的數(shù)字圖書系統(tǒng)中的個性化自動文摘方法,其特征在于 所述d步驟中,對隊列進行平滑處理具體是指計算需要得到摘要信息的文檔中的每一個字與查詢信息的相關度,每個相關度和前后十個字的相關度比較過高或者過低,則認為當前字處于波動較大的情況,在運算前將其去掉。
4.根據(jù)權利要求3所述的數(shù)字圖書系統(tǒng)中的個性化自動文摘方法,其特征在于所述f步驟中,根據(jù)閾值大小判斷是否繼續(xù)尋找下條文摘具體是指預先設定閾值的值,之前取出來的摘要片段的相關度總和除以當前取出來的摘要片段的相關度總和小于所述設定的閾值,則保留當前文摘信息,并重復e步驟;如大于所述設定的閾值,則丟棄當前的文摘信息, 并結束文摘提取算法,返回摘要數(shù)據(jù)集合中的所有文檔作為摘要信息。
5.根據(jù)權利要求1所述的數(shù)字圖書系統(tǒng)中的個性化自動文摘方法,其特征在于所述 c步驟中,用相關模型下的概率減去不相關模型下得概率作為所述字和查詢信息的相關度, 相關度的分布在[-1,1]之間。
6.根據(jù)權利要求1所述的數(shù)字圖書系統(tǒng)中的個性化自動文摘方法,其特征在于所述的a步驟中,用戶的個性化信息是指用戶的歷史瀏覽數(shù)據(jù)或用戶在數(shù)字圖書系統(tǒng)中曾經(jīng)使用的個人偏好信息。
全文摘要
本發(fā)明公開了一種數(shù)字圖書系統(tǒng)中的個性化自動文摘方法,涉及信息處理技術領域,包括a、輸入查詢信息;b、根據(jù)所輸入的查詢信息建立相關模型和不相關模型;c、對需要得到摘要信息的文檔中的每一個字,計算所述字在相關模型和不相關模型下產生的概率;d、將每個關鍵字的所述相關度保存到一個隊列中;e、選取所述隊列中一組連續(xù)關鍵字相關度相加,相關度最高的文檔片段做為一條文檔摘要;f、根據(jù)閾值大小判斷是否繼續(xù)尋找下條文摘;g、如果需要,繼續(xù)e步驟操作,如果不需要,就返回摘要數(shù)據(jù)集合中的所有文檔作為摘要信息。本方法比用傳統(tǒng)的摘要算法獲得的文章摘要的準確率高。并且,在模擬真實數(shù)據(jù)情況時,本方法具有很強的抗干擾能力。
文檔編號G06F17/30GK102222119SQ201110213750
公開日2011年10月19日 申請日期2011年7月28日 優(yōu)先權日2011年7月28日
發(fā)明者劉家芬, 張晨, 李慶, 羅旭斌, 胡川 申請人:成都希創(chuàng)掌中科技有限公司