專利名稱:一種考慮概念抽象度的淺層分析自動文檔綜述方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種考慮概念抽象度的淺層分析自動文檔綜述方法,屬于信息檢索、情報科學領(lǐng)域。
背景技術(shù):
自動文檔綜述就是利用計算機對多篇文檔編制文摘的技術(shù),它將同一主題的多個文檔去除冗余信息,按照一定的壓縮比將主要內(nèi)容有機地融合成一篇簡短的綜述文檔,為人們廉價、迅速和準確地了解文集內(nèi)容提供方便。隨著互聯(lián)網(wǎng)的發(fā)展和普及,自動文檔綜述被用作搜索引擎的后處理,它能夠?qū)⑺阉饕娣祷氐拇罅繖z索結(jié)果生成為綜述提交給用戶,顯著地提高用戶信息獲取的效率。自動文檔綜述技術(shù)從實現(xiàn)方法上可以分為淺層分析法和深層分析法,其中淺層分析法利用統(tǒng)計特征和語言學特征獲取主題信息,不需要對文檔進行“理解”而易于工程實現(xiàn),是目前自動文檔綜述的主流方法。
淺層分析自動綜述通常采用從原文中摘取句子組成綜述文檔的方法實現(xiàn)。方法將文檔視為句子的線性序列,將句子視為詞的線性序列,操作分4步進行(1)計算文集中詞的權(quán)值;(2)根據(jù)詞的權(quán)值計算句子的權(quán)值;(3)對原文中的所有句子按句子權(quán)值高低降序排列,選擇權(quán)值最高的若干句子為文摘句;(4)將選定文摘句按照一定順序排列輸出形成綜述文檔。整個過程中,(1)、(2)、(3)步的權(quán)值計算和文摘句選擇最為關(guān)鍵,傳統(tǒng)的方法主要是依據(jù)詞頻、標題、位置、句法結(jié)構(gòu)、線索詞、指示性短語等特征來實現(xiàn)該計算和選擇,力求組成綜述的各個文摘句之間沒有語義重復,信息冗余盡可能的小,進而達到在有限的字數(shù)內(nèi)傳達出最大量信息的目的。然而,在實際的文檔句子中,經(jīng)常會出現(xiàn)大量具有包含關(guān)系(part-of、kind-of等)的概念,它們在語義上存在重疊??墒?,使用上述傳統(tǒng)方法進行自動綜述時這一現(xiàn)象會被忽視,而得不到符合文檔綜述概念歸納原則的處理,這就會造成信息的冗余或缺失。例如“買蘋果”、“買香蕉”、“買橘子”,其語義都可包含在“買水果”這句話中,可是當這4個句子都出現(xiàn)在文集中,現(xiàn)有自動文檔綜述方法無法確保選出“買水果”來對其它句子進行概括歸納,從而導致信息冗余或缺失。另外,在對搜索引擎返回的檢索結(jié)果進行自動綜述處理時,由于不同用戶對歸納程度的要求不盡相同,因而上例中的歸納處理也應當與之相適應。例如當人們只想知道檢索結(jié)果文集的大體概況時,則歸納程度高,會從“買蘋果”、“買香蕉”、“買橘子”、“買商品”、“買水果”中選擇“買商品”作為綜述文摘句;如果人們想了解更具體的細節(jié)則可以降低歸納程度,從5句話中選擇“買水果”作為綜述文摘句。然而,現(xiàn)有淺層分析自動綜述也不具備這樣的調(diào)節(jié)能力。
從以上背景介紹可以看出,現(xiàn)有淺層分析自動文檔綜述無法對具有包含關(guān)系的概念進行歸納處理,更不具有對概念歸納度的調(diào)節(jié)能力,具體表現(xiàn)為生成綜述信息冗余量偏大或信息缺失,算法無歸納調(diào)節(jié)的功能。
發(fā)明內(nèi)容
要解決的技術(shù)問題 為了消除現(xiàn)有淺層分析自動文檔綜述方法不具有概念歸納的綜述能力,無概念歸納調(diào)節(jié)功能的缺陷,本發(fā)明提出一種考慮概念抽象度的淺層分析自動文檔綜述方法,可以根據(jù)概念抽象度進行自動文檔綜述的概念歸納和歸納度調(diào)節(jié)。
技術(shù)方案 本發(fā)明的基本思想是參考知識本體所體現(xiàn)的概念抽象度來選擇文摘句。生成綜述的過程實際上就是對原文內(nèi)容的選擇和歸納的過程。這里的歸納可以將信息壓縮為更抽象的形式,但由于統(tǒng)計特征和語言學特征不提供相關(guān)支持,所以傳統(tǒng)綜述方法很難做到。為此,本發(fā)明考慮利用知識本體的概念層級關(guān)系所體現(xiàn)的概念抽象度(如圖1),來指導機器實現(xiàn)滿足概念歸納原則的文摘句選擇,從而降低信息冗余度。在一定抽象度值條件下,當句子的抽象度過低或過高時,降低其被選入綜述的可能性,反之增加該可能性。由于本體描述了從最抽象概念到最具體概念的全部漸變過程,因而可以在這個連續(xù)的變化過程中任意調(diào)整一個抽象度值來控制上述文摘句的選取,從而實現(xiàn)自動綜述的歸納度調(diào)節(jié)功能。
本發(fā)明的技術(shù)特征在于步驟如下(如圖2) 步驟1獲得數(shù)據(jù)并設(shè)定抽象度值將查詢Q提交給搜索引擎,返回查詢結(jié)果Web文檔集D={d1,d2,…,dk,…},對D中的諸文檔進行提取文本內(nèi)容、去除停用詞與網(wǎng)頁標記、詞根還原處理后,以文本文檔句子為基本單位,按照文本文檔句子出現(xiàn)的次序,順序存儲為集合其中
是序號為l、文本文檔dk包含的一個文本文檔句子,集合R包含的文本文檔句子個數(shù)為N=|R|;然后設(shè)定文檔綜述的抽象度值θ,0≤θ≤1,θ值隨抽象度增加而增大; 步驟2將文本文檔句子表示為概念模型矢量先將R中所有出現(xiàn)的詞匯轉(zhuǎn)換為概念,將得到的所有概念無重復地組成概念集合C={c1,c2,…,ci,…},其中ci為一個概念,共計得到n=|C|個概念,然后以C為特征,仿照tf·idf加權(quán)方案將R表示為N個概念模型矢量組成的集合其中所述轉(zhuǎn)換中,若詞匯為多義詞,則采用基于本體的多義詞消歧處理實現(xiàn),若詞匯為單義詞或為未在本體中出現(xiàn)的未登錄詞,則采用以詞匯自身作為其概念的方法實現(xiàn);所述文本文檔句子概念模型矢量
的分量為ci在
中的權(quán)重,其中ni為D中有詞匯可轉(zhuǎn)換為ci的文本文檔數(shù)目,log(|D|/ni)是ci在D中的逆頻率,tfi是ci對應詞匯在dk中的出現(xiàn)頻率,freq(ci)是ci在
中的頻率; 步驟3將主題近似的文本文檔句子進行聚集對
中所有文本文檔句子的概念矢量進行基于文本文檔句子語義相似度的合成聚類,每次合成時計算合成前后,類的半偏相關(guān)系數(shù)HDCC,當HDCC大于閥值μ時聚類停止,0<μ≤1;聚類完成后得到由主題近似文本文檔句子組成的聚類簇集合{LT1,…,LT0};所述文本文檔句子語義相似度其中
與
為任意兩不同的文本文檔句子概念模型矢量,
為
權(quán)值非0的概念數(shù),
為
與
權(quán)值非0且相同的概念數(shù);所述的半偏相關(guān)系數(shù)分子WM-WK-WL表示聚類過程中待合并的中間類CLK和CLL合并為下一層次的類CLM時引起的類內(nèi)離差平方和的增量,分母表示類CLK和類CLL合并前,同層次所有類的總離差平方和,其中任意類CL的類內(nèi)離差平方和為 步驟4計算壓縮比確定綜述長度利用子概念頻度方法從C中抽出主題概念并構(gòu)成主題概念集合TC={tc1,…,tcj,…,tcm},根據(jù)主題概念的數(shù)量|TC|和抽象度設(shè)定值θ計算自動綜述的壓縮比r,得到綜述長度為N·r;所述的壓縮比其中,λβ為比例調(diào)節(jié)系數(shù),取值為1≤λβ≤N/|TC|; 步驟5確定各文本文檔句子抽象度值將TC作為基準,計算R的各文本文檔句子抽象度值所述其中,deg(c1/c2)=|1/log2[|pcc(c1,Root)|+1]-1/log2[|pcc(tc2,Root)|+1]|為概念相對抽象度值,c1,c2∈C是任意一對概念,Root是本體的根概念,|pcc(c,Root)|是本體中概念c到Root之間連接邊的條數(shù);所述 步驟6抽取文摘句根據(jù)θ值、各文本文檔句子抽象度值、查詢Q、文摘句集合A,A=φ,計算R各文本文檔句子的IMMRA值;依次從{LT1,…,LT0}各簇中每次抽取一個IMMRA值最大的文本文檔句子作為文摘句,放入A并從所屬簇中去除,循環(huán)進行直到|A|≥N·r;所述其中,λ為相似度參考權(quán)值參數(shù),0≤λ≤1; 步驟7對文摘句進行排序并輸出綜述文檔在文檔集合中找到包含A中文摘句最多的文檔dc作為參考框架,將各文摘句按各自在dc中最相似文本文檔句子的位置進行排序定位,最終生成文摘句排列順序與dc一致的綜述文檔輸出。
有益效果 本發(fā)明提出一種考慮抽象度的淺層分析自動文檔綜述方法,利用本體的概念層級關(guān)系結(jié)構(gòu)賦予的概念抽象度來對句子進行抽象度計算,并參考初始設(shè)定的抽象度參數(shù)完成考慮抽象度的文摘句選取,從而降低自動綜述文摘因概念包含關(guān)系引起的信息冗余或信息缺失。
方法可以根據(jù)主題的數(shù)量自適應調(diào)整文摘的長度,還可以根據(jù)抽象度需求調(diào)節(jié)綜述的歸納度,具有很好的適應性。
圖1本體概念抽象度關(guān)系示意圖 圖2本發(fā)明方法的基本流程圖 圖3文摘句抽取過程示意圖
具體實施例方式 現(xiàn)結(jié)合附圖對本發(fā)明作進一步描述 本發(fā)明采用Google搜索引擎輸入查詢Q,“水果”,將返回結(jié)果的前50個Web文檔構(gòu)成文集D作為實施實例;采用WordNet2.1作為本體;用于實施的硬件環(huán)境是P43.0Ghz CPU、內(nèi)存512M、硬盤80G;Windows XP Professional操作系統(tǒng)、NTFS文件系統(tǒng);主程序采用VC++6.0實現(xiàn)。
1、獲得數(shù)據(jù)并設(shè)定抽象度值。讀入搜索引擎返回的Web文檔,去除網(wǎng)頁標記、去除非文本噪聲信息、去除停用詞、進行詞根還原處理,以文本文檔句子為基本單位構(gòu)成文集R作為自動綜述處理對象,另由用戶設(shè)定自動綜述抽象度值θ=0.5。
2、將文本文檔句子表示為概念模型矢量。對文本文檔句子中的多義詞進行基于WordNet的擴展Lesk消歧處理算法得到對應概念,算法如(1)式 這里,c為待消歧多義詞t在文中的正確概念,ck是t的一個概念,ti,j表示t的上下文窗口(文本文檔中t左16個和右13個位置的范圍內(nèi)的詞)中的第i個詞的第j個概念,這里函數(shù)relatedness定義如下 A、B表示概念,Ri為WordNet中定義的概念之間的關(guān)系函數(shù),Ri(A)的輸出為與A具有Ri關(guān)系的概念的釋義(gloss)。出于簡化計算的目的,這里Ri只考慮同義關(guān)系、上下位關(guān)系、整體與部分關(guān)系三種關(guān)系,則p=4。其中,R0(A)表示概念A的同義概念釋義、R1(A)表示概念A的上位概念釋義,R2(A)表示概念A的下位概念釋義,R3(A)表示概念A的整體概念釋義,R4(A)表示概念A的部分概念釋義。score為覆蓋度評價函數(shù),用于計算釋義之間的單詞覆蓋度,有 gloss為釋義詞集合,|gloss|為釋義詞集合包含的詞的個數(shù)。
由公式(1)、(2)、(3),可求得t在上下文語境中的正確概念c。
對于單義詞直接從WordNet中獲得對應的概念。對于WordNet不包含的未登錄詞保留不進行處理,以其本身代表所表達的概念。
將得到的所有概念組成無重復概念集合C={c1,c2,…,ci,…}。
仿照tf·idf加權(quán)方案,首先統(tǒng)計概念c1對應詞匯在文集D中的逆頻率log(50/n1)、文檔頻率tf1和概念c1在文集R各文本文檔句子中的頻率freq(c1),得到c1在文集R各文本文檔句子中的權(quán)值
然后按照同樣方法完成所有|C|個概念的權(quán)值計算,進而將R中的所有文本文檔句子表示為概念模型矢量形式,構(gòu)成矢量集合
3、將主題近似的文本文檔句子進行聚集。對
中所有句子的概念矢量進行AHC合成聚類。初始狀態(tài)假設(shè)每個句子自成一類,然后對
中句子相似度將最相似的兩個類合并成一類,并計算半偏相關(guān)系數(shù)HDCC,當HDCC大于閥值μ時聚類停止,μ=0.5。經(jīng)過聚類處理,
中的句子被聚類到{LT1,…,LT0}共計o個聚類簇中。
4、計算壓縮比確定綜述長度。利用子概念頻度方法從文集中抽出主題概念,根據(jù)主題概念的數(shù)量確定自動綜述的壓縮比。概念c的重要度I(c)定義如下 son(c)i為概念c在WordNet中的直接子概念,w(c)為概念c在文本文檔句子矢量集合
中的權(quán)值w的總和
當I(c)≤I臨,則認定c為主題概念,記為tc,取I臨=0.3,所有tc構(gòu)成主題概念集合TC,TC={tc1,…,tcm}。簡便起見,只從具有最大tfi·log(50/n1)權(quán)重的50個概念中抽取主題概念,凡在WordNet中未出現(xiàn)的概念其重要度視為1。得到|TC|個主題概念,則在抽象度θ條件下文集的壓縮比如下 其中,λβ為比例調(diào)節(jié)系數(shù)可通過訓練得到,這里取λβ=1.2。
5、確定各文本文檔句子抽象度值。以主題概念tc1,tc2,…,tcm組成的集合TC為參照計算各句子的抽象度值,與R對應的N個抽象度值
6、抽取文摘句首先創(chuàng)建空集A并計算LT1中各文本文檔句子IMMRA的值,尋找最大值,從而的得到與查詢Q相似,且與θ相匹配的句子,放入空集A并從R中去除,再依次對LT2、LT3、…、LTm做同樣工作,循環(huán)進行直至A中達到N·r個文摘句(如圖3所示),這里取λ=0.8。
7、對文摘句進行排序并輸出綜述文檔。在文檔集合中找到包含A中文摘句最多的文檔dc作為參考框架,文檔dc可按下式計算獲得 根據(jù)文摘句
與文檔dc中的文本文檔句子
相似度
將與文摘句最相似句子的位置信息作為
在文摘中的參考信息位置,生成句子順序與dc一致的綜述并輸出。
權(quán)利要求
1.一種考慮概念抽象度的淺層分析自動文檔綜述方法,其特征在于步驟如下
步驟1獲得數(shù)據(jù)并設(shè)定抽象度值將查詢Q提交給搜索引擎,返回查詢結(jié)果Web文檔集D={d1,d2,…,dk,…},對D中的諸文檔進行提取文本內(nèi)容、去除停用詞與網(wǎng)頁標記、詞根還原處理后,以文本文檔句子為基本單位,按照文本文檔句子出現(xiàn)的次序,順序存儲為集合其中
是序號為l、文本文檔dk包含的一個文本文檔句子,集合R包含的文本文檔句子個數(shù)為N=|R|;然后設(shè)定文檔綜述的抽象度值θ,0≤θ≤1,θ值隨抽象度增加而增大;
步驟2將文本文檔句子表示為概念模型矢量先將R中所有出現(xiàn)的詞匯轉(zhuǎn)換為概念,將得到的所有概念無重復地組成概念集合C={c1,c2,…,ci,…},其中ci為一個概念,共計得到n=|C|個概念,然后以C為特征,仿照tf·idf加權(quán)方案將R表示為N個概念模型矢量組成的集合其中所述轉(zhuǎn)換中,若詞匯為多義詞,則采用基于本體的多義詞消歧處理實現(xiàn),若詞匯為單義詞或為未在本體中出現(xiàn)的未登錄詞,則采用以詞匯自身作為其概念的方法實現(xiàn);所述文本文檔句子概念模型矢量
的分量為ci在
中的權(quán)重,其中ni為D中有詞匯可轉(zhuǎn)換為ci的文本文檔數(shù)目,log(|D|/ni)是ci在D中的逆頻率,tfi是ci對應詞匯在dk中的出現(xiàn)頻率,freq(ci)是ci在
中的頻率;
步驟3將主題近似的文本文檔句子進行聚集對
中所有文本文檔句子的概念矢量進行基于文本文檔句子語義相似度的合成聚類,每次合成時計算合成前后,類的半偏相關(guān)系數(shù)HDCC,當HDCC大于閥值μ時聚類停止,0<μ≤1;聚類完成后得到由主題近似文本文檔句子組成的聚類簇集合{LT1,…,LTo};所述文本文檔句子語義相似度其中
與
為任意兩不同的文本文檔句子概念模型矢量,
為
權(quán)值非0的概念數(shù),
為
與
權(quán)值非0且相同的概念數(shù);所述的半偏相關(guān)系數(shù)分子WM-WK-WL表示聚類過程中待合并的中間類CLK和CLL合并為下一層次的類CLM時引起的類內(nèi)離差平方和的增量,分母表示類CLK和類CLL合并前,同層次所有類的總離差平方和,其中任意類CL的類內(nèi)離差平方和為
步驟4計算壓縮比確定綜述長度利用子概念頻度方法從C中抽出主題概念并構(gòu)成主題概念集合TC={tc1,…,tcj,…,tcm},根據(jù)主題概念的數(shù)量|TC|和抽象度設(shè)定值θ計算自動綜述的壓縮比r,得到綜述長度為N·r;所述的壓縮比其中,λβ為比例調(diào)節(jié)系數(shù),取值為1≤λβ≤N/|TC|;
步驟5確定各文本文檔句子抽象度值將TC作為基準,計算R的各文本文檔句子抽象度值所述其中,deg(c1/c2)=|1/log2[|pcc(c1,Root)|+1]-1/log2[|pcc(tc2,Root)|+1]|為概念相對抽象度值,c1,c2∈C是任意一對概念,Root是本體的根概念,|pcc(c,Root)|是本體中概念c到Root之間連接邊的條數(shù);所述
步驟6抽取文摘句根據(jù)θ值、各文本文檔句子抽象度值、查詢Q、文摘句集合A,A=φ,計算R各文本文檔句子的IMMRA值;依次從{LT1,…,LTo}各簇中每次抽取一個IMMRA值最大的文本文檔句子作為文摘句,放入A并從所屬簇中去除,循環(huán)進行直到|A|≥N·r;所述其中,λ為相似度參考權(quán)值參數(shù),0≤λ≤1;
步驟7對文摘句進行排序并輸出綜述文檔在文檔集合中找到包含A中文摘句最多的文檔dc作為參考框架,將各文摘句按各自在dc中最相似文本文檔句子的位置進行排序定位,最終生成文摘句排列順序與dc一致的綜述文檔輸出。
全文摘要
本發(fā)明涉及一種考慮概念抽象度的淺層分析自動文檔綜述方法,屬于信息檢索、情報科學領(lǐng)域。其特征在于首先對于文檔進行預處理并設(shè)定抽象度值,然后通過多義詞消歧處理把文檔中的句子用概念矢量模型表示,再將句子聚類成多個主題相似的簇,接著根據(jù)從文集中抽取出的主題詞個數(shù)確定綜述的壓縮比,之后確定句子的抽象度,繼而依據(jù)IMMRA值依次從聚類簇中選取壓縮比要求數(shù)量個文摘句,最后對抽取的文摘句進行排序并輸出綜述文檔。有益效果實現(xiàn)了考慮抽象度的自動文檔綜述,降低自動綜述文摘因概念包含關(guān)系引起的信息冗余或缺失;方法可以根據(jù)主題的數(shù)量自適應調(diào)整文摘的長度,還可以根據(jù)用戶的抽象度需求調(diào)節(jié)綜述的歸納度,具有很好的適應性。
文檔編號G06F17/30GK101382962SQ200810231990
公開日2009年3月11日 申請日期2008年10月29日 優(yōu)先權(quán)日2008年10月29日
發(fā)明者雷 郭, 王曉東, 俊 方 申請人:西北工業(yè)大學