本發(fā)明涉及一種面向大型企業(yè)的、用于企業(yè)電子公文文檔自動摘要的方法,具體為一種用于企業(yè)電子公文文檔自動摘要的方法。
背景技術(shù):
隨著信息化建設(shè)的深入,企業(yè)中流程越來越多地運行在線上,大量的業(yè)務(wù)運行信息以電子文檔的形式存在。企業(yè)文檔通常編輯次數(shù)有限,但由于承載著具體的業(yè)務(wù)信息,通常會被大量地閱讀,在閱讀人數(shù)、次數(shù)上都遠(yuǎn)遠(yuǎn)超過了編輯的次數(shù),且在文檔搜索、查閱等很多場合僅需要略讀,而不需要精讀該文檔,因此,若能研究公文電子文檔的摘要提取技術(shù),從海量的歷史公文文檔信息中提取出其重點內(nèi)容,并以摘要的形式展現(xiàn)給用戶,能夠為用戶的信息瀏覽帶來大量的便利,提升了用戶的工作效率。所以,異構(gòu)文檔的摘要信息自動提取也成為了當(dāng)今信息化領(lǐng)域的一個熱門研究主題。
另一方面,在海量的企業(yè)電子文檔數(shù)據(jù)中,有很一大部分是公文文檔。所謂企業(yè)公文,泛指在企業(yè)中常用的請示、通知、函、報告、會議紀(jì)要等格式文檔。不同于其它文檔,公文文檔通常具有主題突出、文風(fēng)樸實、結(jié)構(gòu)緊湊等特點。以會議紀(jì)要為例,企業(yè)中的會議形形色色,盡管會議的內(nèi)容千差萬別,但會議的共同特點,即:目的性、組織計劃性、溝通性、交流方式多樣性。大多數(shù)的會議都是圍繞著某個主題展開溝通與討論。而傳統(tǒng)的摘要提取技術(shù)通常僅依撤句子的打分高低提取出會議摘要.這種方法提取的信息摘要可能存在結(jié)構(gòu)不嚴(yán)謹(jǐn)、重點提煉較差等問題。
文檔摘要,其形式化定義是:由計算機相關(guān)程序和系統(tǒng)創(chuàng)建的文檔的一種易于理解的簡化版本,通過從文檔中提煉出比較重要的內(nèi)容,然后將這些比較重要的內(nèi)容以一種簡單的形式展現(xiàn)給用戶。所以,摘要即是對從文檔中提取出的最主要內(nèi)容總結(jié)。摘要基于幾個方面可以被分成不同的類別,第一種,也是最常用的是“提取摘要”,是指從文檔中提取出一些最能夠代表文檔語義信息的單元(通常是句子);第二種摘要稱為“抽象摘要”,是指不是直接提取關(guān)鍵句子,而是基于語義的、由重新生成的句子組成的,也就是說其提取的是基于重點詞句的信息而不是基于句子本身,通常代表更高層次的一種摘要;第三種是“通用摘要”,是不考慮任何上下文語義信息而是基于整個原始文檔固有模版、提取固定位置的句子最而產(chǎn)生的摘要。在上述三種摘要中,純粹的“抽象摘要”還只是停留在學(xué)術(shù)研究層面,遠(yuǎn)未達(dá)到實用化水平,且通常需要配合模版、用于某個特定業(yè)務(wù)上,如根據(jù)詳細(xì)的天氣預(yù)報信息而提煉的天氣預(yù)報簡報,使用用途較窄且不能通用;而“通用摘要”由于過于死板、依賴于模版的結(jié)構(gòu)和行文的準(zhǔn)確性,通常會固化到業(yè)務(wù)中、要求在文檔撰寫的同時就要考慮摘要生成,所以也僅能支持小范圍的應(yīng)用。本發(fā)明采用的是“提取摘要”技術(shù),也是目前文檔摘要的主流技術(shù)。
在“提取摘要”方面,業(yè)界目前也有較多的研究和應(yīng)用成果,通用的是以下兩種方法:
1、基于詞頻統(tǒng)計,實現(xiàn)文章摘要的自動提取
基于詞頻統(tǒng)計實現(xiàn)文章摘要自動提取的方法出自1958年的IBM公司科學(xué)家H.P. Luhn的論文《The Automatic Creation of Literature Abstracts》。它的基本原理是:文章的信息都包含在句子中,有些句子包含的信息多,有些句子包含的信息少。“自動摘要”就是要找出那些包含信息最多的句子。具體而言,句子的信息量用“關(guān)鍵詞”來衡量。如果包含的關(guān)鍵詞越多,就說明這個句子越重要。當(dāng)時Luhn提出用“簇”(cluster)表示關(guān)鍵詞的聚集。所謂“簇”可以認(rèn)為就是包含多個關(guān)鍵詞的句子。那么,句子的重要性的計算公式為:
句子的重要性 = (包含的關(guān)鍵詞的數(shù)量)2 / 句子的長度
其中,關(guān)鍵詞的識別,可以通過字典來完成。即,通過一個字典記錄所有業(yè)務(wù)相關(guān)的重要詞匯,句子經(jīng)過中文分詞后,與字典中的詞相匹配的分詞,即視為關(guān)鍵詞。
2、基于TextRank算法,實現(xiàn)文章摘要的自動提取
TextRank 算法是一種用于文本的基于圖的排序算法。其基本思想來源于谷歌的 PageRank算法。其原理是將文檔的每句話作為節(jié)點,句子之間的相似度作為邊權(quán)值構(gòu)建圖模型,用pagerank算法進(jìn)行求解,得到每個句子的得分。具體而言,TextRank 一般模型可以表示為一個有向有權(quán)圖G=(V,E),由點集合V和邊集合E組成,,E是VxV的子集。圖中任兩點Vi,Vj之間邊的權(quán)重為Wji,對于一個給定的點Vi,In(Vi)為指向該點的點集合,Out(Vi)為點 Vi 指向的點集合。點 Vi 的得分定義如下:
其中,d 為阻尼系數(shù),取值范圍為 0 到 1,代表從圖中某一特定點指向其他任意點的概率, 一般取值為0.85。使用TextRank 算法計算圖中各點的得分時, 需要給圖中的點指定任意的初值, 并遞歸計算直到收斂, 即圖中任意一點的誤差率小于給定的極限值時就可以達(dá)到收斂, 一般該極限值取 0.0001。
基于TextRank的自動文摘屬于自動摘錄,通過選取文本中重要度較高的句子形成文摘,其主要步驟如下:
1)預(yù)處理:將輸入的文本或文本集的內(nèi)容分割成句子,并對句子進(jìn)行分詞、去除停止詞后得到保留后的候選關(guān)鍵詞。
2)句子相似度計算:給定兩個句子,利用余弦定理等公式計算句子的相似度距離,若兩個句子之間的相似度大于給定的閾值,就認(rèn)為這兩個句子語義相關(guān)并將它們連接起來,即邊的權(quán)值。
3)句子權(quán)重計算:根據(jù)公式,迭代傳播權(quán)重計算各句子的得分;
4)抽取文摘句:將3得到的句子得分進(jìn)行倒序排序,抽取重要度最高的n個句子作為候選文摘句。
5)形成文摘:根據(jù)字?jǐn)?shù)或句子數(shù)要求,從候選文摘句中抽取句子組成文摘。
上述兩種方法,都是采用“摘要抽取”方法,核心都是基于句子的重要性排序,針對僅利用單篇文檔本身的信息即可實現(xiàn)文檔摘要的提取,未針對文檔內(nèi)容、類型的特點做出優(yōu)化。在實際的使用過程中,我們發(fā)現(xiàn)上述算法運行結(jié)果較為不穩(wěn)定,無法持續(xù)獲得令人滿足的效果。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于提供一種用于企業(yè)電子公文文檔自動摘要的方法,該方法能夠充分利用企業(yè)公文文檔具有的主題性強、標(biāo)題含義明確的特點,從而在企業(yè)電子公文文檔的自動摘要領(lǐng)域獲得比現(xiàn)有通用文檔摘要技術(shù)方案更好的效果。
為實現(xiàn)上述目的,本發(fā)明的技術(shù)方案是:一種用于企業(yè)電子公文文檔自動摘要的方法,包括如下步驟,
S1、文檔預(yù)處理:獲得文檔的標(biāo)題,以及從各種格式的企業(yè)公文文檔抽取出純文本流;而后,基于文檔的純文本流,以包括句號、分號、感嘆號的代表句子結(jié)尾的標(biāo)點符號為分隔符,將文檔進(jìn)行分句,獲得文檔的所有句子構(gòu)成;
S2、正規(guī)化表示:文檔正規(guī)化即將文檔用數(shù)學(xué)向量和矩陣進(jìn)行表示,并進(jìn)行分詞權(quán)重調(diào)整,用于后續(xù)的句子排序過程中;
S3、句子初步排序:將文檔的標(biāo)題作為主題句,將其詞袋模型向量記為A;將文檔中的其它句子的詞袋模型向量記為B,并與A進(jìn)行相似度比較,采用余弦相似度計算公式,如下:
上式中,similarity代表A、B兩個向量的相似度;通過上述余弦相似度計算A和B兩個向量的距離,而后通過反余弦函數(shù)計算夾角θ作為相似度的值——夾角越小,代表相似度越高;完成文檔所有句子與標(biāo)題的余弦相似度計算后,即可獲得所有句子與標(biāo)題的相似性排序;
S4、句子細(xì)化排序:經(jīng)過上述步驟S3的余弦相似度的初步排序,已獲得初步的關(guān)鍵句,由于步驟S3的結(jié)果只考慮了相關(guān)性,并沒有考慮新穎性,因此采用MMR,為已經(jīng)排好序的所有句子引入一個懲罰因子,作為新穎性的考慮,從而對所有的句子重新打分排序,公式如下:
步驟S3的余弦相似度的初步排序后排第一的句子不需要重新計算,從第二句開始,采用上述最終相似度計算公式進(jìn)行最終相似度計算;其中, similarity(i)代表第i個句子的最終相似度;similarity(i, title)代表在步驟S3計算得到的第i個句子與標(biāo)題的相似度值;similarity(i, i-1)代表第i個句子與第i-1個句子的相似度值;a為懲罰因子,取經(jīng)驗數(shù)據(jù)a=0.5,表示第i個句子與標(biāo)題的相似度及第i個句子與第i-1個句子相似度的懲罰各占一半的權(quán)重;
S5、文檔摘要輸出:經(jīng)過步驟S4,實現(xiàn)文檔所有句子的重要性排序,并兼顧了語義相似度和新穎性,因此可將排序后的前N句話作為輸出結(jié)果。
在本發(fā)明一實施例中,所述步驟S2的具體實現(xiàn)步驟如下:
S21、分詞;
S22、去除停用詞;
S23、用詞袋模型表示,即將詞定義為一個維度,那么整個文檔即可表示成在所有詞組成的詞典的空間中的一個高維稀疏向量;
S24、正規(guī)化處理:采用TF-IDF對步驟S23的結(jié)果詞袋模型向量進(jìn)行正規(guī)化處理,即將原不帶權(quán)重的詞袋模型變成帶權(quán)重的詞袋模型,其權(quán)重為每個詞的TFIDF值,TF-IDF包括TF、IDF兩個公式,具體如下:
通過TF-IDF進(jìn)行正規(guī)化處理后,文檔的詞袋向量能夠更好地表現(xiàn)出文檔的信息。
相較于現(xiàn)有技術(shù),本發(fā)明具有以下有益效果:
本發(fā)明方法能夠充分利用企業(yè)公文文檔具有的主題性強、標(biāo)題含義明確的特點,從而在企業(yè)電子公文文檔的自動摘要領(lǐng)域獲得比現(xiàn)有通用文檔摘要技術(shù)方案更好的效果。
附圖說明
圖1為本發(fā)明文檔自動摘要流程圖。
圖2為本發(fā)明文檔預(yù)處理和詞待模型表示。
具體實施方式
下面結(jié)合附圖,對本發(fā)明的技術(shù)方案進(jìn)行具體說明。
本發(fā)明的一種用于企業(yè)電子公文文檔自動摘要的方法,包括如下步驟,
S1、文檔預(yù)處理:獲得文檔的標(biāo)題,以及從各種格式的企業(yè)公文文檔抽取出純文本流;而后,基于文檔的純文本流,以包括句號、分號、感嘆號的代表句子結(jié)尾的標(biāo)點符號為分隔符,將文檔進(jìn)行分句,獲得文檔的所有句子構(gòu)成;
S2、正規(guī)化表示:文檔正規(guī)化即將文檔用數(shù)學(xué)向量和矩陣進(jìn)行表示,并進(jìn)行分詞權(quán)重調(diào)整,用于后續(xù)的句子排序過程中;
S3、句子初步排序:將文檔的標(biāo)題作為主題句,將其詞袋模型向量記為A;將文檔中的其它句子的詞袋模型向量記為B,并與A進(jìn)行相似度比較,采用余弦相似度計算公式,如下:
上式中,similarity代表A、B兩個向量的相似度;通過上述余弦相似度計算A和B兩個向量的距離,而后通過反余弦函數(shù)計算夾角θ作為相似度的值——夾角越小,代表相似度越高;完成文檔所有句子與標(biāo)題的余弦相似度計算后,即可獲得所有句子與標(biāo)題的相似性排序;
S4、句子細(xì)化排序:經(jīng)過上述步驟S3的余弦相似度的初步排序,已獲得初步的關(guān)鍵句,由于步驟S3的結(jié)果只考慮了相關(guān)性,并沒有考慮新穎性,因此采用MMR,為已經(jīng)排好序的所有句子引入一個懲罰因子,作為新穎性的考慮,從而對所有的句子重新打分排序,公式如下:
步驟S3的余弦相似度的初步排序后排第一的句子不需要重新計算,從第二句開始,采用上述最終相似度計算公式進(jìn)行最終相似度計算;其中, similarity(i)代表第i個句子的最終相似度;similarity(i, title)代表在步驟S3計算得到的第i個句子與標(biāo)題的相似度值;similarity(i, i-1)代表第i個句子與第i-1個句子的相似度值;a為懲罰因子,取經(jīng)驗數(shù)據(jù)a=0.5,表示第i個句子與標(biāo)題的相似度及第i個句子與第i-1個句子相似度的懲罰各占一半的權(quán)重;
S5、文檔摘要輸出:經(jīng)過步驟S4,實現(xiàn)文檔所有句子的重要性排序,并兼顧了語義相似度和新穎性,因此可將排序后的前N句話作為輸出結(jié)果。
在本發(fā)明一實施例中,所述步驟S2的具體實現(xiàn)步驟如下:
S21、分詞;
S22、去除停用詞;
S23、用詞袋模型表示,即將詞定義為一個維度,那么整個文檔即可表示成在所有詞組成的詞典的空間中的一個高維稀疏向量;
S24、正規(guī)化處理:采用TF-IDF對步驟S23的結(jié)果詞袋模型向量進(jìn)行正規(guī)化處理,即將原不帶權(quán)重的詞袋模型變成帶權(quán)重的詞袋模型,其權(quán)重為每個詞的TFIDF值,TF-IDF包括TF、IDF兩個公式,具體如下:
通過TF-IDF進(jìn)行正規(guī)化處理后,文檔的詞袋向量能夠更好地表現(xiàn)出文檔的信息。
以下為本發(fā)明的具體實施過程。
基于“摘要抽取”方法的文檔自動摘要方法均基于一個假設(shè):一篇文檔的核心思想可以用文檔中的某幾句話來概括。所以,摘要的任務(wù)就變成了找到文檔中最重要的幾句話,也就是一個拆分句子加上句子排序的過程。本專利也采用這個思路。與現(xiàn)有方法不同的是,本發(fā)明旨在解決企業(yè)電子公文的摘要問題,而企業(yè)電子公文有兩個顯著的特點:
1)文章主題性強。通篇公文通常都圍繞一個顯著的主題進(jìn)行內(nèi)容闡述。如一份“新聞稿”通常圍繞某個事件進(jìn)行過程和總結(jié)性說明。
2)文章標(biāo)題都有明確的意義,且通常和文章的主題強相關(guān)。如一份“通知”,通常是“關(guān)于XXXX的通知”。由于公文的嚴(yán)肅性,通常不會有諸如網(wǎng)絡(luò)文章的“標(biāo)題黨”現(xiàn)象存在。
本發(fā)明充分利用了公文文檔的上述特點,改進(jìn)了現(xiàn)有基于“摘要抽取”方法的文檔自動摘要算法和過程,其主要流程如圖1所示:
步驟1:文檔預(yù)處理。包括:獲得文檔的標(biāo)題(通?;跀?shù)據(jù)庫中保存的元數(shù)據(jù),也可以從文件名或文檔全文中提?。约皬母鞣N格式的企業(yè)公文文檔(如word、pdf等)抽取出純文本流。而后,基于文檔的純文本流,以句號、分號、感嘆號等代表句子結(jié)尾的標(biāo)點符號為分隔符,將文檔進(jìn)行分句,獲得文檔的所有句子構(gòu)成。
步驟2:正規(guī)化表示。文檔正規(guī)化是指將文檔(句子,含標(biāo)題)用數(shù)學(xué)向量和矩陣進(jìn)行表示,并進(jìn)行一些必要的分詞權(quán)重調(diào)整,用于后續(xù)的句子排序過程中。具體又包括以下幾個步驟:
1)分詞;
2)去除停用詞;
3)用詞袋(bag of words)模型表達(dá)。詞袋模型是一種主流的文檔數(shù)學(xué)表達(dá)模型,它將詞定義為一個維度,那么一篇文檔、一句話就可以表示成在所有詞組成的“詞典”的空間中的一個高維稀疏向量。如圖2所示:
上述詞袋模型向量的維度等于詞典的維度,那么如果目標(biāo)句子中包含詞典的某個詞,則其詞袋向量模型就在詞典中該詞的順序位置上標(biāo)注為1,其它標(biāo)注為0。
4)正規(guī)化處理。本發(fā)明采用TF-IDF對3的結(jié)果詞袋向量進(jìn)行正規(guī)化處理,這個過程可以理解為將原不帶權(quán)重的詞袋模型變成帶權(quán)重的詞袋模型,其權(quán)重為每個詞的TFIDF值,TFIDF的原理是:如果某個詞或短語在一篇文章中出現(xiàn)的頻率高,并且在其他文章中很少出現(xiàn),則認(rèn)為此詞或者短語具有很好的類別區(qū)分能力。TF-IDF實際上包括TF、IDF兩個公式,具體如下:
通過TF-IDF進(jìn)行正規(guī)化處理后,文檔的詞袋向量可以更好地表現(xiàn)出文檔的信息。
步驟3:句子初步排序
將文檔的標(biāo)題作為主題句,將其詞袋向量記為A;將文檔中的其它句子(將其詞袋向量記為B)與A進(jìn)行相似度比較,采用余弦相似度計算公式,如下:
通過上述余弦相似度計算A和B兩個向量的距離,而后通過反余弦函數(shù)計算夾角θ作為相似度的值——夾角越小,代表相似度越高。
在上述公式中,similarity代表A、B兩個向量的相似度。而向量的相似度可以采用業(yè)界通用的余弦定理進(jìn)行計算:上述公式的后半部分即為余弦定理,可以計算出兩個向量的夾角的余弦值,即cos(θ);cos(θ)的值分布在-1到1之間,當(dāng)cos(θ)為1時代表兩個向量完全相同,cos(θ)為-1時代表兩個向量完全相反,cos(θ)越趨近與1,代表兩個向量的相似度越高,同時也代表兩個句子的相似度越高。完成文檔所有句子與標(biāo)題的余弦相似度計算后,按照余弦相似度從大到小排序,即可獲得所有句子與標(biāo)題的相似性排序;
完成文檔所有句子與標(biāo)題的余弦相似度計算后,就可以獲得句子與標(biāo)題的相似性排序。
步驟4:句子細(xì)化排序
經(jīng)過上述步驟3的初步排序,已經(jīng)通過余弦相似度排序,獲得初步的關(guān)鍵句。但是,步驟S3的結(jié)果只考慮了句子和標(biāo)題的相關(guān)性,并沒有考慮句子的新穎性,從而雖然構(gòu)成摘要的關(guān)鍵句都是與標(biāo)題最相似的,但句子彼此之間卻也會相似,導(dǎo)致摘要的整體效果并不理想。因此,在當(dāng)前已經(jīng)排好序的基礎(chǔ)上,引入一個懲罰因子對所有的句子進(jìn)行重新打分排序,以兼顧句子相似性和新穎性。改進(jìn)后的句子相似性計算公式如下:
步驟S3的余弦相似度的初步排序后排第一的句子不需要重新計算,從第二句開始,采用上述最終相似度計算公式進(jìn)行最終相似度計算;其中, similarity(i)代表第i個句子的最終相似度;similarity(i, title)代表在步驟S3計算得到的第i個句子與標(biāo)題的相似度值;similarity(i, i-1)代表第i個句子與第i-1個句子的相似度值;a為懲罰因子,取經(jīng)驗數(shù)據(jù)a=0.5,表示第i個句子與標(biāo)題的相似度及第i個句子與第i-1個句子相似度的懲罰各占一半的權(quán)重;
步驟5:文檔摘要輸出
經(jīng)過步驟4,已經(jīng)實現(xiàn)了文檔所有句子的重要性排序,并兼顧了語義相似度和新穎性。然而,如果僅僅將排序后的前N句話作為輸出結(jié)果,摘要的可讀性通常不太好。因為各個句子都是從不同的段落中選擇出來的,如果只是生硬地連起來、作為摘要,很難確保句子之間的連貫。
通過實驗,本文采用一種較為簡單、但可行的方法解決可讀性問題,就是將排序之后的句子按照原文中的順序輸出。經(jīng)過驗證,在多數(shù)情況下可以提高整體摘要的可讀性。
以上各步驟即為本發(fā)明實現(xiàn)公文電子文檔自動摘要的創(chuàng)新方法?;谏鲜龇椒ㄩ_發(fā)的電子公文自動摘要系統(tǒng),能夠良好地對各類公文,包括通知、新聞稿、函、請示等進(jìn)行自動摘要提取,較小了企業(yè)用戶定位、尋找文檔的時間,提升搜索及文檔管理效率。
以上是本發(fā)明的較佳實施例,凡依本發(fā)明技術(shù)方案所作的改變,所產(chǎn)生的功能作用未超出本發(fā)明技術(shù)方案的范圍時,均屬于本發(fā)明的保護(hù)范圍。