本發(fā)明涉及中文電子文書的分析、處理領域,具體而言是一種實現(xiàn)文書檔案價值自動鑒定的方法。
背景技術:
文書檔案是機關、團體、企事業(yè)單位對在行政管理事務活動中產生的由通用文書轉化而來的檔案的習慣稱謂,是檔案部門普遍要進行管理的檔案。檔案價值鑒定工作是一項俗稱“兩分清”的工作,即應分清哪些需要保存,哪些不需要保存,也即鑒別“存”與“毀”的工作。分清應該保存的文書檔案具體保存多長時間,對應存文書檔案劃定保管期限。目前各機關單位均采用人工界定的方式進行文書檔案保管期限劃分。
由于文書檔案門類較多,各門類對應的保管期限又不盡一致。隨著社會歷史進程的變遷,一份文書檔案的保管價值會隨外界環(huán)境而發(fā)生變化。因此,文書檔案價值的鑒定需要實現(xiàn)自動化,以應對不斷變化的外界形勢。
然而,目前實現(xiàn)文書檔案價值鑒定的自動化較為困難,主要原因如下:
1、檔案行業(yè)采用預歸檔方式較多,通常由業(yè)務部門文書人員手工操作完成。而文書人員流動較大,經常會出現(xiàn)歸檔范圍出錯和保管期限設置錯誤的現(xiàn)象,導致價值鑒定的工作經驗無法長效積累。目前業(yè)內缺乏有代表性的經驗值數據來支撐文書檔案價值鑒定自動化工作的開展。
2、利用文書檔案關鍵字(詞)相似度度量的方法,實現(xiàn)對文書檔案價值鑒定的自動化推薦,目前業(yè)內此項技術尚為空白。
關鍵字(詞)是快速獲取文件主題的重要方法,在信息檢索和自然語言處理等領域均有重要應用。目前,中文文書關鍵字(詞)的提取算法主要有:特征頻率方法(Term Frequency:TF)、文檔頻率方法(Document Frequency:DF)、反文檔頻率方法(Inverse Document Frequency:IDF)、信息增益方法(Information Gain:IG)、互信息方法(Mutual Information:MI)、期望交叉熵(Expected Cross Entropy:ECE)及χ2統(tǒng)計量(Chi-square:CHI)等。
傳統(tǒng)的方法僅依靠詞匯的統(tǒng)計信息進行關鍵字(詞)的提取,沒有將文件所屬行業(yè)的主題度關鍵字(詞)的提取影響考慮在內。從檔案行業(yè)的業(yè)務角度出發(fā),目前業(yè)界尚未建立一個完整的以文書檔案保管價值為主題的關鍵字(詞)推薦標注體系,更沒有形成一套文書檔案保管價值“自動推薦”的解決方案。
推薦方法是整個推薦系統(tǒng)中最核心、最關鍵的部分,很大程度上決定了推薦系統(tǒng)性能的優(yōu)劣。目前,主要的推薦方法包括:基于內容推薦、協(xié)同過濾推薦、基于關聯(lián)規(guī)則推薦、基于效用推薦、基于知識推薦和組合推薦。
應用最多的是內容推薦和協(xié)同過濾推薦的組合。最簡單的做法就是分別用基于內容的方法和協(xié)同過濾推薦方法產生一個推薦預測結果,然后組合其結果。盡管從理論上有很多種推薦組合方法,但在某一具體問題中并不見得都有效,組合推薦一個最重要原則就是通過組合后要能避免或彌補各自推薦技術的弱點。綜上,截至目前文書檔案業(yè)界中并未發(fā)現(xiàn)解決此問題的成熟方案,而本發(fā)明為了解決這一問題,結合文書檔案保管特色、利用基于關鍵字(詞)的詞法分析提供了一種文書檔案價值鑒定的自動推薦法,實現(xiàn)了文書檔案價值鑒定的自動化。
技術實現(xiàn)要素:
本發(fā)明為解決上述問題,旨在提供一種實現(xiàn)文書檔案價值自動鑒定的方法。
本發(fā)明提供一種實現(xiàn)文書檔案價值自動鑒定的方法,包括如下步驟:
步驟一,分別提取文書檔案的標題和全文內容的關鍵字(詞)內容;
步驟二,分別對標題、全文內容的關鍵字(詞)和標題的關鍵字(詞)對照“受控詞表”進行關鍵詞分配,得到關鍵字(詞)的集合;
步驟三,對上述關鍵詞分配的結果進行計算判別,通過關鍵字(詞)權重詞頻計算確定歸檔類別、通過自動標注分類計算確定保管期限,進而分別得到分別包含歸檔類別和保管期限的結論一、結論二;
步驟四,根據結論一、結論二的結果是否一致,綜合推薦歸檔類別和保管期限。
作為優(yōu)選,在所述步驟一中,利用馬爾科夫模型通過詞性標注過濾停用詞。
作為優(yōu)選,在所述步驟一中,若文書檔案的標題為空,則提取首、尾段關鍵字(詞)來代替標題關鍵字(詞)來完成后續(xù)分類。
作為優(yōu)選,在所述步驟二中,將標題和標題、全文內容的關鍵字(詞)對照預設的已歸檔索引庫,進行相關度矩陣計算,進而得到結論一;同時僅將標題的關鍵字(詞)對照《文書檔案保管期限表》,進行分類對應,進而得到結論二。
作為優(yōu)選,在所述步驟三中,所述權重詞頻計算針對同一關鍵字(詞)k與不同受控詞表分類”c之間關鍵詞權重P(k,g)的主次強弱關系,對主要關系給予較大的權值,次要關系給予較小的權值,即:
(1≤p≤g)P(k,c)=p。
作為優(yōu)選,在所述步驟三中,所述自動標注分類計算TFIDF=TF(詞頻)*IDF(逆文檔頻率)的值,然后降序排列,取前列的關鍵字(詞);然后對照期限分類庫,完成保管期限的確定。
作為優(yōu)選,在所述步驟四中,若推薦分類不符合業(yè)務需求,則修改當前文檔關鍵字的分類,把當前文檔的關鍵字加入到“受控詞表”對應的條目中。
和現(xiàn)有技術相比,本發(fā)明具有如下技術優(yōu)勢:
1)本發(fā)明建立了以文書檔案保管價值為主題的關鍵字(詞)庫,根據相關文件提取出標題和文書中的關鍵字(詞),確定文書檔案的歸檔類別;
2)本發(fā)明結合電子全文內容抽取和全文相似度比較技術,自動與文書檔案已歸檔索引庫進行全文內容相似度比對,提取出相似度較高的全文關鍵字(詞),確定文書檔案的保管期限;
3)本發(fā)明打破了傳統(tǒng)的文書檔案價值鑒定方式,將人工鑒定變?yōu)樽詣予b定,節(jié)約人力,提升了文書檔案保管期限劃分的準確率,文書檔案保管期限快速劃分具備可行性;
4)本發(fā)明建立了以文書檔案保管價值為主題的關鍵字(詞)數據庫,為深化文書檔案保管業(yè)務(如已歸檔索引數據庫的更新)與個性化推薦(如推薦相似內容)提供了數據支撐;
5)本發(fā)明為大批量文書檔案價值的自動鑒定提供了手段,可實現(xiàn)多個文書檔案保管價值鑒定的并發(fā)操作,提升了文書檔案價值鑒定的效率。
附圖說明
圖1為本發(fā)明的實施例的流程說明圖;
圖2為檔案文書分類類別結構圖;
圖3為“關鍵字(詞)結構樹”的結構圖;
圖4為關鍵詞與分類一對一關系的結構圖;
圖5為關鍵詞與分類一對多關系的結構圖;
圖6為關鍵詞與分類多對多關系的結構圖;
圖7為本發(fā)明的實施例的流程說明圖。
具體實施方式
在機關、團體、企事業(yè)單位的日常工作中,文書檔案、歷史檔案的文書數據量龐大、種類繁多,如果按照傳統(tǒng)的文書檔案保管價值鑒定方法,針對文書檔案、檔案業(yè)務人員則需逐行查看每份檔案內容,再對照《機關文件材料歸檔范圍和文書檔案保管期限規(guī)定》,對文書檔案進行分類并界定保管期限,費時費力。而大部分文書檔案分類依賴人員手動處理,沒有統(tǒng)一的管理機制,造成大量的人力、時間及資金的浪費。
基于此種情況,我們提出了一種實現(xiàn)文書檔案價值自動鑒定的方法,可以對文書檔案進行自動歸類,進行統(tǒng)一、有效的管理。本發(fā)明所要解決的核心問題是:
提供一套通過對文書檔案進行關鍵字(詞)相似度度量的方法,實現(xiàn)文書檔案價值鑒定的自動分類與推薦。
下面結合實例對本發(fā)明的具體實施方法作進一步描述。而該實例用于更加清楚地說明本發(fā)明的技術方案,而不能以此來限制本發(fā)明的保護范圍。
參見圖1,本發(fā)明通過技術手段實現(xiàn)了文書檔案的價值鑒定的自動推薦,主要步驟為:
步驟一,分別提取文書檔案的標題和全文內容的關鍵字(詞)內容;
本步驟為關鍵字的提取,對于后面的計算至關重要。一般而言,一篇文書檔案由標題、章節(jié)、段落、句子、詞等文本組成。文書檔案自動分類的核心任務是提取文書檔案的關鍵字(詞),并根據關鍵字所處文檔的不同部分賦予不同的權重,比對《文書檔案保管期限》或者已歸檔的索引規(guī)則,計算并自動標注文檔所屬分類。
申請人通過對檔案行業(yè)大量文書檔案的自動分類標注處理經驗得出:
1)絕大多數文書檔案的標題名基本能夠反映出該文檔的主題內容;
2)對于標題名特征不是很明顯的文書檔案,采用標題、首尾段、中間內容等維度提取特征項信息計算分類標注。
參見圖3,圖3為“關鍵字(詞)結構樹”的結構圖,關鍵詞自動標注分為兩個步驟:關鍵詞抽取(keyword extraction)與關鍵詞分配(keyword assignment)。其中關鍵詞抽取,是從文檔內容中尋找并提取關鍵詞;
使用隱馬爾科夫模型(HMM)對輸入序列進行詞性標注(part-of-speech tagging),并過濾掉助詞、副詞等停用詞(stop words),只考慮剩下的有實際意義的詞。所述詞性標注的目標就是在產生中文分詞那樣的詞序列的同時,給每個產生的詞標注一個詞性。
詞性標注的處理參見下表所示:
表格中,(a)為原始中文句子,(b)為分詞結果,(c)為詞性分析結果
本實例處理一份標題為“關于XX縣城鎮(zhèn)環(huán)境噪聲達標驗收的通知”的文檔。那么經過上述方法去除無用的停用詞后,只留下名詞“XX縣”,“城鎮(zhèn)”,“環(huán)境”,“噪聲”,“通知”幾個關鍵字(詞)的集合。
步驟二,分別對標題、全文內容的關鍵字(詞)和標題的關鍵字(詞)對照“受控詞表”進行關鍵詞分配;
而關鍵詞分配是從一個預先構建好的受控詞表(controlled vocabulary)中推薦若干個詞或者短語分配給文檔作為關鍵詞。
參見圖4、圖5和圖6,關鍵字(詞)的集合與“檔案保管期限分類”之間的關系存有多種可能性。其中圖4為一對一的關系,即一個關鍵字(詞)只屬于一個分類;圖5為一對多的關系,即一個關鍵字(詞)屬于多個分類;而圖6為多對多的關系,即一個關鍵字(詞)屬于多個分類,而一個分類也可以包含多個關鍵字(詞)。
假設當前“檔案保管期限分類”有如下分類與受控詞表的對應關系:
上面所述的“AA縣”,“BB局”,“春節(jié)”,“工作”,“請示”幾個關鍵字(詞)的集合分別屬于
XX縣-無分類
BB局-單位分類BB局
春節(jié)-無分類
工作-無分類
請示-{BB局{辦公室2.7.1.1:[50]},BB局{辦公室2.7.2.1:[40]}}
步驟三,經過上述步驟的處理,關鍵詞與“受控詞表分類”之間可能存在一對多或多對多的關系。
對上述關鍵詞分配的結果進行計算判別,通過關鍵字(詞)權重詞頻計算確定歸檔類別、通過自動標注分類計算確定保管期限,進而分別得到分別包含歸檔類別和保管期限的推薦結論;
每一組關系中必然存在主次強弱之分,為了表明同一主題詞與不同“受控詞表分類”之間的主次強弱關系,本文規(guī)定了對主要關系給予較大的權值,次要關系給予較小的權值,即:
(1≤p≤g)P(k,c)=p
其中,P(k,g)為主題詞k與“受控詞表分類”c的關系權重值,P值的大小與主題詞k和“受控詞表分類”c之間的主次強弱關系成正比。這樣我們就可以在文本分類過程中,以不同“受控詞表分類”的權值之和的大小來自動標注分類。比如根據上步關鍵字所屬分類權重相加計算結果為:
BB局{辦公室2.7.1.1:[50]}權重50
BB局{辦公室2.7.2.1:[40]}權重40
因此可以通過這個權重值做出初步推薦,當前關鍵字所屬分類推薦值應該為:
辦公室[50]2.7.1.1永久
本文所用算法權值分配尺度規(guī)定如下:
1)當主題詞可以直接由檔案題名確定時,即某一個主題詞特指為某分類,且只要該主題詞出現(xiàn),該檔案文本就一定為這一分類時,P(k,g)=g;
2)若一個關鍵詞和多個“受控詞表分類”存在關系,根據主次強弱程度,分別給予相對應的權重值;對于比較專指或詞的長度較長的詞,給予較高的權重值。
其中,自動標注分類計算首先計算詞頻:
詞頻(TF)=某個詞在文章中出現(xiàn)的次數
考慮到文章有長短之分,為了便于不同文章的比較,進行"詞頻"標準化:
逆文檔頻率(Inverse Document Frequency,縮寫為IDF)用統(tǒng)計學語言表達,
就是在詞頻的基礎上,要對每個詞分配一個"重要性"權重。這個權重叫做"逆文檔頻率"(Inverse Document Frequency,縮寫為IDF),它的大小與一個詞的常見程度成反比。
逆文檔頻率計算為:
如果一個詞越常見,那么分母就越大,逆文檔頻率就越小越接近0。分母之所以要加1,是為了避免分母為0(即所有受控詞表都不包含該詞)。log表示對得到的值取對數。
最后計算TF-IDF的值:
TF-IDF=詞頻(TF)X逆文檔頻率(IDF)
TF-IDF與一個詞在文檔中的出現(xiàn)次數成正比,與該詞在整個受控詞表的出現(xiàn)次數成反比。所以,自動提取關鍵詞的算法就很清楚了,就是計算出文檔的每個詞的TF-IDF值,然后按降序排列,取排在最前面的幾個詞。
計算結果可能如下表:
由上表可見,函的TF-IDF值最大,那么此語句的主要關鍵詞就是“請示”。
隨后根據“檔案保管期限分類庫”中的關鍵字對照檔案分類標注,自動根據關鍵字排序,推薦相應的分類及保管期限。
步驟四,根據結論的結果是否一致,綜合推薦歸檔類別和保管期限。
綜上可見,實施例的方法為兩個途徑展開。其中:
途徑一:提取文書檔案標題關鍵(字)詞,對照《文書檔案保管期限表》進行分類對應(《文書檔案保管期限表》共計13類),初步確定該文件是否納入文書檔案歸檔范圍和歸檔類別。之后通過計算權重詞頻(如來源、時間、內容和形式特征等屬性)判別檔案的重要性程度(重要或一般),推薦歸檔類別和保管期限,得出推薦結論一。
途徑二:提取文書檔案標題和全文內容關鍵(字)詞,對照已歸檔索引庫,通過相關度計算,從已歸檔索引庫中獲取相似矩陣(如最相似的三篇文章),進行標題和全文比對。
以下用D(Document)表示檔案文本,特征項(Term,用t表示),指出現(xiàn)在文檔D中且能夠代表該文檔內容的基本語言單位,主要是由關鍵詞構成,文本可以用特征項集合表示為D(T1,T2,......Tn),其中Tk是特征項,要求滿足1≤k≤n。假設一篇文檔中有a、b、c、d四個特征項,那么這篇文檔就可以表示:
D(a,b,c,d)
對于其它要與之比較的文本,也將遵從這個特征項順序。對含有n個特征項的文本而言,通常會給每個特征項賦予一定的權重表示其重要程度,即:
D=D(T1,W1;T2,W2;......,Tn,Wn)
簡記為:
D=D(W1,W2,......,Wn)
我們把它叫做文本D的權值向量表示,其中Wk是Tk的權重,1≤k≤n
假設a、b、c、d的權重分別為30,20,20,10,那么該文本的向量表示為
D(30,20,20,10)
在向量空間模型中,兩個文本D1和D2之間的內容相關度Sim(D1,D2)常用向量之間夾角的余弦值表示,公式為:
其中,W1k、W2k分別表示文本D1和D2第k個特征項的權值1≤k≤n。
假設文本D1的特征項為a,b,c,d,權值分別為30,20,20,10,類目C1的特征項為a,c,d,e,權值分別為40,30,20,10,則D1的向量表示為:
D1(30,20,20,10,0)
C1的向量表示為:
C1(40,0,30,20,10)
根據上述公式計算推導出:
則根據上式計算出來的文本D1與類目C1相關度是0.86
之后通過計算權重詞頻(如來源、時間、內容和形式特征等屬性)判別檔案的重要性程度(重要或一般),推薦歸檔類別和保管期限,得出推薦結論二。
綜合兩個推薦結論,給出文書檔案歸檔類別和保管期限的最終推薦結論。
而當推薦意見不一致,可以融入機器學習方式,靈活選擇推薦標準和比對矩陣,主要體現(xiàn)在:
1)途徑選擇的原則:發(fā)現(xiàn)哪個途徑最有效,則優(yōu)先采取哪個途徑的推薦方式;
2)相似矩陣的變換原則:針對不同類別文書檔案進行相似矩陣成功率的記憶和轉換。如發(fā)現(xiàn)對于某類文書檔案選取兩篇文章比對更有效,則以后針對此類文書檔案相似矩陣自動轉換為選取兩篇文章。
3)充實已歸檔索引庫:提取出的關鍵(字)詞與已歸檔索引庫中的數據進行比對,出現(xiàn)新的關鍵(字)詞,則提示更新到已歸檔索引庫中,最終形成一個不斷更替的文書檔案關鍵字(詞)分類學習庫。
本發(fā)明實現(xiàn)了文書檔案價值鑒定的自動化推薦,可自動推薦文書檔案歸檔類別和保管期限,改變傳統(tǒng)人工鑒定的方式,有效提升了文書檔案保管工作的效率和準確性。
上述僅為本發(fā)明的優(yōu)選實施方式,應指出的是,對于本行業(yè)內的普通技術技術人員而言,在本發(fā)明的原理之下可以由一些改進和替換,該改進和替換也應視為本發(fā)明的保護范圍。