專利名稱::基于特征值比對(duì)的內(nèi)容分析方法
技術(shù)領(lǐng)域:
:本發(fā)明是關(guān)于一種基于特征值比對(duì)的內(nèi)容分析方法,特別是關(guān)于一種利用部分文件比對(duì)技術(shù)以提供快速及精確的內(nèi)容分析方法。
背景技術(shù):
:現(xiàn)有的機(jī)密防護(hù)系統(tǒng),在內(nèi)容分析中采用的部分文件比對(duì)方法,必須面臨機(jī)密辨識(shí)率與系統(tǒng)效能的兩難需求。較精確的機(jī)密辨識(shí)功能就會(huì)產(chǎn)生最多的數(shù)據(jù)比對(duì)作業(yè)而造成系統(tǒng)效能的沖擊,反之若是追求內(nèi)容分析的執(zhí)行效能則難以兼顧機(jī)密數(shù)據(jù)的辨識(shí)率。且因?yàn)椴糠治募葘?duì)技術(shù)所處理的是指數(shù)成長的復(fù)雜度問題,當(dāng)機(jī)密樣本數(shù)據(jù)或目標(biāo)文件長度增加時(shí),系統(tǒng)效能就會(huì)面臨急速惡化的困境。有鑒于機(jī)密防護(hù)技術(shù)在信息安全領(lǐng)域的應(yīng)用日益廣泛,誠然需要一個(gè)較佳的內(nèi)容分析方法,以達(dá)成機(jī)密防護(hù)系統(tǒng)于辨識(shí)率及效能方面的需求。由此可見,上述現(xiàn)有方式仍有諸多不足,實(shí)非良好的設(shè)計(jì),而亟待加以改良。
發(fā)明內(nèi)容本發(fā)明的目的即在于提供一種既快速又精確的內(nèi)容分析方法,是以切割特征值數(shù)據(jù)空間的方法改進(jìn)大型文件的比對(duì)效能與正確性,并依據(jù)目標(biāo)檔案的長度進(jìn)行文件比對(duì)參數(shù)的調(diào)整,從而達(dá)成機(jī)密辨識(shí)率與系統(tǒng)效能的兩難需求,且由于字符內(nèi)碼分布的特性,本發(fā)明在中文與英文檔案互相比對(duì)的作業(yè)中更能大幅減少比對(duì)次數(shù),而改善內(nèi)容分析的效能與正確性??蛇_(dá)成上述發(fā)明目的的一種基于特征值比對(duì)的內(nèi)容分析方法,至少包括文件特征建構(gòu)流程,將欲防護(hù)的機(jī)密文件利用文件特征建構(gòu)功能,進(jìn)行特征值的分區(qū)計(jì)算,并建構(gòu)出相應(yīng)的文件特征檔案;特征值加載流程,將各區(qū)特征值加載至所屬的數(shù)據(jù)結(jié)構(gòu)中;文件特征比對(duì)流程,利用文件特征比對(duì)功能將加載的文件特征數(shù)據(jù)向目標(biāo)文件進(jìn)行指定長度的數(shù)據(jù)內(nèi)容比對(duì),以判斷文件是否包含機(jī)密數(shù)據(jù)。本發(fā)明于建構(gòu)機(jī)密文件的特征值時(shí)根據(jù)各資料區(qū)塊所算出的字碼統(tǒng)計(jì)值,分區(qū)儲(chǔ)存特征值于所屬的特征檔案中,之后于文件比對(duì)階段再依各資料區(qū)塊的字碼統(tǒng)計(jì)值進(jìn)行分區(qū)比對(duì);如此可在大數(shù)據(jù)量的內(nèi)容分析作業(yè)中,尤其是中文與英文檔案互相比對(duì)的情況下大幅減少比對(duì)次數(shù)而改善系統(tǒng)的效能,同時(shí)因?yàn)樵谔卣髦当葘?duì)作業(yè)中加上字碼統(tǒng)計(jì)值的區(qū)別,使得特征雜湊值的沖突機(jī)率進(jìn)一步降低,而能提高內(nèi)容分析的正確率。另外在文件特征的比對(duì)作業(yè)中,本發(fā)明也依據(jù)目標(biāo)文件的長度調(diào)整數(shù)據(jù)比對(duì)之重迭參數(shù),使得數(shù)據(jù)量較小的比對(duì)作業(yè)有較精確的機(jī)密辨識(shí)率,而數(shù)據(jù)量大的比對(duì)作業(yè)則可改善系統(tǒng)的執(zhí)行效能。本發(fā)明的基于特征值比對(duì)的內(nèi)容分析方法,與其它現(xiàn)有技術(shù)相互比較時(shí),更具備下列的優(yōu)點(diǎn)本發(fā)明可改進(jìn)文件內(nèi)容分析作業(yè)的效能,尤其在中文與英文檔案互相比對(duì)時(shí)更能大幅減少比對(duì)次數(shù)而提高執(zhí)行效率。本發(fā)明可提高機(jī)密數(shù)據(jù)的辨識(shí)正確率,減少將文件誤判為含有機(jī)密的情形。本發(fā)明于數(shù)據(jù)量小的比對(duì)作業(yè)中具有精確的機(jī)密辨識(shí)率,而在數(shù)據(jù)量大的比對(duì)作業(yè)則提高執(zhí)行效能。圖1為本發(fā)明基于特征值比對(duì)的內(nèi)容分析方法的流程示意圖;圖2為該基于特征值比對(duì)的內(nèi)容分析方法的文件特征建構(gòu)流程圖;以及圖3為該基于特征值比對(duì)的內(nèi)容分析方法的文件特征比對(duì)流程圖。具體實(shí)施例方式以下通過具體實(shí)施例來說明本發(fā)明。實(shí)施例1:請參閱圖l,為本發(fā)明基于特征值比對(duì)的內(nèi)容分析方法的流程示意圖,先在欲防護(hù)的機(jī)密文件(1)利用文件特征建構(gòu)功能(2)進(jìn)行特征值的計(jì)算,并建構(gòu)出相應(yīng)的文件特征檔案(3)。在機(jī)密防護(hù)作業(yè)的內(nèi)容分析階段,加載特征值(4)至相對(duì)應(yīng)的數(shù)據(jù)結(jié)構(gòu)以后,即可利用文件特征比對(duì)功能(5)依此文件特征數(shù)據(jù)向目標(biāo)文件(6)進(jìn)行指定長度的數(shù)據(jù)內(nèi)容比對(duì)。若有符合特征比對(duì)的數(shù)據(jù)則為包含機(jī)密的檔案,可以讓防護(hù)系統(tǒng)進(jìn)行政策所指定的相關(guān)防護(hù)動(dòng)作,否則即可判定為不含機(jī)密的文件。請參閱圖2,為本發(fā)明基于特征值比對(duì)的內(nèi)容分析方法的文件特征建構(gòu)流程圖,其步驟包括a.設(shè)定數(shù)據(jù)的讀取終點(diǎn)之后進(jìn)行機(jī)密文件的循序讀??;b.排除空格符以組成一個(gè)固定長度的資料區(qū)塊并且計(jì)算字碼統(tǒng)計(jì)值;在這里所謂的空格符系指space,tab,換行符號(hào)等字符,屬于與文件機(jī)密不相關(guān)的數(shù)據(jù);當(dāng)讀取至區(qū)塊長度時(shí),其字碼統(tǒng)計(jì)值也已計(jì)算完成,此一數(shù)值是統(tǒng)計(jì)資料區(qū)塊內(nèi)的每一字符內(nèi)碼值的分布,其計(jì)算方法為<table>tableseeoriginaldocumentpage5</column></row><table>上述的內(nèi)碼條件值是基于中/英文字碼分布的范圍而選定,以利于中/英文件的分區(qū)比對(duì);c.完成數(shù)據(jù)區(qū)塊的讀取后即利用雜湊算法計(jì)算此區(qū)塊的特征值,可采用CRC40算法進(jìn)行雜湊運(yùn)算,以滿足系統(tǒng)對(duì)于正確率與效能的雙重需求;d.依據(jù)字碼統(tǒng)計(jì)值將CRC40雜湊值寫至不同的特征檔案,以區(qū)塊長度設(shè)為64Bytes的系統(tǒng)為例,可采用如下的分割方式IF字碼統(tǒng)計(jì)值<56THEN寫出CRC40值至特征文件1;ELSEIF字碼統(tǒng)計(jì)值>55且<60寫出CRC40值至特征文件2;ELSEIF字碼統(tǒng)計(jì)值>59且<90寫出CRC40值至特征文件3;ELSEIF字碼統(tǒng)計(jì)值>89且<105寫出CRC40值至特征文件4;ELSEIF字碼統(tǒng)計(jì)值>104且<110寫出CRC40值至特征文件5;ELSEIF字碼統(tǒng)計(jì)值>109且<115寫出CRC40值至特征文件6;ELSEIF字碼統(tǒng)計(jì)值>114且<120寫出CRC40值至特征文件7;ELSEIF字碼統(tǒng)計(jì)值>119且<130寫出CRC40值至特征文件8;ELSEIF字碼統(tǒng)計(jì)值>129寫出CRC40值至特征文件9;上述條件值的選定是考慮中文字內(nèi)碼的分布范圍較廣且本發(fā)明的應(yīng)用環(huán)境以中文為主,因此特征檔案的劃分是在中文碼范圍采取較細(xì)的切割而英文碼范圍采取較寬的切割;當(dāng)系統(tǒng)內(nèi)定的數(shù)據(jù)區(qū)塊長度不為64Bytes時(shí),這些條件值自然會(huì)因字碼統(tǒng)計(jì)值的變動(dòng)而不同;另外如果系統(tǒng)要求更精細(xì)或更粗略的英文及中文碼范圍的切割方式,也會(huì)產(chǎn)生不同的條件值和檔案的切割數(shù)量;e.完成此一特征值分區(qū)寫文件的作業(yè)后,將字碼統(tǒng)計(jì)值重置為零,并依系統(tǒng)內(nèi)定的步進(jìn)參數(shù)設(shè)定下一個(gè)讀取位置,所謂的步進(jìn)參數(shù)是決定每一個(gè)取樣數(shù)據(jù)區(qū)塊的重迭程度,重迭量愈多可得到愈高的機(jī)密辨識(shí)率,但系統(tǒng)效能則受拖累;重復(fù)上述b.至e.的處理步驟直至讀取終點(diǎn)才結(jié)束。請參閱圖3,為本發(fā)明基于特征值比對(duì)的內(nèi)容分析方法的文件特征比對(duì)流程圖,其步驟包括a.設(shè)定目標(biāo)文件的讀取終點(diǎn),亦即文件數(shù)據(jù)末端減去數(shù)據(jù)區(qū)塊長度的位置;b.依據(jù)目標(biāo)文件的長度設(shè)定數(shù)據(jù)重迭參數(shù),當(dāng)文件長度小于某一內(nèi)定值時(shí)采用最大的重迭參數(shù)值,以便在不影響系統(tǒng)效能的狀況下進(jìn)行最精確的比對(duì)作業(yè);c.進(jìn)行目標(biāo)文件的特征建構(gòu)步驟,包含循序讀取、排除空格符、計(jì)算字碼統(tǒng)計(jì)值、達(dá)區(qū)塊長度后計(jì)算數(shù)據(jù)雜湊值等處理步驟;d.依據(jù)字碼統(tǒng)計(jì)值設(shè)定所屬的特征數(shù)據(jù)比對(duì)區(qū)及其終點(diǎn);e.進(jìn)入特征值循序比對(duì)的作業(yè),如果在特征數(shù)據(jù)區(qū)發(fā)現(xiàn)相同的CRC40雜湊值,即可判定為包含機(jī)密信息而傳回TRUE值;否則重置字碼統(tǒng)計(jì)值,并依重迭參數(shù)設(shè)定下一個(gè)讀取位置,再檢查是否已讀至終點(diǎn)位置;如果已經(jīng)比對(duì)至讀取終點(diǎn)仍未發(fā)現(xiàn)相同的雜湊值則可判定為不含機(jī)密信息,傳回FALSE值,否則繼續(xù)進(jìn)行下一數(shù)據(jù)區(qū)塊的比對(duì)作業(yè)。如此本發(fā)明利用切割特征值數(shù)據(jù)空間的方法改進(jìn)了大數(shù)據(jù)量的比對(duì)效能,且因在特征值比對(duì)作業(yè)中加上字碼統(tǒng)計(jì)值的區(qū)別,使得雜湊值沖突的情形進(jìn)一步減少,從而提高內(nèi)容分析的正確率。上列詳細(xì)說明是針對(duì)本發(fā)明的可行實(shí)施例的具體說明,該實(shí)施例并非用以限制本發(fā)明的專利范圍,凡未脫離本發(fā)明的等效實(shí)施或變更,均應(yīng)包含于本發(fā)明的專利范圍中。權(quán)利要求一種基于特征值比對(duì)的內(nèi)容分析方法,其特征在于至少包括文件特征建構(gòu)流程,將欲防護(hù)的機(jī)密文件利用文件特征建構(gòu)功能,進(jìn)行特征值的分區(qū)計(jì)算,并建構(gòu)出相應(yīng)的文件特征檔案;特征值加載流程,將各區(qū)特征值加載至所屬的數(shù)據(jù)結(jié)構(gòu)中;文件特征比對(duì)流程,利用文件特征比對(duì)功能將加載的文件特征數(shù)據(jù)向目標(biāo)文件進(jìn)行指定長度的數(shù)據(jù)內(nèi)容比對(duì),以判斷文件是否包含機(jī)密數(shù)據(jù)。2.如權(quán)利要求1所述的基于特征值比對(duì)的內(nèi)容分析方法,其特征在于所述文件特征建構(gòu)流程,處理步驟包括a.設(shè)定數(shù)據(jù)的讀取終點(diǎn)、循序讀取機(jī)密文件的內(nèi)容;b.排除空格符、組成一個(gè)固定長度的數(shù)據(jù)區(qū)塊;c.計(jì)算資料區(qū)塊的字碼統(tǒng)計(jì)值;d.利用雜湊算法計(jì)算數(shù)據(jù)區(qū)塊的特征值;e.依據(jù)字碼統(tǒng)計(jì)值將雜湊值寫至不同的特征檔案;f.重置字碼統(tǒng)計(jì)值,并設(shè)定下一個(gè)讀取位置;g.重復(fù)步驟b.至f.,直至讀取終點(diǎn)才結(jié)束。3.如權(quán)利要求2所述的基于特征值比對(duì)的內(nèi)容分析方法,其特征在于所述特征檔案是在中文碼范圍采取較細(xì)的切割而英文碼范圍采取較寬的切割而劃分的。4.如權(quán)利要求2所述的基于特征值比對(duì)的內(nèi)容分析方法,其特征在于所述字碼統(tǒng)計(jì)值的計(jì)算,其處理步驟包括a.排除空格符、組成一個(gè)固定長度的數(shù)據(jù)區(qū)塊;b.依據(jù)字符的內(nèi)碼值范圍對(duì)字碼統(tǒng)計(jì)值進(jìn)行累計(jì)運(yùn)算;c.于文件特征建構(gòu)階段依據(jù)字碼統(tǒng)計(jì)值將特征值分區(qū)寫至所屬檔案;d.于文件特征比對(duì)階段依據(jù)字碼統(tǒng)計(jì)值分區(qū)比對(duì)特征值。5.如權(quán)利要求4所述的基于特征值比對(duì)的內(nèi)容分析方法,其特征在于所述內(nèi)碼值范圍基于中/英文字碼分布的范圍而選定。6.如權(quán)利要求1所述的基于特征值比對(duì)的內(nèi)容分析方法,其特征在于所述文件特征比對(duì)流程,處理步驟包括a.設(shè)定目標(biāo)文件的讀取終點(diǎn);b.依據(jù)目標(biāo)文件的長度設(shè)定數(shù)據(jù)重迭參數(shù);c.循序讀取目標(biāo)文件的內(nèi)容;d.排除空格符、組成一個(gè)固定長度的數(shù)據(jù)區(qū)塊;e.計(jì)算資料區(qū)塊的字碼統(tǒng)計(jì)值;f.利用雜湊算法計(jì)算數(shù)據(jù)區(qū)塊的特征值;g.依據(jù)字碼統(tǒng)計(jì)值設(shè)定所屬的特征數(shù)據(jù)比對(duì)區(qū)及其終點(diǎn);h.特征值的分區(qū)循序比對(duì),以判斷文件是否包含機(jī)密數(shù)據(jù);i.重置字碼統(tǒng)計(jì)值,并依數(shù)據(jù)重迭參數(shù)設(shè)定下一個(gè)讀取位置;j.重復(fù)步驟c.至i.,直至讀取終點(diǎn)或發(fā)現(xiàn)機(jī)密數(shù)據(jù)才結(jié)束。7.如權(quán)利要求6所述的基于特征值比對(duì)的內(nèi)容分析方法,其特征在于所述數(shù)據(jù)重迭參數(shù)在目標(biāo)文件長度小于某一內(nèi)定值時(shí)采用最大的重迭參數(shù)值,以便在不影響系統(tǒng)效能的狀況下進(jìn)行最精確的比對(duì)作業(yè)。8.如權(quán)利要求6所述的基于特征值比對(duì)的內(nèi)容分析方法,其特征在于所述字碼統(tǒng)計(jì)值的計(jì)算,其處理步驟包括a.排除空格符、組成一個(gè)固定長度的數(shù)據(jù)區(qū)塊;b.依據(jù)字符的內(nèi)碼值范圍對(duì)字碼統(tǒng)計(jì)值進(jìn)行累計(jì)運(yùn)算;c.于文件特征建構(gòu)階段依據(jù)字碼統(tǒng)計(jì)值將特征值分區(qū)寫至所屬檔案;d.于文件特征比對(duì)階段依據(jù)字碼統(tǒng)計(jì)值分區(qū)比對(duì)特征值。9.如權(quán)利要求8所述的基于特征值比對(duì)的內(nèi)容分析方法,其特征在于所述內(nèi)碼值范圍基于中/英文字碼分布的范圍而選定。全文摘要本發(fā)明公開了一種基于特征值比對(duì)的內(nèi)容分析方法,先在欲防護(hù)的機(jī)密文件進(jìn)行特征值的計(jì)算,并建構(gòu)出相應(yīng)的數(shù)據(jù)特征檔案,之后在機(jī)密防護(hù)作業(yè)的內(nèi)容分析階段,利用此文件特征數(shù)據(jù)向可疑文件進(jìn)行固定長度的數(shù)據(jù)內(nèi)容比對(duì);若有符合特征比對(duì)的數(shù)據(jù)則為包含機(jī)密的檔案,可以讓防護(hù)系統(tǒng)進(jìn)行政策所指定的相關(guān)防護(hù)動(dòng)作,否則即可判定為不含機(jī)密的文件;本發(fā)明是基于機(jī)密防護(hù)領(lǐng)域的部份文件比對(duì)技術(shù)加以改良,利用切割數(shù)據(jù)空間的方法提升大型檔案的比對(duì)效能與精確度,并依據(jù)目標(biāo)文件的長度進(jìn)行數(shù)據(jù)比對(duì)時(shí)相關(guān)參數(shù)的調(diào)整,從而達(dá)成機(jī)密辨識(shí)率與系統(tǒng)效能的兩難需求。文檔編號(hào)G06F17/22GK101699428SQ200910209248公開日2010年4月28日申請日期2009年10月27日優(yōu)先權(quán)日2009年10月27日發(fā)明者劉燦雄,張保忠,張明哲,徐克華申請人:中華電信股份有限公司