基于特征值比對(duì)的內(nèi)容分析方法

文檔序號(hào)：6582945閱讀：329來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：：基于特征值比對(duì)的內(nèi)容分析方法
技術(shù)領(lǐng)域：
：本發(fā)明是關(guān)于一種基于特征值比對(duì)的內(nèi)容分析方法，特別是關(guān)于一種利用部分文件比對(duì)技術(shù)以提供快速及精確的內(nèi)容分析方法。
背景技術(shù)：
：現(xiàn)有的機(jī)密防護(hù)系統(tǒng)，在內(nèi)容分析中采用的部分文件比對(duì)方法，必須面臨機(jī)密辨識(shí)率與系統(tǒng)效能的兩難需求。較精確的機(jī)密辨識(shí)功能就會(huì)產(chǎn)生最多的數(shù)據(jù)比對(duì)作業(yè)而造成系統(tǒng)效能的沖擊，反之若是追求內(nèi)容分析的執(zhí)行效能則難以兼顧機(jī)密數(shù)據(jù)的辨識(shí)率。且因?yàn)椴糠治募葘?duì)技術(shù)所處理的是指數(shù)成長的復(fù)雜度問題，當(dāng)機(jī)密樣本數(shù)據(jù)或目標(biāo)文件長度增加時(shí)，系統(tǒng)效能就會(huì)面臨急速惡化的困境。有鑒于機(jī)密防護(hù)技術(shù)在信息安全領(lǐng)域的應(yīng)用日益廣泛，誠然需要一個(gè)較佳的內(nèi)容分析方法，以達(dá)成機(jī)密防護(hù)系統(tǒng)于辨識(shí)率及效能方面的需求。由此可見，上述現(xiàn)有方式仍有諸多不足，實(shí)非良好的設(shè)計(jì)，而亟待加以改良。
發(fā)明內(nèi)容本發(fā)明的目的即在于提供一種既快速又精確的內(nèi)容分析方法，是以切割特征值數(shù)據(jù)空間的方法改進(jìn)大型文件的比對(duì)效能與正確性，并依據(jù)目標(biāo)檔案的長度進(jìn)行文件比對(duì)參數(shù)的調(diào)整，從而達(dá)成機(jī)密辨識(shí)率與系統(tǒng)效能的兩難需求，且由于字符內(nèi)碼分布的特性，本發(fā)明在中文與英文檔案互相比對(duì)的作業(yè)中更能大幅減少比對(duì)次數(shù)，而改善內(nèi)容分析的效能與正確性?？蛇_(dá)成上述發(fā)明目的的一種基于特征值比對(duì)的內(nèi)容分析方法，至少包括文件特征建構(gòu)流程，將欲防護(hù)的機(jī)密文件利用文件特征建構(gòu)功能，進(jìn)行特征值的分區(qū)計(jì)算，并建構(gòu)出相應(yīng)的文件特征檔案；特征值加載流程，將各區(qū)特征值加載至所屬的數(shù)據(jù)結(jié)構(gòu)中；文件特征比對(duì)流程，利用文件特征比對(duì)功能將加載的文件特征數(shù)據(jù)向目標(biāo)文件進(jìn)行指定長度的數(shù)據(jù)內(nèi)容比對(duì)，以判斷文件是否包含機(jī)密數(shù)據(jù)。本發(fā)明于建構(gòu)機(jī)密文件的特征值時(shí)根據(jù)各資料區(qū)塊所算出的字碼統(tǒng)計(jì)值，分區(qū)儲(chǔ)存特征值于所屬的特征檔案中，之后于文件比對(duì)階段再依各資料區(qū)塊的字碼統(tǒng)計(jì)值進(jìn)行分區(qū)比對(duì)；如此可在大數(shù)據(jù)量的內(nèi)容分析作業(yè)中，尤其是中文與英文檔案互相比對(duì)的情況下大幅減少比對(duì)次數(shù)而改善系統(tǒng)的效能，同時(shí)因?yàn)樵谔卣髦当葘?duì)作業(yè)中加上字碼統(tǒng)計(jì)值的區(qū)別，使得特征雜湊值的沖突機(jī)率進(jìn)一步降低，而能提高內(nèi)容分析的正確率。另外在文件特征的比對(duì)作業(yè)中，本發(fā)明也依據(jù)目標(biāo)文件的長度調(diào)整數(shù)據(jù)比對(duì)之重迭參數(shù)，使得數(shù)據(jù)量較小的比對(duì)作業(yè)有較精確的機(jī)密辨識(shí)率，而數(shù)據(jù)量大的比對(duì)作業(yè)則可改善系統(tǒng)的執(zhí)行效能。本發(fā)明的基于特征值比對(duì)的內(nèi)容分析方法，與其它現(xiàn)有技術(shù)相互比較時(shí)，更具備下列的優(yōu)點(diǎn)本發(fā)明可改進(jìn)文件內(nèi)容分析作業(yè)的效能，尤其在中文與英文檔案互相比對(duì)時(shí)更能大幅減少比對(duì)次數(shù)而提高執(zhí)行效率。本發(fā)明可提高機(jī)密數(shù)據(jù)的辨識(shí)正確率，減少將文件誤判為含有機(jī)密的情形。本發(fā)明于數(shù)據(jù)量小的比對(duì)作業(yè)中具有精確的機(jī)密辨識(shí)率，而在數(shù)據(jù)量大的比對(duì)作業(yè)則提高執(zhí)行效能。圖1為本發(fā)明基于特征值比對(duì)的內(nèi)容分析方法的流程示意圖；圖2為該基于特征值比對(duì)的內(nèi)容分析方法的文件特征建構(gòu)流程圖；以及圖3為該基于特征值比對(duì)的內(nèi)容分析方法的文件特征比對(duì)流程圖。具體實(shí)施例方式以下通過具體實(shí)施例來說明本發(fā)明。實(shí)施例1:請參閱圖l，為本發(fā)明基于特征值比對(duì)的內(nèi)容分析方法的流程示意圖，先在欲防護(hù)的機(jī)密文件(1)利用文件特征建構(gòu)功能(2)進(jìn)行特征值的計(jì)算，并建構(gòu)出相應(yīng)的文件特征檔案(3)。在機(jī)密防護(hù)作業(yè)的內(nèi)容分析階段，加載特征值(4)至相對(duì)應(yīng)的數(shù)據(jù)結(jié)構(gòu)以后，即可利用文件特征比對(duì)功能(5)依此文件特征數(shù)據(jù)向目標(biāo)文件(6)進(jìn)行指定長度的數(shù)據(jù)內(nèi)容比對(duì)。若有符合特征比對(duì)的數(shù)據(jù)則為包含機(jī)密的檔案，可以讓防護(hù)系統(tǒng)進(jìn)行政策所指定的相關(guān)防護(hù)動(dòng)作，否則即可判定為不含機(jī)密的文件。請參閱圖2，為本發(fā)明基于特征值比對(duì)的內(nèi)容分析方法的文件特征建構(gòu)流程圖，其步驟包括a.設(shè)定數(shù)據(jù)的讀取終點(diǎn)之后進(jìn)行機(jī)密文件的循序讀??；b.排除空格符以組成一個(gè)固定長度的資料區(qū)塊并且計(jì)算字碼統(tǒng)計(jì)值；在這里所謂的空格符系指space,tab，換行符號(hào)等字符，屬于與文件機(jī)密不相關(guān)的數(shù)據(jù)；當(dāng)讀取至區(qū)塊長度時(shí)，其字碼統(tǒng)計(jì)值也已計(jì)算完成，此一數(shù)值是統(tǒng)計(jì)資料區(qū)塊內(nèi)的每一字符內(nèi)碼值的分布，其計(jì)算方法為<table>tableseeoriginaldocumentpage5</column></row><table>上述的內(nèi)碼條件值是基于中/英文字碼分布的范圍而選定，以利于中/英文件的分區(qū)比對(duì)；c.完成數(shù)據(jù)區(qū)塊的讀取后即利用雜湊算法計(jì)算此區(qū)塊的特征值，可采用CRC40算法進(jìn)行雜湊運(yùn)算，以滿足系統(tǒng)對(duì)于正確率與效能的雙重需求；d.依據(jù)字碼統(tǒng)計(jì)值將CRC40雜湊值寫至不同的特征檔案，以區(qū)塊長度設(shè)為64Bytes的系統(tǒng)為例，可采用如下的分割方式IF字碼統(tǒng)計(jì)值<56THEN寫出CRC40值至特征文件1;ELSEIF字碼統(tǒng)計(jì)值>55且<60寫出CRC40值至特征文件2;ELSEIF字碼統(tǒng)計(jì)值>59且<90寫出CRC40值至特征文件3;ELSEIF字碼統(tǒng)計(jì)值>89且<105寫出CRC40值至特征文件4;ELSEIF字碼統(tǒng)計(jì)值>104且<110寫出CRC40值至特征文件5;ELSEIF字碼統(tǒng)計(jì)值>109且<115寫出CRC40值至特征文件6;ELSEIF字碼統(tǒng)計(jì)值>114且<120寫出CRC40值至特征文件7;ELSEIF字碼統(tǒng)計(jì)值>119且<130寫出CRC40值至特征文件8;ELSEIF字碼統(tǒng)計(jì)值>129寫出CRC40值至特征文件9;上述條件值的選定是考慮中文字內(nèi)碼的分布范圍較廣且本發(fā)明的應(yīng)用環(huán)境以中文為主，因此特征檔案的劃分是在中文碼范圍采取較細(xì)的切割而英文碼范圍采取較寬的切割；當(dāng)系統(tǒng)內(nèi)定的數(shù)據(jù)區(qū)塊長度不為64Bytes時(shí)，這些條件值自然會(huì)因字碼統(tǒng)計(jì)值的變動(dòng)而不同；另外如果系統(tǒng)要求更精細(xì)或更粗略的英文及中文碼范圍的切割方式，也會(huì)產(chǎn)生不同的條件值和檔案的切割數(shù)量；e.完成此一特征值分區(qū)寫文件的作業(yè)后，將字碼統(tǒng)計(jì)值重置為零，并依系統(tǒng)內(nèi)定的步進(jìn)參數(shù)設(shè)定下一個(gè)讀取位置，所謂的步進(jìn)參數(shù)是決定每一個(gè)取樣數(shù)據(jù)區(qū)塊的重迭程度，重迭量愈多可得到愈高的機(jī)密辨識(shí)率，但系統(tǒng)效能則受拖累；重復(fù)上述b.至e.的處理步驟直至讀取終點(diǎn)才結(jié)束。請參閱圖3，為本發(fā)明基于特征值比對(duì)的內(nèi)容分析方法的文件特征比對(duì)流程圖，其步驟包括a.設(shè)定目標(biāo)文件的讀取終點(diǎn)，亦即文件數(shù)據(jù)末端減去數(shù)據(jù)區(qū)塊長度的位置；b.依據(jù)目標(biāo)文件的長度設(shè)定數(shù)據(jù)重迭參數(shù)，當(dāng)文件長度小于某一內(nèi)定值時(shí)采用最大的重迭參數(shù)值，以便在不影響系統(tǒng)效能的狀況下進(jìn)行最精確的比對(duì)作業(yè)；c.進(jìn)行目標(biāo)文件的特征建構(gòu)步驟，包含循序讀取、排除空格符、計(jì)算字碼統(tǒng)計(jì)值、達(dá)區(qū)塊長度后計(jì)算數(shù)據(jù)雜湊值等處理步驟；d.依據(jù)字碼統(tǒng)計(jì)值設(shè)定所屬的特征數(shù)據(jù)比對(duì)區(qū)及其終點(diǎn)；e.進(jìn)入特征值循序比對(duì)的作業(yè)，如果在特征數(shù)據(jù)區(qū)發(fā)現(xiàn)相同的CRC40雜湊值，即可判定為包含機(jī)密信息而傳回TRUE值；否則重置字碼統(tǒng)計(jì)值，并依重迭參數(shù)設(shè)定下一個(gè)讀取位置，再檢查是否已讀至終點(diǎn)位置；如果已經(jīng)比對(duì)至讀取終點(diǎn)仍未發(fā)現(xiàn)相同的雜湊值則可判定為不含機(jī)密信息，傳回FALSE值，否則繼續(xù)進(jìn)行下一數(shù)據(jù)區(qū)塊的比對(duì)作業(yè)。如此本發(fā)明利用切割特征值數(shù)據(jù)空間的方法改進(jìn)了大數(shù)據(jù)量的比對(duì)效能，且因在特征值比對(duì)作業(yè)中加上字碼統(tǒng)計(jì)值的區(qū)別，使得雜湊值沖突的情形進(jìn)一步減少，從而提高內(nèi)容分析的正確率。上列詳細(xì)說明是針對(duì)本發(fā)明的可行實(shí)施例的具體說明，該實(shí)施例并非用以限制本發(fā)明的專利范圍，凡未脫離本發(fā)明的等效實(shí)施或變更，均應(yīng)包含于本發(fā)明的專利范圍中。權(quán)利要求一種基于特征值比對(duì)的內(nèi)容分析方法，其特征在于至少包括文件特征建構(gòu)流程，將欲防護(hù)的機(jī)密文件利用文件特征建構(gòu)功能，進(jìn)行特征值的分區(qū)計(jì)算，并建構(gòu)出相應(yīng)的文件特征檔案；特征值加載流程，將各區(qū)特征值加載至所屬的數(shù)據(jù)結(jié)構(gòu)中；文件特征比對(duì)流程，利用文件特征比對(duì)功能將加載的文件特征數(shù)據(jù)向目標(biāo)文件進(jìn)行指定長度的數(shù)據(jù)內(nèi)容比對(duì)，以判斷文件是否包含機(jī)密數(shù)據(jù)。2.如權(quán)利要求1所述的基于特征值比對(duì)的內(nèi)容分析方法，其特征在于所述文件特征建構(gòu)流程，處理步驟包括a.設(shè)定數(shù)據(jù)的讀取終點(diǎn)、循序讀取機(jī)密文件的內(nèi)容；b.排除空格符、組成一個(gè)固定長度的數(shù)據(jù)區(qū)塊；c.計(jì)算資料區(qū)塊的字碼統(tǒng)計(jì)值；d.利用雜湊算法計(jì)算數(shù)據(jù)區(qū)塊的特征值；e.依據(jù)字碼統(tǒng)計(jì)值將雜湊值寫至不同的特征檔案；f.重置字碼統(tǒng)計(jì)值，并設(shè)定下一個(gè)讀取位置；g.重復(fù)步驟b.至f.，直至讀取終點(diǎn)才結(jié)束。3.如權(quán)利要求2所述的基于特征值比對(duì)的內(nèi)容分析方法，其特征在于所述特征檔案是在中文碼范圍采取較細(xì)的切割而英文碼范圍采取較寬的切割而劃分的。4.如權(quán)利要求2所述的基于特征值比對(duì)的內(nèi)容分析方法，其特征在于所述字碼統(tǒng)計(jì)值的計(jì)算，其處理步驟包括a.排除空格符、組成一個(gè)固定長度的數(shù)據(jù)區(qū)塊；b.依據(jù)字符的內(nèi)碼值范圍對(duì)字碼統(tǒng)計(jì)值進(jìn)行累計(jì)運(yùn)算；c.于文件特征建構(gòu)階段依據(jù)字碼統(tǒng)計(jì)值將特征值分區(qū)寫至所屬檔案；d.于文件特征比對(duì)階段依據(jù)字碼統(tǒng)計(jì)值分區(qū)比對(duì)特征值。5.如權(quán)利要求4所述的基于特征值比對(duì)的內(nèi)容分析方法，其特征在于所述內(nèi)碼值范圍基于中/英文字碼分布的范圍而選定。6.如權(quán)利要求1所述的基于特征值比對(duì)的內(nèi)容分析方法，其特征在于所述文件特征比對(duì)流程，處理步驟包括a.設(shè)定目標(biāo)文件的讀取終點(diǎn)；b.依據(jù)目標(biāo)文件的長度設(shè)定數(shù)據(jù)重迭參數(shù)；c.循序讀取目標(biāo)文件的內(nèi)容；d.排除空格符、組成一個(gè)固定長度的數(shù)據(jù)區(qū)塊；e.計(jì)算資料區(qū)塊的字碼統(tǒng)計(jì)值；f.利用雜湊算法計(jì)算數(shù)據(jù)區(qū)塊的特征值；g.依據(jù)字碼統(tǒng)計(jì)值設(shè)定所屬的特征數(shù)據(jù)比對(duì)區(qū)及其終點(diǎn)；h.特征值的分區(qū)循序比對(duì)，以判斷文件是否包含機(jī)密數(shù)據(jù)；i.重置字碼統(tǒng)計(jì)值，并依數(shù)據(jù)重迭參數(shù)設(shè)定下一個(gè)讀取位置；j.重復(fù)步驟c.至i.，直至讀取終點(diǎn)或發(fā)現(xiàn)機(jī)密數(shù)據(jù)才結(jié)束。7.如權(quán)利要求6所述的基于特征值比對(duì)的內(nèi)容分析方法，其特征在于所述數(shù)據(jù)重迭參數(shù)在目標(biāo)文件長度小于某一內(nèi)定值時(shí)采用最大的重迭參數(shù)值，以便在不影響系統(tǒng)效能的狀況下進(jìn)行最精確的比對(duì)作業(yè)。8.如權(quán)利要求6所述的基于特征值比對(duì)的內(nèi)容分析方法，其特征在于所述字碼統(tǒng)計(jì)值的計(jì)算，其處理步驟包括a.排除空格符、組成一個(gè)固定長度的數(shù)據(jù)區(qū)塊；b.依據(jù)字符的內(nèi)碼值范圍對(duì)字碼統(tǒng)計(jì)值進(jìn)行累計(jì)運(yùn)算；c.于文件特征建構(gòu)階段依據(jù)字碼統(tǒng)計(jì)值將特征值分區(qū)寫至所屬檔案；d.于文件特征比對(duì)階段依據(jù)字碼統(tǒng)計(jì)值分區(qū)比對(duì)特征值。9.如權(quán)利要求8所述的基于特征值比對(duì)的內(nèi)容分析方法，其特征在于所述內(nèi)碼值范圍基于中/英文字碼分布的范圍而選定。全文摘要本發(fā)明公開了一種基于特征值比對(duì)的內(nèi)容分析方法，先在欲防護(hù)的機(jī)密文件進(jìn)行特征值的計(jì)算，并建構(gòu)出相應(yīng)的數(shù)據(jù)特征檔案，之后在機(jī)密防護(hù)作業(yè)的內(nèi)容分析階段，利用此文件特征數(shù)據(jù)向可疑文件進(jìn)行固定長度的數(shù)據(jù)內(nèi)容比對(duì)；若有符合特征比對(duì)的數(shù)據(jù)則為包含機(jī)密的檔案，可以讓防護(hù)系統(tǒng)進(jìn)行政策所指定的相關(guān)防護(hù)動(dòng)作，否則即可判定為不含機(jī)密的文件；本發(fā)明是基于機(jī)密防護(hù)領(lǐng)域的部份文件比對(duì)技術(shù)加以改良，利用切割數(shù)據(jù)空間的方法提升大型檔案的比對(duì)效能與精確度，并依據(jù)目標(biāo)文件的長度進(jìn)行數(shù)據(jù)比對(duì)時(shí)相關(guān)參數(shù)的調(diào)整，從而達(dá)成機(jī)密辨識(shí)率與系統(tǒng)效能的兩難需求。文檔編號(hào)G06F17/22GK101699428SQ200910209248公開日2010年4月28日申請日期2009年10月27日優(yōu)先權(quán)日2009年10月27日發(fā)明者劉燦雄,張保忠,張明哲,徐克華申請人:中華電信股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張明哲;徐克華;張保忠;劉燦雄
技術(shù)所有人：中華電信股份有限公司
我是此專利的發(fā)明人

上一篇：印刷電路板設(shè)計(jì)方法
上一篇：位置檢測裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

人臉特征值比對(duì)算法相關(guān)技術(shù)

指紋特征值比對(duì)算法相關(guān)技術(shù)

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于特征值比對(duì)的內(nèi)容分析方法