敏感信息數(shù)據(jù)的高效用隱藏保護方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種基于數(shù)據(jù)挖掘中的隱私保護方法,特別指一種敏感信息數(shù)據(jù)的高效用隱藏保護方法。
【背景技術(shù)】
[0002]近年來,數(shù)據(jù)挖掘被廣泛的應(yīng)用在數(shù)據(jù)分析上,尤其是在大數(shù)據(jù)上。數(shù)據(jù)挖掘能夠發(fā)現(xiàn)數(shù)據(jù)中隱藏的直接信息,也能發(fā)現(xiàn)數(shù)據(jù)之間的間接關(guān)系,把這些隱藏的信息加以適當?shù)目梢暬涂梢灾庇^的發(fā)現(xiàn)其價值,基于這些分析的結(jié)果,可以為用為提供更好的服務(wù),同時也能給數(shù)據(jù)擁有者帶來更多的利潤。
[0003]數(shù)據(jù)挖掘是通過各種方法發(fā)現(xiàn)數(shù)據(jù)中的隱藏信息和關(guān)系,其目標就是要發(fā)現(xiàn)這些信息,這種發(fā)現(xiàn)能給我們帶來好處,但前提是數(shù)據(jù)中不含有敏感信息。在實際的應(yīng)用當中,數(shù)據(jù)是較為完整的,包含各種各樣的信息,如用戶的信用卡號、電話號碼和地址等,雖然單個信息對用戶來說是不具有威脅的,但把所有信息都拼湊匯總就會變成非常具有危險性,常用的電子詐騙等就是通過這些相關(guān)的信息來進行的。另一方面,有時從數(shù)據(jù)中也能發(fā)現(xiàn)一些可以給一方帶來利益而同時會損害另一方利益,這對數(shù)據(jù)擁有者來說就成了不好的情形,所以如何高效地保護這些敏感信息成了重要的議題。
【發(fā)明內(nèi)容】
[0004]本發(fā)明要解決的技術(shù)問題,在于提供一種敏感信息數(shù)據(jù)的高效用隱藏保護方法。
[0005]本發(fā)明是這樣實現(xiàn)的:一種敏感信息數(shù)據(jù)的高效用隱藏保護方法,包括以下步驟:
[0006]步驟一:從一含有原數(shù)據(jù)的數(shù)據(jù)庫中挖掘原數(shù)據(jù),獲取所有的高效用項集,再從所述高效用項集中獲取含有敏感信息數(shù)據(jù)的敏感項集;
[0007]步驟二:通過隱藏保護算法對所述敏感項集中的各敏感項進行一一處理,同時從數(shù)據(jù)庫中查找含有各所述敏感項的事務(wù),通過隱藏保護算法修改所述事務(wù),從而實現(xiàn)對所述事務(wù)的敏感項進行隱藏;
[0008]步驟三:將修改后的事務(wù)回寫到數(shù)據(jù)庫中以更新數(shù)據(jù)庫,并輸出隱藏保護后的數(shù)據(jù)。
[0009]進一步地,所述隱藏保護算法的執(zhí)行方法如下:
[0010](I)根據(jù)指標覆蓋率、效用值和敏感項長度,對所述敏感項集中的各敏感項的處理順序進彳丁排序;
[0011](2)依照所述處理順序從敏感項集中提取一敏感項,計算該敏感項的目標隱藏值:目標隱藏值=(敏感項的效用值一預(yù)設(shè)的最低效用閾值);
[0012]若所述目標隱藏值大于0,則需隱藏該敏感項,執(zhí)行步驟(3);若所述目標隱藏值小于或等于0,則該敏感項不需隱藏,執(zhí)行步驟(6);
[0013](3)從數(shù)據(jù)庫中查找含有所述敏感項的所有事務(wù)集合,再從所有事務(wù)集合中獲取具有最大效用值的所述敏感項的事務(wù),作為目標事務(wù);
[0014](4)從目標事務(wù)中查找所述敏感項中的具有最小效用值的屬性項,然后修改目標事務(wù)中的屬性項,具體如下:
[0015]A、當屬性項的效用值小于目標隱藏值時,則從目標事務(wù)中刪除屬性項,以隱藏所述敏感項;
[0016]B、當屬性項的效用值大于目標隱藏值時,則降低目標事務(wù)中屬性項的數(shù)量以降低所述敏感項的效用值,從而隱藏所述敏感項;
[0017](5)根據(jù)目標事務(wù)中的屬性項的修改,相應(yīng)地更新數(shù)據(jù)庫和敏感項集中的數(shù)據(jù),從而更新其中的敏感信息數(shù)據(jù)的效用值信息。
[0018](6)判斷當前的敏感項是否為所述敏感項集中的最后一項,若是,則結(jié)束流程;若否,則進入步驟(2)。
[0019]進一步地,所述步驟⑴中,各敏感項的處理順序的排序原則具體如下:
[0020]A、覆蓋率高的敏感項優(yōu)先;
[0021]B、當數(shù)據(jù)庫為稀疏數(shù)據(jù)庫時,按敏感項的效用值由小到大進行排序;當數(shù)據(jù)庫為密集型數(shù)據(jù)庫,則按敏感項長度由大到小進行排序;
[0022]進一步地,所述覆蓋率是指一敏感項與其余的敏感項的包含度和/或相似度;若一敏感項與其余的一敏感項是包含關(guān)系,則覆蓋率為1,否則根據(jù)二者相似性,賦予該敏感項一個O到I之間的實數(shù)值。
[0023]本發(fā)明的優(yōu)點在于:解決了高效用數(shù)據(jù)挖掘中隱私保護問題,通過隱藏保護算法,能夠保證定義的敏感信息數(shù)據(jù)不被挖掘出來。
【附圖說明】
[0024]下面參照附圖結(jié)合實施例對本發(fā)明作進一步的說明。
[0025]圖1是本發(fā)明敏感信息數(shù)據(jù)的高效用隱藏保護方法的算法流程圖。
【具體實施方式】
[0026]請參閱圖1所示,一種敏感信息數(shù)據(jù)的高效用隱藏保護方法,包括以下步驟:
[0027]步驟一:從一含有原數(shù)據(jù)的數(shù)據(jù)庫中挖掘原數(shù)據(jù),獲取所有的高效用項集,再從所述高效用項集中獲取含有敏感信息數(shù)據(jù)的敏感項集;
[0028]步驟二:通過隱藏保護算法對所述敏感項集中的各敏感項進行一一處理,同時從數(shù)據(jù)庫中查找含有各所述敏感項的事務(wù),通過隱藏保護算法修改所述事務(wù),從而實現(xiàn)對所述事務(wù)的敏感項進行隱藏;
[0029]步驟三:將修改后的事務(wù)回寫到數(shù)據(jù)庫中以更新數(shù)據(jù)庫,并輸出隱藏保護后的數(shù)據(jù)。
[0030]所述步驟二中,隱藏保護算法的執(zhí)行方法如下:
[0031](I)根據(jù)指標覆蓋率、效用值和敏感項長度,對所述敏感項集中的各敏感項的處理順序進彳丁排序,具體如下:
[0032]A、覆蓋率高的敏感項優(yōu)先;
[0033]B、當數(shù)據(jù)庫為稀疏數(shù)據(jù)庫時,按敏感項的效用值由小到大進行排序;當數(shù)據(jù)庫為密集型數(shù)據(jù)庫,則按敏感項長度由大到小進行排序;
[0034]所述覆蓋率是指一敏感項與其余的敏感項的包含度和/或相似度;若一敏感項與其余的一敏感項是包含關(guān)系,則覆蓋率為1,否則根據(jù)二者相似性,賦予該敏感項一個[0,I)之間的實數(shù)值。
[0035](2)依照所述處理順序從所述敏感項集中提取一敏感項,計算該敏感項的目標隱藏值:目標隱藏值=(敏感項的效用值一預(yù)設(shè)的最低效用閾值);
[0036]若所述目標隱藏值大于0,則需隱藏該敏感項,執(zhí)行步驟(3);若所述目標隱藏值小于或等于0,則該敏感項不需隱藏,執(zhí)行步驟(6);
[0037](3)從數(shù)據(jù)庫中查找含有所述敏感項的所有事務(wù)集合,再從所有事務(wù)集合中獲取含有最大效用值的所述敏感項的事務(wù),作為目標事務(wù)T ;
[0038](4)從目標事務(wù)T中查找所述敏感項中的具有最小效用值的屬性項i,然后修改目標事務(wù)T中的屬性項i,具體如下:
[0039]A、當屬性項i的效用值小于目標隱藏值時,則從目標事務(wù)T中刪除屬性項i,以隱藏所述敏感項;
[0040]B、當屬性項i的效用值大于目標隱藏值時,則降低目標事務(wù)T中屬性項i的數(shù)量以降低所述敏感項的效用值,從而隱藏所述敏感項;
[0041]例如:要隱藏ABC,它的效用值為100,最低效用閾值定義為80,那目標隱藏值為100-80 = 20。通過上述步驟,假設(shè)得出要對目標事務(wù)Tu中的屬性項C進行操作,是刪除還是降低數(shù)量就取決于目標事務(wù)Tu中屬性項C的效用值與目標隱藏值(20)的大小關(guān)系了。若屬性項C的值大,通過降低目標事務(wù)Tu中屬性項C的數(shù)量就可以完成隱藏,否則就從目標事務(wù)Tu中刪除C。
[0042](5)根據(jù)目標事務(wù)T中的屬性項i的修改,相應(yīng)地更新數(shù)據(jù)庫和敏感項集中的數(shù)據(jù),從而更新其中的敏感信息數(shù)據(jù)的效用值信息。
[0043]目標事務(wù)T每一次修改(刪除項或是修改數(shù)量)后,當前隱藏的敏感項的值都在變化,因為對于被修改的目標事務(wù)T來說,也可能包含其它的敏感項,那么這一次修改也會影響到其它敏感項的值,所以在每一次的修改后都要去更新敏感項的值。只有得到這些最新的值,在下一次迭代中才會得到正確的結(jié)果。例如:
[0044]目標事務(wù)T = ABCDEF,屬性項i = B,敏感項集S = {AB, BCE, DF},敏感項s =AB ;會修改目標事務(wù)T中的B,對于敏感項集中其它的敏感項{BCE,DF}來說,DF不受影響,而BCE會受到影響,因為它包含B并且目標事務(wù)T中也包含BCE,所以在隱藏敏感項s = AB時,就需要更新敏感項集S中BCE的值。
[0045](6)判斷當前的敏感項是否為所述敏感項集中的最后一項,若是,則結(jié)束流程;若否,則進入步驟(2)。
【主權(quán)項】
1.一種敏感信息數(shù)據(jù)的高效用隱藏保護方法,其特征在于:包括以下步驟: 步驟一:從一含有原數(shù)據(jù)的數(shù)據(jù)庫中挖掘原數(shù)據(jù),獲取所有的高效用項集,再從所述高效用項集中獲取含有敏感信息數(shù)據(jù)的敏感項集; 步驟二:通過隱藏保護算法對所述敏感項集中的各敏感項進行一一處理,同時從數(shù)據(jù)庫中查找含有各所述敏感項的事務(wù),通過隱藏保護算法修改所述事務(wù),從而實現(xiàn)對所述事務(wù)的敏感項進行隱藏; 步驟三:將修改后的事務(wù)回寫到數(shù)據(jù)庫中以更新數(shù)據(jù)庫,并輸出隱藏保護后的數(shù)據(jù)。2.如權(quán)利要求1所述的敏感信息數(shù)據(jù)的高效用隱藏保護方法,其特征在于:所述隱藏保護算法的執(zhí)行方法如下: (1)根據(jù)指標覆蓋率、效用值和敏感項長度,對所述敏感項集中的各敏感項的處理順序進tx排序; (2)依照所述處理順序從敏感項集中提取一敏感項,計算該敏感項的目標隱藏值:目標隱藏值=(敏感項的效用值一預(yù)設(shè)的最低效用閾值); 若所述目標隱藏值大于O,則需隱藏該敏感項,執(zhí)行步驟(3);若所述目標隱藏值小于或等于O,則該敏感項不需隱藏,執(zhí)行步驟(6); (3)從數(shù)據(jù)庫中查找含有所述敏感項的所有事務(wù)集合,再從所有事務(wù)集合中獲取具有最大效用值的所述敏感項的事務(wù),作為目標事務(wù); (4)從目標事務(wù)中查找所述敏感項中的具有最小效用值的屬性項,然后修改目標事務(wù)中的屬性項,具體如下: A、當屬性項的效用值小于目標隱藏值時,則從目標事務(wù)中刪除屬性項,以隱藏所述敏感項; B、當屬性項的效用值大于目標隱藏值時,則降低目標事務(wù)中屬性項的數(shù)量以降低所述敏感項的效用值,從而隱藏所述敏感項; (5)根據(jù)目標事務(wù)中的屬性項的修改,相應(yīng)地更新數(shù)據(jù)庫和敏感項集中的數(shù)據(jù),從而更新其中的敏感信息數(shù)據(jù)的效用值信息。 (6)判斷當前的敏感項是否為所述敏感項集中的最后一項,若是,則結(jié)束流程;若否,則進入步驟(2)。3.如權(quán)利要求2所述的敏感信息數(shù)據(jù)的高效用隱藏保護方法,其特征在于:所述步驟(I)中,各敏感項的處理順序的排序原則具體如下: A、覆蓋率高的敏感項優(yōu)先; B、當數(shù)據(jù)庫為稀疏數(shù)據(jù)庫時,按敏感項的效用值由小到大進行排序;當數(shù)據(jù)庫為密集型數(shù)據(jù)庫,則按敏感項長度由大到小進行排序。4.如權(quán)利要求3所述的敏感信息數(shù)據(jù)的高效用隱藏保護方法,其特征在于:所述覆蓋率是指一敏感項與其余的敏感項的包含度和/或相似度;若一敏感項與其余的一敏感項是包含關(guān)系,則覆蓋率為1,否則根據(jù)二者相似性,賦予該敏感項一個O到I之間的實數(shù)值。
【專利摘要】本發(fā)明提供了一種敏感信息數(shù)據(jù)的高效用隱藏保護方法,包括:從一含有原數(shù)據(jù)的數(shù)據(jù)庫中挖掘原數(shù)據(jù),獲取所有的高效用項集,再從所述高效用項集中獲取含有敏感信息數(shù)據(jù)的敏感項集;通過隱藏保護算法對所述敏感項集中的各敏感項進行一一處理,同時從數(shù)據(jù)庫中查找含有各所述敏感項的事務(wù),通過隱藏保護算法修改所述事務(wù),從而實現(xiàn)對所述事務(wù)的敏感項進行隱藏;將修改后的事務(wù)回寫到數(shù)據(jù)庫中以更新數(shù)據(jù)庫,并輸出隱藏保護后的數(shù)據(jù)。本發(fā)明解決了高效用數(shù)據(jù)挖掘中隱私保護問題,通過隱藏保護算法,能夠保證定義的敏感信息數(shù)據(jù)不被挖掘出來。
【IPC分類】G06F21/62
【公開號】CN105138926
【申請?zhí)枴緾N201510402353
【發(fā)明人】潘正祥, 林?,|, 吳祖揚, 林果, 陳建銘
【申請人】福建工程學院
【公開日】2015年12月9日
【申請日】2015年7月10日