两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于多維敏感數(shù)據(jù)發(fā)布的多部圖隱私保護方法與流程

文檔序號:11156235閱讀:452來源:國知局
基于多維敏感數(shù)據(jù)發(fā)布的多部圖隱私保護方法與制造工藝

本發(fā)明涉及隱私保護技術(shù)領(lǐng)域,具體涉及一種基于多維敏感數(shù)據(jù)發(fā)布的多部圖隱私保護方法。



背景技術(shù):

當今人類社會已步入信息時代,信息產(chǎn)業(yè)也呈現(xiàn)出高速發(fā)展的態(tài)勢?;ヂ?lián)網(wǎng)不斷深入到政治、經(jīng)濟、文化、醫(yī)療及教育等各個領(lǐng)域并產(chǎn)生了大量的數(shù)據(jù),而這些數(shù)據(jù)共享和發(fā)布可被用于進行海量數(shù)據(jù)分析。隨著數(shù)據(jù)挖掘技術(shù)的日益發(fā)展及廣泛應用,這些數(shù)據(jù)發(fā)布在科學研究、群體行為趨勢分析,疾病預測以及經(jīng)營決策和輿情監(jiān)控等方面,給人們帶來了極大的便利,具有重大的社會和經(jīng)濟價值。數(shù)據(jù)發(fā)布技術(shù)作為數(shù)據(jù)共享的一種有效手段,為數(shù)據(jù)的交換和共享提供了強有力的支持。然而,這些數(shù)據(jù)往往與個人信息相關(guān),隨著信息時代的發(fā)展和近年來隱私信息泄露等事件的不斷發(fā)生引起人們的廣泛關(guān)注,人們對隱私信息的概念悄然發(fā)生變化,對隱私信息的保護也越來越重視。因此,數(shù)據(jù)發(fā)布中的隱私保護問題一經(jīng)提出就受到了社會和公眾的日益重視,在保證信息可用性的同時,如何保護用戶的隱私成為了數(shù)據(jù)分析研究領(lǐng)域的主要瓶頸問題。

在現(xiàn)有的隱私保護研究中,大多數(shù)的研究主要針對單個敏感屬性的數(shù)據(jù)集。然而在大多重要的實際應用中,往往需要涉及多維敏感屬性,并需要對屬性與屬性之間存在的關(guān)聯(lián)進行分析研究,相比單個敏感屬性的數(shù)據(jù)而言,多維敏感屬性數(shù)據(jù)的隱私保護更具挑戰(zhàn)性,主要體現(xiàn)在以下幾個方面:

(1)數(shù)據(jù)集中需要保護的隱私信息涉及多維敏感屬性,常用的泛化匿名技術(shù)會導致過多的信息損失;

(2)多維敏感屬性數(shù)據(jù)集中允許出現(xiàn)同一ID存在多條記錄的情況,且大多屬性域的值的個數(shù)并不多,用表數(shù)據(jù)形式來表示存在大量的數(shù)據(jù)冗余;

(3)敏感屬性與敏感屬性、準標識符與敏感屬性之間均存在關(guān)聯(lián),其關(guān)聯(lián)信息會增強攻擊者的背景知識,從而導致隱私信息泄露,因此其關(guān)聯(lián)信息同樣需要進行隱私保護。

然而,現(xiàn)有面向具有多維敏感屬性數(shù)據(jù)發(fā)布的隱私保護技術(shù)主要還是基于單個敏感屬性數(shù)據(jù)發(fā)布方法進行簡單擴展,主要采用準標識符的泛化、屬性的垂直或水平剖分等簡單的匿名處理方法,但匿名處理后的數(shù)據(jù)由于切斷了準標識符與敏感信息之間的關(guān)聯(lián),因而在實際應用中,會導致處理后數(shù)據(jù)的由于信息損失量過大,大大降低了數(shù)據(jù)的利用價值。最近有相關(guān)研究提出一種對敏感屬性進行泛化的匿名處理方法以減少信息損失,但其隱私模型對于敏感屬性之間的多維關(guān)聯(lián)性缺乏描述,攻擊者可以利用這點進行攻擊。比如,某醫(yī)生只主治某一類疾病、某些疾病具有地域特色、某種婚姻狀態(tài)的人更容易犯某些疾病等。



技術(shù)實現(xiàn)要素:

本發(fā)明所要解決的技術(shù)問題是針對多維敏感數(shù)據(jù)的發(fā)布,現(xiàn)有隱私保護方法存在信息損失過多以及多敏感屬性之間存在相關(guān)性以導致隱私泄露的問題,提供一種基于多維敏感數(shù)據(jù)發(fā)布的多部圖隱私保護方法。

為解決上述問題,本發(fā)明是通過以下技術(shù)方案實現(xiàn)的:

基于多維敏感數(shù)據(jù)發(fā)布的多部圖隱私保護方法,包括如下步驟:

步驟1、構(gòu)建多部圖;即先將ID和各維敏感屬性用不同類型的節(jié)點集來表示;再去掉ID,并以準標識符為ID節(jié)點的標簽;后根據(jù)某個ID的記錄所包含的敏感屬性值,將不同節(jié)點集之間的節(jié)點用邊連接起來,獲得多部圖;

步驟2、在構(gòu)建的多部圖中,根據(jù)各條關(guān)系存在的概率作為該相應邊的初始概率;

步驟3、根據(jù)準標識符聚類分組實現(xiàn)匿名;即先根據(jù)多維準標識符的綜合相似度;再采用基于k-匿名模型將將相似度最高的k個節(jié)點聚類為同一組或采用基于ρ-不確定性模型將高于設(shè)定閾值的節(jié)點聚類為同一組;后將該組節(jié)點視為一個整體即超級節(jié)點,并修改與該超級節(jié)點中所有節(jié)點的相關(guān)邊的概率。

步驟1中,準標識符為除了ID之外的非敏感屬性。

步驟3中,節(jié)點v1與v2之間綜合相似度Sim(v1,v2)的計算公式如下:

其中,xi表示第i個屬性的優(yōu)先因子;li(v1)表示v1節(jié)點的第i個屬性的值;li(v2)表示v2節(jié)點的第i個屬性的值;n表示準標識符中屬性的維數(shù);表示布爾函數(shù),當(li(v1)≠li(v2)時,否則

步驟3中,根據(jù)超級節(jié)點修改邊的概率的計算公式為:

其中,D為在同一個超級節(jié)點中包含某敏感屬性的節(jié)點集,vj為節(jié)點,|G(vj)|為節(jié)點vj所在的超級節(jié)點中包含的節(jié)點數(shù)目,P(e)即為邊e存在的概率。

所述基于多維敏感數(shù)據(jù)發(fā)布的多部圖隱私保護方法還進一步包括:步驟4、根據(jù)屬性之間的關(guān)聯(lián)性修改相關(guān)邊的概率。

步驟4中,根據(jù)屬性M、S和D之間的關(guān)聯(lián)性修改相關(guān)邊的概率的計算公式為:

P(M|S)=P(M,S)/P(S)

P(D|M,S)=P(D,M|S)/P(M|S)

其中,P(M|S)表示在S發(fā)生的條件下M發(fā)生的概率,P(M,S)表示M,S同時發(fā)生的概率,P(S)表示S發(fā)生的概率;P(D|M,S)表示在M,S同時發(fā)生的條件下D發(fā)生的概率;P(D,M|S)表示在S發(fā)生的條件下D,M同時發(fā)生的概率。

與現(xiàn)有技術(shù)相比,本發(fā)明具有如下特點:

1、采用多部圖的方式來表示多維敏感屬性數(shù)據(jù):將ID作為一類節(jié)點(去掉ID屬性值實現(xiàn)簡單匿名),其對應的準標識符以標簽形式來體現(xiàn),每一個敏感屬性采用一種類型的節(jié)點來表示,某個用戶具有某種敏感屬性則兩個節(jié)點之間存在一條邊來體現(xiàn)關(guān)聯(lián)。

2、采用概率圖模型進行隱私保護:對于采用聚類方法進行分組,同組的用戶視為一個超級節(jié)點,與敏感屬性之間的關(guān)聯(lián)程度以帶權(quán)重的邊來體現(xiàn),邊的權(quán)重即是該組用戶中具有該敏感屬性值的概率,屬性與屬性之間的關(guān)聯(lián)程度同樣是以帶權(quán)重的邊來體現(xiàn),以達到既保留了屬性之間的關(guān)聯(lián)性又有效的保護了多敏感屬性及其關(guān)聯(lián)的隱私安全。

附圖說明

圖1為原始表數(shù)據(jù)。

圖2為匿名數(shù)據(jù)發(fā)布圖。

圖3為構(gòu)建多部圖的示意圖。

圖4為添加邊的概率的示意圖。

圖5為匿名分組的示意圖。

圖6為修改條件概率作為邊的權(quán)重的示意圖。

具體實施方式

本發(fā)明面向多敏感屬性數(shù)據(jù)的發(fā)布提供了一種基于的多部圖隱私保護方法,主要包括將原始表數(shù)據(jù)構(gòu)建成多部圖形式和基于多部圖的隱私保護策略兩大部分。

1、將原始表數(shù)據(jù)構(gòu)建成多部圖形式。如圖1所示,原始數(shù)據(jù)集中Name列為ID,Age、Zip和Sex為非敏感屬性,Salary,Marital Status,Disease為敏感屬性。構(gòu)建多部圖時,采用無向圖G(Vm,E,W)抽象表示多敏感屬性數(shù)據(jù)集,Vm是頂點的有限集合(其中V1是帶準標識符標簽的用戶節(jié)點集,Vi表示數(shù)據(jù)集中的第i-1個敏感屬性的節(jié)點集),E是V上的二元關(guān)系表示不同節(jié)點集之間的關(guān)系,即某個用戶擁有某個敏感屬性值;W表示邊的權(quán)重,即該條關(guān)系存在的概率;每條邊的權(quán)重范圍為(0,1],若兩個節(jié)點之間不存在邊則表示他們之間沒有任何關(guān)系。舉例說明:帶有標簽為(21,21853,M)的結(jié)點與標簽為(3k)的節(jié)點之間存在一條權(quán)重為0.5的邊,則表示該節(jié)點有50%的概率其salary敏感屬性值為3k。

2、基于多部圖的隱私保護策略。為保護隱私的同時又提高數(shù)據(jù)的實用性,本發(fā)明對準標識符不作任何泛化,而是對準標識符進行聚類分組成超級節(jié)點,再將該組與某個敏感屬性的節(jié)點以帶權(quán)重的邊相連,表示該組擁有某個敏感屬性值的概率,即攻擊者能將某個個體與敏感屬性值關(guān)聯(lián)起來的成功概率。類似的,同一條記錄的不同敏感屬性之間的關(guān)聯(lián)也用帶權(quán)重的邊來表示,使得匿名發(fā)布圖能在保證隱私安全的同時較好的保留屬性之間的關(guān)聯(lián)性。如圖圖2所示,為匿名數(shù)據(jù)發(fā)布圖。

具體來說,一種基于多維敏感數(shù)據(jù)發(fā)布的多部圖隱私保護方法,具體實現(xiàn)過程如下:

步驟一:構(gòu)建多部圖。參見圖3。

將ID和各維敏感屬性分別用不同類型的節(jié)點集來表示,其中用戶節(jié)點集去掉ID標識以實現(xiàn)簡單匿名,并以準標識符(除了ID之外的非敏感屬性,可以是多維)作為用戶節(jié)點的標簽,然后根據(jù)某個ID的記錄所包含的敏感屬性值,將不同節(jié)點集之間的節(jié)點用邊連接起來,比如圖1中的第1條記錄,Bob擁有的非敏感屬性包括:age為21,zip為21853,sex為M,即得帶有標簽為(21,21853,M)的用戶結(jié)點;Bob用戶的敏感屬性包括:Salary為3k,Marital Status為single,Disease為asthma;則標簽為(21,21853,M)的用戶結(jié)點與Salary節(jié)點集中的3k節(jié)點之間存在一條邊,而3k節(jié)點與Marital Status節(jié)點集中的single節(jié)點之間存在一條邊,而single節(jié)點與Disease節(jié)點集中的asthma節(jié)點之間存在一條邊;其他記錄以此類推添加邊,直到所有的記錄均添加完成,可得到如圖3所示的多部圖。

步驟二:添加邊的權(quán)重,邊的權(quán)重即為該關(guān)系邊存在的概率。參見圖4。

比如在原始數(shù)據(jù)表中,我們注意到,Salary屬性集中值為3k的節(jié)點不止Bob一個,還有1個帶有標簽為(28,21854,M)的用戶結(jié)點也擁有3k的Salary屬性值,共有2個,但其對應的Marital Status屬性的值分別為Single和Divorced,因此在3k節(jié)點與Marital Status節(jié)點集中的single節(jié)點之間的邊權(quán)重為1的話也就意味著,這兩個用戶節(jié)點的Marital Status屬性值均為Single,而事實并非如此。為更好的保留數(shù)據(jù)的實用性,本發(fā)明采用添加邊的權(quán)重的方法來更好地體現(xiàn)敏感屬性之間的關(guān)聯(lián)。由于兩個擁有3kSalary屬性值的用戶節(jié)點的Marital Status屬性值分別為Single和Divorced,也就意味著這兩個節(jié)點均有1/2的概率具有Single或Divorced屬性值,因此,應在節(jié)點3k與single之間的邊添加權(quán)重0.5,節(jié)點3k與divorced之間的邊添加權(quán)重0.5,表示其之間的關(guān)系邊存在的概率為1/2即0.5,其余類推,即可得到如圖4所示的添加邊的概率的示意圖。

步驟三:根據(jù)準標識符聚類分組實現(xiàn)匿名。參見圖5。

首先,根據(jù)多維準標識符的綜合相似度。然后,采用基于k-匿名模型將將相似度最高的k個節(jié)點聚類為同一組或采用基于ρ-不確定性模型將高于設(shè)定閾值的節(jié)點聚類為同一組。最后,將該組節(jié)點視為一個整體即超級節(jié)點,并修改與該超級節(jié)點中所有節(jié)點的相關(guān)邊的概率。

根據(jù)常識可知,個體與敏感屬性之間的邊權(quán)重如果為1的話,就代表攻擊者能以百分百的概率將某個個體與敏感屬性關(guān)聯(lián)起來,也就是隱私泄露。所以為保護隱私,應對數(shù)據(jù)進行匿名處理。為提高數(shù)據(jù)的實用性,本發(fā)明采用基于準標識符聚類的方法來進行匿名分組,以盡量保留數(shù)據(jù)集的整體統(tǒng)計特性。如下圖所示,根據(jù)多維準標識符的綜合相似度,將相似度高的節(jié)點聚類為同一組。擁有n個屬性的{l1,l2,…,ln}節(jié)點v1與v2之間的相似度計算公式如下:

其中,i表示準標識符中的第i個屬性,xi表示第i個屬性的優(yōu)先因子;li(v1)表示v1節(jié)點的第i個屬性的值;li(v2)表示v2節(jié)點的第i個屬性的值;n表示準標識符中共n維屬性;表示布爾函數(shù),當(li(v1)≠li(v2)時,否則顯然,該公式計算得到的值越高,也就意味著兩個節(jié)點的相似度越高。本發(fā)明可以將相似度最高的k個節(jié)點聚類為同一組(基于k-匿名模型),也可以設(shè)置一個閾值,高于該閾值的節(jié)點聚類為同一組(基于ρ-不確定性模型)。

接著,將同一組的節(jié)點視為超級節(jié)點,并修改相應的邊的概率,得到如圖5所示匿名分組的示意圖。

根據(jù)超級節(jié)點修改邊的概率的計算公式為:

其中,D為在同一個超級節(jié)點中包含某敏感屬性值的節(jié)點集,j為D節(jié)點集中的第j個節(jié)點,|G(vj)|為vj節(jié)點所在的超級節(jié)點中包含的節(jié)點數(shù)目,e為敏感屬性S與vj所在的超級節(jié)點G之間存在的一條邊,P(e)即為邊e存在的概率。

步驟四:根據(jù)屬性之間的關(guān)聯(lián)性修改條件概率。(在這里,要特別說明的一點是,如果敏感屬性之間是相互獨立的,不存在關(guān)聯(lián),那么完成第三步整個過程就結(jié)束了。)參見圖6。

由于敏感屬性之間存在關(guān)聯(lián)性,因此我們還需要根據(jù)第一個敏感屬性的概率計算第二個敏感屬性值的條件概率即P(M|S)=P(M,S)/P(S),然后再依次計算第三個敏感屬性值的條件概率,以此類推,對所有相關(guān)邊的概率進行修改,如圖6所示修改條件概率作為邊的權(quán)重的示意圖。最終數(shù)據(jù)的整體隱私安全可根據(jù)條件概率的鏈式法則進行計算得到:P(S,M,D)=P(S)P(M|S)P(D|M,S)。

至此,整個數(shù)據(jù)匿名過程已完成,我們可以得到如圖2所示的匿名數(shù)據(jù)發(fā)布圖。如圖2所示的匿名圖能夠很好保護敏感屬性及其之間的敏感關(guān)聯(lián)的安全,同時又很好的保留了數(shù)據(jù)之間的關(guān)聯(lián)性,對于數(shù)據(jù)查詢和關(guān)聯(lián)性規(guī)則挖掘等重要的數(shù)據(jù)應用領(lǐng)域具有很好的實用性。

本發(fā)明提出采用多部圖的方法來表示多維敏感數(shù)據(jù)集,以達到去冗余的目的,并圍繞多維敏感關(guān)聯(lián)性的隱私泄露原理,基于多部圖提出一種概率圖模型的隱私保護策略是本發(fā)明的目的。該隱私保護策略在盡量降低信息損失量的同時,充分考慮到了攻擊者利用敏感屬性之間的關(guān)系進行攻擊的情況,構(gòu)建一種帶權(quán)重邊的匿名數(shù)據(jù)發(fā)布圖,有效的保護了隱私安全并能完好的保留了屬性與屬性之間的關(guān)聯(lián)性。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
同江市| 靖西县| 通道| 阿克陶县| 德惠市| 安徽省| 博白县| 中宁县| 灵石县| 宜兴市| 依安县| 广丰县| 灵宝市| 商丘市| 泰来县| 婺源县| 蒲城县| 南城县| 竹北市| 隆林| 荥经县| 平谷区| 绩溪县| 侯马市| 九江市| 蒙阴县| 略阳县| 六盘水市| 独山县| 老河口市| 和田市| 营口市| 淮阳县| 布拖县| 全州县| 白银市| 清徐县| 桑日县| 监利县| 合山市| 鄱阳县|