两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

隱私保護的數據統(tǒng)計分析方法、裝置、電子設備

文檔序號:40593940發(fā)布日期:2025-01-07 20:34閱讀:5來源:國知局
隱私保護的數據統(tǒng)計分析方法、裝置、電子設備

本發(fā)明涉及數據處理領域,尤其涉及一種隱私保護的數據統(tǒng)計分析方法、裝置、電子設備。


背景技術:

1、隨著大數據時代的到來,數據的收集、共享與分析成為常態(tài),從數據中挖掘有效信息是一個重要課題。數據分布在包括不限于,居民收入,社交網絡好友數量等數據統(tǒng)計中有著重要作用,得到數據分布后計算平均數、分位數等統(tǒng)計信息對挖掘信息有正面作用。但是在統(tǒng)計過程中收入、社交網絡好友數量等信息通常包含了樣本人群的敏感信息,不加保護地收集、發(fā)布統(tǒng)計信息會侵犯用戶的隱私。如何在保護用戶個人隱私的前提下采集、分析數據,獲取數據分布與統(tǒng)計信息是一個重要問題。在隱私保護方面,差分隱私(differentialprivacy,dp)被廣泛認可為隱私保護的有力標準,能夠提供無需假設攻擊者先驗知識的量化隱私保護。其中本地差分隱私(local?differential?privacy,ldp)能夠在數據收集階段提供隱私保護,研究者目前已經提出多種滿足ldp隱私要求的數據統(tǒng)計分析技術。

2、現有技術中的隨機跳躍算法(random?jump?algorithm,rj)滿足ldp的rj加噪圖數據中的節(jié)點度并進行矯正后得到節(jié)點度分布。rj基于熵值變化量化隱私保護強度,基于誤差期望量化數據可用性,綜合評估隱私保護強度和數據可用性之后計算rj的跳躍步長,取得二者的均衡?,F有技術中的拉普拉斯(laplace)多項式函數矯正方法滿足ldp的laplace噪聲擾動任何數值型數據,基于加噪后的數據計算數據的平均值、方差、偏度、峰度等統(tǒng)計信息。兩種方法都滿足ldp的隱私保護要求,涉及到一次隱私預算的消耗,并能提供高精度的數據統(tǒng)計分析??偟膩碚f,rj方法可以實現保護隱私的數據分布恢復,laplace多項式函數矯正方法可以實現保護隱私的多種數據統(tǒng)計信息計算,兩者對于數據統(tǒng)計分析都具有積極意義,現有方法在隱私保護的數據統(tǒng)計分析上已經取得了一定進展。

3、然而,在現有技術中,單獨執(zhí)行rj關注節(jié)點度的頻率估計信息,在方差、偏度、峰度等方面的信息保留不完整,導致有較高的統(tǒng)計信息計算誤差;單獨執(zhí)行l(wèi)aplace多項式函數矯正不能恢復數據分布;直接分別執(zhí)行rj和laplace多項式函數矯正可以得到數據分布和統(tǒng)計信息,但會消耗兩次隱私預算導致隱私保護強度下降。

4、不僅如此,在rj恢復節(jié)點度分布的過程中,面向的是數據分布這一細粒度任務,過多噪聲導致的信息損失降低了分位數作為粗粒度任務的精度?,F有兩種方法不能對分位數進行恰當的分析,得到高準確性的結果。

5、也就是說,存在但不限于以下諸多問題:

6、1)孤立地分析數據分布或統(tǒng)計信息,基于恢復得到的數據分布會因為較大的噪聲產生信息損失,不能適用于所有統(tǒng)計信息的計算。

7、2)在ldp領域未充分分析例如分位數的統(tǒng)計信息,統(tǒng)計意義不夠深遠;

8、3)數據分布的精度低下。


技術實現思路

1、本發(fā)明提供一種隱私保護的數據統(tǒng)計分析方法、裝置、電子設備,旨在解決rj方案和laplace多項式函數矯正的任務局限性,利用ldp提供量化的隱私保護,基于laplace加噪的數據計算得到數據分布、分位數,并利用分位數迭代校準數據分布,充分挖掘了分位數作為統(tǒng)計量的統(tǒng)計意義,實現了基于數據分位數的校準數據分布,得到了更高精度的數據分布,帶來了具有高可用性與普適性的隱私保護的數據統(tǒng)計分析。

2、具體地,本發(fā)明實施例提供了以下技術方案:

3、第一方面,本發(fā)明的實施例提供一種隱私保護的數據統(tǒng)計分析方法,包括:

4、s1,獲取噪聲度,并基于限制條件,通過數據處理,從所述噪聲度的最初數據分布中選取數據點的集合,其中所述噪聲度是節(jié)點度經過laplace加噪后得到的;

5、s2,遍歷計算所述噪聲度小于特定噪聲度的概率,以得到所述噪聲度的概率矩陣;

6、s3,以所述概率矩陣為參數,基于目標向量進行彈性網絡回歸計算,以選取正則化項的權重;

7、s4,基于彈性網絡回歸計算和所述權重,確定第二原始數據分布;

8、s5,基于所述第二原始數據分布和所述概率矩陣,根據分位數預定條件,確定所述第二原始數據分布的分位數;

9、s6,基于所述分位數對所述第二原始數據分布進行校準,基于校準后的第二原始數據分布重新確定分位數,重復迭代以得到第三原始數據分布。

10、進一步地,該隱私保護的數據統(tǒng)計分析方法還包括:

11、所述限制條件為所述節(jié)點度大于或等于1。

12、進一步地,該隱私保護的數據統(tǒng)計分析方法還包括:

13、所述數據處理包括四舍五入。

14、進一步地,該隱私保護的數據統(tǒng)計分析方法還包括:

15、所述以所述概率矩陣為參數,基于目標向量進行彈性網絡回歸計算,以選取正則化項的權重,包括:

16、基于任意正則化項的權重,以從所述噪聲度中恢復得到恢復后的第一原始數據分布;

17、對所述第一原始數據分布再次進行l(wèi)aplace加噪,以得到恢復后加噪的數據分布;并且

18、計算所述恢復后加噪的數據分布與所述第一原始數據分布之間的距離,選取所述距離最小的正則化項的權重。

19、進一步地,該隱私保護的數據統(tǒng)計分析方法還包括:

20、所述分位數預定條件為,噪聲分布中的分位數滿足與所述分位數相對應的數據量經過加噪后小于所述分位數。

21、進一步地,該隱私保護的數據統(tǒng)計分析方法還包括:

22、所述基于所述分位數對所述第二原始數據分布進行校準,基于校準后的第二原始數據分布重新確定分位數,重復迭代校準以得到第三原始數據分布,包括:

23、基于不匹配挖掘、左側數據調整、右側數據調整、迭代重復,得到第三原始數據分布。

24、進一步地,該隱私保護的數據統(tǒng)計分析方法還包括:

25、通過對所述第三原始數據分布執(zhí)行l(wèi)aplace多項式函數矯正,獲得基于多項式的多項數據統(tǒng)計信息。

26、第二方面,本發(fā)明的實施例還提供一種隱私保護的數據統(tǒng)計分析裝置,包括:

27、加噪選取模塊,用于獲取噪聲度,并基于限制條件,通過數據處理,從所述噪聲度的最初數據分布中選取數據點的集合,其中所述噪聲度是節(jié)點度經過laplace加噪后得到的;

28、概率矩陣計算模塊,用于遍歷計算所述噪聲度小于特定噪聲度的概率,以得到所述噪聲度的概率矩陣;

29、權重選取模塊,用于以所述概率矩陣為參數,基于目標向量進行彈性網絡回歸計算,以選取正則化項的權重;

30、數據分布初步恢復模塊,用于基于彈性網絡回歸計算和所述權重,確定第二原始數據分布;

31、分位數計算模塊,用于基于所述第二原始數據分布和所述概率矩陣,根據分位數預定條件,確定所述第二原始數據分布的分位數;

32、迭代校準模塊,用于基于所述分位數對所述第二原始數據分布進行校準,基于校準后的第二原始數據分布重新確定分位數,重復迭代以得到第三原始數據分布。

33、第三方面,本發(fā)明的實施例還提供一種電子設備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時實現上述隱私保護的數據統(tǒng)計分析方法的步驟。

34、第四方面,本發(fā)明的實施例還提供一種計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現如上述隱私保護的數據統(tǒng)計分析方法。

35、由上面技術方案可知,本發(fā)明實施例提供的一種隱私保護的數據統(tǒng)計分析方法、裝置、電子設備,旨在解決rj方案和laplace多項式函數矯正的任務局限性,利用ldp提供量化的隱私保護,基于laplace加噪的數據計算得到數據分布、分位數,并利用分位數迭代校準數據分布,充分挖掘了分位數作為統(tǒng)計量的統(tǒng)計意義,實現了基于數據分位數的校準數據分布,得到了更高精度的數據分布,帶來了具有高可用性與普適性的隱私保護的數據統(tǒng)計分析。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
天津市| 平舆县| 台南市| 信阳市| 沾化县| 青岛市| 万荣县| 营山县| 凉城县| 报价| 新河县| 凤冈县| 拜泉县| 当阳市| 广东省| 本溪| 于都县| 盐山县| 新平| 桃源县| 澄城县| 拜城县| 建始县| 永丰县| 南郑县| 教育| 秦安县| 竹北市| 岳阳县| 蒙自县| 亚东县| 文登市| 张家川| 巫溪县| 南乐县| 旬邑县| 诸城市| 佛坪县| 嘉峪关市| 宁海县| 沁水县|