两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種具有隱私保護的K?means聚類方法及系統(tǒng)與流程

文檔序號:11231068閱讀:807來源:國知局
一種具有隱私保護的K?means聚類方法及系統(tǒng)與流程

本發(fā)明涉及數(shù)據(jù)挖掘技術領域,尤其涉及一種具有隱私保護的k-means聚類方法,還涉及一種實現(xiàn)所述方法的系統(tǒng)。



背景技術:

眾所周知,k-means聚類是數(shù)據(jù)挖掘中非常經(jīng)典和常用的方法之一,它通過計算數(shù)據(jù)項之間的距離可以把相似的數(shù)據(jù)項聚集在一起。隨著信息化、數(shù)字化、網(wǎng)絡化進程加速,經(jīng)濟全球化已成為一種不可逆的趨勢,聚類算法中的數(shù)據(jù)來源越來越多樣化,數(shù)據(jù)安全越來越重要??紤]到數(shù)據(jù)會來自多個參與方,在這些數(shù)據(jù)中可能包含關于參與方的敏感信息或私人信息,如果這些信息在多個參與方之間共享,那么數(shù)據(jù)的隱私性將不能得到保證。具有隱私保護的聯(lián)合數(shù)據(jù)挖掘可以在保護用戶數(shù)據(jù)和挖掘結果隱私性的同時,對多個參與方的聯(lián)合數(shù)據(jù)庫進行數(shù)據(jù)挖掘,進一步提取出有用的信息。因此,如何設計出具有隱私保護的聯(lián)合數(shù)據(jù)挖掘算法成為一個需要解決的難題。

半誠實模型在許多情況下是符合實際場景的,該模型下數(shù)據(jù)的隱私性是通過各個參與方始終遵循協(xié)議來保證的。但是為保證數(shù)據(jù)的隱私性,該模型下的解決方案通常因為計算消耗和通信消耗較高,所以實際中并不可行。

傳統(tǒng)k-means聚類算法是一種基于歐式距離的經(jīng)典的聚類算法。傳統(tǒng)k-means聚類算法主要分為3個步驟:選取質心點、對數(shù)據(jù)點進行歸類和重計算新的質心點。假設訓練樣本為{xi∈rl|1≤i≤l},其中,l為樣本的數(shù)量,首先隨機選取k個質心點m,表示為m={μc∈rl|1≤c≤l}。然后計算每個數(shù)據(jù)點到xi到質心點μc的距離,然后將xi歸類到聚類該點最近的質心點μc所屬的類中,公式為:cc:=argminc||xi-μc||2。最后對于每個質心點μc進行重計算質心點,計算公式為:

由此可以看出傳統(tǒng)k-means聚類算法主要包括三個步驟:選取質心點、數(shù)據(jù)點進行歸類和重計算質心點。其中在歸類的過程中,首先要計算數(shù)據(jù)點距離每個質心點的歐式距離,然后比較出距離數(shù)據(jù)點最近的質心點進行歸類,這里距離的計算采用的是歐式距離的平方,這樣在改變兩個數(shù)值的大小關系的情況下更好的比較兩個數(shù)值的大小。在重計算質心點的過程中,需要計算每個類中數(shù)據(jù)點的分量和,而這些數(shù)據(jù)點可能來自不同的參與方,所以在計算的過程中可能涉及到隱私問題??傊?,在傳統(tǒng)k-means聚類算法的計算過程中可能導致隱私的泄漏。



技術實現(xiàn)要素:

為解決現(xiàn)有技術中的問題,本發(fā)明提供一種具有隱私保護的k-means聚類方法,還提供了一種實現(xiàn)所述方法的系統(tǒng)。

本發(fā)明方法包括如下步驟:

s1:數(shù)據(jù)擁有者a和b加密各自的數(shù)據(jù),然后把密文上傳至服務器;

s2:數(shù)據(jù)擁有者a和b分別隨機選擇k個質心點,并加密上傳至服務器;

s3:服務器通過安全距離計算協(xié)議計算密文數(shù)據(jù)點到質心點的歐氏距離,通過安全比較協(xié)議根據(jù)計算的歐氏距離將數(shù)據(jù)點歸類;

s4:服務器、數(shù)據(jù)擁有者a和b通過安全電路協(xié)議共同重新計算新的k個質心點;

s5:數(shù)據(jù)擁有者a或b通過安全比較協(xié)議判斷密文數(shù)據(jù)中新的質心點與原質心點的距離,如果小于閾值,結束分類,數(shù)據(jù)擁有者a和b請求服務器將分類好的數(shù)據(jù)分別發(fā)送給數(shù)據(jù)擁有者a和b,否則,返回執(zhí)行步驟s2,進行下一輪迭代。

本發(fā)明作進一步改進,在步驟s1中,所述服務器為云服務器,云服務器將數(shù)據(jù)擁有者a和b上傳的數(shù)據(jù)再加密存儲在云端的文件系統(tǒng)中。

本發(fā)明作進一步改進,在步驟s2中,所述質心點的選取包括質心點數(shù)量和數(shù)值的選取,具體包括如下步驟:

s21:數(shù)據(jù)擁有者a和b分別隨機選擇k個質心點;

s22:根據(jù)傳統(tǒng)k-means聚類算法在各自的數(shù)據(jù)集上進行迭代,并歸類;

s23:計算每個數(shù)據(jù)點到各自對應質心點的距離,并計算所有數(shù)據(jù)點的距離總和s;

s24:當k-1、k、k+1個質心點對應的總和s變化不大時,此時,k為質心點的個數(shù);

s25:數(shù)據(jù)擁有者a和b分別用各自的質心點的數(shù)值計算平均值,所述平均值即為k個質心點的值。

本發(fā)明作進一步改進,步驟s3的計算方法包括如下步驟:

s31:服務器計算數(shù)據(jù)擁有者a的每條密文記錄與其上傳的密文質心點的密文距離,及數(shù)據(jù)擁有者b的每條密文記錄與其上傳的密文質心點的密文距離;

s32:服務器與數(shù)據(jù)擁有者a共同通過安全距離計算協(xié)議計算數(shù)據(jù)擁有者a的每個數(shù)據(jù)點與質心點的密文距離;服務器和數(shù)據(jù)擁有者b利用安全距離計算協(xié)議共同計算數(shù)據(jù)擁有者b的每個數(shù)據(jù)點與質心點的密文距離;

s33:服務器根據(jù)步驟s32得到的密文距離集,將數(shù)據(jù)擁有者a和b的數(shù)據(jù)劃分到最近的類中,并在同一類中分開存放。

本發(fā)明作進一步改進,步驟s4的處理方法包括如下步驟:

s41:服務器將同一類中分開存放的數(shù)據(jù)點分別發(fā)送給對應的數(shù)據(jù)擁有者a和b;

s42:數(shù)據(jù)擁有者a和b解密;

s43:服務器、數(shù)據(jù)擁有者a和b在該類別中通過安全電路協(xié)議計算新的質心點。

本發(fā)明還提供了一種實現(xiàn)所述方法的系統(tǒng),包括數(shù)據(jù)庫、數(shù)據(jù)擁有者a所使用的第一客戶端和數(shù)據(jù)擁有者b所使用的第二客戶端,其中,所述第一客戶端和第二客戶端用于加密各自的數(shù)據(jù),然后把密文上傳至服務器,并分別隨機選擇k個質心點,并加密上傳至服務器,等服務器歸類后,與服務器共同重新計算新的k個質心點,判斷新的質心點與原質心點的距離,如果小于閾值,結束分類,請求服務器將分類好的數(shù)據(jù)分別發(fā)送給第一客戶端和第二客戶端,否則重新上傳質心點;服務器用于接收第一客戶端和第二客戶端上傳的數(shù)據(jù),計算數(shù)據(jù)點到質心點的歐氏距離,根據(jù)計算的歐氏距離將數(shù)據(jù)點歸類,然后與第一客戶端和第二客戶端共同重新計算新的k個質心點。

本發(fā)明作進一步改進,所述服務器為云服務器,云服務器將數(shù)據(jù)擁有者a和b上傳的數(shù)據(jù)再加密存儲在云端的文件系統(tǒng)中。

本發(fā)明作進一步改進,所述第一客戶端和第二客戶端的質心點的選取包括質心點數(shù)量和數(shù)值的選取,具體包括如下模塊:

質心點選擇模塊:用于隨機選擇k個質心點;

歸類模塊:用于根據(jù)傳統(tǒng)k-means聚類算法在各自的數(shù)據(jù)集上進行迭代,并歸類;

安全距離計算模塊:用于通過安全距離計算協(xié)議計算每個數(shù)據(jù)點到各自對應質心點的距離,并計算所有數(shù)據(jù)點的距離總和s;

質心點個數(shù)選取模塊:用于判斷當k-1、k、k+1個質心點對應的總和s變化不大時,此時,k為質心點的個數(shù);

質心點數(shù)值選取模塊:用于用各自的質心點的數(shù)值計算平均值,所述平均值即為k個質心點的值。

本發(fā)明作進一步改進,所述服務器包括:

第一密文距離計算模塊:用于計算第一客戶端每條密文記錄與其上傳的密文質心點的密文距離,及計算數(shù)據(jù)擁有者b的每條密文記錄與其上傳的密文質心點的密文距離;

第二密文距離計算模塊:用于與第一客戶端共同計算第一客戶端的每個數(shù)據(jù)點與質心點的密文距離;服務器和第二客戶端共同計算第二客戶端的每個數(shù)據(jù)點與質心點的密文距離;分類模塊:用于根據(jù)第二密文距離計算模塊計算得到的密文距離集,將第一客戶端和第二客戶端的數(shù)據(jù)劃分到最近的類中,并在同一類中分開存放。

本發(fā)明作進一步改進,所述服務器還包括發(fā)送模塊:用于將同一類中分開存放的數(shù)據(jù)點分別發(fā)送給對應的第一客戶端和第二客戶端;安全質心點計算模塊:用于同第一客戶端和第二客戶端通過安全電路協(xié)議在同一類別中計算新的質心點。

與現(xiàn)有技術相比,本發(fā)明的有益效果是:本申請采用加密的方式很好的保證了數(shù)據(jù)挖掘過程中的安全性,并結果的正確性;支持數(shù)據(jù)存儲外包,可以在更大規(guī)模的數(shù)據(jù)集上執(zhí)行;支持數(shù)據(jù)計算外包,將大部分的計算外包給云平臺,借助云平臺強大的計算能力,在保證正確性的同時,執(zhí)行效率也大幅度提升;不僅實現(xiàn)了半誠實模型下的安全計算,而且在重計算質心點階段支持三個參與方中最多一方為惡意方的安全計算。

附圖說明

圖1為本發(fā)明方法流程圖;

圖2為本發(fā)明系統(tǒng)結構示意圖;

圖3為傳統(tǒng)k-means聚類算法服務器和客戶端消耗時間示意圖;

圖4為本發(fā)明服務器和客戶端消耗時間示意圖;

圖5為傳統(tǒng)k-means聚類算法服務器和客戶端消耗時間占有比示意圖;

圖6為本發(fā)明服務器和客戶端消耗時間占有比示意圖;

圖7為本發(fā)明與傳統(tǒng)k-means聚類算法耗費時間比值。

具體實施方式

下面結合附圖和實施例對本發(fā)明做進一步詳細說明。

針對具有隱私保護的數(shù)據(jù)挖掘中存在的性能問題,本發(fā)明開展了對現(xiàn)有具有隱私保護的數(shù)據(jù)挖掘算法的深入研究,進而在水平劃分的數(shù)據(jù)集上提出一種高效的具有隱私保護的k-means聚類算法,該方案支持有兩個數(shù)據(jù)擁有者和云平臺同時存在的存儲外包和計算外包。數(shù)據(jù)以密文形式存儲在云端,云平臺通過與兩個數(shù)據(jù)擁有者交互,完成在雙方的聯(lián)合數(shù)據(jù)集上k-means聚類數(shù)據(jù)挖掘的任務。本發(fā)明分別設計不同的安全協(xié)議解決具有隱私保護的k-means聚類算法中的三個技術難題:解決密文距離計算問題的安全距離計算協(xié)議、解決密文比較問題的安全比較協(xié)議和解決密文除法問題的安全電路協(xié)議。進而將這些安全協(xié)議應用到聚類算法框架中,實現(xiàn)具有隱私保護的k-means聚類算法。

如圖1所示,本發(fā)明具有隱私保護的k-means聚類方法主要包括5個步驟,接下來對其進行詳細說明:

步驟s1:數(shù)據(jù)擁有者a和b加密各自的數(shù)據(jù),然后把密文上傳至服務器。本例假設數(shù)據(jù)擁有者a為alice,數(shù)據(jù)擁有者b為bob,服務器為c。

alice和bob分別用自己的公鑰pk1和pk2加密他們的數(shù)據(jù)dx和dy,密文為cx和cy,然后將cx和cy上傳到c。其中,dx和dy中的每條記錄都是l維的,所以對數(shù)據(jù)庫加密也就是對每條記錄中的每一維數(shù)據(jù)進行加密。alice和bob的所有數(shù)據(jù)會以密文的形式存儲在云端的文件系統(tǒng)中。具體的表示如下:

其中,m為記錄的條數(shù)。

步驟s2:alice和bob選擇k個質心點,并用各自公鑰加密上傳到c。

本例中,質心點的選擇是非常重要的一步,因為它的選擇直接關系到迭代次數(shù)的多少,進而影響到系統(tǒng)整體的執(zhí)行時間,所以好的質心點也會加快系統(tǒng)的收斂速度和執(zhí)行效率。這里選擇質心點分為兩個部分:第一是質心點數(shù)量的選擇,alice和bob分別隨機k值和k個質心點,然后在自己的數(shù)據(jù)集上進行一次迭代。歸類后計算出每個數(shù)據(jù)點到各自對應質心點的距離,然后得到這些所有距離的總和為s。當k-1,k和k+1所對應的s變化不大時,此時,k即為質心點的個數(shù)。alice和bob分別找出自己的k,然后兩個k值區(qū)平均值即為最終的k值。alice隨機選擇k個質心點m={μc|1≤c≤k},其中μc={ucj|1≤j≤l}。alice和bob分別用alice和bob的公鑰將質心點加密上傳到云端,質心點的密文為

步驟3:服務器c通過安全距離計算協(xié)議計算密文數(shù)據(jù)點到質心點的歐氏距離,然后,通過安全比較協(xié)議根據(jù)計算的歐氏距離將數(shù)據(jù)點歸類。具體為:

c計算每個記錄和每個質心點以及每個記錄和每個質心點的密文距離;c和alice共同運行ssed(安全距離計算)協(xié)議去計算每個xi和μc之間的密文距離,用表示。c和bob共同運行ssed協(xié)議去計算每個yi和μc之間的密文距離,用表示。所有xi和μc之間的密文距離存儲在中,所有yi和μc之間的密文距離存儲在中。

本方法中用到的同態(tài)加密是支持密文加法操作的半同態(tài)加密,即paillier加密,它是一個4元組的概率性加密,表示為encpa={kengen,encrypt,decrypt,evaluate}。paillier加密的過程如下:

●kengen(1k)→(pk,sk):

(1)選出兩個大素數(shù)p和q,且滿足gcd(pq,(p-1)(q-1))=1;

(2)計算n=pq和λ=lcm(p-1,q-1);

(3)隨機選擇一個整數(shù)

(4)找到μ,使得它可以滿足μ=(l(gλmodn2))-1modn,這里l是一個函數(shù)l(μ)=(μ-1)/n。進而得到公鑰為(n,g),私鑰為(λ,μ)。

●encrypt(x,r)→c:

假設明文為x,選擇一個隨機數(shù)r,密文計算為c=gxrnmodn2。加密也可表示為epk(x)=c。

●decrypt(c)→x

解密過程為x=l(cλmodn2)modn。dsk(c)代表decrypt(c)。

●evaluate:

epk(x)epk(y)=epk(x+y),epk(x)y=epk(xy)。其中x和y是兩個明文。

本例的安全距離計算協(xié)議基于安全乘法協(xié)議來實現(xiàn),所述安全乘法協(xié)議的具體處理過程如下:

其中,zn是正整數(shù)空間,此處表示rx和ry為正整數(shù)。

本例的安全距離計算協(xié)議的具體處理過程如下:

然后,c將所有的數(shù)據(jù)點歸類,具體為:

通過比較中的距離,將xi和yi劃分到最近的類中。c和alice執(zhí)行安全比較協(xié)議c和bob執(zhí)行然后將所有的密文歸類到相應的類別中去。每個存儲了p1中劃分到c類的數(shù)據(jù)點,每個存儲了bob中劃分到c類的數(shù)據(jù)點,計算公式為:

安全比較協(xié)議的具體處理過程如下:

步驟s4:c、alice和bob通過安全電路協(xié)議共同重計算k個質心點,因為在cl1和cl2中兩個參與方加密數(shù)據(jù)的公鑰不一樣,所有新的質心點不能直接計算。本例先讓c把cl1和cl2分別發(fā)給alice和bob做解密得到l1和l2,計算公式為:

然后c、alice和bob將會執(zhí)行sc(安全電路)協(xié)議,計算

其中,分別為alice和bob中的密文數(shù)據(jù)。

從而計算出新的質心點的一個分量μcj。sc安全電路協(xié)議可以保證alice和bob得到所有的新的質心點。

其中,安全電路協(xié)議的具體處理過程為:

步驟s5:alice會通過安全比較協(xié)議計算新的質心點和以前質心點的距離,如果小于閾值,那么alice和bob將會請求c將分好類的數(shù)據(jù)分別發(fā)給alice和bob。否則,alice和bob用他們各自的公鑰將新的質心點加密上傳到c,進行下一輪迭代。

如圖2所示,本發(fā)明還提供了一種實現(xiàn)上述方法的系統(tǒng),本例系統(tǒng)包括數(shù)據(jù)庫c、數(shù)據(jù)擁有者a所使用的第一客戶端p1和數(shù)據(jù)擁有者b所使用的第二客戶端p2,其中,所述第一客戶端p1和第二客戶端p2用于加密各自的數(shù)據(jù),然后把密文上傳至服務器,并分別隨機選擇k個質心點,并加密上傳至服務器,等服務器歸類后,與服務器共同重新計算新的k個質心點,判斷新的質心點與原質心點的距離,如果小于閾值,結束分類,請求服務器將分類好的數(shù)據(jù)分別發(fā)送給第一客戶端p1和第二客戶端p2,否則重新上傳質心點;服務器用于接收第一客戶端p1和第二客戶端p2上傳的數(shù)據(jù),計算數(shù)據(jù)點到質心點的歐氏距離,根據(jù)計算的歐氏距離將數(shù)據(jù)點歸類,然后與第一客戶端p1和第二客戶端p2共同重新計算新的k個質心點。

本例服務器c為云服務器,云服務器將數(shù)據(jù)擁有者a和b上傳的數(shù)據(jù)再加密存儲在云端的文件系統(tǒng)中,能夠支持數(shù)據(jù)存儲外包,可以在更大規(guī)模的數(shù)據(jù)集上執(zhí)行;支持數(shù)據(jù)計算外包,將大部分的計算外包給云平臺,借助云平臺強大的計算能力,在保證正確性的同時,執(zhí)行效率也大幅度提升。

本發(fā)明有益效果分析:

1、本發(fā)明選用的比較方案

本發(fā)明使用的框架是在文獻《outsourcingtwo-partyprivacypreservingk-meansclusteringprotocolinwirelesssensornetworks》中首次提出的,在本比較中對該論文方法用之前方案表示,相對于其它框架下的聚類算法,同一框架下的聚類算法更具有可比性,所以本發(fā)明主要與之前傳統(tǒng)方案進行比較分析。為保證實驗對比的可靠性,兩種方案均在同一個實驗環(huán)境中運行。下面將介紹兩種方法的評價標準,并進行實驗結果的比較分析。

2、評價標準

本發(fā)明方法的時間消耗主要分為三個部分:客戶端時間消耗、通信消耗和服務器端時間消耗,其中客戶端和服務器時間消耗又包括初始化階段和協(xié)議運行階段的時間消耗。又因為本申請與之前方案所用方法的不同,所以只能從宏觀上進行比較。比較主要包括兩個方面,一個是理論上復雜度分析、包括時間復雜度、空間復雜度和通信復雜度,另一個是實驗中測試結果的比較。而不同的迭代次數(shù)會影響實驗的整體效果,所以本例以一次迭代為準,將從以下幾個方面進行比較:

(1)對比兩種方案的理論上的時間復雜度、空間復雜度和通信復雜度。

(2)對比兩種方案數(shù)據(jù)加密的時間。

(3)對比兩種方案在一次迭代中服務器和客戶端的時間消耗。

3、實驗結果分析

從理論來講,本發(fā)明方案在時間復雜度、空間復雜度和通信復雜度方面都低于之前方案。下面將根據(jù)實驗數(shù)據(jù)對兩種方案的實驗結果進行分析。

首先比較的兩種方案的加密時間消耗。之前方案中采用的兩種加密方式,所有的明文數(shù)據(jù)必須都要被改進的liu加密方案加密一次,還要被paillier加密方案加密一次。本發(fā)明的方案中所有的明文數(shù)據(jù)只需要一次paillier加密即可,理論上本發(fā)明中的方案中的加密時間應該快于之前方案中的加密時間消耗。又因為paillier的操作是在群上的,又有很多的指數(shù)操作,而改進的liu加密方案都是線性操作,所以大部分的加密時間消耗是因為paillier加密造成的。所以,本發(fā)明中的加密時間消耗會略小于之前方案中的加密時間消耗,但是時間并沒有數(shù)量級的差別,實驗的結果有力的證明了該結論。之前方案加密時間消耗如表1所示,本發(fā)明的加密時間消耗如表2所示。

表1現(xiàn)有方案加密時間消耗

表2本發(fā)明加密時間消耗

接著,本發(fā)明對一次迭代中所消耗的時間進行了統(tǒng)計和對比。從理論上來說,本發(fā)明引入的云平臺提高了強大的計算能力應該會比之前方案中的運行效率略勝一籌。因為本發(fā)明的云平臺是由30臺pc機和一臺服務器構成,在任務的處理過程中需要對每臺機器進行任務分工、任務調度和數(shù)據(jù)回收,這些操作也會消耗部分的時間。當數(shù)據(jù)點越多的時候,一次迭代的時間會更長,而任務分工等操作所消耗的時間占用的比例就會越低。本發(fā)明在安全電路協(xié)議中,電路的生成需要耗費較大的時間,但是電路只需要在第一次迭代中生成一次即可,所以理論上在數(shù)據(jù)點規(guī)模較小的時候,之前方案的一次迭代的效率會高于本發(fā)明中的方案,當數(shù)據(jù)點規(guī)模高于某一閾值時,本發(fā)明的方案一次迭代的效率會高于之前方案中的效率,隨著數(shù)據(jù)規(guī)模越來越大,本發(fā)明中方案的效率優(yōu)勢會越來越明顯。實驗結果很好的論證了我們的觀點,同時實驗結果表明數(shù)據(jù)點規(guī)模的閾值大約為5000個數(shù)據(jù)點,當數(shù)據(jù)規(guī)模大于7000時本發(fā)明方案一次迭代消耗時間較少,當數(shù)據(jù)規(guī)模小于5000時,之前方案中方案一次迭代消耗時間較少。兩種方案一次迭代消耗時間對比如表3所示。

表3一次迭代消耗時間對比

在一次迭代中,本發(fā)明關注的不僅是這一次迭代的所消耗的時間,同時也希望在每一次迭代計算中服務器c能夠承擔更多的任務,擁有更高的消耗時間占有比,也就是說在保證一次迭代時間較小的情況下,使得服務器消耗時間與一次迭代消耗時間的比例更大,這樣就可以較少客戶端的計算量。因此,隨著數(shù)據(jù)規(guī)模的增大,這樣的方案效率也會越來越高。對于客戶端來說,主要做的就是加密和解密操作,兩種方案中客戶端的加解密的次數(shù)基本一致。但是,在之前方案中密文距離計算和密文距離比較大小采用的是改進的liu加密,該加密的所有操作都是線性運算,而本發(fā)明中的方案采用的是paillier加密算法,該算法的解密和解密需要在群上進行指數(shù)運算和模運算。對于計算能力較小的客戶端來說,改進的liu加密算法所消耗的時間應該會小于該本發(fā)明中采用的paillier加密。所以,理論上在同規(guī)模的數(shù)據(jù)集下,之前方案中客戶端所消耗的時間會低于本發(fā)明的方案中客戶端所消耗的時間。隨著數(shù)據(jù)規(guī)模的增大,本發(fā)明的方案中一次迭代消耗的時間相對較少,而客戶端所消耗的時間相對較大。因此,當數(shù)據(jù)規(guī)模越來越大的時候,本發(fā)明方案中的客戶端消耗時間占有比相對會越來越大,相反服務器所消耗時間的占有比相對會越來越小。通過進行實驗數(shù)據(jù)的采集和分析,也很好證明了先前的猜想。兩種方案一次迭代各參與方消耗時間如表4和表5所示。之前方案服務器和客戶端的消耗時間如圖3所示,本發(fā)明服務器和客戶端消耗時間如圖4所示。

表4之前方案一次迭代各參與方消耗時間

表5本申請一次迭代各參與方消耗時間

從圖3和圖4中可以看出,兩種方案服務器和客戶端消耗時間隨著數(shù)據(jù)點增長的一個趨勢。之前方案的實驗方案中,隨著數(shù)據(jù)規(guī)模的增大,服務器消耗有明顯的上升趨勢,而客戶端的消耗時間也有較小的上升趨勢。主要是因為服務器的計算能力有限,數(shù)據(jù)的計算比較負責。隨著數(shù)據(jù)規(guī)模的增大,服務器必然需要越來越多的時間去處理這些數(shù)據(jù),導致消耗時間明顯增多,服務器消耗時間的占有比也會增加。隨著數(shù)據(jù)規(guī)模的增大,雖然客戶端需要處理的數(shù)據(jù)也有所增加,相比服務器,客戶端的操作大多都是線性計算,所以數(shù)據(jù)規(guī)模增加帶來的消耗時間的增加并不明顯,那么客戶端消耗時間的占有比會減少。本發(fā)明中服務器是在有30臺pc機和1臺服務器構成的云平臺上運行的,所以服務器的計算能力是可以保證的。根據(jù)圖4可以看出,隨著數(shù)據(jù)規(guī)模的增加,服務器端消耗時間有所增加,并沒有明顯的上升趨勢。而客戶端消耗時間隨著數(shù)據(jù)規(guī)模的增加越來越大,主要是因為客戶端所做的解密操作是在群上的指數(shù)操作,相比于線性操作,該操作具有更大的計算量。因此,隨著數(shù)據(jù)規(guī)模的增大,本發(fā)明中服務器消耗時間占有比會有所減少,而客戶端消耗時間占有比會有所增加。之前方案中服務器和客戶端消耗時間占有比如圖5所示,本發(fā)明中服務器和客戶端消耗時間占有比如圖6所示。

最后,本發(fā)明通過實驗,給出了一次迭代中具有隱私保護的k-means聚類算法與經(jīng)典的k-means算法處理數(shù)據(jù)的時間,可以看出加密所帶來的時間消耗是比較大的。但是,隨著數(shù)據(jù)規(guī)模的增大,本發(fā)明一次迭代的時間消耗與經(jīng)典的k-means時間消耗的比值越來越小。一次迭代中本發(fā)明與經(jīng)典的k-means算法耗費時間如表6所示,時間比值如圖7所示。

表6一次迭代中本發(fā)明與經(jīng)典的k-means算法耗費時間

本發(fā)明選用的是數(shù)據(jù)挖掘中較為典型的k-means算法,并且在雙方的水平劃分的聯(lián)合數(shù)據(jù)集進行挖掘,同時支持云平臺的存儲外包和計算外包。本發(fā)明的有益效果主要有以下幾方面:

(1)通過分析隱私保護的數(shù)據(jù)挖掘的國內外現(xiàn)狀,清楚地了解現(xiàn)在常用技術的優(yōu)勢和劣勢?;跀?shù)據(jù)擾亂技術的方案雖然執(zhí)行效率較高,但是因為它破壞了原有的數(shù)據(jù)集,所以對數(shù)據(jù)挖掘結果肯定會產(chǎn)生一定的影響,而基于加密的方案可以很好的保證挖掘結果的正確性,本發(fā)明采用加密的方式很好的保證了數(shù)據(jù)挖掘結果的正確性;

(2)本發(fā)明方案支持數(shù)據(jù)存儲外包。云平臺相比于一般的pc機,擁有更大的存儲能力,這使得本發(fā)明方案可以在更大規(guī)模的數(shù)據(jù)集上執(zhí)行;

(3)本發(fā)明方案支持數(shù)據(jù)計算外包。云平臺是一種分布式計算框架,它可以把很多的資源整合到一起成為一個集群,從而大幅度提升系統(tǒng)的計算能力。本發(fā)明方案將大部分的計算外包給云平臺,借助云平臺強大的計算能力,在保證正確性的同時,執(zhí)行效率也大幅度提升;

(4)從理論分析算法的時間復雜度、空間復雜度、通訊復雜度和安全性,并且通過實驗驗證該算法的正確性和高效性。本發(fā)明提出的具有隱私保護的k-means聚類算法不僅實現(xiàn)了半誠實模型下的安全計算,而且在重計算質心點階段支持三個參與方中最多一方為惡意方的安全計算。

以上所述之具體實施方式為本發(fā)明的較佳實施方式,并非以此限定本發(fā)明的具體實施范圍,本發(fā)明的范圍包括并不限于本具體實施方式,凡依照本發(fā)明所作的等效變化均在本發(fā)明的保護范圍內。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
札达县| 左贡县| 彩票| 江油市| 陆良县| 肇州县| 高雄县| 思南县| 孟连| 岐山县| 渭南市| 莫力| 翁源县| 通河县| 滦南县| 孟连| 朝阳市| 密山市| 东辽县| 宁远县| 高州市| 泰州市| 会昌县| 来宾市| 平陆县| 镇安县| 南雄市| 北宁市| 荔波县| 文水县| 深州市| 深泽县| 习水县| 沈丘县| 嘉善县| 且末县| 临夏县| 洛川县| 康保县| 涞水县| 吕梁市|