两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于混合公共因子分析器的分布式高維數(shù)據(jù)分類方法

文檔序號:9787830閱讀:459來源:國知局
基于混合公共因子分析器的分布式高維數(shù)據(jù)分類方法
【技術領域】
[0001] 本發(fā)明涉及一種基于混合公共因子分析器的分布式高維數(shù)據(jù)分類方法,屬于數(shù)據(jù) 處理與應用的技術領域。
【背景技術】
[0002] 隨著采集和存儲技術的不斷發(fā)展,數(shù)據(jù)的維度和數(shù)量不斷增大,高維大數(shù)據(jù)不斷 涌現(xiàn)。例如,基于內容的大規(guī)模圖像檢索和文檔檢索中屢見不鮮的人臉圖像、視頻和網(wǎng)頁文 本、語音與音頻信號處理中不可避免出現(xiàn)的高維特征矢量、生物信息學中對生物組織進行 聚類分析中的基因數(shù)據(jù)等。很顯然,維度越高,數(shù)據(jù)量越大,可以更加全面地刻畫所描述的 對象以及更好地分辨對象。然而,過高的維度、過大的數(shù)據(jù)量帶來了極高的處理和傳輸負 擔,特別是在傳感器網(wǎng)絡中,單個節(jié)點的存儲、處理和傳輸通信能力都十分有限,因此,對數(shù) 據(jù)的分析與處理方法的設計提出了新的更高的要求和挑戰(zhàn)。具體而言,一方面,對于高維度 數(shù)據(jù)或特征而言,傳統(tǒng)的模型和及其估計算法容易出現(xiàn)"維數(shù)災難"問題,使得相關問題難 以理解和表示,更不可能實現(xiàn)可視化。因此,如何實現(xiàn)對高維數(shù)據(jù)準確、高效地分析與處理, 已經(jīng)成為一個極具挑戰(zhàn)性的基礎研究問題;另一方面,當數(shù)據(jù)量很大的時候,單個傳感器節(jié) 點往往無法完成數(shù)據(jù)的分析和處理任務,此時可以將大數(shù)據(jù)分成不同的部分,分別存儲在 多個傳感器節(jié)點上,通過合理的通信和協(xié)作,共同完成指定的任務。如何針對大數(shù)據(jù)設計協(xié) 作處理策略,也是亟待解決的問題。
[0003] 分類是指通過一定的方法將數(shù)據(jù)分成多個類的過程,在機器學習領域,對數(shù)據(jù)的 分類是一個有監(jiān)督學習的過程。在現(xiàn)有的文獻和專利中,已經(jīng)出現(xiàn)了大量分類的方法,但是 當數(shù)據(jù)量很大或者單個節(jié)點處理能力有限的情況下,需要將數(shù)據(jù)分布在多個節(jié)點上,此時 如何完成分布式處理,十分關鍵。因此,本專利所提出的方法正是為了解決這一問題,設計 一種基于混合公共因子分析器的分布式高維數(shù)據(jù)分類方法(1)混合因子分析模型可以有效 的處理高維數(shù)據(jù);(2)通過設計節(jié)點間協(xié)作方式,只傳輸中間結果就可以獲得滿意的聚類結 果,與傳輸原始數(shù)據(jù)方式相比,既減小了通信的開銷,又保護了數(shù)據(jù)上的隱私信息,確保了 網(wǎng)絡中的數(shù)據(jù)安全。

【發(fā)明內容】

[0004] 本發(fā)明目的在于解決了上述現(xiàn)有技術的缺陷,提出了一種基于混合公共因子分析 器的分布式高維數(shù)據(jù)分類方法,該方法包括如下步驟:
[0005] 步驟1:數(shù)據(jù)的采集;
[0006] 設有Μ個節(jié)點組成一個網(wǎng)絡,每個節(jié)點采集到的數(shù)據(jù)來自V個類,數(shù)據(jù)維度為p。其 中,節(jié)點m采集到的所有數(shù)據(jù)中,來自第ν個類的數(shù)據(jù)集為X^={〇" =1^ 其中表示節(jié)點m處,來自第v個類的第η個數(shù)據(jù),為數(shù)字第v個類的訓練數(shù)據(jù)個數(shù);此 外,節(jié)點m的鄰居節(jié)點集合表示為Rm;
[0007] 步驟2,訓練:對于所有節(jié)點中來自于第v個類的數(shù)據(jù)X!:1 ,Μ),用混合公共 因子分析器(MCFA)來描述其分布,并且采用分布式方式完成模型的訓練,估計出參數(shù)
?ν = 1,…,F(xiàn));以同樣的方式,估計出每一類數(shù)據(jù)所對應的 MCFA的參數(shù)集θ (v) (ν = 1,. . .,V),訓練過程完成;
[0008] 步驟3,識別:當網(wǎng)絡中的任一節(jié)點采集到新的用于識別的數(shù)據(jù)X '時,計算X '關于 0w(v = l,...,V)的對數(shù)似然值log ρ(χ' | 0w)(v = l,...,V):
[0010]將最大對數(shù)似然值對應的序號作為χ'的識別結果ν' :
[0012] 本發(fā)明步驟2所述針對第v個類的數(shù)據(jù)的訓練的過程包括如下:
[0013] 為了表示簡潔,并且不會影響理解和實施,省略和
[0014] 步驟2-1,初始化:設定MCFA中的參數(shù)初始值。其中,各節(jié)點 處的(wi,. . .,wg,. . .,wg) = (1/G, . . .,1/G,. . .,1/G);L和Ε矩陣中的每一個元素都從標準正 態(tài)分布N(0,1)中生成;Ri,. . .,|g,. . .,|c}中的每個元素都從標準正態(tài)分布N(0,1)中生成; Ωι=. . . = Qg=. . . = Qc=Iq,其中 Iq為(q X q)的單位矩陣。
[0015] 步驟2-2,廣播數(shù)據(jù)個數(shù):每個節(jié)點1(1 = 1,2, . . .,M)將其采集到的數(shù)據(jù)個數(shù)Νι廣 播給其鄰居節(jié)點。當某個節(jié)點m收到它的所有鄰居節(jié)點廣播來的數(shù)據(jù)個數(shù)之后,該節(jié)點計算 權重系數(shù)Clm:
[0017] 此外,迭代計數(shù)器iter = l,開始迭代過程;
[0018] 步驟2-3,局部計算:在傳感器網(wǎng)絡中的每個節(jié)點1處,根據(jù)當前的節(jié)點處的數(shù)據(jù)Xi 和上一次迭代之后估計出的參數(shù)值? °ld,即(當iter = 1時,Θ °ld為初始化之后的參數(shù)值), 計算出&1,11,8九,118和/\:(/? = 1,...,%4 = 1,.",(7),其公式為:
[0024]步驟2-4,廣播擴散:傳感器網(wǎng)絡中的每個節(jié)點1把計算出三組中間變量,即:
[0025]
(g = 1.…乂放在一個數(shù)據(jù)包內,然 后向其他節(jié)點廣播擴散該數(shù)據(jù)包。
[0026] 步驟2-5,聯(lián)合計算:當節(jié)點m(m=l, . . .,M)收到來自其所有鄰居節(jié)點l(leRm)& 來的含有中間變量的數(shù)據(jù)包之后,計算聯(lián)合統(tǒng)計量{兄^ 丨二,即:
[0029] 步驟2-6,參數(shù)估計:節(jié)點m(m=l,...,M)根據(jù)步驟2-5計算出的聯(lián)合統(tǒng)計量和步驟

[0035]步驟2-7,判別收斂:節(jié)點m(m=l,...,M)計算當前迭代下的對數(shù)似然值,即:
[0037] 其中Θη~表示當前迭代估計出的參數(shù)值,?°ld表示上一次迭代中的估計參數(shù)值。 如果1 ogp (Xm | Θ new) -1 〇gp (Xm | Θ °ld) < ε,其中ε = 1 〇-5,節(jié)點m進入終止狀態(tài)。否則,轉向步驟
[0038] 2-3開始下一次迭代。
[0039] 經(jīng)過上述步驟2-1~步驟2-7之后,估計出θ (v)。
[0040]本發(fā)明方法應用于數(shù)據(jù)的并行分布式處理。
[0041 ] 有益效果:
[0042] 1.本發(fā)明采用的混合公共因子分析器能夠對高維數(shù)據(jù)進行降維,從而在降維的同 時順利完成數(shù)據(jù)的建模,獲得更好的分類性能,并且降低了運算復雜度。此外,本發(fā)明只傳 輸中間計算結果而非原始數(shù)據(jù),極大地保護了傳輸數(shù)據(jù)的隱私。
[0043] 2.本發(fā)明采用的基于混合公共因子分析器的訓練與識別過程,使得網(wǎng)絡中的各個 節(jié)點可以充分利用其它節(jié)點的數(shù)據(jù)中所包含的信息,使得分類性能極大地優(yōu)于集中式方 法。
【附圖說明】
[0044] 圖1為本發(fā)明涉及的基于混合公共因子分析器的分布式高維數(shù)據(jù)分類方法的流程 圖。
[0045] 圖2為本發(fā)明所涉及的方法和其他方法的分類性能的定性比較結果示意圖。
[0046] 圖3為本發(fā)明所涉及的方法和其他方法的分類性能的定量比較結果示意圖。
【具體實施方式】
[0047] 下面結合說明書附圖對本發(fā)明創(chuàng)造作進一步的詳細說明。
[0048] 如圖1-3所示,本發(fā)明提供了一種基于混合公共因子分析器的分布式高維數(shù)據(jù)分 類方法,該方法包括如下步驟:
[0049] 步驟1:數(shù)據(jù)的采集;
[0050] 設有Μ臺計算機/計算節(jié)點(即:節(jié)點),組成一個網(wǎng)絡,每個節(jié)點采集到的數(shù)據(jù)來自 V個類,數(shù)據(jù)維度為ρ。其中,節(jié)點m采集到的所有數(shù)據(jù)中,來自第ν個類的數(shù)據(jù)集為
,其中.<!,表示節(jié)點m處,來自第v個類的第η個數(shù)據(jù),坨, 11為 數(shù)字第ν個類的訓練數(shù)據(jù)個數(shù)。
[0051 ]此外,每個節(jié)點的數(shù)據(jù)傳輸范圍設為Di S,對于當前節(jié)點m,所有與其距離小于DiS 的節(jié)點為其鄰居節(jié)點,節(jié)點m的鄰居節(jié)點集合表示為1。在本發(fā)明中,節(jié)點之間的連接關系 (網(wǎng)絡拓撲)事先確定好,只需要保證任意兩個節(jié)點之間至少存在一條直接或經(jīng)多跳可以到 達的路徑即可。
[0052] 步驟2:訓練;
[0053] 對于所有節(jié)點中來自于第ν個類的數(shù)據(jù)集XT 用混合公共因子分析 器(mixture of common factor analyzers,簡稱MCFA)來描述其分布。與第ν個類相關的 MCFA模型其參數(shù)集為其中Kf為混合權值,滿足
(q維矢量)和i^^qXq)矩陣)分別為與p維數(shù)據(jù)對應的q維因子所服從 的高斯分布的均值和協(xié)方差矩陣,q取P/2~p/8之間的任意整數(shù)。采用如下的分布式方式完 成訓練,具體訓練過程如下(這里以第ν類數(shù)據(jù)足f的訓練過程為例,為了表示簡潔,并且不 會影響理解和實施,下面的步驟中略去X。和 α(νΓ):
[0054] 步驟2-1,初始化:設定MCFA中的參數(shù)初始值€) = ,&^]f=pL,E]·。其中,各節(jié)點 處的(wi,. . .,wg,. . .,wg) = (1/G, . . .,1/G,. . .,1/G);L和E矩陣中的每一個元素都從標準正 態(tài)分布N(0,1)中生成;Ri,. . .,|g,. . .,|c}中的每個元素都從標準正態(tài)分布N(0,1)中生成; Ωι=. . . = Qg=. . . = Qc=Iq,其中 Iq為(q X q)的單位矩陣。
[0055]步驟2-2,廣播數(shù)據(jù)個數(shù):每個節(jié)點1(1 = 1,2, . . .,M)將其采集到的數(shù)據(jù)個數(shù)Νι廣 播給其鄰居節(jié)點。當某個節(jié)點m收到它的所有鄰居節(jié)點廣播來的數(shù)據(jù)個數(shù)之后,該節(jié)點計算 權重系數(shù)Clm:
[0057] 該權重的含義為用于衡量節(jié)點m的各鄰居節(jié)點1(1 eRm)每次傳輸?shù)男畔⒃诠?jié)點m 處的重要性。此
當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
始兴县| 阳高县| 赞皇县| 嘉峪关市| 锡林浩特市| 四子王旗| 泽州县| 焦作市| 寿阳县| 商河县| 南平市| 平昌县| 西乌珠穆沁旗| 博爱县| 瓮安县| 宁河县| 扎赉特旗| 昌邑市| 尉犁县| 抚顺市| 屯昌县| 新津县| 临武县| 沙洋县| 景宁| 屏东市| 贞丰县| 名山县| 临武县| 阿拉善右旗| 永善县| 南昌县| 屏东县| 蛟河市| 西吉县| 屯留县| 禹城市| 台安县| 东乌珠穆沁旗| 荆门市| 胶州市|