基于鄰近分組的大數(shù)據(jù)測(cè)量的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及大數(shù)據(jù)信息處理領(lǐng)域,更具體而言,涉及一種基于鄰近分組的大數(shù)據(jù) 測(cè)量方法和裝置。
【背景技術(shù)】
[0002] 隨著社會(huì)工業(yè)化、信息化水平的不斷提高,如今數(shù)據(jù)已取代計(jì)算成為信息計(jì)算的 中心,云計(jì)算、大數(shù)據(jù)正在成為一種趨勢(shì)和潮流。包括存儲(chǔ)容量、可用性、I/O性能、數(shù)據(jù) 安全性、可擴(kuò)展性等諸多方面。大數(shù)據(jù)是規(guī)模非常巨大和復(fù)雜的數(shù)據(jù)集。大數(shù)據(jù)有4V: Volume (大量),數(shù)據(jù)量持續(xù)快速增加;Velocity (高速),數(shù)據(jù)I/O速度更快;Variety (多 樣),數(shù)據(jù)類(lèi)型和來(lái)源多樣化;Value (價(jià)值),其存在各方面的可用價(jià)值。與此同時(shí),在對(duì)大 數(shù)據(jù)的挖掘應(yīng)用中,大多數(shù)感興趣的數(shù)據(jù)往往很復(fù)雜,而且由于對(duì)象的復(fù)雜性,導(dǎo)致該數(shù)據(jù) 由許多不同特征表示,從而為大數(shù)據(jù)的進(jìn)一步處理帶來(lái)難度。
[0003] 對(duì)于大數(shù)據(jù)中的多維數(shù)據(jù),尤其是高維數(shù)據(jù),使用常規(guī)的機(jī)器學(xué)習(xí)運(yùn)算對(duì)其進(jìn)行 處理有時(shí)也比較困難。因?yàn)槎嗑S數(shù)據(jù)具有復(fù)雜性、不確定性和模糊性,其包含了圖像、文本、 音視頻、數(shù)據(jù)流、各種物理類(lèi)型的信號(hào)。本領(lǐng)域技術(shù)人員所公知的是:如果采用低維數(shù)據(jù),則 所需要的采樣點(diǎn)將比較少;如果數(shù)據(jù)是多維甚至高維,所需要的采樣點(diǎn)就會(huì)驚人地指數(shù)級(jí) 增加,而現(xiàn)實(shí)中面對(duì)多維問(wèn)題時(shí)往往無(wú)法獲得如此多的樣本點(diǎn)(即使獲得了也無(wú)法處理這 么龐大數(shù)據(jù)量),所以導(dǎo)致對(duì)該問(wèn)題的處理極為棘手。
[0004] 對(duì)大數(shù)據(jù)的處理,先對(duì)其進(jìn)行測(cè)量,進(jìn)而為進(jìn)一步的處理建立基礎(chǔ)。破解產(chǎn)業(yè)難 題。因此需要做出改進(jìn),以期先對(duì)大數(shù)據(jù)做出有意義的測(cè)量,特別地,可將其應(yīng)用到基于鄰 近分組的大數(shù)據(jù)框架中。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的之一是提供一種基于鄰近分組的大數(shù)據(jù)測(cè)量方法和裝置,通過(guò)改 進(jìn)、優(yōu)化其測(cè)量方式而做出有意義的測(cè)量,為進(jìn)一步的處理奠定基礎(chǔ)。
[0006] 本發(fā)明為解決上述技術(shù)問(wèn)題而采取的技術(shù)方案為:一種基于鄰近分組的大數(shù)據(jù)測(cè) 量方法和執(zhí)行方法步驟的裝置,該方法包括步驟:確定鄰近分組中元素的權(quán)重;相對(duì)于元 素Xj,獲得其他元素的鄰近分組中與元素Xj鄰近程度為L(zhǎng)的元素?cái)?shù)量;相對(duì)于元素Xj,獲 得在分類(lèi)為d的元素分組中與元素Xj鄰近程度為L(zhǎng)的元素?cái)?shù)量;如果元素Xj出現(xiàn)在鄰近 集合中,則獲得分類(lèi)為d的元素Xj的概率;獲得關(guān)于分類(lèi)為d的元素Xj的概率;并獲得關(guān) 于分類(lèi)d中元素Xj的關(guān)系程度Rd (Xj)。
[0007] 根據(jù)本發(fā)明的一個(gè)方面,元素Xj是其他元素的鄰近分組中所有或部分元素的近 鄰,該權(quán)重或者基于鄰近分組中的元素位置,或者基于某元素到其他數(shù)據(jù)點(diǎn)之間的距離;與 元素Xj相關(guān)聯(lián)的權(quán)重表示為W(Xj),該參數(shù)表示經(jīng)過(guò)訓(xùn)練的分組中的元素Xj具有唯一的相 關(guān)聯(lián)的權(quán)重,其中j為正整數(shù)。
[0008] 根據(jù)本發(fā)明的另一個(gè)方面,元素?cái)?shù)量表示為隊(duì)(Xj),由αΑ和β B兩部分的總和組 成;A表示元素Xj的標(biāo)識(shí)與另一些元素的標(biāo)識(shí)相匹配的事件所發(fā)生的數(shù)量,所述的另一些 元素是在鄰近分組中與元素Xj鄰近程度為L(zhǎng)并且被觀察的元素;其中L為正整數(shù);B表示 元素Xj與另一些元素的標(biāo)識(shí)失配的事件的數(shù)量;α、β表示系數(shù)。
[0009] 根據(jù)本發(fā)明的另一個(gè)方面,獲得的分類(lèi)為d的元素Xj的概率表示為γ?,該γ?為 (M^(XjKC)和(MjXj)+D*C)的商,其中C是為了防止概率被評(píng)估為0的平坦化因子,而D 是分類(lèi)的總數(shù)。
[0010] 根據(jù)本發(fā)明的另一個(gè)方面,獲得的關(guān)于分類(lèi)為d的元素Xj的概率表示為γ 2, γ 2
和(OD+L+1)的商,其中E是判定函數(shù)
[0011] 根據(jù)本發(fā)明的另一個(gè)方面,關(guān)系程度Rd(Xj)可用另一個(gè)判定函數(shù)來(lái)獲得,該判定 函數(shù)為:如果隊(duì)(Xj)比預(yù)先定義的臨界值大,則關(guān)系程度Rd (Xj)可選取γ?值;而如果 MJXj)比預(yù)先定義的臨界值小,則關(guān)系程度Rd(Xj)可選取γ2值;之后可將其應(yīng)用于大數(shù) 據(jù)的選擇和操作,進(jìn)而做出有意義的大數(shù)據(jù)測(cè)量。
【附圖說(shuō)明】
[0012] 在附圖中通過(guò)實(shí)例的方式而不是通過(guò)限制的方式來(lái)示出本發(fā)明的實(shí)施例,其中:
[0013] 根據(jù)本發(fā)明的實(shí)施例,圖1例示了一種基于鄰近分組的大數(shù)據(jù)測(cè)量方法的流程 圖。
【具體實(shí)施方式】
[0014] 在下面的描述中,參考附圖并以例示的方式示出幾個(gè)具體的實(shí)施例。將理解的是: 可設(shè)想并且可做出其他實(shí)施例而不脫離本公開(kāi)的范圍或精神。因此,以下詳細(xì)描述不應(yīng)被 認(rèn)為具有限制意義。
[0015] 根據(jù)本發(fā)明的實(shí)施例,圖1例示了一種基于鄰近分組的大數(shù)據(jù)測(cè)量方法的流程 圖,其中該方法可應(yīng)用于并且適合于基于鄰近分組的大數(shù)據(jù)架構(gòu)。
[0016] 首先,在步驟Sl中,確定鄰近分組中元素的權(quán)重,該權(quán)重或者基于鄰近分組中的 元素位置,或者基于某元素到其他數(shù)據(jù)點(diǎn)之間的距離。元素Xj是其他元素的鄰近分組中所 有或部分元素的近鄰。優(yōu)選地,與元素Xj相關(guān)聯(lián)的權(quán)重表示為W(Xj),該參數(shù)表示經(jīng)過(guò)訓(xùn)練 的分組中的元素Xj具有唯一的相關(guān)聯(lián)的權(quán)重,其中j為正整數(shù)。
[0017] 其次,在步驟S2中,相對(duì)于元素Xj,獲得其他元素的鄰近分組中與元素Xj鄰近程 度為L(zhǎng)的元素?cái)?shù)量,用隊(duì)(Xj)來(lái)表示,其由αΑ和βΒ兩部分的總和組成,其中A表示元素 Xj的標(biāo)識(shí)與另一些元素的標(biāo)識(shí)相匹配的事件所發(fā)生的數(shù)量,所述的另一些元素是在鄰近分 組中與元素Xj鄰近程度為L(zhǎng)并且被觀察的元素;其中L為正整數(shù)。而B(niǎo)表示元素Xj與另一 些元素的標(biāo)識(shí)失配的事件的數(shù)量。而α、β表示系數(shù),優(yōu)選地,這兩者可以是常數(shù);優(yōu)選地, 二者可以是正常數(shù);優(yōu)選地,二者均是小于1的常數(shù);優(yōu)選地,二者均是小于1的正常數(shù);更 優(yōu)選地,二者均是小于1的常數(shù)并且總和等于1 ;最優(yōu)選地,二者均是小于1的正常數(shù)并且 總和等于1。
[0018] 再次,在步驟S3中,相對(duì)于元素Xj,獲得在分類(lèi)為d的元素分組中與元素Xj鄰近 程度為L(zhǎng)的元素?cái)?shù)量,用M ud(Xj)來(lái)表示。
[0019] 再次,在步驟S4中,如果元素Xj出現(xiàn)在鄰近集合中,則獲得分類(lèi)為d的元素Xj的 概率,用γ?表示。優(yōu)選地,γ?為(M^ (Xj)+〇和(MJXj)+D*C)的商,其中C是為了防止 概率被評(píng)估為〇的平坦化因子,而D是分類(lèi)的總數(shù)。
[0020] 再次,在步驟S5中,獲得關(guān)于分類(lèi)為d的元素Xj的概率,用γ 2表示。優(yōu)選地,γ 2
和(C*D