一種降維映射的大數(shù)據(jù)可視化方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)的大數(shù)據(jù)處理領(lǐng)域,具體地說是一種降維映射的大數(shù)據(jù)可視化方法。
【背景技術(shù)】
[0002]大數(shù)據(jù)可視化,可視分析是大數(shù)據(jù)分析的重要方法,大數(shù)據(jù)可視分析旨在利用計(jì)算機(jī)自動(dòng)化分析能力的同時(shí),充分挖掘人對于可視化信息的認(rèn)知能力優(yōu)勢,將人、機(jī)的各自強(qiáng)項(xiàng)進(jìn)行有機(jī)融合,借助人機(jī)交互式分析方法和交互技術(shù),輔助人們更為直觀和高效地洞悉大數(shù)據(jù)背后的信息、知識與智慧。主要從可視分析領(lǐng)域所強(qiáng)調(diào)的認(rèn)知、可視化、人機(jī)交互的綜合視角出發(fā),分析支持大數(shù)據(jù)可視分析的基礎(chǔ)理論,包括支持分析過程的認(rèn)知理論、信息可視化理論、人機(jī)交互與用戶界面理論等。
[0003]大數(shù)據(jù)可視分析是指在大數(shù)據(jù)自動(dòng)分析挖掘方法的同時(shí),利用支持信息可視化的用戶界面以及支持分析過程的人機(jī)交互方式與技術(shù),有效融合計(jì)算機(jī)的計(jì)算能力和人的認(rèn)知能力,以獲得對于大規(guī)模復(fù)雜數(shù)據(jù)集的洞察力。
[0004]降維映射中,機(jī)器學(xué)習(xí)領(lǐng)域中所謂的降維就是指采用某種映射方法,將原高維空間中的數(shù)據(jù)點(diǎn)映射到低維度的空間中。降維的本質(zhì)是學(xué)習(xí)一個(gè)映射函數(shù)f: x_>y,其中X是原始數(shù)據(jù)點(diǎn)的表達(dá),目前最多使用向量表達(dá)形式;y是數(shù)據(jù)點(diǎn)映射后的低維向量表達(dá),通常y的維度小于X的維度(當(dāng)然提高維度也是可以的);f可能是顯式的或隱式的、線性的或非線性的。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的目的是克服現(xiàn)有技術(shù)中存在的不足,提供一種降維映射的大數(shù)據(jù)可視化方法。
[0006]本發(fā)明的技術(shù)方案是按以下方式實(shí)現(xiàn)的,實(shí)施步驟如下:
1)、建立一個(gè)目標(biāo)函數(shù),實(shí)現(xiàn)一種點(diǎn)對點(diǎn)的降維映射,能保持對應(yīng)的距離不變;
2)、對目標(biāo)函數(shù)采用不同的最優(yōu)化方法,如梯度下降法和隨機(jī)梯度下降法。在這兩種最優(yōu)化方法中,每一步迭代都需要全部數(shù)據(jù)以形成所需要的梯度,采用類似于神經(jīng)網(wǎng)絡(luò)算法算法的位置調(diào)節(jié)規(guī)則,則每步迭代僅需一對數(shù)據(jù);以數(shù)據(jù)為基準(zhǔn),對其他數(shù)據(jù)映射進(jìn)行調(diào)
-K-
T ;
3)、學(xué)習(xí)率與權(quán)向量調(diào)整規(guī)則中的學(xué)習(xí)率可以完全相同,消除額外的控制參數(shù)問題。
[0007]本發(fā)明的優(yōu)點(diǎn)是:
本發(fā)明的一種降維映射的大數(shù)據(jù)可視化方法和現(xiàn)有技術(shù)相比,并不采用常見的Himberg收縮模型,而根據(jù)神經(jīng)元在這兩種空間中對應(yīng)距離的一致性進(jìn)行調(diào)節(jié),可以證明這種調(diào)節(jié)方式類似于隨機(jī)梯度下降法。本方法具有保距映射的功能,不但實(shí)現(xiàn)了數(shù)據(jù)間距離信息的直觀展現(xiàn),還能在不需要任何額外控制參數(shù)的情況下自動(dòng)避免神經(jīng)元的過度收縮問題,從而極大地提高算法的可控性和數(shù)據(jù)可視化的質(zhì)量。
【具體實(shí)施方式】
[0008]下面對本發(fā)明的一種降維映射的大數(shù)據(jù)可視化方法作以下詳細(xì)說明。
[0009]本發(fā)明的一種降維映射的大數(shù)據(jù)可視化方法,對神經(jīng)元的位置進(jìn)行調(diào)節(jié)的依據(jù)已不再是Himberg收縮模型,而是根據(jù)神經(jīng)元在原數(shù)據(jù)空間和低維空間中對應(yīng)距離(或相似度)的一致性進(jìn)行調(diào)節(jié),目的是為了對數(shù)據(jù)間的距離(或相似度)信息進(jìn)行直觀展現(xiàn)。在迭代的每一步,以獲勝神經(jīng)元V為基準(zhǔn),對其他神經(jīng)元的位置進(jìn)行調(diào)節(jié),如采用距離度量而非相似度量等。
[0010]實(shí)施步驟如下:
1)、建立一個(gè)目標(biāo)函數(shù),實(shí)現(xiàn)一種點(diǎn)對點(diǎn)的降維映射,能保持對應(yīng)的距離不變;
2)、對目標(biāo)函數(shù)采用不同的最優(yōu)化方法,如梯度下降法和隨機(jī)梯度下降法。在這兩種最優(yōu)化方法中,每一步迭代都需要全部數(shù)據(jù)以形成所需要的梯度,采用類似于神經(jīng)網(wǎng)絡(luò)算法算法的位置調(diào)節(jié)規(guī)則,則每步迭代僅需一對數(shù)據(jù)。以數(shù)據(jù)為基準(zhǔn),對其他數(shù)據(jù)映射進(jìn)行調(diào)
-K-
T ;
3)、學(xué)習(xí)率與權(quán)向量調(diào)整規(guī)則中的學(xué)習(xí)率可以完全相同,消除額外的控制參數(shù)問題。
[0011]除說明書所述的技術(shù)特征外,均為本專業(yè)技術(shù)人員的已知技術(shù)。
【主權(quán)項(xiàng)】
1.一種降維映射的大數(shù)據(jù)可視化方法,其特征在于實(shí)施步驟如下: 1)、建立一個(gè)目標(biāo)函數(shù),實(shí)現(xiàn)一種點(diǎn)對點(diǎn)的降維映射,能保持對應(yīng)的距離不變; 2)、對目標(biāo)函數(shù)采用不同的最優(yōu)化方法,如梯度下降法和隨機(jī)梯度下降法;在這兩種最優(yōu)化方法中,每一步迭代都需要全部數(shù)據(jù)以形成所需要的梯度,采用類似于神經(jīng)網(wǎng)絡(luò)算法算法的位置調(diào)節(jié)規(guī)則,則每步迭代僅需一對數(shù)據(jù);以數(shù)據(jù)為基準(zhǔn),對其他數(shù)據(jù)映射進(jìn)行調(diào)-K-T ; 3)、學(xué)習(xí)率與權(quán)向量調(diào)整規(guī)則中的學(xué)習(xí)率可以完全相同,消除額外的控制參數(shù)問題。
【專利摘要】本發(fā)明提供一種降維映射的大數(shù)據(jù)可視化方法,首先建立一個(gè)目標(biāo)函數(shù),實(shí)現(xiàn)一種點(diǎn)對點(diǎn)的降維映射;然后對目標(biāo)函數(shù)采用不同的最優(yōu)化方法,如梯度下降法和隨機(jī)梯度下降法。在這兩種最優(yōu)化方法中,每一步迭代都需要全部數(shù)據(jù)以形成所需要的梯度,采用類似于神經(jīng)網(wǎng)絡(luò)算法算法的位置調(diào)節(jié)規(guī)則,則每步迭代僅需一對數(shù)據(jù)。以數(shù)據(jù)為基準(zhǔn),對其他數(shù)據(jù)映射進(jìn)行調(diào)節(jié);最后學(xué)習(xí)率與權(quán)向量調(diào)整規(guī)則中的學(xué)習(xí)率可以完全相同,消除額外的控制參數(shù)問題。本發(fā)明具有保距映射的功能,不但實(shí)現(xiàn)了數(shù)據(jù)間距離信息的直觀展現(xiàn),還能在不需要任何額外控制參數(shù)的情況下自動(dòng)避免神經(jīng)元的過度收縮問題,從而極大地提高算法的可控性和數(shù)據(jù)可視化的質(zhì)量。
【IPC分類】G06F17-30
【公開號】CN104834716
【申請?zhí)枴緾N201510235026
【發(fā)明人】戴鴻君, 于治樓
【申請人】浪潮集團(tuán)有限公司
【公開日】2015年8月12日
【申請日】2015年5月11日