電視用戶行為數(shù)據(jù)的聚類方法、裝置及Spark大數(shù)據(jù)平臺的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)字電視技術(shù)領(lǐng)域,尤其涉及一種電視用戶行為數(shù)據(jù)的聚類方法、裝 置及Spark大數(shù)據(jù)平臺。
【背景技術(shù)】
[0002] 隨著現(xiàn)代通信技術(shù)的飛速發(fā)展以及多媒體電視的逐步普及,數(shù)字電視已經(jīng)成為廣 大家庭獲取信息的主要途徑。技術(shù)的變革使得我們每天可以獲取大量的電視用戶行為數(shù) 據(jù),如何基于高維度的電視用戶行為數(shù)據(jù)對用戶進(jìn)行分類,并基于分類進(jìn)行相應(yīng)的營銷與 市場推廣活動(dòng)也成為亟待解決的問題。但傳統(tǒng)的電視用戶行為數(shù)據(jù)的聚類方法在分析高維 度的電視用戶行為數(shù)據(jù)時(shí)存在著以下的缺陷:
[0003] (1)高維度數(shù)據(jù)可能集中存在大量無關(guān)的屬性,使得在所有維度中存在簇(聚類 結(jié)果)的可能性幾乎為〇 ;
[0004] (2)高維度數(shù)據(jù)中的數(shù)據(jù)分布比低維空間中的數(shù)據(jù)分布更加稀疏,其中數(shù)據(jù)間距 離幾乎相等的情況是比較普遍的;
[0005] (3)傳統(tǒng)的聚類算法(例如層次聚類、K-均值聚類)是常用的數(shù)據(jù)聚類方法,這些 算法使用距離矩陣,所以它的時(shí)間和空間復(fù)雜性都很高,當(dāng)數(shù)據(jù)的維度較高時(shí)即(空間復(fù) 雜性提高時(shí))會導(dǎo)致計(jì)算量幾何式增加。
[0006] (4)由于經(jīng)典的數(shù)據(jù)聚類算法都是基于單機(jī)環(huán)境下的,當(dāng)要處理的數(shù)據(jù)是海量數(shù) 據(jù)時(shí),單機(jī)的資源限制不能很好的完成數(shù)據(jù)挖掘任務(wù)。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明實(shí)施例提供了一種電視用戶行為數(shù)據(jù)的聚類方法、裝置Spark大數(shù)據(jù)平 臺,旨在解決現(xiàn)有技術(shù)提供的電視用戶行為數(shù)據(jù)的聚類方法,處理的電視用戶行為數(shù)據(jù)是 高維數(shù)據(jù),會導(dǎo)致計(jì)算量幾何式增加的問題。
[0008] 一方面,提供一種電視用戶行為數(shù)據(jù)的聚類方法,所述方法包括:
[0009] 獲取電視用戶行為數(shù)據(jù)并存儲所述電視用戶行為數(shù)據(jù)至第一矩陣A1中,所述第 一矩陣A1是一個(gè)n行*m列的矩陣,n代表用戶數(shù)量,m代表用戶觀看的視頻屬性的數(shù)量;
[0010] 使用主成分分析的方法對所述第一矩陣A1進(jìn)行屬性約簡處理,得到第二矩陣A2, 所述第二矩陣A2是一個(gè)n行*15列的矩陣;
[0011] 使用因子分析的方法對所述第二矩陣A2進(jìn)行屬性轉(zhuǎn)換處理,得到第三矩陣A3,所 述第三矩陣A3是一個(gè)n行*4列的矩陣;
[0012] 采用K-均值聚類算法對所述第三矩陣A3進(jìn)行聚類處理,得到聚類結(jié)果。
[0013] 進(jìn)一步地,所述使用主成分分析的方法對所述第一矩陣A1進(jìn)行屬性約簡處理,得 到第二矩陣A2,包括:
[0014] 調(diào)用主成分分析代碼,對所述第一矩陣A1進(jìn)行處理,得到各主成分的特征根入1、 各主成分的因子系數(shù)載荷矩陣C;
[0015] 基于各主成分的特征根A1的值,挑選出A1值大于等于預(yù)設(shè)第一閾值的前M個(gè) 主成分,并計(jì)算出前M個(gè)主成分的累計(jì)方差貢獻(xiàn)度D2 ;
[0016] 基于前M個(gè)主成分的因子系數(shù)載荷矩陣C,挑選出在每個(gè)主成分上系數(shù)大于預(yù)設(shè) 第二閾值的屬性,將每個(gè)主成分上系數(shù)大于預(yù)設(shè)第二閾值的屬性進(jìn)行合并約簡,得到屬性 約簡規(guī)則表;
[0017] 根據(jù)所述屬性約簡規(guī)則表對所述第一矩陣A1中的視頻屬性進(jìn)行合并,得到第二 矩陣A2。
[0018] 進(jìn)一步地,所述使用因子分析的方法對所述第二矩陣A2進(jìn)行屬性轉(zhuǎn)換處理,得到 第三矩陣A3,包括:
[0019] 調(diào)用因子分析的代碼,使用因子分析的方法對所述第二矩陣A2進(jìn)行處理,得到各 因子的特征根12、因子碎石圖、因子系數(shù)載荷矩陣E;
[0020] 基于各因子的特征值根a2,并結(jié)合所述因子碎石圖,得出特征值大于預(yù)設(shè)第三閾 值的前N個(gè)因子以及所述前N個(gè)因子對應(yīng)的因子系數(shù)載荷矩陣E;
[0021] 根據(jù)所述第二矩陣A2以及所述前N個(gè)因子對應(yīng)的因子系數(shù)載荷矩陣E得到第三 矩陣A3。
[0022] 進(jìn)一步地,在所述使用因子分析的方法對所述第二矩陣A2進(jìn)行屬性轉(zhuǎn)換處理,得 到第三矩陣A3之后,還包括:
[0023] 基于K-均值算法的并行運(yùn)算對所述第三矩陣A3進(jìn)行聚類處理,得到聚類結(jié)果。
[0024] 另一方面,提供一種電視用戶行為數(shù)據(jù)的聚類裝置,所述裝置包括:
[0025] 數(shù)據(jù)獲取單元,用于獲取電視用戶行為數(shù)據(jù)并存儲所述電視用戶行為數(shù)據(jù)至第一 矩陣A1中,所述第一矩陣A1是一個(gè)n行*m列的矩陣,n代表用戶數(shù)量,m代表用戶觀看的 視頻屬性的數(shù)量;
[0026] 第一降維單元,用于使用主成分分析的方法對所述第一矩陣A1進(jìn)行屬性約簡處 理,得到第二矩陣A2,所述第二矩陣A2是一個(gè)n行*15列的矩陣;
[0027] 第二降維單元,用于使用因子分析的方法對所述第二矩陣A2進(jìn)行屬性轉(zhuǎn)換處理, 得到第三矩陣A3,所述第三矩陣A3是一個(gè)n行*4列的矩陣;
[0028] 第一聚類單元,用于采用K-均值聚類算法對所述第三矩陣A3進(jìn)行聚類處理,得到 聚類結(jié)果。
[0029] 進(jìn)一步地,所述第一降維單元,包括:
[0030] 第一處理模塊,用于調(diào)用主成分分析代碼,對所述第一矩陣A1進(jìn)行處理,得到各 主成分的特征根M、各主成分的因子系數(shù)載荷矩陣C;
[0031] 第二處理模塊,用于基于各主成分的特征根A1的值,挑選出A1值大于等于預(yù)設(shè) 第一閾值的前M個(gè)主成分,并計(jì)算出前M個(gè)主成分的累計(jì)方差貢獻(xiàn)度D2 ;
[0032] 第三處理模塊,用于基于前M個(gè)主成分的因子系數(shù)載荷矩陣C,挑選出在每個(gè)主成 分上系數(shù)大于預(yù)設(shè)第二閾值的屬性,將每個(gè)主成分上系數(shù)大于預(yù)設(shè)第二閾值的屬性進(jìn)行合 并約簡,得到屬性約簡規(guī)則表;
[0033] 合并模塊,用于根據(jù)所述屬性約簡規(guī)則表對所述第一矩陣A1中的視頻屬性進(jìn)行 合并,得到第二矩陣A2。
[0034] 進(jìn)一步地,所述第二降維單元,包括:
[0035] 第三處理模塊,用于調(diào)用因子分析的代碼,使用因子分析的方法對所述第二矩陣 A2進(jìn)行處理,得到各因子的特征根A2、因子碎石圖、因子系數(shù)載荷矩陣E;
[0036] 第四處理模塊,用于基于各因子的特征值根X 2,并結(jié)合所述因子碎石圖,得出特 征值大于預(yù)設(shè)第三閾值的前N個(gè)因子以及所述前N個(gè)因子對應(yīng)的因子系數(shù)載荷矩陣E;
[0037] 第五處理模塊,用于根據(jù)所述第二矩陣A2以及所述前N個(gè)因子對應(yīng)的因子系數(shù)載 荷矩陣E得到第三矩陣A3。
[0038] 進(jìn)一步地,所述裝置,還包括:
[0039] 第二聚類單元,用于基于K-均值算法的并行運(yùn)算對所述第三矩陣A3進(jìn)行聚類處 理,得到聚類結(jié)果。
[0040] 再一方面,提供一種Spark大數(shù)據(jù)平臺,所述Spark大數(shù)據(jù)平臺包括如上所述的電 視用戶行為數(shù)據(jù)的聚類裝置。
[0041] 在本發(fā)明實(shí)施例,對高維第一矩陣A1通過主成分分析進(jìn)行屬性約簡后,得到第二 矩陣A2,再通過因子分析的方法對第二矩陣A2進(jìn)行屬性轉(zhuǎn)換,得到第三矩陣A3,得到的第 三矩陣A3是一個(gè)n行*4列的低維度矩陣,最后對該低維度矩陣采用K-均值聚類算法進(jìn)行 聚類,得到聚類結(jié)果。由于K-均值聚類算法處理的是低維度的電視用戶行為數(shù)據(jù),所以在 聚類的過程中,不會出現(xiàn)計(jì)算量幾何式增加的現(xiàn)象。解決了現(xiàn)有技術(shù)的提供的電視用戶行 為數(shù)據(jù)的聚類方法,處理的電視用戶行為數(shù)據(jù)是高維數(shù)據(jù),會導(dǎo)致計(jì)算量幾何式增加的問 題。
【附圖說明】
[0042] 圖1是本發(fā)明實(shí)施例一提供的電視用戶行為數(shù)據(jù)的聚類方法的實(shí)現(xiàn)流程圖;
[0043] 圖2是本發(fā)明實(shí)施例一提供的電視用戶行為數(shù)據(jù)的聚類方法中,K-均值算法的并 行運(yùn)算結(jié)構(gòu)的示意圖;
[0044] 圖3是本發(fā)明實(shí)施例二提供的電視用戶行為數(shù)據(jù)的聚類裝置的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0045] 為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對 本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并 不用于限定本發(fā)明。
[0046] 在本發(fā)明實(shí)施例中,對高維第一矩陣A1通過主成分分析進(jìn)行屬性約簡后,得到第 二矩陣A2,再通過因子分析的方法對第二矩陣A2進(jìn)行屬性轉(zhuǎn)換,得到第三矩陣A3,得到的 第三矩陣A3是一個(gè)n行*4列的低維度矩陣,最后對該低維度矩陣采用K-均值聚類算法進(jìn) 行聚類,得到聚類結(jié)果。由于K-均值聚類算法處理的是低維度的電視用戶行為數(shù)據(jù),所以 在聚類的過程中,不會出現(xiàn)計(jì)算量幾何式增加的現(xiàn)象。
[0047] 以下結(jié)合具體實(shí)施例對本發(fā)明的實(shí)現(xiàn)進(jìn)行詳細(xì)描述:
[0