基于神經網絡的大數(shù)據(jù)分析處理系統(tǒng)及方法
【專利摘要】本發(fā)明涉及網絡【技術領域】,具體地說是一種運算量合理、數(shù)據(jù)處理效率高的基于神經網絡的大數(shù)據(jù)分析處理系統(tǒng)及方法,其特征在于設有用于從數(shù)據(jù)庫中提取信息并進行初步處理的數(shù)據(jù)預處理單元、用于將預處理的數(shù)據(jù)二維化的數(shù)據(jù)決策表形成單元、用于對形成后的決策條件進行進一步簡化的屬性約簡單元、用于消除數(shù)據(jù)中的不一致對象和冗余對象的對象約簡單元、神經網絡模型運算單元以及顯示輸出單元,本發(fā)明相對與現(xiàn)有技術,能夠從大量無序、潛在的信息中獲得有效信息,通過對數(shù)據(jù)離散處理、降維存儲,能夠有效提高數(shù)據(jù)處理效率,具有處理量大、效率高等顯著的優(yōu)點。
【專利說明】基于神經網絡的大數(shù)據(jù)分析處理系統(tǒng)及方法
【技術領域】:
[0001] 本發(fā)明涉及網絡【技術領域】,具體地說是一種運算量合理、數(shù)據(jù)處理效率高的基于 神經網絡的大數(shù)據(jù)分析處理系統(tǒng)及方法。
【背景技術】:
[0002] 隨著科技進步和社會經濟水平的發(fā)展,人們生活進入數(shù)據(jù)化時代,人際交往可以 經各種數(shù)據(jù)化信息表達,生活和工作的方方面面也可以實現(xiàn)數(shù)據(jù)化。為了切實提高用戶使 用體驗,對于這些用戶數(shù)據(jù)的存儲、處理和分析顯而成為關鍵。此類數(shù)據(jù)量極大,且數(shù)據(jù)完 整度低、模糊、隨機、含有多種無效信息(例如噪聲),如何快速有效的對數(shù)據(jù)進行處理分析 成為目前業(yè)內研究的熱點。
[0003] 神經網絡是通過網絡中各連接權值的改變,實現(xiàn)對信息的處理和存儲,在神經網 絡模型中,每個神經元既是信息存儲單元,也是信息的處理單元,能夠實現(xiàn)信息存儲和處理 的合二為一,由這些神經元構成的網絡模型在每個神經元的共同作用下,完成對輸入模式 的識別與記憶,具有大規(guī)模并行處理的能力。
【發(fā)明內容】
:
[0004] 本發(fā)明針對現(xiàn)有技術中存在的缺點和不足,提出了一種運算量合理、數(shù)據(jù)處理效 率高的基于神經網絡的大數(shù)據(jù)分析處理系統(tǒng)及方法。
[0005] 本發(fā)明通過以下措施達到:
[0006] -種基于神經網絡的大數(shù)據(jù)分析處理系統(tǒng),其特征在于設有用于從數(shù)據(jù)庫中提取 信息并進行初步處理的數(shù)據(jù)預處理單元、用于將預處理的數(shù)據(jù)二維化的數(shù)據(jù)決策表形成單 元、用于對形成后的決策條件進行進一步簡化的屬性約簡單元、用于消除數(shù)據(jù)中的不一致 對象和冗余對象的對象約簡單元、神經網絡模型運算單元以及顯示輸出單元。
[0007] 本發(fā)明所述神經網絡模型運算單元內設有BP網絡單元、ART網絡單元、RBF網絡單 元和LVM網絡單元。
[0008] 本發(fā)明所述數(shù)據(jù)決策表形成單元設有用于將多維數(shù)據(jù)降維至二維數(shù)據(jù)的哈希函 數(shù)運算模塊。
[0009] 本發(fā)明所述數(shù)據(jù)預處理單元設有離散化處理模塊、屬性增/刪模塊、屬性位置互 換模塊、添加 ID屬性模塊、數(shù)據(jù)噪聲處理模塊。
[0010] 本發(fā)明還提出了一種基于神經網絡的大數(shù)據(jù)分析處理方法,其特征在于包括以下 步驟:
[0011] 步驟1 :從數(shù)據(jù)庫中抽取數(shù)據(jù),對抽取的數(shù)據(jù)進行離散化處理;
[0012] 步驟2:從步驟1所獲取的數(shù)據(jù)庫中抽取數(shù)據(jù)組成訓練集X,用于訓練哈希函數(shù),訓 練集的大小n E
【權利要求】
1. 一種基于神經網絡的大數(shù)據(jù)分析處理系統(tǒng),其特征在于設有用于從數(shù)據(jù)庫中提取 信息并進行初步處理的數(shù)據(jù)預處理單元、用于將預處理的數(shù)據(jù)二維化的數(shù)據(jù)決策表形成單 元、用于對形成后的決策條件進行進一步簡化的屬性約簡單元、用于消除數(shù)據(jù)中的不一致 對象和冗余對象的對象約簡單元、神經網絡模型運算單元以及顯示輸出單元。
2. 根據(jù)權利要求1所述的一種基于神經網絡的大數(shù)據(jù)分析處理系統(tǒng),其特征在于所述 神經網絡模型運算單元內設有BP網絡單元、ART網絡單元、RBF網絡單元和LVM網絡單元。
3. 根據(jù)權利要求1所述的一種基于神經網絡的大數(shù)據(jù)分析處理系統(tǒng),其特征在于所述 數(shù)據(jù)決策表形成單元設有用于將多維數(shù)據(jù)降維至二維數(shù)據(jù)的哈希函數(shù)運算模塊。
4. 根據(jù)權利要求1所述的一種基于神經網絡的大數(shù)據(jù)分析處理系統(tǒng),其特征在于所述 數(shù)據(jù)預處理單元設有離散化處理模塊、屬性增/刪模塊、屬性位置互換模塊、添加ID屬性模 塊、數(shù)據(jù)噪聲處理模塊。
5. -種基于神經網絡的大數(shù)據(jù)分析處理方法,其特征在于包括以下步驟: 步驟1 :從數(shù)據(jù)庫中抽取數(shù)據(jù),對抽取的數(shù)據(jù)進行離散化處理; 步驟2 :從步驟1所獲取的數(shù)據(jù)庫中抽取數(shù)據(jù)組成訓練集X,用于訓練哈希函數(shù),訓練 集的大小η由n, = 決定,其中tα/2表示置信度的值,可以通過t分布臨界值獲得,ε 表不最大的允許誤差; 步驟3 :用X訓練哈希函數(shù),首先涉及目標函數(shù)轉高位實數(shù)數(shù)據(jù)到低維數(shù)據(jù),目標函數(shù) 定義為:
其中X為訓練集,B為基空間,B的每一個向量均為訓練集X中訓練出來的基向量,S是X被 投影在基空間B上的低維實數(shù)值,AJPλ2是通過十折交叉驗證方法取得的可調參數(shù),Wi, 」是X中兩個實例XjP 間的歐式距離在高斯核上的投影,SJP\是矩陣S中的兩個向 量,Bi,」是矩陣B中第i行和第j列的元素,i= 1,2, 3,......,η為表示實例的記號,j= 1,2,3,k表示基向量的標號,η是實例的個數(shù),k是基向量的個數(shù),s>O表示S中每 個元素非負; 步驟4 :對數(shù)據(jù)庫中還沒得到二進制代碼的實例進行二進制編碼,過稱謂對每一個實 例X,通過s= (Β'Β+2ΙΓΒ'X得到X的低維實數(shù)值,然后通過哈希函數(shù)得到它的低維二進 制代碼,其中B是步驟2-2中定義的基空間,I是跟B同維度的單位矩陣,對整個數(shù)據(jù)庫進 行編碼,完成數(shù)據(jù)的二維化; 步驟5 :去掉不必要的條件屬性,從而分析所得到約簡中的條件屬性對于決策屬性的 決策規(guī)則; 步驟6 :消除數(shù)據(jù)中的不一致對象和冗余對象,其中不一致對象是指條件屬性相同而 決策屬性不同的對象,冗余對象為條件屬性相同而決策屬性也相同的對象 步驟7 :確定神經元網絡模型; 步驟8 :訓練神經元網絡模型,并通過運行算法實現(xiàn)數(shù)據(jù)分析處理; 步驟9 :顯不輸出結果。
【文檔編號】G06F17/30GK104462459SQ201410783568
【公開日】2015年3月25日 申請日期:2014年12月16日 優(yōu)先權日:2014年12月16日
【發(fā)明者】章偉, 殷晉 申請人:蕪湖樂銳思信息咨詢有限公司