技術(shù)特征:
技術(shù)總結(jié)
本發(fā)明公開(kāi)了一種Hadoop多管道數(shù)據(jù)處理分析方法,所述方法包括以下步驟:第一、利用外部設(shè)備輸入大數(shù)據(jù)文件;第二、分配事務(wù),MapReduce編程模型中的主程序節(jié)點(diǎn)分配子事務(wù),并將子事務(wù)通過(guò)網(wǎng)絡(luò)適配器遞交給空閑的工作機(jī)節(jié)點(diǎn)中;第三、生成鍵/值對(duì),被分配了子事務(wù)的工作機(jī)節(jié)點(diǎn)讀取輸入的大數(shù)據(jù)文件,從中解析出鍵/值對(duì),并調(diào)用用戶編寫(xiě)的Map函數(shù)處理鍵/值對(duì),并生成中間鍵/值對(duì);第四、發(fā)送消息;第五、調(diào)用中間數(shù)據(jù),根據(jù)位置信息調(diào)用磁盤(pán)上的中間數(shù)據(jù),并對(duì)這些中間數(shù)據(jù)按照key值進(jìn)行排序,相同的key值進(jìn)行合并操作;第六、執(zhí)行Reduce函數(shù),Reduce子事務(wù)節(jié)點(diǎn)遍歷排序后的中間數(shù)據(jù),并將數(shù)據(jù)傳遞給用戶定義的Reduce函數(shù);第七、輸出結(jié)果。
技術(shù)研發(fā)人員:林森;唐寧;馬娜
受保護(hù)的技術(shù)使用者:北京快友世紀(jì)科技股份有限公司
技術(shù)研發(fā)日:2017.05.17
技術(shù)公布日:2017.09.22