分布式互聯(lián)網(wǎng)交易信息存儲處理方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種分布式互聯(lián)網(wǎng)交易信息存儲處理方法。
【背景技術(shù)】
[0002]數(shù)據(jù)分析處理的模型和結(jié)果只有運用于某些決策應(yīng)用中才能產(chǎn)生真正的價值,而通過基于事實的支持系統(tǒng)來輔助決策而知等一些系列理論和方法便是商業(yè)智能(Bussiness Intelligence,簡稱BI )。隨著信息化高度發(fā)展,商業(yè)智能越來越被重視,尤其是聯(lián)合在線分析OLAP (即基于數(shù)據(jù)庫、大數(shù)據(jù)的聯(lián)機快速分析),更是某種程度上是商業(yè)智能的主要處理方法,傳統(tǒng)行業(yè)的BI解決方案中的核心數(shù)據(jù)倉庫架構(gòu)設(shè)計如圖1所示。
[0003]然而,互聯(lián)網(wǎng)交易信息數(shù)據(jù)不適合采用BI解決方案,主要原因有以下幾點:
1.互聯(lián)網(wǎng)電子商務(wù)交易的數(shù)據(jù)源多種多樣,包括不同的電商平臺、各種關(guān)系型數(shù)據(jù)庫、社交軟件產(chǎn)生的數(shù)據(jù)以及網(wǎng)絡(luò)日志數(shù)據(jù)等等;所以單一的ETL工具無法處理好所有的數(shù)據(jù)。
[0004]2.電子商務(wù)交易的數(shù)據(jù)量巨大,傳統(tǒng)的集中式關(guān)系型數(shù)據(jù)庫無法滿足處理如此大規(guī)模數(shù)據(jù)的要求。
[0005]3.互聯(lián)網(wǎng)交易監(jiān)測對數(shù)據(jù)分析處理的實時性要求較高,大部分的監(jiān)測預(yù)警需要在短時間內(nèi)完成處理才能體現(xiàn)數(shù)據(jù)的價值,傳統(tǒng)的離線ETL處理方式已經(jīng)無法滿足需求。
[0006]4.互聯(lián)網(wǎng)交易的用戶數(shù)量巨大,而傳統(tǒng)的BI展現(xiàn)工具設(shè)計主要是針對企業(yè)的中高層用戶,移植到電子商務(wù)行業(yè)無論從交互效率和用戶體驗都存在較大的差異。目前的傳統(tǒng)模式的商業(yè)智能系統(tǒng),并不能很好的適用于互聯(lián)網(wǎng)交易信息的大規(guī)模,異構(gòu)數(shù)據(jù)源以及對數(shù)據(jù)分析實時性的需求。
【發(fā)明內(nèi)容】
[0007]本發(fā)明針對互聯(lián)網(wǎng)交易數(shù)據(jù)分析處理的應(yīng)用場景,結(jié)合互聯(lián)網(wǎng)電子商務(wù)分析預(yù)警的特點基礎(chǔ)上,針對現(xiàn)有技術(shù)中的缺陷,本發(fā)明的目的是提供分布式互聯(lián)網(wǎng)交易信息存儲處理方法。
[0008]根據(jù)本發(fā)明提供的一種分布式互聯(lián)網(wǎng)交易信息存儲處理方法,包括:
操作數(shù)據(jù)存儲功能模塊從外部數(shù)據(jù)層抽取結(jié)構(gòu)化的交易信息數(shù)據(jù);
分布式數(shù)據(jù)倉庫和非關(guān)系型數(shù)據(jù)庫分別從分布式文件系統(tǒng)中讀取非結(jié)構(gòu)化的網(wǎng)絡(luò)日志數(shù)據(jù);
互聯(lián)網(wǎng)交易信息數(shù)據(jù)倉庫從所述操作數(shù)據(jù)存儲功能模塊和所述分布式數(shù)據(jù)倉庫中分別抽取轉(zhuǎn)換加載所述交易信息數(shù)據(jù)和網(wǎng)絡(luò)日志數(shù)據(jù)后進行整合為數(shù)據(jù)元組,并以星型模型存儲該數(shù)據(jù)元組;
數(shù)據(jù)集市根從所述互聯(lián)網(wǎng)交易信息數(shù)據(jù)倉庫,和/或所述分布式數(shù)據(jù)倉庫中抽取轉(zhuǎn)換加載集市指定數(shù)據(jù);
商業(yè)智能系統(tǒng)根據(jù)數(shù)據(jù)分析需要從所述數(shù)據(jù)集市,和/或所述非關(guān)系型數(shù)據(jù)庫中獲取分析所需數(shù)據(jù)。
[0009]作為一種優(yōu)化方案,所述數(shù)據(jù)集市包括交易集市、銷售集市以及客服集市;
所述交易集市、銷售集市根據(jù)業(yè)務(wù)需要從所述互聯(lián)網(wǎng)交易信息數(shù)據(jù)倉庫抽取轉(zhuǎn)換加載所述集市指定數(shù)據(jù);
所述客服集市根據(jù)業(yè)務(wù)需要從所述分布式數(shù)據(jù)倉庫中抽取轉(zhuǎn)換加載所述集市指定數(shù)據(jù)。
[0010]作為一種優(yōu)化方案,所述客服集市與所述商業(yè)智能系統(tǒng)之間還經(jīng)過MemCache緩存系統(tǒng)進行數(shù)據(jù)傳輸;
所述商業(yè)智能系統(tǒng)在向所述客服集市獲取分析所需數(shù)據(jù)時先查看所請求的分析所需的數(shù)據(jù)是否在MemCache緩存系統(tǒng)中,若有,則直接從MemCache緩存系統(tǒng)中獲取,若不在,則從所述客服集市獲取分析所需數(shù)據(jù)并在MemCache緩存系統(tǒng)中緩存一份。
[0011]作為一種優(yōu)化方案,所述智能商務(wù)系統(tǒng)用于數(shù)據(jù)挖掘、企業(yè)分析、客戶分析、數(shù)據(jù)文件分析以及在線分析。
[0012]作為一種優(yōu)化方案,所述操作數(shù)據(jù)存儲功能模塊包括三層結(jié)構(gòu):
映射層:把外部數(shù)據(jù)層的數(shù)據(jù)原表的字段映射到操作數(shù)據(jù)存儲功能模塊的本地數(shù)據(jù)庫中,完成數(shù)據(jù)從業(yè)務(wù)層到分析層的關(guān)聯(lián);
數(shù)據(jù)預(yù)處理層:對所述交易信息數(shù)據(jù)進行預(yù)處理,該預(yù)處理包括整合、篩選和增加關(guān)聯(lián)表;
數(shù)據(jù)清洗層:對于有質(zhì)量問題的交易信息數(shù)據(jù)進行數(shù)據(jù)清洗操作。
[0013]作為一種優(yōu)化方案,所述星型模型位于星形中心的事實表包括若干條數(shù)據(jù)元組的時間地址、地域地址、店鋪地址、產(chǎn)品地址以及該條數(shù)據(jù)元組對應(yīng)的交易數(shù)量和交易金額;
所述星型模型的維表包括店鋪維表、時間維表、產(chǎn)品維表和地域維表;
所述店鋪維表包含電商平臺信息、平臺板塊信息和店鋪管理信息;
所述時間維表包含時間信息;
所述產(chǎn)品維表包含產(chǎn)品名稱、產(chǎn)品描述、產(chǎn)品售價以及產(chǎn)品質(zhì)量;
所述地域維表包含地理位置信息,該地理位置信息包含國家、省份、城市。
[0014]作為一種優(yōu)化方案,所述操作數(shù)據(jù)存儲功能模塊使用全量加載方式,具體為:
SlOl,清空所述操作數(shù)據(jù)存儲功能模塊的目標表,
S102,將外部數(shù)據(jù)層的全量交易信息數(shù)據(jù)插入該目標表。
[0015]作為一種優(yōu)化方案,所述操作數(shù)據(jù)存儲功能模塊使用增量加載方式,具體為:
S201,清空所述操作數(shù)據(jù)存儲功能模塊的臨時表,
S202,將外部數(shù)據(jù)層的增量交易信息數(shù)據(jù)插入該臨時表,
S203,刪除目標表與該臨時表重復(fù)的數(shù)據(jù),
S204,將臨時表中的數(shù)據(jù)插入目標表中后返回步驟SI直至數(shù)據(jù)全部抽取結(jié)束。
[0016]作為一種優(yōu)化方案,所述互聯(lián)網(wǎng)交易信息數(shù)據(jù)倉庫的維表為增量加載方式,事實表為全量加載方式;
互聯(lián)網(wǎng)交易信息數(shù)據(jù)倉庫的維表增量加載過程具體為:
S301,在臨時表中對增量數(shù)據(jù)按照維表歷史數(shù)據(jù)的行號計算排序,
S302,將具有所述排序的增量數(shù)據(jù)插入臨時表, S303,清空互聯(lián)網(wǎng)交易信息數(shù)據(jù)倉庫的維表,
S304,將所述操作數(shù)據(jù)存儲功能模塊的數(shù)據(jù)表與所述臨時表關(guān)聯(lián),將所述具有所述排序的增量數(shù)據(jù)插入互聯(lián)網(wǎng)交易信息數(shù)據(jù)倉庫的維表;
事實表的增量加載過程具體為:
清空臨時表后,判斷是否還有指標取自不同的事實表;
若還有指標取自不同的事實表,則重復(fù)取出事實表中時間戳范圍內(nèi)的不同業(yè)務(wù)事件的過程,直至所有業(yè)務(wù)事件都被取出后循環(huán)結(jié)束;
若沒有指標取自不同的事實表,則取出事實表中時間戳范圍內(nèi)的不同業(yè)務(wù)事件,將第一臨時表的數(shù)據(jù)按照維度字段匯總到第二臨時表中,刪除目標事實表中與該第二臨時表重復(fù)的數(shù)據(jù),將所述第二臨時表的數(shù)據(jù)插入目標事實表。
[0017]與現(xiàn)有技術(shù)相比,本發(fā)明具有如下的有益效果:
本發(fā)明針對互聯(lián)網(wǎng)電子商務(wù)交易信息特點,設(shè)計面向應(yīng)用的、集成的、具有時間特征的、穩(wěn)定的數(shù)據(jù)集合,來為交易數(shù)據(jù)處理、分析和監(jiān)測決策提供支持。
【附圖說明】
[0018]為了更清楚地說明本發(fā)明實施例的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡單的介紹,顯而易見,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。附圖中:
圖1是傳統(tǒng)行業(yè)的BI解決方案中的核心數(shù)據(jù)倉庫架構(gòu)圖;
圖2是可選實施例中的一種分布式互聯(lián)網(wǎng)交易信息存儲架構(gòu)示意圖;
圖3是數(shù)據(jù)倉庫的原理框架;
圖4是可選實施例中的一種分布式互聯(lián)網(wǎng)交易信息存儲處理方法原理圖;
圖5是數(shù)據(jù)倉庫星型模型示意圖;
圖6是操作數(shù)據(jù)存儲功能模塊(ODS)全量加載流程圖;
圖7為操作數(shù)據(jù)存儲功能模塊(ODS)增量加載流程圖;
圖8為互聯(lián)網(wǎng)交易信息數(shù)據(jù)倉庫(DW)的維表增量加載流程圖;
圖9為DW的事實表(DM)增量加載流程圖;
圖10為操作數(shù)據(jù)存儲功能模塊0DS、互聯(lián)網(wǎng)交易信息數(shù)據(jù)倉庫DW、事實表DM之間的關(guān)系示意圖。
【具體實施方式】
[0019]下文結(jié)合附圖以具體實施例的方式對本發(fā)明進行詳細說明。以下實施例將有助于本領(lǐng)域的技術(shù)人員進一步理解本發(fā)明,但不以任何形式限制本發(fā)明。應(yīng)當指出的是,還可以使用其他的實施例,或者對本文列舉的實施例進行結(jié)構(gòu)和功能上的修改,而不會脫離本發(fā)明的范圍和實質(zhì)。
[0020]本發(fā)明針對互聯(lián)網(wǎng)交易數(shù)據(jù)分析處理的應(yīng)用場景,結(jié)合互聯(lián)網(wǎng)電子商務(wù)分析預(yù)警的特點基礎(chǔ)上,主要包括前段報表模塊、ETL模塊、數(shù)據(jù)倉庫模塊、數(shù)據(jù)庫管理模塊、數(shù)據(jù)調(diào)度模塊和Web service模塊組成。本發(fā)明針對互聯(lián)網(wǎng)電子商務(wù)交易信息特點,設(shè)計面向應(yīng)用的、集成的、具有時間特征的、穩(wěn)定的數(shù)據(jù)集合,來為交易數(shù)據(jù)處理、分析和監(jiān)測決策提供支持,整體架