两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種數(shù)據(jù)倉庫數(shù)據(jù)處理方法和系統(tǒng)的制作方法_3

文檔序號(hào):8922567閱讀:來源:國知局
完成后,將該任務(wù)的任務(wù)狀態(tài)標(biāo)識(shí)由表示任務(wù)未完成的字符改為表示任務(wù)完成的字符,例如用從表不任務(wù)未完成的“O”改為表不任務(wù)已完成的“I”。
[0097]以下述例子進(jìn)行說明:
[0098]要對(duì)用戶瀏覽這一主題進(jìn)行數(shù)據(jù)處理,要求在對(duì)數(shù)據(jù)進(jìn)行處理時(shí),可以從用戶特征維度和用戶瀏覽數(shù)據(jù)維度來分析。維度一般是指我們分析目標(biāo)對(duì)象所采用的分析角度。所述的用戶特征維度可以包括:用戶賬號(hào)信息、用戶公司庫信息、用戶認(rèn)證信息;所述的用戶瀏覽數(shù)據(jù)維度包括:頁面瀏覽日志、曝光點(diǎn)擊日志。
[0099]首先源系統(tǒng)數(shù)據(jù)處理單元從各業(yè)務(wù)系統(tǒng)中抽取出所需要的原始數(shù)據(jù),具體包括:用戶賬號(hào)信息、用戶公司庫信息、用戶認(rèn)證信息、頁面瀏覽日志、曝光點(diǎn)擊日志。所述的用戶賬號(hào)信息、用戶公司庫信息、用戶認(rèn)證信息來自數(shù)據(jù)倉庫外部各個(gè)不同的用戶系統(tǒng)。所述的頁面瀏覽日志、曝光點(diǎn)擊日志來自專門負(fù)責(zé)采集用戶點(diǎn)擊流量數(shù)據(jù)的日志系統(tǒng),所述日志系統(tǒng)數(shù)據(jù)來自數(shù)據(jù)倉庫內(nèi)部的數(shù)據(jù)庫。
[0100]根據(jù)抽取出的原始數(shù)據(jù)源系統(tǒng)數(shù)據(jù)處理單元建立相應(yīng)的源系統(tǒng)數(shù)據(jù)表。根據(jù)上述抽取到的5個(gè)維度的數(shù)據(jù)分別建立5個(gè)源系統(tǒng)數(shù)據(jù)表,并對(duì)源系統(tǒng)數(shù)據(jù)處理單元建立的源系統(tǒng)數(shù)據(jù)表命名,為了清楚地表示所述的源系統(tǒng)數(shù)據(jù)表為源系統(tǒng)數(shù)據(jù)處理單元的處理結(jié)果,對(duì)所述源系統(tǒng)數(shù)據(jù)表的名稱加一統(tǒng)一標(biāo)識(shí),例如“odl”。那么,所述的5個(gè)源系統(tǒng)數(shù)據(jù)表可以分別命名為“odl_用戶賬號(hào)信息”、“odl_用戶公司庫信息”、“odl_用戶認(rèn)證信息”、“odl_頁面瀏覽日志”、“odl_曝光點(diǎn)擊日志”。在每個(gè)源系統(tǒng)數(shù)據(jù)表建立后,將建立該數(shù)據(jù)表對(duì)應(yīng)的任務(wù)的任務(wù)狀態(tài)標(biāo)識(shí)更改為表示完成狀態(tài)的字符,例如從“O”改為“I”。
[0101]所述的“odl_用戶賬號(hào)信息”表中,包含了用戶賬號(hào)id、用戶賬號(hào)狀態(tài)、用戶賬號(hào)注冊(cè)日期等信息。所述的“0(11_用戶公司庫信息”表中,包含了用戶在公司的信息數(shù)據(jù),例如職位等數(shù)據(jù)。所述的“odl_用戶認(rèn)證信息”表中,包含了用戶在接受網(wǎng)站認(rèn)證時(shí)產(chǎn)生的信息數(shù)據(jù),例如網(wǎng)站注冊(cè)信息數(shù)據(jù)等。所述的“odl_頁面瀏覽日志”表中,包含了用戶瀏覽頁面產(chǎn)生的方法日志數(shù)據(jù),即包含了每次點(diǎn)擊產(chǎn)生一次的頁面瀏覽量(page view,簡(jiǎn)稱PV)數(shù)據(jù)、瀏覽頁面資源的地址(Uniform Resource Locator,簡(jiǎn)稱URL)數(shù)據(jù)、瀏覽時(shí)間數(shù)據(jù)、上個(gè)頁面的URL數(shù)據(jù)等。所述的“odl_曝光點(diǎn)擊日志”表中,包含了頁面曝光的每個(gè)產(chǎn)品明細(xì)數(shù)據(jù)和點(diǎn)擊明細(xì)數(shù)據(jù)。
[0102]S502:對(duì)源系統(tǒng)數(shù)據(jù)表去冗余并對(duì)數(shù)據(jù)記歷史,建立歷史數(shù)據(jù)表。
[0103]由于源系統(tǒng)數(shù)據(jù)表中的數(shù)據(jù)是由各個(gè)業(yè)務(wù)系統(tǒng)中直接抽取獲得的原始數(shù)據(jù),來自不同業(yè)務(wù)系統(tǒng)中的信息會(huì)有重復(fù)的冗余信息,需要對(duì)信息進(jìn)行去冗余。同時(shí)這些原始數(shù)據(jù)來自不同的業(yè)務(wù)系統(tǒng),因此數(shù)據(jù)源地址不完全相同,需要將數(shù)據(jù)的地址變更為當(dāng)前地址,即對(duì)數(shù)據(jù)記歷史。
[0104]在執(zhí)行每一建立歷史數(shù)據(jù)表任務(wù)之前,企業(yè)數(shù)據(jù)倉庫第一處理單元主動(dòng)查詢?cè)摻v史數(shù)據(jù)表任務(wù)所依賴的一個(gè)或多個(gè)父任務(wù)的任務(wù)狀態(tài),若所述一個(gè)或多個(gè)父任務(wù)的任務(wù)狀態(tài)標(biāo)識(shí)均為表示完成狀態(tài)的“1”,則開始執(zhí)行建立歷史數(shù)據(jù)表的任務(wù);若所述一個(gè)或多個(gè)父任務(wù)的任務(wù)狀態(tài)標(biāo)識(shí)至少有一個(gè)不是表示完成狀態(tài)的“1”,則在預(yù)定時(shí)間間隔后再次查詢所述一個(gè)或多個(gè)父任務(wù)的任務(wù)狀態(tài),直至所述父任務(wù)的任務(wù)狀態(tài)標(biāo)識(shí)均為表示完成狀態(tài)的“I”再執(zhí)行建立歷史數(shù)據(jù)表的任務(wù)。所述任務(wù)包括:企業(yè)數(shù)據(jù)倉庫第一處理單元先將不同源數(shù)據(jù)數(shù)據(jù)表中的冗余信息刪除,保證信息的完整、簡(jiǎn)潔;采用對(duì)數(shù)據(jù)記歷史的方式來更改數(shù)據(jù)當(dāng)前地址,保證數(shù)據(jù)的地址相同,在對(duì)數(shù)據(jù)記歷史過程中建立與源系統(tǒng)數(shù)據(jù)表相對(duì)應(yīng)的一個(gè)或多個(gè)歷史數(shù)據(jù)表;并對(duì)所建立的歷史數(shù)據(jù)表命名;每個(gè)建立歷史數(shù)據(jù)表的任務(wù)完成后,企業(yè)數(shù)據(jù)倉庫第一處理單元將該任務(wù)的任務(wù)狀態(tài)標(biāo)識(shí)更改為表示任務(wù)完成的字符,例如“I”。
[0105]在對(duì)所述歷史數(shù)據(jù)表命名時(shí),為了清楚地表示所述歷史數(shù)據(jù)表為企業(yè)數(shù)據(jù)倉庫第一處理單元的處理結(jié)果,可以對(duì)所述一個(gè)或多個(gè)歷史數(shù)據(jù)表的名稱加一統(tǒng)一的標(biāo)識(shí),例如在數(shù)據(jù)表的名稱前加一“edwl”,所述“edwl”中,edw表示企業(yè)數(shù)據(jù)倉庫“enterprise datawarehouse,,。
[0106]所述記歷史的方法可以是歷史拉鏈的方式,例如:數(shù)據(jù)X從2000年01月01日至2013年05月31日都存放在數(shù)據(jù)庫I中,2013年06月01數(shù)據(jù)x從數(shù)據(jù)庫I搬到數(shù)據(jù)庫2,則原來關(guān)于數(shù)據(jù)X的地址的記錄可以是:
[0107]“X,數(shù)據(jù)庫 I”
[0108]2013年06月01日后,更新地址后的數(shù)據(jù)x的地址的記錄可以是:
[0109]“X,數(shù)據(jù)庫 2”
[0110]在實(shí)際應(yīng)用中,通常還在數(shù)據(jù)地址記錄上增加begin_date和end_date來表示數(shù)據(jù)地址有效期的時(shí)間,這樣數(shù)據(jù)X原來的地址記錄可以是:
[0111]“X,數(shù)據(jù)庫 I, 2000.01.01-2013.05.31”
[0112]數(shù)據(jù)X新的地址記錄可以是:
[0113]“X,數(shù)據(jù)庫 2,2013.06.01-2999.12.31”
[0114]記歷史的方式還可以采用快照的方式。以上述的數(shù)據(jù)X為例,日快照的方式是將2013年05月31日和2013年06月01日的關(guān)于數(shù)據(jù)x的地址記錄分別完整保留下來,每日存一份包含了當(dāng)日地址的完整數(shù)據(jù)。
[0115]具體的記歷史的方法一般視情況選擇一種合理的記歷史方式,比如,如果數(shù)據(jù)地址變化的不頻繁但數(shù)據(jù)本身的數(shù)據(jù)量很大,一般采用歷史拉鏈的方式,而如果數(shù)據(jù)地址變化頻繁但數(shù)據(jù)本身的數(shù)據(jù)量小,則一般采用快照的方式。
[0116]以上述對(duì)用戶瀏覽這一主題數(shù)據(jù)處理為例:
[0117]需要根據(jù)“0(11_用戶賬號(hào)信息”表中的數(shù)據(jù)建立歷史數(shù)據(jù)表,所述建立歷史數(shù)據(jù)表的任務(wù)為當(dāng)前任務(wù);那么S501中建立“odl_用戶賬號(hào)信息”表即為當(dāng)前任務(wù)所依賴的父任務(wù);首先查詢當(dāng)前任務(wù)所依賴的父任務(wù)的任務(wù)狀態(tài),若父任務(wù)的任務(wù)狀態(tài)為未完成狀態(tài),例如表示任務(wù)狀態(tài)的標(biāo)識(shí)為表示未完成狀態(tài)的“0”,則等待預(yù)定間隔時(shí)間后,再次查詢父任務(wù)的任務(wù)狀態(tài);當(dāng)所述父任務(wù)的任務(wù)狀態(tài)為完成狀態(tài)時(shí),例如表示任務(wù)狀態(tài)的標(biāo)識(shí)為表示完成狀態(tài)的“1”,則開始執(zhí)行當(dāng)前任務(wù)。所述當(dāng)前任務(wù)包括:
[0118]將上述“0(11_用戶賬號(hào)信息”中重復(fù)的內(nèi)容刪除。例如,建立“odl_用戶賬號(hào)信息”表時(shí)從業(yè)務(wù)系統(tǒng)A中選擇了用戶姓名為M的信息,從業(yè)務(wù)系統(tǒng)B中又選擇了用戶姓名為M的信息,那么“odl_用戶認(rèn)證信息”表中用戶姓名為M的信息就存在冗余的信息,需要?jiǎng)h除。
[0119]對(duì)上述去冗余的數(shù)據(jù)表“odl_用戶賬號(hào)信息”中的數(shù)據(jù)記歷史,建立相應(yīng)的歷史數(shù)據(jù)表。對(duì)所述歷史數(shù)據(jù)庫表命名,可以命名為“6(1?1_用戶賬號(hào)信息歷史”。所述“6(1?1_用戶賬號(hào)信息歷史”建立完成后,將建立該“6(1?1_用戶賬號(hào)信息歷史”的任務(wù)狀態(tài)標(biāo)識(shí)改為表示完成狀態(tài)的字符“I”。用同樣的方法建立“edwl_用戶公司庫信息歷史”、“edwl_用戶認(rèn)證信息歷史”、“edwl_頁面瀏覽日志快照”、“edwl_曝光點(diǎn)擊日志快照”這4個(gè)歷史數(shù)據(jù)表。
[0120]S503:建立事實(shí)數(shù)據(jù)表對(duì)歷史數(shù)據(jù)表的數(shù)據(jù)進(jìn)行歸類。
[0121]在建立歷史數(shù)據(jù)表后,需要根據(jù)數(shù)據(jù)倉庫數(shù)據(jù)處理的主題對(duì)一個(gè)或一個(gè)以上的歷史數(shù)據(jù)表中的數(shù)據(jù)進(jìn)行歸類。具體地,通用維度模型第一處理單元主動(dòng)查詢每個(gè)建立事實(shí)數(shù)據(jù)表的任務(wù)所依賴的一個(gè)或多個(gè)建立歷史數(shù)據(jù)表的任務(wù)的任務(wù)狀態(tài),所述建立歷史數(shù)據(jù)表的任務(wù)即為建立事實(shí)數(shù)據(jù)表任務(wù)的父任務(wù)。若所述父任務(wù)的任務(wù)狀態(tài)為完成狀態(tài)則開始執(zhí)行該建立事實(shí)數(shù)據(jù)表的任務(wù);若所述一個(gè)或多個(gè)父任務(wù)的任務(wù)狀態(tài)中至少有一個(gè)不是完成狀態(tài),則在預(yù)定時(shí)間間隔后再次查詢父任務(wù)的任務(wù)狀態(tài),直至父任務(wù)的任務(wù)狀態(tài)均為完成狀態(tài)開始執(zhí)行建立事實(shí)數(shù)據(jù)表的任務(wù)。所述事實(shí)數(shù)據(jù)表通常用來描述數(shù)據(jù)集市中最密集的數(shù)據(jù)。例如,在電話公司中,用于呼叫的數(shù)據(jù)是典型的最密集數(shù)據(jù)。
[0122]所述建立事實(shí)數(shù)據(jù)表的任務(wù)包括:通用維度模型第一處理單元根據(jù)數(shù)據(jù)倉庫數(shù)據(jù)處理的主題對(duì)一個(gè)或一個(gè)以上的歷史數(shù)據(jù)表中的數(shù)據(jù)進(jìn)行歸類,建立一個(gè)或多個(gè)事實(shí)數(shù)據(jù)表,并對(duì)所述事實(shí)數(shù)據(jù)表命名;每個(gè)建立事實(shí)數(shù)據(jù)表的任務(wù)完成后,通用維度模型第一處理單元將該任務(wù)的任務(wù)狀態(tài)標(biāo)識(shí)更改為表示任務(wù)完成的字符,例如“ I ”。
[0123]在對(duì)所述事實(shí)數(shù)據(jù)表命名時(shí),為了清楚地表示所述事實(shí)數(shù)據(jù)表為通用維度模型第一處理單元的處理結(jié)果,可以對(duì)所述一個(gè)或多個(gè)事實(shí)數(shù)據(jù)表的名稱加一統(tǒng)一的標(biāo)識(shí),例如在事實(shí)數(shù)據(jù)表的名稱前加一 “cdml”,所述“cdml”中,cdm表示通用維度模型“commondimens1nal model,,。
[0124]以上述用戶瀏覽的主題為例:
[0125]例如要通過“6如1_用戶賬號(hào)信息歷史”、“edwl_用戶公司庫信息歷史”這兩個(gè)數(shù)據(jù)表來對(duì)曝光點(diǎn)擊事件進(jìn)行歸類,那么所述建立關(guān)于曝光點(diǎn)擊事件的事實(shí)數(shù)據(jù)表為當(dāng)前任務(wù),建立“edwl_用戶賬號(hào)信息歷史”的任務(wù)和建立“edwl_用戶公司庫信息歷史”的任務(wù)即為當(dāng)前任務(wù)的父任務(wù)。當(dāng)所述兩個(gè)父任務(wù)的任務(wù)狀態(tài)均為完成狀態(tài)時(shí),例如兩個(gè)父任務(wù)的任務(wù)狀態(tài)標(biāo)識(shí)均為“1”,則開始執(zhí)行當(dāng)前任務(wù)。所述當(dāng)前任務(wù)包括:對(duì)“edwl_用戶賬號(hào)信息歷史”、“edwl_用戶公司庫信息歷史”這兩個(gè)表中的數(shù)據(jù)進(jìn)行歸類,建立曝光點(diǎn)擊事件事實(shí)數(shù)據(jù)表,可以
當(dāng)前第3頁1 2 3 4 5 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
松滋市| 抚远县| 辽宁省| 永善县| 隆子县| 建德市| 霞浦县| 岳阳县| 湘潭市| 丹东市| 南皮县| 光泽县| 开封县| 玉屏| 上犹县| 望江县| 怀宁县| 安远县| 皋兰县| 乐平市| 吴桥县| 顺昌县| 高邑县| 芜湖县| 留坝县| 瑞金市| 彰武县| 淮滨县| 惠来县| 米林县| 游戏| 临高县| 宝山区| 武隆县| 如东县| 晴隆县| 碌曲县| 汝州市| 灵寿县| 班玛县| 瑞昌市|