本發(fā)明屬于特征衍生,具體是一種特征衍生系統(tǒng)。
背景技術(shù):
1、建模人員開始建模之前都需要進(jìn)行大量的數(shù)據(jù)探索及數(shù)據(jù)準(zhǔn)備,通過變量加工衍生平臺(tái)為建模人員提供大量準(zhǔn)備好的衍生數(shù)據(jù),并且提供了特征全生命周期的解決方案,建模人員可以拿來即用,節(jié)約大量數(shù)據(jù)探索及數(shù)據(jù)準(zhǔn)備時(shí)間,讓建模人員精力更多聚焦在建模本身。
2、目前,同行業(yè)也有一些特征衍生的解決方案。有些解決方案是只有sql衍生的方式,有的是只有模板衍生的方式,并且衍生完的結(jié)果放到大寬表中就結(jié)束了衍生的業(yè)務(wù)流程,衍生出的數(shù)據(jù)只能給模型開發(fā)時(shí)期使用,對(duì)于衍生的特征穩(wěn)定性的相關(guān)監(jiān)控需要算法人員自己進(jìn)行分析,并且如果需要提供給模型運(yùn)行使用,必須需要進(jìn)行再次開發(fā);這些解決方案或多或少的存在以下幾個(gè)方面的不足,1、支持的衍生方式比較單一;2、沒有有效的監(jiān)控手段;3、衍生結(jié)果無法提供在線服務(wù)。
技術(shù)實(shí)現(xiàn)思路
1、鑒于上述問題,提出了本發(fā)明以便提供克服上述問題或者至少部分地解決上述問題的一種特征衍生系統(tǒng)。
2、為實(shí)現(xiàn)上述目的,本發(fā)明采用了如下技術(shù)方案:
3、一種特征衍生系統(tǒng),所述系統(tǒng)包括:
4、python衍生模塊,用于構(gòu)建python衍生邏輯管理體系,支持?jǐn)?shù)據(jù)自動(dòng)處理與存儲(chǔ);
5、sql衍生模塊,用于在配置頁(yè)面支持用戶直接編寫并執(zhí)行sql腳本,并自動(dòng)化生成特征數(shù)據(jù);
6、通用模板衍生模塊,用于定義數(shù)據(jù)源、時(shí)間范圍、處理邏輯及函數(shù)模板,并自動(dòng)化執(zhí)行特征衍生流程;
7、向?qū)窖苌K,用于自動(dòng)化處理數(shù)據(jù)表讀取和進(jìn)行特征工程,并管理離線特征集市;
8、特征監(jiān)控模塊,用于保障模型性能免受數(shù)據(jù)漂移影響,識(shí)別并解決數(shù)據(jù)質(zhì)量問題,并通過優(yōu)化數(shù)據(jù)質(zhì)量提升模型準(zhǔn)確性。
9、可選的,所述系統(tǒng)還包括特征集市模塊,所述特征集市模塊包括:
10、配置集市基本信息,并選擇特征;
11、配置完成保存后,將集市信息內(nèi)的特征上線為在線服務(wù);
12、根據(jù)執(zhí)行策略,配置定時(shí)器執(zhí)行策略;
13、定時(shí)器定時(shí)觸發(fā)歸集任務(wù),歸集任務(wù)根據(jù)選擇的特征自動(dòng)生成歸集的sql腳本;
14、通過spark-client提交spark-submit命令到大數(shù)據(jù)平臺(tái)執(zhí)行;
15、大數(shù)據(jù)平臺(tái)執(zhí)行完成后回調(diào)執(zhí)行結(jié)果。
16、可選的,所述python衍生模塊包括:
17、編寫python衍生腳本并進(jìn)行衍生配置;
18、根據(jù)執(zhí)行策略,配置定時(shí)器執(zhí)行策略;
19、觸發(fā)定時(shí)器,運(yùn)行python衍生邏輯;
20、python衍生腳本運(yùn)行完后,將衍生結(jié)果的文件自動(dòng)上傳至hdfs上,并記錄存儲(chǔ)地址;
21、上傳hdfs后,將hdfs的數(shù)據(jù)保存至hive。
22、可選的,所述sql衍生模塊包括:
23、進(jìn)行衍生配置;
24、配置定時(shí)器執(zhí)行策略;
25、觸發(fā)定時(shí)器,運(yùn)行sql衍生邏輯;
26、通過spark-client客戶端提交spark-submit命令,進(jìn)行衍生邏輯執(zhí)行;
27、將衍生結(jié)果利用腳本中的spark直接保存到hive表中。
28、可選的,所述通用模板衍生模塊包括:
29、根據(jù)頁(yè)面指引配置信息;
30、配置完成保存后,根據(jù)配置的信息,自動(dòng)按照查詢條件進(jìn)行笛卡爾積的排列組合,生成的數(shù)據(jù)解析成可執(zhí)行的sql語(yǔ)句,將sql語(yǔ)句持久化;
31、完善解析出的字段信息、衍生結(jié)果保存的表信息和維度信息;
32、根據(jù)執(zhí)行策略,配置定時(shí)器執(zhí)行策略;
33、觸發(fā)定時(shí)器,調(diào)用通用模板衍生邏輯;
34、通過spark-client客戶端提交spark-submit命令;
35、同步將衍生結(jié)果保存到用戶配置的hive表中。
36、可選的,所述根據(jù)頁(yè)面指引配置信息包括:
37、選擇衍生使用的原始數(shù)據(jù)表信息;
38、選擇時(shí)間窗口字段,并配置時(shí)間窗口;
39、配置查詢數(shù)據(jù)的條件;
40、配置指標(biāo)及計(jì)算模板。
41、可選的,所述向?qū)窖苌K包括:
42、配置衍生邏輯;
43、配置引用已執(zhí)行完成并且執(zhí)行結(jié)果是執(zhí)行成功的向?qū)窖苌鷮?shí)例,并進(jìn)行保存;
44、異步執(zhí)行獲取衍生實(shí)例中衍生結(jié)果的表結(jié)構(gòu)信息;
45、完善解析出的字段信息、衍生結(jié)果保存的表信息和維度信息;
46、根據(jù)用戶自己的執(zhí)行策略,配置定時(shí)器執(zhí)行策略;
47、觸發(fā)定時(shí)器,調(diào)用向?qū)窖苌壿嫞驅(qū)椒?wù)衍生結(jié)束后通過kafka回調(diào)配置系統(tǒng)衍生結(jié)果;
48、配置系統(tǒng)接收到衍生結(jié)果后,觸發(fā)衍生結(jié)果保存邏輯,將結(jié)果存儲(chǔ)到用戶配置的hive表中。
49、可選的,所述配置衍生邏輯包括:
50、選擇衍生使用的原始數(shù)據(jù)表信息;
51、配置數(shù)據(jù)探索信息,并點(diǎn)擊執(zhí)行;
52、選擇特征工程算子和超參,并開始執(zhí)行;
53、執(zhí)行完以后查看衍生結(jié)果數(shù)據(jù)信息。
54、可選的,所述特征監(jiān)控模塊包括:
55、定時(shí)將配置的衍生信息同步至大數(shù)據(jù)中;
56、將監(jiān)控腳本上傳至大數(shù)據(jù)平臺(tái);
57、監(jiān)控服務(wù)接收計(jì)算結(jié)果,保存計(jì)算結(jié)果并供用戶查看。
58、可選的,所述將監(jiān)控腳本上傳至大數(shù)據(jù)平臺(tái)包括:
59、獲取衍生配置信息;
60、根據(jù)配置信息中衍生結(jié)果保存的表以及字段信息,拉取監(jiān)控的原始數(shù)據(jù);
61、使用監(jiān)控的原始數(shù)據(jù)進(jìn)行監(jiān)控指標(biāo)計(jì)算;
62、監(jiān)控指標(biāo)計(jì)算結(jié)果保存到hive,并通過kafka同步給監(jiān)控服務(wù)。
63、綜上所述,由于采用了上述技術(shù)方案,本發(fā)明的有益效果是:
64、1.本發(fā)明支持豐富的衍生方式:有面向python研發(fā)人員的python衍生,有面向etl人員的sparksql的衍生方式,有面向數(shù)據(jù)分析人員的向?qū)窖苌绞?,還有面向業(yè)務(wù)人員的通用模板衍生方式。
65、2.本發(fā)明充分利用大數(shù)據(jù)平臺(tái)可以支持海量數(shù)據(jù)的衍生任務(wù):平臺(tái)中的sql衍生,通用模板衍生,監(jiān)控邏輯運(yùn)行,集市數(shù)據(jù)發(fā)布都使用了大數(shù)據(jù)平臺(tái)進(jìn)行數(shù)據(jù)處理,大大提升了大數(shù)據(jù)量計(jì)算的能力。
66、3.本發(fā)明實(shí)現(xiàn)了低代碼開發(fā),大部分的流程都是配置化完成,平臺(tái)中向?qū)窖苌屯ㄓ媚0逖苌菬o代碼方式的衍生方式,監(jiān)控服務(wù)及特征集市都是無代碼方式的服務(wù),python衍生和sql衍生除了運(yùn)行的腳本其他衍生環(huán)節(jié)都是配置化完成。
1.一種特征衍生系統(tǒng),其特征在于,所述系統(tǒng)包括:
2.如權(quán)利要求1所述的一種特征衍生系統(tǒng),其特征在于,所述系統(tǒng)還包括特征集市模塊,所述特征集市模塊包括:
3.如權(quán)利要求1所述的一種特征衍生系統(tǒng),其特征在于,所述python衍生模塊包括:
4.如權(quán)利要求1所述的一種特征衍生系統(tǒng),其特征在于,所述sql衍生模塊包括:
5.如權(quán)利要求1所述的一種特征衍生系統(tǒng),其特征在于,所述通用模板衍生模塊包括:
6.如權(quán)利要求5所述的一種特征衍生系統(tǒng),其特征在于,所述根據(jù)頁(yè)面指引配置信息包括:
7.如權(quán)利要求1所述的一種特征衍生系統(tǒng),其特征在于,所述向?qū)窖苌K包括:
8.如權(quán)利要求7所述的一種特征衍生系統(tǒng),其特征在于,所述配置衍生邏輯包括:
9.如權(quán)利要求1所述的一種特征衍生系統(tǒng),其特征在于,所述特征監(jiān)控模塊包括:
10.如權(quán)利要求9所述的一種特征衍生系統(tǒng),其特征在于,所述將監(jiān)控腳本上傳至大數(shù)據(jù)平臺(tái)包括: