本發(fā)明屬于機(jī)器學(xué)習(xí)和數(shù)據(jù)處理領(lǐng)域,涉及一種基于外鍵聚合和特征選擇的數(shù)據(jù)血緣發(fā)現(xiàn)方法及裝置。本專(zhuān)利基于外鍵聚合關(guān)聯(lián)表,使用隨機(jī)森林算法篩選特征得到字段級(jí)數(shù)據(jù)血緣。
背景技術(shù):
1、數(shù)據(jù)血緣在大數(shù)據(jù)領(lǐng)域扮演著核心而不可或缺的角色?,F(xiàn)有數(shù)據(jù)血緣方法及其存在的問(wèn)題以下:
2、1、最常使用的解析法依賴于外部信息輸入,在低信息的場(chǎng)景下無(wú)法獲取血緣,且聚焦于sql的解析,對(duì)數(shù)據(jù)處理方法的支持性不足。
3、2、跟蹤捕獲法帶有一定的侵入性,可能會(huì)帶來(lái)安全隱患,且會(huì)帶來(lái)額外的性能開(kāi)銷(xiāo)和不穩(wěn)定性;各個(gè)組件分別提供數(shù)據(jù)血緣,導(dǎo)致各個(gè)組件之間的數(shù)據(jù)血緣難以統(tǒng)一結(jié)合,缺乏通用的數(shù)據(jù)血緣解析方案。
4、在數(shù)據(jù)的傳播和維護(hù)過(guò)程中,一些關(guān)鍵元數(shù)據(jù)信息可能丟失,而數(shù)據(jù)血緣對(duì)于數(shù)據(jù)表至關(guān)重要,如何在無(wú)侵入式、低信息場(chǎng)景下獲取字段級(jí)的數(shù)據(jù)血緣是亟待解決的問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)現(xiàn)有技術(shù)中存在的問(wèn)題,本發(fā)明的目的在于提供一種基于外鍵聚合和特征選擇的數(shù)據(jù)血緣發(fā)現(xiàn)方法及裝置。本發(fā)明聚焦低信息場(chǎng)景下的數(shù)據(jù)血緣分析問(wèn)題,重點(diǎn)圍繞通過(guò)機(jī)器學(xué)習(xí)技術(shù),在不受限制大數(shù)據(jù)處理組件限制,且沒(méi)有外部信息輸入、僅依賴數(shù)據(jù)表和外鍵信息的情況下以非侵入式的方式發(fā)現(xiàn)字段級(jí)數(shù)據(jù)血緣。
2、本發(fā)明構(gòu)建了聚合器,基于外鍵實(shí)現(xiàn)了目標(biāo)列所在的表(即目標(biāo)表)與相關(guān)表格的匯聚,從而構(gòu)造出一張與目標(biāo)表行對(duì)齊的中間表;本發(fā)明提供了基于隨機(jī)森林構(gòu)建的特征遞歸消除及交叉驗(yàn)證算法。本發(fā)明接受表格數(shù)據(jù)集、目標(biāo)列以及表間外鍵關(guān)系作為輸入,表格數(shù)據(jù)集中的數(shù)據(jù)關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù),表中每一列中的特征為文本特征;通過(guò)內(nèi)置的聚合器,本發(fā)明能夠?qū)⑴c目標(biāo)列所在表存在關(guān)系的其他表格聚合成一個(gè)與目標(biāo)列行對(duì)齊的中間表(中間表中的每一列為一個(gè)特征向量)。在此基礎(chǔ)上,本發(fā)明循環(huán)地構(gòu)建隨機(jī)森林模型,采用遞歸式特征消除結(jié)合隨機(jī)森林模型進(jìn)行特征選擇,使用前向選擇法從中間表中識(shí)別最優(yōu)特征子集(即中間表中的若干列),篩選出的最優(yōu)特征子集中的特征即是特征重要性較高的列;將特征重要性較高的列識(shí)別為具有映射關(guān)系的列。通過(guò)這一方法,本發(fā)明能夠?qū)崿F(xiàn)無(wú)侵入式、低信息場(chǎng)景下獲取字段級(jí)的數(shù)據(jù)血緣。
3、本專(zhuān)利提出的方法旨在利用數(shù)據(jù)表的外鍵關(guān)系,在眾多表格中得到目標(biāo)列的字段級(jí)數(shù)據(jù)血緣。本方法基于外鍵聚合表格發(fā)現(xiàn)字段級(jí)的數(shù)據(jù)血緣,首先構(gòu)建一種內(nèi)部聚合器,該聚合器有效地合并了與目標(biāo)列所在表格相關(guān)聯(lián)的其他表格,形成一個(gè)與目標(biāo)列行對(duì)齊的中間表。接著,本發(fā)明開(kāi)發(fā)了一個(gè)特制的映射檢測(cè)器,旨在規(guī)避過(guò)擬合的問(wèn)題。最終,通過(guò)迭代構(gòu)建隨機(jī)森林模型,采用遞歸式特征消除結(jié)合隨機(jī)森林算法進(jìn)行特征選擇,使用前向選擇法來(lái)識(shí)別最優(yōu)特征子集。此方法使得本研究能夠在無(wú)需外部信息支持的情況下,獨(dú)立通過(guò)機(jī)器學(xué)習(xí)技術(shù)實(shí)現(xiàn)字段級(jí)數(shù)據(jù)血緣的識(shí)別和輸出。這一階段的工作不僅增強(qiáng)了數(shù)據(jù)處理的自動(dòng)化和智能化水平,也為復(fù)雜數(shù)據(jù)集的解析和分析提供了新的技術(shù)路徑。
4、為實(shí)現(xiàn)上述目的,本發(fā)明的第一方面,設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)基于外鍵的聚合器。通過(guò)應(yīng)用預(yù)先定義的聚合函數(shù),并基于表間關(guān)聯(lián)(即表格間的外鍵關(guān)系),該模塊實(shí)現(xiàn)了目標(biāo)表與相關(guān)表格的匯聚,從而構(gòu)造出一張與目標(biāo)表行對(duì)齊的中間表。首先是轉(zhuǎn)換步驟,使用和、計(jì)數(shù)、最小、最大、平均、標(biāo)準(zhǔn)差和方差基本聚合函數(shù)預(yù)定義聚合器,根據(jù)檢測(cè)到的外鍵,將關(guān)聯(lián)表聚合連接到目標(biāo)表上。信息增益越高,特征對(duì)目標(biāo)變量的預(yù)測(cè)能力越高。而數(shù)據(jù)血緣中,源字段產(chǎn)生了目標(biāo)字段,因此將中間表中的列作為特征向量,其信息增益越高,是源字段的概率越高,因此用信息增益初步篩選,將每一列作為一個(gè)特征計(jì)算信息增益,保留信息增益大于設(shè)定閾值的列作為候選列,將其連接到中間表中。
5、本發(fā)明的第二方面,設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)映射檢測(cè)模塊,該模塊負(fù)責(zé)驗(yàn)證目標(biāo)列是否由中間表的列經(jīng)由設(shè)定的映射函數(shù)產(chǎn)生,以滿足后續(xù)機(jī)器學(xué)習(xí)分類(lèi)器的需要。若目標(biāo)列經(jīng)由設(shè)定的映射函數(shù)產(chǎn)生,則可利用該目標(biāo)列直接回溯生成數(shù)據(jù)血緣,否則,經(jīng)由后續(xù)機(jī)器學(xué)習(xí)相關(guān)模塊處理產(chǎn)生數(shù)據(jù)血緣。該模塊的目的是避免過(guò)擬合問(wèn)題影響模型性能。
6、本發(fā)明的第三方面利用特征篩選算法最終實(shí)現(xiàn)數(shù)據(jù)血緣的輸出。對(duì)于經(jīng)過(guò)篩選后的中間表和目標(biāo)列,目的是篩選哪些字段生成了目標(biāo)列,因此可將該問(wèn)題抽象為特征篩選問(wèn)題,本文預(yù)測(cè)具有顯著特征重要性的列為目標(biāo)列的源字段。因?yàn)闃?gòu)建決策樹(shù)時(shí),特征的重要性可以在節(jié)點(diǎn)的劃分中體現(xiàn),因此隨機(jī)森林算法可以計(jì)算特征的重要性。本發(fā)明基于平均不純度減少評(píng)估特征重要性,即通過(guò)計(jì)算每個(gè)特征在決策樹(shù)節(jié)點(diǎn)分裂時(shí)對(duì)不純度減少的貢獻(xiàn)來(lái)評(píng)估特征的重要性。僅依賴于隨機(jī)森林算法可能會(huì)引入某種程度的隨機(jī)性偏差,這種偏差有可能導(dǎo)致模型過(guò)度強(qiáng)調(diào)某一特征的重要性,同時(shí)忽略其他同等重要的特征。鑒于此,對(duì)特征選擇過(guò)程的優(yōu)化顯得尤為重要。本發(fā)明采用了遞歸式特征消除結(jié)合隨機(jī)森林算法進(jìn)行特征選擇,使用前向選擇法來(lái)識(shí)別最優(yōu)特征子集。得到的特征集合即為最優(yōu)特征子集,即中間表中對(duì)生成目標(biāo)列貢獻(xiàn)最大的列,通過(guò)回溯操作,可得到目標(biāo)列的源字段,即為發(fā)現(xiàn)了列y的字段級(jí)數(shù)據(jù)血緣。
7、本發(fā)明的技術(shù)方案為:
8、一種基于外鍵聚合和特征選擇的數(shù)據(jù)血緣發(fā)現(xiàn)方法,其步驟包括:
9、1)聚合器根據(jù)輸入的表格數(shù)據(jù)集、目標(biāo)列y以及表間外鍵關(guān)系,將與所述目標(biāo)列y所在的表存在關(guān)系的表格聚合成一個(gè)與目標(biāo)表行對(duì)齊的中間表r;所述中間表r中的每一列對(duì)應(yīng)一特征向量,所述目標(biāo)表為目標(biāo)列y所在的表;
10、2)映射檢測(cè)模塊驗(yàn)證每一候選映射函數(shù)能否根據(jù)所述中間表r中的列生成所述目標(biāo)列y,根據(jù)驗(yàn)證結(jié)果選取一候選映射函數(shù)作為最終的映射函數(shù),用于識(shí)別出中間表r中生成目標(biāo)列y的列,即所述中間表r中與所述目標(biāo)列y有數(shù)據(jù)血緣關(guān)系的列;然后利用所述映射函數(shù)對(duì)中間表r中與所述目標(biāo)列y有數(shù)據(jù)血緣關(guān)系的每一列進(jìn)行回溯,得到所述目標(biāo)列y的字段級(jí)數(shù)據(jù)血緣;如果各候選映射函數(shù)均不能作為最終的映射函數(shù),則執(zhí)行步驟3);
11、3)利用血緣預(yù)測(cè)模塊從所述中間表r中篩選出對(duì)生成所述目標(biāo)列y貢獻(xiàn)最大的列,作為最優(yōu)特征子集;對(duì)最優(yōu)特征子集中的每一列進(jìn)行回溯,得到所述目標(biāo)列y的字段級(jí)數(shù)據(jù)血緣。
12、進(jìn)一步的,生成所述中間表r的方法為:
13、11)從所述表格數(shù)據(jù)集中獲取引用了目標(biāo)表主鍵的外鍵,設(shè)表a的列u引用了目標(biāo)表的主鍵p,則應(yīng)用每一設(shè)定的聚合函數(shù)f對(duì)表a中除列u外的每一列c進(jìn)行步驟111)~114)的處理,生成列c′:
14、111)對(duì)于目標(biāo)表的每一行i,獲取該行i中的主鍵p,得到對(duì)應(yīng)的元組pi=b[p][i];
15、112)搜索表a中引用了目標(biāo)表中行i的每一行j,得到集合ji:={j|a[u][j]=pi};
16、113)根據(jù)步驟12)所得結(jié)果得到列c中引用了目標(biāo)表的行i的值的集合
17、114)應(yīng)用聚合函數(shù)f對(duì)ci進(jìn)行聚合計(jì)算c′[i]=f(ci)得到列c′;
18、12)計(jì)算步驟11)所得每一列的信息增益,根據(jù)信息增益大于設(shè)定閾值的列生成所述中間表r。
19、進(jìn)一步的,所述聚合函數(shù)f包括和函數(shù)、計(jì)數(shù)函數(shù)、最小值函數(shù)、最大值函數(shù)、平均函數(shù)、標(biāo)準(zhǔn)差函數(shù)和方差函數(shù)。
20、進(jìn)一步的,得到所述最優(yōu)特征子集的方法為:
21、31)構(gòu)建一個(gè)隨機(jī)森林模型,用于對(duì)所述中間表中每一列進(jìn)行特征重要性評(píng)估;
22、32)在每一輪循環(huán)迭代中,利用所述隨機(jī)森林模型計(jì)算所述中間表中每一列的特征重要性平均值μ和標(biāo)準(zhǔn)差σ,以μ-2·σ為閾值,刪除所述中間表中特征重要性低于μ-2·σ的列,直到所述中間表中不存在低于μ-2·σ閾值的列為止;
23、33)選取步驟32)更新后的中間表中特征重要性得分最高的列將其加入到特征集合中,根據(jù)特征集合構(gòu)建隨機(jī)森林模型;然后在后續(xù)每一步迭代中,遍歷步驟32)更新后的中間表中尚未被選中的列添加到特征集合中,根據(jù)更新后的特征集合構(gòu)建隨機(jī)森林模型,并驗(yàn)證評(píng)估當(dāng)前所構(gòu)建的隨機(jī)森林模型的性能,若當(dāng)前所構(gòu)建的隨機(jī)森林模型的性能提升,則進(jìn)行下一步迭代,否則停止迭代;
24、34)將步驟33)最終所得特征集合作為所述最優(yōu)特征子集。
25、進(jìn)一步的,所述聚合器采用的聚合函數(shù)為和函數(shù)、計(jì)數(shù)函數(shù)、最小值函數(shù)、最大值函數(shù)、平均值函數(shù)、標(biāo)準(zhǔn)差函數(shù)或方差函數(shù)。
26、一種基于外鍵聚合和特征選擇的數(shù)據(jù)血緣發(fā)現(xiàn)裝置,其特征在于,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被配置為由所述處理器執(zhí)行,所述計(jì)算機(jī)程序包括用于執(zhí)行上述方法中各步驟的指令。
27、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述方法的步驟。
28、本發(fā)明的優(yōu)點(diǎn)如下:
29、本發(fā)明提供了基于外鍵聚合和特征選擇的數(shù)據(jù)血緣發(fā)現(xiàn)方法,能夠在信息稀缺的環(huán)境下,在一系列看似雜亂無(wú)章的數(shù)據(jù)表中,運(yùn)用機(jī)器學(xué)習(xí)的方法,識(shí)別出目標(biāo)列的字段級(jí)數(shù)據(jù)血緣。實(shí)現(xiàn)了無(wú)侵入式、低信息場(chǎng)景下獲取字段級(jí)的數(shù)據(jù)血緣。
30、本發(fā)明在數(shù)據(jù)處理領(lǐng)域具有很強(qiáng)的實(shí)用性和應(yīng)用范圍,具有很廣泛的應(yīng)用前景。