本發(fā)明屬于空間大數(shù)據(jù),提出了一種基于深度學(xué)習(xí)的空間數(shù)據(jù)索引智能選擇方法及系統(tǒng)。
背景技術(shù):
1、伴隨著地理空間數(shù)據(jù)獲取技術(shù)和相關(guān)地理空間應(yīng)用的飛速發(fā)展,空間數(shù)據(jù)規(guī)模急劇增加,已具有大數(shù)據(jù)的特性??臻g大數(shù)據(jù)蘊(yùn)含著極高的應(yīng)用價(jià)值,研究人員可對海量的空間數(shù)據(jù)進(jìn)行挖掘分析,開發(fā)諸如野火態(tài)勢感知、地震信息統(tǒng)計(jì)、湖泊面積變化檢測等多樣的空間應(yīng)用。空間查詢(spatial?query)是實(shí)現(xiàn)上述空間應(yīng)用所依賴的基礎(chǔ)技術(shù),其定義為從空間數(shù)據(jù)集中找出滿足給定空間條件的空間實(shí)體的過程。按照主要應(yīng)用分類,空間查詢可分為空間范圍查詢(spatial?range?query)、空間k近鄰查詢(spatial?k-nn?query)以及空間連接查詢(spatial?join?query)。在空間大數(shù)據(jù)領(lǐng)域,研究人員常通過在線云服務(wù)平臺編寫空間查詢應(yīng)用實(shí)現(xiàn)空間數(shù)據(jù)及其他科學(xué)數(shù)據(jù)的智能分析處理,而使用基于內(nèi)存的空間大數(shù)據(jù)處理框架,并在內(nèi)存中動態(tài)構(gòu)建空間索引以加速空間查詢計(jì)算,適用于在線云服務(wù)計(jì)算場景。
2、然而,在不同的空間數(shù)據(jù)上進(jìn)行范圍查詢、空間k近鄰等空間查詢時(shí),使用r樹(r-tree)索引、網(wǎng)格(grid)索引、四叉樹(quadtree)索引、k-d樹索引等常用的空間索引可以加速查詢效率,但不同的空間索引由于實(shí)現(xiàn)邏輯不同,在不同的空間查詢中應(yīng)用時(shí)的性能表現(xiàn)各有優(yōu)劣,同一種空間索引應(yīng)用在不同分布的空間數(shù)據(jù)上也會有性能差異。因此,針對不同分布的空間數(shù)據(jù)輸入,需要一種為不同類型的空間查詢動態(tài)選擇最優(yōu)的空間索引類別的智能方法。若想為某類空間查詢選擇最優(yōu)的空間索引,可以從空間數(shù)據(jù)的分布中學(xué)習(xí)其固有特征,預(yù)測其使用不同空間索引進(jìn)行空間查詢時(shí)的性能表現(xiàn),從而進(jìn)行空間索引選擇。
3、在遙感和地理信息領(lǐng)域,深度學(xué)習(xí)模型常用于進(jìn)行遙感圖像等數(shù)據(jù)的分類任務(wù),其較于傳統(tǒng)方法能夠更好地處理非線性數(shù)據(jù),得到的特征具有更高的抽象性和可區(qū)分性,從而得到更高的分類準(zhǔn)確度。已有相關(guān)學(xué)者在遙感領(lǐng)域通過卷積神經(jīng)網(wǎng)絡(luò)(cnn)、堆棧自編碼器網(wǎng)絡(luò)(sae)等網(wǎng)絡(luò)模型實(shí)現(xiàn)了高光譜圖像分類(徐朋磊,薛朝輝,車子杰.一種基于變分自編碼器的高光譜圖像分類方法[j].現(xiàn)代測繪,2020,43(1):16-20.)和高分辨率遙感圖像分類(王鑫,李可,寧晨,等.基于深度卷積神經(jīng)網(wǎng)絡(luò)和多核學(xué)習(xí)的遙感圖像分類方法[j].電子與信息學(xué)報(bào),2019,41(5):1098-1105.)任務(wù)。基于空間數(shù)據(jù)的智能索引選擇問題可對照遙感分類任務(wù)流程設(shè)計(jì)深度學(xué)習(xí)模型。首先以大量不同分布的空間數(shù)據(jù)作為訓(xùn)練集,先通過無監(jiān)督預(yù)訓(xùn)練模型訓(xùn)練提取空間數(shù)據(jù)中的特征,之后將空間數(shù)據(jù)上執(zhí)行空間查詢時(shí)性能最優(yōu)的空間索引類別作為標(biāo)簽,與特征一起輸入有監(jiān)督分類模型進(jìn)行訓(xùn)練,該有監(jiān)督分類模型即可完成索引選擇任務(wù),即針對給定的空間數(shù)據(jù)集和查詢類別,輸出性能最優(yōu)的索引結(jié)果。然而,空間數(shù)據(jù)較于遙感影像數(shù)據(jù)有其獨(dú)有的特征,在訓(xùn)練數(shù)據(jù)集的獲取、輸入數(shù)據(jù)的處理、標(biāo)簽數(shù)據(jù)的生成以及模型種類的選擇方面均需要特殊設(shè)計(jì)。
技術(shù)實(shí)現(xiàn)思路
1、針對上述技術(shù)問題,本發(fā)明公開了一種基于深度學(xué)習(xí)的空間數(shù)據(jù)索引智能選擇方法及系統(tǒng),其可以提升空間大數(shù)據(jù)處理框架的空間查詢效率,并可以應(yīng)用于apache?sedona這一空間大數(shù)據(jù)處理框架的典型代表中。
2、為達(dá)到上述發(fā)明目的,本發(fā)明的技術(shù)方案包括以下內(nèi)容。
3、一種基于深度學(xué)習(xí)的空間數(shù)據(jù)索引智能選擇方法,所述方法包括:
4、生成包含不同空間分布的合成空間數(shù)據(jù)集,所述合成空間數(shù)據(jù)集具有的特征還包括:數(shù)據(jù)傾斜特征和/或數(shù)據(jù)重疊特征;
5、計(jì)算所述合成空間數(shù)據(jù)集的特征降維表示;
6、在所述合成空間數(shù)據(jù)集上進(jìn)行不同空間索引組合的空間查詢,并根據(jù)空間索引組合所對應(yīng)的性能表現(xiàn)得到標(biāo)記數(shù)據(jù);
7、使用空間數(shù)據(jù)集的降維特征表示和標(biāo)記數(shù)據(jù)進(jìn)行有監(jiān)督的機(jī)器學(xué)習(xí)訓(xùn)練,得到空間索引智能選擇模型;
8、基于所述空間索引智能選擇模型獲取空間數(shù)據(jù)的最優(yōu)空間數(shù)據(jù)索引。
9、進(jìn)一步地,所述生成包含不同空間分布的合成空間數(shù)據(jù)集,包括:
10、基于空間大數(shù)據(jù)框架中隨機(jī)地理空間數(shù)據(jù)生成器的參數(shù)設(shè)置,得到生成合成空間數(shù)據(jù)時(shí)的參數(shù)取值上界與參數(shù)取值下界,并根據(jù)所述參數(shù)取值上界與所述參數(shù)取值下界對真實(shí)空間數(shù)據(jù)集進(jìn)行采樣分析,得到該真實(shí)空間數(shù)據(jù)集的統(tǒng)計(jì)信息最大值和統(tǒng)計(jì)信息最小值;
11、依據(jù)所述統(tǒng)計(jì)信息最大值和所述統(tǒng)計(jì)信息最小值設(shè)定空間數(shù)據(jù)生成工具的參數(shù)取值范圍,得到改進(jìn)后的空間數(shù)據(jù)生成工具;其中,所述空間數(shù)據(jù)生成工具包括:開源免費(fèi)空間數(shù)據(jù)生成工具spider;
12、通過仿射矩陣變換將改進(jìn)后的空間數(shù)據(jù)生成工具的輸出結(jié)果變換至地理坐標(biāo)系后,將數(shù)據(jù)格式修改為geojson-nl格式,以得到合成空間數(shù)據(jù)集。
13、進(jìn)一步地,計(jì)算所述合成空間數(shù)據(jù)集的特征降維表示,包括:
14、計(jì)算合成空間數(shù)據(jù)集所對應(yīng)的特征直方圖矩陣;
15、將所述特征直方圖矩陣展平為向量后輸入深度學(xué)習(xí)模型中,得到空間數(shù)據(jù)集的特征降維表示;其中,所述深度學(xué)習(xí)模型包括:基于堆棧自編碼器。
16、進(jìn)一步地,計(jì)算合成空間數(shù)據(jù)集所對應(yīng)的特征直方圖矩陣,包括:
17、將合成空間數(shù)據(jù)集參考空間網(wǎng)格化;
18、對于每一個網(wǎng)格計(jì)算的向量表示;其中,所述向量表示的維度包括:該網(wǎng)格相交的地理對象的元素個數(shù)、地理對象以geojson格式表示的總字節(jié)數(shù)、總節(jié)點(diǎn)個數(shù)、以及與該網(wǎng)格相交的地理對象面積的平均值、最小外包矩形的平均高度和最小外包矩形的平均寬度;
19、根據(jù)每一網(wǎng)格的向量表示,得到特征直方圖矩陣。
20、進(jìn)一步地,在所述合成空間數(shù)據(jù)集上進(jìn)行不同空間索引組合的空間查詢,并根據(jù)空間索引組合所對應(yīng)的性能表現(xiàn)得到標(biāo)記數(shù)據(jù),包括:
21、將空間索引的選擇空間確定為apache?sedona中彈性分布式數(shù)據(jù)集(rdd,resilient?distributed?dataset)層級的空間索引及分區(qū)所使用的空間索引組合;
22、在合成空間數(shù)據(jù)集上對每個選定的空間索引組合計(jì)算對應(yīng)的空間范圍查詢和空間k近鄰查詢的執(zhí)行時(shí)間,并基于該執(zhí)行時(shí)間來確定最優(yōu)空間索引組合后,得到標(biāo)記數(shù)據(jù)。
23、進(jìn)一步地,在合成空間數(shù)據(jù)集上對每個選定的空間索引組合計(jì)算對應(yīng)的空間范圍查詢的執(zhí)行時(shí)間,并基于該執(zhí)行時(shí)間來確定最優(yōu)空間索引組合后,得到標(biāo)記數(shù)據(jù),包括:
24、在合成空間數(shù)據(jù)集上分別以a%、b%、c%、d%、e%作為查詢面積比例;其中,所述查詢面積比例代表查詢范圍的面積占整個數(shù)據(jù)集最小外包矩形面積的比例,a、b、c、d、e為正數(shù),且a<b<c<d<e;
25、針對每一空間索引組合,通過在每個查詢面積比例上生成若干個查詢后,計(jì)算該空間索引組合在該查詢面積比例上的平均查詢時(shí)間,并將各平均查詢時(shí)間相加后,得到查詢總時(shí)間;
26、將查詢總時(shí)間最短的空間索引組合作為標(biāo)簽,并將該標(biāo)簽轉(zhuǎn)化為獨(dú)熱編碼,從而生成標(biāo)記數(shù)據(jù)。
27、進(jìn)一步地,在合成空間數(shù)據(jù)集上對每個選定的空間索引組合計(jì)算對應(yīng)的空間k近鄰查詢的執(zhí)行時(shí)間,并基于該執(zhí)行時(shí)間來確定最優(yōu)空間索引組合后,得到標(biāo)記數(shù)據(jù),包括:
28、在合成空間數(shù)據(jù)集上分別以a、b、c和d的k值,隨機(jī)生成若干個查詢點(diǎn)進(jìn)行空間k近鄰查詢;其中,a、b、c、d為正數(shù),且依次遞增;
29、針對每一空間索引組合,計(jì)算每個k值對應(yīng)的一組查詢上的平均查詢時(shí)間,并將各組查詢上的平均查詢時(shí)間相加,得到查詢總時(shí)間;
30、將查詢總時(shí)間最短的空間索引組合作為標(biāo)簽,并將該標(biāo)簽轉(zhuǎn)化為獨(dú)熱編碼,從而生成標(biāo)記數(shù)據(jù)。
31、進(jìn)一步地,使用空間數(shù)據(jù)集的降維特征表示和標(biāo)記數(shù)據(jù)進(jìn)行有監(jiān)督的機(jī)器學(xué)習(xí)訓(xùn)練,得到空間索引智能選擇模型,包括:
32、獲取基于softmax激活函數(shù)的有監(jiān)督分類器;
33、基于空間數(shù)據(jù)集的降維特征表示和標(biāo)記數(shù)據(jù)對該有監(jiān)督分類器進(jìn)行訓(xùn)練,得到空間索引智能選擇模型;其中,訓(xùn)練該有監(jiān)督分類器的損失函數(shù)包括:交叉熵?fù)p失函數(shù)。
34、一種基于深度學(xué)習(xí)的空間數(shù)據(jù)索引智能選擇系統(tǒng),所述系統(tǒng)包括:
35、訓(xùn)練模塊,用于生成包含不同空間分布的合成空間數(shù)據(jù)集,所述合成空間數(shù)據(jù)集具有的特征還包括:數(shù)據(jù)傾斜特征和/或數(shù)據(jù)重疊特征;計(jì)算所述合成空間數(shù)據(jù)集的特征降維表示;在所述合成空間數(shù)據(jù)集上進(jìn)行不同空間索引組合的空間查詢,并根據(jù)空間索引組合所對應(yīng)的性能表現(xiàn)得到標(biāo)記數(shù)據(jù);使用空間數(shù)據(jù)集的降維特征表示和標(biāo)記數(shù)據(jù)進(jìn)行有監(jiān)督的機(jī)器學(xué)習(xí)訓(xùn)練,得到空間索引智能選擇模型;
36、推理模塊,用于基于所述空間索引智能選擇模型獲取空間數(shù)據(jù)的最優(yōu)空間數(shù)據(jù)索引。
37、一種電子設(shè)備,所述電子設(shè)備包括:處理器以及存儲有計(jì)算機(jī)程序指令的存儲器;所述處理器執(zhí)行所述計(jì)算機(jī)程序指令時(shí)實(shí)現(xiàn)上述任一項(xiàng)所述的基于深度學(xué)習(xí)的空間數(shù)據(jù)索引智能選擇方法。
38、與現(xiàn)有技術(shù)相比,本發(fā)明方法具有以下優(yōu)點(diǎn):
39、(1)本發(fā)明使用改進(jìn)后的合成空間數(shù)據(jù)生成工具生成包含多樣分布的合成空間數(shù)據(jù)集,并提出了一種特征直方圖矩陣計(jì)算方法,能夠?qū)⒖臻g數(shù)據(jù)轉(zhuǎn)化為特征直方圖矩陣,進(jìn)而展平為向量輸入深度學(xué)習(xí)模型中。與現(xiàn)有技術(shù)相比,方法可以更好地解決空間數(shù)據(jù)用于深度學(xué)習(xí)模型訓(xùn)練的問題,同時(shí)為模型訓(xùn)練提供了足量訓(xùn)練數(shù)據(jù)。
40、(2)本發(fā)明成果針對空間大數(shù)據(jù)框架的典型代表apache?sedona進(jìn)行優(yōu)化,在apache?sedona支持的空間索引組合范圍內(nèi)進(jìn)行選擇,提升了在apache?sedona框架下進(jìn)行空間查詢的執(zhí)行效率。