本發(fā)明涉及巖性識別,具體涉及一種基于新奧法隧道開挖隨鉆數(shù)據(jù)的巖性數(shù)據(jù)驅(qū)動(dòng)識別方法。
背景技術(shù):
1、隨鉆測量(mwd)技術(shù)能夠?qū)崟r(shí)測量鉆進(jìn)過程中鉆機(jī)的運(yùn)行參數(shù),從而為巖體特性提供具體信息。利用隨鉆測量參數(shù)進(jìn)行巖性識別是一種綜合性技術(shù),具有高精度、多信息、集成化等特點(diǎn),可顯著提高識別效率。多年來,隨鉆測試技術(shù)已被廣泛應(yīng)用于巖體開挖過程。歷經(jīng)多年發(fā)展隨鉆測試技術(shù)逐步完善,推動(dòng)了數(shù)據(jù)采集的實(shí)時(shí)性及鉆進(jìn)參數(shù)與巖性之間表征研究的進(jìn)程。在揭示鉆進(jìn)數(shù)據(jù)與巖體特征關(guān)系方面,主要從方法和判別目標(biāo)兩個(gè)方面總結(jié)。在方法層面,國內(nèi)外學(xué)者進(jìn)行了大量探索。值得注意的是,目前基于ml的巖石特征研究中,數(shù)據(jù)不平衡問題受到越來越多的關(guān)注。由于實(shí)際地質(zhì)條件中巖類分布具有不確定性,不同巖石的樣本數(shù)量不可避免地會失衡。當(dāng)類標(biāo)簽不平衡時(shí),主要采用兩種思路來規(guī)避該現(xiàn)象,即通過上采樣增加少數(shù)樣本或下采樣減少多數(shù)樣本。來進(jìn)行深入分析。然而,一些研究通過將少數(shù)類樣本擴(kuò)充至與多數(shù)類樣本數(shù)量一致來處理。這在一定程度上可緩解數(shù)據(jù)不平衡并提高預(yù)測性能。然而,當(dāng)類標(biāo)簽數(shù)量高度失衡時(shí),簡單地使兩類樣本數(shù)量一致可能導(dǎo)致預(yù)測結(jié)果不可靠。
技術(shù)實(shí)現(xiàn)思路
1、針對現(xiàn)有技術(shù)中的上述不足,本發(fā)明提供的一種基于新奧法隧道開挖隨鉆數(shù)據(jù)的巖性數(shù)據(jù)驅(qū)動(dòng)識別方法解決了現(xiàn)有技術(shù)無法有效緩解數(shù)據(jù)不平衡導(dǎo)致的預(yù)測精度和可靠程度低的問題。
2、為了達(dá)到上述發(fā)明目的,本發(fā)明采用的技術(shù)方案為:
3、提供了一種基于新奧法隧道開挖隨鉆數(shù)據(jù)的巖性數(shù)據(jù)驅(qū)動(dòng)識別方法,其包括以下步驟:
4、s1、實(shí)時(shí)采集待識別的新奧法隧道的掘進(jìn)過程的隨鉆測量mwd數(shù)據(jù),即多維不平衡數(shù)據(jù);
5、s2、對多維不平衡數(shù)據(jù)進(jìn)行預(yù)處理,得到預(yù)處理后的多維不平衡數(shù)據(jù);
6、s3、采用adasyn過采樣算法對預(yù)處理后的多維不平衡數(shù)據(jù)進(jìn)行處理,得到過采樣后的mwd數(shù)據(jù);
7、s4、構(gòu)建巖性識別模型;
8、s5、將過采樣后的mwd數(shù)據(jù)輸入至巖性識別模型進(jìn)行處理,得到巖性識別結(jié)果。
9、進(jìn)一步地,步驟s1中的多維不平衡數(shù)據(jù)包括鉆孔深度、推進(jìn)速度、沖擊壓力、推進(jìn)壓力、回轉(zhuǎn)壓力、水壓力和水流量。
10、進(jìn)一步地,步驟s3包括以下步驟:
11、s3-1、將預(yù)處理后的多維不平衡數(shù)據(jù)作為樣本數(shù)據(jù),并統(tǒng)計(jì)每類樣本數(shù)據(jù)的數(shù)據(jù)量;
12、s3-2、判斷每類樣本數(shù)據(jù)的數(shù)據(jù)量是否小于數(shù)量閾值;若是則判定該類樣本數(shù)據(jù)為少數(shù)類別樣本;反之則判定該類樣本數(shù)據(jù)為多數(shù)類別樣本;
13、s3-3、采用k近鄰算法在少數(shù)類別樣本構(gòu)成的少數(shù)類數(shù)據(jù)空間中確定各少數(shù)類別樣本對應(yīng)的k個(gè)最近鄰樣本數(shù)據(jù);
14、s3-4、根據(jù)公式:
15、
16、得到各少數(shù)類別樣本的密度ri;其中,ni表示第i個(gè)最近鄰樣本數(shù)據(jù),k表示最近鄰樣本數(shù)據(jù)總數(shù);
17、s3-5、根據(jù)公式:
18、
19、得到需要生成的合成樣本數(shù)量gi;其中,nmaj表示多數(shù)類別樣本數(shù)據(jù)總量,nmin表示少數(shù)類別樣本數(shù)據(jù)總量,β表示生成新樣本的比例,∑(·)表示求和函數(shù);
20、s3-6、基于需要生成的合成樣本數(shù)量gi,通過隨機(jī)線性插值對各少數(shù)類別樣本生成對應(yīng)的合成樣本;
21、s3-7、分別合并各少數(shù)類別樣本和對應(yīng)的合成樣本;
22、其中,過采樣后的mwd數(shù)據(jù)包括多數(shù)類別樣本和合并后的少數(shù)類別樣本。
23、進(jìn)一步地,步驟s4中的巖性識別模型采用xgboost模型。
24、進(jìn)一步地,巖性識別模型的訓(xùn)練過程包括以下步驟:
25、s5-1、獲取訓(xùn)練多維不平衡數(shù)據(jù)及其標(biāo)簽,采用與步驟s3相同的方法進(jìn)行過采樣,得到過采樣后的訓(xùn)練mwd數(shù)據(jù);
26、s5-2、利用gs網(wǎng)格搜索法對xgboost模型的超參數(shù)進(jìn)行處理,得到對應(yīng)的超參數(shù)組合方案;
27、s5-3、隨機(jī)選取一個(gè)超參數(shù)組合并應(yīng)用至xgboost模型,得到對應(yīng)的初始xgboost模型;
28、s5-4、將過采樣后的訓(xùn)練mwd數(shù)據(jù)輸入至初始xgboost模型并采取十折交叉驗(yàn)證進(jìn)行處理,得到十個(gè)初始指標(biāo)數(shù)據(jù)值,即macrof1值;
29、s5-5、計(jì)算十個(gè)初始指標(biāo)數(shù)據(jù)值的指標(biāo)均值;
30、s5-6、重復(fù)步驟s5-3至步驟s5-6,直至得到所有超參數(shù)組合對應(yīng)的指標(biāo)均值;
31、s5-7、基于各個(gè)指標(biāo)均值,選取最佳超參數(shù);
32、s5-8、基于最佳超參數(shù)調(diào)整初始訓(xùn)練xgboost模型的參數(shù),得到訓(xùn)練優(yōu)化后的gs-adasyn-xgboost模型。
33、進(jìn)一步地,gs網(wǎng)格搜索法的具體過程為:
34、確定xgboost模型的待優(yōu)化超參數(shù);設(shè)置待優(yōu)化超參數(shù)的取值范圍,并對待優(yōu)化超參數(shù)的取值進(jìn)行排列組合,生成超參數(shù)網(wǎng)格;初始化xgboost模型并設(shè)置初始超參數(shù);利用gridsearchcv法對參數(shù)網(wǎng)格進(jìn)行網(wǎng)格搜索,得到對應(yīng)的超參數(shù)組合方案。
35、進(jìn)一步地,步驟s5-4包括以下步驟:
36、s5-4-1、將過采樣后的訓(xùn)練mwd數(shù)據(jù)分為十個(gè)子集;
37、s5-4-2、隨機(jī)選擇一個(gè)子集作為驗(yàn)證子集,其余九個(gè)子集作為訓(xùn)練子集;
38、s5-4-3、將訓(xùn)練子集及其標(biāo)簽輸入至初始xgboost模型進(jìn)行訓(xùn)練,得到訓(xùn)練后的初始xgboost模型;
39、s5-4-4、將驗(yàn)證子集輸入至訓(xùn)練后的初始xgboost模型,得到對應(yīng)的訓(xùn)練識別結(jié)果;
40、s5-4-5、基于訓(xùn)練識別結(jié)果計(jì)算對應(yīng)的初始指標(biāo)數(shù)據(jù)值;
41、s5-4-6、重復(fù)步驟s5-4-2至步驟s5-4-5直至得到十個(gè)初始指標(biāo)數(shù)據(jù)值。
42、進(jìn)一步地,步驟s5-1中的標(biāo)簽為安山巖、混合安山-砂巖、白云巖、砂巖、粉砂質(zhì)頁巖、青泥巖,分別設(shè)置為類別0、類別1、類別2、類別3、類別4、類別5。
43、本發(fā)明的有益效果為:本方法采用adasyn過采樣方法對隨鉆測量mwd數(shù)據(jù)進(jìn)行處理,解決了隨鉆測量mwd數(shù)據(jù)的多維數(shù)據(jù)不平衡問題;且利用網(wǎng)格搜索算法對巖性識別模型進(jìn)行超參數(shù)優(yōu)化,進(jìn)一步提升了識別模型的泛性能力和識別能力;選取優(yōu)化后的gs-adasyn-xgboost對隨鉆測量mwd數(shù)據(jù)進(jìn)行分類,可以有效提高識別結(jié)果的準(zhǔn)確性。
1.一種基于新奧法隧道開挖隨鉆數(shù)據(jù)的巖性數(shù)據(jù)驅(qū)動(dòng)識別方法,其特征在于:包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于新奧法隧道開挖隨鉆數(shù)據(jù)的巖性數(shù)據(jù)驅(qū)動(dòng)識別方法,其特征在于:所述步驟s1中的多維不平衡數(shù)據(jù)包括鉆孔深度、推進(jìn)速度、沖擊壓力、推進(jìn)壓力、回轉(zhuǎn)壓力、水壓力和水流量。
3.根據(jù)權(quán)利要求1所述的基于新奧法隧道開挖隨鉆數(shù)據(jù)的巖性數(shù)據(jù)驅(qū)動(dòng)識別方法,其特征在于:所述步驟s3包括以下步驟:
4.根據(jù)權(quán)利要求2或3所述的基于新奧法隧道開挖隨鉆數(shù)據(jù)的巖性數(shù)據(jù)驅(qū)動(dòng)識別方法,其特征在于:所述步驟s4中的巖性識別模型采用xgboost模型。
5.根據(jù)權(quán)利要求4所述的基于新奧法隧道開挖隨鉆數(shù)據(jù)的巖性數(shù)據(jù)驅(qū)動(dòng)識別方法,其特征在于:所述巖性識別模型的訓(xùn)練過程包括以下步驟:
6.根據(jù)權(quán)利要求5所述的基于新奧法隧道開挖隨鉆數(shù)據(jù)的巖性數(shù)據(jù)驅(qū)動(dòng)識別方法,其特征在于:所述gs網(wǎng)格搜索法的具體過程為:
7.根據(jù)權(quán)利要求5所述的基于新奧法隧道開挖隨鉆數(shù)據(jù)的巖性數(shù)據(jù)驅(qū)動(dòng)識別方法,其特征在于:所述步驟s5-4包括以下步驟:
8.根據(jù)權(quán)利要求5所述的基于新奧法隧道開挖隨鉆數(shù)據(jù)的巖性數(shù)據(jù)驅(qū)動(dòng)識別方法,其特征在于:所述步驟s5-1中的標(biāo)簽為安山巖、混合安山-砂巖、白云巖、砂巖、粉砂質(zhì)頁巖、青泥巖,分別設(shè)置為類別0、類別1、類別2、類別3、類別4、類別5。