本發(fā)明涉及氣象數(shù)據(jù)獲取分析,尤其涉及一種基于大語言模型的氣象環(huán)境情報爬取與分析方法。
背景技術(shù):
1、當(dāng)前,對氣象環(huán)境情報獲取的要求越來越高。氣象數(shù)據(jù)的準(zhǔn)確獲取能夠及時提供風(fēng)速、風(fēng)向、溫度、濕度等關(guān)鍵氣象參數(shù),幫助分析天氣變化的規(guī)律,預(yù)測未來的天氣情況,從而及時發(fā)布?xì)庀箢A(yù)報和警報,提高氣象預(yù)報準(zhǔn)確性。
2、然而,傳統(tǒng)氣象數(shù)據(jù)的獲取大多依賴于人工搜集網(wǎng)絡(luò)上的零散信息或者根據(jù)不同的氣象網(wǎng)站人工修改爬蟲策略進(jìn)行爬蟲,這些方法在處理流程上往往較為繁瑣,導(dǎo)致數(shù)據(jù)獲取速度較慢且不全面,在快速變化的氣象環(huán)境中,這種缺陷可能會影響決策的及時性和準(zhǔn)確性。同時傳統(tǒng)方法對于非結(jié)構(gòu)化氣象數(shù)據(jù)的處理難度大,傳統(tǒng)方法在處理這些非結(jié)構(gòu)化數(shù)據(jù)時往往力不從心,難以從中提取出有價值的信息。
3、此外,由于傳統(tǒng)方法在處理數(shù)據(jù)時存在諸多限制,導(dǎo)致收集到的氣象數(shù)據(jù)往往無法充分利用,大量的數(shù)據(jù)被閑置或僅用于簡單的統(tǒng)計分析,對于氣象數(shù)據(jù)的利用效率低,無法發(fā)揮其潛在的價值和作用。
技術(shù)實(shí)現(xiàn)思路
1、鑒于上述的分析,本發(fā)明實(shí)施例旨在提供一種基于大語言模型的氣象環(huán)境情報爬取與分析方法,用以解決現(xiàn)有依靠人工搜索數(shù)據(jù)獲取氣象數(shù)據(jù)時效率低,對于非結(jié)構(gòu)化數(shù)據(jù)無法充分利用的問題。
2、本發(fā)明的目的主要是通過以下技術(shù)方案實(shí)現(xiàn)的:
3、本發(fā)明提供了一種基于大語言模型的氣象環(huán)境情報爬取與分析方法,包括如下步驟:
4、獲取氣象環(huán)境情報爬蟲需求、氣象環(huán)境情報分析需求和氣象環(huán)境情報報告生成需求,并基于各自預(yù)設(shè)提示詞模板,分級構(gòu)建氣象環(huán)境情報爬取提示詞、氣象環(huán)境情報分析提示詞和氣象環(huán)境情報報告生成提示詞;其中,分級構(gòu)建提示詞為基于各氣象環(huán)境情報需求和對應(yīng)的預(yù)設(shè)提示詞模板的匹配度,生成對應(yīng)的提示詞;
5、基于所述氣象環(huán)境情報爬取提示詞和預(yù)設(shè)的氣象環(huán)境情報提取提示詞對數(shù)據(jù)源網(wǎng)址進(jìn)行數(shù)據(jù)爬取,并將爬取結(jié)果與era5數(shù)據(jù)集進(jìn)行相似性度量,得到氣象環(huán)境情報;
6、基于所述氣象環(huán)境情報分析提示詞和所述氣象環(huán)境情報報告生成提示詞,對所述氣象環(huán)境情報進(jìn)行情報分析得到氣象環(huán)境情報分析報告。
7、進(jìn)一步的,所述分級構(gòu)建提示詞,包括:
8、當(dāng)預(yù)設(shè)提示詞模板完全包括對應(yīng)的氣象環(huán)境情報需求時,使用預(yù)設(shè)提示詞模板作為對應(yīng)的提示詞;
9、當(dāng)預(yù)設(shè)提示詞模板包括部分對應(yīng)的氣象環(huán)境情報需求時,使用半模糊生成提示詞模板基于對應(yīng)的氣象環(huán)境情報需求對預(yù)設(shè)提示詞模板進(jìn)行優(yōu)化,生成對應(yīng)的提示詞;
10、當(dāng)預(yù)設(shè)提示詞模板完全不包括對應(yīng)的氣象環(huán)境情報需求時,使用模糊生成提示詞模板基于氣象環(huán)境情報需求,生成氣象環(huán)境情報提示詞。
11、進(jìn)一步的,所述基于所述氣象環(huán)境情報爬取提示詞和預(yù)設(shè)的氣象環(huán)境情報提取提示詞對數(shù)據(jù)源網(wǎng)址進(jìn)行數(shù)據(jù)爬取,包括:
12、將所述氣象環(huán)境情報爬取提示詞輸入至大語言模型中,得到爬取需求關(guān)鍵詞;
13、基于所述爬取需求關(guān)鍵詞和預(yù)設(shè)的氣象環(huán)境情報提取提示詞,使用大語言模型從數(shù)據(jù)源網(wǎng)址的源碼中爬取氣象環(huán)境情報。
14、進(jìn)一步的,當(dāng)所述氣象環(huán)境情報爬取提示詞中不包括數(shù)據(jù)源網(wǎng)址時,使用智能體基于所述爬取需求關(guān)鍵詞,通過搜索引擎搜索數(shù)據(jù)源網(wǎng)址。
15、進(jìn)一步的,所述將爬取結(jié)果與era5數(shù)據(jù)集進(jìn)行相似性度量,得到氣象環(huán)境情報,包括:
16、對所述爬取結(jié)果中的各氣象指標(biāo)與era5數(shù)據(jù)集中對應(yīng)的氣象指標(biāo)進(jìn)行相似性度量,得到所述爬取結(jié)果的相似性值;
17、當(dāng)所述爬取結(jié)果的相似性值大于或等于預(yù)設(shè)相似性閾值時,則將所述爬取結(jié)果作為爬取的氣象環(huán)境情報;
18、當(dāng)所述爬取結(jié)果的相似性值小于預(yù)設(shè)相似性閾值時,對所述氣象環(huán)境情報提取提示詞進(jìn)行優(yōu)化,生成新的氣象環(huán)境情報提取提示詞后,基于所述爬蟲需求關(guān)鍵詞和新的氣象環(huán)境情報提取提示詞,使用大語言模型從數(shù)據(jù)源網(wǎng)址的源碼中爬取氣象環(huán)境情報;
19、當(dāng)對所述氣象環(huán)境情報提取提示詞進(jìn)行優(yōu)化的次數(shù)大于預(yù)設(shè)次數(shù)時,設(shè)置新的數(shù)據(jù)源網(wǎng)址,基于所述爬蟲需求關(guān)鍵詞和氣象環(huán)境情報提取提示詞,使用大語言模型從新的數(shù)據(jù)源網(wǎng)址的源碼中爬取氣象環(huán)境情報。
20、進(jìn)一步的,所述對所述爬取結(jié)果中的各氣象指標(biāo)與era5數(shù)據(jù)集中對應(yīng)的氣象指標(biāo)進(jìn)行相似性度量,包括:
21、對所述爬取結(jié)果中的各氣象指標(biāo)的定性數(shù)據(jù)進(jìn)行定性數(shù)據(jù)相似性度量得到定性數(shù)據(jù)相似性值;
22、對所述爬取結(jié)果中的各氣象指標(biāo)的定量數(shù)據(jù)進(jìn)行定量數(shù)據(jù)相似性度量得到定量數(shù)據(jù)相似性值;
23、將所述定性數(shù)據(jù)相似性值和所述定量數(shù)據(jù)相似性值取均值,得到所述爬取結(jié)果的相似性值。
24、進(jìn)一步的,所述定性數(shù)據(jù)相似性度量,包括:
25、對所述爬取結(jié)果中的各氣象指標(biāo)的定性數(shù)據(jù),將其與所述era5數(shù)據(jù)集比較后做二值化處理;其中,數(shù)據(jù)一致時記為1,數(shù)據(jù)不一致時記為0;
26、對于二值化后數(shù)據(jù),使用下述公式計算得到爬取結(jié)果定性數(shù)據(jù)相似性值:
27、
28、其中,p表示定性數(shù)據(jù)相似性值;xk,i表示第k個氣象指標(biāo)的第i個定性數(shù)據(jù);nk表示第k個氣象指標(biāo)的定性數(shù)據(jù)數(shù)量;n表示爬取結(jié)果中定性數(shù)據(jù)的氣象指標(biāo)數(shù)量。
29、進(jìn)一步的,所述定量數(shù)據(jù)相似性度量,包括:
30、對爬取結(jié)果中的各氣象指標(biāo)的定量數(shù)據(jù),使用下述公式計算得到各定量數(shù)據(jù)相似性值:
31、
32、其中,q表示定量數(shù)據(jù)相似性值;xl,j表示第l個氣象指標(biāo)的第j個定量數(shù)據(jù)的值;yl,j表示era5數(shù)據(jù)集中第l個氣象指標(biāo)的第j個定量數(shù)據(jù)的值;ml表示第l個氣象指標(biāo)的定量數(shù)據(jù)數(shù)量;m表示爬取結(jié)果中定量數(shù)據(jù)的氣象指標(biāo)數(shù)量。
33、進(jìn)一步的,得到氣象環(huán)境情報后還包括,對所述氣象環(huán)境情報進(jìn)行數(shù)據(jù)整理,得到規(guī)則的氣象環(huán)境情報;
34、基于所述規(guī)則的氣象環(huán)境情報和所述氣象環(huán)境情報分析提示詞,使用大語言模型對所述氣象數(shù)據(jù)進(jìn)行分析,得到分析結(jié)果;
35、基于所述分析結(jié)果和所述氣象環(huán)境情報報告生成提示詞,使用大語言模型生成氣象環(huán)境情報分析報告。
36、進(jìn)一步的,所述對所述氣象環(huán)境情報進(jìn)行數(shù)據(jù)整理,得到規(guī)則的氣象環(huán)境情報,包括:
37、去除所述氣象環(huán)境情報中的無關(guān)字符;
38、統(tǒng)一所述氣象環(huán)境情報中的數(shù)據(jù)格式。
39、與現(xiàn)有技術(shù)相比,本發(fā)明至少可實(shí)現(xiàn)如下有益效果之一:
40、1、本發(fā)明通過融合自然語言處理(nlp)與大語言模型,實(shí)現(xiàn)對互聯(lián)網(wǎng)中海量、多模態(tài)氣象數(shù)據(jù)的高效全面收集、智能解析與深度分析,從而快速、準(zhǔn)確地獲取氣象數(shù)據(jù),深度分析氣象數(shù)據(jù)并根據(jù)用戶需求生成報告。
41、2、本發(fā)明基于大語言模型實(shí)現(xiàn)智能化氣象數(shù)據(jù)的爬蟲,利用其強(qiáng)大的語言理解與生成能力自動爬取最優(yōu)氣象數(shù)據(jù),提高了數(shù)據(jù)爬取的效率與質(zhì)量。
42、3、本發(fā)明實(shí)現(xiàn)了氣象數(shù)據(jù)爬取與分析的分級提示詞生成,制定氣象數(shù)據(jù)爬蟲與分析全流程中的提示詞模板,同時可以根據(jù)用戶具體需求優(yōu)化提示詞或者根據(jù)所提要求重新生成提示詞。
43、4、本發(fā)明通過將獲取的爬蟲數(shù)據(jù)與era5數(shù)據(jù)進(jìn)行對比,以校驗(yàn)氣象爬蟲的準(zhǔn)確性,實(shí)現(xiàn)氣象爬蟲數(shù)據(jù)準(zhǔn)確性校驗(yàn)。
44、本發(fā)明中,上述各技術(shù)方案之間還可以相互組合,以實(shí)現(xiàn)更多的優(yōu)選組合方案。本發(fā)明的其他特征和優(yōu)點(diǎn)將在隨后的說明書中闡述,并且,部分優(yōu)點(diǎn)可從說明書中變得顯而易見,或者通過實(shí)施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點(diǎn)可通過說明書以及附圖中所特別指出的內(nèi)容中來實(shí)現(xiàn)和獲得。