本申請涉及計算機,尤其涉及一種文本解析方法、裝置、設(shè)備和存儲介質(zhì)。
背景技術(shù):
1、隨著移動互聯(lián)網(wǎng)和信息技術(shù)的發(fā)展,貨運方式發(fā)生了很大改變。目前,用戶可以通過應(yīng)用程序下單,貨運司機在應(yīng)用程序上接單,最終完成裝貨、運貨、卸貨。
2、應(yīng)用程序的下單界面包括地址欄和備注區(qū)域,在一應(yīng)用場景中,用戶在地址欄上填寫的地址可能存在不準確或模糊的情況,而在備注區(qū)域中填入了可以反映準確地址位置的文本。針對上述應(yīng)用場景,可以對上述文本進行解析,得到用戶下單的地址,進而將地址自動填入地址欄中,替換原地址,以此簡化用戶操作。
3、然而,在現(xiàn)有技術(shù)中,僅僅是依靠簡單的分詞技術(shù)提取文本中的關(guān)鍵詞,進而將上述關(guān)鍵詞填入地址欄中,這存在對于文本的解析不夠準確的問題。
技術(shù)實現(xiàn)思路
1、本申請的主要目的在于提供了一種文本解析方法、裝置、計算機設(shè)備和存儲介質(zhì),旨在解決對于文本的解析不夠準確的技術(shù)問題。
2、為實現(xiàn)上述目的,本申請?zhí)峁┮环N文本解析方法,該方法包括:
3、獲取第一興趣點和待解析文本;所述第一興趣點用于表征預(yù)先設(shè)置的第一地址;
4、對所述待解析文本進行結(jié)構(gòu)化處理,得到規(guī)范化字段;
5、對所述規(guī)范化字段進行興趣點召回,得到n個第二興趣點;n為大于1的正整數(shù);
6、對所述n個第二興趣點進行興趣點過濾,得到m個第二興趣點;所述m個第二興趣點為所述n個第二興趣點中的部分興趣點;
7、根據(jù)所述第一興趣點與所述m個第二興趣點中每個第二興趣點之間的相似度,確定目標興趣點;所述目標興趣點用于表征所述待解析文本指向的目標地址。
8、可選地,獲取待解析文本,包括:
9、獲取備注區(qū)域的文本;
10、檢測所述文本包括的字符類型;
11、若所述文本包括的字符類型滿足預(yù)設(shè)要求,則確定所述文本為待解析文本;
12、其中,所述預(yù)設(shè)要求包括以下至少一項:
13、文本包括中文;
14、文本不包括亂碼;
15、文本不包括電話號碼;
16、文本不包括特殊字符。
17、可選地,所述對所述待解析文本進行結(jié)構(gòu)化處理,得到規(guī)范化字段,包括:
18、對所述待解析文本進行分詞,得到所述待解析文本包括的多個分詞;
19、去除所述多個分詞中的噪聲詞;
20、對除燥后的多個分詞進行結(jié)構(gòu)化標注,得到所述規(guī)范化字段。
21、可選地,所述對所述規(guī)范化字段進行興趣點召回,得到n個第二興趣點,包括:
22、提取所述待解析文本包括的城市信息;
23、在預(yù)設(shè)的數(shù)據(jù)庫中對目標關(guān)鍵詞進行查詢;所述目標關(guān)鍵詞包括所述規(guī)范化字段和所述城市信息,所述數(shù)據(jù)庫存儲有關(guān)鍵詞與興趣點之間的映射關(guān)系;
24、若在所述數(shù)據(jù)庫中查詢到與所述目標關(guān)鍵詞對應(yīng)的多個興趣點,則將所述多個興趣點確定為所述n個第二興趣點。
25、可選地,所述在預(yù)設(shè)的數(shù)據(jù)庫中對目標關(guān)鍵詞進行查詢之后,所述方法還包括:
26、若在所述數(shù)據(jù)庫中未查詢到與所述目標關(guān)鍵詞對應(yīng)的多個興趣點,則分別對所述目標關(guān)鍵詞進行自建檢索召回得到多個第三興趣點,對所述目標關(guān)鍵詞進行地理區(qū)域召回得到多個第四興趣點,對所述目標關(guān)鍵詞進行門址類型召回得到多個第五興趣點;
27、對所述多個第三興趣點、所述多個第四興趣點和所述多個第五興趣點進行去重;
28、對去重后的所述多個第三興趣點、所述多個第四興趣點和所述多個第五興趣點進行融合,得到所述n個第二興趣點。
29、可選地,所述對所述n個第二興趣點進行興趣點過濾,得到m個第二興趣點,包括:
30、計算規(guī)范化字段與每個第二興趣點名稱之間的最長公共子串;
31、去除所述n個第二興趣點中對應(yīng)最長公共子串長度小于預(yù)設(shè)數(shù)值的部分興趣點,得到所述m個第二興趣點。
32、可選地,所述根據(jù)所述第一興趣點與所述m個第二興趣點中每個第二興趣點之間的相似度,確定目標興趣點,包括:
33、對所述第一興趣點進行向量化計算,得到所述第一興趣點對應(yīng)的第一向量值;
34、對每個第二興趣點進行向量化計算,得到所述每個第二興趣點對應(yīng)的第二向量值;
35、計算所述第一向量值與每個第二向量值之間的相似度數(shù)值;
36、若最高相似度數(shù)值大于預(yù)設(shè)閾值,則將所述最高相似度數(shù)值對應(yīng)的第二興趣點確定為所述目標興趣點。
37、此外,為實現(xiàn)上述目的,本申請還提供一種文本解析裝置,所述文本解析裝置包括:
38、獲取模塊,用于獲取第一興趣點和待解析文本;所述第一興趣點用于表征預(yù)先設(shè)置的第一地址;
39、處理模塊,用于對所述待解析文本進行結(jié)構(gòu)化處理,得到規(guī)范化字段;
40、召回模塊,用于對所述規(guī)范化字段進行興趣點召回,得到n個第二興趣點;n為大于1的正整數(shù);
41、過濾模塊,用于對所述n個第二興趣點進行興趣點過濾,得到m個第二興趣點;所述m個第二興趣點為所述n個第二興趣點中的部分興趣點;
42、確定模塊,用于根據(jù)所述第一興趣點與所述m個第二興趣點中每個第二興趣點之間的相似度,確定目標興趣點;所述目標興趣點用于表征所述待解析文本指向的目標地址。
43、為了解決上述技術(shù)問題,本申請實施例還提供一種計算機設(shè)備,采用了如下所述的技術(shù)方案:
44、所述計算機設(shè)備,包括存儲器和處理器,所述存儲器中存儲有計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)本申請實施例中提出的任一項所述的文本解析方法的步驟。
45、為了解決上述技術(shù)問題,本申請實施例還提供一種計算機可讀存儲介質(zhì),采用了如下所述的技術(shù)方案:
46、所述計算機可讀存儲介質(zhì)上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)本申請實施例中提出的任一項所述的文本解析方法的步驟。
47、與現(xiàn)有技術(shù)相比,本申請實施例主要有以下有益效果:
48、本申請?zhí)峁┝艘环N文本解析方法、裝置、設(shè)備和存儲介質(zhì),上述方法包括:獲取第一興趣點和待解析文本;第一興趣點用于表征預(yù)先設(shè)置的第一地址;對待解析文本進行結(jié)構(gòu)化處理,得到規(guī)范化字段;對規(guī)范化字段進行興趣點召回,得到n個第二興趣點;n為大于1的正整數(shù);對n個第二興趣點進行興趣點過濾,得到m個第二興趣點;m個第二興趣點為n個第二興趣點中的部分興趣點;根據(jù)第一興趣點與m個第二興趣點中每個第二興趣點之間的相似度,確定目標興趣點;目標興趣點用于表征待解析文本指向的目標地址。本申請實施例中,通過上述方式,確定表征待解析文本指向的目標地址的目標興趣點,以此提高對于文本解析的準確度。
1.一種文本解析方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,獲取待解析文本,包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對所述待解析文本進行結(jié)構(gòu)化處理,得到規(guī)范化字段,包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對所述規(guī)范化字段進行興趣點召回,得到n個第二興趣點,包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述在預(yù)設(shè)的數(shù)據(jù)庫中對目標關(guān)鍵詞進行查詢之后,所述方法還包括:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對所述n個第二興趣點進行興趣點過濾,得到m個第二興趣點,包括:
7.根據(jù)權(quán)利要求1-6中任一項所述的方法,其特征在于,所述根據(jù)所述第一興趣點與所述m個第二興趣點中每個第二興趣點之間的相似度,確定目標興趣點,包括:
8.一種文本解析裝置,其特征在于,包括:
9.一種計算機設(shè)備,其特征在于,包括存儲器和處理器,所述存儲器中存儲有計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如權(quán)利要求1至7中任一項所述的文本解析方法的步驟。
10.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至7中任一項所述的文本解析方法的步驟。