两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

文本解析方法、裝置、設(shè)備和存儲介質(zhì)與流程

文檔序號:40614994發(fā)布日期:2025-01-07 21:03閱讀:10來源:國知局
文本解析方法、裝置、設(shè)備和存儲介質(zhì)與流程

本申請涉及計算機,尤其涉及一種文本解析方法、裝置、設(shè)備和存儲介質(zhì)。


背景技術(shù):

1、隨著移動互聯(lián)網(wǎng)和信息技術(shù)的發(fā)展,貨運方式發(fā)生了很大改變。目前,用戶可以通過應(yīng)用程序下單,貨運司機在應(yīng)用程序上接單,最終完成裝貨、運貨、卸貨。

2、應(yīng)用程序的下單界面包括地址欄和備注區(qū)域,在一應(yīng)用場景中,用戶在地址欄上填寫的地址可能存在不準確或模糊的情況,而在備注區(qū)域中填入了可以反映準確地址位置的文本。針對上述應(yīng)用場景,可以對上述文本進行解析,得到用戶下單的地址,進而將地址自動填入地址欄中,替換原地址,以此簡化用戶操作。

3、然而,在現(xiàn)有技術(shù)中,僅僅是依靠簡單的分詞技術(shù)提取文本中的關(guān)鍵詞,進而將上述關(guān)鍵詞填入地址欄中,這存在對于文本的解析不夠準確的問題。


技術(shù)實現(xiàn)思路

1、本申請的主要目的在于提供了一種文本解析方法、裝置、計算機設(shè)備和存儲介質(zhì),旨在解決對于文本的解析不夠準確的技術(shù)問題。

2、為實現(xiàn)上述目的,本申請?zhí)峁┮环N文本解析方法,該方法包括:

3、獲取第一興趣點和待解析文本;所述第一興趣點用于表征預(yù)先設(shè)置的第一地址;

4、對所述待解析文本進行結(jié)構(gòu)化處理,得到規(guī)范化字段;

5、對所述規(guī)范化字段進行興趣點召回,得到n個第二興趣點;n為大于1的正整數(shù);

6、對所述n個第二興趣點進行興趣點過濾,得到m個第二興趣點;所述m個第二興趣點為所述n個第二興趣點中的部分興趣點;

7、根據(jù)所述第一興趣點與所述m個第二興趣點中每個第二興趣點之間的相似度,確定目標興趣點;所述目標興趣點用于表征所述待解析文本指向的目標地址。

8、可選地,獲取待解析文本,包括:

9、獲取備注區(qū)域的文本;

10、檢測所述文本包括的字符類型;

11、若所述文本包括的字符類型滿足預(yù)設(shè)要求,則確定所述文本為待解析文本;

12、其中,所述預(yù)設(shè)要求包括以下至少一項:

13、文本包括中文;

14、文本不包括亂碼;

15、文本不包括電話號碼;

16、文本不包括特殊字符。

17、可選地,所述對所述待解析文本進行結(jié)構(gòu)化處理,得到規(guī)范化字段,包括:

18、對所述待解析文本進行分詞,得到所述待解析文本包括的多個分詞;

19、去除所述多個分詞中的噪聲詞;

20、對除燥后的多個分詞進行結(jié)構(gòu)化標注,得到所述規(guī)范化字段。

21、可選地,所述對所述規(guī)范化字段進行興趣點召回,得到n個第二興趣點,包括:

22、提取所述待解析文本包括的城市信息;

23、在預(yù)設(shè)的數(shù)據(jù)庫中對目標關(guān)鍵詞進行查詢;所述目標關(guān)鍵詞包括所述規(guī)范化字段和所述城市信息,所述數(shù)據(jù)庫存儲有關(guān)鍵詞與興趣點之間的映射關(guān)系;

24、若在所述數(shù)據(jù)庫中查詢到與所述目標關(guān)鍵詞對應(yīng)的多個興趣點,則將所述多個興趣點確定為所述n個第二興趣點。

25、可選地,所述在預(yù)設(shè)的數(shù)據(jù)庫中對目標關(guān)鍵詞進行查詢之后,所述方法還包括:

26、若在所述數(shù)據(jù)庫中未查詢到與所述目標關(guān)鍵詞對應(yīng)的多個興趣點,則分別對所述目標關(guān)鍵詞進行自建檢索召回得到多個第三興趣點,對所述目標關(guān)鍵詞進行地理區(qū)域召回得到多個第四興趣點,對所述目標關(guān)鍵詞進行門址類型召回得到多個第五興趣點;

27、對所述多個第三興趣點、所述多個第四興趣點和所述多個第五興趣點進行去重;

28、對去重后的所述多個第三興趣點、所述多個第四興趣點和所述多個第五興趣點進行融合,得到所述n個第二興趣點。

29、可選地,所述對所述n個第二興趣點進行興趣點過濾,得到m個第二興趣點,包括:

30、計算規(guī)范化字段與每個第二興趣點名稱之間的最長公共子串;

31、去除所述n個第二興趣點中對應(yīng)最長公共子串長度小于預(yù)設(shè)數(shù)值的部分興趣點,得到所述m個第二興趣點。

32、可選地,所述根據(jù)所述第一興趣點與所述m個第二興趣點中每個第二興趣點之間的相似度,確定目標興趣點,包括:

33、對所述第一興趣點進行向量化計算,得到所述第一興趣點對應(yīng)的第一向量值;

34、對每個第二興趣點進行向量化計算,得到所述每個第二興趣點對應(yīng)的第二向量值;

35、計算所述第一向量值與每個第二向量值之間的相似度數(shù)值;

36、若最高相似度數(shù)值大于預(yù)設(shè)閾值,則將所述最高相似度數(shù)值對應(yīng)的第二興趣點確定為所述目標興趣點。

37、此外,為實現(xiàn)上述目的,本申請還提供一種文本解析裝置,所述文本解析裝置包括:

38、獲取模塊,用于獲取第一興趣點和待解析文本;所述第一興趣點用于表征預(yù)先設(shè)置的第一地址;

39、處理模塊,用于對所述待解析文本進行結(jié)構(gòu)化處理,得到規(guī)范化字段;

40、召回模塊,用于對所述規(guī)范化字段進行興趣點召回,得到n個第二興趣點;n為大于1的正整數(shù);

41、過濾模塊,用于對所述n個第二興趣點進行興趣點過濾,得到m個第二興趣點;所述m個第二興趣點為所述n個第二興趣點中的部分興趣點;

42、確定模塊,用于根據(jù)所述第一興趣點與所述m個第二興趣點中每個第二興趣點之間的相似度,確定目標興趣點;所述目標興趣點用于表征所述待解析文本指向的目標地址。

43、為了解決上述技術(shù)問題,本申請實施例還提供一種計算機設(shè)備,采用了如下所述的技術(shù)方案:

44、所述計算機設(shè)備,包括存儲器和處理器,所述存儲器中存儲有計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)本申請實施例中提出的任一項所述的文本解析方法的步驟。

45、為了解決上述技術(shù)問題,本申請實施例還提供一種計算機可讀存儲介質(zhì),采用了如下所述的技術(shù)方案:

46、所述計算機可讀存儲介質(zhì)上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)本申請實施例中提出的任一項所述的文本解析方法的步驟。

47、與現(xiàn)有技術(shù)相比,本申請實施例主要有以下有益效果:

48、本申請?zhí)峁┝艘环N文本解析方法、裝置、設(shè)備和存儲介質(zhì),上述方法包括:獲取第一興趣點和待解析文本;第一興趣點用于表征預(yù)先設(shè)置的第一地址;對待解析文本進行結(jié)構(gòu)化處理,得到規(guī)范化字段;對規(guī)范化字段進行興趣點召回,得到n個第二興趣點;n為大于1的正整數(shù);對n個第二興趣點進行興趣點過濾,得到m個第二興趣點;m個第二興趣點為n個第二興趣點中的部分興趣點;根據(jù)第一興趣點與m個第二興趣點中每個第二興趣點之間的相似度,確定目標興趣點;目標興趣點用于表征待解析文本指向的目標地址。本申請實施例中,通過上述方式,確定表征待解析文本指向的目標地址的目標興趣點,以此提高對于文本解析的準確度。



技術(shù)特征:

1.一種文本解析方法,其特征在于,包括:

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,獲取待解析文本,包括:

3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對所述待解析文本進行結(jié)構(gòu)化處理,得到規(guī)范化字段,包括:

4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對所述規(guī)范化字段進行興趣點召回,得到n個第二興趣點,包括:

5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述在預(yù)設(shè)的數(shù)據(jù)庫中對目標關(guān)鍵詞進行查詢之后,所述方法還包括:

6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對所述n個第二興趣點進行興趣點過濾,得到m個第二興趣點,包括:

7.根據(jù)權(quán)利要求1-6中任一項所述的方法,其特征在于,所述根據(jù)所述第一興趣點與所述m個第二興趣點中每個第二興趣點之間的相似度,確定目標興趣點,包括:

8.一種文本解析裝置,其特征在于,包括:

9.一種計算機設(shè)備,其特征在于,包括存儲器和處理器,所述存儲器中存儲有計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如權(quán)利要求1至7中任一項所述的文本解析方法的步驟。

10.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至7中任一項所述的文本解析方法的步驟。


技術(shù)總結(jié)
本申請?zhí)峁┝艘环N文本解析方法、裝置、設(shè)備和存儲介質(zhì),上述方法包括:獲取第一興趣點和待解析文本;第一興趣點用于表征預(yù)先設(shè)置的第一地址;對待解析文本進行結(jié)構(gòu)化處理,得到規(guī)范化字段;對規(guī)范化字段進行興趣點召回,得到N個第二興趣點;N為大于1的正整數(shù);對N個第二興趣點進行興趣點過濾,得到M個第二興趣點;M個第二興趣點為N個第二興趣點中的部分興趣點;根據(jù)第一興趣點與M個第二興趣點中每個第二興趣點之間的相似度,確定目標興趣點;目標興趣點用于表征待解析文本指向的目標地址。本申請實施例中,通過上述方式,確定表征待解析文本指向的目標地址的目標興趣點,以此提高對于文本解析的準確度。

技術(shù)研發(fā)人員:韓沁軒,趙驥
受保護的技術(shù)使用者:深圳依時貨拉拉科技有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/6
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
科尔| 龙游县| 贵阳市| 象州县| 泾阳县| 抚远县| 丽水市| 屯留县| 龙门县| 来宾市| 嘉义县| 达州市| 南雄市| 石屏县| 师宗县| 江门市| 广安市| 江阴市| 霞浦县| 小金县| 屏南县| 库伦旗| 浪卡子县| 芒康县| 新安县| 讷河市| 太和县| 文化| 永济市| 张北县| 老河口市| 三亚市| 堆龙德庆县| 黄陵县| 三明市| 白朗县| 宜城市| 威海市| 德惠市| 大洼县| 福泉市|