本發(fā)明涉及人工智能及金融科技領域,尤其涉及一種對象名稱標準化處理方法、裝置、設備及介質(zhì)。
背景技術:
1、名稱標準化是指將不同形式的名稱統(tǒng)一為標準格式的過程,常見的名稱標準化應用有:物流行業(yè)的地址標準化、制造行業(yè)的設備名稱標準化、電商行業(yè)的商品名稱標準化、搜索引擎的搜索詞標準化。
2、同樣地,債券名稱標準化就是指將債券的不同名稱通過技術手段統(tǒng)一成一種名稱,實現(xiàn)債券文檔信息的規(guī)整、統(tǒng)一。統(tǒng)一的名稱將便于管理和分析,提高生產(chǎn)效率。
3、債券名稱標準化主要用在兩個地方:第一個是業(yè)務手工臺賬的標準化,比如債券主承或參團商在債銷過程中形成的臺賬,不同銷售人員在記錄時難免出現(xiàn)標準不一的情況,如果團隊想要復盤分析,則需要一個一個地將名稱手工對應到標準名稱,這個工作消耗大量的人力和時間。第二個是債券相關信息系統(tǒng)的檢索標準化,比如用戶想搜索“上海浦東發(fā)展銀行2023年第016期同業(yè)存單”時,如果輸入“浦發(fā)銀行...”則無法有效得找到相應的存單。
4、當前債券名稱標準化主要有兩個方法來進行實現(xiàn),第一種是詞典匹配法,通過構建詞典,將非標準化名稱與標準化名稱進行匹配,缺點是需要維護一個較大的詞典庫,且詞典庫難以覆蓋全部可能的情況。第二種是規(guī)則匹配法,通過構建規(guī)則,將非標準化名稱轉(zhuǎn)換為標準化名稱,比如模糊匹配規(guī)則,缺點是需要總結大量的規(guī)則,且規(guī)則難以覆蓋全部可能的情況。
技術實現(xiàn)思路
1、本發(fā)明提供一種對象名稱標準化處理方法、裝置、計算機設備及介質(zhì),以解決對象名稱搜索的復雜性、不準確性、效率低的技術問題。
2、第一方面,提供了一種對象名稱標準化處理方法,包括:
3、獲取需要訓練的語料,所述語料包括多個任意名稱、對應的多個標準名稱、及還包括多個所述任意名稱與多個所述標準名稱是否一致信息;
4、通過預訓練模型對獲取的語料進行訓練,獲取所述語料的任意名稱與其對應的標準名稱一致性相關聯(lián)的語義相似度模型;
5、通過所述語義相似度模型對新的語料的任意名稱和標準名稱是否一致進行判斷。
6、第二方面,提供了一種對象名稱標準化處理裝置,包括:
7、獲取模塊,用于獲取需要訓練的語料,所述語料包括多個任意名稱、對應的多個標準名稱、及多個所述任意名稱與多個所述標準名稱是否一致信息;
8、訓練模塊,用于通過預訓練模型對獲取的語料進行訓練,獲取所述語料的任意名稱與其對應的標準名稱一致性相關聯(lián)的語義相似度模型;
9、判斷模塊,用于通過所述語義相似度模型對新的語料的任意名稱和標準名稱是否一致進行判斷。
10、第三方面,提供了一種計算機設備,包括存儲器、處理器以及存儲在存儲器中并可在處理器上運行的計算機程序,處理器執(zhí)行計算機程序時實現(xiàn)上述對象名稱標準化處理方法的步驟。
11、第四方面,提供了一種計算機可讀存儲介質(zhì),計算機可讀存儲介質(zhì)存儲有計算機程序,計算機程序被處理器執(zhí)行時實現(xiàn)上述對象名稱標準化處理方法的步驟。
12、上述對象名稱標準化處理方法、裝置、計算機設備及存儲介質(zhì)所實現(xiàn)的方案中,通過獲取需要訓練的語料,所述語料包括多個任意名稱、對應的多個標準名稱、還包括多個所述任意名稱與多個所述標準名稱是否一致的信息;再通過預訓練模型對獲取的語料進行訓練,獲取所述語料的任意名稱與其對應的標準名稱一致性相關聯(lián)的語義相似度模型;最后可通過所述語義相似度模型對新的語料的任意名稱和標準名稱是否一致性進行判斷。將本發(fā)明應用在債券名稱領域,將極大地提升債券名稱搜索的便利性,提升工作效率。用戶不必刻意遵循債券的標準名稱搜索,只需要按想法大致輸入一些信息即可較精準地命中目標債券名稱。
1.一種對象名稱標準化處理方法,其特征在于,包括:
2.如權利要求1所述的對象名稱標準化處理方法,其特征在于:獲取需要訓練的語料包括:
3.如權利要求2所述的對象名稱標準化處理方法,其特征在于:所述統(tǒng)一所有語料的輸入格式包括:
4.如權利要求1所述的對象名稱標準化處理方法,其特征在于:所述通過預訓練模型對獲取的語料進行訓練,獲取所述語料的任意名稱與其對應的標準名稱一致性相關聯(lián)的語義相似度模型包括:
5.如權利要求4所述的對象名稱標準化處理方法,其特征在于:所述將每個字符的多維向量通過線性分類器處理后得到向量包括:
6.如權利要求4所述的對象名稱標準化處理方法,其特征在于:所述將獲得的是否一致的概率與實際是否一致的標簽y作為輸入,獲取交叉熵損失函數(shù)模型后還包括采用梯度下降法對模型進行權重參數(shù)優(yōu)化,具體包括:
7.如權利要求1所述的對象名稱標準化處理方法,其特征在于:所述通過訓練模型對獲取的語料進行訓練,獲取所述語料的任意名稱與其對應的標準名稱一致性相關聯(lián)的語義相似度模型之后還需要對所述相似度模型進行模型測試,具體包括:
8.一種對象名稱標準化處理裝置,其特征在于,包括:
9.一種計算機設備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如權利要求1至7任一項所述對象名稱標準化處理方法的步驟。
10.一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權利要求1至7任一項所述對象名稱標準化處理方法的步驟。