本技術(shù)涉及知識(shí)圖譜實(shí)體識(shí)別,特別是涉及一種市場(chǎng)失信信息知識(shí)圖譜實(shí)體識(shí)別方法。
背景技術(shù):
1、知識(shí)圖譜作為一種重要的信息組織和處理工具,已被廣泛應(yīng)用于多種場(chǎng)景,包括搜索引擎優(yōu)化、智能問(wèn)答系統(tǒng)、推薦系統(tǒng)等,它能夠幫助機(jī)器更好地理解信息,提供更加精準(zhǔn)的信息服務(wù)。
2、實(shí)體識(shí)別任務(wù)作為構(gòu)建知識(shí)圖譜的基礎(chǔ)任務(wù)仍面臨諸多挑戰(zhàn):1)傳統(tǒng)的實(shí)體識(shí)別方法常常面臨詞匯損失的問(wèn)題,尤其是在處理復(fù)雜文本或多粒度數(shù)據(jù)時(shí),難以有效捕捉所有關(guān)鍵信息;2)缺乏有效的數(shù)據(jù)增強(qiáng)手段,其模型在新穎或變化的數(shù)據(jù)集上表現(xiàn)不佳,易受過(guò)擬合影響;3)許多現(xiàn)有算法依賴(lài)于梯度下降等傳統(tǒng)優(yōu)化技術(shù),這些方法在非凸優(yōu)化問(wèn)題上容易陷入局部最優(yōu),且優(yōu)化速度慢。
技術(shù)實(shí)現(xiàn)思路
1、基于此,有必要基于多粒度特征提供一種市場(chǎng)失信信息知識(shí)圖譜實(shí)體識(shí)別方法,該方法包括:
2、s1:獲取待識(shí)別的市場(chǎng)失信信息的文本數(shù)據(jù);
3、s2:將所述文本數(shù)據(jù)輸入序列拼接層進(jìn)行多粒度處理,得到不同結(jié)構(gòu)的詞匯向量,將不同結(jié)構(gòu)的詞匯向量拼接得到文本向量;
4、s3:將所述文本向量輸入至基于自適應(yīng)分形探索優(yōu)化算法的特征提取模型,輸出特征提取向量;
5、s4:將所述特征提取向量輸入至基于策略?xún)?yōu)化的條件隨機(jī)場(chǎng)模型,輸出所述文本數(shù)據(jù)中的實(shí)體及其類(lèi)別。
6、優(yōu)選的,所述將所述文本數(shù)據(jù)輸入序列拼接層進(jìn)行多粒度處理,得到不同結(jié)構(gòu)的詞匯向量包括:
7、所述序列拼接層包括b、m、e、s四種結(jié)構(gòu);
8、b結(jié)構(gòu)用于匹配所述文本數(shù)據(jù)中以字符 c i為首位的詞匯;
9、m結(jié)構(gòu)用于匹配所述文本數(shù)據(jù)中字符 c i處于中間的詞匯;
10、e結(jié)構(gòu)用于匹配所述文本數(shù)據(jù)中字符 c i處于結(jié)尾的詞匯;
11、s結(jié)構(gòu)用于表示字符 c i本身;
12、不同結(jié)構(gòu)的詞匯向量表達(dá)式包括:
13、;
14、;
15、;
16、;
17、其中,表示字符 c i匹配到b結(jié)構(gòu)的詞匯向量;表示字符 c i匹配到m結(jié)構(gòu)的詞匯向量;表示字符 c i匹配到e結(jié)構(gòu)的詞匯向量;表示字符 c i匹配到s結(jié)構(gòu)的詞匯向量; c i表示第i個(gè)字符;表示文本數(shù)據(jù)中第i個(gè)字符位于第k個(gè)字符之前的詞匯;表示文本數(shù)據(jù)中第i個(gè)字符位于第j個(gè)字符與第k個(gè)字符之間的詞匯;表示文本數(shù)據(jù)中第i個(gè)字符位于第j個(gè)字符之后的詞匯;l表示詞典;n表示文本數(shù)據(jù)序列。
18、優(yōu)選的,所述將不同結(jié)構(gòu)的詞匯向量拼接得到文本向量包括:
19、將各結(jié)構(gòu)的詞匯向量進(jìn)行歸一整合,計(jì)算公式包括:
20、;
21、;
22、其中,表示歸一整合;s表示任意一種結(jié)構(gòu);w表示任意一種結(jié)構(gòu)的詞匯向量;s表示文本數(shù)據(jù)中符合s結(jié)構(gòu)的詞匯向量;b表示文本數(shù)據(jù)中符合b結(jié)構(gòu)的詞匯向量;m表示文本數(shù)據(jù)中符合m結(jié)構(gòu)的詞匯向量;e表示文本數(shù)據(jù)中符合e結(jié)構(gòu)的詞匯向量;表示詞匯向量w的詞頻;表示詞匯向量w的詞匯嵌入矩陣;z表示四種結(jié)構(gòu)的詞匯向量中詞匯向量w的詞頻之和;
23、將歸一整合后的所有結(jié)構(gòu)的詞匯向量進(jìn)行拼接,得到文本向量,計(jì)算公式為:
24、;
25、其中,表示文本向量;表示歸一整合后的b結(jié)構(gòu)的詞匯向量;表示歸一整合后的m結(jié)構(gòu)的詞匯向量;表示歸一整合后的e結(jié)構(gòu)的詞匯向量;表示歸一整合后的s結(jié)構(gòu)的詞匯向量。
26、優(yōu)選的,還包括訓(xùn)練所述特征提取模型,訓(xùn)練過(guò)程包括:
27、步驟1:采集用于訓(xùn)練的文本數(shù)據(jù),并對(duì)其進(jìn)行預(yù)處理;
28、步驟2:將預(yù)處理得到的訓(xùn)練文本向量輸入至所述特征提取模型;
29、步驟3:選定特征提取模型的初始參數(shù)集合,并初始化搜索粒度和搜索半徑;所述初始參數(shù)集合包括神經(jīng)網(wǎng)絡(luò)的權(quán)重和偏置;
30、步驟4:根據(jù)當(dāng)前迭代的參數(shù)點(diǎn),生成一組自相似的探索點(diǎn);所有所述探索點(diǎn)圍繞當(dāng)前迭代的參數(shù)點(diǎn)基于所述搜索粒度和所述搜索半徑按照分形規(guī)則分布;
31、步驟5:計(jì)算所有探索點(diǎn)的損失函數(shù)值,基于所述損失函數(shù)值計(jì)算所有探索點(diǎn)的信息熵,并基于所述信息熵構(gòu)建搜索粒度調(diào)整函數(shù);
32、步驟6:基于所述搜索粒度調(diào)整函數(shù)動(dòng)態(tài)調(diào)整搜索粒度;
33、步驟7:選擇損失函數(shù)值最小的探索點(diǎn)作為下一迭代的參數(shù)點(diǎn),根據(jù)當(dāng)前迭代的參數(shù)點(diǎn)與下一迭代的參數(shù)點(diǎn)之間的損失動(dòng)態(tài)調(diào)整搜索半徑;
34、步驟8:重復(fù)迭代步驟4-7,直至達(dá)到最大迭代次數(shù),得到訓(xùn)練好的特征提取模型;將訓(xùn)練文本向量輸入至訓(xùn)練好的基于自適應(yīng)分形探索優(yōu)化算法的特征提取模型,輸出訓(xùn)練特征提取向量。
35、優(yōu)選的,所述預(yù)處理包括:
36、將用于訓(xùn)練的文本數(shù)據(jù)經(jīng)過(guò)序列拼接層得到訓(xùn)練用的文本向量;
37、基于拓?fù)湎嘌莼纳蓪?duì)抗網(wǎng)絡(luò)對(duì)訓(xùn)練用的文本向量進(jìn)行數(shù)據(jù)擴(kuò)充,得到訓(xùn)練文本向量。
38、優(yōu)選的,基于拓?fù)湎嘌莼纳蓪?duì)抗網(wǎng)絡(luò)的訓(xùn)練過(guò)程包括:
39、步驟1:初始化生成器和判別器的網(wǎng)絡(luò)參數(shù);
40、步驟2:根據(jù)真實(shí)數(shù)據(jù)集和當(dāng)前迭代的生成數(shù)據(jù)集調(diào)整生成器的生成策略;
41、步驟3:采用調(diào)整后的生成器從隨機(jī)噪聲中生成一批假數(shù)據(jù);
42、步驟4:將所述假數(shù)據(jù)和真實(shí)數(shù)據(jù)一同輸入至判別器,得到判別結(jié)果;
43、步驟5:根據(jù)所述判別結(jié)果計(jì)算判別損失,基于所述判別損失更新判別器參數(shù);
44、步驟6:固定更新的判別器,計(jì)算生成損失,并基于所述生成損失更新生成器參數(shù);
45、步驟7:基于所述判別損失和生成損失自適應(yīng)調(diào)整對(duì)應(yīng)的訓(xùn)練頻率;
46、步驟8:重復(fù)迭代執(zhí)行步驟2-7,直至達(dá)到最大迭代次數(shù),得到訓(xùn)練好的生成對(duì)抗網(wǎng)絡(luò);將訓(xùn)練用的文本向量輸入至訓(xùn)練好的基于拓?fù)湎嘌莼纳蓪?duì)抗網(wǎng)絡(luò),得到所述訓(xùn)練文本向量。
47、優(yōu)選的,基于策略?xún)?yōu)化的條件隨機(jī)場(chǎng)模型的訓(xùn)練過(guò)程包括:
48、步驟1:將所述訓(xùn)練特征提取向量輸入至條件隨機(jī)場(chǎng)模型,并初始化條件隨機(jī)場(chǎng)模型中的特征提取層;
49、步驟2:初始化條件隨機(jī)場(chǎng)模型的參數(shù),所述參數(shù)包括狀態(tài)轉(zhuǎn)移概率和特征函數(shù)權(quán)重;
50、步驟:3:所述特征提取層基于其中的特征提取權(quán)重和特征提取偏置,并采用sigmoid激活函數(shù)對(duì)訓(xùn)練特征提取向量進(jìn)行特征提取,得到高級(jí)特征表示;
51、步驟4:基于條件隨機(jī)場(chǎng)模型預(yù)測(cè)的標(biāo)簽與用于訓(xùn)練的文本數(shù)據(jù)的真實(shí)標(biāo)簽,構(gòu)建獎(jiǎng)勵(lì)函數(shù);所述真實(shí)標(biāo)簽為實(shí)體類(lèi)別;
52、步驟5:基于所述獎(jiǎng)勵(lì)函數(shù)更新所述狀態(tài)轉(zhuǎn)移概率和特征函數(shù)權(quán)重;
53、步驟6:重復(fù)迭代步驟3-5,直至達(dá)到最大迭代次數(shù),得到訓(xùn)練好的條件隨機(jī)場(chǎng)模型;將所述特征提取向量輸入至訓(xùn)練好的基于策略?xún)?yōu)化的條件隨機(jī)場(chǎng)模型,輸出所述文本數(shù)據(jù)中的實(shí)體及其類(lèi)別。
54、優(yōu)選的,所述最大迭代次數(shù)設(shè)置為1000次。
55、優(yōu)選的,所述基于自適應(yīng)分形探索優(yōu)化算法的特征提取模型包括三層全連接神經(jīng)網(wǎng)絡(luò)。
56、優(yōu)選的,用于訓(xùn)練的文本數(shù)據(jù)的采集來(lái)源包括公開(kāi)的知識(shí)庫(kù)、專(zhuān)業(yè)網(wǎng)站;用于訓(xùn)練的文本數(shù)據(jù)存儲(chǔ)為json格式。
57、有益效果:該方法能夠更準(zhǔn)確地識(shí)別出文本中的細(xì)微實(shí)體,顯著提高了實(shí)體識(shí)別的準(zhǔn)確性。