两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種市場(chǎng)失信信息知識(shí)圖譜實(shí)體識(shí)別方法

文檔序號(hào):40632930發(fā)布日期:2025-01-10 18:38閱讀:2來(lái)源:國(guó)知局
一種市場(chǎng)失信信息知識(shí)圖譜實(shí)體識(shí)別方法

本技術(shù)涉及知識(shí)圖譜實(shí)體識(shí)別,特別是涉及一種市場(chǎng)失信信息知識(shí)圖譜實(shí)體識(shí)別方法。


背景技術(shù):

1、知識(shí)圖譜作為一種重要的信息組織和處理工具,已被廣泛應(yīng)用于多種場(chǎng)景,包括搜索引擎優(yōu)化、智能問(wèn)答系統(tǒng)、推薦系統(tǒng)等,它能夠幫助機(jī)器更好地理解信息,提供更加精準(zhǔn)的信息服務(wù)。

2、實(shí)體識(shí)別任務(wù)作為構(gòu)建知識(shí)圖譜的基礎(chǔ)任務(wù)仍面臨諸多挑戰(zhàn):1)傳統(tǒng)的實(shí)體識(shí)別方法常常面臨詞匯損失的問(wèn)題,尤其是在處理復(fù)雜文本或多粒度數(shù)據(jù)時(shí),難以有效捕捉所有關(guān)鍵信息;2)缺乏有效的數(shù)據(jù)增強(qiáng)手段,其模型在新穎或變化的數(shù)據(jù)集上表現(xiàn)不佳,易受過(guò)擬合影響;3)許多現(xiàn)有算法依賴(lài)于梯度下降等傳統(tǒng)優(yōu)化技術(shù),這些方法在非凸優(yōu)化問(wèn)題上容易陷入局部最優(yōu),且優(yōu)化速度慢。


技術(shù)實(shí)現(xiàn)思路

1、基于此,有必要基于多粒度特征提供一種市場(chǎng)失信信息知識(shí)圖譜實(shí)體識(shí)別方法,該方法包括:

2、s1:獲取待識(shí)別的市場(chǎng)失信信息的文本數(shù)據(jù);

3、s2:將所述文本數(shù)據(jù)輸入序列拼接層進(jìn)行多粒度處理,得到不同結(jié)構(gòu)的詞匯向量,將不同結(jié)構(gòu)的詞匯向量拼接得到文本向量;

4、s3:將所述文本向量輸入至基于自適應(yīng)分形探索優(yōu)化算法的特征提取模型,輸出特征提取向量;

5、s4:將所述特征提取向量輸入至基于策略?xún)?yōu)化的條件隨機(jī)場(chǎng)模型,輸出所述文本數(shù)據(jù)中的實(shí)體及其類(lèi)別。

6、優(yōu)選的,所述將所述文本數(shù)據(jù)輸入序列拼接層進(jìn)行多粒度處理,得到不同結(jié)構(gòu)的詞匯向量包括:

7、所述序列拼接層包括b、m、e、s四種結(jié)構(gòu);

8、b結(jié)構(gòu)用于匹配所述文本數(shù)據(jù)中以字符 c i為首位的詞匯;

9、m結(jié)構(gòu)用于匹配所述文本數(shù)據(jù)中字符 c i處于中間的詞匯;

10、e結(jié)構(gòu)用于匹配所述文本數(shù)據(jù)中字符 c i處于結(jié)尾的詞匯;

11、s結(jié)構(gòu)用于表示字符 c i本身;

12、不同結(jié)構(gòu)的詞匯向量表達(dá)式包括:

13、;

14、;

15、;

16、;

17、其中,表示字符 c i匹配到b結(jié)構(gòu)的詞匯向量;表示字符 c i匹配到m結(jié)構(gòu)的詞匯向量;表示字符 c i匹配到e結(jié)構(gòu)的詞匯向量;表示字符 c i匹配到s結(jié)構(gòu)的詞匯向量; c i表示第i個(gè)字符;表示文本數(shù)據(jù)中第i個(gè)字符位于第k個(gè)字符之前的詞匯;表示文本數(shù)據(jù)中第i個(gè)字符位于第j個(gè)字符與第k個(gè)字符之間的詞匯;表示文本數(shù)據(jù)中第i個(gè)字符位于第j個(gè)字符之后的詞匯;l表示詞典;n表示文本數(shù)據(jù)序列。

18、優(yōu)選的,所述將不同結(jié)構(gòu)的詞匯向量拼接得到文本向量包括:

19、將各結(jié)構(gòu)的詞匯向量進(jìn)行歸一整合,計(jì)算公式包括:

20、;

21、;

22、其中,表示歸一整合;s表示任意一種結(jié)構(gòu);w表示任意一種結(jié)構(gòu)的詞匯向量;s表示文本數(shù)據(jù)中符合s結(jié)構(gòu)的詞匯向量;b表示文本數(shù)據(jù)中符合b結(jié)構(gòu)的詞匯向量;m表示文本數(shù)據(jù)中符合m結(jié)構(gòu)的詞匯向量;e表示文本數(shù)據(jù)中符合e結(jié)構(gòu)的詞匯向量;表示詞匯向量w的詞頻;表示詞匯向量w的詞匯嵌入矩陣;z表示四種結(jié)構(gòu)的詞匯向量中詞匯向量w的詞頻之和;

23、將歸一整合后的所有結(jié)構(gòu)的詞匯向量進(jìn)行拼接,得到文本向量,計(jì)算公式為:

24、;

25、其中,表示文本向量;表示歸一整合后的b結(jié)構(gòu)的詞匯向量;表示歸一整合后的m結(jié)構(gòu)的詞匯向量;表示歸一整合后的e結(jié)構(gòu)的詞匯向量;表示歸一整合后的s結(jié)構(gòu)的詞匯向量。

26、優(yōu)選的,還包括訓(xùn)練所述特征提取模型,訓(xùn)練過(guò)程包括:

27、步驟1:采集用于訓(xùn)練的文本數(shù)據(jù),并對(duì)其進(jìn)行預(yù)處理;

28、步驟2:將預(yù)處理得到的訓(xùn)練文本向量輸入至所述特征提取模型;

29、步驟3:選定特征提取模型的初始參數(shù)集合,并初始化搜索粒度和搜索半徑;所述初始參數(shù)集合包括神經(jīng)網(wǎng)絡(luò)的權(quán)重和偏置;

30、步驟4:根據(jù)當(dāng)前迭代的參數(shù)點(diǎn),生成一組自相似的探索點(diǎn);所有所述探索點(diǎn)圍繞當(dāng)前迭代的參數(shù)點(diǎn)基于所述搜索粒度和所述搜索半徑按照分形規(guī)則分布;

31、步驟5:計(jì)算所有探索點(diǎn)的損失函數(shù)值,基于所述損失函數(shù)值計(jì)算所有探索點(diǎn)的信息熵,并基于所述信息熵構(gòu)建搜索粒度調(diào)整函數(shù);

32、步驟6:基于所述搜索粒度調(diào)整函數(shù)動(dòng)態(tài)調(diào)整搜索粒度;

33、步驟7:選擇損失函數(shù)值最小的探索點(diǎn)作為下一迭代的參數(shù)點(diǎn),根據(jù)當(dāng)前迭代的參數(shù)點(diǎn)與下一迭代的參數(shù)點(diǎn)之間的損失動(dòng)態(tài)調(diào)整搜索半徑;

34、步驟8:重復(fù)迭代步驟4-7,直至達(dá)到最大迭代次數(shù),得到訓(xùn)練好的特征提取模型;將訓(xùn)練文本向量輸入至訓(xùn)練好的基于自適應(yīng)分形探索優(yōu)化算法的特征提取模型,輸出訓(xùn)練特征提取向量。

35、優(yōu)選的,所述預(yù)處理包括:

36、將用于訓(xùn)練的文本數(shù)據(jù)經(jīng)過(guò)序列拼接層得到訓(xùn)練用的文本向量;

37、基于拓?fù)湎嘌莼纳蓪?duì)抗網(wǎng)絡(luò)對(duì)訓(xùn)練用的文本向量進(jìn)行數(shù)據(jù)擴(kuò)充,得到訓(xùn)練文本向量。

38、優(yōu)選的,基于拓?fù)湎嘌莼纳蓪?duì)抗網(wǎng)絡(luò)的訓(xùn)練過(guò)程包括:

39、步驟1:初始化生成器和判別器的網(wǎng)絡(luò)參數(shù);

40、步驟2:根據(jù)真實(shí)數(shù)據(jù)集和當(dāng)前迭代的生成數(shù)據(jù)集調(diào)整生成器的生成策略;

41、步驟3:采用調(diào)整后的生成器從隨機(jī)噪聲中生成一批假數(shù)據(jù);

42、步驟4:將所述假數(shù)據(jù)和真實(shí)數(shù)據(jù)一同輸入至判別器,得到判別結(jié)果;

43、步驟5:根據(jù)所述判別結(jié)果計(jì)算判別損失,基于所述判別損失更新判別器參數(shù);

44、步驟6:固定更新的判別器,計(jì)算生成損失,并基于所述生成損失更新生成器參數(shù);

45、步驟7:基于所述判別損失和生成損失自適應(yīng)調(diào)整對(duì)應(yīng)的訓(xùn)練頻率;

46、步驟8:重復(fù)迭代執(zhí)行步驟2-7,直至達(dá)到最大迭代次數(shù),得到訓(xùn)練好的生成對(duì)抗網(wǎng)絡(luò);將訓(xùn)練用的文本向量輸入至訓(xùn)練好的基于拓?fù)湎嘌莼纳蓪?duì)抗網(wǎng)絡(luò),得到所述訓(xùn)練文本向量。

47、優(yōu)選的,基于策略?xún)?yōu)化的條件隨機(jī)場(chǎng)模型的訓(xùn)練過(guò)程包括:

48、步驟1:將所述訓(xùn)練特征提取向量輸入至條件隨機(jī)場(chǎng)模型,并初始化條件隨機(jī)場(chǎng)模型中的特征提取層;

49、步驟2:初始化條件隨機(jī)場(chǎng)模型的參數(shù),所述參數(shù)包括狀態(tài)轉(zhuǎn)移概率和特征函數(shù)權(quán)重;

50、步驟:3:所述特征提取層基于其中的特征提取權(quán)重和特征提取偏置,并采用sigmoid激活函數(shù)對(duì)訓(xùn)練特征提取向量進(jìn)行特征提取,得到高級(jí)特征表示;

51、步驟4:基于條件隨機(jī)場(chǎng)模型預(yù)測(cè)的標(biāo)簽與用于訓(xùn)練的文本數(shù)據(jù)的真實(shí)標(biāo)簽,構(gòu)建獎(jiǎng)勵(lì)函數(shù);所述真實(shí)標(biāo)簽為實(shí)體類(lèi)別;

52、步驟5:基于所述獎(jiǎng)勵(lì)函數(shù)更新所述狀態(tài)轉(zhuǎn)移概率和特征函數(shù)權(quán)重;

53、步驟6:重復(fù)迭代步驟3-5,直至達(dá)到最大迭代次數(shù),得到訓(xùn)練好的條件隨機(jī)場(chǎng)模型;將所述特征提取向量輸入至訓(xùn)練好的基于策略?xún)?yōu)化的條件隨機(jī)場(chǎng)模型,輸出所述文本數(shù)據(jù)中的實(shí)體及其類(lèi)別。

54、優(yōu)選的,所述最大迭代次數(shù)設(shè)置為1000次。

55、優(yōu)選的,所述基于自適應(yīng)分形探索優(yōu)化算法的特征提取模型包括三層全連接神經(jīng)網(wǎng)絡(luò)。

56、優(yōu)選的,用于訓(xùn)練的文本數(shù)據(jù)的采集來(lái)源包括公開(kāi)的知識(shí)庫(kù)、專(zhuān)業(yè)網(wǎng)站;用于訓(xùn)練的文本數(shù)據(jù)存儲(chǔ)為json格式。

57、有益效果:該方法能夠更準(zhǔn)確地識(shí)別出文本中的細(xì)微實(shí)體,顯著提高了實(shí)體識(shí)別的準(zhǔn)確性。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
昌乐县| 新泰市| 自贡市| 龙岩市| 博兴县| 平阴县| 宁阳县| 出国| 宝兴县| 恩施市| 称多县| 宣威市| 漳平市| 霍城县| 双柏县| 凤阳县| 巴中市| 邢台县| 桃江县| 惠安县| 伽师县| 邹城市| 重庆市| 西安市| 邯郸县| 从江县| 建平县| 曲靖市| 西盟| 漳浦县| 汉沽区| 乐平市| 察哈| 安塞县| 信丰县| 沁源县| 乐陵市| 顺义区| 陇南市| 浦江县| 五家渠市|