一種市場(chǎng)失信信息知識(shí)圖譜實(shí)體識(shí)別方法

文檔序號(hào)：40632930發(fā)布日期：2025-01-10 18:38閱讀：2來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本技術(shù)涉及知識(shí)圖譜實(shí)體識(shí)別，特別是涉及一種市場(chǎng)失信信息知識(shí)圖譜實(shí)體識(shí)別方法。

背景技術(shù)：

1、知識(shí)圖譜作為一種重要的信息組織和處理工具，已被廣泛應(yīng)用于多種場(chǎng)景，包括搜索引擎優(yōu)化、智能問(wèn)答系統(tǒng)、推薦系統(tǒng)等，它能夠幫助機(jī)器更好地理解信息，提供更加精準(zhǔn)的信息服務(wù)。

2、實(shí)體識(shí)別任務(wù)作為構(gòu)建知識(shí)圖譜的基礎(chǔ)任務(wù)仍面臨諸多挑戰(zhàn)：1）傳統(tǒng)的實(shí)體識(shí)別方法常常面臨詞匯損失的問(wèn)題，尤其是在處理復(fù)雜文本或多粒度數(shù)據(jù)時(shí)，難以有效捕捉所有關(guān)鍵信息；2）缺乏有效的數(shù)據(jù)增強(qiáng)手段，其模型在新穎或變化的數(shù)據(jù)集上表現(xiàn)不佳，易受過(guò)擬合影響；3）許多現(xiàn)有算法依賴(lài)于梯度下降等傳統(tǒng)優(yōu)化技術(shù)，這些方法在非凸優(yōu)化問(wèn)題上容易陷入局部最優(yōu)，且優(yōu)化速度慢。

技術(shù)實(shí)現(xiàn)思路

1、基于此，有必要基于多粒度特征提供一種市場(chǎng)失信信息知識(shí)圖譜實(shí)體識(shí)別方法，該方法包括：

2、s1：獲取待識(shí)別的市場(chǎng)失信信息的文本數(shù)據(jù)；

3、s2：將所述文本數(shù)據(jù)輸入序列拼接層進(jìn)行多粒度處理，得到不同結(jié)構(gòu)的詞匯向量，將不同結(jié)構(gòu)的詞匯向量拼接得到文本向量；

4、s3：將所述文本向量輸入至基于自適應(yīng)分形探索優(yōu)化算法的特征提取模型，輸出特征提取向量；

5、s4：將所述特征提取向量輸入至基于策略?xún)?yōu)化的條件隨機(jī)場(chǎng)模型，輸出所述文本數(shù)據(jù)中的實(shí)體及其類(lèi)別。

6、優(yōu)選的，所述將所述文本數(shù)據(jù)輸入序列拼接層進(jìn)行多粒度處理，得到不同結(jié)構(gòu)的詞匯向量包括：

7、所述序列拼接層包括b、m、e、s四種結(jié)構(gòu)；

8、b結(jié)構(gòu)用于匹配所述文本數(shù)據(jù)中以字符 c i為首位的詞匯；

9、m結(jié)構(gòu)用于匹配所述文本數(shù)據(jù)中字符 c i處于中間的詞匯；

10、e結(jié)構(gòu)用于匹配所述文本數(shù)據(jù)中字符 c i處于結(jié)尾的詞匯；

11、s結(jié)構(gòu)用于表示字符 c i本身；

12、不同結(jié)構(gòu)的詞匯向量表達(dá)式包括：

13、；

14、；

15、；

16、；

17、其中，表示字符 c i匹配到b結(jié)構(gòu)的詞匯向量；表示字符 c i匹配到m結(jié)構(gòu)的詞匯向量；表示字符 c i匹配到e結(jié)構(gòu)的詞匯向量；表示字符 c i匹配到s結(jié)構(gòu)的詞匯向量； c i表示第i個(gè)字符；表示文本數(shù)據(jù)中第i個(gè)字符位于第k個(gè)字符之前的詞匯；表示文本數(shù)據(jù)中第i個(gè)字符位于第j個(gè)字符與第k個(gè)字符之間的詞匯；表示文本數(shù)據(jù)中第i個(gè)字符位于第j個(gè)字符之后的詞匯；l表示詞典；n表示文本數(shù)據(jù)序列。

18、優(yōu)選的，所述將不同結(jié)構(gòu)的詞匯向量拼接得到文本向量包括：

19、將各結(jié)構(gòu)的詞匯向量進(jìn)行歸一整合，計(jì)算公式包括：

20、；

21、；

22、其中，表示歸一整合；s表示任意一種結(jié)構(gòu)；w表示任意一種結(jié)構(gòu)的詞匯向量；s表示文本數(shù)據(jù)中符合s結(jié)構(gòu)的詞匯向量；b表示文本數(shù)據(jù)中符合b結(jié)構(gòu)的詞匯向量；m表示文本數(shù)據(jù)中符合m結(jié)構(gòu)的詞匯向量；e表示文本數(shù)據(jù)中符合e結(jié)構(gòu)的詞匯向量；表示詞匯向量w的詞頻；表示詞匯向量w的詞匯嵌入矩陣；z表示四種結(jié)構(gòu)的詞匯向量中詞匯向量w的詞頻之和；

23、將歸一整合后的所有結(jié)構(gòu)的詞匯向量進(jìn)行拼接，得到文本向量，計(jì)算公式為：

24、；

25、其中，表示文本向量；表示歸一整合后的b結(jié)構(gòu)的詞匯向量；表示歸一整合后的m結(jié)構(gòu)的詞匯向量；表示歸一整合后的e結(jié)構(gòu)的詞匯向量；表示歸一整合后的s結(jié)構(gòu)的詞匯向量。

26、優(yōu)選的，還包括訓(xùn)練所述特征提取模型，訓(xùn)練過(guò)程包括：

27、步驟1：采集用于訓(xùn)練的文本數(shù)據(jù)，并對(duì)其進(jìn)行預(yù)處理；

28、步驟2：將預(yù)處理得到的訓(xùn)練文本向量輸入至所述特征提取模型；

29、步驟3：選定特征提取模型的初始參數(shù)集合，并初始化搜索粒度和搜索半徑；所述初始參數(shù)集合包括神經(jīng)網(wǎng)絡(luò)的權(quán)重和偏置；

30、步驟4：根據(jù)當(dāng)前迭代的參數(shù)點(diǎn)，生成一組自相似的探索點(diǎn)；所有所述探索點(diǎn)圍繞當(dāng)前迭代的參數(shù)點(diǎn)基于所述搜索粒度和所述搜索半徑按照分形規(guī)則分布；

31、步驟5：計(jì)算所有探索點(diǎn)的損失函數(shù)值，基于所述損失函數(shù)值計(jì)算所有探索點(diǎn)的信息熵，并基于所述信息熵構(gòu)建搜索粒度調(diào)整函數(shù)；

32、步驟6：基于所述搜索粒度調(diào)整函數(shù)動(dòng)態(tài)調(diào)整搜索粒度；

33、步驟7：選擇損失函數(shù)值最小的探索點(diǎn)作為下一迭代的參數(shù)點(diǎn)，根據(jù)當(dāng)前迭代的參數(shù)點(diǎn)與下一迭代的參數(shù)點(diǎn)之間的損失動(dòng)態(tài)調(diào)整搜索半徑；

34、步驟8：重復(fù)迭代步驟4-7，直至達(dá)到最大迭代次數(shù)，得到訓(xùn)練好的特征提取模型；將訓(xùn)練文本向量輸入至訓(xùn)練好的基于自適應(yīng)分形探索優(yōu)化算法的特征提取模型，輸出訓(xùn)練特征提取向量。

35、優(yōu)選的，所述預(yù)處理包括：

36、將用于訓(xùn)練的文本數(shù)據(jù)經(jīng)過(guò)序列拼接層得到訓(xùn)練用的文本向量；

37、基于拓?fù)湎嘌莼纳蓪?duì)抗網(wǎng)絡(luò)對(duì)訓(xùn)練用的文本向量進(jìn)行數(shù)據(jù)擴(kuò)充，得到訓(xùn)練文本向量。

38、優(yōu)選的，基于拓?fù)湎嘌莼纳蓪?duì)抗網(wǎng)絡(luò)的訓(xùn)練過(guò)程包括：

39、步驟1：初始化生成器和判別器的網(wǎng)絡(luò)參數(shù)；

40、步驟2：根據(jù)真實(shí)數(shù)據(jù)集和當(dāng)前迭代的生成數(shù)據(jù)集調(diào)整生成器的生成策略；

41、步驟3：采用調(diào)整后的生成器從隨機(jī)噪聲中生成一批假數(shù)據(jù)；

42、步驟4：將所述假數(shù)據(jù)和真實(shí)數(shù)據(jù)一同輸入至判別器，得到判別結(jié)果；

43、步驟5：根據(jù)所述判別結(jié)果計(jì)算判別損失，基于所述判別損失更新判別器參數(shù)；

44、步驟6：固定更新的判別器，計(jì)算生成損失，并基于所述生成損失更新生成器參數(shù)；

45、步驟7：基于所述判別損失和生成損失自適應(yīng)調(diào)整對(duì)應(yīng)的訓(xùn)練頻率；

46、步驟8：重復(fù)迭代執(zhí)行步驟2-7，直至達(dá)到最大迭代次數(shù)，得到訓(xùn)練好的生成對(duì)抗網(wǎng)絡(luò)；將訓(xùn)練用的文本向量輸入至訓(xùn)練好的基于拓?fù)湎嘌莼纳蓪?duì)抗網(wǎng)絡(luò)，得到所述訓(xùn)練文本向量。

47、優(yōu)選的，基于策略?xún)?yōu)化的條件隨機(jī)場(chǎng)模型的訓(xùn)練過(guò)程包括：

48、步驟1：將所述訓(xùn)練特征提取向量輸入至條件隨機(jī)場(chǎng)模型，并初始化條件隨機(jī)場(chǎng)模型中的特征提取層；

49、步驟2：初始化條件隨機(jī)場(chǎng)模型的參數(shù)，所述參數(shù)包括狀態(tài)轉(zhuǎn)移概率和特征函數(shù)權(quán)重；

50、步驟:3：所述特征提取層基于其中的特征提取權(quán)重和特征提取偏置，并采用sigmoid激活函數(shù)對(duì)訓(xùn)練特征提取向量進(jìn)行特征提取，得到高級(jí)特征表示；

51、步驟4：基于條件隨機(jī)場(chǎng)模型預(yù)測(cè)的標(biāo)簽與用于訓(xùn)練的文本數(shù)據(jù)的真實(shí)標(biāo)簽，構(gòu)建獎(jiǎng)勵(lì)函數(shù)；所述真實(shí)標(biāo)簽為實(shí)體類(lèi)別；

52、步驟5：基于所述獎(jiǎng)勵(lì)函數(shù)更新所述狀態(tài)轉(zhuǎn)移概率和特征函數(shù)權(quán)重；

53、步驟6：重復(fù)迭代步驟3-5，直至達(dá)到最大迭代次數(shù)，得到訓(xùn)練好的條件隨機(jī)場(chǎng)模型；將所述特征提取向量輸入至訓(xùn)練好的基于策略?xún)?yōu)化的條件隨機(jī)場(chǎng)模型，輸出所述文本數(shù)據(jù)中的實(shí)體及其類(lèi)別。

54、優(yōu)選的，所述最大迭代次數(shù)設(shè)置為1000次。

55、優(yōu)選的，所述基于自適應(yīng)分形探索優(yōu)化算法的特征提取模型包括三層全連接神經(jīng)網(wǎng)絡(luò)。

56、優(yōu)選的，用于訓(xùn)練的文本數(shù)據(jù)的采集來(lái)源包括公開(kāi)的知識(shí)庫(kù)、專(zhuān)業(yè)網(wǎng)站；用于訓(xùn)練的文本數(shù)據(jù)存儲(chǔ)為json格式。

57、有益效果：該方法能夠更準(zhǔn)確地識(shí)別出文本中的細(xì)微實(shí)體，顯著提高了實(shí)體識(shí)別的準(zhǔn)確性。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：任劍,曾天翔
技術(shù)所有人：湖南工商大學(xué)
我是此專(zhuān)利的發(fā)明人

上一篇：采用LED光源研制新型一體化式尾航行燈的制作方法
上一篇：一種變壓器彎腳裝置的制作方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種市場(chǎng)失信信息知識(shí)圖譜實(shí)體識(shí)別方法