本發(fā)明涉及知識(shí)圖譜,尤其涉及利用圖卷積網(wǎng)絡(luò)構(gòu)建化塑產(chǎn)業(yè)鏈知識(shí)圖譜的方法。
背景技術(shù):
1、知識(shí)圖譜作為一種結(jié)構(gòu)化的知識(shí)表示方法,能夠有效地描述實(shí)體之間的復(fù)雜關(guān)系和屬性特征,已經(jīng)在多個(gè)領(lǐng)域得到廣泛應(yīng)用。傳統(tǒng)的知識(shí)圖譜構(gòu)建方法主要依賴于文本挖掘、實(shí)體識(shí)別、關(guān)系抽取等技術(shù),通過對海量數(shù)據(jù)的處理和分析,形成具有語義關(guān)聯(lián)的知識(shí)網(wǎng)絡(luò)。隨著人工智能技術(shù)的發(fā)展,知識(shí)圖譜在產(chǎn)業(yè)分析、決策支持等方面展現(xiàn)出重要價(jià)值。
2、化工塑料產(chǎn)業(yè)鏈具有產(chǎn)品種類多、工藝復(fù)雜、上下游關(guān)系密切等特點(diǎn),其知識(shí)體系涉及化學(xué)品、生產(chǎn)工藝、市場交易等多個(gè)維度的信息。目前,化塑產(chǎn)業(yè)鏈知識(shí)圖譜主要應(yīng)用于產(chǎn)業(yè)鏈分析、供需匹配和風(fēng)險(xiǎn)預(yù)警等場景,但由于行業(yè)專業(yè)性強(qiáng)、數(shù)據(jù)來源分散,現(xiàn)有的知識(shí)圖譜構(gòu)建方法難以滿足化塑產(chǎn)業(yè)精細(xì)化管理的需求。
3、現(xiàn)有技術(shù)在處理化塑產(chǎn)業(yè)鏈知識(shí)圖譜時(shí)存在以下問題:首先,企業(yè)信息、產(chǎn)品技術(shù)、市場交易等多源異構(gòu)數(shù)據(jù)的整合和標(biāo)準(zhǔn)化處理效果不理想;其次,傳統(tǒng)的知識(shí)建模方法難以準(zhǔn)確表達(dá)化工領(lǐng)域的專業(yè)概念和復(fù)雜關(guān)系;最后,知識(shí)圖譜的優(yōu)化能力不足,難以及時(shí)反映產(chǎn)業(yè)鏈的動(dòng)態(tài)變化。這些技術(shù)局限嚴(yán)重影響了化塑產(chǎn)業(yè)鏈知識(shí)圖譜的實(shí)用性和可靠性。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本發(fā)明提出了利用圖卷積網(wǎng)絡(luò)構(gòu)建化塑產(chǎn)業(yè)鏈知識(shí)圖譜的方法,旨在解決現(xiàn)有技術(shù)中化塑產(chǎn)業(yè)鏈多源異構(gòu)數(shù)據(jù)處理效果不理想、專業(yè)領(lǐng)域知識(shí)表達(dá)不準(zhǔn)確以及知識(shí)圖譜更新優(yōu)化能力不足等技術(shù)問題,通過系統(tǒng)化的數(shù)據(jù)處理、知識(shí)建模和圖卷積網(wǎng)絡(luò)優(yōu)化方法,實(shí)現(xiàn)對化塑產(chǎn)業(yè)鏈知識(shí)的高效表達(dá)、自動(dòng)補(bǔ)全和錯(cuò)誤修正,從而構(gòu)建一個(gè)準(zhǔn)確、可靠且具有自動(dòng)優(yōu)化能力的化塑產(chǎn)業(yè)鏈知識(shí)圖譜。
2、本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的:本發(fā)明提供了利用圖卷積網(wǎng)絡(luò)構(gòu)建化塑產(chǎn)業(yè)鏈知識(shí)圖譜的方法,包括:
3、s1、通過數(shù)據(jù)采集系統(tǒng)獲取化塑產(chǎn)業(yè)鏈多源異構(gòu)數(shù)據(jù),形成初始數(shù)據(jù)集,多源異構(gòu)數(shù)據(jù)包括企業(yè)信息數(shù)據(jù)、產(chǎn)品技術(shù)數(shù)據(jù)和市場交易數(shù)據(jù);
4、s2、對初始數(shù)據(jù)集進(jìn)行預(yù)處理,生成標(biāo)準(zhǔn)化數(shù)據(jù)集;
5、s3、基于標(biāo)準(zhǔn)化數(shù)據(jù)集進(jìn)行知識(shí)建模,包括構(gòu)建化塑產(chǎn)業(yè)鏈本體模型、設(shè)計(jì)多維屬性體系、定義實(shí)體關(guān)系類型,并建立語義規(guī)則庫和知識(shí)推理規(guī)則集,形成領(lǐng)域知識(shí)模型;
6、s4、根據(jù)領(lǐng)域知識(shí)模型構(gòu)建初始知識(shí)圖譜,包括實(shí)體構(gòu)建、關(guān)系抽取、知識(shí)對齊與融合;
7、s5、利用圖卷積網(wǎng)絡(luò)對初始知識(shí)圖譜進(jìn)行優(yōu)化,包括構(gòu)設(shè)計(jì)圖卷積網(wǎng)絡(luò)模型、訓(xùn)練模型,通過訓(xùn)練后的模型對知識(shí)圖譜進(jìn)行自動(dòng)補(bǔ)全和糾錯(cuò),得到優(yōu)化后的化塑產(chǎn)業(yè)鏈知識(shí)圖譜。
8、在上述技術(shù)方案的基礎(chǔ)上,優(yōu)選的,步驟s2包括:
9、s21、對初始數(shù)據(jù)集進(jìn)行規(guī)范化預(yù)處理,通過設(shè)計(jì)統(tǒng)一的字段映射規(guī)則對多源異構(gòu)數(shù)據(jù)進(jìn)行格式統(tǒng)一,采用基于編輯距離的數(shù)據(jù)去重算法識(shí)別并合并重復(fù)記錄,生成統(tǒng)一格式的基礎(chǔ)數(shù)據(jù)集d1;
10、s22、對化工領(lǐng)域的專業(yè)術(shù)語、化學(xué)品名稱、工藝流程進(jìn)行系統(tǒng)性整理和分類,建立規(guī)范的化工領(lǐng)域詞典和術(shù)語體系,構(gòu)建化工專業(yè)語料庫t;
11、s23、基于化工專業(yè)語料庫t對基礎(chǔ)數(shù)據(jù)集d1進(jìn)行語義分析,利用專業(yè)詞典進(jìn)行術(shù)語識(shí)別和標(biāo)準(zhǔn)化,通過詞頻統(tǒng)計(jì)和共現(xiàn)分析提取文本的語義特征,建立文本與專業(yè)概念的映射關(guān)系,生成包含語義標(biāo)注的數(shù)據(jù)集d2;
12、s24、對數(shù)據(jù)集d2進(jìn)行結(jié)構(gòu)化轉(zhuǎn)換,基于預(yù)定義的字段模板將非結(jié)構(gòu)化文本信息映射為規(guī)范的結(jié)構(gòu)化形式,提取并保留核心語義信息,最終生成標(biāo)準(zhǔn)化數(shù)據(jù)集d3。
13、在上述技術(shù)方案的基礎(chǔ)上,優(yōu)選的,步驟s3包括:
14、s31、基于標(biāo)準(zhǔn)化數(shù)據(jù)集,采用領(lǐng)域驅(qū)動(dòng)設(shè)計(jì)方法構(gòu)建化塑產(chǎn)業(yè)鏈本體模型,通過文本挖掘技術(shù)從數(shù)據(jù)中提取核心概念,運(yùn)用層次聚類算法建立概念的分類體系,基于領(lǐng)域?qū)<抑R(shí)定義概念間的繼承和組成關(guān)系,形成具有層次結(jié)構(gòu)的本體概念模型m1;
15、s32、以本體概念模型m1為基礎(chǔ),針對化工產(chǎn)品的屬性特點(diǎn)和工藝流程的復(fù)雜性,設(shè)計(jì)屬性建模機(jī)制,建立多層次的屬性體系,將產(chǎn)品的化學(xué)性質(zhì)、物理性質(zhì)、生產(chǎn)工藝參數(shù)等進(jìn)行細(xì)粒度的描述,構(gòu)建屬性之間的關(guān)聯(lián)關(guān)系和約束條件,生成增強(qiáng)的屬性模型m2;
16、s33、結(jié)合本體概念模型m1和屬性模型m2,定義化塑產(chǎn)業(yè)鏈中的實(shí)體關(guān)系類型,包括產(chǎn)業(yè)上下游關(guān)系、供需關(guān)系、技術(shù)關(guān)聯(lián)關(guān)系,構(gòu)建關(guān)系的層次分類體系,形成完整的關(guān)系模型m3;
17、s34、基于模型m1、m2、m3,構(gòu)建語義規(guī)則庫,設(shè)計(jì)實(shí)體間的推理規(guī)則,制定實(shí)體-關(guān)系約束規(guī)則,建立屬性值的推導(dǎo)規(guī)則,最終生成包含推理能力的規(guī)則庫,從而形成完整的領(lǐng)域知識(shí)模型。
18、在上述技術(shù)方案的基礎(chǔ)上,優(yōu)選的,步驟s4包括:
19、s41、基于領(lǐng)域知識(shí)模型進(jìn)行實(shí)體構(gòu)建,采用深度學(xué)習(xí)模型識(shí)別文本中的實(shí)體及其類型,結(jié)合屬性模型m2提取實(shí)體屬性特征,建立實(shí)體索引系統(tǒng),生成規(guī)范的實(shí)體知識(shí)庫e;
20、s42、針對實(shí)體知識(shí)庫e中的實(shí)體對進(jìn)行關(guān)系抽取,基于語義相似度的關(guān)系映射算法識(shí)別實(shí)體間的關(guān)系類型,并計(jì)算關(guān)系置信度,形成關(guān)系集合r;
21、s43、對實(shí)體知識(shí)庫e和關(guān)系集合r進(jìn)行知識(shí)對齊與融合,通過計(jì)算多維相似度識(shí)別等價(jià)實(shí)體,處理知識(shí)沖突,生成統(tǒng)一的知識(shí)表示g;
22、s44、基于知識(shí)表示g構(gòu)建初始知識(shí)圖譜,將實(shí)體作為圖的節(jié)點(diǎn)并賦予屬性特征,將關(guān)系作為帶有類型和權(quán)重的有向邊,建立屬性的快速檢索機(jī)制,最終形成具有實(shí)體-關(guān)系-屬性三元組結(jié)構(gòu)的初始知識(shí)圖譜kg。
23、在上述技術(shù)方案的基礎(chǔ)上,優(yōu)選的,步驟s41中,采用改進(jìn)的bilstm-crf模型進(jìn)行實(shí)體識(shí)別與分類,包括:
24、輸入層,接收化工領(lǐng)域文本序列x={x1,x2,...,xn},通過分詞模塊進(jìn)行序列切分,并對分詞結(jié)果進(jìn)行標(biāo)準(zhǔn)化處理,生成規(guī)范化的輸入序列;
25、詞向量層,采用在化工專業(yè)語料庫上預(yù)訓(xùn)練的word2vec模型將輸入序列映射為初始詞向量,同時(shí)引入位置編碼與詞向量進(jìn)行融合,得到融合位置信息的特征序列,其中,為初始詞向量,為類別標(biāo)簽嵌入,為位置編碼,為特征序列的總維度;
26、領(lǐng)域特征提取層,針對化工領(lǐng)域?qū)I(yè)術(shù)語和符號(hào),設(shè)計(jì)化工專用的卷積神經(jīng)網(wǎng)絡(luò)chem-cnn,提取局部關(guān)鍵特征,生成領(lǐng)域增強(qiáng)的特征序列u={u1,u2,...,un};
27、bilstm層包含前向和后向兩個(gè)lstm網(wǎng)絡(luò),分別從正向和反向處理特征序列u,捕獲序列的長程依賴關(guān)系,將兩個(gè)方向的隱層狀態(tài)拼接得到融合上下文信息的特征序列h={h1,h2,...,hn};
28、注意力層,基于bilstm的輸出計(jì)算注意力得分矩陣,通過softmax歸一化得到注意力權(quán)重,對上下文特征進(jìn)行加權(quán)求和得到上下文向量,將其與原特征融合得到注意力增強(qiáng)的特征序列a={a1,a2,...,an};
29、crf層,利用轉(zhuǎn)移矩陣和發(fā)射矩陣建模標(biāo)簽序列的整體依賴關(guān)系,計(jì)算完整標(biāo)簽序列的條件概率,通過最大化路徑得分優(yōu)化序列標(biāo)注結(jié)果:
30、,
31、,
32、式中,為發(fā)射得分,表示標(biāo)簽對應(yīng)特征的適應(yīng)度;為轉(zhuǎn)移得分,表示相鄰標(biāo)簽的轉(zhuǎn)移概率;z為規(guī)范化因子;
33、輸出符合bioes標(biāo)注方案的標(biāo)簽序列y*={y1,y2,...,yn},其中yi∈{b-t,i-t,o,e-t,s-t},t為實(shí)體類型。
34、在上述技術(shù)方案的基礎(chǔ)上,優(yōu)選的,步驟s42包括:
35、構(gòu)建實(shí)體語義表示,對實(shí)體對(e1,e2),獲取其語義向量ve1,ve2∈rd,其中d為向量維度,向量通過預(yù)訓(xùn)練語言模型獲得;
36、計(jì)算實(shí)體對的語義相似度:
37、,
38、式中,為向量內(nèi)積,為向量范數(shù),輸出為實(shí)體對的語義相似度得分;
39、對于關(guān)系模型m3中定義的關(guān)系類型集合rt={r1,r2,...,rk},計(jì)算關(guān)系映射得分:
40、,
41、式中,為多維度相似度計(jì)算函數(shù),第k個(gè)維度的相似度衡量;k表示相似度衡量的維度數(shù)量;為第k個(gè)維度的相似度的權(quán)重系數(shù);為實(shí)體的類型,為實(shí)體類型對之間的關(guān)系先驗(yàn)概率;為激活函數(shù);
42、確定關(guān)系類型并計(jì)算置信度:
43、,
44、,
45、當(dāng)超過閾值時(shí),將三元組加入關(guān)系集合r。
46、在上述技術(shù)方案的基礎(chǔ)上,優(yōu)選的,步驟s5包括:
47、s51、構(gòu)建初始知識(shí)圖譜kg的節(jié)點(diǎn)-邊特征向量,通過融合實(shí)體的屬性特征、結(jié)構(gòu)特征和上下文語義特征生成節(jié)點(diǎn)表示,結(jié)合關(guān)系類型的語義嵌入和時(shí)序信息編碼生成邊表示,采用稀疏矩陣存儲(chǔ)建立圖的鄰接矩陣,獲得知識(shí)圖譜的多維特征表示;
48、s52、設(shè)計(jì)產(chǎn)業(yè)鏈感知圖卷積網(wǎng)絡(luò)結(jié)構(gòu),引入殘差連接結(jié)構(gòu),以構(gòu)建端到端的圖卷積網(wǎng)絡(luò)模型m;
49、s53、基于負(fù)采樣策略構(gòu)造訓(xùn)練樣本集,采用聯(lián)合損失函數(shù)對圖卷積網(wǎng)絡(luò)模型m進(jìn)行參數(shù)優(yōu)化,得到優(yōu)化模型m';
50、s54、利用優(yōu)化模型m'對初始知識(shí)圖譜kg進(jìn)行優(yōu)化,通過鏈接預(yù)測發(fā)現(xiàn)潛在的實(shí)體關(guān)系并計(jì)算其可信度,基于關(guān)系分類結(jié)果對現(xiàn)有的錯(cuò)誤鏈接進(jìn)行識(shí)別和修正,結(jié)合實(shí)體屬性預(yù)測補(bǔ)充缺失的屬性信息,最終生成優(yōu)化后的知識(shí)圖譜kg'。
51、在上述技術(shù)方案的基礎(chǔ)上,優(yōu)選的,步驟s52中,圖卷積網(wǎng)絡(luò)模型m包括具有產(chǎn)業(yè)鏈結(jié)構(gòu)特征的圖神經(jīng)網(wǎng)絡(luò)架構(gòu),包含多層聚合模型、關(guān)系感知機(jī)制和殘差連接結(jié)構(gòu),其中,多層聚合模型針對化塑產(chǎn)業(yè)鏈的復(fù)雜關(guān)系結(jié)構(gòu),設(shè)計(jì)產(chǎn)業(yè)鏈感知圖卷積網(wǎng)絡(luò),捕獲多跳的上下游關(guān)系;關(guān)系感知機(jī)制根據(jù)不同的實(shí)體關(guān)系類型,動(dòng)態(tài)調(diào)整消息傳遞的權(quán)重;殘差連接結(jié)構(gòu)鏈接初始節(jié)點(diǎn)表示,以防止梯度消失。
52、在上述技術(shù)方案的基礎(chǔ)上,優(yōu)選的,產(chǎn)業(yè)鏈感知圖卷積網(wǎng)絡(luò)的消息傳遞函數(shù)如下:
53、,
54、,
55、式中,為第層的節(jié)點(diǎn)表示;為激活函數(shù);r為關(guān)系類型集合;表示節(jié)點(diǎn)i在關(guān)系r下的鄰居節(jié)點(diǎn)集合;為節(jié)點(diǎn)j對節(jié)點(diǎn)i在關(guān)系r下的注意力權(quán)重;為關(guān)系r的可學(xué)習(xí)權(quán)重矩陣;為自連接的可學(xué)習(xí)權(quán)重矩陣;為第層的節(jié)點(diǎn)表示;為第層的鄰居節(jié)點(diǎn)表示;表示關(guān)系感知的評分函數(shù);k表示在計(jì)算注意力權(quán)重時(shí)用于遍歷的鄰居節(jié)點(diǎn)索引;
56、關(guān)系感知機(jī)制通過對不同類型的關(guān)系賦予不同的權(quán)重矩陣,使得模型區(qū)分不同的關(guān)系類型。
57、在上述技術(shù)方案的基礎(chǔ)上,優(yōu)選的,聯(lián)合損失函數(shù)定義為:
58、,
59、,
60、,
61、,
62、式中,為總損失函數(shù);為鏈接預(yù)測損失;為屬性補(bǔ)全損失;為錯(cuò)誤糾正損失;和為權(quán)重系數(shù),調(diào)整各任務(wù)的貢獻(xiàn)度;為正樣本集合;為負(fù)樣本集合;為實(shí)體ei和ej的特征向量;為得分函數(shù),表示實(shí)體對之間關(guān)系的預(yù)測得分;為sigmoid函數(shù);為實(shí)體的總數(shù)量;為權(quán)重系數(shù);a為屬性集合;b為屬性間的依賴關(guān)系集合;(a,b)表示屬性對;為實(shí)體ei的屬性a的真實(shí)值;為預(yù)測屬性a的函數(shù),輸入為實(shí)體特征向量,輸出為預(yù)測的屬性值;為預(yù)測屬性b的函數(shù);為錯(cuò)誤鏈接的實(shí)體對集合;為閾值,表示錯(cuò)誤鏈接的判定邊界;確保當(dāng)預(yù)測得分低于閾值時(shí)產(chǎn)生損失,鼓勵(lì)模型降低錯(cuò)誤鏈接的得分。
63、本發(fā)明相對于現(xiàn)有技術(shù)具有以下有益效果:
64、(1)本發(fā)明通過系統(tǒng)化的數(shù)據(jù)處理、知識(shí)建模和圖卷積網(wǎng)絡(luò)優(yōu)化方法,實(shí)現(xiàn)了化塑產(chǎn)業(yè)鏈多源異構(gòu)數(shù)據(jù)的高效整合和標(biāo)準(zhǔn)化處理,提高了知識(shí)圖譜構(gòu)建的自動(dòng)化程度和準(zhǔn)確性,使得知識(shí)圖譜能夠準(zhǔn)確反映化塑產(chǎn)業(yè)鏈的復(fù)雜關(guān)系結(jié)構(gòu),并具備自動(dòng)補(bǔ)全和錯(cuò)誤修正能力;
65、(2)本發(fā)明采用改進(jìn)的bilstm-crf模型進(jìn)行實(shí)體識(shí)別,通過引入化工專用的卷積神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制,提升了對化工領(lǐng)域?qū)I(yè)術(shù)語和符號(hào)的識(shí)別準(zhǔn)確率,有效解決了傳統(tǒng)實(shí)體識(shí)別模型在處理化工專業(yè)術(shù)語時(shí)的局限性;
66、(3)本發(fā)明設(shè)計(jì)的基于語義相似度的關(guān)系映射算法,通過多維度相似度計(jì)算和動(dòng)態(tài)先驗(yàn)概率調(diào)整,提高了實(shí)體關(guān)系抽取的準(zhǔn)確性,能夠有效識(shí)別和表達(dá)化塑產(chǎn)業(yè)鏈中的復(fù)雜關(guān)系類型;
67、(4)本發(fā)明提出的產(chǎn)業(yè)鏈感知圖卷積網(wǎng)絡(luò)結(jié)構(gòu),通過多層聚合模型和關(guān)系感知機(jī)制,增強(qiáng)了對產(chǎn)業(yè)鏈上下游關(guān)系的建模能力,提高了模型對長程依賴關(guān)系的捕獲能力,使得知識(shí)圖譜更準(zhǔn)確地反映產(chǎn)業(yè)鏈結(jié)構(gòu)特征;
68、(5)本發(fā)明設(shè)計(jì)的聯(lián)合損失函數(shù)優(yōu)化機(jī)制,通過同時(shí)優(yōu)化鏈接預(yù)測、屬性補(bǔ)全和錯(cuò)誤糾正三個(gè)任務(wù),提高了知識(shí)圖譜的完整性和準(zhǔn)確性,實(shí)現(xiàn)了知識(shí)圖譜的自動(dòng)優(yōu)化和維護(hù),降低了人工干預(yù)的需求。