本申請涉及數(shù)據(jù)處理,更具體地,涉及一種基于知識圖譜的大模型回答準(zhǔn)確度增強(qiáng)方法及系統(tǒng)。
背景技術(shù):
1、知識圖譜(knowledge?graph,kg)是知識域可視化或知識領(lǐng)域映射地圖,是顯示知識發(fā)展進(jìn)程與結(jié)構(gòu)關(guān)系的一系列各種不同的圖形,用可視化技術(shù)描述知識資源及其載體,挖掘、分析、構(gòu)建、繪制和顯示知識及它們之間的相互聯(lián)系,把復(fù)雜的知識領(lǐng)域通過數(shù)據(jù)挖掘、信息處理、知識計(jì)量和圖形繪制而顯示出來,隨著人工智能技術(shù)發(fā)展,目前在高維度知識管理領(lǐng)域具有廣泛的應(yīng)用前景。
2、現(xiàn)有的技術(shù)雖然能夠生成高質(zhì)量的語言模型,但由于語言的復(fù)雜性和多樣性,現(xiàn)有的大模型往往無法準(zhǔn)確地理解用戶的意圖,導(dǎo)致檢索結(jié)果的相關(guān)性不高。并且由于其基于自回歸生成方式,大語言模型往往受到上下文信息有限和長距離依賴問題的制約,對復(fù)雜問題的語義背景和上下文理解與人類意圖的偏差,導(dǎo)致推理效果不佳,產(chǎn)生幻覺現(xiàn)象和在專業(yè)細(xì)分領(lǐng)域超出知識邊界的實(shí)際問題。因此,如何將知識圖譜與大模型相結(jié)合,使大模型能夠更好的理解用戶的意圖,以提升回答準(zhǔn)確度,成為本領(lǐng)域亟待解決的技術(shù)問題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供一種基于知識圖譜的大模型回答準(zhǔn)確度增強(qiáng)方法及系統(tǒng),用以解決現(xiàn)有技術(shù)中大模型對用戶問題的回答準(zhǔn)確度低的問題,包括:
2、獲取文本數(shù)據(jù)集,對文本數(shù)據(jù)集進(jìn)行預(yù)處理,提取文本數(shù)據(jù)集中的實(shí)體和關(guān)系;
3、根據(jù)文本數(shù)據(jù)集中的實(shí)體和關(guān)系建立實(shí)體連接圖,對實(shí)體連接圖的實(shí)體節(jié)點(diǎn)進(jìn)行融合處理,根據(jù)融合處理后的實(shí)體節(jié)點(diǎn)及關(guān)系創(chuàng)建知識圖譜;
4、獲取用戶的查詢問題,根據(jù)用戶的查詢問題確定用戶的查詢問題的匹配節(jié)點(diǎn);
5、根據(jù)用戶的查詢問題識別用戶的問題意圖,根據(jù)用戶的問題意圖及與用戶查詢問題對應(yīng)的匹配節(jié)點(diǎn)確定prompt模板,將prompt模板輸入大模型,得到用戶查詢問題的可信回答。
6、進(jìn)一步地,所述對文本數(shù)據(jù)集進(jìn)行預(yù)處理,提取文本數(shù)據(jù)集中的實(shí)體和關(guān)系,包括:
7、根據(jù)預(yù)設(shè)分詞算法對文本數(shù)據(jù)集進(jìn)行分詞,對分詞后的文本數(shù)據(jù)集進(jìn)行向量化處理;
8、創(chuàng)建實(shí)體關(guān)系提取模型,基于實(shí)體關(guān)系提取模型提取向量化處理后文本數(shù)據(jù)的實(shí)體和關(guān)系。
9、進(jìn)一步地,所述根據(jù)文本數(shù)據(jù)集中的實(shí)體和關(guān)系建立實(shí)體連接圖,包括:
10、基于k均值聚類算法對文本數(shù)據(jù)的實(shí)體進(jìn)行聚類,跟據(jù)聚類結(jié)果確定實(shí)體對應(yīng)的分區(qū),將各分區(qū)內(nèi)的實(shí)體作為節(jié)點(diǎn)并進(jìn)行連接,得到實(shí)體連接圖。
11、進(jìn)一步地,所述基于k均值聚類算法對文本數(shù)據(jù)的實(shí)體進(jìn)行聚類,包括:
12、對文本數(shù)據(jù)的實(shí)體信息進(jìn)行預(yù)處理,根據(jù)預(yù)處理后的實(shí)體信息建立實(shí)體信息數(shù)據(jù)集,隨機(jī)選取實(shí)體信息數(shù)據(jù)集的k個初始聚類中心;
13、計(jì)算實(shí)體信息數(shù)據(jù)集中的實(shí)體信息到初始聚類中心的歐氏距離,根據(jù)實(shí)體信息數(shù)據(jù)集中的實(shí)體信息到初始聚類中心的歐氏距離將實(shí)體信息劃分到對應(yīng)的分區(qū);
14、計(jì)算各分區(qū)內(nèi)實(shí)體信息的平均值,根據(jù)各分區(qū)內(nèi)實(shí)體信息的平均值重新計(jì)算聚類中心;
15、重復(fù)迭代上述步驟,直至聚類中心不再發(fā)生變化或迭代次數(shù)達(dá)到最大迭代次數(shù),得到k個最終聚類中心。
16、進(jìn)一步地,所述對實(shí)體連接圖的實(shí)體節(jié)點(diǎn)進(jìn)行融合處理,包括:
17、計(jì)算實(shí)體連接圖中各實(shí)體節(jié)點(diǎn)的度數(shù),根據(jù)實(shí)體連接圖中各實(shí)體節(jié)點(diǎn)的度數(shù)篩選出度數(shù)超出第一預(yù)設(shè)閾值的實(shí)體節(jié)點(diǎn);
18、將度數(shù)超出第一預(yù)設(shè)閾值的實(shí)體節(jié)點(diǎn)設(shè)定為中心節(jié)點(diǎn),獲取中心節(jié)點(diǎn)的連通分量,計(jì)算連通分量中各實(shí)體節(jié)點(diǎn)的可連接度,將可連接度大于第二預(yù)設(shè)閾值的實(shí)體節(jié)點(diǎn)與中心節(jié)點(diǎn)融合;
19、將可連接度小于或等于第二預(yù)設(shè)閾值的節(jié)點(diǎn)與中心節(jié)點(diǎn)連接,對實(shí)體節(jié)點(diǎn)進(jìn)行融合。
20、進(jìn)一步地,所述計(jì)算連通分量中各實(shí)體節(jié)點(diǎn)的可連接度,包括:
21、計(jì)算連通分量中的待連接實(shí)體節(jié)點(diǎn)與中心實(shí)體節(jié)點(diǎn)之間的余弦相似度,根據(jù)可連接度計(jì)算公式計(jì)算實(shí)體節(jié)點(diǎn)的可連接度,所述可連接度計(jì)算公式具體為,
22、
23、其中,p為實(shí)體節(jié)點(diǎn)的可連接度,d為實(shí)體節(jié)點(diǎn)的度數(shù),α為實(shí)體節(jié)點(diǎn)的度數(shù)對應(yīng)的第一權(quán)重值,s為待連接實(shí)體節(jié)點(diǎn)與中心實(shí)體節(jié)點(diǎn)之間的余弦相似度,β為待連接實(shí)體節(jié)點(diǎn)與中心實(shí)體節(jié)點(diǎn)之間的余弦相似度對應(yīng)的第二權(quán)重值。
24、進(jìn)一步地,所述根據(jù)用戶的查詢問題確定用戶的查詢問題的匹配節(jié)點(diǎn),包括:
25、獲取用戶的查詢問題,對查詢問題進(jìn)行分詞處理,得到用戶問題分詞;
26、建立用戶問題知識庫,根據(jù)用戶問題分詞在用戶問題知識庫中出現(xiàn)的頻數(shù)確定用戶問題的所屬領(lǐng)域;
27、建立領(lǐng)域知識庫,所屬領(lǐng)域知識庫中存儲有領(lǐng)域關(guān)鍵詞及對應(yīng)的同義詞列表,將用戶問題分詞與領(lǐng)域知識庫相匹配,得到用戶問題分詞對應(yīng)的同義詞列表;
28、將用戶問題分詞對應(yīng)的同義詞列表作為用戶問題補(bǔ)遺,根據(jù)用戶問題分詞及用戶問題補(bǔ)遺得到用戶問題關(guān)鍵詞,根據(jù)用戶問題關(guān)鍵詞確定對應(yīng)的匹配節(jié)點(diǎn)。
29、進(jìn)一步地,所述根據(jù)用戶問題關(guān)鍵詞確定對應(yīng)的匹配節(jié)點(diǎn),包括:
30、計(jì)算用戶問題關(guān)鍵詞與知識圖譜中實(shí)體節(jié)點(diǎn)的余弦相似度,將知識圖譜中余弦相似度大于第三預(yù)設(shè)閾值的實(shí)體節(jié)點(diǎn)作為用戶問題關(guān)鍵詞的匹配節(jié)點(diǎn)。
31、進(jìn)一步地,所述根據(jù)用戶的查詢問題識別用戶的問題意圖,根據(jù)用戶的問題意圖及與用戶查詢問題對應(yīng)的匹配節(jié)點(diǎn)確定prompt模板,包括:
32、根據(jù)用戶問題關(guān)鍵詞確定用戶的問題意圖,根據(jù)用戶的問題意圖設(shè)定prompt模板,在prompt模板中設(shè)定占位符;
33、獲取知識圖譜中用戶問題關(guān)鍵詞的匹配節(jié)點(diǎn),將匹配節(jié)點(diǎn)及匹配節(jié)點(diǎn)之間的關(guān)系輸入對應(yīng)的占位符,得到prompt模板。
34、為了實(shí)現(xiàn)上述目的,本發(fā)明還提供了一種基于知識圖譜的大模型回答準(zhǔn)確度增強(qiáng)系統(tǒng),包括:
35、第一模塊,用于獲取文本數(shù)據(jù)集,對文本數(shù)據(jù)集進(jìn)行預(yù)處理,提取文本數(shù)據(jù)集中的實(shí)體和關(guān)系;
36、第二模塊,用于根據(jù)文本數(shù)據(jù)集中的實(shí)體和關(guān)系建立實(shí)體連接圖,對實(shí)體連接圖的實(shí)體節(jié)點(diǎn)進(jìn)行融合處理,根據(jù)融合處理后的實(shí)體節(jié)點(diǎn)及關(guān)系創(chuàng)建知識圖譜;
37、第三模塊,用于獲取用戶的查詢問題,根據(jù)用戶的查詢問題確定用戶的查詢問題的匹配節(jié)點(diǎn);
38、第四模塊,用于根據(jù)用戶的查詢問題識別用戶的問題意圖,根據(jù)用戶的問題意圖及與用戶查詢問題對應(yīng)的匹配節(jié)點(diǎn)確定prompt模板,將prompt模板輸入大模型,得到用戶查詢問題的可信回答。
39、本發(fā)明的有益效果在于:
40、通過應(yīng)用上述技術(shù)方案,本發(fā)明通過對文本數(shù)據(jù)集構(gòu)建知識圖譜,將知識圖譜與大模型相結(jié)合,能夠更深入地理解用戶提出的問題或需求,從而提供更準(zhǔn)確、有針對性的答案或建議,同時基于用戶的問題意圖建立prompt模板,使得生成的prompt更具專業(yè)性和權(quán)威性,滿足用戶對高質(zhì)量信息的需求,有效提升了大模型對用戶問題的回答準(zhǔn)確度。
1.一種基于知識圖譜的大模型回答準(zhǔn)確度增強(qiáng)方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的基于知識圖譜的大模型回答準(zhǔn)確度增強(qiáng)方法,其特征在于,所述對文本數(shù)據(jù)集進(jìn)行預(yù)處理,提取文本數(shù)據(jù)集中的實(shí)體和關(guān)系,包括:
3.根據(jù)權(quán)利要求2所述的基于知識圖譜的大模型回答準(zhǔn)確度增強(qiáng)方法,其特征在于,所述根據(jù)文本數(shù)據(jù)集中的實(shí)體和關(guān)系建立實(shí)體連接圖,包括:
4.根據(jù)權(quán)利要求3所述的基于知識圖譜的大模型回答準(zhǔn)確度增強(qiáng)方法,其特征在于,所述基于k均值聚類算法對文本數(shù)據(jù)的實(shí)體進(jìn)行聚類,包括:
5.根據(jù)權(quán)利要求4所述的基于知識圖譜的大模型回答準(zhǔn)確度增強(qiáng)方法,其特征在于,所述對實(shí)體連接圖的實(shí)體節(jié)點(diǎn)進(jìn)行融合處理,包括:
6.根據(jù)權(quán)利要求5所述的基于知識圖譜的大模型回答準(zhǔn)確度增強(qiáng)方法,其特征在于,所述計(jì)算連通分量中各實(shí)體節(jié)點(diǎn)的可連接度,包括:
7.根據(jù)權(quán)利要求1所述的基于知識圖譜的大模型回答準(zhǔn)確度增強(qiáng)方法,其特征在于,所述根據(jù)用戶的查詢問題確定用戶的查詢問題的匹配節(jié)點(diǎn),包括:
8.根據(jù)權(quán)利要求7所述的基于知識圖譜的大模型回答準(zhǔn)確度增強(qiáng)方法,其特征在于,所述根據(jù)用戶問題關(guān)鍵詞確定對應(yīng)的匹配節(jié)點(diǎn),包括:
9.根據(jù)權(quán)利要求8所述的基于知識圖譜的大模型回答準(zhǔn)確度增強(qiáng)方法,其特征在于,所述根據(jù)用戶的查詢問題識別用戶的問題意圖,根據(jù)用戶的問題意圖及與用戶查詢問題對應(yīng)的匹配節(jié)點(diǎn)確定prompt模板,包括:
10.一種基于知識圖譜的大模型回答準(zhǔn)確度增強(qiáng)系統(tǒng),其特征在于,包括: