一種基于文獻(xiàn)內(nèi)容知識圖譜的多層引文推薦方法

文檔序號：9887806閱讀：1025來源：國知局

一種基于文獻(xiàn)內(nèi)容知識圖譜的多層引文推薦方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息推薦技術(shù)領(lǐng)域，特別是涉及一種基于文獻(xiàn)內(nèi)容知識圖譜的多層引文推薦方法。本發(fā)明在信息推薦、信息檢索、網(wǎng)絡(luò)輿情監(jiān)控等領(lǐng)域具有廣闊的應(yīng)用前景。
【背景技術(shù)】
[0002] 目前，信息推薦方法可以分為三大類，基于內(nèi)容的推薦、基于協(xié)同過濾的推薦、以及混合的方法。
[0003] 在基于內(nèi)容的推薦方法中，首先構(gòu)建推薦對象的內(nèi)容特征模型和用戶興趣模型，然后計算推薦對象與用戶興趣的相似度，最后將相似度較大的推薦對象推薦給用戶。推薦對象和用戶模型通常采用關(guān)鍵詞表示特征。該方法的優(yōu)點是可以根據(jù)用戶的歷史記錄來構(gòu) 建用戶興趣模型，反映用戶的需求和偏好。其特點是，第一，推薦性能依賴于推薦對象的特征提取方法和內(nèi)容特征模型，也就是依賴于推薦對象的內(nèi)容特征的準(zhǔn)確性和完整性;第二，推薦對象和用戶興趣模型基于關(guān)鍵詞進(jìn)行表示和相似度計算，停留在字符串層面，限制用戶對高層次概念的認(rèn)知，難以滿足用戶的真正需求。
[0004] 基于協(xié)同過濾的推薦方法是基于推薦對象之間的相關(guān)性或用戶之間的相關(guān)性來進(jìn)行推薦?；趨f(xié)同過濾的推薦方法可以分為基于用戶的協(xié)同推薦、基于物品的協(xié)同推薦，以及基于模型的協(xié)同推薦。該方法的優(yōu)點是可以處理結(jié)構(gòu)化和非結(jié)構(gòu)化的復(fù)雜對象。其特點是存在稀疏性問題和冷啟動問題。稀疏性問題是指對于涉及推薦對象較少的用戶，在龐大的用戶集中難以發(fā)現(xiàn)與該用戶興趣相似的用戶。冷啟動問題是指當(dāng)新用戶或者新推薦對象第一次出現(xiàn)在推薦系統(tǒng)中，系統(tǒng)難以獲知新用戶的興趣偏好，難以對新推薦對象進(jìn)行推薦。
[0005] 引文推薦是信息推薦的重要研究內(nèi)容，其目的是在海量的文獻(xiàn)中找出當(dāng)前論文需要引用的論文?，F(xiàn)有引文推薦方法主要利用文獻(xiàn)的引用關(guān)系來進(jìn)行推薦，基于關(guān)鍵詞來表示論文的內(nèi)容和用戶的興趣。

【發(fā)明內(nèi)容】

[0006] 本發(fā)明的目的是為了解決上述現(xiàn)有技術(shù)中推薦方法受限于相似用戶的數(shù)量，難以檢索字符不同語義相似的文獻(xiàn)，難以檢索與論文的研究對象和研究行為具有不同語義關(guān)聯(lián) 關(guān)系的文獻(xiàn)，以及現(xiàn)有技術(shù)中的引用論文推薦結(jié)果不能很好滿足用戶需求的問題，提供一種基于文獻(xiàn)內(nèi)容知識圖譜的多層引文推薦方法。
[0007] 本發(fā)明的目的是通過下述技術(shù)方案實現(xiàn)的。
[0008] -種基于文獻(xiàn)內(nèi)容知識圖譜的多層引文推薦方法，包括如下步驟：
[0009] 步驟1，獲取查詢需求
[0010] 提取需要推薦引文的論文的標(biāo)題和摘要，進(jìn)行詞根提取（Stemming)和詞形還原 (Lemmatization)，去掉標(biāo)點符號和停用詞。停用詞是指不具有實際意義的詞語，主要包括助詞、介詞、連詞等。進(jìn)一步，提取關(guān)鍵詞作為搜索引擎Lucene查詢需求的檢索詞。
[0011] 步驟2,利用文獻(xiàn)內(nèi)容的知識圖譜進(jìn)行查詢擴(kuò)展
[0012] 第一，對查詢需求的檢索詞進(jìn)行擴(kuò)充，利用同義詞詞典和近義詞詞典獲得檢索詞的同義詞和近義詞，擴(kuò)充檢索詞集合；
[0013] 第二，根據(jù)論文的標(biāo)題和摘要，識別論文的研究對象詞語u和研究行為詞語v;
[0014]第三，利用同義詞詞典和近義詞詞典，提取論文的研究對象詞語和研究行為詞語的同義詞和近義詞，構(gòu)建檢索擴(kuò)展詞，將其添加到檢索詞集合中。
[0015] 若論文的研究對象詞語u的同義詞和近義詞為&1，&2，-_，&?(!11為自然數(shù)），研究行為詞語v的同義詞和近義詞為bi，b 2,…，bn(n為自然數(shù)），則構(gòu)建如下的檢索擴(kuò)展詞，其中"+"是指兩個詞語的連接。例如，W是指詞語u和詞語匕的連接。
[0016] u+bi ,u+b2, ·' ,u+bn,
[0017] ai+v，ai+bi，ai+b2，…，ai+bn，
[0018] a2+v，a2+bi，a2+b2，···，a2+bn，
[0019] …，
[0020] am+v，am+bi，am+b2，···，am+bn·
[0021] 第四，利用知識圖譜中的上下位關(guān)系子網(wǎng)絡(luò)，提取論文的研究對象詞語u和研究行為詞語v的上位概念和下位概念；
[0022] 若u的上位概念為ci，C2，···，cP(p為自然數(shù)），u的下位概念為di，d2，···，dq(q為自然數(shù)），v的上位概念為ei，e 2,…，es(s為自然數(shù)），v的下位概念為fi，f2，···，ft(t為自然數(shù)），則構(gòu)建如下的檢索擴(kuò)展詞：
[0023] u+ej( j = l ,2,··· ,s) ,u+fj( j = 1,2, ···, t),
[0024] ai+e j (i = l，2，...，m，j = l，2，...，s), ai+fj(i = l，2，...，m，j = l，2，."，t)，
[0025] ci+v(i = 1,2,···,p),di+v(i = l,2,---,q),
[0026] ci+bj(i = l,2,··· ,p, j = l,2,··· ,n) ,di+bj(i = l ,2,··· ,q, j = l ,2,··· ,n),
[0027] ci+ej(i = l,2,---,P,j = 1,2,=
[0028] di+ej (i = l,2,???.q.j = 1,2,---,8), di+f j (i = l,2,---,q,j = l,2,---,t).
[0029] 第五，利用知識圖譜中的部分整體關(guān)系子網(wǎng)絡(luò)，提取論文的研究對象詞語u和研究行為詞語v的部分概念和整體概念。若u的整體概念為 81^2，一^。(〇為自然數(shù)），1!的部分概念為hi，h2，···，h r(r為自然數(shù)），v的整體概念為ki，k2，···，kw(w為自然數(shù)），v的部分概念為li, I2，…，lz(z為自然數(shù)），則構(gòu)建如下的檢索擴(kuò)展詞：
[0030] u+kj(j = 1，2，…，w)，u+lj (j = 1，2，…，z)，
[0031 ] ai+kj(i = l,2,··· ,m, j = l,2,··· ,w) ,ai+lj(i = l ,2,··· ,m, j = l ,2,··· ,ζ),
[0032] gi+v (i = l,2,···,〇), hi+v (i = l,2,---,r),
[0033] gi+bj(i = l,2,··· ,0, j = l,2,··· ,n) ,hi+bj(i = l ,2,··· ,r, j = l ,2,··· ,n),
[0034] gi+kj (i = l, 2，···，〇，』· = 1,2，···，《〇, gi+lj (i = l, 2，···，〇，j = l, 2，···，ζ),
[0035] hi+kj (i = l,2,???.r.j = 1,2,= = 1,2,
[0036] 第六，利用知識圖譜中的并列關(guān)系子網(wǎng)絡(luò)，提取論文的研究對象詞語u和研究行為詞語v的并列概念。若u的并列概念為χι，Χ2,…，xki(kl為自然數(shù)），v的并列概念為yi，y2，···， yk2(k2為自然數(shù)），則構(gòu)建如下的檢索擴(kuò)展詞。
[0037] u+yj(j = 1,2,···,k2),xi+v(i = l,2,---,kl).
[0038] 步驟3，構(gòu)建文獻(xiàn)的倒排索引
[0039] 根據(jù)數(shù)據(jù)集中的文獻(xiàn)的標(biāo)題和摘要構(gòu)建倒排索引，包括預(yù)處理、構(gòu)建索引和存儲索引。預(yù)處理包括詞根提取和詞形還原，去掉標(biāo)點符號和停用詞。構(gòu)建索引包括構(gòu)建詞語到文檔的映射詞典，對詞語按照字典順序排序，合并相同詞語的文檔映射信息，構(gòu)建文檔倒排鏈表即文檔倒排索引。
[0040] 步驟4,選取候選引文集
[0041] 首先，根據(jù)擴(kuò)展后的檢索詞集合，在數(shù)據(jù)集中檢索出在標(biāo)題和摘要中包括任一檢索詞的論文。然后，計算查詢與這些論文的相似度。將相似度最高的前N(N為自然數(shù))篇論文作為候選引文集。其中，查詢與論文的相似度采用搜索引擎Lucene中的向量空間模型進(jìn)行計算。查詢和論文由查詢向量和論文向量來表示，查詢和論文的相似度為查詢向量和論文向量的余弦相似度。
[0042] 步驟5,提取候選引文與查詢的相似度特征
[0043] 候選引文與查詢的相似度特征分為如下兩種特征。第一種是基于搜索引擎Lucene 的候選引文與查詢的相似度特征。第二種是

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3 4

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張春霞;陳俊鵬;王森;王樹良;趙小林;
技術(shù)所有人：北京理工大學(xué);
我是此專利的發(fā)明人

上一篇：一種網(wǎng)絡(luò)信息監(jiān)控分析系統(tǒng)的制作方法
上一篇：一種熱門事件搜索方法和裝置的制造方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！