两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于文獻(xiàn)內(nèi)容知識圖譜的多層引文推薦方法

文檔序號:9887806閱讀:1025來源:國知局
一種基于文獻(xiàn)內(nèi)容知識圖譜的多層引文推薦方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息推薦技術(shù)領(lǐng)域,特別是涉及一種基于文獻(xiàn)內(nèi)容知識圖譜的多層引 文推薦方法。本發(fā)明在信息推薦、信息檢索、網(wǎng)絡(luò)輿情監(jiān)控等領(lǐng)域具有廣闊的應(yīng)用前景。
【背景技術(shù)】
[0002] 目前,信息推薦方法可以分為三大類,基于內(nèi)容的推薦、基于協(xié)同過濾的推薦、以 及混合的方法。
[0003] 在基于內(nèi)容的推薦方法中,首先構(gòu)建推薦對象的內(nèi)容特征模型和用戶興趣模型, 然后計算推薦對象與用戶興趣的相似度,最后將相似度較大的推薦對象推薦給用戶。推薦 對象和用戶模型通常采用關(guān)鍵詞表示特征。該方法的優(yōu)點是可以根據(jù)用戶的歷史記錄來構(gòu) 建用戶興趣模型,反映用戶的需求和偏好。其特點是,第一,推薦性能依賴于推薦對象的特 征提取方法和內(nèi)容特征模型,也就是依賴于推薦對象的內(nèi)容特征的準(zhǔn)確性和完整性;第二, 推薦對象和用戶興趣模型基于關(guān)鍵詞進(jìn)行表示和相似度計算,停留在字符串層面,限制用 戶對高層次概念的認(rèn)知,難以滿足用戶的真正需求。
[0004] 基于協(xié)同過濾的推薦方法是基于推薦對象之間的相關(guān)性或用戶之間的相關(guān)性來 進(jìn)行推薦?;趨f(xié)同過濾的推薦方法可以分為基于用戶的協(xié)同推薦、基于物品的協(xié)同推薦, 以及基于模型的協(xié)同推薦。該方法的優(yōu)點是可以處理結(jié)構(gòu)化和非結(jié)構(gòu)化的復(fù)雜對象。其特 點是存在稀疏性問題和冷啟動問題。稀疏性問題是指對于涉及推薦對象較少的用戶,在龐 大的用戶集中難以發(fā)現(xiàn)與該用戶興趣相似的用戶。冷啟動問題是指當(dāng)新用戶或者新推薦對 象第一次出現(xiàn)在推薦系統(tǒng)中,系統(tǒng)難以獲知新用戶的興趣偏好,難以對新推薦對象進(jìn)行推 薦。
[0005] 引文推薦是信息推薦的重要研究內(nèi)容,其目的是在海量的文獻(xiàn)中找出當(dāng)前論文需 要引用的論文?,F(xiàn)有引文推薦方法主要利用文獻(xiàn)的引用關(guān)系來進(jìn)行推薦,基于關(guān)鍵詞來表 示論文的內(nèi)容和用戶的興趣。

【發(fā)明內(nèi)容】

[0006] 本發(fā)明的目的是為了解決上述現(xiàn)有技術(shù)中推薦方法受限于相似用戶的數(shù)量,難以 檢索字符不同語義相似的文獻(xiàn),難以檢索與論文的研究對象和研究行為具有不同語義關(guān)聯(lián) 關(guān)系的文獻(xiàn),以及現(xiàn)有技術(shù)中的引用論文推薦結(jié)果不能很好滿足用戶需求的問題,提供一 種基于文獻(xiàn)內(nèi)容知識圖譜的多層引文推薦方法。
[0007] 本發(fā)明的目的是通過下述技術(shù)方案實現(xiàn)的。
[0008] -種基于文獻(xiàn)內(nèi)容知識圖譜的多層引文推薦方法,包括如下步驟:
[0009] 步驟1,獲取查詢需求
[0010] 提取需要推薦引文的論文的標(biāo)題和摘要,進(jìn)行詞根提取(Stemming)和詞形還原 (Lemmatization),去掉標(biāo)點符號和停用詞。停用詞是指不具有實際意義的詞語,主要包括 助詞、介詞、連詞等。進(jìn)一步,提取關(guān)鍵詞作為搜索引擎Lucene查詢需求的檢索詞。
[0011] 步驟2,利用文獻(xiàn)內(nèi)容的知識圖譜進(jìn)行查詢擴(kuò)展
[0012] 第一,對查詢需求的檢索詞進(jìn)行擴(kuò)充,利用同義詞詞典和近義詞詞典獲得檢索詞 的同義詞和近義詞,擴(kuò)充檢索詞集合;
[0013] 第二,根據(jù)論文的標(biāo)題和摘要,識別論文的研究對象詞語u和研究行為詞語v;
[0014]第三,利用同義詞詞典和近義詞詞典,提取論文的研究對象詞語和研究行為詞語 的同義詞和近義詞,構(gòu)建檢索擴(kuò)展詞,將其添加到檢索詞集合中。
[0015] 若論文的研究對象詞語u的同義詞和近義詞為&1,&2,-_,&?(!11為自然數(shù)),研究行為 詞語v的同義詞和近義詞為bi,b 2,…,bn(n為自然數(shù)),則構(gòu)建如下的檢索擴(kuò)展詞,其中"+"是 指兩個詞語的連接。例如,W是指詞語u和詞語匕的連接。
[0016] u+bi ,u+b2, ·' ,u+bn,
[0017] ai+v,ai+bi,ai+b2,…,ai+bn,
[0018] a2+v,a2+bi,a2+b2,···,a2+bn,
[0019] …,
[0020] am+v,am+bi,am+b2,···,am+bn·
[0021] 第四,利用知識圖譜中的上下位關(guān)系子網(wǎng)絡(luò),提取論文的研究對象詞語u和研究行 為詞語v的上位概念和下位概念;
[0022] 若u的上位概念為ci,C2,···,cP(p為自然數(shù)),u的下位概念為di,d2,···,dq(q為自然 數(shù)),v的上位概念為ei,e 2,…,es(s為自然數(shù)),v的下位概念為fi,f2,···,ft(t為自然數(shù)),則 構(gòu)建如下的檢索擴(kuò)展詞:
[0023] u+ej( j = l ,2,··· ,s) ,u+fj( j = 1,2, ···, t),
[0024] ai+e j (i = l,2,...,m,j = l,2,...,s), ai+fj(i = l,2,...,m,j = l,2,.",t),
[0025] ci+v(i = 1,2,···,p),di+v(i = l,2,---,q),
[0026] ci+bj(i = l,2,··· ,p, j = l,2,··· ,n) ,di+bj(i = l ,2,··· ,q, j = l ,2,··· ,n),
[0027] ci+ej(i = l,2,---,P,j = 1,2,=
[0028] di+ej (i = l,2,???.q.j = 1,2,---,8), di+f j (i = l,2,---,q,j = l,2,---,t).
[0029] 第五,利用知識圖譜中的部分整體關(guān)系子網(wǎng)絡(luò),提取論文的研究對象詞語u和研究 行為詞語v的部分概念和整體概念。若u的整體概念為 81^2,一^。(〇為自然數(shù)),1!的部分概 念為hi,h2,···,h r(r為自然數(shù)),v的整體概念為ki,k2,···,kw(w為自然數(shù)),v的部分概念為li, I2,…,lz(z為自然數(shù)),則構(gòu)建如下的檢索擴(kuò)展詞:
[0030] u+kj(j = 1,2,…,w),u+lj (j = 1,2,…,z),
[0031 ] ai+kj(i = l,2,··· ,m, j = l,2,··· ,w) ,ai+lj(i = l ,2,··· ,m, j = l ,2,··· ,ζ),
[0032] gi+v (i = l,2,···,〇), hi+v (i = l,2,---,r),
[0033] gi+bj(i = l,2,··· ,0, j = l,2,··· ,n) ,hi+bj(i = l ,2,··· ,r, j = l ,2,··· ,n),
[0034] gi+kj (i = l, 2,···,〇,』· = 1,2,···,《〇, gi+lj (i = l, 2,···,〇,j = l, 2,···,ζ),
[0035] hi+kj (i = l,2,???.r.j = 1,2,= = 1,2,
[0036] 第六,利用知識圖譜中的并列關(guān)系子網(wǎng)絡(luò),提取論文的研究對象詞語u和研究行為 詞語v的并列概念。若u的并列概念為χι,Χ2,…,xki(kl為自然數(shù)),v的并列概念為yi,y2,···, yk2(k2為自然數(shù)),則構(gòu)建如下的檢索擴(kuò)展詞。
[0037] u+yj(j = 1,2,···,k2),xi+v(i = l,2,---,kl).
[0038] 步驟3,構(gòu)建文獻(xiàn)的倒排索引
[0039] 根據(jù)數(shù)據(jù)集中的文獻(xiàn)的標(biāo)題和摘要構(gòu)建倒排索引,包括預(yù)處理、構(gòu)建索引和存儲 索引。預(yù)處理包括詞根提取和詞形還原,去掉標(biāo)點符號和停用詞。構(gòu)建索引包括構(gòu)建詞語到 文檔的映射詞典,對詞語按照字典順序排序,合并相同詞語的文檔映射信息,構(gòu)建文檔倒排 鏈表即文檔倒排索引。
[0040] 步驟4,選取候選引文集
[0041] 首先,根據(jù)擴(kuò)展后的檢索詞集合,在數(shù)據(jù)集中檢索出在標(biāo)題和摘要中包括任一檢 索詞的論文。然后,計算查詢與這些論文的相似度。將相似度最高的前N(N為自然數(shù))篇論文 作為候選引文集。其中,查詢與論文的相似度采用搜索引擎Lucene中的向量空間模型進(jìn)行 計算。查詢和論文由查詢向量和論文向量來表示,查詢和論文的相似度為查詢向量和論文 向量的余弦相似度。
[0042] 步驟5,提取候選引文與查詢的相似度特征
[0043] 候選引文與查詢的相似度特征分為如下兩種特征。第一種是基于搜索引擎Lucene 的候選引文與查詢的相似度特征。第二種是
當(dāng)前第1頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
聂拉木县| 巴青县| 田阳县| 扶沟县| 磴口县| 尼玛县| 读书| 宝应县| 永和县| 郑州市| 改则县| 建昌县| 美姑县| 察哈| 宜州市| 永丰县| 田阳县| 揭东县| 平乐县| 康平县| 南郑县| 岐山县| 河西区| 泸州市| 桃源县| 浦县| 吴江市| 华阴市| 渑池县| 台北县| 嘉义市| 综艺| 青州市| 樟树市| 梅州市| 龙里县| 三门县| 姚安县| 天水市| 阳城县| 左权县|