專利名稱:一種基于背景知識的動(dòng)態(tài)重構(gòu)的語義檢索方法
技術(shù)領(lǐng)域:
本發(fā)明屬于信息檢索技術(shù)領(lǐng)域,尤其涉及一種基于背景知識的動(dòng)態(tài)重構(gòu)的語義檢索方法。
背景技術(shù):
隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)的信息量越來越大,如何從海量數(shù)據(jù)中檢索到用戶真正需要的信息成為信息檢索的關(guān)鍵任務(wù)。應(yīng)用廣泛的信息檢索是目前信息科學(xué)的一個(gè)研究熱點(diǎn),各種方法技術(shù)不斷涌現(xiàn)。信息檢索的研究方法大體上可以分為基于語法的檢索和基于內(nèi)容的檢索兩個(gè)方面。目前大多數(shù)的檢索方法都是基于語法的檢索。通過爬蟲等技術(shù)從互聯(lián)網(wǎng)上抓取網(wǎng)頁,然后進(jìn)行信息抽取,對其進(jìn)行智能化信息處理,并通過相關(guān)的索引和 排序技術(shù)為用戶提供信息檢索服務(wù)。上述方法沒有涉及到對檢索內(nèi)容的語義挖掘,從而在很多情況下返回給用戶很多冗余的信息,如較低的查準(zhǔn)率導(dǎo)致大量不相關(guān)的檢索結(jié)果,導(dǎo)致檢索任務(wù)很大程度上依賴于用戶的檢索技巧,從而加重了用戶的檢索負(fù)擔(dān)。目前基于內(nèi)容的檢索成一個(gè)研究熱點(diǎn)?;趦?nèi)容的檢索涉及到信息的語義方面挖掘和處理,能夠兼顧信息的語法和語義信息,盡可能的通過信息的背景知識挖掘其更深層次的語義信息,因此,檢索結(jié)果往往能夠更加滿足用戶真正的檢索需求。但是,目前如何對信息的背景知識進(jìn)行描述、在信息動(dòng)態(tài)演化基礎(chǔ)上如何對背景知識進(jìn)行重構(gòu)以適應(yīng)信息演化的需要以及如何基于背景知識進(jìn)行相關(guān)的語義檢索仍處于初步階段,缺乏相關(guān)的可行研究方法。
發(fā)明內(nèi)容
本發(fā)明結(jié)合上述背景技術(shù)中提到的問題以及信息檢索領(lǐng)域的信息發(fā)展趨勢和需求,提出一種基于背景知識的動(dòng)態(tài)重構(gòu)的語義檢索方法。本方法綜合了語法相似度和語義相似度兩方面因素,盡可能的避免各種因素造成的檢索誤差,并對檢索結(jié)果進(jìn)行進(jìn)一步精確劃分,得到滿足用戶的更為準(zhǔn)確的檢索結(jié)果,減少用戶的檢索負(fù)擔(dān)。為了實(shí)現(xiàn)上述目的,本發(fā)明提出的技術(shù)方案是,一種基于背景知識的動(dòng)態(tài)重構(gòu)的語義檢索方法,采用二維表表示通用領(lǐng)域知識的形式背景,利用FCA方法構(gòu)建形式背景的概念格結(jié)構(gòu)模型,得到形式背景屬性集和形式背景對象集,其特征是所述方法包括步驟1:將用戶輸入的檢索關(guān)鍵詞作為檢索屬性集S = {S1; S2, , SJ并令i=l ;步驟2 :分析檢索屬性Si與形式背景屬性集A的關(guān)系,如果.s', A,則執(zhí)行步驟3 ;如果Si e A,執(zhí)行步驟9 ;步驟3 :加載與檢索屬性Si相關(guān)的具體領(lǐng)域知識,合并二維表,重構(gòu)形式背景屬性集,即令A(yù) = A U Ai, Ai為與Si相關(guān)的具體領(lǐng)域知識的形式背景的屬性集;步驟4 :如果a·,, A,則執(zhí)行步驟5 ;如果Si e A,執(zhí)行步驟9 ;步驟5 :計(jì)算檢索屬性Si與形式背景屬性集A中所有屬性的相似度值Siiv并令Sim = max (Sim1, sim2, . . . simj , η為形式背景屬性集A中的屬性數(shù)目;步驟6 :如果Sim小于設(shè)定閾值,則執(zhí)行步驟7 ;如果Sim值大于或等于設(shè)定閾值,則執(zhí)行步驟8 ;步驟7 :從檢索屬性集中刪除屬性Si,即令S = \{SJ,執(zhí)行步驟9 ;步驟8:在形式背景屬性集A中,找出與檢索屬性Si最為相似的屬性αρ用屬性a j替換檢索屬性Si ;步驟9 :判斷i < m是否成立,如果成立,則令i=i+l,返回步驟3 ;否則,執(zhí)行步驟10 ;步驟10 :進(jìn)行基于檢索屬性集的語義檢索。所述計(jì)算檢索屬性Si與形式背景屬性集A中屬性a j的相似度值采用公式Sim (Si, α」)=λ X Syn (Si, α ρ + (1- λ ) X Sem (Si, α」)其中,Sim(Si,Qj)是檢索屬性Si與形式背景屬性集A中屬性的相似度值,Syn (Si, a ^是語法相似度值,Sem(Si, a ^是語義相似度值,λ是線性疊加系數(shù);所述語法相似度值Syn (Si,α的計(jì)算公式為
權(quán)利要求
1.一種基于背景知識的動(dòng)態(tài)重構(gòu)的語義檢索方法,采用二維表表示通用領(lǐng)域知識的形式背景,利用FCA方法構(gòu)建形式背景的概念格結(jié)構(gòu)模型,得到形式背景屬性集和形式背景對象集,其特征是所述方法包括步驟1:將用戶輸入的檢索關(guān)鍵詞作為檢索屬性集S = Is1, s2,…,sj并令i=l ;步驟2 :分析檢索屬性Si與形式背景屬性集A的關(guān)系,如果λ', € A ,則執(zhí)行步驟3 ;如果 Si e A,執(zhí)行步驟9 ;步驟3 :加載與檢索屬性Si相關(guān)的具體領(lǐng)域知識,合并二維表,重構(gòu)形式背景屬性集, 即令A(yù) = A U Ai, Ai為與Si相關(guān)的具體領(lǐng)域知識的形式背景的屬性集;步驟4 :如果^ € A,則執(zhí)行步驟5 ;如果Si e A,執(zhí)行步驟9 ;步驟5 :計(jì)算檢索屬性Si與形式背景屬性集A中所有屬性的相似度值Siiv并令Sim = max {Sim1, sim2, . simj , η為形式背景屬性集A中的屬性數(shù)目;步驟6 :如果Sim小于設(shè)定閾值,則執(zhí)行步驟7 ;如果Sim值大于或等于設(shè)定閾值,則執(zhí)行步驟8 ;步驟7 :從檢索屬性集中刪除屬性Si,即令S = S\{Si},執(zhí)行步驟9 ;步驟8:在形式背景屬性集A中,找出與檢索屬性^最為相似的屬性αρ用屬性%替換檢索屬性Si ;步驟9 :判斷i <m是否成立,如果成立,則令i=i+l,返回步驟3 ;否則,執(zhí)行步驟10 ; 步驟10 :進(jìn)行基于檢索屬性集的語義檢索。
2.根據(jù)權(quán)利要求1所述的方法,其特征是所述計(jì)算檢索屬性Si與形式背景屬性集A中屬性a j的相似度值采用公式Sim(si, α」)=λ XSyrKsi, α」)+ (1-λ ) XSenKsp α」)其中,Sim(Si,αρ是檢索屬性Si與形式背景屬性集A中屬性%的相似度值,Syn(Si, Qj)是語法相似度值,Sem(Si,Qj)是語義相似度值,λ是線性疊加系數(shù);所述語法相似度值Syn (Si,Qj)的計(jì)算公式為
全文摘要
本發(fā)明公開了信息檢索技術(shù)領(lǐng)域中的一種基于背景知識的動(dòng)態(tài)重構(gòu)的語義檢索方法。包括先采用二維表給出通用領(lǐng)域的背景知識,利用FCA方法將其構(gòu)建為概念格模型。然后把用戶輸入的搜索關(guān)鍵詞作為檢索屬性,分析其與原有形式背景屬性集的關(guān)系;如果所有檢索屬性屬于形式背景屬性集,則直接基于概念格模型進(jìn)行語義檢索;否則,則對領(lǐng)域知識的形式背景進(jìn)行動(dòng)態(tài)重構(gòu);進(jìn)一步通過相似度計(jì)算從屬性集中找出與每一個(gè)檢索屬性最為相似的對應(yīng)替換屬性,更新檢索屬性集;最后,利用重構(gòu)后的形式背景構(gòu)建新的概念格結(jié)構(gòu),并利用此結(jié)構(gòu)完成基于檢索屬性集的語義檢索。本發(fā)明通過基于背景知識的動(dòng)態(tài)重構(gòu)的語義檢索方法,能夠確保檢索結(jié)果滿足用戶的檢索要求。
文檔編號G06F17/30GK103020283SQ20121058066
公開日2013年4月3日 申請日期2012年12月27日 優(yōu)先權(quán)日2012年12月27日
發(fā)明者馬應(yīng)龍, 張瀟瀾, 宋鵬 申請人:華北電力大學(xué)