專利名稱:智能語義搜索方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種允許用戶采用自然語言進(jìn)行檢索的智能搜索的方法。
背景技術(shù):
互聯(lián)網(wǎng)的迅速發(fā)展和廣泛普及導(dǎo)致網(wǎng)上信息爆炸性增長(zhǎng)。搜索技術(shù)的出現(xiàn)為網(wǎng)民快速找到所需信息帶來了福音。基于傳統(tǒng)的索方法,主要有三種類型的搜索引擎,即機(jī)器人搜索引擎(Robot)、目錄式搜索引擎(Directory or Catalog)和元搜索引擎(Meta)。傳統(tǒng)的搜索方法主要采用關(guān)鍵詞匹配來實(shí)現(xiàn)對(duì)信息的檢索,由于用戶很難簡(jiǎn)單地用關(guān)鍵詞或關(guān)鍵詞串來忠實(shí)地表達(dá)他所真正需要檢索的內(nèi)容,表達(dá)困難導(dǎo)致檢索困難,而且自然語言隨著時(shí)間、地域或領(lǐng)域的改變,同一概念可以用不同的語言表現(xiàn)形式來表達(dá),對(duì)同一概念的檢索,不同的用戶可能使用不同的關(guān)鍵詞來查詢,結(jié)果導(dǎo)致大量的無關(guān)信息返回用戶,另外,傳統(tǒng)的搜索方法往往只對(duì)保存的有關(guān)站點(diǎn)描述進(jìn)行搜索,站點(diǎn)本身必需的動(dòng)態(tài)變化不能即進(jìn)反映到搜索結(jié)果中,用戶不能查詢網(wǎng)站中動(dòng)態(tài)中的重要信息,造成信息丟失。
為解決上述問題,近年來,出現(xiàn)了以智能搜索方法為基礎(chǔ)的智能搜索引擎,如尢里卡、悠游、Askjeeves、Google等,采取以知識(shí)庫為基礎(chǔ)的語義分析技術(shù),利用分詞技術(shù)、短語識(shí)別、處理同義詞等手段,對(duì)用戶的檢索指令進(jìn)行分析,包含如下次步驟(一)接收用戶的檢索請(qǐng)求;(二)通過知識(shí)庫中的分詞詞典對(duì)請(qǐng)求進(jìn)行分詞;(三)通過知識(shí)庫中的語法規(guī)則對(duì)請(qǐng)求語句進(jìn)行語法分析;(四)通過知識(shí)庫中的詞典找出請(qǐng)求的同義詞;(五)通過知識(shí)庫中的索引庫檢索文件;(六)把搜索結(jié)果提交給用戶。
比如“北京天氣怎么樣?”,傳統(tǒng)的搜索方法會(huì)將文章中有“北京天氣怎么樣?”這句話的小說都檢索出來,而通過語義分析得出“北京天氣”這個(gè)概念,直接給出北京天氣情況報(bào)告,從而提高了檢索效率,減少了無用信息,并進(jìn)行相關(guān)聯(lián)想給出與用戶檢索指令相關(guān)的信息,提供進(jìn)一步查詢的線索,實(shí)現(xiàn)對(duì)查詢的智能導(dǎo)航。但基于這種智能搜索方法的搜索引擎,當(dāng)其由語法規(guī)則表、索引庫等組成的知識(shí)庫建成后,就不能在與用戶的交流中進(jìn)行自適應(yīng),當(dāng)用戶的使用需求、語言習(xí)慣發(fā)生變化時(shí),不能及時(shí)對(duì)知識(shí)庫進(jìn)行更新。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供智能語義搜索方法,能不斷適應(yīng)用戶使用需求、語言習(xí)慣的變化,及時(shí)更新知識(shí)庫,實(shí)現(xiàn)高效、完整的信息服務(wù)。
本發(fā)明所述的智能語義搜索方法,包含如下步驟(一).接收用戶提出的檢索請(qǐng)求。
(二).通過知識(shí)庫中的語義詞典對(duì)請(qǐng)求語句進(jìn)行分詞及相關(guān)詞分析。
(三).通過知識(shí)庫中的語法規(guī)則庫對(duì)分詞表進(jìn)行語法分析,并根據(jù)相關(guān)詞表進(jìn)行語義分析,并形成語義搜索表。
(四).根據(jù)語義搜索表,對(duì)知識(shí)庫的索引庫進(jìn)行檢索,并對(duì)搜索結(jié)果排序。
(五).對(duì)搜索結(jié)果重新排序。并提交給用戶,并檢測(cè)有效時(shí)間內(nèi)的用戶對(duì)搜索結(jié)果是否有點(diǎn)擊,如果“是”則執(zhí)行步驟(六);如果“否”則執(zhí)行步驟(九)。
(六).記錄點(diǎn)擊情況。
(七).點(diǎn)擊情況的智能分析,更新語義搜索表。
(八).重復(fù)執(zhí)行步驟(五)(九).對(duì)語義搜索結(jié)構(gòu)體里條目的改變進(jìn)行智能分析,語法規(guī)則表和語義詞典,流程結(jié)束,完成一次學(xué)習(xí)過程。
由于本發(fā)明所述的智能語義搜索方法建立了學(xué)習(xí)機(jī),通過對(duì)用戶點(diǎn)擊情況的處理,對(duì)知識(shí)庫進(jìn)行及時(shí)更新,并將搜索結(jié)果根據(jù)關(guān)聯(lián)度進(jìn)行排序及重新排序,使用戶能快速查詢信息,從而能不斷適應(yīng)用戶使用需求、語言習(xí)慣的變化,及時(shí)更新知識(shí)庫,實(shí)現(xiàn)高效、完整的信息服務(wù)。
下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步詳細(xì)說明圖1是本發(fā)明的工作流程圖,其中包括知識(shí)庫的結(jié)構(gòu)和學(xué)習(xí)機(jī)的工作流程;圖2是本發(fā)明的語義詞典條目數(shù)據(jù)結(jié)構(gòu);圖3是本發(fā)明的語義詞典條目的索引指針指向的索引庫內(nèi)的條目存儲(chǔ)結(jié)構(gòu)圖;圖4是本發(fā)明的語法庫內(nèi)的短語數(shù)據(jù)庫的結(jié)構(gòu)圖;圖5是本發(fā)明的語義搜索表——實(shí)際的搜索條目的結(jié)構(gòu)圖。
具體實(shí)施例方式
本發(fā)明所述的智能語義搜索方法,包含如下步驟(一)接收用戶提出的檢索請(qǐng)求,例如,“計(jì)算機(jī)應(yīng)用”。
(二)通過知識(shí)庫中的分詞詞典對(duì)請(qǐng)求語句進(jìn)行分詞,,如分為“計(jì)算機(jī)”與“應(yīng)用”兩個(gè)詞;并進(jìn)行相關(guān)詞分析,如“計(jì)算機(jī)”的類父詞為“機(jī)器”,同義詞為“電腦”、“PC”,子類為“服務(wù)器”、“PC”,其它相關(guān)詞為“鍵盤”、“CPU”、“軟件”,記錄各自的相關(guān)。
(三)對(duì)通過知識(shí)庫中的語法規(guī)則庫對(duì)分詞表進(jìn)行語法分析,并根據(jù)相關(guān)詞表進(jìn)行語義分析,并形成語義搜索表。如“計(jì)算機(jī)應(yīng)用”是一個(gè)倒置的動(dòng)賓短語,且是一個(gè)通用的短語,則其相關(guān)的“軟件開發(fā)”也應(yīng)在被搜之列。語義搜索表的每一條目包括實(shí)際要搜索的詞條、詞條的語義相關(guān)度,及產(chǎn)生該語義的語法規(guī)則、相關(guān)詞表?xiàng)l目。如“計(jì)算機(jī)應(yīng)用”與“軟件開發(fā)”的這種語義解釋,其中一個(gè)原因是“計(jì)算機(jī)”與“軟件”是相關(guān)詞,因而這種關(guān)聯(lián)被記入了語義搜索表里“軟件開發(fā)”條目里。
(四)根據(jù)語義搜索表,對(duì)知識(shí)庫的索引庫進(jìn)行檢索,并對(duì)搜索結(jié)果排序。搜索結(jié)果的排列順序是根據(jù)搜索結(jié)果里被搜索對(duì)象出現(xiàn)的頻率、位置、密度等情況及在語義搜索表內(nèi)的關(guān)聯(lián)度計(jì)算的。
(五)對(duì)搜索結(jié)果重新排序。并提交給用戶,并檢測(cè)有效時(shí)間內(nèi)的用戶對(duì)搜索結(jié)果是否有點(diǎn)擊,如果“是”則執(zhí)行步驟(六);如果“否”則執(zhí)行步驟(八)。
(六)記錄點(diǎn)擊情況。
(七)點(diǎn)擊情況的智能分析,更新語義搜索表回溯當(dāng)前點(diǎn)擊對(duì)象被檢索出來的過程,找出相關(guān)的語義搜索表?xiàng)l目,并結(jié)合以往的點(diǎn)擊記錄和當(dāng)前點(diǎn)擊進(jìn)行智能分析,然后更新語義搜索結(jié)構(gòu)體中的相關(guān)條目的相關(guān)度(八)重復(fù)執(zhí)行步驟(五)。隨著點(diǎn)擊的次數(shù)的增加,所需要的搜索結(jié)果將全部排列在前面。
(九)對(duì)語義搜索結(jié)構(gòu)體里條目的改變進(jìn)行智能分析,語法規(guī)則表和語義詞典,更新其中的條目的相關(guān)度。完成一次學(xué)習(xí)的過程。
權(quán)利要求
1.智能語義搜索方法,其特征在于包含如下步驟(一).接收用戶提出的檢索請(qǐng)求。(二).通過知識(shí)庫中的語義詞典對(duì)請(qǐng)求語句進(jìn)行分詞及相關(guān)詞分析。(三).通過知識(shí)庫中的語法規(guī)則庫對(duì)分詞表進(jìn)行語法分析,并根據(jù)相關(guān)詞表進(jìn)行語義分析,并形成語義搜索表。(四).根據(jù)語義搜索表,對(duì)知識(shí)庫的索引庫進(jìn)行檢索,并對(duì)搜索結(jié)果排序。(五).對(duì)搜索結(jié)果重新排序。并提交給用戶,并檢測(cè)有效時(shí)間內(nèi)的用戶對(duì)搜索結(jié)果是否有點(diǎn)擊,如果“是”則執(zhí)行步驟(六);如果“否”則執(zhí)行步驟(九)。(六).記錄點(diǎn)擊情況。(七).點(diǎn)擊情況的智能分析,更新語義搜索表。(八).重復(fù)執(zhí)行步驟(五)(九).對(duì)語義搜索結(jié)構(gòu)體里條目的改變進(jìn)行智能分析,語法規(guī)則表和語義詞典,流程結(jié)束,完成一次學(xué)習(xí)過程。
全文摘要
本發(fā)明公開了一種智能語義搜索方法,主要解決現(xiàn)有技術(shù)中存在的由語法規(guī)則表、索引庫等組成的知識(shí)庫建成后,就不能在與用戶的交流中進(jìn)行自適應(yīng),當(dāng)用戶的使用需求、語言習(xí)慣發(fā)生變化時(shí),不能及時(shí)對(duì)知識(shí)庫進(jìn)行更新等問題。本發(fā)明所述的智能語義搜索方法,建立了學(xué)習(xí)機(jī),通過對(duì)用戶點(diǎn)擊情況的處理,對(duì)知識(shí)庫進(jìn)行及時(shí)更新,并將搜索結(jié)果根據(jù)關(guān)聯(lián)度進(jìn)行排序及重新排序,使用戶能快速查詢信息,從而能不斷適應(yīng)用戶使用需求、語言習(xí)慣的變化,及時(shí)更新知識(shí)庫,實(shí)現(xiàn)高效、完整的信息服務(wù)。
文檔編號(hào)G06F17/30GK1335574SQ01127819
公開日2002年2月13日 申請(qǐng)日期2001年9月5日 優(yōu)先權(quán)日2001年9月5日
發(fā)明者羅笑南, 譚偉豪, 王建民, 廖建臻 申請(qǐng)人:羅笑南, 譚偉豪