專利名稱:基于問題的開放式知識庫系統(tǒng)的創(chuàng)建及檢索方法
技術(shù)領(lǐng)域:
本發(fā)明涉及的是一種數(shù)據(jù)庫的創(chuàng)建及檢索方法。更具體地說,本發(fā)明涉及一種開放式知識庫系統(tǒng)的創(chuàng)建及檢索方法。
背景技術(shù):
創(chuàng)建一個十全十美的知識庫一直是人類不斷追求的目標(biāo)。盡管新的技術(shù)層出不窮,人們距離擁有完美的知識庫的目標(biāo)還有著很大的距離。這里“完美的知識庫”是指無論誰都能非常容易地從知識庫里獲得他所想要的當(dāng)代最準(zhǔn)確,最豐富的知識。下面我們就列舉一些現(xiàn)有的知識庫系統(tǒng)以及它們的缺陷。
*封閉式的知識庫系統(tǒng)一個典型的封閉式的知識庫便是眾所周知的“十萬個為什么”叢書。這套叢書包含了相當(dāng)豐富的知識。但是,如果你的“為什么”沒有被包含在叢書里時,你將無法從中獲得答案。你只能翹首以待不知何時新冊出版時你能有幸發(fā)現(xiàn)你問題的答案。當(dāng)然這里“封閉式”一詞并不是指永遠(yuǎn)封閉,而是說知識庫更新速度之慢以至于用戶無法忍受如此漫長的等待時間。封閉式系統(tǒng)的另一個缺點是關(guān)于用戶新問題的知識并不一定就會被采納而成為知識庫的一部分。
*針對知識的知識庫系統(tǒng)這類系統(tǒng)往往提供豐富知識,但那些知識不是針對用戶的問題或需要提供的。萬維網(wǎng)便是這類系統(tǒng)的一個典型例子。萬維網(wǎng)中儲藏著巨大的知識和信息。人們往往通過檢索引擎,像百度或Google等通過檢索詞來檢索所需要的知識信息。萬維網(wǎng)式的知識庫的最大的問題是知識不是針對某個用戶的需要來專門提供的。它是網(wǎng)站的擁有者根據(jù)他們想象中用戶的需要來建立的。由于現(xiàn)在萬維網(wǎng)中存在著成千上萬個網(wǎng)頁,人們通過檢索引擎搜索萬維網(wǎng)時通常會得到成百上千甚至上萬個鏈接,花費很多時間瀏覽各個鏈接所指的網(wǎng)頁,還經(jīng)常找不到滿意的答案。
*論壇式的知識庫系統(tǒng)論壇和上述系統(tǒng)之間的一個最顯著的區(qū)別就是用戶能夠隨意地提問題。論壇的任何用戶都有權(quán)力來根據(jù)問題提供針對性的答案。這是論壇比上述知識系統(tǒng)好的一個最顯著特征。通過論壇,用戶往往能夠得到針對其問題的答案。但論壇的一個最大缺點是它自身的結(jié)構(gòu)過于簡單以至于檢索和管理不是很有效。論壇大都有如下的毛病[1]因為不能有效地檢索已有問題,人們經(jīng)常會重復(fù)地提出類似的問題。
每個答案都是一個單獨的回貼,用戶得綜合多個回貼才能整理出完整的答案。
問題自身通常需要好幾個回貼才能表達(dá)清楚,用戶讀起來非常麻煩費勁。這些毛病導(dǎo)致論壇使用起來局限性很大。
*FAQ Farm(http://www.faqfarm.com)知識庫系統(tǒng)它使用了一種新的方法來構(gòu)建知識庫。它允許用戶提問題,也允許用戶直接修改問題和答案。知識庫的檢索也是針對問題來進行的。這樣做的好處是不但知識是有效地針對問題來提供的,而且問題和答案都能不斷地被完善。這種系統(tǒng)比上述幾個系統(tǒng)都進了一大步。FAQFarm的一個很大缺點是它的體系結(jié)構(gòu)是封閉式的,且過于簡單。它的知識庫系統(tǒng)中的問題的唯一屬性只有類別,問題的答案也只有一個流行分?jǐn)?shù)(Popularity當(dāng)你推薦該答案時,該問題的流行分?jǐn)?shù)便增加1)。過于簡單的封閉式的結(jié)構(gòu)導(dǎo)致了以下的毛病。
*)通過簡單的檢索詞查詢問題,用戶往往得到成百上千個結(jié)果。而通過類別瀏覽則過于緩慢,特別是每個類別有很多問題時。這種檢索查詢上的弊端致使其很難有效地構(gòu)建高質(zhì)量的知識庫。如果用戶很難找到他們想找的問題,那么他們就很難使用,修改,及完善這個知識庫系統(tǒng)。
**)封閉的體系結(jié)構(gòu)(指用戶不能直接修改知識庫系統(tǒng)的體系結(jié)構(gòu))限制了知識庫系統(tǒng)的演化。用戶只能被局限于現(xiàn)有的體系結(jié)構(gòu)內(nèi)部增加,修改,和使用問題及答案。絲毫沒有可能突破已有的結(jié)構(gòu)將該系統(tǒng)提高到一個新的層次。
另外,現(xiàn)有技術(shù)的檢索方法更是無數(shù)眾多,例如中國專利ZL97114619.5《文件檢索方法、文件檢索發(fā)送方法及裝置》、中國專利申請CN1151558A《信息檢索方法和系統(tǒng)》、中國專利申請CN1417709A《信息檢索系統(tǒng)及其信息檢索方法》、中國專利申請CN1670727A《基于知識內(nèi)在涵義的知識信息檢索方法及其系統(tǒng)》等等。但現(xiàn)有的檢索方法都是通過檢索詞查詢問題語句,通常會返回成百上千個結(jié)果以至于用戶經(jīng)常會迷失在眾多的檢索結(jié)果之中。
為了能有效地克服已有各種方法的不足,本發(fā)明創(chuàng)造提出一種新的方法來創(chuàng)建,完善,及檢索知識庫系統(tǒng)。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)中存在的問題,本發(fā)明提出了一個基于問題的開放式知識庫系統(tǒng)的創(chuàng)建,完善,及檢索方法。
本發(fā)明的技術(shù)方案是一種基于問題的開放式知識庫系統(tǒng),其特征在于包括問題以及問題的屬性集。知識庫系統(tǒng)可以進行瀏覽和改進,這包括知識內(nèi)容以及屬性集本身,即可以修改問題,完善問題的某些屬性值,更改屬性集里的屬性名稱,刪加屬性集中的屬性等。問題語句以及問題屬性的屬性值以及問題屬性集自身都可以修改。屬性集中統(tǒng)計方面的屬性可以幫助了解知識庫系統(tǒng)在某段時間內(nèi)的使用情況以及哪些是急需解決的問題。
所有的一切數(shù)據(jù)都是圍繞問題為中心的。將問題以外的所有數(shù)據(jù)都稱之為問題的屬性。屬性集中的屬性可以為下列的一種或幾種問題編號、問題分類、問題關(guān)鍵詞、問題種類、問題修改版本、問題評論、答案、答案修改版本、答案評論、瀏覽統(tǒng)計、修改統(tǒng)計、滿意程度統(tǒng)計、急需答案的問題統(tǒng)計、貢獻者名單。這里所討論的屬性集只不過是示意性的,實際系統(tǒng)將并不局限這些。
在知識庫中檢索問題時,并不通過檢索詞查詢問題語句,而是不斷地加大對屬性集中屬性的限制而縮小問題的范圍。該檢索方法是一個基于暗示的循序漸進的交互過程。檢索界面顯示那些與檢索相關(guān)的問題屬性,并給出適當(dāng)提示。在檢索過程對問題屬性限制的每一步,系統(tǒng)都將顯示出滿足該限制的問題數(shù)量以及所有相關(guān)的問題。如果系統(tǒng)返回的問題數(shù)量很大,可以進一步不斷地加大對問題屬性的限制來縮小范圍以便最快地找到類似或相關(guān)問題。在限制問題屬性時,系統(tǒng)將通過對已有問題屬性值的統(tǒng)計分析給出最恰當(dāng)?shù)陌凳疽宰钣行У乜s小問題檢索范圍。結(jié)合問題統(tǒng)計數(shù)據(jù)方面的屬性對系統(tǒng)進行檢索可以發(fā)現(xiàn)系統(tǒng)中重點需要改進的問題,從而最快地完善該知識庫系統(tǒng)。
一種基于問題的開放式知識庫系統(tǒng)的檢索方法,包括以下步驟步驟一、確定問題的某一屬性;步驟二、知識庫系統(tǒng)通過對上述屬性的限制(篩選)并顯示結(jié)果。
步驟三、確定問題的另一屬性;步驟四、知識庫系統(tǒng)對已篩選的內(nèi)容通過新的屬性進一步限制相關(guān)的問題;步驟五、根據(jù)知識庫系統(tǒng)顯示的結(jié)果,確定是否重復(fù)步驟三和步驟四;若否,則步驟六、對知識庫系統(tǒng)中的內(nèi)容瀏覽或修改。
本發(fā)明具有以下的一系列特點*它是開放式的,即該系統(tǒng)的任何一部分都允許其用戶修改和完善,包括知識庫系統(tǒng)內(nèi)容及體系結(jié)構(gòu)。
*它是基于問題的。該知識庫系統(tǒng)的一切知識都是針對某個問題來提供的。
*該體系結(jié)構(gòu)的最大特點是所有的內(nèi)容都被看成是問題屬性集的一部分(包括問題的答案)。問題的屬性集中包含有大量的輔助數(shù)據(jù)。使用大量有針對性的輔助數(shù)據(jù)的目的是為了更有效地檢索和管理知識庫。
*該系統(tǒng)是開放式的,用戶不但可以直接修改問題的語句,還可以修改問題屬性集中屬性的值,并且屬性集本身也允許用戶來修改,擴展,和完善。
*該系統(tǒng)通過一種不斷細(xì)化的查詢方法使得用戶方便,靈活,及快速地查找到最相關(guān)的知識。
*該知識庫還允許用戶進行個性化設(shè)置從而將其變成針對某些用戶,某個特定領(lǐng)域的虛擬的子知識庫。這種個性化的實現(xiàn)只需要通過對屬性集中的某些屬性進行專門的設(shè)定來完成。
*屬性集中的某些屬性將用來描述知識庫系統(tǒng)的使用情況。通過對系統(tǒng)的使用情況進行監(jiān)控和匯報,人們可以更好地改進和管理知識系統(tǒng)。所有這些信息都將是開放的,即任何用戶都能獲得這些信息并用之于完善知識庫的內(nèi)容和體系結(jié)構(gòu)。
*用戶還可以對知識庫進行訂閱。通過對屬性集中某些屬性的設(shè)定,用戶可自動地獲得知識庫系統(tǒng)送來的關(guān)于某個特定領(lǐng)域的知識更新及使用情況。
本發(fā)明所提出的系統(tǒng)及方法的一個最大特點是知識庫系統(tǒng)中的一切知識內(nèi)容都是根據(jù)用戶的需要來創(chuàng)建的。知識庫中的一切都是圍繞問題為中心的。通過設(shè)定問題的豐富的屬性集,用戶可以最方便,快速,和有效地對問題進行檢索以及對系統(tǒng)進行管理。系統(tǒng)本身的完全開放則允許用戶不僅對知識庫的內(nèi)容,而且對其系統(tǒng)本身也能進行修改和完善。個性化設(shè)置則允許用戶把一個龐大的知識庫當(dāng)做為其特制的一個虛擬的知識系統(tǒng)??v上所述,使用本發(fā)明的技術(shù)方案可以構(gòu)建不斷快速完善的,最易使用的,針對性內(nèi)容最強的知識庫。
圖1為本發(fā)明知識庫系統(tǒng)的數(shù)據(jù)結(jié)構(gòu);圖2為本發(fā)明知識庫系統(tǒng)的使用和管理;圖3為本發(fā)明知識庫檢索方法的流程圖。
具體實施例方式
下面結(jié)合附圖和實施例對本發(fā)明進一步描述。
如圖1所示,顯示了本發(fā)明解決方案的數(shù)據(jù)結(jié)構(gòu)。所有的一切數(shù)據(jù)都是圍繞問題為中心的。我們將問題以外的所有數(shù)據(jù)都稱之為問題的屬性。因此本數(shù)據(jù)結(jié)構(gòu)主要就分為倆部分問題及問題的屬性集。下面我們就對屬性集中的屬性作一個簡單的解釋問題編號每個問題都有一個不重復(fù)編號以便在數(shù)據(jù)庫中對問題進行查找。問題編號主要是給系統(tǒng)程序使用的。
問題分類每個問題都可被劃分某個類別之中,大的類別可再分出子類別來,比如,健康->保健->皮膚保養(yǎng)。
問題關(guān)鍵詞用來描述概括該問題的輔助性數(shù)據(jù)。問題關(guān)鍵詞并不一定要在問題語句中出現(xiàn)。
問題種類例如為什么,怎樣/如何,什么是,哪里等等。
問題修改版本記錄歷次問題被修改的版本。
問題評論用戶對該問題所發(fā)表的各種評論。
答案問題的答案。
答案修改版本記錄歷次答案被修改的版本。
答案評論用戶對該答案所發(fā)表的各種評論。
瀏覽統(tǒng)計用戶對該問題在某個時間段里的瀏覽次數(shù)。
修改統(tǒng)計用戶對該問題在某個時間段里的修改次數(shù)。
滿意程度統(tǒng)計用戶對該問題的查尋過程及答案的滿意程度。
急需答案的問題統(tǒng)計用戶在某個時間段里對某些問題的查尋過程改善及答案的急需程度統(tǒng)計。
貢獻者名單對該問題及其屬性集作出貢獻的人員或單位名單。
這里所討論的屬性集只不過是示意性的,實際系統(tǒng)將并不局限這些。
一、系統(tǒng)的創(chuàng)建及管理任何用戶都可以瀏覽和改進知識庫系統(tǒng),參見圖2,這包括知識內(nèi)容以及屬性集本身。用戶可以修改問題,完善問題的某些屬性值,更改屬性集里的屬性名稱,刪加屬性集中的屬性等。屬性集中統(tǒng)計方面的屬性可以幫助用戶了解知識庫系統(tǒng)在某段時間內(nèi)的使用情況以及哪些是急需解決的問題。允許用戶對屬性集中的屬性值進行改進的目的就是每個問題的屬性都能獲得最恰當(dāng)?shù)膶傩灾?,以便于對知識庫系統(tǒng)進行最方便,快速,和有效地使用和管理。比如說,最適當(dāng)?shù)姆诸?,最恰?dāng)?shù)膯栴}類型,以及最精確的關(guān)鍵詞等屬性將有助于用戶最快地檢索到相關(guān)的問題。而只有當(dāng)用戶能夠找到相關(guān)的問題時,知識庫的其它操作和管理才可以順利進行。
二、知識庫系統(tǒng)的檢索方法如圖3所示,在知識庫中檢索問題時,我們并不通過檢索詞查詢問題語句,而是不斷地加大對屬性集中屬性的限制而縮小問題的范圍。該檢索方法是一個基于暗示的循序漸進的交互過程。檢索界面顯示那些與檢索相關(guān)的問題屬性,并給出適當(dāng)提示。在檢索過程對問題屬性限制的每一步,系統(tǒng)都將顯示出滿足該限制的問題數(shù)量以及所有相關(guān)的問題。如果系統(tǒng)返回的問題數(shù)量很大,用戶可以進一步不斷地加大對問題屬性的限制來縮小范圍以便最快地找到類似或相關(guān)問題。在用戶限制問題屬性時,系統(tǒng)將通過對已有問題屬性值的統(tǒng)計分析給出最恰當(dāng)?shù)陌凳緩亩鴰椭脩糇钣行У乜s小問題檢索范圍。這種基于暗示的循序漸進的交互式檢索過程遠(yuǎn)遠(yuǎn)優(yōu)于現(xiàn)有的僅僅對問題語句中的某些詞進行檢索的方法?,F(xiàn)有的檢索方法通常會返回成百上千個結(jié)果以至于用戶經(jīng)常會迷失在眾多的檢索結(jié)果之中。不能每次都讓用戶很方便地查找到相關(guān)問題的結(jié)果是要么用戶會放棄使用該知識庫系統(tǒng),要么用戶會提出很多類似接近的問題,而且還會導(dǎo)致用戶無法很有效地改善該知識庫系統(tǒng)。結(jié)合問題統(tǒng)計數(shù)據(jù)方面的屬性對系統(tǒng)進行檢索可以幫助戶會發(fā)現(xiàn)系統(tǒng)中重點需要改進的問題,從而最快地完善該知識庫系統(tǒng)。
下面我們就以一個例子來闡述基于暗示的循序漸進的檢索方法。假設(shè)用戶想要查找的問題是在冬天怎樣保護皮膚防止干裂?在知識庫中該問題有如下的屬性值問題分類健康->保健->皮膚保養(yǎng)。
問題關(guān)鍵詞冬天,冬季,皮膚干裂,皮膚干燥,干燥皮膚,防止干裂,防止干燥,皮膚保養(yǎng),保持濕潤。
問題種類怎樣/如何。
通常用戶先對問題關(guān)鍵詞屬性進行限制,于是用戶敲入“皮膚干燥”。當(dāng)用戶對問題分類進行選擇時,知識庫系統(tǒng)已通過關(guān)鍵詞“皮膚干燥”對問題分類庫進行了篩選,從成百上千個分類中找到了包含該關(guān)鍵詞的三個子分類健康->保健->皮膚保養(yǎng)健康->疾病->皮膚病科學(xué)研究->皮膚科這時用戶將很輕松選擇“健康->保健->皮膚保養(yǎng)”從而又將問題的范圍縮小了一大塊。在選擇問題種類時,用戶很容易地選擇了“怎樣/如何”。雖然問題的范圍縮小了很多,但很可能這時系統(tǒng)的檢索返回結(jié)果還很多。用戶這時可以繼續(xù)限制關(guān)鍵詞。用戶有兩種方法可以繼續(xù)限制關(guān)鍵詞[1]用戶自己敲入新的關(guān)鍵詞,比如“冬季”。[2]或從知識庫系統(tǒng)里暗示的關(guān)鍵詞中挑選一個。知識庫系統(tǒng)將所有滿足當(dāng)前限制的問題的關(guān)鍵詞找出來,去掉用戶已敲入的,將所剩下的關(guān)鍵詞列出來作為暗示供用戶選擇。當(dāng)用戶對關(guān)鍵詞再作一兩個限制時,所剩下的系統(tǒng)檢索出來問題就會很少了。這時用戶將很容易地找到他想要的問題。
從上面的例子我們可以看出基于暗示的循序漸進的檢索方法的有效性。每一次新的暗示都是基于當(dāng)前已縮小的檢索范圍內(nèi)得到的,因此也將更有效,更快地(如同幾何級地)縮小檢索范圍。相比之下,如果采傳統(tǒng)的檢索詞檢索方法,當(dāng)用戶敲入“冬季”和“皮膚干燥”時,傳統(tǒng)系統(tǒng)不僅會返回成千上萬個結(jié)果,而且用戶最終還找不到他想要的結(jié)果。其原因是用戶所敲入的關(guān)鍵詞“冬季”和“皮膚干燥”根本沒有出現(xiàn)該問題的語句里。
三、個性化系統(tǒng)設(shè)置用戶可以對問題屬性集中的某些屬性值進行限制從而得到該知識庫的一個子集。我們將這一過程稱為個性化過程。每個用戶可以對知識庫進行個性化設(shè)置從而只與他感興趣的子知識庫打交道。某個團體也可以對知識庫進行個性化設(shè)置并讓它的成員分享該設(shè)置。當(dāng)對某個領(lǐng)域有特殊興趣的團體根據(jù)某個個性化設(shè)置使用該知識庫的一個子集時,這便跟傳統(tǒng)的論壇很相似了。只不過是這種論壇會比傳統(tǒng)的論壇使用起來會更加容易,方便,和有效。通過個性化設(shè)置,這種知識庫系統(tǒng)可以成為成千上萬個論壇的操作平臺。它將成為每個人的個性化的知識顧問,有效地解決人們生活和工作中遇到的各種各樣的問題。
個性化的系統(tǒng)設(shè)置可以有效地幫助用戶在特定時間內(nèi)使用知識庫中只與其相關(guān)的一小部分。在個性化設(shè)置基礎(chǔ)之上,用戶還可以通過訂閱來自動獲取相關(guān)知識及其最新動態(tài),比如及時地了解新增加的相關(guān)問題,被改進的問題,答案,以及其它屬性值等等。
雖然本發(fā)明通過實施例進行了描述,但實施例并非用來限定本發(fā)明。本領(lǐng)域技術(shù)人員可在本發(fā)明的精神的范圍內(nèi),做出各種變形和改進,所附的權(quán)利要求應(yīng)包括這些變形和改進。
權(quán)利要求
1.一種基于問題的開放式知識庫系統(tǒng),其特征在于包括問題以及問題的屬性集。
2.根據(jù)權(quán)利要求1所述的基于問題的開放式知識庫系統(tǒng),其特征在于問題語句以及問題屬性的屬性值以及問題屬性集自身都可以修改。
3.根據(jù)權(quán)利要求1所述的基于問題的開放式知識庫系統(tǒng),其特征在于所述的屬性集包括以下屬性的一種或幾種問題編號、問題分類、問題關(guān)鍵詞、問題種類、問題修改版本、問題評論、答案、答案修改版本、答案評論、瀏覽統(tǒng)計、修改統(tǒng)計、滿意程度統(tǒng)計、急需答案的問題統(tǒng)計、貢獻者名單。
4.一種基于問題的開放式知識庫系統(tǒng)的檢索方法,其特征在于,包括以下步驟步驟一、確定問題的某一屬性;步驟二、知識庫系統(tǒng)通過對上述屬性的限制(篩選)并顯示結(jié)果。
5.根據(jù)權(quán)利要求4所述的基于問題的開放式知識庫的檢索方法,其特征在于,它還包括以下步驟步驟三、確定問題的另一屬性;步驟四、知識庫系統(tǒng)對已篩選的內(nèi)容通過新的屬性進一步限制相關(guān)的問題;步驟五、根據(jù)知識庫系統(tǒng)顯示的結(jié)果,確定是否重復(fù)步驟三和步驟四;若否,則步驟六、對知識庫系統(tǒng)中的內(nèi)容瀏覽或修改。
6.根據(jù)權(quán)利要求5所述的基于問題的開放式知識庫的檢索方法,其特征在于,步驟六中對知識庫系統(tǒng)中的內(nèi)容的修改需要通過評審委員會的批準(zhǔn)。
全文摘要
本發(fā)明提出了一種基于問題的開放式知識庫系統(tǒng)的創(chuàng)建及檢索方法,該知識庫系統(tǒng)包括問題及問題的屬性集,在知識庫中檢索問題時,通過不斷地加大對屬性集中屬性的限制而縮小問題的范圍,這種基于暗示的循序漸進的交互式檢索過程能使用戶更快更準(zhǔn)確地找到類似或相關(guān)問題。且系統(tǒng)本身的完全開放則允許用戶不僅對知識庫的內(nèi)容,而且對其系統(tǒng)本身也能進行修改和完善。
文檔編號G06F17/30GK1776674SQ20051012300
公開日2006年5月24日 申請日期2005年12月13日 優(yōu)先權(quán)日2005年12月13日
發(fā)明者李必成 申請人:李必成