两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種領(lǐng)域知識(shí)庫(kù)構(gòu)建方法及裝置與流程

文檔序號(hào):11143528閱讀:420來源:國(guó)知局
一種領(lǐng)域知識(shí)庫(kù)構(gòu)建方法及裝置與制造工藝

本發(fā)明屬于信息處理技術(shù)領(lǐng)域,更具體的說,尤其涉及一種領(lǐng)域知識(shí)庫(kù)構(gòu)建方法及裝置。



背景技術(shù):

領(lǐng)域知識(shí)庫(kù)是領(lǐng)域內(nèi)所包括的概念以及概念間的關(guān)系的集合,其中概念是其所屬領(lǐng)域的知識(shí),可以通過領(lǐng)域內(nèi)的詞條來指示,概念間的關(guān)系是概念間的相似程度,可以通過數(shù)值來表示,如對(duì)于金融領(lǐng)域的領(lǐng)域知識(shí)庫(kù)來說,金融、經(jīng)濟(jì)學(xué)和流通等詞條可以作為其所屬領(lǐng)域的領(lǐng)域知識(shí)庫(kù)中的概念,隨著信息的發(fā)展,領(lǐng)域知識(shí)庫(kù)可以使知識(shí)信息化和有序化,且利用知識(shí)的共享和交流。

目前領(lǐng)域知識(shí)庫(kù)的構(gòu)建通常是由領(lǐng)域內(nèi)的專家或從事編輯工作的人員來完成,即通過專家或從事編輯工作的人員將人腦中的知識(shí)轉(zhuǎn)化為計(jì)算機(jī)所能理解的表現(xiàn)形式,例如對(duì)于金融領(lǐng)域的領(lǐng)域知識(shí)庫(kù)來說,其構(gòu)建可以由經(jīng)濟(jì)學(xué)家來完成,這樣經(jīng)濟(jì)學(xué)家根據(jù)自己的專業(yè)知識(shí)給出金融領(lǐng)域的概念以及概念間的關(guān)系,從而獲得金融領(lǐng)域的領(lǐng)域知識(shí)庫(kù),但是這種通過人員來構(gòu)建領(lǐng)域知識(shí)庫(kù)需要耗費(fèi)大量時(shí)間、精力和成本,后續(xù)再對(duì)領(lǐng)域知識(shí)庫(kù)中的內(nèi)容更新時(shí),需要進(jìn)行更新工作的人員對(duì)領(lǐng)域知識(shí)庫(kù)中的內(nèi)容有充分了解才能進(jìn)行更新,因此現(xiàn)有這種通過人員來構(gòu)建領(lǐng)域知識(shí)庫(kù)的方式不利于領(lǐng)域知識(shí)庫(kù)的維護(hù)。



技術(shù)實(shí)現(xiàn)要素:

有鑒于此,本發(fā)明的目的在于提供一種領(lǐng)域知識(shí)庫(kù)構(gòu)建方法及裝置,用于自動(dòng)構(gòu)建任意一個(gè)領(lǐng)域的知識(shí)庫(kù),從而解決由人員手動(dòng)構(gòu)建帶來的問題,具體的技術(shù)方案如下:

本發(fā)明提供一種領(lǐng)域知識(shí)庫(kù)構(gòu)建方法,所述方法包括:

獲取當(dāng)前待構(gòu)建領(lǐng)域中的核心概念以及所述核心概念所在目標(biāo)文本;

從所述目標(biāo)文本中獲取至少一個(gè)非核心概念,所述非核心概念為從所述目標(biāo)文本中提取出的位于全量概念集合中的概念,所述全量概念集合為所述待構(gòu)建領(lǐng)域和領(lǐng)域中核心概念和非核心概念的集合;

獲取所述核心概念和所述非核心概念的相似度;

當(dāng)所述核心概念和所述非核心概念的相似度滿足預(yù)設(shè)條件時(shí),判斷所述非核心概念是否與已存在于所述待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù)中的概念相同,如果否,則將所述滿足預(yù)設(shè)條件的非核心概念保留在所述待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù)中,并將所述非核心概念作為新的核心概念,獲取所述新的核心概念所在目標(biāo)文本,返回執(zhí)行從所述目標(biāo)文本中獲取至少一個(gè)非核心概念的步驟,如果是,則舍棄所述滿足預(yù)設(shè)條件的非核心概念;

在獲取到所述待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù)中的所有概念后,獲取任意兩個(gè)概念間的關(guān)系,從而獲得所述待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù),所述所有概念包括所述待構(gòu)建領(lǐng)域的所有核心概念和所有非核心概念。

優(yōu)選的,所述獲取所述核心概念和所述非核心概念的相似度,包括:

當(dāng)所述核心概念為第1次獲取的概念時(shí),獲取所述非核心概念所在目標(biāo)文本,從所述非核心概念所在目標(biāo)文本中獲取位于所述全量概念集合中的至少一個(gè)第一概念,并根據(jù)所述至少一個(gè)第一概念和所述核心概念對(duì)應(yīng)的至少一個(gè)非核心概念,得到所述核心概念和所述非核心概念的相似度;

當(dāng)所述核心概念為將第i次獲取的非核心概念作為的新的核心概念時(shí),從所述新的核心概念對(duì)應(yīng)的非核心概念所在目標(biāo)文本中獲取位于所述全量概念集合中的至少一個(gè)第二概念,并根據(jù)所述至少一個(gè)第二概念、所述新的核心概念對(duì)應(yīng)的至少一個(gè)非核心概念和第i次獲取的相似度,得到所述新的核心概念和所述新的核心概念對(duì)應(yīng)的非核心概念的相似度,第i次獲取的相似度是第i次獲取的非核心概念對(duì)應(yīng)的核心概念和第i次獲取的非核心概念之間的相似度,1≤i≤N,N=M-1,M為獲取到所述待構(gòu)建領(lǐng)域的知識(shí)庫(kù)中的所有概念時(shí),獲取非核心概念的總次數(shù)。

優(yōu)選的,所述根據(jù)所述至少一個(gè)第一概念和所述核心概念對(duì)應(yīng)的至少一個(gè)非核心概念,得到所述核心概念和所述非核心概念的相似度,包括:

獲取所述至少一個(gè)第一概念和所述核心概念對(duì)應(yīng)的至少一個(gè)非核心概念中相同的第一概念的數(shù)量以及所述至少一個(gè)第一概念和所述核心概念對(duì)應(yīng)的至少一個(gè)非核心概念中的概念總數(shù),其中所述概念總數(shù)為所述相同的第一概念的數(shù)量和所述至少一個(gè)第一概念和所述核心概念對(duì)應(yīng)的至少一個(gè)非核心概念中不同概念的數(shù)量之和;

根據(jù)所述相同的第一概念的數(shù)量和概念總數(shù),得到所述核心概念和所述非核心概念的相似度;

所述根據(jù)所述至少一個(gè)第二概念、所述新的核心概念對(duì)應(yīng)的至少一個(gè)非核心概念和第i次獲取的相似度,得到所述新的核心概念和所述新的核心概念對(duì)應(yīng)的非核心概念的相似度,包括:

獲取所述至少一個(gè)第二概念和所述新的核心概念對(duì)應(yīng)的至少一個(gè)非核心概念中相同的第二概念的數(shù)量以及所述至少一個(gè)第二概念和所述新的核心概念對(duì)應(yīng)的至少一個(gè)非核心概念中的概念總數(shù),其中所述至少一個(gè)第二概念和所述新的核心概念對(duì)應(yīng)的至少一個(gè)非核心概念中的概念總數(shù)為所述相同的第二概念的數(shù)量和所述至少一個(gè)第二概念和所述新的核心概念對(duì)應(yīng)的至少一個(gè)非核心概念中不同概念的數(shù)量之和;

根據(jù)所述相同的第二概念的數(shù)量和所述至少一個(gè)第二概念和所述新的核心概念對(duì)應(yīng)的至少一個(gè)非核心概念中的概念總數(shù),得到所述新的核心概念和所述新的核心概念對(duì)應(yīng)的非核心概念的第一相似度;

根據(jù)所述第一相似度和第i次獲取的相似度,得到所述新的核心概念和所述新的核心概念對(duì)應(yīng)的非核心概念的相似度。

優(yōu)選的,所述當(dāng)所述核心概念和所述非核心概念的相似度滿足預(yù)設(shè)條件時(shí),判斷所述非核心概念是否與已存在于所述待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù)中的概念相同,如果否,則將所述滿足預(yù)設(shè)條件的非核心概念保留在所述待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù)中,并將所述非核心概念作為新的核心概念,獲取所述新的核心概念所在目標(biāo)文本,返回執(zhí)行從所述目標(biāo)文本中獲取至少一個(gè)非核心概念的步驟,如果是,則舍棄所述滿足預(yù)設(shè)條件的非核心概念,包括:

獲取所述非核心概念與全量概念集合中的每個(gè)概念的相似度;

根據(jù)所述非核心概念與全量概念集合中的每個(gè)概念的相似度,得到所述非核心概念對(duì)全量概念集合的平均相似度;

當(dāng)所述核心概念和所述非核心概念的相似度大于所述非核心概念對(duì)全量概念集合的平均相似度時(shí),判斷所述非核心概念是否與已存在于所述待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù)中的概念相同;

如果否,則將相似度大于所述非核心概念對(duì)全量概念集合的平均相似度的非核心概念保留在所述待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù)中,并將所述非核心概念作為新的核心概念,獲取所述新的核心概念所在目標(biāo)文本,返回執(zhí)行從所述目標(biāo)文本中獲取至少一個(gè)非核心概念的步驟;

如果是,則舍棄相似度大于所述非核心概念對(duì)全量概念集合的平均相似度的非核心概念。

優(yōu)選的,所述在獲取到所述待構(gòu)建領(lǐng)域的知識(shí)庫(kù)中的所有概念后,獲取任意兩個(gè)概念間的關(guān)系,包括:

獲取所述任意兩個(gè)概念各自對(duì)應(yīng)的非核心概念;

獲取所述任意兩個(gè)概念各自對(duì)應(yīng)的非核心概念中相同概念的數(shù)量以及所述任意兩個(gè)概念中不同概念的數(shù)量;

根據(jù)所述相同概念的數(shù)量和不同概念的數(shù)量,得到所述任意兩個(gè)概念間的相似度,所述任意兩個(gè)概念間的相似度用于指示所述任意兩個(gè)概念間的相似程度。

本發(fā)明還提供一種領(lǐng)域知識(shí)庫(kù)構(gòu)建裝置,所述裝置包括:

第一獲取單元,用于獲取當(dāng)前待構(gòu)建領(lǐng)域中的核心概念以及所述核心概念所在目標(biāo)文本;

第二獲取單元,用于從所述目標(biāo)文本中獲取至少一個(gè)非核心概念,所述非核心概念為從所述目標(biāo)文本中提取出的位于全量概念集合中的概念,所述全量概念集合為所述待構(gòu)建領(lǐng)域和領(lǐng)域中核心概念和非核心概念的集合;

第一計(jì)算單元,用于獲取所述核心概念和所述非核心概念的相似度;

處理單元,用于當(dāng)所述核心概念和所述非核心概念的相似度滿足預(yù)設(shè)條件時(shí),判斷所述非核心概念是否與已存在于所述待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù)中的概念相同,如果否,則將所述滿足預(yù)設(shè)條件的非核心概念保留在所述待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù)中,并將所述非核心概念作為新的核心概念,觸發(fā)所述第一獲取單元,如果是,則舍棄所述滿足預(yù)設(shè)條件的非核心概念;

第二計(jì)算單元,用于在獲取到所述待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù)中的所有概念后,獲取任意兩個(gè)概念間的關(guān)系,從而獲得所述待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù),所述所有概念包括所述待構(gòu)建領(lǐng)域的所有核心概念和所有非核心概念。

優(yōu)選的,所述第一計(jì)算單元,用于當(dāng)所述核心概念為第1次獲取的概念時(shí),獲取所述非核心概念所在目標(biāo)文本,從所述非核心概念所在目標(biāo)文本中獲取位于所述全量概念集合中的至少一個(gè)第一概念,并根據(jù)所述至少一個(gè)第一概念和所述核心概念對(duì)應(yīng)的至少一個(gè)非核心概念,得到所述核心概念和所述非核心概念的相似度,以及用于當(dāng)所述核心概念為將第i次獲取的非核心概念作為的新的核心概念時(shí),從所述新的核心概念對(duì)應(yīng)的非核心概念所在目標(biāo)文本中獲取位于所述全量概念集合中的至少一個(gè)第二概念,并根據(jù)所述至少一個(gè)第二概念、所述新的核心概念對(duì)應(yīng)的至少一個(gè)非核心概念和第i次獲取的相似度,得到所述新的核心概念和所述新的核心概念對(duì)應(yīng)的非核心概念的相似度,第i次獲取的相似度是第i次獲取的非核心概念對(duì)應(yīng)的核心概念和第i次獲取的非核心概念之間的相似度,1≤i≤N,N=M-1,M為獲取到所述待構(gòu)建領(lǐng)域的知識(shí)庫(kù)中的所有概念時(shí),獲取非核心概念的總次數(shù)。

優(yōu)選的,所述第一計(jì)算單元,包括:

第一獲取子單元,用于當(dāng)所述核心概念為第1次獲取的概念時(shí),獲取所述非核心概念所在目標(biāo)文本,從所述非核心概念所在目標(biāo)文本中獲取位于所述全量概念集合中的至少一個(gè)第一概念,以及用于當(dāng)所述核心概念為將第i次獲取的非核心概念作為的新的核心概念時(shí),從所述新的核心概念對(duì)應(yīng)的非核心概念所在目標(biāo)文本中獲取位于所述全量概念集合中的至少一個(gè)第二概念;

第二獲取子單元,用于獲取所述至少一個(gè)第一概念和所述核心概念對(duì)應(yīng)的至少一個(gè)非核心概念中相同的第一概念的數(shù)量以及所述至少一個(gè)第一概念和所述核心概念對(duì)應(yīng)的至少一個(gè)非核心概念中的概念總數(shù),其中所述概念總數(shù)為所述相同的第一概念的數(shù)量和所述至少一個(gè)第一概念和所述核心概念對(duì)應(yīng)的至少一個(gè)非核心概念中不同概念的數(shù)量之和;

第一計(jì)算子單元,用于根據(jù)所述相同的第一概念的數(shù)量和概念總數(shù),得到所述核心概念和所述非核心概念的相似度;

第三獲取子單元,用于獲取所述至少一個(gè)第二概念和所述新的核心概念對(duì)應(yīng)的至少一個(gè)非核心概念中相同的第二概念的數(shù)量以及所述至少一個(gè)第二概念和所述新的核心概念對(duì)應(yīng)的至少一個(gè)非核心概念中的概念總數(shù),其中所述至少一個(gè)第二概念和所述新的核心概念對(duì)應(yīng)的至少一個(gè)非核心概念中的概念總數(shù)為所述相同的第二概念的數(shù)量和所述至少一個(gè)第二概念和所述新的核心概念對(duì)應(yīng)的至少一個(gè)非核心概念中不同概念的數(shù)量之和;

第二計(jì)算子單元,用于根據(jù)所述相同的第二概念的數(shù)量和所述至少一個(gè)第二概念和所述新的核心概念對(duì)應(yīng)的至少一個(gè)非核心概念中的概念總數(shù),得到所述新的核心概念和所述新的核心概念對(duì)應(yīng)的非核心概念的第一相似度;

第三計(jì)算子單元,用于根據(jù)所述第一相似度和第i次獲取的相似度,得到所述新的核心概念和所述新的核心概念對(duì)應(yīng)的非核心概念的相似度。

優(yōu)選的,所述處理單元,包括:

第四計(jì)算子單元,用于獲取所述非核心概念與全量概念集合中的每個(gè)概念的相似度;

第五計(jì)算子單元,用于根據(jù)所述非核心概念與全量概念集合中的每個(gè)概念的相似度,得到所述非核心概念對(duì)全量概念集合的平均相似度;

判斷子單元,用于當(dāng)所述核心概念和所述非核心概念的相似度大于所述非核心概念對(duì)全量概念集合的平均相似度時(shí),判斷所述非核心概念是否與已存在于所述待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù)中的概念相同;

處理子單元,用于當(dāng)非核心概念與已存在于待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù)中的概念不相同時(shí),將相似度大于所述非核心概念對(duì)全量概念集合的平均相似度的非核心概念保留在所述待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù)中,并將所述非核心概念作為新的核心概念,觸發(fā)所述第一獲取單元,以及用于當(dāng)非核心概念與已存在于待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù)中的概念相同時(shí),則舍棄相似度大于所述非核心概念對(duì)全量概念集合的平均相似度的非核心概念。

優(yōu)選的,所述第二計(jì)算單元,用于獲取所述任意兩個(gè)概念各自對(duì)應(yīng)的非核心概念,獲取所述任意兩個(gè)概念各自對(duì)應(yīng)的非核心概念中相同概念的數(shù)量以及所述任意兩個(gè)概念中不同概念的數(shù)量,并根據(jù)所述相同概念的數(shù)量和不同概念的數(shù)量,得到所述任意兩個(gè)概念間的相似度,所述任意兩個(gè)概念間的相似度用于指示所述任意兩個(gè)概念間的相似程度。

與現(xiàn)有技術(shù)相比,本發(fā)明提供的上述技術(shù)方案具有如下優(yōu)點(diǎn):

藉由上述技術(shù)方案,在獲取當(dāng)前待構(gòu)建領(lǐng)域中的核心概念以及核心概念所在目標(biāo)文本后,可以從目標(biāo)文本中獲取至少一個(gè)非核心概念,并獲取核心概念和非核心概念的相似度,當(dāng)核心概念和非核心概念的相似度滿足預(yù)設(shè)條件時(shí),判斷非核心概念是否與已存在于待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù)中的概念相同,如果否則將滿足預(yù)設(shè)條件的非核心概念保留在待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù)中,并將非核心概念作為新的核心概念,獲取新的核心概念所在目標(biāo)文本,返回執(zhí)行從目標(biāo)文本中獲取至少一個(gè)非核心概念的步驟,在獲取到待構(gòu)建領(lǐng)域的知識(shí)庫(kù)中的所有概念后,獲取任意兩個(gè)概念間的關(guān)系,從而獲得待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù),實(shí)現(xiàn)待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù)的自動(dòng)構(gòu)建,這樣待構(gòu)建領(lǐng)域的專家或者從事編輯工作的人員就無需手動(dòng)構(gòu)建知識(shí)庫(kù)。在構(gòu)建任意一個(gè)領(lǐng)域的領(lǐng)域知識(shí)庫(kù)后,還可以通過構(gòu)建領(lǐng)域知識(shí)庫(kù)中的各個(gè)步驟來自動(dòng)更新知識(shí)庫(kù),使得人員無需了解知領(lǐng)域知識(shí)庫(kù)的相關(guān)內(nèi)容,降低領(lǐng)域知識(shí)庫(kù)的維護(hù)難度。

附圖說明

為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得的附圖。

圖1是本發(fā)明實(shí)施例提供的領(lǐng)域知識(shí)庫(kù)構(gòu)建方法的流程圖;

圖2是本發(fā)明實(shí)施例提供的相似度獲取的一種流程圖;

圖3是本發(fā)明實(shí)施例提供的相似度獲取的另一種流程圖;

圖4是本發(fā)明實(shí)施例提供的領(lǐng)域知識(shí)庫(kù)構(gòu)建裝置的結(jié)構(gòu)示意圖;

圖5是本發(fā)明實(shí)施例提供的領(lǐng)域知識(shí)庫(kù)構(gòu)建裝置中第一計(jì)算單元的結(jié)構(gòu)示意圖;

圖6是本發(fā)明實(shí)施例提供的領(lǐng)域知識(shí)庫(kù)構(gòu)建裝置中處理單元的結(jié)構(gòu)示意圖。

具體實(shí)施方式

為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

請(qǐng)參閱圖1,其示出了本發(fā)明實(shí)施例提供的領(lǐng)域知識(shí)庫(kù)構(gòu)建方法的流程圖,用于自動(dòng)構(gòu)建任意一個(gè)領(lǐng)域知識(shí)庫(kù),以解決因?yàn)槿藛T手動(dòng)構(gòu)建領(lǐng)域知識(shí)庫(kù)帶來的問題。具體的,圖1所示領(lǐng)域知識(shí)庫(kù)構(gòu)建方法可以包括以下步驟:

101:獲取當(dāng)前待構(gòu)建領(lǐng)域中的核心概念以及核心概念所在目標(biāo)文本。其中待構(gòu)建領(lǐng)域是從全量知識(shí)庫(kù)中提取出的某個(gè)特定領(lǐng)域,核心概念則是待構(gòu)建領(lǐng)域中具有代表性的概念,如從全量知識(shí)庫(kù)中提取出的金融領(lǐng)域來作為待構(gòu)建領(lǐng)域時(shí),可以將“金融”這個(gè)用戶公知的詞條作為金融領(lǐng)域的核心概念。而核心概念所在目標(biāo)文本可以是某個(gè)網(wǎng)站中對(duì)核心概念進(jìn)行解釋的文本,如核心概念為“金融”時(shí),其所在目標(biāo)文本可以是百度百科或維基百科對(duì)金融進(jìn)行解釋的文本。

在本發(fā)明實(shí)施例中,核心概念的確定方式是:獲取每個(gè)概念在金融領(lǐng)域中各個(gè)文本中出現(xiàn)的次數(shù),選取出現(xiàn)次數(shù)在預(yù)設(shè)次數(shù)范圍內(nèi)的概念為核心概念,其中每個(gè)概念可以通過數(shù)據(jù)抓取方式從金融領(lǐng)域中的各個(gè)文本中獲取,當(dāng)然也可以由領(lǐng)域內(nèi)的專家或從事編輯工作的人員手動(dòng)指定,并在獲取金融領(lǐng)域中的每個(gè)概念后,對(duì)每個(gè)概念在金融領(lǐng)域中各個(gè)文本中出現(xiàn)的次數(shù)可以在構(gòu)建全量知識(shí)庫(kù)中標(biāo)記,且預(yù)設(shè)次數(shù)范圍可以根據(jù)實(shí)際應(yīng)用而定,又或者核心概念的確定方式是:由專家來標(biāo)記其所研究領(lǐng)域中的核心概念。

上述全量知識(shí)庫(kù)是待構(gòu)建領(lǐng)域和其他領(lǐng)域中知識(shí)的集合,包括待構(gòu)建領(lǐng)域和其他領(lǐng)域中所有概念和概念間的關(guān)系,本發(fā)明實(shí)施例領(lǐng)域知識(shí)庫(kù)構(gòu)建方法則是基于全量知識(shí)庫(kù)中得到屬于待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù)的概念和概念間的關(guān)系。其中全量知識(shí)庫(kù)的獲取方式包括但不限于下述方式:

一種獲取方式是通過數(shù)據(jù)抓取方式來得到全量知識(shí)庫(kù),具體的通過網(wǎng)絡(luò)爬蟲,從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè)信息,然后將抓取的網(wǎng)頁(yè)信息與門戶網(wǎng)站提供的信息進(jìn)行比對(duì),得到文本信息保存在全量知識(shí)庫(kù)中,這樣文本信息中的各個(gè)詞條可以視為概念,而在同一個(gè)文本信息中的詞條可以視為具有關(guān)系的概念,其中門戶網(wǎng)站是通向某類綜合性互聯(lián)網(wǎng)信息資源并提供有關(guān)信息服務(wù)的應(yīng)用系統(tǒng);又或者從現(xiàn)有的全量知識(shí)庫(kù)網(wǎng)站中抓取,如百度百科或維基百科等網(wǎng)站中抓取。

另一種獲取方式通過人工組織方式得到全量知識(shí)庫(kù),具體的由專家或從事編輯工作的人員根據(jù)現(xiàn)有的知識(shí)庫(kù)以及自身掌握的指示進(jìn)行編輯,通過多人共同工作實(shí)現(xiàn)一個(gè)全量知識(shí)庫(kù)。這種工作往往不是個(gè)人和單個(gè)組織能完成的,所以這種人工組織方式都在網(wǎng)上來進(jìn)行協(xié)作,例如百度百科這種全量知識(shí)庫(kù)網(wǎng)站就是人工在網(wǎng)上協(xié)作完成的。

102:從目標(biāo)文本中獲取至少一個(gè)非核心概念,其中非核心概念為從目標(biāo)文本中提取出的位于全量概念集合中的概念,全量概念集合為待構(gòu)建領(lǐng)域和領(lǐng)域中核心概念和非核心概念的集合,因此上述全量知識(shí)庫(kù)可以是全量概念集合與概念間的關(guān)系的集合。

在獲取目標(biāo)文本后,從目標(biāo)文本中獲取具有超鏈接功能的詞條,然后將詞條所指示概念與全量概念集合中的概念進(jìn)行比對(duì),若詞條所指示概念與全量概念集合中的某個(gè)概念相同,則將詞條所指示概念作為非核心概念,其中具有超鏈接功能的詞條是在觸發(fā)詞條后可以訪問到對(duì)詞條進(jìn)行解釋的文本。

此外,除上述獲取非核心概念的方式之外,還可以通過中文分詞技術(shù)對(duì)目標(biāo)文本進(jìn)行分詞處理,將得到的每個(gè)詞條所指示的概念與全量概念集合中的概念進(jìn)行比對(duì),若詞條所指示概念與全量概念集合中的某個(gè)概念相同,則將詞條所指示概念作為非核心概念。

例如,核心概念為“金融”時(shí),從其所在目標(biāo)文本中獲取的詞條有:“流通”,“演化金融學(xué)”,“演化證券學(xué)”,“票號(hào)”,“匯票”,“銀子”,“中介機(jī)構(gòu)”,“經(jīng)濟(jì)學(xué)家”,“貨幣”,“商品”,若這些詞條指示的概念均與全量概念集合中的某個(gè)概念相同,則將上述詞條指示的概念分別作為非核心概念,若某個(gè)詞條指示的概念與全量概念集合中的每個(gè)概念均不同,如“中介機(jī)構(gòu)”,則不能將其作為非核心概念。

103:獲取核心概念和非核心概念的相似度。其中相似度用于指示非核心概念與核心概念的相似程度,以確定非核心概念是否可以作為待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù)中的概念,核心概念和非核心概念的相似度可通過余弦相似度、皮爾森相似系數(shù)和Jaccard相似度來得到,介于Jaccard相似度的計(jì)算復(fù)雜度和計(jì)算效率優(yōu)于余弦相似度和皮爾森相似系數(shù),本發(fā)明實(shí)施例以Jaccard相似度對(duì)獲取核心概念和非核心概念的相似度進(jìn)行說明。

其中Jaccard相似度用于計(jì)算符號(hào)度量或布爾值度量的個(gè)體間的相似度,其對(duì)應(yīng)的計(jì)算公式如下:

其中表示a和o在X中的概念集合,a為核心概念,o為非核心概念,X為全量概念集合,即在本發(fā)明實(shí)施例中核心概念和非核心概念的相似度的計(jì)算可以是:分別獲取核心概念和非核心概念的概念集合,這兩個(gè)概念集合的交集中概念的數(shù)量除以并集中概念的數(shù)量即為核心概念和非核心概念的相似度。

例如,o指“金融”這個(gè)核心概念,O指“金融”在全量概念集合X中鏈接到的非核心概念的集合,例如上面提到的“流通”,“演化金融學(xué)”,“演化證券學(xué)”,“票號(hào)”,“匯票”,“銀子”,“中介機(jī)構(gòu)”,“經(jīng)濟(jì)學(xué)家”,“貨幣”,“商品”。

而a指“經(jīng)濟(jì)學(xué)家”這個(gè)非核心概念,A指“經(jīng)濟(jì)學(xué)家”在全量概念集合X中鏈接到的其他概念的集合,例如“貨幣”,“生產(chǎn)資料”,“分銷”,“經(jīng)濟(jì)學(xué)”,“商品”。那么,由于“貨幣”,“商品”是兩者的交集,則上述計(jì)算公式Sima,o分子為2。并集為“流通”,“演化金融學(xué)”,“演化證券學(xué)”,“票號(hào)”,“匯票”,“銀子”,“中介機(jī)構(gòu)”,“經(jīng)濟(jì)學(xué)家”,“貨幣”,“商品”,“生產(chǎn)資料”,“分銷”,“經(jīng)濟(jì)學(xué)”,則上述計(jì)算公式Sima,o分母為13,則兩者相似度為2/13≈0.154。

從上述計(jì)算公式Sima,o可知,核心概念和非核心概念的相似度的獲取過程如圖2所示,可以包括以下步驟:

201:獲取非核心概念所在目標(biāo)文本,從非核心概念所在目標(biāo)文本中獲取位于全量概念集合中的至少一個(gè)第一概念。

在本發(fā)明實(shí)施例中,至少一個(gè)第一概念的獲取方式與核心概念對(duì)應(yīng)的非核心概念的獲取方式相同,對(duì)此不再詳述,以“經(jīng)濟(jì)學(xué)家”這個(gè)非核心概念為例,獲取的至少一個(gè)第一概念分別有:“貨幣”,“生產(chǎn)資料”,“分銷”,“經(jīng)濟(jì)學(xué)”,“商品”。

202:獲取至少一個(gè)第一概念和核心概念對(duì)應(yīng)的至少一個(gè)非核心概念中相同的第一概念的數(shù)量以及至少一個(gè)第一概念和核心概念對(duì)應(yīng)的至少一個(gè)非核心概念中的概念總數(shù),其中概念總數(shù)為相同的第一概念的數(shù)量和至少一個(gè)第一概念和核心概念對(duì)應(yīng)的至少一個(gè)非核心概念中不同概念的數(shù)量之和。

以上述“金融”為核心概念,第一概念為通過金融這個(gè)核心概念中的經(jīng)濟(jì)學(xué)家這個(gè)非核心概念得到的概念,相應(yīng)的,金融這個(gè)核心概念對(duì)應(yīng)的至少一個(gè)非核心概念有:“流通”,“演化金融學(xué)”,“演化證券學(xué)”,“票號(hào)”,“匯票”,“銀子”,“中介機(jī)構(gòu)”,“經(jīng)濟(jì)學(xué)家”,“貨幣”,“商品”,經(jīng)濟(jì)學(xué)家這個(gè)非核心概念得到的至少一個(gè)第一概念有:“貨幣”,“生產(chǎn)資料”,“分銷”,“經(jīng)濟(jì)學(xué)”,“商品”,則這兩個(gè)概念集合中相同的第一概念為“貨幣、商品”,則相同的第一概念的數(shù)量為2,不同概念的數(shù)量為11,則概念總數(shù)為13。

203:根據(jù)相同的第一概念的數(shù)量和概念總數(shù),得到核心概念和非核心概念的相似度,以通過步驟202和步驟203實(shí)現(xiàn)根據(jù)第一概念和核心概念對(duì)應(yīng)的至少一個(gè)非核心概念,得到核心概念和非核心概念的相似度。

在這里需要說明的是:在需要得到核心概念和某個(gè)非核心概念的相似度時(shí),其根據(jù)的相同的第一概念的數(shù)量和概念總數(shù)是這個(gè)非核心概念對(duì)應(yīng)的信息,而非其他非核心概念對(duì)應(yīng)的信息,例如在需要得到核心概念“金融”與非核心概念“經(jīng)濟(jì)學(xué)家”的相似度時(shí),相同的第一概念的數(shù)量和概念總數(shù)是非核心概念“經(jīng)濟(jì)學(xué)家”對(duì)應(yīng)的信息。

104:判斷核心概念和非核心概念的相似度是否滿足預(yù)設(shè)條件,如果是,執(zhí)行步驟105,如果否,執(zhí)行步驟108。當(dāng)核心概念和非核心概念的相似度滿足預(yù)設(shè)條件時(shí),指示非核心概念是待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù)中的概念;當(dāng)核心概念和非核心概念的相似度不滿足預(yù)設(shè)條件時(shí),指示非核心概念不是待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù)中的概念。

在本發(fā)明實(shí)施例中,預(yù)設(shè)條件的一種可行方式是:非核心概念對(duì)全量概念集合的平均相似度,其獲取過程是:獲取非核心概念與全量概念集合中的每個(gè)概念的相似度,并根據(jù)非核心概念與全量概念集合中的每個(gè)概念的相似度,得到非核心概念對(duì)全量概念集合的平均相似度,具體的計(jì)算公式如下:

設(shè)全量概念集合為X={x1,x2,...xn},xi表示全量概念集合X中的第i個(gè)概念,則非核心概念a對(duì)于全量概念集合的平均相似度的公式如下:

Sim(a,xi)為非核心概念a與xi的相似度,其計(jì)算公式可以參閱Sima,o的計(jì)算公式,當(dāng)核心概念和非核心概念的相似度大于非核心概念對(duì)全量概念集合的平均相似度時(shí),判斷核心概念和非核心概念的相似度滿足預(yù)設(shè)條件,當(dāng)核心概念和非核心概念的相似度小于或等于非核心概念對(duì)全量概念集合的平均相似度時(shí),判斷核心概念和非核心概念的相似度不滿足預(yù)設(shè)條件。

105:當(dāng)核心概念和非核心概念的相似度滿足預(yù)設(shè)條件時(shí),判斷非核心概念是否與已存在于待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù)中的概念相同,如果否,執(zhí)行步驟106,如果是,執(zhí)行步驟107。

106:將滿足預(yù)設(shè)條件的非核心概念保留在待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù)中,并將非核心概念作為新的核心概念,獲取新的核心概念所在目標(biāo)文本,并繼續(xù)執(zhí)行步驟102。

107:舍棄滿足預(yù)設(shè)條件的非核心概念,并執(zhí)行步驟109。

當(dāng)核心概念和非核心概念的相似度滿足預(yù)設(shè)條件時(shí),指示非核心概念是待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù)中的概念,但是還需要進(jìn)一步判斷待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù)中是否已經(jīng)有與其相同的概念,如果是,則說明這個(gè)非核心概念已經(jīng)被寫入到領(lǐng)域知識(shí)庫(kù)中,此時(shí)可以執(zhí)行步驟107將其舍棄,以避免領(lǐng)域知識(shí)庫(kù)中概念的重復(fù),如果否,則說明這個(gè)非核心概念未被寫入到領(lǐng)域知識(shí)庫(kù)中,則執(zhí)行步驟106將其保留在領(lǐng)域知識(shí)庫(kù)中,并將其作為新的核心概念,獲取新的核心概念所在目標(biāo)文本中,繼續(xù)從新的核心概念所在目標(biāo)文本中獲取至少一個(gè)非核心概念,即繼續(xù)獲取待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù)中的其他概念,來完善領(lǐng)域知識(shí)庫(kù)。

在預(yù)設(shè)條件為非核心概念對(duì)全量概念集合的平均相似度時(shí),步驟107舍棄的是相似度大于非核心概念對(duì)全量概念集合的平均相似度的非核心概念,相應(yīng)的步驟106保留的是相似度大于非核心概念對(duì)全量概念集合的平均相似度的非核心概念,并可以將相似度大于非核心概念對(duì)全量概念集合的平均相似度的非核心概念作為新的核心概念。

108:舍棄不滿足預(yù)設(shè)條件的非核心概念,并執(zhí)行步驟109。當(dāng)核心概念和非核心概念的相似度不滿足預(yù)設(shè)條件時(shí),指示非核心概念不是待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù)中的概念,此時(shí)可以直接舍棄不滿足預(yù)設(shè)條件的非核心概念,如直接舍棄相似度小于或等于非核心概念對(duì)全量概念集合的平均相似度的非核心概念

109:在獲取到待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù)中的所有概念后,獲取任意兩個(gè)概念間的關(guān)系,從而獲得待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù),其中所有概念包括待構(gòu)建領(lǐng)域的所有核心概念和所有非核心概念。

在本發(fā)明實(shí)施例中,若通過步驟107和步驟108舍棄了步驟102獲取的所有非核心概念,表示剩余的所有非核心概念已經(jīng)被寫入到領(lǐng)域知識(shí)庫(kù)中,進(jìn)而說明獲取到領(lǐng)域知識(shí)庫(kù)中的所有概念,此時(shí)可以進(jìn)一步獲取任意兩個(gè)概念間的關(guān)系,完成領(lǐng)域知識(shí)庫(kù)的構(gòu)建。

若步驟106仍有非核心概念作為新的核心概念,說明仍有非核心概念未被寫入到領(lǐng)域知識(shí)庫(kù)中,則繼續(xù)將非核心概念作為新的核心概念,執(zhí)行步驟102,以完善領(lǐng)域知識(shí)庫(kù)。

在本發(fā)明實(shí)施例中,任意兩個(gè)概念間的關(guān)系可以是從屬關(guān)系或者同層次關(guān)系,如核心概念和核心概念下的非核心概念間的關(guān)系可以是從屬關(guān)系,而同一個(gè)核心概念的多個(gè)非核心概念間的關(guān)系可以是同層次關(guān)系。

當(dāng)然任意兩個(gè)概念間的關(guān)系可以以任意兩個(gè)概念間的相似度來指示,其中任意兩個(gè)概念間的相似度可通過余弦相似度、皮爾森相似系數(shù)和Jaccard相似度來得到,介于Jaccard相似度的計(jì)算復(fù)雜度和計(jì)算效率優(yōu)于余弦相似度和皮爾森相似系數(shù),本發(fā)明實(shí)施例以Jaccard相似度對(duì)獲取任意兩個(gè)概念間的相似度進(jìn)行說明。

設(shè)待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù)的概念集合為S,任意兩個(gè)概念中的一個(gè)概念為a,另一個(gè)概念為b,概念a和概念b間的相似度計(jì)算公式如下:

其中,表示a和b在S中的概念集合。

例如,待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù)中的概念有“金融”,“經(jīng)濟(jì)學(xué)家”,“經(jīng)濟(jì)學(xué)”,“貨幣”,“商品”,“股票”,“市場(chǎng)”。其中a為“經(jīng)濟(jì)學(xué)家”,A指以“經(jīng)濟(jì)學(xué)家”為核心概念,在領(lǐng)域知識(shí)庫(kù)的概念S中核心概念“經(jīng)濟(jì)學(xué)家”對(duì)應(yīng)的非核心概念的集合。本來,“經(jīng)濟(jì)學(xué)家”在作為核心概念時(shí)獲取的非核心概念有:“貨幣”,“生產(chǎn)資料”,“分銷”,“經(jīng)濟(jì)學(xué)”,“商品”,但是在經(jīng)過處理后保留在領(lǐng)域知識(shí)庫(kù)中的有:“貨幣”,“經(jīng)濟(jì)學(xué)”,“商品”,則A這個(gè)概念集合中包括“貨幣、經(jīng)濟(jì)學(xué)、商品”這三個(gè)概念。

b為“市場(chǎng)”,B指以“市場(chǎng)”為核心概念,在領(lǐng)域知識(shí)庫(kù)的概念S中核心概念“市場(chǎng)”對(duì)應(yīng)的非核心概念的集合。本來,“市場(chǎng)”在作為核心概念時(shí)獲取的非核心概念有:“股票”,“交易”,“價(jià)值”,“商品”,但是在經(jīng)過處理后保留在領(lǐng)域知識(shí)庫(kù)中的有:“股票”,“商品”,則B這個(gè)概念集合中包括“股票、商品”這三個(gè)概念。

那么,由于“商品”是集合A和集合B的交集,則計(jì)算公式Sima,b中分子為1。集合A和集合B的并集為“貨幣”,“經(jīng)濟(jì)學(xué)”,“商品”,“股票”,則計(jì)算公式Sima,b中分母為4,則概念a和概念b間的相似度為1/4≈0.25,由此,得到經(jīng)濟(jì)學(xué)家和市場(chǎng)的相似度關(guān)系為0.25。

通過上述計(jì)算公式可得出,在以任意兩個(gè)概念間的相似度來指示任意兩個(gè)概念間的關(guān)系時(shí),任意兩個(gè)概念間的關(guān)系的獲取方式可以是:獲取任意兩個(gè)概念各自對(duì)應(yīng)的非核心概念,獲取任意兩個(gè)概念各自對(duì)應(yīng)的非核心概念中相同概念的數(shù)量以及任意兩個(gè)概念中不同概念的數(shù)量,并根據(jù)相同概念的數(shù)量和不同概念的數(shù)量,得到任意兩個(gè)概念間的相似度,任意兩個(gè)概念間的相似度用于指示任意兩個(gè)概念間的相似程度。

藉由上述技術(shù)方案,在獲取當(dāng)前待構(gòu)建領(lǐng)域中的核心概念以及核心概念所在目標(biāo)文本后,可以從目標(biāo)文本中獲取至少一個(gè)非核心概念,并獲取核心概念和非核心概念的相似度,當(dāng)核心概念和非核心概念的相似度滿足預(yù)設(shè)條件時(shí),判斷非核心概念是否與已存在于待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù)中的概念相同,如果否則將滿足預(yù)設(shè)條件的非核心概念保留在待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù)中,并將非核心概念作為新的核心概念,獲取新的核心概念所在目標(biāo)文本,返回執(zhí)行從目標(biāo)文本中獲取至少一個(gè)非核心概念的步驟,在獲取到待構(gòu)建領(lǐng)域的知識(shí)庫(kù)中的所有概念后,獲取任意兩個(gè)概念間的關(guān)系,從而獲得待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù),實(shí)現(xiàn)待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù)的自動(dòng)構(gòu)建,這樣待構(gòu)建領(lǐng)域的專家或者從事編輯工作的人員就無需手動(dòng)構(gòu)建知識(shí)庫(kù)。在構(gòu)建任意一個(gè)領(lǐng)域的領(lǐng)域知識(shí)庫(kù)后,還可以通過構(gòu)建領(lǐng)域知識(shí)庫(kù)中的各個(gè)步驟來自動(dòng)更新知識(shí)庫(kù),使得人員無需了解知領(lǐng)域知識(shí)庫(kù)的相關(guān)內(nèi)容,降低領(lǐng)域知識(shí)庫(kù)的維護(hù)難度。

在這里需要說明的一點(diǎn)是:在獲取核心概念和非核心概念的相似度時(shí),若核心概念為第1次獲取的概念,即不是由得到的非核心概念作為的新的核心概念時(shí),可以通過上述計(jì)算公式Sima,o來得到,但是當(dāng)核心概念為將第i次獲取的非核心概念作為的新的核心概念時(shí),則需要考慮相似度傳遞,比如計(jì)算上述“經(jīng)濟(jì)學(xué)家”與“經(jīng)濟(jì)學(xué)”的相似度時(shí),在相似度公式中需要考慮“經(jīng)濟(jì)學(xué)家”與“金融”的相似度,其中1≤i≤N,N=M-1,M為獲取到所述待構(gòu)建領(lǐng)域的知識(shí)庫(kù)中的所有概念時(shí),獲取非核心概念的總次數(shù)。

之所以考慮相似度傳遞是因?yàn)殡S著傳遞層次的增加,獲取的非核心概念可能會(huì)與第1次獲取的核心概念無關(guān),對(duì)于這類非核心概念是不能寫入到領(lǐng)域知識(shí)庫(kù)中的,但是在不考慮相似度傳遞的情況下,這個(gè)非核心概念滿足本發(fā)明實(shí)施例設(shè)定的預(yù)設(shè)條件,從而會(huì)將其保留在領(lǐng)域知識(shí)庫(kù)中,導(dǎo)致領(lǐng)域知識(shí)庫(kù)中存在不屬于該領(lǐng)域的概念,為此本發(fā)明實(shí)施例考慮相似度傳遞,使得非核心概念與之前得到的核心概念通過其自身對(duì)應(yīng)的核心概念關(guān)聯(lián),降低領(lǐng)域知識(shí)庫(kù)中存在錯(cuò)誤概念的概率,相應(yīng)的,對(duì)于第i次獲取的非核心概念作為的新的核心概念,新的核心概念和非核心概念的相似度的計(jì)算過程如圖3所示,可以包括以下步驟:

301:從新的核心概念對(duì)應(yīng)的非核心概念所在目標(biāo)文本中獲取位于全量概念集合中的至少一個(gè)第二概念。在本發(fā)明實(shí)施例中,至少一個(gè)第二概念的獲取方式與核心概念對(duì)應(yīng)的非核心概念的獲取方式相同,對(duì)此不再詳述,仍以上述金融和經(jīng)濟(jì)學(xué)家為例,金融為第1次獲取的核心概念,經(jīng)濟(jì)學(xué)家為第1次得到的非核心概念,可以將其作為新的核心概念,在經(jīng)濟(jì)學(xué)家作為新的核心概念時(shí),得到的非核心概念有:“貨幣”,“生產(chǎn)資料”,“分銷”,“經(jīng)濟(jì)學(xué)”,“商品”,然后獲取每個(gè)非核心概念所在目標(biāo)文本中位于全量概念集合中的至少一個(gè)第二概念,即獲取每個(gè)非核心概念的第二概念的集合。

302:獲取至少一個(gè)第二概念和新的核心概念對(duì)應(yīng)的至少一個(gè)非核心概念中相同的第二概念的數(shù)量以及至少一個(gè)第二概念和新的核心概念對(duì)應(yīng)的至少一個(gè)非核心概念中的概念總數(shù),其中至少一個(gè)第二概念和新的核心概念對(duì)應(yīng)的至少一個(gè)非核心概念中的概念總數(shù)為相同的第二概念的數(shù)量和至少一個(gè)第二概念和新的核心概念對(duì)應(yīng)的至少一個(gè)非核心概念中不同概念的數(shù)量之和。

可以理解的是:獲取至少一個(gè)第二概念和新的核心概念對(duì)應(yīng)的至少一個(gè)非核心概念中相同的第二概念的數(shù)量以及至少一個(gè)第二概念和新的核心概念對(duì)應(yīng)的至少一個(gè)非核心概念中的概念總數(shù)是:以每個(gè)第二概念的集合為單位,獲取每個(gè)第二概念的集合和新的核心概念對(duì)應(yīng)的至少一個(gè)非核心概念中相同的第二概念的數(shù)量和不同的第二概念的數(shù)量,這樣通過每個(gè)第二概念的集合的相同的第二概念的數(shù)量和不同的第二概念的數(shù)量,得到對(duì)應(yīng)的第二概念的集合的概念總數(shù)。

303:根據(jù)相同的第二概念的數(shù)量和至少一個(gè)第二概念和新的核心概念對(duì)應(yīng)的至少一個(gè)非核心概念中的概念總數(shù),得到新的核心概念和新的核心概念對(duì)應(yīng)的非核心概念的第一相似度,其相應(yīng)的計(jì)算公式為:

其中,bn為第n次獲取的新的核心概念,其對(duì)應(yīng)的非核心概念為a,表示a和bn在S中的概念集合,A∩C表示相同的第二概念的數(shù)量,A∪C表示至少一個(gè)第二概念和新的核心概念對(duì)應(yīng)的至少一個(gè)非核心概念中的概念總數(shù)。

304:根據(jù)第一相似度和第i次獲取的相似度,得到新的核心概念和新的核心概念對(duì)應(yīng)的非核心概念的相似度,以通過步驟302至步驟304實(shí)現(xiàn)根據(jù)至少一個(gè)第二概念、新的核心概念對(duì)應(yīng)的至少一個(gè)非核心概念和第i次獲取的相似度,得到新的核心概念和新的核心概念對(duì)應(yīng)的非核心概念的相似度,其中第i次獲取的相似度是第i次獲取的非核心概念對(duì)應(yīng)的核心概念和第i次獲取的非核心概念之間的相似度。

下面以全量概念集合為X,第1次獲取的核心概念為o,非核心概念為a,作為新的核心概念的集合為B,且B={b1,b2,...bn},其中bi為第i次獲取的新的核心概念,則b1為第1次獲取的新的核心概念,即核心概念o得到的非核心概念所作為的新的核心概念,則o和a的相似度公式如下:

其中為第i次獲取的相似度。

在這里需要說明的一點(diǎn)是:在確定待構(gòu)建領(lǐng)域中的核心概念時(shí),可能會(huì)確定多個(gè)核心概念,為此可以從多個(gè)核心概念中選取一個(gè)核心概念,并獲取所選取的核心概念所在目標(biāo)文本,當(dāng)然也可以并行或依次對(duì)多個(gè)核心概念進(jìn)行處理,在并行或依次對(duì)多個(gè)核心概念進(jìn)行處理時(shí),在獲取到任意一個(gè)核心概念的非核心概念后,需要與其他核心概念對(duì)應(yīng)的非核心概念進(jìn)行比對(duì),以僅對(duì)任意兩個(gè)或多個(gè)核心概念中的非核心概念中的一個(gè)非核心概念進(jìn)行處理。

對(duì)于前述的各方法實(shí)施例,為了簡(jiǎn)單描述,故將其都表述為一系列的動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動(dòng)作順序的限制,因?yàn)橐罁?jù)本發(fā)明,某些步驟可以采用順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動(dòng)作和模塊并不一定是本發(fā)明所必須的。

請(qǐng)參閱圖4,其示出了本發(fā)明實(shí)施例提供的領(lǐng)域知識(shí)庫(kù)構(gòu)建裝置的結(jié)構(gòu),可以包括:第一獲取單元11、第二獲取單元12、第一計(jì)算單元13、處理單元14和第二計(jì)算單元15。

第一獲取單元11,用于獲取當(dāng)前待構(gòu)建領(lǐng)域中的核心概念以及核心概念所在目標(biāo)文本。

其中待構(gòu)建領(lǐng)域是從全量知識(shí)庫(kù)中提取出的某個(gè)特定領(lǐng)域,核心概念則是待構(gòu)建領(lǐng)域中具有代表性的概念,如從全量知識(shí)庫(kù)中提取出的金融領(lǐng)域來作為待構(gòu)建領(lǐng)域時(shí),可以將“金融”這個(gè)用戶公知的詞條作為金融領(lǐng)域的核心概念。而核心概念所在目標(biāo)文本可以是某個(gè)網(wǎng)站中對(duì)核心概念進(jìn)行解釋的文本,如核心概念為“金融”時(shí),其所在目標(biāo)文本可以是百度百科或維基百科對(duì)金融進(jìn)行解釋的文本。

對(duì)于如何確定核心概念和全量知識(shí)庫(kù)的獲取方式可以參閱方法實(shí)施例中的相關(guān)說明,對(duì)此本發(fā)明實(shí)施例不再闡述。

第二獲取單元12,用于從目標(biāo)文本中獲取至少一個(gè)非核心概念,非核心概念為從目標(biāo)文本中提取出的位于全量概念集合中的概念,全量概念集合為待構(gòu)建領(lǐng)域和領(lǐng)域中核心概念和非核心概念的集合,因此上述全量知識(shí)庫(kù)可以是全量概念集合與概念間的關(guān)系的集合,對(duì)于第二獲取單元12來說,其獲取至少一個(gè)非核心概念的方式請(qǐng)參閱方法實(shí)施例中的相關(guān)說明,對(duì)此本發(fā)明實(shí)施例不再闡述。

第一計(jì)算單元13,用于獲取核心概念和非核心概念的相似度。其中相似度用于指示非核心概念與核心概念的相似程度,以確定非核心概念是否可以作為待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù)中的概念,核心概念和非核心概念的相似度可通過余弦相似度、皮爾森相似系數(shù)和Jaccard相似度來得到,介于Jaccard相似度的計(jì)算復(fù)雜度和計(jì)算效率優(yōu)于余弦相似度和皮爾森相似系數(shù),本發(fā)明實(shí)施例以Jaccard相似度對(duì)獲取核心概念和非核心概念的相似度進(jìn)行說明。

相應(yīng)的,當(dāng)核心概念為第1次獲取的概念時(shí),第一計(jì)算單元13用于獲取非核心概念所在目標(biāo)文本,從非核心概念所在目標(biāo)文本中獲取位于全量概念集合中的至少一個(gè)第一概念,并根據(jù)至少一個(gè)第一概念和核心概念對(duì)應(yīng)的至少一個(gè)非核心概念,得到核心概念和非核心概念的相似度。

當(dāng)核心概念為將第i次獲取的非核心概念作為的新的核心概念時(shí),第一計(jì)算單元13用于從新的核心概念對(duì)應(yīng)的非核心概念所在目標(biāo)文本中獲取位于全量概念集合中的至少一個(gè)第二概念,并根據(jù)至少一個(gè)第二概念、新的核心概念對(duì)應(yīng)的至少一個(gè)非核心概念和第i次獲取的相似度,得到新的核心概念和新的核心概念對(duì)應(yīng)的非核心概念的相似度,以將第i次獲取的相似度傳遞到第i次獲取的非核心概念作為的新的核心概念對(duì)應(yīng)的相似度,使得非核心概念與之前得到的核心概念通過其自身對(duì)應(yīng)的核心概念關(guān)聯(lián),降低領(lǐng)域知識(shí)庫(kù)中存在錯(cuò)誤概念的概率。

其中第i次獲取的相似度是第i次獲取的非核心概念對(duì)應(yīng)的核心概念和第i次獲取的非核心概念之間的相似度,1≤i≤N,N=M-1,M為獲取到待構(gòu)建領(lǐng)域的知識(shí)庫(kù)中的所有概念時(shí),獲取非核心概念的總次數(shù)。

相對(duì)應(yīng)的,第一計(jì)算單元13的結(jié)構(gòu)如圖5所示,可以包括:第一獲取子單元131、第二獲取子單元132、第一計(jì)算子單元133、第三獲取子單元134、第二計(jì)算子單元135和第三計(jì)算子單元136。

第一獲取子單元131,用于當(dāng)核心概念為第1次獲取的概念時(shí),獲取非核心概念所在目標(biāo)文本,從非核心概念所在目標(biāo)文本中獲取位于全量概念集合中的至少一個(gè)第一概念,以及用于當(dāng)核心概念為將第i次獲取的非核心概念作為的新的核心概念時(shí),從新的核心概念對(duì)應(yīng)的非核心概念所在目標(biāo)文本中獲取位于全量概念集合中的至少一個(gè)第二概念。

第二獲取子單元132,用于獲取至少一個(gè)第一概念和核心概念對(duì)應(yīng)的至少一個(gè)非核心概念中相同的第一概念的數(shù)量以及至少一個(gè)第一概念和核心概念對(duì)應(yīng)的至少一個(gè)非核心概念中的概念總數(shù),其中概念總數(shù)為相同的第一概念的數(shù)量和至少一個(gè)第一概念和核心概念對(duì)應(yīng)的至少一個(gè)非核心概念中不同概念的數(shù)量之和。

第一計(jì)算子單元133,用于根據(jù)相同的第一概念的數(shù)量和概念總數(shù),得到核心概念和非核心概念的相似度。

第三獲取子單元134,用于獲取至少一個(gè)第二概念和新的核心概念對(duì)應(yīng)的至少一個(gè)非核心概念中相同的第二概念的數(shù)量以及至少一個(gè)第二概念和新的核心概念對(duì)應(yīng)的至少一個(gè)非核心概念中的概念總數(shù),其中至少一個(gè)第二概念和新的核心概念對(duì)應(yīng)的至少一個(gè)非核心概念中的概念總數(shù)為相同的第二概念的數(shù)量和至少一個(gè)第二概念和新的核心概念對(duì)應(yīng)的至少一個(gè)非核心概念中不同概念的數(shù)量之和。

第二計(jì)算子單元135,用于根據(jù)相同的第二概念的數(shù)量和至少一個(gè)第二概念和新的核心概念對(duì)應(yīng)的至少一個(gè)非核心概念中的概念總數(shù),得到新的核心概念和新的核心概念對(duì)應(yīng)的非核心概念的第一相似度。

第三計(jì)算子單元136,用于根據(jù)第一相似度和第i次獲取的相似度,得到新的核心概念和新的核心概念對(duì)應(yīng)的非核心概念的相似度。

在本發(fā)明實(shí)施例中,第一獲取子單元131、第二獲取子單元132、第一計(jì)算子單元133、第三獲取子單元134、第二計(jì)算子單元135和第三計(jì)算子單元136的具體執(zhí)行過程以及示例說明,請(qǐng)參閱方法實(shí)施例部分的相關(guān)說明,對(duì)此本發(fā)明實(shí)施例不再闡述。

處理單元14,用于當(dāng)核心概念和非核心概念的相似度滿足預(yù)設(shè)條件時(shí),判斷非核心概念是否與已存在于待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù)中的概念相同,如果否,則將滿足預(yù)設(shè)條件的非核心概念保留在待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù)中,并將非核心概念作為新的核心概念,觸發(fā)第一獲取單元11,如果是,則舍棄滿足預(yù)設(shè)條件的非核心概念。

在本發(fā)明實(shí)施例中,預(yù)設(shè)條件的一種可行方式是:非核心概念對(duì)全量概念集合的平均相似度,相應(yīng)的處理單元14的結(jié)構(gòu)如圖6所示,可以包括:第四計(jì)算子單元141、第五計(jì)算子單元142、判斷子單元143和處理子單元144。

第四計(jì)算子單元141,用于獲取非核心概念與全量概念集合中的每個(gè)概念的相似度。

第五計(jì)算子單元142,用于根據(jù)非核心概念與全量概念集合中的每個(gè)概念的相似度,得到非核心概念對(duì)全量概念集合的平均相似度。

判斷子單元143,用于當(dāng)核心概念和非核心概念的相似度大于非核心概念對(duì)全量概念集合的平均相似度時(shí),判斷非核心概念是否與已存在于待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù)中的概念相同。

處理子單元144,用于當(dāng)非核心概念與已存在于待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù)中的概念不相同時(shí),將相似度大于非核心概念對(duì)全量概念集合的平均相似度的非核心概念保留在待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù)中,并將非核心概念作為新的核心概念,觸發(fā)第一獲取單元11,以及用于當(dāng)非核心概念與已存在于待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù)中的概念相同時(shí),則舍棄相似度大于非核心概念對(duì)全量概念集合的平均相似度的非核心概念。

在本發(fā)明實(shí)施例中,第四計(jì)算子單元141、第五計(jì)算子單元142、判斷子單元143和處理子單元144的具體執(zhí)行過程請(qǐng)參閱方法實(shí)施例部分的相關(guān)說明,對(duì)此本發(fā)明實(shí)施例不再闡述。

第二計(jì)算單元15,用于在獲取到待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù)中的所有概念后,獲取任意兩個(gè)概念間的關(guān)系,從而獲得待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù),所有概念包括待構(gòu)建領(lǐng)域的所有核心概念和所有非核心概念。

可選的,第二計(jì)算單元15,用于獲取任意兩個(gè)概念各自對(duì)應(yīng)的非核心概念,獲取任意兩個(gè)概念各自對(duì)應(yīng)的非核心概念中相同概念的數(shù)量以及任意兩個(gè)概念中不同概念的數(shù)量,并根據(jù)相同概念的數(shù)量和不同概念的數(shù)量,得到任意兩個(gè)概念間的相似度,任意兩個(gè)概念間的相似度用于指示任意兩個(gè)概念間的相似程度,具體執(zhí)行過程和示例說明,請(qǐng)參閱方法實(shí)施例部分的相關(guān)說明,對(duì)此本發(fā)明實(shí)施例不再闡述。

藉由上述技術(shù)方案,在獲取當(dāng)前待構(gòu)建領(lǐng)域中的核心概念以及核心概念所在目標(biāo)文本后,可以從目標(biāo)文本中獲取至少一個(gè)非核心概念,并獲取核心概念和非核心概念的相似度,當(dāng)核心概念和非核心概念的相似度滿足預(yù)設(shè)條件時(shí),判斷非核心概念是否與已存在于待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù)中的概念相同,如果否則將滿足預(yù)設(shè)條件的非核心概念保留在待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù)中,并將非核心概念作為新的核心概念,獲取新的核心概念所在目標(biāo)文本,返回執(zhí)行從目標(biāo)文本中獲取至少一個(gè)非核心概念的步驟,在獲取到待構(gòu)建領(lǐng)域的知識(shí)庫(kù)中的所有概念后,獲取任意兩個(gè)概念間的關(guān)系,從而獲得待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù),實(shí)現(xiàn)待構(gòu)建領(lǐng)域的領(lǐng)域知識(shí)庫(kù)的自動(dòng)構(gòu)建,這樣待構(gòu)建領(lǐng)域的專家或者從事編輯工作的人員就無需手動(dòng)構(gòu)建知識(shí)庫(kù)。在構(gòu)建任意一個(gè)領(lǐng)域的領(lǐng)域知識(shí)庫(kù)后,還可以通過構(gòu)建領(lǐng)域知識(shí)庫(kù)中的各個(gè)步驟來自動(dòng)更新知識(shí)庫(kù),使得人員無需了解知領(lǐng)域知識(shí)庫(kù)的相關(guān)內(nèi)容,降低領(lǐng)域知識(shí)庫(kù)的維護(hù)難度。

需要說明的是,本說明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說明的都是與實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似的部分互相參見即可。對(duì)于裝置類實(shí)施例而言,由于其與方法實(shí)施例基本相似,所以描述的比較簡(jiǎn)單,相關(guān)之處參見方法實(shí)施例的部分說明即可。

最后,還需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語(yǔ)僅僅用來將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語(yǔ)“包括”、“包含”或者其任何變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語(yǔ)句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。

對(duì)所公開的實(shí)施例的上述說明,使本領(lǐng)域技術(shù)人員能夠?qū)崿F(xiàn)或使用本發(fā)明。對(duì)這些實(shí)施例的多種修改對(duì)本領(lǐng)域技術(shù)人員來說將是顯而易見的,本文中所定義的一般原理可以在不脫離本發(fā)明的精神或范圍的情況下,在其它實(shí)施例中實(shí)現(xiàn)。因此,本發(fā)明將不會(huì)被限制于本文所示的這些實(shí)施例,而是要符合與本文所公開的原理和新穎特點(diǎn)相一致的最寬的范圍。

以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也應(yīng)視為本發(fā)明的保護(hù)范圍。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
双鸭山市| 太康县| 澜沧| 娱乐| 名山县| 衡水市| 象山县| 诸城市| 潍坊市| 上杭县| 定日县| 桃江县| 娄底市| 永平县| 四子王旗| 丰城市| 苍溪县| 泽库县| 会同县| 棋牌| 全南县| 久治县| 九龙城区| 竹山县| 达拉特旗| 长海县| 郴州市| 泸西县| 太保市| 太仓市| 柳江县| 江门市| 休宁县| 黄山市| 菏泽市| 石楼县| 容城县| 融水| 南康市| 保亭| 翁源县|