一種獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的方法及系統(tǒng)的制作方法
【專(zhuān)利摘要】本發(fā)明中提供一種獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的方法及系統(tǒng),先通過(guò)領(lǐng)域內(nèi)的數(shù)字資源來(lái)獲得候選知識(shí)點(diǎn),然后再獲得候選知識(shí)點(diǎn)的語(yǔ)義向量,通過(guò)計(jì)算領(lǐng)域知識(shí)點(diǎn)與候選知識(shí)點(diǎn)的相似度,來(lái)獲得與每個(gè)領(lǐng)域知識(shí)點(diǎn)相關(guān)的候選知識(shí)點(diǎn),作為目標(biāo)知識(shí)點(diǎn)。這樣,就可以得到每個(gè)領(lǐng)域知識(shí)點(diǎn)相關(guān)的若干個(gè)目標(biāo)知識(shí)點(diǎn)。在建設(shè)百科目錄的詞條時(shí),可以查找每個(gè)領(lǐng)域知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)是否已經(jīng)存在,如不存在,則需要增加。通過(guò)這種方式來(lái)完成領(lǐng)域百科全書(shū)的詞條的檢查和建設(shè)。大大降低了人工的工作量,節(jié)約了時(shí)間成本和人工成本,且避免了人工檢查的主觀性和標(biāo)準(zhǔn)不統(tǒng)一帶來(lái)的不準(zhǔn)確性,大大提高了效率和準(zhǔn)確度。
【專(zhuān)利說(shuō)明】
一種獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的方法及系統(tǒng)
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及一種電數(shù)字?jǐn)?shù)據(jù)處理領(lǐng)域,具體地說(shuō)是一種獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn) 的方法。
【背景技術(shù)】
[0002] 數(shù)字出版資源已成為信息提供的主要方式之一。人們已從紙質(zhì)閱讀大量地轉(zhuǎn)向電 子閱讀。數(shù)字出版資源包含電子圖書(shū)、數(shù)字百科全書(shū)、數(shù)字期刊、數(shù)字報(bào)刊等。數(shù)字出版資 源提供的信息通常比互聯(lián)網(wǎng)更加權(quán)威和正確。因此,如何根據(jù)數(shù)字出版資源的特點(diǎn)提高人 們學(xué)習(xí)或閱讀體驗(yàn)變得尤為重要。
[0003] 百科全書(shū)(Encyclopedia)是介紹人類(lèi)的全部知識(shí)或某一類(lèi)知識(shí)的工具書(shū)。往往 按照辭典形式編排(以條目為基本單元),收集各知識(shí)領(lǐng)域的名詞、熟語(yǔ)、地名、事件、人物、 著作等。百科全書(shū)可以是綜合性的,包含所有領(lǐng)域的相關(guān)內(nèi)容(例如,《大不列顛百科全書(shū)》 就是一部著名的綜合性百科全書(shū))。也可以是專(zhuān)業(yè)性的百科全書(shū),如某一個(gè)領(lǐng)域的百科全 書(shū),像歷史百科全書(shū)、軍事百科全書(shū)等,這種某一個(gè)領(lǐng)域的百科全書(shū)稱(chēng)為領(lǐng)域百科全書(shū)。百 科全書(shū)被視為是一個(gè)國(guó)家和一個(gè)時(shí)代科學(xué)文化發(fā)展的標(biāo)志。
[0004] 領(lǐng)域百科全書(shū)將海量的信息分類(lèi),為用戶提供更有針對(duì)性的資源。領(lǐng)域百科全書(shū) 也是一種重要的數(shù)字出版資源。領(lǐng)域百科全書(shū)通常以詞條的方式組織領(lǐng)域信息。領(lǐng)域百科 全書(shū)需要包含領(lǐng)域內(nèi)的重要詞條。然而,建設(shè)領(lǐng)域百科全書(shū)需要大量人力投入。由于領(lǐng)域 詞條數(shù)目較多,因此通過(guò)人工的方式尋找合適的領(lǐng)域詞條不僅耗時(shí),而且容易遺漏一些很 相關(guān)的領(lǐng)域詞條。如何確定相關(guān)的這些詞條是否都已經(jīng)收錄是一項(xiàng)很重要的工作,但是實(shí) 現(xiàn)起來(lái)需要花費(fèi)大量的人力和時(shí)間。
[0005] Distributed words representations (分布式詞語(yǔ)表不)在 Rumelhar,D. E., Hinton, G. E. , Williams, R. J. :Learning Represenations by Back-propagating Errors. Nature 323(6088) :pp533-536 (1986)中首次提出,該思想將詞語(yǔ)表示成連續(xù)向 量(continuous vectors),且在向量空間中,相似詞語(yǔ)的距離更近。Feedforward neural network (前饋神經(jīng)網(wǎng)絡(luò))是用于學(xué)習(xí)詞向量和語(yǔ)言模型的方法(見(jiàn)Bengio,Y.,Ducharme, R. , Vincent, P. :A Neural Probabilistic Language Model. Journal of Machine Learning Research 3, ppl 137-1155 (2003))。近來(lái),Mikolov 提出 了使用 skip-gram或 CB0W 模型,通過(guò)在大量文本上訓(xùn)練簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)在短時(shí)間內(nèi)得到詞語(yǔ)向量。雖然關(guān)于語(yǔ)義向 量在理論上已經(jīng)有一些研究,但是仍然缺少該技術(shù)的應(yīng)用推廣。
【發(fā)明內(nèi)容】
[0006] 為此,本發(fā)明所要解決的技術(shù)問(wèn)題在于現(xiàn)有技術(shù)中獲取相關(guān)詞條需要人為篩選、 工作量大、客觀性差的問(wèn)題,從而提出一種根據(jù)語(yǔ)義向量來(lái)確定相關(guān)知識(shí)點(diǎn)的方法。
[0007] 為解決上述技術(shù)問(wèn)題,本發(fā)明的提供一種獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的方法和系 統(tǒng)。
[0008] -種獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的方法,包括
[0009] 對(duì)文本進(jìn)行分詞,得到分詞結(jié)果;
[0010] 根據(jù)分詞結(jié)果和常用詞,確定候選知識(shí)點(diǎn);
[0011] 確定每個(gè)候選知識(shí)點(diǎn)的語(yǔ)義向量;
[0012] 獲取領(lǐng)域知識(shí)點(diǎn);
[0013] 對(duì)于每個(gè)領(lǐng)域知識(shí)點(diǎn),計(jì)算該領(lǐng)域知識(shí)點(diǎn)與候選知識(shí)點(diǎn)的語(yǔ)義相似度;
[0014] 根據(jù)計(jì)算出的語(yǔ)義相似度,確定與該領(lǐng)域知識(shí)點(diǎn)相關(guān)的目標(biāo)知識(shí)點(diǎn)。
[0015] -種獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的系統(tǒng),包括:
[0016] 分詞單元:對(duì)文本進(jìn)行分詞,得到分詞結(jié)果;
[0017] 候選單元:根據(jù)分詞結(jié)果和常用詞,確定候選知識(shí)點(diǎn);
[0018] 語(yǔ)義向量計(jì)算單元:確定每個(gè)候選知識(shí)點(diǎn)的語(yǔ)義向量;
[0019] 提取單元:獲取領(lǐng)域知識(shí)點(diǎn);
[0020] 相似度計(jì)算單元:對(duì)于每個(gè)領(lǐng)域知識(shí)點(diǎn),計(jì)算該領(lǐng)域知識(shí)點(diǎn)與候選知識(shí)點(diǎn)的語(yǔ)義 相似度;
[0021] 相關(guān)知識(shí)點(diǎn)計(jì)算單元:根據(jù)計(jì)算出的語(yǔ)義相似度,確定與該領(lǐng)域知識(shí)點(diǎn)相關(guān)的目 標(biāo)知識(shí)點(diǎn)。
[0022] 本發(fā)明的上述技術(shù)方案相比現(xiàn)有技術(shù)具有以下優(yōu)點(diǎn),
[0023] (1)本發(fā)明提供一種獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的方法,先通過(guò)領(lǐng)域內(nèi)的數(shù)字資源 來(lái)獲得候選知識(shí)點(diǎn),然后再獲得候選知識(shí)點(diǎn)的語(yǔ)義向量,通過(guò)計(jì)算領(lǐng)域知識(shí)點(diǎn)與候選知識(shí) 點(diǎn)的相似度,來(lái)獲得與每個(gè)領(lǐng)域知識(shí)點(diǎn)相關(guān)的候選知識(shí)點(diǎn),作為目標(biāo)知識(shí)點(diǎn)。這樣,就可以 得到每個(gè)領(lǐng)域知識(shí)點(diǎn)相關(guān)的若干個(gè)目標(biāo)知識(shí)點(diǎn)。在建設(shè)百科目錄的詞條時(shí),可以查找每個(gè) 領(lǐng)域知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)是否已經(jīng)存在,如不存在,則需要增加。通過(guò)這種方式來(lái)完成領(lǐng)域 百科全書(shū)的詞條的檢查和建設(shè)。大大降低了人工的工作量,節(jié)約了時(shí)間成本和人工成本,且 避免了人工檢查的主觀性和標(biāo)準(zhǔn)不統(tǒng)一帶來(lái)的不準(zhǔn)確性,大大提高了效率和準(zhǔn)確度。
[0024] (2)本發(fā)明所述的獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的方法,獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)過(guò) 程中,采用計(jì)算候選知識(shí)點(diǎn)語(yǔ)義向量的方法,將知識(shí)點(diǎn)的語(yǔ)義信息進(jìn)行量化,通過(guò)數(shù)字化的 方式來(lái)體現(xiàn)其語(yǔ)義特征,這樣,在后續(xù)對(duì)知識(shí)點(diǎn)進(jìn)行分析時(shí),可以更加方便,為知識(shí)點(diǎn)搜索、 推薦、信息過(guò)濾等應(yīng)用提供基礎(chǔ)。
[0025] (3)本發(fā)明還提供一種獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的系統(tǒng),包括分詞單元、候選單 元、語(yǔ)義向量計(jì)算單元、提取單元、相似度計(jì)算單元以及相關(guān)知識(shí)點(diǎn)計(jì)算單元,采用計(jì)算語(yǔ) 義向量的方式,通過(guò)計(jì)算得到領(lǐng)域知識(shí)點(diǎn)與候選知識(shí)點(diǎn)的相似度,來(lái)獲得與每個(gè)領(lǐng)域知識(shí) 點(diǎn)相關(guān)的候選知識(shí)點(diǎn),從而得到每個(gè)領(lǐng)域知識(shí)點(diǎn)相關(guān)的若干個(gè)目標(biāo)知識(shí)點(diǎn)。在建設(shè)百科目 錄的詞條時(shí),可以查找每個(gè)領(lǐng)域知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)是否已經(jīng)存在,如不存在,則需要增 加。通過(guò)這種方式來(lái)完成領(lǐng)域百科全書(shū)的詞條的檢查和建設(shè),大大降低了人工的工作量。
【附圖說(shuō)明】
[0026] 為了使本發(fā)明的內(nèi)容更容易被清楚的理解,下面根據(jù)本發(fā)明的具體實(shí)施例并結(jié)合 附圖,對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明,其中
[0027] 圖1是實(shí)施例1中獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的方法的流程圖;
[0028] 圖2是實(shí)施例2中計(jì)算候選知識(shí)點(diǎn)的語(yǔ)義向量的流程圖;
[0029] 圖3是實(shí)施例2中skip-gram模型的示意圖;
[0030] 圖4是實(shí)施例2中CB0W模型的示意圖;
[0031 ] 圖5是實(shí)施例4中獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的系統(tǒng)的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0032] 實(shí)施例1 :
[0033] 本實(shí)施例中,提供一種獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的方法,通過(guò)該方法獲取領(lǐng)域內(nèi) 所有的知識(shí)點(diǎn)的相關(guān)的知識(shí)點(diǎn),然后根據(jù)得到的這些相關(guān)知識(shí)點(diǎn),針對(duì)建立的領(lǐng)域百科全 書(shū)中的詞條進(jìn)行查漏補(bǔ)缺,來(lái)進(jìn)一步完善,具有非常好的指導(dǎo)價(jià)值。
[0034] 該獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的方法,流程圖如圖1所示,具體過(guò)程如下:
[0035] 首先,對(duì)文本進(jìn)行分詞,得到分詞結(jié)果。此處的文本選擇領(lǐng)域內(nèi)的一些數(shù)字資源, 為了使得其涵蓋的知識(shí)點(diǎn)足夠廣泛,一般會(huì)多選擇一些本領(lǐng)域內(nèi)的電子數(shù)字資源。選定領(lǐng) 域數(shù)字資源后,從中抽取文本,然后分詞,通過(guò)分詞后,得到大量的詞語(yǔ),這些詞語(yǔ)既包括本 領(lǐng)域中的一些知識(shí)點(diǎn),也包括一些常用的詞語(yǔ),如你們、他們、吃飯等等。將分詞后的文件, 作為候選文件。
[0036] 然后,根據(jù)分詞結(jié)果和常用詞,確定候選知識(shí)點(diǎn)。由于常用詞是經(jīng)常使用的一系列 的詞語(yǔ),通過(guò)在上述分詞結(jié)果中,把這部分詞語(yǔ)去除,就獲得了和領(lǐng)域相關(guān)的詞語(yǔ),將這些 詞語(yǔ)作為候選知識(shí)點(diǎn)。此處的常用詞是現(xiàn)有技術(shù)中已經(jīng)確定好的常用詞。在其他的實(shí)施方 式中,還可以通過(guò)如下方法來(lái)確定常用詞:選擇常用文本的數(shù)字資源,如生活報(bào)紙、生活雜 志等數(shù)字資源,對(duì)其進(jìn)行分詞(采用停用詞表去除停用詞,例如采用哈工大停用詞表),將 在較多文本中出現(xiàn)的詞語(yǔ)確定為常用詞。在候選文件中去除常用詞后,得到的就是本領(lǐng)域 中的詞語(yǔ),作為候選知識(shí)點(diǎn)。
[0037] 接著,計(jì)算每個(gè)候選知識(shí)點(diǎn)的語(yǔ)義向量。計(jì)算語(yǔ)義向量的方法可以采用現(xiàn)有技術(shù) 中的方法,通過(guò)計(jì)算語(yǔ)義向量的方式,將每個(gè)知識(shí)點(diǎn)通過(guò)語(yǔ)義量化的方式來(lái)數(shù)字化表示。
[0038] 然后,再獲取領(lǐng)域知識(shí)點(diǎn)。此處的領(lǐng)域知識(shí)點(diǎn)可以是領(lǐng)域百科全書(shū)中已經(jīng)構(gòu)建好 的知識(shí)點(diǎn)詞條。
[0039] 接著,對(duì)于每個(gè)領(lǐng)域知識(shí)點(diǎn),計(jì)算該領(lǐng)域知識(shí)點(diǎn)與候選知識(shí)點(diǎn)的語(yǔ)義相似度。由 于候選知識(shí)點(diǎn)通過(guò)領(lǐng)域內(nèi)的大量的數(shù)字資源來(lái)獲得,因此我們認(rèn)為該候選知識(shí)點(diǎn)中涵蓋了 領(lǐng)域知識(shí)點(diǎn)中的所有知識(shí)點(diǎn),在該候選知識(shí)點(diǎn)中即可以查找得到各個(gè)領(lǐng)域知識(shí)點(diǎn)的語(yǔ)義向 量,再計(jì)算其與每個(gè)候選知識(shí)點(diǎn)的語(yǔ)義相似度。
[0040] 此處的語(yǔ)義相似度的計(jì)算方法為:
[0042] 其中,X、Y為需要比較相似度的兩個(gè)m列的向量,其中一個(gè)為領(lǐng)域知識(shí)點(diǎn)的語(yǔ)義向 量,另一個(gè)為候選知識(shí)點(diǎn)的語(yǔ)義向量,f(X,Y)為X、Y的語(yǔ)義相似度。
[0043] 這樣,就得到了所有領(lǐng)域知識(shí)點(diǎn)與所有候選知識(shí)點(diǎn)的語(yǔ)義相似度。
[0044] 最后,根據(jù)計(jì)算出的語(yǔ)義相似度,確定與該領(lǐng)域知識(shí)點(diǎn)相關(guān)的目標(biāo)知識(shí)點(diǎn)。可以將 該領(lǐng)域知識(shí)點(diǎn)與其他候選知識(shí)點(diǎn)的相似度降序排列,選擇排序在前的一定數(shù)量的候選知識(shí) 點(diǎn)作為該領(lǐng)域知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)。作為可以替換的實(shí)施方式,也可以預(yù)先設(shè)置一個(gè)相似 度閾值,選取相似度大于該閾值的候選知識(shí)點(diǎn)作為該領(lǐng)域知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)。
[0045] 本實(shí)施例中提供的獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的方法,先通過(guò)領(lǐng)域內(nèi)的數(shù)字資源來(lái) 獲得候選知識(shí)點(diǎn),然后再獲得候選知識(shí)點(diǎn)的語(yǔ)義向量,通過(guò)計(jì)算領(lǐng)域知識(shí)點(diǎn)與候選知識(shí)點(diǎn) 的相似度,來(lái)獲得與每個(gè)領(lǐng)域知識(shí)點(diǎn)相關(guān)的候選知識(shí)點(diǎn),作為目標(biāo)知識(shí)點(diǎn)。這樣,就可以得 到每個(gè)領(lǐng)域知識(shí)點(diǎn)相關(guān)的若干個(gè)目標(biāo)知識(shí)點(diǎn)。在建設(shè)百科目錄的詞條時(shí),可以查找每個(gè)領(lǐng) 域知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)是否已經(jīng)存在,如不存在,則需要增加。通過(guò)這種方式來(lái)完成領(lǐng)域百 科全書(shū)的詞條的檢查和建設(shè)。大大降低了人工的工作量,節(jié)約了時(shí)間成本和人工成本,且避 免了人工檢查的主觀性和標(biāo)準(zhǔn)不統(tǒng)一帶來(lái)的不準(zhǔn)確性,大大提高了效率和準(zhǔn)確度。
[0046] 實(shí)施例2 :
[0047] 本實(shí)施例中提供一種獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的方法,其步驟與實(shí)施例1中的步 驟相同,本實(shí)施例中提供上述過(guò)程中的計(jì)算每個(gè)候選知識(shí)點(diǎn)的語(yǔ)義向量的具體方法,具體 過(guò)程如下:
[0048] 第一步,確定每個(gè)候選知識(shí)點(diǎn)在候選文件中出現(xiàn)的次數(shù),這樣就得到了每個(gè)候選 知識(shí)點(diǎn)及其出現(xiàn)次數(shù)的文本。候選文本是從選定的數(shù)字資源中分詞后得到的文本,候選知 識(shí)點(diǎn)是候選文本中分詞后得到的詞語(yǔ)去除常用詞得到的詞語(yǔ),此部分與實(shí)施例1相同,在 此不再贅述。
[0049] 第二步,根據(jù)每個(gè)候選知識(shí)點(diǎn)和該候選知識(shí)點(diǎn)在候選文本中出現(xiàn)的次數(shù),計(jì)算帶 權(quán)路徑長(zhǎng)度最小的二叉樹(shù)。
[0050] 以候選知識(shí)點(diǎn)為葉子節(jié)點(diǎn),為每個(gè)葉子節(jié)點(diǎn)給定一個(gè)權(quán)值,該權(quán)值為知識(shí)點(diǎn)在文 本中的出現(xiàn)次數(shù),構(gòu)造一棵二叉樹(shù),父節(jié)點(diǎn)的權(quán)值為兩個(gè)子節(jié)點(diǎn)的權(quán)值之和,帶權(quán)路徑長(zhǎng)度 規(guī)定為所有葉子節(jié)點(diǎn)的帶權(quán)路徑長(zhǎng)度之和,若帶權(quán)路徑長(zhǎng)度達(dá)到最小,稱(chēng)這樣的二叉樹(shù)為 最優(yōu)二叉樹(shù),也稱(chēng)為哈夫曼樹(shù)。此處的構(gòu)造方法采用現(xiàn)有技術(shù)中已有的方式構(gòu)建,通過(guò)已有 的算法獲得帶權(quán)路徑長(zhǎng)度最小的二叉樹(shù)。
[0051] 第三步,根據(jù)每個(gè)知識(shí)點(diǎn)在所述候選文本中的位置和帶權(quán)路徑長(zhǎng)度最小的二叉 樹(shù),確定每個(gè)知識(shí)點(diǎn)的語(yǔ)義向量。
[0052] 首先,倉(cāng)ll建skip-gram模型,skip-gram模型是現(xiàn)有技術(shù)中一種神經(jīng)網(wǎng)絡(luò)模型,示 意圖如圖3所示,用于訓(xùn)練詞語(yǔ)向量,主要原理是通過(guò)當(dāng)前詞語(yǔ)預(yù)測(cè)其前后一定范圍內(nèi)的 詞語(yǔ)從而得到合適的詞語(yǔ)向量表示,使用的訓(xùn)練方法為隨機(jī)梯度下降方法,輸入為文本數(shù) 據(jù),根據(jù)訓(xùn)練得到的結(jié)果可以獲取詞語(yǔ)向量。
[0053] 作為其他可以替換的實(shí)施方式,此處也可以選擇CB0W模型,示意圖如圖4所示,它 也是一種神經(jīng)網(wǎng)絡(luò)模型。CB0W模型是通過(guò)一個(gè)詞語(yǔ)所在的上下文預(yù)測(cè)該詞語(yǔ),過(guò)程如圖3 所示,該模型是現(xiàn)有技術(shù)中一種神經(jīng)網(wǎng)絡(luò)模型,用于訓(xùn)練詞語(yǔ)向量,主要原理是通過(guò)一個(gè)詞 語(yǔ)所在的上下文預(yù)測(cè)該詞語(yǔ)從而得到合適的詞語(yǔ)向量表示,使用的訓(xùn)練方法為隨機(jī)梯度下 降方法,輸入為文本數(shù)據(jù),根據(jù)訓(xùn)練得到的結(jié)果為可以獲取詞語(yǔ)向量。
[0054] 此外,在一些文獻(xiàn)中,也給出了 skip-gram模型或CB0W模型的具體介紹及應(yīng)用,如 下:
[0055] Mikolov,T.,Chen,K.,Corrado,G.,et al. Efficient Estimation of Word Representations in Vector Space. In Proc. ICLR Workshop(2013)
[0056] Mikolov,T.,Sutskever,I.,Chen,K.,et al. Distributed Representations of Words and Phrases and Their Compositionality. In Proc. NIPS(2013)
[0057] 在構(gòu)建上述模型后,以候選文件為訓(xùn)練樣本,所述帶權(quán)路徑長(zhǎng)度最小的二叉樹(shù)為 輸出層,進(jìn)行訓(xùn)練;訓(xùn)練完成后,根據(jù)帶權(quán)路徑長(zhǎng)度最小的二叉樹(shù)中的節(jié)點(diǎn)向量獲得每個(gè)候 選知識(shí)點(diǎn)的語(yǔ)義向量。具體方式為提取最優(yōu)二叉樹(shù)中葉子節(jié)點(diǎn)所在位置對(duì)應(yīng)的訓(xùn)練后的葉 子節(jié)點(diǎn)向量,該向量即為此知識(shí)點(diǎn)的語(yǔ)義向量。
[0058] 本實(shí)施例中,在得到候選知識(shí)點(diǎn)的語(yǔ)義向量后,計(jì)算領(lǐng)域知識(shí)點(diǎn)與候選知識(shí)點(diǎn)的 相似度時(shí),采用如下公式:
[0059] 所述語(yǔ)義相似度的計(jì)算方法為:
[0061] 其中,X、Y為需要比較相似度的兩個(gè)m列的向量,其中一個(gè)為領(lǐng)域知識(shí)點(diǎn)的語(yǔ)義向 量,另一個(gè)為候選知識(shí)點(diǎn)的語(yǔ)義向量,f(X,Y)為X、Y的語(yǔ)義相似度。
[0062] 最后,通過(guò)該語(yǔ)義相似度來(lái)得出每個(gè)領(lǐng)域知識(shí)點(diǎn)相關(guān)的候選知識(shí)點(diǎn),作為目標(biāo)知 識(shí)點(diǎn)。在領(lǐng)域百科全書(shū)中查找該目標(biāo)知識(shí)點(diǎn),完成對(duì)領(lǐng)域百科全書(shū)詞條的檢查和構(gòu)建。
[0063] 本實(shí)施例中,提供了獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)過(guò)程中,計(jì)算候選知識(shí)點(diǎn)語(yǔ)義向量 的方法,將知識(shí)點(diǎn)的語(yǔ)義信息進(jìn)行量化,通過(guò)數(shù)字化的方式來(lái)體現(xiàn)其語(yǔ)義特征,這樣,在后 續(xù)對(duì)知識(shí)點(diǎn)進(jìn)行分析時(shí),可以更加方便,為知識(shí)點(diǎn)搜索、推薦、信息過(guò)濾等應(yīng)用提供基礎(chǔ)。
[0064] 實(shí)施例3 :
[0065] 領(lǐng)域百科全書(shū)是一種重要的數(shù)字出版資源。領(lǐng)域百科全書(shū)通常以詞條的方式組織 領(lǐng)域信息。領(lǐng)域百科全書(shū)需要包含領(lǐng)域內(nèi)的重要詞條。然而,建設(shè)領(lǐng)域百科全書(shū)需要大量 人力投入。本實(shí)施例中提供一種獲取領(lǐng)域知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的方法,領(lǐng)域知識(shí)點(diǎn)也就是 領(lǐng)域百科全書(shū)中的詞條。本實(shí)施例中利用領(lǐng)域電子書(shū)文本以及報(bào)刊文本,通過(guò)skip-gram 模型計(jì)算得到的候選詞條的語(yǔ)義向量。通過(guò)語(yǔ)義向量計(jì)算構(gòu)建好的領(lǐng)域詞條與得到的候選 詞條之間的語(yǔ)義相似度。利用詞條的語(yǔ)義相似度,發(fā)現(xiàn)與領(lǐng)域百科全書(shū)詞條在語(yǔ)義相關(guān)的 且被遺漏的其他領(lǐng)域詞條,以減少某些領(lǐng)域詞條被遺漏的可能性。具體步驟如下。
[0066] 第一步,選擇領(lǐng)域電子書(shū),從中抽取文本,使用分詞器對(duì)文本進(jìn)行分詞,得到分詞 后的文本F。
[0067] 第二步,選擇報(bào)刊文本,使用分詞器對(duì)報(bào)刊文本進(jìn)行分詞,根據(jù)分詞結(jié)果確定常用 。
[0068] 第三步,根據(jù)第一步中的分詞結(jié)果及第二步中的常用詞,去除分詞后的文本F中 的常用詞,剩余的詞語(yǔ)作為領(lǐng)域候選詞條。
[0069] 第四步,根據(jù)領(lǐng)域候選詞條,統(tǒng)計(jì)文件F中各候選詞條出現(xiàn)的次數(shù),形成統(tǒng)計(jì)文 件,統(tǒng)計(jì)文件中的詞條按詞條名稱(chēng)的出現(xiàn)次數(shù)倒序排列。統(tǒng)計(jì)文件的格式如下,其中〇,,〇j, 〇 k為詞條的名稱(chēng),t ^ t,,tk為詞條名稱(chēng)在文件F中出現(xiàn)的次數(shù)。
[0070] 〇i, t;
[0071] 〇j, tj
[0072]
[0073] ok,tk
[0074] 根據(jù)該統(tǒng)計(jì)文件,以詞條為葉子節(jié)點(diǎn),形成一棵哈夫曼樹(shù)。此處構(gòu)建哈夫曼樹(shù)的過(guò) 程,如下:
[0075] 1?根據(jù)給定的n個(gè)詞條生成n棵二叉樹(shù)的集合R = {ivr;;,. ?,rn},其中每棵二叉 樹(shù)A中只有一個(gè)帶權(quán)w ;的根節(jié)點(diǎn),權(quán)重w ;等于詞條的出現(xiàn)次數(shù)t ;,左右子樹(shù)均為空。
[0076] 2.在R中選擇兩棵根節(jié)點(diǎn)權(quán)值最小的樹(shù)作為左右子樹(shù)構(gòu)造一棵新的二叉樹(shù),且置 新的二叉樹(shù)的根節(jié)點(diǎn)的權(quán)值為其左右子樹(shù)上根節(jié)點(diǎn)的權(quán)值之和。
[0077] 3.在R中刪除這兩棵樹(shù),并將新的二叉樹(shù)加入R中。
[0078] 4.重復(fù)第2步和第3步,直到R中只含有一棵樹(shù)為止。
[0079] 得到的這棵樹(shù)即為哈夫曼樹(shù)。
[0080] 第五步,使用skip-gram模型來(lái)進(jìn)行訓(xùn)練,得到哈夫曼樹(shù)中各個(gè)詞條對(duì)應(yīng)的葉子 節(jié)點(diǎn)向量,從而獲得各個(gè)詞條的語(yǔ)義向量。
[0081] skip-gram模型是現(xiàn)有技術(shù)中一種神經(jīng)網(wǎng)絡(luò)模型,用于訓(xùn)練詞語(yǔ)向量,主要原理是 通過(guò)當(dāng)前詞語(yǔ)預(yù)測(cè)其前后一定范圍內(nèi)的詞語(yǔ)從而得到合適的詞語(yǔ)向量表示,使用的訓(xùn)練方 法為隨機(jī)梯度下降方法,輸入為文本數(shù)據(jù),根據(jù)訓(xùn)練得到的結(jié)果可以獲取詞語(yǔ)向量。
[0082] 在本實(shí)施例中,首先創(chuàng)建skip-gram模型,skip-gram模型如圖3所示,該模型包 括輸入層input,中間層projection和輸出層output。其中輸出層采用第四步中的哈夫曼 樹(shù)。從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的每個(gè)詞條w的路徑長(zhǎng)度表示為L(zhǎng)(w),n(w,j)表示該路徑下的 第j th節(jié)點(diǎn),ch(n)表示非葉子節(jié)點(diǎn)n的孩子節(jié)點(diǎn),s(x)是符號(hào)函數(shù),當(dāng)x為真時(shí)取1,否則 取-1。對(duì)于訓(xùn)練集w^w;;,…,wjw^w;;,…,界 7就是訓(xùn)練集中的詞語(yǔ)),skip-gram模型將 最大化概率值
其中j辛0, k是以wt為中心的窗口大小,T是訓(xùn)練 集中的詞語(yǔ)數(shù)目。通常,k值越大,訓(xùn)練得到的結(jié)果越準(zhǔn)確。但是,k值越大,需要的訓(xùn)練時(shí) L(w)-\ 丁 間也越長(zhǎng)。p(w|Wl)定義為戶〇丨%)= H CT〇(?(w,*/ + 1) = c/z〇(w,*/))).vM>^ ') n(w,j) 產(chǎn)1 , 表示該路徑下的第jth節(jié)點(diǎn),S(x)是符號(hào)函數(shù),其中〇 (X) = lAl+exp(-X)),^是葉子節(jié) 點(diǎn)W的向量表示,V' n是非葉子節(jié)點(diǎn)n的向量表示。訓(xùn)練時(shí),訓(xùn)練集中詞w i被丟棄的概率 為.
其中t是指定的閾值,g (wj是詞t出現(xiàn)的頻率,使用該概率丟棄詞的 目的是加快訓(xùn)練速度并提高準(zhǔn)確性。
[0083] 第六步,以分詞后的文件F做為訓(xùn)練樣本,通過(guò)隨機(jī)梯度下降反向傳播算法訓(xùn)練 模型。模型訓(xùn)練完成后,得到每個(gè)候選詞條 〇1的語(yǔ)義向量v 1<3
[0084] 第七步,選擇領(lǐng)域百科全書(shū),從領(lǐng)域百科全書(shū)中獲取已經(jīng)建設(shè)的領(lǐng)域詞條。
[0085] 第八步,對(duì)于領(lǐng)域百科全書(shū)中的每一個(gè)詞條〇1,計(jì)算該詞條與其它所有候選詞條 的語(yǔ)義相似度,根據(jù)語(yǔ)義相似度降序排序詞條,取得相似度最高的m個(gè)詞條。查看這些詞條 是否已經(jīng)在領(lǐng)域百科全書(shū)中,如果不在領(lǐng)域百科全書(shū)中,則將這些詞條記錄在文件中,供領(lǐng) 域百科全書(shū)建設(shè)者檢查。
[0086] 由于領(lǐng)域百科全書(shū)中詞條數(shù)目較多,因此通過(guò)人工的方式尋找合適的領(lǐng)域詞條不 僅耗時(shí),而且容易遺漏一些很相關(guān)的領(lǐng)域詞條。本實(shí)施例中的獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的 方法,可以用于領(lǐng)域百科全書(shū)詞條建設(shè)檢查,用于發(fā)現(xiàn)與領(lǐng)域百科全書(shū)詞條在語(yǔ)義上相關(guān) 的其他領(lǐng)域詞條,以減少某些領(lǐng)域詞條被遺漏的可能性。
[0087] 實(shí)施例4 :
[0088] 本實(shí)施例中提供一種獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的系統(tǒng),如圖5所示,包括:
[0089] 分詞單元:對(duì)文本進(jìn)行分詞,得到分詞結(jié)果;
[0090] 候選單元:根據(jù)分詞結(jié)果和常用詞,確定候選知識(shí)點(diǎn);
[0091] 語(yǔ)義向量計(jì)算單元:確定每個(gè)候選知識(shí)點(diǎn)的語(yǔ)義向量;
[0092] 提取單元:獲取領(lǐng)域知識(shí)點(diǎn);
[0093] 相似度計(jì)算單元:對(duì)于每個(gè)領(lǐng)域知識(shí)點(diǎn),計(jì)算該領(lǐng)域知識(shí)點(diǎn)與候選知識(shí)點(diǎn)的語(yǔ)義 相似度;
[0094] 相關(guān)知識(shí)點(diǎn)計(jì)算單元:根據(jù)計(jì)算出的語(yǔ)義相似度,確定與該領(lǐng)域知識(shí)點(diǎn)相關(guān)的目 標(biāo)知識(shí)點(diǎn)。
[0095] 其中,分詞單元包括:
[0096] 抽取單元:選擇領(lǐng)域數(shù)字資源,從中抽取文本;
[0097] 候選文件獲取單元:使用分詞器對(duì)所述文本進(jìn)行分詞,得到分詞后的文件,作為候 選文件。
[0098] 其中,候選單元包括:
[0099] 常用詞確定單元:選擇常用文本的數(shù)字資源,對(duì)其進(jìn)行分詞確定常用詞;
[0100] 候選知識(shí)點(diǎn)確定單元:將候選文件中的詞語(yǔ)去除所述常用詞,得到候選知識(shí)點(diǎn)。
[0101] 其中,語(yǔ)義向量計(jì)算單元包括:
[0102] 統(tǒng)計(jì)單元:確定每個(gè)候選知識(shí)點(diǎn)在候選文件中出現(xiàn)的次數(shù);
[0103] 最優(yōu)二叉樹(shù)計(jì)算單元:根據(jù)每個(gè)候選知識(shí)點(diǎn)和該候選知識(shí)點(diǎn)在候選文本中出現(xiàn)的 次數(shù),計(jì)算帶權(quán)路徑長(zhǎng)度最小的二叉樹(shù);
[0104] 語(yǔ)義向量確定單元:根據(jù)每個(gè)候選知識(shí)點(diǎn)在所述候選文本中的位置和帶權(quán)路徑長(zhǎng) 度最小的二叉樹(shù),確定每個(gè)候選知識(shí)點(diǎn)的語(yǔ)義向量。
[0105] 上述語(yǔ)義向量確定單元,進(jìn)一步包括:
[0106] 建模單元:創(chuàng)建skip-gram模型;
[0107] 訓(xùn)練單元:以所述候選文件為訓(xùn)練樣本,所述帶權(quán)路徑長(zhǎng)度最小的二叉樹(shù)為輸出 層,進(jìn)行訓(xùn)練;
[0108] 計(jì)算單元:訓(xùn)練完成后,根據(jù)帶權(quán)路徑長(zhǎng)度最小的二叉樹(shù)中的節(jié)點(diǎn)向量獲得每個(gè) 候選知識(shí)點(diǎn)的語(yǔ)義向量。
[0109] 本實(shí)施例中,相似度計(jì)算單元包括計(jì)算公式,如下:
[0111] 其中,X、Y為需要比較相似度的兩個(gè)m列的向量,f(X,Y)為X、Y的語(yǔ)義相似度。
[0112] 在其他可以替換的實(shí)施方案中,所述相似度計(jì)算單元包括語(yǔ)義相似度的計(jì)算公式 為:
[0114] 其中,X、Y為需要比較相似度的兩個(gè)m列的向量,f(X,Y)為X、Y的語(yǔ)義相似度。
[0115] 本實(shí)施例中,相關(guān)知識(shí)點(diǎn)計(jì)算單元包括:
[0116] 第一計(jì)算單元:將該領(lǐng)域知識(shí)點(diǎn)與候選知識(shí)點(diǎn)的相似度降序排列,選擇排序在前 的預(yù)設(shè)數(shù)量的候選知識(shí)點(diǎn)作為該領(lǐng)域知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn);
[0117] 在其他可以替換的實(shí)施方案中,相關(guān)知識(shí)點(diǎn)計(jì)算單元包括第二計(jì)算單元:預(yù)先設(shè) 置一個(gè)相似度閾值,選取相似度大于該閾值的候選知識(shí)點(diǎn)作為該領(lǐng)域知識(shí)點(diǎn)的相關(guān)知識(shí) 點(diǎn)。
[0118] 本實(shí)施例中提供一種獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的系統(tǒng),包括分詞單元、候選單元、 語(yǔ)義向量計(jì)算單元、提取單元、相似度計(jì)算單元以及相關(guān)知識(shí)點(diǎn)計(jì)算單元,采用計(jì)算語(yǔ)義向 量的方式,通過(guò)計(jì)算得到領(lǐng)域知識(shí)點(diǎn)與候選知識(shí)點(diǎn)的相似度,來(lái)獲得與每個(gè)領(lǐng)域知識(shí)點(diǎn)相 關(guān)的候選知識(shí)點(diǎn),從而得到每個(gè)領(lǐng)域知識(shí)點(diǎn)相關(guān)的若干個(gè)目標(biāo)知識(shí)點(diǎn)。在建設(shè)百科目錄的 詞條時(shí),可以查找每個(gè)領(lǐng)域知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)是否已經(jīng)存在,如不存在,則需要增加。通 過(guò)這種方式來(lái)完成領(lǐng)域百科全書(shū)的詞條的檢查和建設(shè),大大降低了人工的工作量。
[0119] 顯然,上述實(shí)施例僅僅是為清楚地說(shuō)明所作的舉例,而并非對(duì)實(shí)施方式的限定。對(duì) 于所屬領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在上述說(shuō)明的基礎(chǔ)上還可以做出其它不同形式的變化或 變動(dòng)。這里無(wú)需也無(wú)法對(duì)所有的實(shí)施方式予以窮舉。而由此所引伸出的顯而易見(jiàn)的變化或 變動(dòng)仍處于本發(fā)明創(chuàng)造的保護(hù)范圍之中。
[0120] 本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序 產(chǎn)品。因此,本發(fā)明可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí) 施例的形式。而且,本發(fā)明可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī) 可用存儲(chǔ)介質(zhì)(包括但不限于磁盤(pán)存儲(chǔ)器、CD-ROM、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn) 品的形式。
[0121] 本發(fā)明是參照根據(jù)本發(fā)明實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程 圖和/或方框圖來(lái)描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一 流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算 機(jī)程序指令到通用計(jì)算機(jī)、專(zhuān)用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理 器以產(chǎn)生一個(gè)機(jī)器,使得通過(guò)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生 用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能 的裝置。
[0122] 這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特 定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指 令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或 多個(gè)方框中指定的功能。
[0123] 這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì) 算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或 其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖 一個(gè)方框或多個(gè)方框中指定的功能的步驟。
[0124] 盡管已描述了本發(fā)明的優(yōu)選實(shí)施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造 性概念,則可對(duì)這些實(shí)施例作出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu) 選實(shí)施例以及落入本發(fā)明范圍的所有變更和修改。
【主權(quán)項(xiàng)】
1. 一種獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的方法,其特征在于,包括: 對(duì)文本進(jìn)行分詞,得到分詞結(jié)果; 根據(jù)分詞結(jié)果和常用詞,確定候選知識(shí)點(diǎn); 確定每個(gè)候選知識(shí)點(diǎn)的語(yǔ)義向量; 獲取領(lǐng)域知識(shí)點(diǎn); 對(duì)于每個(gè)領(lǐng)域知識(shí)點(diǎn),計(jì)算該領(lǐng)域知識(shí)點(diǎn)與候選知識(shí)點(diǎn)的語(yǔ)義相似度; 根據(jù)計(jì)算出的語(yǔ)義相似度,確定與該領(lǐng)域知識(shí)點(diǎn)相關(guān)的目標(biāo)知識(shí)點(diǎn)。2. 根據(jù)權(quán)利要求1所述的獲取知識(shí)點(diǎn)相關(guān)知識(shí)點(diǎn)的方法,其特征在于,對(duì)文本進(jìn)行分 詞,得到分詞結(jié)果的處理,包括: 選擇領(lǐng)域數(shù)字資源,從中抽取文本; 使用分詞器對(duì)所述文本進(jìn)行分詞,得到分詞后的文件,作為候選文件。3. 根據(jù)權(quán)利要求1或2所述的獲取知識(shí)點(diǎn)相關(guān)知識(shí)點(diǎn)的方法,其特征在于,所述根據(jù)分 詞結(jié)果和常用詞,確定候選知識(shí)點(diǎn)的過(guò)程,包括: 選擇常用文本的數(shù)字資源,對(duì)其進(jìn)行分詞確定常用詞; 將候選文件中的詞語(yǔ)去除所述常用詞,得到候選知識(shí)點(diǎn)。4. 根據(jù)權(quán)利要求1-3任一所述的獲取知識(shí)點(diǎn)相關(guān)知識(shí)點(diǎn)的方法,其特征在于,所述確 定每個(gè)候選知識(shí)點(diǎn)的語(yǔ)義向量的過(guò)程,包括: 確定每個(gè)候選知識(shí)點(diǎn)在候選文件中出現(xiàn)的次數(shù); 根據(jù)每個(gè)候選知識(shí)點(diǎn)和該候選知識(shí)點(diǎn)在候選文本中出現(xiàn)的次數(shù),計(jì)算帶權(quán)路徑長(zhǎng)度最 小的二叉樹(shù); 根據(jù)每個(gè)候選知識(shí)點(diǎn)在所述候選文本中的位置和帶權(quán)路徑長(zhǎng)度最小的二叉樹(shù),確定每 個(gè)候選知識(shí)點(diǎn)的語(yǔ)義向量。5. 根據(jù)權(quán)利要求4所述的獲取知識(shí)點(diǎn)相關(guān)知識(shí)點(diǎn)的方法,其特征在于,所述根據(jù)每個(gè) 知識(shí)點(diǎn)在所述候選文本中的位置和帶權(quán)路徑長(zhǎng)度最小的二叉樹(shù),確定每個(gè)知識(shí)點(diǎn)的語(yǔ)義向 量的過(guò)程,包括: 創(chuàng)建skip-gram模型; 以所述候選文件為訓(xùn)練樣本,所述帶權(quán)路徑長(zhǎng)度最小的二叉樹(shù)為輸出層,進(jìn)行訓(xùn)練; 訓(xùn)練完成后,根據(jù)帶權(quán)路徑長(zhǎng)度最小的二叉樹(shù)中的節(jié)點(diǎn)向量獲得每個(gè)候選知識(shí)點(diǎn)的語(yǔ) 義向量。6. 根據(jù)權(quán)利要求1-5任一所述的獲取知識(shí)點(diǎn)相關(guān)知識(shí)點(diǎn)的方法,其特征在于,所述對(duì) 于每個(gè)領(lǐng)域知識(shí)點(diǎn),計(jì)算該領(lǐng)域知識(shí)點(diǎn)與候選知識(shí)點(diǎn)的語(yǔ)義相似度的處理,包括: 所述語(yǔ)義相似度的計(jì)算方法為:其中,X、Y為需要比較相似度的兩個(gè)m列的向量,f(X,Y)為X、Y的語(yǔ)義相似度。7. 根據(jù)權(quán)利要求1-5任一所述的獲取知識(shí)點(diǎn)相關(guān)知識(shí)點(diǎn)的方法,其特征在于,所述對(duì) 于每個(gè)領(lǐng)域知識(shí)點(diǎn),計(jì)算該領(lǐng)域知識(shí)點(diǎn)與候選知識(shí)點(diǎn)的語(yǔ)義相似度的處理,包括: gp·;士;五 \、/ 士1#的々+咎f、、/土斗1 -其中,X、Y為需要比較相似度的兩個(gè)m列的向量,f(X,Y)為X、Y的語(yǔ)義相似度。8. 根據(jù)權(quán)利要求1-7任一所述的獲取知識(shí)點(diǎn)相關(guān)知識(shí)點(diǎn)的方法,其特征在于,所述根 據(jù)計(jì)算出的語(yǔ)義相似度,確定與該領(lǐng)域知識(shí)點(diǎn)相關(guān)的目標(biāo)知識(shí)點(diǎn)的處理,包括: 將該領(lǐng)域知識(shí)點(diǎn)與候選知識(shí)點(diǎn)的相似度降序排列,選擇排序在前的預(yù)設(shè)數(shù)量的候選知 識(shí)點(diǎn)作為該領(lǐng)域知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)。 或預(yù)先設(shè)置一個(gè)相似度閾值,選取相似度大于該閾值的候選知識(shí)點(diǎn)作為該領(lǐng)域知識(shí)點(diǎn) 的相關(guān)知識(shí)點(diǎn)。9. 一種獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的系統(tǒng),其特征在于,包括: 分詞單元:對(duì)文本進(jìn)行分詞,得到分詞結(jié)果; 候選單元:根據(jù)分詞結(jié)果和常用詞,確定候選知識(shí)點(diǎn); 語(yǔ)義向量計(jì)算單元:確定每個(gè)候選知識(shí)點(diǎn)的語(yǔ)義向量; 提取單元:獲取領(lǐng)域知識(shí)點(diǎn); 相似度計(jì)算單元:對(duì)于每個(gè)領(lǐng)域知識(shí)點(diǎn),計(jì)算該領(lǐng)域知識(shí)點(diǎn)與候選知識(shí)點(diǎn)的語(yǔ)義相似 度; 相關(guān)知識(shí)點(diǎn)計(jì)算單元:根據(jù)計(jì)算出的語(yǔ)義相似度,確定與該領(lǐng)域知識(shí)點(diǎn)相關(guān)的目標(biāo)知 識(shí)點(diǎn)。10. 根據(jù)權(quán)利要求1所述的獲取知識(shí)點(diǎn)相關(guān)知識(shí)點(diǎn)的系統(tǒng),其特征在于,分詞單元包 括: 抽取單元:選擇領(lǐng)域數(shù)字資源,從中抽取文本; 候選文件獲取單元:使用分詞器對(duì)所述文本進(jìn)行分詞,得到分詞后的文件,作為候選文 件。11. 根據(jù)權(quán)利要求1或2所述的獲取知識(shí)點(diǎn)相關(guān)知識(shí)點(diǎn)的系統(tǒng),其特征在于,候選單元 包括: 常用詞確定單元:選擇常用文本的數(shù)字資源,對(duì)其進(jìn)行分詞確定常用詞; 候選知識(shí)點(diǎn)確定單元:將候選文件中的詞語(yǔ)去除所述常用詞,得到候選知識(shí)點(diǎn)。12. 根據(jù)權(quán)利要求1-3任一所述的獲取知識(shí)點(diǎn)相關(guān)知識(shí)點(diǎn)的系統(tǒng),其特征在于,語(yǔ)義向 量計(jì)算單元包括: 統(tǒng)計(jì)單元:確定每個(gè)候選知識(shí)點(diǎn)在候選文件中出現(xiàn)的次數(shù); 最優(yōu)二叉樹(shù)計(jì)算單元:根據(jù)每個(gè)候選知識(shí)點(diǎn)和該候選知識(shí)點(diǎn)在候選文本中出現(xiàn)的次 數(shù),計(jì)算帶權(quán)路徑長(zhǎng)度最小的二叉樹(shù); 語(yǔ)義向量確定單元:根據(jù)每個(gè)候選知識(shí)點(diǎn)在所述候選文本中的位置和帶權(quán)路徑長(zhǎng)度最 小的二叉樹(shù),確定每個(gè)候選知識(shí)點(diǎn)的語(yǔ)義向量。13. 根據(jù)權(quán)利要求4所述的獲取知識(shí)點(diǎn)相關(guān)知識(shí)點(diǎn)的系統(tǒng),其特征在于,語(yǔ)義向量確定 單元,包括: 建模單元:創(chuàng)建skip-gram模型; 訓(xùn)練單元:以所述候選文件為訓(xùn)練樣本,所述帶權(quán)路徑長(zhǎng)度最小的二叉樹(shù)為輸出層,進(jìn) 行訓(xùn)練; 計(jì)算單元:訓(xùn)練完成后,根據(jù)帶權(quán)路徑長(zhǎng)度最小的二叉樹(shù)中的節(jié)點(diǎn)向量獲得每個(gè)候選 知識(shí)點(diǎn)的語(yǔ)義向量。14. 根據(jù)權(quán)利要求1-5任一所述的獲取知識(shí)點(diǎn)相關(guān)知識(shí)點(diǎn)的系統(tǒng),其特征在于,相似度 計(jì)算單元包括計(jì)算公式,如下:其中,X、Y為需要比較相似度的兩個(gè)m列的向量,f(X,Y)為X、Y的語(yǔ)義相似度。15. 根據(jù)權(quán)利要求1-5任一所述的獲取知識(shí)點(diǎn)相關(guān)知識(shí)點(diǎn)的系統(tǒng),其特征在于,所述相 似度計(jì)算單元包括語(yǔ)義相似度的計(jì)算公式為:其中,X、Y為需要比較相似度的兩個(gè)m列的向量,f(X,Y)為X、Y的語(yǔ)義相似度。16. 根據(jù)權(quán)利要求1-7任一所述的獲取知識(shí)點(diǎn)相關(guān)知識(shí)點(diǎn)的系統(tǒng),其特征在于,相關(guān)知 識(shí)點(diǎn)計(jì)算單元包括: 第一計(jì)算單元:將該領(lǐng)域知識(shí)點(diǎn)與候選知識(shí)點(diǎn)的相似度降序排列,選擇排序在前的預(yù) 設(shè)數(shù)量的候選知識(shí)點(diǎn)作為該領(lǐng)域知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn); 或第二計(jì)算單元:預(yù)先設(shè)置一個(gè)相似度閾值,選取相似度大于該閾值的候選知識(shí)點(diǎn)作 為該領(lǐng)域知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)。
【文檔編號(hào)】G06F17/30GK105893363SQ201410497469
【公開(kāi)日】2016年8月24日
【申請(qǐng)日】2014年9月26日
【發(fā)明人】葉茂, 湯幟, 徐劍波, 楊亮, 任彩紅
【申請(qǐng)人】北大方正集團(tuán)有限公司, 北京方正阿帕比技術(shù)有限公司, 北京大學(xué)