一種獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的方法及系統(tǒng)的制作方法

文檔序號(hào)：10534821閱讀：344來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的方法及系統(tǒng)的制作方法
【專(zhuān)利摘要】本發(fā)明中提供一種獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的方法及系統(tǒng)，先通過(guò)領(lǐng)域內(nèi)的數(shù)字資源來(lái)獲得候選知識(shí)點(diǎn)，然后再獲得候選知識(shí)點(diǎn)的語(yǔ)義向量，通過(guò)計(jì)算領(lǐng)域知識(shí)點(diǎn)與候選知識(shí)點(diǎn)的相似度，來(lái)獲得與每個(gè)領(lǐng)域知識(shí)點(diǎn)相關(guān)的候選知識(shí)點(diǎn)，作為目標(biāo)知識(shí)點(diǎn)。這樣，就可以得到每個(gè)領(lǐng)域知識(shí)點(diǎn)相關(guān)的若干個(gè)目標(biāo)知識(shí)點(diǎn)。在建設(shè)百科目錄的詞條時(shí)，可以查找每個(gè)領(lǐng)域知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)是否已經(jīng)存在，如不存在，則需要增加。通過(guò)這種方式來(lái)完成領(lǐng)域百科全書(shū)的詞條的檢查和建設(shè)。大大降低了人工的工作量，節(jié)約了時(shí)間成本和人工成本，且避免了人工檢查的主觀性和標(biāo)準(zhǔn)不統(tǒng)一帶來(lái)的不準(zhǔn)確性，大大提高了效率和準(zhǔn)確度。
【專(zhuān)利說(shuō)明】
一種獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的方法及系統(tǒng)
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及一種電數(shù)字?jǐn)?shù)據(jù)處理領(lǐng)域，具體地說(shuō)是一種獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn) 的方法。
【背景技術(shù)】
[0002] 數(shù)字出版資源已成為信息提供的主要方式之一。人們已從紙質(zhì)閱讀大量地轉(zhuǎn)向電子閱讀。數(shù)字出版資源包含電子圖書(shū)、數(shù)字百科全書(shū)、數(shù)字期刊、數(shù)字報(bào)刊等。數(shù)字出版資源提供的信息通常比互聯(lián)網(wǎng)更加權(quán)威和正確。因此，如何根據(jù)數(shù)字出版資源的特點(diǎn)提高人們學(xué)習(xí)或閱讀體驗(yàn)變得尤為重要。
[0003] 百科全書(shū)（Encyclopedia)是介紹人類(lèi)的全部知識(shí)或某一類(lèi)知識(shí)的工具書(shū)。往往按照辭典形式編排（以條目為基本單元），收集各知識(shí)領(lǐng)域的名詞、熟語(yǔ)、地名、事件、人物、著作等。百科全書(shū)可以是綜合性的，包含所有領(lǐng)域的相關(guān)內(nèi)容（例如，《大不列顛百科全書(shū)》就是一部著名的綜合性百科全書(shū)）。也可以是專(zhuān)業(yè)性的百科全書(shū)，如某一個(gè)領(lǐng)域的百科全書(shū)，像歷史百科全書(shū)、軍事百科全書(shū)等，這種某一個(gè)領(lǐng)域的百科全書(shū)稱(chēng)為領(lǐng)域百科全書(shū)。百科全書(shū)被視為是一個(gè)國(guó)家和一個(gè)時(shí)代科學(xué)文化發(fā)展的標(biāo)志。
[0004] 領(lǐng)域百科全書(shū)將海量的信息分類(lèi)，為用戶提供更有針對(duì)性的資源。領(lǐng)域百科全書(shū) 也是一種重要的數(shù)字出版資源。領(lǐng)域百科全書(shū)通常以詞條的方式組織領(lǐng)域信息。領(lǐng)域百科全書(shū)需要包含領(lǐng)域內(nèi)的重要詞條。然而，建設(shè)領(lǐng)域百科全書(shū)需要大量人力投入。由于領(lǐng)域詞條數(shù)目較多，因此通過(guò)人工的方式尋找合適的領(lǐng)域詞條不僅耗時(shí)，而且容易遺漏一些很相關(guān)的領(lǐng)域詞條。如何確定相關(guān)的這些詞條是否都已經(jīng)收錄是一項(xiàng)很重要的工作，但是實(shí) 現(xiàn)起來(lái)需要花費(fèi)大量的人力和時(shí)間。
[0005] Distributed words representations (分布式詞語(yǔ)表不）在 Rumelhar，D. E.， Hinton, G. E. , Williams, R. J. ：Learning Represenations by Back-propagating Errors. Nature 323(6088) :pp533-536 (1986)中首次提出，該思想將詞語(yǔ)表示成連續(xù)向量（continuous vectors)，且在向量空間中，相似詞語(yǔ)的距離更近。Feedforward neural network (前饋神經(jīng)網(wǎng)絡(luò)）是用于學(xué)習(xí)詞向量和語(yǔ)言模型的方法（見(jiàn)Bengio，Y.，Ducharme， R. , Vincent, P. ：A Neural Probabilistic Language Model. Journal of Machine Learning Research 3, ppl 137-1155 (2003))。近來(lái)，Mikolov 提出了使用 skip-gram或 CB0W 模型，通過(guò)在大量文本上訓(xùn)練簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)在短時(shí)間內(nèi)得到詞語(yǔ)向量。雖然關(guān)于語(yǔ)義向量在理論上已經(jīng)有一些研究，但是仍然缺少該技術(shù)的應(yīng)用推廣。

【發(fā)明內(nèi)容】

[0006] 為此，本發(fā)明所要解決的技術(shù)問(wèn)題在于現(xiàn)有技術(shù)中獲取相關(guān)詞條需要人為篩選、工作量大、客觀性差的問(wèn)題，從而提出一種根據(jù)語(yǔ)義向量來(lái)確定相關(guān)知識(shí)點(diǎn)的方法。
[0007] 為解決上述技術(shù)問(wèn)題，本發(fā)明的提供一種獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的方法和系統(tǒng)。
[0008] -種獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的方法，包括
[0009] 對(duì)文本進(jìn)行分詞，得到分詞結(jié)果；
[0010] 根據(jù)分詞結(jié)果和常用詞，確定候選知識(shí)點(diǎn)；
[0011] 確定每個(gè)候選知識(shí)點(diǎn)的語(yǔ)義向量；
[0012] 獲取領(lǐng)域知識(shí)點(diǎn)；
[0013] 對(duì)于每個(gè)領(lǐng)域知識(shí)點(diǎn)，計(jì)算該領(lǐng)域知識(shí)點(diǎn)與候選知識(shí)點(diǎn)的語(yǔ)義相似度；
[0014] 根據(jù)計(jì)算出的語(yǔ)義相似度，確定與該領(lǐng)域知識(shí)點(diǎn)相關(guān)的目標(biāo)知識(shí)點(diǎn)。
[0015] -種獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的系統(tǒng)，包括：
[0016] 分詞單元：對(duì)文本進(jìn)行分詞，得到分詞結(jié)果；
[0017] 候選單元：根據(jù)分詞結(jié)果和常用詞，確定候選知識(shí)點(diǎn)；
[0018] 語(yǔ)義向量計(jì)算單元：確定每個(gè)候選知識(shí)點(diǎn)的語(yǔ)義向量；
[0019] 提取單元：獲取領(lǐng)域知識(shí)點(diǎn)；
[0020] 相似度計(jì)算單元：對(duì)于每個(gè)領(lǐng)域知識(shí)點(diǎn)，計(jì)算該領(lǐng)域知識(shí)點(diǎn)與候選知識(shí)點(diǎn)的語(yǔ)義相似度；
[0021] 相關(guān)知識(shí)點(diǎn)計(jì)算單元：根據(jù)計(jì)算出的語(yǔ)義相似度，確定與該領(lǐng)域知識(shí)點(diǎn)相關(guān)的目標(biāo)知識(shí)點(diǎn)。
[0022] 本發(fā)明的上述技術(shù)方案相比現(xiàn)有技術(shù)具有以下優(yōu)點(diǎn)，
[0023] (1)本發(fā)明提供一種獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的方法，先通過(guò)領(lǐng)域內(nèi)的數(shù)字資源來(lái)獲得候選知識(shí)點(diǎn)，然后再獲得候選知識(shí)點(diǎn)的語(yǔ)義向量，通過(guò)計(jì)算領(lǐng)域知識(shí)點(diǎn)與候選知識(shí) 點(diǎn)的相似度，來(lái)獲得與每個(gè)領(lǐng)域知識(shí)點(diǎn)相關(guān)的候選知識(shí)點(diǎn)，作為目標(biāo)知識(shí)點(diǎn)。這樣，就可以得到每個(gè)領(lǐng)域知識(shí)點(diǎn)相關(guān)的若干個(gè)目標(biāo)知識(shí)點(diǎn)。在建設(shè)百科目錄的詞條時(shí)，可以查找每個(gè) 領(lǐng)域知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)是否已經(jīng)存在，如不存在，則需要增加。通過(guò)這種方式來(lái)完成領(lǐng)域百科全書(shū)的詞條的檢查和建設(shè)。大大降低了人工的工作量，節(jié)約了時(shí)間成本和人工成本，且避免了人工檢查的主觀性和標(biāo)準(zhǔn)不統(tǒng)一帶來(lái)的不準(zhǔn)確性，大大提高了效率和準(zhǔn)確度。
[0024] (2)本發(fā)明所述的獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的方法，獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)過(guò) 程中，采用計(jì)算候選知識(shí)點(diǎn)語(yǔ)義向量的方法，將知識(shí)點(diǎn)的語(yǔ)義信息進(jìn)行量化，通過(guò)數(shù)字化的方式來(lái)體現(xiàn)其語(yǔ)義特征，這樣，在后續(xù)對(duì)知識(shí)點(diǎn)進(jìn)行分析時(shí)，可以更加方便，為知識(shí)點(diǎn)搜索、推薦、信息過(guò)濾等應(yīng)用提供基礎(chǔ)。
[0025] (3)本發(fā)明還提供一種獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的系統(tǒng)，包括分詞單元、候選單元、語(yǔ)義向量計(jì)算單元、提取單元、相似度計(jì)算單元以及相關(guān)知識(shí)點(diǎn)計(jì)算單元，采用計(jì)算語(yǔ) 義向量的方式，通過(guò)計(jì)算得到領(lǐng)域知識(shí)點(diǎn)與候選知識(shí)點(diǎn)的相似度，來(lái)獲得與每個(gè)領(lǐng)域知識(shí) 點(diǎn)相關(guān)的候選知識(shí)點(diǎn)，從而得到每個(gè)領(lǐng)域知識(shí)點(diǎn)相關(guān)的若干個(gè)目標(biāo)知識(shí)點(diǎn)。在建設(shè)百科目錄的詞條時(shí)，可以查找每個(gè)領(lǐng)域知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)是否已經(jīng)存在，如不存在，則需要增加。通過(guò)這種方式來(lái)完成領(lǐng)域百科全書(shū)的詞條的檢查和建設(shè)，大大降低了人工的工作量。
【附圖說(shuō)明】
[0026] 為了使本發(fā)明的內(nèi)容更容易被清楚的理解，下面根據(jù)本發(fā)明的具體實(shí)施例并結(jié)合附圖，對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明，其中
[0027] 圖1是實(shí)施例1中獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的方法的流程圖；
[0028] 圖2是實(shí)施例2中計(jì)算候選知識(shí)點(diǎn)的語(yǔ)義向量的流程圖；
[0029] 圖3是實(shí)施例2中skip-gram模型的示意圖；
[0030] 圖4是實(shí)施例2中CB0W模型的示意圖；
[0031 ] 圖5是實(shí)施例4中獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的系統(tǒng)的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0032] 實(shí)施例1 :
[0033] 本實(shí)施例中，提供一種獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的方法，通過(guò)該方法獲取領(lǐng)域內(nèi) 所有的知識(shí)點(diǎn)的相關(guān)的知識(shí)點(diǎn)，然后根據(jù)得到的這些相關(guān)知識(shí)點(diǎn)，針對(duì)建立的領(lǐng)域百科全書(shū)中的詞條進(jìn)行查漏補(bǔ)缺，來(lái)進(jìn)一步完善，具有非常好的指導(dǎo)價(jià)值。
[0034] 該獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的方法，流程圖如圖1所示，具體過(guò)程如下：
[0035] 首先，對(duì)文本進(jìn)行分詞，得到分詞結(jié)果。此處的文本選擇領(lǐng)域內(nèi)的一些數(shù)字資源，為了使得其涵蓋的知識(shí)點(diǎn)足夠廣泛，一般會(huì)多選擇一些本領(lǐng)域內(nèi)的電子數(shù)字資源。選定領(lǐng) 域數(shù)字資源后，從中抽取文本，然后分詞，通過(guò)分詞后，得到大量的詞語(yǔ)，這些詞語(yǔ)既包括本領(lǐng)域中的一些知識(shí)點(diǎn)，也包括一些常用的詞語(yǔ)，如你們、他們、吃飯等等。將分詞后的文件，作為候選文件。
[0036] 然后，根據(jù)分詞結(jié)果和常用詞，確定候選知識(shí)點(diǎn)。由于常用詞是經(jīng)常使用的一系列的詞語(yǔ)，通過(guò)在上述分詞結(jié)果中，把這部分詞語(yǔ)去除，就獲得了和領(lǐng)域相關(guān)的詞語(yǔ)，將這些詞語(yǔ)作為候選知識(shí)點(diǎn)。此處的常用詞是現(xiàn)有技術(shù)中已經(jīng)確定好的常用詞。在其他的實(shí)施方式中，還可以通過(guò)如下方法來(lái)確定常用詞：選擇常用文本的數(shù)字資源，如生活報(bào)紙、生活雜志等數(shù)字資源，對(duì)其進(jìn)行分詞（采用停用詞表去除停用詞，例如采用哈工大停用詞表），將在較多文本中出現(xiàn)的詞語(yǔ)確定為常用詞。在候選文件中去除常用詞后，得到的就是本領(lǐng)域中的詞語(yǔ)，作為候選知識(shí)點(diǎn)。
[0037] 接著，計(jì)算每個(gè)候選知識(shí)點(diǎn)的語(yǔ)義向量。計(jì)算語(yǔ)義向量的方法可以采用現(xiàn)有技術(shù) 中的方法，通過(guò)計(jì)算語(yǔ)義向量的方式，將每個(gè)知識(shí)點(diǎn)通過(guò)語(yǔ)義量化的方式來(lái)數(shù)字化表示。
[0038] 然后，再獲取領(lǐng)域知識(shí)點(diǎn)。此處的領(lǐng)域知識(shí)點(diǎn)可以是領(lǐng)域百科全書(shū)中已經(jīng)構(gòu)建好的知識(shí)點(diǎn)詞條。
[0039] 接著，對(duì)于每個(gè)領(lǐng)域知識(shí)點(diǎn)，計(jì)算該領(lǐng)域知識(shí)點(diǎn)與候選知識(shí)點(diǎn)的語(yǔ)義相似度。由于候選知識(shí)點(diǎn)通過(guò)領(lǐng)域內(nèi)的大量的數(shù)字資源來(lái)獲得，因此我們認(rèn)為該候選知識(shí)點(diǎn)中涵蓋了領(lǐng)域知識(shí)點(diǎn)中的所有知識(shí)點(diǎn)，在該候選知識(shí)點(diǎn)中即可以查找得到各個(gè)領(lǐng)域知識(shí)點(diǎn)的語(yǔ)義向量，再計(jì)算其與每個(gè)候選知識(shí)點(diǎn)的語(yǔ)義相似度。
[0040] 此處的語(yǔ)義相似度的計(jì)算方法為：
[0042] 其中，X、Y為需要比較相似度的兩個(gè)m列的向量，其中一個(gè)為領(lǐng)域知識(shí)點(diǎn)的語(yǔ)義向量，另一個(gè)為候選知識(shí)點(diǎn)的語(yǔ)義向量，f(X，Y)為X、Y的語(yǔ)義相似度。
[0043] 這樣，就得到了所有領(lǐng)域知識(shí)點(diǎn)與所有候選知識(shí)點(diǎn)的語(yǔ)義相似度。
[0044] 最后，根據(jù)計(jì)算出的語(yǔ)義相似度，確定與該領(lǐng)域知識(shí)點(diǎn)相關(guān)的目標(biāo)知識(shí)點(diǎn)。可以將該領(lǐng)域知識(shí)點(diǎn)與其他候選知識(shí)點(diǎn)的相似度降序排列，選擇排序在前的一定數(shù)量的候選知識(shí) 點(diǎn)作為該領(lǐng)域知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)。作為可以替換的實(shí)施方式，也可以預(yù)先設(shè)置一個(gè)相似度閾值，選取相似度大于該閾值的候選知識(shí)點(diǎn)作為該領(lǐng)域知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)。
[0045] 本實(shí)施例中提供的獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的方法，先通過(guò)領(lǐng)域內(nèi)的數(shù)字資源來(lái) 獲得候選知識(shí)點(diǎn)，然后再獲得候選知識(shí)點(diǎn)的語(yǔ)義向量，通過(guò)計(jì)算領(lǐng)域知識(shí)點(diǎn)與候選知識(shí)點(diǎn) 的相似度，來(lái)獲得與每個(gè)領(lǐng)域知識(shí)點(diǎn)相關(guān)的候選知識(shí)點(diǎn)，作為目標(biāo)知識(shí)點(diǎn)。這樣，就可以得到每個(gè)領(lǐng)域知識(shí)點(diǎn)相關(guān)的若干個(gè)目標(biāo)知識(shí)點(diǎn)。在建設(shè)百科目錄的詞條時(shí)，可以查找每個(gè)領(lǐng) 域知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)是否已經(jīng)存在，如不存在，則需要增加。通過(guò)這種方式來(lái)完成領(lǐng)域百科全書(shū)的詞條的檢查和建設(shè)。大大降低了人工的工作量，節(jié)約了時(shí)間成本和人工成本，且避免了人工檢查的主觀性和標(biāo)準(zhǔn)不統(tǒng)一帶來(lái)的不準(zhǔn)確性，大大提高了效率和準(zhǔn)確度。
[0046] 實(shí)施例2 ：
[0047] 本實(shí)施例中提供一種獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的方法，其步驟與實(shí)施例1中的步驟相同，本實(shí)施例中提供上述過(guò)程中的計(jì)算每個(gè)候選知識(shí)點(diǎn)的語(yǔ)義向量的具體方法，具體過(guò)程如下：
[0048] 第一步，確定每個(gè)候選知識(shí)點(diǎn)在候選文件中出現(xiàn)的次數(shù)，這樣就得到了每個(gè)候選知識(shí)點(diǎn)及其出現(xiàn)次數(shù)的文本。候選文本是從選定的數(shù)字資源中分詞后得到的文本，候選知識(shí)點(diǎn)是候選文本中分詞后得到的詞語(yǔ)去除常用詞得到的詞語(yǔ)，此部分與實(shí)施例1相同，在此不再贅述。
[0049] 第二步，根據(jù)每個(gè)候選知識(shí)點(diǎn)和該候選知識(shí)點(diǎn)在候選文本中出現(xiàn)的次數(shù)，計(jì)算帶權(quán)路徑長(zhǎng)度最小的二叉樹(shù)。
[0050] 以候選知識(shí)點(diǎn)為葉子節(jié)點(diǎn)，為每個(gè)葉子節(jié)點(diǎn)給定一個(gè)權(quán)值，該權(quán)值為知識(shí)點(diǎn)在文本中的出現(xiàn)次數(shù)，構(gòu)造一棵二叉樹(shù)，父節(jié)點(diǎn)的權(quán)值為兩個(gè)子節(jié)點(diǎn)的權(quán)值之和，帶權(quán)路徑長(zhǎng)度規(guī)定為所有葉子節(jié)點(diǎn)的帶權(quán)路徑長(zhǎng)度之和，若帶權(quán)路徑長(zhǎng)度達(dá)到最小，稱(chēng)這樣的二叉樹(shù)為最優(yōu)二叉樹(shù)，也稱(chēng)為哈夫曼樹(shù)。此處的構(gòu)造方法采用現(xiàn)有技術(shù)中已有的方式構(gòu)建，通過(guò)已有的算法獲得帶權(quán)路徑長(zhǎng)度最小的二叉樹(shù)。
[0051] 第三步，根據(jù)每個(gè)知識(shí)點(diǎn)在所述候選文本中的位置和帶權(quán)路徑長(zhǎng)度最小的二叉樹(shù)，確定每個(gè)知識(shí)點(diǎn)的語(yǔ)義向量。
[0052] 首先，倉(cāng)ll建skip-gram模型，skip-gram模型是現(xiàn)有技術(shù)中一種神經(jīng)網(wǎng)絡(luò)模型，示意圖如圖3所示，用于訓(xùn)練詞語(yǔ)向量，主要原理是通過(guò)當(dāng)前詞語(yǔ)預(yù)測(cè)其前后一定范圍內(nèi)的詞語(yǔ)從而得到合適的詞語(yǔ)向量表示，使用的訓(xùn)練方法為隨機(jī)梯度下降方法，輸入為文本數(shù) 據(jù)，根據(jù)訓(xùn)練得到的結(jié)果可以獲取詞語(yǔ)向量。
[0053] 作為其他可以替換的實(shí)施方式，此處也可以選擇CB0W模型，示意圖如圖4所示，它也是一種神經(jīng)網(wǎng)絡(luò)模型。CB0W模型是通過(guò)一個(gè)詞語(yǔ)所在的上下文預(yù)測(cè)該詞語(yǔ)，過(guò)程如圖3 所示，該模型是現(xiàn)有技術(shù)中一種神經(jīng)網(wǎng)絡(luò)模型，用于訓(xùn)練詞語(yǔ)向量，主要原理是通過(guò)一個(gè)詞語(yǔ)所在的上下文預(yù)測(cè)該詞語(yǔ)從而得到合適的詞語(yǔ)向量表示，使用的訓(xùn)練方法為隨機(jī)梯度下降方法，輸入為文本數(shù)據(jù)，根據(jù)訓(xùn)練得到的結(jié)果為可以獲取詞語(yǔ)向量。
[0054] 此外，在一些文獻(xiàn)中，也給出了 skip-gram模型或CB0W模型的具體介紹及應(yīng)用，如下：
[0055] Mikolov，T.，Chen，K.，Corrado，G.，et al. Efficient Estimation of Word Representations in Vector Space. In Proc. ICLR Workshop(2013)
[0056] Mikolov，T.，Sutskever，I.，Chen，K.，et al. Distributed Representations of Words and Phrases and Their Compositionality. In Proc. NIPS(2013)
[0057] 在構(gòu)建上述模型后，以候選文件為訓(xùn)練樣本，所述帶權(quán)路徑長(zhǎng)度最小的二叉樹(shù)為輸出層，進(jìn)行訓(xùn)練；訓(xùn)練完成后，根據(jù)帶權(quán)路徑長(zhǎng)度最小的二叉樹(shù)中的節(jié)點(diǎn)向量獲得每個(gè)候選知識(shí)點(diǎn)的語(yǔ)義向量。具體方式為提取最優(yōu)二叉樹(shù)中葉子節(jié)點(diǎn)所在位置對(duì)應(yīng)的訓(xùn)練后的葉子節(jié)點(diǎn)向量，該向量即為此知識(shí)點(diǎn)的語(yǔ)義向量。
[0058] 本實(shí)施例中，在得到候選知識(shí)點(diǎn)的語(yǔ)義向量后，計(jì)算領(lǐng)域知識(shí)點(diǎn)與候選知識(shí)點(diǎn)的相似度時(shí)，采用如下公式：
[0059] 所述語(yǔ)義相似度的計(jì)算方法為：
[0061] 其中，X、Y為需要比較相似度的兩個(gè)m列的向量，其中一個(gè)為領(lǐng)域知識(shí)點(diǎn)的語(yǔ)義向量，另一個(gè)為候選知識(shí)點(diǎn)的語(yǔ)義向量，f(X，Y)為X、Y的語(yǔ)義相似度。
[0062] 最后，通過(guò)該語(yǔ)義相似度來(lái)得出每個(gè)領(lǐng)域知識(shí)點(diǎn)相關(guān)的候選知識(shí)點(diǎn)，作為目標(biāo)知識(shí)點(diǎn)。在領(lǐng)域百科全書(shū)中查找該目標(biāo)知識(shí)點(diǎn)，完成對(duì)領(lǐng)域百科全書(shū)詞條的檢查和構(gòu)建。
[0063] 本實(shí)施例中，提供了獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)過(guò)程中，計(jì)算候選知識(shí)點(diǎn)語(yǔ)義向量的方法，將知識(shí)點(diǎn)的語(yǔ)義信息進(jìn)行量化，通過(guò)數(shù)字化的方式來(lái)體現(xiàn)其語(yǔ)義特征，這樣，在后續(xù)對(duì)知識(shí)點(diǎn)進(jìn)行分析時(shí)，可以更加方便，為知識(shí)點(diǎn)搜索、推薦、信息過(guò)濾等應(yīng)用提供基礎(chǔ)。
[0064] 實(shí)施例3 ：
[0065] 領(lǐng)域百科全書(shū)是一種重要的數(shù)字出版資源。領(lǐng)域百科全書(shū)通常以詞條的方式組織領(lǐng)域信息。領(lǐng)域百科全書(shū)需要包含領(lǐng)域內(nèi)的重要詞條。然而，建設(shè)領(lǐng)域百科全書(shū)需要大量人力投入。本實(shí)施例中提供一種獲取領(lǐng)域知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的方法，領(lǐng)域知識(shí)點(diǎn)也就是領(lǐng)域百科全書(shū)中的詞條。本實(shí)施例中利用領(lǐng)域電子書(shū)文本以及報(bào)刊文本，通過(guò)skip-gram 模型計(jì)算得到的候選詞條的語(yǔ)義向量。通過(guò)語(yǔ)義向量計(jì)算構(gòu)建好的領(lǐng)域詞條與得到的候選詞條之間的語(yǔ)義相似度。利用詞條的語(yǔ)義相似度，發(fā)現(xiàn)與領(lǐng)域百科全書(shū)詞條在語(yǔ)義相關(guān)的且被遺漏的其他領(lǐng)域詞條，以減少某些領(lǐng)域詞條被遺漏的可能性。具體步驟如下。
[0066] 第一步，選擇領(lǐng)域電子書(shū)，從中抽取文本，使用分詞器對(duì)文本進(jìn)行分詞，得到分詞后的文本F。
[0067] 第二步，選擇報(bào)刊文本，使用分詞器對(duì)報(bào)刊文本進(jìn)行分詞，根據(jù)分詞結(jié)果確定常用。
[0068] 第三步，根據(jù)第一步中的分詞結(jié)果及第二步中的常用詞，去除分詞后的文本F中的常用詞，剩余的詞語(yǔ)作為領(lǐng)域候選詞條。
[0069] 第四步，根據(jù)領(lǐng)域候選詞條，統(tǒng)計(jì)文件F中各候選詞條出現(xiàn)的次數(shù)，形成統(tǒng)計(jì)文件，統(tǒng)計(jì)文件中的詞條按詞條名稱(chēng)的出現(xiàn)次數(shù)倒序排列。統(tǒng)計(jì)文件的格式如下，其中〇,，〇j，〇 k為詞條的名稱(chēng)，t ^ t,，tk為詞條名稱(chēng)在文件F中出現(xiàn)的次數(shù)。
[0070] 〇i, t；
[0071] 〇j, tj
[0072]
[0073] ok，tk
[0074] 根據(jù)該統(tǒng)計(jì)文件，以詞條為葉子節(jié)點(diǎn)，形成一棵哈夫曼樹(shù)。此處構(gòu)建哈夫曼樹(shù)的過(guò) 程，如下：
[0075] 1?根據(jù)給定的n個(gè)詞條生成n棵二叉樹(shù)的集合R = {ivr；；，. ?，rn}，其中每棵二叉樹(shù)A中只有一個(gè)帶權(quán)w ;的根節(jié)點(diǎn)，權(quán)重w ;等于詞條的出現(xiàn)次數(shù)t ;，左右子樹(shù)均為空。
[0076] 2.在R中選擇兩棵根節(jié)點(diǎn)權(quán)值最小的樹(shù)作為左右子樹(shù)構(gòu)造一棵新的二叉樹(shù)，且置新的二叉樹(shù)的根節(jié)點(diǎn)的權(quán)值為其左右子樹(shù)上根節(jié)點(diǎn)的權(quán)值之和。
[0077] 3.在R中刪除這兩棵樹(shù)，并將新的二叉樹(shù)加入R中。
[0078] 4.重復(fù)第2步和第3步，直到R中只含有一棵樹(shù)為止。
[0079] 得到的這棵樹(shù)即為哈夫曼樹(shù)。
[0080] 第五步，使用skip-gram模型來(lái)進(jìn)行訓(xùn)練，得到哈夫曼樹(shù)中各個(gè)詞條對(duì)應(yīng)的葉子節(jié)點(diǎn)向量，從而獲得各個(gè)詞條的語(yǔ)義向量。
[0081] skip-gram模型是現(xiàn)有技術(shù)中一種神經(jīng)網(wǎng)絡(luò)模型，用于訓(xùn)練詞語(yǔ)向量，主要原理是通過(guò)當(dāng)前詞語(yǔ)預(yù)測(cè)其前后一定范圍內(nèi)的詞語(yǔ)從而得到合適的詞語(yǔ)向量表示，使用的訓(xùn)練方法為隨機(jī)梯度下降方法，輸入為文本數(shù)據(jù)，根據(jù)訓(xùn)練得到的結(jié)果可以獲取詞語(yǔ)向量。
[0082] 在本實(shí)施例中，首先創(chuàng)建skip-gram模型，skip-gram模型如圖3所示，該模型包括輸入層input，中間層projection和輸出層output。其中輸出層采用第四步中的哈夫曼樹(shù)。從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的每個(gè)詞條w的路徑長(zhǎng)度表示為L(zhǎng)(w)，n(w，j)表示該路徑下的第j th節(jié)點(diǎn)，ch(n)表示非葉子節(jié)點(diǎn)n的孩子節(jié)點(diǎn)，s(x)是符號(hào)函數(shù)，當(dāng)x為真時(shí)取1，否則取-1。對(duì)于訓(xùn)練集w^w；；，…，wjw^w；；，…，界 7就是訓(xùn)練集中的詞語(yǔ)），skip-gram模型將最大化概率值
其中j辛0, k是以wt為中心的窗口大小，T是訓(xùn)練集中的詞語(yǔ)數(shù)目。通常，k值越大，訓(xùn)練得到的結(jié)果越準(zhǔn)確。但是，k值越大，需要的訓(xùn)練時(shí) L(w)-\ 丁間也越長(zhǎng)。p(w|Wl)定義為戶〇丨％)= H CT〇(?(w，*/ + 1) = c/z〇(w，*/))).vM>^ ') n(w，j) 產(chǎn)1 , 表示該路徑下的第jth節(jié)點(diǎn)，S(x)是符號(hào)函數(shù)，其中〇 (X) = lAl+exp(-X))，^是葉子節(jié) 點(diǎn)W的向量表示，V' n是非葉子節(jié)點(diǎn)n的向量表示。訓(xùn)練時(shí)，訓(xùn)練集中詞w i被丟棄的概率為.
其中t是指定的閾值，g (wj是詞t出現(xiàn)的頻率，使用該概率丟棄詞的目的是加快訓(xùn)練速度并提高準(zhǔn)確性。
[0083] 第六步，以分詞后的文件F做為訓(xùn)練樣本，通過(guò)隨機(jī)梯度下降反向傳播算法訓(xùn)練模型。模型訓(xùn)練完成后，得到每個(gè)候選詞條〇1的語(yǔ)義向量v 1<3
[0084] 第七步，選擇領(lǐng)域百科全書(shū)，從領(lǐng)域百科全書(shū)中獲取已經(jīng)建設(shè)的領(lǐng)域詞條。
[0085] 第八步，對(duì)于領(lǐng)域百科全書(shū)中的每一個(gè)詞條〇1，計(jì)算該詞條與其它所有候選詞條的語(yǔ)義相似度，根據(jù)語(yǔ)義相似度降序排序詞條，取得相似度最高的m個(gè)詞條。查看這些詞條是否已經(jīng)在領(lǐng)域百科全書(shū)中，如果不在領(lǐng)域百科全書(shū)中，則將這些詞條記錄在文件中，供領(lǐng) 域百科全書(shū)建設(shè)者檢查。
[0086] 由于領(lǐng)域百科全書(shū)中詞條數(shù)目較多，因此通過(guò)人工的方式尋找合適的領(lǐng)域詞條不僅耗時(shí)，而且容易遺漏一些很相關(guān)的領(lǐng)域詞條。本實(shí)施例中的獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的方法，可以用于領(lǐng)域百科全書(shū)詞條建設(shè)檢查，用于發(fā)現(xiàn)與領(lǐng)域百科全書(shū)詞條在語(yǔ)義上相關(guān) 的其他領(lǐng)域詞條，以減少某些領(lǐng)域詞條被遺漏的可能性。
[0087] 實(shí)施例4 ：
[0088] 本實(shí)施例中提供一種獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的系統(tǒng)，如圖5所示，包括：
[0089] 分詞單元：對(duì)文本進(jìn)行分詞，得到分詞結(jié)果；
[0090] 候選單元：根據(jù)分詞結(jié)果和常用詞，確定候選知識(shí)點(diǎn)；
[0091] 語(yǔ)義向量計(jì)算單元：確定每個(gè)候選知識(shí)點(diǎn)的語(yǔ)義向量；
[0092] 提取單元：獲取領(lǐng)域知識(shí)點(diǎn)；
[0093] 相似度計(jì)算單元：對(duì)于每個(gè)領(lǐng)域知識(shí)點(diǎn)，計(jì)算該領(lǐng)域知識(shí)點(diǎn)與候選知識(shí)點(diǎn)的語(yǔ)義相似度；
[0094] 相關(guān)知識(shí)點(diǎn)計(jì)算單元：根據(jù)計(jì)算出的語(yǔ)義相似度，確定與該領(lǐng)域知識(shí)點(diǎn)相關(guān)的目標(biāo)知識(shí)點(diǎn)。
[0095] 其中，分詞單元包括：
[0096] 抽取單元：選擇領(lǐng)域數(shù)字資源，從中抽取文本；
[0097] 候選文件獲取單元：使用分詞器對(duì)所述文本進(jìn)行分詞，得到分詞后的文件，作為候選文件。
[0098] 其中，候選單元包括：
[0099] 常用詞確定單元：選擇常用文本的數(shù)字資源，對(duì)其進(jìn)行分詞確定常用詞；
[0100] 候選知識(shí)點(diǎn)確定單元：將候選文件中的詞語(yǔ)去除所述常用詞，得到候選知識(shí)點(diǎn)。
[0101] 其中，語(yǔ)義向量計(jì)算單元包括：
[0102] 統(tǒng)計(jì)單元：確定每個(gè)候選知識(shí)點(diǎn)在候選文件中出現(xiàn)的次數(shù)；
[0103] 最優(yōu)二叉樹(shù)計(jì)算單元：根據(jù)每個(gè)候選知識(shí)點(diǎn)和該候選知識(shí)點(diǎn)在候選文本中出現(xiàn)的次數(shù)，計(jì)算帶權(quán)路徑長(zhǎng)度最小的二叉樹(shù)；
[0104] 語(yǔ)義向量確定單元：根據(jù)每個(gè)候選知識(shí)點(diǎn)在所述候選文本中的位置和帶權(quán)路徑長(zhǎng) 度最小的二叉樹(shù)，確定每個(gè)候選知識(shí)點(diǎn)的語(yǔ)義向量。
[0105] 上述語(yǔ)義向量確定單元，進(jìn)一步包括：
[0106] 建模單元：創(chuàng)建skip-gram模型；
[0107] 訓(xùn)練單元：以所述候選文件為訓(xùn)練樣本，所述帶權(quán)路徑長(zhǎng)度最小的二叉樹(shù)為輸出層，進(jìn)行訓(xùn)練；
[0108] 計(jì)算單元：訓(xùn)練完成后，根據(jù)帶權(quán)路徑長(zhǎng)度最小的二叉樹(shù)中的節(jié)點(diǎn)向量獲得每個(gè) 候選知識(shí)點(diǎn)的語(yǔ)義向量。
[0109] 本實(shí)施例中，相似度計(jì)算單元包括計(jì)算公式，如下：
[0111] 其中，X、Y為需要比較相似度的兩個(gè)m列的向量，f(X，Y)為X、Y的語(yǔ)義相似度。
[0112] 在其他可以替換的實(shí)施方案中，所述相似度計(jì)算單元包括語(yǔ)義相似度的計(jì)算公式為：
[0114] 其中，X、Y為需要比較相似度的兩個(gè)m列的向量，f(X，Y)為X、Y的語(yǔ)義相似度。
[0115] 本實(shí)施例中，相關(guān)知識(shí)點(diǎn)計(jì)算單元包括：
[0116] 第一計(jì)算單元：將該領(lǐng)域知識(shí)點(diǎn)與候選知識(shí)點(diǎn)的相似度降序排列，選擇排序在前的預(yù)設(shè)數(shù)量的候選知識(shí)點(diǎn)作為該領(lǐng)域知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)；
[0117] 在其他可以替換的實(shí)施方案中，相關(guān)知識(shí)點(diǎn)計(jì)算單元包括第二計(jì)算單元：預(yù)先設(shè) 置一個(gè)相似度閾值，選取相似度大于該閾值的候選知識(shí)點(diǎn)作為該領(lǐng)域知識(shí)點(diǎn)的相關(guān)知識(shí) 點(diǎn)。
[0118] 本實(shí)施例中提供一種獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的系統(tǒng)，包括分詞單元、候選單元、語(yǔ)義向量計(jì)算單元、提取單元、相似度計(jì)算單元以及相關(guān)知識(shí)點(diǎn)計(jì)算單元，采用計(jì)算語(yǔ)義向量的方式，通過(guò)計(jì)算得到領(lǐng)域知識(shí)點(diǎn)與候選知識(shí)點(diǎn)的相似度，來(lái)獲得與每個(gè)領(lǐng)域知識(shí)點(diǎn)相關(guān)的候選知識(shí)點(diǎn)，從而得到每個(gè)領(lǐng)域知識(shí)點(diǎn)相關(guān)的若干個(gè)目標(biāo)知識(shí)點(diǎn)。在建設(shè)百科目錄的詞條時(shí)，可以查找每個(gè)領(lǐng)域知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)是否已經(jīng)存在，如不存在，則需要增加。通過(guò)這種方式來(lái)完成領(lǐng)域百科全書(shū)的詞條的檢查和建設(shè)，大大降低了人工的工作量。
[0119] 顯然，上述實(shí)施例僅僅是為清楚地說(shuō)明所作的舉例，而并非對(duì)實(shí)施方式的限定。對(duì) 于所屬領(lǐng)域的普通技術(shù)人員來(lái)說(shuō)，在上述說(shuō)明的基礎(chǔ)上還可以做出其它不同形式的變化或變動(dòng)。這里無(wú)需也無(wú)法對(duì)所有的實(shí)施方式予以窮舉。而由此所引伸出的顯而易見(jiàn)的變化或變動(dòng)仍處于本發(fā)明創(chuàng)造的保護(hù)范圍之中。
[0120] 本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白，本發(fā)明的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此，本發(fā)明可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí) 施例的形式。而且，本發(fā)明可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī) 可用存儲(chǔ)介質(zhì)（包括但不限于磁盤(pán)存儲(chǔ)器、CD-ROM、光學(xué)存儲(chǔ)器等）上實(shí)施的計(jì)算機(jī)程序產(chǎn) 品的形式。
[0121] 本發(fā)明是參照根據(jù)本發(fā)明實(shí)施例的方法、設(shè)備（系統(tǒng)）、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來(lái)描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合?？商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專(zhuān)用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器，使得通過(guò)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。
[0122] 這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中，使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品，該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。
[0123] 這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上，使得在計(jì) 算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理，從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。
[0124] 盡管已描述了本發(fā)明的優(yōu)選實(shí)施例，但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念，則可對(duì)這些實(shí)施例作出另外的變更和修改。所以，所附權(quán)利要求意欲解釋為包括優(yōu) 選實(shí)施例以及落入本發(fā)明范圍的所有變更和修改。
【主權(quán)項(xiàng)】
1. 一種獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的方法，其特征在于，包括：對(duì)文本進(jìn)行分詞，得到分詞結(jié)果；根據(jù)分詞結(jié)果和常用詞，確定候選知識(shí)點(diǎn)；確定每個(gè)候選知識(shí)點(diǎn)的語(yǔ)義向量；獲取領(lǐng)域知識(shí)點(diǎn)；對(duì)于每個(gè)領(lǐng)域知識(shí)點(diǎn)，計(jì)算該領(lǐng)域知識(shí)點(diǎn)與候選知識(shí)點(diǎn)的語(yǔ)義相似度；根據(jù)計(jì)算出的語(yǔ)義相似度，確定與該領(lǐng)域知識(shí)點(diǎn)相關(guān)的目標(biāo)知識(shí)點(diǎn)。2. 根據(jù)權(quán)利要求1所述的獲取知識(shí)點(diǎn)相關(guān)知識(shí)點(diǎn)的方法，其特征在于，對(duì)文本進(jìn)行分詞，得到分詞結(jié)果的處理，包括：選擇領(lǐng)域數(shù)字資源，從中抽取文本；使用分詞器對(duì)所述文本進(jìn)行分詞，得到分詞后的文件，作為候選文件。3. 根據(jù)權(quán)利要求1或2所述的獲取知識(shí)點(diǎn)相關(guān)知識(shí)點(diǎn)的方法，其特征在于，所述根據(jù)分詞結(jié)果和常用詞，確定候選知識(shí)點(diǎn)的過(guò)程，包括：選擇常用文本的數(shù)字資源，對(duì)其進(jìn)行分詞確定常用詞；將候選文件中的詞語(yǔ)去除所述常用詞，得到候選知識(shí)點(diǎn)。4. 根據(jù)權(quán)利要求1-3任一所述的獲取知識(shí)點(diǎn)相關(guān)知識(shí)點(diǎn)的方法，其特征在于，所述確定每個(gè)候選知識(shí)點(diǎn)的語(yǔ)義向量的過(guò)程，包括：確定每個(gè)候選知識(shí)點(diǎn)在候選文件中出現(xiàn)的次數(shù)；根據(jù)每個(gè)候選知識(shí)點(diǎn)和該候選知識(shí)點(diǎn)在候選文本中出現(xiàn)的次數(shù)，計(jì)算帶權(quán)路徑長(zhǎng)度最小的二叉樹(shù)；根據(jù)每個(gè)候選知識(shí)點(diǎn)在所述候選文本中的位置和帶權(quán)路徑長(zhǎng)度最小的二叉樹(shù)，確定每個(gè)候選知識(shí)點(diǎn)的語(yǔ)義向量。5. 根據(jù)權(quán)利要求4所述的獲取知識(shí)點(diǎn)相關(guān)知識(shí)點(diǎn)的方法，其特征在于，所述根據(jù)每個(gè) 知識(shí)點(diǎn)在所述候選文本中的位置和帶權(quán)路徑長(zhǎng)度最小的二叉樹(shù)，確定每個(gè)知識(shí)點(diǎn)的語(yǔ)義向量的過(guò)程，包括：創(chuàng)建skip-gram模型；以所述候選文件為訓(xùn)練樣本，所述帶權(quán)路徑長(zhǎng)度最小的二叉樹(shù)為輸出層，進(jìn)行訓(xùn)練；訓(xùn)練完成后，根據(jù)帶權(quán)路徑長(zhǎng)度最小的二叉樹(shù)中的節(jié)點(diǎn)向量獲得每個(gè)候選知識(shí)點(diǎn)的語(yǔ) 義向量。6. 根據(jù)權(quán)利要求1-5任一所述的獲取知識(shí)點(diǎn)相關(guān)知識(shí)點(diǎn)的方法，其特征在于，所述對(duì) 于每個(gè)領(lǐng)域知識(shí)點(diǎn)，計(jì)算該領(lǐng)域知識(shí)點(diǎn)與候選知識(shí)點(diǎn)的語(yǔ)義相似度的處理，包括：所述語(yǔ)義相似度的計(jì)算方法為：其中，X、Y為需要比較相似度的兩個(gè)m列的向量，f(X，Y)為X、Y的語(yǔ)義相似度。7. 根據(jù)權(quán)利要求1-5任一所述的獲取知識(shí)點(diǎn)相關(guān)知識(shí)點(diǎn)的方法，其特征在于，所述對(duì) 于每個(gè)領(lǐng)域知識(shí)點(diǎn)，計(jì)算該領(lǐng)域知識(shí)點(diǎn)與候選知識(shí)點(diǎn)的語(yǔ)義相似度的處理，包括： gp·；士；五 \、/ 士1#的々+咎f、、/土斗1 -其中，X、Y為需要比較相似度的兩個(gè)m列的向量，f(X，Y)為X、Y的語(yǔ)義相似度。8. 根據(jù)權(quán)利要求1-7任一所述的獲取知識(shí)點(diǎn)相關(guān)知識(shí)點(diǎn)的方法，其特征在于，所述根據(jù)計(jì)算出的語(yǔ)義相似度，確定與該領(lǐng)域知識(shí)點(diǎn)相關(guān)的目標(biāo)知識(shí)點(diǎn)的處理，包括：將該領(lǐng)域知識(shí)點(diǎn)與候選知識(shí)點(diǎn)的相似度降序排列，選擇排序在前的預(yù)設(shè)數(shù)量的候選知識(shí)點(diǎn)作為該領(lǐng)域知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)。或預(yù)先設(shè)置一個(gè)相似度閾值，選取相似度大于該閾值的候選知識(shí)點(diǎn)作為該領(lǐng)域知識(shí)點(diǎn) 的相關(guān)知識(shí)點(diǎn)。9. 一種獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的系統(tǒng)，其特征在于，包括：分詞單元：對(duì)文本進(jìn)行分詞，得到分詞結(jié)果；候選單元：根據(jù)分詞結(jié)果和常用詞，確定候選知識(shí)點(diǎn)；語(yǔ)義向量計(jì)算單元：確定每個(gè)候選知識(shí)點(diǎn)的語(yǔ)義向量；提取單元：獲取領(lǐng)域知識(shí)點(diǎn)；相似度計(jì)算單元：對(duì)于每個(gè)領(lǐng)域知識(shí)點(diǎn)，計(jì)算該領(lǐng)域知識(shí)點(diǎn)與候選知識(shí)點(diǎn)的語(yǔ)義相似度；相關(guān)知識(shí)點(diǎn)計(jì)算單元：根據(jù)計(jì)算出的語(yǔ)義相似度，確定與該領(lǐng)域知識(shí)點(diǎn)相關(guān)的目標(biāo)知識(shí)點(diǎn)。10. 根據(jù)權(quán)利要求1所述的獲取知識(shí)點(diǎn)相關(guān)知識(shí)點(diǎn)的系統(tǒng)，其特征在于，分詞單元包括：抽取單元：選擇領(lǐng)域數(shù)字資源，從中抽取文本；候選文件獲取單元：使用分詞器對(duì)所述文本進(jìn)行分詞，得到分詞后的文件，作為候選文件。11. 根據(jù)權(quán)利要求1或2所述的獲取知識(shí)點(diǎn)相關(guān)知識(shí)點(diǎn)的系統(tǒng)，其特征在于，候選單元包括：常用詞確定單元：選擇常用文本的數(shù)字資源，對(duì)其進(jìn)行分詞確定常用詞；候選知識(shí)點(diǎn)確定單元：將候選文件中的詞語(yǔ)去除所述常用詞，得到候選知識(shí)點(diǎn)。12. 根據(jù)權(quán)利要求1-3任一所述的獲取知識(shí)點(diǎn)相關(guān)知識(shí)點(diǎn)的系統(tǒng)，其特征在于，語(yǔ)義向量計(jì)算單元包括：統(tǒng)計(jì)單元：確定每個(gè)候選知識(shí)點(diǎn)在候選文件中出現(xiàn)的次數(shù)；最優(yōu)二叉樹(shù)計(jì)算單元：根據(jù)每個(gè)候選知識(shí)點(diǎn)和該候選知識(shí)點(diǎn)在候選文本中出現(xiàn)的次數(shù)，計(jì)算帶權(quán)路徑長(zhǎng)度最小的二叉樹(shù)；語(yǔ)義向量確定單元：根據(jù)每個(gè)候選知識(shí)點(diǎn)在所述候選文本中的位置和帶權(quán)路徑長(zhǎng)度最小的二叉樹(shù)，確定每個(gè)候選知識(shí)點(diǎn)的語(yǔ)義向量。13. 根據(jù)權(quán)利要求4所述的獲取知識(shí)點(diǎn)相關(guān)知識(shí)點(diǎn)的系統(tǒng)，其特征在于，語(yǔ)義向量確定單元，包括：建模單元：創(chuàng)建skip-gram模型；訓(xùn)練單元：以所述候選文件為訓(xùn)練樣本，所述帶權(quán)路徑長(zhǎng)度最小的二叉樹(shù)為輸出層，進(jìn) 行訓(xùn)練；計(jì)算單元：訓(xùn)練完成后，根據(jù)帶權(quán)路徑長(zhǎng)度最小的二叉樹(shù)中的節(jié)點(diǎn)向量獲得每個(gè)候選知識(shí)點(diǎn)的語(yǔ)義向量。14. 根據(jù)權(quán)利要求1-5任一所述的獲取知識(shí)點(diǎn)相關(guān)知識(shí)點(diǎn)的系統(tǒng)，其特征在于，相似度計(jì)算單元包括計(jì)算公式，如下：其中，X、Y為需要比較相似度的兩個(gè)m列的向量，f(X，Y)為X、Y的語(yǔ)義相似度。15. 根據(jù)權(quán)利要求1-5任一所述的獲取知識(shí)點(diǎn)相關(guān)知識(shí)點(diǎn)的系統(tǒng)，其特征在于，所述相似度計(jì)算單元包括語(yǔ)義相似度的計(jì)算公式為：其中，X、Y為需要比較相似度的兩個(gè)m列的向量，f(X，Y)為X、Y的語(yǔ)義相似度。16. 根據(jù)權(quán)利要求1-7任一所述的獲取知識(shí)點(diǎn)相關(guān)知識(shí)點(diǎn)的系統(tǒng)，其特征在于，相關(guān)知識(shí)點(diǎn)計(jì)算單元包括：第一計(jì)算單元：將該領(lǐng)域知識(shí)點(diǎn)與候選知識(shí)點(diǎn)的相似度降序排列，選擇排序在前的預(yù) 設(shè)數(shù)量的候選知識(shí)點(diǎn)作為該領(lǐng)域知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)；或第二計(jì)算單元：預(yù)先設(shè)置一個(gè)相似度閾值，選取相似度大于該閾值的候選知識(shí)點(diǎn)作為該領(lǐng)域知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)。
【文檔編號(hào)】G06F17/30GK105893363SQ201410497469
【公開(kāi)日】2016年8月24日
【申請(qǐng)日】2014年9月26日
【發(fā)明人】葉茂, 湯幟, 徐劍波, 楊亮, 任彩紅
【申請(qǐng)人】北大方正集團(tuán)有限公司, 北京方正阿帕比技術(shù)有限公司, 北京大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：葉茂;湯幟;徐劍波;楊亮;任彩紅;
技術(shù)所有人：北大方正集團(tuán)有限公司;北京方正阿帕比技術(shù)有限公司;北京大學(xué);
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種獲取知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的方法及系統(tǒng)的制作方法