两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于圖書目錄的專題自動(dòng)生成方法

文檔序號(hào):10534940閱讀:299來(lái)源:國(guó)知局
一種基于圖書目錄的專題自動(dòng)生成方法
【專利摘要】本發(fā)明公開了一種基于圖書目錄的專題自動(dòng)生成方法。對(duì)每一本書,把目錄中每個(gè)章節(jié)當(dāng)作一個(gè)詞語(yǔ),提取出詞語(yǔ)的特征,訓(xùn)練出一個(gè)分類器識(shí)別出書目錄中的實(shí)體,對(duì)于書目錄中每一對(duì)屬于實(shí)體的上下級(jí)章節(jié)詞抽取出符合上下位關(guān)系的章節(jié)對(duì)。根據(jù)上下位關(guān)系構(gòu)建每個(gè)詞的概念層次結(jié)構(gòu),對(duì)所有圖書中相同的或相似的概念層次進(jìn)行融合。對(duì)概念層次中的每一個(gè)概念詞語(yǔ),檢索其在網(wǎng)頁(yè)中和圖書中的內(nèi)容作為該詞語(yǔ)的描述內(nèi)容。最后,把概念層次及概念詞內(nèi)容組織成專題形式。本發(fā)明利用圖書目錄的結(jié)構(gòu)化信息和機(jī)器學(xué)習(xí)相關(guān)算法實(shí)現(xiàn)了知識(shí)的抽取和重組,在編寫專題時(shí)可以借鑒,可以大大減少相關(guān)工作的人力成本,具有較高的實(shí)用性。
【專利說(shuō)明】
一種基于圖書目錄的專題自動(dòng)生成方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及自然語(yǔ)言處理和機(jī)器學(xué)習(xí)領(lǐng)域,尤其涉及基于圖書目錄的專題自動(dòng)生 成方法。
【背景技術(shù)】
[0002] 隨著計(jì)算機(jī)科學(xué)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)數(shù)據(jù)也隨之呈爆炸式增長(zhǎng),這些網(wǎng)絡(luò)數(shù)據(jù) 具有來(lái)源廣泛、無(wú)結(jié)構(gòu)、無(wú)層次、成分復(fù)雜、多噪音等特點(diǎn)。如何從中抽取知識(shí)并按照一定方 式組織應(yīng)用成了自然語(yǔ)言處理、機(jī)器學(xué)習(xí)和信息檢索等領(lǐng)域的一大熱門方向。知識(shí)庫(kù)為該 問(wèn)題提供了一種可行的解決方案,然而,大規(guī)模知識(shí)庫(kù)的構(gòu)建仍然是一個(gè)極具挑戰(zhàn)的任務(wù)。 WordNet,EurowordNet,Cyc都是由領(lǐng)域?qū)<胰斯ぞ幾闹R(shí)庫(kù)。盡管它們具有高質(zhì)量,但是 在規(guī)模、知識(shí)覆蓋度、更新周期等方面明顯不足,另外通過(guò)人工編寫,需要耗費(fèi)大量的人力 物力。在大數(shù)據(jù)的背景下,人工構(gòu)建數(shù)據(jù)庫(kù)顯得更加無(wú)力。事實(shí)上,在人類發(fā)展的歷史進(jìn)程 中,大量的知識(shí)都通過(guò)圖書傳承下來(lái),圖書里面蘊(yùn)含著海量的知識(shí)等待著我們?nèi)ネ诰蚶谩?幸運(yùn)的是,越來(lái)越多的圖書被數(shù)字化存儲(chǔ)在數(shù)字圖書館中,這些圖書中存儲(chǔ)著大量的結(jié)構(gòu) 化的知識(shí)片段。但是,這些知識(shí)片段都隱含在海量資源中,且只是按作者意圖組織。顯然,如 果能從這些數(shù)字資源中抽取知識(shí)片段、關(guān)聯(lián)、重組和融合,形成按照一定目標(biāo)、主題組織的 內(nèi)容,將會(huì)產(chǎn)生更大的價(jià)值。

【發(fā)明內(nèi)容】

[0003] 本發(fā)明的目的是充分利用圖書中的結(jié)構(gòu)化的知識(shí)片段,從圖書目錄中抽取知識(shí)進(jìn) 行關(guān)聯(lián)重組和融合,彌補(bǔ)從網(wǎng)頁(yè)中抽取知識(shí)的不足。
[0004] 本發(fā)明的目的是通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn)的:
[0005] -種基于圖書目錄的專題自動(dòng)生成方法,包括以下步驟:
[0006] 1)數(shù)據(jù)預(yù)處理:利用光學(xué)字符識(shí)別技術(shù)將圖書數(shù)字化,從數(shù)字化的圖書中抽取出 圖書目錄和正文,去除目錄中章節(jié)序號(hào),以及停用詞,分別對(duì)目錄章節(jié)和正文構(gòu)建索引,另 外利用word2vec訓(xùn)練出每個(gè)目錄詞的向量表示。具體步驟為:
[0007] 1.1).去除目錄中章節(jié)序號(hào),統(tǒng)計(jì)章節(jié),分析章節(jié)序號(hào)特點(diǎn),使用正則表達(dá)式去除 章節(jié)序號(hào);
[0008] 1.2).對(duì)去除目錄章節(jié)號(hào)的詞,統(tǒng)計(jì)每個(gè)詞出現(xiàn)的次數(shù),選出出現(xiàn)頻率最高的2000 個(gè),篩選出停用詞;
[0009] 1.3).對(duì)目錄章節(jié)構(gòu)建索引時(shí),索引字段包括圖書編號(hào),類別,上級(jí)章節(jié)詞,下級(jí)章 節(jié)詞;
[0010] 1.4).對(duì)正文構(gòu)建索引時(shí),索引字段包括圖書編號(hào),正文內(nèi)容,正文對(duì)應(yīng)的章節(jié)名 稱;
[0011] 1.5) .word2vec訓(xùn)練語(yǔ)料的處理,輸入語(yǔ)料每一行對(duì)應(yīng)目錄索引中一個(gè)分好詞的 章節(jié)和未分詞的章節(jié),輸入開源的word2vec軟件包中,訓(xùn)練完成后,把每個(gè)詞的詞向量寫入 索引中便于查詢。
[0012] 2).實(shí)體識(shí)別:分析實(shí)體的特征,對(duì)目錄章節(jié)索引中的所有章節(jié)詞,分析每個(gè)章節(jié) 詞是否滿足實(shí)體特征,利用SVM分類器進(jìn)行分類,修改原有目錄章節(jié)索引,將目錄章節(jié)中所 有分類后不屬于實(shí)體的詞去掉形成新的索引Concept。
[0013] 具體步驟為:
[0014] 2.1).提取每個(gè)詞的特征,實(shí)體的特征具體包括3類:單詞特征、詞性特征、目錄語(yǔ) 義特征,單詞特征包括詞語(yǔ)長(zhǎng)度、詞的詞性組成以及該詞是否被百度百科收錄;詞的詞性組 成是指利用自然語(yǔ)言處理工具對(duì)詞語(yǔ)進(jìn)行分詞之后詞組的詞性組成;目錄語(yǔ)義特征是指目 錄中每個(gè)章節(jié)與上下文章節(jié)之間的關(guān)系、利用word2vec訓(xùn)練出的詞向量分別計(jì)算該詞與上 下文詞之間的相似度和上下文章節(jié)詞是否被百度百科中收錄;word2vec是谷歌公司在2013 年開發(fā)的一款用于訓(xùn)練詞向量的軟件工具,經(jīng)過(guò)訓(xùn)練可以把詞表達(dá)稱向量的形式。
[0015] 2.2)根據(jù)上一步提取的實(shí)體的特征,標(biāo)記一部分實(shí)體章節(jié)詞和非實(shí)體章節(jié)詞作為 訓(xùn)練集,利用weka中SVM分類器進(jìn)行分類,修改原有目錄章節(jié)索引,將目錄章節(jié)中所有分類 后不屬于實(shí)體的詞去掉形成新的索引Concept。
[0016] 3).上下位詞抽取:分析上下位詞的特征,對(duì)上一步構(gòu)建的索引中的每一對(duì)上下級(jí) 章節(jié)詞,分析其是否滿足上下位詞的特征,利用Adaboost分類器進(jìn)行分類,將所有分類后滿 足上下位關(guān)系的詞對(duì)寫入新的索引中,新索引中根據(jù)不同的字段來(lái)區(qū)分上位詞、下位詞和 圖書;具體步驟為:
[0017] 3.1).對(duì)索引Concept中的每一對(duì)上級(jí)章節(jié)實(shí)體詞x和下級(jí)實(shí)體詞y,抽取分類特 征,上下位詞的分類特征包括3類:上下位模式特征,語(yǔ)義特征,目錄結(jié)構(gòu)特征。上下位模式 特征有x和y是否共享前綴或后綴;語(yǔ)義特征有歸一化谷歌距離NGD,歸一化編輯距離NED,分 類相似度,word2vec距離。目錄結(jié)構(gòu)特征有歸一化目錄距離NCD和每個(gè)詞所出現(xiàn)的不同的上 級(jí)章節(jié)數(shù)。
[0018] NGD是一種利用詞在谷歌索引的網(wǎng)頁(yè)語(yǔ)料庫(kù)中共現(xiàn)關(guān)系來(lái)計(jì)算兩詞之間相關(guān)關(guān)系 的衡量方式。谷歌距離NGD的計(jì)算方式為:
[0020] NGD(x,y)表示利用歸一化谷歌距離計(jì)算出來(lái)的x,y的相關(guān)關(guān)系,
[0021] N(x)表示利用谷歌搜索"x"搜索出來(lái)的結(jié)果條數(shù);
[0022] N(y)表示利用谷歌搜索"y"搜索出來(lái)的結(jié)果條數(shù);
[0023] N(x,y)表示利用谷歌搜索"x y"搜索出來(lái)的結(jié)果條數(shù);
[0024] M為谷歌索引的所有文檔總數(shù);
[0025] NED是指兩個(gè)字符串之間,相互轉(zhuǎn)換所需要的最少編輯操作次數(shù)。允許的編輯操作 包括:將一個(gè)字符替換成另一個(gè)字符,插入一個(gè)字符或者刪除一個(gè)字符,NED表不兩詞之間 一個(gè)相對(duì)的編輯距離,NED計(jì)算方式為:
[0027]其中l(wèi)en(x)表示字符串x的長(zhǎng)度,len(y)表示字符串y的長(zhǎng)度。ED(x,y)表示x,y之 間的最小編輯距離。NED越小,表示兩詞之間差距越小,關(guān)系越密切,反之關(guān)系越疏遠(yuǎn)。
[0028]分類相似度:利用詞在百科中的分類標(biāo)簽來(lái)作為詞條的分類,計(jì)算x的分類和y的 分類是否存在交集
[0029] word2vec距離:利用word2vec進(jìn)行訓(xùn)練后,最終每個(gè)章節(jié)詞都被表示成一個(gè)k維向 量,利用向量的余弦距離計(jì)算上級(jí)章節(jié)和下級(jí)章節(jié)之間的距離
[0030]利用歸一化目錄距離的公式計(jì)算x,y的距離,
[0032] N(x,y)表示以x作為上級(jí)章節(jié)詞,y作為下級(jí)章節(jié)詞,兩者同時(shí)出現(xiàn)在同一目錄上 下級(jí)章節(jié)中的次數(shù),N(x)表示x單獨(dú)出現(xiàn)在目錄章節(jié)中的次數(shù),N(y)表示y單獨(dú)出現(xiàn)在目錄 章節(jié)中的次數(shù)。M表示所有圖書包含的目錄條數(shù)。
[0033] 該詞作為下級(jí)章節(jié)的不同的上級(jí)章節(jié)數(shù):對(duì)Concept索引中每個(gè)詞直接利用hash 表統(tǒng)計(jì)其上級(jí)章節(jié)詞出現(xiàn)的個(gè)數(shù).
[0034] 3.2)根據(jù)上一步提取的特征,標(biāo)記一部分上下位目錄章節(jié)詞和非上下位目錄章節(jié) 詞作為訓(xùn)練集,利用開源的分類算法包weka中Adaboost分類器進(jìn)行分類,分類完成后,整理 每個(gè)詞及其所有下位詞,最后對(duì)其構(gòu)建索引Hypernymy,索引字段為圖書編號(hào),上位目錄章 節(jié)詞,上位目錄章節(jié)詞的所有下位目錄章節(jié)詞,下位目錄章節(jié)詞之間通過(guò)特殊符號(hào)分割。 [00 35] 4).概念層次融合:利用上一步生成的Hypernymy索引,對(duì)每一本書,把上位詞和其 所有下位詞作為一組,對(duì)所有的圖書中相同的上位詞,根據(jù)下位詞計(jì)算上位詞之間的相似 度,把相似度大于特定閾值的進(jìn)行融合。具體為:通過(guò)3.2)可以知道對(duì)于某本書中的一個(gè)實(shí) 體X,可以獲得它的所有的下級(jí)實(shí)體 yi,y2,…yn,n表示x的下級(jí)詞的個(gè)數(shù)。1.在某本圖書a中 抽取的上下位關(guān)系為{X a, [yi,y2, ??%]},其中乂3表示圖書a中的一個(gè)實(shí)體X,yi,y2,~yn表示 在圖書a中的實(shí)體X的下位目錄章節(jié)詞,在另一本圖書中抽取的上下位關(guān)系為{X b,[m,u2,… Um]},其中Xb表示圖書b中的一個(gè)實(shí)體X,U1,U2,…Um表示在圖書b中的實(shí)體X的下位目錄章節(jié) 詞,如果71,72,一7 11與111,112,一11111之間通過(guò)相似度函數(shù)計(jì)算的相似度大于特定閾值,則將乂£1 與XbH蟲合,
[0036]相似度函數(shù)為:
[0038]融合結(jié)果為{X,[yi,y2,…yi]},1為融合之后X的下位章節(jié)詞的個(gè)數(shù),其中wvd(yi, Uj)表示yi和Uj用word2vec計(jì)算的向量距離;2.在某本圖書中抽取的上下位關(guān)系為{Xa, [Y, yi,y2,'"yn]},在另一本書中抽取的上下位關(guān)系為{Y, [ui,U2,'"Um]},如果yi,y2,…yn與ui, U2,???!!》之間通過(guò)相似度函數(shù)計(jì)算的相似度大于特定閾值,則將乂 3與¥融合,
[0039]相似度函數(shù)為:
[0041]融合結(jié)果為"3,[¥,71,72,一71]},此時(shí)乂 3的下位詞包括融合之前本身的下位詞以 及屬于Y但不屬于Xa的下位詞。
[0042] 5).專題生成:專題生成包括專題目錄生成和專題內(nèi)容生成,專題內(nèi)容分為圖書內(nèi) 容和網(wǎng)頁(yè)內(nèi)容。具體步驟為:
[0043] 5.1)專題目錄生成:根據(jù)4)的結(jié)果,給定一個(gè)詞,可以獲取其上位詞和下位詞,所 以給定一個(gè)專題詞t,可以按照以下算法生成專題目錄:
[0044] 第一步,查找t的所有的下位詞,若不存在,返回null,否則轉(zhuǎn)第二步;
[0045] 第二步,記錄好t和t的下位詞之間的關(guān)系{t, [yi,y2,…,yn]},對(duì)于t的每一個(gè)下位 詞yi執(zhí)行第一步,其中K i ,
[0046] 整個(gè)過(guò)程中每個(gè)詞及其下位詞之間形成了一個(gè)樹形的層次關(guān)系,這與常見(jiàn)的專題 目錄的邏輯結(jié)構(gòu)是一致的;
[0047] 5.2)專題內(nèi)容生成:對(duì)專題中的每一個(gè)詞語(yǔ)利用圖書正文索引檢索最相關(guān)的前幾 條記錄,作為詞的專題圖書內(nèi)容,另外,利用百度百科檢索該詞語(yǔ),檢索到的結(jié)果作為詞的 網(wǎng)頁(yè)內(nèi)容。
[0048] 本發(fā)明與現(xiàn)有技術(shù)相比具有的有益效果:
[0049] 1.數(shù)據(jù)來(lái)源是結(jié)構(gòu)化的圖書目錄,知識(shí)抽取結(jié)果更加準(zhǔn)確
[0050] 2.全過(guò)程結(jié)合機(jī)器學(xué)習(xí)相關(guān)算法,過(guò)程具有自動(dòng)性,可重復(fù)執(zhí)行,避免了人工參 與。
[0051 ] 3.實(shí)體識(shí)別和上下位抽取都是基于圖書目錄的,充分利用了圖書的結(jié)構(gòu)化信息, 使得識(shí)別和抽取更加準(zhǔn)確。
[0052] 4.專題是由多本圖書融合而成,使得最終生成的專題更加全面和有深度。
【附圖說(shuō)明】
[0053]圖1為一種基于圖書目錄的專題自動(dòng)生成方法的整體框架圖;
[0054]圖2為《高等數(shù)學(xué)》一書部分圖書目錄內(nèi)容;
[0055] 圖3為圖書1變壓器一章目錄;
[0056] 圖4為圖書2變壓器一章目錄;
[0057]圖5為最終形成的專題舉例。
【具體實(shí)施方式】
[0058] 以下結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步詳細(xì)說(shuō)明。
[0059] 如圖1所示,一種基于圖書目錄的專題自動(dòng)生成的方法,包括以下步驟:
[0060] 1)數(shù)據(jù)預(yù)處理:利用光學(xué)字符識(shí)別技術(shù)將大量圖書數(shù)字化,從數(shù)字化的圖書中抽 取出圖書目錄和正文,去除目錄中章節(jié)序號(hào),以及一些停用詞,分別對(duì)目錄章節(jié)和正文構(gòu)建 索引。具體步驟為:
[0061] 1.1).去除目錄中章節(jié)序號(hào),統(tǒng)計(jì)大量章節(jié),分析章節(jié)序號(hào)特點(diǎn),發(fā)現(xiàn)目錄章節(jié)的 序號(hào)大部分都是"第*章","第*節(jié)","1.1","1.2"之類的形式,從圖2中可以很清楚的看到這 些章節(jié)序號(hào)。使用"~(\\d+[\\.\\-]){0,9}\\d+","試題 | 實(shí)驗(yàn) | 答案[1-9]","[1-9]}[節(jié)|章 篇I部分I單元I章節(jié)I上篇I下篇I課]"等正則表達(dá)式去除章節(jié)序號(hào)。
[0062] 1.2).很多圖書的目錄中都會(huì)包含諸如"答案","概述","緒論"等無(wú)意義的詞,在 預(yù)處理過(guò)程中需要額外去除這些詞,由于沒(méi)有這種停用詞詞典,這里,采用的方法是對(duì)去除 目錄章節(jié)號(hào)的詞,統(tǒng)計(jì)每個(gè)詞出現(xiàn)的次數(shù),選出出現(xiàn)頻率最高的2000個(gè),篩選出停用詞。
[0063] 1.3).對(duì)目錄章節(jié)構(gòu)建索引時(shí),索引字段包括圖書編號(hào),類別,上級(jí)章節(jié)詞,下級(jí)章 節(jié)詞以及上級(jí)章節(jié)詞在目錄結(jié)構(gòu)中所處的層次。通過(guò)這種方式,可以為每一本書恢復(fù)其原 有的目錄結(jié)構(gòu)。
[0064] 1.4).對(duì)正文構(gòu)建索引時(shí),索引字段包括圖書編號(hào),正文內(nèi)容,正文對(duì)應(yīng)的章節(jié)名 稱。正文索引的作用是為了能夠根據(jù)章節(jié)名稱找到對(duì)應(yīng)的圖書正文。
[0065] 1.5) .word2vec訓(xùn)練語(yǔ)料的處理,輸入語(yǔ)料每一行對(duì)應(yīng)目錄索引中一個(gè)分好詞的 章節(jié)和未分詞的章節(jié),輸入開源的word2vec軟件包中,訓(xùn)練完成后,把每個(gè)詞的詞向量寫入 索引中便于查詢。
[0066] 2).實(shí)體識(shí)別:命名實(shí)體識(shí)別已經(jīng)有研究比較成熟的技術(shù)了,其中分類算法是比較 常見(jiàn)方法。根據(jù)分類的要求,首先需要分析實(shí)體具有哪些特征特征,對(duì)索引中的所有章節(jié) 詞,分析每個(gè)章節(jié)詞是否滿足實(shí)體特征,通過(guò)比較各類分類器,最終采用了支持向量機(jī)作為 最終的分類器。相比較其他分類器,支持向量機(jī)對(duì)復(fù)雜非線性邊界具有較強(qiáng)的建模能力,不 容易過(guò)擬合。利用開源工具包weka中的libSVM分類器進(jìn)行分類,分類前分析實(shí)體的特征,對(duì) 目錄章節(jié)索引中的所有章節(jié)詞,分析每個(gè)章節(jié)詞是否滿足實(shí)體特征,然后利用SVM分類器進(jìn) 行分類,修改原有目錄章節(jié)索引,將目錄章節(jié)中所有分類后不屬于實(shí)體的詞去掉形成新的 索引。具體步驟為:
[0067] 2.1).提取每個(gè)詞的特征,實(shí)體的特征具體包括3類,單詞特征、詞性特征、目錄語(yǔ) 義特征。
[0068] 單詞特征主要包括詞語(yǔ)長(zhǎng)度和詞的詞性組成以及百度百科是否收錄。
[0069] 詞長(zhǎng)度:通過(guò)觀察發(fā)現(xiàn)長(zhǎng)度較長(zhǎng)的目錄名通常不是一個(gè)概念,例如"渦輪發(fā)動(dòng)機(jī)的 工作原理","計(jì)算機(jī)網(wǎng)絡(luò)的基本功能"等。因此,把目錄名的長(zhǎng)度當(dāng)做一個(gè)特征,根據(jù)其長(zhǎng)度 是否大于9分成兩類,長(zhǎng)度小于9作為候選詞,長(zhǎng)度大于9的刪掉。
[0070] 詞的詞性組成是指利用自然語(yǔ)言語(yǔ)言處理工具對(duì)詞語(yǔ)進(jìn)行分詞,分詞之后詞組的 詞性組成。一般而言,實(shí)體應(yīng)該是一個(gè)名詞短語(yǔ),這些短語(yǔ)包括的詞性類別可以包括NN(名 詞),CC(連接詞),JJ(形容詞),IN(介詞)等,比如實(shí)體"革蘭氏陰性小桿菌"的詞性為"革蘭 氏/NN陰性/NN小/JJ桿菌/NN"。而包含動(dòng)詞的短語(yǔ)往往不是名詞,比如"收縮段長(zhǎng)度"的詞性 為"動(dòng)詞+量詞+名詞"詞性特征在識(shí)別命名實(shí)體能夠提供更有幫助的信息,本研究中采用了 FudanNLP對(duì)文本語(yǔ)料進(jìn)行詞性標(biāo)注。
[0071] 百科中是否收錄:百度百科是由人手工編寫出來(lái)得,里面大部分詞是實(shí)體,可以利 用這個(gè)特征
[0072] 2.2).目錄語(yǔ)義特征是指目錄中每個(gè)章節(jié)與上下文章節(jié)之間的關(guān)系,包括目錄相 似度和目錄上下文特征
[0073] 目錄相似度:如果一個(gè)章節(jié)下面有很多章節(jié)詞都是實(shí)體,對(duì)于一個(gè)未知的章節(jié)詞 而言,如果它與其他實(shí)體詞之間很相似,那么該詞也應(yīng)該是一個(gè)實(shí)體詞。比如《小兒腫瘤病 理學(xué)》中"常見(jiàn)腫瘤"章節(jié)下有有"尤文氏肉瘤V骨肉瘤〃,"纖維肉瘤〃,"透明細(xì)胞肉瘤〃,我 判定了前三個(gè)都是實(shí)體,通過(guò)計(jì)算〃透明細(xì)胞肉瘤〃與其他三個(gè)目錄的平均word2vec距離:
[0075] 其中x表示待識(shí)別的實(shí)體,71表示所有的同級(jí)目錄,n是同級(jí)目錄數(shù)。如果 averageSim值比較大表明該詞與同級(jí)目錄下的其他詞很相似,反之表明該詞與同級(jí)目錄下 其他詞不相似。通過(guò)計(jì)算,在上面的例子中"透明細(xì)胞肉瘤"與其他三個(gè)目錄的平均 W〇rd2vec距離為0.81,顯然幾個(gè)目錄詞是非常相似的。他們都應(yīng)該為實(shí)體或非實(shí)體。
[0076] 目錄上下文特征:圖書目錄是專家編寫的,同一個(gè)目錄下的章節(jié)具有高度的相關(guān) 性和內(nèi)聚性。如果一個(gè)章節(jié)的上下位章節(jié)都是實(shí)體概念,根據(jù)目錄的組織特點(diǎn),該章節(jié)有很 大可能性也是實(shí)體概念,這里我分別利用了單詞前后各倆個(gè)詞的特征。包括該詞上下文的 詞性特征,上下文的是否是百科詞條特征。比如"自動(dòng)變速器"的目錄結(jié)構(gòu)[自動(dòng)變速器一〉 (液壓控制系統(tǒng),行星齒輪變速器,液力耦合器)],其中"行星齒輪變速器"可能在詞典或百 度百科中都沒(méi)有,但是它的上下文"液壓控制系統(tǒng)"和"液力耦合器"都可以明確判定是實(shí)體 概念。
[0077] 2.3)最后將提取的特征向量化,如果待分類詞滿足第i個(gè)特征,則向量的第i位為 1,否則為0。然后手工標(biāo)記一部分實(shí)體章節(jié)詞和非實(shí)體章節(jié)詞作為訓(xùn)練集,利用開源的分類 算法包weka中SVM分類器進(jìn)行分類,修改原有目錄章節(jié)索引,將目錄章節(jié)中所有分類后不屬 于實(shí)體的詞去掉形成新的索引。
[0078] 3).上下位詞抽?。簣D書目錄內(nèi)容本身是一個(gè)組織結(jié)構(gòu)良好,層次清晰,按時(shí)間順 序排列知識(shí)單元,其上級(jí)目錄和下級(jí)目錄在很多時(shí)候本身就存在一定的主題和子主題的關(guān) 系。因此,圖書目錄本身就是用來(lái)作為上下位抽取的高質(zhì)量的語(yǔ)料庫(kù)。在圖2所顯示的目錄 中,(無(wú)窮級(jí)數(shù),泰勒技術(shù)),(無(wú)窮級(jí)數(shù),正項(xiàng)級(jí)數(shù))等都滿足上下位關(guān)系。上下位詞不論在語(yǔ) 義上還是詞形都具有一定的特點(diǎn),分析上下位詞的特征,對(duì)上一步構(gòu)建的索引中的每一對(duì) 上下級(jí)章節(jié)詞,計(jì)算其是否滿足上下位特征,利用Adaboost分類器進(jìn)行分類,將所有分類后 滿足上下位關(guān)系的詞對(duì)寫入新的索引中,新索引中根據(jù)不同的字段來(lái)區(qū)分上位詞、下位詞 和圖書。具體步驟為:
[0079] 3.1).對(duì)索引Concept中的每一對(duì)上級(jí)章節(jié)實(shí)體詞x和下級(jí)實(shí)體詞y,抽取分類特 征,上下位詞的分類特征包括3類:上下位模式特征,語(yǔ)義特征,目錄結(jié)構(gòu)特征。
[0080]上下位模式特征:X和y是否共享前綴或后綴,兩個(gè)詞滿足前后綴關(guān)系一般情況下 都滿足上下位關(guān)系,而且一般對(duì)(x,y)而言,如果x,y共享后綴,并且y詞長(zhǎng)于x,y-般都會(huì)是 x的下位詞。比如(排序,冒泡排序),(植物,被子植物)等等。
[0081 ] 語(yǔ)義特征:包括歸一化谷歌距離NGD,歸一化編輯距離NED,分類相似度,word2vec 距離。
[0082] NGD是一種利用詞在谷歌索引的網(wǎng)頁(yè)語(yǔ)料庫(kù)中共現(xiàn)關(guān)系來(lái)計(jì)算兩詞之間相關(guān)關(guān)系 的衡量方式。谷歌距離NGD的計(jì)算方式為:
[0084] NGD(x,y)表示利用歸一化谷歌距離計(jì)算出來(lái)的x,y的相關(guān)關(guān)系,
[0085] N(x)表示利用谷歌搜索"x"搜索出來(lái)的結(jié)果條數(shù);
[0086] N(y)表示利用谷歌搜索"y"搜索出來(lái)的結(jié)果條數(shù);
[0087] N(x,y)表示利用谷歌搜索"x y"搜索出來(lái)的結(jié)果條數(shù);
[0088] M為谷歌索引的所有文檔總數(shù);NGD(x,y)越小,表明x,y之間的關(guān)系越緊密,越大越 接近1,表明x,y之間關(guān)系越疏遠(yuǎn)。NGD = 0,表明兩者非常相似,一般為同義詞或者同一個(gè)詞 比如利用上述API可得:N(熟練)=3090000,N(效果法則)=168,N(熟練,效果法則)=1,N (滴定分析)= 2170,N(沉淀滴定法)=1810,N(滴定分析法,沉淀滴定法)=415。如0(熟練, 效果法則)=0 ? 6 6 3 9 5 5 3 7 8 8 9 4 1 4 9 9,NG D (滴定分析法,沉淀滴定法)= 0.08217630103044252。顯然,NGD(熟練,效果法則)很大接近1,表明兩者關(guān)系疏遠(yuǎn)。而NGD (滴定分析法,沉淀滴定法)很小接近〇,表明兩者關(guān)系緊密,這與我們的常識(shí)是一致的。 [0089] NED是指兩個(gè)字符串之間,相互轉(zhuǎn)換所需要的最少編輯操作次數(shù)。允許的編輯操作 包括:將一個(gè)字符替換成另一個(gè)字符,插入一個(gè)字符或者刪除一個(gè)字符,NED表不兩詞之間 一個(gè)相對(duì)的編輯距離,NED計(jì)算方式為:
[0091]其中l(wèi)en(x)表示字符串x的長(zhǎng)度,len(y)表示字符串y的長(zhǎng)度。ED(x,y)表示x,y之 間的最小編輯距離。NED越小,表示兩詞之間差距越小,關(guān)系越密切,反之關(guān)系越疏遠(yuǎn)。NED越 小,表示兩詞之間差距越小,關(guān)系越密切,反之關(guān)系越疏遠(yuǎn)。比如NED (經(jīng)濟(jì),工業(yè))=1.0; NED (換熱器,預(yù)熱器)=0.33;
[0092]分類相似度:一般來(lái)說(shuō),如果(x,y)滿足上下位,x的分類應(yīng)該和y的分類一致,或者 下位詞的分類應(yīng)該屬于上位詞的分類利用詞在百科中的分類標(biāo)簽來(lái)作為詞條的分類,計(jì)算 x的分類和y的分類是否存在交集。
[0093] word2vec距離:利用word2vec進(jìn)行訓(xùn)練后,最終每個(gè)章節(jié)詞都被表示成一個(gè)k維向 量w〈xl,x2,-_,xk>.利用向量的余弦距離計(jì)算上級(jí)章節(jié)和下級(jí)章節(jié)之間的距離,兩次之間 的W〇rd2 vec距離越大,兩者關(guān)系越密切,距離越小,關(guān)系越疏遠(yuǎn)。比如(排序,冒泡排序)=的 word2vec 距離為 0 ? 8525064780061814。
[0094]目錄結(jié)構(gòu)特征:包括歸一化目錄距離NCD和每個(gè)詞所出現(xiàn)的不同的上級(jí)章節(jié)數(shù)。 [0095]利用歸一化目錄距離的公式計(jì)算x,y的目錄距離,
[0097] N(x,y)表示以x作為上級(jí)章節(jié)詞,y作為下級(jí)章節(jié)詞,兩者同時(shí)出現(xiàn)在同一目錄上 下級(jí)章節(jié)中的次數(shù),N(x)表示x單獨(dú)出現(xiàn)在目錄章節(jié)中的次數(shù),N(y)表示y單獨(dú)出現(xiàn)在目錄 章節(jié)中的次數(shù)。M表示所有圖書包含的目錄條數(shù)。
[0098] 下級(jí)目錄的不同上級(jí)目錄數(shù),通常來(lái)說(shuō),對(duì)于一個(gè)特定的下級(jí)目錄而言,在整個(gè)語(yǔ) 料庫(kù)中,其上級(jí)目錄不應(yīng)該非常多或者上級(jí)目錄不應(yīng)該有很多不同的主題。比如說(shuō)"計(jì)算 機(jī)"這個(gè)詞其上級(jí)目錄可以是"計(jì)算機(jī)學(xué)","電器"和"自然學(xué)科"。而"答案"這個(gè)詞卻有可能 出現(xiàn)在任何目錄的下級(jí)目錄中??梢詫?duì)索引Concept中每個(gè)詞直接利用hash表統(tǒng)計(jì)其上位 詞出現(xiàn)的個(gè)數(shù)來(lái)進(jìn)行分析。
[0099] 3.2)最后將提取的特征向量化,如果待分類詞滿足第i個(gè)特征,則向量的第i位為 1,否則為0。根據(jù)提取的特征,手工標(biāo)記一部分上下位目錄章節(jié)詞和非上下位目錄章節(jié)詞作 為訓(xùn)練集,利用開源的分類算法包weka中Adaboost分類器進(jìn)行分類,分類完成后,整理每個(gè) 詞及其所有下位詞,最后對(duì)其構(gòu)建索引Hypernymy,索引字段為圖書編號(hào),上位目錄章節(jié)詞, 上位目錄章節(jié)詞的所有下位目錄章節(jié)詞,下位目錄章節(jié)詞之間通過(guò)特殊符號(hào)分割。
[0100] 4).概念層次融合:利用上一步生成的索引,對(duì)每一本書,把上位詞和其所有下位 詞作為一組,對(duì)所有的圖書中相同的上位詞,根據(jù)下位詞計(jì)算上位詞之間的相似度,把相似 度大于特定閾值的進(jìn)行融合。具體為:通過(guò)3.2)可以知道對(duì)于某本書中的一個(gè)實(shí)體X,可以 獲得它的所有的下級(jí)實(shí)體 yi,y2,…yn,n表示x的下級(jí)詞的個(gè)數(shù)。融合可能存在兩種情況:1. 在某本圖書a中抽取的上下位關(guān)系為{乂 3,[71,72,一711]},其中乂3表示圖書 &中的一個(gè)實(shí)體父, yi,y2,…yn表示在圖書a中的實(shí)體X的下位目錄章節(jié)詞,在另一本圖書中抽取的上下位關(guān)系 為{Xb, [Ul,U2,…!!]!!]},其中Xb表不圖書b中的一個(gè)實(shí)體X,U1,U2,…Um表不在圖書b中的實(shí)體X 的下位目錄章節(jié)詞,如果yi ,y2,…又!!與ui ,U2,之間通過(guò)相似度函數(shù)計(jì)算的相似度大于特 定閾值,則將xa與xb融合,
[0101]相似度函數(shù)為:
[0103] 融合結(jié)果為{X,[yi,y2,…yi]},1為融合之后X的下位章節(jié)詞的個(gè)數(shù),其中wvd(yi, Uj)表示yi和Uj用word2vec計(jì)算的向量距離;2.在某本圖書中抽取的上下位關(guān)系為{X a, [Y, yi,y2,'"yn]},在另一本書中抽取的上下位關(guān)系為{Y, [ui,U2,'"Um]},如果yi,y2,…yn與ui, U2,???!!》之間通過(guò)相似度函數(shù)計(jì)算的相似度大于特定閾值,則將乂 3與¥融合,
[0104] 相似度函數(shù)為:
[0106] 融合結(jié)果為"3,[¥,71,72,一71]},此時(shí)乂 3的下位詞包括融合之前本身的下位詞以 及屬于Y但不屬于Xa的下位詞。
[0107] 5).專題生成:專題生成包括專題目錄生成和專題內(nèi)容生成,專題內(nèi)容分為圖書內(nèi) 容和網(wǎng)頁(yè)內(nèi)容。具體步驟為:
[0108] 5.1)專題目錄生成:根據(jù)4)的結(jié)果,給定一個(gè)詞,可以獲取其上位詞和下位詞,所 以給定一個(gè)專題詞t,可以按照以下算法生成專題目錄:
[0109] 第一步,查找t的所有的下位詞,若不存在,返回null,否則轉(zhuǎn)第二步
[0110]第二步,記錄好t和t的下位詞之間的關(guān)系,{t, [yi,y2,"_,yn]},對(duì)于t的每一個(gè)下 位詞71,1〈 = 1〈 = 11,都去執(zhí)行第一步
[0111] 第三步,整個(gè)過(guò)程中每個(gè)詞及其下位詞之間形成了一個(gè)樹形的層次關(guān)系,這與常 見(jiàn)的專題目錄的邏輯結(jié)構(gòu)是一致的。
[0112] 5.2)專題內(nèi)容生成:對(duì)專題中的每一個(gè)詞語(yǔ)利用圖書正文索引檢索最相關(guān)的前幾 條記錄,作為詞的專題圖書內(nèi)容,另外,利用百度百科檢索該詞語(yǔ),檢索到的結(jié)果作為詞的 網(wǎng)頁(yè)內(nèi)容。
[0113]實(shí)施例
[0114] 下面結(jié)合本發(fā)明的方法詳細(xì)說(shuō)明本實(shí)例實(shí)施的具體步驟:
[0115] 1).從CADAL數(shù)字圖書館掃描的250余萬(wàn)的電子圖書中選擇了11個(gè)類別114768本圖 書,共5719462個(gè)目錄章節(jié)進(jìn)行實(shí)驗(yàn),類別涉及自然科學(xué)總論、數(shù)理化、生物科學(xué)、醫(yī)藥衛(wèi)生、 農(nóng)業(yè)科學(xué)、工業(yè)技術(shù)、交通運(yùn)輸、航空航天、環(huán)境科學(xué)和安全科學(xué)、綜合性圖書、天文地球共 11個(gè)類別。
[0116] 2).這里以兩本圖書的目錄為例子說(shuō)明圖1的所有過(guò)程。圖書1和圖書2目錄部分章 節(jié)分別如附圖3和附圖4所示。首先利用正則表達(dá)式過(guò)濾掉目錄中的序號(hào),對(duì)過(guò)濾后的目錄 統(tǒng)計(jì)選出頻率最高的2000個(gè)詞語(yǔ),選擇出諸如"答案","概述","緒論"等無(wú)意義的詞,這一 步可以過(guò)濾掉圖書1的"復(fù)習(xí)綱要"和"練習(xí)題",圖書2的"小結(jié)"和"綱要"。然后對(duì)目錄章節(jié) 和正文構(gòu)建索引,目錄章節(jié)索引字段包括圖書編號(hào),類別,上級(jí)章節(jié)詞,下級(jí)章節(jié)詞以及上 級(jí)章節(jié)詞在目錄結(jié)構(gòu)中所處的層次,正文索引字段包括圖書編號(hào),正文內(nèi)容,正文對(duì)應(yīng)的章 節(jié)名稱。
[0117] 3).提取2)中構(gòu)建的索引中的每個(gè)詞的特征,將提取的特征向量化,如果待分類詞 滿足第i個(gè)特征,則向量的第i位為1,否則為0。然后手工標(biāo)記一部分實(shí)體章節(jié)詞和非實(shí)體章 節(jié)詞作為訓(xùn)練集,利用開源的分類算法包weka中SVM分類器進(jìn)行分類,將所有分類后屬于實(shí) 體的詞寫入新的索引Concept,新索引字段包括圖書編號(hào),上級(jí)章節(jié)實(shí)體詞和下級(jí)實(shí)體詞。 經(jīng)過(guò)這一步,圖書1變成{變壓器一>[單相變壓器,三相變壓器,電力變壓器,磁路]},圖書2 變成{變壓器_> [單向變壓器,三項(xiàng)變壓器,特殊變壓器]},{特殊變壓器_> [互感器,自耦變 壓器],盡管在實(shí)體識(shí)別時(shí)"鐵心"和"繞組"都被識(shí)別為實(shí)體,但由于上級(jí)目錄并不是實(shí)體, 下級(jí)目錄也無(wú)需保留。
[0118] 4).對(duì)索引Concept中的每一對(duì)上級(jí)章節(jié)實(shí)體詞x和下級(jí)實(shí)體詞y,抽取分類特征, 將提取的特征向量化,如果待分類詞滿足第i個(gè)特征,則向量的第i位為1,否則為〇。根據(jù)提 取的特征,手工標(biāo)記一部分上下位目錄章節(jié)詞和非上下位目錄章節(jié)詞作為訓(xùn)練集,利用開 源的分類算法包weka中Adaboost分類器進(jìn)行分類,分類完成后,整理每個(gè)詞及其所有下位 詞,最后對(duì)其構(gòu)建索引Hypernymy,索引字段為圖書編號(hào),上位目錄章節(jié)詞,上位目錄章節(jié)詞 的所有下位目錄章節(jié)詞,下位目錄章節(jié)詞之間通過(guò)特殊符號(hào)分割。這里,由于圖書1(變壓 器,磁路)不滿足上下位關(guān)系,被過(guò)濾掉,圖書2目錄在經(jīng)過(guò)實(shí)體識(shí)別之后的上下級(jí)目錄都滿 足上下位關(guān)系,所以,經(jīng)過(guò)上下位抽取之后,目錄保持不變。
[0119] 5).概念層次融合:利用上一步生成的索引,對(duì)每一本書,把上位詞和其所有下位 詞作為一組,對(duì)所有的圖書中相同的上位詞,根據(jù)下位詞計(jì)算上位詞之間的相似度,把相似 度大于特定閾值的進(jìn)行融合。具體為:通過(guò)3.2)可以知道對(duì)于某本書中的一個(gè)實(shí)體X,可以 獲得它的所有的下級(jí)實(shí)體 yi,y2,…yn,n表示x的下級(jí)詞的個(gè)數(shù)。融合可能存在兩種情況:1. 在某本圖書a中抽取的上下位關(guān)系為{乂 3,[71,72,一711]},其中乂3表示圖書 &中的一個(gè)實(shí)體父, yi,y2,…yn表示在圖書a中的實(shí)體X的下位目錄章節(jié)詞,在另一本圖書中抽取的上下位關(guān)系 為{Xb, [Ul,U2,…!!]!!]},其中Xb表不圖書b中的一個(gè)實(shí)體X,U1,U2,…Um表不在圖書b中的實(shí)體X 的下位目錄章節(jié)詞,如果yi ,y2,…又!!與ui ,U2,之間通過(guò)相似度函數(shù)計(jì)算的相似度大于特 定閾值,則將xa與xb融合,
[0120] 相似度函數(shù)為:
[0122] 融合結(jié)果為{X,[yi,y2,…yi]},1為融合之后X的下位章節(jié)詞的個(gè)數(shù),其中wvd(yi, Uj)表示yi和Uj用word2vec計(jì)算的向量距離;2.在某本圖書中抽取的上下位關(guān)系為{Xa, [Y, yi,y2,'"yn]},在另一本書中抽取的上下位關(guān)系為{Y, [ui,U2,'"Um]},如果yi,y2,…yn與ui, U2,???!!》之間通過(guò)相似度函數(shù)計(jì)算的相似度大于特定閾值,則將乂3與¥融合,
[0123] 相似度函數(shù)為:
[0125] 融合結(jié)果為"3,[¥,71,72,一71]},此時(shí)乂 3的下位詞包括融合之前本身的下位詞以 及屬于Y但不屬于Xa的下位詞。
[0126] 圖書1和圖書2的屬于上述融合的第一種情況,經(jīng)過(guò)計(jì)算[單相變壓器,三相變壓 器,電力變壓器]與[單向變壓器,三項(xiàng)變壓器,特殊變壓器]相似度很高,可以融合,最終融 合成{變壓器_> [單向變壓器,三項(xiàng)變壓器,電力變壓器,特殊變壓器]},{特殊變壓器_> [互 感器,自耦變壓器]。
[0127] 5).專題生成:專題生成包括專題目錄生成和專題內(nèi)容生成,專題內(nèi)容分為圖書內(nèi) 容和網(wǎng)頁(yè)內(nèi)容。具體步驟為:
[0128] 5.1)專題目錄生成:根據(jù)4)的結(jié)果,給定一個(gè)詞,可以獲取其上位詞和下位詞,所 以給定一個(gè)專題詞t,可以按照以下算法生成專題目錄:
[0129] 第一步,查找t的所有的下位詞,若不存在,返回null,否則轉(zhuǎn)第二步
[0130] 第二步,記錄好t和t的下位詞之間的關(guān)系,{t, [yi,y2r",yn]},對(duì)于t的每一個(gè)下 位詞71,1〈 = 1〈 = 11,都去執(zhí)行第一步
[0131] 第三步,整個(gè)過(guò)程中每個(gè)詞及其下位詞之間形成了一個(gè)樹形的層次關(guān)系,這與常 見(jiàn)的專題目錄的邏輯結(jié)構(gòu)是一致的。經(jīng)過(guò)這步,圖書1和圖書2的目錄最終形成圖5所示的專 題目錄。
[0132] 5.2)專題內(nèi)容生成:對(duì)專題中的每一個(gè)詞語(yǔ)利用圖書正文索引檢索最相關(guān)的前幾 條記錄,作為詞的專題圖書內(nèi)容,另外,利用百度百科檢索該詞語(yǔ),檢索到的結(jié)果作為詞的 網(wǎng)頁(yè)內(nèi)容。
【主權(quán)項(xiàng)】
1. 一種基于圖書目錄的專題自動(dòng)生成方法,其特征在于包括以下步驟: 1) 數(shù)據(jù)預(yù)處理:利用光學(xué)字符識(shí)別技術(shù)將圖書數(shù)字化,從數(shù)字化的圖書中抽取出圖書 目錄和正文,去除目錄中章節(jié)序號(hào),以及停用詞,分別對(duì)目錄章節(jié)和正文構(gòu)建索引,另外利 用word2vec訓(xùn)練出每個(gè)目錄詞的向量表示; 2) .實(shí)體識(shí)別:分析實(shí)體的特征,對(duì)目錄章節(jié)索引中的所有章節(jié)詞,分析每個(gè)章節(jié)詞是 否滿足實(shí)體特征,利用SVM分類器進(jìn)行分類,修改原有目錄章節(jié)索引,將目錄章節(jié)中所有分 類后不屬于實(shí)體的詞去掉形成新的索引; 3) .上下位詞抽取:分析上下位詞的特征,對(duì)上一步構(gòu)建的索引中的每一對(duì)上下級(jí)章節(jié) 詞,分析其是否滿足上下位詞的特征,利用Adaboost分類器進(jìn)行分類,將所有分類后滿足上 下位關(guān)系的詞對(duì)寫入新的索引中,新索引中根據(jù)不同的字段來(lái)區(qū)分上位詞、下位詞和圖書; 4) .概念層次融合:利用上一步生成的索引,對(duì)每一本書,把上位詞和其所有下位詞作 為一組,對(duì)所有的圖書中相同的上位詞,計(jì)算其下位詞相似度,把相似度大于設(shè)定閾值的上 位詞進(jìn)行融合; 5) .專題生成:專題分為專題目錄和專題內(nèi)容,專題內(nèi)容分為圖書內(nèi)容和網(wǎng)頁(yè)內(nèi)容,通 過(guò)融合后的上下位詞構(gòu)建樹形概念層次組成專題目錄,利用數(shù)據(jù)預(yù)處理階段生成的圖書正 文索引檢索每個(gè)詞所出現(xiàn)的圖書章節(jié)和內(nèi)容,同時(shí)利用百度百科檢索每個(gè)詞的網(wǎng)頁(yè)內(nèi)容。2. 根據(jù)權(quán)利要求1所述的一種基于圖書目錄的專題自動(dòng)生成方法,其特征在于步驟1) 中所述的去除目錄中章節(jié)序號(hào),以及停用詞,分別對(duì)目錄章節(jié)和正文構(gòu)建索引,具體為: 1.1) .去除目錄中章節(jié)序號(hào),統(tǒng)計(jì)章節(jié),分析章節(jié)序號(hào)特點(diǎn),使用正則表達(dá)式去除章節(jié) 序號(hào); 1.2) .對(duì)去除目錄章節(jié)號(hào)的詞,統(tǒng)計(jì)每個(gè)詞出現(xiàn)的次數(shù),選出出現(xiàn)頻率最高的2000個(gè), 篩選出停用詞; 1.3) .對(duì)目錄章節(jié)構(gòu)建索引時(shí),索引字段包括圖書編號(hào),類別,上級(jí)章節(jié)詞,下級(jí)章節(jié) 詞; 1.4) .對(duì)正文構(gòu)建索引時(shí),索引字段包括圖書編號(hào),正文內(nèi)容,正文對(duì)應(yīng)的章節(jié)名稱; 1.5) .word2vec訓(xùn)練語(yǔ)料的處理,輸入語(yǔ)料每一行對(duì)應(yīng)目錄索引中一個(gè)分好詞的章節(jié) 和未分詞的章節(jié),輸入開源的w〇rd2v ec軟件包中,訓(xùn)練完成后,把每個(gè)詞的詞向量寫入索引 中便于查詢。3. 根據(jù)權(quán)利要求1所述的一種基于圖書目錄的專題自動(dòng)生成方法,其特征在于所述的 實(shí)體識(shí)別步驟為: 2.1) 提取每個(gè)詞的特征,實(shí)體的特征具體包括3類:?jiǎn)卧~特征、詞性特征、目錄語(yǔ)義特 征,單詞特征包括詞語(yǔ)長(zhǎng)度、詞的詞性組成以及該詞是否被百度百科收錄;詞的詞性組成是 指利用自然語(yǔ)言處理工具對(duì)詞語(yǔ)進(jìn)行分詞之后詞組的詞性組成;目錄語(yǔ)義特征是指目錄中 每個(gè)章節(jié)與上下文章節(jié)之間的關(guān)系、利用word2vec訓(xùn)練出的詞向量分別計(jì)算該詞與上下文 詞之間的相似度和上下文章節(jié)詞是否被百度百科中收錄; 2.2) 根據(jù)上一步提取的實(shí)體的特征,標(biāo)記一部分實(shí)體章節(jié)詞和非實(shí)體章節(jié)詞作為訓(xùn)練 集,利用weka中SVM分類器進(jìn)行分類,修改原有目錄章節(jié)索引,將目錄章節(jié)中所有分類后不 屬于實(shí)體的詞去掉形成新的索引Concept。4. 根據(jù)權(quán)利要求1所述的一種基于圖書目錄的專題自動(dòng)生成方法,其特征在于步驟3) 中所述的上下位詞的抽取過(guò)程為: 3.1).對(duì)在2.2)中生成的Concept索引中的每一對(duì)上級(jí)章節(jié)實(shí)體詞X和下級(jí)實(shí)體詞y,抽 取分類特征,上下位詞的分類特征包括3類:上下位模式特征、語(yǔ)義特征和目錄結(jié)構(gòu)特征;上 下位模式特征有X和y是否共享前綴或后綴;語(yǔ)義特征有歸一化谷歌距離NGD、歸一化編輯距 離NED、分類相似度和 W〇rd2vec距離;目錄結(jié)構(gòu)特征有歸一化目錄距離NCD和以該詞作為下 級(jí)章節(jié)的不同的上級(jí)章節(jié)數(shù); 谷歌距離N⑶的彳+曾卞·式.NGD(x,y)表示利用歸一化谷歌距離計(jì)算出來(lái)的x,y的相關(guān)關(guān)系, N(X)表示利用谷歌搜索"X"搜索出來(lái)的結(jié)果條數(shù); N(y)表示利用谷歌搜索"y"搜索出來(lái)的結(jié)果條數(shù); N(x,y)表示利用谷歌搜索"X y"搜索出來(lái)的結(jié)果條數(shù); M為谷歌索引的所有文檔總數(shù); NED計(jì)算方式為:其中l(wèi)en(x)表示字符串X的長(zhǎng)度,len(y)表示字符串y的長(zhǎng)度,ED(x,y)表示x,y之間的 最小編輯距離,NED越小,表示兩詞之間差距越小,關(guān)系越密切,反之關(guān)系越疏遠(yuǎn); 分類相似度:利用詞在百科中的分類標(biāo)簽作為詞條的分類,計(jì)算X的分類和y的分類是 否存在交集; word2vec距離:利用word2vec進(jìn)行訓(xùn)練后,最終每個(gè)章節(jié)詞都被表示成一個(gè)k維向量, 利用向量的余弦距離計(jì)算上級(jí)章節(jié)和下級(jí)章節(jié)之間的距離; 歸一化目錄距離:利用歸一化目錄距離的公式計(jì)算X,y的目錄距離,N(x,y)表示以X作為上級(jí)章節(jié)詞,y作為下級(jí)章節(jié)詞,兩者同時(shí)出現(xiàn)在同一目錄上下級(jí) 章節(jié)中的次數(shù),N(X)表示X單獨(dú)出現(xiàn)在目錄章節(jié)中的次數(shù),N(y)表示y單獨(dú)出現(xiàn)在目錄章節(jié) 中的次數(shù),M表示所有圖書包含的目錄條數(shù); 該詞作為下級(jí)章節(jié)的不同的上級(jí)章節(jié)數(shù):對(duì)Concept索引中每個(gè)詞直接利用hash表統(tǒng) 計(jì)其上級(jí)章節(jié)詞出現(xiàn)的個(gè)數(shù);3.2)根據(jù)上一步提取的特征,標(biāo)記一部分上下位目錄章節(jié)詞 和非上下位目錄章節(jié)詞作為訓(xùn)練集,利用weka中Adaboost分類器進(jìn)行分類,分類完成后,整 理每個(gè)詞及其所有下位詞,最后對(duì)其構(gòu)建索引Hypernymy,索引字段為圖書編號(hào),上位目錄 章節(jié)詞,上位目錄章節(jié)詞的所有下位目錄章節(jié)詞,下位目錄章節(jié)詞之間通過(guò)特殊符號(hào)分割。5.根據(jù)權(quán)利要求1所述的一種基于圖書目錄的專題自動(dòng)生成方法,其特征在于步驟4) 中所述的概念層次的融合過(guò)程為:通過(guò)3.2)對(duì)于某本書中的一個(gè)實(shí)體X,可以獲得它的所有 的下級(jí)實(shí)體詞yi,y 2, ··%,!!表示X的下級(jí)詞的個(gè)數(shù),融合可能存在兩種情況:1.在某本圖書a 中抽取的上下位關(guān)系為{Xa, [yi,y2nn]},其中乂3表示圖書a中的一個(gè)實(shí)體X,yi,y2nr^ 示在圖書a中的實(shí)體X的下位目錄章節(jié)詞,在另一本圖書中抽取的上下位關(guān)系為{Xb,[m, 112,~11111]},其中乂1)表示圖書13中的一個(gè)實(shí)體乂,111,112,~11 111表示在圖書13中的實(shí)體乂的下位目錄 章節(jié)詞,如果71,72,一711與111,112,一11 111之間通過(guò)相似度函數(shù)計(jì)算的相似度大于特定閾值,貝11 將Xa與Xb融合, 相似度函數(shù)為:融合結(jié)果為{X,[yi,y2,…yi]},1為融合之后X的下位章節(jié)詞的個(gè)數(shù),其中wvd(yi,Uj)表 示yi和Uj用word2vec計(jì)算的向量距離;2.在某本圖書中抽取的上下位關(guān)系為{Xa, [Y,yi, y2, ".yn]),在另一本書中抽取的上下位關(guān)系為{Y, [ui,U2, ,如果yi,y2,…yn與ui, U2,…^之間通過(guò)相似度函數(shù)計(jì)算的相似度大于特定閾值,則將乂3與¥融合, 相似度函數(shù)為:融合結(jié)果為"3,[¥,71,72,一71]},此時(shí)乂3的下位詞包括融合之前本身的下位詞以及屬 于Y但不屬于Xa的下位詞。6.根據(jù)權(quán)利要求1或5所述的一種基于圖書目錄的專題自動(dòng)生成方法,其特征在于所述 的步驟5)為: 5.1) 根據(jù)融合結(jié)果,給定一個(gè)專題詞t,按照以下算法生成專題: 第一步,查找t的所有的下位詞,若不存在,返回null,否則轉(zhuǎn)第二步; 第二步,記錄好t和t的下位詞之間的關(guān)系{t, [yi,y2,…,yn]},對(duì)于t的每一個(gè)下位詞yi 執(zhí)行第一步,其中l(wèi)<i<n, 整個(gè)過(guò)程中每個(gè)詞及其下位詞之間形成了一個(gè)樹形的層次關(guān)系,這與常見(jiàn)的專題目錄 的邏輯結(jié)構(gòu)是一致的; 5.2) 對(duì)專題中的每一個(gè)詞語(yǔ),利用圖書正文索引檢索結(jié)果的前五條記錄作為該詞的圖 書正文內(nèi)容,利用百度百科檢索該詞語(yǔ),檢索到的結(jié)果作為該詞的網(wǎng)頁(yè)內(nèi)容。
【文檔編號(hào)】G06F17/30GK105893485SQ201610188009
【公開日】2016年8月24日
【申請(qǐng)日】2016年3月29日
【發(fā)明人】魯偉明, 李彬, 莊越挺, 吳飛, 魏寶剛
【申請(qǐng)人】浙江大學(xué)
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
玛沁县| 宁津县| 介休市| 新田县| 雷波县| 孝昌县| 时尚| 迭部县| 金川县| 新源县| 宿松县| 巨鹿县| 盐源县| 元谋县| 安塞县| 乌拉特后旗| 哈尔滨市| 乐业县| 固原市| 邵武市| 六枝特区| 金秀| 运城市| 莒南县| 海盐县| 丽水市| 岳西县| 宁武县| 莱西市| 洛宁县| 博客| 运城市| 冷水江市| 渝北区| 白山市| 浦北县| 白城市| 鲜城| 都匀市| 左权县| 子长县|