两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種專利文本向量的語義表示方法

文檔序號:6544779閱讀:232來源:國知局
一種專利文本向量的語義表示方法
【專利摘要】本發(fā)明公開了一種專利文本向量的語義表示方法,通過構(gòu)建領(lǐng)域?qū)@R庫,用于計算專利文本詞項的專利語義權(quán)重,具體過程為:假設(shè)兩待比對的專利文本為dx和dz,首先通過詞包法將dx和dz表示成實詞向量xx和zz;然后通過構(gòu)建的領(lǐng)域?qū)@R庫賦以各詞項專利語義權(quán)重,將xx和zz進(jìn)一步表示成帶有專利語義信息的向量xx0和zz0;再結(jié)合利用TF-IDF規(guī)則,最后將專利文本表示成帶有專利語義權(quán)重信息以及詞頻權(quán)重信息的文本向量x和z。本發(fā)明可應(yīng)用于專利文本向量表示過程中專利詞項語義信息的表達(dá),并進(jìn)一步用于后續(xù)的專利文本相似度的計算,從而進(jìn)一步提高專利文本相似度計算的精確率和召回率。
【專利說明】一種專利文本向量的語義表示方法

【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于專利文獻(xiàn)檢索領(lǐng)域,具體涉及一種專利文本的向量空間表示方法。

【背景技術(shù)】
[0002]各國專利文獻(xiàn)基本上都有基本統(tǒng)一的內(nèi)容結(jié)構(gòu)和統(tǒng)一的國際專利分類IPC體系。與發(fā)明技術(shù)方案相關(guān)的專利文獻(xiàn)的內(nèi)容結(jié)構(gòu)部分包括:專利名稱、摘要、說明書、權(quán)利要求書、IPC號及對比文件。說明書又包括【背景技術(shù)】、
【發(fā)明內(nèi)容】
和【具體實施方式】。專利文獻(xiàn)在用詞和造句上與一般科技文獻(xiàn)有很大的區(qū)別,這些特點給專利文獻(xiàn)的相似計算帶來很大的困難。專利文獻(xiàn)的詞句表達(dá)具有自身特點。在不同的專利文獻(xiàn)之間,專利申請為了達(dá)到專利審查的新穎性,常將同一產(chǎn)品冠以不同的名稱,相同概念的用語可能大相徑庭,導(dǎo)致大量未登錄專業(yè)術(shù)語的密集出現(xiàn);為了拓寬保護(hù)范圍,術(shù)語使用往往概念上位化,如關(guān)于“水杯”的發(fā)明創(chuàng)造,往往會用“一種容器”來表達(dá),通篇不出現(xiàn)“水杯”二字;專利文獻(xiàn)使用大量晦澀的技術(shù)性術(shù)語但很嚴(yán)謹(jǐn)很少出現(xiàn)歧義,技術(shù)術(shù)語帶有很強(qiáng)的專業(yè)性,有些術(shù)語在某一特定【技術(shù)領(lǐng)域】內(nèi)反復(fù)出現(xiàn),而在其它領(lǐng)域內(nèi)很少出現(xiàn);存在大量的專業(yè)術(shù)語定語嵌套現(xiàn)象,如“免疫球蛋白”、“免疫球蛋白分子”、“免疫球蛋白分子編碼序列”。專利文獻(xiàn)的這些特點,使得專利文獻(xiàn)的語義表示帶有特殊性。
[0003]現(xiàn)有研究中,將語義專利分析法用于計算專利相似度以測量專利的新穎性[?及評價專利侵權(quán)風(fēng)險[2],將潛在語義分析方法用于檢測專利文獻(xiàn)與科學(xué)出版物之間的相似度
[3],將隱概念作為基本的文本元素用于專利的相似測量的研究[4],利用語義技術(shù)相似的主客相互關(guān)系結(jié)構(gòu)來描述技術(shù)合作者之間的相互結(jié)構(gòu)關(guān)系,用以判別專利的侵權(quán)M等,雖在一定程度上涉及語義,并未能很好地挖掘?qū)@墨I(xiàn)的用詞特點,結(jié)合專利文獻(xiàn)用詞特點將專利文本的專利語義信息表達(dá)于專利文本向量表示中。此外,現(xiàn)有的WordNet、YAGO等通用詞典中,專業(yè)術(shù)語數(shù)量有限;借助外部詞典WordNet,分析具有較高TF-1DF值的重要詞項之間的語義相似度Μ等在一定程度上提供了檢索效果,但均不能很好地適應(yīng)專利文獻(xiàn)的用詞特點,導(dǎo)致很多專利語義信息丟失。專利本體庫構(gòu)建方法、利用OWL進(jìn)行語義專利信息檢索和管理m等的相關(guān)研究,只是為專利本體的構(gòu)建提供了一些方法思路,未能構(gòu)建領(lǐng)域?qū)@R庫,并用于專利文本的語義表示。
[0004]現(xiàn)有的專利文本向量的語義表示方法有待進(jìn)一步挖掘?qū)@墨I(xiàn)的用詞造句特點;現(xiàn)有的專業(yè)領(lǐng)域本體缺少大量未登錄的在專利文獻(xiàn)中密集出現(xiàn)的領(lǐng)域?qū)@夹g(shù)術(shù)語。需要結(jié)合專利文獻(xiàn)的用詞特點,提供專利文本向量中專利文獻(xiàn)詞項語義表示的新方法。
[0005]對比文件
[0006]Gerken JMj A New Instruments for Technology Monitoring:Novelty inPatents Measured by Semantic Patent Analysis[J], Scientometricsj Vol.91, N0.3, PP.645-670,2012
[0007]Bergmann I, Butzke Dj Walter L,et al, Evaluating the Risk of PatentInfringement by Means of Semantic Patent Analysis:the Case of DNA Chips[J],R&DManagement, Vol.38,N0.5,PP.550-562,2008
[0008]Magerman Tom, Van Looy Bart,Song Siaoyanj Exploring the Feasibility andAccuracy of Latent Semantic Analysis based on Text Mining Techniques to DetectSimilarity Between Patent Documents and Scientific Publicat1ns[J],Scientometrics,Vol.82,N0.2,pp.289-306,2010
[0009]Moehrle Martin GiMeasures for Textual Patent Similarities:A Guided Wayto Select Appropriate Approaches[J], Scientometricsj Vol.85, N0.1, pp.95-109, 2010
[0010]Park Hyunseokj Yoon Janghyeokj Kim Kwangsooj Identifying PatentInfringement Using SAO based on Semantic Technological Similarities[J],Scientometrics, Vol.90,N0.2,pp.515-529,2012
[0011]黃承慧,印鑒,侯昉.一種結(jié)合詞項語義信息和TF-1DF方法的文本相似度量方法[J],計算機(jī)學(xué)報,第34卷,第5期,頁碼856-864,2011
[0012]Bermudez-Edo M,Noguera M,Garrido J Lj et al.Semantic Patent Informat1nRetrieval and Management withOWL[M]//Advances in Informat1n Systems andTechnologies.Springer Berlin Heidelberg, 2013:33-42.


【發(fā)明內(nèi)容】

[0013]本發(fā)明的目的在于提供一種專利文本向量的語義表示方法,以進(jìn)一步挖掘?qū)@墨I(xiàn)的用詞特點,使得專利文本向量能進(jìn)一步表達(dá)專利語義信息,從而提高后繼的專利文本向量相似度計算和相似檢測時,專利文獻(xiàn)相似度計算的精確率和召回率。
[0014]為了解決以上技術(shù)問題,本發(fā)明采用的具體技術(shù)方案如下
[0015]一種專利文本向量的語義表示方法,其特征在于包括以下步驟:
[0016]步驟一,構(gòu)建領(lǐng)域?qū)@R庫;
[0017]步驟二,利用構(gòu)建的領(lǐng)域?qū)@R庫,計算詞項的專利語義權(quán)重,將專利文本表示成帶有專利語義信息的向量:假設(shè)兩待比對的專利文本為dx和dz,首先通過詞包法將dx和dz表示成實詞向量XX和ZZ ;然后通過構(gòu)建的領(lǐng)域?qū)@R庫賦以各詞項專利語義權(quán)重,將XX和ZZ進(jìn)一步表示成帶有專利語義信息的向量XXci和ZZci ;所述實詞為出現(xiàn)在專利文獻(xiàn)中的名詞、動詞、形容詞和副詞,即所述詞項;
[0018]步驟三,結(jié)合利用TF-1DF規(guī)則,最后將專利文本表示成帶有專利語義權(quán)重信息以及詞頻權(quán)重信息的專利文本向量X和Z。
[0019]所述構(gòu)建領(lǐng)域?qū)@R庫的方法為:基于所述領(lǐng)域的領(lǐng)域詞典和德溫特世界專利索引數(shù)據(jù)庫即DWPI數(shù)據(jù)庫公開的所述領(lǐng)域的專利文獻(xiàn),結(jié)合所述領(lǐng)域的技術(shù)國際專利分類即IPC分類體系層次結(jié)構(gòu)關(guān)系,構(gòu)建所述領(lǐng)域?qū)@R庫。
[0020]所述步驟二進(jìn)一步具體為
[0021]輸入:待比對的專利文本dx和專利文本dz
[0022]輸出:待比對的專利文本dx和專利文本dz分別對應(yīng)的專利文本向量χ和ζ
[0023]步驟I,用詞包法分別將dz和dx表示成兩個詞頻向量xx和zz
[0024]Φ 丄:dz — zz = Φ l (dz) = (tf (t1; dz), tf (t2, dz),..., tf (tN, dz)) e Rn,
[0025]Φ 丄:dx — xx = Φ l (dx) = (tf (t1; dx), tf (t2, dx),..., tf (tN, dx)) e Rn
[0026]式中f (ti; dx)和f (ti; dz)分別是詞項h,i = 1,…,N在dx和dz中出現(xiàn)的頻率,N為詞典大??;
[0027]步驟2,利用所構(gòu)建的領(lǐng)域?qū)@R庫,計算zz和χχ中各詞項t” i = 1,...,N的專利語義權(quán)重,將專利文本進(jìn)一步表示成帶有知識語義信息的專利文本向量XXtl和zz。
[0028]Φ 2: zz — ZZ0 = Φ 2 (zz) = ( ω (t^ tf (t1; zz), ω (t2) tf (t2, zz),..., ω (tN)tf (tN, zz)) e Rn
[0029]Φ 2: xx — xx0 = Φ 2 (xx) = ( ω (?) tf (?。χχ),ω (t2) tf (t2, χχ),...,ω (tN)tf (tN, xx)) e Rn
[0030]ω (tj)為詞項&的專利語義權(quán)重,=通過將專利文本中詞項\
對應(yīng)關(guān)聯(lián)到領(lǐng)域?qū)@R庫中,計算得詞項ti的專利語義權(quán)重ω (ti);
[0031]步驟3,針對專利文獻(xiàn)帶有很強(qiáng)的專業(yè)性,術(shù)語在某一特定專業(yè)領(lǐng)域內(nèi)反復(fù)出現(xiàn),而在其它專業(yè)領(lǐng)域卻很少出現(xiàn)的特點,利用TF-1DF規(guī)則,即當(dāng)某個專利術(shù)語在一篇或少數(shù)專利文獻(xiàn)中出現(xiàn)的頻率高而在其它專利文獻(xiàn)中很少出現(xiàn),則認(rèn)為該術(shù)語具有很好的類別區(qū)分能力;在很多個專利文獻(xiàn)中都出現(xiàn)的術(shù)語,區(qū)分性能較弱,進(jìn)一步結(jié)合利用TF-1DF規(guī)則定義詞項h的詞頻權(quán)重WtlUi)來表達(dá)術(shù)語重要程度,將專利文本dx和dz進(jìn)一步表示成專利文本向量χ和ζ
[0032]φ3:ζζ0 — ζ = Φ 3 (zz0) =
tf (t2, zz),..., ω。(tN) ω (tN) tf (tN, zz)) e Rn
[0033]Φ 3: xx0 — χ = Φ 3 (xx0) = ( ω 0 (t^ ω (t^ tf (t1; xx) , ω 0 (t2) ω (t2)tf (t2, XX),...,ω 0 (tN) ω (tN) tf (tN, XX)) e RN。
[0034]進(jìn)一步考慮詞項\出現(xiàn)在專利文獻(xiàn)中的位置不同時詞項\對專利文獻(xiàn)相關(guān)度的貢獻(xiàn)不同,賦以各詞項ti的位置權(quán)重δ (\),將專利文本進(jìn)一步表示成帶有位置權(quán)重信息的專利文本向量Xtl和Zci:
[0035]Φ 4: ζ — ζ。= Φ 4 (ζ) = ( δ (t^ tf (t1; ζ) , δ (t2) tf (t2, ζ) ,..., δ (tN)tf (tN, ζ)) e Rn
[0036]Φ 4: χ — χ。= Φ 4 (χ) = ( δ (t^ tf (t1; χ) , δ (t2) tf (t2, χ) ,.., δ (tN)tf (tN, χ)) e Rn
N
[0037]X d'U:) = I, () < (>'(/,) < I

/=1
[0038]所述專利文獻(xiàn)中的位置包括專利名稱、摘要、【背景技術(shù)】、
【發(fā)明內(nèi)容】
、【具體實施方式】和權(quán)利要求書;權(quán)利要求書包括獨立權(quán)利要求部分和從屬權(quán)利要求部分。
[0039]所述專利語義權(quán)重ω (ti)的計算方法如下:
[0040]通過將專利文獻(xiàn)中詞項\對應(yīng)關(guān)聯(lián)到領(lǐng)域?qū)@R庫中,具體為:基于本體概念群組劃分的語義距離計算方法計算《(ti):先利用多概念群組下概念語義距離的計算方法,然后分別利用群組內(nèi)和群組間的概念語義距離計算方法,通過引入下正向和反向的語義距離,來解決上下位的關(guān)系概念對語義相似度的非對稱性,并通過概念節(jié)點的位置動態(tài)分配關(guān)系的權(quán)值來處理其它非上下位的二元關(guān)系。
[0041]所述位置權(quán)重δ (t^設(shè)置方法為:
[0042]詞項ti的位置權(quán)值δ (ti)的大小依據(jù)詞項\出現(xiàn)在專利文獻(xiàn)中的位置和專利相似檢索的目的不同進(jìn)行設(shè)置:當(dāng)為專利池戰(zhàn)略檢索時,出現(xiàn)在權(quán)利要求書中的詞項^的δ (tj大于在其它專利文獻(xiàn)中的位置出現(xiàn)的詞項的δ (ti);當(dāng)為侵權(quán)檢索時,出現(xiàn)在權(quán)利要求書中的詞項的δ (ti)大于在專利文獻(xiàn)其它內(nèi)容部分出現(xiàn)的詞項的δ (\),且僅在獨立權(quán)要求中出現(xiàn)的詞項的δ (ti)大于僅在從屬權(quán)要求位置出現(xiàn)的詞項的δ (ti);當(dāng)為新穎性檢索時,將出現(xiàn)在專利說明書各個部分即【背景技術(shù)】、
【發(fā)明內(nèi)容】
和【具體實施方式】,獨立權(quán)利要求和從屬權(quán)利要求中不同位置中的詞項的δ (ti)設(shè)置相同;當(dāng)為領(lǐng)域相關(guān)檢索時,各個專利文獻(xiàn)中的位置的詞項的δ (ti)設(shè)為相同。
[0043]本發(fā)明具有有益效果。本發(fā)明通過結(jié)合領(lǐng)域詞典和IPC分類本系構(gòu)建領(lǐng)域?qū)@R庫,可進(jìn)一步挖掘?qū)@墨I(xiàn)的用詞造句特點,彌補了現(xiàn)有的專業(yè)領(lǐng)域本體缺少大量未登錄的在專利文獻(xiàn)中密集出現(xiàn)的領(lǐng)域?qū)@夹g(shù)術(shù)語的缺陷,更規(guī)范和完整地表示了領(lǐng)域?qū)@~項;通過利用所構(gòu)建的領(lǐng)域?qū)@R庫來表示專利文本向量中詞項的專利語義信息,提高了專利文本的專利語義表示能力包括語義表示的準(zhǔn)確性和全面性,從而提高后繼的基于專利文本向量的專利文獻(xiàn)相似度計算和檢索的精確率和召回率。本發(fā)明通過結(jié)合詞項出現(xiàn)在專利文獻(xiàn)中的位置不同和專利文獻(xiàn)相似檢索的目的不同,賦以專利文本向量中詞項不同的位置權(quán)重,進(jìn)一步提高了專利文獻(xiàn)相似度計算和檢索的針對性和有效性。

【專利附圖】

【附圖說明】
[0044]圖1為本發(fā)明的方法思路示意圖;
[0045]圖2為本發(fā)明領(lǐng)域?qū)@R庫的構(gòu)建示意圖;
[0046]圖3為本發(fā)明詞項對應(yīng)關(guān)聯(lián)到專利知識庫中的關(guān)聯(lián)關(guān)系圖。

【具體實施方式】
[0047]下面結(jié)合附圖和具體實施例,對本發(fā)明的技術(shù)方案作進(jìn)一步詳細(xì)說明。
[0048]以大田作物保護(hù)【技術(shù)領(lǐng)域】的專利文獻(xiàn)的相似檢索時,專利文本的語義表示為例。
[0049]本發(fā)明的方法思路如圖1所示。
[0050]通過DWPI專利數(shù)據(jù)庫檢索后的相關(guān)領(lǐng)域?qū)@墨I(xiàn)經(jīng)同族專利去重后共5538篇,記為M篇,構(gòu)成文集。文集中不同的實詞共N個,并用Ni, i = 1,".,Ν表示。結(jié)合大田作物保護(hù)【技術(shù)領(lǐng)域】對應(yīng)的IPC分類號為IPC號為A01G11,A01G13和A01G15,利用IPC分類表,找到對應(yīng)的IPC技術(shù)分類目錄。結(jié)合農(nóng)業(yè)詞典Dict1naryofAgriculture_3rdedit1n_2006,以下簡稱DA,構(gòu)建領(lǐng)域?qū)@R庫,具體構(gòu)建方法過程如圖2所示。
[0051]為了方便描述本發(fā)明方法過程,設(shè)N= 10。有一篇所述領(lǐng)域的專利文獻(xiàn)dx,共有3個不同的實詞,且分別對應(yīng)著詞典里面的3個詞項N1, N3和N7,如表I所示。
[0052]表1.詞典中各詞項在專利文獻(xiàn)dx中出現(xiàn)的詞頻
[0053]

WM In1 In2 In3 In4 In5 In6 In7 In8 In9 In10
詞頻 Ub~ 7~?~?~?~ 3~?~?~O
[0054]所述3個不同的實詞N1;N3和N7出現(xiàn)在專利文獻(xiàn)dx中的位置及次數(shù)不盡相同,如表2所示。
[0055]表2.各實詞在專利文獻(xiàn)中出的位置和頻次

【權(quán)利要求】
1.一種專利文本向量的語義表示方法,其特征在于包括以下步驟: 步驟一,構(gòu)建領(lǐng)域?qū)@R庫; 步驟二,利用構(gòu)建的領(lǐng)域?qū)@R庫,計算詞項的專利語義權(quán)重,將專利文本表示成帶有專利語義信息的向量:假設(shè)兩待比對的專利文本為dx和dz,首先通過詞包法將dx和dz表示成實詞向量XX和ZZ ;然后通過構(gòu)建的領(lǐng)域?qū)@R庫賦以各詞項專利語義權(quán)重,將XX和ZZ進(jìn)一步表示成帶有專利語義信息的向量XXci和ZZci ;所述實詞為出現(xiàn)在專利文獻(xiàn)中的名詞、動詞、形容詞和副詞,即所述詞項; 步驟三,結(jié)合利用TF-1DF規(guī)則,最后將專利文本表示成帶有專利語義權(quán)重信息以及詞頻權(quán)重信息的專利文本向量X和z。
2.根據(jù)權(quán)利要求1所述的一種專利文本向量的語義表示方法,其特征在于所述構(gòu)建領(lǐng)域?qū)@R庫的方法為:基于所述領(lǐng)域的領(lǐng)域詞典和德溫特世界專利索引數(shù)據(jù)庫即DWPI數(shù)據(jù)庫公開的所述領(lǐng)域的專利文獻(xiàn),結(jié)合所述領(lǐng)域的技術(shù)國際專利分類即IPC分類體系層次結(jié)構(gòu)關(guān)系,構(gòu)建所述領(lǐng)域?qū)@R庫。
3.根據(jù)權(quán)利要求1所述的一種專利文本向量的語義表示方法,其特征在于所述步驟二進(jìn)一步具體為 輸入:待比對的專利文本dx和專利文本dz 輸出:待比對的專利文本dx和專利文本dz分別對應(yīng)的專利文本向量X和z 步驟I,用詞包法分別將dz和dx表示成兩個詞頻向量XX和zz Φ 1: dz — zz = Φ ! (dz) = (tf (t1; dz), tf (t2, dz),..., tf (tN, dz)) e Rn,
Φ 1: dx — XX = Φ ! (dx) = (tf (t1; dx), tf (t2, dx),..., tf (tN, dx)) e Rn式中f (ti; dx)和f (ti; dz)分別是詞項ti, i = 1,...,N在dx和dz中出現(xiàn)的頻率,N為詞典大小; 步驟2,利用所構(gòu)建的領(lǐng)域?qū)@R庫,計算zz和XX中各詞項t” i = 1,...,N的專利語義權(quán)重,將專利文本進(jìn)一步表示成帶有知識語義信息的專利文本向量XXtl和zz。
Φ2:ΖΖ — ZZ0= Φ 2 (zz) = (CO(t1)tf(t1,ZZ),CO(t2)tf(t2,ZZ),...,CO(tN)tf (tN, ZZ)) e Rn
Φ2:ΧΧ — XX0= Φ 2 (χχ) = (CO(t1)tf(t1,XX),CO(t2)tf(t2,XX),...,CO(tN)tf (tN, χχ)) e Rn ω (tD為詞項\的專利語義權(quán)重,=;通過將專利文本中詞項\對應(yīng)關(guān)聯(lián)到領(lǐng)域?qū)@R庫中,計算得詞項ti的專利語義權(quán)重ω (ti); 步驟3,針對專利文獻(xiàn)帶有很強(qiáng)的專業(yè)性,術(shù)語在某一特定專業(yè)領(lǐng)域內(nèi)反復(fù)出現(xiàn),而在其它專業(yè)領(lǐng)域卻很少出現(xiàn)的特點,利用TF-1DF規(guī)則,即當(dāng)某個專利術(shù)語在一篇或少數(shù)專利文獻(xiàn)中出現(xiàn)的頻率高而在其它專利文獻(xiàn)中很少出現(xiàn),則認(rèn)為該術(shù)語具有很好的類別區(qū)分能力;在很多個專利文獻(xiàn)中都出現(xiàn)的術(shù)語,區(qū)分性能較弱,進(jìn)一步結(jié)合利用TF-1DF規(guī)則定義詞項h的詞頻權(quán)重WtlUi)來表達(dá)術(shù)語重要程度,將專利文本dx和dz進(jìn)一步表示成專利文本向量X和z Φ3:ζζ0— ζ = Φ 3 (ZZ0) = (ω0(?!) ω (t1)tf(t1, ζζ), ω0(?2) ω (t2)tf (t2, zz),..., ω。(tN) ω (tN) tf (tN, zz)) e Rn Φ3:χχ0 — X= Φ 3 (χχ0) = (ωο(?ι) ω (t1)tf(t1, χχ), ω0(?2) ω (t2)tf (t2, χχ),...,ω 0 (tN) ω (tN) tf (tN, χχ)) e RN。
4.根據(jù)權(quán)利要求3所述的一種專利文本向量的語義表示方法,其特征在于:進(jìn)一步考慮詞項\出現(xiàn)在專利文獻(xiàn)中的位置不同時詞項\對專利文獻(xiàn)相關(guān)度的貢獻(xiàn)不同,賦以各詞項\的位置權(quán)重δ (\),將專利文本進(jìn)一步表示成帶有位置權(quán)重信息的專利文本向量^和Z0:
Φ 4: ζ — Z0 = Φ 4 (Z) = ( δ (ti) tf (t1; ζ),δ (t2) tf (t2, ζ),...,δ (tN) tf (tN, ζ)) e Rn
Φ 4: X — X0 = Φ 4 (X) = ( δ (ti) tf (t1; χ),δ (t2) tf (t2, χ),...,δ (tN) tf (tN, χ)) e Rn
^C>V,) = ι,ο <(>'(/,)< I
i=\ 所述專利文獻(xiàn)中的位置包括專利名稱、摘要、【背景技術(shù)】、
【發(fā)明內(nèi)容】
、【具體實施方式】和權(quán)利要求書;權(quán)利要求書包括獨立權(quán)利要求部分和從屬權(quán)利要求部分。
5.根據(jù)權(quán)利要求3所述的一種專利文本向量的語義表示方法,其特征在于所述專利語義權(quán)重ω (tj的計算方法如下: 通過將專利文獻(xiàn)中詞項ti對應(yīng)關(guān)聯(lián)到領(lǐng)域?qū)@R庫中,具體為:基于本體概念群組劃分的語義距離計算方法計算《(ti):先利用多概念群組下概念語義距離的計算方法,然后分別利用群組內(nèi)和群組間的概念語義距離計算方法,通過引入下正向和反向的語義距離,來解決上下位的關(guān)系概念對語義相似度的非對稱性,并通過概念節(jié)點的位置動態(tài)分配關(guān)系的權(quán)值來處理其它非上下位的二元關(guān)系。
6.根據(jù)權(quán)利要求4所述的一種專利文本向量的語義表示方法,其特征在于所述位置權(quán)重δ (ti)設(shè)置方法為: 詞項t的位置權(quán)值δ (ti)的大小依據(jù)詞項\出現(xiàn)在專利文獻(xiàn)中的位置和專利相似檢索的目的不同進(jìn)行設(shè)置:當(dāng)為專利池戰(zhàn)略檢索時,出現(xiàn)在權(quán)利要求書中的詞項\的δ (ti)大于在其它專利文獻(xiàn)中的位置出現(xiàn)的詞項的δ (ti);當(dāng)為侵權(quán)檢索時,出現(xiàn)在權(quán)利要求書中的詞項的δ (ti)大于在專利文獻(xiàn)其它內(nèi)容部分出現(xiàn)的詞項的δ (\),且僅在獨立權(quán)要求中出現(xiàn)的詞項的δ (ti)大于僅在從屬權(quán)要求位置出現(xiàn)的詞項的δ (ti);當(dāng)為新穎性檢索時,將出現(xiàn)在專利說明書各個部分即【背景技術(shù)】、
【發(fā)明內(nèi)容】
和【具體實施方式】,獨立權(quán)利要求和從屬權(quán)利要求中不同位置中的詞項的δ (ti)設(shè)置相同;當(dāng)為領(lǐng)域相關(guān)檢索時,各個專利文獻(xiàn)中的位置的詞項的δ (ti)設(shè)為相同。
【文檔編號】G06F17/27GK104199809SQ201410169250
【公開日】2014年12月10日 申請日期:2014年4月24日 優(yōu)先權(quán)日:2014年4月24日
【發(fā)明者】王秀紅, 袁銀池, 汪滿容, 盧章平 申請人:江蘇大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
合作市| 丰城市| 罗江县| 南宫市| 萨迦县| 关岭| 诏安县| 葫芦岛市| 石阡县| 宁明县| 商南县| 天津市| 富顺县| 凌源市| 察哈| 镇赉县| 西吉县| 长海县| 长岭县| 甘泉县| 辽源市| 卓资县| 丰镇市| 巴楚县| 手机| 武川县| 衡阳市| 韶关市| 密山市| 宁城县| 海宁市| 涿鹿县| 南平市| 垣曲县| 长顺县| 嵩明县| 瑞昌市| 莎车县| 临邑县| 通海县| 金秀|