一種從Web網(wǎng)頁中獲取漢語全稱的方法

文檔序號(hào)：6431913閱讀：199來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種從Web網(wǎng)頁中獲取漢語全稱的方法
技術(shù)領(lǐng)域：
本發(fā)明涉及中文信息處理和信息檢索領(lǐng)域的全稱獲取技術(shù)，尤其涉及一種從Web網(wǎng)頁中獲取漢語全稱的方法，從Web網(wǎng)頁上獲取多學(xué)科、大規(guī)模、高準(zhǔn)確率的漢語全稱的方法。
背景技術(shù)：
自然語言處理是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要問題。它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語言進(jìn)行有效通信的各種理論和方法。隨著計(jì)算機(jī)和互聯(lián)網(wǎng)的廣泛應(yīng)用，計(jì)算機(jī)可處理的自然語言文本數(shù)量空前增長(zhǎng)，面向海量信息的文本挖掘、信息提取、跨語言信息處理、人機(jī)交互等應(yīng)用需求急速增長(zhǎng)，自然語言處理的對(duì)象也從小規(guī)模受限語言處理轉(zhuǎn)向大規(guī)模真實(shí)文本處理，其研究必將對(duì)人們的生活產(chǎn)生深遠(yuǎn)的影響。
中文信息處理是研究如何利用計(jì)算機(jī)對(duì)漢語信息進(jìn)行自動(dòng)處理。漢語是一門意合語言，和西方語言相比，缺少顯式的標(biāo)記，語法、語義、語用方面也更加靈活，增加了計(jì)算機(jī)理解和處理的難度，要讓計(jì)算機(jī)能夠處理中文信息，尚有許多困難需要克服。目前，中文信息處理已經(jīng)在語音識(shí)別、分詞、機(jī)器翻譯等領(lǐng)域取得了一些成果。中文信息自動(dòng)化處理程度的提升，將對(duì)我國(guó)的科技、文化、經(jīng)濟(jì)、安全等帶來可觀的效益。信息檢索研究如何從紛繁復(fù)雜的大量信息中快速、準(zhǔn)確獲取所需信息的技術(shù)。信息檢索技術(shù)經(jīng)過多年的發(fā)展，目前已經(jīng)相當(dāng)成熟，新型信息檢索技術(shù)正朝智能化、動(dòng)態(tài)化、多樣化、個(gè)性化等方向發(fā)展。全稱(Full Name,Fn)是對(duì)名稱的完整稱呼,簡(jiǎn)稱(Abbreviation,An)是為了表達(dá)的簡(jiǎn)潔明快，而對(duì)全稱進(jìn)行精簡(jiǎn)壓縮后得到的稱呼，若Fn和An具有全簡(jiǎn)稱關(guān)系，則稱Fn為An的全稱，An為Fn的簡(jiǎn)稱，記作FA (Fn7An)0由全稱到簡(jiǎn)稱，可以看作是一個(gè)信息量的壓縮過程，由簡(jiǎn)稱到全稱，則可以看作是一個(gè)解壓的過程，例如對(duì)Cl= “中國(guó)科學(xué)院計(jì)算技術(shù)研究所”進(jìn)行壓縮，得到c2= “中國(guó)科學(xué)院計(jì)算所”，再對(duì)c2進(jìn)行壓縮，得到c3= “中科院計(jì)算所”，對(duì)c3解壓得到c2，再對(duì)c2解壓得到Cl。全稱和簡(jiǎn)稱都是相對(duì)的概念，比如在上例中，c2相對(duì)于Cl是簡(jiǎn)稱，但相對(duì)于c3卻是全稱，單獨(dú)講c2是全稱或簡(jiǎn)稱都是沒有意義的。全簡(jiǎn)稱關(guān)系獲取作為文本知識(shí)獲取(Knowledge Acquisition from Text,KAT)和信息檢索等應(yīng)用中一個(gè)基本而又關(guān)鍵的問題，其獲取方法可以分為兩大類一類是基于模式的方法，主要利用語言學(xué)和自然語言處理技術(shù)，通過詞法分析和語法分析提取關(guān)系模式，然后利用模式匹配獲取全簡(jiǎn)稱關(guān)系，該方法準(zhǔn)確率依賴于語言學(xué)知識(shí)和模式庫；另一類是基于統(tǒng)計(jì)的方法，主要基于語料庫和統(tǒng)計(jì)語言模型，通過計(jì)算概念之間的關(guān)聯(lián)度來獲取全簡(jiǎn)稱關(guān)系，該方法準(zhǔn)確率和效率難以達(dá)到理想的實(shí)用要求。全簡(jiǎn)稱關(guān)系的獲取問題又可以從兩個(gè)角度來看一個(gè)是挖掘的角度，就是在沒有外界輸入的條件下獲取全簡(jiǎn)稱對(duì) ’另一個(gè)是查找的角度，就是已知全稱找簡(jiǎn)稱或已知簡(jiǎn)稱找全稱。本發(fā)明中所提到的“全稱”或“簡(jiǎn)稱”，如無特別說明，均指漢語全稱或漢語簡(jiǎn)稱。

發(fā)明內(nèi)容
針對(duì)現(xiàn)有的全簡(jiǎn)稱關(guān)系獲取技術(shù)中具有的局限性或者準(zhǔn)確率不高的缺陷，本發(fā)明提供一種準(zhǔn)確率高且適用于多學(xué)科、超大規(guī)模的一種從Web網(wǎng)頁中獲取漢語全稱的方法。為了解決上述問題，本發(fā)明提供了一種從Web網(wǎng)頁中獲取漢語全稱的方法，包括一下步驟
步驟I、輸入一個(gè)給定的漢語簡(jiǎn)稱；
步驟2、選擇查詢模式來構(gòu)造查詢項(xiàng)，將查詢項(xiàng)提交到Google搜索引擎中搜索，保存前N項(xiàng)錨文本作為錨語料；
步驟3、通過正則表達(dá)式，從錨語料中獲取出包含查詢項(xiàng)的關(guān)系的句子，保存下來作為全簡(jiǎn)稱語料；
步驟4、利用簡(jiǎn)稱提取算法EFN從全簡(jiǎn)稱語料中提取出候選全稱，形成候選全稱集合；步驟5、對(duì)候選全稱集合進(jìn)行基于全簡(jiǎn)稱關(guān)系約束的驗(yàn)證，形成全稱集合；
步驟6、對(duì)全稱集合進(jìn)行基于全簡(jiǎn)稱關(guān)系約束的分類，從而形成帶有類別標(biāo)注的全稱集
八
口 ο上述技術(shù)方案中，在所述的步驟2中，所述的查詢模式包括兩種查詢模式I 簡(jiǎn)稱An”，查詢模式2 :“An全稱”。我們以4000個(gè)漢語An做實(shí)驗(yàn)，其中用查詢模式I能得到錨語料的占88. 75%，用查詢模式2能得到錨語料的占24. 76%，用查詢模式I或查詢模式2能得到錨語料的占91. 07%。因此，為了提高查詢效率，我們優(yōu)先選擇查詢模式1，其次選擇查詢模式2。上述技術(shù)方案中，在所述的步驟4中，全稱提取算法EFN包括兩個(gè)算法EFNl和EFN2，分別對(duì)應(yīng)步驟2中的兩種查詢模式，即當(dāng)步驟2中選擇查詢模式I時(shí)，步驟4中采用EFNl來提取Fn，當(dāng)步驟2中選擇查詢模式2時(shí)，步驟4中采用EFN2來提取Fn。上述技術(shù)方案中，在所述的步驟5中，若全稱集合為空，且步驟2中還有查詢模式可供選擇，則重新執(zhí)行步驟2—6 ;如果全稱集合為空，同時(shí)步驟2中沒有可供選擇的查詢模式，則退出，表明不能從Web上搜索到所給定簡(jiǎn)稱的全稱。上述技術(shù)方案中，在所述的步驟5)中，全簡(jiǎn)稱關(guān)系約束是一個(gè)四元組R=(Fn，An，F(xiàn)，A)，其中，F(xiàn)n是對(duì)象的全稱，An是對(duì)象的簡(jiǎn)稱，F(xiàn)是Fn和An之間的約束函數(shù)集，A是Fn和An必須滿足的約束公理集。約束函數(shù)集定量地表示Fn和An之間的約束，約束公理集定性地表示Fn和An之間的約束。下文中將進(jìn)一步對(duì)這兩種約束進(jìn)行解釋。有益效果本發(fā)明是根據(jù)已知的全稱從Web上獲取它對(duì)應(yīng)的簡(jiǎn)稱，即從查找的角度來獲取全簡(jiǎn)稱關(guān)系的，利用基于模式的方法來從Google中獲取候選簡(jiǎn)稱，利用基于統(tǒng)計(jì)的方法來對(duì)候選簡(jiǎn)稱進(jìn)行驗(yàn)證，具有多學(xué)科性、大規(guī)模、準(zhǔn)確率高等優(yōu)點(diǎn)，并探討了用計(jì)算機(jī)實(shí)現(xiàn)簡(jiǎn)稱的分類，為大規(guī)模知識(shí)的智能獲取提供了有效的支撐。

圖I為由簡(jiǎn)稱獲取全稱的總示意圖
圖2為利用查詢模式I獲取全稱的流程圖
圖3為利用查詢模式2獲取全稱的流程圖4為對(duì)候選全稱集進(jìn)行后處理的流程圖；圖5為由全簡(jiǎn)稱的約束函數(shù)集生成的驗(yàn)證決策樹。
具體實(shí)施例方式下面結(jié)合附圖和具體實(shí)施方式
對(duì)本發(fā)明作進(jìn)一步描述
在對(duì)本發(fā)明的方法進(jìn)行說明之前，首先對(duì)全簡(jiǎn)稱關(guān)系中簡(jiǎn)稱的形成規(guī)律和構(gòu)詞方法進(jìn)行整理和總結(jié)。在全簡(jiǎn)稱關(guān)系中，由全稱到簡(jiǎn)稱的過程可以看成是一個(gè)信息量的壓縮過程，在信息量的壓縮過程中有時(shí)會(huì)有語義的等價(jià)轉(zhuǎn)換和語序的調(diào)整，所以我們將全簡(jiǎn)稱關(guān)系分為普通型、異字型和異序型。普通型簡(jiǎn)稱中的每個(gè)字都出現(xiàn)在全稱中，且保留它們?cè)谌Q中的順序，例如， Fn= “中華人民共和國(guó)”，An= “中國(guó)”；
異字型簡(jiǎn)稱中的某些字不在全稱中出現(xiàn)，即由全稱到簡(jiǎn)稱不但進(jìn)行了信息量的壓縮，還進(jìn)行了語義的等價(jià)轉(zhuǎn)換，例如Fn= “媧皇圣母廟”，An= “女媧廟”；
異序型簡(jiǎn)稱中漢字間的順序跟它們?cè)谌Q中對(duì)應(yīng)成分的順序不一致，例如，F(xiàn)n=“哈爾濱第六制藥廠”，An= “哈藥六廠”。在本發(fā)明中，定義了全簡(jiǎn)稱關(guān)系約束來表示Fn和An之間的約束，全簡(jiǎn)稱關(guān)系約束是一個(gè)四元組R= (Fn, An, F，A),其中,Fn是對(duì)象的全稱,An是對(duì)象的簡(jiǎn)稱,F是Fn和An之間的約束函數(shù)集，A是Fn和An必須滿足的約束公理集。約束函數(shù)集定量地表示Fn和An之間的約束，約束公理集定性地表示Fn和An之間的約束。在對(duì)約束函數(shù)集和約束公理集進(jìn)行詳細(xì)說明前，列出在下文中使用到的基本符號(hào)
An表簡(jiǎn)稱；
Cfn表示An的候選全稱；
Fn表不An的全稱；
GoogleArchSet (An)表不An的Google錨文本集，即從Google中查找An對(duì)應(yīng)的全稱時(shí)所返回的前100條錨語文本的集合，若返回的錨文本總數(shù)N少于100，則GoogleArchSet(An)只包含僅有的N條錨文本；
CfnSet (An)表示An的候選全稱集，即從GoogleArchSet (An)中提取出的An對(duì)應(yīng)的候選全稱組成的集合；
N_CfnSet (An)表示CfnSet (An)中所含候選全稱的個(gè)數(shù)；
FnSet (An)表示An的全稱集，即CfnSet(An)中的所有元素經(jīng)過驗(yàn)證之后形成的集合； AnSet (Fn)表示Fn的簡(jiǎn)稱集，即對(duì)于給定的Fn,從Google中獲取的對(duì)應(yīng)簡(jiǎn)稱組成的集
合；
FA (Fn, An)表示Fn和An具有全簡(jiǎn)稱關(guān)系；
length(str)表示概念詞漢字串str的長(zhǎng)度，即str中所含漢字的個(gè)數(shù)； n_word (Fn, An)表示同時(shí)出現(xiàn)在Fn和An中的漢字個(gè)數(shù)；
N_Clas (Fn)表示Fn經(jīng)過分詞后，出現(xiàn)的分詞個(gè)數(shù)；
N_Cover (Fn, An)表示Fn中被An覆蓋到的分詞個(gè)數(shù)；
CoverSet (Fn, An)表示Fn中被An覆蓋到的分詞的集合；
P:表不全稱所包含的分詞；
pi / p2 / ···/ pm:表示由分詞pl、p2…pm組成的分詞序列,其中的/表示分詞間的分隔符；
centre (Fn)表示Fn的分詞中心點(diǎn)的位置，即Fn經(jīng)過分詞后，最中間的那個(gè)分詞的位置，或最中間的那兩個(gè)分詞的平均位置，centre (Fn) = (N_Clas (Fn) +1)/2 ；
Cli (Fn)表示Fn的第i個(gè)分詞的中心偏移量，即Fn的分詞中心點(diǎn)的位置與Fn的第i個(gè)分詞的位置之間的位移，(Ii (Fn) =i-centre (Fn)；
I (Fn)表示Fn的最大中心偏移量，即Fn的所有分詞的中心偏移量地最大值，！
(Fn) = (N_Clas(Fn)-l)/2 ；
Leni (Fn, An)表不第i個(gè)未被覆蓋分詞串所含的分詞數(shù)。對(duì)Fn進(jìn)行分詞后,未被An覆蓋到的那些分詞，如果在Fn中相聯(lián)則組成未被覆蓋分詞串，如果不相聯(lián)則單獨(dú)成串，第i個(gè)未被覆蓋分詞串所含的分詞個(gè)數(shù)記為L(zhǎng)eni(Fr^An)；
freq (Fn, An)表示從 GoogleArchSet (An)中提取出 Fn 的個(gè)數(shù)；
ε表示一個(gè)無窮小的數(shù)；
loca (Cfn, An)表示Cfn在CfnSet (An)中的頻度次序，即對(duì)CfnSet (An)中的元素按freq (Cfn, An)的大小升序排序后，Cfn的次序；
NoInclude (si, Set)表示漢字串的集合Set中的任何漢字串都不是漢字串si的子串； Interrogative表示疑問詞集合，包含“什么”、“怎么”、“啥”、“嗎”等； concat(sl, s2)表示漢字串si和漢字串s2連接后的漢字串；
COnCat(sl，…，sn)表示漢字串si、……、sn相互依次連接后的漢字串；
Contain (si, s2)表示漢字串s2中的每個(gè)字都出現(xiàn)在漢字串si中；
Include (si, s2)表示漢字串s2是漢字串si的真子串；
prefix (si, s2)表示si相對(duì)于s2的前綴，prefix (si, s2)不為空，即si =concat (prefix (si, s2), s2, s3),其中 s3 可為空串；
D rie〔CfnSet(An), Cfni)表示將 Cftij 從 CftiSet(An)中刪除。下面從十一個(gè)方面對(duì)約束函數(shù)集中的具體含義進(jìn)行說明
約束函數(shù)I =An的字來自Fn中的比率。一般情況下，全稱包含簡(jiǎn)稱所包括的所有漢字。例如，An= “北大”，F(xiàn)n= “北京大學(xué)”，An中的每個(gè)漢字都來自于Fn中。在候選全稱集中，包含An的字的比率越高的候選全稱的優(yōu)先級(jí)越高。約束函數(shù)I的形式定義和計(jì)算如下(注明此函數(shù)來自對(duì)發(fā)明專利“一種根據(jù)實(shí)體的漢語簡(jiǎn)稱識(shí)別出實(shí)體全稱的方法和系統(tǒng)(專利號(hào)ZL200710119513. 4)”的改進(jìn))
,、^word(CfntAn)
Λ(軌圳=———
例如，An= “八卦掌”，Cfn1 = “八卦連環(huán)掌”，Cfn2 = “八卦連環(huán)拳”。根據(jù)約束函數(shù)1，^f1(CfnllAn) > Z1(Cfn2tAn) ’所以Cfn1的優(yōu)先級(jí)比Cfn2的優(yōu)先級(jí)高。
約束函數(shù)2 Fn與An的語序。在縮略過程中，絕大多數(shù)簡(jiǎn)稱保持著全稱中的字序。例如，An= “奧運(yùn)會(huì)”，F(xiàn)n= “奧林匹克運(yùn)動(dòng)會(huì)”，An中的三個(gè)字的順序嚴(yán)格按在Fn中出現(xiàn)的順序排列。約束函數(shù)2的形式定義和計(jì)算如下(注明此函數(shù)與發(fā)明專利“一種根據(jù)實(shí)體的漢語簡(jiǎn)稱識(shí)別出實(shí)體全稱的方法和系統(tǒng)(專利號(hào)ZL200710119513. 4)”的一致)
注意Fn與An語序相同蘊(yùn)含著An中的所有字都出現(xiàn)在Fn中，若An中有不出現(xiàn)在Fn中的字，則約束函數(shù)2的值為O。約束函數(shù)3 =An對(duì)Fn的分詞覆蓋率
全稱通常由多個(gè)分詞組成，有的情況下全稱的一個(gè)或多個(gè)分詞在簡(jiǎn)稱中可以被省略，但一般被省略分詞不會(huì)超出全稱分詞數(shù)的二分之一，候選全稱被簡(jiǎn)稱覆蓋的分詞越多，就越可能成為全稱。約束函數(shù)3的形式定義和計(jì)算如下(注明此函數(shù)來自對(duì)發(fā)明專利“一種根據(jù)實(shí)體
的漢語簡(jiǎn)稱識(shí)別出實(shí)體全稱的方法和系統(tǒng)(專利號(hào)ZL200710119513. 4)”的改進(jìn))
, r N_Clas(Cfn)N _C Ias(Cfn)
I — Io 0-4 f% --, i ^ 10
b￥_C Over(CfnpAn)I— N_CotwrfC fnrA-n)
UCfnlAn) = _^ cias(cfn)
O -=-^ > 10
INCoveriCfntAn)-
例如，An = “北大”，Cfn1= “北京/大學(xué)”，Cfn2 = “北京/交通/大學(xué)”，根據(jù)約束函數(shù)
3,^(Cfn1,An) > f3(Cfn2, An)，所以Cfn1的優(yōu)先級(jí)比Cfn2的優(yōu)先級(jí)高。約束函數(shù)4 An對(duì)Fn的分詞覆蓋重心
全稱通常由多個(gè)分詞組成，有的情況下全稱中的一個(gè)或多個(gè)分詞可以在簡(jiǎn)稱中被省略，但是被省略的分詞應(yīng)該均勻的分布在全稱中，而不應(yīng)該都集中在全稱的前部分或后部分。例如，An= “貴航集團(tuán)”，F(xiàn)n= “中國(guó)/貴州/航空/工業(yè)/集團(tuán)/公司”，F(xiàn)n中省略的分詞“中國(guó)”、“工業(yè)”、“公司”分別在Fn的前部分、中間部分和后部分。約束函數(shù)4的形式定義和計(jì)算如下
t %￡ dt (Cfn),
例如,An = “山大”，Cfn1 = “山東/大學(xué)”,Cfn2 = “山東/大學(xué)/威海/分校'Cfn1中被An覆蓋到的分詞“山東”和“大學(xué)”均勻分布在Cfn1中，而Cfn2中被An覆蓋到的分詞“山
東”和“大學(xué)”都分布在Cfn2的前半部分。根據(jù)約束函數(shù)4J4(Cfn1MTi) > f4(Cfn2,An)
，所以Cfn1的優(yōu)先級(jí)比Cfn2的優(yōu)先級(jí)高。約束函數(shù)5 Fn中未被An覆蓋到的最長(zhǎng)連續(xù)分詞數(shù)
候選全稱通常由多個(gè)分詞組成，有的情況下全稱中的一個(gè)或多個(gè)分詞可以在簡(jiǎn)稱中被省略，但是被省略的分詞在全稱中通常不會(huì)連續(xù)出現(xiàn)，即全稱中的分詞連續(xù)在簡(jiǎn)稱中省略的概率比較小。約束函數(shù)5的形式定義和計(jì)算如下
權(quán)利要求
1.一種從Web網(wǎng)頁中獲取漢語全稱的方法，其特征在于包括一下步驟步驟I、輸入一個(gè)給定的漢語簡(jiǎn)稱；步驟2、選擇查詢模式來構(gòu)造查詢項(xiàng)，將查詢項(xiàng)提交到Google搜索引擎中搜索，保存前N項(xiàng)錨文本作為錨語料；步驟3、通過正則表達(dá)式，從錨語料中獲取出包含查詢項(xiàng)的關(guān)系的句子，保存下來作為全簡(jiǎn)稱語料；步驟4、利用簡(jiǎn)稱提取算法EFN從全簡(jiǎn)稱語料中提取出候選全稱，形成候選全稱集合；步驟5、對(duì)候選全稱集合進(jìn)行基于全簡(jiǎn)稱關(guān)系約束的驗(yàn)證，形成全稱集合；步驟6、對(duì)全稱集合進(jìn)行基于全簡(jiǎn)稱關(guān)系約束的分類，從而形成帶有類別標(biāo)注的全稱集
2.根據(jù)權(quán)利要求I所述的一種從Web網(wǎng)頁中獲取漢語全稱的方法，其特征在于在所述步驟2中，若Google返回的查詢結(jié)果>100條，則N取100，否則N取Google返回的查詢結(jié)果的條數(shù)。
3.根據(jù)權(quán)利要求I所述的一種從Web網(wǎng)頁中獲取漢語全稱的方法，其特征在于上述步驟2中，所述的查詢模式包括兩種查詢模式I 簡(jiǎn)稱An”，查詢模式2 :“An全稱”;先選擇查詢模式I，其次選擇查詢模式2。
4.根據(jù)權(quán)利要求I所述的一種從Web網(wǎng)頁中獲取漢語全稱的方法，其特征在于上述步驟4中，全稱提取算法EFN包括兩個(gè)算法CFNEAl和CFNEA2，分別對(duì)應(yīng)步驟2中的兩種查詢模式，即當(dāng)步驟2中選擇查詢模式I時(shí)，步驟4中采用CFNEAl來提取Fn，當(dāng)步驟2中選擇查詢模式2時(shí)，步驟4中采用CFNEA2來提取Fn。
5.根據(jù)權(quán)利要求4所述的一種從Web網(wǎng)頁中獲取漢語全稱的方法，其特征在于當(dāng)步驟2選擇查詢模式I時(shí)，步驟4執(zhí)行以下步驟全簡(jiǎn)稱句子主要分為三種類型，即標(biāo)號(hào)對(duì)型、無后綴型和有后綴型；標(biāo)號(hào)對(duì)型=An后面無漢字，且Cfn被配對(duì)標(biāo)號(hào)所標(biāo)出，無需確定Cfn的邊界，直接提??；無后綴型An后面無漢字，Cfn未被配對(duì)標(biāo)號(hào)標(biāo)出，Cfn需定左邊界；有后綴型An后面有漢字,表明An是另一簡(jiǎn)稱“An*”的前半部分，故Cfn也該是“An*”對(duì)應(yīng)的全稱“Cfn*”的前半部分，故Cfn需確定左右邊界；步驟A-I、利用算法FCFNEA提取基準(zhǔn)候選全稱集；提取基準(zhǔn)候選全稱集的算法(formal candidate fullname extract algorithmFCFNEA)輸入標(biāo)號(hào)對(duì)型全簡(jiǎn)稱句子集合Senttag ,無后綴型全簡(jiǎn)稱句子集合Sentno ,有后綴型全簡(jiǎn)稱句子集合Senthas 輸出基準(zhǔn)候選全稱集合Cfnformal ￥ sent_tag € Senttag ,提取標(biāo)號(hào)對(duì)中的詞條 cfn_formal Cfnft}rmal，并統(tǒng)計(jì)cfn_norm的頻度； Vsent_no G Sentno，￥ cfnjoraial e Cfnformal，若 cfnJbrmal 包含在sent no 中，Ucfn formal 的頻度 +ι,并從Sentnn 中刪除sent no ;—一IiUS一 Vsent_has ￡ Senthas，￥ cfnjormal E Cfnformal，若 cfnjormal 包含在sent_no 中，則cfn_formal 的頻度 +ι; Vcfn_formai G Cfnform al,利用ictclas進(jìn)行分詞,將第一個(gè)分詞pre和最后一個(gè)分詞suf 組成< pre, suf >，< pre, suf > Set_fix Vsentjio G Sentno，V < pre, suf > e Set_fix，若sentjio 中存在前綴為 pre且后綴為suf的詞條cfnjk，K1JcfnJix Cfnfix，從Sentno中刪除sent_no，利用優(yōu)先級(jí)排序策略PSCF求出Cfnfix的最優(yōu)候選Inax(Cfnfix) Cfnformal ; return CFNformal 在算法FCFNEA的Step5中用到的優(yōu)先級(jí)排序策略PSCF的定義如下優(yōu)先級(jí)排序策略(priority sort comparison function PSCF)￥ Cfiij X Cftij e CfnSet(An)，Cfni > CfHj iff 1).n_word(Cftij,An)之 n_word(Cfnj,An)；2).IeEgth(Cfhi) < Iengtli(CfEj) > if ILword(CfiiilAn) = ILworcl(CfnjlAn)jCfni = Cftij iff i). n—word(Cfii5,An) = n_word(CfHj,An)；2). Iength(Cfiij) = length (Cfnj)； if 3Cfnk € CfnSet(Aii), VCfni GSetjCfn(An),都有Cfek > Cfiv 則稱Cfnk 是CftiSet(An)中的最優(yōu)候選,記為 max(CfnSet(An))；步驟A-2、利用算法ICFNEA提取非基準(zhǔn)候選全稱集；提取非基準(zhǔn)候選全稱的算法(informal candidate ful lname extract algorithmICFNEA) 輸入待提取的短語或短句Οο—Γθ θΓθπ ,已知概念詞Inputitem= (C1C2......Cj ; 輸出提取出的全簡(jiǎn)稱候選對(duì)CbTdfermi進(jìn)行分詞并且標(biāo)注詞性，分詞結(jié)果為-JP1P2……PJ ；定義位置變量left—flagbk, Ief胤 for each Ci ^ (CnCn^1......Cj for each Pj ^ {Pieft_fiaf ieft_fiag-i......PJ if Ci出現(xiàn)在&中 Then left_flagR j break; end if end for each end for each for each Pk ^ (P1P2......Pjif 的詞性^ {連詞介詞助詞動(dòng)詞量詞標(biāo)號(hào)} and k < left—flag Then IeftR k+l; end ifend for each return Candidate^ (Pleft......Pj; 步驟A-3、利用類比的方法對(duì)非基準(zhǔn)候選全稱集中的候選全稱再定左右邊界；類比的方法具體見如下的方法I和方法2 ；形式表示
6.根據(jù)權(quán)利要求4所述的一種從Web網(wǎng)頁中獲取漢語全稱的方法，其特征在于當(dāng)步驟2選擇查詢模式2時(shí)，步驟4執(zhí)行以下步驟步驟B-1、利用算法CFNEA2提取候選全稱集；提取候選全稱的算法(candidate ful lname extract algorithm CFNEA2 ) 輸入前綴已知簡(jiǎn)稱？ I即utitern,待提取的短語或短句Cb-refermt 輸出提取出的全簡(jiǎn)稱候選；定義標(biāo)記Λ^^βΟ，(開源的似乎是不能用于商業(yè)目的)對(duì)Co-referent分詞，記為(P1P2……PJ ； for each Pi ^ (P1P2......Pj if fIag-Q and Pi和Prefix有相同的字and Pi和Inputitem無相同的字 Then flagRl; end if if flag=I and Pi 和 Prefix 無相同的字 Thenbreak;end if i f Pi和Inputi tem有相同的字 Thenbreak;end ifend for each if fIag=O Then iBO/Candi da teR (Pi......Pj Return Candidate 通過上述操作得到候選全稱集。
7.根據(jù)權(quán)利要求I所述的一種從Web網(wǎng)頁中獲取漢語全稱的方法，其特征在于在所述的步驟5中，若全稱集合為空，且步驟2中還有查詢模式可供選擇，則重新執(zhí)行步驟2—6 ;如果全稱集合為空，同時(shí)步驟2中沒有可供選擇的查詢模式，則退出，表明不能從Web上搜索到所給定簡(jiǎn)稱的全稱。
8.根據(jù)權(quán)利要求I所述的一種從Web網(wǎng)頁中獲取漢語全稱的方法，其特征在于在所述的步驟5中，全簡(jiǎn)稱關(guān)系約束是一個(gè)四元組R= (Fn, An, F，A),其中，F(xiàn)n是對(duì)象的全稱，An是對(duì)象的簡(jiǎn)稱，F(xiàn)是Fn和An之間的約束函數(shù)集，A是Fn和An必須滿足的約束公理集；約束函數(shù)集定量地表示Fn和An之間的約束，約束公理集定性地表示Fn和An之間的約束。
9.根據(jù)權(quán)利要求8所述的一種從Web網(wǎng)頁中獲取漢語全稱的方法，其特征在于所述步驟5、6的具體實(shí)現(xiàn)步驟如下步驟C-1、利用約束公理集中的約束公理1-4驗(yàn)證候選全稱集中的每個(gè)候選全稱；步驟C-2、由約束函數(shù)集生成決策樹，利用決策樹對(duì)候選全稱集中的候選全稱進(jìn)行分類，去除類別是“F1”、“F2”和“F3”的候選全稱，保留類別是“T”的候選全稱，從而生成全稱集; “F1”表示低頻異字型錯(cuò)誤，“F2”表示高頻異字型錯(cuò)誤，“F3”表示低頻異序型錯(cuò)誤，“Y”表示正確；步驟C-3、對(duì)全稱集進(jìn)行基于約束函數(shù)集的分類；根據(jù)全稱是否有異字或異序，分為普通型、異字型和異序型，普通型又根據(jù)語境是否相關(guān)分為強(qiáng)語境無關(guān)型、弱語境無關(guān)型和語境相關(guān)型，語境無關(guān)型再根據(jù)FN在全稱集中頻度的相對(duì)高低分為高頻型和低頻型，語境相關(guān)型根據(jù)An對(duì)FN的覆蓋重心分為前向型、居中型和后向型；具體的分類標(biāo)準(zhǔn)和各類全稱需要滿足的條件高頻強(qiáng)語境無關(guān)的直觀意義=Fn包含An中的所有字且保持語序不變，F(xiàn)n中的每個(gè)分詞在An中都有對(duì)應(yīng)，且Fn在全稱集中頻度最高；低頻強(qiáng)語境無關(guān)的直觀意義=Fn包含An中的所有字且保持語序不變，F(xiàn)n中的每個(gè)分詞在An中都有對(duì)應(yīng)，且Fn在全稱集中頻度不最高；高頻弱語境無關(guān)的直觀意義=Fn包含An中的所有字且保持語序不變，F(xiàn)n中的大部分分詞在An中都有對(duì)應(yīng)，且Fn在全稱集中頻度最高；低頻弱語境無關(guān)的直觀意義=Fn包含An中的所有字且保持語序不變，F(xiàn)n中的大部分分詞在An中都有對(duì)應(yīng)，且Fn在全稱集中頻度不最高；前向型語境相關(guān)的直觀意義=Fn包含An中的所有字且保持語序不變，F(xiàn)n中被省略的分詞大多在Fn的后半部分；居中型語境無關(guān)的直觀意義=Fn包含An中的所有字且保持語序不變，F(xiàn)n中前后部分被省略的分詞個(gè)數(shù)差不多；后向型語境相關(guān)的直觀意義=Fn包含An中的所有字且保持語序不變，F(xiàn)n中被省略的分詞大多在Fn的前半部分；異序型的直觀意義=Fn包含An中的所有字但語序有變，F(xiàn)n在全稱集中頻度最高；異字型的直觀意義=Fn不包含An中的所有字但Fn的頻度很高或在全稱集中的相對(duì)頻度很高；步驟C-4、按優(yōu)先級(jí)綜合函數(shù)PRI(Cfn，An)對(duì)全稱集中同一類的全稱進(jìn)行排序；在步驟C-4中用到的優(yōu)先級(jí)綜合函數(shù)PRI (Cfn, An)的定義如下
10.根據(jù)權(quán)利要求要求8或9所述的一種從Web網(wǎng)頁中獲取漢語全稱的方法，其特征在于所述的約束函數(shù)集的具體含義為約束函數(shù)I =An的字來自Fn中的比率全稱包含簡(jiǎn)稱所包括的所有漢字，即An中的每個(gè)漢字都來自于Fn中，在候選全稱集中，包含An的字的比率越高的候選全稱的優(yōu)先級(jí)越高；約束函數(shù)I的形式定義和計(jì)算如下
全文摘要
本發(fā)明涉及一種從Web網(wǎng)頁中獲取漢語全稱的方法，包括輸入已知簡(jiǎn)稱，選擇查詢模式來構(gòu)造查詢項(xiàng)，提交查詢項(xiàng)到Google中獲取錨文本，再從錨文本中獲取全簡(jiǎn)稱語料，最后利用提取算法提取候選全稱，并利用優(yōu)先級(jí)綜合函數(shù)對(duì)候選全稱進(jìn)行排序；其中查詢模式有兩種，對(duì)應(yīng)的提取全稱的提取算法也有兩種。本發(fā)明還定義了全簡(jiǎn)稱關(guān)系的本體，包括一組約束公理和一組約束函數(shù)，其中約束公理定性地表示全稱和簡(jiǎn)稱之間的約束，約束函數(shù)集定量地表示了全稱和簡(jiǎn)稱之間的約束，并基于全簡(jiǎn)稱本體提出了一種全稱的驗(yàn)證方法和分類方法。本發(fā)明可實(shí)現(xiàn)全稱的大規(guī)模、高準(zhǔn)確率的獲取，并探討了用計(jì)算機(jī)實(shí)現(xiàn)全稱的分類，為大規(guī)模知識(shí)的智能獲取提供了有效的支撐。
文檔編號(hào)G06F17/30GK102955818SQ201110253100
公開日2013年3月6日申請(qǐng)日期2011年8月31日優(yōu)先權(quán)日2011年8月31日
發(fā)明者王石, 丁遠(yuǎn)鈞, 符建輝, 王衛(wèi)民申請(qǐng)人:鎮(zhèn)江諾尼基智能技術(shù)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王石;丁遠(yuǎn)鈞;符建輝;王衛(wèi)民
技術(shù)所有人：鎮(zhèn)江諾尼基智能技術(shù)有限公司
我是此專利的發(fā)明人

上一篇：一種遲滯型數(shù)據(jù)流控制電路的制作方法
上一篇：漢語拼音滑行輸入法的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

易語言獲取網(wǎng)頁內(nèi)容相關(guān)技術(shù)

網(wǎng)頁獲取微信用戶信息相關(guān)技術(shù)

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種從Web網(wǎng)頁中獲取漢語全稱的方法