两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種從Web網(wǎng)頁中獲取漢語全稱的方法

文檔序號(hào):6431913閱讀:199來源:國(guó)知局
專利名稱:一種從Web網(wǎng)頁中獲取漢語全稱的方法
技術(shù)領(lǐng)域
本發(fā)明涉及中文信息處理和信息檢索領(lǐng)域的全稱獲取技術(shù),尤其涉及一種從Web網(wǎng)頁中獲取漢語全稱的方法,從Web網(wǎng)頁上獲取多學(xué)科、大規(guī)模、高準(zhǔn)確率的漢語全稱的方法。
背景技術(shù)
自然語言處理是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要問題。它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語言進(jìn)行有效通信的各種理論和方法。隨著計(jì)算機(jī)和互聯(lián)網(wǎng)的廣泛應(yīng)用,計(jì)算機(jī)可處理的自然語言文本數(shù)量空前增長(zhǎng),面向海量信息的文本挖掘、信息提取、跨語言信息處理、人機(jī)交互等應(yīng)用需求急速增長(zhǎng),自然語言處理的對(duì)象也從小規(guī)模受限語言處理轉(zhuǎn)向大規(guī)模真實(shí)文本處理,其研究必將對(duì)人們的生活產(chǎn)生深遠(yuǎn)的影響。
中文信息處理是研究如何利用計(jì)算機(jī)對(duì)漢語信息進(jìn)行自動(dòng)處理。漢語是一門意合語言,和西方語言相比,缺少顯式的標(biāo)記,語法、語義、語用方面也更加靈活,增加了計(jì)算機(jī)理解和處理的難度,要讓計(jì)算機(jī)能夠處理中文信息,尚有許多困難需要克服。目前,中文信息處理已經(jīng)在語音識(shí)別、分詞、機(jī)器翻譯等領(lǐng)域取得了一些成果。中文信息自動(dòng)化處理程度的提升,將對(duì)我國(guó)的科技、文化、經(jīng)濟(jì)、安全等帶來可觀的效益。信息檢索研究如何從紛繁復(fù)雜的大量信息中快速、準(zhǔn)確獲取所需信息的技術(shù)。信息檢索技術(shù)經(jīng)過多年的發(fā)展,目前已經(jīng)相當(dāng)成熟,新型信息檢索技術(shù)正朝智能化、動(dòng)態(tài)化、多樣化、個(gè)性化等方向發(fā)展。全稱(Full Name,Fn)是對(duì)名稱的完整稱呼,簡(jiǎn)稱(Abbreviation,An)是為了表達(dá)的簡(jiǎn)潔明快,而對(duì)全稱進(jìn)行精簡(jiǎn)壓縮后得到的稱呼,若Fn和An具有全簡(jiǎn)稱關(guān)系,則稱Fn為An的全稱,An為Fn的簡(jiǎn)稱,記作FA (Fn7An)0由全稱到簡(jiǎn)稱,可以看作是一個(gè)信息量的壓縮過程,由簡(jiǎn)稱到全稱,則可以看作是一個(gè)解壓的過程,例如對(duì)Cl= “中國(guó)科學(xué)院計(jì)算技術(shù)研究所”進(jìn)行壓縮,得到c2= “中國(guó)科學(xué)院計(jì)算所”,再對(duì)c2進(jìn)行壓縮,得到c3= “中科院計(jì)算所”,對(duì)c3解壓得到c2,再對(duì)c2解壓得到Cl。全稱和簡(jiǎn)稱都是相對(duì)的概念,比如在上例中,c2相對(duì)于Cl是簡(jiǎn)稱,但相對(duì)于c3卻是全稱,單獨(dú)講c2是全稱或簡(jiǎn)稱都是沒有意義的。全簡(jiǎn)稱關(guān)系獲取作為文本知識(shí)獲取(Knowledge Acquisition from Text,KAT)和信息檢索等應(yīng)用中一個(gè)基本而又關(guān)鍵的問題,其獲取方法可以分為兩大類一類是基于模式的方法,主要利用語言學(xué)和自然語言處理技術(shù),通過詞法分析和語法分析提取關(guān)系模式,然后利用模式匹配獲取全簡(jiǎn)稱關(guān)系,該方法準(zhǔn)確率依賴于語言學(xué)知識(shí)和模式庫;另一類是基于統(tǒng)計(jì)的方法,主要基于語料庫和統(tǒng)計(jì)語言模型,通過計(jì)算概念之間的關(guān)聯(lián)度來獲取全簡(jiǎn)稱關(guān)系,該方法準(zhǔn)確率和效率難以達(dá)到理想的實(shí)用要求。全簡(jiǎn)稱關(guān)系的獲取問題又可以從兩個(gè)角度來看一個(gè)是挖掘的角度,就是在沒有外界輸入的條件下獲取全簡(jiǎn)稱對(duì) ’另一個(gè)是查找的角度,就是已知全稱找簡(jiǎn)稱或已知簡(jiǎn)稱找全稱。本發(fā)明中所提到的“全稱”或“簡(jiǎn)稱”,如無特別說明,均指漢語全稱或漢語簡(jiǎn)稱。

發(fā)明內(nèi)容
針對(duì)現(xiàn)有的全簡(jiǎn)稱關(guān)系獲取技術(shù)中具有的局限性或者準(zhǔn)確率不高的缺陷,本發(fā)明提供一種準(zhǔn)確率高且適用于多學(xué)科、超大規(guī)模的一種從Web網(wǎng)頁中獲取漢語全稱的方法。為了解決上述問題,本發(fā)明提供了一種從Web網(wǎng)頁中獲取漢語全稱的方法,包括一下步驟
步驟I、輸入一個(gè)給定的漢語簡(jiǎn)稱;
步驟2、選擇查詢模式來構(gòu)造查詢項(xiàng),將查詢項(xiàng)提交到Google搜索引擎中搜索,保存前N項(xiàng)錨文本作為錨語料;
步驟3、通過正則表達(dá)式,從錨語料中獲取出包含查詢項(xiàng)的關(guān)系的句子,保存下來作為全簡(jiǎn)稱語料;
步驟4、利用簡(jiǎn)稱提取算法EFN從全簡(jiǎn)稱語料中提取出候選全稱,形成候選全稱集合; 步驟5、對(duì)候選全稱集合進(jìn)行基于全簡(jiǎn)稱關(guān)系約束的驗(yàn)證,形成全稱集合;
步驟6、對(duì)全稱集合進(jìn)行基于全簡(jiǎn)稱關(guān)系約束的分類,從而形成帶有類別標(biāo)注的全稱集

口 ο上述技術(shù)方案中,在所述的步驟2中,所述的查詢模式包括兩種查詢模式I 簡(jiǎn)稱An”,查詢模式2 :“An全稱”。我們以4000個(gè)漢語An做實(shí)驗(yàn),其中用查詢模式I能得到錨語料的占88. 75%,用查詢模式2能得到錨語料的占24. 76%,用查詢模式I或查詢模式2能得到錨語料的占91. 07%。因此,為了提高查詢效率,我們優(yōu)先選擇查詢模式1,其次選擇查詢模式2。上述技術(shù)方案中,在所述的步驟4中,全稱提取算法EFN包括兩個(gè)算法EFNl和EFN2,分別對(duì)應(yīng)步驟2中的兩種查詢模式,即當(dāng)步驟2中選擇查詢模式I時(shí),步驟4中采用EFNl來提取Fn,當(dāng)步驟2中選擇查詢模式2時(shí),步驟4中采用EFN2來提取Fn。上述技術(shù)方案中,在所述的步驟5中,若全稱集合為空,且步驟2中還有查詢模式可供選擇,則重新執(zhí)行步驟2—6 ;如果全稱集合為空,同時(shí)步驟2中沒有可供選擇的查詢模式,則退出,表明不能從Web上搜索到所給定簡(jiǎn)稱的全稱。上述技術(shù)方案中,在所述的步驟5)中,全簡(jiǎn)稱關(guān)系約束是一個(gè)四元組R=(Fn,An,F(xiàn),A),其中,F(xiàn)n是對(duì)象的全稱,An是對(duì)象的簡(jiǎn)稱,F(xiàn)是Fn和An之間的約束函數(shù)集,A是Fn和An必須滿足的約束公理集。約束函數(shù)集定量地表示Fn和An之間的約束,約束公理集定性地表示Fn和An之間的約束。下文中將進(jìn)一步對(duì)這兩種約束進(jìn)行解釋。有益效果本發(fā)明是根據(jù)已知的全稱從Web上獲取它對(duì)應(yīng)的簡(jiǎn)稱,即從查找的角度來獲取全簡(jiǎn)稱關(guān)系的,利用基于模式的方法來從Google中獲取候選簡(jiǎn)稱,利用基于統(tǒng)計(jì)的方法來對(duì)候選簡(jiǎn)稱進(jìn)行驗(yàn)證,具有多學(xué)科性、大規(guī)模、準(zhǔn)確率高等優(yōu)點(diǎn),并探討了用計(jì)算機(jī)實(shí)現(xiàn)簡(jiǎn)稱的分類,為大規(guī)模知識(shí)的智能獲取提供了有效的支撐。


圖I為由簡(jiǎn)稱獲取全稱的總示意圖
圖2為利用查詢模式I獲取全稱的流程圖
圖3為利用查詢模式2獲取全稱的流程 圖4為對(duì)候選全稱集進(jìn)行后處理的流程圖;圖5為由全簡(jiǎn)稱的約束函數(shù)集生成的驗(yàn)證決策樹。
具體實(shí)施例方式下面結(jié)合附圖和具體實(shí)施方式
對(duì)本發(fā)明作進(jìn)一步描述
在對(duì)本發(fā)明的方法進(jìn)行說明之前,首先對(duì)全簡(jiǎn)稱關(guān)系中簡(jiǎn)稱的形成規(guī)律和構(gòu)詞方法進(jìn)行整理和總結(jié)。在全簡(jiǎn)稱關(guān)系中,由全稱到簡(jiǎn)稱的過程可以看成是一個(gè)信息量的壓縮過程,在信息量的壓縮過程中有時(shí)會(huì)有語義的等價(jià)轉(zhuǎn)換和語序的調(diào)整,所以我們將全簡(jiǎn)稱關(guān)系分為普通型、異字型和異序型。普通型簡(jiǎn)稱中的每個(gè)字都出現(xiàn)在全稱中,且保留它們?cè)谌Q中的順序,例如, Fn= “中華人民共和國(guó)”,An= “中國(guó)”;
異字型簡(jiǎn)稱中的某些字不在全稱中出現(xiàn),即由全稱到簡(jiǎn)稱不但進(jìn)行了信息量的壓縮,還進(jìn)行了語義的等價(jià)轉(zhuǎn)換,例如Fn= “媧皇圣母廟”,An= “女媧廟”;
異序型簡(jiǎn)稱中漢字間的順序跟它們?cè)谌Q中對(duì)應(yīng)成分的順序不一致,例如,F(xiàn)n=“哈爾濱第六制藥廠”,An= “哈藥六廠”。在本發(fā)明中,定義了全簡(jiǎn)稱關(guān)系約束來表示Fn和An之間的約束,全簡(jiǎn)稱關(guān)系約束是一個(gè)四元組R= (Fn, An, F,A),其中,Fn是對(duì)象的全稱,An是對(duì)象的簡(jiǎn)稱,F是Fn和An之間的約束函數(shù)集,A是Fn和An必須滿足的約束公理集。約束函數(shù)集定量地表示Fn和An之間的約束,約束公理集定性地表示Fn和An之間的約束。在對(duì)約束函數(shù)集和約束公理集進(jìn)行詳細(xì)說明前,列出在下文中使用到的基本符號(hào)
An表簡(jiǎn)稱;
Cfn表示An的候選全稱;
Fn表不An的全稱;
GoogleArchSet (An)表不An的Google錨文本集,即從Google中查找An對(duì)應(yīng)的全稱時(shí)所返回的前100條錨語文本的集合,若返回的錨文本總數(shù)N少于100,則GoogleArchSet(An)只包含僅有的N條錨文本;
CfnSet (An)表示An的候選全稱集,即從GoogleArchSet (An)中提取出的An對(duì)應(yīng)的候選全稱組成的集合;
N_CfnSet (An)表示CfnSet (An)中所含候選全稱的個(gè)數(shù);
FnSet (An)表示An的全稱集,即CfnSet(An)中的所有元素經(jīng)過驗(yàn)證之后形成的集合; AnSet (Fn)表示Fn的簡(jiǎn)稱集,即對(duì)于給定的Fn,從Google中獲取的對(duì)應(yīng)簡(jiǎn)稱組成的集
合;
FA (Fn, An)表示Fn和An具有全簡(jiǎn)稱關(guān)系;
length(str)表示概念詞漢字串str的長(zhǎng)度,即str中所含漢字的個(gè)數(shù); n_word (Fn, An)表示同時(shí)出現(xiàn)在Fn和An中的漢字個(gè)數(shù);
N_Clas (Fn)表示Fn經(jīng)過分詞后,出現(xiàn)的分詞個(gè)數(shù);
N_Cover (Fn, An)表示Fn中被An覆蓋到的分詞個(gè)數(shù);
CoverSet (Fn, An)表示Fn中被An覆蓋到的分詞的集合;
P:表不全稱所包含的分詞;
pi / p2 / ···/ pm:表示由分詞pl、p2…pm組成的分詞序列,其中的/表示分詞間的分隔符;
centre (Fn)表示Fn的分詞中心點(diǎn)的位置,即Fn經(jīng)過分詞后,最中間的那個(gè)分詞的位置,或最中間的那兩個(gè)分詞的平均位置,centre (Fn) = (N_Clas (Fn) +1)/2 ;
Cli (Fn)表示Fn的第i個(gè)分詞的中心偏移量,即Fn的分詞中心點(diǎn)的位置與Fn的第i個(gè)分詞的位置之間的位移,(Ii (Fn) =i-centre (Fn);
I (Fn)表示Fn的最大中心偏移量,即Fn的所有分詞的中心偏移量地最大值,!
(Fn) = (N_Clas(Fn)-l)/2 ;
Leni (Fn, An)表不第i個(gè)未被覆蓋分詞串所含的分詞數(shù)。對(duì)Fn進(jìn)行分詞后,未被An覆蓋到的那些分詞,如果在Fn中相聯(lián)則組成未被覆蓋分詞串,如果不相聯(lián)則單獨(dú)成串,第i個(gè)未被覆蓋分詞串所含的分詞個(gè)數(shù)記為L(zhǎng)eni(Fr^An);
freq (Fn, An)表示從 GoogleArchSet (An)中提取出 Fn 的個(gè)數(shù);
ε表示一個(gè)無窮小的數(shù);
loca (Cfn, An)表示Cfn在CfnSet (An)中的頻度次序,即對(duì)CfnSet (An)中的元素按freq (Cfn, An)的大小升序排序后,Cfn的次序;
NoInclude (si, Set)表示漢字串的集合Set中的任何漢字串都不是漢字串si的子串; Interrogative表示疑問詞集合,包含“什么”、“怎么”、“啥”、“嗎”等; concat(sl, s2)表示漢字串si和漢字串s2連接后的漢字串;
COnCat(sl,…,sn)表示漢字串si、……、sn相互依次連接后的漢字串;
Contain (si, s2)表示漢字串s2中的每個(gè)字都出現(xiàn)在漢字串si中;
Include (si, s2)表示漢字串s2是漢字串si的真子串;
prefix (si, s2)表示si相對(duì)于s2的前綴,prefix (si, s2)不為空,即si =concat (prefix (si, s2), s2, s3),其中 s3 可為空串;
D rie〔CfnSet(An), Cfni)表示將 Cftij 從 CftiSet(An)中刪除。下面從十一個(gè)方面對(duì)約束函數(shù)集中的具體含義進(jìn)行說明
約束函數(shù)I =An的字來自Fn中的比率。一般情況下,全稱包含簡(jiǎn)稱所包括的所有漢字。例如,An= “北大”,F(xiàn)n= “北京大學(xué)”,An中的每個(gè)漢字都來自于Fn中。在候選全稱集中,包含An的字的比率越高的候選全稱的優(yōu)先級(jí)越高。約束函數(shù)I的形式定義和計(jì)算如下(注明此函數(shù)來自對(duì)發(fā)明專利“一種根據(jù)實(shí)體的漢語簡(jiǎn)稱識(shí)別出實(shí)體全稱的方法和系統(tǒng)(專利號(hào)ZL200710119513. 4)”的改進(jìn))
,、^word(CfntAn)
Λ(軌圳=———
例如,An= “八卦掌”,Cfn1 = “八卦連環(huán)掌”,Cfn2 = “八卦連環(huán)拳”。根據(jù)約束函數(shù)1,^f1(CfnllAn) > Z1(Cfn2tAn) ’所以Cfn1的優(yōu)先級(jí)比Cfn2的優(yōu)先級(jí)高。
約束函數(shù)2 Fn與An的語序。在縮略過程中,絕大多數(shù)簡(jiǎn)稱保持著全稱中的字序。例如,An= “奧運(yùn)會(huì)”,F(xiàn)n= “奧林匹克運(yùn)動(dòng)會(huì)”,An中的三個(gè)字的順序嚴(yán)格按在Fn中出現(xiàn)的順序排列。約束函數(shù)2的形式定義和計(jì)算如下(注明此函數(shù)與發(fā)明專利“一種根據(jù)實(shí)體的漢語簡(jiǎn)稱識(shí)別出實(shí)體全稱的方法和系統(tǒng)(專利號(hào)ZL200710119513. 4)”的一致)
注意Fn與An語序相同蘊(yùn)含著An中的所有字都出現(xiàn)在Fn中,若An中有不出現(xiàn)在Fn中的字,則約束函數(shù)2的值為O。約束函數(shù)3 =An對(duì)Fn的分詞覆蓋率
全稱通常由多個(gè)分詞組成,有的情況下全稱的一個(gè)或多個(gè)分詞在簡(jiǎn)稱中可以被省略,但一般被省略分詞不會(huì)超出全稱分詞數(shù)的二分之一,候選全稱被簡(jiǎn)稱覆蓋的分詞越多,就越可能成為全稱。約束函數(shù)3的形式定義和計(jì)算如下(注明此函數(shù)來自對(duì)發(fā)明專利“一種根據(jù)實(shí)體
的漢語簡(jiǎn)稱識(shí)別出實(shí)體全稱的方法和系統(tǒng)(專利號(hào)ZL200710119513. 4)”的改進(jìn))
, r N_Clas(Cfn)N _C Ias(Cfn)
I — Io 0-4 f% --, i ^ 10
b¥_C Over(CfnpAn)I— N_CotwrfC fnrA-n)
UCfnlAn) = _^ cias(cfn)
O -=-^ > 10
INCoveriCfntAn)-
例如,An = “北大”,Cfn1= “北京/大學(xué)”,Cfn2 = “北京/交通/大學(xué)”,根據(jù)約束函數(shù)
3,^(Cfn1,An) > f3(Cfn2, An),所以Cfn1的優(yōu)先級(jí)比Cfn2的優(yōu)先級(jí)高。約束函數(shù)4 An對(duì)Fn的分詞覆蓋重心
全稱通常由多個(gè)分詞組成,有的情況下全稱中的一個(gè)或多個(gè)分詞可以在簡(jiǎn)稱中被省略,但是被省略的分詞應(yīng)該均勻的分布在全稱中,而不應(yīng)該都集中在全稱的前部分或后部分。例如,An= “貴航集團(tuán)”,F(xiàn)n= “中國(guó)/貴州/航空/工業(yè)/集團(tuán)/公司”,F(xiàn)n中省略的分詞“中國(guó)”、“工業(yè)”、“公司”分別在Fn的前部分、中間部分和后部分。約束函數(shù)4的形式定義和計(jì)算如下
t %£ dt (Cfn),
例如,An = “山大”,Cfn1 = “山東/大學(xué)”,Cfn2 = “山東/大學(xué)/威海/分校'Cfn1中被An覆蓋到的分詞“山東”和“大學(xué)”均勻分布在Cfn1中,而Cfn2中被An覆蓋到的分詞“山
東”和“大學(xué)”都分布在Cfn2的前半部分。根據(jù)約束函數(shù)4J4(Cfn1MTi) > f4(Cfn2,An)
,所以Cfn1的優(yōu)先級(jí)比Cfn2的優(yōu)先級(jí)高。約束函數(shù)5 Fn中未被An覆蓋到的最長(zhǎng)連續(xù)分詞數(shù)
候選全稱通常由多個(gè)分詞組成,有的情況下全稱中的一個(gè)或多個(gè)分詞可以在簡(jiǎn)稱中被省略,但是被省略的分詞在全稱中通常不會(huì)連續(xù)出現(xiàn),即全稱中的分詞連續(xù)在簡(jiǎn)稱中省略的概率比較小。約束函數(shù)5的形式定義和計(jì)算如下
權(quán)利要求
1.一種從Web網(wǎng)頁中獲取漢語全稱的方法,其特征在于包括一下步驟 步驟I、輸入一個(gè)給定的漢語簡(jiǎn)稱; 步驟2、選擇查詢模式來構(gòu)造查詢項(xiàng),將查詢項(xiàng)提交到Google搜索引擎中搜索,保存前N項(xiàng)錨文本作為錨語料; 步驟3、通過正則表達(dá)式,從錨語料中獲取出包含查詢項(xiàng)的關(guān)系的句子,保存下來作為全簡(jiǎn)稱語料; 步驟4、利用簡(jiǎn)稱提取算法EFN從全簡(jiǎn)稱語料中提取出候選全稱,形成候選全稱集合; 步驟5、對(duì)候選全稱集合進(jìn)行基于全簡(jiǎn)稱關(guān)系約束的驗(yàn)證,形成全稱集合; 步驟6、對(duì)全稱集合進(jìn)行基于全簡(jiǎn)稱關(guān)系約束的分類,從而形成帶有類別標(biāo)注的全稱集
2.根據(jù)權(quán)利要求I所述的一種從Web網(wǎng)頁中獲取漢語全稱的方法,其特征在于在所述步驟2中,若Google返回的查詢結(jié)果>100條,則N取100,否則N取Google返回的查詢結(jié)果的條數(shù)。
3.根據(jù)權(quán)利要求I所述的一種從Web網(wǎng)頁中獲取漢語全稱的方法,其特征在于上述步驟2中,所述的查詢模式包括兩種查詢模式I 簡(jiǎn)稱An”,查詢模式2 :“An全稱”;先選擇查詢模式I,其次選擇查詢模式2。
4.根據(jù)權(quán)利要求I所述的一種從Web網(wǎng)頁中獲取漢語全稱的方法,其特征在于上述步驟4中,全稱提取算法EFN包括兩個(gè)算法CFNEAl和CFNEA2,分別對(duì)應(yīng)步驟2中的兩種查詢模式,即當(dāng)步驟2中選擇查詢模式I時(shí),步驟4中采用CFNEAl來提取Fn,當(dāng)步驟2中選擇查詢模式2時(shí),步驟4中采用CFNEA2來提取Fn。
5.根據(jù)權(quán)利要求4所述的一種從Web網(wǎng)頁中獲取漢語全稱的方法,其特征在于當(dāng)步驟2選擇查詢模式I時(shí),步驟4執(zhí)行以下步驟 全簡(jiǎn)稱句子主要分為三種類型,即標(biāo)號(hào)對(duì)型、無后綴型和有后綴型;標(biāo)號(hào)對(duì)型=An后面無漢字,且Cfn被配對(duì)標(biāo)號(hào)所標(biāo)出,無需確定Cfn的邊界,直接提??;無后綴型An后面無漢字,Cfn未被配對(duì)標(biāo)號(hào)標(biāo)出,Cfn需定左邊界;有后綴型An后面有漢字,表明An是另一簡(jiǎn)稱“An*”的前半部分,故Cfn也該是“An*”對(duì)應(yīng)的全稱“Cfn*”的前半部分,故Cfn需確定左右邊界; 步驟A-I、利用算法FCFNEA提取基準(zhǔn)候選全稱集; 提取基準(zhǔn)候選全稱集的算法(formal candidate fullname extract algorithmFCFNEA)輸入標(biāo)號(hào)對(duì)型全簡(jiǎn)稱句子集合Senttag ,無后綴型全簡(jiǎn)稱句子集合Sentno ,有后綴型全簡(jiǎn)稱句子集合Senthas 輸出基準(zhǔn)候選全稱集合Cfnformal ¥ sent_tag € Senttag ,提取標(biāo)號(hào)對(duì)中的詞條 cfn_formal Cfnft}rmal,并統(tǒng)計(jì)cfn_norm的頻度; Vsent_no G Sentno,¥ cfnjoraial e Cfnformal,若 cfnJbrmal 包含在sent no 中,Ucfn formal 的頻度 +ι,并從Sentnn 中刪除sent no ;—一IiUS一 Vsent_has £ Senthas,¥ cfnjormal E Cfnformal,若 cfnjormal 包含在sent_no 中,則cfn_formal 的頻度 +ι; Vcfn_formai G Cfnform al,利用ictclas進(jìn)行分詞,將第一個(gè)分詞pre和最后一個(gè)分詞suf 組成< pre, suf >,< pre, suf > Set_fix Vsentjio G Sentno,V < pre, suf > e Set_fix,若sentjio 中存在前綴為 pre且后綴為suf的詞條cfnjk,K1JcfnJix Cfnfix,從Sentno中刪除sent_no,利用優(yōu)先級(jí)排序策略PSCF求出Cfnfix的最優(yōu)候選Inax(Cfnfix) Cfnformal ; return CFNformal 在算法FCFNEA的Step5中用到的優(yōu)先級(jí)排序策略PSCF的定義如下 優(yōu)先級(jí)排序策略(priority sort comparison function PSCF)¥ Cfiij X Cftij e CfnSet(An),Cfni > CfHj iff 1).n_word(Cftij,An)之 n_word(Cfnj,An);2).IeEgth(Cfhi) < Iengtli(CfEj) > if ILword(CfiiilAn) = ILworcl(CfnjlAn)jCfni = Cftij iff i). n—word(Cfii5,An) = n_word(CfHj,An);2). Iength(Cfiij) = length (Cfnj); if 3Cfnk € CfnSet(Aii), VCfni GSetjCfn(An),都有Cfek > Cfiv 則稱Cfnk 是CftiSet(An)中的最優(yōu)候選,記為 max(CfnSet(An)); 步驟A-2、利用算法ICFNEA提取非基準(zhǔn)候選全稱集; 提取非基準(zhǔn)候選全稱的算法(informal candidate ful lname extract algorithmICFNEA) 輸入待提取的短語或短句Οο—Γθ θΓθπ ,已知概念詞Inputitem= (C1C2......Cj ; 輸出提取出的全簡(jiǎn)稱候選 對(duì)CbTdfermi進(jìn)行分詞并且標(biāo)注詞性,分詞結(jié)果為-JP1P2……PJ ; 定義位置變量left—flagbk, Ief胤 for each Ci ^ (CnCn^1......Cj for each Pj ^ {Pieft_fiaf ieft_fiag-i......PJ if Ci出現(xiàn)在&中 Then left_flagR j break; end if end for each end for each for each Pk ^ (P1P2......Pjif 的詞性^ {連詞介詞助詞動(dòng)詞量詞標(biāo)號(hào)} and k < left—flag Then IeftR k+l; end ifend for each return Candidate^ (Pleft......Pj; 步驟A-3、利用類比的方法對(duì)非基準(zhǔn)候選全稱集中的候選全稱再定左右邊界; 類比的方法具體見如下的方法I和方法2 ; 形式表示
6.根據(jù)權(quán)利要求4所述的一種從Web網(wǎng)頁中獲取漢語全稱的方法,其特征在于當(dāng)步驟2選擇查詢模式2時(shí),步驟4執(zhí)行以下步驟 步驟B-1、利用算法CFNEA2提取候選全稱集; 提取候選全稱的算法(candidate ful lname extract algorithm CFNEA2 ) 輸入前綴已知簡(jiǎn)稱? I即utitern,待提取的短語或短句Cb-refermt 輸出提取出的全簡(jiǎn)稱候選; 定義標(biāo)記Λ^^βΟ,(開源的似乎是不能用于商業(yè)目的)對(duì)Co-referent分詞,記為(P1P2……PJ ; for each Pi ^ (P1P2......Pj if fIag-Q and Pi和Prefix有相同的字and Pi和Inputitem無相同的字 Then flagRl; end if if flag=I and Pi 和 Prefix 無相同的字 Thenbreak;end if i f Pi和Inputi tem有相同的字 Thenbreak;end ifend for each if fIag=O Then iBO/Candi da teR (Pi......Pj Return Candidate 通過上述操作得到候選全稱集。
7.根據(jù)權(quán)利要求I所述的一種從Web網(wǎng)頁中獲取漢語全稱的方法,其特征在于在所述的步驟5中,若全稱集合為空,且步驟2中還有查詢模式可供選擇,則重新執(zhí)行步驟2—6 ;如果全稱集合為空,同時(shí)步驟2中沒有可供選擇的查詢模式,則退出,表明不能從Web上搜索到所給定簡(jiǎn)稱的全稱。
8.根據(jù)權(quán)利要求I所述的一種從Web網(wǎng)頁中獲取漢語全稱的方法,其特征在于在所述的步驟5中,全簡(jiǎn)稱關(guān)系約束是一個(gè)四元組R= (Fn, An, F,A),其中,F(xiàn)n是對(duì)象的全稱,An是對(duì)象的簡(jiǎn)稱,F(xiàn)是Fn和An之間的約束函數(shù)集,A是Fn和An必須滿足的約束公理集;約束函數(shù)集定量地表示Fn和An之間的約束,約束公理集定性地表示Fn和An之間的約束。
9.根據(jù)權(quán)利要求8所述的一種從Web網(wǎng)頁中獲取漢語全稱的方法,其特征在于所述步驟5、6的具體實(shí)現(xiàn)步驟如下 步驟C-1、利用約束公理集中的約束公理1-4驗(yàn)證候選全稱集中的每個(gè)候選全稱; 步驟C-2、由約束函數(shù)集生成決策樹,利用決策樹對(duì)候選全稱集中的候選全稱進(jìn)行分類,去除類別是“F1”、“F2”和“F3”的候選全稱,保留類別是“T”的候選全稱,從而生成全稱集; “F1”表示低頻異字型錯(cuò)誤,“F2”表示高頻異字型錯(cuò)誤,“F3”表示低頻異序型錯(cuò)誤,“Y”表示正確; 步驟C-3、對(duì)全稱集進(jìn)行基于約束函數(shù)集的分類; 根據(jù)全稱是否有異字或異序,分為普通型、異字型和異序型,普通型又根據(jù)語境是否相關(guān)分為強(qiáng)語境無關(guān)型、弱語境無關(guān)型和語境相關(guān)型,語境無關(guān)型再根據(jù)FN在全稱集中頻度的相對(duì)高低分為高頻型和低頻型,語境相關(guān)型根據(jù)An對(duì)FN的覆蓋重心分為前向型、居中型和后向型; 具體的分類標(biāo)準(zhǔn)和各類全稱需要滿足的條件 高頻強(qiáng)語境無關(guān)的直觀意義=Fn包含An中的所有字且保持語序不變,F(xiàn)n中的每個(gè)分詞在An中都有對(duì)應(yīng),且Fn在全稱集中頻度最高; 低頻強(qiáng)語境無關(guān)的直觀意義=Fn包含An中的所有字且保持語序不變,F(xiàn)n中的每個(gè)分詞在An中都有對(duì)應(yīng),且Fn在全稱集中頻度不最高; 高頻弱語境無關(guān)的直觀意義=Fn包含An中的所有字且保持語序不變,F(xiàn)n中的大部分分詞在An中都有對(duì)應(yīng),且Fn在全稱集中頻度最高; 低頻弱語境無關(guān)的直觀意義=Fn包含An中的所有字且保持語序不變,F(xiàn)n中的大部分分詞在An中都有對(duì)應(yīng),且Fn在全稱集中頻度不最高; 前向型語境相關(guān)的直觀意義=Fn包含An中的所有字且保持語序不變,F(xiàn)n中被省略的分詞大多在Fn的后半部分; 居中型語境無關(guān)的直觀意義=Fn包含An中的所有字且保持語序不變,F(xiàn)n中前后部分被省略的分詞個(gè)數(shù)差不多; 后向型語境相關(guān)的直觀意義=Fn包含An中的所有字且保持語序不變,F(xiàn)n中被省略的分詞大多在Fn的前半部分; 異序型的直觀意義=Fn包含An中的所有字但語序有變,F(xiàn)n在全稱集中頻度最高; 異字型的直觀意義=Fn不包含An中的所有字但Fn的頻度很高或在全稱集中的相對(duì)頻度很高; 步驟C-4、按優(yōu)先級(jí)綜合函數(shù)PRI(Cfn,An)對(duì)全稱集中同一類的全稱進(jìn)行排序; 在步驟C-4中用到的優(yōu)先級(jí)綜合函數(shù)PRI (Cfn, An)的定義如下
10.根據(jù)權(quán)利要求要求8或9所述的一種從Web網(wǎng)頁中獲取漢語全稱的方法,其特征在于所述的約束函數(shù)集的具體含義為 約束函數(shù)I =An的字來自Fn中的比率全稱包含簡(jiǎn)稱所包括的所有漢字,即An中的每個(gè)漢字都來自于Fn中,在候選全稱集中,包含An的字的比率越高的候選全稱的優(yōu)先級(jí)越高; 約束函數(shù)I的形式定義和計(jì)算如下
全文摘要
本發(fā)明涉及一種從Web網(wǎng)頁中獲取漢語全稱的方法,包括輸入已知簡(jiǎn)稱,選擇查詢模式來構(gòu)造查詢項(xiàng),提交查詢項(xiàng)到Google中獲取錨文本,再從錨文本中獲取全簡(jiǎn)稱語料,最后利用提取算法提取候選全稱,并利用優(yōu)先級(jí)綜合函數(shù)對(duì)候選全稱進(jìn)行排序;其中查詢模式有兩種,對(duì)應(yīng)的提取全稱的提取算法也有兩種。本發(fā)明還定義了全簡(jiǎn)稱關(guān)系的本體,包括一組約束公理和一組約束函數(shù),其中約束公理定性地表示全稱和簡(jiǎn)稱之間的約束,約束函數(shù)集定量地表示了全稱和簡(jiǎn)稱之間的約束,并基于全簡(jiǎn)稱本體提出了一種全稱的驗(yàn)證方法和分類方法。本發(fā)明可實(shí)現(xiàn)全稱的大規(guī)模、高準(zhǔn)確率的獲取,并探討了用計(jì)算機(jī)實(shí)現(xiàn)全稱的分類,為大規(guī)模知識(shí)的智能獲取提供了有效的支撐。
文檔編號(hào)G06F17/30GK102955818SQ201110253100
公開日2013年3月6日 申請(qǐng)日期2011年8月31日 優(yōu)先權(quán)日2011年8月31日
發(fā)明者王石, 丁遠(yuǎn)鈞, 符建輝, 王衛(wèi)民 申請(qǐng)人:鎮(zhèn)江諾尼基智能技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
绩溪县| 库伦旗| 石台县| 汝阳县| 冷水江市| 阿巴嘎旗| 冕宁县| 法库县| 黎平县| 田东县| 吉木乃县| 阳原县| 繁昌县| 乐安县| 岳阳县| 娱乐| 申扎县| 昌图县| 营口市| 江西省| 荆门市| 定南县| 南宁市| 长乐市| 离岛区| 建德市| 南丹县| 霍州市| 新建县| 阳新县| 娄底市| 敦煌市| 汝阳县| 湖州市| 开远市| 台山市| 色达县| 河间市| 兴业县| 宾川县| 五大连池市|