詞對(duì)關(guān)系相似度的計(jì)算方法
【專利摘要】本發(fā)明提供一種詞對(duì)關(guān)系相似度的計(jì)算方法,其特征在于,包括:a.生成第一詞對(duì)以及第二詞對(duì)的特征向量集,其中,所述第一詞對(duì)以及所述第二詞對(duì)分別包括兩個(gè)英文單詞,并通過以下步驟生成特征向量集;b.根據(jù)所述第一詞對(duì)以及所述第二詞對(duì)的特征向量集和空間余弦相似度定理計(jì)算所述第一詞對(duì)的關(guān)系以及所述第二詞對(duì)的關(guān)系的相似度。
【專利說明】詞對(duì)關(guān)系相似度的計(jì)算方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及自然語言處理領(lǐng)域,具體地說是英文詞對(duì)間關(guān)系相似度的計(jì)算。
【背景技術(shù)】
[0002]關(guān)系相似度度量研究是自然語言處理中的基礎(chǔ)性工作,并逐漸成為研究熱點(diǎn),對(duì)自然語言處理具有極其重要的意義,并被廣泛應(yīng)用到自然語言處理的許多領(lǐng)域,如信息檢索、信息抽取、關(guān)系挖掘和人工智能等。
[0003]相似度計(jì)算大致分為兩類:屬性相似度計(jì)算和關(guān)系相似度計(jì)算。對(duì)于屬性相似度計(jì)算,其目標(biāo)是通過比較兩個(gè)詞的屬性來計(jì)算給定兩個(gè)詞的相似度。例如,單詞“獅子”和“貓”擁有很多公有屬性,如肉食動(dòng)物,有鋒利的牙齒,用四條腿行走。因此,它們被視為屬性相似。另一方面,關(guān)系相似度表示給定兩個(gè)詞對(duì)所存在語義關(guān)系的一致性。例如,詞對(duì){獅子:貓}與{鴕鳥:鳥}就具有很高的關(guān)系相似度,因?yàn)楠{子是一只很大的貓同時(shí)鴕鳥是一只很大的鳥。在這個(gè)例子中,這兩個(gè)詞對(duì)共享語義關(guān)系“是一只很大的”。針對(duì)屬性相似度計(jì)算的研究開展較早,相關(guān)技術(shù)已經(jīng)非常成熟,而針對(duì)關(guān)系相似度計(jì)算的研究相對(duì)較少,相關(guān)算法存在可移植性差、特征稀疏、時(shí)間空間復(fù)雜度大等不足,并且計(jì)算效果還有待提高。
【發(fā)明內(nèi)容】
[0004]本發(fā)明提供一種詞對(duì)關(guān)系相似度的計(jì)算方法,其特征在于,包括:a.生成第一詞對(duì)以及第二詞對(duì)的特征向量集,其中,所述第一詞對(duì)以及所述第二詞對(duì)分別包括兩個(gè)英文單詞,并通過以下步驟生成特征矩陣:al.在網(wǎng)頁中抽取所有包括一詞對(duì)的文本的集合形成一語料庫,其中,所述文本為包括所述第一單詞以及所述第二單詞的網(wǎng)頁快照,所述詞對(duì)為包括第一單詞以及第二單詞,所述第一單詞以及所述第二單詞為英文單詞;a2.通過所述第一單詞以及所述第二單詞的不同形態(tài)的單詞對(duì)所述詞對(duì)進(jìn)行擴(kuò)展為擴(kuò)展詞對(duì)集合,結(jié)合所述擴(kuò)展詞對(duì)集合以及預(yù)設(shè)連接詞集合形成短語模式集合,根據(jù)所述語料庫以及所述短語模式集合的檢索和匹配構(gòu)建所述詞對(duì)的特征矩陣;b.利用多任務(wù)學(xué)習(xí)LASSO對(duì)所述第一詞對(duì)以及所述第二詞對(duì)的特征矩陣進(jìn)行數(shù)據(jù)處理以壓縮并生成特征向量集,所述特征向量集包括所述第一詞對(duì)的特征向量以及所述第二詞對(duì)的特征向量;c.根據(jù)所述特征向量集和空間余弦相似度定理計(jì)算所述第一詞對(duì)的關(guān)系以及所述第二詞對(duì)的關(guān)系的相似度。
[0005]優(yōu)選地,所述通過所述第一單詞以及所述第二單詞的不同形態(tài)的單詞對(duì)所述詞對(duì)進(jìn)行擴(kuò)展為擴(kuò)展詞對(duì)集合包括:將所述第一單詞以及所述第一單詞的所有不同形態(tài)的單詞作為第一擴(kuò)展單詞,形成第一擴(kuò)展單詞集合;將所述第二單詞以及所述第二單詞的所有不同形態(tài)的單詞作為第二擴(kuò)展單詞,形成第二擴(kuò)展單詞集合;一第一擴(kuò)展單詞以及一第二擴(kuò)展單詞構(gòu)成擴(kuò)展詞對(duì),其中,擴(kuò)展詞對(duì)集合包括所有由所述第一擴(kuò)展單詞以及所述第二擴(kuò)展單詞組成的不同的擴(kuò)展詞對(duì)。
[0006]優(yōu)選地,所述結(jié)合所述擴(kuò)展詞對(duì)集合以及預(yù)設(shè)連接詞集合形成短語模式集合包括:對(duì)應(yīng)連接詞集合中的每一個(gè)連接詞,結(jié)合一個(gè)擴(kuò)展詞對(duì)組成以下兩個(gè)短語模式:所述第一擴(kuò)展單詞空格所述連接詞空格所述第二擴(kuò)展單詞;以及所述第二擴(kuò)展單詞空格所述連接詞空格所述第一擴(kuò)展單詞,其中,所述短語模式集合包括所有由所述擴(kuò)展詞對(duì)以及所述連接詞組成的不同的短語模式。
[0007]優(yōu)選地,所述特征矩陣的行數(shù)為所述連接詞集合中連接詞的個(gè)數(shù),所述特征矩陣的列數(shù)為所述文本集合中文本的個(gè)數(shù),所述特征矩陣每一項(xiàng)的值為與每一個(gè)連接詞相關(guān)的兩個(gè)短語模式在每一個(gè)文本中出現(xiàn)的頻次。
[0008]優(yōu)選地,所述連接詞集合中的一個(gè)或多個(gè)連接詞還包括與所述連接詞空格連接的任意一個(gè)詞。
[0009]優(yōu)選地,利用多任務(wù)學(xué)習(xí)LASSO對(duì)所述特征矩陣進(jìn)行壓縮并生成特征向量集包括:利用LARS算法,根據(jù)所述特征矩陣以及目標(biāo)向量集生成特征向量集,其中,所述目標(biāo)向量集中的目標(biāo)向量為所述文本稀疏表示的線性疊加。
[0010]優(yōu)選地,根據(jù)如下公式計(jì)算所述第一詞對(duì)的關(guān)系與所述第二詞對(duì)的關(guān)系的相似度:
[0011]RemmdAi B}, {C: £?}) =■;■■,
[0012]其中,{A:B}為所述第一詞對(duì),{C:D}為所述第二詞對(duì),RelSim({A:B},{C:D})為所述第一詞對(duì)的關(guān)系以及所述第二詞對(duì)的關(guān)系的相似度,rAB為所述第一詞對(duì)的特征向量,rCD為所述第二詞對(duì)的特征向量。
[0013]本發(fā)明結(jié)合統(tǒng)計(jì)以及多任務(wù)學(xué)習(xí)的數(shù)據(jù)處理,提供一種基于Mult1-Task Lasso的英文詞對(duì)間關(guān)系相似度計(jì)算方法。通過高效抓取網(wǎng)絡(luò)文本,并根據(jù)模式抽取方法抽取可以表達(dá)詞對(duì)間語義關(guān)系的語義特征并同時(shí)構(gòu)建特征矩陣。利用多任務(wù)學(xué)習(xí)在特征學(xué)習(xí)的優(yōu)勢(shì)及Lasso在高維數(shù)據(jù)特征選擇的特性,對(duì)特征矩陣進(jìn)行合理的降維、去噪,生成特征向量。采用余弦相似度計(jì)算方法,實(shí)現(xiàn)量化詞對(duì)間關(guān)系相似度。本發(fā)明充分利用了互聯(lián)網(wǎng)中海量的、動(dòng)態(tài)更新的信息,并采用最有效的文本抓取方式,同時(shí)通過多任務(wù)學(xué)習(xí)對(duì)構(gòu)建的特征矩陣進(jìn)行降維去噪,較好地解決了以往算法時(shí)空開銷大的問題,在大大降低計(jì)算時(shí)間的同時(shí),增強(qiáng)了關(guān)系相似度計(jì)算的效果。
【專利附圖】
【附圖說明】
[0014]圖1示出了本發(fā)明提供的詞對(duì)關(guān)系相似度的計(jì)算方法的流程圖;以及
[0015]圖2示出了本發(fā)明提供的根據(jù)短語模式生成特征矩陣的流程圖。
【具體實(shí)施方式】
[0016]為了進(jìn)一步說明本發(fā)明的原理和結(jié)構(gòu),現(xiàn)結(jié)合附圖對(duì)本發(fā)明的優(yōu)選實(shí)施例進(jìn)行詳細(xì)說明。
[0017]圖1示出了本發(fā)明提供的詞對(duì)關(guān)系相似度的計(jì)算方法的流程圖。具體地,本圖示出了九個(gè)步驟。
[0018]首先是步驟S101,通過網(wǎng)絡(luò)抓取包括第一詞對(duì){A:B}的文本集合。其中,A、B為兩個(gè)不同的英文單詞。
[0019]具體地,本發(fā)明通過抓取與詞對(duì)相關(guān)的網(wǎng)頁來實(shí)現(xiàn)語料庫的構(gòu)建??紤]到當(dāng)前網(wǎng)頁結(jié)構(gòu)復(fù)雜度大、信息內(nèi)容呈現(xiàn)多元化擴(kuò)張等問題,單純采用傳統(tǒng)的網(wǎng)頁抓取方式不僅耗時(shí),而且會(huì)帶來更多的噪音干擾。優(yōu)選地,本發(fā)明采用Google Web API獲取網(wǎng)頁快照的方式來采集信息。網(wǎng)頁快照是搜索引擎提供的有效信息之一,它由搜索引擎通過復(fù)雜的高級(jí)算法獲取,通過簡短窗口式文本表述網(wǎng)頁上下文的核心內(nèi)容。
[0020]例如,給定詞對(duì){restrained: limit},得到804個(gè)網(wǎng)頁快照,用于下一步特征矩陣的構(gòu)建。以下示出部分網(wǎng)頁快照的內(nèi)容摘要。
[0021]Restrain implies restrict1n or limitat1n, as on one’s freedom ofact1n:〃a wise and frugal government, which shall restrain men from injuring oneanother'..
[0022]Synonyms for restrain at Thesaurus, com with free onlinethesaurus,...jail, keep, keep down, keep in line,kill氺,limit,lock up, manacle, muzzIej pin1n, prevent,...
[0023]a: to prevent from doing, exhibiting, or expressing something<restrainedthe child from jumping), b: to limit, restrict, or keep under controKtry torestrain your...
[0024]步驟S102,抽取第一詞對(duì){A:B}的語義特征。
[0025]具體地,也就是構(gòu)建第一詞對(duì){A:B}的短語模式集,該短語模式由擴(kuò)展形態(tài)后的擴(kuò)展詞對(duì)集以及預(yù)設(shè)的連接詞結(jié)合構(gòu)成。具體地,如圖2所示步驟構(gòu)建第一詞對(duì){A:B}的短語模式集,在此不予贅述。
[0026]步驟S103,構(gòu)建第一詞對(duì){A:B}的特征矩陣。
[0027]具體地,根據(jù)第一詞對(duì){A:B}的短語模式集以及文本集合構(gòu)建第一詞對(duì){A:B}的特征矩陣。
[0028]步驟S104,通過網(wǎng)絡(luò)抓取包括第二詞對(duì){C:D}的文本集合。其中,C、D為兩個(gè)不同的英文單詞。
[0029]步驟S105,抽取第二詞對(duì){C:D}的語義特征。
[0030]步驟S106,構(gòu)建第二詞對(duì){C:D}的特征矩陣。步驟S107,對(duì)第一詞對(duì){A:B}以及第二詞對(duì){C:D}的特征矩陣進(jìn)行去噪降維獲得特征向量集。
[0031]具體地,為解決特征矩陣的稀疏及噪聲干擾問題,本發(fā)明利用多任務(wù)學(xué)習(xí)在特征學(xué)習(xí)的優(yōu)勢(shì)及Lasso在高維矩陣壓縮的特性來實(shí)現(xiàn)對(duì)特征矩陣的降維去噪。
[0032]優(yōu)選地,特征向量生成過程中采用了 MALSAR,它是一套包含有很多主流多任務(wù)學(xué)習(xí)方法的MATLAB庫,其中就有關(guān)于解決Lasso問題的多任務(wù)學(xué)習(xí)算法Mult1-Task Lasso。此算法在多任務(wù)學(xué)習(xí)的基礎(chǔ)上,有效的結(jié)合了能良好解決Lasso問題的LARS算法,用于解決多任務(wù)學(xué)習(xí)中的Lasso問題。其中,輸入是特征矩陣
[0033]
A = [AllA2,..%AJ € Emxn'
[0034]及目標(biāo)向量集
[0035]
y= [yi,y2,…,Λ] el?
[0036]其中,目標(biāo)向量為對(duì)應(yīng)詞對(duì)網(wǎng)頁快照稀疏表示的線性疊加,即
【權(quán)利要求】
1.一種詞對(duì)關(guān)系相似度的計(jì)算方法,其特征在于,包括: a.生成第一詞對(duì)以及第二詞對(duì)的特征向量集,其中,所述第一詞對(duì)以及所述第二詞對(duì)分別包括兩個(gè)英文單詞,并通過以下步驟生成特征矩陣: al.在網(wǎng)頁中抽取所有包括一詞對(duì)的文本的集合形成一語料庫,其中,所述文本為包括所述第一單詞以及所述第二單詞的網(wǎng)頁快照,所述詞對(duì)為包括第一單詞以及第二單詞,所述第一單詞以及所述第二單詞為英文單詞; a2.通過所述第一單詞以及所述第二單詞的不同形態(tài)的單詞對(duì)所述詞對(duì)進(jìn)行擴(kuò)展為擴(kuò)展詞對(duì)集合,結(jié)合所述擴(kuò)展詞對(duì)集合以及預(yù)設(shè)連接詞集合形成短語模式集合,根據(jù)所述語料庫以及所述短語模式集合的檢索和匹配構(gòu)建所述詞對(duì)的特征矩陣, b.利用多任務(wù)學(xué)習(xí)LASSO對(duì)所述第一詞對(duì)以及所述第二詞對(duì)的特征矩陣進(jìn)行數(shù)據(jù)處理以壓縮并生成特征向量集,所述特征向量集包括所述第一詞對(duì)的特征向量以及所述第二詞對(duì)的特征向量; c.根據(jù)所述特征向量集和空間余弦相似度定理計(jì)算所述第一詞對(duì)的關(guān)系以及所述第二詞對(duì)的關(guān)系的相似度。
2.根據(jù)權(quán)利要求1所述的計(jì)算方法,其特征在于,所述通過所述第一單詞以及所述第二單詞的不同形態(tài)的單詞對(duì)所述詞對(duì)進(jìn)行擴(kuò)展為擴(kuò)展詞對(duì)集合包括: 將所述第一單詞以及所述第一單詞的所有不同形態(tài)的單詞作為第一擴(kuò)展單詞,形成第一擴(kuò)展單詞集合; 將所述第二單詞以及所述第二單詞的所有不同形態(tài)的單詞作為第二擴(kuò)展單詞,形成第二擴(kuò)展單詞集合; 一第一擴(kuò)展單詞以及一第二擴(kuò)展單詞構(gòu)成擴(kuò)展詞對(duì),其中,擴(kuò)展詞對(duì)集合包括所有由所述第一擴(kuò)展單詞以及所述第二擴(kuò)展單詞組成的不同的擴(kuò)展詞對(duì)。
3.根據(jù)權(quán)利要求2所述的計(jì)算方法,其特征在于,所述結(jié)合所述擴(kuò)展詞對(duì)集合以及預(yù)設(shè)連接詞集合形成短語模式集合包括: 對(duì)應(yīng)連接詞集合中的每一個(gè)連接詞,結(jié)合一個(gè)擴(kuò)展詞對(duì)組成以下兩個(gè)短語模式: 所述第一擴(kuò)展單詞空格所述連接詞空格所述第二擴(kuò)展單詞;以及 所述第二擴(kuò)展單詞空格所述連接詞空格所述第一擴(kuò)展單詞, 其中,所述短語模式集合包括所有由所述擴(kuò)展詞對(duì)以及所述連接詞組成的不同的短語模式。
4.根據(jù)權(quán)利要求3所述的計(jì)算方法,其特征在于,所述特征矩陣的行數(shù)為所述連接詞集合中連接詞的個(gè)數(shù),所述特征矩陣的列數(shù)為所述文本集合中文本的個(gè)數(shù),所述特征矩陣每一項(xiàng)的值為與每一個(gè)連接詞相關(guān)的兩個(gè)短語模式在每一個(gè)文本中出現(xiàn)的頻次。
5.根據(jù)權(quán)利要求1所述的計(jì)算方法,其特征在于,所述連接詞集合中的一個(gè)或多個(gè)連接詞還包括與所述連接詞空格連接的任意一個(gè)詞。
6.根據(jù)權(quán)利要求4所述的計(jì)算方法,其特征在于,利用多任務(wù)學(xué)習(xí)LASSO對(duì)所述特征矩陣進(jìn)行壓縮并生成特征向量集包括: 利用LARS算法,根據(jù)所述特征矩陣以及目標(biāo)向量集生成特征向量集,其中,所述目標(biāo)向量集中的目標(biāo)向量為所述文本稀疏表示的線性疊加。
7.根據(jù)權(quán)利要求6所述的計(jì)算方法,其特征在于,根據(jù)如下公式計(jì)算所述第一詞對(duì)的關(guān)系與所述第二詞對(duì)的關(guān)系的相似度: RelSimiiA: B], {C: D}) =
IryiBl-1rcDl 其中,{A:B}為所述第一詞對(duì),{C:D}為所述第二詞對(duì),RelSim({A:B},{C:D})為所述第一詞對(duì)的關(guān)系以及所述第二詞對(duì)的關(guān)系的相似度,1?為所述第一詞對(duì)的特征向量,為所述第二詞對(duì)的特征向量。
【文檔編號(hào)】G06F17/27GK104182386SQ201310202669
【公開日】2014年12月3日 申請(qǐng)日期:2013年5月27日 優(yōu)先權(quán)日:2013年5月27日
【發(fā)明者】呂釗, 洪俊 申請(qǐng)人:華東師范大學(xué)