專利名稱:利用文本的語義表示進(jìn)行信息檢索的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息檢索領(lǐng)域,并且更具體地涉及信息檢索記號化領(lǐng)域。
信息檢索指的是確定目標(biāo)文檔中出現(xiàn)查詢或查詢文檔中的詞的過程。信息檢索可以被有益地應(yīng)用于幾種情況中,包括處理用戶的明確搜索查詢,確定和某特定文檔相關(guān)的文檔,判斷兩份文檔的類似性,提取某文檔的特征以及概述某文檔。
信息檢索典型地包括兩階段過程(1)在編索引階段,最初通過(a)把文檔中的每個(gè)詞轉(zhuǎn)化成信息檢索引擎可理解、可區(qū)分的一串字符,稱之為“記號”(即 文檔的記號化)以及(b)建立各記號到該記號在該文檔中出現(xiàn)位置的索引,對文檔編索引。(2)在查詢階段中,相似地對查詢(或查詢文檔)進(jìn)行記號化,并和索引進(jìn)行比較以確定文檔中出現(xiàn)記號化后的查詢中的記號的位置。
圖1是描述信息檢索過程的概述數(shù)據(jù)流圖。在編索引階段,把目標(biāo)文檔111提供給記號化器112。目標(biāo)文檔是由一些字符串,例如一些句子,組成的,每個(gè)字符串出現(xiàn)在目標(biāo)文檔的某特定位置上。將目標(biāo)文檔中的各字符串以及詞的位置傳送到記號化器120,記號化器120把各字符串中的詞轉(zhuǎn)換成一系列可由信息檢索引擎130理解及區(qū)分的記號。信息檢索引擎130的索引建立部分131把這些記號以及它們的位置添加到索引140中。該索引把每個(gè)唯一的記號映射到該目標(biāo)文檔中出現(xiàn)該記號的位置。若需要,可以重復(fù)該過程,以便把一些不同的目標(biāo)文檔添加到該索引中。若索引140表示一些目標(biāo)文檔中的文本,則位置信息最好包含各位置對應(yīng)的文檔的標(biāo)記。
在查詢階段,把文本查詢112提供給記號化器120。查詢可能是單個(gè)字符串或一個(gè)句子,或者可能是由一些字符串組成的完整文檔。記號化器120按它把目標(biāo)文檔中的詞轉(zhuǎn)換成記號的相同方式把查詢112的文本中的詞轉(zhuǎn)換成記號。記號化器120把這些記號傳送到信息檢索引擎130的索引檢索部分132。信息檢索引擎的索引檢索部分在索引140中搜索這些記號在目標(biāo)文檔中的出現(xiàn)。對于每個(gè)記號,信息檢索引擎的索引檢索部分確定目標(biāo)文檔中出現(xiàn)該記號的各個(gè)位置。作為查詢結(jié)果113返回位置表。
常規(guī)記號化器典型地包括輸入文本的外表變換,例如把每個(gè)大寫字符變成小寫、確定輸入文本中的每個(gè)詞并且去掉詞的后綴。例如,常規(guī)記號化器可能把輸入的文本字符串The father is holding the baby。
(該 父親 正抱著 該 嬰兒。)轉(zhuǎn)換成下述記號the(該)father (父親)is (是)hold (抱)the(該)baby (嬰兒)這種記號化方法趨向于使依據(jù)它的搜索過分地包含出現(xiàn)這樣的詞,即其含意是和查詢文本中的預(yù)定含意不同的。例如,該示例輸入文本字符串使用“to support or grasp(支持或抓住)”含意下的動(dòng)詞“hold”。但是,記號“hold”可能會(huì)和其含意是“the cargo area of a ship(船的裝貨區(qū)”)的詞“hold”匹配。這種記號化方法還趨向于過分包含這樣的情況,即其中詞之間的關(guān)系和查詢文本中各詞之間的關(guān)系不同。例如,在上述示例輸入文本字符串中,“father”是詞“hold”的主語而“baby”是賓語,該示例的字符串可能和句子“The father and the baby held the toy”匹配,在該句中,“baby”是主語而不是賓語。該方法還會(huì)過少地包括出現(xiàn)這樣的情況,即采用不同的但在語義上相關(guān)的詞來代替查詢文本中的某個(gè)詞。例如,上述的輸入文本字符串可能不和文本字符串“The parent isholding the baby”匹配。出于常規(guī)記號化方法的這些缺點(diǎn),一種編有記號化文本中隱含的語義關(guān)系的記號化器應(yīng)該是非常實(shí)用的。
本發(fā)明目的是利用一種改進(jìn)的記號化器進(jìn)行信息檢索,該改進(jìn)的記號化器分析輸入文本以確定邏輯形式,接著利用超屬詞擴(kuò)展邏輯形式。當(dāng)和常規(guī)信息檢索索引結(jié)構(gòu)以及查詢一起使用時(shí),本發(fā)明減少標(biāo)識出現(xiàn)不同的含意以及標(biāo)識出現(xiàn)詞之間帶有不同的關(guān)系的次數(shù),并且增加標(biāo)識出現(xiàn)使用不同的但在語義上相關(guān)的用語的次數(shù)。
通過對已編索引的文本和查詢文本進(jìn)行語法分析以對該輸入文本進(jìn)行詞法、語法和語義分析,本發(fā)明克服了和常規(guī)記號化過程相關(guān)的問題。該分析過程產(chǎn)生一個(gè)或多個(gè)邏輯形式,它們標(biāo)識查詢文本中起主要作用的詞以及它們預(yù)定的含意,并且還進(jìn)而確定這些詞之間的關(guān)系。該語法分析程序最好產(chǎn)生和輸入文本的深主語、動(dòng)詞和深賓語相關(guān)的邏輯形式。例如,對于輸入文本“The father is holding the baby”,語法分析程序可能生成下述邏輯形式深主語動(dòng)詞深賓語fatherhold baby語法分析程序還將該輸入文本中采用的特定含意歸入這些詞。
利用數(shù)字詞典或辭典(也稱為語言知識庫)為某詞的某特定含義確定和該詞的該含義為通用術(shù)語的其它詞的含義(“超屬詞”),本發(fā)明把語法分析程序生成的邏輯形式中的詞改變成它們的超屬詞以創(chuàng)造附加的邏輯形式,這些附加的邏輯形式所具有的總含義和原始邏輯形式的含義相接近。例如,根據(jù)詞庫中的指示,“parent”的一種含意是“father”的所屬含意的超屬詞,“touch”的一種含意是“hold”的所屬含意的超屬詞,“child”的一種含意以及“person”的一種含意是“baby”的所屬含意的超屬詞,本發(fā)明可建立如下的附加邏輯形式深主語動(dòng)詞深賓語parenthold babyfathertouchbabyparenttouchbabyfatherhold childparenthold childfathertouchchildparent touchchildfather hold personparent hold personfather touchpersonparent touchperson然后,本發(fā)明把所有生成的邏輯形式變換成可由信息檢索系統(tǒng)理解的記號,該系統(tǒng)把記號化后的查詢和索引進(jìn)行比較,并且提供給該信息檢索系統(tǒng)。
圖1是信息檢索過程的概述數(shù)據(jù)流圖。
圖2是最好在其上運(yùn)行本工具的通用計(jì)算機(jī)系統(tǒng)的高級框圖。
圖3是一個(gè)概述流程圖,表示最好由本工具執(zhí)行的各步驟以便構(gòu)造和訪問語義上代表目標(biāo)文檔的索引。
圖4是一個(gè)流程圖,表示由本工具使用的用以生成輸入句子的各記號的記號化例程。
圖5是一個(gè)邏輯形式圖,表示示例的邏輯形式。
圖6是一個(gè)輸入文本圖,表示輸入文本片斷,本工具為這些片斷構(gòu)造圖5中示出的邏輯形式。
圖7A是一個(gè)語言知識庫圖,表示由語言知識庫確定的示例性超屬詞關(guān)系。
圖7B是一個(gè)語言知識庫圖,表示為原邏輯形式的深主語man(含意2)選擇超屬詞。
圖8是一個(gè)語言知識庫圖,表示為原邏輯形式的動(dòng)詞kiss(含意1)選擇超屬詞。
圖9和10是語言知識庫圖,表示為原邏輯形式的深賓語pig(含意2)選擇超屬詞。
圖11表示擴(kuò)展邏輯形式的邏輯形式。
圖12表示通過置換擴(kuò)展的原邏輯形式建立派生的邏輯形式。
圖13是一個(gè)索引圖,表示索引內(nèi)容的例子。
圖14是一個(gè)邏輯形式圖,表示本工具為查詢“man kissing horse”優(yōu)選構(gòu)造的邏輯形式。
圖15表示利用超屬詞擴(kuò)充原邏輯形式。
圖16是一個(gè)語言知識庫圖,表示選擇查詢邏輯形式的深賓詞horse(含意1)的超屬詞。
圖17是部分邏輯形式圖,表示和一個(gè)只包含深主語和動(dòng)詞的部分查詢對應(yīng)的部分邏輯形式。
圖18是部分邏輯形式圖,表示和一個(gè)只包含動(dòng)詞和深賓語的部分查詢對應(yīng)的部分邏輯形式。
本發(fā)明的目的是利用文本的語義表達(dá)進(jìn)行信息檢索。當(dāng)和常規(guī)信息檢索索引結(jié)構(gòu)以及查詢一起使用時(shí),本發(fā)明減少標(biāo)識出現(xiàn)不同的含意以及標(biāo)識出現(xiàn)詞之間存在不同的關(guān)系的次數(shù),并且增加標(biāo)識出現(xiàn)使用不同的但在語義上相關(guān)的用語的次數(shù)。
在一種優(yōu)選實(shí)施例中,用一種改進(jìn)的信息檢索記號化工具(以下稱“本工具”)代替圖1所示的常規(guī)記號化器,該工具分析輸入文本以確定邏輯形式,接著利用超屬詞擴(kuò)展邏輯形式。通過對已編索引的文本和查詢文本進(jìn)行語法分析以對該輸入文本進(jìn)行詞法、語法和語義分析,本發(fā)明克服了和常規(guī)記號化過程相關(guān)的問題。該分析過程產(chǎn)生一個(gè)或多個(gè)邏輯形式,它們標(biāo)識查詢文本中起主要作用的詞以及它們的預(yù)定含意,并且還進(jìn)而確定這些詞之間的關(guān)系。該語法分析程序最好產(chǎn)生和輸入文本的深主語、動(dòng)詞和深賓語相關(guān)的邏輯形式。例如,對于輸入文本“The fatheris holding the baby”,該語法分析程序可產(chǎn)生表示深主語是“father”、動(dòng)詞是“hold”及深賓語是“baby”的邏輯形式。由于把輸入文本轉(zhuǎn)換成邏輯形式通過去掉修飾語并忽略時(shí)態(tài)和語態(tài)的差導(dǎo)將輸入文本“蒸餾”成基本含義,把輸入文本片斷轉(zhuǎn)換成邏輯形式趨于統(tǒng)一自然語言中表達(dá)相同思想可能采用的許多不同方式。該語法分析程序還確定這些詞在該輸入文本中所使用的特定含義。
利用數(shù)字詞典或辭典(也稱為語言知識庫)為某詞的某特定含義確定和該詞的該含義為通用術(shù)語的其它詞的含義(“超屬詞”),本發(fā)明把語法分析程序生成的邏輯形式中的詞改變成它們的超屬詞以創(chuàng)造附加的邏輯形式,這些附加的邏輯形式所具有的總含義和原始邏輯形式的含義相接近。然后,本發(fā)明把所有生成的邏輯形式變換成可由信息檢索系統(tǒng)理解的記號,該系統(tǒng)把記號化后的查詢和索引進(jìn)行比較,并且提供給該信息檢索系統(tǒng)。
圖2是最好在其上運(yùn)行本工具的通用計(jì)算機(jī)系統(tǒng)的高級框圖。計(jì)算機(jī)系統(tǒng)200包括中央處理器(CPU)210、輸入/輸出部件220及計(jì)算機(jī)存儲(chǔ)器(存儲(chǔ)器)230。輸入/輸出部件中有存儲(chǔ)部件221,例如硬盤機(jī)。輸入/輸出部件還包括計(jì)算機(jī)可讀的介質(zhì)驅(qū)動(dòng)器222,它可用于安裝軟件產(chǎn)品,其中包括計(jì)算機(jī)可讀介質(zhì)如CD-ROM上提供的本工具。輸入/輸出部件還包括因特網(wǎng)連接223,其使計(jì)算機(jī)系統(tǒng)200通過因特網(wǎng)和其它計(jì)算機(jī)系統(tǒng)通信。最好包括本工具240的計(jì)算機(jī)程序駐留在存儲(chǔ)器230中并在CPU 210上執(zhí)行。本工具240包括一個(gè)基于規(guī)則的語法分析程序,用于分析要記號化的輸入文本片斷以生成邏輯形式。本工具240還包括一個(gè)由該語法分析程序使用的語言知識庫242,以把含義號賦予邏輯形式中的詞。本工具還利用語言知識庫確定所生成的邏輯形式中的各詞的超屬詞。存儲(chǔ)器230最好還包括索引250,其用于將根據(jù)目標(biāo)文檔生成的記號映射到目標(biāo)文檔中的位置。存儲(chǔ)器230還包括一個(gè)信息檢索引擎(“IR引擎”)260,用于把從目標(biāo)文檔生成的記號存儲(chǔ)到索引250中,并且用于確定索引中和從查詢生成的記號相匹配的記號。盡管本工具最好在按上述配置的計(jì)算機(jī)系統(tǒng)中實(shí)現(xiàn),熟練技術(shù)人員可意識到它可實(shí)現(xiàn)在具有不同配置的計(jì)算機(jī)系統(tǒng)上。
圖3是一個(gè)概述流程圖,表示為了構(gòu)造和訪問語義上代表目標(biāo)文檔的索引最好由本工具執(zhí)行的步驟。簡言之,本工具首先通過把目標(biāo)文檔的每個(gè)句子或句子片斷變換成一些記號在語義上對目標(biāo)文檔編索引,這些記號表示描述句子中重要的詞之間的關(guān)系的擴(kuò)展邏輯形式,并包括著具有類似含義的超屬詞。本工具把這些“語義記號”以及目標(biāo)文檔中出現(xiàn)該句子的位置存儲(chǔ)到索引中。當(dāng)對所有目標(biāo)文檔編排索引后,本工具能對照該索引處理信息檢索查詢。對于接收到的每條這種查詢,本工具以對來自目標(biāo)文檔的句子進(jìn)行記號化的相同方式對查詢文本記號化-即通過把句子變換成共同表示查詢文本之?dāng)U展邏輯形式的各語義記號。然后,本工具把這些語義記號和索引中存儲(chǔ)的語義記號進(jìn)行比較,以確定目標(biāo)文檔中存儲(chǔ)的這些語義記號的位置,并且按照與該查詢的關(guān)聯(lián)順序?qū)Π@些語義記號的目標(biāo)文檔分類。本工具最好可更新索引,以便隨時(shí)包含新目標(biāo)文檔的語義記號。
參照圖3,在步驟301-304,本工具循環(huán)處理目標(biāo)文檔中各個(gè)句子。在步驟302,本工具調(diào)用例程以記號化圖4所示的句子。
圖4是一個(gè)流程圖,表示本工具使用的生成輸入句子或其它輸入文本片斷的記號的記號化例程。在步驟401,本工具從輸入文本片斷構(gòu)造原邏輯形式。如上面所討論。邏輯形式表示句子或句子片斷的基本含義。通過應(yīng)用語法分析程序241(圖2)使輸入文本片斷得到語法及語義分析處理產(chǎn)生邏輯形式。對于構(gòu)造表示輸入文本字符串的邏輯形式的詳細(xì)討論,請參見美國專利申請08/674,610號,這里引用作為參考。
本工具使用的邏輯形式最好析出句子的主要?jiǎng)釉~、該動(dòng)詞的實(shí)際主語的名詞(“深主語”)以及該動(dòng)詞的實(shí)際賓語的名詞(“深賓語”)。圖5是一個(gè)邏輯形式圖,表示示例的原邏輯形式。該邏輯形式具有三個(gè)元素“深主語元素510、動(dòng)詞元素520以及深賓語元素530??梢钥闯?,該邏輯形式的深主語是詞“man”的含義2。含義號為具有多于一個(gè)含義的詞指示語法分析程序賦予詞的特定含義,該含義是由語法分析程序所使用的語言知識庫定義的。例如,詞“man”可具有意思為人的第一含義和具有成年男性的第二含義。邏輯形式的動(dòng)詞是詞“kiss”的第一含義。最后,深賓語是詞“pig”的第二含義。該邏輯形式的簡化版本是一個(gè)有序三元組550,其第一元素是深主語,第二元素是動(dòng)詞,其第三元素是深賓語(man,kiss,pig)圖5中所示的邏輯形式表征一些不同的句子和句子片斷。例如,圖6是一個(gè)表示輸入文本片斷的輸入文本圖,本工具會(huì)為其構(gòu)造圖5中所示的邏輯形式。圖6表示輸入文本句子片斷“man kissing a pig”??梢钥闯鲈摱陶Z出現(xiàn)在文檔5的詞號150處,占據(jù)著詞位置150、151、152和153。當(dāng)本工具對該輸入文本蒸片斷進(jìn)行記號化時(shí),它生成圖5中示出的邏輯形式。本工具也會(huì)為下述輸入文本片斷生成圖5中所示的邏輯形式The pig was kissed by an unusual man.
The man will kiss the largest pig。
Many pigs have been kissed by that man。如前面所討論,由于把輸入文本轉(zhuǎn)換成邏輯形式通過去掉修飾語并忽略時(shí)態(tài)和語態(tài)的差異將輸入文本蒸餾成基本含義,把輸入文本片斷轉(zhuǎn)換成邏輯形式趨于統(tǒng)一自然語言中表達(dá)相同思想可能采用的許多不同方式。
回到圖4,在本工具從輸入文本構(gòu)造出原邏輯形式后,例如圖5中所示的邏輯形式后,本工具進(jìn)入步驟420以利用超屬詞擴(kuò)展該原邏輯形式。在步驟402后,記號化例程返回。
如上面所述,超屬詞是一個(gè)屬術(shù)語,它和某特定的詞具有“is a”(是)的關(guān)系。例如,詞“vehicle”是詞“automobile”的超屬詞。本工具最好利用一個(gè)語言知識庫確定原邏輯形式下的詞的超屬詞。這種語言知識庫典型地包含規(guī)定某詞的超屬詞的語義鏈接。
圖7A是一個(gè)語言知識庫圖,表示由語言知識庫確定的示例超屬詞關(guān)系。請注意,類似于后面的語言知識庫,圖7A已被簡化以便利本說明,并且略掉通??稍谡Z言知識庫中發(fā)現(xiàn)的不和本說明直接相關(guān)的信息。圖7A中的每個(gè)向上的箭頭把某個(gè)詞和它的超屬詞連接起來。例如,有一個(gè)箭頭把詞man(含義2)711連接到詞person(含義1)714,表示person(含義1)是man(含義2)的超屬詞。相反,man(含義2)被說成是person(含義1)的“亞屬詞”。
在為了擴(kuò)展原邏輯形式而確定超屬詞時(shí),本工具根據(jù)超屬詞的亞屬詞的相關(guān)為原邏輯形式的每個(gè)詞選擇一個(gè)或多個(gè)超屬詞。通過以這種方式選擇超屬詞,本工具在超出輸入文本片斷含義的范圍外(但在控制量內(nèi))使邏輯形式的含義廣義化。對于某原邏輯形式中的某特定詞,本工具首先選擇該原邏輯形式的該詞的直接超屬詞。例如,參照圖7A,從原邏輯形式中的man(含義2)711開始,本工具選擇它的超屬詞person(含義1)714。下一步,本工具根據(jù)person(含義1)714是否具有相對于起始詞man(含義2)711的相關(guān)亞屬詞集,判定是否還要選擇person(含義1)714的超屬詞animal(含義3)715。若與起始詞man(含義2)711不同的詞person的所有含義的大量亞屬詞至少具有對起始詞man(含義2)711的相似性的臨閾級,則person(含義1)714具有相對于man(含義2)711的相干亞屬詞集。
為了確定超屬詞的不同含義的亞屬詞之間的相似度,本工具最好咨詢語言知識庫以得到表示詞的這些詞句之間的相似程度的相似性權(quán)重。圖7B是一個(gè)語言知識庫圖,表示man(含義2)和person(含義1)的及person(含義5)的其它亞屬詞之間的相似性權(quán)重。該圖表示man(含義2)和woman(含義1)之間的相似性加權(quán)是“.0075”;在man(含義2)和child(含義1)之間的相似性權(quán)重是“.0029”;在man(含義2)和villain(含義1)之間的相似性權(quán)重是“.0003”;以及在man(含義2)和lead(含義7)之間的相似性權(quán)重是“.0002”。這些相似性加權(quán)最好是由語言知識庫根據(jù)該語言知識庫保持的詞意對之間的語義關(guān)系網(wǎng)絡(luò)計(jì)算的。關(guān)于利用語言知識庫計(jì)算詞義對之間的相似性加權(quán)的詳細(xì)討論,請參見標(biāo)題為“確定詞之間的相似性”的美國專利申請?zhí)?專利律師卷號661005.524),這里引用作為參考。
為了根據(jù)這些相似性加權(quán)判定亞屬詞集是否相干,本工具確定相似性加權(quán)的閾值量是否超過相似性加權(quán)閾。雖然優(yōu)選閾百分比是90%,最好為了優(yōu)化本工具的性能調(diào)整閾百分比。還可把相似性加權(quán)閾值配置成優(yōu)化本工具的性能。相似性加權(quán)閾值最好和語言知識庫提供的相似性加權(quán)的總分布相配合。這里,示出采用“.0015”的閾值。從而本工具判定起始詞的和超屬詞的所有含義的其它亞屬詞之間的至少90%的相似性加權(quán)是否等于或高于“.0015”的相似性加權(quán)閾??梢詮膱D7B看出,相對于man(含義1)的person的亞屬詞不滿足該條件盡管man(含義1)和women(含義1)之間以及man(含義1)和child(含義1)之間的相似性加權(quán)大于“.0015”,man(含義1)和villain(含義1)之間以及man(含義1)和lead(含義7)之間的相似性加權(quán)小于“.0015”。從而本工具不再選擇超屬詞animal(含義3)715,也不選擇animal(含義3)的任何超屬詞。因此,只選擇超屬詞person(含義1)714用于擴(kuò)展原邏輯形式。
為了擴(kuò)展原邏輯形式,本工具還選擇原邏輯形式的動(dòng)詞和深賓語的超屬詞。圖8是一個(gè)語言知識庫圖,表示選擇原邏輯形式的動(dòng)詞kiss(含義1)的超屬詞。從圖中可看出touch(含義2)是kiss(含義1)的超屬詞。該圖還示出kiss(含義1)和touch的所有含義的其它亞屬詞之間的相似性加權(quán)。本工具首先選擇原邏輯形式的動(dòng)詞kiss(含義1)的直接超屬詞touch(含義2)。為了判定是否選擇touch(含義2)的超屬詞interact(含義9),本工具判定kiss(含義1)和touch的所有含義的其它亞屬詞之間的相似性加權(quán)中有多少至少和相似性加權(quán)閾值一樣大。由于這四個(gè)相似性加權(quán)中只有兩個(gè)至少和“.0015”的相似性加權(quán)閾值一樣大,所以本工具不選擇touch(含義2)的超屬詞interat(含義9)。
圖9和圖10是語言知識庫圖,表示選擇原邏輯形式的深賓語的超屬詞和pig(含義2)。從圖9中可以看出本工具選擇pig(含義2)的超屬詞swine(含義1)和選擇swine(含義1)的超屬詞animal(含義3)來擴(kuò)展原邏輯形式,因?yàn)閟wine的唯一含義的90%以上(事實(shí)上,100%)的超屬詞具有等于或高于“.0015”的相似性加權(quán)閾值。從圖10中可以看出,本工具不繼續(xù)選擇animal(含義3)的超屬詞organism(含義1),因?yàn)閍nimal的含義的超屬詞中具有等于或高于“.0015”相似性加權(quán)閾值的超屬詞少于90%(實(shí)際上25%)。
圖11是一個(gè)邏輯形式圖,表示擴(kuò)展邏輯形式。從圖11中可以看出,擴(kuò)展邏輯形式的深主語元素1110包括除詞man(含義2)1111之外的超屬詞person(含義1)??煽闯鰟?dòng)詞元素1120包括超屬詞touch(含義2)1112和詞kiss(含義1)1121。還可以看出,擴(kuò)展邏輯形式的深賓語包括除詞pig(含義2)1131之外的超屬詞swine(含義1)和animal(含義3)1132。
通過在擴(kuò)展邏輯形式的各個(gè)元素中用超屬詞置換原始詞,本工具可創(chuàng)造一個(gè)數(shù)量比較大的派生邏輯形式,這些邏輯形式在意義上和原邏輯形式比較接近。圖12表示通過置換擴(kuò)展的原邏輯形式建立的派生邏輯形式。從圖12中可看出,此置換創(chuàng)造十一個(gè)派生邏輯形式,每個(gè)邏輯形式在比較準(zhǔn)確的方式下表征輸入文本的含義。例如,圖12示出的派生邏輯形式。
(person,touch,pig)在含義上非常接近句子片斷man kissing a pig圖11中所示的擴(kuò)展邏輯形式表示原邏輯形式加這十一個(gè)派生邏輯形式,它們被更緊湊地表示成擴(kuò)展邏輯形式1200((man OR person),(kiss OR touch),(pig OR swine OR animal))本工具以允許記號可由常規(guī)信息檢索引擎處理的方式,從該擴(kuò)展邏輯形式生成邏輯記號。首先,本工具把某保留字符附加到擴(kuò)展邏輯形式中的各個(gè)詞上,以確定輸入文本片斷中出現(xiàn)的詞是否是深主語、動(dòng)詞或深賓語。這可確保,當(dāng)詞“man”作為深主語出現(xiàn)在查詢輸入文本的擴(kuò)展邏輯形式中時(shí),它不會(huì)和存儲(chǔ)在索引中的作為動(dòng)詞出現(xiàn)在某擴(kuò)展邏輯形式的一部分的詞“man”匹配。一將保留字符映射為邏輯格式元素的示例 如下邏輯形式元素標(biāo)識字符深主語 -動(dòng)詞 ∧深賓語 #利用保留字符的這種示例映射,為邏輯形式“(man,kiss,pig)”生成的記號應(yīng)包括“man_”,“kiss^”以及“pig#”。
常規(guī)信息檢索引擎生成的索引通常把每個(gè)記號映射到目標(biāo)文檔中出現(xiàn)該記號的各特定位置。常規(guī)信息檢索引擎可能利用文檔號和詞號表示這種目標(biāo)文檔位置,文檔號標(biāo)識包含著該記號的目標(biāo)文檔,詞號標(biāo)識該目標(biāo)文檔中出現(xiàn)該記號的位置。這種目標(biāo)文檔位置允許常規(guī)信息檢索引擎確定在目標(biāo)文檔中一起出現(xiàn)的多個(gè)詞,以響應(yīng)利用“PHRASE(短語)”運(yùn)算符的查詢,該運(yùn)算符要求其聯(lián)接的詞在目標(biāo)文檔中是相鄰的。例如,查詢“red PHRASE bicycle”將匹配出現(xiàn)在文檔5詞611處的“red”以及在文檔5詞612處的“bicycle”,但不會(huì)匹配出現(xiàn)在文檔7詞762處的“red”以及在文檔7詞202處的“bicycle”。把目標(biāo)文檔位置存儲(chǔ)在索引中還允許常規(guī)信息檢索引擎響應(yīng)查詢確定目標(biāo)文檔中出現(xiàn)被查詢記號的各個(gè)點(diǎn)。
對于來自目標(biāo)文檔輸入文本片斷的擴(kuò)展邏輯形式,本工具最好類似地向每個(gè)記號分配人工目標(biāo)文檔位置,即使擴(kuò)展邏輯形式的這些記號實(shí)際上并不在目標(biāo)文檔中的這些位置上出現(xiàn)。分配這些目標(biāo)文檔位置既(A)允許常規(guī)搜索引擎利用PHRASE運(yùn)算符確定和單個(gè)原邏輯形式或派生邏輯形式對應(yīng)的語義記號的組合,又(B)允許本工具把分配的位置和目標(biāo)文檔中的輸入文本片斷的實(shí)際位置關(guān)聯(lián)起來。從而本工具按如下向語義記號分配位置。邏輯形式元素 位置深主語 (輸入文本片斷中第1個(gè)詞的位置)動(dòng)詞 (輸入文本片斷中第1個(gè)詞的位置)+1深賓語 (輸入文本片斷中第1個(gè)詞的位置)+2從而本工具按如下對從文檔5、字150處開始的句子得到的“(man,kiss,pig)”的擴(kuò)展邏輯形式的記號分配目標(biāo)文檔位置“man_”和“person”——文檔5,詞150;“kiss^”和“touch^”——文檔5,詞151;以及“pig#”、“swine#”和“animal#”——文檔5,詞152。
回到圖3,在步驟303,本工具把記號化例程建立的記號以及它們的出現(xiàn)位置存儲(chǔ)到索引中。圖13表示索引的示例內(nèi)容。索引將每個(gè)記號映射到文檔的標(biāo)識上以及該記號在該文檔中的出現(xiàn)位置。請注意,盡管索引是作為表示出的,以便更清楚地表示索引中的映射,實(shí)際上最好把索引存儲(chǔ)到一些其它的更有效支持索引中的記號的位置的格式中的一種格式中,例如樹狀格式。另外,最好利用諸如前綴壓縮技術(shù)壓縮索引中的內(nèi)容,以將索引的長度降到最低限度。
可以看出,根據(jù)步驟303,本工具為擴(kuò)展邏輯形式下的各個(gè)詞的索引1300中存儲(chǔ)了映射。在索引中存儲(chǔ)了從深主語詞“man”和“person”到文檔號5、詞號150處的目標(biāo)文檔位置的映射。詞號150是在該處開始圖6中所示的輸入文本片斷的詞位置??梢钥闯觯疽寻驯A糇址啊备郊釉诤蜕钪髡Z詞對應(yīng)的記號上。通過附加該保留字符,當(dāng)以后搜索該索引時(shí),本工具能檢索這些詞作為邏輯形式的深主語出現(xiàn)的情況,而不檢索這些詞作為邏輯形式的動(dòng)詞或深賓語的出現(xiàn)。類似地,該索引包括動(dòng)詞“kiss”和“touch”的記號。這些動(dòng)詞詞的條目把它們映射到文檔5、詞號151的目標(biāo)文檔位置上,即深主語詞的目標(biāo)文檔位置的后一個(gè)詞。還可以看出,已為這些動(dòng)詞詞的記號附加了保留字符“^”,從而這些詞的出現(xiàn)以后不會(huì)作為深主語或深賓語元素出現(xiàn)。類似地,該索引包含深賓語詞“animal”、“pig”和“swine”的記號,把它們映射到文檔號5、詞號152的目標(biāo)文檔位置上,即該短語開始的目標(biāo)文檔位置的兩個(gè)詞后。對深賓語詞的記號附加保留字符“#”以把它們標(biāo)識為索引中的深賓語。利用以這種狀態(tài)示出的索引,通過搜索圖12示出的任一派生原邏輯形式的索引,可以找到圖6中所示的輸入文本片斷。
在一種優(yōu)選實(shí)施例中,本工具在同一索引中存儲(chǔ)目標(biāo)文檔中字面上出現(xiàn)的詞到其目標(biāo)文檔中的實(shí)際位置的映射以及該目標(biāo)文檔的語義表達(dá),最好用一個(gè)常數(shù)遞增語義表達(dá)的各個(gè)語義記號的詞號值,其中該常數(shù)大于任一文檔中的詞的數(shù)量,以便在訪問該索引時(shí)把語義表達(dá)的語義記號和文字記號區(qū)分開來。為了簡化圖13,未示出添加該常數(shù)。
在該例子,本工具將擴(kuò)展邏輯形式中的每個(gè)詞的記號添加到索引中,以形成目標(biāo)文檔的語義表達(dá)。然而,在一種優(yōu)選實(shí)施例中,本工具對那些可能在區(qū)分各目標(biāo)文檔中的文檔是有效的邏輯形式記號,限制添加到索引中的擴(kuò)展邏輯形式記號集。為了如此限制添加劑索引的擴(kuò)展邏輯形式記號集,本工具最好確定各記號文檔頻率倒數(shù),其公式由后面的式(1)表示。在該實(shí)施例,本工具只把其文檔頻率倒數(shù)超過最小閾值的記號添加到索引中。
回到圖3,在目標(biāo)文檔的當(dāng)前句子之前把記號存儲(chǔ)到索引中后,在步驟304,本工具循環(huán)回到步驟301以處理目標(biāo)文檔中的下個(gè)句子。當(dāng)處理完目標(biāo)文檔中的所有句子時(shí),本工具進(jìn)入步驟305。在步驟305,本工具接收查詢文本。在步驟306-308,本工具處理接收到的查詢。在步驟306,本工具調(diào)用記號化例程以對查詢文本記號化。圖14是一個(gè)邏輯形式圖,表示根據(jù)步驟401(圖4)最好由本工具為查詢“man kissing horse”構(gòu)造的邏輯形式??梢栽撨壿嬓问綀D中看出,深主語是man(含義2),動(dòng)詞是kiss(含義1),深賓語是horse(含義1)。該原邏輯形式更簡明地表達(dá)成原邏輯形式1450。
(man,kiss,horse)圖15表示根據(jù)步驟402(圖4)利用超屬詞擴(kuò)展原邏輯形式,從圖15可看出,類似于取自目標(biāo)文檔的示例輸入文本,用超屬詞person(含義1)擴(kuò)展深主語man(含義2),用超屬詞touch(含義2)擴(kuò)展動(dòng)詞kiss(含義1),還可以看出,用超屬詞animal(含義3)擴(kuò)展深賓語horse(含義1)。
圖16是一個(gè)語言知識庫圖,表示選擇查詢邏輯形式的深賓語horse(含義1)的超屬詞。從圖16中可以看出,由于animal(含義3)的亞屬詞中少于90%的亞屬詞具有的相似性加權(quán)等于或高于“.0015”的相似性加權(quán)閾值,所以本工具不選擇animal(含義3)的超屬詞organism(含義1)。從而,本工具只利用超屬詞animal(含義3)擴(kuò)展邏輯形式。
回到圖3,在步驟307,本工具使用擴(kuò)展邏輯形式1550(圖15)檢索目標(biāo)文檔中出現(xiàn)匹配記號的索引位置,該擴(kuò)展邏輯形式1550是利用原邏輯形式的詞含義的超屬詞構(gòu)造的。本工具最好通過發(fā)出下述與索引對比的查詢(man_OR person_)PHRASE(kiss ∧OR touch∧)PHRASE(horse#OR animal#)進(jìn)行檢索。PHRASE運(yùn)算符匹配出現(xiàn)這樣的情況,即,該運(yùn)算符后的操作數(shù)的詞位置1比其前面的操作數(shù)的詞位置大。從而,該查詢匹配在動(dòng)詞kiss^或touch^之前的深主語man_或person,其中動(dòng)詞kiss^或touch^在深賓語horse#或animal#之前。從圖13的索引可看出,在文檔號5、詞號150處滿足該查詢。
若該查詢不滿足該索引,則本工具將繼續(xù)提出兩個(gè)不同部分查詢下的查詢。第一個(gè)部分形式只包括深主語和動(dòng)詞,不包括賓語(man_OR person_) PHRASE(kiss∧OR touch∧)圖17是一個(gè)部分邏輯形式圖,表示和該第一查詢對應(yīng)的部分邏輯形式。查詢的第二部分形式包括動(dòng)詞和深賓語,但不包括深主語(kiss∧OR touch∧)PHRASE(horse#OR animal#)圖18是一個(gè)部分邏輯形式圖,表示和該第二部分查詢對應(yīng)的部分邏輯形式。這些部分查詢會(huì)和索引中具有不同深主語或深賓語的邏輯形式匹配,并且會(huì)和不具有深主語或深賓語的部分邏輯形式匹配。這些部分查詢考慮查詢輸入文本片斷和目標(biāo)文檔輸入文本片斷之間的差異,其中包括代詞的使用以及暗含的深主語以及深賓語。
回到圖3,在確定索引中記號的匹配后,本工具進(jìn)入步驟308以對目標(biāo)文檔分類,其中按它們與查詢的關(guān)聯(lián)性的順序出現(xiàn)和原邏輯形式或派生邏輯形式對應(yīng)的各匹配記號的特定組合的匹配。在本發(fā)明的不同實(shí)施例中,本工具采用一些周知方法中的一種或幾種通過關(guān)聯(lián)性對各文檔分類,這些方法包括Jaccard加權(quán)和二進(jìn)制項(xiàng)獨(dú)立加權(quán)。本工具最好采用文檔頻率倒數(shù)和項(xiàng)頻率等待的組合對匹配的目標(biāo)文檔分類。
在對目標(biāo)文檔中出現(xiàn)較少的記號組合給予較大的加權(quán)下,文檔頻率倒數(shù)加權(quán)表征記號組合區(qū)分文檔的能力。例如,對于一組主題是photography(攝影術(shù))的一組目標(biāo)文檔,邏輯形式(photographer,frame,subject)會(huì)出現(xiàn)在該組文檔中的每份文檔中,從而對于區(qū)分各文檔它不是一種很好的基準(zhǔn)。由于上述邏輯形式在每份目標(biāo)文檔中出現(xiàn),所以它具有較小的文檔頻率倒數(shù)。記號組合的文檔頻率倒數(shù)的公式如下
文檔中記號組合的項(xiàng)頻率加權(quán)量測該文檔專用于該記號組合的程度,并假定其中多次出現(xiàn)某特定查詢記號的文檔要比在其中不太出現(xiàn)該查詢記號的文檔關(guān)聯(lián)更大。文檔中某記號組合的項(xiàng)頻率加權(quán)公式如下項(xiàng)頻率(記號組合,文檔)=該文檔中出現(xiàn)該記號組合的次數(shù)(2)本工具利用各匹配文檔的記分對文檔分類。本工具首先利用下述公式對每份文檔中的各匹配記號組合計(jì)算計(jì)分記分(記號組合,文檔)=文檔頻率倒數(shù)(記號組合)×項(xiàng)頻率(記號組合,文檔)(3)接著本工具根據(jù)下式通過選擇各匹配文檔中任一匹配記號組合的最高記分,計(jì)算各匹配文檔的記分
一旦本工具計(jì)算出每份文檔的記分,本工具可擴(kuò)大這些記分以反映和那些指向語義匹配的項(xiàng)不同的查詢項(xiàng)。在擴(kuò)大每份文檔的記分后,若需要,本工具通過按下式考慮文檔的篇幅計(jì)算每份文檔的歸一化記分
篇幅(文檔)項(xiàng)可以是某文檔的篇幅的任何合理量測,例如該文檔中的字符、詞、句子或句子片斷的數(shù)量??梢蕴娲赜靡恍┢渌鼩w一化技術(shù)歸一化文檔記分,包括余弦測量歸一化、項(xiàng)加權(quán)和歸一化以及最大項(xiàng)加權(quán)歸一化。
在計(jì)算出每份匹配文檔的歸一化記分后,本工具按文檔的歸一化記分的順序?qū)ζヅ湮臋n分類。用戶最好從分類表中選擇一份匹配文檔,以得到該文檔中匹配記號組的位置,或者顯示該文檔的匹配部分。
回到圖3,在步驟308中對匹配的目標(biāo)文檔分類后,本工具最好進(jìn)入步驟305以接收下個(gè)查詢的文本以和索引對比。
上面討論了通過關(guān)聯(lián)性對包含匹配記號組的文檔進(jìn)行分類。本發(fā)明的其它優(yōu)選實(shí)施例類似地通過關(guān)聯(lián)性分別對包含匹配的文檔集和文檔段落分類。對于被組織成各包含一份或幾份文檔的文檔集的目標(biāo)文檔,本工具最好通過關(guān)聯(lián)性對出現(xiàn)匹配的文檔集分類,以確定最相關(guān)的文檔集供進(jìn)一步查詢。另外,本工具最好可配置成能把每份目標(biāo)文檔劃成段落并且對其中出現(xiàn)匹配的文檔段落的關(guān)聯(lián)性分類。通過選擇一數(shù)量的字節(jié)、詞或句子或者使用目標(biāo)文檔中出現(xiàn)的結(jié)構(gòu)、格式或語言線索,在目標(biāo)文檔中相鄰標(biāo)識這些文檔段落。本工具最好還確定論及特定論題的不相鄰的文檔段落。
雖然參照各優(yōu)選實(shí)施例顯示并說明了本發(fā)明,熟練技術(shù)人員理解,在不背離本發(fā)明的范圍下在形式和細(xì)節(jié)上可作出各種更改或修改。例如,記號化程序可以直接采納或生成對應(yīng)于一個(gè)完整的邏輯形式結(jié)構(gòu)的記號以替代對應(yīng)于某邏輯形式結(jié)構(gòu)中的一個(gè)詞的記號,并且把這樣的記號存儲(chǔ)到索引中。而且,可以應(yīng)用各種周知技術(shù)以在具有語義匹配成分的查詢中包括其它類型的搜索。并且,查詢可包括若干語義匹配成分。此外,可利用標(biāo)識詞之間的語義關(guān)系代替超屬詞來擴(kuò)展原邏輯形式。本工具還可以利用原邏輯形式的每個(gè)詞的預(yù)先編譯的替代詞表擴(kuò)展原邏輯形式,而不是如前面所說明的那樣在運(yùn)行時(shí)根據(jù)語言知識庫生成超屬性表。此外,為了提高匹配精度,記號化程序可以在詞的記號中編碼標(biāo)識該詞的含義號。在這種情況下,對超屬詞集的相干性的檢查減少成不必為選定超屬詞的所有含義檢查相似性。在本例中,只有詞person的含義1的超屬詞需要帶有對于詞man(含義2)的起始含義的相似性閾值。由于索引表中的可能匹配項(xiàng)岐義較少,我們可以限制可能產(chǎn)生的錯(cuò)誤命中的項(xiàng)集。由于這個(gè)原因,只需要檢查和邏輯形式中的詞具有超屬詞關(guān)系的那些含義。
權(quán)利要求
1.計(jì)算機(jī)系統(tǒng)中一種用于從輸入字符串生成信息檢索記號的方法,該方法包括步驟從輸入字符串建立表征該輸入字符串中選定的詞之間的語義關(guān)系的原邏輯形式;確定該輸入字符串中各選定詞的超屬詞;從該原邏輯形式構(gòu)造一個(gè)或多個(gè)替代的邏輯形式,通過為該輸入字符串中的一個(gè)或多個(gè)選定詞中的每個(gè)詞用對該選定詞確定的超屬詞代替原邏輯形式中的該選定詞,構(gòu)造每個(gè)替代的邏輯形式;以及生成代表原邏輯形式以及替代邏輯形式的記號,所生成的記號可由信息檢索引擎區(qū)分。
2.權(quán)利要求1的方法,其中構(gòu)造步驟包括對輸入字符串進(jìn)行語法分析以判明其語法及語義結(jié)構(gòu)的步驟。
3.權(quán)利要求1的方法,其中確定步驟包括步驟對輸入字符串中的每個(gè)選定詞從語言知識庫中檢索該選定詞的一個(gè)或多個(gè)超屬詞,每個(gè)超屬詞具有一個(gè)表征該超屬詞對該選定詞在含義上的相似性的相似性值;以及確定其相似性值超過某預(yù)先建立的閾值的所有超屬詞。
4.權(quán)利要求1的方法,還包括步驟在構(gòu)造步驟之前,從某搜索查詢選擇輸入字符串;以及把生成的記號提交給查詢引擎以和一份或多份目標(biāo)文檔的表達(dá)進(jìn)行比較。
5.權(quán)利要求1的方法,還包括步驟在構(gòu)造步驟之前,從要編排索引的文本體中選擇輸入字符串;以及把生成的記號提交給索引子系統(tǒng)以存儲(chǔ)在代表該文本體的索引中。
6.權(quán)利要求5的方法,還包括確定替代邏輯形式中出現(xiàn)的每個(gè)詞的文檔頻率倒數(shù)的步驟,并且其中提交步驟不向索引子系統(tǒng)提交這樣的表示替代邏輯形式的記號,即這些邏輯形式所包含的詞的文檔頻率倒數(shù)小于預(yù)先確定的最小文檔頻率倒數(shù)。
7.權(quán)利要求5的方法,還包括步驟在提交步驟之后,確定替代邏輯形式中出現(xiàn)的每個(gè)詞的文檔頻率倒數(shù);以及從索引中去掉這樣的表示替代邏輯形式的記號,即這些邏輯形式所包含的詞的文檔頻率倒數(shù)小于預(yù)先確定的最小文檔倒數(shù)。
8.權(quán)利要求1的方法,其中確定步驟確定相對于選定詞具有相干亞屬詞集的選定詞的超屬詞。
9.一種計(jì)算機(jī)可讀介質(zhì),其內(nèi)容使計(jì)算機(jī)系統(tǒng)通過執(zhí)行下述步驟從輸入字符串中生成信息檢索記號從輸入字符串建立表征該輸入字符串中選定的詞之間的語義關(guān)系的原邏輯形式,確定該輸入字符串中各選定詞的超屬詞;從該原邏輯形式構(gòu)造一個(gè)或多個(gè)替代的邏輯形式,通過為該輸入字符串中的一個(gè)或多個(gè)選定詞中的每個(gè)詞用對該選定詞確定的超屬詞代替原邏輯形式中的該選定詞,構(gòu)造每個(gè)替代的邏輯形式;生成代表原邏輯形式以及替代邏輯形式的記號,所生成的記號可由信息檢索引擎區(qū)分。
10.權(quán)利要求9的計(jì)算機(jī)可讀介質(zhì),其中構(gòu)造步驟包括對輸入字符串進(jìn)行語法分析以判明其語法及語義結(jié)構(gòu)的步驟。
11.權(quán)利要求9的計(jì)算機(jī)可讀介質(zhì),其中確定步驟包括步驟對輸入字符串中的每個(gè)選定詞從語言知識庫中檢索該選定詞的一個(gè)或多個(gè)超屬詞,每個(gè)超屬詞具有一個(gè)表征該超屬詞對該選定詞在含義上的相似性的相似性值;以及確定其相似性值超過某預(yù)先建立的閾值的所有超屬詞。
12.權(quán)利要求9的計(jì)算機(jī)可讀介質(zhì),其中該計(jì)算機(jī)可讀介質(zhì)的內(nèi)容還使計(jì)算機(jī)系統(tǒng)執(zhí)行步驟在構(gòu)造步驟之前,從某搜索查詢選擇輸入字符串;以及把生成的記號提交給查詢引擎以和一份或多份目標(biāo)文檔的表達(dá)進(jìn)行比較。
13.權(quán)利要求9的計(jì)算機(jī)可讀介質(zhì),其中該計(jì)算機(jī)可讀介質(zhì)的內(nèi)容還使計(jì)算機(jī)系統(tǒng)執(zhí)行步驟在構(gòu)造步驟之前,從要編排索引的文本體中選擇輸入字符串;以及把生成的記號提交給索引子系統(tǒng)以存儲(chǔ)在代表該文本體的索引中。
14.一種計(jì)算機(jī)存儲(chǔ)器,含有表征一份或幾份目標(biāo)文檔的內(nèi)容的文檔索引數(shù)據(jù)結(jié)構(gòu),該文檔索引數(shù)據(jù)結(jié)構(gòu)把詞映射到目標(biāo)文檔中的位置,該文檔索引數(shù)據(jù)結(jié)構(gòu)為各目標(biāo)文檔中出現(xiàn)的多個(gè)詞段中的每個(gè)詞段,把從該詞段生成的邏輯形式中所包含的各個(gè)詞映射到與該詞段相對應(yīng)的位置上,并且把從該詞段生成的邏輯形式中所包含的各詞的超屬詞映射到與該詞段相對應(yīng)的位置上,從而可把該文檔索引數(shù)據(jù)結(jié)構(gòu)用于響應(yīng)接收到查詢確定出目標(biāo)文檔中語義上類似于查詢段的詞段位置。
15.權(quán)利要求14的計(jì)算機(jī)存儲(chǔ)器,其中文檔索引數(shù)據(jù)結(jié)構(gòu)把至少一個(gè)未在任一目標(biāo)文檔中出現(xiàn)的詞映射到目標(biāo)文檔的某位置上。
16.一種用于響應(yīng)查詢的計(jì)算機(jī)系統(tǒng),查詢包含著與一份或多份目標(biāo)文檔對照的詞段,每份目標(biāo)文檔包含一個(gè)或多個(gè)詞段,每個(gè)目標(biāo)文檔段具有目標(biāo)文檔中的一個(gè)位置,該計(jì)算機(jī)系統(tǒng)包括目標(biāo)文檔接收器,用于接收目標(biāo)文檔;查詢接收器,用于接收對各目標(biāo)文檔的查詢;記號化器,用于從目標(biāo)文檔接收器接收到的目標(biāo)文檔的詞段以及從查詢接收器接收的查詢生成記號,該記號化器包括用于從每個(gè)詞段合成出一個(gè)表征該詞段的語義結(jié)構(gòu)的邏輯形式的邏輯形式合成器,該記號化器生成代表從詞段中合成出的邏輯形式的記號;索引存儲(chǔ)器,用于存儲(chǔ)把每個(gè)從某目標(biāo)文檔段生成的記號映射到生成該記號的目標(biāo)文檔段在目標(biāo)文檔中的位置上的關(guān)系;以及查詢處理子系統(tǒng),用于為每次查詢在索引存儲(chǔ)器中確定和從該查詢生成的記號匹配的某記號,并用于返回從該確定的記號映射到的位置的指示。
17.權(quán)利要求16的計(jì)算機(jī)系統(tǒng),其中邏輯形式合成器合成的邏輯形式包含若干詞,并且記號化器還包括超屬詞擴(kuò)展子系統(tǒng),用于從邏輯形式合成器生成的邏輯形式創(chuàng)造一個(gè)或多個(gè)用超屬詞替代該邏輯形式中的一個(gè)或多個(gè)詞的輔助的邏輯形式,記號化器還生成代表由超屬詞擴(kuò)展子系統(tǒng)創(chuàng)造的輔助邏輯形式的記號。
全文摘要
本發(fā)明涉及利用文本的語義表達(dá)進(jìn)行信息檢索。在一種優(yōu)選實(shí)施例中,記號化器從輸入字符串生成表征該輸入字符串中所表達(dá)的語義關(guān)系的信息檢索記號。記號化器首先從輸入字符串建立表征輸入字符串中的選定詞之間的語義關(guān)系的原邏輯形式。接著記號化器確定和輸入字符串中選定詞之一具有“isa(是)”關(guān)系的超屬詞。然后記號化器從原邏輯形式構(gòu)造一個(gè)或多個(gè)替代邏輯形式。通過為輸入字符串中的一個(gè)或多個(gè)選定詞中的每個(gè)選定詞用為該選定詞確定的某超屬詞代替原邏輯形式中的該選詞,記號化器構(gòu)造各替代邏輯形式。最后,記號化器生成代表原邏輯形式和替代邏輯形式的記號。最好使用記號化器生成記號,以便既用于構(gòu)造代表目標(biāo)文檔的索引又用于對照索引處理查詢。
文檔編號G06F17/27GK1252876SQ9880417
公開日2000年5月10日 申請日期1998年2月11日 優(yōu)先權(quán)日1997年3月7日
發(fā)明者約翰·J·麥瑟利, 喬治·E·海德恩, 斯蒂芬·D·理查德森, 威廉·B·杜蘭, 卡輪·杰森 申請人:微軟公司