用于自然語(yǔ)言處理中的依賴指稱表達(dá)的解疑的方法和系統(tǒng)的制作方法
【專利摘要】在示例性的實(shí)施例中提供用于自然語(yǔ)言處理中的依賴指稱表達(dá)的解疑的方法、系統(tǒng)和計(jì)算機(jī)程序產(chǎn)品。選擇一組文檔中的文檔的一部分,該部分包含一組依賴指稱表達(dá)實(shí)例。過(guò)濾該部分以通過(guò)使用實(shí)例的語(yǔ)言特性從一組依賴指稱表達(dá)實(shí)例中識(shí)別該實(shí)例,該依賴指稱表達(dá)的實(shí)例指稱在一組文檔中出現(xiàn)的完整表達(dá)。通過(guò)定位依賴指稱表達(dá)在哪里被定義為完整表達(dá)的替代物而在一組文檔中的一個(gè)成員文檔中定位完整表達(dá)。通過(guò)使用完整表達(dá)解析實(shí)例,使得關(guān)于完整表達(dá)的信息可在所述實(shí)例的位置處得到。
【專利說(shuō)明】用于自然語(yǔ)言處理中的依賴指稱表達(dá)的解疑的方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明一般涉及用于文檔的自然語(yǔ)言處理的方法、系統(tǒng)和計(jì)算機(jī)程序產(chǎn)品。更特別地,本發(fā)明涉及用于自然語(yǔ)言處理中的依賴指稱表達(dá)的解疑的方法、系統(tǒng)和計(jì)算機(jī)程序
女口
廣叩O
【背景技術(shù)】
[0002]文檔包含許多形式的信息。例如,配置為句子和段落的文本信息以記敘的形式傳遞信息。
[0003]—些類型的信息以指稱的形式給出。例如,文檔可包含在文檔中重復(fù)出現(xiàn)的名稱、詞語(yǔ)、短語(yǔ)或文本段。許多文檔指明替換短語(yǔ)或文本以作為名稱、詞語(yǔ)、短語(yǔ)或文本段的替代物,并在名稱、詞語(yǔ)、短語(yǔ)或文本段的第一次出現(xiàn)之后對(duì)各隨后的出現(xiàn)使用替換文本。
[0004]名稱、詞語(yǔ)、短語(yǔ)或文本段被稱為完整表達(dá)或完全表達(dá),并且,替換短語(yǔ)或文本被稱為依賴指稱表達(dá)。依賴指稱表達(dá)是要傳遞依賴指稱表達(dá)所替代的完整表達(dá)的意思。
[0005]自然語(yǔ)言處理(NLP)是有利于在人與數(shù)據(jù)處理系統(tǒng)之間交換信息的技術(shù)。例如,NLP的一個(gè)分支屬于將人可用語(yǔ)言或形式的給定內(nèi)容轉(zhuǎn)換成計(jì)算機(jī)可用形式。例如,NLP可接收內(nèi)容為人可讀形式的文檔,并且產(chǎn)生相應(yīng)的內(nèi)容是計(jì)算機(jī)特定語(yǔ)言或形式的文檔。
【發(fā)明內(nèi)容】
[0006]示例性的實(shí)施例提供用于自然語(yǔ)言處理中的依賴指稱表達(dá)的解疑的方法、系統(tǒng)和計(jì)算機(jī)程序產(chǎn)品。至少一個(gè)實(shí)施例選擇在一組文檔中的文檔的一部分,該部分包含一組依賴指稱表達(dá)實(shí)例。該實(shí)施例過(guò)濾該部分以通過(guò)使用實(shí)例的語(yǔ)言特性從一組依賴指稱表達(dá)實(shí)例中識(shí)別該實(shí)例,該依賴指稱表達(dá)的實(shí)例指稱在一組文檔中出現(xiàn)的完整表達(dá)。該實(shí)施例通過(guò)定位依賴指稱表達(dá)在哪里被定義為完整表達(dá)的替代物而在一組文檔中的一個(gè)成員文檔中定位完整表達(dá)。該實(shí)施例使用處理器和存儲(chǔ)器,通過(guò)使用完整表達(dá)解析實(shí)例,使得關(guān)于完整表達(dá)的信息可在所述實(shí)例的位置處得到。
【專利附圖】
【附圖說(shuō)明】
[0007]在所附的權(quán)利要求中闡述被認(rèn)為是本發(fā)明的特征的新穎的特征。但是,當(dāng)結(jié)合附圖閱讀時(shí),參照示例性的實(shí)施例的以下的詳細(xì)的描述,可以最好地理解本發(fā)明自身、優(yōu)選的使用模式及其其它的目的和優(yōu)點(diǎn),其中,
[0008]圖1示出可實(shí)現(xiàn)示例性的實(shí)施例的數(shù)據(jù)處理系統(tǒng)的網(wǎng)絡(luò)的圖示;
[0009]圖2示出可實(shí)現(xiàn)示例性的實(shí)施例的數(shù)據(jù)處理系統(tǒng)的框圖;
[0010]圖3示出根據(jù)示例性的實(shí)施例的可解析的依賴指稱表達(dá)的幾個(gè)例子;
[0011]圖4示出根據(jù)示例性的實(shí)施例的用于自然語(yǔ)言處理中的依賴指稱表達(dá)的解疑的示例性配置的框圖;
[0012]圖5示出根據(jù)示例性的實(shí)施例的自然語(yǔ)言處理中的依賴指稱表達(dá)的解疑的例子;[0013]圖6示出根據(jù)示例性的實(shí)施例的自然語(yǔ)言處理中的依賴指稱表達(dá)的解疑的示例性處理的流程圖;
[0014]圖7示出根據(jù)示例性的實(shí)施例的解析依賴指稱表達(dá)實(shí)例的一個(gè)示例性方式的流程圖;以及
[0015]圖8示出根據(jù)示例性的實(shí)施例的解析依賴指稱表達(dá)實(shí)例的一個(gè)示例性方式的流程圖。
【具體實(shí)施方式】
[0016]從示例性的實(shí)施例認(rèn)識(shí)到,經(jīng)受NLP的文檔一般包含依賴指稱表達(dá),即,作為在文檔中的某個(gè)地方出現(xiàn)的一些完整表達(dá)的替代物的文本。例如,從示例性的實(shí)施例認(rèn)識(shí)到,在一些情況下,完整表達(dá)可在文檔的開(kāi)始出現(xiàn),相應(yīng)的依賴指稱表達(dá)的實(shí)例散布于整個(gè)文檔。照應(yīng)表達(dá)是重新提到先行表達(dá)在前面提到的實(shí)體的表達(dá)。照應(yīng)表達(dá)和先行表達(dá)均指的是作為指稱物的文檔外面的某物。
[0017]從示例性的實(shí)施例認(rèn)識(shí)到,在一些其它的情況下,完整表達(dá)可出現(xiàn)于文檔的結(jié)尾,相應(yīng)的依賴指稱表達(dá)的實(shí)例散布于整個(gè)文檔。后指表達(dá)是重新提到隨后表達(dá)提到的實(shí)體的表達(dá)。后指表達(dá)和隨后表達(dá)均指的是作為指稱物的文檔外面的某物。
[0018]從示例性的實(shí)施例還認(rèn)識(shí)到,完整表達(dá)和依賴指稱表達(dá)可能不出現(xiàn)于同一文檔中。例如,在諸如與一個(gè)或多個(gè)附錄文檔相關(guān)的協(xié)議文檔的一組的一個(gè)或多個(gè)文檔中,協(xié)定文檔可包含完整表達(dá),并且,協(xié)議文檔和附錄文檔可包含相應(yīng)的依賴指稱表達(dá)的實(shí)例。
[0019]從示例性的實(shí)施例認(rèn)識(shí)到,給定文檔中的任意量的內(nèi)容(詞語(yǔ)距離)和給定的一組文檔中的任意量的文檔(文檔距離)可使依賴指稱表達(dá)的實(shí)例與相應(yīng)的完整表達(dá)分離。在解析依賴指稱表達(dá)的實(shí)例的意思時(shí),除非相應(yīng)的完整表達(dá)也出現(xiàn)于依賴指稱表達(dá)的實(shí)例的附近,否則當(dāng)前可用的NLP技術(shù)是無(wú)效或者易于出錯(cuò)的。作為例子,一些當(dāng)前可用的NLP技術(shù)與要在內(nèi)部解析依賴指稱表達(dá)的意思的少數(shù)句子或段落結(jié)合。如果依賴指稱表達(dá)和完整表達(dá)分開(kāi)例如多于6行或6段,諸如當(dāng)它們的出現(xiàn)位置在文檔中分開(kāi)幾頁(yè)時(shí),一些當(dāng)前可用的NLP技術(shù)簡(jiǎn)單地使用依賴指稱表達(dá),而不將依賴指稱表達(dá)解析為相應(yīng)的完整表達(dá)。
[0020]其它當(dāng)前可用的NLP技術(shù)可嘗試通過(guò)鏈接依賴指稱表達(dá)的實(shí)例與該依賴指稱表達(dá)的前面的實(shí)例來(lái)解析依賴指稱表達(dá),以諸如形成互參鏈。從示例性的實(shí)施例認(rèn)識(shí)到,即使一些現(xiàn)有的NLP技術(shù)可解析出現(xiàn)位置明顯遠(yuǎn)離同一指稱物的另一次提及的依賴指稱表達(dá),這種解析也易于出錯(cuò)或者無(wú)效,原因是它們依賴于常規(guī)上使用不可靠的暗示的組合的文本搜索以猜測(cè)依賴指稱表達(dá)的正確的在先的實(shí)例。
[0021]從示例性的實(shí)施例認(rèn)識(shí)到,解析依賴指稱表達(dá)時(shí)的這些和其它的當(dāng)前的限制導(dǎo)致有問(wèn)題的自然語(yǔ)言處理。考慮文檔中的以下的示例性句子一 “The2009Series C Bondswill be issued under and subject to the terms and conditions contained in aresolution adopted by the County”。依賴指稱表達(dá)“2009Series C Bonds”指的是特定的債券,并且,依賴指稱表達(dá)“the County”指的是特定的郡。沒(méi)有附加的參照,諸如通過(guò)確定這些短語(yǔ)與在文檔的另一部分或給定的一組文檔中的另一文檔中提供的其它信息之間的等同關(guān)系,該句子的主題債券和主題郡是不可辨的。
[0022]假定在文檔中的別處出現(xiàn)下面的句子一 “The$60,000,OOOGeneral ObligationPublic Improvement and School Bonds,2009Series B(the “2009Series B Bonds”)and the$60,000, OOOGeneral Obligation Public Improvement and SchoolBonds,2009Series C (Federally Taxable-Build America Bonds - Direct Payment)(the “2009Series C Bonds”)(collectively, the “Bonds,,)of Shelby County, Tennessee(the“County”)...”。適當(dāng)?shù)亟馕鎏幱谖臋n的語(yǔ)境內(nèi)的前面的句子的依賴指稱表達(dá)需要計(jì)算依賴指稱表達(dá)與后面的句子中的完整表達(dá)的關(guān)系。
[0023]從示例性的實(shí)施例認(rèn)識(shí)到,出于組合的原因,當(dāng)前可用的NLP技術(shù)無(wú)法在文檔的適當(dāng)?shù)恼Z(yǔ)境內(nèi)分析依賴指稱表達(dá)。例如,一些NLP技術(shù)由于依賴指稱表達(dá)實(shí)例與相應(yīng)的完整表達(dá)之間的詞語(yǔ)距離或文檔距離而失敗。即使配有照應(yīng)解疑工具的NLP技術(shù)也受詞語(yǔ)或文檔距離限制。
[0024]一些其它的NLP技術(shù)甚至無(wú)法將某些文本識(shí)別為依賴指稱表達(dá)實(shí)例。例如,在一些NLP技術(shù)依賴于依賴指稱表達(dá)的諸如單數(shù)形式的一些語(yǔ)言特性的情況下,多數(shù)形式的依賴指稱表達(dá)將不會(huì)被識(shí)別用于解析。作為另一例子,照應(yīng)解疑會(huì)錯(cuò)失后指依賴指稱表達(dá),該后指依賴指稱表達(dá)比照應(yīng)參照不常見(jiàn)。其它的NLP技術(shù)可遭受這些和其它缺點(diǎn)的組合,從而導(dǎo)致解析依賴指稱表達(dá)的一些實(shí)例但不解析其它的。
[0025]用于描述本發(fā)明的描述示例性的實(shí)施例一般針對(duì)和解決與當(dāng)前可用的NLP技術(shù)的限制有關(guān)的上述的問(wèn)題和其它問(wèn)題。示例性的實(shí)施例提供用于自然語(yǔ)言處理中的依賴指稱表達(dá)的解疑的方法、系統(tǒng)和計(jì)算機(jī)程序產(chǎn)品。
[0026]示例性的實(shí)施例通過(guò)過(guò)濾處理發(fā)現(xiàn)文檔中的依賴指稱表達(dá)的實(shí)例。示例性的實(shí)施例在給定的一組文檔內(nèi)跨著不受限的詞語(yǔ)距離或文檔距離定位相應(yīng)的完整表達(dá)。示例性的實(shí)施例通過(guò)使用完整表達(dá)解疑依賴指稱表達(dá)的各實(shí)例。
[0027]實(shí)施例通過(guò)在輸出自然語(yǔ)言處理文檔內(nèi)用完整表達(dá)替換依賴指稱表達(dá)來(lái)解疑依賴指稱表達(dá)的實(shí)例。另一實(shí)施例通過(guò)以如下方式修改依賴指稱表達(dá)來(lái)解疑依賴指稱表達(dá)的實(shí)例,該方式使得完整表達(dá)變得可從輸出自然語(yǔ)言處理文檔內(nèi)的依賴指稱表達(dá)實(shí)例的位置得到或者可訪問(wèn)。
[0028]例如,通過(guò)使用上述的示例性句子,一個(gè)實(shí)施例在輸出文檔中用“ShelbyCounty, Tennessee”替換“the County”的所有實(shí)例。另一實(shí)施例導(dǎo)致“the County”的某些實(shí)例在輸出文檔中呈現(xiàn)“Shelby County, Tennessee”的替換文本。另一實(shí)施例導(dǎo)致“the County”的某些實(shí)例包含與在輸出文檔中出現(xiàn)短語(yǔ)“Shelby County, Tennessee”的超鏈接。另一實(shí)施例導(dǎo)致“the County”的某些實(shí)例包含與輸出文檔中的屬于“ShelbyCounty, Tennessee”中的文檔的給定輸入組中的另一文檔的超鏈接。
[0029]這些將依賴指稱表達(dá)解析為相應(yīng)的完整表達(dá)的示例性方式不是要限制示例性的實(shí)施例。在示例性的實(shí)施例的范圍內(nèi),實(shí)施例可實(shí)現(xiàn)解析依賴指稱表達(dá)的這些或這些和其它方式的組合。
[0030]僅作為例子參照某些類型的文檔、完整表達(dá)和依賴指稱表達(dá)描述示例性的實(shí)施例。這些類型的文檔、完整表達(dá)和依賴指稱表達(dá)或它們的示例性屬性不是要限制本發(fā)明。
[0031]并且,可關(guān)于任意類型的數(shù)據(jù)、數(shù)據(jù)源或在數(shù)據(jù)網(wǎng)絡(luò)上對(duì)數(shù)據(jù)源的訪問(wèn)實(shí)現(xiàn)示例性的實(shí)施例。在本發(fā)明的范圍內(nèi),在數(shù)據(jù)處理系統(tǒng)本地或者在數(shù)據(jù)網(wǎng)絡(luò)上,任意類型的數(shù)據(jù)存儲(chǔ)裝置可向本發(fā)明的實(shí)施例提供數(shù)據(jù)。[0032]僅作為例子通過(guò)使用特定的代碼、設(shè)計(jì)、構(gòu)架、協(xié)議、布局、方案和工具描述示例性的實(shí)施例,并且不限于示例性的實(shí)施例。并且,為了闡明說(shuō)明書,僅作為例子通過(guò)使用特定的軟件、工具和數(shù)據(jù)處理環(huán)境在一些實(shí)例中描述示例性的實(shí)施例。示例性的實(shí)施例可與其它的可比或意圖類似的結(jié)構(gòu)、系統(tǒng)、應(yīng)用或構(gòu)架結(jié)合使用??稍谟布?、軟件或它們的組合中使用示例性的實(shí)施例。
[0033]本公開(kāi)中的例子僅用于闡明說(shuō)明書,并且不限于示例性的實(shí)施例。從本公開(kāi)可設(shè)想附加的數(shù)據(jù)、操作、動(dòng)作、任務(wù)、活動(dòng)和操作,并且,在示例性的實(shí)施例的范圍內(nèi)設(shè)想它們。
[0034]這里列出的任意的優(yōu)點(diǎn)僅是例子,并且不是要限于示例性的實(shí)施例??赏ㄟ^(guò)特定的示例性的實(shí)施例實(shí)現(xiàn)附加或不同的優(yōu)點(diǎn)。并且,特定的示例性的實(shí)施例可具有以上列出的優(yōu)點(diǎn)中的一些或全部或不具有這些優(yōu)點(diǎn)中的任一個(gè)。
[0035]參照附圖、特別是參照?qǐng)D1和圖2,這些附圖是可實(shí)現(xiàn)示例性的實(shí)施例的數(shù)據(jù)處理環(huán)境的示例性示圖。圖1和圖2僅是例子,并且不是要關(guān)于可實(shí)現(xiàn)不同實(shí)施例的環(huán)境斷言或意味著任何限制。特定的實(shí)現(xiàn)可基于以下的描述對(duì)示出的環(huán)境采取任何修改。
[0036]圖1示出可實(shí)現(xiàn)示例性的實(shí)施例的數(shù)據(jù)處理系統(tǒng)的網(wǎng)絡(luò)的圖示。數(shù)據(jù)處理環(huán)境100是可實(shí)現(xiàn)示例性的實(shí)施例的計(jì)算機(jī)的網(wǎng)絡(luò)。數(shù)據(jù)處理環(huán)境100包含網(wǎng)絡(luò)102。網(wǎng)絡(luò)102是用于在數(shù)據(jù)處理環(huán)境100內(nèi)的連接在一起的各種裝置和計(jì)算機(jī)之間提供通信鏈接的介質(zhì)。網(wǎng)絡(luò)102可包含諸如導(dǎo)線、無(wú)線通信鏈接或光纖電纜的連接。服務(wù)器104和服務(wù)器106與網(wǎng)絡(luò)102連同存儲(chǔ)設(shè)備單元108耦合。軟件應(yīng)用可在數(shù)據(jù)處理環(huán)境100中的任何計(jì)算機(jī)上執(zhí)行。
[0037]另外,客戶機(jī)110、112和114與網(wǎng)絡(luò)102耦合。諸如服務(wù)器104或106或客戶機(jī)110、112或114的數(shù)據(jù)處理系統(tǒng)可包含數(shù)據(jù),并且可具有在其上面執(zhí)行的軟件應(yīng)用或軟件工具。
[0038]僅作為例子而不意味著這種構(gòu)架的任何限制,圖1示出可在實(shí)施例的示例性實(shí)現(xiàn)中使用的某些部件。例如,服務(wù)器104中的應(yīng)用105是這里描述的實(shí)施例的實(shí)現(xiàn)。應(yīng)用105結(jié)合NLP引擎103操作。例如,NLP引擎103可以是能夠在文檔上執(zhí)行自然語(yǔ)言處理的現(xiàn)有應(yīng)用,并且可被修改或配置為結(jié)合應(yīng)用105操作以根據(jù)這里描述的實(shí)施例執(zhí)行操作。客戶機(jī)112包含具有根據(jù)實(shí)施例處理的依賴指稱表達(dá)113的一組文檔。
[0039]服務(wù)器104和106、存儲(chǔ)設(shè)備單元108和客戶機(jī)110、112和114可通過(guò)使用有線連接、無(wú)線通信協(xié)議或其它適當(dāng)?shù)臄?shù)據(jù)連接與網(wǎng)絡(luò)102耦合。例如,客戶機(jī)110、112和114可以是個(gè)人計(jì)算機(jī)或網(wǎng)絡(luò)計(jì)算機(jī)。
[0040]在示出的例子中,服務(wù)器104可向客戶機(jī)110、112和114提供諸如引導(dǎo)文件、操作系統(tǒng)圖像和應(yīng)用的數(shù)據(jù)。在本例子中,客戶機(jī)110、112和114可以是服務(wù)器4的客戶機(jī)??蛻魴C(jī)110、112、114或它們的一些組合可包含它們自身的數(shù)據(jù)、引導(dǎo)文件、操作系統(tǒng)圖像和應(yīng)用。數(shù)據(jù)處理環(huán)境100可包含未示出的附加的服務(wù)器、客戶機(jī)和其它的裝置。
[0041]在示出的例子中,數(shù)據(jù)處理環(huán)境100可以是因特網(wǎng)。網(wǎng)絡(luò)102可代表使用傳送控制協(xié)議/因特網(wǎng)協(xié)議(TCP/IP)和其它協(xié)議以相互通信的網(wǎng)絡(luò)和網(wǎng)關(guān)的集合。在因特網(wǎng)的中心,是包含路由數(shù)據(jù)和消息的數(shù)以千計(jì)的商業(yè)、行政、教育和其它計(jì)算機(jī)系統(tǒng)的主節(jié)點(diǎn)或主機(jī)計(jì)算機(jī)之間的數(shù)據(jù)通信鏈接的骨干。當(dāng)然,數(shù)據(jù)處理環(huán)境100還可實(shí)現(xiàn)為大量的不同類型的網(wǎng)絡(luò),諸如,例如,內(nèi)聯(lián)網(wǎng)、局域網(wǎng)絡(luò)(LAN)或廣域網(wǎng)絡(luò)(WAN)。圖1是例子,而不是不同的示例性的實(shí)施例的構(gòu)架限制。
[0042]在其它用途中,數(shù)據(jù)處理環(huán)境100可被用于實(shí)現(xiàn)可實(shí)現(xiàn)示例性的實(shí)施例的客戶機(jī)-服務(wù)器環(huán)境。客戶機(jī)-服務(wù)器環(huán)境使得能夠跨著網(wǎng)絡(luò)分布軟件應(yīng)用和數(shù)據(jù),使得應(yīng)用通過(guò)使用客戶機(jī)數(shù)據(jù)處理系統(tǒng)與服務(wù)器數(shù)據(jù)處理系統(tǒng)之間的相互作用起作用。數(shù)據(jù)處理環(huán)境100也可使用跨著網(wǎng)絡(luò)分布的可共同操作的軟件部件可一起封裝為相干商業(yè)應(yīng)用的面向服務(wù)的結(jié)構(gòu)。
[0043]參照?qǐng)D2,該示圖示出可實(shí)現(xiàn)示例性的實(shí)施例的數(shù)據(jù)處理系統(tǒng)的框圖。數(shù)據(jù)處理系統(tǒng)200是諸如圖1中的服務(wù)器104或客戶機(jī)112的計(jì)算機(jī)的例子或者實(shí)現(xiàn)處理的計(jì)算機(jī)可用程序代碼或指令可位于其中的另一類型的裝置。
[0044]在示出的例子中,數(shù)據(jù)處理系統(tǒng)200使用包含北橋和存儲(chǔ)器控制器集線器(NB/MCH) 202和南橋和輸入/輸出(I/O)控制器集線器(SB/ICH) 204的集線器構(gòu)架。處理單元206、主存儲(chǔ)器208和圖形處理器210與北橋和存儲(chǔ)器控制器集線器(NB/MCH)202耦合。處理單元206可包含一個(gè)或多個(gè)處理器,并且可通過(guò)使用一個(gè)或多個(gè)異型處理器系統(tǒng)被實(shí)現(xiàn)。處理單元206可以是多芯處理器。在某些實(shí)現(xiàn)中,圖形處理器210可通過(guò)加速圖形端口(AGP)與 NB/MCH202 耦合。
[0045]在示出的例子中,局域網(wǎng)絡(luò)(LAN)適配器212與南橋和I/O控制器集線器(SB/ICH)204耦合。音頻適配器216、鍵盤和鼠標(biāo)適配器220、調(diào)制解調(diào)器222、只讀存儲(chǔ)器(ROM)224、通用串行總線(USB)和其它端口 232以及PCI/PCIe裝置234通過(guò)總線238與南橋和I/O控制器集線器204耦合。硬盤驅(qū)動(dòng)(HDD)226和⑶-R0M230通過(guò)總線240與南橋和I/O控制器集線器204耦合。例如,PCI/PCIe裝置234可包含以太網(wǎng)適配器、插入卡和用于筆記本計(jì)算機(jī)的PC卡。PCI使用卡總線控制器,而PCIe不使用。R0M224可以是快擦寫二進(jìn)制輸入/輸出系統(tǒng)(BIOS)。例如,硬盤驅(qū)動(dòng)226和⑶-R0M230可使用集成驅(qū)動(dòng)電子(IDE)或串行先進(jìn)技術(shù)附加(SATA)接口。超I/O (SIO)器件236可通過(guò)總線238與南橋和I/O控制器集線器(SB/ICH) 204耦合。
[0046]諸如主存儲(chǔ)器208、R0M224或快擦寫存儲(chǔ)器(未示出)的存儲(chǔ)器是計(jì)算機(jī)可用存儲(chǔ)裝置的一些例子。硬盤驅(qū)動(dòng)226、CD-R0M230和其它類似可用器件是包含計(jì)算機(jī)可用存儲(chǔ)介質(zhì)的計(jì)算機(jī)可用存儲(chǔ)器件的一些例子。
[0047]操作系統(tǒng)在處理單元206上操作。操作系統(tǒng)相互協(xié)作,并提供對(duì)圖2中的數(shù)據(jù)處理系統(tǒng)200內(nèi)的各種部件的控制。操作系統(tǒng)可以是商業(yè)可用操作系統(tǒng),諸如
(AIX 是 International Business Machines Corporation 在美國(guó)和其它國(guó)家的商標(biāo))、Microsoft? Windows? (Microsoft 和 Windows 是 Microsoft Corporation 在美
國(guó)和其它國(guó)家的商標(biāo))或Linux? (Linux是Linus Torvalds在美國(guó)和其它國(guó)家的商標(biāo))。
面向?qū)ο蟮木幊滔到y(tǒng),諸如Java?編程系統(tǒng),可結(jié)合操作系統(tǒng)運(yùn)行,并且從在數(shù)據(jù)處理系統(tǒng)200上執(zhí)行的Java?程序或應(yīng)用向操作系統(tǒng)提供調(diào)用(Java和所有的基于Java的商標(biāo)和標(biāo)志是Oracle Corporation和/或其附屬的商標(biāo)或注冊(cè)商標(biāo))。
[0048]用于操作系統(tǒng)、面向?qū)ο蟮木幊滔到y(tǒng)和諸如圖1中的應(yīng)用105的應(yīng)用或程序的指令位于諸如硬盤驅(qū)動(dòng)226的一個(gè)或多個(gè)存儲(chǔ)裝置中的至少一個(gè)上,并且可被加載到諸如主存儲(chǔ)器208的一個(gè)或多個(gè)存儲(chǔ)器中的至少一個(gè)上,以供處理單元206執(zhí)行??赏ㄟ^(guò)使用可位于諸如例如主存儲(chǔ)器208、只讀存儲(chǔ)器224的存儲(chǔ)器或一個(gè)或多個(gè)外設(shè)裝置中的計(jì)算機(jī)實(shí)現(xiàn)指令由處理單元206執(zhí)行示例性的實(shí)施例的處理。
[0049]圖1?2中的硬件可根據(jù)實(shí)現(xiàn)改變。除了圖1?2所示的硬件或者作為其替代,可使用諸如快擦寫存儲(chǔ)器、等同的非易失性存儲(chǔ)器或光盤驅(qū)動(dòng)等的其它內(nèi)部硬件或外設(shè)裝置。另外,示例性的實(shí)施例的處理可被施加到多處理器數(shù)據(jù)處理系統(tǒng)。
[0050]在一些示例性的示例中,數(shù)據(jù)處理系統(tǒng)200可以是個(gè)人數(shù)字助理(PDA),該個(gè)人數(shù)字助理一般配有快擦寫存儲(chǔ)器以提供用于存儲(chǔ)操作系統(tǒng)文件和/或用戶產(chǎn)生數(shù)據(jù)的非易失性存儲(chǔ)器??偩€系統(tǒng)可包含一個(gè)或多個(gè)總線,諸如系統(tǒng)總線、I/o總線和PCI總線。當(dāng)然,可通過(guò)使用在固定于構(gòu)造或構(gòu)架上的不同的部件或裝置之間提供數(shù)據(jù)傳送的任何類型的通信構(gòu)造或構(gòu)架實(shí)現(xiàn)總線系統(tǒng)。
[0051]通信單元可包含諸如調(diào)制解調(diào)器或網(wǎng)絡(luò)適配器的用于傳送和接收數(shù)據(jù)的一個(gè)或多個(gè)裝置。例如,存儲(chǔ)器可以是主存儲(chǔ)器208或高速緩存器,諸如在北橋和存儲(chǔ)器控制器集線器202中發(fā)現(xiàn)的高速緩存器。處理單元可包含一個(gè)或多個(gè)處理器或CPU。
[0052]通信單元可包含用于傳送和接收數(shù)據(jù)的一個(gè)或多個(gè)器件,諸如調(diào)制解調(diào)器或網(wǎng)絡(luò)適配器。例如,存儲(chǔ)器可以是主存儲(chǔ)器208或高速緩存,諸如在北橋和存儲(chǔ)器控制器202中發(fā)現(xiàn)的高速緩存。處理單元可包含一個(gè)或多個(gè)處理器或CPU。
[0053]在圖1?2中示出的例子和上述的例子不意味著構(gòu)架限制。例如,除了采取PDA的形式以外,數(shù)據(jù)處理系統(tǒng)200也可以是平板計(jì)算機(jī)、膝上型計(jì)算機(jī)或電話裝置。
[0054]參照?qǐng)D3,該示圖示出可根據(jù)示例性的實(shí)施例解析的依賴指稱表達(dá)的幾個(gè)例子。文檔302是示例性單個(gè)文檔,其中,完整表達(dá)304在出現(xiàn)依賴指稱表達(dá)實(shí)例306和308之前出現(xiàn)。文檔302是可以是圖1中的一組文檔113中的全部或一部分的示例性文檔。
[0055]當(dāng)前可用的NLP技術(shù),諸如圖1中的NLP引擎103,能夠僅當(dāng)依賴指稱表達(dá)實(shí)例出現(xiàn)在相應(yīng)的完整表達(dá)附近時(shí)解析依賴指稱表達(dá)實(shí)例。例如,當(dāng)前可用的NLP技術(shù)會(huì)觀察依賴指稱表達(dá)306的范圍310內(nèi)的內(nèi)容,以確定是否可解析依賴指稱表達(dá)306。如果完整表達(dá)304出現(xiàn)于范圍310內(nèi)(未示出),那么當(dāng)前可用的NLP引擎會(huì)在其它條件和限制下解析依賴指稱表達(dá)306。在文檔302的示出的例子中,當(dāng)前可用的NLP引擎不會(huì)通過(guò)使用完整表達(dá)304解析依賴指稱表達(dá)306。
[0056]文檔312是另一示例性單個(gè)文檔,其中,完整表達(dá)314在出現(xiàn)依賴指稱表達(dá)實(shí)例316和318之后出現(xiàn)。由于前面描述的限制的組合,當(dāng)前可用的NLP技術(shù)不會(huì)解析依賴指稱表達(dá)306。
[0057]文檔322和323是一組文檔中的示例性文檔,諸如具有圖1中的依賴指稱表達(dá)的一組文檔113。文檔322包含完整表達(dá)324和依賴指稱表達(dá)326。文檔323包含可通過(guò)使用文檔322中的完整表達(dá)324解析的依賴指稱表達(dá)328和330。由于前面描述的限制的組合,當(dāng)前可用的NLP引擎不會(huì)解析依賴指稱表達(dá)306。這里描述的各實(shí)施例可用于將依賴指稱表達(dá)306和308解析為完整表達(dá)304、將依賴指稱表達(dá)316和318解析為完整表達(dá)314并將依賴指稱表達(dá)326、328和330解析為完整表達(dá)324。
[0058]參照?qǐng)D4,該示圖示出根據(jù)示例性的實(shí)施例的用于自然語(yǔ)言處理中的依賴指稱表達(dá)的解疑的示例性配置的框圖。應(yīng)用402是圖1中的應(yīng)用105的示例性實(shí)施例。圖3中的文檔302、文檔304或文檔322和323中的任一個(gè)可被用作一組文檔404,該一組文檔404包含一組的一個(gè)或多個(gè)完整表達(dá)和與組中的各完整表達(dá)對(duì)應(yīng)的一組的一個(gè)或多個(gè)依賴指稱表達(dá)。
[0059]應(yīng)用402接收一組文檔404作為自然語(yǔ)言處理的輸入。部件406選擇文檔404的一部分。部件406過(guò)濾該部分以識(shí)別依賴指稱表達(dá)的實(shí)例。例如,在一個(gè)實(shí)施例中,部件406通過(guò)識(shí)別詞語(yǔ)、短語(yǔ)或文本段的某些語(yǔ)言特性來(lái)識(shí)別依賴指稱表達(dá)的實(shí)例。例如,在一個(gè)實(shí)施例中,部件406針對(duì)大寫的詞語(yǔ)過(guò)濾文檔的選擇的部分,并將大寫的詞語(yǔ)識(shí)別為依賴指稱表達(dá)的實(shí)例。在另一實(shí)施例中,部件406過(guò)濾某個(gè)字符串并將它們識(shí)別為依賴指稱表達(dá)。
[0060]在另一實(shí)施例中,部件406進(jìn)一步對(duì)于識(shí)別的依賴指稱表達(dá)的其它形式過(guò)濾選擇的部分,諸如單數(shù)或多數(shù)形式、不同的性別形式、不同的時(shí)態(tài)形式、所有格、形容詞、副詞或識(shí)別的依賴指稱表達(dá)的其它語(yǔ)法形式。作為例子,如果部件406由于大寫將“County”識(shí)別為依賴指稱表達(dá)的實(shí)例,那么部件406還將“County’s”識(shí)別為同一依賴指稱表達(dá)的另一實(shí)例。
[0061]部件408在一組文檔404的整個(gè)范圍中定位與識(shí)別的依賴指稱表達(dá)對(duì)應(yīng)的完整表達(dá)實(shí)例。例如,以識(shí)別的大寫詞語(yǔ)“County”為依賴指稱表達(dá)的實(shí)例,部件408定位完整表達(dá),其中大寫字詞“County”被規(guī)定作為完整表達(dá)的替代物。
[0062]部件410通過(guò)使用通過(guò)部件408定位的相應(yīng)的完整表達(dá)解疑或解析依賴指稱表達(dá)實(shí)例。例如,在一個(gè)實(shí)施例中,部件410用相應(yīng)的完整表達(dá)替換依賴指稱表達(dá)的實(shí)例。
[0063]在另一示例性實(shí)施例中,部件410修改依賴指稱表達(dá)的實(shí)例,使得完整表達(dá)或等同解疑信息在依賴指稱表達(dá)的可在所述實(shí)例的位置處或從該位置得到。在另一示例性實(shí)施例中,部件410通過(guò)在文檔中添加例如HTML標(biāo)簽的額外標(biāo)記來(lái)修改依賴指稱表達(dá)的實(shí)例,該HTML標(biāo)簽有利于從依賴指稱表達(dá)的實(shí)例的位置向完整表達(dá)的視覺(jué)提示和/或?qū)Ш健T诒竟_(kāi)中的別處描述解疑依賴指稱表達(dá)實(shí)例的一些更多的示例性方式,但不意味著限于此。
[0064]應(yīng)用402產(chǎn)生包含解析的依賴指稱表達(dá)314的一組文檔412。解析的依賴指稱表達(dá)314中的解析實(shí)例可采取這里描述的各種示例性形式中的任一個(gè)和本領(lǐng)域技術(shù)人員從本公開(kāi)很容易想到并且在示例性的實(shí)施例的范圍內(nèi)設(shè)想的任何其它類似地提出的形式。
[0065]參照?qǐng)D5,該示圖示出根據(jù)示例性的實(shí)施例的自然語(yǔ)言處理中的依賴指稱表達(dá)的解疑的例子。文檔502是圖4中的文檔412中的文檔的例子。
[0066]完整表達(dá)504是文檔502中的完整表達(dá)的原始出現(xiàn)。依賴指稱表達(dá)506和508是在文檔502 (未示出)的原始版本中、諸如在圖4中的文檔404中的文檔中出現(xiàn)的依賴指稱表達(dá)的解析實(shí)例。
[0067]在一個(gè)實(shí)施例中,諸如圖4中的使用部件410的應(yīng)用402的應(yīng)用通過(guò)用完整表達(dá)504的復(fù)制替換實(shí)例506和508解析依賴指稱表達(dá)506和508的實(shí)例。通過(guò)代表完整表達(dá)504和依賴指稱表達(dá)506和508的塊的類似的遮蔽,表示解析依賴指稱表達(dá)實(shí)例的替換方法。
[0068]文檔512是圖4中的文檔412中的文檔的另一例子。
[0069]完整表達(dá)514是文檔512中的完整表達(dá)的原始出現(xiàn)。依賴指稱表達(dá)516和518是在文檔512的原始版本中(未示出)、諸如在圖4中的文檔404中的文檔中出現(xiàn)的依賴指稱表達(dá)的解析實(shí)例。[0070]在一個(gè)實(shí)施例中,諸如圖4中的使用部件410的應(yīng)用402的應(yīng)用通過(guò)修改實(shí)例516和518,使得關(guān)于完整表達(dá)514的信息變得可從實(shí)例516和518的位置得到或訪問(wèn)來(lái)解析依賴指稱表達(dá)516和518的實(shí)例。通過(guò)代表完整表達(dá)514和依賴指稱表達(dá)516和518的塊的不同的遮蔽,表示解析依賴指稱表達(dá)實(shí)例的替換方法。
[0071]這種實(shí)施例產(chǎn)生或修改文檔512的部分520,諸如,例如,元數(shù)據(jù)部分。該實(shí)施例向部分520添加條目522。條目522包含完整表達(dá)512的復(fù)制524向諸如實(shí)例516或518的依賴指稱表達(dá)的復(fù)制526的映射。例如,如果實(shí)例516和518相互類似,那么這些實(shí)例中的任一個(gè)參與條目520。如果實(shí)例516和518相異,那么兩個(gè)實(shí)例均參與(未不出)條目520。
[0072]在一個(gè)實(shí)施例中,文檔512中的實(shí)例516和518與條目520鏈接,使得諸如指點(diǎn)裝置在實(shí)例516或518的位置上的點(diǎn)擊或指點(diǎn)的交互作用向用戶呈現(xiàn)來(lái)自條目520的信息。在另一實(shí)施例中,實(shí)例516或518與條目520之間的鏈接使得諸如圖1中的NLP引擎103的另一應(yīng)用在后面處理段中用相應(yīng)的完整表達(dá)替換實(shí)例。
[0073]參照?qǐng)D6,該示圖示出根據(jù)示例性的實(shí)施例的自然語(yǔ)言處理中的依賴指稱表達(dá)的解疑的示例性處理的流程圖??稍趫D4中的應(yīng)用402中實(shí)現(xiàn)處理600。
[0074]處理600從接收包含依賴指稱表達(dá)的一組文檔(步驟602)開(kāi)始。處理600選擇接收的組中的文檔的一部分(步驟604 )。
[0075]處理600過(guò)濾該部分以識(shí)別依賴指稱表達(dá)實(shí)例(步驟606)。處理600在一組文檔內(nèi)定位完整表達(dá),其中,識(shí)別的依賴指稱表達(dá)實(shí)例參照該完整表達(dá)(步驟608)。處理600通過(guò)使用完整表達(dá)解析依賴指稱表達(dá)(步驟610)。
[0076]處理600確定是否在選擇的部分中存在依賴指稱表達(dá)的更多的實(shí)例(步驟612)。如果存在同一或不同的依賴指稱表達(dá)的更多的實(shí)例(步驟612的“是”路徑),那么處理600返回到步驟606并識(shí)別另一實(shí)例。如果在該部分中不存在依賴指稱表達(dá)的更多的實(shí)例(步驟612的“否”路徑),那么處理600確定更多的部分或文檔是否保持要以類似的方式被解疑(步驟614)。
[0077]如果更多的部分或文檔保持(步驟614的“是”路徑),那么處理600返回到步驟604并在接收的組中的同一或不同文檔中選擇另一部分。如果沒(méi)有更多的部分或文檔保持要被解疑(步驟614的“否”路徑),那么處理600輸出包含解析的依賴指稱表達(dá)實(shí)例的一組文檔(步驟616)。處理600然后結(jié)束。
[0078]參照?qǐng)D7,該示圖示出根據(jù)示例性的實(shí)施例的解析依賴指稱表達(dá)實(shí)例的一個(gè)示例性方式的流程圖。處理700可實(shí)現(xiàn)為圖6中的處理600的步驟610。
[0079]處理700從用相應(yīng)的完整表達(dá)替換依賴指稱表達(dá)實(shí)例(步驟702)開(kāi)始。處理700然后結(jié)束。
[0080]參照?qǐng)D8,該示圖示出根據(jù)示例性的實(shí)施例的解析依賴指稱表達(dá)實(shí)例的一個(gè)示例性方式的流程圖。處理800可實(shí)現(xiàn)為圖6中的處理600的步驟610。
[0081]處理800從修改依賴指稱表達(dá)實(shí)例使得關(guān)于相應(yīng)的完整表達(dá)的信息可從文檔中的依賴指稱表達(dá)實(shí)例的位置得到或訪問(wèn)(步驟802)開(kāi)始。處理800然后結(jié)束。
[0082]附圖中的流程圖和框圖示出根據(jù)本發(fā)明的各種實(shí)施例的系統(tǒng)、方法和計(jì)算機(jī)程序產(chǎn)品的可能的實(shí)現(xiàn)的構(gòu)架、功能和操作。關(guān)于這一點(diǎn),流程圖或框圖中的各塊可代表包含用于實(shí)現(xiàn)規(guī)定的邏輯功能的一個(gè)或多個(gè)可執(zhí)行指令的代碼的模塊、段或部分。還應(yīng)注意,在一些替代性的實(shí)現(xiàn)中,在塊中注明的功能可以按圖示的次序以外的次序出現(xiàn)。例如,連續(xù)表示的兩個(gè)塊事實(shí)上可基本上被同時(shí)執(zhí)行,或者,根據(jù)包括的功能,有時(shí)可以按相反的次序執(zhí)行塊。還應(yīng)注意,可通過(guò)執(zhí)行特定功能或動(dòng)作的基于特殊用途硬件的系統(tǒng)或者特殊用途硬件和計(jì)算機(jī)指令的組合,實(shí)現(xiàn)框圖和/或流程圖的各塊和框圖和/或流程圖的塊的組合。
[0083]因此,在用于自然語(yǔ)言處理中的依賴指稱表達(dá)的解疑的示例性的實(shí)施例中,提供計(jì)算機(jī)實(shí)現(xiàn)的方法、系統(tǒng)和計(jì)算機(jī)程序產(chǎn)品。實(shí)施例將依賴指稱表達(dá)實(shí)例解析為它們的相應(yīng)的完整表達(dá),使得實(shí)施例的輸出文檔中的依賴指稱表達(dá)的各實(shí)例被修改以指示它在輸入文檔中參照的完整表達(dá)。實(shí)施例可跨著一組的任意數(shù)量的文檔解疑依賴指稱表達(dá)實(shí)例,諸如一組文檔的累積內(nèi)容的自然語(yǔ)言處理要在實(shí)施例作用于該組上之后被執(zhí)行的情況。用作實(shí)施例的輸入的一組文檔排除一般出于翻譯文檔的目的的詞典、本體論、知識(shí)庫(kù)、數(shù)據(jù)庫(kù)或儲(chǔ)存庫(kù)。
[0084]使用實(shí)施例的依賴指稱表達(dá)的解疑允許諸如NLP引擎的下游文檔處理部件使用完整表達(dá),而不需要獲知如何使用或解析依賴指稱表達(dá)實(shí)例。實(shí)施例改善了對(duì)各種文檔處理任務(wù)使用解疑的文檔。例如,許多信息檢索和概要任務(wù)基于詞語(yǔ)頻率計(jì)數(shù)。實(shí)施例產(chǎn)生對(duì)例如為Shelby County, Tennessee的完整表達(dá)的提及次數(shù)增加的文檔,由此將文檔的定量表征提升為“關(guān)于” Shelby County, Tennessee,從而導(dǎo)致提高依賴于詞語(yǔ)頻率的應(yīng)用的精度。例如,與將“Shelby County”稱為“the County”的實(shí)施例的輸入文檔相比,實(shí)施例的輸出文檔更可能被計(jì)算為與包含條目“Shelby County”的詢問(wèn)有關(guān)。
[0085]作為另一例子,許多語(yǔ)言處理任務(wù)在通常的詞語(yǔ)與承載相互區(qū)分文檔的更多的影響力的更精確的詞語(yǔ)之間辨別。用于解疑的實(shí)施例可用不太一般化的和更信息化的相應(yīng)條目替換一般化的條目,例如,“the Bonds”,從而比輸入文檔好地提高系統(tǒng)表征輸出文檔的語(yǔ)義內(nèi)容的能力。
[0086]作為另一例子,諸如段落檢索的語(yǔ)言處理任務(wù)使文檔的文本與用戶的詢問(wèn)匹配,并然后向用戶顯示來(lái)自文檔的詞語(yǔ)的固定尺寸窗口,使得用戶可確定文檔是否確實(shí)包含希望的信息。如實(shí)施例的示例性輸出文檔同樣,呈現(xiàn)更特定的文本,例如,“ShelbyCounty, Tennessee”,而不是實(shí)施例的輸入文檔中的含糊的文本“the County”,使得詞語(yǔ)窗口更多地揭示文檔的內(nèi)容,并因此對(duì)用戶更有用。
[0087]本領(lǐng)域技術(shù)人員可以理解,本發(fā)明的各方面可體現(xiàn)為系統(tǒng)、方法或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明的方面可采取在這里都可一般稱為“電路”、“模塊”或“系統(tǒng)”的完全硬件實(shí)施例、完全軟件實(shí)施例(包括固件、駐留軟件、微代碼等)或者組合軟件和硬件方面的實(shí)施例。并且,本發(fā)明的各方面可采取以一個(gè)或多個(gè)計(jì)算機(jī)可讀存儲(chǔ)裝置中體現(xiàn)的計(jì)算機(jī)程序產(chǎn)品或具有在其上面體現(xiàn)的計(jì)算機(jī)可讀程序代碼的計(jì)算機(jī)可讀介質(zhì)形式。
[0088]可以利用一個(gè)或多個(gè)計(jì)算機(jī)可讀存儲(chǔ)裝置或計(jì)算機(jī)可讀介質(zhì)的任意組合。計(jì)算機(jī)可讀介質(zhì)可以是計(jì)算機(jī)可讀信號(hào)介質(zhì)或計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。計(jì)算機(jī)可讀存儲(chǔ)裝置可例如是但不限于電子、磁、光學(xué)、電磁、紅外或半導(dǎo)體系統(tǒng)、裝置或器件或者以上的任意適當(dāng)?shù)慕M合。計(jì)算機(jī)可讀存儲(chǔ)裝置的更特定的例子(非窮舉的列表)包括以下:具有一個(gè)或多個(gè)導(dǎo)線的電氣連接、便攜式計(jì)算機(jī)盤、硬盤、隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、可擦除可編程只讀存儲(chǔ)器(EPR0M或快擦寫存儲(chǔ)器)、光纖、便攜式緊致盤只讀存儲(chǔ)器(CD-ROM)、光學(xué)存儲(chǔ)裝置、磁存儲(chǔ)裝置或以上的任意適當(dāng)?shù)慕M合。在本文的背景中,計(jì)算機(jī)可讀存儲(chǔ)裝置可以是可包含或者存儲(chǔ)供指令執(zhí)行系統(tǒng)、裝置或器件使用或者與其關(guān)聯(lián)的程序的任何可觸知介質(zhì)。
[0089]可通過(guò)使用包括但不限于無(wú)線、有線、光纖電纜、RF等或以上的任意適當(dāng)?shù)慕M合的任意適當(dāng)?shù)慕橘|(zhì)傳送在計(jì)算機(jī)可讀存儲(chǔ)裝置或計(jì)算機(jī)可讀介質(zhì)上體現(xiàn)的程序代碼。
[0090]可通過(guò)包括諸如Java、Smalltalk或C++等的面向?qū)ο蟮木幊陶Z(yǔ)目和諸如“C”編程語(yǔ)言或類似的編程語(yǔ)言的常規(guī)的過(guò)程編程語(yǔ)言的一個(gè)或多個(gè)編程語(yǔ)言的任意組合,書寫用于實(shí)施本發(fā)明的各方面的操作的計(jì)算機(jī)程序代碼??赏耆谟脩舻挠?jì)算機(jī)上、部分地用戶的計(jì)算機(jī)上、作為獨(dú)立軟件包、部分地用戶計(jì)算機(jī)上并且部分在遠(yuǎn)程計(jì)算機(jī)或者完全在遠(yuǎn)程計(jì)算機(jī)或服務(wù)器上執(zhí)行程序代碼。在后一種方案中,遠(yuǎn)程計(jì)算機(jī)可通過(guò)包括局域網(wǎng)絡(luò)(LAN)或廣域網(wǎng)絡(luò)(WAN)的任意類型的網(wǎng)絡(luò)與用戶的計(jì)算機(jī)連接,或者,可與外部計(jì)算機(jī)連接(例如,通過(guò)使用因特網(wǎng)服務(wù)提供商的因特網(wǎng))。
[0091]這里,參照根據(jù)本發(fā)明的實(shí)施例的方法、裝置(系統(tǒng))和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或框圖描述本發(fā)明的各方面。應(yīng)當(dāng)理解,可通過(guò)計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或框圖的各塊以及流程圖和/或框圖的塊的組合。這些計(jì)算機(jī)程序指令可被提供給一個(gè)或者多個(gè)通用計(jì)算機(jī)、特殊用途計(jì)算機(jī)或者其它的可編程數(shù)據(jù)處理裝置的一個(gè)或者多個(gè)處理器,以制造機(jī)器,使得通過(guò)計(jì)算機(jī)或其它可編程數(shù)據(jù)處理裝置的一個(gè)或者多個(gè)處理器執(zhí)行的指令創(chuàng)建用于實(shí)現(xiàn)在流程圖和/或框圖塊中規(guī)定的功能/動(dòng)作的裝置。
[0092]這些計(jì)算機(jī)程序指令也可存儲(chǔ)于計(jì)算機(jī)可讀存儲(chǔ)裝置或計(jì)算機(jī)可讀介質(zhì)中,這些計(jì)算機(jī)可讀存儲(chǔ)裝置或計(jì)算機(jī)可讀介質(zhì)可指導(dǎo)一個(gè)或多個(gè)計(jì)算機(jī)、一個(gè)或多個(gè)其它可編程數(shù)據(jù)處理裝置或一個(gè)或多個(gè)其它設(shè)備以特定的方式起作用,使得存儲(chǔ)于一個(gè)或多個(gè)計(jì)算機(jī)可讀存儲(chǔ)裝置或計(jì)算機(jī)可讀介質(zhì)中的指令產(chǎn)生包括實(shí)現(xiàn)在流程圖和/或框圖塊中規(guī)定的功能/動(dòng)作的指令的制造物品。
[0093]計(jì)算機(jī)程序指令也可被加載到一個(gè)或多個(gè)計(jì)算機(jī)、一個(gè)或多個(gè)其它可編程數(shù)據(jù)處理裝置或一個(gè)或多個(gè)其它設(shè)備上,以導(dǎo)致在一個(gè)或多個(gè)計(jì)算機(jī)、一個(gè)或多個(gè)其它可編程數(shù)據(jù)處理裝置或一個(gè)或多個(gè)其它設(shè)備上執(zhí)行的一系列的操作步驟產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的過(guò)程,使得在一個(gè)或多個(gè)計(jì)算機(jī)、一個(gè)或多個(gè)其它可編程數(shù)據(jù)處理裝置或一個(gè)或多個(gè)其它設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖和/或框圖塊中規(guī)定的功能/動(dòng)作的處理。
[0094]在這里使用的術(shù)語(yǔ)僅出于描述特定的實(shí)施例目的,并且不意在限制本發(fā)明。如這里使用的那樣,除非在上下文中另外明顯指出,否則單數(shù)形式“一種”、“一個(gè)”和“該”意在也包括多數(shù)形式。還應(yīng)理解,在本說(shuō)明書中使用的術(shù)語(yǔ)“包括”和/或“包含”規(guī)定闡述的特征、整數(shù)、步驟、操作、要素和/或部件的存在,但不排除存在或添加一個(gè)或多個(gè)其它的特征、整數(shù)、步驟、操作、要素、部件和/或它們的組。
[0095]以下的權(quán)利要求中的所有裝置或步驟加功能要素的相應(yīng)的結(jié)構(gòu)、材料、動(dòng)作和等同是要包括用于與具體要求的其它要求要素組合執(zhí)行功能的任何結(jié)構(gòu)、材料或動(dòng)作。給出本發(fā)明的描述是出于解釋和描述的目的給出的,但它不是詳盡的或者將本發(fā)明限于公開(kāi)的形式。在不背離本發(fā)明的范圍和精神的情況下,許多修改和變更對(duì)本領(lǐng)域技術(shù)人員來(lái)說(shuō)是十分明顯的。為了最好地解釋本發(fā)明的原理和實(shí)際應(yīng)用并使得其它的本領(lǐng)域技術(shù)人員能夠理解本發(fā)明的具有適于設(shè)想的特定用途的各種修改的各種實(shí)施例,而選擇和描述了實(shí)施例。
【權(quán)利要求】
1.一種用于自然語(yǔ)言處理中的依賴指稱表達(dá)的解疑的方法,該方法包括: 選擇一組文檔中的文檔的一部分,所述部分包含一組依賴指稱表達(dá)實(shí)例; 過(guò)濾所述部分以通過(guò)使用實(shí)例的語(yǔ)言特性從一組依賴指稱表達(dá)實(shí)例中識(shí)別所述實(shí)例,所述依賴指稱表達(dá)的所述實(shí)例指稱在所述一組文檔中出現(xiàn)的完整表達(dá); 通過(guò)定位所述依賴指稱表達(dá)在哪里被定義為所述完整表達(dá)的替代物而在所述一組文檔中的一個(gè)成員文檔中定位所述完整表達(dá);和 使用處理器和存儲(chǔ)器,通過(guò)使用完整表達(dá)解析所述實(shí)例,使得關(guān)于所述完整表達(dá)的信息可在所述實(shí)例的位置處得到。
2.根據(jù)權(quán)利要求1的方法,還包括: 輸出與一組文檔對(duì)應(yīng)的第二組文檔,其中,所述第二組文檔中的文檔與所述一組文檔中的文檔對(duì)應(yīng),并且,所述第二組文檔中的文檔包含響應(yīng)所述解析的所述實(shí)例的修改形式。
3.根據(jù)權(quán)利要求1的方法,其中,所述解析包含: 用所述完整表達(dá)的復(fù)制替換所述實(shí)例。
4.根據(jù)權(quán)利 要求1的方法,其中,所述解析包含: 通過(guò)在所述實(shí)例的位置處添加數(shù)據(jù)而修改實(shí)例,使得所述數(shù)據(jù)使得關(guān)于所述完整表達(dá)的信息可從所述實(shí)例的位置處訪問(wèn)。
5.根據(jù)權(quán)利要求4的方法,還包括: 修改所述文檔以產(chǎn)生第二文檔,其中,所述第二文檔包含所述實(shí)例與所述完整表達(dá)之間的映射;和 通過(guò)使用鏈接將所述實(shí)例鏈接到所述映射,其中,所述鏈接可用于使得關(guān)于所述完整表達(dá)的信息可從所述實(shí)例的位置處訪問(wèn)。
6.根據(jù)權(quán)利要求1的方法,其中,所述實(shí)例和所述完整表達(dá)出現(xiàn)于所述一組文檔中的同一文檔中。
7.根據(jù)權(quán)利要求1的方法,其中,所述一組文檔中的文檔均不是可用于翻譯不處于所述一組文檔中的文檔的一般提出的儲(chǔ)存庫(kù)。
8.根據(jù)權(quán)利要求1的方法,其中,所述一組文檔被配置為用于所述一組文檔的累積內(nèi)容的自然語(yǔ)言處理。
9.根據(jù)權(quán)利要求1的方法,還包括: 接收所述一組文檔,其中,所述接收出現(xiàn)在所述一組文檔經(jīng)受自然語(yǔ)言處理之前。
10.一種用于自然語(yǔ)言處理中的依賴指稱表達(dá)的解疑的數(shù)據(jù)處理系統(tǒng),所述數(shù)據(jù)處理系統(tǒng)包含: 包含存儲(chǔ)介質(zhì)的存儲(chǔ)裝置,其中,所述存儲(chǔ)裝置存儲(chǔ)計(jì)算機(jī)可用程序代碼;和 處理器,其中,處理器執(zhí)行所述計(jì)算機(jī)可用程序代碼,并且,所述計(jì)算機(jī)可用程序代碼包含: 用于選擇一組文檔中的文檔的一部分的計(jì)算機(jī)可用代碼,所述部分包含一組依賴指稱表達(dá)實(shí)例; 用于過(guò)濾所述部分以通過(guò)使用實(shí)例的語(yǔ)言特性從所述一組依賴指稱表達(dá)實(shí)例中識(shí)別所述實(shí)例的計(jì)算機(jī)可用代碼,所述依賴指稱表達(dá)的實(shí)例指稱在所述一組文檔中出現(xiàn)的完整表達(dá);用于通過(guò)定位所述依賴指稱表達(dá)在哪里被定義為所述完整表達(dá)的替代物而在所述一組文檔中的一個(gè)成員文檔中定位所述完整表達(dá)的計(jì)算機(jī)可用代碼;和 用于使用處理器和存儲(chǔ)器,通過(guò)使用所述完整表達(dá)解析所述實(shí)例使得關(guān)于所述完整表達(dá)的信息可在所述實(shí)例的 位置處得到的計(jì)算機(jī)可用代碼。
【文檔編號(hào)】G06F17/28GK103995806SQ201410050568
【公開(kāi)日】2014年8月20日 申請(qǐng)日期:2014年2月14日 優(yōu)先權(quán)日:2013年2月15日
【發(fā)明者】J·P·布菲, D·K·拜倫, A·皮科夫斯基, E·E·西伯特 申請(qǐng)人:國(guó)際商業(yè)機(jī)器公司