專利名稱::用于語法產(chǎn)生的語義標記到短語的分配的制作方法
技術領域:
:本發(fā)明涉及會話應用的語言自動理解領域。如今自動會話系統(tǒng)和基于機器查詢系統(tǒng)的電話廣泛地推廣用于提供信息,例如作為火車或航班的時間表或接收來自用戶的查詢,例如作為銀行事務處理或旅行預訂。自動會話系統(tǒng)的重要任務包括提取來自用戶輸入用于會話系統(tǒng)的必要信息,其一般地通過語音來提供。從語音中提取信息可以分成兩個步驟一方面為語音識別而另一方面為將s所識別的語音映射到語義含義。語音識別步驟提供語音轉換,即把從用戶接受的語音信息轉換成機器能處理的形式。然后,最重要的是把所識別的語音通過自動會話系統(tǒng)以正確的方式解釋。因此,識別的語音到語義的分配或映射必須通過自動會話系統(tǒng)執(zhí)行。例如對于火車時間表會話系統(tǒng)查詢“我需要從漢堡到慕尼黑的連接”,那么兩座城市“漢堡”和“慕尼黑”必須正確地識別為火車旅行的起點和終點。必須提取上述句子“從漢堡”或“到慕尼黑”的基本片段并且達到自動會話系統(tǒng)理解的程度,即短語“從漢堡”映射到起點語義標記而短語“到慕尼黑”映射到終點語義標記。當所有語義標記(象起點、終點、時間、日期或其它旅行說明)映射到用戶查詢的短語時,會話系統(tǒng)可以執(zhí)行所需要的操作。從識別的短語到語義標記映射的分配,一般通過某些語法規(guī)則提供。語法包括定義語義標記到短語映射的規(guī)則。這種基于規(guī)則的語法已經(jīng)成為自然語言理解領域最多研究的主題并且經(jīng)常結合現(xiàn)行的會話系統(tǒng)。自動會話系統(tǒng)的實例以及自動會話系統(tǒng)的概述在“H.Aust、M.Oerder、F.Seide、V.Steinbiss;thePhilipsAutomaticTrainTimetableInformationSystem,SpeechCommunication17(1995)249-262”的論文中給出。由于自動會話系統(tǒng)一般為不同的目的而設計,例如作為時間表信息或查詢處理系統(tǒng),基本的語法為那些不同的用途分別單獨設計。現(xiàn)有技術公知的大部分語法是人工寫入的,在這種意義上來說組成語法的規(guī)則覆蓋了一大組短語和在會話中出現(xiàn)的短語的各種組合。為了執(zhí)行短語和語義標記之間的映射,短語或短語的組合必須匹配至少一個人工寫入的語法規(guī)則。由于必須通過個別的規(guī)則明確地考慮每個短語所可能的組合或會話的變化,所以這種手寫語法的產(chǎn)生是極端費時的并且浪費處理資源。此外人工創(chuàng)建的語法總是受支配于維護,這是因為基本的規(guī)則組可以不必覆蓋一般在自動會話系統(tǒng)操作期間產(chǎn)生的所有類型的會話和所有類型的短語。通常,用于自動會話系統(tǒng)的語法是與應用有關的,這是指總是為不同類型的自動會話系統(tǒng)設計不同的語法。因此,對于每一種類型的自動會話系統(tǒng)來說都必須人工地構造特定的語法。很明顯這種產(chǎn)生多種不同的語法占了相當?shù)某杀颈壤?,應當予以降低。為了減少用于產(chǎn)生、維護和修改語法相當昂貴數(shù)量的人力,最近已經(jīng)引入很多用于自動生成語法或自動學習語法的方法。語法的自動設計一般基于周刊注釋的訓練句子的全集。這種訓練全集例如可以是通過登記現(xiàn)有應用的會話來衍生。然而,自動學習進一步的需要一組注釋,其表示訓練全集的哪一個短語分配給哪一個公知的標記。一般地,這些注釋必須人工地執(zhí)行,但它通常比產(chǎn)生整個語法費時要少。論文“KMacherey、F.J.Och和H.Ney;2001年9月在第7屆語音通信和技術歐洲會議上出現(xiàn)的NaturalLanguageUnderstandingusingStatisticalMachineTranslation,Aalborg,Denmark”描述了自動學習語法,所述論文還可以從URL“http//wasserstoff.informatik.rwthaachen.de/Colleagues/och/eurospeech2001.ps”中獲得。實際上該文獻公開了自然語言理解的方法,其起源于統(tǒng)計機制轉換領域。自然語言理解的問題被稱作從源句到形式語言目標句子的轉換。因此這種方法旨在減少語法的利用,便于詞和它們的意義之間的自動相關性學習。為了這個目的,所述方法用來處理轉換問題而不是處理語法的自動生成。與此相反,美國專利申請US2003/0061024A1明確地貫注于語法的學習。這種方法基于確定終結的序列或終結和在訓練集合句子中語法的非終結符號有關的通配符的序列。在確定終結或終結和通配符的序列以后它們通過分類方法分配給非終結符號或終結符號。這種分類依次使用基于交換算法的交換方法。這種交換算法保證了既定功能的有效最佳化,其考慮了所有不正確的分類并且反復最佳化了終結或終結和通配符序列的分類。從而由于既定功能僅僅使用了關于哪一個終結符號或終結符號和通配符的序列以及哪一個非終結符號存在于訓練句子中的信息,訓練句子中的非終結符號的順序無須人工注釋。此外,這種交換方法保證了既定功能的有效(局部)最佳化,這是由于只有少數(shù)操作是執(zhí)行交換時計算既定功能中的變化所必需的。本發(fā)明旨在提供用于將語義標記映射到短語的另一種方法,從而提供產(chǎn)生用于自動會話系統(tǒng)的語法。本發(fā)明提供來自周刊注釋全集的句子中自動學習語義有用的字詞短語。從而評估字詞短語和語義概念或語義標記之間隨機的相關性。隨機的相關性描述了給定短語映射或分配給不同語義標記的可能性。關于這一點短語用作句子片段、詞的序列或在最小情況下單個字的通稱。短語和標記之間隨機的相關性進一步的表示為映射概率并且它的確定基于訓練全集的句子。首先,這種方法沒有關于訓練全集標記和短語之間注釋的信息。為了執(zhí)行映射概率的計算,短語和語義標記之間弱的注釋必須以某種方式提供。這種弱的注釋例如可以通過向短語分配一組候選語義標記來實現(xiàn)。替代地可以使用IEL(包含/排除列表)。IEL表示那些可以映射或不可映射短語的包括或排除各種語義標記的列表。根據(jù)本發(fā)明的一個優(yōu)選實施例,為每一個訓練全集的短語確定短語和對應的候選語義標記組之間全體組的映射概率。用這種方法為每一個短語和全部候選語義標記組所可能的組合計算給定短語分配給語義標記的概率,其產(chǎn)生自動學習或產(chǎn)生語法。根據(jù)本發(fā)明進一步的優(yōu)選實施例,根據(jù)該組映射概率的最高映射概率將語義標記映射到訓練全集的短語。這指的是標記到訓練全集的短語的映射或分配是通過用于給定短語該組映射概率的最高概率來確定。用于將語義標記映射到短語的方法因此明確的使用映射概率的確定。這種映射概率例如可以由訓練全集的短語和語義標記之間給定弱的注釋確定。通常,產(chǎn)生這種映射概率存在若干隨機意義。根據(jù)本發(fā)明進一步的優(yōu)選實施例,統(tǒng)計過程從而計算映射概率通過預期數(shù)值極限化(EM算法)執(zhí)行。EM算法對于HiddenMarkovModels(HMM)的前后(forwardbackward)訓練來說是公知的。用于計算映射概率EM算法的特定實施例在數(shù)學附錄中給出。根據(jù)本發(fā)明進一步的優(yōu)選實施例,語法可以從候選語義標記和短語之間執(zhí)行的映射中導出。優(yōu)選的計算和執(zhí)行的映射通過某種存儲裝置存儲以便將計算工作量保持在一個低水平上。最后,導出的語法可以適用于新的、未知的句子。當EM算法重復應用時本發(fā)明方法的總性能可以增強。在這種情況下EM算法反復操作的結果用作下一個反復操作的輸入。例如短語映射到標記的估計概率通過某種存儲裝置存儲并且能因此在EM算法的下一個應用中重新使用。同樣,以短語和標記之間弱注釋的形式或IEL的形式的初始條件可以根據(jù)按照EM算法預先執(zhí)行的映射過程來修改。為了測試用于語法學習基于EM算法的效率和可靠性,基于EM算法通過使用所謂的BostonRestaurantGuide全集實施。根據(jù)這種實施例的實驗說明了基于EM方法會產(chǎn)生比基于美國專利號2003/0061024A1中示出的交換算法的方法更好的結果,尤其當使用巨大的訓練全集的時候。此外,它還說明了基于EM方法的重復應用會持續(xù)改善所產(chǎn)生的語法。標記差錯率,其定義為錯誤映射標記和標記的總額之間的比率,顯示了當其描述為反復操作數(shù)目的函數(shù)時的單調遞減。在兩個乃至一個反復操作以后就已經(jīng)達到了標記差錯率的主要改進。在下文中,通過參考附圖將在更加細節(jié)上描述本發(fā)明的優(yōu)選實施例,其中附圖1說明了通過基于EM算法用于映射短語和標記的流程圖。附圖2顯示了示出用于EM算法子程序的表格L的動態(tài)編程設計的流程圖,附圖3說明了描述實施EM算法的流程圖。附圖1顯示了基于EM算法用于映射語義標記和短語的流程圖。在第一個步驟100中短語w從訓練全集句子中提取。在下一個步驟102中為每一個屬于無序標記列表K中的k(計算)映射概率p(k,w)。一旦為短語w計算一組映射概率,在下一個步驟104中確定該組映射概率p(k,w)中最高的概率。下一步106執(zhí)行短語w和語義標記k之間的映射。根據(jù)在步驟104確定的該組映射概率中最高的概率p(k,w)短語w映射到單個的標記k。用這種方法通過使用基于訓練全集的概率估算執(zhí)行語義標記k和短語w之間的映射。概率估算確定在訓練全集內語義標記k映射到短語w的可能性。當在步驟106執(zhí)行映射后在步驟108它通過某種存儲裝置存儲,以便提供該算法下一步應用執(zhí)行的映射。用這種方法,可以重復執(zhí)行以降低標記差錯率,并且因此增強全體語法學習過程的可靠性和效率。在步驟102執(zhí)行的映射概率的計算是基于EM算法的,其通過參考附圖2和附圖3以數(shù)學附錄的形式明確地加以解釋。根據(jù)EM算法的映射概率的計算基于兩個附加的概率,分別表示為L(i,k’)和R(i,k’),表示對于所有左邊子句子長度為i-1無序標記子表k′和從位置i+1訓練全集句子右邊子句子的無序補碼標記子表置換的概率。附圖2說明了計算概率L(i,k′)的流程圖。在第一個步驟200,在下一步202將標記子表i的索引初始化為i=1之前將i=0的初始概率設置為1(unity)。在下一個步驟204,每個長度為i的子表選自無序標記子表k′。在選擇每個子表以后在步驟206繼續(xù)計算過程,其中將置換的概率L(i,k′)=0設置為零。然后,在步驟208選擇屬于無序子表中的每一個標記k,以及接下來提供步驟210,其中置換概率是根據(jù)下式計算的L(i,k’)=L(i,k’)+L(i-1,k’\{k})··p(k|wi)計算L(i,k’)以后,在步驟212索引i和短語W中字的數(shù)目進行比較。如果i小于或等于|W|,那么通過將i增加1該過程返回到步驟204。否則,當i大于|W|,用于計算置換概率的過程在步驟214結束。一旦置換概率已經(jīng)根據(jù)附圖2描述的過程計算出來,那么就執(zhí)行一種模擬計算以便獲得右邊子句子的補碼子表的置換概率R。最后附圖3示出通過使用上述置換概率用于計算映射概率的EM算法的實施例。在步驟302選擇一個訓練全集句子之前,在第一個步驟300中通過設置q~=0]]>以及設置q~(k,w‾)=0]]>初始化對于所有標記k和短語w的概率p(k|w)。由于為語法學習考慮了訓練全集的每個句子,以下步驟304必須應用于訓練全集的所有句子。在步驟302選擇訓練全集的句子以后,在步驟304它得到進一步的處理,其中依次執(zhí)行步驟306、308、310和312。在步驟306,選擇無序標記列表k’以及有序短語列表W。在下一步308,如附圖2所述執(zhí)行表格L的動態(tài)編程設計。然后,在步驟310利用反向表格R執(zhí)行一個相似的過程。計算后的表格L和R以及初始化概率在步驟312作進一步的處理。步驟312可以解釋為i=1,i≤W的嵌套循環(huán)。對于每一個i,執(zhí)行步驟314初始化對于長度為i-1的每一無序子表的另一個循環(huán)。對于每個無序子表執(zhí)行步驟316選擇每個標記kk’并且在步驟318執(zhí)行以下計算q~′=L(i-1,k′)··q(k|Wi‾)··R(i+1,(k\k′)\{K}),]]>其中在步驟320作進一步的處理q~(k,Wi‾)=q~(k,Wi~)+q~′]]>以及q~=q~+q~′.]]>當在步驟316為每個標記kk’執(zhí)行了步驟318和320、在步驟314為每一個長度為i-1的無序子表執(zhí)行步驟316、在步驟312為每一個索引i<W執(zhí)行步驟314以及當最后為訓練全集的每一個句子執(zhí)行步驟312給出的全部過程后,在步驟322根據(jù)以下確定映射概率p~(k,W‾)=q~(k,W‾)/q~∀k,w]]>一旦確定映射概率,優(yōu)選地,它通過某種存儲裝置存儲。為了語法學習以及為了將標記映射到給定的短語,計算并存儲短語和候選語義標記所有可能組合的概率。最后,根據(jù)給定短語所有計算的概率的最大概率執(zhí)行語義標記到給定短語的映射。根據(jù)大量執(zhí)行的映射,語法最后被推導出來并且可以應用到來自自動化對話系統(tǒng)結構的其它的和由此未知的句子。尤其當EM算法重復地應用于訓練全集句子時,語法學習過程的總體效率得以增加而標記差錯率得以減小。數(shù)學附錄根據(jù)本發(fā)明的優(yōu)選實施例,給定短語W映射到語義標記k的映射概率通過預期數(shù)值極限化(EM)算法計算。EM算法的實施例和修改在本節(jié)描述。這里,遵循類似于HMMs的前后訓練的方法。基于EM語法學習的通用等式由以下給出p~(k,w‾)=ΣKp(K|W)·NK(k,w‾)ΣKp(K|W)ΣW‾′NK(k′,w‾′),---(1)]]>其中W是短語的序列,K是標記序列,w是短語,k是語義標記,NK(k,w)是k和w對于給定W和K產(chǎn)生的具體值,而P(K|W)給出了短語W的序列映射到標記順序K的概率。這種方法假定標記s的數(shù)目等于短語的數(shù)目。該方程式(1)的分子ΣKp(K|W)·NK(k,w‾)]]>K是對于每一個標記順序K將概率P(K|W)增加在這種標記順序中標記k映射到短語w的次數(shù)。這可以重寫如下ΣKp(K|W)·NK(k,w‾)=ΣKΣip(K|W)·δ(ki,k)·δ(wi‾,w‾)]]>其中δ(x,y)是常見的δ函數(shù)而p(k=k|W)是在短語字符串W的位置i處的短語w映射到標記k的總概率。同樣,對于等式(1)的分母以下的保持式ΣKp(K|W)·Σk′,w‾′NK(k′,w‾′)=Σk′,w‾′ΣKp(K|W)·NK(k′,w‾′)]]>=Σj,k′p(kj=k′|W),]]>產(chǎn)生判斷公式p~(k,w‾)=Σi:w‾i=w‾p(ki=k|W)Σi,k′p(ki=k′|W),]]>對于整個全集的評估,分子和分母必須是單獨地計算并且是為每一個全集句子進行疊加。等式(1)的核心概率p(ki=k|W)計算對于位置i的短語具有標記k的所有標記順序的概率。位置i的前后,所有剩余標記的置換是可能的。如果k是無序標記列表而π(k)是通過k該組所有可能的置換那么p(ki=k|W)=ΣK∉π(k):Ki=kp(K|W)]]>=ΣK∉π(k):ki=k(Πj=1i-1p(kj|w‾j))p(k|w‾i)·(Πj=i+1sp(kj|w‾j))]]>L(i-1,k′)是左邊子句子長度為i-1直到位置i-1上的無序標記子表k′的所有置換的概率,而R(i+1,(k\k′)\{k})是從位置i+1右邊子句子長度為s-i無序反碼標記子表(k\k′)\{k)的所有置換的概率。這些值可以遞歸的計算L(i,k′)=ΣK∉π(k′)Πj=1ip(kj|w‾j)]]>=Σk∈k′ΣK∈π(k′):ki=kΠj=1ip(kj|w‾j)]]>=Σk∈k′p(k|wi‾)ΣK∈π(k′\(k))Πj=1i-1p(kj|w‾j)]]>=Σk∉k′p(k|w‾i)·L(i-1,k′\{k}).---(3)]]>類似的,R(i,k′)=Σk∈k′p(k|w‾i)·R(i+1,k′\{k}).---(4)]]>存儲和再使用值等式L(i,k′)和R(i,k′)的值減少了計算成本。對于給定i,存在無序標記列表k′和因此Σi=1|k|-1|k|i·i]]>操作執(zhí)行完全計算表格L(同樣適用于表格R)。然而,還沒有發(fā)現(xiàn)對此的周密的形式或者優(yōu)良的評估,因此不清楚的是這種計算在它具有多項式計算時間的意義上是否不是有效的。EM算法的實施例是上述表達式的直接結果。該實施例更進一步的通過附圖2和3描述用于一個反復操作。關于該實施例有幾個地方需要注意由于技術原因,無序標記列表k的每個成分得到從1到|k|范圍的唯一索引。長度為i的無序子表k′表示為i維向量,其標量成分是來自參與k′的k成分的索引。該向量是12...i-1i→12...i-1i+1→···→12...i-1|k|→12...ii+1→···→|k|-i+1|k|-i+2...|k|-1|k|]]>連續(xù)遞增地獲得所有長度為i的無序列表。對于長度i的某些無序子表k′的訪問L(i,k′)是通過計算具有來自矢量表示k′的L(i,K’)=L(α)的索引α來實現(xiàn)的α=Σj=1i2αj-1]]>其中αj是矢量表示k′的第j個成分。到或從k′的標記的添加或清除反映在標記的索引中。用于訪問R(i,(k\k′)\{k))=R(β)所需要的標記的反碼無序列表的索引β容易地通過以下計算β=2|κ|-1-α-2n-1對于快速計算,存在第j項包括值2j的表格。列表R的動態(tài)編程計算是通過調用子程序執(zhí)行的,所述子程序使用動態(tài)編程來計算具有短語順序是反向的短語w列表的列表L,即w‾i′=w‾s-i+1]]>具有標記和短語數(shù)目不同的句子被丟棄。初始概率p(k,w)從一個文件中讀入并且p(w)計算p(k|w)以備用。該文件僅僅列出在一個ASCII行中k,w和評價的概率以相同的格式被寫入并且因此作為下一個反復操作的輸入。附圖2示出了一個流程圖,用于重復計算對于左邊子句子長度為i直到位置i的所有無序標記子表k′的置換的概率L(i,k′)。首先,在步驟202將索引設為i=1之前,在步驟200概率L(0,{})設置為1。在步驟204,循環(huán)開始并且選擇每一個長度為i的無序子表k′。在下一個步驟206,在下一步208選擇無序子表成分的每個標記k之前,為每一個選擇的無序子表的概率L(i,k′)設置為零即L(i,k′)=0。最后在步驟210,按照以下計算概率L(i,k′)L(i,k’)=L(i,k’)+L(i-1,k’\{k})·p(k|wi)在步驟212檢查索引i是否小于或者等于短語中的詞的數(shù)目。在步驟212如果i<|W|,那么i增加1,并且過程返回到步驟204。相反當i>|W|,那么過程在步驟214結束。相應地執(zhí)行計算對于從位置i+1右邊子句子無序補碼標記子表的所有置換的概率。附圖3說明根據(jù)EM算法計算映射概率的流程圖。在步驟302選擇一個訓練全集句子之前,在步驟300中通過設置q~=0]]>以及設置q~(k,W‾)=0]]>初始化對于所有標記k和短語w的概率p(k|w)。由于為語法學習考慮訓練全集的每個句子,以下步驟304必須應用于訓練全集的所有句子。在步驟302選擇訓練全集的句子以后,在步驟304它得到進一步的處理,其中依次實施步驟306、308、308、310和312。在步驟306,選擇無序標記列表k以及有序短語列表w。在下一步308,如附圖2所述執(zhí)行表格L的動態(tài)編程設計。然后,在步驟310利用反向表格R執(zhí)行一個相似的過程。計算的表格L和R以及初始化的概率在步驟312更進一步的處理。步驟312可以解釋為i=1,i≤|W|的嵌套循環(huán)。對于每一個i,執(zhí)行步驟314初始化對于長度為i-1的每一無序子表的另一個循環(huán)。對于每個無序子表執(zhí)行步驟316選擇每個標記kk′并且在步驟318執(zhí)行以下計算q~′=L(i-1,k′)··q(k|Wi‾)··R(i+1,(k\k′)\{K}),]]>其中q′在步驟320按照下式作進一步的處理□q~(k,Wi‾)=q~(k,Wi‾)+q~′]]>以及q~=q~+q~′]]>當在步驟316為每個標記kk’執(zhí)行了步驟318和320、在步驟314為每一個長度為i-1的無序子表執(zhí)行步驟316、在步驟312為每一個索引i≤|W|執(zhí)行步驟314以及當最后為訓練全集的每一個句子執(zhí)行步驟312給出的全部過程后,在步驟322根據(jù)以下確定映射概率p~(k,W‾)=q~(k,W‾)/q~∀k,w]]>權利要求1.一種將一組候選語義標記的語義標記分配給短語的映射概率的計算方法,其中映射概率的計算是通過根據(jù)一組組成全集句子的短語的統(tǒng)計過程執(zhí)行的,每一短語分配一組候選語義標記。2.根據(jù)權利要求1的方法,對于每一個短語進一步包括計算一組映射概率,提供為該組候選語義標記的每一個語義標記分配給短語的概率。3.根據(jù)權利要求2的方法,進一步包括確定具有該組映射概率中最高映射概率的該組候選語義標記中的一個語義標記,并且將這一個語義標記映射到短語。4.根據(jù)權利要求1到3任何一個的方法,其中統(tǒng)計過程包括預期數(shù)值極限化算法。5.根據(jù)權利要求3或4的方法,進一步包括以映射表的形式存儲候選語義標記和短語之間執(zhí)行的映射,以便導出適用于未知句子或未知短語的語法。6.一種計算一組候選語義標記的語義標記分配給短語的映射概率的計算機程序產(chǎn)品,其中映射概率的計算是通過根據(jù)一組組成全集句子的短語的統(tǒng)計過程執(zhí)行的,每一短語分配一組候選語義標記。7.根據(jù)權利要求6的計算機程序產(chǎn)品,對于每一個短語進一步包括程序裝置,用于計算一組映射概率,提供為該組候選語義標記的每一個語義標記分配給短語的概率。8.根據(jù)權利要求7的計算機程序產(chǎn)品,進一步包括程序裝置,用于確定具有該組映射概率中最高映射概率的該組候選語義標記的一個語義標記并且將這一個語義標記映射到短語。9.根據(jù)權利要求6到8任何一個的計算機程序產(chǎn)品,其中統(tǒng)計過程包括預期數(shù)值極限化算法。10.根據(jù)權利要求8或9的計算機程序產(chǎn)品,進一步包括程序裝置,用于以映射表的形式存儲候選語義標記和序列之間執(zhí)行的映射,以便導出適用于未知句子或未知序列的語法。11.一種用于將語義標記映射到短語的系統(tǒng),包括用于計算一組候選語義標記的語義標記分配給短語的映射概率的裝置,其中映射概率的計算是通過根據(jù)一組組成全集句子的短語的統(tǒng)計過程執(zhí)行的,每一短語分配一組候選語義標記。12.根據(jù)權利要求11的系統(tǒng),對于每一個短語進一步包括計算一組映射概率,提供為該組候選語義標記的每一個語義標記分配給短語的概率。13.根據(jù)權利要求12的系統(tǒng),進一步包括確定具有該組映射概率最高映射概率的該組候選語義標記的一個語義標記,并且將這一個語義標記映射到短語。14.根據(jù)權利要求11到13任何一個的系統(tǒng),其中統(tǒng)計過程包括預期數(shù)值極限化算法。15.根據(jù)權利要求13或14的系統(tǒng),進一步包括用于以映射表的形式存儲候選語義標記和序列之間執(zhí)行的映射以便導出適用于未知句子或未知序列的語法的裝置。全文摘要本發(fā)明涉及用于在弱的注釋句子的訓練全集內將語義標記映射到短語、從而產(chǎn)生可以適用于語言理解的未知句子的方法、系統(tǒng)和計算機程序產(chǎn)品。該方法基于給定短語映射到一組候選語義標記的一個語義標記的概率估算。語法的映射和產(chǎn)生是按照給定短語和該組候選語義標記映射概率中的最大映射概率執(zhí)行。特別地,映射概率的確定利用預期數(shù)值極限化算法。文檔編號G06F17/27GK1879148SQ200480033209公開日2006年12月13日申請日期2004年11月9日優(yōu)先權日2003年11月12日發(fā)明者S·C·馬丁申請人:皇家飛利浦電子股份有限公司