對話管理器的制造方法
【專利摘要】一種對話管理器,該對話管理器接收先前的用戶動(dòng)作以及先前的觀察和當(dāng)前的觀察。假設(shè)先前的用戶狀態(tài)和當(dāng)前的用戶狀態(tài)、先前的用戶動(dòng)作、當(dāng)前的用戶動(dòng)作、未來系統(tǒng)動(dòng)作和未來觀察。隱藏用戶狀態(tài)、用戶動(dòng)作和用戶觀察?;谟脩魻顟B(tài)、系統(tǒng)動(dòng)作、用戶動(dòng)作和觀察來提取特征矢量。使用所述特征矢量,基于對數(shù)線性模型來確定每個(gè)當(dāng)前的動(dòng)作的期望報(bào)酬。然后,輸出具有最佳期望報(bào)酬的當(dāng)前動(dòng)作。
【專利說明】
對話管理器
技術(shù)領(lǐng)域
[0001 ]本發(fā)明總體上設(shè)及文本和語音處理,并且更具體地設(shè)及對話管理器。
【背景技術(shù)】
[0002] 對話管理器是利用口頭的或者文本的對話來完成某些任務(wù)的系統(tǒng)。對話在用戶和 系統(tǒng)之間輪流交替。對話可W包括用戶動(dòng)作和系統(tǒng)動(dòng)作的序列。用戶動(dòng)作對系統(tǒng)隱藏。系統(tǒng) 根據(jù)觀察來確定用戶動(dòng)作。用戶具有同樣對系統(tǒng)隱藏的變化狀態(tài)。系統(tǒng)基于用戶語音或文 本鑒于先前的系統(tǒng)動(dòng)作和觀察使用規(guī)劃來確定下一個(gè)系統(tǒng)動(dòng)作。下面描述所述規(guī)劃。
[0003] 對話管理器可W是基于規(guī)則的,或使用統(tǒng)計(jì)框架(例如,部分可觀察馬爾可夫決策 過程(P0MDP))。在P0MDP對話系統(tǒng)中,由一組隨機(jī)變量表示對話。在每輪,對話包括表示用戶 說了什么的觀察變量、表示到目前為止對話的進(jìn)程的隱藏狀態(tài)變量W及所選擇的系統(tǒng)動(dòng) 作。P0MDP模型定義了兩個(gè)概率相關(guān)性:考慮到先前狀態(tài)和系統(tǒng)動(dòng)作的當(dāng)前狀態(tài)的條件概 率;W及考慮到當(dāng)前狀態(tài)和先前系統(tǒng)動(dòng)作的觀察的條件概率。
[0004] 報(bào)酬函數(shù)針對每輪指定適合性標(biāo)準(zhǔn)(fitness criterion)作為該輪的狀態(tài)和所選 擇的動(dòng)作的函數(shù)。給定回報(bào)函數(shù),能夠確定提供考慮到在當(dāng)前時(shí)刻對狀態(tài)分布的了解的最 佳系統(tǒng)動(dòng)作的策略。然后,該策略可W被用于在對話過程中生成系統(tǒng)動(dòng)作。選擇系統(tǒng)動(dòng)作W 便使報(bào)酬變得最大被稱為規(guī)劃。
[0005] 為了擁有工作系統(tǒng)(working system),需要估計(jì)定義P0MDP中的概率的模型參數(shù)。 該估計(jì)被稱為學(xué)習(xí)。通常使用最大似然(ML)準(zhǔn)則而不是使用報(bào)酬函數(shù)來估計(jì)運(yùn)些參數(shù)。例 如,可W使用最大似然動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(DBN)。運(yùn)些方法的主要問題在于使用不同的準(zhǔn)則分 別且單獨(dú)地對規(guī)劃和學(xué)習(xí)進(jìn)行優(yōu)化。另外,規(guī)劃和學(xué)習(xí)是眾所周知困難的優(yōu)化問題,因?yàn)橥?理在大到足W處理實(shí)際問題的變量空間中變得棘手。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的實(shí)施方式提供基于統(tǒng)計(jì)對話框架的文本和口頭對話系統(tǒng)。與傳統(tǒng)方法中 使用的生成式模型相比,本發(fā)明基于對數(shù)線性模型框架使用判別式模型來表示系統(tǒng)動(dòng)作、 觀察W及其它信息之間的關(guān)系。然后,考慮到先前的觀察和系統(tǒng)動(dòng)作,對話管理器通過使用 置信傳播(BP)過程直接優(yōu)化期望報(bào)酬來輸出適當(dāng)?shù)南到y(tǒng)動(dòng)作。
[0007] 由于本發(fā)明使用對數(shù)線性模型,在對話期間獲得的各種特征可W被并入該模型 中??蒞通過使用基于置信傳播過程的對話數(shù)據(jù)來統(tǒng)計(jì)訓(xùn)練對數(shù)線性模型中的參數(shù)W使用 精確的系統(tǒng)動(dòng)作來提高性能。
[000引實(shí)施方式提供一種具有一致的優(yōu)化準(zhǔn)則的優(yōu)點(diǎn)并且同時(shí)對于優(yōu)化更有效的相干 系統(tǒng)。使用對數(shù)線性概率分布來建模對話系統(tǒng)。因此,本發(fā)明提供一種對數(shù)線性對話管理 器。
[0009]由于條件隨機(jī)字段(CRF)的引入,對數(shù)線性分布已經(jīng)被用于對序列建模。雖然對數(shù) 線性模型通常無法表示所有的分布族(dis化ibution化mi lies),但是它們對特征函數(shù)的 靈活使用使得模型能夠表示概率模型的廣泛的族。由于模型是馬爾可夫鏈,因此針對優(yōu)化 可W利用有效的過程。尤其是,實(shí)施方式優(yōu)化沿時(shí)間軸的報(bào)酬的總和。
[0010] 為了表示可能狀態(tài)、用戶動(dòng)作和系統(tǒng)動(dòng)作的空間,使用上下文無關(guān)文法(CFG),可 能狀態(tài)、用戶動(dòng)作和系統(tǒng)動(dòng)作中的每一個(gè)都是基于與對話系統(tǒng)的域相關(guān)的語義表征的曲線 圖。
[0011] 代替成為簡單的多項(xiàng)式,隨機(jī)變量在由CFG生成的分析樹的空間中取值。運(yùn)提供了 能夠進(jìn)行大范圍的特征的提取的豐富的結(jié)構(gòu)。由于對數(shù)線性模型中固有的對特征的靈活使 用,作為特殊情況,運(yùn)些特征可W被設(shè)計(jì)成使得對話系統(tǒng)表現(xiàn)得與基于傳統(tǒng)規(guī)則的對話系 統(tǒng)完全一樣。運(yùn)是通過將對話系統(tǒng)的規(guī)則實(shí)現(xiàn)為指示函數(shù)特征并初始化參數(shù)W使得對數(shù)線 性概率分布對應(yīng)于運(yùn)些規(guī)則來完成的。
【附圖說明】
[0012] [圖 1]
[0013] 圖1是根據(jù)本發(fā)明的實(shí)施方式的對話管理器的規(guī)劃部分的流程圖。
[0014] [圖 2]
[0015] 圖2是根據(jù)本發(fā)明的實(shí)施方式的對話管理器的學(xué)習(xí)部分的流程圖。
[0016] [圖 3]
[0017] 圖3是根據(jù)本發(fā)明的實(shí)施方式的示例性分析樹。
[001 引[圖 4]
[0019] 圖4是根據(jù)本發(fā)明的實(shí)施方式的示例性狀態(tài)的分析樹。
[0020] [圖 5]
[0021] 圖5是用于圖4的分析樹的示例性產(chǎn)生式規(guī)則的框圖。
【具體實(shí)施方式】
[0022] 規(guī)劃
[0023] 如圖1和圖2所示,我們的發(fā)明的實(shí)施方式提供一種對數(shù)線性對話管理器。該系統(tǒng) 包括規(guī)劃部分100和學(xué)習(xí)部分200。如現(xiàn)有技術(shù)已知的,可W在通過總線連接至存儲(chǔ)器和輸 入/輸出接口的處理器150和250中執(zhí)行用于運(yùn)兩個(gè)部分的方法??蒞將處理器150和250組 厶 1=1 〇
[0024] 系統(tǒng)模型
[0025] 我們的概率模型在每個(gè)時(shí)間步長t具有四個(gè)變量。兩個(gè)變量是可觀察變量:系統(tǒng)動(dòng) 作at 102和觀察ot 101。另外兩個(gè)變量是被推導(dǎo)出的兩個(gè)潛變量:用戶動(dòng)作ut 201和狀態(tài) St 〇
[0026] 對話的每個(gè)步驟如下進(jìn)行?;谥钡綍r(shí)刻t-1的所有先前的系統(tǒng)動(dòng)作和先前的觀 察,系統(tǒng)利用詢問at-i提示用戶。由ot表示用戶的響應(yīng)。在一個(gè)實(shí)施方式中,ot是由用戶說出 的詞的序列。然而,應(yīng)當(dāng)理解,響應(yīng)可W是鍵入的文本,或者響應(yīng)可W通過其它手段進(jìn)入系 統(tǒng)。
[0027] 響應(yīng)的含義由用戶動(dòng)作Ut來表示,用戶動(dòng)作可W根據(jù)觀察來推斷。可W基于系統(tǒng) 動(dòng)作at-i和用戶動(dòng)作UtW及先前狀態(tài)st-i來推斷新的狀態(tài)St。在我們的系統(tǒng)中,狀態(tài)St表示用 戶的意圖,雖然通常其也可w包括附加的上下文信息。
[002引使用下標(biāo)冒號(hào)來表不序列,例如,so:T = {so, S1,, st},由四個(gè)變量序列so:T、ao:T、 01:T、U1:T表示持續(xù)時(shí)間T的對話會(huì)話。
[0029] 圖3示出了如由因子圖表示的用于對話會(huì)話的模型,針對我們的對數(shù)線性模型,該 因子圖與所述變量的W下聯(lián)合概率分布相對應(yīng)。
[0030]
[0031] 其中,Ze是歸一化常數(shù),Φ/和Wg是特征函數(shù)的矢量,并且和分別是相應(yīng)模型 參數(shù)的矢量。
[003^ 在時(shí)亥lJt = T,st+i和Ut+1是未定義的,所W如因子圖的因子fT中所示。在時(shí)亥lJt = T, 我們將<P/定義為僅其前兩個(gè)輸入的函數(shù)。為了簡化符號(hào),我們也定義了下面的矢量:
[003引是口(3日:1',日日:了,111:1',01:1')的配分函數(shù)。
[0039] 變量空間
[0040] 我們讓S、U、A和0分別表示變量空間(即,針對變量st、ut、at和ot的所有可能的值的 集合)。每個(gè)觀察OE0可W是波形、聲學(xué)特征、所識(shí)別的文本、和/或語言特征。我們使用〇e〇 來表示輸入序列,并且我們將變量空間0定義為詞匯組V中的詞的所有序列的集合。
[0041] 我們使用包括一組產(chǎn)生式規(guī)則的上下文無關(guān)文法(CFG)來定義變量空間S、U、和A 中的每一個(gè)變量空間。每個(gè)變量空間都被定義為可W由其CFG生成的所有可能的分析樹的 集合。
[0042] 圖5示出了定義變量空間S的CFG中的產(chǎn)生式規(guī)則中的一些。S中的每個(gè)分析樹都是 狀態(tài)St的可能值。圖5示出了針對狀態(tài)St的一個(gè)可能值,該值是使用圖4中的黑體字所示的產(chǎn) 生式規(guī)則生成的S中的一個(gè)分析樹。在圖4中,在引號(hào)中括起了末端(terminal),而非末端 (non-terminal)沒有用引號(hào)括起。變量$4003655$可^利用其它產(chǎn)生式規(guī)則進(jìn)一步擴(kuò)展或 者作為自由變量保留。
[0043] 特征值
[0044] 如在圖3中的因子圖W及等式(1)中可見,在我們的模型中存在兩種類型的因子。 表示為f的第一類型因子對先前和當(dāng)前狀態(tài)、系統(tǒng)動(dòng)作和用戶動(dòng)作之間的統(tǒng)計(jì)依賴關(guān)系進(jìn) 行建模。表示為g的第二類型因子對觀察到的詞序列與它們的語義解釋之間的依賴關(guān)系進(jìn) 行建模。對于使用CFG定義其空間的變量,我們將每個(gè)變量值(每個(gè)分析樹)看作一組活躍的 產(chǎn)生式規(guī)則。例如,圖5的分析樹中活躍的產(chǎn)生式規(guī)則在圖4的產(chǎn)生式規(guī)則中W黑體字示出。
[0045] 假設(shè)Gs、Gu和Ga分別是為S(狀態(tài))、U(用戶動(dòng)作)和A(系統(tǒng)動(dòng)作促義變量空間的CFG 中的產(chǎn)生式規(guī)則的集合。對于因子g,我們將用戶動(dòng)作中的每個(gè)產(chǎn)生式規(guī)則與用于相關(guān)聯(lián)的 詞序列的語言模型相關(guān)聯(lián)。具體地,考慮到用戶動(dòng)作ut和觀察ot,我們擁有形式 1 /(曰,1 i pty e<v/的特征值,其表示指示函數(shù),當(dāng)且僅當(dāng)特定產(chǎn)生式規(guī)則 k E Gu在用戶動(dòng)作Ut 的分析樹中是活躍的并且特定的雙字母組Wi-lWi存在于觀察ot的詞序列中時(shí),該指示函數(shù)等 于1。
[0046] 靠近樹的根出現(xiàn)的用于產(chǎn)生式規(guī)則的語言模型對一般類型的話語進(jìn)行建模,而靠 近樹的葉出現(xiàn)的產(chǎn)生式規(guī)則更加??诨?。對于因子f,我們可W考慮協(xié)同出現(xiàn)的產(chǎn)生式規(guī) 貝1J。例如,設(shè)及兩種特定的產(chǎn)生式規(guī)則k,k/ EGs的特征皮'6&當(dāng)且僅當(dāng)k在狀態(tài)st-i中 是活躍的并且k/在狀態(tài)St中是活躍的時(shí)等于1。通常在對話系統(tǒng)中可見的特征類型的另一 種類型是巧也需要產(chǎn)生式規(guī)則jEGA在系統(tǒng)動(dòng)作at-i中是活躍的。該 特征表示特定的系統(tǒng)動(dòng)作趨向于引起特定的狀態(tài)轉(zhuǎn)換。
[0047] 規(guī)劃和學(xué)習(xí)
[0048] 對話管理器需要解決的兩個(gè)基本問題是規(guī)劃100和學(xué)習(xí)200。我們假設(shè)存在評(píng)估我 們的模型的報(bào)酬函數(shù)r:SXA^r。我們現(xiàn)在就報(bào)酬函數(shù)來描述規(guī)劃和學(xué)習(xí)。
[0049] 規(guī)劃
[0050] 在時(shí)刻τ的規(guī)劃是考慮到所有先前的系統(tǒng)動(dòng)作ao:T-i和觀察οι:τ來確定最佳系統(tǒng)動(dòng) 作at的問題。假設(shè)對話具有持續(xù)時(shí)間Τ。我們將規(guī)劃問題定義為確定atW最大化期望報(bào)酬Ε作 為目標(biāo)函數(shù)
[0051 ]
巧)
[0052] 期望值是在未給出所有變量(即,所有狀態(tài)、所有用戶動(dòng)作W及所有未來系統(tǒng)動(dòng)作 和觀察)的情況下獲取的。
[0053] 可W通過假設(shè)每個(gè)動(dòng)作at、鑒于使用和-積過程的動(dòng)作確定期望的報(bào)酬、W及選擇 最大化的期望報(bào)酬的動(dòng)作來精確地優(yōu)化目標(biāo)函數(shù)。
[0054] 然而,為了便于實(shí)現(xiàn)與迅速起見,我們?nèi)《貎?yōu)化從詹森(Jensen)的不等式 獲得的目標(biāo)函數(shù)的變分下界(objective's variational lower bound)
[0055]
(')
[0056] 其中,丫 t是變分參數(shù),使得It 丫 t=l。雖然可W使用期望最大化化Μ)過程優(yōu)化 丫 t,但是我們采用丫 t=l/(T+l)來進(jìn)一步簡化計(jì)算。
[0057] 該乘積形式具有所述報(bào)酬隨時(shí)間因式分解的優(yōu)良的性能。換言之,等式(6)可W被 擴(kuò)展為
[005引
優(yōu)
[0059] 其中,Z/是具有給定的ao:T-i、oi:T的P的配分函數(shù)。現(xiàn)在,可W通過具有用于報(bào)酬的 附加項(xiàng)的圖解模型上的傳統(tǒng)的和-積過程來確定最佳的at。
[0060] 首先,我們采集從圖解模型的兩端到時(shí)間τ的信度(belief),并且確定使等式(6)最 大化的at。如果我們明確地寫出置信傳播,則其將變成向前-向后過程。例如,從因子節(jié)點(diǎn)ft 到變量節(jié)點(diǎn)st+i的向前消,1
通過W下使用時(shí)間t到t+1的(非歸一化)概率分 布
和
的求和來確定:
[0061]
[006^ 運(yùn)里,。/二從變量節(jié)點(diǎn)at到因子節(jié)點(diǎn)ft的消息。我們可W使用任何分布,包括 其中我們不假設(shè)at的任何先驗(yàn)分布的均勻分布
曼從變量節(jié)點(diǎn)St到因子節(jié)點(diǎn)ft的 消息。>從先前的步驟遞歸地來確定。
[0063] 從變量節(jié)點(diǎn)ut+i到因子節(jié)點(diǎn)ft的消息夫
該消息從如下分布被確定 為
[0064]
[00化]因此,我們避免對序歹
也可W有效 地確定其它消息而無需基于置信傳播方法計(jì)算序列的總和。
[0066]注意,使用和-積過程對特征動(dòng)作進(jìn)行平均化不同于尋求最大化未來系統(tǒng)動(dòng)作的 報(bào)酬的傳統(tǒng)的P0MDP優(yōu)化。在對其它變量使用和-積的同時(shí),也可W對at使用最大積過程,W 實(shí)現(xiàn)對未來系統(tǒng)動(dòng)作的最大化。然而,模型本身包含提供對未來動(dòng)作的預(yù)測分布的隨機(jī)策 略。
[0067] 學(xué)習(xí)
[0068] 學(xué)習(xí)部分200類似于規(guī)劃,區(qū)別在于不確定最佳動(dòng)作,我們對確定最佳模型參數(shù)更 感興趣。換言之,我們期望找到Θ103使得看到所有的系統(tǒng)動(dòng)作ao:T和所有的觀察οι:τ而使期 望報(bào)酬最大化 W 例
(g)
[0070] 此外,對未給定的所有變量(即,所有狀態(tài)和所有用戶動(dòng)作)取期望值。類似于規(guī)劃 部分,運(yùn)里我們也可W使用等式(8)的變分下界。
[0071] 我們使用梯度下降來優(yōu)化學(xué)習(xí)目標(biāo)。通常,對于任何效用函數(shù)v(x)和基于對數(shù)線 性模型的形式的概率分布
[0075] 注意,對于Θ中的每個(gè)參數(shù)θι,該導(dǎo)數(shù)是相應(yīng)特征φι與效用之間的協(xié)方差。因此,當(dāng) 與效用負(fù)相關(guān)的運(yùn)些相應(yīng)特征減少時(shí),對應(yīng)于與效用明確相關(guān)的特征的參數(shù)增加。
[0076] 將該規(guī)律應(yīng)用于我們的模型給出:
[0077] (11)
[007引其中,使用口(3日山山:了|日日:了,01:了)確定期望值。在一般情況下,可能難^確定運(yùn)些 量。我們使用粒子置信傳播。
[0079] 粒子置信傳播
[0080] 由于變量空間太大而被邊緣化(marginalize),所W我們使用粒子置信傳播來解 決該問題。
[0081 ]通過邊緣化S t、a t和U t +1,考慮從因子節(jié)點(diǎn)f t傳遞到變量節(jié)點(diǎn)S t +1的消息
[0082]
[0083]如果我們利用重要性采樣重寫總和,則針對通過其確定期望值的一些采樣分布Jit (a)、3Tt(U)、3Tt(S),我們獲得
[0087] 來近似期望值。
【主權(quán)項(xiàng)】
1. 一種對話管理器,所述對話管理器包括以下步驟: 接收先前的用戶動(dòng)作以及先前的觀察和當(dāng)前的觀察; 假設(shè)先前的用戶狀態(tài)和當(dāng)前的用戶狀態(tài)、先前的用戶動(dòng)作、當(dāng)前的用戶動(dòng)作、未來的系 統(tǒng)動(dòng)作和未來的觀察,其中,隱藏所述用戶狀態(tài)、所述用戶動(dòng)作和所述用戶觀察; 基于所述用戶狀態(tài)、所述系統(tǒng)動(dòng)作、所述用戶動(dòng)作和所述觀察來提取特征矢量; 使用所述特征矢量,基于對數(shù)線性模型來確定各個(gè)當(dāng)前的動(dòng)作的期望報(bào)酬;以及 輸出具有最佳期望報(bào)酬的所述當(dāng)前的動(dòng)作,其中,上述步驟在處理器中執(zhí)行。2. 根據(jù)權(quán)利要求1所述的對話管理器,其中,概率模型在每個(gè)時(shí)間步長t具有四個(gè)變量, 所述四個(gè)變量包括兩個(gè)可觀察變量和兩個(gè)潛變量,所述兩個(gè)可觀察變量包括所述系統(tǒng)動(dòng)作 &和所述觀察 〇t,并且所述兩個(gè)潛變量包括所述用戶動(dòng)作ut和所述用戶狀態(tài)st。3. 根據(jù)權(quán)利要求2所述的對話管理器,其中,由四個(gè)變量序列8()1、3(^、011、1111表示持 續(xù)時(shí)間T的對話會(huì)話。4. 根據(jù)權(quán)利要求3所述的對話管理器,其中,所述對話會(huì)話由因子圖表示,所述因子圖 與聯(lián)合概率分布相對應(yīng),其中,20是歸一化常數(shù),Φ/'和是所述特征矢量,并且0£和08分別是相應(yīng)模型 參數(shù)的矢量。5. 根據(jù)權(quán)利要求1所述的對話管理器,其中,所述觀察是口述詞語或文本。6. 根據(jù)權(quán)利要求3所述的對話管理器,其中,S、U、A和0分別表示變量空間,所述變量空 間是針對所述變量st、ut、a t和〇t的所有可能的值的集合。7. 根據(jù)權(quán)利要求6所述的對話管理器,所述對話管理器還包括以下步驟: 使用包括一組產(chǎn)生式規(guī)則的上下文無關(guān)文法(CFG)來定義所述變量空間S、U和A。8. 根據(jù)權(quán)利要求7所述的對話管理器,其中,每個(gè)變量空間都被定義為能夠由所述CFG 生成的所有可能的分析樹的集合。9. 根據(jù)權(quán)利要求3所述的對話管理器,其中,考慮到所有先前的系統(tǒng)動(dòng)作ao:^和先前的 觀察〇1:τ,所述對話管理器的規(guī)劃部分確定最佳系統(tǒng)動(dòng)作10. 根據(jù)權(quán)利要求3所述的對話管理器,所述對話管理器還包括以下步驟: 使目標(biāo)函數(shù)最大化以確定所述期望報(bào)酬。11. 根據(jù)權(quán)利要求10所述的對話管理器,所述對話管理器還包括以下步驟: 優(yōu)化所述目標(biāo)函數(shù)上的變分下界。12. 根據(jù)權(quán)利要求10所述的對話管理器,其中,使用梯度下降來優(yōu)化所述目標(biāo)函數(shù)。13. 根據(jù)權(quán)利要求10所述的對話管理器,其中,使用粒子置信傳播來優(yōu)化所述目標(biāo)函 數(shù)。
【文檔編號(hào)】G06F17/30GK105830058SQ201480068215
【公開日】2016年8月3日
【申請日】2014年11月21日
【發(fā)明人】渡部晉治, H·唐
【申請人】三菱電機(jī)株式會(huì)社