两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種淺層自然口語理解系統(tǒng)及方法

文檔序號(hào):6471781閱讀:338來源:國知局
專利名稱:一種淺層自然口語理解系統(tǒng)及方法
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言理解領(lǐng)域,特別一種口語理解的系統(tǒng)及方法。
背景技術(shù)
自然口語理解(Spoken Language Understanding—SLU)系統(tǒng)執(zhí)行著將輸入的字符 序列轉(zhuǎn)化為對(duì)應(yīng)的語義表示的職能。在口語對(duì)話系統(tǒng)中,語音識(shí)別模塊將用戶的語 音信號(hào)識(shí)別為文字序列;隨后文字序列輸入到自然口語理解模塊,自然口語理解模 塊對(duì)文字序列的語義進(jìn)行識(shí)別,送給對(duì)話管理模塊;對(duì)話管理模塊再生成對(duì)用戶的 回復(fù)信息,從而完成了與用戶的對(duì)話,如圖l所示。
通常,口語理解任務(wù)可以分解為關(guān)鍵命名實(shí)體識(shí)別(Named Entity Recognition, NER)子任務(wù)和意圖(或語力)識(shí)別子任務(wù)。其中命名實(shí)體識(shí)別和抽取任務(wù)在自然 語言信息提取(Information Extraction, IE)中應(yīng)用比較廣泛。
NER通常的方法是對(duì)輸入字詞序列進(jìn)行序列分類,通過判斷序列中每一個(gè)字是 否屬于某個(gè)命名實(shí)體來確定整個(gè)序列中出現(xiàn)的命名實(shí)體。如圖2所示,其中X表示 觀察序列,C表示在各個(gè)觀察點(diǎn)通過分類得到的分類標(biāo)記序列。由圖中的分類標(biāo)記 序列C得到2個(gè)實(shí)體"中關(guān)村"屬于類別loc(地點(diǎn)類),"中國銀行"屬于類別bank (銀行類)。
常用的基于統(tǒng)計(jì)學(xué)習(xí)的序列分類方法有隱馬爾可夫模型(Hidden Markov Model)、最大熵模型(Maximum Entropy Model)、條件隨機(jī)場(chǎng)模型(Conditional Random Field)、 AdaBoost模型以及混合模型等等。
最大熵模型是一種區(qū)分型模型,主要的工作原理如公式(l)所示,其中;K。lx,) 表示在輸入序列x的第/時(shí)刻觀察到j(luò)c,的條件下,該時(shí)刻的觀察屬于。類的后向概 率。對(duì)于同一個(gè)觀察;c,,獲得后向概率最大c就是最優(yōu)的類。對(duì)于輸入序列所有的點(diǎn) 求取最優(yōu)分類,就得出相應(yīng)的分類標(biāo)記序列C。
<formula>formula see original document page 6</formula>
其中。{/ = 1,...,《/}的定義可以根據(jù)任務(wù)領(lǐng)域的特點(diǎn),事先自行定義感興趣的實(shí)體。 例如在一個(gè)周邊生活信息搜索應(yīng)用中,我們可以定義地點(diǎn)、銀行、飯店、旅館、電 影院、醫(yī)院、加油站和運(yùn)動(dòng)場(chǎng)館等實(shí)體。/ ,{m-l,...,M)是預(yù)定義好的特征函數(shù),Am {附=1,...,肘}是與// 相對(duì)應(yīng)的參數(shù),zoo是歸一化參數(shù)。

發(fā)明內(nèi)容
為了克服上述現(xiàn)有技術(shù)的不足,本發(fā)明在借鑒NLU中命名實(shí)體識(shí)別方法的基礎(chǔ) 上,針對(duì)口語理解應(yīng)用中輸入語句存在大量噪音(口語的重復(fù)、填充詞等口語現(xiàn)象 和ASR識(shí)別錯(cuò)誤等)的情況下,設(shè)計(jì)一個(gè)淺層的處理方式,在能夠耐受大部分噪音, 抽取出語句中的關(guān)鍵信息,從而實(shí)現(xiàn)魯棒性口語理解。
為了達(dá)到上述目的,本發(fā)明提供的一種淺層自然口語理解系統(tǒng)及方法是基于最大 熵模型實(shí)現(xiàn)命名實(shí)體識(shí)別和語力的淺層理解。
在最大熵統(tǒng)計(jì)學(xué)習(xí)模型的框架下,通過精心設(shè)計(jì)一組特征函數(shù)集合,實(shí)現(xiàn)盡可能 避免噪聲影響的同時(shí)又最大化的利用可用的上下文信息,從而較好的提高識(shí)別性能。 特征函數(shù)集合可以分成以下三個(gè)主要部分
1、 詞匯信息通過利用各個(gè)實(shí)體類和非實(shí)體經(jīng)常出現(xiàn)的詞匯幫助對(duì)當(dāng)前類別的
判別。如詞"請(qǐng)問"是常見的非實(shí)體詞,那么如果當(dāng)前詞是"請(qǐng)問",就容易判定當(dāng) 前詞屬于非實(shí)體類。
2、 句子上下文信息通常在實(shí)體的前、后會(huì)有一些特定的詞匯,如"我在中關(guān) 村"中作為地點(diǎn)實(shí)體的"中關(guān)村"前面經(jīng)常會(huì)出現(xiàn)"在"、"從"、"到"等等這類關(guān) 鍵詞,所以這些上下文信息對(duì)于實(shí)體類別的判定具有指向作用。
3、 實(shí)體的知識(shí)信息本系統(tǒng)利用已有的實(shí)體知識(shí)庫,通過設(shè)計(jì)一種限定的模糊 匹配算法,在輸入語句中探測(cè)并識(shí)別出知識(shí)庫中己有的命名實(shí)體。
本發(fā)明提供的一種淺層自然口語理解系統(tǒng),該系統(tǒng)包括
一預(yù)處理模塊,用于將輸入的口語中無意義的填充詞去除,并將預(yù)處理后的語 音序列輸出。
一詞匯特征提取模塊,用于通過各個(gè)實(shí)體類和非實(shí)體類經(jīng)常出現(xiàn)的詞匯,判斷 預(yù)處理后的語音序列中的詞的實(shí)體類別,并將該實(shí)體類別送入最大熵分類模塊。
一上下文特征提取模塊,用于通過實(shí)體前、后的特定的詞匯,判斷預(yù)處理后的 語音序列中的詞的實(shí)體類別,并將該實(shí)體類別送入最大熵分類模塊。
一實(shí)體模糊匹配模塊,用于利用實(shí)體知識(shí)庫,通過模糊匹配算法,在輸入的預(yù) 處理后的語音序列中探測(cè)并識(shí)別出知識(shí)庫中已有的實(shí)體類別,并將該實(shí)體類別送入 最大熵分類模塊。
一最大熵分類模塊,用于對(duì)輸入的實(shí)體類別的所有點(diǎn)取最優(yōu)分類,得到相應(yīng)的
分類標(biāo)記序列,并將該分類標(biāo)記序列送入維特比(Viterbi)搜索模塊。及一 Viterbi搜索模塊,用于在輸入的分類標(biāo)記序列上搜索最優(yōu)路徑,最終得到命 名實(shí)體。
其中,所述詞匯特征提取模塊包括-
一單字特征考察模塊,用于利用訓(xùn)練語料生成單字特征函數(shù),并根據(jù)單字特征 函數(shù),考察語音序列中的單字特征,判斷當(dāng)前單字的實(shí)體類別。
一雙字特征考察模塊,用于考察語音序列中的雙字特征,并根據(jù)生成的雙字特 征函數(shù),判斷當(dāng)前雙字的實(shí)體類別。
一常見字與雙字考察模塊,用于從訓(xùn)練語料中通過統(tǒng)計(jì)方法獲得每一類別的常 見字和雙字的集合,并利用命名實(shí)體種類數(shù)量定義各個(gè)常見字特征函數(shù),然后根據(jù) 該集合及各個(gè)常見字特征函數(shù)得到當(dāng)前字或者雙字的常見字特征,判斷當(dāng)前字或者 雙字的實(shí)體類別。
其中,所述上下文特征提取模塊進(jìn)一步包括
一考察當(dāng)前觀察前一個(gè)觀察點(diǎn)己經(jīng)標(biāo)記的類別,利用前一觀察點(diǎn)類別這一歷史 信息幫助當(dāng)前觀察點(diǎn)類別的判別的模塊-,
一考察當(dāng)前觀察前面的詞是否某個(gè)實(shí)體類別的"觸發(fā)詞",通過"觸發(fā)詞"的出
現(xiàn)幫助判別當(dāng)前觀察是否屬于某個(gè)類別的模塊;
其中,所述實(shí)體模糊匹配模塊包括
一匹配偏移點(diǎn)計(jì)算模塊,用于對(duì)輸入的語音序列中的匹配點(diǎn)進(jìn)行偏移處理,并 將處理后的結(jié)果送入預(yù)匹配模塊。
一預(yù)匹配模塊,用于將當(dāng)前輸入的字符串與己知類別的實(shí)體匹配首先抽取已
知實(shí)體庫內(nèi)所有實(shí)體的前兩個(gè)雙字^A和^'^'2,形成map數(shù)據(jù)結(jié)構(gòu)n^ne一bg;所 述map數(shù)據(jù)結(jié)構(gòu)m—ne—bg的"鍵"是被抽取的所有實(shí)體的前兩個(gè)雙字^ X、和x'i ^ , 這些雙字對(duì)應(yīng)的值為實(shí)體列表;然后,考察經(jīng)過偏移的當(dāng)前雙字"'+^'"+1,如果該雙 字和map數(shù)據(jù)結(jié)構(gòu)m_ne—bg中的某個(gè)key "鍵"(即實(shí)體的前兩個(gè)雙字)相同,則預(yù) 匹配成功,且待匹配的實(shí)體就是對(duì)應(yīng)鍵值中的所有實(shí)體;其中,t表示當(dāng)前時(shí)刻,s 表不偏移量。
一實(shí)體匹配程度計(jì)算模塊,用于利用列維斯坦(Levenstein)最小編輯距離定義 匹配程度的度量,并將匹配度最高的實(shí)體類別輸出,公式如下-
p — " "/eve"敗w
few
其中,/e"是待匹配實(shí)體的長(zhǎng)度;A^",^是當(dāng)前字符串和實(shí)體的Levenstein最小編輯距離;當(dāng)完全匹配時(shí)Z),w^為0, p為1,表示最高匹配程度;當(dāng)完全不匹配 時(shí)A,幽為&", p為0,表示最低的匹配程度。
一yO門限值設(shè)定模塊,用于設(shè)定p的門限值,匹配度大于或等于p門限值的字 符串即被識(shí)別為實(shí)體類別。
本發(fā)明提供的一種淺層自然口語理解方法,包括以下步驟
(1) 對(duì)輸入語句進(jìn)行預(yù)處理 預(yù)處理模塊將輸入的語句中無意義的填充詞去除,并將預(yù)處理后的語音序列輸出。
(2) 經(jīng)預(yù)處理后,對(duì)語句的每個(gè)時(shí)刻的觀察抽取特征,包括以下子步驟
(21) 詞匯特征的提取 詞匯特征提取模塊通過各個(gè)實(shí)體類和非實(shí)體類經(jīng)常出現(xiàn)的詞匯,判斷預(yù)處理后
的語音序列中的詞的實(shí)體類別,并將該實(shí)體類別送入最大熵分類模塊。
(22) 上下文特征的提取
上下文特征提取模塊通過實(shí)體前、后的特定的詞匯,判斷預(yù)處理后的語音序列 中的詞的實(shí)體類別,并將該實(shí)體類別送入最大熵分類模塊。
(23) 實(shí)體的模糊匹配
實(shí)體模糊匹配模塊利用實(shí)體知識(shí)庫,通過模糊匹配算法,在輸入的預(yù)處理后的 語音序列中探測(cè)并識(shí)別出知識(shí)庫中已有的實(shí)體類別,并將該實(shí)體類別送入最大熵分 類模塊。
(3) 最大熵分類-
最大熵分類模塊對(duì)輸入的實(shí)體類別的所有點(diǎn)取最優(yōu)分類,得到相應(yīng)的分類標(biāo)記
序列,并將該分類標(biāo)記序列送入Viterbi搜索模塊。
(4) 搜索最優(yōu)路線、提取命名實(shí)體
Viterbi搜索模塊在lr入的分類標(biāo)記序列上搜索最優(yōu)路徑,最終得到命名實(shí)體。 其中,所述步驟(21)進(jìn)一步包括以下子步驟-
(211) 單字特征考察模塊用訓(xùn)練語料生成單字特征函數(shù),并根據(jù)單字特征函數(shù), 考察語音序列中的單字特征,判斷當(dāng)前單字的實(shí)體類別。
(212) 雙字特征考察模塊考察語音序列中的雙字特征,并根據(jù)生成的雙字特征 函數(shù),判斷當(dāng)前雙字的實(shí)體類別。
(213) 常見字與雙字考察模塊從訓(xùn)練語料中通過統(tǒng)計(jì)方法獲得每一類別的常見 字和雙字的集合,并利用命名實(shí)體種類數(shù)量定義各個(gè)常見字特征函數(shù),然后根據(jù)該 集合及各個(gè)常見字特征函數(shù)得到當(dāng)前字或者雙字的常見字特征,判斷當(dāng)前字或者雙字的實(shí)體類別。
其中,所述步驟(22)進(jìn)一步包括以下子步驟
(221) 考察當(dāng)前觀察前一個(gè)觀察點(diǎn)己經(jīng)標(biāo)記的類別,利用前一觀察點(diǎn)類別這一 歷史信息幫助當(dāng)前觀察點(diǎn)類別的判別。
(222) 考察當(dāng)前觀察前面的詞是否某個(gè)實(shí)體類別的"觸發(fā)詞",通過"觸發(fā)詞" 的出現(xiàn)幫助判別當(dāng)前觀察是否屬于某個(gè)類別。
其中,所述步驟(23)進(jìn)一步包括以下子步驟
(231) 匹配偏移點(diǎn)計(jì)算模塊對(duì)輸入的語音序列中的匹配點(diǎn)進(jìn)行偏移處理,并將 處理后的結(jié)果送入預(yù)匹配模塊。
(232) 預(yù)匹配模塊將當(dāng)前輸入的字符串與已知類別的實(shí)體匹配首先抽取已知 實(shí)體庫內(nèi)所有實(shí)體的前兩個(gè)雙字x'。^和x'^'2,形成map數(shù)據(jù)結(jié)構(gòu)m—ne—bg;所述 map數(shù)據(jù)結(jié)構(gòu)m—ne一bg的"鍵"是被抽取的所有實(shí)體的前兩個(gè)雙字^'。 和^ x、, 這些雙字對(duì)應(yīng)的值為實(shí)體列表;然后,考察經(jīng)過偏移的當(dāng)前雙字A+^'+"',如果該雙 字和map數(shù)據(jù)結(jié)構(gòu)m一ne—bg中的某個(gè)key "鍵"(即實(shí)體的前兩個(gè)雙字)相同,則預(yù) 匹配成功,且待匹配的實(shí)體就是對(duì)應(yīng)鍵值中的所有實(shí)體;其中,t表示當(dāng)前時(shí)刻,s 表示偏移量。
(233) 實(shí)體匹配程度計(jì)算模塊利用Levenstein最小編輯距離定義匹配程度的度 量,并將匹配度最高的實(shí)體類別輸出,公式如下
—比〃 "/gve"血力
其中,^是待匹配實(shí)體的長(zhǎng)度;1)/—, 是當(dāng)前字符串和實(shí)體的Levenstein最小 編輯距離;當(dāng)完全匹配時(shí)Z)^^^為0, p為1,表示最高匹配程度;當(dāng)完全不匹配 時(shí)"/^w為&w, p為0,表示最低的匹配程度。
(244) p門限值設(shè)定模塊設(shè)定/ 的門限值,匹配度大于或等于戶門限值的字符 串即被識(shí)別為實(shí)體類別。
本發(fā)明的優(yōu)點(diǎn)在于
本發(fā)明提供的淺層自然口語理解系統(tǒng)及方法能夠有效地、魯棒地解決口語中特 有的重復(fù)、停頓、填充詞等不連貫口語現(xiàn)象以及口語識(shí)別中可能的識(shí)別錯(cuò)誤等問題, 更適合于口語環(huán)境。


圖1是現(xiàn)有技術(shù)人機(jī)對(duì)話系統(tǒng)基本框架圖
圖2是現(xiàn)有技術(shù)通過序列分類提取相應(yīng)的實(shí)體;
圖3是本發(fā)明淺層自然口語理解系統(tǒng)框架圖4是本發(fā)明淺層自然口語理解系統(tǒng)及方法識(shí)別框架流程圖;
圖5是本發(fā)明當(dāng)前字符串與實(shí)體的模糊匹配流程圖。
具體實(shí)施例方式
下面結(jié)合一個(gè)具體的實(shí)施例對(duì)本發(fā)明的淺層自然口語理解系統(tǒng)及方法做詳細(xì)說 明。本發(fā)明淺層自然口語理解系統(tǒng)框架如圖3所示。
本實(shí)施例的淺層自然口語理解系統(tǒng),如圖4所示,包括預(yù)處理模塊,詞匯特征
提取模塊,上下文特征提取模塊,實(shí)體模糊匹配模塊,最大熵分類模塊,及Viterbi 搜索模塊。
其中,詞匯特征提取模塊包括單字特征考察模塊,雙字特征考察模塊,常見字 與雙字考察模塊。
其中,上下文特征提取模塊包括
一考察當(dāng)前觀察前一個(gè)觀察點(diǎn)已經(jīng)標(biāo)記的類別,利用前一觀察點(diǎn)類別這一歷史 信息幫助當(dāng)前觀察點(diǎn)類別的判別的模塊。
一考察當(dāng)前觀察前面的詞是否某個(gè)實(shí)體類別的"觸發(fā)詞",通過"觸發(fā)詞"的出 現(xiàn)幫助判別當(dāng)前觀察是否屬于某個(gè)類別的模塊。
其中,實(shí)體模糊匹配模塊框架,包括匹配偏移點(diǎn)計(jì)算模塊,預(yù)匹配模塊,實(shí) 體匹配程度計(jì)算模塊及P門限值設(shè)定模塊。
本實(shí)施例淺層自然口語理解方法流程如圖4所示,包括以下步驟.-
1、 對(duì)輸入語句進(jìn)行預(yù)處理-
通過規(guī)則的方法部分去除口語反復(fù)如"我想問想問 一下",無意義的填充詞"啊"、 "呢"、"吧"、"那個(gè)"等。
2、 經(jīng)過預(yù)處理后,對(duì)語句的每個(gè)時(shí)刻的觀察抽取特征
2.1詞匯特征的提取
首先,提取最大熵常用的詞匯特征,在5個(gè)字的窗口內(nèi)考察相應(yīng)的字和雙字特征,
定義如下特征函數(shù)模板A系列
A系列,考察單字特征,其中《,。考察當(dāng)前字;c,、 S,—,考察后一個(gè)字&、 ~2考
察后第二個(gè)字X卜2、 /^考察前一個(gè)字、+,和P,,2考察前第二個(gè)字Xw;需要說明的是
特征模板不等于特征函數(shù),但是模板可以根據(jù)訓(xùn)練語料生成特征函數(shù),如對(duì)于模板《,。,在訓(xùn)練語料中如果出現(xiàn)當(dāng)前字為"我"并且屬于非實(shí)體類,該模板就會(huì)生成特 征函數(shù),對(duì)應(yīng)于訓(xùn)練語料中多個(gè)不同的當(dāng)前字,該模板可以生成相對(duì)應(yīng)的特征函數(shù)。 下面所述的模板都和這個(gè)相同。
尸2系列,考察雙字特征,其中^,。考察當(dāng)前雙字;c,和;c,+,組合,尸2,一考察后一個(gè) 字x^和當(dāng)前字x,組合,A,-2考察后兩個(gè)字V,和X,j組合,/^考察前兩個(gè)字x,+,和
X,+2組合。
尸3系列,考察各個(gè)類別的常見字和雙字,從訓(xùn)練語料中通過統(tǒng)計(jì)方法獲得每一類 別的常見字和雙字的集合。在分類的時(shí)候使用這些集合得到當(dāng)前字或者雙字的常見 字特征。根據(jù)命名實(shí)體種類數(shù)量定義各個(gè)常見字特征函數(shù)i^。例如,尸3,??疾飚?dāng)前 字或者雙字是否常見的非實(shí)體字,如果當(dāng)前雙字是"您好",該雙字在訓(xùn)練數(shù)據(jù)中常 見于非實(shí)體類,則^。對(duì)應(yīng)的特征函數(shù)響應(yīng)值為1;余此類推,其他i^考察各自類
的常見字是否在當(dāng)前字和雙字中出現(xiàn)。
2.2上下文特征的提取
尸4系列,考察當(dāng)前觀察前一個(gè)觀察點(diǎn)已經(jīng)標(biāo)記的類別c,一,;
A系列,考察當(dāng)前字的前一個(gè)字或者雙字是否某個(gè)特定類別的常見前導(dǎo)詞,比 如地點(diǎn)類的前導(dǎo)詞可以是"在"、"從"、"到"等等。
2.3實(shí)體的模糊匹配
尸6系列,利用已有的命名實(shí)體列表,在當(dāng)前字向前進(jìn)行模糊匹配。如果有某個(gè) 類別的實(shí)體與當(dāng)前字向前的字符串匹配,則當(dāng)前字很有可能就是所匹配的實(shí)體類。 由于輸入的語句帶有噪音和較大的口語隨意性,匹配過程需要是模糊匹配以增強(qiáng)其 魯棒性。圖5是模糊匹配的流程圖。
其中,匹配偏移點(diǎn)是針對(duì)在漢語口語中地點(diǎn)或者服務(wù)設(shè)施的名稱通常會(huì)有比較隨 意的前綴,如"北京市海淀區(qū)鼎好電子大廈"、"北京鼎好電子大廈"、"海淀區(qū)鼎好 電子大廈",這些字符串都指同一地點(diǎn)"鼎好電子大廈",在匹配過程中應(yīng)該忽略這 些前綴的影響,因此在匹配前要對(duì)語句中的匹配點(diǎn)進(jìn)行偏移。
預(yù)匹配的目的主要有2個(gè), 一是檢査匹配的必要性,如果預(yù)匹配不成功,則不 需要進(jìn)行更深入的匹配,節(jié)省了處理時(shí)間;二是經(jīng)過預(yù)匹配,可以將需要和當(dāng)前字 符串匹配的實(shí)體限定在預(yù)匹配成功的實(shí)體范圍內(nèi),這樣往往將匹配的范圍從 4000 5000個(gè)縮小到了平均IO個(gè)以內(nèi),大大節(jié)省了査找和匹配時(shí)間。預(yù)匹配的實(shí)現(xiàn) 方法是對(duì)于實(shí)體庫內(nèi)所有實(shí)體,取其前兩個(gè)雙字(;c'。x、和x',;c'2),形成map數(shù)
1 當(dāng)前字x,-我并且c-O 0 其他情況
12據(jù)結(jié)構(gòu)m一ne一bg,它的鍵就是所有這樣的雙字,對(duì)應(yīng)的值是一個(gè)實(shí)體列表,列表中 的所有實(shí)體的第一個(gè)或者第二個(gè)雙字就是鍵。預(yù)匹配時(shí)考察經(jīng)過偏移的當(dāng)前雙字 x,+,;c,+,+,(其中t表示當(dāng)前時(shí)刻,s表示偏移量),如果該雙字和m_ne_bg中的某個(gè) key相同,則預(yù)匹配成功,而且待匹配的實(shí)體就是對(duì)應(yīng)鍵值中的所有實(shí)體。
在計(jì)算匹配程度時(shí),主要利用Levenstein最小編輯距離定義匹配程度的度量,如 公式(2)所示,其中/e"是待匹配實(shí)體的長(zhǎng)度,Z),w是當(dāng)前字符串和實(shí)體的 Levenstein最小編輯距離,當(dāng)完全匹配時(shí)/^,,£, 為0,戶得l,表示最高匹配程度; 當(dāng)完全不匹配時(shí)^_, 為/^, p得O,表示最低的匹配程度。 /ew — A,
(2)
從匹配程度的計(jì)算可知,通過設(shè)定戶的門限值,可以容許部分匹配的字符串被看 做實(shí)體,從而提高了系統(tǒng)的魯棒性。例如,帶有噪聲的輸入語句"中關(guān)村海龍電電 子的大廈",這個(gè)語句中有重復(fù)("電電子")和填充("的")的口語現(xiàn)象;而對(duì)于知 識(shí)庫中的實(shí)體"中關(guān)村海龍電子大廈",兩個(gè)字符串的距離是2,匹配程度是0.78, 如果門限值設(shè)定在0.7,則該字符串成功的被識(shí)別為實(shí)體"中關(guān)村海龍電子大廈", 從而提高了系統(tǒng)對(duì)于語法現(xiàn)象和口語識(shí)別錯(cuò)誤的魯棒性。通過這個(gè)模板可以得出一
系列與實(shí)體類別相關(guān)的特征函數(shù),如下面的函數(shù)
'l 當(dāng)前字串模糊匹配6ad,并且c-kmA:
0
_ 其他情況 3、最大熵分類-
將所有特征送入最大熵分類器,利用以下公式: 1P(。
取)
exp
求得所有時(shí)刻各個(gè)類別的后向概率p(。 1 x,)
4、 搜索最優(yōu)路線
在輸入序列上用Viterbi算法搜索最優(yōu)路線。
5、 從得到的分類標(biāo)記序列中提取出命名實(shí)體。
(3)
權(quán)利要求
1、一種淺層自然口語理解系統(tǒng),該系統(tǒng)包括一預(yù)處理模塊,用于將輸入的口語中無意義的填充詞去除,并將預(yù)處理后的語音序列輸出;一最大熵分類模塊,對(duì)輸入序列的每一點(diǎn),通過選取該點(diǎn)的詞匯特征、上下文特征等特征,通過最大熵算法取得該點(diǎn)的所有可能的分類的后向概率分布;一維特比搜索模塊,用于在最大熵輸出的分類標(biāo)記序列網(wǎng)上搜索最優(yōu)路徑,得到最優(yōu)的分類標(biāo)記序列,從而得出命名實(shí)體;其特征在于,最大熵模型選擇的特征模塊包括一詞匯特征提取模塊,用于通過各個(gè)實(shí)體類和非實(shí)體類經(jīng)常出現(xiàn)的詞匯,判斷預(yù)處理后的語音序列中的詞的實(shí)體類別,并將該實(shí)體類別送入最大熵分類模塊;一上下文特征提取模塊,用于通過實(shí)體前、后的特定的詞匯,判斷預(yù)處理后的語音序列中的詞的實(shí)體類別,并將該實(shí)體類別送入最大熵分類模塊;和一實(shí)體模糊匹配模塊,用于利用實(shí)體知識(shí)庫,通過模糊匹配算法,在輸入的預(yù)處理后的語音序列中探測(cè)并識(shí)別出知識(shí)庫中已有的實(shí)體類別,并將該實(shí)體類別送入最大熵分類模塊。
2、 根據(jù)權(quán)利要求l所述的淺層自然口語理解系統(tǒng),其特征在于,所述詞匯特征 提取模塊包括-一單字特征考察模塊,用于利用訓(xùn)練語料生成單字特征函數(shù),并根據(jù)單字特征 函數(shù),考察語音序列中的單字特征,判斷當(dāng)前單字的實(shí)體類別;一雙字特征考察模塊,用于考察語音序列中的雙字特征,并根據(jù)生成的雙字特 征函數(shù),判斷當(dāng)前雙字的實(shí)體類別;一常見的字與雙字考察模塊,用于從訓(xùn)練語料中通過統(tǒng)計(jì)方法獲得每一類別的 常見字和雙字的集合,并利用命名實(shí)體種類數(shù)量定義各個(gè)常見字特征函數(shù),然后根 據(jù)該集合及各個(gè)常見字特征函數(shù)得到當(dāng)前字或者雙字的常見字特征,判斷當(dāng)前字或 者雙字的實(shí)體類別。
3、 根據(jù)權(quán)利要求l所述的淺層自然口語理解系統(tǒng),其特征在于,所述上下文特 征提取模塊進(jìn)一步包括一考察當(dāng)前觀察前一個(gè)觀察點(diǎn)己經(jīng)標(biāo)記的類別,利用前一觀察點(diǎn)類別這一歷史信息幫助當(dāng)前觀察點(diǎn)類別的判別的模塊;一考察當(dāng)前觀察前面的詞是否某個(gè)實(shí)體類別的"觸發(fā)詞",通過"觸發(fā)詞"的出現(xiàn)幫助判別當(dāng)前觀察是否屬于某個(gè)類別的模塊。
4、根據(jù)權(quán)利要求l所述的淺層自然口語理解系統(tǒng),其特征在于,所述實(shí)體模糊匹配模塊包括一匹配偏移點(diǎn)計(jì)算模塊,用于對(duì)輸入的語音序列中的匹配點(diǎn)進(jìn)行偏移處理,并 將處理后的結(jié)果送入預(yù)匹配模塊;一預(yù)匹配模塊,用于將當(dāng)前輸入的字符串與已知類別的實(shí)體匹配首先抽取已知實(shí)體庫內(nèi)所有實(shí)體的前兩個(gè)雙字^'。x'i和^x'2,形成map數(shù)據(jù)結(jié)構(gòu)m—ne—bg;所 述map數(shù)據(jù)結(jié)構(gòu)m—ne一bg的"鍵"是被抽取的所有實(shí)體的前兩個(gè)雙字^ X、和^ x、, 所述所有實(shí)體的前兩個(gè)雙字對(duì)應(yīng)的值為實(shí)體列表;然后,考察經(jīng)過偏移的當(dāng)前雙字,如果該雙字和map數(shù)據(jù)結(jié)構(gòu)m—ne—bg中的某個(gè)實(shí)體的前兩個(gè)雙字相同, 則預(yù)匹配成功,且待匹配的實(shí)體就是對(duì)應(yīng)鍵值中的所有實(shí)體;其中,t表示當(dāng)前時(shí)刻, s表示偏移量s一實(shí)體匹配程度計(jì)算模塊,用于利用列維斯坦最小編輯距離定義匹配程度的度量,并將匹配度最高的實(shí)體類別輸出,公式如下其中,/e"是待匹配實(shí)體的長(zhǎng)度;A^一,"是當(dāng)前字符串和實(shí)體的列維斯坦最小 編輯距離;當(dāng)完全匹配時(shí)Z)^,^為0,戶為1,表示最高匹配程度;當(dāng)完全不匹配 時(shí)A^"^"為^W, p為0,表示最低的匹配程度。
5、 根據(jù)權(quán)利要求4所述的淺層自然口語理解系統(tǒng),其特征在于,所述實(shí)體模糊 匹配模塊還包括一p門限值設(shè)定模塊,用于設(shè)定p的門限值,匹配度大于或等于/ 門 限值的字符串即被識(shí)別為實(shí)體類別。
6、 一種淺層自然口語理解方法,該方法包括以下步驟(1) 對(duì)輸入語句進(jìn)行預(yù)處理 預(yù)處理模塊將輸入的語句中無意義的填充詞去除,并將預(yù)處理后的語音序列輸出;(2) 經(jīng)預(yù)處理后,對(duì)語句的每個(gè)時(shí)刻的觀察抽取特征,包括以下子步驟 (21)詞匯特征的提取詞匯特征提取模塊通過各個(gè)實(shí)體類和非實(shí)體類經(jīng)常出現(xiàn)的詞匯,判斷預(yù)處理后 的語音序列中的詞的實(shí)體類別,并將該實(shí)體類別送入最大熵分類模塊;(22) 上下文特征的提取上下文特征提取模塊通過實(shí)體前、后的特定的詞匯,判斷預(yù)處理后的語音序列 中的詞的實(shí)體類別,并將該實(shí)體類別送入最大熵分類模塊;(23) 實(shí)體的模糊匹配-實(shí)體模糊匹配模塊利用實(shí)體知識(shí)庫,通過模糊匹配算法,在輸入的預(yù)處理后的 語音序列中探測(cè)并識(shí)別出知識(shí)庫中已有的實(shí)體類別,并將該實(shí)體類別送入最大熵分 類模塊;(3) 最大熵分類最大熵分類模塊對(duì)輸入的實(shí)體類別的所有點(diǎn)取最優(yōu)分類,得到相應(yīng)的分類標(biāo)記 序列,并將該分類標(biāo)記序列送入Viterbi搜索模塊;(4) 搜索最優(yōu)路線、提取命名實(shí)體Viterbi搜索模塊在輸入的分類標(biāo)記序列上搜索最優(yōu)路徑,最終得到命名實(shí)體。
7、 根據(jù)權(quán)利要求6所述的淺層自然口語理解方法,其特征在于,所述步驟(21) 進(jìn)一步包括以下子步驟(211) 單字特征考察模塊用訓(xùn)練語料生成單字特征函數(shù),并根據(jù)單字特征函數(shù), 考察語音序列中的單字特征,判斷當(dāng)前單字的實(shí)體類別;(212) 雙字特征考察模塊考察語音序列中的雙字特征,并根據(jù)生成的雙字特征 函數(shù),判斷當(dāng)前雙字的實(shí)體類別;和(213) 常見字與雙字考察模塊從訓(xùn)練語料中通過統(tǒng)計(jì)方法獲得每一類別的常見 字和雙字的集合,并利用命名實(shí)體種類數(shù)量定義各個(gè)常見字特征函數(shù),然后根據(jù)該 集合及各個(gè)常見字特征函數(shù)得到當(dāng)前字或者雙字的常見字特征,判斷當(dāng)前字或者雙 字的實(shí)體類別。
8、 根據(jù)權(quán)利要求6所述的淺層自然口語理解方法,其特征在于,所述步驟(22) 進(jìn)一步包括以下子步驟(221) 考察當(dāng)前觀察前一個(gè)觀察點(diǎn)已經(jīng)標(biāo)記的類別,利用前一觀察點(diǎn)類別這一 歷史信息幫助當(dāng)前觀察點(diǎn)類別的判別;(222) 考察當(dāng)前觀察前面的詞是否某個(gè)實(shí)體類別的"觸發(fā)詞",通過"觸發(fā)詞" 的出現(xiàn)幫助判別當(dāng)前觀察是否屬于某個(gè)類別。
9、 根據(jù)權(quán)利要求6所述的淺層自然口語理解方法,其特征在于,所述步驟(23) 進(jìn)一步包括以下子步驟(231)匹配偏移點(diǎn)計(jì)算模塊對(duì)輸入的語音序列中的匹配點(diǎn)進(jìn)行偏移處理,并將處理后的結(jié)果送入預(yù)匹配模塊;(232)預(yù)匹配模塊將當(dāng)前輸入的字符串與己知類別的實(shí)體匹配首先抽取已知 實(shí)體庫內(nèi)所有實(shí)體的前兩個(gè)雙字x'。A和^x'2,形成map數(shù)據(jù)結(jié)構(gòu)m—ne_bg;所述map數(shù)據(jù)結(jié)構(gòu)m—ne—bg的"鍵"是被抽取的所有實(shí)體的前兩個(gè)雙字^ ^和^'x、, 所述所有實(shí)體的前兩個(gè)雙字對(duì)應(yīng)的值為實(shí)體列表;然后,考察經(jīng)過偏移的當(dāng)前雙字 x' x'+"i,如果該雙字和map數(shù)據(jù)結(jié)構(gòu)m—ne_bg中的某個(gè)實(shí)體的前兩個(gè)雙字相同, 則預(yù)匹配成功,且待匹配的實(shí)體就是對(duì)應(yīng)鍵值中的所有實(shí)體;其中,t表示當(dāng)前時(shí)刻, s表不偏移量s(233)實(shí)體匹配程度計(jì)算模塊利用列維斯坦最小編輯距離定義匹配程度的度量, 并將匹配度最高的實(shí)體類別輸出,公式如下—/en — "D/,w論其中,/ew是待匹配實(shí)體的長(zhǎng)度;Aw,n是當(dāng)前字符串和實(shí)體的列維斯坦最小 編輯距離;當(dāng)完全匹配時(shí)Z^^^"為0, /9為1,表示最高匹配程度;當(dāng)完全不匹配 時(shí)"/w,"為/ew, p為0,表示最低的匹配程度。
10、根據(jù)權(quán)利要求9所述的淺層自然口語理解方法,其特征在于,所述步驟(23) 進(jìn)一步包括p門限值設(shè)定模塊設(shè)定/ 的門限值,匹配度大于或等于^門限值的字 符串即被識(shí)別為實(shí)體類別的步驟。
全文摘要
本發(fā)明涉及一種淺層自然口語理解系統(tǒng)及方法,該系統(tǒng)包括預(yù)處理模塊、詞匯特征提取模塊、上下文特征提取模塊、實(shí)體模糊匹配模塊、最大熵分類模塊及Viterbi搜索模塊。該系統(tǒng)及方法首先通過預(yù)處理解決部分口語現(xiàn)象,以簡(jiǎn)化后續(xù)處理;接著對(duì)語句進(jìn)行特征提取,包括基本字詞特征,上下文字詞特征和實(shí)體特征;采用最大熵分類器進(jìn)行識(shí)別;對(duì)整句進(jìn)行優(yōu)化得到最后分類標(biāo)記序列;最后從分類標(biāo)記序列中提取出命名實(shí)體。本發(fā)明的系統(tǒng)及方法能夠有效地、魯棒地解決口語中特有的重復(fù)、停頓、填充詞等不連貫口語現(xiàn)象以及口語識(shí)別中可能出現(xiàn)的識(shí)別錯(cuò)誤等問題。
文檔編號(hào)G06F17/27GK101645064SQ20081023972
公開日2010年2月10日 申請(qǐng)日期2008年12月16日 優(yōu)先權(quán)日2008年12月16日
發(fā)明者包長(zhǎng)春, 徐為群, 李亞麗, 潘接林, 顏永紅 申請(qǐng)人:中國科學(xué)院聲學(xué)研究所;北京中科信利技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
十堰市| 元江| 松原市| 咸阳市| 尚义县| 哈密市| 腾冲县| 江永县| 毕节市| 华池县| 榆中县| 灵武市| 汉源县| 永丰县| 长宁区| 利津县| 司法| 甘德县| 惠东县| 高淳县| 景宁| 宿州市| 灯塔市| 兰溪市| 绵竹市| 花莲市| 黄梅县| 诏安县| 中超| 玉溪市| 弥渡县| 潢川县| 衡山县| 合川市| 久治县| 永兴县| 三穗县| 永修县| 饶阳县| 临朐县| 温州市|