用于拆分語音的方法和設(shè)備的制作方法

文檔序號：2837514閱讀：341來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：用于拆分語音的方法和設(shè)備的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種用于拆分語音的方法。特別地，本發(fā)明涉及一種通過使用應(yīng)答響應(yīng)來拆分語音的方法。
背景技術(shù)：
在對話務(wù)員服務(wù)支持系統(tǒng)或類似系統(tǒng)中的電話會話內(nèi)容的書錄(transcription)處理中，話務(wù)員的語音和客戶的語音是單獨記錄并轉(zhuǎn)換成文本數(shù)據(jù)的。一般來說，為了有效搜索記錄的語音，說出諸如產(chǎn)品名稱之類的預(yù)定關(guān)鍵字的位置將被記錄，并且該位置的時間戳則被用作索引。書錄處理是通過使用自動語音識別等技術(shù)規(guī)定關(guān)4定字位置以及隨后通過重放相應(yīng)部分的語音而^皮執(zhí)行的。然而，由于此方法無法有效使用客戶的語音，尤其是應(yīng)答，因此，在此類方法中無法精確提取有關(guān)會話內(nèi)容的信息。更具體地說，由于語音 (speech)未被拆分成恰當(dāng)?shù)恼Z段(utterance)，因此，要從話音流中精確識別和分析語音將是非常困難的。在曰本專利申請?zhí)卦S公開號2006-276754中公開了此常規(guī)技術(shù)的實例。發(fā)明內(nèi)容本發(fā)明是有鑒于上述技術(shù)問題而產(chǎn)生的。本發(fā)明的一個目的是通過應(yīng)答響應(yīng)(在下文中將其簡稱為應(yīng)答)而將會話式對話拆分成在語言學(xué)中被稱為語段的語音單元。此外，本發(fā)明的另一個目的是從話音流中精確識別出語音。為了實現(xiàn)前述目的，本發(fā)明的一個方面是提供一種用于將會話式對話拆分成語段的設(shè)備。該設(shè)備被配置成包括用于存儲單詞的
拼寫和發(fā)音的單詞數(shù)據(jù)庫；用于存儲關(guān)于單詞的句法規(guī)貝'j的語法數(shù) 據(jù)庫；在至少兩個信道中輸入的會話式對話之中，4全測在輪替(take a turn)的信道中的暫停位置的暫停檢測部分，其中所述輪替的信道即為發(fā)言者信道，并且其在下文中被稱為主語音；對沒有發(fā)言的信道(接聽者信道)中的應(yīng)答位置進(jìn)行檢測的應(yīng)答檢測部分；通過提取存在于作為應(yīng)答位置的基點之前和之后的預(yù)定范圍以內(nèi)的暫停來提取主語音中的候選邊界的候選邊界提取部分；以及在參考單詞數(shù) 據(jù)庫和語法數(shù)據(jù)庫而將分段的語音拆分成優(yōu)化語段之后輸出由所提取的候選邊界之一進(jìn)行分段的語音單詞串(string)的識別單元。此外，該語法數(shù)據(jù)庫可以包括固定短語語法、應(yīng)答語法以及識別語法。另外，固定短語語法可以包括用于開始和結(jié)束確認(rèn)的固定語法，并且單詞數(shù)據(jù)庫可以包括用于開始和結(jié)束確認(rèn)的固定短語的拼寫和發(fā)音。由此，該設(shè)備可以包括識別目標(biāo)分^殳確定單元，該單元將會通過參考固定短語語法來預(yù)先確定將要拆分成語段的識別目標(biāo)分段。本發(fā)明的另一個方面是提供一種通過使用分離信道中輸入的會話式對話、通過使用單詞數(shù)據(jù)庫以及通過使用語法數(shù)據(jù)庫而將會話式對話拆分成語段的方法，其中該單詞數(shù)據(jù)庫中描述的是單詞的拼寫和發(fā)音，該語法數(shù)據(jù)庫中描述的是包含有關(guān)單詞的句法規(guī)則的語法。該方法包括以下步驟檢測產(chǎn)生主語音的信道中的暫停位置；檢測沒有產(chǎn)生主語音的信道中的應(yīng)答位置；通過提取存在于作為應(yīng) 答位置的基點之前和之后的預(yù)定范圍以內(nèi)的暫停來提取主語音的候優(yōu)化語段之后，輸出由被提取的候選邊界之一進(jìn)行分段的語音中的單詞串。

為了更全面地理解本發(fā)明及其優(yōu)點，現(xiàn)在將結(jié)合附圖來參考下文中的描述。
圖1示出了用于將語音拆分成語段的設(shè)備。圖2示出了本發(fā)明的處理的流程圖。圖3示出了本發(fā)明的每個處理的具體實例的圖示。別的圖示。圖5示出了能夠?qū)嵤┍景l(fā)明的硬件結(jié)構(gòu)實例。
具體實施方式
圖1示出了用于將語音拆分成語段的本發(fā)明的設(shè)備。該設(shè)備主要是由邊界提取單元120和識別單元130來構(gòu)成。該邊界提取單元 120是由暫停檢測部分122、應(yīng)答檢測部分124以及候選邊界提取部分126來構(gòu)成。在執(zhí)行本發(fā)明的提取處理時，邊界提取單元120和識別單元130都參考單詞數(shù)據(jù)庫140以及語法數(shù)據(jù)庫150。特別地，在單詞數(shù)據(jù)庫140中存儲了每個單詞的拼寫和發(fā)音，而在語法數(shù)據(jù) 庫150中則存儲了關(guān)于單詞的句法規(guī)則。在這里，單詞數(shù)據(jù)庫MO 中的每個發(fā)音都是用音素單元編寫的。優(yōu)選地，每個音素都是用聲學(xué)模型編寫的，以便指示音素信號具有怎樣的統(tǒng)計屬性。通過使用這種聲學(xué)模型，可以識別出會話式對話中的某個部分是哪一個單詞。此外，語法數(shù)據(jù)庫150在其中存儲固定短語語法、應(yīng)答語法以及識別語法。在這里，語法是用于判定語音是否與固定模式相一致的規(guī) 則。在下文中顯示了用BNF (巴科斯-諾爾范式)描述的上述語法的實例。固定短語語法<一個固定短語從開始確認(rèn)到結(jié)束該短語〉 =sore dewa (kakunin/fukushou) sasete itadaki masu. iarigatou gozaimasita(-現(xiàn)在，你的訂單將被確認(rèn)l重復(fù)。|謝謝) 應(yīng)答語法 <應(yīng)答〉 =hai|ee|soudesu (=是IOKI對)
識別語法 <內(nèi)容的確《人>=shouhin bangou ga <NUMBER> no <PRODUCT—NAME〉(=產(chǎn)品編號為〈NUMBER〉的<PRODUCT—NAME>|kawase hejji wa (ari|nasi)l是否有交易障礙？(使用l不使用)|kuchisu wa <NUMBER〉 kuchi|<NUMBER>單位)<NUMBER> = (0|1|2|3|4|5|6|7|8|9)+<PRODUCT NAME> = IBM gurobaru fando |ITdorimu fando|doru kokusai|...(<PRODUCT NAME〉=IBM全球基金卩T夢想基金l美元國際i…)應(yīng)該指出的是，應(yīng)答是用于響應(yīng)于會話伙伴的語音而做出確認(rèn) 的響應(yīng)。通常，應(yīng)答是一個反向信道反饋，并且該反饋是在會話中的主發(fā)言者不變的情況下對會話伙伴做出的很短響應(yīng)。在常規(guī)技術(shù) 中，這種應(yīng)答在拆分和識別語音的過程中并未得到積極使用，與此相反，它被視為是毫無必要的。但是，作為實例，在前述應(yīng)答語法中登記了三種應(yīng)答，并且其他應(yīng)答也可以根據(jù)需要而被添加到應(yīng)答語法中。對邊界提取單元120來說，連續(xù)的會話式對話IIO是在與各個發(fā)言者相對應(yīng)的多個信道中輸入的，其中該會話式對話即為話音流。通過使用本發(fā)明的后續(xù)方法，邊界提取單元120向識別單元130傳遞主發(fā)言信道的語音數(shù)據(jù)以及用于將主語音拆分成語段的候選邊界。特別地，候選邊界是用語音流初始點時間傳遞的，該初始點則被視為候選邊界的基點。識別單元130通過參考識別語法和字典并且使用所接收的語音數(shù)據(jù)和前述候選邊界來執(zhí)行識別，隨后則輸出單詞串160,其中該單詞串是與拆分話音數(shù)據(jù)所獲取的分段相對應(yīng)的識別結(jié)果，而所述話音數(shù)據(jù)則是通過劃分那些被認(rèn)定為最優(yōu)的位置 (串)來進(jìn)行拆分的。此外，舉例來說，每一個單詞串都是由分段
和已識別的內(nèi)容構(gòu)成的，并且這些單詞串被表述成用于分段1的XXXX，用于分段2的YYYY，依此類推。優(yōu)選地，在某些應(yīng)用中，該單詞串160還被傳遞到一個語句理解單元或類似單元。^旦是，由于語句理解單元的處理與本發(fā)明無關(guān)，因此，與之相關(guān)的描述將被省略。在下文中將會參考圖2和3來提供關(guān)于本發(fā)明的處理的詳細(xì)描述。更具體的說，該描述是為電話訂購的范例提供的，在該范例中，兩個信道的會話式對話是作為話音流輸入的。圖2示出了本發(fā)明的處理的流程圖，而圖3則通過使用話音波形數(shù)據(jù)示出了與圖2中的每個步驟相對應(yīng)的更具體的處理。為了筒明起見，話音波形是用連接波形頂點的梯形形狀來表示的。在這里，圖3描述的是這樣一種情況,其中主語音是"dewa fukushou sasete itadakimasu. shouhin bangou 275 no IBM fando 20 kuchif kawase hejji nasi, arigatou gozaimasita.(現(xiàn)在，你的訂單將被重復(fù)一遍。產(chǎn)品代碼275, IBM基金，20個單位，無交易障礙。謝謝)"。應(yīng)該指出的是，在圖3中， CI和C2表示信道，其中C2是發(fā)言者的話音波形，CI則是在接聽語音的同時給出應(yīng)答的接聽者的話音波形。這里的目的是通過使用與主語音的信道不同的信道的應(yīng)答來正確識別和理解主語音(發(fā)言者語音)。為此目的，該處理是通過下列步驟執(zhí)行的。首先，在步驟210,對應(yīng)于主語音的信道語音將會與固定短語語法進(jìn)行匹配，以便記錄將要識別的語音分段的時間(ts，te)。這個處理與圖3的310是等價的。在固定短語語法中，出現(xiàn)在語音群組開端或末端的每一個不同的固定短語都會被登記。在電話訂購中，用于確認(rèn)的固定短語的典型實例是作為開始短語的"dewa fukushou sasete itadakimasu (現(xiàn)在，你的訂單將被重復(fù)。)，，，以及作為結(jié)束短語的"arigatou gozaimasita (謝謝)"。用于開始和結(jié)束確認(rèn)的固定短語是根據(jù)應(yīng)用領(lǐng)域來確定的，并且并不局限于上述內(nèi)容。此外，在識別(也被稱為測定)說出此類固定短語的位置的過程中，通常將固定短語語法與一種Garbage語法(模型)結(jié)合使用，其中該Garbage語法與將要識別的固定短語之外的其他短語相匹配。盡管如此，由于Garbage語法在本領(lǐng)域中是一種眾所周知的技術(shù)，因此，與之相關(guān)的描述將被省略。作為替換，當(dāng)整個語音都是識別目標(biāo)時，這時是不會執(zhí)行步驟210的，而語音分段的時間則被設(shè)置為(ts, te) = (0，呼叫結(jié)束)。步驟220- 250是在用于提取語音中的邊界(拆分位置)的邊界提取單元120中執(zhí)行的處理。該邊界提取單元120以如下方式提取語音中的候選邊界(拆分位置)首先，檢測產(chǎn)生主語音的信道中的暫停位置，以及檢測沒有產(chǎn)生主語音的信道中的應(yīng)答位置；其次，在應(yīng)答位置之前和之后的一定時段中，提取存在于該時段內(nèi)的每個暫停。更準(zhǔn)確的說，在步驟220,暫停;險測部分122在C2中4全測識別目標(biāo)分段中的暫停位置。這個處理與圖3的320是等價的。該檢測是通過將語音與平常語音功率以及與預(yù)先學(xué)到的靜默音素模型相匹配來執(zhí)行的。這里提取的暫停即為候選邊界，而實際邊界則是通過將每個候選邊界與某種似然性相結(jié)合來最終確定的，其中該似然性是通過將候選邊界與應(yīng)答位置以及與語法相匹配來獲取的。由此，較為理想的是在確定邊界的過程中為查全率(recall)而不是查準(zhǔn)率 (precision)給出優(yōu)先級。特別地，所述查全率是正確檢測到的暫停數(shù)量與應(yīng)該檢測到的暫停數(shù)量的比值。同時，所述查準(zhǔn)率是用于指示有多少個被提取位置產(chǎn)生出了與語句或短語邊界等價的各個實際暫停的精確度。在本實施例中，其中總共檢測到了五個候選暫停 (pl, ......, p5)。在步驟230，應(yīng)答纟全測部分124通過將語音與應(yīng)答語法相匹配而在用于回答者(接聽者)的信道Cl中檢測識別目標(biāo)分段中的應(yīng)答位置。舉例來說，在應(yīng)答語法中注冊了"hai (是)"和"ee (OK)"之類的單詞或短語的應(yīng)答表述。這個處理與圖3的330是等價的。在這個實施例中，提取了三個應(yīng)答(rl,…，r3)。在步驟240以及后續(xù)步驟執(zhí)行的處理中，通過使用暫停位置和
應(yīng)答位置來拆分識別目標(biāo)分段從而執(zhí)行語音識別。這個處理與圖3 的340是等價的。假設(shè)第一拆分開始位置是ts，并且基點是在從拆分開始位置掃描到語音時首先檢測到的應(yīng)答位置(rl)。那么，存在于基點周圍的一定范圍(rl-ATa, rl+ATb)以內(nèi)的暫停將被提取，并且將被作為用于拆分結(jié)束位置的候選邊界。在這里，所提取的是pl、 p2和p3。 Ta和Tb是依照目標(biāo)拆分結(jié)束位置與應(yīng)答之間的最大可允許時差來確定的，并且通常被設(shè)置為500毫秒到1000毫秒。在步驟250,識別單元130對在拆分開始位置與步驟240中提取的每個候選邊界之間的分段執(zhí)行識別處理。此后，識別單元130 將具有最大似然性的分段識別為語段，并且由此輸出單詞串。這個處理與圖3的350是等價的。具體地說，識別單元130通過將每個具有被提取候選邊界的分段與識別語法相匹配，來識別出每一個將被提取候選邊界之一當(dāng)作拆分結(jié)束位置的分段，即分段A、分段B 和分段C。然后，識別單元130獲取識別結(jié)果，同時還計算其似然性。這些似然性將會根據(jù)每一個語音分段的長度并以時間為基礎(chǔ)而被規(guī)格化，然后則會相互比較，由此將具有最高似然性的分段確定為具有拆分結(jié)束位置。這樣一來，通過將語音拆分為分段，可以從識別單元輸出所確定的拆分結(jié)束位置和識別結(jié)果(單詞串)。在本實施例中，具有最高似然性7.8的分段B被確定為具有拆分結(jié)束位置。所述識別語法是設(shè)想會在語音中出現(xiàn)的短語的集合，并且這其中的每個短語都是在作為單元而在所拆分的語音分段中描述的。相應(yīng)地，舉例來說，當(dāng)在語音中出現(xiàn)如下固定模式時，識別將會成功 shouhin bangou ga <NUMBER> no <PRODUCT—NAME〉(產(chǎn)品代碼是？ <PRODUCT—NAME>的<NUMBER〉)kawase hejji wa (arilnasi)(交易障礙是？(被使用l未被使用))kuchisuu wa <NUMBER> kuchi(單位數(shù)是<NUMBER〉單位) 多種可能的似然性之一是基于概率P (XIW)而被計算得到的似
然性，該概率是在給出了輸出單詞串的情況下從目標(biāo)分段(在本實施例中是(ts,p2))輸出聲學(xué)特征量X的概率，其中W表示的是單詞串。當(dāng)識別單元130將聲學(xué)特征量的串與聲學(xué)模型相匹配時，可以由此獲取該值。由于在語音識別領(lǐng)域中，針對前述似然性和置信度測量已經(jīng)進(jìn)行了很多的研究，因此，存在著用于計算概率值的眾多可行方法。在步驟250,通過使用統(tǒng)計語言模型而不是使用識別語法，可以根據(jù)識別結(jié)果和似然性來確定所拆分的分段。在這種情況下，結(jié)合那些添加到與應(yīng)答相對應(yīng)的每一個位置的語句開始/結(jié)束符號，來執(zhí)行用于從所編寫的學(xué)習(xí)文本中產(chǎn)生語言模型的學(xué)習(xí)處理。由此，所產(chǎn)生的語言模型在識別處理中使用。如果使用統(tǒng)計語言模型，那么所述似然性可以^使用乘積P(W).P(XIW)來計算，其中該乘積是通過將輸出聲學(xué)特征量X的概率P (XIW)與輸出語言模型的概率 P(W)相乘來獲取的。
在步驟225,確定處理是否結(jié)束，直至識別目標(biāo)分段的末端。如果處理結(jié)束，那么該處理終止，如果沒有結(jié)束的話，所述處理延續(xù)至步驟260。
在步驟260，拆分開始位置將會變成步驟250中確定的拆分結(jié) 束位置，也就是用p2表示的分段B的右端。然后，在這里針對識別目標(biāo)分段的末端來重復(fù)執(zhí)行步驟240 ~ 260。這個處理與圖3的360 是等價的。
圖4示出了常規(guī)技術(shù)與本發(fā)明之間的在分段和識別結(jié)果中的差別。在這里，作為常規(guī)技術(shù)使用的是這樣一種方法，其中整個識別目標(biāo)分段都是在被識別為一個連續(xù)語音的同時僅僅使用識別語法來自動拆分的。方框410示出了常規(guī)技術(shù)的分段和識別結(jié)果。在方框 410中,分段和識另'J在乂人"dewa chuumon fukushou sasete itadakimasu, machigaiga naika goisshoni kakunin wo onegai itasimasu (現(xiàn)在，你的訂單將被重復(fù)，請檢查是否包含任何錯誤)"開始并且在"hai, dewa nyuuryoku itasimasita (現(xiàn)在，你的訂單被輸入)，，結(jié)束的大量話音流中是無法奏效的。另一方面，在示出了依照本發(fā)明的分段和識別結(jié)果
的方框420中，主語音的語音分段被正確地拆分和識別。附帶地，在上文的話音流描述中插入的逗號和句號僅僅是為了使所述描述可被理解。接下來將要說明的是本發(fā)明的硬件結(jié)構(gòu)實例。毫無疑問，圖1 所示的每一個塊都可以用一個專用硬件來構(gòu)成，同時這些塊同樣也可以用通用信息處理設(shè)備來實現(xiàn)。圖5示出了也可用作本發(fā)明的設(shè) 備的信息處理設(shè)備的硬件結(jié)構(gòu)實例。計算機(jī)5 01包括C P U外圍單元，其中該單元包含了 CPU 500、 RAM 540、 ROM 530以及輸入/輸出控制器520,并且所有這些部件是借由主機(jī)控制器510而被相互連接的。計算才幾501還包括通信接口 550、硬盤驅(qū)動器580、多組合 (multi-combo)驅(qū)動器590、軟盤驅(qū)動器545、聲音控制器560以及圖形控制器570，并且所有這些部件都是通過輸入/輸出控制器520 來連接的。特別地，多組合驅(qū)動器590能對諸如CD或DVD之類的碟片形狀的介質(zhì)595進(jìn)行讀寫，軟盤驅(qū)動器545能夠?qū)洷P585進(jìn) 行讀寫，聲音控制器560驅(qū)動聲音輸入/輸出設(shè)備565,而圖形控制器570則驅(qū)動顯示器575。CPU 500依照存儲在ROM 530、 BIOS和RAM 540中的程序來操作，并且由此控制每一個部分。圖形控制器570獲取CPU 500等設(shè)備在RAM 540內(nèi)部的緩沖器中產(chǎn)生的圖形數(shù)據(jù)，然后則在顯示器 575上顯示這些數(shù)據(jù)。另外，在圖形控制器570中也可以包含緩沖器，以便在那里存儲CPU 500等設(shè)備產(chǎn)生的圖形數(shù)據(jù)。更具體地說，話音流是在多個信道中從聲音輸入/輸出設(shè)備565輸入的，然后，經(jīng)由輸入/輸出控制器520而被存儲在存儲設(shè)備580中。在存儲設(shè)備580 中，存儲了單詞數(shù)據(jù)庫140和語法數(shù)據(jù)庫150。 CPU 500則使用在多作來精確拆分和識別主語音。這個計算操作是通過將用于本發(fā)明的語音分段和識別的程序加載到存儲器540中并隨后執(zhí)行這些程序而被執(zhí)行的。語音分段的輸出結(jié)果和單詞串被顯示在顯示器575上。通信接口 550經(jīng)由網(wǎng)絡(luò)而與外部通信設(shè)備進(jìn)行通信。該信息處
理設(shè)備501還可以借助通信接口 550接收來自外部的會話式對話，執(zhí)行語音分段和識別，然后將結(jié)果經(jīng)由通信接口 550發(fā)送到外部的信息處理設(shè)備。附帶地，用于構(gòu)建網(wǎng)絡(luò)的可以是任何有線、無線、紅外連接以及短距離無線電連接，諸如藍(lán)牙，并且任何類型的網(wǎng)絡(luò) 都可以在沒有添加任何變動的情況下被用于實施本發(fā)明。存儲設(shè)備 580存儲供計算機(jī)501使用的本發(fā)明程序、應(yīng)用、OS等等的代碼和數(shù)據(jù)。多組合驅(qū)動器590從諸如CD或DVD之類的介質(zhì)595中讀取程序或數(shù)據(jù)，此后，所讀取的程序和數(shù)據(jù)將^皮加載到RAM 540中，以供CPU 500使用。作為替換，本發(fā)明的程序和字典也可以從外部記錄介質(zhì)中提供。作為外部記錄介質(zhì)使用的可以是諸如DVD和PD之類的光學(xué)記錄介質(zhì)、諸如MD之類的磁光學(xué)記錄介質(zhì)、磁帶介質(zhì)、諸如IC卡之類的半導(dǎo)體存儲器。此外，通過使用作為記錄媒體而在服務(wù)器系統(tǒng) 中提供的諸如硬盤或RAM之類的存儲設(shè)備，所述程序可以經(jīng)由網(wǎng)絡(luò) 而從與專用通信網(wǎng)絡(luò)或因特網(wǎng)相連的服務(wù)器系統(tǒng)獲取。從上述結(jié)構(gòu) 實例中可以看出，任何具有通用計算機(jī)功能的硬件都可以用作本發(fā) 明需要的硬件。舉例來說，移動終端、便攜式終端和家庭電子設(shè)備都是可以直接使用而不會出現(xiàn)任何問題。應(yīng)該指出的是，圖5僅僅例示了用于實施本發(fā)明實施例的硬件結(jié)構(gòu)。相應(yīng)地，對其他各種結(jié) 構(gòu)來說，只要對其可以應(yīng)用本發(fā)明實施例，那么這些結(jié)構(gòu)都是可行的。此外，每一個上述例示組件未必是本發(fā)明的必要組件。本發(fā)明的優(yōu)選信息處理設(shè)備501使用了一個支持圖形用戶界面 (GUI )多窗口環(huán)境的操作系統(tǒng)，例如Microsoft公司提供的 Windows(R)操作系統(tǒng)，Apple公司提供的Mac OS(R)、以及包含了 X Window System的UNIX(R)(例如國際商業(yè)機(jī)器公司提供的AIX(R))。此外，本發(fā)明還可以使用硬件、軟件或是軟硬件組合來實現(xiàn)。依照本發(fā)明，通過使用將應(yīng)答位置與暫停位置組合所獲取的信息來將語音流拆分成語段。由此，語音識別和分析處理中的查準(zhǔn)率得到改善。雖然在這里已經(jīng)詳細(xì)描述了本發(fā)明的優(yōu)選實施例，但是應(yīng)該理解，在沒有脫離附加權(quán)利要求定義的本發(fā)明的精神和范圍的情況下，各種變更、替換和修改都是可行的。
權(quán)利要求
1.一種用于將會話式對話拆分成語段的設(shè)備，包括用于存儲單詞的拼寫和發(fā)音的單詞數(shù)據(jù)庫；用于存儲關(guān)于單詞的句法規(guī)則的語法數(shù)據(jù)庫；在至少兩個信道中輸入的會話式對話之中檢測在產(chǎn)生主語音的信道中的暫停位置的暫停檢測部分；在沒有產(chǎn)生主語音的信道中檢測應(yīng)答位置的應(yīng)答檢測部分；通過提取存在于作為該應(yīng)答位置的基點之前和之后的預(yù)定范圍以內(nèi)的暫停來提取主語音中的候選邊界的候選邊界提取部分；以及在參考該單詞數(shù)據(jù)庫和語法數(shù)據(jù)庫而將該分段的語音拆分成優(yōu)化語段之后輸出由所提取的該候選邊界之一進(jìn)行分段的語音單詞串的識別單元。
2. 根據(jù)權(quán)利要求1所述的設(shè)備，其中該語法數(shù)據(jù)庫包括固定短語語法、應(yīng)答語法以及識別語法。
3. 根據(jù)權(quán)利要求2所述的設(shè)備，包括識別目標(biāo)分段確定單元，其中該固定短語語法包括用于開始和結(jié)束一個確認(rèn)的固定短語，該單詞數(shù)據(jù)庫包括用于開始和結(jié)束一個確認(rèn)的該固定短語的拼寫和發(fā)音，該識別目標(biāo)分段確定單元通過參考該固定短語語法來預(yù)先確定將要拆分成語段的識別目標(biāo)分段。
4. 一種通過使用多個信道中輸入的會話式對話、通過使用單詞數(shù)據(jù)庫以及通過使用語法數(shù)據(jù)庫而將會話式對話拆分成語段的方法，其中該單詞數(shù)據(jù)庫中描述的是單詞的拼寫和發(fā)音，該語法數(shù)據(jù) 庫中描述的是包含有關(guān)單詞的句法規(guī)則的語法，該方法包括以下步驟檢測產(chǎn)生主語音的信道中的暫停位置；檢測沒有產(chǎn)生主語音的信道中的應(yīng)答位置；通過提取存在于作為該應(yīng)答位置的基點之前和之后的預(yù)定范圍以內(nèi)的暫停來提取該主語音的候選邊界；以及在通過參考該單詞數(shù)據(jù)庫和語法數(shù)據(jù)庫而將該分段的語音拆分成優(yōu)化語段之后，輸出由被提取的候選邊界之一進(jìn)行分段的該語音中的單詞串。
5. 根據(jù)權(quán)利要求4所述的方法，其中在輸出單詞串的該步驟中，由該候選邊界拆分的語音分段的該似然性是通過參考該單詞數(shù)據(jù)庫和該語法數(shù)據(jù)庫來計算的，并且在將該語音分段拆分成語段之后，具有最高似然性的語音分段的單詞串將被輸出。
6. —種通過使用多個信道中輸入的會話式對話、通過使用單詞數(shù)據(jù)庫以及通過使用語法數(shù)據(jù)庫而將會話式對話拆分成語段的程序，其中該單詞數(shù)據(jù)庫中描述的是單詞的拼寫和發(fā)音，該語法數(shù)據(jù) 庫中描述的是包含有關(guān)單詞的句法規(guī)則的語法，該程序引起計算機(jī)執(zhí)行下列功能檢測產(chǎn)生主語音的信道中的暫停位置；檢測沒有產(chǎn)生主語音的信道中的應(yīng)答位置；通過提取存在于作為該應(yīng)答位置的基點之前和之后的預(yù)定范圍以內(nèi)的暫停來提取主語音的候選邊界；以及在通過參考該單詞數(shù)據(jù)庫和語法數(shù)據(jù)庫而將分段的語音拆分成優(yōu)化語段之后，輸出由被提取的候選邊界之一進(jìn)行分段的該語音中的單詞串。
全文摘要
為了實現(xiàn)上述目的，本發(fā)明的一個方面是提供一種用于將會話式對話拆分成語段的設(shè)備。該設(shè)備包括用于存儲單詞的拼寫和發(fā)音的單詞數(shù)據(jù)庫；用于存儲關(guān)于單詞的句法規(guī)則的語法數(shù)據(jù)庫；在至少兩個信道中輸入的會話式對話之中檢測在產(chǎn)生主語音的信道中的暫停位置的暫停檢測部分；在沒有產(chǎn)生主語音的信道中檢測應(yīng)答位置的應(yīng)答檢測部分；通過提取存在于作為應(yīng)答位置的基點之前和之后的預(yù)定范圍以內(nèi)的暫停來提取主語音中的候選邊界的候選邊界提取部分；以及在通過參考單詞數(shù)據(jù)庫和語法數(shù)據(jù)庫而將分段的語音拆分成優(yōu)化語段之后，輸出由所提取的候選邊界之一進(jìn)行分段的語音單詞串的識別單元。
文檔編號G10L15/00GK101211559SQ20071019275
公開日2008年7月2日申請日期2007年11月16日優(yōu)先權(quán)日2006年12月26日
發(fā)明者倉田岳人, 伊東伸泰申請人:國際商業(yè)機(jī)器公司

完整全部詳細(xì)技術(shù)資料下載