專利名稱:語音索引刪減的制作方法
語音索引刪減
背景
本發(fā)明涉及索引口語文檔,尤其涉及刪減口語文檔的索引。
在大量文檔集合中搜索感興趣的特定文檔在計算環(huán)境中變得普通。具體 地,對在因特網(wǎng)上找到的網(wǎng)頁執(zhí)行的搜索是由大量的搜索服務(wù)來執(zhí)行的。
為了執(zhí)行這些基于文本的搜索,搜索服務(wù)通常構(gòu)建倒排索引,所述倒排索 引對于搜索服務(wù)所覆蓋的文檔中的找到的每個詞語有單獨的條目。每個條目列 出可以找到詞語的所有文檔和文檔中可以找到詞語的所有位置。許多這些搜索 服務(wù)使用位置信息來確定文檔是否包含特定順序和/或彼此在特定距離內(nèi)的詞 語。該順序和距離信息接著可用于基于輸入査詢來排列文檔,具有與査詢相同 順序的查詢詞語的文檔比其他文檔排位更高。沒有位置信息,這種基于詞語順 序的文檔排序是不可能的。
試圖對口語文檔構(gòu)建索引,其中口語文檔是一個語音信號或者被組合在一 起作為單個實體的多個語音信號。例如,與特定會議或演講相關(guān)聯(lián)的語音信號 可以被組合成單個口語文檔。同樣,可以將諸如電影或動畫等多媒體文檔視為 語音文檔。
為了索引口語文檔,首先必須將語音信號轉(zhuǎn)換成文本。這是通過使用語音 識別系統(tǒng)來解碼語音信號來完成的。這種語音識別系統(tǒng)使用聲學(xué)模型和語言模 型來對可由語音信號表示的可能詞語序列評分。在許多系統(tǒng)中,基于語音信號
構(gòu)建可能的詞語串的網(wǎng)格(lattice),通過具有最高分的網(wǎng)格的路徑被標(biāo)識為 由語音信號表示的單個詞語串。
在以往的語音索引系統(tǒng)中,對來自語音信號的文本的該單個最佳估計被用 于創(chuàng)建口語文檔的索引。使用來自語音識別器的單個串輸出提供了標(biāo)記口語文 檔中特定詞語彼此相對的位置的能力。由此,為文本索引而開發(fā)的相同的排序 系統(tǒng)可以被應(yīng)用到這些口語文檔索引系統(tǒng)上。
不幸的是,語音識別并不完美。結(jié)果,所識別出的文本包含錯誤。這產(chǎn)生 了帶有錯誤的索引,使得系統(tǒng)在搜索期間并不可靠。以上討論僅提供了一般的背景信息,而并不旨在用于協(xié)助確定所要求保護(hù) 的主題的范圍。 概述
語音段是通過為語音段標(biāo)識至少兩個替換的詞語序列來索引的。對于替換 序列中的每個詞語,信息被置于索引中該詞語的條目中?;谠~語出現(xiàn)在語音 段中的概率與閾值的比較,從索引中的條目刪除語音單元。
提供本概述以便用簡化的形式介紹將在以下詳細(xì)描述中進(jìn)一步描述的一 些概念。本概述并不旨在確定所要求保護(hù)的主題的關(guān)鍵或必要特征,也不旨在 用于幫助確定所要求保護(hù)的主題的范圍。
附圖簡述
圖l是計算環(huán)境的框圖。
圖2是移動設(shè)備計算環(huán)境的框圖。
圖3A和3B分別是索引語音段和搜索語音段的索引的方法的流程圖。 圖4是用于索引語音段和搜索語音段的索引的元素的框圖。 圖5是識別網(wǎng)格的示例。
圖6示出了分割到各位置中的詞語和節(jié)點的關(guān)聯(lián)。 圖7是位置專用后驗網(wǎng)格的示例。 圖8是語音索引的一部分的示例。
詳細(xì)描述 示例性環(huán)境
圖1示出了其中可實現(xiàn)本發(fā)明的合適的計算系統(tǒng)環(huán)境100的一個示例。計 算系統(tǒng)環(huán)境100僅為合適的計算環(huán)境的一個示例,并非對本發(fā)明的使用范圍或 功能提出任何局限。也不應(yīng)將計算環(huán)境100解釋為對示例性操作環(huán)境100中示 出的任一組件或其組合具有任何依賴或需求。
本發(fā)明可以使用眾多其它通用或?qū)S糜嬎阆到y(tǒng)環(huán)境或配置來操作。適用于 本發(fā)明的眾所周知的計算系統(tǒng)、環(huán)境和/或配置的例子包括但不限于,個人計算 機、服務(wù)器計算機、手持式或膝上設(shè)備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、機頂盒、可編程消費者電子設(shè)備、網(wǎng)絡(luò)PC、小型機、大型機、電話系統(tǒng)、包
括任一上述系統(tǒng)或設(shè)備的分布式計算環(huán)境等等。
本發(fā)明可以在諸如由計算機執(zhí)行的程序模塊等計算機可執(zhí)行指令的一般 上下文環(huán)境中描述。 一般而言,程序模塊包括例程、程序、對象、組件、數(shù)據(jù) 結(jié)構(gòu)等等,它們執(zhí)行特定的任務(wù)或?qū)崿F(xiàn)特定的抽象數(shù)據(jù)類型。 一些實施例被設(shè) 計成在分布式計算環(huán)境中實踐,其中,任務(wù)由通過通信網(wǎng)絡(luò)鏈接的遠(yuǎn)程處理設(shè) 備來執(zhí)行。在分布式計算環(huán)境中,程序模塊可以位于包括存儲器存儲設(shè)備的本 地和遠(yuǎn)程計算機存儲介質(zhì)中。
參考圖1,用于實現(xiàn)一些實施例的示例性系統(tǒng)包括計算機110形式的通用 計算設(shè)備。計算機110的組件可包括,但不限于,處理單元120、系統(tǒng)存儲器 130以及將包括系統(tǒng)存儲器的各類系統(tǒng)組件耦合至處理單元120的系統(tǒng)總線 121。系統(tǒng)總線121可以是若干種總線結(jié)構(gòu)類型的任一種,包括存儲器總線或 存儲器控制器、外圍總線以及使用各類總線體系結(jié)構(gòu)的任一種的局部總線。作 為示例而非局限,這類體系結(jié)構(gòu)包括工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(ISA)總線、微通道 體系結(jié)構(gòu)(MCA)總線、增強ISA (EISA)總線、視頻電子技術(shù)標(biāo)準(zhǔn)協(xié)會(VESA) 局部總線以及外圍部件互連(PCI)總線,也稱為Mezzanine (小背板)總線。
計算機110通常包括各種計算機可讀介質(zhì)。計算機可讀介質(zhì)可以是可由計
算機IIO訪問的任一可用介質(zhì),包括易失性和非易失性介質(zhì)、可移動和不可移
動介質(zhì)。作為示例而非局限,計算機可讀介質(zhì)包括計算機存儲介質(zhì)和通信介質(zhì)。 計算機存儲介質(zhì)包括以用于儲存諸如計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或
其它數(shù)據(jù)等信息的任一方法或技術(shù)實現(xiàn)的易失性和非易失性,可移動和不可移 動介質(zhì)。計算機存儲介質(zhì)包括但不限于,RAM、 ROM、 EEPROM、閃存或其 它存儲器技術(shù)、CD-ROM、數(shù)字多功能盤(DVD)或其它光盤存儲、磁盒、磁 帶、磁盤存儲或其它磁存儲設(shè)備、或可以用來儲存所期望的信息并可由計算機 110訪問的任一其它介質(zhì)。通信介質(zhì)通常具體化為諸如載波或其它傳輸機制的 已調(diào)制數(shù)據(jù)信號中的計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù),并包 括任一信息傳送介質(zhì)。術(shù)語"已調(diào)制數(shù)據(jù)信號"指以對信號中的信息進(jìn)行編碼 的方式設(shè)置或改變其一個或多個特征的信號。作為示例而非局限,通信介質(zhì)包 括有線介質(zhì),如有線網(wǎng)絡(luò)或直接有線連接,以及無線介質(zhì),如聲學(xué)、RF、紅外和其它無線介質(zhì)。上述任一的組合也應(yīng)當(dāng)包括在計算機可讀介質(zhì)的范圍之內(nèi)。
系統(tǒng)存儲器130包括易失性和/或非易失性存儲器形式的計算機存儲介質(zhì), 如只讀存儲器(ROM) 131和隨機存取存儲器(RAM) 132?;据斎?輸出系 統(tǒng)133 (BIOS)包括如在啟動時幫助在計算機110內(nèi)的元件之間傳輸信息的基 本例程,通常儲存在ROM 131中。RAM 132通常包含處理單元120立即可訪 問和/或當(dāng)前正在操作的數(shù)據(jù)和/或程序模塊。作為示例而非局限,圖1示出了 操作系統(tǒng)134、應(yīng)用程序135、其它程序模塊136和程序數(shù)據(jù)137。
計算機110也可包括其它可移動/不可移動、易失性/非易失性計算機存儲 介質(zhì)。僅作示例,圖l示出了對不可移動、非易失性磁介質(zhì)進(jìn)行讀寫的硬盤驅(qū) 動器141,對可移動、非易失性磁盤152進(jìn)行讀寫的磁盤驅(qū)動器151以及對可 移動、非易失性光盤156,如CD ROM或其它光介質(zhì)進(jìn)行讀寫的光盤驅(qū)動器 155??梢栽谑纠圆僮鳝h(huán)境中使用的其它可移動/不可移動、易失性/非易失性 計算機存儲介質(zhì)包括但不限于,磁帶盒、閃存卡、數(shù)字多功能盤、數(shù)字錄像帶、
固態(tài)RAM、固態(tài)ROM等等。硬盤驅(qū)動器141通常通過不可移動存儲器接口, 如接口 140連接到系統(tǒng)總線121,磁盤驅(qū)動器151和光盤驅(qū)動器155通常通過 可移動存儲器接口,如接口 150連接到系統(tǒng)總線121。
上文討論并在圖1示出的驅(qū)動器及其關(guān)聯(lián)的計算機存儲介質(zhì)為計算機110 提供了計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和其它數(shù)據(jù)的存儲。例如,在圖 1中,示出硬盤驅(qū)動器141儲存操作系統(tǒng)144、應(yīng)用程序145、其它程序模塊 146和程序數(shù)據(jù)147。注意,這些組件可以與操作系統(tǒng)134、應(yīng)用程序135、其 它程序模塊136和程序數(shù)據(jù)137相同,也可以與它們不同。這里對操作系統(tǒng)144、 應(yīng)用程序145、其它程序模塊146和程序數(shù)據(jù)147給予不同的標(biāo)號來說明至少 它們是不同的副本。
用戶可以通過輸入設(shè)備,如鍵盤162、話筒163和定位設(shè)備161 (諸如指 鼠標(biāo)、跟蹤球或觸摸板)向計算機110輸入命令和信息。其它輸入設(shè)備(未示 出)可包括操縱桿、游戲手柄、圓盤式衛(wèi)星天線、掃描儀等等。這些和其它輸 入設(shè)備通常通過耦合至系統(tǒng)總線的用戶輸入接口 160連接至處理單元120,但 是也可以通過其它接口和總線結(jié)構(gòu)連接,如并行端口、游戲端口或通用串行總 線(USB)。監(jiān)視器191或其它類型的顯示設(shè)備也通過接口,如視頻接口 190連接至系統(tǒng)總線121。除監(jiān)視器之外,計算機也可包括其它外圍輸出設(shè)備,如 揚聲器197和打印機196,它們通過輸出外圍接口 195連接。
計算機110可以使用到一個或多個遠(yuǎn)程計算機,如遠(yuǎn)程計算機180的邏輯 連接在網(wǎng)絡(luò)化環(huán)境中操作。遠(yuǎn)程計算機180可以是個人計算機、服務(wù)器、路由 器、網(wǎng)絡(luò)PC、對等設(shè)備或其它普通網(wǎng)絡(luò)節(jié)點,并通常包括許多或所有相對于 計算機110所描述的元件。圖1描述的邏輯連接包括局域網(wǎng)(LAN) 171和廣 域網(wǎng)(WAN) 173,但也可包括其它網(wǎng)絡(luò)。這類網(wǎng)絡(luò)環(huán)境常見于辦公室、企業(yè) 范圍計算機網(wǎng)絡(luò)、內(nèi)聯(lián)網(wǎng)以及因特網(wǎng)。
當(dāng)在LAN網(wǎng)絡(luò)環(huán)境中使用時,計算機110通過網(wǎng)絡(luò)接口或適配器170連 接至LAN 171。當(dāng)在WAN網(wǎng)絡(luò)環(huán)境中使用時,計算機110通常包括調(diào)制解調(diào) 器172或用于通過WAN 173,如因特網(wǎng)建立通信的其它裝置。調(diào)制解調(diào)器172 可以是內(nèi)置或外置的,可通過用戶輸入接口 160或其他適當(dāng)?shù)臋C制連接至系統(tǒng) 總線121。在網(wǎng)絡(luò)化環(huán)境中,相對于計算機110所描述的程序模塊或其部分可 儲存在遠(yuǎn)程存儲器存儲設(shè)備中。作為示例而非局限,圖1示出遠(yuǎn)程應(yīng)用程序185 駐留在存儲器設(shè)備181上??梢岳斫?,示出的網(wǎng)絡(luò)連接是示例性的,也可以使 用在計算機之間建立通信鏈路的其它手段。
圖2是移動設(shè)備200的框圖,所述移動設(shè)備200是示例性計算環(huán)境。移動 設(shè)備200包括微處理器202、存儲器204、輸入/輸出(I/O)組件206以及用于 與遠(yuǎn)程計算機或其他移動設(shè)備通信的通信接口 208。在一個實施例,上述組件 被耦合以供通過合適的總線210彼此通信。
存儲器204被實現(xiàn)為諸如隨機存取存儲器(RAM)等帶有電池后備模塊 (未示出)的非易失性電子存儲器,這樣使得當(dāng)?shù)揭苿釉O(shè)備200的總電源被關(guān) 閉時存儲在存儲器204中的信息不會丟失。存儲器204的一部分優(yōu)選地被分配 為可尋址存儲器以供程序執(zhí)行,而存儲器204的另一部分被優(yōu)選地用于存儲, 諸如模擬磁盤驅(qū)動器上的存儲。
存儲器204包括操作系統(tǒng)212、應(yīng)用程序214以及對象存儲216。在操作 期間,操作系統(tǒng)212優(yōu)選地由處理器202從存儲器204來執(zhí)行。在一個優(yōu)選實 施例中,操作系統(tǒng)212是微軟公司出售的WINDOWS CE牌操作系統(tǒng)。操作 系統(tǒng)212優(yōu)選地為移動設(shè)備而設(shè)計,并且實現(xiàn)可以通過一組展示的應(yīng)用程序編程接口和方法而由應(yīng)用程序214使用的數(shù)據(jù)庫特征。對象存儲216中的對象由 應(yīng)用程序214和操作系統(tǒng)212至少部分響應(yīng)于對展示的應(yīng)用程序編程接口和方 法的調(diào)用來維護(hù)。
通信接口 208表示允許移動設(shè)備200發(fā)送和接收信息的多種設(shè)備和技術(shù)。 設(shè)備例如包括有線和無線調(diào)制解調(diào)器、衛(wèi)星接收器和廣播調(diào)諧器等。移動設(shè)備 200也可以被直接連接到計算機上,以便與之交換數(shù)據(jù)。在這種情況下,通信 接口 208可以是紅外收發(fā)器或者串行或并行通信連接,所有這些都能夠發(fā)送流 傳送信息。
輸入/輸出組件206包括諸如觸敏屏幕、按鈕、滾輪和話筒等各種輸入設(shè) 備以及包括音頻生成器、振動設(shè)備以及顯示器等的各種輸出設(shè)備。以上所列示 的設(shè)備是示例性的,無需全部都出現(xiàn)在移動設(shè)備200上。此外,可以將其他輸 入/輸出設(shè)備連接到移動設(shè)備200上或者可以從移動設(shè)備200上找到其他輸入/ 輸出設(shè)備。
索引口語文檔
圖3和4分別示出了用于形成和使用口語文檔的索引的方法和框圖。在圖 3A的步驟300中,接收口語文檔400。這些口語文檔可以被存儲,使得可以同 時處理所有的文檔或分開接收和處理個別文檔。在其他實施例中,用流傳送的 方式接收每個文檔,且在無需存儲口語文檔的情況下來索弓I每個文檔。
一般地,口語文檔是以某種方式彼此相關(guān)的語音信號的集合。例如,在會 議時發(fā)生的語音信號、與演講相關(guān)聯(lián)的語音信號或者與諸如電影或多媒體演示 等多媒體文檔相關(guān)聯(lián)的語音信號。為了形成口語文檔400,本發(fā)明的某些實施 例將多媒體文檔中的語音內(nèi)容與其他內(nèi)容分開。例如,可以從電影移除語音內(nèi) 容,以便使其與電影的視頻和音樂內(nèi)容分開。當(dāng)口語文檔僅表示多媒體文檔的 語音內(nèi)容時,可以存儲將口語文檔鏈接到多媒體文檔的映射。這允許在搜索結(jié) 果中返回指向多媒體文檔的路徑。
口語文檔可以是非常長的。在步驟302處,為了協(xié)助語音識別過程,由段 標(biāo)識符402將每個口語文檔分割成口語段404。 口語文檔于是由段的有序列表 組成。在一個實施例中,通過在無聲時間段處分割每個口語文檔來形成段。用于在語音中標(biāo)識無聲時間段的技術(shù)在本領(lǐng)域中是公知的。
在步驟304處,文檔/段標(biāo)簽器將每個段和每個口語文檔映射到一整數(shù)值, 并將映射存儲到集合描述符文件408中,該文件列示出所有的文檔和段。在一 些實施例中,集合描述符文件408將整數(shù)值映射到其中可找到口語文檔的路徑 名稱上。對于從多媒體文件生成的口語文檔,集合描述符文件408可以將整數(shù) 值映射到其中存儲多媒體文檔的路徑名稱上。
在一些實施例中,使用單個整數(shù)值來標(biāo)識段和文檔兩者。在這種情況下, 也必須存儲與每個文檔相關(guān)聯(lián)的這種值的范圍。在其他實施例中,每個文檔具 有唯一的整數(shù)值,且文檔中的每個段具有唯一的整數(shù)值作為其在文檔中的標(biāo)識 符。整數(shù)值提供了可被有效的存儲在索弓I中的對文檔/段的緊湊引用。
在圖3的步驟306處,每個口語段404被提供給語音識別器410,語音識 別器410使用聲學(xué)模型412和語言模塊414來將口語段解碼成可能的文本序列。
通常,語音識別器410基于表示口語段中的語音的特征向量序列來執(zhí)行識別。
通過首先使用模數(shù)轉(zhuǎn)換器將模擬語音信號轉(zhuǎn)換成數(shù)字值來形成由語音識 別器使用的特征向量。在若干個實施例中,模數(shù)轉(zhuǎn)換器以16KHz且每個樣本 16位來采樣模擬信號,由此創(chuàng)建每秒32千字節(jié)的語音數(shù)據(jù)。這些數(shù)字值被提 供給幀構(gòu)建器,幀構(gòu)建器在一個實施例中將值歸組成間隔10毫秒開始的25毫 秒幀。由幀構(gòu)建器創(chuàng)建的數(shù)據(jù)幀被提供給特征提取器,所述特征提取器從每個 幀提取特征。
特征提取模塊的示例包括用于執(zhí)行線形預(yù)測編碼(LPC) 、 LPC導(dǎo)出倒譜、 感知線形預(yù)測(PLP) (perceptive linear prediction)、聽覺模型特征提取以及 美爾頻率倒譜系數(shù)(MFCC)特征提取的模塊。注意本發(fā)明并不限于這些特征提
取模塊,可以在本發(fā)明的上下文中使用其他模塊。
形成特征向量所需的步驟可以全部由語音識別器410來執(zhí)行,或者某些或 全部步驟可以在生成口語文檔400時執(zhí)行。由此,口語文檔400可以被存儲為 模擬信號、數(shù)字信號、數(shù)字信號幀或特征向量。
在識別期間,每個特征向量被應(yīng)用到聲學(xué)模型412上,所述聲學(xué)模型412 提供了給定輸入特征向量時每個語音單元組的概率。通過組合形成詞語的語音單元的概率來確定詞語的聲學(xué)概率。此外,每個詞語接收指示詞語或詞語序列
在特定語言中出現(xiàn)的概率的語言模型分?jǐn)?shù)。使用由聲學(xué)模型412和語言模型 414提供的分?jǐn)?shù),語音識別器410能夠形成包含對語音段的識別結(jié)果的識別網(wǎng) 格416。注意,在多數(shù)實施例中,語音識別器416在其構(gòu)建網(wǎng)格時從網(wǎng)格416 刪減不太可能的詞語序列,僅在網(wǎng)格中留下前N個識別結(jié)果。在其他實施例中, 語音識別器410產(chǎn)生n個最佳識別結(jié)果列表,所述列表在給定語音段時提供了 n個最可能的詞語序列的列表。
注意雖然上述系統(tǒng)在將段提供給語音識別器410之前對文檔分段,在其他 實施例中,口語文檔400在被提供給語音識別器410之前不被分段。相反,語 音識別器標(biāo)識語音中的無聲時間段,并且在開始口語文檔的下一部分的新網(wǎng)格 之前,在這種點處強制網(wǎng)格聚集到單個節(jié)點上。這樣,語音識別器410為口語 文檔的不同段生成分開的識別網(wǎng)格。在這種實施例中,語音識別器410會包括 用于它所產(chǎn)生的每個識別網(wǎng)格的文檔和段標(biāo)識符,并會更新集合描述符文件 408中的映射。
圖5提供了語音識別器410生成的識別網(wǎng)格500的示例。網(wǎng)格500包括狀 態(tài)(也稱為節(jié)點)502、 504、 506、 508、 510、 512、 514、 516、 518、 520、 522、 524、 526和528,它們被分別標(biāo)記為狀態(tài)0、 1、 2、 3、 4、 5、 6、 7、 8、 9、 10、 11、 12和13。
網(wǎng)格500中狀態(tài)之間的每次轉(zhuǎn)移與一詞語、 一開始符號或一結(jié)束符號相關(guān) 聯(lián)。此外,對于基于多個詞語的序列的語言模型(n元模型,其中n大于l), 對一狀態(tài)的每個轉(zhuǎn)移必定包含相同的詞語。例如,對狀態(tài)520的轉(zhuǎn)移530和532 都包含詞語"very"。由此,轉(zhuǎn)移上的詞語可同等地與轉(zhuǎn)移的結(jié)束狀態(tài)相關(guān)聯(lián)。
每次轉(zhuǎn)移也具有用于給定輸入語音信號時位轉(zhuǎn)移上的詞語的相關(guān)聯(lián)的概 率。這個概率是聲學(xué)模型分?jǐn)?shù)、語言模型分?jǐn)?shù)和用于將這些分?jǐn)?shù)組合到單個概 率中并修改這些分?jǐn)?shù)的各種其他參數(shù)的函數(shù)。具體地,在一個實施例中,轉(zhuǎn)移 的概率h被存儲為如下求值的對數(shù)概率
'" '"' 公式l
其中l(wèi)0gP (ti)是轉(zhuǎn)移&的對數(shù)概率,10gPAM (ti)是基于語音信號的一部分的特征向量和在詞語中找到的語音單元的聲學(xué)模型之間的對應(yīng)關(guān)系而分配
給轉(zhuǎn)移tz的詞語的聲學(xué)模型對數(shù)似然,logPLM(word(ti))是分配給轉(zhuǎn)移b上的詞 語的語言模型對數(shù)概率,LMw是大于0的常數(shù)權(quán)重,它補償聲學(xué)模型和語言 模型的可能的值的范圍中的差,logPiP是插入懲罰,它補償語音識別器選擇較 短的詞語勝過選擇較長的詞語的傾向性,以及FLATw是用于控制后驗分布對 網(wǎng)格路徑的傾斜程度的平整權(quán)重(flattening weight)。具體地,F(xiàn)LATw協(xié)助幫 助語音識別器防止將大多數(shù)概率分配給網(wǎng)格中的一個或兩個路徑。
圖5的語音識別網(wǎng)格500示出了不同路徑長度可以在相同的狀態(tài)處結(jié)束。 例如,有達(dá)到狀態(tài)514的兩個路徑。 一個路徑包括開始符號和詞語"They are in",而另一路徑包括開始符號和詞語"Therein"。因此,當(dāng)"in"處于識別 出的文本中的第二個詞語位置上和當(dāng)"in"處于識別出的文本的第三個詞語位 置上時,可以到達(dá)表示詞語"in"的狀態(tài)514,其中從詞語序列的開始確定詞 語的位置。此外,單個詞語可以在不同的狀態(tài)處出現(xiàn),但是在那些狀態(tài)中處于 相同的詞語位置。例如,詞語"very"在路徑"They are in two very"的第五個 詞語位置中的轉(zhuǎn)移532上進(jìn)入狀態(tài)520。詞語"very"在沿著路徑"There in two very very"導(dǎo)向狀態(tài)522的轉(zhuǎn)移中也位于第五個詞語的位置中,其中最后一個 very位于第五個詞語的位置中。
依照一個實施例,位置專用后驗網(wǎng)格(PSPL) 419首先是從該詞語網(wǎng)格構(gòu) 建的,以便形成索引。在位置專用后驗網(wǎng)格中,網(wǎng)格中的每個詞語位置形成儲 存斗(bin)或條目。詞語位置可以是基于整數(shù)的,其中詞語位置是基于由聲音 模型從基準(zhǔn)(例如語音段的開始)標(biāo)識的詞語轉(zhuǎn)移的計數(shù)。詞語位置也可以是 基于時間的,其中詞語位置是基于相對于基準(zhǔn)(例如語音段的開始)已經(jīng)過的 時間。占據(jù)特定詞語位置的所有詞語以及該詞語占據(jù)網(wǎng)格中該詞語位置的概率 被置于該詞語位置的儲存斗中。為了形成位置專用后驗網(wǎng)格,每個狀態(tài)被分成 一組子狀態(tài),達(dá)到狀態(tài)的每個詞語位置有一個子狀態(tài)。
圖6提供了從圖5的網(wǎng)格500形成的子狀態(tài)及其相關(guān)聯(lián)的詞語的列表。例 如,子狀態(tài)600和602指示對狀態(tài)6,有兩個子狀態(tài), 一個用于位置2處的詞 語"in", 一個用于位置3處的詞語"in"。子狀態(tài)604和606指示詞語"very" 在狀態(tài)9和10處都出現(xiàn)在詞語位置5中。為每個子狀態(tài)確定基于長度或詞語位置分?jǐn)?shù)。這在圖3A的步驟308處示 出,并且由圖4的位置專用后驗網(wǎng)格構(gòu)造器(PSPL構(gòu)造器)418執(zhí)行。
在一個實施例中,使用用于對通過網(wǎng)格的路徑評分的標(biāo)準(zhǔn)前向一后向算法 的修改來計算在每個狀態(tài)處基于長度的分?jǐn)?shù)。具體地,在狀態(tài)n和詞語位置l 處的詞語的概率可以如下計算
<formula>formula see original document page 14</formula> 公式2
其中""[/]是如下遞歸地計算的前向分?jǐn)?shù)
<formula>formula see original document page 14</formula>O 公式3
其中q是轉(zhuǎn)移到狀態(tài)n的狀態(tài)&的數(shù)目,使用上述公式1計算logP(<formula>formula see original document page 14</formula> 公式4
以及
<formula>formula see original document page 14</formula> 公式5
其中e表示不包含詞語的空轉(zhuǎn)移。該空轉(zhuǎn)移在使用后退語言模型的識別網(wǎng) 格中是常見的。在公式2中,""被如下遞歸地計算
w 公式6
其中r是在狀態(tài)n后連接到狀態(tài)n的狀態(tài)的數(shù)目,是與從狀態(tài)n到狀態(tài)Sj 的轉(zhuǎn)移相關(guān)聯(lián)的概率。
公式2的歸一化值norm(LAT)是在語音識別網(wǎng)格的結(jié)束狀態(tài)處計算出的 ""的值。注意,由于在語音識別期間執(zhí)行的刪減,歸一化是必需的。
在為每個狀態(tài)處每個觀察到的詞語位置確定基于長度的分?jǐn)?shù)之后,在步驟 310處對基于長度的分?jǐn)?shù)求和。具體地,用于相同的詞語位置和相同的詞語的
每個分?jǐn)?shù)被一起求和以便形成該詞語在語言段中出現(xiàn)在該詞語位置處的后驗 概率。該求和如下表示
<formula>formula see original document page 14</formula>公式7
其中對于網(wǎng)格中基于長度的分度大于零的所有狀態(tài)n執(zhí)行求和。
詞語以及通過公式7的求和所形成的它們各自的概率接著基于它們的詞語位置l被存儲,以便形成位置專用后驗網(wǎng)格419,如在步驟312處所示。
位置專用后驗網(wǎng)格的示例在圖7中示出,其中可能的位置在行700中示出, 而在每個位置處出現(xiàn)的詞語在它們各自的位置下示出。例如,各自具有0.7和 0.3的概率701的詞語"They"和"There"(如在括號中示出的)在詞語位置 l中出現(xiàn),如由列702所示。詞語"very"對于在詞語位置4、 5和6中出現(xiàn)分 別具有0.7、 1.0和0.7的概率,如在列704、 706和708中所示。注意相比網(wǎng)格 500和圖6的子狀態(tài)的組合,位置專用后驗網(wǎng)格提供了識別結(jié)果的更為緊湊的 表示。其原因是在識別網(wǎng)格500中相同詞語位置但是不同狀態(tài)處出現(xiàn)的詞語被 組合到圖7的位置專用后驗網(wǎng)格的單個條目中。結(jié)果,位置專用后驗網(wǎng)格是根 據(jù)詞語位置組織的語音段的候選詞語或子詞語的索引,其中對應(yīng)于每個詞語位 置的條目包括該位置的候選詞語以及該候選詞語出現(xiàn)在該詞語位置的概率。
圖7的示例性概率被歸一化,這樣使得每個條目的概率合計為1.0。然而, 也可以使用其他概率評分技術(shù)(例如非歸一化或歸一化為不同的數(shù)字)。
在其他實施例中,從n最佳列表構(gòu)建位置專用后驗網(wǎng)格。可以使用上述相 同的技術(shù)通過首先從n最佳列表形成識別網(wǎng)格來構(gòu)建位置專用后驗網(wǎng)格。這可 以通過將n最佳列表中每個條目的第一個詞語與通用開始節(jié)點連系,并且將n 最佳列表中每個詞語的最后一個詞語與通用結(jié)束節(jié)點連系來完成。
PSPL刪減
依照一個實施例,刪減位置專用后驗點陣中相對于閩值具有較低概率出現(xiàn) 在相應(yīng)的語音段中的語音單元。 一般地,基于將位置專用后驗網(wǎng)格的條目中的 詞語的概率與閾值421的比較,由位置專用后驗網(wǎng)格生成器418的刪減器420 刪去所述的詞語,如在步驟313處所示??梢詫㈤撝嫡{(diào)整為提供的位置專用后 驗網(wǎng)格的刪減的期望水平。相對于選擇較高的閾值,較低的閾值的設(shè)置將導(dǎo)致 在刪減期間刪去較少數(shù)目的詞語。此外,相對于選擇較高的閾值,較低的閾值 允許精確度較低的候選詞語保留在位置專用后驗網(wǎng)格中。
在一個實施例中,作出位置專用后驗網(wǎng)格中的詞語概率與閾值或概率的直 接比較。其概率不超過閾值概率或未能符合對于閾值的另一預(yù)定義關(guān)系,諸如 匹配或超過閾值的概率的詞語被從位置專用后驗網(wǎng)格的相應(yīng)的儲存斗或條目中刪去。例如,當(dāng)將閾值設(shè)置為0.2時,在預(yù)定義關(guān)系要求概率超過閾值的情 況下,詞語位置或條目2中的詞語或語音單元"in"、詞語位置或條目3中的 "two"或條目3、詞語位置或條目7中的"houses"以及詞語位置或條目8中 的"<e>"(結(jié)束符號)將被刪去??梢灾苯釉赑SPL或索引本身上實現(xiàn)這種 類型的刪減,如下所述。
在另一實施例中,將閾值與基于一條目的至少兩個語音單元(詞語或分詞 語)的概率的相對概率作比較。在一個實施例中,將閾值與正考慮刪去的條目 的候選語音單元的相對概率作比較直至條目的最高概率。當(dāng)相對概率未能符合 與閾值的預(yù)定義關(guān)系(例如小于、匹配或超過)時,就從條目刪去候選語音單 元。僅可以使用計算上高效的方式來對PSPL執(zhí)行這種類型的刪減。
公式8示出了一個實施例,其中P1表示條目的最高概率,P2表示條目的 候選語音單元或詞語wk的概率,以及^f表示預(yù)定義閾值。如在圖7的示例性 條目中所示,當(dāng)將概率歸一化為l.O時,可以使用比率P1/P2的對數(shù),w可以 是從-oo到0的值,如在公式8中所示。閩值的設(shè)置越接近0,候選語音單元的 概率必須越接近最高概率,以便避免刪去。
當(dāng)l0g(P2/Pl)〉Tref時,刪去Wk 公式8
例如,如果選擇詞語位置或條目3的語音單元"into"(圖7)作為具有 概率為0.3的候選語音單元,那么相對概率等于0.3除以0.6的對數(shù),它是對應(yīng) 于詞語"in"的條目3的最高概率,等于-0.3。由此,依照以上提供的示例性 實施例,僅當(dāng)預(yù)定義閾值小于-0.3時,才能避免從位置專用后驗網(wǎng)格刪去條目 3中的詞語"into"。
也可以使用其他合適的相對概率。例如,相對概率可以是候選語音單元的 概率與最高概率的比率。這樣,當(dāng)比率大于(或等于)閾值時,刪去候選語音 單元。相似地,相對概率可以是最高概率與候選語音單元的概率的比率。當(dāng)相 對概率小于(或等于)閾值時,刪去候選語音單元。
在一個實施例中,在從位置專用后驗網(wǎng)格的條目刪減一個或多個語音單元 之后,再歸一化所述條目的詞語或語音單元的概率。這種操作僅需要將剩余的 概率變換成合計為1.0的概率。由此,例如,如果在刪減操作之后從條目3 (圖 7)刪去了詞語"two",那么通過將剩余條目"in"和"into"各自的概率0.6和0.3除以它們的總和即0.9來將它們再歸一化。在歸一化之后,條目3將包 含具有概率為0.67的"in"和概率為0.33的"into"??梢詫ξ恢脤S煤篁灳W(wǎng) 格的剩余條目執(zhí)行其他合適的再歸一化過程,如網(wǎng)格的特性所指示的。
構(gòu)建倒排索引
雖然位置專用后驗網(wǎng)格組成了根據(jù)位置來組織語音段的語音單元數(shù)據(jù)同 時也提供有關(guān)語音單元的概率信息的索引,但是這種索引作為搜索服務(wù)的索引 并不是非常有用的。這種系統(tǒng)要求可以被快速搜索以便找到與輸入查詢有關(guān)的 結(jié)果的索引。
對于這種搜索服務(wù)的一種合適的索引是倒排索引。索引中的詞語或子詞語 各自組成索引中的條目,而在每個條目中提供的信息是由索引表示的文檔中的 詞語或子詞語的位置。結(jié)果,可以認(rèn)為倒排索引是位置專用后驗網(wǎng)格的倒置。
本發(fā)明的實施例涉及使用上述經(jīng)刪減的或整個位置專用后驗網(wǎng)格來構(gòu)建 這種倒排索引,并使用倒排索引來提供搜索服務(wù)。在步驟314處,索引器422 基于位置專用后驗網(wǎng)格構(gòu)建倒排索引423。在一個實施例中,這種倒排索引是 通過提供識別語法中每個詞語的條目來形成的,如上所述。在每個條目中,對 位置專用后驗網(wǎng)格中出現(xiàn)條目的詞語的每個位置提供信息。該信息包括與位置 專用后驗網(wǎng)格相關(guān)聯(lián)的文檔和段標(biāo)識符、其中詞語置于網(wǎng)格中的位置儲存斗以 及與該位置中的該詞語相關(guān)聯(lián)的概率。
圖8提供了詞語w[k]的條目800的一般表示。在圖8中,條目800包括 子條目的集合,包括子條目802、 804、 806、 808、 810、 812和814。每個子條 目包括諸如文檔標(biāo)識符(諸如文檔標(biāo)識符816)、段標(biāo)識符(諸如段標(biāo)識符818)、 段中的位置(諸如位置820)和詞語出現(xiàn)在段中該位置處的概率(諸如概率822) 等信息。子條目802、 804和806是用于相同的文檔和段的。子條目808和810 是用于與子條目802、 804和806相同的文檔,但是用于不同的段。子條目812 和814是用于單獨的文檔。條目800將包括用于其中出現(xiàn)詞語的每個文檔、段 和位置的子條目。
在一些實施例中,每個條目被存儲為單獨的文件,以便允許對索引的容易 的增量更新。倒排索引刪減
一般將倒排索引與搜索服務(wù)一起使用來允許用戶在語音索引423中搜索 與搜索査詢相關(guān)的口語文檔。 一個實施例針對通過允許用戶從倒排索引中刪減 相對于閾值在給定位置處具有較低的出現(xiàn)概率的詞語位置條目來向用戶提供 對搜索精確度的控制。該刪減在查詢運行時間發(fā)生;相同的查詢可以按照不同 的刪減閾值運行并且獲取不同的精確度/重調(diào)折衷。
一般地,基于概率與閾值425的比較刪去倒排索引423中條目中的位置信 息表示的語音單元(詞語或子詞語)。閾值可以被調(diào)整為提供位置專用后驗網(wǎng) 格的刪減的期望水平。相對于選擇較高的閾值,較低的閾值的設(shè)置一般將導(dǎo)致 在刪減期間刪去較少數(shù)目的詞語。此外,相對于選擇較高的閾值,較低的閾值 允許精確度較低的候選語音單元的位置保留在倒排索引423中。
在一個實施例中,作出將位置專用后驗網(wǎng)格中的詞語概率與閾值或概率的 直接比較。其概率具有不超過閾值概率或未能符合相對于閾值的另一預(yù)定義關(guān) 系,諸如匹配或超過閾值的詞語被從位置專用后驗網(wǎng)格的相應(yīng)的儲存斗或條目 中刪去。例如,當(dāng)將閾值設(shè)置為0.2時,在預(yù)定義關(guān)系要求概率超過閾值的情 況下,將從索引423刪去具有其相關(guān)聯(lián)的概率小于0.2的位置的詞語或語音單 元。
搜索索引
一旦構(gòu)建了索引,可以執(zhí)行搜索以便基于搜索查詢標(biāo)識口語文檔。具體地, 在圖3B的流程圖的步驟315處,由搜索單元428接收搜索査詢426。在一個 實施例中,也接收閾值425,并且執(zhí)行上述倒排索引刪減以便形成刪減形式的 倒排索引423。
在步驟316處,搜索單元428訪問并搜索倒排索引423,并且在步驟317 處檢索査詢的每個詞語的每個子條目的文檔標(biāo)識符、段標(biāo)識符、位置以及概率。 在語音識別器的詞匯表之外的任何詞語被映射到未知標(biāo)記UNK,它在任何文 檔中都不能被匹配。未知標(biāo)記被用作占位符,但是在計算査詢的分?jǐn)?shù)時不提供 值。在一個實施例中,基于所檢索的條目的概率與閾值425的比較,刪去所檢 索的條目的位置,如在步驟318處所示。在一個實施例中,從作為搜索結(jié)果的 考慮中刪去未能符合與閾值425的預(yù)定義關(guān)系(例如符合或超過)的概率。
在步驟319處,為從倒排索引423的搜索返回的每個文檔確定分?jǐn)?shù)。從搜 索返回的文檔可受限,使得返回的每個文檔包括査詢的所有詞語。或者,可以 在該階段返回包含査詢的至少一個詞語的任何文檔。使用從倒排索引423返回 的概率,通過首先計算每個文檔的合成n元分?jǐn)?shù)的集合來計算每個文檔的分?jǐn)?shù)。 通過使用以下公式在査詢中n元所有可能的形成上對各個n元分?jǐn)?shù)求和來形成 每個合成的n元分?jǐn)?shù)<formula>formula see original document page 19</formula>
其中D是文檔,K是査詢中詞語的數(shù)目,N是n元中詞語的數(shù)目,Q是査詢而 S(D,qi…qw^)是在查詢中點I處開始的單個n元的分?jǐn)?shù),它被計算如下
<formula>formula see original document page 19</formula>
其中右側(cè)的內(nèi)求和是對段中前k-N個詞語位置執(zhí)行的,而外求和是對與文檔D 相關(guān)聯(lián)的所有段執(zhí)行的。在公式9中,P(Wk+,(s)-qwlD)是為文檔D和段s在位 置k+l處的詞語存儲在倒排索引中的后驗概率。
如果為每個文檔計算多于一個的合成n元分?jǐn)?shù),那么使用以下公式在加權(quán) 和中組合單獨的合成n元分?jǐn)?shù)
<formula>formula see original document page 19</formula>
其中WN是與特定N元相關(guān)聯(lián)的權(quán)重,而K是查詢中詞語的數(shù)目。 在許多實施例中,n元的權(quán)重隨著n元的次序線性增加。然而,也可以使 用其他技術(shù)來設(shè)置n元的權(quán)重。
為每個文檔計算出的分?jǐn)?shù)用于排列要返回的文檔。返回的文檔可以通過移 除不為最高次序合成n元提供非零分?jǐn)?shù)的文檔來刪減。這確保了查詢中的所有 詞語在文檔中至少出現(xiàn)一次。該要求強制引用功能,這要求所有詞語存在并且 處于與査詢中相同的次序,以便從查詢標(biāo)識出文檔。另一種可能性是允許在查 詢中引用短語,諸如JAPAN "NUCLEAR WEAPONS";輸入這種查詢將僅返 回包含JAPAN和NUCLEAR和WEAPONS的文檔,而詞語NUCLEARWEAPONS彼此之間正好以該順序出現(xiàn)。
在步驟320處,返回由搜索單元428所標(biāo)識和評分的文檔作為經(jīng)排列的文 檔430。在許多實施例中,搜索單元428訪問集合描述符文件408,以便將文 檔標(biāo)識符轉(zhuǎn)移成文檔的位置的路徑名稱。接著返回該路徑名稱。
在本發(fā)明的又一實施例中,在將査詢應(yīng)用到索引上之前,對查詢執(zhí)行形態(tài) 分析。這生成了不同形式的查詢項的列表,包括詞語的其他詞尾。例如,查詢 中的項"weapons"將產(chǎn)生替換項"weapon",其中丟棄了最后的"s"。接著 可以將形態(tài)上改變的項的不同組合用于執(zhí)行對倒排索引的不同搜索。每個搜索 涉及形成上述的合成n元分?jǐn)?shù)。替換搜索串的合成n元分?jǐn)?shù)的權(quán)重比原始搜索 串的合成n元分?jǐn)?shù)的權(quán)重要低得多。結(jié)果,包含替換搜索字符串而非原始搜索 字符串的文檔將排列在包含原始搜索字符串的文檔之下。
雖然以上參考完整的詞語討論了索引技術(shù),但是可以將相同的技術(shù)用于索 引包括子詞語單元的任何語音單元,諸如音子或三音子。具體地,語音識別器 形成子詞語單元網(wǎng)格而非形成詞語網(wǎng)格。使用基于子詞語單元而非詞語的序列 的語言模型按與以上詞語相同的方式來對這些子詞語單元評分。于是位置專用 后驗網(wǎng)格將包含各個子詞語單元以及它們相關(guān)聯(lián)的概率。
當(dāng)接收到搜索查詢時,査詢被分解成子詞語單元。接著使用上述評分技術(shù) 用子詞語單元而非詞語對文檔進(jìn)行排列。在一些實施例中,查詢中的每個詞語
可以如包含在引用中一樣來對待以便減少所返回的文檔的數(shù)目。
盡管用結(jié)構(gòu)特征和/或方法步驟專用的語言描述了本發(fā)明,但可以理 解,所附權(quán)利要求書中定義的本發(fā)明不必限于上述的特定特征或動作。相 反,上述特定特征和動作是作為實現(xiàn)權(quán)利要求的示例形式而公開的。例如, PSPL是一種索引形式。由此,此處參考索引使用的術(shù)語也可以描述PSPL。 此外,雖然參考PSPL索引技術(shù)描述了各實施例,但是使用"命中"概率的 口語文檔的任何其他軟索引可以使用上述的刪減實施例。此外,雖然語音 索引包括對在口語文檔中包含的詞語的索引,但是索引也可以包括從書面 文檔提取的詞語。
權(quán)利要求
1. 一種索引語音段的方法,所述方法包括基于所述語音段標(biāo)識至少兩個替換語音單元序列(306);對于所述至少兩個替換語音單元序列中的每個語音單元,將指示所述兩個替換語音單元序列的至少一個中的語音單元的位置以及所述語音單元出現(xiàn)在所述位置的概率的信息置于所述所述索引的條目中(312);以及基于所述概率與閾值的比較,從所述索引的條目刪去語音單元(313)。
2. 如權(quán)利要求l所述的方法,其特征在于,所述從條目刪去語音單元包括將所述閾值與基于條目的至少兩個所述語音單元的概率的相對概率作比較。
3. 如權(quán)利要求l所述的方法,其特征在于,所述從條目刪去語音單元包括基于所述閾值與基于所述條目的最高概率和條目的候選語音單元的概率的 相對概率之間的比較來刪去所述候選語音單元。
4. 如權(quán)利要求l所述的方法,其特征在于,還包括在從所述條目刪去語 音單元后,在至少一個所述條目中歸一化所述語音單元的概率。
5. 如權(quán)利要求l所述的方法,其特征在于,所述位置是相對詞語位置。
6. 如權(quán)利要求1所述的方法,其特征在于,還包括將單獨的信息置于語 音單元的條目中,以便指示其中出現(xiàn)所述語音單元的至少兩個替換語音單元序 列中的多個位置。
7. 如權(quán)利要求6所述的方法,其特征在于,所述刪去語音單元包括將所 述閾值與所述條目中的候選語音單元的概率作比較,并且從所述條目刪去具有 未達(dá)到與所述閾值的預(yù)定關(guān)系的概率的候選語音單元。
8. 如權(quán)利要求1所述的方法,其特征在于,還包括將單獨的信息置于語 音單元的條目中,以便指示其中出現(xiàn)所述語音單元的至少兩個替換語音單元序 列中的多個位置。
9. 如權(quán)利要求l所述的方法,其特征在于,所述語音單元包括詞語。
10. 如權(quán)利要求l所述的方法,其特征在于,所述語音單元包括子詞語。
11. 一種具有用于執(zhí)行以下步驟的計算機可執(zhí)行指令的計算機可讀介質(zhì), 所述步驟包括接收搜索查詢(315);在語音索引中搜索與所述搜索查詢中的詞語相關(guān)聯(lián)的條目(316);從所述條目檢索多個語音信號中的詞語的多個位置,以及給定相應(yīng)的語音 信號時所述詞語在每個所述位置處出現(xiàn)的概率(317);基于所述位置的概率與閾值的比較來刪去所述位置(318);使用所述概率相對于彼此排列對應(yīng)于所述剩余位置的語音信號,以便形成 經(jīng)排列的語音信號(319);以及基于經(jīng)排列的語音信號返回搜索結(jié)果(320)。
12. 如權(quán)利要求11所述的計算機可讀介質(zhì),其特征在于,所述刪去所述 位置包括將所述位置的概率與所述閾值作比較,并且刪去其概率未能達(dá)到與所 述閾值的預(yù)定義關(guān)系的那些位置。
13. 如權(quán)利要求11所述的計算機可讀介質(zhì),其特征在于,所述刪去步驟 是在所述搜索語音索弓I的步驟之前對所述語音索引執(zhí)行的。
14. 如權(quán)利要求11所述的計算機可讀介質(zhì),其特征在于,使用所述概率 來排列所述候選語音信號包括通過以下步驟為語音信號形成分?jǐn)?shù)基于所述概 率形成一元分?jǐn)?shù)來,并基于所述概率形成二元分?jǐn)?shù),以及從所述一元分?jǐn)?shù)和所 述二元分?jǐn)?shù)形成加權(quán)和,以形成所述語音信號的分?jǐn)?shù)。
15. 如權(quán)利要求11所述的計算機可讀介質(zhì),其特征在于,語音信號被分 成段,且檢索位置包括檢索所述語音信號的段內(nèi)的位置。
16. 如權(quán)利要求11所述的計算機可讀介質(zhì),其特征在于,還包括修改所 述搜索査詢的詞語以便形成經(jīng)修改的詞語,以及在所述索引中搜索與所述經(jīng)修 改的詞語相關(guān)聯(lián)的條目。
17. —種搜索語音段的方法,包括訪問包含從多個語音段生成的詞語的位置的概率的索引(316); 檢索閾值(315);從所述索引檢索一詞語的一組概率(317);以及基于所述一組概率中符合與所述閾值的預(yù)定義關(guān)系的概率,返回包含所述詞語的候選語音段的標(biāo)識符(318、 319、 320)。
18. 如權(quán)利要求17所述的方法,其特征在于,所述預(yù)定義關(guān)系包括超過或匹配所述閾值。
19. 如權(quán)利要求17所述的方法,其特征在于,所述索引是從多個語音識 別網(wǎng)格形成的,每個網(wǎng)格從單獨的語音段生成并且表示多個可能的詞語序列。
20. 如權(quán)利要求19所述的方法,其特征在于,所述語音段中詞語的位置 的概率表示所述詞語在所述網(wǎng)格中多個狀態(tài)處的概率的總和。
全文摘要
通過標(biāo)識語音段的至少兩個替換詞語序列來索引該語音段。對于該替換序列中的每個詞語,信息被置于該索引中該詞語的條目中?;谠撛~語出現(xiàn)在該語音段中的概率與閾值的比較來從該索引中的條目刪去語音單元。
文檔編號G06F17/20GK101305362SQ200680041634
公開日2008年11月12日 申請日期2006年10月31日 優(yōu)先權(quán)日2005年11月9日
發(fā)明者A·阿塞羅, C·I·克爾伯, J·S·F·桑切斯 申請人:微軟公司