專(zhuān)利名稱(chēng):索引和搜索帶有文本元數(shù)據(jù)的語(yǔ)音的制作方法
索引和搜索帶有文本元數(shù)據(jù)的語(yǔ)音扭旦NT豕下面的討論僅用于提供一般的背景技術(shù)信息而非用于幫助確定要求保護(hù) 主題的范圍?,F(xiàn)在存在正在產(chǎn)生、交換和存儲(chǔ)的大量各種類(lèi)型數(shù)據(jù)。這是因?yàn)楝F(xiàn)在可用 的計(jì)算能力與連接帶寬以及相對(duì)廉價(jià)的數(shù)據(jù)存儲(chǔ)成本所致。因此,對(duì)數(shù)據(jù)進(jìn)行 搜索并找到相關(guān)信息的能力隨著越來(lái)越多數(shù)據(jù)被保存而顯現(xiàn)為關(guān)鍵應(yīng)用。然而不是所有數(shù)據(jù)都能被輕易訪問(wèn)。盡管文本數(shù)據(jù)能被索引且因而相對(duì)容 易地搜索,但通常未轉(zhuǎn)錄的語(yǔ)音數(shù)據(jù)不是能容易地搜索的形式。手工轉(zhuǎn)錄語(yǔ)音 在時(shí)間與計(jì)算資源方面都是昂貴的,并且還引起私密性方面的問(wèn)題。然而,隨著存儲(chǔ)變得更廉價(jià),將存儲(chǔ)越來(lái)越多有用的未轉(zhuǎn)錄的語(yǔ)音數(shù)據(jù),從而增加了對(duì) 該數(shù)據(jù)進(jìn)行搜索的需求或要求。概述提供本概述以簡(jiǎn)化形式介紹在下面的詳細(xì)描述中進(jìn)一步描述的一些概念。該概述不是要標(biāo)識(shí)要求保護(hù)主題的關(guān)鍵特征或本質(zhì)特征,也不用于幫助確定要求保護(hù)主題的范圍。另外,在此提供的描述和要求保護(hù)主題不應(yīng)解釋為其目標(biāo)是解決背景技術(shù)中討論的任何缺點(diǎn)。用于搜索具有語(yǔ)音數(shù)據(jù)和文本元數(shù)據(jù)的口語(yǔ)文檔的索引是通過(guò)獲得語(yǔ)音數(shù)據(jù)中詞語(yǔ)的出現(xiàn)概率和詞語(yǔ)的位置信息并將它與文本元數(shù)據(jù)中這些詞語(yǔ)的 至少位置信息組合起來(lái)而創(chuàng)建的??梢詣?chuàng)建單個(gè)索引,因?yàn)檎Z(yǔ)音數(shù)據(jù)和文本元 數(shù)據(jù)是被同樣處理的并且僅被視為不同的類(lèi)別。在一個(gè)實(shí)施例中,索引包含語(yǔ)音數(shù)據(jù)和文本元數(shù)據(jù)(標(biāo)題、發(fā)言人名字、 摘要等)的口語(yǔ)文檔的方法包括生成與來(lái)自語(yǔ)音數(shù)據(jù)的經(jīng)識(shí)別語(yǔ)音有關(guān)的信 息。具體地,該信息包括經(jīng)識(shí)別語(yǔ)音中詞語(yǔ)的出現(xiàn)概率和詞語(yǔ)的位置信息。另 外,以與有關(guān)經(jīng)識(shí)別語(yǔ)音的信息基本上相同的格式生成文本元數(shù)據(jù)中詞語(yǔ)的至少位置信息。這允許索引容易地被創(chuàng)建,因?yàn)橛嘘P(guān)語(yǔ)音數(shù)據(jù)的信息和有關(guān)文本 元數(shù)據(jù)的信息能以相同的方式來(lái)處理。
使用該索引,口語(yǔ)文檔可以基于收到的查詢(xún)來(lái)搜索。返回的文檔按相關(guān)性 排列;然而,相關(guān)性是按搜索查詢(xún)項(xiàng)在語(yǔ)音數(shù)據(jù)和/或文本元數(shù)據(jù)中的出現(xiàn)來(lái)計(jì) 算的。
附圖簡(jiǎn)述
圖1是計(jì)算環(huán)境的實(shí)施例的俯視圖。 圖2是替換計(jì)算環(huán)境的框圖。
圖3是構(gòu)建與搜索口語(yǔ)文檔的索引的方法的流程圖。 圖4是用于構(gòu)建和搜索口語(yǔ)文檔的索引的元素的框圖。 圖5是識(shí)別網(wǎng)格的示例。
圖6示出已經(jīng)分到各位置中的詞語(yǔ)和節(jié)點(diǎn)之間的關(guān)聯(lián)。 圖7是位置專(zhuān)用后驗(yàn)網(wǎng)格的示例。 圖8是索引的一部分的示例。 圖9是口語(yǔ)文檔的圖示。
詳細(xì)描述
在此描述的一個(gè)概念提供一種方法和/或系統(tǒng),它使用語(yǔ)音和文本內(nèi)容信 息進(jìn)行文檔檢索,尤其是用于口語(yǔ)文檔檢索但并不限于此。
參考圖9,如在50處圖示的口語(yǔ)文檔很少僅包含語(yǔ)音數(shù)據(jù)52。相反,文 本元數(shù)據(jù)54通常與語(yǔ)音數(shù)據(jù)52相關(guān)聯(lián)且也形成文檔50 —部分。文本元數(shù)據(jù) 54可包含各種各樣的信息,但一般可視為有關(guān)或關(guān)于相關(guān)聯(lián)語(yǔ)音數(shù)據(jù)52的文 本信息。例如,如所示的,文本元數(shù)據(jù)54可包含文檔50的標(biāo)題56、發(fā)言人的 名字58和文檔50的摘要或簡(jiǎn)短描述60以及語(yǔ)音數(shù)據(jù)52。然而,應(yīng)當(dāng)理解, 上述內(nèi)容僅是文本元數(shù)據(jù)54的示例,并且文本元數(shù)據(jù)54可以包含其它形式的 文本信息,諸如但不限于有關(guān)指向語(yǔ)音文件的http鏈接的錨文本、在給定網(wǎng) 頁(yè)上環(huán)繞語(yǔ)音的文本、贊助者信息、事件的位置、日期與時(shí)間等等。這樣的文 本元數(shù)據(jù)54可以分類(lèi)為圖9所圖示的那樣或者按需以任何其它方式來(lái)分組。如下所述,語(yǔ)音數(shù)據(jù)52和文本元數(shù)據(jù)54被相似地處理并且在充許用戶(hù)査 詢(xún)口語(yǔ)文檔50的集合并基于該査詢(xún)確定該集合中哪些文檔有可能相關(guān)的框架 中使用。為每一文檔獲得一個(gè)指示諸如分?jǐn)?shù),通過(guò)它可查明相關(guān)性。具體地, 分析可包括獲得語(yǔ)音數(shù)據(jù)52和文本元數(shù)據(jù)54或其一部分的單獨(dú)分?jǐn)?shù),這些分 數(shù)可組合起來(lái)以獲得文檔分?jǐn)?shù)。
在下述實(shí)施例中,語(yǔ)音數(shù)據(jù)和文本元數(shù)據(jù)基于為每種類(lèi)型數(shù)據(jù)生成位置專(zhuān) 用后驗(yàn)網(wǎng)格(Position Specific Posterior Lattice) (PSPL)來(lái)相似地處理。通過(guò)相 同地處理每種類(lèi)型的數(shù)據(jù),之后獲得分?jǐn)?shù)是一致且高效的。
通常,位置專(zhuān)用后驗(yàn)網(wǎng)格的使用是一種將關(guān)鍵詞語(yǔ)搜索范例從文本文檔擴(kuò) 展到口語(yǔ)文檔的方法。結(jié)合PSPL的框架在給定聲學(xué)依據(jù)的情況下考慮詞語(yǔ)序 列的后驗(yàn)概率作為對(duì)口語(yǔ)內(nèi)容的固有不確定性建模的一種方法。同時(shí),該技術(shù) 被設(shè)計(jì)為攜帶位置信息以便在評(píng)分范例中包括近似程度。
然而,在描述更多方面之前,首先描述可實(shí)現(xiàn)下面提供的描述的示例性計(jì) 算設(shè)備或環(huán)境是有益的。本描述將包含有關(guān)生成語(yǔ)音數(shù)據(jù)52的PSPL表示的細(xì) 節(jié)以及生成文本元數(shù)據(jù)54的PSPL表示的描述。還提供用于獲得口語(yǔ)文檔50 的分?jǐn)?shù)的示例性技術(shù)。
示例性計(jì)算系統(tǒng)環(huán)境
圖1例示合適計(jì)算系統(tǒng)環(huán)境100的第一示例,其上可實(shí)現(xiàn)在此描述的概念。 此外,計(jì)算系統(tǒng)環(huán)境100僅是合適計(jì)算環(huán)境的一個(gè)示例,而且并不是要對(duì)下面 的描述的使用范圍或功能提出任何限制。也不應(yīng)將計(jì)算環(huán)境100解釋為對(duì)在示 例性操作環(huán)境100中例示的任一組件或其組合有任何依賴(lài)性或要求。
除了在此提供的示例外,其它周知的計(jì)算系統(tǒng)、環(huán)境和/或配置可適于與 此描述的概念一起使用。這類(lèi)系統(tǒng)包括但不限于,個(gè)人計(jì)算機(jī)、服務(wù)器計(jì)算機(jī)、 手持或膝上型設(shè)備、多處理器系統(tǒng)、基于微處理器系統(tǒng)、機(jī)頂盒、可編程消費(fèi) 電子產(chǎn)品、網(wǎng)絡(luò)PC、小型機(jī)、大型機(jī)、包括任何上述系統(tǒng)或設(shè)備的分布式計(jì) 算環(huán)境等等。
在此描述的概念可在由計(jì)算機(jī)執(zhí)行的如程序模塊的計(jì)算機(jī)可執(zhí)行指令的 一般上下文中體現(xiàn)。 一般而言,程序模塊包括例程、程序、對(duì)象、組件、數(shù)據(jù)結(jié)構(gòu)等,它們執(zhí)行特定的任務(wù)或?qū)崿F(xiàn)特定的抽象數(shù)據(jù)類(lèi)型。本領(lǐng)域的技術(shù)人員 可將在此的描述和/或附圖實(shí)現(xiàn)為計(jì)算機(jī)可執(zhí)行指令,它們可體現(xiàn)為下述任何形 式的計(jì)算機(jī)可讀介質(zhì)。
在此描述概念也可在其中由通過(guò)通信網(wǎng)絡(luò)鏈接的遠(yuǎn)程處理設(shè)備執(zhí)行任務(wù) 的分布式計(jì)算環(huán)境中實(shí)踐。在分布式計(jì)算環(huán)境中,程序模塊可位于包括存儲(chǔ)器 存儲(chǔ)設(shè)備在內(nèi)的本地和遠(yuǎn)程計(jì)算機(jī)存儲(chǔ)介質(zhì)兩者中。
參考圖1,示例性系統(tǒng)包括計(jì)算機(jī)110形式的通用計(jì)算設(shè)備。計(jì)算機(jī)110 的組件可包括但不限于,處理單元120、系統(tǒng)存儲(chǔ)器130和系統(tǒng)總線121,系 統(tǒng)總線121將包括系統(tǒng)存儲(chǔ)器在內(nèi)的各種系統(tǒng)組件耦合到處理單元120。系統(tǒng) 總線121可以是任何若干類(lèi)型的總線結(jié)構(gòu),包括存儲(chǔ)器總線或存儲(chǔ)器控制器、 外圍總線以及使用任何各種總線架構(gòu)的本地總線。作為示例而非限制,這類(lèi)體 系結(jié)構(gòu)包括工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(ISA)總線、微通道體系結(jié)構(gòu)(MCA)總線、 增強(qiáng)型ISA (EISA)總線、視頻電子標(biāo)準(zhǔn)協(xié)會(huì)(VESA)本地總線以及外圍組 件互連(PCI)總線,也稱(chēng)為夾層(Mezzaine)總線。
計(jì)算機(jī)110 —般包括各種計(jì)算機(jī)可讀介質(zhì)。計(jì)算機(jī)可讀介質(zhì)可以是可由計(jì) 算機(jī)110訪問(wèn)的任何可用介質(zhì),并且包括易失性和非易失性介質(zhì)、可移動(dòng)和不 可移動(dòng)介質(zhì)兩者。作為示例但非限制,計(jì)算機(jī)可讀介質(zhì)可包括計(jì)算機(jī)存儲(chǔ)介質(zhì) 和通信介質(zhì)。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括易失性與非易失性、可移動(dòng)與不可移動(dòng)介質(zhì), 它們以用于存儲(chǔ)諸如計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù)的信息 的任何方法或技術(shù)來(lái)實(shí)現(xiàn)。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括但不限于,RAM、 ROM、 EEPROM、閃存或其它存儲(chǔ)器技術(shù),CD-ROM、數(shù)字多功能盤(pán)(DVD)或其它 光盤(pán)存儲(chǔ),磁帶盒、磁帶、磁盤(pán)存儲(chǔ)或其它磁存儲(chǔ)設(shè)備,或者任何可用于存儲(chǔ) 所需信息并且能由計(jì)算機(jī)100訪問(wèn)的任何其它介質(zhì)。通信介質(zhì)一般體現(xiàn)為經(jīng)調(diào) 制數(shù)據(jù)信號(hào)如載波或其它傳輸機(jī)制中的計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊 或其它數(shù)據(jù),并且包括任何信息傳遞介質(zhì)。術(shù)語(yǔ)"經(jīng)調(diào)制的數(shù)據(jù)信號(hào)"指一種 信號(hào),其一或多個(gè)特性以將信息編碼在該信號(hào)中的方式被設(shè)置或改變。作為示 例而非限制,通信介質(zhì)包括線接介質(zhì)如線接網(wǎng)絡(luò)或直接線連接,并且包括無(wú)線
介質(zhì)如聲學(xué)、RF、紅外和其它無(wú)線介質(zhì)。上述任意組合也應(yīng)包括在計(jì)算機(jī)可讀 介質(zhì)的范圍內(nèi)。系統(tǒng)存儲(chǔ)器130包括易失性和/或非易失性存儲(chǔ)形式的計(jì)算機(jī)存儲(chǔ)介質(zhì), 諸如只讀存儲(chǔ)器(ROM) 131和隨機(jī)存取存儲(chǔ)器(RAM) 132。基本輸入/輸出 系統(tǒng)133 (BIOS),包含幫助計(jì)算機(jī)110內(nèi)的元素之間諸如在啟動(dòng)時(shí)傳送信息 的基本例程,通常存儲(chǔ)在ROM 131中。RAM 132 —般包含處理單元120能立 即訪問(wèn)和/或當(dāng)前正在操作的數(shù)據(jù)和/或程序模塊。作為示例而非限制,圖1例 示操作系統(tǒng)134、應(yīng)用程序135、其它程序模塊136和程序數(shù)據(jù)137。
計(jì)算機(jī)110還可包括其它可移動(dòng)/不可移動(dòng)、易失性/非易失性計(jì)算機(jī)存儲(chǔ) 介質(zhì)。僅作為示例,圖1例示讀寫(xiě)不可移動(dòng)非易失性磁介質(zhì)的硬盤(pán)驅(qū)動(dòng)器141, 讀寫(xiě)可移動(dòng)非易失性磁盤(pán)152的磁盤(pán)驅(qū)動(dòng)器151以及讀寫(xiě)可移動(dòng)非易失性光盤(pán) 156如CD ROM或其它光介質(zhì)的光盤(pán)驅(qū)動(dòng)器155??稍谑纠圆僮鳝h(huán)境中使用 的其它可移動(dòng)/不可移動(dòng)、易失性/非易失性計(jì)算機(jī)存儲(chǔ)介質(zhì)包括,但不限于, 磁帶盒、閃存卡、數(shù)字多功能盤(pán)、數(shù)字錄像頻帶、固態(tài)RAM、固態(tài)ROM等 等。硬盤(pán)驅(qū)動(dòng)器141 一般通過(guò)不可移動(dòng)存儲(chǔ)器諸如接口 140連接到系統(tǒng)總線 121,而磁盤(pán)驅(qū)動(dòng)器151和光盤(pán)驅(qū)動(dòng)器155 —般通過(guò)可移動(dòng)存儲(chǔ)器接口諸如接 口 150連接到系統(tǒng)總線121。
上面討論且在圖1中例示的驅(qū)動(dòng)器及其相關(guān)聯(lián)的計(jì)算機(jī)存儲(chǔ)介質(zhì)為計(jì)算 機(jī)110提供計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù)的存儲(chǔ)。在圖l 中,例如,硬盤(pán)驅(qū)動(dòng)器141例示為存儲(chǔ)操作系統(tǒng)144、應(yīng)用程序145、其它程 序模塊146和程序數(shù)據(jù)147。注意,這些組件可以與操作系統(tǒng)134、應(yīng)用程序 135、其它程序模塊136和程序數(shù)據(jù)137相同或不同。操作系統(tǒng)144、應(yīng)用程序 145、其它程序模塊146和程序數(shù)據(jù)147在此給出不同數(shù)字,以說(shuō)明至少它們 是不同的副本。
用戶(hù)可通過(guò)輸入設(shè)備如鍵盤(pán)162、話筒163以及定點(diǎn)設(shè)備161 (如鼠標(biāo)、 軌跡球或觸摸板)來(lái)將命令和信息輸入到計(jì)算機(jī)110中。其它輸入設(shè)備(未示 出)可包括操縱桿、游戲手柄、圓盤(pán)式衛(wèi)星天線、掃描儀等等。這些和其它輸 入設(shè)備通常通過(guò)耦合到系統(tǒng)總線的用戶(hù)輸入接口 160連接到處理單元120,但 可通過(guò)其它接口和總線結(jié)構(gòu)如并行端口、游戲端口或通用串行總線(USB)來(lái) 連接。監(jiān)示器191或其它類(lèi)型的顯示設(shè)備也通過(guò)接口諸如視頻接口 190連接到 系統(tǒng)總線121。除了監(jiān)示器,計(jì)算機(jī)還可包括其它外圍輸出設(shè)備諸如揚(yáng)聲器197和打印機(jī)196,它們可通過(guò)輸出外圍接口 190來(lái)連接。
計(jì)算機(jī)IIO可使用至一或多個(gè)遠(yuǎn)程計(jì)算機(jī)諸如遠(yuǎn)程計(jì)算機(jī)180的邏輯連接 在網(wǎng)絡(luò)化環(huán)境中運(yùn)行。遠(yuǎn)程計(jì)算機(jī)180可以是個(gè)人計(jì)算機(jī)、手持設(shè)備、服務(wù)器、 路由器、網(wǎng)絡(luò)PC、對(duì)等設(shè)備或其它公共網(wǎng)絡(luò)節(jié)點(diǎn),并且一般包括上面相對(duì)于 計(jì)算機(jī)110所述的許多或全部元素。圖1所示的邏輯連接包括局域網(wǎng)(LAN) 171和廣域網(wǎng)(WAN) 173,但也可包括其它網(wǎng)絡(luò)。這樣的連網(wǎng)環(huán)境在辦公室、 企業(yè)級(jí)計(jì)算機(jī)網(wǎng)絡(luò)、內(nèi)聯(lián)網(wǎng)和因特網(wǎng)中是常見(jiàn)的。
當(dāng)在LAN連網(wǎng)環(huán)境中使用時(shí),計(jì)算機(jī)IIO通過(guò)網(wǎng)絡(luò)接口或適配器170連 接到LAN 171。當(dāng)在WAN連網(wǎng)環(huán)境中使用時(shí),計(jì)算機(jī)110—般包括調(diào)制解調(diào) 器172或者在WAN 173如因特網(wǎng)上建立通信的其它裝置。調(diào)制解調(diào)器172, 可以是內(nèi)置或外置的,可通過(guò)用戶(hù)輸入接口 160或其它合適的機(jī)制連接到系統(tǒng) 總線121。在網(wǎng)絡(luò)化環(huán)境中,相對(duì)于計(jì)算機(jī)110描繪的程序模塊或其部分可存 儲(chǔ)在遠(yuǎn)程存儲(chǔ)器存儲(chǔ)設(shè)備中。作為示例而非限制,圖1將遠(yuǎn)程應(yīng)用程序185例 示為駐留在遠(yuǎn)程計(jì)算機(jī)180上。將認(rèn)識(shí)到,所示的網(wǎng)絡(luò)連接是示例性的,并且 可使用在計(jì)算機(jī)之間建立通信鏈路的其它手段。
應(yīng)當(dāng)注意,在此描述的概念可以在諸如參考圖1描述的計(jì)算機(jī)系統(tǒng)上執(zhí) 行。然而,其它合適系統(tǒng)包括服務(wù)器、專(zhuān)用于消息處理的計(jì)算機(jī),或者在其中 所述概念的不同部分在分布式計(jì)算系統(tǒng)的不同部分上執(zhí)行的分布式系統(tǒng)。
圖2是移動(dòng)設(shè)備200的框圖,這是另一個(gè)示例性計(jì)算環(huán)境。移動(dòng)設(shè)備200 包括微處理器202、存儲(chǔ)器204、輸入/輸出(I/O)組件206、以及用于與遠(yuǎn)程 計(jì)算機(jī)或其它移動(dòng)設(shè)備通信的通信接口 208。在一個(gè)實(shí)施例中,上述組件被耦 合以通過(guò)合適的總線210彼此通信。
存儲(chǔ)器204被實(shí)現(xiàn)為非易失性電子存儲(chǔ)器如隨機(jī)存取存儲(chǔ)器(RAM), 帶有電池后備模塊(未示出),使得存儲(chǔ)在存儲(chǔ)器204中的信息在關(guān)閉移動(dòng)設(shè) 備200的總電源時(shí)不會(huì)丟失。存儲(chǔ)器204的一部分較佳地分配為用于程序執(zhí)行 的可尋址存儲(chǔ)器,同時(shí)存儲(chǔ)器204的另一部分較佳地用于存儲(chǔ),諸如模擬盤(pán)驅(qū) 動(dòng)器上的存儲(chǔ)。
存儲(chǔ)器204包括操作系統(tǒng)212、應(yīng)用程序214以及對(duì)象存儲(chǔ)216。在操作 期間,操作系統(tǒng)212較佳地由處理器202從存儲(chǔ)器204執(zhí)行。操作系統(tǒng)212為移動(dòng)設(shè)備設(shè)計(jì),并且實(shí)現(xiàn)可由應(yīng)用程序214通過(guò)一組展示的應(yīng)用程序編程接口 和方法來(lái)使用的數(shù)據(jù)庫(kù)特征。對(duì)象存儲(chǔ)216中的對(duì)象由應(yīng)用程序214和操作系 統(tǒng)212至少部分響應(yīng)于對(duì)所展示的應(yīng)用程序編程接口和方法的調(diào)用來(lái)維護(hù)。
通信接口 208表示允許移動(dòng)設(shè)備200發(fā)送和接收信息的眾多設(shè)備和技術(shù)。 這些設(shè)備包括例如線接和無(wú)線調(diào)制解調(diào)器、衛(wèi)星接收器和廣播調(diào)諧器等等。移 動(dòng)設(shè)備200還可直接連接到計(jì)算機(jī)以與其交換數(shù)據(jù)。在這些情形中,通信接口 208可以是紅外收發(fā)器或者串行或并行通信連接,所有這些都能夠發(fā)送流信息。
輸入/輸出組件206包括各種輸入設(shè)備如觸摸敏感屏幕、按鈕、滾動(dòng)器以 及話筒,并包括各種輸出設(shè)備,其中包括音頻發(fā)生器、振動(dòng)設(shè)備和顯示器。上 面列出的這些設(shè)備僅是示例并且不必全部出現(xiàn)在移動(dòng)設(shè)備200上。另外,其它 輸入/輸出設(shè)備可附連至移動(dòng)設(shè)備200或者在移動(dòng)設(shè)備200上找到。
形成和使用口語(yǔ)文檔的索引
圖3和4提供分別用于形成和使用一或多個(gè)口語(yǔ)文檔50的索引的方法和 框圖。在圖3的步驟300,接收口語(yǔ)文檔50。這些口語(yǔ)文檔可被存儲(chǔ)使得所有 這些文檔可在同時(shí)被處理或者單個(gè)文檔可被單獨(dú)接收和處理。在其它實(shí)施例 中,以流傳送方式接收每一口語(yǔ)文檔50并且在不必存儲(chǔ)口語(yǔ)文檔50的情況下 進(jìn)行索引。
通常,每一口語(yǔ)文檔50中的語(yǔ)音數(shù)據(jù)52是以某種方式彼此相關(guān)的語(yǔ)音信 號(hào)的集合。例如,在會(huì)議中產(chǎn)生的語(yǔ)音信號(hào)或者關(guān)聯(lián)于演講的語(yǔ)音信號(hào)。為形 成一些口語(yǔ)文檔50,可從多媒體文檔的其它內(nèi)容中提取語(yǔ)音數(shù)據(jù)52和文本元 數(shù)據(jù)54。例如,語(yǔ)音數(shù)據(jù)52和文本元數(shù)據(jù)54可從電影中移除以將它與該電影 的視頻和/或音樂(lè)分?jǐn)?shù)分開(kāi)。當(dāng)語(yǔ)音數(shù)據(jù)52和文本元數(shù)據(jù)54 (即口語(yǔ)文檔50) 是來(lái)自諸如多媒體文檔的具有其它信息的另一文檔時(shí),可存儲(chǔ)將該口語(yǔ)文檔50 鏈接到該多媒體文檔的映射。這允許在搜索結(jié)果中返回指向該多媒體文檔的路 徑。
數(shù)據(jù)可以非常長(zhǎng),特別是文檔50中的語(yǔ)音數(shù)據(jù)52但并不限于此。在步驟 302,為協(xié)助標(biāo)識(shí)較小的相關(guān)部分,每一相應(yīng)類(lèi)型(例如語(yǔ)音、摘要等)的數(shù) 據(jù)可由段標(biāo)識(shí)符402分成段404。每一類(lèi)型的數(shù)據(jù)于是由段的有序列表組成。 在一個(gè)實(shí)施例中,這些段是按自然停頓形成的。例如,語(yǔ)音數(shù)據(jù)52可以在無(wú)聲時(shí)間段處分段,而文本數(shù)據(jù)可在段落處分段。用于在語(yǔ)音中標(biāo)識(shí)無(wú)聲時(shí)間段 的技術(shù)在本領(lǐng)域中是周知的。
在這點(diǎn)上,應(yīng)當(dāng)注意,語(yǔ)音數(shù)據(jù)除了僅被分段之外,也可以基于其內(nèi)容進(jìn)
一步被分類(lèi)。該分類(lèi)與文本元數(shù)據(jù)54的類(lèi)別相似。例如,在演講中,發(fā)言人 可以單獨(dú)分類(lèi),其中每一類(lèi)別又可被分段。例如,可標(biāo)識(shí)主要發(fā)言人并且將其 與類(lèi)型標(biāo)識(shí)符"語(yǔ)音A"相關(guān)聯(lián),而可標(biāo)識(shí)另一發(fā)言人并且將其與類(lèi)型標(biāo)識(shí)符 "語(yǔ)音B"相關(guān)聯(lián),同時(shí)來(lái)自聽(tīng)眾的提問(wèn)可被標(biāo)識(shí)并且將其與類(lèi)型標(biāo)識(shí)符"語(yǔ) 音C"相關(guān)聯(lián)。以此方式,文檔的相關(guān)性可基于主要發(fā)言人是否使用查詢(xún)中的 詞語(yǔ)來(lái)確定,在該情況下可指示比該詞語(yǔ)是由聽(tīng)眾成員使用時(shí)更相關(guān)。
在步驟304,文檔/分段標(biāo)簽器/分類(lèi)器406將每一段、類(lèi)別和文檔映射為 整數(shù)值并且將該映射存儲(chǔ)在集合描述符文件408中。步驟304因而關(guān)于其本身 分類(lèi)語(yǔ)音數(shù)據(jù)52 (即語(yǔ)音數(shù)據(jù)52內(nèi)的不同類(lèi)型的語(yǔ)音);關(guān)于其本身分類(lèi)文 本元數(shù)據(jù)54 (即文本元數(shù)據(jù)54內(nèi)的不同類(lèi)型的文本元數(shù)據(jù));和/或相對(duì)于文 本元數(shù)據(jù)54分類(lèi)語(yǔ)音數(shù)據(jù)52。在一些實(shí)施例中,集合描述符文件408將整數(shù) 值映射到可找到口語(yǔ)文檔的路徑名字。對(duì)于從多媒體文件生成的口語(yǔ)文檔,集 合描述符文件408可將整數(shù)值映射到其中存儲(chǔ)該多媒體文件的路徑名字。
語(yǔ)音數(shù)據(jù)的位置專(zhuān)用后驗(yàn)網(wǎng)格(PSPL)表示的形成由圖3的步驟305指 示。通常,步驟305生成有關(guān)來(lái)自語(yǔ)音數(shù)據(jù)52的經(jīng)識(shí)別語(yǔ)音的信息,該信息 包含經(jīng)識(shí)別語(yǔ)音中詞語(yǔ)的出現(xiàn)概率和詞語(yǔ)的位置信息。在圖3的步驟306,將 有關(guān)語(yǔ)音數(shù)據(jù)的段404的每一個(gè)(即"口語(yǔ)段")提供給語(yǔ)音識(shí)別器410,它 使用聲學(xué)模型412和語(yǔ)言模型414來(lái)將口語(yǔ)段解碼成可能的文本序列。
一般,語(yǔ)音識(shí)別器410基于表示口語(yǔ)段中的語(yǔ)音的特征向量序列執(zhí)行識(shí) 別。由語(yǔ)音識(shí)別器使用的特征向量是通過(guò)首先使用模數(shù)轉(zhuǎn)換器將模擬語(yǔ)音信號(hào) 轉(zhuǎn)換成數(shù)字值來(lái)形成的。在若干實(shí)施例中,模數(shù)轉(zhuǎn)換器以16kHz且每樣本16 比特采樣模擬信號(hào),從而創(chuàng)建每秒32千字節(jié)的語(yǔ)音數(shù)據(jù)。將這些數(shù)字值提供 給幀構(gòu)建器,在一個(gè)實(shí)施例中,幀構(gòu)建器將這些值歸組成間隔IO毫秒開(kāi)始的 25毫秒幀。將由幀構(gòu)建器創(chuàng)建的數(shù)據(jù)幀提供給特征提取器,后者從每一幀中提 取特征。
特征提取模塊的示例包括用于執(zhí)行線性預(yù)測(cè)編碼(LPC) 、 LPC導(dǎo)出的倒譜、感知線性預(yù)測(cè)(PLP)、聽(tīng)覺(jué)模型特征提取以及美爾頻譜倒譜系數(shù)(MFCC) 特征提取的模塊。注意,本發(fā)明不受限于這些特征提取模塊并且可使用其它模 塊。
形成特征向量所需的步驟可全部由語(yǔ)音識(shí)別器410執(zhí)行,或者在生成口語(yǔ) 文檔50時(shí)可執(zhí)行部分或全部步驟。因而,口語(yǔ)文檔50可部分地存儲(chǔ)為模擬信 號(hào)、數(shù)字信號(hào)、數(shù)字信號(hào)幀或特征向量。
在識(shí)別期間,每一特征向量被應(yīng)用于聲學(xué)模型412,后者在給定輸入特征 向量時(shí)提供一組語(yǔ)音單元(phoneticunit)中每一個(gè)的概率。詞語(yǔ)的聲學(xué)概率通 過(guò)組合形成該詞語(yǔ)的語(yǔ)音單元的概率來(lái)確定。另外,每一詞語(yǔ)接收一個(gè)語(yǔ)言模 型模型分?jǐn)?shù),它指示詞語(yǔ)或詞語(yǔ)序列出現(xiàn)在特定語(yǔ)言中的概率。使用由聲學(xué)模 型412和語(yǔ)言模型414提供的分?jǐn)?shù),語(yǔ)音識(shí)別器410能夠形成有關(guān)識(shí)別的網(wǎng)格 416 (即"識(shí)別網(wǎng)格"),它包含一個(gè)口語(yǔ)段的識(shí)別結(jié)果。注意,在大多數(shù)實(shí) 施例中,語(yǔ)音識(shí)別器416在它構(gòu)建網(wǎng)格時(shí)從識(shí)別網(wǎng)格中刪減不太可能的詞語(yǔ)序 列,僅在識(shí)別網(wǎng)格中保留前N個(gè)識(shí)別結(jié)果。在其它實(shí)施例中,語(yǔ)音識(shí)別器410 產(chǎn)生n個(gè)最佳識(shí)別結(jié)果列表,它在給定語(yǔ)音段時(shí)提供n個(gè)最有可能的詞語(yǔ)序列 的列表。
注意,盡管上述系統(tǒng)在將口語(yǔ)段提供給語(yǔ)音識(shí)別器410之前分段語(yǔ)音數(shù) 據(jù),但在其它實(shí)施例中,口語(yǔ)文檔50的語(yǔ)音數(shù)據(jù)在被提供給語(yǔ)音識(shí)別器410 之前未被分段。代之以,語(yǔ)音識(shí)別器標(biāo)識(shí)語(yǔ)音中的無(wú)聲時(shí)間段并且在這些點(diǎn)處 強(qiáng)制網(wǎng)格在開(kāi)始語(yǔ)音數(shù)據(jù)的下一部分的新網(wǎng)格之前網(wǎng)格會(huì)聚于單個(gè)節(jié)點(diǎn)。以此 方式,語(yǔ)音識(shí)別器410再次為語(yǔ)音數(shù)據(jù)的不同段產(chǎn)生單獨(dú)的識(shí)別網(wǎng)格。在這些 實(shí)施例中,語(yǔ)音識(shí)別器410將包括用于每一識(shí)別網(wǎng)格的文檔與段標(biāo)識(shí)符,它產(chǎn) 生并將更新集合描述符文件408中的映射。
圖5提供由語(yǔ)音識(shí)別器410產(chǎn)生的識(shí)別網(wǎng)格500的示例。網(wǎng)格500包括狀 態(tài)(也稱(chēng)為節(jié)點(diǎn))502、 504、 506、 508、 510、 512、 514、 516、 518、 520、 522、 524、 526和528,它們分別被標(biāo)為狀態(tài)0、 1、 2、 3、 4、 5、 6、 7、 8、 9、 10、 11、 12和13。
在網(wǎng)格500中狀態(tài)之間的每一轉(zhuǎn)移與詞語(yǔ)、起始符號(hào)或結(jié)束符號(hào)相關(guān)聯(lián)。 另外,對(duì)于基于多個(gè)詞語(yǔ)的序列的語(yǔ)言模型(n元模型,其中n大于l),對(duì)一個(gè)狀態(tài)的每一轉(zhuǎn)移包含相同的詞語(yǔ)。例如,對(duì)狀態(tài)520的轉(zhuǎn)移530和532都 包含詞語(yǔ)"very"。由此,有關(guān)轉(zhuǎn)移的詞語(yǔ)同樣能與該轉(zhuǎn)移的結(jié)束狀態(tài)相關(guān)聯(lián)。
給定輸入語(yǔ)音信號(hào)的情況下,每一轉(zhuǎn)移還具有位于該轉(zhuǎn)移的詞語(yǔ)的相關(guān)聯(lián) 概率。該概率是聲學(xué)模型分?jǐn)?shù)、語(yǔ)言模型分?jǐn)?shù)和用于將這些分?jǐn)?shù)組合與修改成 單一概率的各種其它參數(shù)的函數(shù)。具體地,在一個(gè)實(shí)施例中,將轉(zhuǎn)移ti的概率
存儲(chǔ)為如下求值的對(duì)數(shù)概率
<formula>formula see original document page 14</formula> 公式l
其中l(wèi)ogP(ti)是轉(zhuǎn)移ti的對(duì)數(shù)概率,logPAM(word(ti))是指派給轉(zhuǎn)移ti的詞語(yǔ)的聲
學(xué)模型對(duì)數(shù)可能性,它是以語(yǔ)音信號(hào)的一部分的特征向量與該詞語(yǔ)中找到的語(yǔ)
音單元的聲學(xué)模型之間的對(duì)應(yīng)性為基礎(chǔ)的,logPLM(word(ti))是指派給轉(zhuǎn)移ti上 的詞語(yǔ)的語(yǔ)言模型對(duì)數(shù)概率,ZMw是常數(shù)權(quán)重,大于o,它補(bǔ)償聲學(xué)模型和語(yǔ)
言模型的可能值范圍內(nèi)的差,logPIP是插入懲罰,它補(bǔ)償語(yǔ)音識(shí)別器選擇較短
詞語(yǔ)而非較長(zhǎng)詞語(yǔ)的傾向性,以及FLATw是用于控制后驗(yàn)分布在網(wǎng)格路徑上 傾斜程度的平整權(quán)重。具體地,F(xiàn)LATw幫助防止語(yǔ)音識(shí)別器將大部分概率指 派給網(wǎng)格中的一或兩個(gè)路徑。
圖5的語(yǔ)音識(shí)別網(wǎng)格500示出不同的路徑長(zhǎng)度可以在相同狀態(tài)處結(jié)束。例 如,存在到達(dá)狀態(tài)514的兩個(gè)路徑。 一個(gè)路徑包括起始符號(hào)和詞語(yǔ)"They are in" 而另一路徑包括起始符號(hào)和詞語(yǔ)"There in"。因而,表示詞語(yǔ)"in"的狀態(tài) 514可以當(dāng)"in"處于識(shí)別文本中第二詞語(yǔ)位置時(shí)和當(dāng)"in"處于識(shí)別文本中 第三詞語(yǔ)位置時(shí)到達(dá),其中詞語(yǔ)位置是根據(jù)詞語(yǔ)序列的起點(diǎn)確定的。另外,單 個(gè)詞語(yǔ)可出現(xiàn)在不同的狀態(tài)處但在這些狀態(tài)中處于同一詞語(yǔ)位置。例如,在路 徑"They are in two very"的第五詞語(yǔ)位置中,詞語(yǔ)"very"在轉(zhuǎn)移532上進(jìn)入 狀態(tài)520。詞語(yǔ)"very"在沿路徑"There in two very very"(其中最后的very 在第五詞語(yǔ)位置)導(dǎo)向狀態(tài)522的轉(zhuǎn)移中也處于第五詞語(yǔ)位置。
為了從這個(gè)識(shí)別網(wǎng)格構(gòu)建索引,構(gòu)建位置專(zhuān)用后驗(yàn)網(wǎng)格(PSPL)表示420。 在PSPL表示中,網(wǎng)格中的每一詞語(yǔ)位置形成一個(gè)儲(chǔ)存斗(bin)。占據(jù)一個(gè)特 定詞語(yǔ)位置的所有詞語(yǔ)連同占據(jù)識(shí)別網(wǎng)格中該詞語(yǔ)位置的詞語(yǔ)的概率被放在 用于該詞語(yǔ)位置的儲(chǔ)存斗中。為了形成PSPL表示,每一狀態(tài)被分成一組子狀態(tài),其中到達(dá)該狀態(tài)的每一詞語(yǔ)位置有一個(gè)子狀態(tài)。
圖6提供了從圖5的識(shí)別網(wǎng)格500形成的子狀態(tài)以及其相關(guān)聯(lián)詞語(yǔ)的列 表。例如,子狀態(tài)600和602指示,對(duì)于狀態(tài)6存在兩個(gè)子狀態(tài), 一是位置2 處的詞語(yǔ)"in",另一個(gè)是詞語(yǔ)位置3處的詞語(yǔ)"in"。子狀態(tài)604和606指 示詞語(yǔ)"very"同時(shí)出現(xiàn)在詞語(yǔ)位置5處的狀態(tài)9和10。
針對(duì)每一子狀態(tài)確定基于長(zhǎng)度的或詞語(yǔ)位置分?jǐn)?shù)。這示于圖3的步驟308 并且由圖4的位置專(zhuān)用后驗(yàn)網(wǎng)格構(gòu)造器(PSPL構(gòu)造器)來(lái)執(zhí)行。
在一個(gè)實(shí)施例中,每一狀態(tài)處的基于長(zhǎng)度的分?jǐn)?shù)是使用用于對(duì)通過(guò)網(wǎng)格的
路徑評(píng)分的標(biāo)準(zhǔn)前向-后向算法的修改來(lái)計(jì)算的。具體地,詞語(yǔ)處于狀態(tài)n與
詞語(yǔ)位置1處的概率可如下計(jì)算
<formula>formula see original document page 15</formula> 公式2
其中""m是可如下遞歸地計(jì)算的前向分?jǐn)?shù)
<formula>formula see original document page 15</formula> 公式3
其中q是轉(zhuǎn)移到狀態(tài)n的狀態(tài)&的數(shù)量,^g^")是使用上面的公式l計(jì)算的, —11.0,/ = 0
<formula>formula see original document page 15</formula> 公式4
以及<formula>formula see original document page 15</formula>£ 公式5
其中s表示不包含詞語(yǔ)的空轉(zhuǎn)移。這種空轉(zhuǎn)移在使用后退語(yǔ)言模型的識(shí)別 網(wǎng)格中是常見(jiàn)的。在公式2中,""可遞歸地計(jì)算
^ 公式6
其中r是在狀態(tài)n之后連接到狀態(tài)n的狀態(tài)數(shù)量,而是與從狀態(tài)n到狀態(tài)
Sj的轉(zhuǎn)移相關(guān)聯(lián)的概率。
公式2的歸一化值norm(LAT)是在識(shí)別網(wǎng)格的結(jié)束狀態(tài)處計(jì)算的""的值。 注意,由于在語(yǔ)音識(shí)別器期間執(zhí)行刪減,歸一化是必需的。
在已經(jīng)為每一狀態(tài)處的每一所觀察到的詞語(yǔ)位置確定了基于長(zhǎng)度的分?jǐn)?shù) 之后,在步驟310對(duì)基于長(zhǎng)度的分?jǐn)?shù)求和。具體地,用于同一詞語(yǔ)位置和用于同一詞語(yǔ)的每一分?jǐn)?shù)被一起求和以形成該詞語(yǔ)出現(xiàn)在語(yǔ)音段中該詞語(yǔ)位置處
的后驗(yàn)概率。該求和表示為
尸(w,/1 Wr) = Z 1 ^r).5(M;,vvoW(")) 公式7
其中求和是在網(wǎng)格中的所有狀態(tài)n上執(zhí)行的,其中基于長(zhǎng)度的分?jǐn)?shù)大于零。
這些詞語(yǔ)及其通過(guò)公式7的求和形成的相應(yīng)概率隨后基于其詞語(yǔ)位置1被 存儲(chǔ),以形成PSPL表示420。
PSPL表示的一個(gè)示例示于圖7,其中可能的位置示于行700中而在每一 位置處出現(xiàn)的詞語(yǔ)示于其相應(yīng)位置之下。例如,詞語(yǔ)"They"和"There"出 現(xiàn)在由列702指示的詞語(yǔ)位置1。詞語(yǔ)"very"出現(xiàn)于詞語(yǔ)位置4、 5和6,如 列704、 706和708所示。注意,PSPL表示提供比網(wǎng)格500與圖6的子狀態(tài)的 組合的更緊湊的識(shí)別結(jié)果表示。其原因是出現(xiàn)在同一詞語(yǔ)位置但處于識(shí)別網(wǎng)格 500的不同狀態(tài)的詞語(yǔ)被組合到圖7的位置專(zhuān)用后驗(yàn)網(wǎng)格中的單一條目中。
在其它實(shí)施例中,每一識(shí)別網(wǎng)格的PSPL表示是根據(jù)n個(gè)最佳列表構(gòu)建的。 上述同一技術(shù)可用于通過(guò)首先從n個(gè)最佳列表形成識(shí)別網(wǎng)格來(lái)構(gòu)建位置專(zhuān)用后 驗(yàn)網(wǎng)格。這可以通過(guò)將n個(gè)最佳列表中每一條目的第一個(gè)詞語(yǔ)與一公共起始節(jié) 點(diǎn)相連系而將n個(gè)最佳列表中每一條目的最后一個(gè)詞語(yǔ)與一公共結(jié)束節(jié)點(diǎn)相連 系來(lái)完成。
PSPL網(wǎng)格也可以用于表示文本元數(shù)據(jù)54。然而,對(duì)于文本元數(shù)據(jù),沒(méi)有 文檔內(nèi)容不確定性并且因此等效的PSPL網(wǎng)格表示420對(duì)于每一位置儲(chǔ)存斗僅 有一個(gè)條目,位置專(zhuān)用概率等于l。因而,對(duì)文本元數(shù)據(jù)54的每一類(lèi)別的每一 段的PSPL表示的創(chuàng)建比上述語(yǔ)音數(shù)據(jù)的PSPL表示的創(chuàng)建簡(jiǎn)單得多。
在圖3中,在步驟313表示每一類(lèi)別的每一段的文本元數(shù)據(jù)PSPL表示的 創(chuàng)建。與步驟305相似, 一般地,步驟313生成有關(guān)文本元數(shù)據(jù)54的信息, 它包括位置信息和概率信息;然而,如上所述,每一實(shí)例中的概率為一。然而, 在步驟313生成的信息因?yàn)槠涓袷?這里以PSPL表示為例)實(shí)質(zhì)上與在步驟 305生成的有關(guān)語(yǔ)音數(shù)據(jù)的信息是同一格式而特別有用。這里"實(shí)質(zhì)上"指由 步驟305生成的信息和由步驟313生成的信息可以容易地如下所述地組合以形 成單個(gè)索引。
在圖4中,文本網(wǎng)格構(gòu)造器405例示為構(gòu)建相應(yīng)的網(wǎng)格416,后者進(jìn)而由PSPL構(gòu)造器418用于構(gòu)建相應(yīng)的PSPL表示420。然而,應(yīng)當(dāng)理解,文本網(wǎng)格 構(gòu)造器405可根據(jù)文本元數(shù)據(jù)54中詞語(yǔ)的確定性而直接生成PSPL表示。
在步驟314,索引器422基于PSPL表示420構(gòu)造倒排索引424。在一個(gè) 實(shí)施例中,該倒排索引是通過(guò)為識(shí)別語(yǔ)法和文本元數(shù)據(jù)54中每一詞語(yǔ)提供條 目來(lái)形成的單個(gè)索引。在每一條目中,為其中出現(xiàn)該條目的詞語(yǔ)的位置專(zhuān)用后 驗(yàn)網(wǎng)格中的每一位置提供信息。該信息包括關(guān)聯(lián)于PSPL表示的文檔、類(lèi)別和 段標(biāo)識(shí)符,其中在網(wǎng)格中放置該詞語(yǔ)的位置儲(chǔ)存斗以及關(guān)聯(lián)于該詞語(yǔ)處于該位 置的概率。
圖8提供詞語(yǔ)w[k]的條目800的一般表示。在圖8中,條目800包括子 條目的集合,這些子條目包括802、 804、 806、 808、 810、 812和814。每一子
條目包括諸如以下各項(xiàng)的信息文檔標(biāo)識(shí)符如文檔標(biāo)識(shí)符816,類(lèi)別類(lèi)型標(biāo)識(shí) 符如類(lèi)別類(lèi)型標(biāo)識(shí)符817,段標(biāo)識(shí)符如段標(biāo)識(shí)符818,段中的位置如位置820, 以及該詞語(yǔ)出現(xiàn)在該段中該位置的概率如概率822。子條目802和804用于同 一文檔、類(lèi)別類(lèi)型和段。子條目806、 808和810用于與子條目802和804相 同的文檔,但用于不同的類(lèi)別類(lèi)型(在此例示為不同的語(yǔ)音類(lèi)別但可以是文本 元數(shù)據(jù)類(lèi)別)和其不同的段。子條目812和814用于分開(kāi)的文檔。條目800將 包括用于其中出現(xiàn)詞語(yǔ)的每一文檔、類(lèi)別、段和位置的子條目。
一旦已經(jīng)構(gòu)建了索引,語(yǔ)音數(shù)據(jù)和文本元數(shù)據(jù)對(duì)于給定搜索査詢(xún)的相關(guān)性 就可以確定了。具體地,在步驟316,搜索查詢(xún)426由搜索單元428接收。搜 索單元428訪問(wèn)倒排索引424并且檢索文檔標(biāo)識(shí)符、類(lèi)別類(lèi)型、段標(biāo)識(shí)符、位 置以及該查詢(xún)的每一詞語(yǔ)的每一子條目的概率。應(yīng)當(dāng)注意,語(yǔ)音識(shí)別器的詞匯 表之外的任何詞語(yǔ)都被映射到未知標(biāo)記UKN,它在任何文檔中都不能匹配。 未知標(biāo)記用作占位符,但在計(jì)算査詢(xún)的分?jǐn)?shù)時(shí)不提供值。
在步驟318,為從對(duì)倒排索引424的搜索返回的每一文檔確定一個(gè)分?jǐn)?shù)。 從搜索返回的文檔可以受到限制使得返回的每一文檔包括査詢(xún)的所有詞語(yǔ)???替換地,任何包含査詢(xún)的至少一個(gè)詞語(yǔ)的文檔可以在該步驟被返回。使用從倒 排索引424返回的概率,通過(guò)首先計(jì)算每一文檔的組成的n元分?jǐn)?shù)的集合來(lái)計(jì) 算每一文檔的分?jǐn)?shù)。每一組成的n元分?jǐn)?shù)是通過(guò)使用下面的公式在査詢(xún)中n元 的所有可能形成上對(duì)各個(gè)n元分?jǐn)?shù)求和來(lái)形成的<formula>formula see original document page 18</formula> 公式8
其中D是文檔,K是查詢(xún)中的詞語(yǔ)數(shù)量,N是n元中詞語(yǔ)的數(shù)量,Q是查詢(xún), 而S加ejc(D,qi…qi+N.,)是開(kāi)始于查詢(xún)中的點(diǎn)i的單個(gè)n元的分?jǐn)?shù),對(duì)于每一類(lèi)別 類(lèi)型(type一k),它按如下計(jì)算<formula>formula see original document page 18</formula> 公式9
其中在右手邊的內(nèi)求和是對(duì)段中前k-N個(gè)詞語(yǔ)位置執(zhí)行的,而外求和是在關(guān)聯(lián) 于文檔D的每一類(lèi)別類(lèi)型的所有段上執(zhí)行的。在公式9中,P(Wk+,(s一qwlD)是 存儲(chǔ)在該詞語(yǔ)在文檔D和段s的位置k+l處的倒排索引中后驗(yàn)概率。
如果對(duì)不同的類(lèi)別類(lèi)型(^ e卩,…,^h )計(jì)算了不止一個(gè)組成的n元分?jǐn)?shù), 則使用下面的公式以加權(quán)和方式組合單獨(dú)的組成n元分?jǐn)?shù)
<formula>formula see original document page 18</formula>)
— 公式10
其中WN是關(guān)聯(lián)于特定N元的權(quán)重(其中ww的和等于l)并且K是査詢(xún)中詞 語(yǔ)的數(shù)量。
在許多實(shí)施例中,n元的權(quán)重隨著n元的次序而線性增加。然而,可使用
其它技術(shù)來(lái)設(shè)置n元的權(quán)重。
<formula>formula see original document page 18</formula>
不同類(lèi)別類(lèi)型、_^_^一_*的集合的全局口語(yǔ)文檔分?jǐn)?shù)是類(lèi)別類(lèi)型分?jǐn)?shù)
(公式IO)的線性組合
<formula>formula see original document page 18</formula>公式ll
其中該表達(dá)式中的權(quán)重提供了根據(jù)所涉及的類(lèi)別類(lèi)型的性質(zhì)調(diào)整全局分?jǐn)?shù)的 靈活性。
在步驟320,由搜索單元428標(biāo)識(shí)和評(píng)分的文檔作為經(jīng)排列的文檔430返 回。在許多實(shí)施例中,搜索單元428訪問(wèn)集合描述符文件408以將文檔標(biāo)識(shí)符 轉(zhuǎn)換成文檔位置的路徑名字。然后返回該路徑名字。
返回的文檔可通過(guò)移除不對(duì)最高次序組成n元提供非零分?jǐn)?shù)的文檔而被 刪減。這可以用于保證查詢(xún)的所有詞語(yǔ)在文檔中至少按序出現(xiàn)一次。該要求可 用于強(qiáng)制引用功能性,它要求對(duì)在根據(jù)査詢(xún)標(biāo)識(shí)的文檔,査詢(xún)的所有詞語(yǔ)都出現(xiàn)并且是以在查詢(xún)中的相同順序出現(xiàn)的。另一種可能性是允許對(duì)查詢(xún)內(nèi)的詞組
加引號(hào),諸如JAPAN "NUCLEAR WEAPONS"(日本"核武器");輸入這 樣一個(gè)查詢(xún)將僅返回包含JAPAN和NUCLEAR和WEAPONS的文檔,并且詞 語(yǔ)NUCLEAR WEAPONS完全以該順序彼此相鄰地出現(xiàn)。
應(yīng)當(dāng)注意,在另一個(gè)實(shí)施例中,可在將查詢(xún)應(yīng)用于索引之前對(duì)該查詢(xún)執(zhí)行 語(yǔ)形學(xué)分析。這生成查詢(xún)項(xiàng)的不同形式的列表,包括詞語(yǔ)的其它詞尾。例如, 査詢(xún)中的項(xiàng)"weapons"將產(chǎn)生替換詞"weapon",在該替換詞語(yǔ)中最后的"s" 被丟棄。語(yǔ)形學(xué)上變更項(xiàng)的不同組合隨后可用于執(zhí)行對(duì)倒排索引的不同搜索。 每一搜索涉及如上形成組成的n元分?jǐn)?shù)。替換搜索串的組成的n元分?jǐn)?shù)的權(quán)重 比原始的搜索串的組成的n元分?jǐn)?shù)要少得多。因此,包含替換搜索串而非原始 搜索串的文檔將排在包含原始搜索串的文檔之下。
盡管上面參考完整的詞語(yǔ)討論了索引技術(shù),但可使用同一技術(shù)來(lái)索引包括 子詞語(yǔ)單元如音子(phone)或三音子的任何語(yǔ)音單元。具體地,代替形成詞 語(yǔ)的網(wǎng)格,語(yǔ)音識(shí)別器形成子詞語(yǔ)單元的網(wǎng)格。這些子詞語(yǔ)單元以與上面的詞 語(yǔ)相同的方式使用基于子詞語(yǔ)而非詞語(yǔ)的序列的語(yǔ)言模型來(lái)評(píng)分。位置專(zhuān)用后 驗(yàn)網(wǎng)格于是將包含各個(gè)子詞語(yǔ)單元及其相關(guān)聯(lián)的概率。
在收到搜索查詢(xún)時(shí),査詢(xún)被分解成子詞語(yǔ)單元。然后使用上述評(píng)分技術(shù)用 子詞語(yǔ)單元代替詞語(yǔ)來(lái)排列文檔。在一些實(shí)施例中,査詢(xún)中的每一詞語(yǔ)可以視
為被包含在引用中以減少所返回的文檔數(shù)量。
盡管已經(jīng)以專(zhuān)用于結(jié)構(gòu)特征和/或方法步驟的語(yǔ)言描述了主題,但要理解, 在所附權(quán)利要求書(shū)中定義的主題不受上述這些特定特征或步驟的限制,正如法 庭所支持的。相反,上述特定特征和步驟是作為實(shí)現(xiàn)所附權(quán)利要求的示例形式 而被公開(kāi)的。
權(quán)利要求
1. 一種索引包含語(yǔ)音數(shù)據(jù)(52)和文本元數(shù)據(jù)(54)的口頭文檔(50)的方法,所述方法包括生成(305)有關(guān)來(lái)自語(yǔ)音數(shù)據(jù)(52)的經(jīng)識(shí)別語(yǔ)音的信息,所述信息包含所述經(jīng)識(shí)別語(yǔ)音中詞語(yǔ)的出現(xiàn)概率和所述詞語(yǔ)的位置信息;以與所述有關(guān)經(jīng)識(shí)別語(yǔ)音的信息實(shí)質(zhì)上相同的格式生成(313)有關(guān)文本元數(shù)據(jù)(54)中詞語(yǔ)的至少位置信息的信息;以及基于所述有關(guān)經(jīng)識(shí)別語(yǔ)音的信息和所述有關(guān)文本元數(shù)據(jù)的信息構(gòu)造(314)索引。
2. 如權(quán)利要求1所述的方法,其特征在于,還包括,分類(lèi)(304)語(yǔ)音數(shù) 據(jù)(52)和文本元數(shù)據(jù)(54)至少之一。
3. 如權(quán)利要求2所述的方法,其特征在于,分類(lèi)(304)包括分類(lèi)不同類(lèi) 型的語(yǔ)音數(shù)據(jù)(52)。
4. 如權(quán)利要求2所述的方法,其特征在于,分類(lèi)(304)包括分類(lèi)不同類(lèi) 型的文本元數(shù)據(jù)(54)。
5. 如權(quán)利要求2所述的方法,其特征在于,構(gòu)造(314)所述索引包括用 類(lèi)別信息構(gòu)造(314)所述索引。
6. 如權(quán)利要求1所述的方法,其特征在于,生成(305)有關(guān)來(lái)自語(yǔ)音數(shù) 據(jù)(52)的經(jīng)識(shí)別語(yǔ)音的信息包括生成網(wǎng)格。
7. 如權(quán)利要求4所述的方法,其特征在于,生成(313)有關(guān)文本元數(shù)據(jù) (54)的信息包括生成網(wǎng)格。
8. 如權(quán)利要求1所述的方法,其特征在于,生成(305)有關(guān)來(lái)自語(yǔ)音數(shù) 據(jù)(52)的經(jīng)識(shí)別語(yǔ)音的信息包括基于語(yǔ)音數(shù)據(jù)(52)的相同部分標(biāo)識(shí)(306) 至少兩個(gè)替換的語(yǔ)音單元序列;以及其中基于所述有關(guān)經(jīng)識(shí)別語(yǔ)音的信息構(gòu)造(314)索引包括,對(duì)于所述至少兩個(gè)替換語(yǔ)音單元序列中的每一語(yǔ)音單元, 將指示所述語(yǔ)音單元在所述兩個(gè)替換語(yǔ)音單元序列的至少一個(gè)之中的位置的 信息放在所述索弓I中的一個(gè)條目中。
9. 如權(quán)利要求1所述的方法,其特征在于,生成(305)有關(guān)來(lái)自語(yǔ)音數(shù)據(jù)(52)的經(jīng)識(shí)別語(yǔ)音的信息包括通過(guò)對(duì)至少兩個(gè)概率求和來(lái)確定所述語(yǔ)音單 元出現(xiàn)在所述位置的概率,其中所述每一概率與所述語(yǔ)音單元出現(xiàn)在單獨(dú)的語(yǔ) 音單元序列中相關(guān)聯(lián)。
10. —種具有用于執(zhí)行下列步驟的計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)可讀介質(zhì)接收(316)搜索查詢(xún);在索引中搜索(318)關(guān)聯(lián)于所述搜索査詢(xún)中一詞語(yǔ)的條目,所述索引包括與具有語(yǔ)音數(shù)據(jù)和文本元數(shù)據(jù)的口語(yǔ)文檔的文檔標(biāo)識(shí)符有關(guān)的信息;標(biāo)識(shí)不同類(lèi)型的語(yǔ)音數(shù)據(jù)以及語(yǔ)音數(shù)據(jù)相對(duì)于文本元數(shù)據(jù)的至少一個(gè)的類(lèi)別類(lèi)型標(biāo)識(shí)符;和所述詞語(yǔ)的位置,以及所述詞語(yǔ)出現(xiàn)在所述位置的概率; 使用(318)所述概率相對(duì)于彼此排列口語(yǔ)文檔;以及 基于所述經(jīng)排列的口語(yǔ)文檔返回(320)搜索結(jié)果。
11. 如權(quán)利要求10所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,使用(318)所 述概率排列所述口語(yǔ)文檔包括,對(duì)每一口語(yǔ)文檔計(jì)算組成的n元分?jǐn)?shù)的集合。
12. 如權(quán)利要求11所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,每一組成的n元 分?jǐn)?shù)是通過(guò)在n元的所有可能形成上對(duì)各個(gè)n元分?jǐn)?shù)求和來(lái)形成的。
13. 如權(quán)利要求12所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述組成的n元 分?jǐn)?shù)的集合是基于不同類(lèi)別類(lèi)型計(jì)算的。
14. 如權(quán)利要求13所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,類(lèi)別類(lèi)型的分?jǐn)?shù) 是通過(guò)將每一相應(yīng)類(lèi)別類(lèi)型的組成的n元分?jǐn)?shù)的每一個(gè)求和在一起來(lái)計(jì)算的。
15. 如權(quán)利要求10所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,使用(318)所 述概率排列口語(yǔ)文檔包括,將文檔分?jǐn)?shù)計(jì)算為所述類(lèi)別類(lèi)型分?jǐn)?shù)的組合。
16. 如權(quán)利要求15所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,對(duì)所述類(lèi)別類(lèi)型 分?jǐn)?shù)加權(quán)。
17. —種基于搜索査詢(xún)來(lái)檢索口語(yǔ)文檔的方法,所述方法包括 接收(316)所述搜索査詢(xún);搜索(318)包含從所述口語(yǔ)文檔中的語(yǔ)音數(shù)據(jù)生成的詞語(yǔ)的位置的概率的索引,所述詞語(yǔ)的位置的概率參考語(yǔ)音數(shù)據(jù)在所述口語(yǔ)文檔中的不同類(lèi)別; 基于根據(jù)每一類(lèi)別的所述索引的詞語(yǔ)的概率對(duì)每一口語(yǔ)文檔評(píng)分(318);以及基于所述經(jīng)排列的口語(yǔ)文檔返回(320)搜索結(jié)果。
18. 如權(quán)利要求17所述的方法,其特征在于,對(duì)每一口語(yǔ)文檔評(píng)分(318) 包括,將文檔分?jǐn)?shù)計(jì)算為語(yǔ)音數(shù)據(jù)的每一不同類(lèi)別的分?jǐn)?shù)的加權(quán)組合。
19. 如權(quán)利要求17所述的方法,其特征在于,所述索引還包括從所述口語(yǔ) 文檔中的文本元數(shù)據(jù)生成的詞語(yǔ)的位置的概率,所述詞語(yǔ)的位置的概率參考文 本元數(shù)據(jù)在所述口語(yǔ)文檔中的不同類(lèi)別。
20. 如權(quán)利要求19所述的方法,其特征在于,對(duì)每一口語(yǔ)文檔評(píng)分(318) 包括,將文檔分?jǐn)?shù)計(jì)算為語(yǔ)音數(shù)據(jù)的每一不同類(lèi)別和文本元數(shù)據(jù)的每一不同類(lèi) 別的分?jǐn)?shù)的加權(quán)組合。
全文摘要
通過(guò)獲得語(yǔ)音數(shù)據(jù)的詞語(yǔ)的出現(xiàn)概率和詞語(yǔ)的位置信息并且將它與文本元數(shù)據(jù)中該詞語(yǔ)的至少位置信息組合來(lái)創(chuàng)建用于搜索具有語(yǔ)音數(shù)據(jù)和文本元數(shù)據(jù)的口語(yǔ)文檔的索引??梢詣?chuàng)建單個(gè)索引,因?yàn)檎Z(yǔ)音數(shù)據(jù)和文本元數(shù)據(jù)被同樣處理并僅被視為不同的類(lèi)別。
文檔編號(hào)G06F17/28GK101305360SQ200680041464
公開(kāi)日2008年11月12日 申請(qǐng)日期2006年10月31日 優(yōu)先權(quán)日2005年11月8日
發(fā)明者A·阿塞羅, C·I·克爾伯, J·S·F·桑徹斯 申請(qǐng)人:微軟公司