專利名稱:聲控用戶界面的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及聲控用戶界面。
背景技術(shù):
當(dāng)前許多商用程序采用綜合(complex)圖形用戶界面(graphical userinterfaces,GUIs)的形式。綜合GUIs允許用戶在同時執(zhí)行許多任務(wù)的同時保持它們其余工作的上下文(context);但是,這些系統(tǒng)通常是需要鼠標(biāo)和鍵盤,這可能會對很多人,包括身體上有缺陷的人,引起使用上的問題或甚至造成無法使用。如果采取措施去處理固有的使用性問題,聲音界面能夠?qū)ι眢w上有缺陷的用戶提供易于訪問的解決辦法,比如用戶效率和不明確的操作。此外,聲音界面能提高執(zhí)行某些任務(wù)的效率。
大量的資源被花費以發(fā)展基于網(wǎng)絡(luò)的應(yīng)用程序以對復(fù)雜的商業(yè)應(yīng)用程序提供可移植的,獨立于平臺的前端,其用到,諸如HTML和/或JavaScript等語言。
由于應(yīng)用程序典型地僅是以視覺表達在頭腦中而發(fā)展起來,因此很少注意到可能便于發(fā)展聲音界面的細節(jié)。
在大多數(shù)的計算機或數(shù)據(jù)處理系統(tǒng)中,用戶交互僅利用視頻顯示器、鍵盤和鼠標(biāo)來提供。附加的輸入和輸出外圍設(shè)備有時會用到,諸如打印機、繪圖儀、光筆、觸摸屏、條形碼掃描儀;但是,絕大多數(shù)計算機交互僅利用視頻顯示器、鍵盤和鼠標(biāo)。因此,基本的人機交互通過視頻顯示和機械的刺激來提供。相反,相當(dāng)大的比例的人與人之間的交互是通過口頭進行的。因此希望方便口頭的人機交互以為有缺陷的用戶增加訪問并且提高用戶界面的效率。
各種技術(shù)被發(fā)展起來以提供一些形式的口頭人機交互,范圍從簡單的文本-語音轉(zhuǎn)換聲音合成應(yīng)用程序到更復(fù)雜的口述和命令與控制應(yīng)用程序。不同類型的口頭人機交互應(yīng)用程序可以被兩個要素所描述(1)視覺組件的存在或缺失;和(2)當(dāng)增加聲音界面時加下劃線的應(yīng)用程序和交互所改變的范圍。
許多研究機構(gòu)構(gòu)建口頭人機交互系統(tǒng)集中于第二個要素創(chuàng)造新的交互風(fēng)格其可能與視頻顯示器共同作用或取而代之。例如,不同機構(gòu)已創(chuàng)建下列的系統(tǒng)CommandTalk;ATIS;TOOT,和ELVIS。這些系統(tǒng)的每一個都集中于為口頭人機交互提供改進的模式,從根本上改變了交互的風(fēng)格。例如,CommandTalk保持了傳統(tǒng)的GUI,同時從根本上改變了交互的風(fēng)格以改善使用性。ATIS,一種空氣傳播的(air travel)信息系統(tǒng),通過對用戶的查詢以可視化圖表的形式呈現(xiàn)結(jié)果來保持傳統(tǒng)的視覺組件;但是,ATIS修改傳統(tǒng)的交互風(fēng)格,從數(shù)據(jù)庫查詢界面變到自然語言查詢界面。相似的,TOOT,一種列車時間表(train schedule)信息系統(tǒng),試圖為用戶展示圖表數(shù)據(jù);但是,TOOT通過聲音提供圖表數(shù)據(jù),消除了對視覺組件的需要。最后,ELVIS系統(tǒng),用于通過聲音訪問電子信函(email)消息,已嘗試了幾種交互風(fēng)格,其與視覺交互的差異有不同的程度。系統(tǒng)-主動風(fēng)格利用了許多在視覺界面中含有的同樣的命令名稱,同時混合-主動風(fēng)格的提供重大地改變了傳統(tǒng)交互。
許多商業(yè)系統(tǒng)試圖以含有不同程度的視覺組件來保持常規(guī)的交互風(fēng)格。Windows訪問工具諸如ViaVoice和SUITEKeys鏡像(mirror)了鍵盤/鼠標(biāo)的交互,其程度比任意的上述對話系統(tǒng)的程度都要大。SUITEKeys甚至達到了直接模仿用手移動鼠標(biāo)并按下各個鍵的交互方式。同樣的,許多電話應(yīng)用程序直接采用“按下或說1”的方式來交互以模仿數(shù)字按鍵鍵盤的交互方式。
巨大的資源已被用于開發(fā)商業(yè)應(yīng)用程序,其需要綜合GUIs以展示大量的信息,顯示這些信息內(nèi)復(fù)雜的交互,并且管理最大化用戶性能、配置和控制的復(fù)雜度(complexity)?,F(xiàn)有的應(yīng)用程序為利用聲音控制應(yīng)用程序僅提供有限的支持。一些現(xiàn)有的系統(tǒng)允許口述或有限的訪問命令;但是,存在著對系統(tǒng)和技術(shù)的需求,以在傳統(tǒng)的和舊版本的應(yīng)用程序中增大口頭的人機交互的程度以為有缺陷的用戶提高訪問能力并提高所有用戶的交互效率。
發(fā)明內(nèi)容
一方面,提供了利用聲音擴展模塊以聲音啟動用戶界面的方法。該方法包括接收用戶界面信息,解析用戶界面信息以確定用戶界面單元,并且處理用戶界面單元以啟動聲音控制。用戶界面信息可能是HTML文件并可能包括JavaScript代碼。用戶界面數(shù)據(jù)單元可能包括,例如,文本域,選擇列表,滾動條,滑塊,單選鈕,復(fù)選框,圖標(biāo)或按鈕。在一些實現(xiàn)中,處理用戶界面單元包括用語音識別引擎注冊每個用戶界面單元的名稱和/或類型。
另一方面,提供了用于聲音啟動用戶界面的聲音擴展模塊。聲音擴展模塊包括語音識別引擎,預(yù)處理器其接收用戶界面信息并用語音識別引擎注冊相應(yīng)的聲音命令,輸入句柄接收和處理用戶交互。預(yù)處理器可能包括解析器以標(biāo)識用戶界面單元,及翻譯器以通過語音識別注冊正確的詞匯表和保留對用戶界面單元的參考(reference)。
另一方面,用于聲音啟動用戶界面的系統(tǒng)包括瀏覽器,其相應(yīng)于用戶界面信息生成用戶界面,和聲音擴展模塊。聲音擴展模塊包括語音識別引擎,預(yù)處理器其接收用戶界面信息并用語音識別引擎注冊相應(yīng)的聲音命令,輸入句柄其接收和處理用戶交互。聲音擴展模塊可能實現(xiàn)為瀏覽器的一個組件。
一個或多個實現(xiàn)的細節(jié)將在附圖和下面的描述中闡明。其它的特征和優(yōu)點根據(jù)描述和附圖、及權(quán)利要求將是顯而易見的。
圖1是利用聲音擴展模塊聲音啟動計算機應(yīng)用程序的方塊圖。
圖2是含有預(yù)處理器、語音識別引擎、和輸入句柄的聲音擴展模塊的方塊圖。
圖3是展示在聲音擴展模塊中處理用戶界面信息的方法的流程圖。
圖4是展示假期申請應(yīng)用程序的屏幕鏡頭。
圖5是展示說明列表選擇的假期申請應(yīng)用程序的屏幕鏡頭。
具體實施例方式
在最近的幾年中,許多計算機和數(shù)據(jù)處理應(yīng)用程序都用基于網(wǎng)絡(luò)的GUIs來創(chuàng)建。下面描述的系統(tǒng)允許常規(guī)的基于網(wǎng)絡(luò)的GUIs的應(yīng)用程序成為聲音啟動的,通過利用聲音擴展模塊而無需對程序進行重大修改。
參考圖1,聲音啟動的計算機界面100包括聲音擴展模塊102和瀏覽器104。瀏覽器從機能上實現(xiàn)用戶輸入和輸出,例如,利用下面的設(shè)備視頻顯示監(jiān)視器106;鼠標(biāo)107;鍵盤108;揚聲器109;和麥克風(fēng)110。聲音擴展模塊102通過網(wǎng)絡(luò)120(例如internet)從應(yīng)用程序服務(wù)器130接收用戶界面數(shù)據(jù)。
在圖1所示的實現(xiàn)中,應(yīng)用程序服務(wù)器130提供了網(wǎng)絡(luò)啟動的用戶界面,其利用HTML代碼構(gòu)建瀏覽器104以顯示信息和接受用戶輸入和命令。瀏覽器104可通過利用傳統(tǒng)的網(wǎng)絡(luò)瀏覽器實現(xiàn),例如微軟的Internet Explorer。應(yīng)用程序服務(wù)器130發(fā)送描述不同的文本,圖象和要顯示給用戶的用戶界面的窗口小部件(widget)的HTML代碼。但是HTML代碼,首先通過聲音擴展模塊102接收和預(yù)處理以使應(yīng)用程序變?yōu)槁曇魡拥?,正如下面參照圖3所描述的那樣。
聲音擴展模塊102可能實現(xiàn)為微軟的Internet Explorer Browser HelperObject(BHO)。BHO作為瀏覽器功能的擴展并在操作之前將BHO用于攔截頁面和瀏覽器事件。這允許聲音擴展模塊102來定義和控制瀏覽器104環(huán)境的行為及事件(例如鼠標(biāo)點擊,鍵按下)處理的方式。此外,通過在BHO中嵌入語音識別引擎,BHO允許聲音擴展模塊102響應(yīng)外部事件,比如當(dāng)一個詞被說出來的時候。在此實現(xiàn)中,任意SAPI-服從語音識別引擎可被用于產(chǎn)生語音識別事件。
如圖2所示,聲音擴展模塊102的一種實現(xiàn)包括預(yù)處理器200,其從應(yīng)用程序服務(wù)器130接收用戶界面信息,例如HTML或JavaScript代碼,并且預(yù)處理用戶界面信息以在頁面顯示給用戶之前啟動聲音交互。預(yù)處理器200包括解析器202和翻譯器204。解析器202利用任意通常的解析技術(shù),比如有限狀態(tài)機,來標(biāo)識代碼中的用戶界面單元。
例如,按HTML網(wǎng)頁形式的用戶界面信息可能包括各種窗口小部件,其形式有文本域,密碼域,復(fù)選框,單選鈕,和控制按鈕(比如標(biāo)識和重設(shè))。解析器202接收用戶界面信息并將其傳遞到翻譯器204,從利用語音識別引擎210和輸入句柄220正確地注冊相關(guān)的詞匯。
翻譯器204確定哪些所標(biāo)識的用戶界面單元是“可以交談的”??梢越徽劦捻椖?item)用語音識別引擎210注冊以使當(dāng)這些項目被說出時引發(fā)適當(dāng)?shù)氖录?。為使頁面更加“聲音友好”,對在瀏覽器104內(nèi)運行的HTML或JavaScript在將其呈現(xiàn)給用戶之前需要附加額外的改變。例如,翻譯器204可能將標(biāo)識符附加給單元。一些單元可能包括XML數(shù)據(jù)或為單元指示適當(dāng)?shù)穆曇魳?biāo)識符的其它元數(shù)據(jù)。這些元數(shù)據(jù)可以確定適當(dāng)?shù)臉?biāo)識符,其能夠被附加給單元以使其更加聲音友好。此外,一些標(biāo)識符可能被簡化。對于含有簡化的標(biāo)識符的單元,翻譯器204可以用語音識別引擎210注冊簡化的標(biāo)識符,標(biāo)識符的長形式,或同時注冊這兩種形式。最后,翻譯器204可能試圖縮短長的標(biāo)識符??s短長的標(biāo)識符的一種途徑是只注冊長的標(biāo)識符的某些部分。例如,如果標(biāo)識符是“Submit Changes for Processing”,它能縮短為“Submit”或“Submit Changes”。
一旦注冊的詞匯條目被說出和識別,該短語傳送到輸入句柄220,其采取適當(dāng)?shù)牟襟E完成此操作,保存任意所需的狀態(tài),并履行由聲音用戶界面的行為或整個聲音界面策略中使用的視覺聚焦所定義的額外任務(wù)。輸入句柄220有助于保證同一操作被執(zhí)行,而不管輸入源是鼠標(biāo)或鍵盤,或等價的聲音命令。
參照圖3,聲音擴展模塊102通過首先接收描述可由用戶操縱的界面組件的用戶界面信息3010(步驟3015)使得用戶界面成為聲音啟動的。在此實現(xiàn)中,用戶界面信息3010被表示為HTML文件,其可能包含被用戶控制的不同用戶界面單元或窗口小部件。用戶界面信息3010也可能包含JavaScript代碼或通常被網(wǎng)絡(luò)瀏覽器使用的任意其它的傳統(tǒng)的控制機制。
用戶界面信息3010被聲音擴展模塊102所接收,然后被預(yù)處理器200處理。預(yù)處理器200利用解析器202解析所收到的用戶界面信息3010(步驟3020)。對于每個被解析器202所標(biāo)識的用戶界面單元,翻譯器204處理該單元以使其聲音啟動。只要有用戶界面單元剩余(步驟3030),系統(tǒng)就處理下一個單元(步驟3050)。一旦每個用戶界面單元被處理過,用戶界面被瀏覽器104所顯示。翻譯器204通過用語音識別引擎210注冊適當(dāng)?shù)脑~匯和通過用輸入句柄220注冊用戶界面單元來處理每個用戶界面單元。
例如,下面的用戶界面單元可能被聲音擴展模塊102接收到“<INPUTTYPE=’button’NAME=’but_xyz’VALUE=’save changes’>”。此用戶界面單元顯示用于允許用戶開始(initiate)保存改變的按鈕。翻譯器204通過用語音識別引擎210注冊“SAVE CHANGES”處理該單元。它也可能與輸入句柄220一同被注冊為按鈕域以使用戶通過說“BUTTON”而能夠訪問此域。輸入句柄,通過接收按鈕的請求,標(biāo)識所有激活的按鈕,允許用戶通過數(shù)字選擇所需的按鈕。這允許采用另外的技術(shù)訪問命名的按鈕單元;但是,此技術(shù)可能是訪問未命名按鈕單元的唯一途徑。
數(shù)據(jù)輸入任務(wù)需要許多需要用戶控制的單元(或窗口小部件)合作。數(shù)據(jù)輸入通常使用鼠標(biāo)和/或鍵盤處理,并且通過定點設(shè)備的物理交互組件一般易于確定預(yù)期的目標(biāo)。在聲音界面中,其它的聚焦和選擇技術(shù)必須典型地用于確定潛在目標(biāo)。
許多應(yīng)用程序中的窗口小部件,諸如滾動條,按鈕,及文本域或者沒有名字(例如,由于它們關(guān)聯(lián)與特定的未命名的表或行),或者具有不明確的名字(例如,由于存在多個域標(biāo)為“ID number(身份證號)”),或者在視頻顯示中看來有名字,但是不容易通過代碼關(guān)聯(lián)其名字,其原因為文本看起來處于完全不同于窗口小部件的模塊中。
一項技術(shù)是使用隱式導(dǎo)航協(xié)同通用的方法來處理數(shù)據(jù)輸入窗口小部件。隱式導(dǎo)航在下列的公開文獻(publication)中加以描述James,F(xiàn).和Roelands,J.,Voice over Workplace(VoWP)Voice Navigation in a Complex Business GUI。ASSETS 2002,(Edinburgh,Scotland,2002)。簡要的說,隱式導(dǎo)航是區(qū)分屏幕區(qū)域的優(yōu)先次序以最小化潛在的不明確性(ambiguity)。用戶界面屏幕可能被劃分為幾塊區(qū)分了優(yōu)先次序的區(qū)域。用戶交互和屏幕更新修改優(yōu)先次序以使用戶界面更加聲音友好。
對界面單元的通用訪問依類型通過對單元尋址來提供。例如,為到達所給應(yīng)用程序的文本域,用戶簡單的說出“文本域”。如果在當(dāng)前聚焦區(qū)域有多于一處的文本域,則看作任意其它不確定性;覆蓋的標(biāo)簽被呈現(xiàn)以允許用戶選擇期望的目標(biāo)。盡管該方法使得多數(shù)單元選擇進入兩-步驟過程,但它確實允許用戶有效地導(dǎo)航到屏幕上的任意單元。能夠通過名稱訪問到的項目(例如按鈕)也能用這種通用的方法訪問到,以確保界面的一致性和在識別性能降級時顧及替換方法。
一旦一個項目被選定,如果它是一個圖標(biāo)、按鈕、單選鈕或復(fù)選框,界面就如同該項目被用鼠標(biāo)點擊一樣表現(xiàn)。對于組合框,列表中的選項被顯示出來以使得用戶能夠做出選擇。文本域用有色的邊框突出顯示并且激活的光標(biāo)置入其間,以這種信號表示用戶進入到該區(qū)域的口述模式。
另外一種解決未命名單元的問題的替代方法是當(dāng)頁面首次呈現(xiàn)給用戶時,對所有的單元增加獨特的名稱,而無需用戶首先說出單元類型從而導(dǎo)致編號的被覆蓋標(biāo)簽產(chǎn)生。
與聲音界面相關(guān)的一個問題是從命令中區(qū)分?jǐn)?shù)據(jù)輸入。例如,當(dāng)用戶選擇多行文本域,其可假定為用戶希望進入口述模式并輸入一些文本。但是,需要確定何時該輸入完成和何時用戶準(zhǔn)備重新開始導(dǎo)航的技術(shù)。這可以從多種途徑來完成。
例如,一種選擇是利用明確的命令來結(jié)束數(shù)據(jù)輸入。這需要使用密碼詞或短語,比如,“end dictation(結(jié)束口述)”對于用戶希望完整的編輯控制的多行文本域,這可能是最好的解決辦法,其原因為這種類型的大的口述任務(wù)將被作為需要手動退出的單獨的模式對待。
這種思想的一個變體是使系統(tǒng)傾聽多個關(guān)鍵詞,例如界面中的其它目標(biāo)的名稱。完成此任務(wù)的一種途徑是使用多個并行識別器,每個識別器傾聽不同的關(guān)鍵詞。但是,這項技術(shù),增加了誤解口述為命令并過早地退出口述模式的可能。
相似的,停頓或超時可以用來結(jié)束口述。不幸的是這項技術(shù)對用戶常常是困難的,因為僅是思考接著說什么的停頓就可能引發(fā)口述的結(jié)束。該技術(shù)可以通過對用戶提供視頻暗示而使其更實用。
另外一種選擇是對域分配適當(dāng)?shù)恼Z法,以消除隨時可能的口述的需求。該技術(shù)在域期望一些特定的輸入的情況下有用,比如日期。但是,它需要途徑去潛在地從通常語法資源集合中確定域的期望數(shù)據(jù)類型,分配合適的語法。然后,一旦域被選定,系統(tǒng)能夠自動地設(shè)定界面來期望聽到特定類型的輸入。并且一旦輸入完成返回標(biāo)準(zhǔn)的控制模式。對特定文本域的識別語法也在運行時刻被用戶通過使用“不變默認(rèn)(sticky defaults)”的方法選擇。例如,第一次用戶遇到一個域,他能夠指定應(yīng)使用的日期語法。然后,在隨后對那處域的訪問中(甚至是在不同的會話中),系統(tǒng)能夠默認(rèn)使用該日期語法。
不管用于確定輸入結(jié)束時刻的方法,視覺暗示可能被用于指示用戶他或她所處的模式。例如,一旦其被選定以指示用戶系統(tǒng)期望該域的輸入,藍色的邊框?qū)⒅糜谖谋居虻闹車?。這不僅標(biāo)識用戶對特定域的選定,而且也提醒用戶他或她必需為該域提供數(shù)據(jù)以作為下一步的行動。
圖4說明了利用上述技術(shù)對于請假申請應(yīng)用程序的范例的商業(yè)應(yīng)用程序用戶界面。屏幕400上的按鈕(幫助按鈕402,假期剩余按鈕404,替換按鈕406,和發(fā)送按鈕408)可以通過說出它們的名稱被激活。理想的情況下,剩下的用戶界面單元也能通過說它們的名稱來訪問;但是,將適當(dāng)?shù)奈谋九c界面單元相關(guān)聯(lián)常常是困難或不可能的。例如,剩下的域(缺席類型(absence type)域410,缺席開始時間(absence from)域412,缺席結(jié)束時間(absence to)域414,和注記域416)可能包含內(nèi)嵌的標(biāo)簽或名稱,其不同于靠近這些域的文本。例如,注記域416,可以定義為使用如下的HTML代碼“<TEXTAREANAME=’ABNOTE’ROWS=4 COLS=20>”。有時將域與屏幕上僅通過解析HTML代碼得到的標(biāo)簽相關(guān)聯(lián)是不可能的。例如,對系統(tǒng)而言將“注記(Note)”文本與注記域416相關(guān)聯(lián)是困難的。在這些情形下,網(wǎng)頁的創(chuàng)建者能夠包括XML或其它元數(shù)據(jù)以便系統(tǒng)能夠為域確定適當(dāng)?shù)穆曇魳?biāo)識符。
缺席類型域410為數(shù)據(jù)輸入使用下拉(選擇)列表。為聚焦于此特定的項目,用戶說“選擇列表”。這通常會對所有的選擇列表用透明的覆蓋來編號以允許用戶選擇。由于此屏幕中只有一個選擇列表,焦點自動轉(zhuǎn)移到它。列表被高亮顯示并且可供選擇的選項被顯示出。系統(tǒng)的默認(rèn)是將下個命令解釋為列表中的一個選項。
缺席開始時間域412和缺席結(jié)束時間域414都是基本的自由-文本輸入域其關(guān)聯(lián)于允許從另外的窗口小部件中選擇的信息按鈕,在此情形下,是日歷。如果用戶想輸入文本到這些域中,他說“文本輸入”。這將導(dǎo)致對所有三處文本輸入域的透明的覆蓋(其包含可以標(biāo)識的字符或數(shù)字)的顯示兩處關(guān)于日期的文本輸入域和用于注記的文本輸入域。用戶選擇數(shù)字以選定希望的域。此時,文本輸入域?qū)⒊蔀榻裹c并且用戶能夠口述正確的日期。
注記域416也可以相似地通過使用聲音命令激活;但是,文本域也包含滾動條。因此,當(dāng)注記域416被激活,滾動條聲音命令也可用以允許用戶在用戶界面單元中上下滾動。
圖5說明了在用戶說“選擇列表”后,屏幕400的情況。該域借助視頻暗示(在此情形下,是包含該域的藍色方框)被激活,并且將可用的選項展示給用戶。然后用戶可以通過讀顯示的文本選擇選項。例如。用戶可以說出“結(jié)婚日”或“生病日”以選擇相應(yīng)的選項。
用戶然后可能通過說“文本域”在缺席開始時間域412和缺席結(jié)束時間域414中輸入數(shù)據(jù)。這將導(dǎo)致三個文本輸入域在屏幕上被高亮顯示以便用戶可選擇希望的文本輸入域。例如,系統(tǒng)可以在三個文本輸入域放置透明的覆蓋,每個覆蓋指示一個數(shù)字。然后用戶可以讀數(shù)字以選擇希望的域。
用戶可以與系統(tǒng)交互,以便通過說“文本盒(box)”和“1”將焦點轉(zhuǎn)移到“缺席開始時間”域412來輸入日期。然后,用戶可以通過說“10 04 2001”指定日期。語音識別引擎210可以使用被翻譯器204注冊的日期識別語法來識別聲音輸入。然后翻譯器204為了程序的使用,將識別的數(shù)字安排為正確的日期形式。
許多的實現(xiàn)已被描述。但是,應(yīng)當(dāng)理解,在不脫離本發(fā)明的精神和范圍情況下,可以對本發(fā)明做出各種修改。因此,其它的實現(xiàn)也在由下列權(quán)利要求的范圍內(nèi)。
權(quán)利要求
1.一種使用聲音擴展模塊來聲音啟動用戶界面的方法,包括接收用戶界面信息;解析用戶界面信息以確定用戶界面單元;和處理用戶界面單元以啟動聲音控制。
2.如權(quán)利要求1中的方法,其中的用戶界面信息是超文本標(biāo)簽語言(HTML)文件。
3.如權(quán)利要求2中的方法,其中的HTML文件包含JavaScript代碼。
4.如權(quán)利要求1中的方法,其中的用戶界面數(shù)據(jù)單元包括下面組中的一個或多個文本域;選擇列表;滾動條;滑塊;單選鈕;復(fù)選框;圖標(biāo);和按鈕。
5.如權(quán)利要求1中的方法,其中處理用戶界面單元包括對每個用戶界面單元,用語音識別引擎注冊用戶界面單元。
6.如權(quán)利要求5中的方法,其中用語音識別引擎注冊用戶界面單元包括注冊用戶界面單元的名稱。
7.如權(quán)利要求5中的方法,其中用語音識別引擎注冊用戶界面單元包括注冊用戶界面單元的類型。
8.如權(quán)利要求1中的方法,進一步包括接收相應(yīng)于用戶界面單元的輸入。
9.如權(quán)利要求8中的方法,其中用戶輸入是被語音識別引擎識別的聲音輸入。
10.如權(quán)利要求8中的方法,其中輸入包括從一個或多個下述設(shè)備中得到數(shù)據(jù)鍵盤;鼠標(biāo);和麥克風(fēng)。
11.一種用于聲音啟動用戶界面的聲音擴展模塊包括語音識別引擎;預(yù)處理器,其接收用戶界面信息并用語音識別引擎注冊相應(yīng)的聲音命令;和輸入句柄,其接收和處理用戶交互。
12.如權(quán)利要求11的聲音擴展模塊,其中預(yù)處理器包括解析器,標(biāo)識用戶界面單元;和翻譯器,聲音啟動用戶界面單元。
13.如權(quán)利要求12的聲音擴展模塊,其中用戶界面單元包括下面組中的一個或多個文本域;選擇列表;滾動條;滑塊;單選鈕;復(fù)選框;圖標(biāo);和按鈕。
14.一種用于聲音啟動用戶界面的系統(tǒng)包括瀏覽器,其生成相應(yīng)于用戶界面信息的用戶界面;和聲音擴展模塊,關(guān)聯(lián)于瀏覽器并可操作用于聲音啟動由瀏覽器生成的用戶界面,聲音擴展模塊包括語音識別引擎;預(yù)處理器,其接收用戶界面信息并用語音識別引擎注冊相應(yīng)的聲音命令;和輸入句柄,其接收和處理用戶交互。
15.如權(quán)利要求14的系統(tǒng),其中瀏覽器是Internet EXplorer。
16.如權(quán)利要求14的系統(tǒng),進一步包括輸出設(shè)備以呈現(xiàn)用戶界面,該輸出設(shè)備包括下面組中的一個或多個監(jiān)視器;揚聲器;和液晶面板(LCD)。
17.如權(quán)利要求14的系統(tǒng),其中用戶界面信息是超文本標(biāo)簽語言(HTML)文件。
18.如權(quán)利要求17的系統(tǒng),其中預(yù)處理器包括解析器,標(biāo)識用戶界面單元;和翻譯器,聲音啟動用戶界面單元。
19.如權(quán)利要求18的系統(tǒng),其中用戶界面單元包括下面組中的一個或多個文本域;選擇列表;滾動條;滑塊;單選鈕;復(fù)選框;圖標(biāo);和按鈕。
20.如權(quán)利要求14的系統(tǒng),其中聲音擴展模塊是瀏覽器的一個組件。
全文摘要
提供了一種利用聲音擴展模塊來聲音啟動用戶界面的方法和系統(tǒng)。聲音擴展模塊包括預(yù)處理器、語音識別引擎和輸入句柄。聲音擴展模塊接收用戶界面信息,比如超文本標(biāo)簽語言(hypertext markup language,HTML,超文本標(biāo)簽語言)文件,并且聲音啟動該文件以使用戶通過使用聲音命令同任意界面單元交互。
文檔編號G10L11/00GK1643491SQ03807004
公開日2005年7月20日 申請日期2003年2月14日 優(yōu)先權(quán)日2002年2月15日
發(fā)明者杰夫·羅蘭斯, 理查德·J·斯旺, 拉馬·古拉姆, 弗蘭基·詹姆斯 申請人:Sap股份公司