針對語音識別系統(tǒng)的視覺反饋的制作方法

文檔序號：9355300閱讀：647來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

針對語音識別系統(tǒng)的視覺反饋的制作方法
【專利說明】
【背景技術(shù)】
[0001]一些語音識別系統(tǒng)可以在多用戶環(huán)境下操作，在多用戶環(huán)境下可以從房間中的各種位置并且以各種音量從多個用戶提供話音命令。在一些情況下，可能難以確定哪個用戶當(dāng)前正在與語音識別系統(tǒng)交互和/或語音輸入是否被接收該語音輸入的計算設(shè)備聽到并理解。

【發(fā)明內(nèi)容】

[0002]公開了涉及在語音識別系統(tǒng)中提供視覺反饋的實施例。例如，一個公開的實施例提供了一種方法，包括:顯示圖形反饋指示符，所述圖形反饋指示符具有依賴于語音識別系統(tǒng)的狀態(tài)的可變外觀。該方法還包括:接收語音輸入；如果語音輸入被系統(tǒng)聽到并理解，則以第一方式修改圖形反饋指示符的外觀，以及如果語音輸入被聽到但未被理解，則以不同的第二方式修改圖形反饋指示符的外觀。
[0003]本概要被提供來以簡化的形式介紹構(gòu)思的選擇，在下面的詳細(xì)說明中進(jìn)一步描述了這些構(gòu)思。本概要既不意在識別所要求保護(hù)的主題的關(guān)鍵特征或必要特征，也不意在被用于限制所要求保護(hù)的主題的范圍。此外，所要求保護(hù)的主題不限于解決了在本公開內(nèi)容的任何部分中提到的任何或全部缺陷的實現(xiàn)。
【附圖說明】
[0004]圖1示出了根據(jù)本公開內(nèi)容的實施例的、針對語音識別系統(tǒng)的示例性多用戶環(huán)境。
[0005]圖2示出了根據(jù)本公開內(nèi)容的實施例的示例性語音識別系統(tǒng)的框圖。
[0006]圖3示出了描繪為語音識別系統(tǒng)提供反饋的方法的實施例的流程圖。
[0007]圖4A-4F示出了根據(jù)本公開內(nèi)容的實施例在顯示器上顯示的反饋的示例。
[0008]圖5示出了根據(jù)本公開內(nèi)容的另一實施例的、具有緊湊外觀的反饋的示例。
[0009]圖6示出了根據(jù)本公開內(nèi)容的實施例的示例性計算系統(tǒng)的框圖。
【具體實施方式】
[0010]如上文提到的，一些語音識別系統(tǒng)可以在多用戶環(huán)境下操作，在多用戶環(huán)境下可以從房間中的各種位置并且以各種音量從多個用戶提供話音命令。然而，語音識別系統(tǒng)可能具有簡單的反饋機(jī)制來向用戶警告當(dāng)前交互狀態(tài)，或者可能根本不使用任何反饋機(jī)制。盡管對于單用戶環(huán)境而言這樣的語音識別系統(tǒng)可能就足夠，然而多用戶環(huán)境和/或多應(yīng)用環(huán)境的復(fù)雜性可能導(dǎo)致在使用期間的混亂，因為語音識別系統(tǒng)可能不按對預(yù)期語音命令所期望的那樣做出響應(yīng)。此外，用戶可能難以查明問題以便修改他們的行為或找到解決方案。
[0011]語音識別系統(tǒng)可以在各種狀態(tài)下操作并且在語音接收和識別的過程中執(zhí)行各種任務(wù)。例如，語音識別系統(tǒng)可以有時工作在受限或被動的(passive)監(jiān)聽狀態(tài)下，在所述受限或被動的監(jiān)聽狀態(tài)下，語音識別系統(tǒng)僅監(jiān)聽用于喚醒并進(jìn)入主動監(jiān)聽狀態(tài)的觸發(fā)。因此，在被動監(jiān)聽狀態(tài)下，可以支持有限數(shù)目的所識別的語音命令。在主動監(jiān)聽狀態(tài)下，語音識別系統(tǒng)可以接收和分析檢測到的語音，以確定相對應(yīng)的動作來在計算設(shè)備上進(jìn)行。語音輸入系統(tǒng)可以使用不同的主動監(jiān)聽狀態(tài)，所述不同的主動監(jiān)聽狀態(tài)對應(yīng)于不同的計算設(shè)備情境，比如應(yīng)用情境或操作系統(tǒng)情境。這樣，語音輸入可以在不同的主動監(jiān)聽情境下，甚至在相同應(yīng)用中的不同情境下，被不同地解釋。
[0012]各種參數(shù)可以影響語音輸入是否被計算系統(tǒng)恰當(dāng)?shù)芈牭胶屠斫?。例如，如果語音識別系統(tǒng)沒有檢測到足夠音量的語音輸入，則該語音輸入不會被正確理解。此外，在多用戶環(huán)境下，如果語音輸入系統(tǒng)沒有恰當(dāng)?shù)刈R別語音輸入的源(例如，如果系統(tǒng)嘗試將來自多個用戶的詞語解釋為來自單個用戶的單個命令)，則用戶可能在進(jìn)行語音輸入時有困難。此夕卜，甚至在從確定的用戶接收到足夠音量的語音輸入的情況下，在確定進(jìn)行語音輸入的用戶的意圖時也可能遭遇歧義。
[0013]考慮到這樣的復(fù)雜性，如果用戶提供了語音輸入并且系統(tǒng)執(zhí)行了與語音輸入不相關(guān)的動作或者無法執(zhí)行任何動作，則可能難以確定語音輸入為何沒有被恰當(dāng)?shù)亟忉?。因此，公開了涉及在語音識別系統(tǒng)中提供用戶界面反饋機(jī)制的實施例。所公開的反饋機(jī)制可以提供與監(jiān)聽狀態(tài)、當(dāng)前語音輸入情境、語音輸入音量、用戶標(biāo)識、用戶位置、實時語音識別確認(rèn)和/或用戶在進(jìn)行語音輸入時的其他信息有關(guān)的反饋。因此，這樣的反饋可以有助于使用戶能夠理解語音輸入是否正被接收并且被正確地解釋。
[0014]圖1示出了針對語音識別系統(tǒng)的多用戶環(huán)境100的示例性實施例。多用戶環(huán)境包括與計算系統(tǒng)104交互的第一用戶102。計算系統(tǒng)104可以通信地連接到其他設(shè)備，比如傳感器系統(tǒng)106和顯示設(shè)備108。傳感器系統(tǒng)106可以包括一個或多個深度攝像機(jī)、一個或多個二維攝像機(jī)、一個或多個麥克風(fēng)(例如，定向麥克風(fēng)陣列，其允許確定從哪個位置接收到語音輸入)和/或任何其他合適的傳感器。顯示設(shè)備108包括用于向用戶呈現(xiàn)視覺信息的顯示器110。環(huán)境100還圖示了第二用戶112。第二用戶112也可以向計算系統(tǒng)104提供語音輸入，和/或可以在第一用戶102進(jìn)行語音輸入時促成背景噪聲。
[0015]第一用戶102被圖示為提供語音輸入來控制運行在計算系統(tǒng)104上的視頻游戲應(yīng)用。圖1還示出了語音識別反饋機(jī)制的示例性實施例，所述語音識別反饋機(jī)制采用在顯示器110上顯示的圖形反饋指示符114的形式。所描繪的圖形反饋指示符114包括位置和音量指示特征114a，所述位置和音量指示特征114a的位置描繪了語音輸入正從哪個方向被接收，所述位置和音量指示特征114a的長度指示了語音輸入的檢測到的音量。圖1中，位置和音量指示特征114a被定位成指示從觀眾的角度來看正在接收的語音輸入是從顯示器的左側(cè)被檢測到的，這對應(yīng)于第一用戶102的位置。相反，如果系統(tǒng)要檢測源自第二用戶112的語音，則位置和音量指示特征114a將被定位在圖形反饋指示符114的右側(cè)以與第二用戶112的位置相對應(yīng)。
[0016]圖形反饋指示符114還被描繪為提供與識別和/或理解的語音輸入有關(guān)的反饋。在描繪的實施例中，這樣的反饋的示例被示為文本串，所述文本串響應(yīng)于第一用戶102說詞語“再裝彈(RELOAD)”或者說與相同的用戶意圖相對應(yīng)的其他短語(例如，“改變彈藥(CHANGE AMMUNIT1N)”)而示出詞語“再裝彈”，這樣使得顯示的文本串對應(yīng)于與接收到的語音輸入相對應(yīng)的規(guī)范語音輸入。這樣的反饋可以按照系統(tǒng)的理解實時向用戶示出語音輸入的內(nèi)容，從而警告用戶語音輸入是被正確地理解還是錯誤地理解。在一些實施例中，除了圖形反饋指示符114之外，計算系統(tǒng)104還可以提供話音和/或非話音聲頻反饋。
[0017]針對語音識別系統(tǒng)的圖形反饋指示符可以包括任何合適數(shù)目和排列的視覺反饋元素，包括但不限于插圖、文本、圖像等等，并且可以具有任何其他合適的外觀。例如，圖形反饋指示符114可以被疊加在用戶界面的可顯示內(nèi)容上和/或在視覺上被整合在用戶界面內(nèi)。下文參考圖4A至圖4F以及圖5描述了示例性實施例。
[0018]圖2示出了語音識別系統(tǒng)200的示例性實施例的框圖。語音識別系統(tǒng)包括計算設(shè)備202，其可以代表計算系統(tǒng)104或其他合適的計算系統(tǒng)。計算設(shè)備202包括被存儲于其上的存儲裝置中的計算機(jī)可讀指令，計算機(jī)可讀指令可被執(zhí)行來操作語音識別系統(tǒng)204。語音識別系統(tǒng)204可以被配置為經(jīng)由傳感器系

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3 4