本發(fā)明總體上涉及自動語音識別,并且更具體地,涉及在給用戶帶來低的認知負擔(dān)的同時提供語音識別。
背景技術(shù):
通常已知的是,由駕駛員執(zhí)行的任何非駕駛相關(guān)任務(wù)都可能使注意力不集中于駕駛。因此,近期關(guān)注通過立法手段和通過駕駛員教育兩者來減少駕駛時移動電話的使用。還存在對于駕駛員在車輛中使用信息、通信以及娛樂功能的日益增長的需求。
研究表明,與常規(guī)視覺或手動接口相比,基于語音的接口可以不太分散注意力。用于有限功能的基于命令的語音接口在車輛中正變得普遍。然而,因為識別大詞匯量的連續(xù)語音易于出錯,所以針對像SMS這種功能使用語音的文本輸入是困難的。由此,需要糾正或以其他方式改變已經(jīng)使用語音輸入的文本,同時減少正在駕駛的用戶方面的分心。
用于糾正非受限語音的一些方法使用編輯應(yīng)用,即,具有計算機顯示器和常規(guī)鍵盤的文字處理機。例如,U.S.5,960,447中描述的方法通過用關(guān)聯(lián)語音來標記所識別文本中的單詞并允許文字處理軟件的用戶收聽語音以編輯文本轉(zhuǎn)錄,來糾正錯誤識別的語音。
U.S.5,970,460中描述的另一種方法通過在編輯應(yīng)用程序中關(guān)聯(lián)“語音事件數(shù)據(jù)庫”和文本轉(zhuǎn)錄中的位置并且加寬上下文,來改進編輯操作。這種方法需要主要注意包括常規(guī)鍵盤、鼠標器以及菜單選擇的糾正任務(wù),并且具體來說,為了注意視覺顯示,操縱視覺資源是必要的。然而,鍵盤、觸摸屏以及大視覺顯示器的使用未最小化從駕駛分心。
其他方法通過使用后續(xù)語音來編輯由最初語音所產(chǎn)生的轉(zhuǎn)錄,最小化了交互作用的復(fù)雜性。例如,U.S.6,064,959中描述的方法使用后續(xù)講話來糾正語音識別的結(jié)果。類似的是,U.S.7,444,286中描述的方法選擇語音識別中的要重新識別的部分。然而,該語音的后續(xù)解釋可以產(chǎn)生錯誤,從而導(dǎo)致增加糾錯工作,并且進一步導(dǎo)致駕駛員分心。
U.S.2006/293889中描述的另一方法使用由用戶給出的單個單詞的糾正,來調(diào)整與該單個單詞相鄰的單詞的另選建議。然而,如果用戶的語音中的多個單詞被不正確地解釋,則該用戶必須多次糾正該語音解釋。而且,與更一般類型的交互作用相對比,這種方法的糾正限于替換所選擇的單詞,其可以導(dǎo)致用戶的進一步分心。因此,需要將引導(dǎo)語音解釋所需的交互和用戶注意力減到最小。
技術(shù)實現(xiàn)要素:
本發(fā)明的一些實施方式基于以下認知,即,在對包括一系列單詞的大詞匯量的連續(xù)語音的語音識別中出現(xiàn)的錯誤通常是與其他錯誤相關(guān)聯(lián)的。因此,對識別結(jié)果的糾正可以用于預(yù)測其他錯誤可能出現(xiàn)在哪里并且用于糾正附加錯誤,而不是只糾正初始錯誤并等待附加的用戶輸入。這些其他錯誤可在相鄰的單詞位置出現(xiàn),或者可能在無需對相鄰的單詞進行任何改變的情況下在較遠的位置出現(xiàn),因此糾正應(yīng)當(dāng)用于更新識別結(jié)果。因此,糾正約束然后可以用于對用戶說出的語音進行重新解釋。
與僅使用和單個單詞相對應(yīng)的聲學(xué)信號的解釋相比,這種約束可以提高正確解釋一組單詞的概率。例如,假設(shè)識別結(jié)果包括替代品“Wreck a nice beach(擊毀一個不錯的海灘)”和“Recognize speech(識別語音)”,可以使用主題是“pollution(污染)”的約束來更新最初識別的概率。
例如,不是請求用戶糾正語音的解釋中的特定單詞或多個特定單詞,可以將來自用戶的輸入用于確定單詞序列約束,所述單詞序列約束可被用于更新該語音的整個解釋。該實現(xiàn)允許減少用戶糾正該語音的工作,因為單詞序列約束可以導(dǎo)致糾正語音的整個解釋,而糾正單詞僅可以導(dǎo)致糾正該單詞。
例如,在一些實施方式中,單詞序列約束包括語音的元數(shù)據(jù),諸如語音中的詞的數(shù)量或語音中存不存在特定詞。在另一實施方式中,該單詞序列約束更特定于語音的上下文。例如,單詞序列約束可以包括有關(guān)語音的初始解釋的信息,并且這種信息被用于重新評估整個語音的解釋。
一些實施方式還基于以下認知,即,為了使系統(tǒng)對用戶施加低的認知負擔(dān),單詞序列約束的輸入方法應(yīng)當(dāng)使得用戶選擇約束所需的動作最小化。單詞序列約束不僅可以具有不同的值,也可以具有不同的類型。例如,單詞序列約束的類型可以包括:單詞的選擇或拒絕、單詞序列的選擇、時隙的選擇、序列中正確單詞的跡線、單詞的替換或單詞的順序等。因此,期望提供一種適于選擇約束的類型和值兩者、同時使對用戶的例如駕駛的主要任務(wù)的妨礙最小化的接口。
本發(fā)明的一些實施方式基于以下認知,即,可以分析用戶的單個手勢以確定單詞序列約束的類型和值兩者。具體地,手勢的形狀可以用于確定單詞序列約束的類型,并且手勢相對于接口的位置,例如,手勢路徑映射到用戶接口的坐標空間的位置(并且可能顯示在輸出設(shè)備上)可以用于確定單詞序列約束的值。
例如,水平手勢可以被映射到對單詞序列進行選擇的單詞序列約束的類型。在顯示設(shè)備上的該手勢的路徑的位置可以用于確定在語音的解釋中存在的單詞序列。類似地,垂直手勢可以被映射到對單詞的時隙進行選擇的類型,并且該手勢在顯示設(shè)備上的路徑的位置可以用于確定特定單詞的發(fā)音時間和/或順序。以類似的方式,可以將不同形狀的手勢(像劃動、環(huán)繞、拖動選擇和單詞路徑的跡線)映射到不同類型的約束,并且在顯示設(shè)備上的手勢的位置可以用于確定用于對語音的可能解釋后續(xù)重新評分的約束的值。
因此,本發(fā)明的一個實施方式公開了一種用于識別包括單詞序列的語音的方法。該方法包括以下步驟:確定手勢的形狀和手勢相對于示出所述語音的一組解釋的顯示設(shè)備的位置;基于所述手勢的形狀和在一組手勢的形狀與一組單詞序列約束的類型之間的映射,確定所述單詞序列約束的類型;基于所述手勢的位置,確定所述單詞序列約束的值;以及使用所述單詞序列約束來識別所述語音。所述方法的步驟通過處理器來執(zhí)行。
另一實施方式公開了一種用于識別包括單詞序列的語音的系統(tǒng)。該系統(tǒng)包括:顯示設(shè)備,該顯示設(shè)備用于顯示所述語音的一組解釋,并且響應(yīng)于所述顯示,接收相對于所述顯示設(shè)備的手勢;以及至少一個處理器,該至少一個處理器用于基于所述手勢的形狀和相對于來自所述顯示設(shè)備上的所述一組解釋的元素的位置,所述手勢的位置,確定單詞序列約束的類型和值,并且用于使用所述單詞序列約束來識別所述語音。
附圖說明
[圖1A]
圖1A是根據(jù)本發(fā)明一個實施方式的用于語音識別的系統(tǒng)的組件的示意圖。
[圖1B]
圖1B是包括根據(jù)本發(fā)明一些實施方式的系統(tǒng)的車輛的儀表盤的局部正視圖。
[圖2A]
圖2A是例示根據(jù)本發(fā)明一個實施方式的語音識別模塊的功能的框圖。
[圖2B]
圖2B是圖2A的方法的步驟的示例。
[圖3A]
圖3A是按照根據(jù)本發(fā)明不同實施方式的在語音識別中糾錯的方法所執(zhí)行的步驟的流程圖。
[圖3B]
圖3B是按照根據(jù)本發(fā)明不同實施方式的在語音識別中糾錯的方法所執(zhí)行的步驟的流程圖。
[圖3C]
圖3C是按照根據(jù)本發(fā)明不同實施方式的在語音識別中糾錯的方法所執(zhí)行的步驟的流程圖。
[圖3D]
圖3D是按照根據(jù)本發(fā)明不同實施方式的在語音識別中糾錯的方法所執(zhí)行的步驟的流程圖。
[圖4]
圖4是根據(jù)本發(fā)明一個實施方式的具有強調(diào)的單詞的單詞序列的示意圖。
[圖5]
圖5是根據(jù)本發(fā)明一個實施方式的具有兩個強調(diào)的單詞的單詞序列的示意圖。
[圖6]
圖6是根據(jù)本發(fā)明一個實施方式的單詞序列和分類的一組單詞候選的示意圖。
[圖7A]
圖7A是本發(fā)明的示例性實施方式的示意圖。
[圖7B]
圖7B是本發(fā)明的示例性實施方式的示意圖。
[圖7C]
圖7C是本發(fā)明的示例性實施方式的示意圖。
[圖8]
圖8是根據(jù)本發(fā)明的一個實施方式的用于識別包括單詞序列的語音的方法的框圖。
[圖9A]
圖9A是由輸入設(shè)備的空間中的坐標位置的序列表示的手勢的示例性形狀的圖。
[圖9B]
圖9B是由在顯示設(shè)備的坐標空間中的手勢的位置表示的、該手勢相對于顯示設(shè)備的位置的圖。
[圖9C]
圖9C是根據(jù)本發(fā)明的一些實施方式的用于顯示和指定單詞序列約束的人機接口的示例。
[圖9D]
圖9D是根據(jù)本發(fā)明的一些實施方式的用于顯示和指定單詞序列約束的人機接口的示例。
[圖10]
圖10是根據(jù)本發(fā)明的一些實施方式的一組手勢的形狀和一組單詞序列約束的類型之間的映射的示例。
具體實施方式
圖1A示出了根據(jù)本發(fā)明一些實施方式的能夠?qū)崿F(xiàn)用于識別語音同時使發(fā)出語音的用戶的認知負擔(dān)減到最小的方法的系統(tǒng)1的示例。
系統(tǒng)1包括控制整個系統(tǒng)的操作的中央處理單元(CPU)100。系統(tǒng)1與存儲器101交互,存儲器101包括與該系統(tǒng)的操作系統(tǒng)(OS)1010相關(guān)的軟件、可由CPU 100執(zhí)行以向該系統(tǒng)的用戶提供特定功能的應(yīng)用程序1011(諸如聽寫和糾錯)以及與語音識別相關(guān)的軟件1012。系統(tǒng)1還包括用于接收語音的音頻接口(I/F)102,語音可以通過麥克風(fēng)102記錄或者從外部輸入部104接收,如從外部系統(tǒng)獲取的語音。
系統(tǒng)1還可以包括一個或多個控制器,諸如用于控制顯示器106的操作的顯示控制器105,顯示器106例如可以是液晶顯示器(LCD)或其他類型的顯示器。顯示器106用作系統(tǒng)1的光學(xué)用戶接口,并且例如允許向系統(tǒng)1的用戶呈現(xiàn)單詞序列。系統(tǒng)1還可以連接至用于控制音頻輸出系統(tǒng)112(例如,一個或更多個揚聲器)的操作的音頻輸出控制器111。系統(tǒng)1還可以連接至一個或更多個輸入接口,諸如用于接收來自操縱桿108的輸入的操縱桿控制器107和用于接收來自小鍵盤110的輸入的小鍵盤控制器109。容易理解的是,操縱桿和/或小鍵盤的使用僅僅是示例性的。同樣,可以使用軌跡球,或箭頭鍵來實現(xiàn)所需功能。另外,顯示器106可以是用作用于接收來自用戶的輸入的接口的觸摸屏顯示器。而且,由于執(zhí)行語音識別的能力,系統(tǒng)1可以完全省去任何非語音相關(guān)的接口。音頻I/F 102、操縱桿控制器107、小鍵盤控制器109以及顯示控制器105由CPU根據(jù)OS 1010和/或CPU 100當(dāng)前執(zhí)行的應(yīng)用程序1011來控制。
如圖1B所示,系統(tǒng)1可以被嵌入車輛199的儀表盤150中。可以在方向盤130上設(shè)置用于控制系統(tǒng)1的操作的各種控制部131、133。另選或另外地,控制部125可以設(shè)置在控制模塊120上。系統(tǒng)1被設(shè)置成改進用戶語音的解釋,以減少用戶交互的次數(shù),使得用戶可以專心于操作車輛。
圖2A示意性地示出了根據(jù)本發(fā)明一些實施方式的具有改進的糾錯能力的語音識別系統(tǒng)200的功能。語音識別單元200包括語音識別模塊210,語音識別模塊210可以通過系統(tǒng)1的CPU 100執(zhí)行存儲在存儲器101中的語音識別軟件1012來實現(xiàn)。
語音識別模塊210接收作為單詞序列的口頭表示的語音230(例如,完整句子)。在不同實施方式中,語音包括音頻信號、語音特征或基于幀的聲學(xué)分數(shù)中的一個或組合。單詞序列典型地包括多個單詞,例如,三個或更多個單詞。
語音識別模塊被配置成執(zhí)行對語音230的語音識別,以確定一組解釋,在最佳情況下,該組解釋與該語音表示的單詞序列相似。該組中的每個解釋都包括單詞序列。語音識別模塊可以使用聲學(xué)模型201和語言模型202。
聲學(xué)模型201例如可以存儲在系統(tǒng)1的存儲器101中,而且在一個實施方式中,考慮到單詞序列假設(shè)或表示單詞的語音學(xué)特性的單元的其他序列,描述了聲學(xué)特征序列的條件概率。聲學(xué)模型可以包括音素或其他聲音單元。在一些實施方式中,聲學(xué)模型可以包括音素序列模型,子語音狀態(tài)序列的模型以及考慮到每個子語音狀態(tài)的聲學(xué)特征的概率的高斯混和模型。在其他實施方式中,聲學(xué)模型可以包括從聲學(xué)特征至語音狀態(tài)序列概率的變換,例如使用神經(jīng)網(wǎng)絡(luò)。
語言模型202也可以存儲在系統(tǒng)1的存儲器110中,并且可以包括關(guān)于包含至少一個單詞的單詞序列將在語言中出現(xiàn)的概率的統(tǒng)計。語言模型202例如可以是與單個單詞的在語言中使用的可能性相關(guān)的一元(uni-gram)語言模型,或者表示語言中的兩個單詞彼此跟隨的可能性的二元(bi-gram)語言模型。而且,可以使用考慮較大數(shù)量的后續(xù)單詞的語言模型,例如,三元(tri-gram)語言模型等。
在一些實施方式中,語音識別模塊210通過將語言分段成被假定與單個單詞相關(guān)的多個片段來執(zhí)行語音識別,并接著識別單個單詞,例如通過識別輸入的語音序列片段中的音素并且通過將音素與語言模型202的音素至文本映射進行比較。
語音識別模塊210通常針對每個輸入語言序列片段來識別一組可能的解釋,其中,每個解釋都包括單詞序列。解釋還稱為識別結(jié)果。每個解釋都與識別置信度值相關(guān)聯(lián),例如,在表示單詞序列時表示解釋的正確性的分數(shù)。該分數(shù)表示識別結(jié)果正確的語音識別的置信度。針對每個輸入語音片段,語音識別模塊可以確定具有最大識別置信度值的識別結(jié)果,例如,單詞,從而產(chǎn)生被視為表示輸入語音序列的單詞序列。
因此,對語音的語音識別還通過考慮語言模型201來細化。接著,除了識別置信度值以外,在使用語言模型和識別詞匯來生成語音的一組解釋時,將一個或更多個單詞的組在語言中出現(xiàn)的概率考慮在內(nèi)。例如,在二元語言模型的情況下,由于二元語言模型,即使可能的識別結(jié)果對于聲學(xué)空間而言具有高的置信度,例如與“three”相對比的“free”,但語音識別模塊210也仍然可以使用例如預(yù)期的單詞序列“at three o'clock”中的“at”和“o'clock”的上下文,來判定“three”正確。
圖2B示出了語音240的一組解釋的示例。在一些實施方式中,該組解釋被確定或表示為語音的n-最佳列表250或語音的單詞點陣260。另外,各種實施方式針對組251中的每個解釋確定分數(shù),例如,分數(shù)255,其代表受該單詞序列約束的解釋的正確性。所述分數(shù)可以通過許多方式來確定。
例如,該組解釋的另選表示是已知為點陣260的圖表,其中,節(jié)點(例如,節(jié)點265和267)表示以語音的特定區(qū)域標識的每個假設(shè)單詞,并且隨特定上下文出現(xiàn)。在該表示中,在該n-最佳列表中的許多假設(shè)中在同一位置的出現(xiàn)詞和單詞序列可以被縮減成共用該點陣中的公共子路徑。除了單詞以外,點陣的弧線可以包括聲學(xué)和語言模型分數(shù),使得單詞序列的總分數(shù)可以從沿著穿過該點陣的路徑的分數(shù)得出。例如,弧線261、262及263可以表示由跟隨在單詞“I”后面的單詞“don’t”、“want”及“went”的相應(yīng)概率所限定的分數(shù)。
在一些實施方式中,該語音識別系統(tǒng)被算式化為概率模型,并且分數(shù)基于解釋的概率,或在給出所觀察聲學(xué)特征序列的情況下的單詞序列的概率。解釋可以包括單詞序列,而且還可以標識與所假設(shè)詞相對應(yīng)的講話的大概時間區(qū)。在一些實施方式中,在給出聲學(xué)數(shù)據(jù)的情況下,分數(shù)S(W|X)基于單詞序列的概率。例如:
S(W|X)∝pθ(W|X)
其中,∝表示比例性(即,S(W|X)=pθ(W|X)c,其中c是正常數(shù)),θ是該模型的參數(shù),pθ表示使用參數(shù)θ的概率測度,是解釋中的假設(shè)的單詞序列w1,w2,...,wN,而wi是假設(shè)在位置i單詞(對于具有N個單詞的假設(shè)而言)。聲學(xué)特征被表示為其中,xj是講話的聲學(xué)特征的第j個矢量(對于具有M個聲學(xué)特征矢量的講話而言)。pθ(W|X)已知為在X的情況下的W的后驗概率。在另一實施方式中,該分數(shù)可以被限定為以下量的對數(shù):
S(W|X)=log pθ(W|X)+k,
其中,k是任意常數(shù)。
在一個實施方式中,分數(shù)被分成不同的子分數(shù):
其中,是來自具有參數(shù)θLM的單詞語言模型的分數(shù),并且是來自具有參數(shù)θAM的聲學(xué)模型的分數(shù)。此后,除非必要,為簡化起見,省略參數(shù)θ。
另一實施方式將單詞序列與針對各個假設(shè)單詞的講話的假設(shè)時間區(qū)的序列相關(guān)聯(lián),使得是針對單詞wi而假設(shè)的位置。在該實施方式中,分數(shù)可以基于具有對準項(alignment term)p(R|W)的擴展模型,使得p(W)p(X|W)=maxR p(W)p(R|W)p(X|W,R).。在該實施方式中,通過在該組所有可能的對準上使分數(shù)最大化來獲?。?/p>
并且對應(yīng)于與假設(shè)的單詞wi相關(guān)聯(lián)的區(qū)域的特征的聲學(xué)分數(shù)為
語言模型分數(shù)可以按許多方式來計算,包括使用離散概率模型、神經(jīng)網(wǎng)絡(luò)、有區(qū)別訓(xùn)練的條件隨機場等。例如,一個實施方式將概率模型算式化為
概率以單詞較早出現(xiàn)在序列中(稱為為上下文)為條件。通常,一般的模型太復(fù)雜,并且使用稱為為n元(n-gram)模型的較簡單模型,其中,上下文被限制為在前的n-1個項:
在一些實施方式中,將各種其他參數(shù)化和估計過程與n元模型一起使用,以改進它們從訓(xùn)練數(shù)據(jù)歸納至測試數(shù)據(jù)的能力。
在語音識別模型中的推斷可以被表征為假設(shè)W上的搜索,以尋找最佳評分假設(shè),
另外,通常,確定具有最大分數(shù)的n-最佳假設(shè)。對每種可能的W的評估會在計算上是大量的,并且一些實施方式使用遞歸動態(tài)編程算法(例如,Viterbi算法)與搜索過程(例如,定向搜索(beam search))的啟發(fā)式約簡(heuristic reduction)相結(jié)合來確定n-最佳假設(shè)。還存在許多另選搜索算法和試探法(heuristics),并且被各種實施方式所采用。
在一些實施方式中,針對假設(shè)的搜索的輸出可以是n-最佳列表250,其中包括單詞序列的n個解釋,連同解釋的分數(shù)255,例如,聲學(xué)模型的分數(shù)和語言模型的分數(shù)中的一個或組合。一些實施方式提供單詞與聲學(xué)信號的時間性區(qū)段的最佳評分對準作為輸出。
在一些實施方式中,關(guān)于假設(shè)的搜索的輸出可以是點陣260。與使用n-最佳列表相比,在點陣中確定分數(shù)通常更有效。然而,出于清楚的目的,一些實施方式使用n-最佳表示來描述。
盡管語言模型和聲學(xué)模型對搜索予以約束,但產(chǎn)生的識別仍可以具有歧義和錯誤。例如,具有最高分數(shù)的解釋251仍可以不準確。然而,請求用戶糾正該特定解釋251忽視了可能包括正確解釋的其他解釋。而且,請求糾正特定解釋可以需要與用戶的多次交互,并且可以使用戶從其他任務(wù)分心。
本發(fā)明的一些實施方式基于這樣的總體認知,即,對包括單詞序列的大詞匯量的連續(xù)語音的識別結(jié)果的糾正應(yīng)基于針對整個語音的解釋的約束。與僅修改單個單詞的糾正相比,這種約束可以提高正確解釋整個語音的概率。
因此,語音識別單元200還包括糾錯模塊220,糾錯模塊220通過考慮語言模型202和單詞序列約束270來重新解釋識別結(jié)果。具體來說,在一些實施方式中,糾錯模塊220基于每個解釋與約束270的一致性來更新該解釋的分數(shù)。在更新之后,解釋215,例如,具有最高分數(shù)的解釋,可以被確定為所識別的語音并輸出。
一些實施方式基于這樣的認知,即,用于解釋整個語音的約束可以通過例如由說出該語音的用戶所提供的語音的單詞序列約束270來補充。例如,單詞序列約束可以包括語音中的單詞的數(shù)量和次序、語音中在特定時間說出的特定單詞、語音中缺少該特定單詞、語音中的兩個特定單詞的連接或分離。單詞序列約束還可以指定語音輸入的主題,例如,語音的主題是污染。
這種認知允許將用戶糾正語音的工作減到最小,因為單詞序列約束可以得到對語音的整個解釋的糾正,而對單詞的糾正僅可得到糾正該單詞。值得注意的是,約束270可以用于更新整組解釋的分數(shù)。
由此,在一些實施方式中,與將約束用于后續(xù)對語音的一部分的糾正相比,單詞序列約束與語音的解釋同時使用。整個語音的分數(shù)最佳的解釋在單詞序列約束下確定。具有最高分數(shù)的解釋可以被確定為識別的語音。實際上,這種方法可以使確定語音序列的正確解釋所需的多個交互減到最少。
圖3A示出了根據(jù)本發(fā)明一個實施方式的用于識別用戶的語音的方法的流程圖。方法300采用上述一些原理和認知并且可以使用處理器301來實現(xiàn)。該方法接收305表示單詞序列的語音,并且使用聲學(xué)模型和語言模型生成310該語音的一組解釋。該組解釋包括一個或更多個解釋,其中,每個解釋都是可能已說出的可能的單詞序列。各種實施方式接收或生成解釋,作為解釋的n-最佳列表、詞點陣或可能的單詞序列的組的其他表示。
針對每個解釋,該方法確定315該解釋的正確性分數(shù)以生成一組分數(shù)。例如,分數(shù)可以基于根據(jù)聲學(xué)模型和語言模型所給出的概率和/或下述正確性函數(shù)來確定。在一些實施方式中,該方法確定320具有最大分數(shù)的解釋,并且向用戶傳送325解釋的子集。在一個實施方式中,僅將具有最大分數(shù)的解釋傳送給用戶。在另選實施方式中,傳送多個解釋。
各種實施方式使用用戶接口組件,以在需要時允許用戶提供針對該組解釋的約束。該方法基于通過用戶接口組件給出的來自用戶的輸入來判斷330是否期望使用單詞序列約束的糾正。用戶可以使用系統(tǒng)1的任何接口或其組合來提供約束。例如,用戶可以使用小鍵盤110、操縱桿108、顯示器106的觸摸屏、語音接口103及其組合。
當(dāng)希望糾正時,該方法接收335針對單詞序列的約束。各種實施方式通過諸如選擇列表、按鈕等的用戶接口組件接收或確定基于用戶接口動作的單詞序列約束。在該系統(tǒng)的一些實施方式中,單詞序列約束被表示為各種事件的出現(xiàn)的概率。
在一些實施方式中,單詞序列約束包括語音的元數(shù)據(jù),諸如語音中的單詞的數(shù)量或語音中不存在特定單詞。與有關(guān)單詞序列的上下文的信息相比,語音的元數(shù)據(jù)是有關(guān)單詞序列的信息。這種單詞序列約束可以在任何時間收集。
該方法根據(jù)每個解釋與約束的一致性來更新340語音的該組解釋的分數(shù)。在更新分數(shù)之后,確定320最高分數(shù),并且該方法迭代地繼續(xù),直到用戶不再希望進行糾正為止。該組解釋可以從該方法輸出(例如,存儲到存儲器中)以供以后使用。
圖3B示出了用于在約束下更新解釋的分數(shù)的方法的流程圖。單詞序列約束從用戶接收350。在一些實施方式中,該單詞序列約束被修改以確定360適于解釋的約束。例如,一些實施方式基于從用戶接收到的單詞序列約束來確定約束。
例如,在一些實施方式中,響應(yīng)于傳送解釋的子集,從用戶接收單詞序列約束。實施方式基于單詞序列約束來確定361約束的類型,并且基于該類型確定360約束。例如,約束的類型可以是以下中的一種或其組合:語言類型:有關(guān)語言概率的約束;聲學(xué)類型:給定了假設(shè)的單詞的情況下聲學(xué)特征的概率分布的約束;以及上下文類型:有關(guān)解釋內(nèi)的單詞序列的約束。
圖3C示出了根據(jù)一些實施方式的確定約束的示例,其中,所確定約束的類型基于要更新的分數(shù)。那些實施方式更新365語言和/或聲學(xué)模型的一個或組合。一些實施方式基于從用戶接收到的單詞序列約束來確定約束的類型。例如,在一些實施方式中,單詞序列約束包括語音的元數(shù)據(jù),諸如語音中的詞的數(shù)量、語音的主題、在語音的特定時段內(nèi)說出的詞的數(shù)量。那些約束通常是語言或聲學(xué)類型約束。
在另一實施方式中,單詞序列約束更加特定于語音的上下文。例如,單詞序列約束可以包括有關(guān)語音中特定單詞的存在與否的信息。那些約束通常是上下文類型約束。
例如,如果單詞序列約束是序列中的單詞的數(shù)量,則在一個實施方式中,對分數(shù)的更新通過重新計算語言模型分數(shù)來進行,例如,使用p(W|length(W)=6)。在該實施方式的一個變型例中,聲學(xué)模型分數(shù)和與每個單詞相對應(yīng)的估計區(qū)R保持不變。
在一個實施方式中,約束的類型是語言類型,并且對分數(shù)的更新通過使用修改的語言模型重新計算語言模型分數(shù)來進行。例如,不是原始語言模型,而是使用來對點陣進行重新評分。這里,是原始語言模型參數(shù),而是通過以序列中存在六個詞的約束為條件而獲取的參數(shù)。由此,分數(shù)可以通過評估
而更新,其中,S′(W|X)是修改后的分數(shù)。
一個實施方式按類似方式施加了主題為“污染”的約束。該實施方式使用具有適于該主題“污染”的單詞序列的參數(shù)θ′LM的受約束的語言模型由此,該實施方式可以使用受約束的語言模型來更新上述分數(shù)函數(shù)S′(W|X)。
在給定了每個解釋的更新后的分數(shù)的情況下,重新評分相當(dāng)于針對n-最佳列表的每個條目,使用修改后的分數(shù)函數(shù)來評估分數(shù)。另選地,基于點陣或n-最佳列表,可能單詞序列的圖表可以使用修改后的分數(shù)函數(shù),使用諸如前后向算法、Viterbi解碼或堆棧解碼的各種算法來有效地搜索。在評估分數(shù)的處理中,生成修改后的n-最佳列表或點陣。
如果約束僅針對單詞序列,則聲學(xué)模型分數(shù)(如上述示例中的)和與每個詞相對應(yīng)的估計區(qū)R可以保持不變。然而,在其他實施方式中,約束的類型是聲學(xué)類型并且聲學(xué)分數(shù)p(X|W)根據(jù)約束而改變。例如,在計算單詞與聲學(xué)特征之間的對準的情況下,重新評分可以還取決于該對準。一個實施方式限定模型并且基于針對R的約束來更新分數(shù):
其中,表示加強希望的約束的被允許的對準的子集。例如,一個這樣的約束可以是在特定時間區(qū)內(nèi)僅存在一個單詞。
圖3D示出了用于確定用于更新分數(shù)的絕對或相對約束的方法的流程圖。在一些實施方式中,如果約束是絕對的,則與該約束不匹配的單詞序列的解釋用最小可能分數(shù)進行重新評分。相反,如果約束是相對的,例如概率性的,則與該約束不匹配的解釋用比與該約束匹配的解釋小的權(quán)重來重新評分,但不匹配的解釋可以仍具有比與相對約束一致的解釋的分數(shù)高的最終分數(shù)。
例如,在一些實施方式中,相對約束具有表示不同約束滿足程度的連續(xù)值。這種約束可以使用表示約束的倍增因子來公式化。在一個實施方式中,約束包括約束因子369,其輸出是指示針對聲學(xué)序列、單詞序列以及對準中的一個或更多個的約束滿足程度的數(shù)字。使用該約束因子,一個實施方式將一般的重新評分函數(shù)算式化:
。
根據(jù)約束因子,可以實現(xiàn)許多不同種類的約束,包括使用絕對約束和相對約束的情況。例如,在一些實施方式中,約束因子可以使用指標函數(shù)363和權(quán)重參數(shù)367來確定,該指標函數(shù)363將用戶指定的單詞序列約束與適于更新解釋的分數(shù)的約束相映射,并且權(quán)重參數(shù)367指示相對約束的程度(直至使該相對約束變絕對)。
例如,如果約束因子
f(X,W,R)=f(W)=αIlength(W)=6+β,
其中,符號f(W)表示該約束因子不取決于X和R,則在這種情況下,α和β是表示約束滿足程度的非負權(quán)重參數(shù),而且例如,
是針對序列中存在六個單詞的約束的指標函數(shù)。如果權(quán)重參數(shù)α相對于β較大,則約束滿足程度較強,否則約束滿足程度較弱。絕對約束可以通過將β設(shè)置成零以使函數(shù)在不希望的所有情況下具有零值來實現(xiàn)。
在另一實施方式中,針對對準的約束可以使用來實現(xiàn),其中,是針對R處于約束組中的條件的指標函數(shù)。
在使用具有參數(shù)θ′LM的受約束的語言模型中具體實施的約束的情況下,約束因子為
其中,p(W)是在初始識別中使用的語言模型。這對分數(shù)而言具有和用新模型代替舊模型p(W)相同的效果。
注意,在重新評分之后,f的絕對標度不影響不同的單詞假設(shè)的相對評分,使得與另一約束因子成比例的任何其他約束因子f′(X,W,R)∝f(X,W,R),對得到的n-最佳列表或點陣生成相同的效果。
另外或另選的是,針對解釋的多個約束可以基于從用戶接收到的單詞序列約束來確定。例如,如果用戶指示單詞序列中的單詞正確,則一些實施方式確定該單詞左側(cè)或右側(cè)的單詞也正確(根據(jù)語言模型)。在那些實施方式中,生成針對相鄰單詞的附加約束。
例如,在一個實施方式中,評分函數(shù)測試特定單詞的存在。例如,語音的方向可以基于語言模型來確定,并且評分函數(shù)使用針對在傳送給用戶的解釋中的特定單詞之前和之后(根據(jù)該語音的方向)的單詞的存在的測試來更新。在這個實施方式中,評分函數(shù)不僅測試特定單詞,而且根據(jù)語音的方向測試與所述特定單詞相鄰的其他單詞。
在確定針對解釋的約束之后,基于特定解釋與約束的一致性來更新370一些解釋的分數(shù)。在一些實施方式中,更新每個解釋,使得對于每個解釋,分數(shù)可以增大或減小。這意味著在更新370之后,每個解釋的分數(shù)可以增大或減小。實施方式的一些變型例允許一些解釋的分數(shù)保持不變。
在更新分數(shù)后,確定380具有最大分數(shù)的解釋,并且形成390對用戶的輸出,接著傳送給用戶。一些實施方式使用可視裝置傳送解釋,諸如在顯示器上示出的單詞和字符。一些實施方式使用音頻反饋傳送解釋,諸如使用文本至語音(text-to-speech)或錄制音頻波形從揚聲器生成聲音。各種實施方式可傳送具有最佳分數(shù)的一個或多個解釋。
圖4、圖5及圖6示出了用于基于傳送給語音的用戶的解釋來選擇單詞序列約束的接口的示例。解釋可以是該語音的初始解釋,或者是在更新分數(shù)之后選擇的隨后解釋。
單詞序列4是包括五個單詞的句子,其中,第三個單詞(Word3)配有虛線框40。在另一實施方式中,Word3被確定為單詞序列的最有效約束。
而且,在圖4的示例中,虛線框40不僅表示強調(diào),而且表示選擇器(selector),所述選擇器可被用戶移動以選擇被錯誤識別并因此需要糾正的單詞。這種移動例如可以借助于操縱桿或通過箭頭鍵逐個單詞地執(zhí)行,并且接著可以通過按壓專用按鈕或鍵(其例如可以集成到操縱桿或觸摸屏中或者通過操縱桿或觸摸屏實現(xiàn))來執(zhí)行選擇。
圖5示出了另選接口,其中,用戶可以選擇一個或多個單詞,例如,Word3和Word5。在選擇單詞或單詞序列之后,用戶可以執(zhí)行下列動作之一:將所選擇的單詞或序列標記為正確;將所選擇的單詞或序列中的一個或更多個標記為不正確;跳過所選擇的單詞或序列;請求針對所選擇的單詞或序列的另外選擇;或者可能改變某些其他約束,如文本的主題或風(fēng)格。
在一個實施方式中,在選擇單詞或單詞序列之后,與所選擇的單詞相關(guān)聯(lián)的時間或時間窗可以被用于檢索可能在該時間或時間窗已說出一組單詞,并且將這些中的一些或全部顯示給用戶,優(yōu)選地按分數(shù)從高到低的次序排序。
圖6例證了針對單詞序列6中的第三個單詞(Word3)的向下滾動列表60。滾動列表60包括基于與word3相對應(yīng)的時間窗選擇的四個單詞候選。選擇器61自動設(shè)置在向下滾動列表60中的第一條目上,選擇器61可以垂直移動到從向下滾動列表60選擇的條目。
示例
圖7A示出了根據(jù)本發(fā)明一個實施方式的用于解釋經(jīng)受單詞序列約束的語音710的示例性方法的示意圖。在這個示例中,單詞序列約束包括針對單詞的數(shù)量(即,語音具有六個單詞)的約束714。值得注意的是,約束714用于更新整組解釋711的分數(shù)712,以生成解釋的具有更新的分數(shù)716的更新的組715。如可以從圖7A的示例看出,整組解釋的分數(shù)716被更新。
針對該示例性實施方式,一般的重新評分函數(shù)
可以如上所述地使用,具有向具有六個單詞序列賦予較高權(quán)重的特定約束因子f(X,W,R),諸如:
f(X,W,R)=f(W)=αIlength(W)=6+β,
和
還可以使用其他約束因子和/或指標函數(shù)。
圖7B示出了根據(jù)本發(fā)明一個實施方式的用于解釋經(jīng)受單詞序列約束的語音720的示例性方法的示意圖。在這個示例中,單詞序列約束包括針對該語音的主題(即,該語音與污染有關(guān))的約束724。約束724用于更新整組解釋721的分數(shù)722,以生成解釋的具有更新后的分數(shù)716的更新后的組725。
該示例性實施方式使用具有適于主題為“污染”的單詞序列的參數(shù)θ′LM的受約束的語言模型由此,該實施方式可以使用受約束的語言模型來更新上述分數(shù)函數(shù)S′(W|X)。
圖7C示出了根據(jù)本發(fā)明一個實施方式的用于解釋經(jīng)受單詞序列約束的語音730的示例性方法的示意圖。在這個示例中,單詞序列約束包括針對語音中的特定單詞“Carts”的存在的約束734。約束734被用于更新整組解釋731的分數(shù)732,以生成解釋的具有更新的分數(shù)736的更新的組735。
針對該示例性實施方式,一般重新評分函數(shù)
可以如上所述地使用,具有向包括單詞“Carts”的序列賦予較高權(quán)重的特定函數(shù)f(X,W,R),諸如:
f(X,W,R)=f(W)=αIcarts∈W+β,
和
還可以使用其他約束因子和/或指標函數(shù)。
確定低認知語音識別的單詞序列約束
一些實施方式還基于以下認知,即,為了使系統(tǒng)對用戶施加低認知負擔(dān),單詞序列約束的輸入方法應(yīng)當(dāng)使得用戶選擇約束所需的動作最小化。單詞序列約束不僅可以具有不同的值,也可以具有不同的類型。例如,單詞序列約束的類型可以包括:單詞的選擇或拒絕、單詞序列的選擇、時隙的選擇、序列中正確單詞的蹤跡、單詞的替換或單詞的順序等。因此,期望提供一種適于選擇約束的類型和值兩者的同時使對用戶的主要任務(wù)(例如駕駛)的妨礙最小化的接口。
本發(fā)明的一些實施方式基于以下認知,即,可以分析用戶的單個手勢以確定單詞序列約束的類型和值兩者。具體地,手勢的形狀可以用于確定單詞序列約束的類型,并且手勢相對于接口的路徑(例如,該路徑在顯示設(shè)備上的位置)可以用于確定單詞序列約束的值。
圖8示出了根據(jù)本發(fā)明的一個實施方式的用于識別包括單詞序列的語音的方法的框圖。該實施方式確定810手勢的形狀817和該手勢相對于顯示所述語音的一組解釋的顯示設(shè)備的位置815。
圖9A示出了由用戶在輸入設(shè)備上做出的手勢的形狀901的示例。例如,輸入設(shè)備可以將手勢的路徑表示為在輸入設(shè)備的坐標空間內(nèi)的位置坐標904的序列。
在觸摸設(shè)備中,坐標序列在觸摸表面的2D平面內(nèi)。在3D手繪手勢設(shè)備中,坐標序列在由設(shè)備測量的運動的3D空間內(nèi)。手勢的形狀由這些坐標相對于彼此的位置形成,并且可以包括受諸如縮放和/或旋轉(zhuǎn)的變換影響最小的幾何圖案。在一些實施方式中,位置坐標的序列是有序的,并且手勢的形狀包括手勢的動態(tài)的形成,諸如抓握手勢或放大手勢或縮小手勢。
圖9B示出了在顯示設(shè)備902上具有形狀901的手勢的位置903。手勢的位置可以是絕對的位置或相對的位置。例如,絕對位置可以被確定為手勢的幾何中心的位置,或者環(huán)繞手勢的形狀的圓的位置。在另選實施方式中,手勢的位置可以被映射到UI元素的顯示的坐標空間中,并且可以相對于在輸入設(shè)備的UI上顯示的元素來確定。例如,可以相對于在設(shè)備902上顯示的一組解釋來確定位置903。在圖9B的示例中,手勢的位置被確定為最接近元素905。
在一些實施方式中,手勢的位置包括手勢的形狀的幾何上重要的點的一組位置,諸如與該手勢的方向的改變對應(yīng)的該形狀角。另外地或另選地,重要的點可以包括最接近特定UI元素的點,即,最接近語音的解釋的單詞的手勢中的點。
接下來,該實施方式基于手勢的形狀和在一組手勢的形狀和一組單詞序列約束的類型之間的映射830來確定850單詞序列約束860的類型。在一些實施方式中,映射830是預(yù)定的并且存儲在存儲器中,諸如存儲器101。另外地或另選地,映射830可以在語音識別系統(tǒng)的操作期間被確定或被更新。
該實施方式還基于手勢的位置815和手勢的形狀817來確定840單詞序列約束860的值845,并使用該單詞序列約束860來識別820語音。例如,水平手勢可以被映射到選擇單詞序列的單詞序列約束的類型。該手勢在輸入設(shè)備上的路徑的位置被映射到用戶界面的坐標空間中的位置,其可以用于確定在語音的解釋中存在的單詞序列。類似地,垂直手勢可以被映射到選擇單詞的時隙的類型,并且該手勢在輸入設(shè)備上的路徑的位置可以被映射到用戶界面空間中的手勢的相應(yīng)位置,其可以用于確定特定單詞的發(fā)音的時間和/或順序。
以類似的方式,可以將不同形狀的手勢(像劃動,環(huán)繞,拖動選擇和單詞路徑的跡線)映射到不同類型的約束,并且在UI元素設(shè)備的空間中的手勢的位置可以用于確定隨后對語音的可能解釋的重新評分的約束的值。
手勢的形狀和位置兩者都可以表示為單個最佳選擇,或者表示為與分數(shù)相關(guān)聯(lián)的形狀和位置的可能性的概率列表。另外,在一些實施方式中,手勢的形狀和位置可以基于它們的聯(lián)合對應(yīng)的概率來更新816。例如,如果手勢的形狀可以被解釋為移除單詞或選擇單詞序列,但是手勢的位置僅涉及單個單詞,則與移除單詞相對應(yīng)的手勢的形狀的概率可以增大。
圖9C示出了根據(jù)本發(fā)明的一個實施方式的用于顯示設(shè)備902以顯示和指定單詞序列約束的示例性人機接口(HMI)。在該實施方式中,在多維可視化中示出了具有根據(jù)語音輸入的相對高的當(dāng)前正確性分數(shù)和當(dāng)前的單詞序列約束的單詞。對于所示出的每個候選單詞,存在特定的可視界面元素910。界面元素910可以表示單詞、字符、音素或單詞序列。在該示例中,水平維度表示時間,并且垂直維度表示每個元素的分數(shù),其中,元素具有朝向可視化的頂部的較高分數(shù)。
彼此之上/之下的元素是在語音發(fā)音的相同部分期間可能已經(jīng)說過的東西的替代可能性,并且可以跨可視化的頂部讀取發(fā)音的最佳的(最可能的)解釋。圖8示出了可以進行以便指定單詞序列約束的幾種選擇。可以向用戶顯示單詞序列中的單個詞選擇930,例如通過使用顏色、背景陰影或其他視覺信息來突出顯示界面元素。單詞序列選擇940選擇單詞序列。時間片(time-slice)選擇920選擇該發(fā)音的有時間限制的部分,并且指在該時間部分期間已經(jīng)說過的所有可能的單詞。
可以使用不同種類的顯示設(shè)備902來實現(xiàn)HMI,諸如具有手勢輸入設(shè)備的頭戴式或可穿戴的顯示器,或具有直接觸摸的顯示屏幕(諸如觸摸屏)。視覺輸出和觸摸、鼠標或手勢輸入的其他組合是可能的。在任何情況下,實施方式將特定手勢形狀映射到特定種類的約束,或者選擇單詞830、單詞序列840和/或時間片820的動作。在選擇特定元素之后,進一步的接口動作對所選擇的一個或多個元素施加單詞序列約束。
在一些實施方式中,一些手勢可以被分割成可以針對形狀和位置信息單獨分析的單獨的手勢段。
圖9D示出了允許用戶偏好發(fā)音的一個特定解釋并且為該解釋提供單詞序列約束的特定類型的動作的示例。顯示設(shè)備902向用戶提供跟蹤表示正確單詞的界面元素的曲線的能力。圖9D示出了兩個不同跡線的示例。跡線950表示解釋“I want to get some rice and beans”,跡線960表示解釋“I went to get the same jeans”。
手勢和觸摸跡線都是模糊的和噪聲的,因此觸摸/手勢跡線可以被轉(zhuǎn)換為概率p(Z|V,W),其中,Z是手勢的路徑,V是視覺元素在顯示設(shè)備上的布局,以及W是解釋中的單詞序列。該公式將跡線與語言模型和聲學(xué)分數(shù)組合以更新正確性分數(shù),使得與跡線和語言模型一致的解釋的分數(shù)增大。
因此,一些實施方式確定指示與單詞序列約束的一致性的約束因子。約束因子可以用于基于該約束因子來確定評分函數(shù),并使用該評分函數(shù)來更新該組分數(shù)。
例如,給定跡線960,在包括單詞{nice,my,slice,…}的時間片處有最佳選擇的幾種可能性。跡線似乎最接近“slice”,但這將導(dǎo)致“I went to get the same slice jeans”,這是一個很差的語言模型匹配。在這種情況下,在組合跟蹤約束和語言模型約束之后的最高分數(shù)解釋可以是“I went to get the jeans”,以及“I went to get the nice jeans”。
圖10示出了在一組手勢的類型1020和一組單詞序列約束的類型1010之間的映射830的示例。一般來說,觸摸/手勢動作的位置提供關(guān)于要選擇什么或在哪施加約束的上下文。例如,在可視化V中的單詞上方做出“X”手勢可以映射到拒絕單詞(將其分數(shù)降低到非常低的值)。
在一些實施方式中,單詞序列約束的類型確定約束因子的類型。那些實施方式基于單詞序列約束的類型確定約束因子。例如,在一個實施方式中,映射830包括水平選擇的手勢,并且對應(yīng)的約束因子輸出指示與單詞序列的一致性的數(shù)字。在另一實施方式中,映射830包括正確單詞序列的跡線的手勢,并且對應(yīng)的約束因子輸出指示與跡線的一致性的數(shù)字。
例如,在一個實施方式中,f(X,W,R)=fZ,V(W),其中,fZ,V(W)是輸出指示與單詞序列跡線和可視化的一致性的約束因子。例如,fZ,V(W)可以與p(Z|V,W)成比例。
給定映射到約束的手勢G,則f(X,W,R)=fG,V(W),其中,fG,V(W)是輸出指示與單詞序列跡線和可視化的一致性的約束因子。例如,fG,V(W)可以與p(G|V,W)成比例。
在拒絕手勢的示例中,令wrej是用戶已拒絕的單詞。則,
另外地或另選的是,在一些實施方式中,映射包括與抓握手勢對應(yīng)的選擇約束,與水平手勢對應(yīng)的順序約束,與環(huán)繞手勢對應(yīng)的同義詞約束,與跡線路徑手勢對應(yīng)的跡線約束,與帽子手勢(hat gesture)對應(yīng)的交叉(intersection)約束,與跡線拖動手勢對應(yīng)的重排約束。
上述實施方式可以按許多方式中的任一種來實現(xiàn)。例如,這些實施方式可以使用硬件、軟件或其組合來實現(xiàn)。當(dāng)按軟件來實現(xiàn)時,軟件代碼可以在任何合適處理器或處理器集合上執(zhí)行,而不管設(shè)置在單一計算機中還是在多個計算機當(dāng)中分布。這種處理器可以被實現(xiàn)為集成電路,在集成電路組件中具有一個或更多個處理器。然而,處理器可以使用采用任何合適格式的電路來實現(xiàn)。
而且,應(yīng)當(dāng)清楚,計算機可以按許多形式中的任一種來具體實施,如機架式計算機、臺式計算機、膝上型計算機、微計算機或平板計算機。而且,計算機可以具有一個或更多個輸入和輸入系統(tǒng)。這些系統(tǒng)尤其可以被用于呈現(xiàn)用戶界面。這種計算機可以通過用任何合適形式的一個或更多個網(wǎng)絡(luò)來互連,包括作為局域網(wǎng)或廣域網(wǎng),如企業(yè)網(wǎng)或因特網(wǎng)。這種網(wǎng)絡(luò)可以基于任何合適技術(shù),并且可以根據(jù)任何合適協(xié)議來操作,并且可以包括無線網(wǎng)絡(luò)、有線網(wǎng)絡(luò)或光纖網(wǎng)絡(luò)。
而且,在此概述的各種方法或處理可以被編碼為可以在采用多種操作系統(tǒng)或平臺中的任一種的一個或更多個處理器上執(zhí)行的軟件。另外,這種軟件可以使用許多合適編程語言和/或編程或腳本工具中的任一種來編寫,而且還可以被編譯為在框架或虛擬機上執(zhí)行的可執(zhí)行機器語言代碼或中間代碼。
術(shù)語“程序”或“軟件”在此按一般意義來使用,以指可以被采用以編程計算機或其他處理器來實現(xiàn)如上討論的本發(fā)明的各個方面的任何類型的計算機代碼或計算機可執(zhí)行指令集。
計算機可執(zhí)行指令可以采用通過一個或更多個計算機或其他系統(tǒng)執(zhí)行的許多形式,如程序模塊。一般來說,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對象、組件以及數(shù)據(jù)結(jié)構(gòu)。通常,程序模塊的功能可以如在各種實施方式中所希望的組合或分布。
而且,本發(fā)明的實施方式可以被具體實施為已經(jīng)提供了示例的方法。作為該方法的一部分執(zhí)行的動作可以按任何合適方式來安排。因此,即使在例示性實施方式中被示出為順序動作,也可以構(gòu)造按與所例示相比不同的次序來執(zhí)行動作的實施方式,可以包括同時執(zhí)行一些動作。
在權(quán)利要求書中使用諸如“第一”、“第二”的普通術(shù)語來修改權(quán)利要求要素本身并不暗示一個權(quán)利要求部件相對于另一個要素的任何優(yōu)先級、優(yōu)先或次序,或者執(zhí)行方法的動作的時間次序。而是僅僅被用作用于區(qū)分具有特定名稱的一個權(quán)利要求要素與具有相同名稱(供順序項使用)的另一要素的標記,以區(qū)分這些權(quán)利要求要素。