使用手勢(shì)控制媒體回放的系統(tǒng)和方法

文檔序號(hào)：10617835閱讀：1031來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

使用手勢(shì)控制媒體回放的系統(tǒng)和方法
【專利摘要】通過輸入的手勢(shì)來控制回放設(shè)備對(duì)媒體的回放。每個(gè)用戶手勢(shì)首先能夠被分解成基礎(chǔ)手勢(shì)，基礎(chǔ)手勢(shì)指示特定的回放模式。手勢(shì)然后被分解成包含修飾符命令的第二部分，修飾符命令確定根據(jù)基礎(chǔ)命令所確定的回放模式的速度。然后使用所指定的回放模式、以由修飾符命令所確定的速度來播放媒體內(nèi)容。
【專利說明】
使用手勢(shì)控制媒體回放的系統(tǒng)和方法
[0001] 相關(guān)申請(qǐng)的引用
[0002] 本申請(qǐng)要求享有于2014年1月7日提交的序列號(hào)為61/924,647的美國(guó)臨時(shí)申請(qǐng)和于2014年3月31日提交的序列號(hào)為61/972,954的美國(guó)臨時(shí)申請(qǐng)的權(quán)益，通過引用將其全部內(nèi)容并入本文。
技術(shù)領(lǐng)域
[0003] 本公開一般涉及控制媒體的回放，具體涉及使用手勢(shì)來控制媒體的回放。
【背景技術(shù)】
[0004] 在諸如視頻或音頻這樣的媒體的控制中，用戶典型地使用遙控器或者按鈕來控制這樣的媒體的回放。例如，用戶能夠按下"播放"按鈕以使媒體由諸如計(jì)算機(jī)、接收器、MP3播放器、電話、平板等回放設(shè)備回放，以便以實(shí)時(shí)播放模式來播放媒體。當(dāng)用戶想要向前跳過媒體的一部分時(shí)，用戶能夠激活"快進(jìn)"按鈕，以使回放設(shè)備以比實(shí)時(shí)更快的播放模式使媒體向前。類似地，用戶能夠激活"快退按鈕"，以使回放設(shè)備以比實(shí)時(shí)更快的播放模式使媒體倒退。
[0005] 為了脫離對(duì)遙控器的使用或者對(duì)回放設(shè)備上的按鈕的使用，設(shè)備能夠被實(shí)現(xiàn)為使用識(shí)別手勢(shì)來控制設(shè)備的回放。也就是說，手勢(shì)能夠由設(shè)備的用戶接口部分光學(xué)地識(shí)別，其中手勢(shì)由設(shè)備解釋以控制媒體回放。由于回放模式以及能夠被用于這樣的模式的速度的多樣性，設(shè)備制造商可能將需要用戶記住許多手勢(shì)命令以便控制媒體的回放。

【發(fā)明內(nèi)容】

[0006] 公開了一種使用手勢(shì)來控制回放設(shè)備的媒體的回放的方法和系統(tǒng)。首先將用戶手勢(shì)分解成基礎(chǔ)手勢(shì)，基礎(chǔ)手勢(shì)指示特定的回放模式。然后將手勢(shì)分解成包含修飾符命令的第二部分，修飾符命令修改根據(jù)基礎(chǔ)命令所確定的回放模式。然后，通過修飾符命令來影響回放模式，其中，例如，回放模式的速度能夠由修飾符命令來確定。
【附圖說明】
[0007] 根據(jù)下面結(jié)合附圖閱讀的優(yōu)選實(shí)施例的詳細(xì)描述，本公開的這些和其他方面、特征和優(yōu)點(diǎn)將被描述或者變得顯而易見。
[0008] 遍及所有視圖，相同的標(biāo)號(hào)表示相同的元件，在附圖中：
[0009] 圖1是根據(jù)本公開的一方面的手勢(shì)定點(diǎn)和識(shí)別的系統(tǒng)的示例性例示；
[0010] 圖2是根據(jù)本公開的一方面的手勢(shì)識(shí)別的示例性方法的流程圖；
[0011] 圖3是根據(jù)本公開的一方面的手勢(shì)定點(diǎn)和識(shí)別的示例性方法的流程圖；
[0012] 圖4例示從由用戶執(zhí)行的分割軌跡"0"提取的狀態(tài)轉(zhuǎn)變點(diǎn)的示例；
[0013] 圖5是根據(jù)本公開的一方面的使用隱馬爾可夫模型(Hidden Markov Model，HMM) 和幾何特征分布來訓(xùn)練手勢(shì)識(shí)別系統(tǒng)的示例性方法的流程圖；
[0014] 圖6是根據(jù)本公開的一方面的使手勢(shì)識(shí)別系統(tǒng)適配于特定用戶的示例性實(shí)施例的流程圖；
[0015] 圖7是根據(jù)本公開的一方面的示例性回放設(shè)備的框圖；
[0016] 圖8是根據(jù)本公開的一方面的確定被用于控制媒體回放的輸入手勢(shì)的示例性實(shí)施例的流程圖；
[0017] 圖9是根據(jù)本公開的一方面的示出用于控制媒體回放的手臂和手用戶輸入手勢(shì)的表示的用戶接口的表示；
[0018] 圖10是根據(jù)本公開的一方面的示出用于控制媒體回放的手臂和手用戶輸入手勢(shì) 的用戶接口的表示；以及
[0019] 圖11是根據(jù)本公開的一方面的示出用于控制媒體回放的手臂和手用戶輸入手勢(shì) 的用戶接口的表示。
[0020] 應(yīng)當(dāng)理解，附圖是用于例示公開的構(gòu)思的目的，而未必是用于例示本公開的唯一可能配置。
【具體實(shí)施方式】
[0021] 應(yīng)當(dāng)理解，附圖中所示的元件能夠以各種形式的硬件、軟件或者其組合來實(shí)現(xiàn)。優(yōu) 選地，這些元件在一個(gè)或多個(gè)經(jīng)適當(dāng)編程的通用設(shè)備上以硬件和軟件的組合來實(shí)現(xiàn)，通用設(shè)備可以包括處理器、存儲(chǔ)器和輸入/輸出接口。
[0022]本描述例示本公開的原理。因此，應(yīng)當(dāng)意識(shí)到，雖然未明確地在本文中描述或示出，但是本領(lǐng)域中的那些技術(shù)人員將能夠設(shè)計(jì)出實(shí)施本公開的原理并且包括在本公開的范圍內(nèi)的各種布置方式。
[0023]在本文中所陳述的所有示例和條件語言旨在幫助讀者理解本公開的原理以及由發(fā)明人貢獻(xiàn)以促進(jìn)本領(lǐng)域的構(gòu)思的教學(xué)目的，而不應(yīng)被解釋為局限于這樣具體陳述的示例和條件。
[0024] 而且，在本文中陳述本公開的原理、方面和實(shí)施例以及其具體示例的所有陳述旨在包括其結(jié)構(gòu)和功能的等同物。另外，這樣的等同物旨在包括當(dāng)前已知的等同物以及在未來開發(fā)的等同物，即所開發(fā)的執(zhí)行相同功能的任何元件而不管結(jié)構(gòu)如何。
[0025] 因此，例如，本領(lǐng)域的那些技術(shù)人員將意識(shí)到，在本文中所呈現(xiàn)的框圖表示實(shí)施本公開的原理的例示性電路系統(tǒng)的概念視圖。類似地，應(yīng)當(dāng)意識(shí)到，任何流程圖、流程圖表、狀態(tài)轉(zhuǎn)變圖、偽代碼等均表示可以真實(shí)地表示在計(jì)算機(jī)可讀介質(zhì)中并且因此由計(jì)算機(jī)或處理器執(zhí)行的各種處理(無論是否明確地示出這樣的計(jì)算機(jī)或處理器）。
[0026] 附圖中所示出的各種元件的功能可以通過使用專用硬件以及結(jié)合適當(dāng)軟件的能夠執(zhí)行軟件的硬件來提供。當(dāng)由處理器提供時(shí)，功能可以由單個(gè)專用處理器、單個(gè)共享處理器或者多個(gè)單獨(dú)的處理器（它們中一些可以被共享）來提供。而且，術(shù)語"處理器"或"控制器"的明確使用不應(yīng)當(dāng)被解釋成排他性地指能夠執(zhí)行軟件的硬件，并且可以暗含地包括但不局限于數(shù)字信號(hào)處理器（"DSP"）硬件、用于存儲(chǔ)軟件的只讀存儲(chǔ)器（"ROM"）、隨機(jī)存取存儲(chǔ)器（"RAM"）以及非易失性存儲(chǔ)器。
[0027] 在相關(guān)的權(quán)利要求書中，被表述為用于執(zhí)行指定功能的裝置的任何元件旨在包括執(zhí)行該功能的任何方法，包括，例如a)執(zhí)行該功能的電路元件的組合，或者b)任何形式的軟件（因此包括固件、微代碼等），該軟件與執(zhí)行該軟件以執(zhí)行該功能的適當(dāng)?shù)碾娐废到y(tǒng)相結(jié) 合。由這樣的權(quán)利要求所限定的本公開在于如下事實(shí)：由所陳述的各種裝置所提供的功能性以權(quán)利要求所要求的方式組合和結(jié)合在一起。因此認(rèn)為能夠提供那些功能性的任何裝置等同于在本文中所示出的那些。
[0028] 本公開提供實(shí)現(xiàn)各種手勢(shì)識(shí)別系統(tǒng)的示例性實(shí)施例，但是能夠使用用于識(shí)別手勢(shì) 的其他實(shí)現(xiàn)方式。還提供采用用戶的手的軌跡的隱馬爾可夫模型(HMM)和幾何特征分布的系統(tǒng)和方法來實(shí)現(xiàn)自適應(yīng)手勢(shì)識(shí)別。
[0029] 手勢(shì)識(shí)別由于其在符號(hào)語言識(shí)別、多模態(tài)人機(jī)交互、虛擬現(xiàn)實(shí)和機(jī)器人控制中的潛在使用而受到越來越多的關(guān)注。大多數(shù)手勢(shì)識(shí)別方法將所觀察到的輸入圖像序列與訓(xùn)練樣本或模型相匹配。輸入序列被分類成樣本或模型與其最佳匹配的手勢(shì)分類。動(dòng)態(tài)時(shí)間規(guī) 整(DTW)、連續(xù)動(dòng)態(tài)編程(CDP)、隱馬爾可夫模型(HMM)以及條件隨機(jī)場(chǎng)(CRF)是手勢(shì)分類器的示例。
[0030] HMM匹配是用于手勢(shì)識(shí)別的使用最廣泛的技術(shù)。然而，這種方法無法利用已經(jīng)被證明對(duì)于手勢(shì)識(shí)別很有效的手的軌跡的幾何信息。在利用手軌跡的先前方法中，手軌跡被看作整體，提取影響軌跡的形狀的一些幾何特征(諸如X和y軸上的平均的手的位置、所觀察到的手的X和y位置的偏斜度等)作為貝葉斯分類器的輸入以便識(shí)別。然而，該方法無法精確地描述手的手勢(shì)。
[0031] 對(duì)于聯(lián)機(jī)手勢(shì)識(shí)別，手勢(shì)定點(diǎn)（spotting)，即確定手勢(shì)的開始點(diǎn)和結(jié)束點(diǎn)，是非常重要但困難的任務(wù)。存在兩種用于手勢(shì)定點(diǎn)的方法:直接方法和間接方法。在直接方法中，首先計(jì)算諸如速度、加速度和軌跡曲率這樣的運(yùn)動(dòng)參數(shù)，并且找到這些參數(shù)的突變以識(shí)別候選手勢(shì)邊界。然而，這些方法不夠準(zhǔn)確。間接方法結(jié)合手勢(shì)定點(diǎn)和手勢(shì)識(shí)別。對(duì)于輸入序列，間接方法找到在與訓(xùn)練樣本或模型相匹配時(shí)給出高識(shí)別得分的間隔，從而同時(shí)完成手勢(shì)的時(shí)域分割和識(shí)別。然而，這些方法通常是耗時(shí)的，并且也可能發(fā)生一些手勢(shì)的錯(cuò)誤檢測(cè)。一種常規(guī)的方法提出使用剪枝(pruning)策略來提高系統(tǒng)的準(zhǔn)確度和速度。然而，該方法簡(jiǎn)單地基于手軌跡的單個(gè)點(diǎn)與單個(gè)模型狀態(tài)之間的兼容性進(jìn)行剪枝。如果當(dāng)前觀察的可能性低于閾值，則匹配假設(shè)(match hypothesis)將被剪枝?；谶@種簡(jiǎn)單策略的剪枝分類器可能易于過擬合訓(xùn)練數(shù)據(jù)。
[0032] 而且，不同用戶的手勢(shì)通常在速度、開始點(diǎn)和結(jié)束點(diǎn)、轉(zhuǎn)折點(diǎn)的角度等方面不同。因此，學(xué)習(xí)如何調(diào)整分類器以使識(shí)別系統(tǒng)適配于特定用戶是非常有意義的。
[0033] 先前，只有少數(shù)研究者研究自適應(yīng)手勢(shì)識(shí)別。一種技術(shù)通過用新的樣本重新訓(xùn)練 HMM模型來實(shí)現(xiàn)手勢(shì)系統(tǒng)的適配。然而，該方法損失先前樣本的信息，并且對(duì)噪聲數(shù)據(jù)敏感。另一種技術(shù)使用Baum-Welch方法的聯(lián)機(jī)版本來實(shí)現(xiàn)手勢(shì)分類器的聯(lián)機(jī)學(xué)習(xí)和更新，并且開發(fā)了一種能夠聯(lián)機(jī)學(xué)習(xí)簡(jiǎn)單手勢(shì)的系統(tǒng)。然而，該方法的更新速度非常慢。
[0034] 雖然僅存在關(guān)于自適應(yīng)手勢(shì)識(shí)別的少量研究，但是已經(jīng)公開了很多用于自適應(yīng)語音識(shí)別的方法。一種這樣的研究通過最大后驗(yàn)(maximum a posteriori，MAP)參數(shù)估計(jì)來更新HMM模型。通過使用參數(shù)的先驗(yàn)分布，需要較少的新數(shù)據(jù)來獲得強(qiáng)健的參數(shù)估計(jì)和更新。該方法的缺點(diǎn)是新的樣本僅能夠更新其對(duì)應(yīng)分類的HMM模型，從而降低了更新速度。最大似然線性回歸(MLLR)被廣泛地用于自適應(yīng)語音識(shí)別。其使用新的樣本來估計(jì)模型參數(shù)的一組線性變換，使得模型能夠在變換之后更好地匹配新的樣本。所有模型參數(shù)能夠共享全局線性變換，或者聚類成不同的分組，其中每組參數(shù)共享相同的線性變換。MLLR能夠克服MAP的缺點(diǎn)，并且提高模型更新速度。
[0035]對(duì)于輸入序列，所檢測(cè)到的感興趣的點(diǎn)與HMM模型相匹配，并且通過Viterbi算法或函數(shù)找到HMM模型的狀態(tài)改變的點(diǎn)。這些點(diǎn)稱作狀態(tài)轉(zhuǎn)變點(diǎn)?；跔顟B(tài)轉(zhuǎn)變點(diǎn)與手勢(shì)的開始點(diǎn)的相對(duì)位置，從手勢(shì)模型提取幾何特征。這些幾何特征比傳統(tǒng)方法更精確地描述手的手勢(shì)。狀態(tài)轉(zhuǎn)變點(diǎn)通常對(duì)應(yīng)于軌跡開始改變的點(diǎn)，并且與將手軌跡作為整體并且基于手軌跡的統(tǒng)計(jì)特性來提取幾何特征的傳統(tǒng)方法相比，基于這些點(diǎn)與開始點(diǎn)的相對(duì)位置來提取特征能夠非常好地反映手勢(shì)的形狀的特性。
[0036] 此外，在將幾何特征的提取合并到HMM模型的匹配中時(shí)，容易利用所提取的幾何特征進(jìn)行剪枝以及幫助識(shí)別手勢(shì)的類型。例如，如果在狀態(tài)轉(zhuǎn)變點(diǎn)處所提取的幾何特征的可能性低于閾值，則該匹配假設(shè)將被剪枝。即，如果針對(duì)某個(gè)幀，確定將該幀匹配到HMM模型的任何狀態(tài)的成本太高，則本公開的系統(tǒng)和方法斷定給定的模型沒有良好地匹配輸入序列，然后其將停止將隨后的幀匹配到狀態(tài)。
[0037] 用于剪枝的幾何特征的合并比僅使用單個(gè)觀察更準(zhǔn)確和強(qiáng)健。當(dāng)基于HMM模型以及手軌跡與手勢(shì)分類之間的幾何特征分布所計(jì)算出的模型匹配得分大于閾值時(shí)，手勢(shì)被分割和識(shí)別。運(yùn)動(dòng)參數(shù)的突變的檢測(cè)、HMM模型匹配以及軌跡幾何特征提取的這種組合勝過現(xiàn) 有的手勢(shì)定點(diǎn)方法。
[0038] 現(xiàn)在參考附圖，在圖1中示出根據(jù)本公開的實(shí)施例的示例性系統(tǒng)組件100?？梢蕴?供圖像捕獲設(shè)備102來捕獲執(zhí)行手勢(shì)的用戶的圖像。應(yīng)當(dāng)意識(shí)到，圖像捕獲設(shè)備可以是任何已知的圖像捕獲設(shè)備，并且可以包括數(shù)字靜物相機(jī)、數(shù)字錄像機(jī)、網(wǎng)絡(luò)攝像頭等。所捕獲的圖像輸入到處理設(shè)備104,例如計(jì)算機(jī)。計(jì)算機(jī)在具有諸如一個(gè)或多個(gè)中央處理單元(CPU)、例如隨機(jī)存取存儲(chǔ)器(RAM)和/或只讀存儲(chǔ)器(ROM)這樣的存儲(chǔ)器106以及例如鍵盤、光標(biāo)控制設(shè)備(例如鼠標(biāo)或控制桿)和顯示設(shè)備這樣的輸入/輸出（I/O)用戶接口 108等硬件的各種已知的計(jì)算機(jī)平臺(tái)的任何上實(shí)現(xiàn)。計(jì)算機(jī)平臺(tái)還包括操作系統(tǒng)和微指令代碼。在本文中所描述的各種處理和功能可以是經(jīng)由操作系統(tǒng)執(zhí)行的微指令代碼的一部分或者軟件應(yīng)用程序的一部分(或者其組合）。在一個(gè)實(shí)施例中，軟件應(yīng)用程序有形地實(shí)施在程序存儲(chǔ)設(shè)備上，其可以被上傳到諸如處理設(shè)備104這樣的任何適當(dāng)?shù)臋C(jī)器并執(zhí)行。另外，各種其他外圍設(shè)備可以通過諸如并行端口、串行端口或者通用串行總線(USB)等各種接口和總線結(jié)構(gòu)連接到計(jì)算機(jī)平臺(tái)。其他外圍設(shè)備可以包括另外的存儲(chǔ)設(shè)備110和打印機(jī)(未示出）。
[0039] 軟件程序包括:存儲(chǔ)在存儲(chǔ)器106中的手勢(shì)識(shí)別模塊112,其也稱作手勢(shì)識(shí)別器，用于識(shí)別所捕獲圖像序列中的用戶所執(zhí)行的手勢(shì)。手勢(shì)識(shí)別模塊112包括:對(duì)象檢測(cè)器和跟蹤器114,其檢測(cè)例如用戶的手這樣的感興趣的對(duì)象，并且通過所捕獲圖像的序列來跟蹤感興趣的對(duì)象。設(shè)置模型匹配器116以將被檢測(cè)和跟蹤的對(duì)象匹配到存儲(chǔ)在HMM模型數(shù)據(jù)庫118 中的至少一個(gè)HMM模型。每個(gè)手勢(shì)類型具有與其相關(guān)聯(lián)的HMM模型。將輸入序列與對(duì)應(yīng)于不同手勢(shì)類型的所有HMM模型相匹配，以找到哪個(gè)手勢(shì)類型最佳地匹配該輸入序列。例如，給定作為來自所捕獲視頻的每個(gè)幀的特征序列的輸入序列以及作為狀態(tài)序列的手勢(shì)模型，模型匹配器116找到每個(gè)幀與每個(gè)狀態(tài)之間的對(duì)應(yīng)關(guān)系。模型匹配器116可以采用Viterbi算法或函數(shù)、前向算法或函數(shù)、前向后向算法或函數(shù)等來實(shí)現(xiàn)匹配。
[0040] 手勢(shì)識(shí)別模塊112(在圖7中也標(biāo)記為722)還包括:轉(zhuǎn)變檢測(cè)器120,用于檢測(cè)HMM模型的狀態(tài)改變的點(diǎn)。這些點(diǎn)被稱作狀態(tài)轉(zhuǎn)變點(diǎn)，并且通過由轉(zhuǎn)變檢測(cè)器120采用的尤其是 Viterbi算法或函數(shù)找到或檢測(cè)到。由特征提取器122基于狀態(tài)轉(zhuǎn)變點(diǎn)與手勢(shì)的開始點(diǎn)之間的相對(duì)位置提取幾何特征。
[0041]手勢(shì)識(shí)別模塊112還包括:剪枝算法或函數(shù)124,其也被稱作剪枝器，用來減少用以找到匹配的HMM模型所執(zhí)行的計(jì)算的數(shù)量，從而加速手勢(shì)定點(diǎn)和檢測(cè)處理。例如，給定作為來自所捕獲視頻的每個(gè)幀的特征序列的輸入序列以及作為狀態(tài)序列的手勢(shì)模型，應(yīng)該找到每個(gè)幀與每個(gè)狀態(tài)之間的對(duì)應(yīng)關(guān)系。然而，如果針對(duì)某個(gè)幀，剪枝算法或函數(shù)124發(fā)現(xiàn)將該幀匹配到任何狀態(tài)的成本太高，則剪枝算法或函數(shù)124將停止將隨后的幀匹配到狀態(tài)，并且斷定給定的模型沒有良好地匹配輸入序列。
[0042]另外，手勢(shì)識(shí)別模塊112包括:最大似然線性回歸(MLLR)函數(shù)，用來適配HMM模型，并且針對(duì)每個(gè)手勢(shì)分類，遞增地學(xué)習(xí)特定用戶的幾何特征分布。通過同時(shí)更新HMM模型和幾何特征分布，手勢(shì)識(shí)別系統(tǒng)能夠快速地適配于用戶。
[0043] 圖2是根據(jù)本公開的一方面的手勢(shì)識(shí)別的示例性方法的流程圖。初始地，在步驟 202,處理設(shè)備104獲取由圖像捕獲設(shè)備102所捕獲的輸入圖像的序列。手勢(shì)識(shí)別模塊112然后在步驟204使用HMM模型和幾何特征來執(zhí)行手勢(shì)識(shí)別。步驟204將進(jìn)一步在下面參照?qǐng)D3至圖4來描述。在步驟206中，手勢(shì)識(shí)別模塊112將適配特定用戶的每個(gè)手勢(shì)分類的HMM模型和幾何特征分布。步驟206將進(jìn)一步在下面參照?qǐng)D5至圖6來描述。
[0044] 圖3是根據(jù)本公開的一方面的手勢(shì)定點(diǎn)和識(shí)別的示例性方法的流程圖。
[0045] 候選開始點(diǎn)檢測(cè)
[0046] 初始地，在步驟302中，由圖像捕獲設(shè)備102捕獲圖像的輸入序列。在步驟304中，對(duì) 象檢測(cè)器和跟蹤器114檢測(cè)輸入序列中的候選開始點(diǎn)并且遍及序列地跟蹤候選開始點(diǎn)。使用諸如手位置和速度這樣的特征來表示輸入序列的每個(gè)幀中的所檢測(cè)到的手。這些特征通過用戶的面部的位置和寬度來規(guī)格化。
[0047] 如同直接手勢(shì)定點(diǎn)方法，候選開始點(diǎn)被檢測(cè)為輸入序列中的運(yùn)動(dòng)參數(shù)的突變。具有異常速度或嚴(yán)重的軌跡曲率的點(diǎn)被檢測(cè)為候選開始點(diǎn)。使用該方法，通常存在許多錯(cuò)誤的正檢測(cè)(positive detection)。使用這些點(diǎn)作為手勢(shì)邊界的直接手勢(shì)定點(diǎn)方法不是非常準(zhǔn)確和強(qiáng)健。本公開的方法使用不同的策略。手軌跡被匹配到從這些候選開始點(diǎn)開始的每個(gè)手勢(shì)分類的HMM模型，因此該方法能夠結(jié)合直接手勢(shì)定點(diǎn)方法和間接手勢(shì)定點(diǎn)方法的優(yōu) 點(diǎn)。
[0048] HMM模型匹配
[0049] 在步驟306中，輸入圖像的序列經(jīng)由模型匹配器116匹配到HMM模型118,如下面將描述的。
[0050] 設(shè)〇={(^，〇2，-_}是特征矢量的連續(xù)序列，其中^是從輸入圖像的輸入幀」提取的特征矢量。使用諸如手位置和速度這樣的特征來表示在每個(gè)幀中所檢測(cè)到的手。這些特征通過執(zhí)行手勢(shì)的用戶的面部的位置和寬度來規(guī)格化。設(shè)為左右HMM模型，其具有手勢(shì)g的m+Ι個(gè)狀態(tài)。每個(gè)狀態(tài)與給出每個(gè)觀察矢量Qj的可能性的高斯觀察密度相關(guān)聯(lián)。將使用Baum-Welch算法或函數(shù)來訓(xùn)練HMM模型。每個(gè)模型的狀態(tài)的數(shù)量根據(jù)軌跡長(zhǎng)度來指定，如同使用Baum-Welch算法或函數(shù)通常所做的那樣。轉(zhuǎn)變概率被固定以簡(jiǎn)化學(xué)習(xí)任務(wù)，亦即，每次轉(zhuǎn)變時(shí)，模型同等可能地移動(dòng)到下一個(gè)狀態(tài)或者保持在相同的狀態(tài)。
[0051] 用ak>1表示從狀態(tài)k轉(zhuǎn)變到狀態(tài)i的轉(zhuǎn)變概率，并且用表示當(dāng)與模型狀態(tài) 相匹配時(shí)的特征矢量(^的可能性。設(shè)C為使用在1.1節(jié)中所描述的方法所檢測(cè)到的候選開始點(diǎn)集。Mf是特殊狀態(tài)，其中
[0052]
Cl)
[0053] 因此，HMM模型匹配僅在這些候選開始點(diǎn)處開始。用V(i，j)表示前j個(gè)輸入特征矢量(Q:，…，Q』)與前i+Ι個(gè)模型狀態(tài)Pf產(chǎn)相匹配時(shí)的最大概率。從而具有
[0054]
[0055] 設(shè)(Qi，…，QJ與之間的最大匹配得分SH(i，j)是V(i，j)的對(duì)數(shù)：
[0056] Sh(i, j) = log V(i, j). (3)
[0057] 基于等式（2)中的特性，使用動(dòng)態(tài)編程(DP)來高效地計(jì)算最大匹配得分。使用以 (i，j)為索引的表格來實(shí)現(xiàn)DP。當(dāng)從輸入幀提取新的特征矢量^時(shí)，計(jì)算與幀η相對(duì)應(yīng)的表格的片段，并且在單元（i，n)處存儲(chǔ)兩條信息：1)311(1，11)(1 = 0，一，111)的值；以及2)被用于使等式(2)最小化的前導(dǎo)(predecessor)k，其中，ShQ，n)是模型與在幀i處結(jié)束的輸入序列之間的最優(yōu)匹配的得分，并且k是在最優(yōu)匹配中前一幀所對(duì)應(yīng)的狀態(tài)。S H(m，n)對(duì)應(yīng)于模型與在幀η處結(jié)束的輸入序列之間的最優(yōu)對(duì)齊。最優(yōu)動(dòng)態(tài)編程(DP)路徑(亦即，HMM模型的最優(yōu) 狀態(tài)序列)能夠使用回溯來獲得?，F(xiàn)有的間接法通常使用S H(m，n)來完成手勢(shì)定點(diǎn)，亦即，如果SH(m，n)大于閾值，則手勢(shì)結(jié)束點(diǎn)被檢測(cè)為幀n，并且手勢(shì)開始點(diǎn)能夠通過回溯最優(yōu)DP路徑來找到。
[0058] 為了提高系統(tǒng)的速度和準(zhǔn)確度，常規(guī)的系統(tǒng)使用剪枝策略，其中，它們基于當(dāng)前觀察的可能性進(jìn)行剪枝:如果$ 4》，其中i(i)是模型狀態(tài)i的閾值，并且根據(jù)訓(xùn)練數(shù) 據(jù)而被學(xué)習(xí)到，則單元(i，j)將被剪枝掉，并且經(jīng)過它的所有路徑都將被拒絕。然而，這種簡(jiǎn) 單的剪枝策略不夠準(zhǔn)確。
[0059] 幾何特征提取
[0060] 在本公開的方法中，將幾何特征的提取合并到HMM模型匹配過程中。對(duì)于輸入序列，HMM模型的狀態(tài)序列在步驟308中經(jīng)由轉(zhuǎn)變檢測(cè)器120來確定。檢測(cè)HMM的狀態(tài)改變的點(diǎn)。圖4給出從分割軌跡"0"提取的示例性狀態(tài)轉(zhuǎn)變點(diǎn)的一些示例，軌跡由用戶執(zhí)行并且由圖像捕獲設(shè)備102捕獲。黑色點(diǎn)是狀態(tài)轉(zhuǎn)變點(diǎn)?？梢钥闯?，對(duì)于所有軌跡，狀態(tài)轉(zhuǎn)變點(diǎn)的位置是類似的，因此，如下面將描述的那樣，在步驟310中經(jīng)由特征提取器122基于狀態(tài)轉(zhuǎn)變點(diǎn)與手勢(shì) 的開始點(diǎn)的相對(duì)位置來提取幾何特征。
[0061] 將手勢(shì)的開始點(diǎn)表示為(XQ，yQ)，在轉(zhuǎn)變點(diǎn)（Xt，yt)處所提取的幾何特征包括:^- x〇、yt-yo矛I
這些簡(jiǎn)單的特征能夠良好地描述手軌跡的幾何信息。
[0062] 對(duì)于每個(gè)手勢(shì)分類，使用與其相關(guān)聯(lián)的HMM模型來提取其訓(xùn)練樣本的幾何特征。假設(shè)幾何特征服從高斯分布。從訓(xùn)練樣本學(xué)習(xí)幾何特征的分布。然后，每個(gè)手勢(shì)分類與HMM模型以及其幾何特征分布相關(guān)聯(lián)。將手勢(shì)g的幾何特征分布表示為
ζ中!11與仏的狀態(tài)數(shù)量有關(guān)，并且#是在ΗΜΜ模型的狀態(tài)從i-Ι改變成i的點(diǎn)處所提取的幾何特征的分布。因?yàn)閹缀翁卣鞯奶崛『喜⒌紿MM模型匹配過程中，所有容易利用幾何特征進(jìn)行剪枝。例如，如果幀F(xiàn)是狀態(tài)轉(zhuǎn)變幀，則基于幀F(xiàn)來提取幾何特征。如果所提取的幾何特征的概率低于閾值，則該匹配將被剪枝掉，亦即，模型匹配器116將停止將隨后的幀匹配到模型的狀態(tài)，并且將選擇至少一個(gè)第二手勢(shì)模型進(jìn)行匹配?，F(xiàn)在將參照下面的等式(4)來描述剪枝過程。
[0063] 在步驟312中，如果滿足下面的條件，則剪枝函數(shù)或者剪枝器124將剪枝掉單元(i， j)：
[0064]
(寺》其中，pre(i)是 HMM模型匹配期間狀態(tài)i的前導(dǎo),?是在點(diǎn)j處所提取的幾何特征，t(i)是從訓(xùn)練樣本學(xué)習(xí)的閾值，并且!丨〇和τ⑴如在1.2節(jié)中那樣地定義。
[0065] 在步驟314中，（Gh，…，Qn)與
之間的總匹配得分由手勢(shì)識(shí)別模塊112 計(jì)算如下：
[0066]
[0067] 其中，α是系數(shù)，SH(m，n)是HMM匹配得分，并且Gj(i)是HMM狀態(tài)從i-Ι改變成i的點(diǎn)處所提取的幾何特征。如同間接方法那樣地完成手勢(shì)的時(shí)域分割，亦即，如果S(m，n)大于閾值，則如同在步驟216中那樣，將手勢(shì)結(jié)束點(diǎn)檢測(cè)為幀n，并且如同在步驟218中一樣，手勢(shì)開始點(diǎn)能夠通過回溯最優(yōu)DP路徑而找到。通過使用表達(dá)式(4)和等式(5)，方法能夠組合HMM和手軌跡的幾何特征用于手勢(shì)定點(diǎn)和識(shí)別，從而提高系統(tǒng)的準(zhǔn)確度。
[0068] 在另一個(gè)實(shí)施例中，提供采用隱馬爾可夫模型(HMM)和幾何特征分布完成自適應(yīng) 手勢(shì)識(shí)別的系統(tǒng)和方法。本公開的系統(tǒng)和方法組合HMM模型和用戶的手軌跡的幾何特征用于手勢(shì)識(shí)別。對(duì)于輸入序列，跟蹤所檢測(cè)到的感興趣的對(duì)象(例如手），并且將其與HMM模型相匹配。通過Vi terb i算法或函數(shù)、前向算法或函數(shù)、前向后向算法或函數(shù)等找到HMM模型的狀態(tài)改變的點(diǎn)。這些點(diǎn)被稱作狀態(tài)轉(zhuǎn)變點(diǎn)。基于狀態(tài)轉(zhuǎn)變點(diǎn)與手勢(shì)的開始點(diǎn)的相對(duì)位置，提取幾何特征。給定適配數(shù)據(jù)(亦即，特定用戶執(zhí)行的手勢(shì)），使用最大似然線性回歸(MLLR)方法來適配HMM模型，并且遞增地學(xué)習(xí)特定用戶的每個(gè)手勢(shì)分類的幾何特征分布。通過同時(shí)更新HMM模型和幾何特征分布，手勢(shì)識(shí)別系統(tǒng)能夠快速地適配于特定用戶。
[0069] 組合HMM和軌跡幾何特征的手勢(shì)識(shí)別
[0070] 參照?qǐng)D5,例示根據(jù)本公開的一方面的使用隱馬爾可夫模型(HMM)和幾何特征分布來訓(xùn)練手勢(shì)識(shí)別系統(tǒng)的示例性方法的流程圖。
[0071] 初始地，在步驟502中，由圖像捕獲設(shè)備102獲取或捕獲圖像的輸入序列。在步驟 504中，對(duì)象檢測(cè)器和跟蹤器114檢測(cè)輸入序列中的感興趣的對(duì)象(例如用戶的手），并且遍及序列地跟蹤對(duì)象。使用諸如手位置和速度這樣的特征來表示在輸入序列的每個(gè)幀中所檢測(cè)到的手。這些特征通過用戶的面部的位置和寬度來規(guī)格化。給定圖像的幀上的面部中心位置(xf，yf)、面部的寬度W以及手位置(xh，yh)，經(jīng)規(guī)格化的手位置是xhn=(xh-xf )/w，yhn =(yh-yf) /w，亦即，將絕對(duì)坐標(biāo)改變成相對(duì)于面部中心的相對(duì)坐標(biāo)。
[0072]在步驟506中，使用具有高斯觀察密度的左右HMM模型，將所檢測(cè)到的手匹配到手勢(shì)模型，并且確定手勢(shì)分類。例如，給定作為來自所捕獲視頻的每個(gè)幀的特征序列的輸入序列和作為狀態(tài)序列的手勢(shì)模型，模型匹配器116經(jīng)由例如Viterbi算法或函數(shù)、前向算法或函數(shù)、前向后向算法或函數(shù)，找到每個(gè)幀與每個(gè)狀態(tài)之間的對(duì)應(yīng)關(guān)系。
[0073]接下來，在步驟508中，對(duì)于輸入序列，由轉(zhuǎn)變檢測(cè)器120使用Viterbi算法或函數(shù) 來檢測(cè)所匹配的HMM模型的狀態(tài)序列。檢測(cè)HMM模型的狀態(tài)改變的點(diǎn)。在步驟510中，經(jīng)由特征提取器122基于狀態(tài)轉(zhuǎn)變點(diǎn)與手勢(shì)的開始點(diǎn)的相對(duì)位置來提取幾何特征。將手勢(shì)的開始點(diǎn)表示為(x〇，y〇)，在轉(zhuǎn)變點(diǎn)（xt，yt)處所提取的幾何特征包括:xt-x〇、yt-y〇和
給定輸入序列，在所有狀態(tài)轉(zhuǎn)變點(diǎn)所所提取的特征形成輸入序列的幾何特征。這些簡(jiǎn)單的特征能夠良好地描述手軌跡的幾何信息。
[0074] 對(duì)于每個(gè)手勢(shì)分類，訓(xùn)練左右HMM模型，并且使用該HMM模型來提取其訓(xùn)練樣本的幾何特征。假設(shè)幾何特征服從高斯分布。幾何特征的分布從訓(xùn)練樣本學(xué)習(xí)。然后，在步驟512 中，每個(gè)手勢(shì)分類與HMM模型以及其幾何特征分布相關(guān)聯(lián)，并且在步驟514存儲(chǔ)相關(guān)聯(lián)的HMM 模型和幾何特征分布。
[0075] 分別將與第i個(gè)手勢(shì)分類相關(guān)聯(lián)的HMM模型和幾何特征分布表示為AjPqi。為了將分割的手軌跡〇= {(^，(^，…加}(亦即，被檢測(cè)和跟蹤的對(duì)象)與第i個(gè)手勢(shì)分類相匹配，使用 Μ提取幾何特征6=吣，62，"心}。匹配得分由手勢(shì)識(shí)別模塊112計(jì)算如下：
[0076] S = a X log ρ(〇 | λ?) + ( 1-α) X log qi(G) (6)
[0077] 其中，α是系數(shù)，并且p(〇|M)是給定HMM模型~的手軌跡〇的概率。p(〇|M)能夠使用前向后向算法或函數(shù)來計(jì)算。輸入的手軌跡將被分類成匹配得分最高的手勢(shì)分類。因此，使用等式(6)，本公開的系統(tǒng)和方法能夠組合HMM模型和用戶的手軌跡(亦即，被檢測(cè)和跟蹤的對(duì)象)的幾何特征用于手勢(shì)識(shí)別。
[0078]手勢(shì)識(shí)別的適配
[0079] 圖6是根據(jù)本公開的一方面的用于將手勢(shì)識(shí)別系統(tǒng)適配于特定用戶的示例性方法的流程圖。給定適配數(shù)據(jù)(亦即，特定用戶執(zhí)行的手勢(shì)），本公開的系統(tǒng)和方法采用最大似然線性回歸(MLLR)函數(shù)來適配HMM模型并且遞增地學(xué)習(xí)每個(gè)手勢(shì)分類的幾何特征分布。
[0080] 初始地，在步驟602中，由圖像捕獲設(shè)備102捕獲圖像的輸入序列。在步驟604中，對(duì) 象檢測(cè)器和跟蹤器114檢測(cè)輸入序列中的感興趣的對(duì)象，并且遍及序列地跟蹤對(duì)象。在步驟 606中，使用具有高斯觀察密度的左右HMM模型對(duì)手勢(shì)分類進(jìn)行建模。在步驟608中，檢索被關(guān)聯(lián)到所確定的手勢(shì)分類的幾何特征分布。
[0081 ]接下來，在步驟610中，使用最大似然線性回歸(MLLR)函數(shù)針對(duì)特定用戶來適配 HMM模型。最大似然線性回歸(MLLR)被廣泛地用于自適應(yīng)語音識(shí)別。其使用新的樣本來估計(jì) 模型參數(shù)的一組線性變換，使得模型能夠在變換之后更好地匹配新的樣本。在標(biāo)準(zhǔn)MLLR方法中，根據(jù)下式來更新高斯密度的平均矢量：
[0082]
[0083]其中，W是nX(n+l)矩陣(并且η是觀察特征矢量的維度)并且ξ是經(jīng)擴(kuò)展的平均矢量:ξΤ=[1，μL，…，μη]。假設(shè)適配數(shù)據(jù)0是一系列的T個(gè)觀察:0 = 〇1···〇τ。為了計(jì)算等式⑴中的 W，將被最大化的目標(biāo)函數(shù)是生成適配數(shù)據(jù)的可能性：
[0084]
[0085] 其中，Θ是生成〇的可能狀態(tài)序列，λ是模型參數(shù)的集合。通過最大化輔助函數(shù)
[0086]
[0087] 其中，λ是模型參數(shù)的當(dāng)前集合，并且I是模型參數(shù)的經(jīng)重新估計(jì)的集合，等式(8) 中的目標(biāo)函數(shù)也被最大化。關(guān)于W最大化等式(9)能夠使用期望最大化(ΕΜ)算法或函數(shù)來求解。
[0088] 然后，在步驟612中，系統(tǒng)通過在預(yù)定數(shù)量的適配樣本上重新估計(jì)幾何特征分布的平均和協(xié)方差矩陣，來遞增地學(xué)習(xí)用戶的幾何特征分布。將手勢(shì)g的當(dāng)前幾何特征分布表示
其中If是在HMM模型的狀態(tài)從i-Ι改變成i的點(diǎn)處所提取的幾何特征的分布。假設(shè)if的平均和協(xié)方差矩陣分別表示為續(xù)和綠:。給定手勢(shì)g的適配數(shù)據(jù)，從該數(shù)據(jù) 提取幾何特征，并且使在狀態(tài)從i-Ι改變成i的適配數(shù)據(jù)的點(diǎn)處所提取的幾何特征形成集合 X={X1，…Xk}，其中，^是從手勢(shì)g的第i個(gè)適配樣本提取的特征，并且k是手勢(shì)g的適配樣本的數(shù)量。然后，如下那樣地更新幾何特征分布：
[0089]
[0090]其中分別是if的經(jīng)重新估計(jì)的平均和協(xié)方差矩陣。
[0091]通過同時(shí)更新HMM模型和幾何特征分布，手勢(shì)識(shí)別系統(tǒng)能夠快速地適配于用戶。然后，在步驟614中，針對(duì)特定用戶，在存儲(chǔ)設(shè)備110中存儲(chǔ)經(jīng)適配的HMM模型和所學(xué)習(xí)的幾何特征分布。
[0092]已經(jīng)描述了用于手勢(shì)識(shí)別的系統(tǒng)和方法。使用手勢(shì)模型（例如HMM模型）和幾何特征分布來執(zhí)行手勢(shì)識(shí)別?；谶m配數(shù)據(jù)(亦即，特定用戶執(zhí)行的手勢(shì)），HMM模型和幾何特征分布兩者都被更新。以這種方式，系統(tǒng)能夠適配于特定用戶。
[0093]在圖7中所示的回放設(shè)備700中，經(jīng)由輸入信號(hào)接收器702接收?qǐng)D像信息以及用于購(gòu)買項(xiàng)目的對(duì)應(yīng)信息。輸入信號(hào)接收器702能夠是被用于對(duì)通過若干可能的網(wǎng)絡(luò)(包括用無線電、纜線、衛(wèi)星、以太網(wǎng)、光纖和電話線網(wǎng)絡(luò))之一提供的信號(hào)進(jìn)行接收、解調(diào)和解碼的若干已知的接收器電路之一。所期望的輸入信號(hào)能夠在輸入信號(hào)接收器702中基于通過控制接口（未示出）提供的用戶輸入進(jìn)行選擇和檢索。經(jīng)解碼的輸出信號(hào)提供給輸入流處理器 704。輸入流處理器704執(zhí)行最終的信號(hào)選擇和處理，并且包括針對(duì)內(nèi)容流將視頻內(nèi)容與音頻內(nèi)容分離。音頻內(nèi)容提供給音頻處理器706,以便從諸如壓縮數(shù)字信號(hào)這樣的接收格式轉(zhuǎn) 換成模擬波形信號(hào)。模擬波形信號(hào)提供給音頻接口 708，并且進(jìn)一步提供給顯示設(shè)備或者音頻放大器(未示出）。替代地，音頻接口 708能夠使用高清晰度多媒體接口（HDMI)纜線或者諸如經(jīng)由索尼/飛利浦?jǐn)?shù)字互連格式(sroiF)這樣的替代的音頻接口，將數(shù)字信號(hào)提供給音頻輸出設(shè)備或顯示設(shè)備。音頻處理器706還執(zhí)行任何必要的轉(zhuǎn)換以便存儲(chǔ)音頻信號(hào)。
[0094]來自輸入流處理器704的視頻輸出提供給視頻處理器710。視頻信號(hào)能夠是若干格式中的一種。視頻處理器710基于輸入信號(hào)格式在必要時(shí)提供視頻內(nèi)容的轉(zhuǎn)換。視頻處理器 710還執(zhí)行任何必要的轉(zhuǎn)換以便存儲(chǔ)視頻信號(hào)。
[0095]存儲(chǔ)設(shè)備712存儲(chǔ)在輸入處所接收的音頻和視頻內(nèi)容。存儲(chǔ)設(shè)備712允許在控制器 714的控制下并且還基于從用戶接口 716接收到的命令(例如，諸如下一個(gè)項(xiàng)目、下一頁、縮放、快進(jìn)(FF)回放模式和倒帶(Rew)回放模式這樣的導(dǎo)航指令），對(duì)內(nèi)容進(jìn)行稍后檢索和回放。存儲(chǔ)設(shè)備712能夠是硬盤驅(qū)動(dòng)器、諸如靜態(tài)隨機(jī)存取存儲(chǔ)器或者動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器這樣的一個(gè)或多個(gè)大容量集成電子存儲(chǔ)器，或者能夠是諸如壓縮盤驅(qū)動(dòng)器或者數(shù)字視頻光盤驅(qū)動(dòng)器這樣的可交換光盤存儲(chǔ)設(shè)備。在一個(gè)實(shí)施例中，存儲(chǔ)設(shè)備712能夠在外部而不存在于系統(tǒng)中。
[0096]來自視頻處理器710(源自輸入或存儲(chǔ)設(shè)備712)的經(jīng)轉(zhuǎn)換的視頻信號(hào)提供給顯示接口 718。顯示接口 718進(jìn)一步將顯示信號(hào)提供給上述類型的顯示設(shè)備。顯示接口 718能夠是諸如紅綠藍(lán)(RGB)這樣的模擬信號(hào)接口或者能夠是諸如高清晰度多媒體接口（HDMI)這樣的數(shù)字接口。
[0097] 能夠是處理器的控制器714經(jīng)由總線互連到設(shè)備700的若干組件，包括輸入流處理器702、音頻處理器706、視頻處理器710、存儲(chǔ)設(shè)備712、用戶接口 716以及手勢(shì)模塊722?？刂?器714管理將輸入流信號(hào)轉(zhuǎn)換成用于存儲(chǔ)在存儲(chǔ)設(shè)備上或者用于顯示的信號(hào)的轉(zhuǎn)換處理。控制器714還管理用于回放所存儲(chǔ)的內(nèi)容的檢索和回放模式。而且，如將在下面所描述的那樣，控制器714執(zhí)行對(duì)所存儲(chǔ)的或者將經(jīng)由上述遞送網(wǎng)絡(luò)遞送的內(nèi)容的搜索?？刂破?14還耦合到控制存儲(chǔ)器720(例如，易失性或者非易失性存儲(chǔ)器，包括隨機(jī)存取存儲(chǔ)器、靜態(tài)RAM、動(dòng)態(tài)RAM、只讀存儲(chǔ)器、可編程ROM、閃速存儲(chǔ)器、EPROM、EEPR0M等），以便存儲(chǔ)控制器714的信息和指令代碼。而且，存儲(chǔ)器的實(shí)現(xiàn)方式能夠包括若干種可能的實(shí)施方式，諸如單個(gè)存儲(chǔ)器設(shè)備，或者替代地，連接在一起以形成共享或共用存儲(chǔ)器的多于一個(gè)的存儲(chǔ)器電路。另外，存儲(chǔ)器能夠與諸如總線通信電路系統(tǒng)的一部分這樣的其他電路系統(tǒng)一起包括在更大的電路中。
[0098]本公開的用戶接口 716能夠采用在顯示器各處移動(dòng)光標(biāo)的輸入設(shè)備，這進(jìn)而使得內(nèi)容在光標(biāo)經(jīng)過它時(shí)放大。在一個(gè)實(shí)施例中，輸入設(shè)備是遠(yuǎn)程控制器，具有一種形式的運(yùn)動(dòng) 檢測(cè)，諸如陀螺儀或加速度計(jì)，從而允許用戶在屏幕或顯示器各處自由地移動(dòng)光標(biāo)。在另一個(gè)實(shí)施例中，輸入設(shè)備是以將跟蹤用戶在板上、在屏幕上的移動(dòng)的觸摸板或者觸摸敏感設(shè) 備的形式的控制器。在另一個(gè)實(shí)施例中，輸入設(shè)備可以是具有方向按鈕的傳統(tǒng)遙控器。根據(jù) 在說明書中描述的示例性原理，用戶接口 716也能夠被配置為使用相機(jī)、視覺傳感器等光學(xué) 地識(shí)別用戶手勢(shì)。
[0099]作為來自圖1的示例性實(shí)施例，手勢(shì)模塊722解釋來自用戶接口 716的基于手勢(shì)的輸入，并且根據(jù)上面的示例性原理來確定用戶正在做出什么手勢(shì)。所確定的手勢(shì)然后能夠被用于闡明回放以及回放的速度。具體地，能夠使用手勢(shì)來指示比媒體的實(shí)時(shí)播放更快地回放媒體，諸如快進(jìn)操作和快退操作。類似地，手勢(shì)也能夠指示比媒體的實(shí)時(shí)播放更慢，諸如慢動(dòng)作前進(jìn)操作和慢動(dòng)作倒退操作。關(guān)于手勢(shì)意味著什么以及這樣的手勢(shì)如何控制媒體的回放速度的這些確定在各種例示性實(shí)施例中描述。
[0100] 能夠?qū)⑹謩?shì)分解成被稱作基礎(chǔ)手勢(shì)和手勢(shì)修飾符的至少兩個(gè)部分。基礎(chǔ)手勢(shì)是包含移動(dòng)的一方面(能夠是手臂或腿的移動(dòng)）的"總的"手勢(shì)。手勢(shì)的修飾符能夠是在人移動(dòng)手臂的同時(shí)所展示的手指的數(shù)量、當(dāng)人移動(dòng)手臂時(shí)手上的所展示的手指的位置、當(dāng)人移動(dòng)他們的腿時(shí)的腳的移動(dòng)、當(dāng)人移動(dòng)手臂時(shí)的手的揮動(dòng)等?；A(chǔ)手勢(shì)能夠由手勢(shì)模塊722確定，以便以諸如快進(jìn)、快退、慢動(dòng)作前進(jìn)、慢動(dòng)作后退、正常播放、暫停等回放模式來操作回放設(shè) 備700。手勢(shì)的修飾符然后由手勢(shì)模塊720確定，以便設(shè)置回放的速度，回放的速度能夠比與正常播放模式相關(guān)聯(lián)的媒體的實(shí)時(shí)播放更快或更慢。在示例性實(shí)施例中，與具體手勢(shì)相關(guān) 聯(lián)的回放將持續(xù)與用戶保持手勢(shì)一樣長(zhǎng)的時(shí)間。
[0101] 圖8例示根據(jù)示例性實(shí)施例的使用輸入的手勢(shì)來控制媒體的回放的流程圖800。步驟802具有用戶接口 710接收用戶手勢(shì)。如上所述，用戶手勢(shì)能夠由用戶接口 710使用視覺技術(shù)來識(shí)別。在步驟804中，手勢(shì)模塊722將輸入的手勢(shì)分解成基礎(chǔ)手勢(shì)，基礎(chǔ)手勢(shì)例示性地能夠是手臂在向左的方向上的移動(dòng)、手臂在向右的方向上的移動(dòng)、手臂在向上的方向上的移動(dòng)、手臂在向下的方向上的移動(dòng)等。所確定的基礎(chǔ)手勢(shì)然后與控制命令相關(guān)聯(lián)，控制命令被用于使用諸如正常播放模式、快進(jìn)、快退、慢的前進(jìn)動(dòng)作、慢的倒退動(dòng)作、暫停模式等例示性回放模式來選擇回放模式?；胤拍Ｊ侥軌蚴亲鳛閷?shí)時(shí)播放操作的實(shí)時(shí)回放模式?；胤拍Ｊ?也能夠是非實(shí)時(shí)回放模式，其使用諸如快進(jìn)、快退、慢動(dòng)作前進(jìn)、慢動(dòng)作倒退等回放模式。在示例性實(shí)施例中，手臂在向右的方向上的移動(dòng)指示前進(jìn)回放操作，而手臂在向左的方向上的移動(dòng)指示倒退回放操作。
[0102] 步驟806具有手勢(shì)模塊722確定基礎(chǔ)手勢(shì)的修飾符，其中，例示性的修飾符包括在手上所展示的手指的數(shù)量、手上的手指的位置、手的揮動(dòng)的數(shù)量、手的手指的移動(dòng)等。在例示性示例中，第一手指能夠指示第一回放速度，第二手指能夠指示第二回放速度，第三手指能夠指示第三回放速度，以此類推。理想地，修飾符對(duì)應(yīng)于比非實(shí)時(shí)更快或更慢的回放速度。
[0103] 在另一個(gè)例示性示例中，食指的位置能夠代表比實(shí)時(shí)回放速度快兩倍，中指的位置能夠代表比實(shí)時(shí)回放速度快四倍，無名指的位置能夠代表比實(shí)時(shí)回放速度快八倍，以此類推。
[0104] 對(duì)應(yīng)于不同修飾符的速度能夠是比實(shí)時(shí)速度更快和更慢的混合。在又一個(gè)例示性示例中，食指的位置能夠代表比實(shí)時(shí)回放速度快兩倍，而中指的位置能夠代表實(shí)時(shí)回放速度的一半。根據(jù)示例性原理，能夠使用速度的其他混合。
[0105] 在步驟808中，由手勢(shì)模塊722確定的修飾符與控制命令相關(guān)聯(lián)，控制命令根據(jù)步驟806確定回放模式的速度。在步驟810中，控制器714使用控制命令以修飾符所確定的速度、以所確定的回放模式來啟動(dòng)媒體的回放。根據(jù)所選擇的回放模式，媒體能夠以所確定的回放模式、經(jīng)由音頻處理器706和視頻處理器710輸出。
[0106] 在可選的實(shí)施例中，從快速操作到慢速動(dòng)作模式的改變能夠通過在向下的方向上移動(dòng)手臂來完成。即，用來引起快進(jìn)操作的基礎(chǔ)手勢(shì)現(xiàn)在將導(dǎo)致慢的前進(jìn)動(dòng)作操作，而導(dǎo)致快退操作的基礎(chǔ)手勢(shì)現(xiàn)在將導(dǎo)致慢動(dòng)作倒退操作。在另一個(gè)可選的實(shí)施例中，根據(jù)示例性原理，響應(yīng)于在向上的方向上移動(dòng)手臂的手勢(shì)來執(zhí)行基礎(chǔ)手勢(shì)從慢速操作到快速操作的改變。
[0107] 圖9展示用戶接口 900的示例性實(shí)施例，其示出用來控制媒體的回放的手臂和手的手勢(shì)的表示。用戶接口 900中的特定手勢(shì)示出使用一個(gè)手指的向右的手臂。向右的手臂移動(dòng) 的基礎(chǔ)手勢(shì)將指示媒體的快進(jìn)或慢動(dòng)作前進(jìn)回放，其中修飾符指示媒體應(yīng)當(dāng)以第一速度回放。圖10展示用戶接口 1000的示例性實(shí)施例，其示出向右移動(dòng)的手臂和手的手勢(shì)，其中媒體的回放將以第三速度進(jìn)行，第三速度對(duì)應(yīng)于三個(gè)手指作為修飾符的顯示。
[0108] 圖11展示例示用來控制媒體的回放的手臂和手的手勢(shì)的用戶接口 1100的示例性實(shí)施例。具體地，用戶接口 1100中的手勢(shì)是向左移動(dòng)的基礎(chǔ)手勢(shì)，其與作為快退或者慢動(dòng)作回顧的、基于倒退的模式的媒體回放相關(guān)。根據(jù)示例性原理，基于倒退的模式的速度是多個(gè) 速度中的第二速度。下面表格1示出根據(jù)所公開的原理的具有相關(guān)聯(lián)修飾符的基礎(chǔ)手勢(shì)。
[0109] 表格 1
[0110]
[0111]雖然在本文中已經(jīng)詳細(xì)地示出并描述了體現(xiàn)本公開的教導(dǎo)的實(shí)施例，但是本領(lǐng)域的那些技術(shù)人員能夠容易地設(shè)計(jì)出許多其他變化的實(shí)施例，其仍然體現(xiàn)這些教導(dǎo)。已經(jīng)描述了用于手勢(shì)識(shí)別的系統(tǒng)和方法的優(yōu)選實(shí)施例(其旨在是例示性的而不是限制性的），應(yīng)當(dāng) 注意，本領(lǐng)域的技術(shù)人員能夠根據(jù)上面的教導(dǎo)做出修改和變化。因此，應(yīng)當(dāng)理解，可以在所公開的本公開的具體實(shí)施例中進(jìn)行改變，其在由所附的權(quán)利要求書所給出的本公開的范圍內(nèi)。
【主權(quán)項(xiàng)】
1. 一種控制媒體回放的方法，包括：接收與用戶手勢(shì)相對(duì)應(yīng)的輸入(802); 將輸入的基礎(chǔ)手勢(shì)與對(duì)應(yīng)于回放模式的控制命令相關(guān)聯(lián)(804); 接收基礎(chǔ)手勢(shì)的修飾符(806); 將修飾符與控制命令相關(guān)聯(lián)(808);以及響應(yīng)于所述控制命令，根據(jù)相關(guān)聯(lián)的回放模式和修飾符來播放媒體(810)。2. 根據(jù)權(quán)利要求1所述的方法，還包括：將多個(gè)不同的修飾符中的一個(gè)與控制命令選擇性地相關(guān)聯(lián)；以及響應(yīng)于多個(gè)修飾符中的所選擇的一個(gè)來修改回放模式。3. 根據(jù)權(quán)利要求2所述的方法，還包括:選擇多個(gè)修飾符中的不同的一些來控制回放模式的方向和速度。4. 根據(jù)權(quán)利要求1所述的方法，其中，回放模式是從包括快進(jìn)操作、快退操作、慢動(dòng)作前進(jìn)操作和慢動(dòng)作倒退操作的分組中選擇出的至少一個(gè)模式。5. 根據(jù)權(quán)利要求1所述的方法，其中，基礎(chǔ)手勢(shì)是從包括向左邊的方向移動(dòng)手臂、向右邊的方向移動(dòng)手臂、在向上的方向上移動(dòng)手臂和在向下的方向上移動(dòng)手臂的分組中選擇出的至少一個(gè)手勢(shì)。6. 根據(jù)權(quán)利要求5所述的方法，其中，基礎(chǔ)手勢(shì)的修飾符是從包括展示至少一個(gè)手指、至少一個(gè)所展示手指的位置、至少一個(gè)手揮動(dòng)以及至少一個(gè)手指的至少一個(gè)移動(dòng)的分組中選擇出的至少一個(gè)元素。7. 根據(jù)權(quán)利要求6所述的方法，其中，展示至少一個(gè)手指還包括：展示一個(gè)手指表示回放速度的第一速度；展示兩個(gè)手指表示回放速度的第二速度；以及展示三個(gè)手指表示回放速度的第三速度。8. 根據(jù)權(quán)利要求6所述的方法，其中，展示至少一個(gè)手指還包括：在第一位置處展示手指表示處于第一回放速度的速度；在第二位置處展示手指表示處于第二回放速度的速度；以及在第三位置處展示手指表示處于第三回放速度的速度。9. 根據(jù)權(quán)利要求5所述的方法，其中，在向下的方向上移動(dòng)手臂將回放速度從快速操作改變成慢動(dòng)作操作。10. 根據(jù)權(quán)利要求5所述的方法，其中，在向上的方向上移動(dòng)手臂將回放速度從慢動(dòng)作操作改變成快速操作。11. 根據(jù)權(quán)利要求1所述的方法，其中，基礎(chǔ)手勢(shì)是向右的移動(dòng)手臂移動(dòng)，其指示回放模式是快進(jìn)操作，并且基礎(chǔ)手勢(shì)的修飾符是至少一個(gè)手指的顯示，其中使用所顯示手指的數(shù) 量來確定快進(jìn)操作的速度。12. 根據(jù)權(quán)利要求1所述的方法，其中，基礎(chǔ)手勢(shì)是向左的手臂移動(dòng)，其指示回放模式是快退操作，并且基礎(chǔ)手勢(shì)的修飾符是至少一個(gè)手指的顯示，其中使用所顯示手指的數(shù)量來確定快退操作的速度。13. 根據(jù)權(quán)利要求1所述的方法，其中，基礎(chǔ)手勢(shì)是向右的移動(dòng)手臂移動(dòng)，其指示回放模式是慢進(jìn)操作，并且基礎(chǔ)手勢(shì)的修飾符是至少一個(gè)手指的顯示，其中使用所顯示手指的數(shù) 量來確定慢進(jìn)操作的速度。14. 根據(jù)權(quán)利要求1所述的方法，其中，基礎(chǔ)手勢(shì)是向左的手臂移動(dòng)，其指示回放模式是慢退操作，并且基礎(chǔ)手勢(shì)的修飾符是至少一個(gè)手指的顯示，其中使用所顯示手指的數(shù)量來確定慢退操作的速度。15. -種用于控制媒體回放的裝置，包括：處理器；以及存儲(chǔ)器，耦合到處理器，所述存儲(chǔ)器用于存儲(chǔ)指令，所述指令在被處理器執(zhí)行時(shí)執(zhí)行以下操作：接收與用戶手勢(shì)相對(duì)應(yīng)的輸入(802); 將輸入的基礎(chǔ)手勢(shì)與對(duì)應(yīng)于回放模式的控制命令相關(guān)聯(lián)(804); 接收基礎(chǔ)手勢(shì)的修飾符(806); 將修飾符與控制命令相關(guān)聯(lián)(808);以及響應(yīng)于所述控制命令，根據(jù)相關(guān)聯(lián)的回放模式和修飾符來播放媒體(810)。16. 根據(jù)權(quán)利要求15所述的裝置，包括使處理器執(zhí)行以下操作的指令：將多個(gè)不同的修飾符中的一個(gè)與控制命令選擇性地相關(guān)聯(lián)；以及響應(yīng)于多個(gè)修飾符中的所選擇的一個(gè)來修改回放模式。17. 根據(jù)權(quán)利要求16所述的裝置，還包括使處理器執(zhí)行以下操作的指令:選擇多個(gè)修飾符中的不同的一些來控制回放模式的方向和速度。18. 根據(jù)權(quán)利要求15所述的裝置，其中，回放模式是從包括快進(jìn)操作、快退操作、慢動(dòng)作前進(jìn)操作和慢動(dòng)作倒退操作的分組中選擇出的至少一個(gè)模式。19. 根據(jù)權(quán)利要求15所述的裝置，其中，基礎(chǔ)手勢(shì)是從包括向左邊的方向移動(dòng)手臂、向右邊的方向移動(dòng)手臂、在向上的方向上移動(dòng)手臂和在向下的方向上移動(dòng)手臂的分組中選擇出的至少一個(gè)手勢(shì)。20. 根據(jù)權(quán)利要求19所述的裝置，其中，基礎(chǔ)手勢(shì)的修飾符是從包括展示至少一個(gè)手指、至少一個(gè)所展示手指的位置、至少一個(gè)手揮動(dòng)以及至少一個(gè)手指的至少一個(gè)移動(dòng)的分組中選擇出的至少一個(gè)元素。21. 根據(jù)權(quán)利要求20所述的裝置，其中，展示至少一個(gè)手指還包括：展示一個(gè)手指表示回放速度的第一速度；展示兩個(gè)手指表示回放速度的第二速度；以及展示三個(gè)手指表示回放速度的第三速度。22. 根據(jù)權(quán)利要求20所述的裝置，其中，展示至少一個(gè)手指還包括：在第一位置處展示手指表示處于第一回放速度的速度；在第二位置處展示手指表示處于第二回放速度的速度；以及在第三位置處展示手指表示處于第三回放速度的速度。23. 根據(jù)權(quán)利要求19所述的裝置，其中，在向下的方向上移動(dòng)手臂將回放速度從快速操作改變成慢動(dòng)作操作。24. 根據(jù)權(quán)利要求19所述的裝置，其中，在向上的方向上移動(dòng)手臂將回放速度從慢動(dòng)作操作改變成快速操作。25. 根據(jù)權(quán)利要求15所述的裝置，其中，基礎(chǔ)手勢(shì)是向右的移動(dòng)手臂移動(dòng)，其指示回放模式是快進(jìn)操作，并且基礎(chǔ)手勢(shì)的修飾符是至少一個(gè)手指的顯示，其中使用所顯示手指的數(shù)量來確定快進(jìn)操作的速度。26. 根據(jù)權(quán)利要求15所述的裝置，其中，基礎(chǔ)手勢(shì)是向左的手臂移動(dòng)，其指示回放模式是快退操作，并且基礎(chǔ)手勢(shì)的修飾符是至少一個(gè)手指的顯示，其中使用所顯示手指的數(shù)量來確定快退操作的速度。27. 根據(jù)權(quán)利要求15所述的裝置，其中，基礎(chǔ)手勢(shì)是向右的移動(dòng)手臂移動(dòng)，其指示回放模式是慢進(jìn)操作，并且基礎(chǔ)手勢(shì)的修飾符是至少一個(gè)手指的顯示，其中使用所顯示手指的數(shù)量來確定慢進(jìn)操作的速度。28. 根據(jù)權(quán)利要求15所述的裝置，其中，基礎(chǔ)手勢(shì)是向左的手臂移動(dòng)，其指示回放模式是慢退操作，并且基礎(chǔ)手勢(shì)的修飾符是至少一個(gè)手指的顯示，其中使用所顯示手指的數(shù)量來確定慢退操作的速度。
【文檔編號(hào)】G06K9/00GK105980963SQ201580007424
【公開日】2016年9月28日
【申請(qǐng)日】2015年1月7日
【發(fā)明人】S.K.韋斯特布魯克, J.M.諾古埃羅爾
【申請(qǐng)人】湯姆遜許可公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：S.K.韋斯特布魯克;J.M.諾古埃羅爾;
技術(shù)所有人：湯姆遜許可公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

手勢(shì)識(shí)別控制系統(tǒng)論文相關(guān)技術(shù)

手勢(shì)控制系統(tǒng)相關(guān)技術(shù)

手勢(shì)識(shí)別控制系統(tǒng)相關(guān)技術(shù)

寶馬手勢(shì)控制系統(tǒng)相關(guān)技術(shù)

多媒體中央控制系統(tǒng)相關(guān)技術(shù)

多媒體控制系統(tǒng)相關(guān)技術(shù)

多媒體集中控制系統(tǒng)相關(guān)技術(shù)

智能多媒體控制系統(tǒng)相關(guān)技術(shù)

數(shù)字媒體控制系統(tǒng)相關(guān)技術(shù)

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

使用手勢(shì)控制媒體回放的系統(tǒng)和方法