專利名稱:信息處理方法和信息處理設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于響應(yīng)于聲音開始拍攝圖像的技術(shù)。
背景技術(shù):
已知 一種具有在檢測(cè)到大于 一 定水平的音量時(shí)執(zhí)行圖像 拍攝的功能(以下稱為音量檢測(cè)快門功能)的照相機(jī)(日本特開
平11-194392號(hào)公報(bào))。利用該功能使得能夠在發(fā)音時(shí)拍攝圖像。 此外,已知 一 種具有在識(shí)別出用于拍攝圖像的語(yǔ)音命令時(shí) 執(zhí)行圖像拍攝的功能(以下稱為語(yǔ)音識(shí)別快門功能)的照相機(jī) (曰本特開2006-184589號(hào)公報(bào))。利用該功能使得能夠在用戶期 望拍攝圖像且發(fā)音時(shí)拍攝圖像。這里,當(dāng)利用具有語(yǔ)音識(shí)別快 門功能的照相機(jī)拍攝圖像時(shí),即使用戶發(fā)出了用于拍攝圖像的 語(yǔ)音命令,在用戶完全發(fā)出用于拍攝圖像的語(yǔ)音命令之前也不 執(zhí)行照相機(jī)的攝像操作。因此,可能錯(cuò)失期望拍攝圖像的時(shí)機(jī)。 相反,當(dāng)利用具有現(xiàn)有的音量檢測(cè)快門功能的照相機(jī)拍攝 圖像時(shí),可以響應(yīng)于發(fā)出語(yǔ)音的時(shí)刻執(zhí)行攝像操作。然而,在 這種情況下,即使當(dāng)檢測(cè)到例如除期望的語(yǔ)音以外的大的噪聲 等聲音時(shí),也執(zhí)行攝像操作。因此,存在可能存儲(chǔ)不期望的圖 像的情況。
例如,通過使照相4幾進(jìn)行下面的處理可以解決上述問題 根據(jù)用戶說出的單詞"Shoot"(拍攝)在用戶期望的時(shí)刻拍攝圖像 的處理和根據(jù)語(yǔ)音命令"Delete"(刪除)刪除拍攝到的圖像的處 理。然而,輸入兩個(gè)不同的語(yǔ)音命令導(dǎo)致效率不高。
根據(jù)現(xiàn)有的例子做出了本發(fā)明。根據(jù)本發(fā)明,按照單個(gè)語(yǔ) 音命令,高效地對(duì)在反映輸入了特定聲音的時(shí)刻的時(shí)刻拍攝的且作為用戶期望的圖像的圖像進(jìn)行存儲(chǔ)。
發(fā)明內(nèi)容
為了高效地存儲(chǔ)這種圖像,例如,根據(jù)本發(fā)明的數(shù)據(jù)轉(zhuǎn)換 設(shè)備具有下面的結(jié)構(gòu)。
根據(jù)本發(fā)明的實(shí)施例, 一種信息處理方法包括檢測(cè)滿足 預(yù)先設(shè)置的標(biāo)準(zhǔn)的第 一 聲音的開始,并且響應(yīng)于檢測(cè)到所述第 一聲音的開始,獲得圖像數(shù)據(jù),或者檢測(cè)所述第一聲音的結(jié)束, 并且響應(yīng)于檢測(cè)到所述第一聲音的結(jié)束,獲得圖像數(shù)據(jù);將獲 得的所述圖像數(shù)據(jù)存儲(chǔ)在存儲(chǔ)器中;以及根據(jù)所述第 一 聲音的 內(nèi)容,判斷所述圖像數(shù)據(jù)是否是要存儲(chǔ)的數(shù)據(jù)。
根據(jù)本發(fā)明的另一實(shí)施例, 一種信息處理設(shè)備包括第一 檢測(cè)單元,用于檢測(cè)滿足預(yù)先設(shè)置的標(biāo)準(zhǔn)的聲音的開始;第一 獲得單元,用于響應(yīng)于檢測(cè)到所述聲音的開始,獲得第一圖像 數(shù)據(jù);第一存儲(chǔ)控制單元,用于將所述第一圖像數(shù)據(jù)存儲(chǔ)在存 儲(chǔ)器中;第二檢測(cè)單元,用于檢測(cè)所述聲音的結(jié)束;第二獲得 單元,用于響應(yīng)于檢測(cè)到所述聲音的結(jié)束,獲得第二圖像數(shù)據(jù); 第二存儲(chǔ)控制單元,用于將所述第二圖像數(shù)據(jù)存儲(chǔ)在所述存儲(chǔ)
器中;以及確定單元,用于根據(jù)所述聲音的內(nèi)容,將所述第一 圖像數(shù)據(jù)和所述第二圖像數(shù)據(jù)中的 一 個(gè)確定為是要存儲(chǔ)的數(shù) 據(jù),并且將所述第 一 圖像數(shù)據(jù)和所述第二圖像數(shù)據(jù)中的另 一 個(gè) 確定為是要?jiǎng)h除的數(shù)據(jù)。
根據(jù)本發(fā)明的另一實(shí)施例, 一種信息處理方法包括檢測(cè) 滿足預(yù)先設(shè)置的標(biāo)準(zhǔn)的聲音的開始;響應(yīng)于檢測(cè)到所述聲音的 開始,獲得第一圖像數(shù)據(jù);存儲(chǔ)所述第一圖像數(shù)據(jù);檢測(cè)所述 聲音的結(jié)束;響應(yīng)于檢測(cè)到所述聲音的結(jié)束,獲得第二圖像數(shù) 據(jù);存儲(chǔ)所述第二圖像數(shù)據(jù);以及根據(jù)所述聲音的內(nèi)容,將所述第 一 圖像數(shù)據(jù)和所述第二圖像數(shù)據(jù)中的 一 個(gè)確定為是要存儲(chǔ) 的數(shù)據(jù),并且將所述第 一 圖像數(shù)據(jù)和所述第二圖像數(shù)據(jù)中的另 一個(gè)確定為是要?jiǎng)h除的數(shù)據(jù)。
根據(jù)本發(fā)明的另一實(shí)施例, 一種信息處理設(shè)備包括攝像 單元,用于響應(yīng)于聲音的輸入來拍攝圖像,其中,所述圖像是 要存儲(chǔ)的圖像的候選圖像;存儲(chǔ)控制單元,用于將拍攝到的所 述圖像存儲(chǔ)在存儲(chǔ)器中;以及確定單元,用于根據(jù)所述聲音的 內(nèi)容,從存儲(chǔ)在所述存儲(chǔ)器中的圖像中確定作為要存儲(chǔ)的圖像 的圖像。
通過以下參考附圖對(duì)典型實(shí)施例的說明,本發(fā)明的其它特 征將變得明顯。
圖1是示出根據(jù)本發(fā)明第 一 實(shí)施例的信息處理設(shè)備的結(jié)構(gòu) 的例子的功能框圖2A和2B是本發(fā)明第 一 實(shí)施例所使用的數(shù)字照相機(jī)的外 視圖3是示出通過語(yǔ)音檢測(cè)單元所確定的狀態(tài)的例子的圖4是示出語(yǔ)音檢測(cè)單元的操作的例子的概略圖5是由語(yǔ)音檢測(cè)單元進(jìn)行的處理操作的流程圖6是示出在通過語(yǔ)音命令拍攝圖像時(shí)由數(shù)字照相機(jī)進(jìn)行
的處理的例子的第一流程圖7是示出在通過語(yǔ)音命令拍攝圖像時(shí)由數(shù)字照相機(jī)進(jìn)行
的處理的例子的第二流程圖8是示出在通過語(yǔ)音命令拍攝圖像時(shí)由數(shù)字照相機(jī)進(jìn)行
的處理的例子的第三流程圖9是示出本發(fā)明第一實(shí)施例所利用的語(yǔ)音識(shí)別語(yǔ)法的例子的圖10是示出識(shí)別結(jié)果控制表的例子的圖ll是示出利用根據(jù)本發(fā)明第 一 實(shí)施例的數(shù)字照相機(jī)通過語(yǔ)音命令"Shoot"來拍攝圖像的情況下的操作的圖12是示出利用根據(jù)本發(fā)明第 一 實(shí)施例的數(shù)字照相機(jī)通過語(yǔ)音命令"Cheese"(笑 一 笑)來拍攝圖像的情況下的操作的圖13是僅在檢測(cè)到的發(fā)音開始的時(shí)刻拍攝圖像的情況下的流程圖14A和14B是示出由信息處理設(shè)備進(jìn)行的處理操作的例子的第一流程圖15是示出由信息處理設(shè)備進(jìn)行的處理操作的例子的第二流程圖16是示出根據(jù)本發(fā)明第二實(shí)施例的信息處理設(shè)備的結(jié)構(gòu)的例子的功能框圖。
具體實(shí)施例方式
下面,參考
根據(jù)本發(fā)明的實(shí)施例。
圖1是示出作為根據(jù)第 一 實(shí)施例的信息處理設(shè)備的結(jié)構(gòu)的
例子的數(shù)字照相機(jī)的功能框圖。
在圖l中,數(shù)字照相機(jī)200包括控制單元101、才喿作單元102、
攝像單元103、存儲(chǔ)器(用于存儲(chǔ)圖像)110和存儲(chǔ)介質(zhì)(用于存儲(chǔ)
圖像)lll。
此外,數(shù)字照相機(jī)200包括麥克風(fēng)112、存儲(chǔ)器(用于存儲(chǔ)語(yǔ)音識(shí)別數(shù)據(jù))113、存儲(chǔ)器(用于存儲(chǔ)識(shí)別結(jié)果控制表)114和顯示器115。下面,將對(duì)上述單元進(jìn)行具體說明。
控制單元101對(duì)操作單元102、攝像單元103、存儲(chǔ)器(用于存儲(chǔ)圖像)IIO、存儲(chǔ)介質(zhì)(用于存儲(chǔ)圖像)lll、麥克 112、存儲(chǔ)器(用于存儲(chǔ)語(yǔ)音識(shí)別數(shù)據(jù))113、存儲(chǔ)器(用于存儲(chǔ)識(shí)別結(jié)果控制表)114和顯示器115的操作進(jìn)行控制。
這里,將在后面說明由控制單元101進(jìn)4亍的處理。
此外,控制單元101包括中央處理單元(CPU)、只讀存儲(chǔ)器(ROM)和隨機(jī)存取存儲(chǔ)器(RAM)等。
此外,控制單元101包括作為軟件模塊的操作控制單元122、攝像控制單元123、圖像存儲(chǔ)控制單元104、語(yǔ)音輸入單元105、語(yǔ)音檢測(cè)單元106、語(yǔ)音識(shí)別單元107、識(shí)別結(jié)果處理單元108和顯示控制單元109。
操作控制單元122是用于檢測(cè)用戶對(duì)操作單元102進(jìn)行的操作的單元。
攝像控制單元123是用于使攝像單元103執(zhí)行攝像操作的單元。
圖像存儲(chǔ)控制單元10 4控制將數(shù)據(jù)寫入存儲(chǔ)器(用于存儲(chǔ)圖像)110和存儲(chǔ)介質(zhì)(用于存儲(chǔ)圖像)lll,并且控制從存儲(chǔ)器(用于存儲(chǔ)圖像)110和存儲(chǔ)介質(zhì)(用于存儲(chǔ)圖像)lll讀取數(shù)據(jù)和刪除數(shù)據(jù)等。
語(yǔ)音輸入單元105是用于將通過麥克風(fēng)112輸入的聲音轉(zhuǎn)換成數(shù)字音頻信號(hào)并輸出該數(shù)字音頻信號(hào)的單元。
語(yǔ)音檢測(cè)單元106以一幀為單位,連續(xù)處理從語(yǔ)音輸入單元10 5提供的數(shù)字音頻信號(hào),并且檢測(cè)滿足標(biāo)準(zhǔn)的對(duì)象聲音。
也就是說,語(yǔ)音^r測(cè)單元106從所接收到的音頻信號(hào)中識(shí)別與對(duì)象聲音相對(duì)應(yīng)的時(shí)間卓殳。具體地,語(yǔ)音才企測(cè)單元106以一幀為單位,連續(xù)處理音頻信號(hào),并且將從檢測(cè)到滿足開始條件的音頻信號(hào)起直到檢測(cè)到滿足結(jié)束條件的音頻信號(hào)為止的音頻信號(hào)的區(qū)間識(shí)別為對(duì)象聲音。這里,對(duì)象聲音為例如發(fā)音、鼓掌聲或口哨聲。以下,將說明對(duì)象聲音是發(fā)音的情況。另外,"檢測(cè)到發(fā)音開始"意為檢測(cè)到滿足開始條件的音頻信號(hào),并且"檢測(cè)到發(fā)音結(jié)束"意為檢測(cè)到滿足結(jié)束條件的音頻信號(hào)。
這里,發(fā)音期間包括在用戶發(fā)音的期間(時(shí)間段)內(nèi),并且是從檢測(cè)到發(fā)音開始時(shí)起直到檢測(cè)到發(fā)音結(jié)束時(shí)為止的時(shí)間段。
這里,幀是用于將隨著時(shí)間改變的音頻信號(hào)分割成各自具
有固定時(shí)間長(zhǎng)度(例如,25.6毫秒)的區(qū)間的處理單位。這里,可以使用相應(yīng)數(shù)量的幀表示時(shí)間。
語(yǔ)音識(shí)別單元107包括作為軟件模塊的聲學(xué)分析單元和搜索單元,并且識(shí)別包括在用戶發(fā)音的時(shí)間段中的命令(稱之為語(yǔ)音命令)。
這里,命令是可以由語(yǔ)音識(shí)別單元107識(shí)別的聲音的組合。該命令的例子有"Shoot"。
聲學(xué)分析單元以一幀為單位分析音頻信號(hào),并且輸出例如梅爾頻率倒"i普系凄t(Mel frequency cepstrum coefficient, MFCC)
等特征數(shù)據(jù)。
搜索單元使用維特比(Viterbi)算法等現(xiàn)有算法進(jìn)行搜索處理,并且輸出預(yù)定數(shù)量的命令和相應(yīng)的識(shí)別得分,作為識(shí)別結(jié)果。
此外,在執(zhí)行搜索處理時(shí),搜索單元使用包括在存儲(chǔ)器(用于存儲(chǔ)語(yǔ)音識(shí)別數(shù)據(jù))113中的聲學(xué)模型和語(yǔ)言模型。這里,將在后面具體說明聲學(xué)模型和語(yǔ)言模型。這里,識(shí)別得分可以是表示聲學(xué)相似度的現(xiàn)有聲學(xué)得分、從語(yǔ)言模型獲得的現(xiàn)有語(yǔ)言得分、或加權(quán)聲學(xué)得分和加權(quán)語(yǔ)言
得分的總和。此外,識(shí)別得分可以是表示識(shí)別結(jié)果的置信度的現(xiàn)有置信度得分。這里,可以通過使用不同得分或多種得分對(duì)各種聲音執(zhí)行適當(dāng)?shù)乃阉魈幚怼?br>
識(shí)別結(jié)果處理單元108獲得由語(yǔ)音識(shí)別單元107輸出的識(shí)別結(jié)果,并且通過參考存儲(chǔ)在存儲(chǔ)器(用于存儲(chǔ)識(shí)別結(jié)果控制表)114中的識(shí)別結(jié)果控制表,確定與包括在識(shí)別結(jié)果中的命令相對(duì)應(yīng)的控制。
這里,將在后面說明第 一 實(shí)施例中所使用的識(shí)別結(jié)果控制表的例子。
顯示控制單元109控制顯示在顯示器115上的顯示內(nèi)容。
操作單元102是用戶手動(dòng)操作數(shù)字照相機(jī)200的單元。
這里,操作單元102包括按鈕或開關(guān)等。
攝像單元103生成通過鏡頭所形成的圖像的攝像信號(hào),并且對(duì)所生成的攝像信號(hào)進(jìn)行模擬-數(shù)字(A/D)轉(zhuǎn)換等圖像處理。
這里,攝像單元103包括鏡頭和攝像傳感器等。
存儲(chǔ)器(用于存儲(chǔ)圖像)110臨時(shí)存儲(chǔ)由攝像單元103所拍攝的圖像的圖像數(shù)據(jù)。這里,存儲(chǔ)器(用于存儲(chǔ)圖像)110是RAM等。
在數(shù)字照相機(jī)200所進(jìn)行的處理結(jié)束時(shí),存儲(chǔ)介質(zhì)(用于存儲(chǔ)圖像)111存儲(chǔ)由攝像單元103所拍攝的圖像的圖像數(shù)據(jù)。這里,存儲(chǔ)介質(zhì)(用于存儲(chǔ)圖像)lll是非易失性存儲(chǔ)器。
存儲(chǔ)器(用于存儲(chǔ)圖像)110用作第一存儲(chǔ)器,并且存儲(chǔ)介質(zhì)(用于存儲(chǔ)圖像)lll用作第二存儲(chǔ)器。
麥克風(fēng)112接收輸入的用戶語(yǔ)音,并將輸入的語(yǔ)音數(shù)據(jù)輸出至語(yǔ)音輸入單元105。
這里,麥克風(fēng)112是現(xiàn)有的單聲道麥克風(fēng)或現(xiàn)有的立體聲麥克風(fēng)等。
存儲(chǔ)器(用于存儲(chǔ)語(yǔ)音識(shí)別數(shù)據(jù))113存儲(chǔ)用以執(zhí)行語(yǔ)音識(shí)別的數(shù)據(jù)、例如隱馬爾可夫模型(hidden Markov model, HMM)等現(xiàn)有聲學(xué)模型和N-gram或隨機(jī)語(yǔ)法等現(xiàn)有語(yǔ)言模型。
這里,N-gram是通過使用N個(gè)單詞鏈概率來計(jì)算語(yǔ)言概率 的語(yǔ)言模型。
此外,可以使用寫入了能在語(yǔ)音識(shí)別中識(shí)別出的特定單詞 和單詞之間的連接j見則的語(yǔ)音識(shí)別語(yǔ)法,作為語(yǔ)言才莫型。這里,
將在后面說明第 一 實(shí)施例所使用的語(yǔ)音識(shí)別語(yǔ)法的例子。
此外,存儲(chǔ)器(用于存儲(chǔ)語(yǔ)音識(shí)別數(shù)據(jù))113是非易失性存儲(chǔ) 器等。
存儲(chǔ)器(用于存儲(chǔ)識(shí)別結(jié)果控制表)114存儲(chǔ)識(shí)別結(jié)果控制 表。此外,存儲(chǔ)器(用于存儲(chǔ)識(shí)別結(jié)果控制表)114是非易失性存儲(chǔ)器。
這里,將在后面說明第一實(shí)施例所使用的識(shí)別結(jié)果控制表 的例子。
這里,這種非易失性存儲(chǔ)器可以是現(xiàn)有的硬盤、現(xiàn)有的緊 湊型閃存卡或安全凄t字(Secure Digital, SD)卡等。
此外,這種非易失性存儲(chǔ)器還可以是緊湊型光盤(CD)或數(shù) 字多功能光盤(DVD)。
此外,這種非易失性存儲(chǔ)器還可以是能通過局域網(wǎng)(LAN) 適配器或通用串行總線(USB)適配器等接口連接至信息處理設(shè) 備的外部存儲(chǔ)介質(zhì)。
顯示器115顯示由攝像單元103所拍攝的圖像以及存儲(chǔ)在 信息處理設(shè)備和存儲(chǔ)介質(zhì)(用于存儲(chǔ)圖像)lll等中的圖像。
此外,顯示器115為例如液晶顯示器(LCD)或有機(jī)電致發(fā)光 (electroluminescence, EL)顯示器等。
圖2 A和2 B是根據(jù)本發(fā)明第 一 實(shí)施例的數(shù)字照相機(jī)的外視 圖。這里,圖2A是數(shù)字照相機(jī)200的正面的外視圖。圖2B是數(shù) 字照相機(jī)200的背面的外#見圖。這里,通過相同的附圖標(biāo)記表示與圖1所示的組件相同的 組件,并且將省略對(duì)其的說明。
在圖2A和2B中,數(shù)字照相機(jī)200包括快門按鈕201、語(yǔ)音快 門on-off(打開-關(guān)閉)開關(guān)202、模式撥盤203、四向選擇按鈕204、 確定按鈕205、電源按4丑206和記錄按4丑207。這些組件對(duì)應(yīng)于圖 l所示的操作單元102。
下面,將說明數(shù)字照相機(jī)200的各種單元。 快門按鈕201是用于發(fā)出拍攝圖像的命令的快門按鈕。 語(yǔ)音快門on-off開關(guān)202是對(duì)于是否使用用于根據(jù)語(yǔ)音命 令執(zhí)行攝像操作的功能進(jìn)行切換的開關(guān)。
模式撥盤203是用于通過旋轉(zhuǎn)將數(shù)字照相機(jī)200的操作模 式切換成現(xiàn)有的拍攝模式和現(xiàn)有的重放模式等中的一個(gè)的模式 撥盤。
四向選擇按鈕204是用于輸入垂直或水平移動(dòng)某物的命令 的四向選擇4要4丑。
確定按鈕205是用于執(zhí)行特定操作的按鈕。
電源按鈕206是用于打開/關(guān)閉數(shù)字照相機(jī)200的電源的電 源按鈕。
記錄按鈕207是用于手動(dòng)輸入輸入語(yǔ)音的開始和結(jié)束的按鈕。
接著,將具體說明語(yǔ)音檢測(cè)單元106的功能。 語(yǔ)音檢測(cè)單元106檢測(cè)滿足第 一預(yù)定標(biāo)準(zhǔn)(開始條件)的聲
音。當(dāng)語(yǔ)音檢測(cè)單元10 6檢測(cè)到滿足第 一 預(yù)定標(biāo)準(zhǔn)(開始條件)
的聲音時(shí),語(yǔ)音檢測(cè)單元106進(jìn)行用于檢測(cè)滿足第二預(yù)定標(biāo)準(zhǔn)的
聲音的檢測(cè)操作。
在從檢測(cè)到滿足第 一預(yù)定標(biāo)準(zhǔn)(開始條件)的聲音時(shí)開始過
去了預(yù)先設(shè)置的時(shí)間之后,語(yǔ)音檢測(cè)單元10 6判斷為檢測(cè)到的聲音是滿足第二預(yù)定標(biāo)準(zhǔn)的聲音。
語(yǔ)音檢測(cè)單元10 6根據(jù)輸入的音頻信號(hào)的變化,判斷為檢 測(cè)到的聲音不是滿足第 一 預(yù)定標(biāo)準(zhǔn)(開始條件)的聲音。也就是 說,語(yǔ)音檢測(cè)單元10 6取消用于檢測(cè)滿足第 一 預(yù)定標(biāo)準(zhǔn)的聲音的 檢測(cè)操作。
類似地,語(yǔ)音纟企測(cè)單元10 6檢測(cè)不滿足第二預(yù)定標(biāo)準(zhǔn)(結(jié)束 條件)的聲音。當(dāng)語(yǔ)音檢測(cè)單元10 6檢測(cè)到不滿足第二預(yù)定標(biāo)準(zhǔn) (結(jié)束條件)的聲音時(shí),語(yǔ)音檢測(cè)單元10 6進(jìn)行用于檢測(cè)不滿足第 二預(yù)定標(biāo)準(zhǔn)的聲音的檢測(cè)操作。
在從檢測(cè)到不滿足第二預(yù)定標(biāo)準(zhǔn)(結(jié)束條件)的聲音時(shí)開始 過去了預(yù)先設(shè)置的時(shí)間之后,語(yǔ)音檢測(cè)單元106判斷為檢測(cè)到的 聲音不是滿足第二預(yù)定標(biāo)準(zhǔn)的聲音。
語(yǔ)音檢測(cè)單元10 6根據(jù)輸入的音頻信號(hào)的變化,判斷為檢 測(cè)到的聲音是滿足第二預(yù)定標(biāo)準(zhǔn)(結(jié)束條件)的聲音。也就是說, 語(yǔ)音檢測(cè)單元106取消用于檢測(cè)不滿足第二預(yù)定標(biāo)準(zhǔn)的聲音的 檢測(cè)纟喿作。
圖3是示出由語(yǔ)音檢測(cè)單元106所確定的檢測(cè)狀態(tài)的例子的圖。
語(yǔ)音檢測(cè)單元106根據(jù)音頻信號(hào)的檢測(cè)狀況,從所處的四 種狀態(tài)中的一種狀態(tài)改變成另 一狀態(tài)。
第 一狀態(tài)301是緊挨在開始輸入聲音之后進(jìn)入的狀態(tài),即 沒有檢測(cè)到發(fā)音的狀態(tài)(以下將該狀態(tài)稱為無聲(SILENCE))。
第二狀態(tài)302是進(jìn)行了用于檢測(cè)滿足預(yù)定標(biāo)準(zhǔn)的發(fā)音的開 始的檢測(cè)操作但是未設(shè)置發(fā)音開始的狀態(tài)(以下將該狀態(tài)稱為 可能語(yǔ)音(POSSIBLE SPEECH))。
第三狀態(tài)303是設(shè)置了滿足預(yù)定標(biāo)準(zhǔn)的發(fā)音的開始的狀態(tài) (以下將該狀態(tài)稱為語(yǔ)音(SPEECH))。第四狀態(tài)3 04是進(jìn)行了用于檢測(cè)滿足預(yù)定標(biāo)準(zhǔn)的發(fā)音的結(jié) 束的檢測(cè)操作的狀態(tài)但未設(shè)置發(fā)音結(jié)束的狀態(tài)(以下將該狀態(tài) 稱為可能無聲(POSSIBLE SILENCE))。
這里,在第一實(shí)施例中說明了將發(fā)音的檢測(cè)狀況(以下簡(jiǎn)稱 為"聲音檢測(cè)狀況,,)分成四種狀態(tài)的例子。然而,即使組合第二 狀態(tài)302和第四狀態(tài)304,將聲音檢測(cè)狀況分成三種狀態(tài),并且 判斷為聲音檢測(cè)狀況是三種狀態(tài)中的 一種,也獲得與第 一 實(shí)施 例的效果相同的效果。
在第一狀態(tài)301下,如果進(jìn)行了用于才企測(cè)發(fā)音開始的^r測(cè) 操作(如果進(jìn)行了用于檢測(cè)從麥克風(fēng)112輸入的且滿足預(yù)定標(biāo)準(zhǔn) 的發(fā)音的輸入開始的檢測(cè)操作),則檢測(cè)狀態(tài)改變成第二狀態(tài) 302。以附圖標(biāo)記305表示該操作。
在第二狀態(tài)302下,如果取消用于檢測(cè)發(fā)音開始的檢測(cè)操 作,則4僉測(cè)狀態(tài)改變成第一狀態(tài)301。以附圖標(biāo)記306表示該操: 作。
此外,在第二狀態(tài)302下,如果設(shè)置了發(fā)音開始,則檢測(cè) 狀態(tài)改變成第三狀態(tài)303。以附圖標(biāo)記307表示該」操作。
在第三狀態(tài)303下,如果進(jìn)行了用于^r測(cè)發(fā)音結(jié)束的檢測(cè) 操作(如果進(jìn)行了結(jié)束從麥克風(fēng)112輸入的且滿足預(yù)定標(biāo)準(zhǔn)的發(fā) 音的輸入),則檢測(cè)狀態(tài)改變成第四狀態(tài)304。以附圖標(biāo)記308 表示該操作。
在第四狀態(tài)304下,如果取消用于檢測(cè)發(fā)音結(jié)束的檢測(cè)操 作,則檢測(cè)狀態(tài)改變成第三狀態(tài)303。以附圖標(biāo)記309表示該操作。
此外,在第四狀態(tài)304下,如果設(shè)置了滿足預(yù)定標(biāo)準(zhǔn)的發(fā) 音的結(jié)束,則結(jié)束用于檢測(cè)發(fā)音的檢測(cè)操作。以附圖標(biāo)記310 表示該操作。當(dāng)在第四狀態(tài)304下設(shè)置了發(fā)音結(jié)束時(shí),結(jié)束用于檢測(cè)發(fā) 音的檢測(cè)操作。因此,在進(jìn)行后面將說明的語(yǔ)音識(shí)別處理時(shí), 可以抑制用于進(jìn)行語(yǔ)音檢測(cè)處理的計(jì)算量和功耗等。
這里,在第四狀態(tài)304下設(shè)置了發(fā)音結(jié)束的情況下,檢測(cè) 狀態(tài)可以改變成第一狀態(tài)301。
檢測(cè)狀態(tài)從第四狀態(tài)304改變成第 一狀態(tài)30H吏得能夠連 續(xù)進(jìn)行用于檢測(cè)下一發(fā)音的檢測(cè)操作。
圖4是示出由語(yǔ)音檢測(cè)單元106進(jìn)行的處理的例子的概略圖。
圖4示出用戶說出單詞"Shoot"的情況。
這里,"Shoot"是用于開始拍攝圖像的命令的例子。下面將 說明命令的內(nèi)容。
在圖4中,以附圖標(biāo)記420表示音頻信號(hào)。
此外,以附圖標(biāo)記421表示音頻信號(hào)420的區(qū)間。區(qū)間421 中的音頻信號(hào)不是用戶發(fā)音的音頻信號(hào),而是檢測(cè)到的噪聲的 音頻信號(hào)。
此外,以附圖標(biāo)記422表示音頻信號(hào)420的區(qū)間。區(qū)間422 中的音頻信號(hào)表示由用戶說出的"Shoot"的聲音。
根據(jù)第 一 實(shí)施例的語(yǔ)音檢測(cè)單元10 6進(jìn)行用于檢測(cè)發(fā)音音 量的檢測(cè)操作,其中,在判斷發(fā)音是否滿足預(yù)定標(biāo)準(zhǔn)時(shí)使用該 音量。
這里,如果發(fā)音的音量變得大于或等于預(yù)定閾值,則進(jìn)行 用于檢測(cè)發(fā)音開始的檢測(cè)操作,并且如果該音量變得小于預(yù)定 閾值,則進(jìn)行用于檢測(cè)發(fā)音結(jié)束的檢測(cè)操作。也就是說,發(fā)音 滿足開始條件的狀態(tài)意為發(fā)音的音量變得大于或等于預(yù)定閾值 的狀態(tài)。同時(shí),發(fā)音滿足結(jié)束條件的狀態(tài)意為發(fā)音的音量變得 小于預(yù)定閾值的狀態(tài)。在圖4中,以附圖標(biāo)記401表示利用現(xiàn)有方法從音頻信號(hào) 420獲得的音量(E(t))。以附圖標(biāo)記402表示進(jìn)行用于檢測(cè)發(fā)音開 始的檢測(cè)操作所使用的閾值(T H1)。以附圖標(biāo)記403表示進(jìn)行用 于檢測(cè)發(fā)音結(jié)束的檢測(cè)操作所使用的閾值(TH2)。
這里,E(t)表示在時(shí)刻t開始的幀處的音量。
也就是說,如果在第一狀態(tài)301下音量E(t)^THl,則進(jìn)行用 于檢測(cè)發(fā)音開始的檢測(cè)操作,并且如果在第三狀態(tài)303下音量 E(t) <TH2,則進(jìn)行用于檢測(cè)發(fā)音結(jié)束的檢測(cè)操作。
此外,可以4吏用相同的閾值(TH1 = TH2)來進(jìn)4亍用于4企測(cè)發(fā) 音開始和發(fā)音結(jié)束的檢測(cè)操作。
此外,如果預(yù)定數(shù)量的幀滿足進(jìn)行用于檢測(cè)發(fā)音開始的檢 測(cè)操作所使用的條件(E(t)^THl),則設(shè)置發(fā)音開始。
類似地,如果預(yù)定數(shù)量的幀滿足進(jìn)行用于檢測(cè)發(fā)音結(jié)束的 檢測(cè)操作所使用的條件(E(t) < TH2),則設(shè)置發(fā)音結(jié)束。
在第一實(shí)施例中,以D1(例如,4個(gè)幀)表示用以設(shè)置發(fā)音開 始的幀的數(shù)量,并且以D2(例如,6個(gè)幀)表示用以設(shè)置發(fā)音結(jié)束 的幀的數(shù)量。
因此,如果在檢測(cè)狀態(tài)改變成第二狀態(tài)302之后一企測(cè)到Dl 個(gè)幀滿足E(t)^THl,則設(shè)置發(fā)音開始,并且檢測(cè)狀態(tài)改變成第 三狀態(tài)303。
此外,如果在4企測(cè)狀態(tài)改變成第二狀態(tài)302之后且在4企測(cè) 到Dl個(gè)幀之前音量變成E(t) < TH1,則檢測(cè)狀態(tài)改變成第一狀 態(tài)301。
這里,用于將^r測(cè)狀態(tài)從第二狀態(tài)302改變成第一狀態(tài)301 的處理對(duì)應(yīng)于取消用于檢測(cè)發(fā)音開始的檢測(cè)操作的處理。
類似地,如果在檢測(cè)狀態(tài)改變成第四狀態(tài)304之后檢測(cè)到 D2個(gè)幀滿足E(t)〈TH2,則設(shè)置發(fā)音結(jié)束,并且結(jié)束語(yǔ)音檢測(cè)。此外,如果在檢測(cè)狀態(tài)改變成第四狀態(tài)304之后且在檢測(cè) 到D2個(gè)幀之前音量變成E(t)^TH2,則^r測(cè)狀態(tài)改變成第三狀態(tài) 303。
這里,用于將檢測(cè)狀態(tài)從第四狀態(tài)304改變成第三狀態(tài)303 的處理對(duì)應(yīng)于取消用于檢測(cè)發(fā)音結(jié)束的檢測(cè)操作的處理。
這里,作為用以設(shè)置發(fā)音開始的幀的數(shù)量的D1通常小于作 為用以設(shè)置發(fā)音結(jié)束的幀的數(shù)量的D2;然而,它們可以是相同 的(D1-D2)。
以附圖標(biāo)記43 0表示對(duì)于音頻信號(hào)42 0的語(yǔ)音4全測(cè)單元10 6 的檢測(cè)狀態(tài)。
第 一 狀態(tài)3 01是開始語(yǔ)音輸入之后的狀態(tài)。
在音量401變得大于或等于閾值TH1的時(shí)刻tl開始的幀處, 進(jìn)行用于檢測(cè)發(fā)音開始的檢測(cè)操作。以附圖標(biāo)記404表示該操 作。檢測(cè)狀態(tài)改變成第二狀態(tài)302。
在檢測(cè)狀態(tài)已改變成第二狀態(tài)302之后幀的數(shù)量變成D1之 前的時(shí)刻t2開始的幀處,音量401變得小于閾值TH1。因此,取 消用于檢測(cè)發(fā)音開始的檢測(cè)操作。以附圖標(biāo)記40 5表示該操作。 檢測(cè)狀態(tài)改變成第 一 狀態(tài)3 01 。
然后,在時(shí)刻t3開始的幀處,音量401再次變得大于或等于 閾值TH1。因此,進(jìn)行用于檢測(cè)發(fā)音開始的檢測(cè)操作。以附圖 標(biāo)記406表示該操作。檢測(cè)狀態(tài)改變成第二狀態(tài)302。
在檢測(cè)狀態(tài)已改變成第二狀態(tài)302之后音量401大于或等 于閾值TH1的幀的數(shù)量變成D1的時(shí)刻t4,將發(fā)音開始確定為時(shí) 刻t3。以附圖標(biāo)記407表示該操作。檢測(cè)狀態(tài)改變成第三狀態(tài) 303。
在第三狀態(tài)303下,在音量401變得小于進(jìn)行用于檢測(cè)發(fā)音 結(jié)束的檢測(cè),燥作所4吏用的閾值TH2的時(shí)刻t5開始的幀處,進(jìn)行用于檢測(cè)發(fā)音結(jié)束的檢測(cè)操作。以附圖標(biāo)記408表示該操作。檢 測(cè)狀態(tài)改變成第四狀態(tài)304。
由于在時(shí)刻t6開始的幀處音量401變得大于或等于閾值 TH2,因而取消用于檢測(cè)發(fā)音結(jié)束的檢測(cè)操作。以附圖標(biāo)記409 表示該操作。檢測(cè)狀態(tài)改變成第三狀態(tài)303。
由于在時(shí)刻t7開始的幀處音量401再次變得小于閾值TH2, 因而進(jìn)行用于檢測(cè)發(fā)音結(jié)束的檢測(cè)操作。以附圖標(biāo)記410表示該 操作。檢測(cè)狀態(tài)改變成第四狀態(tài)304。
此后,在4企測(cè)狀態(tài)已改變成第四狀態(tài)304之后音量401變得 小于閾值TH2的幀的數(shù)量變成D2的時(shí)刻t8,將發(fā)音結(jié)束確定為 時(shí)刻t7。以附圖標(biāo)記411表示該操作。
此外,代替幀的數(shù)量,可以根據(jù)音量大于或等于閾值的狀 態(tài)和音量小于閾值的狀態(tài)是否分別保持預(yù)定時(shí)間段,來設(shè)置發(fā) 音開始和發(fā)音結(jié)束。
也就是說,如果在與用以設(shè)置發(fā)音開始的幀的數(shù)量D1(例 如,4個(gè)幀)相對(duì)應(yīng)的時(shí)間段S1(40毫秒)內(nèi),4企測(cè)到音量大于或 等于閾值(TH1),則設(shè)置發(fā)音開始。
類似地,如果在與用以設(shè)置發(fā)音結(jié)束的幀的數(shù)量D2(例如, 6個(gè)幀)相對(duì)應(yīng)的時(shí)間段S1(60毫秒)內(nèi),檢測(cè)到音量小于或等于 閾值(TH2),則設(shè)置發(fā)音結(jié)束。
這里,即使當(dāng)檢測(cè)到間歇檢測(cè)到預(yù)定音量的時(shí)間段時(shí),也 可以使用該時(shí)間段來判斷是否應(yīng)該設(shè)置發(fā)音開始或發(fā)音結(jié)束。
利用這 一 結(jié)構(gòu),即使在呼吸的瞬間沒有檢測(cè)到要檢測(cè)的聲 音,并且與該瞬間相對(duì)應(yīng)的幀的音量較低,語(yǔ)音檢測(cè)單元106 也可以在該瞬間之后不久再次4企測(cè)到聲音的情況下,扭J亍適當(dāng) 的處理。
圖5是由語(yǔ)音檢測(cè)單元106進(jìn)行的處理操作的流程圖。在步驟S501,當(dāng)進(jìn)行用于^r測(cè)發(fā)音開始的^r測(cè)操作時(shí),初 始化幀編號(hào)。
以下,以一幀為單位進(jìn)行用于檢測(cè)語(yǔ)音的4企測(cè)操作。
也就是說,當(dāng)語(yǔ)音檢測(cè)單元10 6以 一 幀為單位進(jìn)行處理時(shí),
語(yǔ)音檢測(cè)單元106以一幀為單位計(jì)算音量。
這里,例如通過利用現(xiàn)有方法根據(jù)音頻信號(hào)計(jì)算對(duì)數(shù)冪等
的關(guān)于信號(hào)強(qiáng)度的值來獲得音量。
這里,例如通過下面的表達(dá)式計(jì)算短時(shí)間段的對(duì)數(shù)冪。 E(t) = log (x(t, i)A2)/N} (12 i S N) 公式(l) 這里,N表示每幀的音頻信號(hào)的樣本數(shù)量,i表示幀中的音
頻信號(hào)的樣本的索引。
此外,x(t, i)表示在時(shí)刻t開始的幀中的音頻信號(hào)的第i個(gè)樣本。
此外,x(t, i廣2意為x(t, i)的平方。
接著,在步驟S502,開始第一狀態(tài)301下的處理。
接著,在步驟S503,判斷在時(shí)刻t開始的幀處的音量E(t)是
否大于或等于進(jìn)行用于檢測(cè)發(fā)音開始的檢測(cè)操作所使用的閾值
TH1。
如果音量E(t)大于或等于閾值THl(步驟S503為"是"),則在 步驟S505,檢測(cè)狀態(tài)改變成第二狀態(tài)302。
如果音量E(t)小于閾值TH1 (步驟S 5 03為"否"),則對(duì)于下一 幀再次執(zhí)行處理(步驟S504)。
接著,在步驟S506,將檢測(cè)狀態(tài)改變成第二狀態(tài)302的幀 設(shè)置為發(fā)音開始幀Ts。
接著,在步驟S507,判斷音量E(t)是否小于閾值THl。
如果音量E(t)小于閾值TH1 (步驟S 507為"是"),則檢測(cè)狀態(tài) 改變成第一狀態(tài)301。如果音量E(t)大于或等于閾值THl(步驟S507為"否"),則在 步驟S508繼續(xù)該處理,在步驟S508,判斷在檢測(cè)狀態(tài)已改變成 第二狀態(tài)302之后所獲得的幀的數(shù)量是否小于D1。
如果在檢測(cè)狀態(tài)已改變成第二狀態(tài)302之后所獲得的幀的 數(shù)量小于D1(步驟S508為"是"),則對(duì)于下一幀再次執(zhí)行處理(步 驟S509)。
如果在檢測(cè)狀態(tài)已改變成第二狀態(tài)3 02之后所獲得的幀的 數(shù)量大于或等于D1(步驟S508為"否"),則在步驟S510,檢測(cè)狀 態(tài)改變成第三狀態(tài)303。
接著,在步驟S512,判斷音量E(t)是否小于進(jìn)行用于檢測(cè) 發(fā)音結(jié)束的檢測(cè)操作所使用的閾值T H 2 。
如果音量E(t)小于閾值TH2(步驟S512為"是"),則在步驟 S514, 4企測(cè)狀態(tài)改變成第四狀態(tài)304。
如果E(t)大于或等于闊值TH2(步驟S512為"否"),則在步驟 S513進(jìn)行下一幀的處理。
接著,在步驟S515,將檢測(cè)狀態(tài)改變成第四狀態(tài)304的幀 設(shè)置為發(fā)音結(jié)束幀Te。
接著,在步驟S516,判斷音量E(t)是否大于或等于閾值TH2。
如果音量E(t)大于或等于閾值TH2(步驟S516為"是"),則檢 測(cè)狀態(tài)改變成第三狀態(tài)303。
如果音量E(t)小于閾值TH2(步驟S516為"否"),則在步驟 S517繼續(xù)該處理,在步驟S517,判斷在檢測(cè)狀態(tài)已改變成第四 狀態(tài)304之后所獲得的幀的數(shù)量是否小于D2 。
如果在檢測(cè)狀態(tài)已改變成第四狀態(tài)304之后所獲得的幀的 數(shù)量小于D2(步驟S517為"是"),則在步驟S518進(jìn)行下一幀的處 理。
如果在檢測(cè)狀態(tài)已改變成第四狀態(tài)3 04之后所獲得的幀的數(shù)量大于或等于D2(步驟S517為"否"),則在步驟S519繼續(xù)該處 理,在步驟S519,判斷是否應(yīng)該結(jié)束語(yǔ)音^r測(cè)。
如果應(yīng)該結(jié)束語(yǔ)音檢測(cè)(步驟S519為"是"),則在步驟S520 終止語(yǔ)音纟全測(cè)。
如果不應(yīng)該結(jié)束語(yǔ)音檢測(cè)(步驟S519為"否"),則在要進(jìn)行 下 一 發(fā)音的檢測(cè)操作的情況下,檢測(cè)狀態(tài)改變成第 一 狀態(tài)3 01 。
通過進(jìn)行上述處理,語(yǔ)音#r測(cè)單元10 6 #r測(cè),人幀Ts開始到幀 Te為止的發(fā)音期間。
語(yǔ)音識(shí)別單元107通過處理在由語(yǔ)音檢測(cè)單元106#企測(cè)到 的發(fā)音期間(從幀Ts到幀Te)所獲得的音頻信號(hào),來獲得語(yǔ)音識(shí) 別結(jié)果。
這里,使用圖5的流程圖,在上述說明中根據(jù)音量的變化, 檢測(cè)發(fā)音期間;然而,用于檢測(cè)發(fā)音的檢測(cè)操作不局限于此。
此外,在進(jìn)行語(yǔ)音檢測(cè)時(shí),可以使用零交叉次數(shù)、音高 (pitch)、從語(yǔ)音模型輸出的似然比或從非語(yǔ)音模型輸出的似然 比等的已知特征或者通過組合這些特征所獲得的特征。
使用這種特征使得即使在例如輸入的周圍聲音響度大的 環(huán)境下也能夠高效地檢測(cè)發(fā)音開始和發(fā)音結(jié)束。
這里,如下所述,設(shè)置發(fā)音開始和發(fā)音結(jié)束所使用的條件 可以是除關(guān)于幀的數(shù)量的條件以外的條件。
例如,設(shè)置預(yù)定閾值TH3,其中預(yù)定閾值TH3大于進(jìn)行用 于檢測(cè)發(fā)音開始的檢測(cè)操作所使用的閾值TH1。在進(jìn)行用于檢 測(cè)發(fā)音開始的檢測(cè)操作之后,在音量達(dá)到預(yù)定闞值T H 3的幀處, 可以將發(fā)音開始確定為進(jìn)行用于檢測(cè)發(fā)音開始的檢測(cè)操作的時(shí) 刻。
此外,為了設(shè)置發(fā)音結(jié)束,設(shè)置小于進(jìn)行用于檢測(cè)發(fā)音結(jié) 束的檢測(cè)操作所使用的閾值TH2的預(yù)定閾值TH4。在進(jìn)行用于檢測(cè)發(fā)音結(jié)束的檢測(cè)操作之后,在音量變得小于預(yù)定閾值TH4 的幀處,可以將發(fā)音結(jié)束確定為進(jìn)行用于檢測(cè)發(fā)音結(jié)束的檢測(cè) 操作的時(shí)刻。
使用這種條件可以縮短用于設(shè)置發(fā)音開始和發(fā)音結(jié)束的 時(shí)間段。
接著,將說明下面的情況在具有上述結(jié)構(gòu)的數(shù)字照相機(jī) 200中,根據(jù)語(yǔ)音命令執(zhí)行攝像操作。
下面參考圖3說明通過語(yǔ)音4企測(cè)單元106 、 l聶像控制單元 123和圖像存儲(chǔ)控制單元104所進(jìn)行的處理的例子。
在圖3中,如果進(jìn)行以附圖標(biāo)記305所表示的用于檢測(cè)發(fā)音 開始的檢測(cè)操作,則攝像控制單元123使得攝像單元103執(zhí)行攝 像操作。
這里,進(jìn)行用于檢測(cè)發(fā)音開始的檢測(cè)操作(305)的情況對(duì)應(yīng) 于在圖5的步驟S503中判斷為"是"的情況。
此外,如果進(jìn)行以附圖標(biāo)記308所表示的用于檢測(cè)發(fā)音結(jié) 束的檢測(cè)操作,則攝像控制單元123使得攝像單元103執(zhí)行攝像 操作。
這里,進(jìn)行用于^r測(cè)發(fā)音結(jié)束的檢測(cè)^:作(308)的情況對(duì)應(yīng) 于在圖5的步驟S512中判斷為"是"的情況。
也就是說,當(dāng)語(yǔ)音4企測(cè)處理的內(nèi)部狀態(tài)從第 一狀態(tài)301改 變成第二狀態(tài)302時(shí),或者當(dāng)語(yǔ)音檢測(cè)處理的內(nèi)部狀態(tài)從第三狀 態(tài)303改變成第四狀態(tài)304時(shí),攝像單元103拍攝圖像。
此外,如果取消以附圖標(biāo)記306表示的用于檢測(cè)發(fā)音開始 的檢測(cè)操作,或者如果取消以附圖標(biāo)記3 09表示的用于檢測(cè)發(fā)音 結(jié)束的檢測(cè)操作,則圖像存儲(chǔ)控制單元104刪除拍攝到的圖像。
這里,取消用于檢測(cè)發(fā)音開始的檢測(cè)才喿作(306)的情況對(duì)應(yīng) 于在圖5的步驟S507中判斷為"是"的情況。此外,取消用于檢測(cè)發(fā)音結(jié)束的檢測(cè)操作(3 0 9)的情況對(duì)應(yīng) 于在圖5的步驟S516中判斷為"是"的情況。
也就是說,當(dāng)在圖3中取消用于檢測(cè)發(fā)音開始的檢測(cè)操作 時(shí),如果進(jìn)行用于檢測(cè)發(fā)音開始的檢測(cè)操作(305),則圖像存儲(chǔ) 控制單元10 4刪除拍攝到的圖像。
類似地,當(dāng)取消用于檢測(cè)發(fā)音結(jié)束的檢測(cè)操作時(shí),如果進(jìn) 行用于檢測(cè)發(fā)音結(jié)束的檢測(cè)操作(308),則圖像存儲(chǔ)控制單元 104刪除拍攝到的圖像。
也就是it,當(dāng)內(nèi)部狀態(tài)乂人第二狀態(tài)302改變成第 一狀態(tài) 301,或者當(dāng)內(nèi)部狀態(tài)從第四狀態(tài)304改變成第三狀態(tài)303時(shí),刪 除緊挨在內(nèi)部狀態(tài)改變之前所拍攝到的圖像。
圖9是示出第一實(shí)施例中所使用的語(yǔ)音識(shí)別語(yǔ)法的例子的圖。
在該例子中,語(yǔ)音識(shí)別語(yǔ)法900包括描述規(guī)則的部分901和 描述可識(shí)別命令和發(fā)音的部分902 。
在描述可識(shí)別命令和發(fā)音的部分902中,描述了單詞的ID 903、關(guān)于單詞的命令904和單詞的發(fā)音905。部分902的每一行 具有其中一個(gè)單詞的ID903、關(guān)于該單詞的命令904和該單詞的 發(fā)音905。
這里,在描述^L則的部分901中,以語(yǔ)音識(shí)別單元107可讀 取的程序代碼來描述用于識(shí)別部分902中所描述的9個(gè)單詞的方法。
"Shoot"、 "Go"(拍了)、 "Cheese"、 "Say Cheese"(笑一下) 和"Five Four Three"(五四三)是用于開始下面所述的攝像操作 的語(yǔ)音命令。
"Spot Metering"(點(diǎn)測(cè)光)、"Center Metering"(中央重點(diǎn)測(cè) 光)、"Use a Flash"(啟動(dòng)閃光燈)和"No Flash"(禁用閃光燈)是用于設(shè)置拍攝條件的語(yǔ)音命令。
在下面的說明中,使用圖9所示的語(yǔ)音識(shí)別語(yǔ)法900作為根 據(jù)第一實(shí)施例的數(shù)字照相機(jī)200中的語(yǔ)言模型。
這里,在第一實(shí)施例中,作為例子說明了語(yǔ)音命令;然而, 本發(fā)明不局限于這些。例如,代替語(yǔ)音命令,可以使用能被解 釋為表示語(yǔ)音命令的聲音。
例如,可以使用笑聲或火車經(jīng)過時(shí)發(fā)出的聲音等。這里, 在這種情況下,代替語(yǔ)音識(shí)別技術(shù),使用檢測(cè)聲音內(nèi)容的已知 技術(shù)。
利用這種結(jié)構(gòu),即使在通過麥克風(fēng)112不僅輸入語(yǔ)音而且 輸入特征聲音的情況下,用戶也可以獲得在與各種特征聲音中 的 一 個(gè)相對(duì)應(yīng)的時(shí)刻所拍攝的圖像。
識(shí)別結(jié)果控制表是表格式的數(shù)據(jù),在該數(shù)據(jù)中,描述了與 識(shí)別結(jié)果相對(duì)應(yīng)的用于拍攝圖像的處理、用于啟動(dòng)測(cè)光的處理 和用于啟動(dòng)閃光燈的處理。識(shí)別結(jié)果處理單元108在確定與識(shí)別 結(jié)果相對(duì)應(yīng)的照相機(jī)控制時(shí),參考該識(shí)別結(jié)果控制表。
這里,以識(shí)別結(jié)果處理單元10 8可讀取的程序代碼的形式, 將識(shí)別結(jié)果控制表存儲(chǔ)在存儲(chǔ)器(用于存儲(chǔ)識(shí)別結(jié)果控制 表)114中。
圖IO是示出識(shí)別結(jié)果控制表的例子的圖。 在圖IO中,以附圖標(biāo)記1000表示識(shí)別結(jié)果處理數(shù)據(jù)。 以附圖標(biāo)記904表示語(yǔ)音識(shí)別所使用的命令,并且描述了 數(shù)字照相機(jī)200的以附圖標(biāo)記904表示的命令中的相應(yīng)一個(gè)命令 的控制內(nèi)容,其中,以附圖標(biāo)記1002表示該控制內(nèi)容。
圖6~圖8是示出在通過語(yǔ)音命令拍攝圖像時(shí)由數(shù)字照相 機(jī)200所進(jìn)行的處理的例子的流程圖。
首先,使用圖6的流程圖來說明處理。在步驟S601,判斷是否啟動(dòng)了聲音啟動(dòng)功能。
如果啟動(dòng)了聲音啟動(dòng)功能(步驟S601為"是"),則在步驟
S602繼續(xù)該處理,在步驟S602,判斷是否按下了記錄按鈕207
和是否進(jìn)行用于開始語(yǔ)音(發(fā)音)輸入的操作。
如果沒有啟動(dòng)聲音啟動(dòng)功能(步驟S601為"否"),則在步驟
S699中進(jìn)行除關(guān)于聲音啟動(dòng)功能的處理以外的處理(即,其它照
相機(jī)控制)。
這里,用戶操作包括在操作單元102中的語(yǔ)音快門on-off開 關(guān)202以在啟動(dòng)和禁用聲音啟動(dòng)功能之間進(jìn)行切換。
此外,控制單元101判斷應(yīng)該啟動(dòng)還是禁用聲音啟動(dòng)功能。
如果進(jìn)行用于開始接收語(yǔ)音的操作(步驟S602為"是"),則 在步驟S603,語(yǔ)音輸入單元105開始用于4妄收語(yǔ)音的處理,并 且語(yǔ)音#r測(cè)單元10 6開始語(yǔ)音檢測(cè)處理。
如果進(jìn)行除用于開始接收語(yǔ)音的操作以外的操作(步驟 S602為"否"),則在步驟S699進(jìn)行除關(guān)于聲音啟動(dòng)功能的處理以 外的處理(即,其它照相機(jī)控制)。
這里,可以通過除按下記錄按鈕207以外的操作來進(jìn)行用 于開始接收語(yǔ)音的操作。
例如,如果半按下快門按鈕201,則設(shè)置有自動(dòng)調(diào)焦功能 的數(shù)字照相機(jī)進(jìn)行調(diào)焦。
這里,可以與自動(dòng)調(diào)焦功能的操作相關(guān)聯(lián)地開始用于接收 語(yǔ)音的處理。也就是說,如果用戶半按下快門按鈕201,則可以 開始用于接收語(yǔ)音的處理和用于檢測(cè)語(yǔ)音的處理。
利用這種結(jié)構(gòu),簡(jiǎn)化了手動(dòng)操作。因此,用戶可以快速地 開始用于輸入語(yǔ)音的處理。
此外,當(dāng)向語(yǔ)音輸入單元105輸入音頻信號(hào)時(shí),可以在無
需手動(dòng)開始語(yǔ)音檢測(cè)的情況下,開始語(yǔ)音檢測(cè)。利用這種結(jié)構(gòu),可以快速地開始用于^r測(cè)語(yǔ)音的處理。此 外,即使用戶不能手動(dòng)操作照相機(jī),用戶也可以開始語(yǔ)音檢測(cè)。 因此,可以在監(jiān)^L照相才幾、安全用照相才幾或置于高處的照相機(jī) 等中使用這種結(jié)構(gòu)。
在步驟S604,判斷語(yǔ)音檢測(cè)單元106是否進(jìn)行了用于檢測(cè) 發(fā)音開始的檢測(cè)操作。
這里,在步驟S604,才艮據(jù)語(yǔ)音4全測(cè)單元106是否已4丸行用 于將內(nèi)部狀態(tài)從第一狀態(tài)301改變成第二狀態(tài)302的處理,判斷 語(yǔ)音檢測(cè)單元106是否進(jìn)行了用于檢測(cè)發(fā)音開始的檢測(cè)操作。
如果語(yǔ)音檢測(cè)單元106進(jìn)行了用于纟企測(cè)發(fā)音開始的檢測(cè)操 作(步驟S604為"是"),則在步驟S605,:攝像單元103執(zhí)行攝像操 作。
在步驟S606,圖^f象存儲(chǔ)控制單元104將在前一步驟S605中 拍攝到的圖像的第 一 圖像數(shù)據(jù)存儲(chǔ)在存儲(chǔ)器(用于存儲(chǔ)圖 像)110中。
這里,將在步驟S605拍攝到的圖像,即在語(yǔ)音檢測(cè)單元106 進(jìn)行用于檢測(cè)發(fā)音開始的檢測(cè)操作時(shí)所拍攝的圖像稱為圖像 A。
如果語(yǔ)音檢測(cè)單元106沒有進(jìn)行用于檢測(cè)發(fā)音開始的檢測(cè) 操作(步驟S604為"否"),則再次判斷語(yǔ)音檢測(cè)單元106是否進(jìn)行 了用于檢測(cè)發(fā)音開始的檢測(cè)操作。
在步驟S607,判斷語(yǔ)音檢測(cè)單元106是否應(yīng)該取消用于檢 測(cè)發(fā)音開始的檢測(cè)操作。
這里,在步驟S607,根據(jù)語(yǔ)音檢測(cè)單元106是否已執(zhí)行用 于將內(nèi)部狀態(tài)從第二狀態(tài)302改變成第一狀態(tài)301的處理,判斷 語(yǔ)音檢測(cè)單元106是否應(yīng)該取消用于檢測(cè)發(fā)音開始的檢測(cè)操作。
如果取消用于檢測(cè)發(fā)音開始的檢測(cè)操作(步驟S607為"是"),則在步驟S608繼續(xù)該處理,圖像存儲(chǔ)控制單元104刪除 存儲(chǔ)在存儲(chǔ)器(用于存儲(chǔ)圖像)110中的圖像A。
如果沒有取消用于檢測(cè)發(fā)音開始的檢測(cè)操作(步驟S607為 "否"),則在步驟S609,判斷語(yǔ)音檢測(cè)單元106是否設(shè)置了發(fā)音 開始。
這里,在步驟S609,根據(jù)語(yǔ)音檢測(cè)單元106是否執(zhí)行了用 于將內(nèi)部狀態(tài)從第二狀態(tài)302改變成第三狀態(tài)303的處理,判斷 是否設(shè)置/確定發(fā)音開始。
如果設(shè)置/確定了發(fā)音開始(步驟S609為"是"),則在步驟 S610,語(yǔ)音識(shí)別單元107開始語(yǔ)音識(shí)別處理。
如果沒有設(shè)置/確定發(fā)音開始(步驟S609為"否"),則再次判 斷是否應(yīng)該取消用于檢測(cè)發(fā)音開始的檢測(cè)操作。
將參考圖7的流程圖說明下面的處理。
在步驟S711,語(yǔ)音檢測(cè)單元106判斷是否進(jìn)行了用于檢測(cè) 發(fā)音結(jié)束的檢測(cè)操作。
這里,在步驟S711,根據(jù)語(yǔ)音^r測(cè)單元106是否執(zhí)行了用 于將內(nèi)部狀態(tài)從第三狀態(tài)303改變成第四狀態(tài)304的處理,判斷 是否進(jìn)行了用于檢測(cè)發(fā)音結(jié)束的檢測(cè)操作。
如果進(jìn)行了用于檢測(cè)發(fā)音結(jié)束的檢測(cè)操作(步驟S711為 "是"),則在步驟S712,攝像單元103拍攝圖像。
接著,在步驟S713,圖像存儲(chǔ)控制單元104將在前一步驟 S 712拍攝到的圖像的第二圖像數(shù)據(jù)存儲(chǔ)在存儲(chǔ)器(用于存儲(chǔ)圖 像)110中。這里,將在步驟S712拍攝到的圖像,即在語(yǔ)音檢測(cè) 單元106進(jìn)行用于檢測(cè)發(fā)音結(jié)束的檢測(cè)操作時(shí)所拍攝的圖像稱 為圖像B。
這里,存在這樣一種情況通常,在說出了 " Cheese" 等后(發(fā)出/z/的音后)過去特定時(shí)間段(例如,0.5秒)之后,拍攝圖像。
考慮到該情況,在第一實(shí)施例中,在語(yǔ)音檢測(cè)單元106進(jìn) 行了用于檢測(cè)"Say Cheese"發(fā)音結(jié)束的4企測(cè)操作后過去預(yù)定延 遲時(shí)間之后,攝像單元103拍攝圖像。
利用這種結(jié)構(gòu),可以增加用戶期望的攝像時(shí)刻的種類數(shù)量。
接著,在步驟S715,語(yǔ)音檢測(cè)單元106判斷是否應(yīng)該取消 用于檢測(cè)發(fā)音結(jié)束的檢測(cè)操作。
這里,在步驟S715, #>據(jù)語(yǔ)音才企測(cè)單元106是否執(zhí)行了用 于將內(nèi)部狀態(tài)從第四狀態(tài)304改變成第三狀態(tài)303的處理,判斷 是否應(yīng)該取消用于檢測(cè)發(fā)音結(jié)束的檢測(cè)操作。
如果取消了用于檢測(cè)發(fā)音結(jié)束的;^測(cè)操作(步驟S715為 "是"),則在步驟S714繼續(xù)該處理,在步驟S714,圖像存儲(chǔ)控制 單元104刪除存儲(chǔ)在存儲(chǔ)器(用于存儲(chǔ)圖像)110中的圖像B。
接著,在步驟S716,判斷語(yǔ)音檢測(cè)單元106是否應(yīng)該設(shè)置/ 確定發(fā)音結(jié)束。
這里,在步驟S716,根據(jù)語(yǔ)音檢測(cè)單元106是否結(jié)束了內(nèi) 部狀態(tài)的改變并且保持內(nèi)部狀態(tài)處于第四狀態(tài)3 04 ,判斷是否應(yīng) 該設(shè)置/確定發(fā)音結(jié)束。
如果設(shè)置/確定了發(fā)音結(jié)束(步驟S716為"是"),則在步驟 S717,結(jié)束由語(yǔ)音輸入單元105和語(yǔ)音檢測(cè)單元106所進(jìn)行的處 理。
如果沒有設(shè)置/確定發(fā)音結(jié)束(步驟S716為"否),則再次判 斷是否應(yīng)該取消用于檢測(cè)發(fā)音結(jié)束的檢測(cè)操作。
接著,在步驟S718,在結(jié)束語(yǔ)音4企測(cè)之后,語(yǔ)音識(shí)別單元 107進(jìn)行語(yǔ)音識(shí)別處理,直到處理了在語(yǔ)音檢測(cè)單元106所檢測(cè) 到的發(fā)音期間所獲得的所有音頻信號(hào)為止。如果語(yǔ)音識(shí)別處理結(jié)束(步驟S718為"是"),則在步驟S719, 識(shí)別結(jié)果處理單元10 8獲得由語(yǔ)音識(shí)別單元10 7所獲得的識(shí)另ij結(jié)果。
將參考圖8的流程圖說明下面的處理。
在步驟S 8 21,識(shí)別結(jié)果處理單元10 8判斷是接收還是丟棄 與所獲得的識(shí)別結(jié)果中的識(shí)別得分相對(duì)應(yīng)的命令。
這里,接收命令意為控制單元101判斷為進(jìn)4亍與識(shí)別出的 命令相對(duì)應(yīng)的控制。此外,丟棄命令意為控制單元101判斷為不 進(jìn)行與識(shí)別出的命令相對(duì)應(yīng)的控制。
如果所獲得的識(shí)別得分大于或等于預(yù)定閾值,并且接收了 相應(yīng)命令(步驟S821為"是"),則在步驟S822,參考識(shí)別結(jié)果控 制表確定數(shù)字照相機(jī)200的控制,其中,該控制對(duì)應(yīng)于包括在識(shí) 別結(jié)果中的命令。
如果識(shí)別出的命令是作為用于在發(fā)音開始時(shí)拍攝圖像的 命令的單詞("Shoot"或"Go")(步驟S822為"是"),則在步驟S823, 圖像存儲(chǔ)控制單元104將圖像A的圖像數(shù)據(jù)存儲(chǔ)在存儲(chǔ)介質(zhì)(用 于存儲(chǔ)圖像)lll上,其中,圖像A被存儲(chǔ)在存儲(chǔ)器(用于存儲(chǔ)圖 像)110中。
這里,步驟S823中的處理是根據(jù)識(shí)別結(jié)果處理單元108的 判斷所進(jìn)行的處理。
接著,在步驟S824,顯示控制單元109以用戶可以檢查拍 攝到的圖像的方式將圖像A顯示在顯示器115上。
如果識(shí)別出的命令不是作為用于在發(fā)音開始時(shí)拍攝圖像 的命令的單詞("Shoot"或"Go")(步驟S822為"否"),則在步驟 S826,判斷識(shí)別出的命令是否是作為用于在發(fā)音結(jié)束時(shí)拍攝圖 像的命令的單詞("Cheese")。
如果識(shí)別出的命令是作為用于在發(fā)音結(jié)束時(shí)拍攝圖像的命令的單詞("Cheese")(步驟S826為"是"),則在步驟S827繼續(xù)該 處理,在步驟S827,圖像存儲(chǔ)控制單元104將圖像B的圖像數(shù)據(jù) 存儲(chǔ)在存儲(chǔ)介質(zhì)(用于存儲(chǔ)圖像)lll上。
這里,步驟S827中的處理是根據(jù)識(shí)別結(jié)果處理單元108的 判斷所進(jìn)行的處理。
在步驟S828,顯示控制單元109以用戶可以纟企查拍才聶到的 圖像的方式將圖像B顯示在顯示器115上。
如果識(shí)別出的命令是除作為用于拍攝圖像的命令的單詞 以外的單詞("Spot Metering"等)(步驟S826為"否"),則在步驟 S829繼續(xù)該處理,在步驟S829,識(shí)別結(jié)果處理單元108以進(jìn)4亍 除用于拍攝圖像的控制以外的控制的方式,通過參考識(shí)別結(jié)果 控制表,控制數(shù)字照相機(jī)200。
在步驟S825,圖像存儲(chǔ)控制單元104刪除存儲(chǔ)在存儲(chǔ)器(用 于存儲(chǔ)圖像)110中的所有圖像(圖像A和B)的圖像數(shù)據(jù)。
也就是說,如果沒有識(shí)別出預(yù)定命令并且丟棄了識(shí)別結(jié) 果,則攝像單元103刪除拍攝到的圖像。
該處理丟棄與周圍噪聲有關(guān)的識(shí)別結(jié)果、識(shí)別對(duì)象以外的 單詞的發(fā)音、以及用戶以外的人的語(yǔ)音等不是想要操作照相機(jī) 的語(yǔ)音,并且自動(dòng)刪除由于錯(cuò)誤檢測(cè)到這種聲音而拍攝的圖像。
這里,在步驟S821,判斷所使用的閾值可以是預(yù)先設(shè)置的 固定值或者是通過將識(shí)別得分乘以r(O < r)所獲得的值,其中, 利用廢料模型(garbage model)輸出識(shí)別得分。
廢料模型是使用包括語(yǔ)音以外的噪聲的噪聲或多個(gè)估計(jì) 的未知單詞(識(shí)別對(duì)象以外的單詞)所生成的聲學(xué)模型,并且被
包括在存儲(chǔ)器(用于存儲(chǔ)語(yǔ)音識(shí)別數(shù)據(jù))113中。
這里,在步驟S822 S829的處理中,根據(jù)識(shí)別結(jié)果,將在 發(fā)音開始時(shí)所拍攝的圖像和在發(fā)音結(jié)束時(shí)所拍攝的圖像中的一個(gè)確定為是要存儲(chǔ)的圖像。
因此,用戶可以根據(jù)發(fā)音內(nèi)容,自由改變要存儲(chǔ)的圖像的 攝像時(shí)刻。
這里,在上述說明中,在步驟S825之后處理結(jié)束。然而, 該過程可以進(jìn)入步驟S602中的處理,以繼續(xù)進(jìn)行下一語(yǔ)音的接 收。
利用這種結(jié)構(gòu),如果通過半按下快門按鈕201開始語(yǔ)音接
語(yǔ)音來進(jìn)行照相機(jī)控制。
例如,在半按下快門按鈕201時(shí),"Center Metering"等的發(fā) 音可以設(shè)置拍攝條件,并且可以通過下一發(fā)音來拍攝圖像。
圖11是示出使用根據(jù)第 一 實(shí)施例的數(shù)字照相機(jī)200利用語(yǔ) 音命令"Shoot"來拍攝圖像的情況下的操作的圖。
在圖11中,水平軸1150表示時(shí)間,并且時(shí)間乂人左向右推移。 附圖標(biāo)記tl t7均表示時(shí)刻。
附圖標(biāo)記1110表示由語(yǔ)音輸入單元105進(jìn)行了 A/D轉(zhuǎn)換的 音頻信號(hào)。
附圖標(biāo)記1111表示用戶說出"Shoot"期間的音頻信號(hào)(音頻 波形)。
附圖標(biāo)記1120表示音量。示出了與音頻信號(hào)1110相對(duì)應(yīng)的 音量1120的變化。
附圖標(biāo)記1121表示進(jìn)行用于檢測(cè)發(fā)音開始的檢測(cè)操作所 使用的且由語(yǔ)音4企測(cè)單元106所使用的閾值(TH1)。附圖標(biāo)記 1122表示進(jìn)行用于檢測(cè)發(fā)音結(jié)束的檢測(cè)操作所使用的且由語(yǔ)音 檢測(cè)單元106所使用的閾值(TH2)。
附圖標(biāo)記1130表示由語(yǔ)音檢測(cè)單元106識(shí)別出的狀態(tài)???視地示出了狀態(tài)1130的變化。附圖標(biāo)記1140表示數(shù)字照相機(jī)200的操作的細(xì)節(jié)。 接著,將沿著從時(shí)刻11至?xí)r刻17的時(shí)間來說明數(shù)字照相機(jī) 200的操作。 時(shí)刻tl
在音量1120變得大于或等于閾值TH1的時(shí)刻tl開始的幀 處,語(yǔ)音檢測(cè)單元106進(jìn)行用于檢測(cè)發(fā)音開始的檢測(cè)操作。該操 作對(duì)應(yīng)于用于檢測(cè)滿足上述第一預(yù)定標(biāo)準(zhǔn)(開始條件)的聲音的 處理。
這里,語(yǔ)音檢測(cè)單元106執(zhí)行用于將檢測(cè)狀態(tài)從第 一狀態(tài) 301改變成第二狀態(tài)302的處理,以時(shí)刻tl處的附圖標(biāo)記1130表 示該處理。
在進(jìn)行了用于檢測(cè)發(fā)音開始的檢測(cè)操作的時(shí)刻,攝像單元 103拍攝被攝體的圖像(IMG003)。然后,圖像存儲(chǔ)控制單元104 將拍攝到的圖像的圖像數(shù)據(jù)存儲(chǔ)在存儲(chǔ)器(用于存儲(chǔ)圖像)IIO 中。以附圖標(biāo)記1141表示這些4乘作。
時(shí)刻t2
在時(shí)刻t2開始的且作為從在時(shí)刻tl開始的幀算起的第Dl個(gè) 幀的幀處,語(yǔ)音檢測(cè)單元106將發(fā)音開始確定為時(shí)刻tl,其中在 時(shí)刻tl,進(jìn)行了用于檢測(cè)發(fā)音開始的檢測(cè)操作。
同時(shí),開始由語(yǔ)音識(shí)別單元10 7所進(jìn)行的語(yǔ)音識(shí)別處理。 以附圖標(biāo)記1142表示這些操作。
這里,語(yǔ)音4企測(cè)單元106執(zhí)行用于將^r測(cè)狀態(tài)從第二狀態(tài) 302改變成第三狀態(tài)303的處理,以時(shí)刻t2處的附圖標(biāo)記1130表 示該處理。
時(shí)刻t3
接著,在音量1120變得小于閾值TH2的時(shí)刻t3開始的幀處, 語(yǔ)音檢測(cè)單元106進(jìn)行用于檢測(cè)發(fā)音結(jié)束的檢測(cè)操作。在該操作中,檢測(cè)滿足上述預(yù)定標(biāo)準(zhǔn)(結(jié)束條件)的聲音。
這里,語(yǔ)音纟全測(cè)單元106執(zhí)行用于將才企測(cè)狀態(tài)乂人第三狀態(tài) 303改變成第四狀態(tài)304的處理,以時(shí)刻t3處的附圖標(biāo)記1130表 示該處理。
在語(yǔ)音檢測(cè)單元10 6進(jìn)行用于檢測(cè)發(fā)音結(jié)束的檢測(cè)操作的 時(shí)刻t3,攝像單元103拍攝被攝體的圖像(IMG005)。然后,圖像 存儲(chǔ)控制單元10 4將拍攝到的圖像的圖像數(shù)據(jù)存儲(chǔ)在存儲(chǔ)器(用 于存儲(chǔ)圖像)110中。以附圖標(biāo)記1143表示這些操作。
時(shí)刻t4
如果在時(shí)刻t4開始的幀處,音量1120變得大于或等于閾值 TH2,則語(yǔ)音檢測(cè)單元106取消用于檢測(cè)發(fā)音結(jié)束的檢測(cè)操作, 其中在時(shí)刻t4開始的幀是作為從在時(shí)刻t3開始的幀算起的第D2 個(gè)幀的幀之前的幀,并且在時(shí)刻t3,語(yǔ)音纟企測(cè)單元106進(jìn)行了用 于檢測(cè)發(fā)音結(jié)束的檢測(cè)操作。
這里,語(yǔ)音4企測(cè)單元106執(zhí)行用于將4企測(cè)狀態(tài)/人第四狀態(tài) 304改變成第三狀態(tài)303的處理,以時(shí)刻t4處的附圖標(biāo)記1130表 示該處J里。
在取消用于檢測(cè)發(fā)音結(jié)束的檢測(cè)操作的時(shí)刻t4,圖像存儲(chǔ) 控制單元104從存儲(chǔ)器(用于存儲(chǔ)圖像)110刪除在進(jìn)行用于檢測(cè) 發(fā)音結(jié)束的檢測(cè)操作的時(shí)刻t3所拍攝的圖像IMG005的圖像數(shù) 據(jù)。以附圖標(biāo)記1144表示這些操作。
時(shí)刻t5
在時(shí)刻t5開始的幀處,音量1120變得小于閾值TH2,因此 語(yǔ)音檢測(cè)單元10 6進(jìn)行用于檢測(cè)發(fā)音結(jié)束的檢測(cè)操作。
這里,語(yǔ)音4企測(cè)單元106執(zhí)行用于將4僉測(cè)狀態(tài)從第三狀態(tài) 303改變成第四狀態(tài)304的處理,以時(shí)刻t5處的附圖標(biāo)記1130表 示該處理。此外,攝像單元103在時(shí)刻t5拍攝被攝體的圖像(IMG006), 并且圖像存儲(chǔ)控制單元104將拍攝到的圖像的圖像數(shù)據(jù)存儲(chǔ)在 存儲(chǔ)器(用于存儲(chǔ)圖像)110中。以附圖標(biāo)記1145表示這些操作。
時(shí)刻t6
在進(jìn)行用于檢測(cè)發(fā)音結(jié)束的檢測(cè)操作的時(shí)刻15開始的幀和 在時(shí)刻t6開始的且作為從在時(shí)刻t5開始的幀算起的第D2個(gè)幀的 幀之間,音量1120未變得大于或等于閾值TH2。在時(shí)刻t6開始 的幀處,語(yǔ)音^r測(cè)單元106將發(fā)音結(jié)束確定為時(shí)刻t5。以附圖標(biāo) 記1146表示該操作。
這里,如上所述,語(yǔ)音檢測(cè)單元106可以執(zhí)行用于將^r測(cè) 狀態(tài)從第四狀態(tài)304改變成第一狀態(tài)301的處理,或者語(yǔ)音檢測(cè) 單元106可以結(jié)束用于改變檢測(cè)狀態(tài)的處理。
時(shí)刻t7
此后,在結(jié)束由語(yǔ)音識(shí)別單元107所進(jìn)4于的處理的時(shí)刻t7, 識(shí)別結(jié)果處理單元108確定數(shù)字照相機(jī)200的控制方法。以附圖 標(biāo)記1147表示該4喿作。
這里,如果獲得"Shoot"作為識(shí)別結(jié)果,則參考識(shí)別結(jié)果控 制表,確定與"Shoot"相對(duì)應(yīng)的處理。
如圖10所示,"Shoot"是與在檢測(cè)到的發(fā)音開始的時(shí)刻所進(jìn) 行的攝像操作相關(guān)的命令。
根據(jù)識(shí)別結(jié)果處理單元10 8的判斷,圖像存儲(chǔ)控制單元10 4 將在作為檢測(cè)到的發(fā)音開始的時(shí)刻的時(shí)刻tl拍攝到的圖像 (IMG003)的圖像數(shù)據(jù)存儲(chǔ)在存儲(chǔ)介質(zhì)(用于存儲(chǔ)圖像)lll中。
同時(shí),圖像存儲(chǔ)控制單元104從存儲(chǔ)器(用于存儲(chǔ)圖像)IIO 刪除在發(fā)音結(jié)束時(shí)所拍攝到的圖像(IMG006),而不存儲(chǔ)該圖 像。
圖12是示出使用根據(jù)第 一 實(shí)施例的數(shù)字照相機(jī)200利用語(yǔ)音命令"Cheese"拍攝圖像的情況下的操作的圖。
類似于圖ll,附圖標(biāo)記1250表示時(shí)間,附圖標(biāo)記1210表示 音頻信號(hào),附圖標(biāo)記1220表示音量,附圖標(biāo)記1230表示由語(yǔ)音 檢測(cè)單元106識(shí)別出的狀態(tài),附圖標(biāo)記1240表示數(shù)字照相機(jī)200
的操作。
附圖標(biāo)記1211表示在用戶發(fā)音之前碰巧輸入的噪聲。附圖 標(biāo)記1212表示由用戶說出的語(yǔ)音"Cheese"等。
附圖標(biāo)記1221表示進(jìn)行用于檢測(cè)發(fā)音期間的檢測(cè)操作所 使用的閾值(TH1),其中語(yǔ)音外全測(cè)單元1064吏用該閾值TH1。
這里,在圖12中,使用相同的閾值TH1來4企測(cè)發(fā)音開始和 發(fā)音結(jié)束。
下面,將沿著時(shí)間來說明數(shù)字照相沖幾200的才喿作。 時(shí)刻tl
在時(shí)刻tl開始的幀處,如果語(yǔ)音4企測(cè)單元106進(jìn)行用于4企測(cè) 發(fā)音開始的檢測(cè)操作,則攝像單元10 3拍攝與在時(shí)刻11開始的幀 相對(duì)應(yīng)的被攝體的圖像(IMGOOl)。此外,圖像存儲(chǔ)控制單元104 將拍攝到的圖像的圖像數(shù)據(jù)臨時(shí)存儲(chǔ)在存儲(chǔ)器(用于存儲(chǔ)圖 ^象)110中。以附圖標(biāo)記1241表示這些才乘作。
時(shí)刻t2
在時(shí)刻t2開始的且處于作為從進(jìn)行用于檢測(cè)發(fā)音開始的檢 測(cè)操作的幀算起的第Dl個(gè)幀的幀之前的幀處,音量1220變得小 于閾值TH1 ,因此語(yǔ)音檢測(cè)單元106取消用于檢測(cè)發(fā)音開始的檢 測(cè)操作。
這里,圖像存儲(chǔ)控制單元104刪除在操作1241中拍攝到的 圖像(IMGOOl)。以附圖標(biāo)記1242表示這些操作。 時(shí)刻t3
在時(shí)刻t3開始的幀處,如果語(yǔ)音纟企測(cè)單元106再次進(jìn)行用于檢測(cè)發(fā)音開始的檢測(cè)操作,則攝像單元10 3拍攝與在時(shí)刻13開始 的幀相對(duì)應(yīng)的被攝體的圖像(IMG003)。此外,圖像存儲(chǔ)控制單 元10 4將拍攝到的圖像的圖像數(shù)據(jù)臨時(shí)存儲(chǔ)在存儲(chǔ)器(用于存儲(chǔ) 圖像)110中。以附圖標(biāo)記1243表示這些才喿作。 時(shí)刻t4
在時(shí)刻t4開始的幀處,如果語(yǔ)音檢測(cè)單元106將發(fā)音開始確 定為時(shí)刻t3,則語(yǔ)音識(shí)別單元107開始語(yǔ)音識(shí)別處理。以附圖標(biāo) 記1244表示這些纟喿作。
時(shí)刻t5
在時(shí)刻t5開始的幀處,如果語(yǔ)音檢測(cè)單元106進(jìn)行用于檢測(cè) 發(fā)音結(jié)束的檢測(cè)操作,則攝像單元103拍攝與在時(shí)刻t5開始的幀 相對(duì)應(yīng)的被攝體的圖像(IMG005)。此外,然后,圖像存儲(chǔ)控制 單元104將拍攝到的圖像的圖像數(shù)據(jù)臨時(shí)存儲(chǔ)在存儲(chǔ)器(用于存 儲(chǔ)圖像)110中。以附圖標(biāo)記1245表示這些#:作。
時(shí)刻t6
在時(shí)刻16開始的幀處,語(yǔ)音檢測(cè)單元10 6將發(fā)音結(jié)束確定為 時(shí)刻t5。以附圖標(biāo)記1246表示該:操作。 時(shí)刻t7
在將發(fā)音結(jié)束確定為時(shí)刻t5之后,在結(jié)束由語(yǔ)音識(shí)別單元 107所進(jìn)行的語(yǔ)音識(shí)別處理的時(shí)刻t7,識(shí)別結(jié)果處理單元108根 據(jù)識(shí)別結(jié)果確定照相機(jī)控制。以附圖標(biāo)記1247表示這些操作。
這里,如圖10所示,"Cheese"是與在檢測(cè)到的發(fā)音結(jié)束的 時(shí)刻所進(jìn)行的攝像操作相關(guān)的命令。
因此,圖像存儲(chǔ)控制單元10 4將在作為檢測(cè)到的發(fā)音結(jié)束 的時(shí)刻的時(shí)刻t5所拍攝的圖像(IMG005)的圖像數(shù)據(jù)存儲(chǔ)在存儲(chǔ) 介質(zhì)(用于存儲(chǔ)圖像)lll中。圖像存儲(chǔ)控制單元104刪除在作為 檢測(cè)到的發(fā)音開始的時(shí)刻的時(shí)刻t3所拍攝的圖像(IMG003)的圖像數(shù)據(jù),而不存儲(chǔ)該圖像數(shù)據(jù)。
如以上使用圖ll和圖12所述,如果要使用第一實(shí)施例中所 述的數(shù)字照相機(jī)200拍攝發(fā)音開始時(shí)的圖像,則僅要說出 "Shoot"(或"Go")。
此外,如果要使用第 一實(shí)施例中所述的數(shù)字照相才幾200拍 攝發(fā)音結(jié)束時(shí)的圖像,則僅需說出"Cheese"。
此外,如果要拍攝從發(fā)音開始的時(shí)刻起過去了特定時(shí)間段 的時(shí)刻的圖像,則僅需說出"Five Four Three",其中該特定時(shí)間 段對(duì)應(yīng)于說出"Two One Zero"(二一零)的時(shí)間段。
此外,如果要拍攝從發(fā)音結(jié)束的時(shí)刻起過去了特定時(shí)間段 (例如,0.5秒)的時(shí)刻的圖像,則僅需說出"Say Cheese"。
如果說出"Shoot"(或"Go"),則在結(jié)束語(yǔ)音識(shí)別之前拍攝圖 像。因此,這適合于拍攝車輛等運(yùn)動(dòng)被攝體的圖像的情況。
此外,如果說出"Cheese"(或"Say Cheese"),則在發(fā)音結(jié)束 之后拍攝圖像。因此,這適合于在通知被攝體拍攝時(shí)刻之后拍 攝圖像的情況,如合影或留念照等。
此外,如果說出"Five Four Three",則可以在從發(fā)音開始 的時(shí)刻起過去了特定時(shí)間段之后的時(shí)刻拍攝圖像,其中該特定 時(shí)間段對(duì)應(yīng)于說出"Two One Zero"的時(shí)間段。
因此,可以根據(jù)拍攝場(chǎng)景,在任意拍攝時(shí)刻拍攝圖像,并
且提高了用戶操作的方便性。
此外,在拍攝圖像之后,用戶可以不必刪除在不希望的時(shí)
刻所拍攝的圖像。
也就是說,如使用圖12所述,即使在根據(jù)當(dāng)輸入語(yǔ)音時(shí)碰 巧輸入的周圍噪聲而錯(cuò)誤地拍攝了圖像的情況下,如果不設(shè)置 語(yǔ)音開始,則自動(dòng)刪除該圖像。
此外,即使在利用噪聲或不想拍攝圖像的發(fā)音觸發(fā)了圖像拍攝的情況下,如果在圖8的步驟S821的處理中識(shí)別出不想觸 發(fā)圖像拍攝的發(fā)音,則丟棄該識(shí)別結(jié)果,并刪除錯(cuò)誤拍攝的圖 像。
因此,在利用語(yǔ)音命令觸發(fā)拍攝開始的情況下,第一實(shí)施 例具有減少由于周圍噪聲而導(dǎo)致的誤操作發(fā)生的效果。
在第一實(shí)施例中,可以在進(jìn)行用于檢測(cè)發(fā)音開始的檢測(cè)操 作的時(shí)刻拍攝圖像,或者可以在進(jìn)行用于檢測(cè)發(fā)音結(jié)束的檢測(cè) 操作的時(shí)刻拍攝圖像。
圖13是僅在檢測(cè)到的發(fā)音開始的時(shí)刻拍攝圖像的情況下 的流程圖。
圖13所示的流程圖示出了與使用圖6 ~圖8的流程圖所述 的處理不同的步驟S711和其后步驟中的處理。
此外,以相同的附圖標(biāo)記表示與圖7和圖8中的處理相同的 處理。在下面,將僅說明圖13與圖7和圖8之間的不同。
在圖13所示的流程圖中,不進(jìn)行圖7的流程圖中的以下處 理用于在進(jìn)行用于檢測(cè)發(fā)音結(jié)束的檢測(cè)操作的時(shí)刻拍攝圖像 的處理(步驟S712和S713)和用于刪除拍攝到的圖像的處理(步 驟S714)。
此外,在圖13所示的流程圖中,不進(jìn)行圖8的流程圖中的 以下處理在識(shí)別出作為用于在發(fā)音結(jié)束時(shí)拍攝圖像的命令的 單詞的情況下,由識(shí)別結(jié)果處理單元108所進(jìn)行的處理(步驟 S826、 S827和S828)。
其它處理與使用圖6~圖8所述的處理相同。
這里,在僅在檢測(cè)到的發(fā)音開始的時(shí)刻拍攝圖像的情況 下,從圖9所示的語(yǔ)音識(shí)別語(yǔ)法中刪除作為用于在發(fā)音結(jié)束時(shí)拍 攝圖像的命令的單詞("Cheese"或"Say Cheese"等)。
如果不改變語(yǔ)音識(shí)別語(yǔ)法,則改變圖IO所示的識(shí)別結(jié)果控制數(shù)據(jù)。將在識(shí)別出"Cheese"或"Say Cheese"等時(shí)所進(jìn)行的處理 改變成用于在檢測(cè)到的發(fā)音開始的時(shí)刻拍攝圖像的處理。
結(jié)果,如果用戶說出"Cheese"或"Say Cheese",則將在發(fā)音 開始的時(shí)刻所拍攝的圖像的圖像數(shù)據(jù)存儲(chǔ)在存儲(chǔ)介質(zhì)(用于存 儲(chǔ)圖像)lll中。
在僅在檢測(cè)到的發(fā)音結(jié)束的時(shí)刻拍攝圖像的情況下,可以 類似地進(jìn)行改變。在這種情況下,省略了下面的處理在進(jìn)行 用于檢測(cè)發(fā)音開始的檢測(cè)操作時(shí)拍攝圖像的處理(步驟S 6 0 5和 S 606)和在取消用于檢測(cè)發(fā)音開始的檢測(cè)操作時(shí)所進(jìn)行的處理 (步驟S608)。
此外,省略由識(shí)別結(jié)果處理單元108所進(jìn)行的處理中的步 驟S822 S824。
這里,如果在步驟S821接收到識(shí)別結(jié)果(步驟S821為"是"), 則進(jìn)行步驟S826和其后步驟中的處理。
此外,從語(yǔ)音識(shí)別語(yǔ)法900中刪除作為用于在發(fā)音開始時(shí) 拍攝圖像的命令的單詞,或者改變?cè)谧R(shí)別結(jié)果控制數(shù)據(jù)中描述 的處理的細(xì)節(jié)。
在第一實(shí)施例中,可以將數(shù)字照相4幾200配置成^f艮據(jù)識(shí) 別結(jié)果,將在檢測(cè)到的發(fā)音開始的時(shí)刻和在檢測(cè)到的發(fā)音結(jié)束 的時(shí)刻所拍攝到的圖像的圖像數(shù)據(jù)存儲(chǔ)在存儲(chǔ)介質(zhì)(用于存儲(chǔ) 圖像)lll中。
例如,如果以在下面的兩個(gè)時(shí)刻拍纟聶圖4象的方式描述識(shí)別 結(jié)果控制數(shù)據(jù),則將這兩個(gè)時(shí)刻處的圖像的圖像數(shù)據(jù)存儲(chǔ)在存 儲(chǔ)介質(zhì)(用于存儲(chǔ)圖像)lll中檢測(cè)到的"Say Cheese"發(fā)音開始 的時(shí)刻和檢測(cè)到的"Say Cheese"發(fā)音結(jié)束的時(shí)刻。
利用這種結(jié)構(gòu),可以增加用戶期望的攝像時(shí)刻的種類數(shù) 量,并且提高了用戶操作的方便性。在第一實(shí)施例中,如果在由識(shí)別結(jié)果處理單元108所進(jìn)行 的處理中丟棄識(shí)別結(jié)果(步驟S821為"否"),則用戶可以檢查是 否應(yīng)該刪除存儲(chǔ)在存儲(chǔ)器(用于存儲(chǔ)圖像)110中的圖像A和B(步 驟S825)。
此外,用戶可以選擇要被存儲(chǔ)在存儲(chǔ)介質(zhì)(用于存儲(chǔ)圖 像)lll中的圖像。
此外,如果丟棄識(shí)別結(jié)果,則可以將圖像A和B均存儲(chǔ)在存 儲(chǔ)介質(zhì)(用于存儲(chǔ)圖像)lll中。
例如,將圖^象A和B顯示在顯示器115上,并且可以^使用四 向選擇按鈕204來選擇是否應(yīng)該刪除圖像數(shù)據(jù)。
此外,用戶使用四向選擇按鈕204選擇要存儲(chǔ)的圖像,并 且將在按下確定按鈕205時(shí)所選擇的圖像的圖像數(shù)據(jù)存儲(chǔ)在存 儲(chǔ)介質(zhì)(用于存儲(chǔ)圖像)lll中。
如果識(shí)別出除作為用于拍攝圖像的命令的單詞以外的單 詞(步驟S826為"否"),則類似地,用戶可以4企查是否應(yīng)該刪除 圖像,并且選擇要存儲(chǔ)在存儲(chǔ)介質(zhì)(用于存儲(chǔ)圖像)lll中的圖 像。
此外,可以將圖像A和B的圖像數(shù)據(jù)存儲(chǔ)在存儲(chǔ)介質(zhì)(用于 存儲(chǔ)圖像)lll中。
利用這種結(jié)構(gòu),在語(yǔ)音識(shí)別性能劣化的環(huán)境下應(yīng)用使用語(yǔ) 音命令的攝像功能的情況下,可以防止由于錯(cuò)誤識(shí)別的語(yǔ)音而
錯(cuò)誤地刪除圖像,并且提高了用戶操作的方便性。
這里,可以根據(jù)存儲(chǔ)器(用于存儲(chǔ)圖像)110的存儲(chǔ)容量來確
定 一 個(gè)語(yǔ)音識(shí)別處理中所保持的圖像的數(shù)量。
利用這種結(jié)構(gòu),可以考慮存儲(chǔ)器(用于存儲(chǔ)圖像)110的存儲(chǔ)
容量,盡可能多地將用戶期望的候選圖像臨時(shí)存儲(chǔ)在存儲(chǔ)器(用
于存儲(chǔ)圖像)110中。如果在識(shí)別結(jié)果處理單元108所進(jìn)行的處理中,作為用于 在某 一 時(shí)刻拍攝圖像的命令的單詞的識(shí)別得分和作為用于在不 同時(shí)刻拍攝圖像的命令的另 一 單詞的識(shí)別得分之間的差小于預(yù) 定閾值,則可以將在發(fā)音開始的時(shí)刻和發(fā)音結(jié)束的時(shí)刻所拍攝 到的圖像都存儲(chǔ)在存儲(chǔ)介質(zhì)(用于存儲(chǔ)圖像)lll中。
例如,如果作為用于在發(fā)音開始時(shí)拍攝圖像的命令的 "Shoot"的識(shí)別得分和作為用于在發(fā)音結(jié)束時(shí)拍攝圖像的命令 的"Cheese"的識(shí)別得分之間的差小于預(yù)定值,則將在發(fā)音開始 時(shí)和發(fā)音結(jié)束時(shí)所拍攝到的圖像都存儲(chǔ)在存儲(chǔ)介質(zhì)(用于存儲(chǔ) 圖像)lll中。
可選地,將這兩個(gè)圖像顯示在顯示器115上,并且用戶可 以選擇其中一個(gè)圖像或這兩個(gè)圖像。
利用這種結(jié)構(gòu),在語(yǔ)音識(shí)別性能可能劣化的環(huán)境下應(yīng)用使 用語(yǔ)音命令的攝像功能的情況下,可以防止由于錯(cuò)誤識(shí)別的語(yǔ) 音而錯(cuò)誤地刪除圖像,并且提高了用戶操作的方便性。
在第一實(shí)施例中,對(duì)于下面的情況進(jìn)行了說明將拍攝到 的圖像的圖像數(shù)據(jù)臨時(shí)存儲(chǔ)在存儲(chǔ)器(用于存儲(chǔ)圖像)110中,并 且在設(shè)置識(shí)別結(jié)果之后,將圖像的圖像數(shù)據(jù)存儲(chǔ)在存儲(chǔ)介質(zhì)(用 于存儲(chǔ)圖像)lll中。然而,可以將圖像的圖像數(shù)據(jù)直接存儲(chǔ)在 存儲(chǔ)介質(zhì)(用于存儲(chǔ)圖像)lll中。
在這種情況下,步驟S608和S714中的用于刪除圖像數(shù)據(jù)的 處理意為刪除存儲(chǔ)在存儲(chǔ)介質(zhì)(用于存儲(chǔ)圖像)lll中的圖像數(shù) 據(jù)。
此外,不進(jìn)行步驟S823和S827中的處理。
此外,如果丟棄識(shí)別結(jié)果(步驟S821為"否"),或者如果識(shí) 別結(jié)果不是作為用于拍攝圖像的命令的單詞(步驟S826為 "否"),則刪除存儲(chǔ)在存儲(chǔ)介質(zhì)(用于存儲(chǔ)圖像)lll中的圖像A和B的圖像數(shù)據(jù)。
此外,如果識(shí)別結(jié)果是作為用于在發(fā)音開始時(shí)拍攝圖像的 命令的單詞,則刪除圖像B的圖像數(shù)據(jù)。如果識(shí)別結(jié)果是作為 用于在發(fā)音結(jié)束時(shí)拍攝圖像的命令的單詞,則刪除圖像A的圖 像數(shù)據(jù)。
例如,在馬路邊等易受到周圍噪聲影響的地方使用根據(jù)第 一實(shí)施例的數(shù)字照相機(jī)200的情況下,語(yǔ)音測(cè)單元10 6的內(nèi)部 狀態(tài)可能在短時(shí)間段內(nèi)頻繁改變。
如果在短時(shí)間段內(nèi)重復(fù)進(jìn)行圖像的拍攝和圖像數(shù)據(jù)的刪 除,則當(dāng)啟動(dòng)數(shù)字照相機(jī)200的連續(xù)拍攝功能時(shí),數(shù)字照相機(jī)200 可能不能在刪除圖像數(shù)據(jù)之后立即適當(dāng)?shù)嘏臄z圖像,并且不能 將圖像存儲(chǔ)在存儲(chǔ)器(用于存儲(chǔ)圖像)110中。
為了解決上述問題,例如,在取消用于檢測(cè)發(fā)音開始的檢 測(cè)操作的時(shí)刻,在步驟S608不刪除拍攝到的圖像A的圖像數(shù)據(jù), 并且可以將圖像A的圖像數(shù)據(jù)存儲(chǔ)在存儲(chǔ)器(用于存儲(chǔ)圖像)110 中,直到進(jìn)行用于檢測(cè)下一發(fā)音開始的檢測(cè)操作的時(shí)刻為止。
在這種情況下,在進(jìn)行用于檢測(cè)下一發(fā)音開始的檢測(cè)操作 的時(shí)刻,刪除圖像A的圖像數(shù)據(jù),或者利用新拍攝的圖像的圖 像數(shù)據(jù)覆蓋圖像A的圖像數(shù)據(jù)。
類似地,在步驟S715取消用于檢測(cè)發(fā)音結(jié)束的檢測(cè)操作的 情況下,可以不刪除圖像B的圖像數(shù)據(jù),并且可以將其存儲(chǔ)在 存儲(chǔ)器(用于存儲(chǔ)圖像)110中,直到進(jìn)行用于檢測(cè)下一發(fā)音結(jié)束 的檢測(cè)操作為止。
利用這種結(jié)構(gòu),即使在進(jìn)行連續(xù)拍攝的速度不快于語(yǔ)音檢 測(cè)狀態(tài)的改變速度的情況下,也可以至少存儲(chǔ)連續(xù)拍攝中第一 次拍攝的圖像。
這里,在第一實(shí)施例中,對(duì)于照相機(jī)進(jìn)行了說明。然而,本發(fā)明可應(yīng)用于攝像機(jī)等其它攝像設(shè)備。
在第一實(shí)施例中,使用已知的立體聲麥克風(fēng)作為麥克風(fēng)
112。
此外,語(yǔ)音識(shí)別單元107可以使用通過左麥克風(fēng)112輸入的 音頻信號(hào)的音量和通過右麥克風(fēng)112輸入的音頻信號(hào)的音量之 間的關(guān)系、或這兩個(gè)音頻信號(hào)的音高之間的關(guān)系等,作為上述 的特征。
通過使用這種特4正,例如,可以區(qū)分來自數(shù)字照相才幾200 右側(cè)的聲源和來自數(shù)字照相機(jī)200左側(cè)的聲源。也就是說,識(shí)別 拍攝圖像時(shí)的狀況,并且可以拍攝圖像。
在第一實(shí)施例中,代替作為包括在識(shí)別結(jié)果控制表中的命 令的例子所示出的"Cheese",可以將用于在發(fā)音結(jié)束時(shí)拍攝圖 像的處理分配給命令"Say Cheese"。
此外,代替作為包括在識(shí)別結(jié)果控制表中的命令的例子所 示出的"Go",可以將用于在發(fā)音開始時(shí)拍攝圖像的處理分配給 命令"Now"(好了)。
圖16是示出根據(jù)本發(fā)明第二實(shí)施例的信息處理設(shè)備1600 的結(jié)構(gòu)的例子的功能框圖。
這里,將以相同的附圖標(biāo)記表示與圖l所示的組件相同的 組件,并且省略對(duì)其的說明。
可以將信息處理設(shè)備16 00連接到輸入設(shè)備1602 、攝像設(shè)備 1603、存儲(chǔ)器設(shè)備(用于存儲(chǔ)圖像)1610、存儲(chǔ)設(shè)備(用于存儲(chǔ)圖 像)1611和聲音收集器1612。
此外,信息處理設(shè)備1600可以連接到存儲(chǔ)器設(shè)備(用于存儲(chǔ) 語(yǔ)音識(shí)別數(shù)據(jù))1613、存儲(chǔ)器設(shè)備(用于存儲(chǔ)識(shí)別結(jié)果控制 表)1614和顯示設(shè)備1615。
這里,輸入設(shè)備1602具有與操作單元102相對(duì)應(yīng)的功能。攝像設(shè)備1603具有與攝像單元103相對(duì)應(yīng)的功能。存儲(chǔ)器設(shè)備 (用于存儲(chǔ)圖像)1610具有與存儲(chǔ)器(用于存儲(chǔ)圖像)110相對(duì)應(yīng)的 功能。存儲(chǔ)設(shè)備(用于存儲(chǔ)圖像)1611具有與存儲(chǔ)介質(zhì)(用于存儲(chǔ) 圖像)lll相對(duì)應(yīng)的功能。
此外,聲音收集器1612具有與麥克風(fēng)112相對(duì)應(yīng)的功能。 存儲(chǔ)器設(shè)備(用于存儲(chǔ)語(yǔ)音識(shí)別數(shù)據(jù))1613具有與存儲(chǔ)器(用于 存儲(chǔ)語(yǔ)音識(shí)別數(shù)據(jù))113相對(duì)應(yīng)的功能。
此外,存儲(chǔ)器設(shè)備(用于存儲(chǔ)識(shí)別結(jié)果控制表)1614具有與 存儲(chǔ)器(用于存儲(chǔ)識(shí)別結(jié)果控制表)114相對(duì)應(yīng)的功能。顯示控制 單元1609具有與顯示控制單元109相對(duì)應(yīng)的功能。
信息處理設(shè)備1600的例子為微處理器等。
圖14A和14B以及圖15是示出由信息處理設(shè)備1600所進(jìn)行 的處理操作的例子的流程圖。
首先,使用圖14A和14B的流程圖來說明處理。
在步驟S1400,語(yǔ)音輸入單元105判斷是否輸入了音頻信號(hào)。
如果沒有輸入音頻信號(hào)(步驟S1400為"否"),則該過程返回 到步驟S1楊。
如果輸入了音頻信號(hào)(步驟S1400為"是"),則在步驟S1401, 語(yǔ)音檢測(cè)單元106初始化幀f(f = 0)。
接著,在步驟S1402,語(yǔ)音檢測(cè)單元106將音頻信號(hào)的檢測(cè) 狀態(tài)設(shè)置為第一狀態(tài)301。
接著,在步驟S1403,語(yǔ)音檢測(cè)單元106設(shè)置作為檢測(cè)對(duì)象 的幀。
接著,在步驟S1404,語(yǔ)音4企測(cè)單元106存<諸與輸入至語(yǔ)音 輸入單元105的音頻信號(hào)有關(guān)的特征數(shù)據(jù)。
這里,特征數(shù)據(jù)是在語(yǔ)音識(shí)別單元107進(jìn)行語(yǔ)音識(shí)別時(shí)所使用的數(shù)據(jù)。
接著,在步驟S1405,語(yǔ)音檢測(cè)單元106將語(yǔ)音的4企測(cè)狀態(tài)判斷為第一狀態(tài)~第四狀態(tài)中的一個(gè)。
在步驟S1405,如果語(yǔ)音檢測(cè)單元106將^r測(cè)狀態(tài)判斷為第一狀態(tài)301,則在步驟S1406,語(yǔ)音;f企測(cè)單元106判斷作為第一檢測(cè)是否檢測(cè)到大于或等于閾值T H1的音量。
如果檢測(cè)到大于或等于閾值TH1的音量(步驟S1406為"是"),則在步驟S1407,語(yǔ)音檢測(cè)單元106將檢測(cè)狀態(tài)改變成第二狀態(tài)3 02 (將該時(shí)刻稱為第 一 時(shí)刻)。
接著,在步驟S1408,攝像控制單元123輸出用于使得攝像設(shè)備16 0 3執(zhí)行攝像操作的信號(hào)。
這里,根據(jù)在步驟S140 8輸出的信號(hào)所拍攝到的圖像是圖像A。
接著,在步驟S1409,圖像存儲(chǔ)控制單元104輸出下面的信號(hào)該信號(hào)使得存儲(chǔ)器設(shè)備(用于存儲(chǔ)圖像)1610存儲(chǔ)在前一步驟S1408中所拍攝到的圖像A的圖像數(shù)據(jù),作為第 一獲取。
接著,在步驟S1410,作為第一存儲(chǔ),語(yǔ)音檢測(cè)單元106存儲(chǔ)正,皮處理的幀f,作為發(fā)音開始幀F(xiàn)s。
接著,該過程返回至步驟S1403,并且語(yǔ)音纟全測(cè)單元106設(shè)
置作為下 一 檢測(cè)對(duì)象的幀。
此外,在步驟S1406,如果沒有檢測(cè)到大于或等于閾值TH1的音量(步驟S1406為"否"),則該過程同樣返回至步驟S1403,并且語(yǔ)音檢測(cè)單元106設(shè)置作為下一語(yǔ)音檢測(cè)對(duì)象的幀。
此外,在步驟S1405,如果語(yǔ)音^r測(cè)單元106將檢測(cè)狀態(tài)判斷為第二狀態(tài)302,則在步驟S1411,判斷正被處理的幀f是否是從發(fā)音開始幀F(xiàn)s算起的第Ml個(gè)幀或從發(fā)音開始幀F(xiàn)s算起的第Ml個(gè)幀之后的幀。此外,如果正被處理的幀f在從發(fā)音開始幀F(xiàn)s算起的第Ml個(gè)幀之前(步驟S1411為"是"),則在步驟S1413,判斷語(yǔ)音檢測(cè)單元106是否檢測(cè)到小于閾值TH1的音量。
如果沒有檢測(cè)到小于閾值TH1的音量(步驟S1413為"否"),則在步驟S1414,語(yǔ)音4企測(cè)單元106初始化計(jì)凄t器Fa的計(jì)數(shù)值。
接著,該過程返回至步驟S1403,并且語(yǔ)音檢測(cè)單元106設(shè)
置作為下 一 語(yǔ)音檢測(cè)對(duì)象的幀。
這里,使用計(jì)數(shù)器Fa來判斷是否應(yīng)該復(fù)位發(fā)音開始幀F(xiàn)s。
此外,如果檢測(cè)到小于閾值TH1的音量(步驟S1413為"是"),則在步驟S1415,語(yǔ)音檢測(cè)單元106將計(jì)數(shù)器Fa的計(jì)數(shù)值增大l。
接著,在步驟S1416,語(yǔ)音檢測(cè)單元106判斷計(jì)數(shù)器Fa的計(jì)數(shù)值是否大于或等于N1。
如果計(jì)數(shù)器Fa的計(jì)數(shù)值大于或等于Nl(步驟S1416為"是"),則在步驟S1417,圖像存儲(chǔ)控制單元104輸出下面的信號(hào)該信號(hào)用于刪除存儲(chǔ)在存儲(chǔ)器設(shè)備(用于存儲(chǔ)圖像)1610中的圖像A的圖像數(shù)據(jù)。
這里,步驟S1417中的處理對(duì)應(yīng)于相對(duì)用于在進(jìn)行語(yǔ)音識(shí)別之后刪除圖像數(shù)據(jù)的處理的第二刪除。
接著,在步驟S1418,語(yǔ)音檢測(cè)單元106將4企測(cè)狀態(tài)改變成第 一 狀態(tài)3 01 ,以再次進(jìn)行用于檢測(cè)發(fā)音開始的第 一 檢測(cè)操作。
接著,該過程返回至步驟S1403,并且語(yǔ)音檢測(cè)單元106設(shè)置作為下 一 語(yǔ)音檢測(cè)對(duì)象的幀。
此外,如果計(jì)數(shù)器Fa的計(jì)數(shù)值小于Nl(步驟S1416為"否"),則該過程同樣返回至步驟S1403,并且語(yǔ)音檢測(cè)單元106設(shè)置作為下 一語(yǔ)音4企測(cè)對(duì)象的幀。
此外,在步驟S1411,如果正纟皮處理的幀f是^人發(fā)音開始幀F(xiàn)s算起的第Ml個(gè)幀或從發(fā)音開始幀F(xiàn)s算起的第Ml個(gè)幀之后的幀(步驟S1411為"否"),則在步驟S1412,語(yǔ)音檢測(cè)單元106將檢測(cè)狀態(tài)改變成第三狀態(tài)303。
此外,在步驟S1405,如果語(yǔ)音^r測(cè)單元106將^r測(cè)狀態(tài)判斷為第三狀態(tài)303,則在步驟S1419,語(yǔ)音4全測(cè)單元106判斷作為第二檢測(cè)是否檢測(cè)到小于或等于閾值TH2的音量。
如果檢測(cè)到小于或等于閾值TH2的音量(步驟S1419為"是"),則在步驟S1420,語(yǔ)音檢測(cè)單元106將纟僉測(cè)狀態(tài)改變成第四狀態(tài)304(將該時(shí)刻稱為第二時(shí)刻)。
接著,在步驟S1421,攝像控制單元123輸出用于使得攝像設(shè)備1603執(zhí)行攝像操作的信號(hào)。
這里,根據(jù)步驟S14 21中輸出的信號(hào)所拍攝到的圖像是圖像B。
接著,在步驟S1422,圖像存儲(chǔ)控制單元104輸出下面的信號(hào)該信號(hào)用于使得存儲(chǔ)器設(shè)備(用于存儲(chǔ)圖像)1610存儲(chǔ)在前一步驟S1421所拍攝到的圖像B的圖像數(shù)據(jù),作為第二獲取。
接著,在步驟S1423,作為第二存儲(chǔ),語(yǔ)音檢測(cè)單元106存儲(chǔ)正被處理的幀f,作為發(fā)音結(jié)束幀F(xiàn)e。
接著,該過程返回至步驟S1403,并且語(yǔ)音檢測(cè)單元106設(shè)置作為下 一 語(yǔ)音檢測(cè)對(duì)象的幀。
此外,在步驟S1419,如果沒有檢測(cè)到小于或等于閾值TH2的音量(步驟S1419為"否"),則該過程同樣返回至步驟S1403,并且語(yǔ)音檢測(cè)單元10 6設(shè)置作為下 一 語(yǔ)音4全測(cè)對(duì)象的幀。
此外,在步驟S1405,如果語(yǔ)音檢測(cè)單元106將檢測(cè)狀態(tài)判斷為第四狀態(tài)304,則在步驟S1424,判斷正纟皮處理的幀f是否是從發(fā)音結(jié)束幀F(xiàn)e算起的第M2個(gè)幀或從發(fā)音結(jié)束幀F(xiàn)e算起的第M2個(gè)幀之后的幀。
此外,如果正被處理的幀f是從發(fā)音結(jié)束幀F(xiàn)e算起的第M2個(gè)幀之前的幀(步驟S1424為"是"),則在步驟S1426,判斷語(yǔ)音檢測(cè)單元10 6是否檢測(cè)到大于閾值T H 2的音量。
如果沒有檢測(cè)到大于閾值TH2的音量(步驟S1426為"否"),則在步驟S1427,語(yǔ)音檢測(cè)單元106初始化計(jì)數(shù)器Fb的計(jì)數(shù)值。
接著,該過程返回至步驟S1403,并且語(yǔ)音4企測(cè)單元106設(shè)置作為下 一 語(yǔ)音檢測(cè)對(duì)象的幀。
這里,使用計(jì)數(shù)器Fb來判斷是否應(yīng)該復(fù)位發(fā)音結(jié)束幀F(xiàn)e。
此外,如果檢測(cè)到大于閾值TH2的音量(步驟S1426為"是"),則在步驟S1428,語(yǔ)音檢測(cè)單元106將計(jì)數(shù)器Fb的計(jì)數(shù)值增大l。
接著,在步驟S1429,語(yǔ)音檢測(cè)單元106判斷計(jì)數(shù)器Fb的計(jì)數(shù)值是否大于或等于N2。
如果計(jì)數(shù)器Fb的計(jì)數(shù)值大于或等于N2(步驟S1429為"是"),則在步驟S1430,圖像存儲(chǔ)控制單元104輸出用于刪除存儲(chǔ)在存儲(chǔ)器設(shè)備(用于存儲(chǔ)圖像)1610中的圖像B的圖像數(shù)據(jù)的信號(hào)。
這里,步驟S1430中的處理對(duì)應(yīng)于相對(duì)用于在進(jìn)行語(yǔ)音識(shí)別之后刪除圖像數(shù)據(jù)的處理的第三刪除。
接著,在步驟S1431,語(yǔ)音4企測(cè)單元106將4企測(cè)狀態(tài)改變成第三狀態(tài)303,以再次進(jìn)行用于檢測(cè)發(fā)音結(jié)束的第二檢測(cè)操作。
接著,該過程返回至步驟S1403,并且語(yǔ)音4企測(cè)單元106設(shè)置作為下 一 語(yǔ)音檢測(cè)對(duì)象的幀。
此外,如果計(jì)數(shù)器Fb的計(jì)數(shù)值小于N2(步驟S1429為"否"),則該過程同樣返回至步驟S1403,并且語(yǔ)音檢測(cè)單元106設(shè)置作為下一語(yǔ)音檢測(cè)對(duì)象的幀。
此外,如果在步驟S1424中正被處理的幀f是從發(fā)音結(jié)束幀F(xiàn)e算起的第M2個(gè)幀或從發(fā)音結(jié)束幀F(xiàn)e算起的第M2個(gè)幀之后的幀(步驟S1424為"否"),則在步驟S1425,語(yǔ)音纟企測(cè)單元106結(jié)束語(yǔ)音檢測(cè)。然后該過程進(jìn)入步驟S1532。接著,將使用圖15的流程圖來說明處理。
在步驟S1532,語(yǔ)音識(shí)別單元107根據(jù)在步驟S1504所獲得的幀的特征數(shù)據(jù)和語(yǔ)音識(shí)別數(shù)據(jù),進(jìn)行語(yǔ)音識(shí)別。
接著,在步驟S1533,結(jié)束由語(yǔ)音識(shí)別單元107所進(jìn)行的語(yǔ)音識(shí)別。
這里,在語(yǔ)音識(shí)別單元107獲得語(yǔ)音識(shí)別結(jié)果之后,執(zhí)行步驟S1533中的處理。
接著,在步驟S1534,識(shí)別結(jié)果處理單元108判斷識(shí)別結(jié)果是否表示用于在發(fā)音開始時(shí)拍攝圖像的命令。
如果識(shí)別結(jié)果表示用于在發(fā)音開始時(shí)拍攝圖像的命令(步驟S1534為"是"),則在步驟S1535,輸出用于刪除圖像B的信號(hào)。
如果識(shí)別結(jié)果不表示用于在發(fā)音開始時(shí)拍攝圖像的命令(步驟S1534為"否"),則在步驟S1536,識(shí)別結(jié)果處理單元108判斷語(yǔ)音識(shí)別結(jié)果是否表示用于在發(fā)音結(jié)束時(shí)拍攝圖像的命令。
如果識(shí)別結(jié)果表示用于在發(fā)音結(jié)束時(shí)拍攝圖像的命令(步驟S1536為"是"),則在步驟S1537,輸出用于刪除圖像A的信號(hào)。
如果識(shí)別結(jié)果不表示用于在發(fā)音結(jié)束時(shí)拍攝圖像的命令(步驟S1536為"否"),則在步驟S1538,輸出用于刪除圖像A和B的信號(hào)。
接著,在步驟S1539,識(shí)別結(jié)果處理單元108判斷識(shí)別結(jié)果是否表示用于在從發(fā)音開始的時(shí)刻起過去了特定時(shí)間段的時(shí)刻拍攝圖像的命令。
如果識(shí)別結(jié)果表示用于在從發(fā)音開始的時(shí)刻起過去了特定時(shí)間段的時(shí)刻拍攝圖像的命令(步驟S1539為"是"),則在步驟S1540,攝像控制單元123輸出下面的信號(hào)該信號(hào)用于使得攝像設(shè)備1603在過去了特定時(shí)間段之后執(zhí)行攝像操作(將該時(shí)刻稱為第三時(shí)刻)。這里,根據(jù)在步驟S15 40中輸出的信號(hào)拍攝到的圖像是圖像C。
接著,在步驟S1541,圖像存儲(chǔ)控制單元104輸出下面的信號(hào)該信號(hào)用于使得存儲(chǔ)器設(shè)備(用于存儲(chǔ)圖像)1610存儲(chǔ)在前一步驟S1540所拍攝到的圖像C的圖像數(shù)據(jù),作為第三獲取,并且結(jié)束該過程。
此外,如果識(shí)別結(jié)果不表示用于在從發(fā)音開始的時(shí)刻起過去了特定時(shí)間段的時(shí)刻拍攝圖像的命令(步驟S15 3 9為"否"),則結(jié)束該過程。
利用這種結(jié)構(gòu),在發(fā)音期間,可以獲得作為第一關(guān)系的在發(fā)音開始時(shí)所拍攝的第 一 圖像(圖像A)和作為第二關(guān)系的在發(fā)音結(jié)束時(shí)所拍攝的第二圖像(圖像B)。
此外,在發(fā)音期間可以獲得作為第三關(guān)系的在從發(fā)音開始起過去了特定時(shí)間段的時(shí)刻所拍攝到的第三圖像(圖像C)。
此外,根據(jù)發(fā)音期間內(nèi)的語(yǔ)音內(nèi)容,可以從多個(gè)圖像中選擇在用戶期望的時(shí)刻所拍攝到的圖像。
此外,利用這種結(jié)構(gòu),通過與根據(jù)第二實(shí)施例的信息處理設(shè)備1600同步地操作外部裝置,可以高效獲得在用戶期望的時(shí)刻所拍攝到的圖像。
此外,根據(jù)按照第二實(shí)施例的信息處理設(shè)備1600,即使在輸入斷續(xù)語(yǔ)音的情況下,也可以將這種斷續(xù)語(yǔ)音識(shí)別為 一 個(gè)命令。因此,即使在使用發(fā)音期間長(zhǎng)的單詞作為命令的情況下,也降低了識(shí)別錯(cuò)誤的可能性。
這里,還可以通過向系統(tǒng)或設(shè)備提供存儲(chǔ)有實(shí)現(xiàn)上述實(shí)施例所述功能的軟件的程序代碼的存儲(chǔ)介質(zhì),并且通過由該系統(tǒng)或設(shè)備的計(jì)算機(jī)讀取并執(zhí)行該程序代碼,來實(shí)現(xiàn)本發(fā)明。
這里,計(jì)算機(jī)可以是中央處理單元(CPU)或微處理器單(MPU)等。
在這種情況下,作為計(jì)算機(jī)可讀的且從存儲(chǔ)介質(zhì)讀取的程 序代碼實(shí)現(xiàn)上述實(shí)施例所述的功能。存儲(chǔ)該程序代碼的存儲(chǔ)介 質(zhì)為本發(fā)明。
用于提供程序代碼的存儲(chǔ)介質(zhì)的例子有軟盤、硬盤、光盤、 磁光盤、緊湊型光盤只讀存儲(chǔ)器(CD-ROM)、可記錄緊湊型光 盤(CD-R)、磁帶、非易失性存儲(chǔ)卡和只讀存儲(chǔ)器(ROM)等。
此外,不是必須僅通過執(zhí)行由計(jì)算機(jī)所讀取的程序代碼才 能實(shí)現(xiàn)上述實(shí)施例所述的功能。操作系統(tǒng)(OS)等可以根據(jù)程序 代碼的內(nèi)容進(jìn)行用于實(shí)現(xiàn)上述實(shí)施例所述功能的部分或全部實(shí) 際處理。
這里,本發(fā)明還包括通過該處理實(shí)現(xiàn)上述實(shí)施例所述的功 能的情況。
這里,OS運(yùn)行在計(jì)算機(jī)上。
此外,將從存儲(chǔ)介質(zhì)讀取的程序代碼寫入包括在插入計(jì)算 機(jī)的功能擴(kuò)展板內(nèi)的存儲(chǔ)器中或?qū)懭氚ㄔ谂c計(jì)算機(jī)連接的功 能擴(kuò)展單元內(nèi)的存儲(chǔ)器中。
本發(fā)明還包括下面的情況此后,包括在功能擴(kuò)展板或功 能擴(kuò)展單元中的C P U根據(jù)程序代碼的內(nèi)容,進(jìn)行部分或全部實(shí) 際處理,并且通過該處理實(shí)現(xiàn)上述實(shí)施例所述的功能。
盡管已經(jīng)參考典型實(shí)施例說明了本發(fā)明,但是應(yīng)該理解, 本發(fā)明不局限于所公開的典型實(shí)施例。所附權(quán)利要求書的范圍 符合最寬的解釋,以包含所有這類修改、等同結(jié)構(gòu)和功能。
權(quán)利要求
1.一種信息處理方法,包括檢測(cè)滿足預(yù)先設(shè)置的標(biāo)準(zhǔn)的第一聲音的開始,并且響應(yīng)于檢測(cè)到所述第一聲音的開始,獲得圖像數(shù)據(jù);或者檢測(cè)所述第一聲音的結(jié)束,并且響應(yīng)于檢測(cè)到所述第一聲音的結(jié)束,獲得圖像數(shù)據(jù);將獲得的所述圖像數(shù)據(jù)存儲(chǔ)在存儲(chǔ)器中;以及根據(jù)所述第一聲音的內(nèi)容,判斷所述圖像數(shù)據(jù)是否是要存儲(chǔ)的數(shù)據(jù)。
2. 根據(jù)權(quán)利要求l所述的信息處理方法,其特征在于,還 包括從所述存儲(chǔ)器刪除被判斷為是要?jiǎng)h除的數(shù)據(jù)的所述圖像數(shù)據(jù)。
3. 根據(jù)權(quán)利要求l所述的信息處理方法,其特征在于, 在檢測(cè)到的所述第 一聲音的開始的時(shí)刻或在檢測(cè)到的所述第一聲音的結(jié)束的時(shí)刻,執(zhí)行所述圖像數(shù)據(jù)的獲得。
4. 根據(jù)權(quán)利要求3所述的信息處理方法,其特征在于,還 包括在檢測(cè)到所述第一聲音的開始時(shí),獲得圖像數(shù)據(jù),并且在 檢測(cè)到的所述第 一聲音的開始的時(shí)刻之后所述第 一聲音沒有持 續(xù)預(yù)先設(shè)置的時(shí)間段的情況下,從所述存儲(chǔ)器刪除獲得的所述 圖像數(shù)據(jù);檢測(cè)滿足所述預(yù)先設(shè)置的標(biāo)準(zhǔn)的第二聲音的開始;以及 響應(yīng)于檢測(cè)到所述第二聲音的開始,再次獲得圖像數(shù)據(jù)作 為第一圖像數(shù)據(jù)。
5. 根據(jù)權(quán)利要求3所述的信息處理方法,其特征在于,還 包括在檢測(cè)到所述第一聲音的結(jié)束時(shí),獲得圖像數(shù)據(jù),并且在檢測(cè)到的所述第 一 聲音的結(jié)束的時(shí)刻之后的預(yù)先設(shè)置的時(shí)間段 內(nèi)存在滿足所述預(yù)先設(shè)置的標(biāo)準(zhǔn)的第二聲音的情況下,從所述存儲(chǔ)器刪除獲得的所述圖像數(shù)據(jù);檢測(cè)所述第二聲音的結(jié)束;以及響應(yīng)于檢測(cè)到所述第二聲音的結(jié)束,獲得圖像數(shù)據(jù)作為第 二圖像數(shù)據(jù)。
6. 根據(jù)權(quán)利要求l所述的信息處理方法,其特征在于, 在從檢測(cè)到的所述第 一聲音的開始的時(shí)刻起過去了預(yù)先設(shè)置的延遲時(shí)間段時(shí),或者在從檢測(cè)到的所述第 一聲音的結(jié)束的 時(shí)刻起過去了預(yù)先設(shè)置的延遲時(shí)間段時(shí),執(zhí)行所述圖像數(shù)據(jù)的 獲得。
7. 根據(jù)權(quán)利要求l所述的信息處理方法,其特征在于, 所述預(yù)先設(shè)置的標(biāo)準(zhǔn)為音量大于一定水平。
8. 根據(jù)權(quán)利要求l所述的信息處理方法,其特征在于,通過對(duì)所述第 一 聲音進(jìn)行語(yǔ)音識(shí)別,指定所述第 一 聲音的 內(nèi)容。
9. 一種信息處理設(shè)備,包括第一檢測(cè)單元,用于檢測(cè)滿足預(yù)先設(shè)置的標(biāo)準(zhǔn)的聲音的開始;第一獲得單元,用于響應(yīng)于檢測(cè)到所述聲音的開始,獲得 第一圖像數(shù)據(jù);第一存儲(chǔ)控制單元,用于將所述第一圖像數(shù)據(jù)存儲(chǔ)在存儲(chǔ) 器中;第二檢測(cè)單元,用于檢測(cè)所述聲音的結(jié)束; 第二獲得單元,用于、響應(yīng)于檢測(cè)到所述聲音的結(jié)束,獲得 第二圖像數(shù)據(jù);第二存儲(chǔ)控制單元,用于將所述第二圖像數(shù)據(jù)存儲(chǔ)在所述存儲(chǔ)器中;以及確定單元,用于根據(jù)所述聲音的內(nèi)容,將所述第一圖像數(shù) 據(jù)和所述第二圖像數(shù)據(jù)中的 一 個(gè)確定為是要存儲(chǔ)的數(shù)據(jù),并且 將所述第一圖像數(shù)據(jù)和所述第二圖像數(shù)據(jù)中的另一個(gè)確定為是 要?jiǎng)h除的數(shù)據(jù)。
10. —種信息處理方法,包括檢測(cè)滿足預(yù)先設(shè)置的標(biāo)準(zhǔn)的聲音的開始; 響應(yīng)于檢測(cè)到所述聲音的開始,獲得第一圖像數(shù)據(jù); 存儲(chǔ)所述第一圖像數(shù)據(jù); 檢測(cè)所述聲音的結(jié)束;響應(yīng)于檢測(cè)到所述聲音的結(jié)束,獲得第二圖像數(shù)據(jù); 存儲(chǔ)所述第二圖像數(shù)據(jù);以及根據(jù)所述聲音的內(nèi)容,將所述第一圖像數(shù)據(jù)和所述第二圖 像數(shù)據(jù)中的 一個(gè)確定為是要存儲(chǔ)的數(shù)據(jù),并且將所述第 一 圖像 數(shù)據(jù)和所述第二圖像數(shù)據(jù)中的另 一個(gè)確定為是要?jiǎng)h除的數(shù)據(jù)。
11. 一種信息處理設(shè)備,包括攝像單元,用于響應(yīng)于聲音的輸入來拍攝圖像,其中,所 述圖像是要存儲(chǔ)的圖像的候選圖像;存儲(chǔ)控制單元,用于將拍攝到的所述圖像存儲(chǔ)在存儲(chǔ)器中;以及確定單元,用于根據(jù)所述聲音的內(nèi)容,從存儲(chǔ)在所述存儲(chǔ) 器中的圖像中確定作為要存儲(chǔ)的圖像的圖像。
全文摘要
本發(fā)明涉及一種信息處理方法和信息處理設(shè)備。該信息處理方法包括檢測(cè)滿足預(yù)先設(shè)置的標(biāo)準(zhǔn)的第一聲音的開始,并且響應(yīng)于檢測(cè)到所述第一聲音的開始,獲得圖像數(shù)據(jù);或者檢測(cè)所述第一聲音的結(jié)束,并且響應(yīng)于檢測(cè)到所述第一聲音的結(jié)束,獲得圖像數(shù)據(jù);將獲得的所述圖像數(shù)據(jù)存儲(chǔ)在存儲(chǔ)器中;以及根據(jù)所述第一聲音的內(nèi)容,判斷所述圖像數(shù)據(jù)是否是要存儲(chǔ)的數(shù)據(jù)。
文檔編號(hào)G10L15/00GK101640042SQ200910162220
公開日2010年2月3日 申請(qǐng)日期2009年7月29日 優(yōu)先權(quán)日2008年7月29日
發(fā)明者山本寬樹 申請(qǐng)人:佳能株式會(huì)社