一種玩具的基于語音識別的自學(xué)習(xí)方法和自學(xué)習(xí)裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及智能玩具領(lǐng)域,尤其涉及一種玩具的基于語音識別的自學(xué)習(xí)方法和自學(xué)習(xí)裝置。
【背景技術(shù)】
[0002]隨著電子技術(shù)和人工智能的不斷發(fā)展,玩具作為一種面向特定用戶群體的電子設(shè)備,因?yàn)槠淞己玫幕?dòng)性受到越來越多人的青睞,例如對玩具說“唱歌”,玩具在識別出“P昌歌”指令后,會(huì)播放預(yù)存的歌曲。
[0003]但是現(xiàn)有的玩具只能當(dāng)做一種根據(jù)預(yù)設(shè)的劇本進(jìn)行互動(dòng)的玩具,其互動(dòng)方式的多樣性受制于玩具生產(chǎn)時(shí)輸入的劇本個(gè)數(shù),如果預(yù)置的劇本個(gè)數(shù)為3個(gè),那么玩具只能對3種語音內(nèi)容進(jìn)行響應(yīng);如果預(yù)置的劇本個(gè)數(shù)為10個(gè),那么玩具只能對10種語音內(nèi)容進(jìn)行響應(yīng)。那么當(dāng)兒童對玩具進(jìn)行一段時(shí)間的體驗(yàn)后,因?yàn)榛?dòng)內(nèi)容沒有更新,兒童玩具的互動(dòng)性會(huì)逐步下降,喪失玩具功能。并且如果通過預(yù)置的方式設(shè)置互動(dòng)內(nèi)容,需要為每一個(gè)玩具預(yù)存互動(dòng)內(nèi)容;如果要面向不同的語種區(qū)域的客戶群體,還需要準(zhǔn)備多種不同語種的互動(dòng)內(nèi)容。
【發(fā)明內(nèi)容】
[0004]本發(fā)明提供了一種玩具的基于語音識別的自學(xué)習(xí)方法和自學(xué)習(xí)裝置,其通過在輸出提示后所述語音采集設(shè)備采集第一音頻數(shù)據(jù)并提取音頻數(shù)據(jù)的特征數(shù)據(jù),在采集與第一音頻數(shù)據(jù)匹配的第二音頻數(shù)據(jù)后將第二音頻數(shù)據(jù)和第一音頻數(shù)據(jù)關(guān)聯(lián)保存,實(shí)現(xiàn)了玩具自身對語音的學(xué)習(xí),避免了預(yù)存語音對玩具的語種的限制,避免了玩具制作過程中針對不同語種區(qū)域預(yù)存不同音頻數(shù)據(jù)。
[0005]為實(shí)現(xiàn)上述設(shè)計(jì),本發(fā)明采用以下技術(shù)方案:
[0006]—方面采用一種玩具的基于語音識別的自學(xué)習(xí)方法,包括:
[0007]輸出語音采集提示,開啟語音采集設(shè)備;
[0008]所述語音采集設(shè)備采集第一音頻數(shù)據(jù),提取所述第一音頻數(shù)據(jù)的特征數(shù)據(jù);
[0009]所述語音采集設(shè)備采集與所述第一音頻數(shù)據(jù)匹配的第二音頻數(shù)據(jù);
[0010]將所述第一音頻數(shù)據(jù)和第二音頻數(shù)據(jù)關(guān)聯(lián)保存。
[0011 ]其中,所述將所述第一音頻數(shù)據(jù)和第二音頻數(shù)據(jù)關(guān)聯(lián)保存之后,還包括:
[0012]當(dāng)采集到外部音頻數(shù)據(jù)且從所述外部音頻數(shù)據(jù)中提取到的特征數(shù)據(jù)與所述第一音頻數(shù)據(jù)的特征數(shù)據(jù)的相似度達(dá)到預(yù)設(shè)的閾值時(shí),輸出第二音頻數(shù)據(jù)。
[0013]其中,所述語音采集設(shè)備采集第一音頻數(shù)據(jù),提取所述第一音頻數(shù)據(jù)的特征數(shù)據(jù),具體為:
[0014]所述語音采集設(shè)備采集重復(fù)一至三次的第一語音產(chǎn)生的一至三份第一音頻數(shù)據(jù),根據(jù)所述一至三份第一音頻數(shù)據(jù)提取特征數(shù)據(jù)。
[0015]其中,所述輸出語音采集提示,開啟語音采集設(shè)備之前,還包括:
[0016]接收學(xué)習(xí)行為執(zhí)行指令。
[0017]其中,所述語音采集設(shè)備為單個(gè)麥克風(fēng)。
[0018]另一方面采用一種玩具的基于語音識別的自學(xué)習(xí)裝置,包括:
[0019]狀態(tài)初始化模塊,用于輸出語音采集提示,開啟語音采集設(shè)備;
[0020]第一采集模塊,用于所述語音采集設(shè)備采集第一音頻數(shù)據(jù),提取所述第一音頻數(shù)據(jù)的特征數(shù)據(jù);
[0021]第二采集模塊,用于所述語音采集設(shè)備采集與所述第一音頻數(shù)據(jù)匹配的第二音頻數(shù)據(jù);
[0022]數(shù)據(jù)保存模塊,用于將所述第一音頻數(shù)據(jù)和第二音頻數(shù)據(jù)關(guān)聯(lián)保存。
[0023]其中,還包括:
[0024]聲音響應(yīng)模塊,用于當(dāng)采集到外部音頻數(shù)據(jù)且從所述外部音頻數(shù)據(jù)中提取到的特征數(shù)據(jù)與所述第一音頻數(shù)據(jù)的特征數(shù)據(jù)的相似度達(dá)到預(yù)設(shè)的閾值時(shí),輸出第二音頻數(shù)據(jù)。
[0025]其中,所述第一采集模塊,具體用于:
[0026]所述語音采集設(shè)備采集重復(fù)一至三次的第一語音產(chǎn)生的一至三份第一音頻數(shù)據(jù),根據(jù)所述一至三份第一音頻數(shù)據(jù)提取特征數(shù)據(jù)。
[0027]其中,還包括:
[0028]狀態(tài)激活模塊,用于接收學(xué)習(xí)行為執(zhí)行指令。
[0029]其中,所述語音采集設(shè)備為單個(gè)麥克風(fēng)。
[0030]本發(fā)明的有益效果為:通過在輸出提示后所述語音采集設(shè)備采集第一音頻數(shù)據(jù)并提取音頻數(shù)據(jù)的特征數(shù)據(jù),在采集與第一音頻數(shù)據(jù)匹配的第二音頻數(shù)據(jù)后將第二音頻數(shù)據(jù)和第一音頻數(shù)據(jù)關(guān)聯(lián)保存,實(shí)現(xiàn)了玩具自身對語音的學(xué)習(xí),避免了預(yù)存語音對玩具的語種的限制,避免了玩具制作過程中針對不同語種區(qū)域預(yù)存不同音頻數(shù)據(jù)。
【附圖說明】
[0031]為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對本發(fā)明實(shí)施例描述中所需要使用的附圖作簡單的介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)本發(fā)明實(shí)施例的內(nèi)容和這些附圖獲得其他的附圖。
[0032]圖1是本發(fā)明【具體實(shí)施方式】中提供的一種玩具的基于語音識別的自學(xué)習(xí)方法的第一實(shí)施例的方法流程圖。
[0033]圖2是本發(fā)明【具體實(shí)施方式】中提供的一種玩具的基于語音識別的自學(xué)習(xí)方法的第二實(shí)施例的方法流程圖。
[0034]圖3是本發(fā)明【具體實(shí)施方式】中提供的一種玩具的基于語音識別的自學(xué)習(xí)裝置的第一實(shí)施例的結(jié)構(gòu)方框圖。
[0035]圖4是本發(fā)明【具體實(shí)施方式】中提供的一種玩具的基于語音識別的自學(xué)習(xí)裝置的第二實(shí)施例的結(jié)構(gòu)方框圖。
【具體實(shí)施方式】
[0036]為使本發(fā)明解決的技術(shù)問題、采用的技術(shù)方案和達(dá)到的技術(shù)效果更加清楚,下面將結(jié)合附圖對本發(fā)明實(shí)施例的技術(shù)方案作進(jìn)一步的詳細(xì)描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0037]請參考圖1,其是本發(fā)明【具體實(shí)施方式】中提供的一種玩具的基于語音識別的自學(xué)習(xí)方法的第一實(shí)施例的方法流程圖。如圖所示,該自學(xué)習(xí)方法,包括:
[0038]步驟SlOl:輸出語音采集提示,開啟語音采集設(shè)備。
[0039]當(dāng)玩具進(jìn)行自學(xué)習(xí)時(shí),會(huì)首先輸出語音采集提示,一般而言,語音采集提示為語音提示,直接通過語音提醒用戶可以說話;或者,也可以采用視覺提示,例如玩具上的燈進(jìn)行閃爍或進(jìn)入常亮狀態(tài),提醒用戶玩具已經(jīng)準(zhǔn)備好采集語音。玩具在輸出語音提示時(shí),玩具同時(shí)將語音采集設(shè)備開啟,以備采集語音。語音采集設(shè)備例如拾音器和麥克風(fēng)。拾音器集成了先進(jìn)的噪聲處理、回聲處理以及長距傳輸驅(qū)動(dòng)電路,以高保真的音質(zhì)忠實(shí)地記錄和還原現(xiàn)場。麥克風(fēng)(簡稱為話筒),單純是一種將聲音轉(zhuǎn)換成電子信號的換能器,通常是定向的低靈敏的,在很近的距離對準(zhǔn)了發(fā)生才能起到想要的聲音采集效果。
[0040]步驟S102:所述語音采集設(shè)備采集第一音頻數(shù)據(jù),提取所述第一音頻數(shù)據(jù)的特征數(shù)據(jù)。
[0041]玩具的互動(dòng)過程可以視為玩具與用戶的互動(dòng)過程,一般而言,互動(dòng)由用戶發(fā)起,由玩具進(jìn)行響應(yīng),第一音頻數(shù)據(jù)是用戶發(fā)起互動(dòng)時(shí)玩具是否進(jìn)行響應(yīng)的判斷參照,也就是說第一音頻數(shù)據(jù)用于激活互動(dòng)過程。針對第一音頻數(shù)據(jù)在整個(gè)互動(dòng)過程中的重要作用,采集第一音頻數(shù)據(jù)時(shí)需要提取第一音頻數(shù)據(jù)的特征數(shù)據(jù),在后續(xù)進(jìn)行互動(dòng)時(shí),玩具需要提取外部發(fā)起互動(dòng)的語音產(chǎn)生的音頻數(shù)據(jù)與特征數(shù)據(jù)的相似性,進(jìn)而判斷是否響應(yīng)互動(dòng)。
[0042]步驟S103:所述語音采集設(shè)備采集與所述第一音頻數(shù)據(jù)匹配的第二音頻數(shù)據(jù)。
[0043]第二音頻數(shù)據(jù)用于玩具互動(dòng)時(shí)輸出,即玩具判斷需要對互動(dòng)進(jìn)行響應(yīng)時(shí),輸出對應(yīng)的第二音頻數(shù)據(jù)。所以在整個(gè)過程中只需要對第二音頻數(shù)據(jù)進(jìn)行記錄,無需對第二音頻數(shù)據(jù)進(jìn)行識別,整個(gè)方案中對第二音頻數(shù)據(jù)的處理只包括采集、保存和讀取,無需識別。
[0044]步驟S104:將所述第一音頻數(shù)據(jù)和第二音頻數(shù)據(jù)關(guān)聯(lián)保存。
[0045]將第一音頻數(shù)據(jù)和第二音頻數(shù)據(jù)關(guān)聯(lián)保存,當(dāng)互動(dòng)過程被某一第一音頻數(shù)據(jù)激活時(shí),輸出關(guān)聯(lián)的第二音頻數(shù)據(jù)。
[0046]在本實(shí)施例中,描述的是一次自學(xué)習(xí)過程中的數(shù)據(jù)處理動(dòng)作,每一個(gè)完整的自學(xué)習(xí)過程包括對第一音頻數(shù)據(jù)和第二音頻數(shù)據(jù)的處理。對于一個(gè)玩具而言,其互動(dòng)內(nèi)容的逐步豐富的過程是需要多個(gè)相互獨(dú)立的自學(xué)習(xí)過程支撐的。從整個(gè)互動(dòng)內(nèi)容逐步豐富的過程而言,第一音頻數(shù)據(jù)或第二音頻數(shù)據(jù)并不是一條數(shù)據(jù),而是一類數(shù)據(jù),其中第一音頻數(shù)據(jù)用于作為互動(dòng)過程發(fā)起的參考,第二音頻數(shù)據(jù)作為確認(rèn)互動(dòng)時(shí)對第一音頻數(shù)據(jù)的響應(yīng)。第一音頻數(shù)據(jù)和第二音頻數(shù)據(jù)關(guān)聯(lián)保存。
[0047]綜上所述,通過在輸出提示后所述語音采集設(shè)備采集第一音頻數(shù)據(jù)并提取音頻數(shù)據(jù)的特征數(shù)據(jù),在采集與第一音頻數(shù)據(jù)匹配的第二音頻數(shù)據(jù)后將第二音頻數(shù)據(jù)和第一音頻數(shù)據(jù)關(guān)聯(lián)保存,實(shí)現(xiàn)了玩具自身對語音的學(xué)習(xí),避免了預(yù)存語音對玩具的語種的限制,避免了玩具制作過程中針對不同語種區(qū)域預(yù)存不同音頻數(shù)據(jù)。
[0048]請參考圖2,其是本發(fā)明【具體實(shí)施方式】中提供的一種玩具的基于語音識別的自學(xué)習(xí)方法的第二實(shí)施例的方法流程圖。如圖所示,該自學(xué)習(xí)方法,包括:
[0049]步驟S201:接收學(xué)習(xí)行為執(zhí)行指令。
[0050]玩具本身并不具備獨(dú)立思維并操作自身的能力,學(xué)習(xí)行為執(zhí)行指令作為一個(gè)操作指令,當(dāng)玩具接收到這一指令時(shí),開始后續(xù)動(dòng)作,對音頻數(shù)據(jù)進(jìn)行處理。
[0051 ]步驟S202:輸出語音采集提示,開啟語音采集設(shè)備。
[0052]優(yōu)選的,語音采集設(shè)備為單個(gè)麥克風(fēng)。
[0053]拾音器和麥克風(fēng)有各自的技術(shù)優(yōu)勢,在本實(shí)施例中的應(yīng)用場景中,第一音頻數(shù)據(jù)最好為內(nèi)容單一的音