專利名稱:言語交互訓(xùn)練系統(tǒng)及方法
言語交互訓(xùn)練系統(tǒng)及方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種言語交互訓(xùn)練系統(tǒng)及方法。背景技術(shù):
言語障礙患者在當(dāng)今社會中存在比較多,言語障礙給患者生活帶來眾多不便。傳統(tǒng)言語障礙患者的恢復(fù)絕大多數(shù)依靠醫(yī)院、學(xué)校、老師、家長、言語矯治師或者 某些特殊的治療機構(gòu)等使用一些特殊的教育方法,來導(dǎo)引言語障礙者進行發(fā)音并及時的糾 正錯誤,直到患者恢復(fù)或部分恢復(fù)。這種傳統(tǒng)的方法是言語訓(xùn)練的主要途徑,但是不能在無 人的情況下進行言語障礙訓(xùn)練,并且由于言語障礙訓(xùn)練是一個復(fù)雜而又繁瑣的工作,純粹 通過人力來完成并不實際。雖然,目前市場上有產(chǎn)品將言語訓(xùn)練教材電子化,或者做成一些簡單的訓(xùn)練儀,在 無人的情況下對言語障礙患者進行治療。但是,這些產(chǎn)品多是使用了多媒體手段使學(xué)習(xí)內(nèi) 容變得豐富生動,缺乏對言語障礙者的言語訓(xùn)練做出指導(dǎo),患者完全處于被動接受的狀態(tài), 無法了解自身言語學(xué)習(xí)的結(jié)果和問題。由于言語障礙主要原因在于患者無法自如的控制自 己的發(fā)音器官來準(zhǔn)確連貫的發(fā)出目標(biāo)語句,更多患者存在聽力障礙或心理障礙,阻礙了發(fā) 聲和發(fā)音的聯(lián)系,簡單的多媒體手段對患者言語學(xué)習(xí)不明顯,并不能起到太多的作用。
發(fā)明內(nèi)容有鑒于此,有必要提供一種能夠?qū)τ脩粞哉Z訓(xùn)練進行自動檢測和反饋,供用戶進 行糾正和調(diào)整,并對用戶進行指導(dǎo)的言語交互訓(xùn)練系統(tǒng)。此外,提供一種能夠?qū)τ脩粞哉Z訓(xùn)練進行自動檢測和反饋,供用戶進行糾正和調(diào) 整,并對用戶進行指導(dǎo)的言語交互訓(xùn)練方法。一種言語交互訓(xùn)練系統(tǒng),包括用戶選擇模塊,為用戶提供多種訓(xùn)練內(nèi)容供用戶選擇,獲取用戶選擇的訓(xùn)練內(nèi) 容;言語交互訓(xùn)練模塊,將用戶選擇的訓(xùn)練內(nèi)容以多模態(tài)的導(dǎo)引方式展示給用戶,導(dǎo) 引用戶練習(xí)或者模仿訓(xùn)練內(nèi)容,進行言語訓(xùn)練;用戶反饋模塊,收集用戶進行言語訓(xùn)練時反饋的語音以及與所述語音對應(yīng)的唇部 視頻;言語評測模塊,接收并根據(jù)用戶反饋的語音以及對應(yīng)的唇部視頻,對用戶的言語 訓(xùn)練進行自動評測并給出評測結(jié)果;結(jié)果反饋模塊,用于將評測結(jié)果反饋給用戶,供用戶對言語訓(xùn)練進行糾正和調(diào)整。優(yōu)選的,所述訓(xùn)練內(nèi)容為發(fā)出指定內(nèi)容語音時的多種言語訓(xùn)練,包括呼吸訓(xùn)練、音 調(diào)訓(xùn)練、構(gòu)音訓(xùn)練、響度訓(xùn)練、單音節(jié)訓(xùn)練、雙音節(jié)訓(xùn)練、單詞訓(xùn)練、整句訓(xùn)練中的至少一種; 所述訓(xùn)練內(nèi)容的多模態(tài)的導(dǎo)引方式包括表現(xiàn)訓(xùn)練內(nèi)容本身意義的圖片、視頻、音頻、文字, 訓(xùn)練內(nèi)容結(jié)合言語訓(xùn)練的場景,訓(xùn)練內(nèi)容結(jié)合游戲方式以及可視化的發(fā)音過程中的至少一
4種。優(yōu)選的,所述言語評測模塊包括發(fā)音質(zhì)量檢測單元,用于針對反饋的語音,采用語音信息處理技術(shù)進行發(fā)音質(zhì)量 和正確性的自動檢測,并給出檢測結(jié)果;唇部運動檢測單元,用于針對反饋的唇部視頻進行唇部運動正確性的自動檢測, 并給出檢測結(jié)果;理解正確性檢測單元,根據(jù)用戶對系統(tǒng)的操作動作,結(jié)合訓(xùn)練內(nèi)容自動檢測用戶 的理解正確性,并給出檢測結(jié)果;綜合評測單元,綜合發(fā)音質(zhì)量檢測單元、唇部運動檢測單元和理解正確性檢測單 元的檢測結(jié)果,進行綜合評測,形成評測結(jié)果。優(yōu)選的,所述結(jié)果反饋模塊通過多媒體反饋,視覺反饋以及場景反饋將評測結(jié)果 反饋給用戶。優(yōu)選的,所述系統(tǒng)還包括訓(xùn)練控制模塊,接收評測結(jié)果作為用戶當(dāng)前言語訓(xùn)練所 達水平的參考,依據(jù)初始存儲的訓(xùn)練內(nèi)容和用戶信息,規(guī)劃用戶下一步訓(xùn)練內(nèi)容,制定言語
訓(xùn)練方案。優(yōu)選的,所述系統(tǒng)實現(xiàn)方式包括基于網(wǎng)絡(luò)的客戶端/服務(wù)器方式、基于網(wǎng)絡(luò)的瀏 覽器/服務(wù)器方式、基于嵌入式系統(tǒng)的單機模式中的至少一種。一種言語交互訓(xùn)練方法,包括如下步驟為用戶提供多種訓(xùn)練內(nèi)容供用戶選擇,獲取用戶選擇的訓(xùn)練內(nèi)容;將用戶選擇的訓(xùn)練內(nèi)容以多模態(tài)的導(dǎo)引方式展示給用戶,導(dǎo)引用戶練習(xí)或者模仿 訓(xùn)練內(nèi)容,進行言語訓(xùn)練;接收并根據(jù)用戶反饋的語音以及與所述語音對應(yīng)的唇部視頻,對用戶的言語訓(xùn)練 進行自動評測并給出評測結(jié)果;將評測結(jié)果反饋給用戶,供用戶對言語訓(xùn)練進行糾正和調(diào)整。優(yōu)選的,所述接收并根據(jù)用戶反饋的語音以及與所述語音對應(yīng)的唇部視頻,對用 戶的言語訓(xùn)練進行自動評測并給出評測結(jié)果具體為接收用戶模仿或者練習(xí)訓(xùn)練內(nèi)容時反 饋的語音及與所述語音對應(yīng)的唇部視頻,進行發(fā)音質(zhì)量的自動檢測,唇部運動自動檢測以 及理解正確性自動檢測并各自給出檢測結(jié)果,自動綜合檢測結(jié)果進行評測,給出評測結(jié)果。優(yōu)選的,所述將評測結(jié)果反饋給用戶采用多媒體反饋,視覺反饋以及場景反饋中 的至少一種。優(yōu)選的,所述方法還包括將接收的評測結(jié)果作為用戶當(dāng)前言語訓(xùn)練所達水平的參 考,依據(jù)初始存儲的訓(xùn)練內(nèi)容和用戶信息,規(guī)劃用戶下一步訓(xùn)練內(nèi)容,制定言語訓(xùn)練方案的步驟。上述言語交互訓(xùn)練系統(tǒng)及方法,采用交互方式,為用戶提供訓(xùn)練內(nèi)容并將用戶選 擇的訓(xùn)練內(nèi)容以及多模態(tài)的導(dǎo)引方式展示給用戶,導(dǎo)引用戶進行言語訓(xùn)練,獲取用戶進行 言語訓(xùn)練反饋的語音以及與語音對應(yīng)的唇部視頻對用戶的言語訓(xùn)練進行自動評測給出評 測結(jié)果,將評測結(jié)果反饋給用戶,用戶根據(jù)評測結(jié)果了解自身言語訓(xùn)練的水平并對自己的 言語訓(xùn)練進行糾正和調(diào)整,進一步提高言語訓(xùn)練的水平,從而極大的增強言語障礙的訓(xùn)練 效果。
圖1是一個實施例中言語交互訓(xùn)練系統(tǒng)結(jié)構(gòu)示意圖;圖2是一個實施例中言語評測模塊結(jié)構(gòu)示意圖;圖3是一個實施例中言語交互訓(xùn)練方法流程圖。
具體實施方式
下面結(jié)合附圖,對本發(fā)明的具體實施方式
進行詳細描述。圖1是一個實施例中言語交互訓(xùn)練系統(tǒng)結(jié)構(gòu)示意圖。該系統(tǒng)包括用戶選擇模塊 100、言語交互訓(xùn)練模塊200、用戶反饋模塊300、言語評測模塊400、結(jié)果反饋模塊500、訓(xùn)練 控制模塊600以及存儲模塊700。用戶選擇模塊100,用于為用戶提供多種訓(xùn)練內(nèi)容供用戶選擇,獲取用戶選擇的訓(xùn) 練內(nèi)容。該實施例中,訓(xùn)練內(nèi)容是根據(jù)用戶信息、言語訓(xùn)練課程以及用戶選擇形成的,提供 給用戶進行言語訓(xùn)練的內(nèi)容,包括發(fā)出指定內(nèi)容語音時的多種言語訓(xùn)練,如呼吸訓(xùn)練、音調(diào) 訓(xùn)練、構(gòu)音訓(xùn)練、響度訓(xùn)練、單音節(jié)訓(xùn)練、雙音節(jié)訓(xùn)練、單詞訓(xùn)練、整句訓(xùn)練等。用戶控制模塊 100為用戶提供交互界面,將訓(xùn)練內(nèi)容提供給用戶,用戶根據(jù)自身言語訓(xùn)練要求通過鍵盤、 鼠標(biāo)、觸摸屏等進行選擇,用戶控制模塊100獲取用戶選擇的訓(xùn)練內(nèi)容。言語交互訓(xùn)練模塊200,用于將用戶選擇的訓(xùn)練內(nèi)容以多模態(tài)的導(dǎo)引方式展示給 用戶,導(dǎo)引用戶練習(xí)或者模仿訓(xùn)練內(nèi)容,進行言語訓(xùn)練。由于有些言語障礙用戶存在聽覺障礙等問題,訓(xùn)練內(nèi)容必須以多模態(tài)的導(dǎo)引方式 展示給用戶,才能導(dǎo)引任意用戶練習(xí)或者模仿訓(xùn)練內(nèi)容,進行言語訓(xùn)練,發(fā)出指定內(nèi)容的語 音。該實施例中,言語交互訓(xùn)練模塊200將訓(xùn)練內(nèi)容以多模態(tài)的導(dǎo)引方式展示給用戶,包括 表現(xiàn)訓(xùn)練內(nèi)容本身意義的圖片、視頻、音頻、文字,訓(xùn)練內(nèi)容結(jié)合某些特定的用于言語訓(xùn)練 的場景,訓(xùn)練內(nèi)容結(jié)合游戲方式以及可視化的發(fā)音過程等。其中,表現(xiàn)訓(xùn)練內(nèi)容本身意義的 視頻還包含通過影像采集設(shè)備實時捕捉到的用戶人臉,并標(biāo)識出其臉部和唇部,便于提醒 用戶觀察自身發(fā)音過程中存在的不足和缺陷??梢暬陌l(fā)音過程為根據(jù)真實的發(fā)音過程中 的舌部、唇部等位置的運動變化形成的二維或三維虛擬頭像,為用戶提供從口腔內(nèi)部多角 度觀察具體的發(fā)音過程中的舌部運動、唇部運動,口腔運動,以及氣流及聲帶的振動。由于 這些口腔內(nèi)部器官的運動變化控制是整個發(fā)音過程中最困難的地方,通過多模態(tài)的導(dǎo)引方 式展示訓(xùn)練內(nèi)容本身,而且利用計算機圖形學(xué)及實際生理數(shù)據(jù)形成的二維或三維虛擬頭像 來形象地表示具體訓(xùn)練內(nèi)容的發(fā)音過程中各個發(fā)音器官的變化,便于用戶進行模仿和自我 糾正。用戶反饋模塊300用于收集用戶進行言語訓(xùn)練時反饋的語音以及與該語音對應(yīng) 的唇部視頻。言語評測模塊400接收用戶反饋的語音以及對應(yīng)的唇部視頻,對用戶的言語訓(xùn)練 進行自動評測并給出評測結(jié)果。言語評測模塊400接收用戶模仿或者練習(xí)訓(xùn)練內(nèi)容時反饋的語音及其對應(yīng)的唇 部視頻,進行發(fā)音質(zhì)量的自動檢測,唇部運動自動檢測以及理解正確性自動檢測,根據(jù)檢測結(jié)果進行自動綜合評測,給出評測結(jié)果。圖2是一個實施例中言語評測模塊結(jié)構(gòu)示意圖。該實施例中,言語評測模塊包括 發(fā)音質(zhì)量檢測單元410、唇部運動檢測單元420、理解正確性檢測單元430以及綜合評測單 元 440。發(fā)音質(zhì)量檢測單元410,用于針對用戶反饋中的語音,使用語音信息處理技術(shù)進 行發(fā)音質(zhì)量和正確性等方面的自動檢測并給出檢測結(jié)果。對于用戶反饋的語音,發(fā)音質(zhì)量 檢測單元410計算其短時能量,基頻以及語調(diào)等特征,進行單個音素級別的發(fā)音的響度、音 調(diào)、持續(xù)時間長度等正確性的自動檢測,多音節(jié)的發(fā)音的響度、音調(diào)等正確性的自動檢測, 孤立詞發(fā)音的響度、音調(diào)、各個音素發(fā)音的正確性自動檢測,整個語句的音素的正確性、音 調(diào)、響度等方面的自動檢測。同時還進行語音內(nèi)容的自動識別,并自動進行檢測。在整個檢測過程中需要語音識別,發(fā)音質(zhì)量檢測單元410基于聲學(xué)模型,并結(jié)合 語言模型或者詞網(wǎng)絡(luò),對用戶反饋的語音的特征參數(shù)進行自動識別,分別得到單詞級別和 音素級別的序列、對應(yīng)的時間邊界以及相應(yīng)的似然概率值,并與訓(xùn)練內(nèi)容進行比對,得到發(fā) 音質(zhì)量檢測結(jié)果,例如音素的插入、刪除、替代等錯誤。唇部運動檢測單元420用于針對反饋的唇部視頻進行唇部運動正確性自動檢測 并給出檢測結(jié)果。唇部運動檢測單元420根據(jù)通過影像采集設(shè)備采集到的用戶臉部視頻, 采用人臉檢測算法實時獲得人臉位置,進一步通過統(tǒng)計和模型建立的方法獲取用戶在發(fā)音 過程中的唇部視頻(運動圖像),并結(jié)合發(fā)音質(zhì)量檢測單元410對語音的特征參數(shù)進行識別 得到的時間邊界,得到具體音素的唇部動作,并自動檢測其正確性,給出檢測結(jié)果。理解正確性檢測單元430,根據(jù)用戶通過鍵盤、鼠標(biāo)、觸摸屏等對系統(tǒng)的操作動作, 結(jié)合訓(xùn)練內(nèi)容自動檢測用戶的理解正確性,并給出檢測結(jié)果。綜合評測單元440綜合發(fā)音質(zhì)量檢測單元410、唇部運動檢測單元420和理解正確 性檢測單元430的檢測結(jié)果,對用戶的語音質(zhì)量、唇部運動,以及理解正確性的自動進行綜 合評測,形成評測結(jié)果。結(jié)果反饋模塊500將評測結(jié)果反饋給用戶,供用戶對言語訓(xùn)練進行糾正和調(diào)整并 對用戶進行指導(dǎo)。該實施例中,結(jié)果反饋模塊500將評測結(jié)果通過多種方式反饋給用戶,包括多媒 體反饋,視覺反饋以及場景反饋。其中,多媒體反饋,將使用者的發(fā)音及其操作結(jié)果以圖片、數(shù)字、曲線、聲音、文本 等多種形式形象,生動,直觀的表現(xiàn)出來,使得聲音及操作結(jié)果可視化;與此同時,自動對用 戶的不標(biāo)準(zhǔn)及錯誤發(fā)音進行對比糾正,使用戶可以明確的知道自己發(fā)音的錯誤所在,進而 有目的的進行針對性練習(xí)。視覺反饋,通過內(nèi)置影像采集設(shè)備對用戶言語訓(xùn)練時的嘴唇運動情況進行實時捕 捉,并將其以畫面的形式實時顯示,使得用戶可以清楚的觀察到自己發(fā)音過程中的嘴型變 化,通過與標(biāo)準(zhǔn)發(fā)音動作對比,找出不足,進而改正并做出正確發(fā)音。場景反饋,用于交互式訓(xùn)練中,將用戶在互動游戲中的發(fā)音或者操作所產(chǎn)生的結(jié) 果融入相應(yīng)的游戲背景元素,以畫面,聲音的形式表現(xiàn)出來,并且在正確完成任務(wù)的情況下 會適當(dāng)給予視覺或者聲音獎勵,使得訓(xùn)練更具有趣味性及目標(biāo)性。訓(xùn)練控制模塊600接收評測結(jié)果作為用戶當(dāng)前訓(xùn)練所達水平的參考,依據(jù)存儲模塊700存儲的訓(xùn)練內(nèi)容和用戶信息,自動規(guī)劃用戶下一步訓(xùn)練內(nèi)容制定言語訓(xùn)練安排。或 者通過用戶操作,由用戶根據(jù)評測結(jié)果以及自己的意愿制定或者調(diào)整訓(xùn)練內(nèi)容,選擇接下 來的言語訓(xùn)練。存儲模塊700用于存儲不同等級難度的訓(xùn)練內(nèi)容和用戶信息。存儲模塊700存儲訓(xùn)練內(nèi)容所包括的呼吸訓(xùn)練、響度訓(xùn)練、單音節(jié)訓(xùn)練、雙音節(jié)訓(xùn) 練、單詞訓(xùn)練、整句訓(xùn)練等,以及相應(yīng)于不同階段不同訓(xùn)練內(nèi)容所需的詞匯,短語,句子,游 戲場景等。還存儲用戶信息,作為用戶個人信息記錄檔案,不僅記錄用戶的個人資料信息, 還記錄用戶每次的訓(xùn)練內(nèi)容及評測結(jié)果,并將其表示成隨時間變化的學(xué)習(xí)曲線,使得用戶 可以直觀的看到自己的學(xué)習(xí)進度及進步情況。上述言語交互訓(xùn)練系統(tǒng)有多種實現(xiàn)方式,例如基于網(wǎng)絡(luò)的客戶端/服務(wù)器 (Client/Server)方式、基于網(wǎng)絡(luò)的瀏覽器/服務(wù)器(Browser/Server)方式、基于嵌入式系 統(tǒng)的單機模式等等?;诰W(wǎng)絡(luò)的客戶端、服務(wù)器方式其客戶端是用戶訪問終端,提供語音輸入、音頻 播放以及鼠標(biāo)操作,并且對輸入音頻完成靜音檢測、特征提取以及網(wǎng)絡(luò)傳輸、游戲場景生成 等功能,其服務(wù)器端完成對輸入語音的音調(diào)檢測,響度檢測,時長檢測,錯誤發(fā)音檢測、錯誤 反饋、幫助選項反饋、游戲場景內(nèi)容生成、數(shù)據(jù)庫操作、學(xué)習(xí)信息統(tǒng)計、網(wǎng)絡(luò)傳輸?shù)裙δ?。基于網(wǎng)絡(luò)的瀏覽器、服務(wù)器方式其瀏覽器是用戶訪問終端,提供語音輸入、音頻 播放、鼠標(biāo)操作、網(wǎng)絡(luò)傳輸、游戲場景,并通過插件(Plug-in)完成對輸入音頻靜音檢測以 及特征提取等操作,其服務(wù)器包括數(shù)據(jù)處理服務(wù)器和Web服務(wù)器,其中數(shù)據(jù)服務(wù)器端完成 對輸入語音的音調(diào)檢測,響度檢測,時長檢測,錯誤發(fā)音檢測、錯誤反饋、幫助選項反饋、游 戲場景內(nèi)容生成、數(shù)據(jù)庫操作、學(xué)習(xí)信息統(tǒng)計、網(wǎng)絡(luò)傳輸?shù)裙δ?,其中Web服務(wù)器是瀏覽器 的訪問服務(wù)器,瀏覽器與數(shù)據(jù)處理服務(wù)器之間進行直接的數(shù)據(jù)傳輸?;谇度胧较到y(tǒng)的單機方式在一個程序框架內(nèi)完成單機方式的語音輸入、音頻 播放、音頻靜音檢測、音頻特征提取、輸入語音的音調(diào)檢測,響度檢測,時長檢測、錯誤發(fā)音 檢測及錯誤反饋、游戲內(nèi)容生成、數(shù)據(jù)庫操作、學(xué)習(xí)信息統(tǒng)計等。此外,提供一種言語交互訓(xùn)練方法。圖3是一個實施例中言語交互訓(xùn)練方法流程圖。該方法包括S31 為用戶提供多種訓(xùn)練內(nèi)容供用戶選擇,獲取用戶選擇的訓(xùn)練內(nèi)容。訓(xùn)練內(nèi)容是根據(jù)用戶信息、言語訓(xùn)練課程以及用戶選擇形成的,提供給用戶進行 言語訓(xùn)練的內(nèi)容,包括對指定內(nèi)容進行發(fā)音時的多種言語訓(xùn)練,如呼吸訓(xùn)練、音調(diào)訓(xùn)練、構(gòu) 音訓(xùn)練、響度訓(xùn)練、單音節(jié)訓(xùn)練、雙音節(jié)訓(xùn)練、單詞訓(xùn)練、整句訓(xùn)練等。該實施例中,為用戶提 供交互界面,將訓(xùn)練內(nèi)容提供給用戶,用戶根據(jù)自身言語訓(xùn)練要求通過鍵盤、鼠標(biāo)、觸摸屏 等進行選擇,從而獲取用戶選擇的訓(xùn)練內(nèi)容。S32:將用戶選擇的訓(xùn)練內(nèi)容以多模態(tài)的導(dǎo)引方式展示給用戶,導(dǎo)引用戶練習(xí)或者 模仿訓(xùn)練內(nèi)容,進行言語訓(xùn)練。由于有些言語障礙用戶存在聽覺障礙等問題,訓(xùn)練內(nèi)容必須以多模態(tài)的導(dǎo)引方式 展示給用戶,才能導(dǎo)引任意用戶練習(xí)或者模仿訓(xùn)練內(nèi)容,進行言語訓(xùn)練,發(fā)出指定內(nèi)容的語 音。該實施例中,訓(xùn)練內(nèi)容以多模態(tài)的導(dǎo)引方式展示給用戶,包括表現(xiàn)訓(xùn)練內(nèi)容本身意義的 圖片、視頻、音頻、文字,訓(xùn)練內(nèi)容結(jié)合某些特定的用于言語訓(xùn)練的場景、訓(xùn)練內(nèi)容結(jié)合游戲方式以及可視化的發(fā)音過程等。其中,表現(xiàn)訓(xùn)練內(nèi)容本身意義的視頻還包含通過影像采集 設(shè)備實時捕捉到的用戶人臉,并標(biāo)識出其臉部和唇部,便于提醒用戶觀察自身發(fā)音過程中 存在的不足和缺陷。可視化的發(fā)音過程為根據(jù)真實的發(fā)音過程中的舌部、唇部等位置的運 動變化形成的二維或三維虛擬頭像,為用戶提供從口腔內(nèi)部多角度觀察具體的發(fā)音過程中 的舌部運動、唇部運動,口腔運動,以及氣流及聲帶的振動。由于這些口腔內(nèi)部器官的運動 變化控制是整個發(fā)音過程中最困難的地方,通過多模態(tài)方式展示訓(xùn)練內(nèi)容本身,而且利用 計算機圖形學(xué)及實際生理數(shù)據(jù)形成的三維虛擬頭像來形象地表示具體訓(xùn)練內(nèi)容的發(fā)音過 程中各個發(fā)音器官的變化,便于用戶進行模仿和自我糾正。S33:接收用戶反饋的語音以及對應(yīng)的唇部視頻,對用戶的言語訓(xùn)練進行自動評測 并給出評測結(jié)果。該實施例中,接收用戶反饋的語音以及對應(yīng)的唇部視頻,對用戶的言語訓(xùn)練進行 自動評測并給出評測結(jié)果具體為接收用戶模仿或者練習(xí)訓(xùn)練內(nèi)容時反饋的語音及其對應(yīng) 的唇部視頻,進行發(fā)音質(zhì)量的自動檢測,唇部運動自動檢測以及理解正確性自動檢測并各 自給出檢測結(jié)果,根據(jù)檢測結(jié)果進行綜合評測,給出評測結(jié)果。其中,發(fā)音質(zhì)量檢測,針對用戶反饋中的語音,使用語音信息處理技術(shù)進行發(fā)音質(zhì) 量和正確性等方面的自動檢測。對于用戶反饋的語音,計算其短時能量,基頻以及語調(diào)等特 征,進行單個音素級別的發(fā)音的響度、音調(diào)、持續(xù)時間長度等正確性的自動檢測,多音節(jié)的 發(fā)音的響度、音調(diào)等正確性的自動檢測,孤立詞發(fā)音的響度、音調(diào)、各個音素發(fā)音的正確性 自動檢測,整個語句的音素的正確性、音調(diào)、響度等方面的自動檢測。同時還進行語音內(nèi)容 的自動識別,進行檢測。在整個檢測過程中需要語音識別,其基于聲學(xué)模型,并結(jié)合語言模型或者詞網(wǎng)絡(luò), 對用戶反饋的語音的特征參數(shù)進行自動識別,分別得到單詞級別和音素級別的序列、對應(yīng) 的時間邊界以及相應(yīng)的似然概率值,并與訓(xùn)練內(nèi)容進行比對,得到發(fā)音質(zhì)量檢測結(jié)果,例如 音素的插入、刪除、替代等錯誤。唇部運動檢測,根據(jù)影像采集設(shè)備采集到的用戶臉部視頻進行唇部運動正確性檢 測。首先,對于采集用戶臉部視頻,通過人臉檢測算法實時獲得人臉位置,進一步通過統(tǒng)計 和模型建立的方法獲取用戶在發(fā)音過程中的唇部視頻(運動圖像),并結(jié)合發(fā)音質(zhì)量檢測 中對語音的特征參數(shù)進行識別得到的時間邊界,得到具體音素的唇部動作,并自動檢測其 正確性,給出檢測結(jié)果。理解正確性檢測,根據(jù)用戶通過鍵盤、鼠標(biāo)、觸摸屏等對系統(tǒng)的操作動作,根據(jù)訓(xùn) 練內(nèi)容自動檢測用戶的理解正確性,并給出檢測結(jié)果。最后,綜合發(fā)音質(zhì)量檢測、唇部運動檢測和理解正確性檢測的檢測結(jié)果,對用戶的 語音質(zhì)量、唇部運動,以及理解正確性進行自動綜合評測,形成評測結(jié)果。S34:將評測結(jié)果反饋給用戶,供用戶對言語訓(xùn)練進行糾正和調(diào)整并對用戶進行指 導(dǎo)。該實施例中,評測結(jié)果通過多種方式反饋給用戶,包括多媒體反饋,視覺反饋以及 場景反饋。其中,多媒體反饋,將使用者的發(fā)音及其操作結(jié)果以圖片、數(shù)字、曲線、聲音、文本 等多種形式形象,生動,直觀的表現(xiàn)出來,使得聲音及操作結(jié)果可視化;與此同時,自動對用戶的不標(biāo)準(zhǔn)發(fā)音及錯誤發(fā)音進行對比糾正,使用戶可以明確的知道自己發(fā)音的錯誤所在, 進而有目的的進行針對性訓(xùn)練。視覺反饋,通過內(nèi)置影像采集設(shè)備對用戶言語訓(xùn)練時的嘴唇運動情況進行實時捕 捉,并將其以畫面的形式實時顯示,使得用戶可以清楚的觀察到自己發(fā)音過程中的嘴型變 化,通過與標(biāo)準(zhǔn)發(fā)音動作對比,找出不足進而改正做出正確發(fā)音。場景反饋,用于交互式訓(xùn)練中,將用戶在互動游戲中的發(fā)音或者操作所產(chǎn)生的結(jié) 果融入相應(yīng)的游戲背景元素,以畫面,聲音的形式表現(xiàn)出來,并且在正確完成任務(wù)的情況下 會適當(dāng)給予視覺或者聲音獎勵,使得訓(xùn)練更具有趣味性及目標(biāo)性。此外,還包括接收評測結(jié)果作為用戶當(dāng)前訓(xùn)練所達水平的參考,依據(jù)存儲的訓(xùn)練 內(nèi)容和用戶信息,自動規(guī)劃用戶下一步訓(xùn)練內(nèi)容制定訓(xùn)練安排。或者通過用戶操作,由用戶 根據(jù)評測結(jié)果以及自己的意愿制定或者調(diào)整訓(xùn)練內(nèi)容,選擇接下來的言語訓(xùn)練的步驟。上述言語交互訓(xùn)練系統(tǒng)及方法,采用交互方式,為用戶提供訓(xùn)練內(nèi)容并將用戶選 擇的訓(xùn)練內(nèi)容以及多模態(tài)的導(dǎo)引方式展示給用戶,導(dǎo)引用戶進行言語訓(xùn)練,獲取用戶進行 言語訓(xùn)練反饋的語音以及與語音對應(yīng)的唇部視頻對用戶的言語訓(xùn)練進行自動評測給出評 測結(jié)果,將評測結(jié)果反饋給用戶,用戶根據(jù)評測結(jié)果了解自身言語訓(xùn)練的水平并對自己的 言語訓(xùn)練進行糾正和調(diào)整,進一步提高言語訓(xùn)練的水平,從而極大的增強言語障礙的訓(xùn)練 效果。以上所述實施例僅表達了本發(fā)明的幾種實施方式,其描述較為具體和詳細,但并 不能因此而理解為對本發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是,對于本領(lǐng)域的普通技術(shù)人員 來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進,這些都屬于本發(fā)明的保 護范圍。因此,本發(fā)明專利的保護范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。
權(quán)利要求
1.一種言語交互訓(xùn)練系統(tǒng),其特征在于,包括用戶選擇模塊,為用戶提供多種訓(xùn)練內(nèi)容供用戶選擇,獲取用戶選擇的訓(xùn)練內(nèi)容; 言語交互訓(xùn)練模塊,將用戶選擇的訓(xùn)練內(nèi)容以多模態(tài)的導(dǎo)引方式展示給用戶,導(dǎo)引用 戶練習(xí)或者模仿訓(xùn)練內(nèi)容,進行言語訓(xùn)練;用戶反饋模塊,收集用戶進行言語訓(xùn)練時反饋的語音以及與所述語音對應(yīng)的唇部視頻;言語評測模塊,接收并根據(jù)用戶反饋的語音以及對應(yīng)的唇部視頻,對用戶的言語訓(xùn)練 進行自動評測并給出評測結(jié)果;結(jié)果反饋模塊,用于將評測結(jié)果反饋給用戶,供用戶對言語訓(xùn)練進行糾正和調(diào)整。
2.根據(jù)權(quán)利要求1所述的言語交互訓(xùn)練系統(tǒng),其特征在于,所述訓(xùn)練內(nèi)容為發(fā)出指定 內(nèi)容語音時的多種言語訓(xùn)練,包括呼吸訓(xùn)練、音調(diào)訓(xùn)練、構(gòu)音訓(xùn)練、響度訓(xùn)練、單音節(jié)訓(xùn)練、 雙音節(jié)訓(xùn)練、單詞訓(xùn)練、整句訓(xùn)練中的至少一種;所述訓(xùn)練內(nèi)容的多模態(tài)的導(dǎo)引方式包括表 現(xiàn)訓(xùn)練內(nèi)容本身意義的圖片、視頻、音頻、文字,訓(xùn)練內(nèi)容結(jié)合言語訓(xùn)練的場景,訓(xùn)練內(nèi)容結(jié) 合游戲方式以及可視化的發(fā)音過程中的至少一種。
3.根據(jù)權(quán)利要求2所述的言語交互訓(xùn)練系統(tǒng),其特征在于,所述言語評測模塊包括 發(fā)音質(zhì)量檢測單元,用于針對反饋的語音,采用語音信息處理技術(shù)進行發(fā)音質(zhì)量和正確性的自動檢測,并給出檢測結(jié)果;唇部運動檢測單元,用于針對反饋的唇部視頻進行唇部運動正確性的自動檢測,并給 出檢測結(jié)果;理解正確性檢測單元,根據(jù)用戶對系統(tǒng)的操作動作,結(jié)合訓(xùn)練內(nèi)容自動檢測用戶的理 解正確性,并給出檢測結(jié)果;綜合評測單元,綜合發(fā)音質(zhì)量檢測單元、唇部運動檢測單元和理解正確性檢測單元的 檢測結(jié)果,進行綜合評測,形成評測結(jié)果。
4.根據(jù)權(quán)利要求3所述的言語交互訓(xùn)練系統(tǒng),其特征在于,所述結(jié)果反饋模塊通過多 媒體反饋,視覺反饋以及場景反饋將評測結(jié)果反饋給用戶。
5.根據(jù)權(quán)利要求1至4中任一項所述的言語交互訓(xùn)練系統(tǒng),其特征在于,所述系統(tǒng)還包 括訓(xùn)練控制模塊,接收評測結(jié)果作為用戶當(dāng)前言語訓(xùn)練所達水平的參考,依據(jù)初始存儲的 訓(xùn)練內(nèi)容和用戶信息,規(guī)劃用戶下一步訓(xùn)練內(nèi)容,制定言語訓(xùn)練方案。
6.根據(jù)權(quán)利要求1所述的言語交互訓(xùn)練系統(tǒng),其特征在于,所述系統(tǒng)實現(xiàn)方式包括基 于網(wǎng)絡(luò)的客戶端/服務(wù)器方式、基于網(wǎng)絡(luò)的瀏覽器/服務(wù)器方式、基于嵌入式系統(tǒng)的單機模 式中的至少一種。
7.一種言語交互訓(xùn)練方法,包括如下步驟為用戶提供多種訓(xùn)練內(nèi)容供用戶選擇,獲取用戶選擇的訓(xùn)練內(nèi)容; 將用戶選擇的訓(xùn)練內(nèi)容以多模態(tài)的導(dǎo)引方式展示給用戶,導(dǎo)引用戶練習(xí)或者模仿訓(xùn)練 內(nèi)容,進行言語訓(xùn)練;接收并根據(jù)用戶反饋的語音以及與所述語音對應(yīng)的唇部視頻,對用戶的言語訓(xùn)練進行 自動評測并給出評測結(jié)果;將評測結(jié)果反饋給用戶,供用戶對言語訓(xùn)練進行糾正和調(diào)整。
8.根據(jù)權(quán)利要求7所述的言語交互訓(xùn)練方法,其特征在于,所述接收并根據(jù)用戶反饋的語音以及與所述語音對應(yīng)的唇部視頻,對用戶的言語訓(xùn)練進行自動評測并給出評測結(jié)果 具體為接收用戶模仿或者練習(xí)訓(xùn)練內(nèi)容時反饋的語音及與所述語音對應(yīng)的唇部視頻,進 行發(fā)音質(zhì)量的自動檢測,唇部運動自動檢測以及理解正確性自動檢測并各自給出檢測結(jié) 果,自動綜合檢測結(jié)果進行評測,給出評測結(jié)果。
9.根據(jù)權(quán)利要求8所述的言語交互訓(xùn)練方法,其特征在于,所述將評測結(jié)果反饋給用 戶采用多媒體反饋,視覺反饋以及場景反饋中的至少一種。
10.根據(jù)權(quán)利要求7或9所述的言語交互訓(xùn)練方法,其特征在于,所述方法還包括將接 收的評測結(jié)果作為用戶當(dāng)前言語訓(xùn)練所達水平的參考,依據(jù)初始存儲的訓(xùn)練內(nèi)容和用戶信 息,規(guī)劃用戶下一步訓(xùn)練內(nèi)容,制定言語訓(xùn)練方案的步驟。
全文摘要
本發(fā)明涉及一種言語交互訓(xùn)練系統(tǒng)和方法,該系統(tǒng)包括用戶選擇模塊,獲取用戶選擇的訓(xùn)練內(nèi)容;言語交互訓(xùn)練模塊,將訓(xùn)練內(nèi)容以多模態(tài)的導(dǎo)引方式展示給用戶,導(dǎo)引用戶進行言語訓(xùn)練;用戶反饋模塊,收集反饋的語音以及與語音對應(yīng)的唇部視頻;言語評測模塊,接收用戶反饋的語音以及對應(yīng)的唇部視頻,對用戶的言語訓(xùn)練進行自動評測并給出評測結(jié)果;結(jié)果反饋模塊,用于將評測結(jié)果反饋給用戶,供用戶對言語訓(xùn)練進行糾正和調(diào)整。本發(fā)明對用戶的言語訓(xùn)練進行自動評測給出評測結(jié)果,將評測結(jié)果反饋給用戶,用戶根據(jù)評測結(jié)果了解自身言語訓(xùn)練的水平并對自己的言語訓(xùn)練進行糾正和調(diào)整,進一步提高言語水平,從而極大的增強言語障礙者的康復(fù)訓(xùn)練效果。
文檔編號G10L15/24GK102063903SQ20101029211
公開日2011年5月18日 申請日期2010年9月25日 優(yōu)先權(quán)日2010年9月25日
發(fā)明者李崇國, 王嵐, 蒙美玲, 郝健英 申請人:中國科學(xué)院深圳先進技術(shù)研究院