言語交互訓(xùn)練系統(tǒng)及方法

文檔序號：2823827閱讀：330來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：言語交互訓(xùn)練系統(tǒng)及方法
言語交互訓(xùn)練系統(tǒng)及方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種言語交互訓(xùn)練系統(tǒng)及方法。背景技術(shù)：
言語障礙患者在當(dāng)今社會中存在比較多，言語障礙給患者生活帶來眾多不便。傳統(tǒng)言語障礙患者的恢復(fù)絕大多數(shù)依靠醫(yī)院、學(xué)校、老師、家長、言語矯治師或者某些特殊的治療機構(gòu)等使用一些特殊的教育方法，來導(dǎo)引言語障礙者進行發(fā)音并及時的糾正錯誤，直到患者恢復(fù)或部分恢復(fù)。這種傳統(tǒng)的方法是言語訓(xùn)練的主要途徑，但是不能在無人的情況下進行言語障礙訓(xùn)練，并且由于言語障礙訓(xùn)練是一個復(fù)雜而又繁瑣的工作，純粹通過人力來完成并不實際。雖然，目前市場上有產(chǎn)品將言語訓(xùn)練教材電子化，或者做成一些簡單的訓(xùn)練儀，在無人的情況下對言語障礙患者進行治療。但是，這些產(chǎn)品多是使用了多媒體手段使學(xué)習(xí)內(nèi) 容變得豐富生動，缺乏對言語障礙者的言語訓(xùn)練做出指導(dǎo)，患者完全處于被動接受的狀態(tài)，無法了解自身言語學(xué)習(xí)的結(jié)果和問題。由于言語障礙主要原因在于患者無法自如的控制自己的發(fā)音器官來準(zhǔn)確連貫的發(fā)出目標(biāo)語句，更多患者存在聽力障礙或心理障礙，阻礙了發(fā) 聲和發(fā)音的聯(lián)系，簡單的多媒體手段對患者言語學(xué)習(xí)不明顯，并不能起到太多的作用。

發(fā)明內(nèi)容有鑒于此，有必要提供一種能夠?qū)τ脩粞哉Z訓(xùn)練進行自動檢測和反饋，供用戶進行糾正和調(diào)整，并對用戶進行指導(dǎo)的言語交互訓(xùn)練系統(tǒng)。此外，提供一種能夠?qū)τ脩粞哉Z訓(xùn)練進行自動檢測和反饋，供用戶進行糾正和調(diào) 整，并對用戶進行指導(dǎo)的言語交互訓(xùn)練方法。一種言語交互訓(xùn)練系統(tǒng)，包括用戶選擇模塊，為用戶提供多種訓(xùn)練內(nèi)容供用戶選擇，獲取用戶選擇的訓(xùn)練內(nèi) 容；言語交互訓(xùn)練模塊，將用戶選擇的訓(xùn)練內(nèi)容以多模態(tài)的導(dǎo)引方式展示給用戶，導(dǎo) 引用戶練習(xí)或者模仿訓(xùn)練內(nèi)容，進行言語訓(xùn)練；用戶反饋模塊，收集用戶進行言語訓(xùn)練時反饋的語音以及與所述語音對應(yīng)的唇部視頻；言語評測模塊，接收并根據(jù)用戶反饋的語音以及對應(yīng)的唇部視頻，對用戶的言語訓(xùn)練進行自動評測并給出評測結(jié)果；結(jié)果反饋模塊，用于將評測結(jié)果反饋給用戶，供用戶對言語訓(xùn)練進行糾正和調(diào)整。優(yōu)選的，所述訓(xùn)練內(nèi)容為發(fā)出指定內(nèi)容語音時的多種言語訓(xùn)練，包括呼吸訓(xùn)練、音調(diào)訓(xùn)練、構(gòu)音訓(xùn)練、響度訓(xùn)練、單音節(jié)訓(xùn)練、雙音節(jié)訓(xùn)練、單詞訓(xùn)練、整句訓(xùn)練中的至少一種；所述訓(xùn)練內(nèi)容的多模態(tài)的導(dǎo)引方式包括表現(xiàn)訓(xùn)練內(nèi)容本身意義的圖片、視頻、音頻、文字，訓(xùn)練內(nèi)容結(jié)合言語訓(xùn)練的場景，訓(xùn)練內(nèi)容結(jié)合游戲方式以及可視化的發(fā)音過程中的至少一
4種。優(yōu)選的，所述言語評測模塊包括發(fā)音質(zhì)量檢測單元，用于針對反饋的語音，采用語音信息處理技術(shù)進行發(fā)音質(zhì)量和正確性的自動檢測，并給出檢測結(jié)果；唇部運動檢測單元，用于針對反饋的唇部視頻進行唇部運動正確性的自動檢測，并給出檢測結(jié)果；理解正確性檢測單元，根據(jù)用戶對系統(tǒng)的操作動作，結(jié)合訓(xùn)練內(nèi)容自動檢測用戶的理解正確性，并給出檢測結(jié)果；綜合評測單元，綜合發(fā)音質(zhì)量檢測單元、唇部運動檢測單元和理解正確性檢測單元的檢測結(jié)果，進行綜合評測，形成評測結(jié)果。優(yōu)選的，所述結(jié)果反饋模塊通過多媒體反饋，視覺反饋以及場景反饋將評測結(jié)果反饋給用戶。優(yōu)選的，所述系統(tǒng)還包括訓(xùn)練控制模塊，接收評測結(jié)果作為用戶當(dāng)前言語訓(xùn)練所達水平的參考，依據(jù)初始存儲的訓(xùn)練內(nèi)容和用戶信息，規(guī)劃用戶下一步訓(xùn)練內(nèi)容，制定言語
訓(xùn)練方案。優(yōu)選的，所述系統(tǒng)實現(xiàn)方式包括基于網(wǎng)絡(luò)的客戶端/服務(wù)器方式、基于網(wǎng)絡(luò)的瀏覽器/服務(wù)器方式、基于嵌入式系統(tǒng)的單機模式中的至少一種。一種言語交互訓(xùn)練方法，包括如下步驟為用戶提供多種訓(xùn)練內(nèi)容供用戶選擇，獲取用戶選擇的訓(xùn)練內(nèi)容；將用戶選擇的訓(xùn)練內(nèi)容以多模態(tài)的導(dǎo)引方式展示給用戶，導(dǎo)引用戶練習(xí)或者模仿訓(xùn)練內(nèi)容，進行言語訓(xùn)練；接收并根據(jù)用戶反饋的語音以及與所述語音對應(yīng)的唇部視頻，對用戶的言語訓(xùn)練進行自動評測并給出評測結(jié)果；將評測結(jié)果反饋給用戶，供用戶對言語訓(xùn)練進行糾正和調(diào)整。優(yōu)選的，所述接收并根據(jù)用戶反饋的語音以及與所述語音對應(yīng)的唇部視頻，對用戶的言語訓(xùn)練進行自動評測并給出評測結(jié)果具體為接收用戶模仿或者練習(xí)訓(xùn)練內(nèi)容時反饋的語音及與所述語音對應(yīng)的唇部視頻，進行發(fā)音質(zhì)量的自動檢測，唇部運動自動檢測以及理解正確性自動檢測并各自給出檢測結(jié)果，自動綜合檢測結(jié)果進行評測，給出評測結(jié)果。優(yōu)選的，所述將評測結(jié)果反饋給用戶采用多媒體反饋，視覺反饋以及場景反饋中的至少一種。優(yōu)選的，所述方法還包括將接收的評測結(jié)果作為用戶當(dāng)前言語訓(xùn)練所達水平的參考，依據(jù)初始存儲的訓(xùn)練內(nèi)容和用戶信息，規(guī)劃用戶下一步訓(xùn)練內(nèi)容，制定言語訓(xùn)練方案的步驟。上述言語交互訓(xùn)練系統(tǒng)及方法，采用交互方式，為用戶提供訓(xùn)練內(nèi)容并將用戶選擇的訓(xùn)練內(nèi)容以及多模態(tài)的導(dǎo)引方式展示給用戶，導(dǎo)引用戶進行言語訓(xùn)練，獲取用戶進行言語訓(xùn)練反饋的語音以及與語音對應(yīng)的唇部視頻對用戶的言語訓(xùn)練進行自動評測給出評測結(jié)果，將評測結(jié)果反饋給用戶，用戶根據(jù)評測結(jié)果了解自身言語訓(xùn)練的水平并對自己的言語訓(xùn)練進行糾正和調(diào)整，進一步提高言語訓(xùn)練的水平，從而極大的增強言語障礙的訓(xùn)練效果。
圖1是一個實施例中言語交互訓(xùn)練系統(tǒng)結(jié)構(gòu)示意圖；圖2是一個實施例中言語評測模塊結(jié)構(gòu)示意圖；圖3是一個實施例中言語交互訓(xùn)練方法流程圖。
具體實施方式
下面結(jié)合附圖，對本發(fā)明的具體實施方式
進行詳細描述。圖1是一個實施例中言語交互訓(xùn)練系統(tǒng)結(jié)構(gòu)示意圖。該系統(tǒng)包括用戶選擇模塊 100、言語交互訓(xùn)練模塊200、用戶反饋模塊300、言語評測模塊400、結(jié)果反饋模塊500、訓(xùn)練控制模塊600以及存儲模塊700。用戶選擇模塊100，用于為用戶提供多種訓(xùn)練內(nèi)容供用戶選擇，獲取用戶選擇的訓(xùn) 練內(nèi)容。該實施例中，訓(xùn)練內(nèi)容是根據(jù)用戶信息、言語訓(xùn)練課程以及用戶選擇形成的，提供給用戶進行言語訓(xùn)練的內(nèi)容，包括發(fā)出指定內(nèi)容語音時的多種言語訓(xùn)練，如呼吸訓(xùn)練、音調(diào) 訓(xùn)練、構(gòu)音訓(xùn)練、響度訓(xùn)練、單音節(jié)訓(xùn)練、雙音節(jié)訓(xùn)練、單詞訓(xùn)練、整句訓(xùn)練等。用戶控制模塊 100為用戶提供交互界面，將訓(xùn)練內(nèi)容提供給用戶，用戶根據(jù)自身言語訓(xùn)練要求通過鍵盤、鼠標(biāo)、觸摸屏等進行選擇，用戶控制模塊100獲取用戶選擇的訓(xùn)練內(nèi)容。言語交互訓(xùn)練模塊200，用于將用戶選擇的訓(xùn)練內(nèi)容以多模態(tài)的導(dǎo)引方式展示給用戶，導(dǎo)引用戶練習(xí)或者模仿訓(xùn)練內(nèi)容，進行言語訓(xùn)練。由于有些言語障礙用戶存在聽覺障礙等問題，訓(xùn)練內(nèi)容必須以多模態(tài)的導(dǎo)引方式展示給用戶，才能導(dǎo)引任意用戶練習(xí)或者模仿訓(xùn)練內(nèi)容，進行言語訓(xùn)練，發(fā)出指定內(nèi)容的語音。該實施例中，言語交互訓(xùn)練模塊200將訓(xùn)練內(nèi)容以多模態(tài)的導(dǎo)引方式展示給用戶，包括表現(xiàn)訓(xùn)練內(nèi)容本身意義的圖片、視頻、音頻、文字，訓(xùn)練內(nèi)容結(jié)合某些特定的用于言語訓(xùn)練的場景，訓(xùn)練內(nèi)容結(jié)合游戲方式以及可視化的發(fā)音過程等。其中，表現(xiàn)訓(xùn)練內(nèi)容本身意義的視頻還包含通過影像采集設(shè)備實時捕捉到的用戶人臉，并標(biāo)識出其臉部和唇部，便于提醒用戶觀察自身發(fā)音過程中存在的不足和缺陷?？梢暬陌l(fā)音過程為根據(jù)真實的發(fā)音過程中的舌部、唇部等位置的運動變化形成的二維或三維虛擬頭像，為用戶提供從口腔內(nèi)部多角度觀察具體的發(fā)音過程中的舌部運動、唇部運動，口腔運動，以及氣流及聲帶的振動。由于這些口腔內(nèi)部器官的運動變化控制是整個發(fā)音過程中最困難的地方，通過多模態(tài)的導(dǎo)引方式展示訓(xùn)練內(nèi)容本身，而且利用計算機圖形學(xué)及實際生理數(shù)據(jù)形成的二維或三維虛擬頭像來形象地表示具體訓(xùn)練內(nèi)容的發(fā)音過程中各個發(fā)音器官的變化，便于用戶進行模仿和自我糾正。用戶反饋模塊300用于收集用戶進行言語訓(xùn)練時反饋的語音以及與該語音對應(yīng) 的唇部視頻。言語評測模塊400接收用戶反饋的語音以及對應(yīng)的唇部視頻，對用戶的言語訓(xùn)練進行自動評測并給出評測結(jié)果。言語評測模塊400接收用戶模仿或者練習(xí)訓(xùn)練內(nèi)容時反饋的語音及其對應(yīng)的唇部視頻，進行發(fā)音質(zhì)量的自動檢測，唇部運動自動檢測以及理解正確性自動檢測，根據(jù)檢測結(jié)果進行自動綜合評測，給出評測結(jié)果。圖2是一個實施例中言語評測模塊結(jié)構(gòu)示意圖。該實施例中，言語評測模塊包括發(fā)音質(zhì)量檢測單元410、唇部運動檢測單元420、理解正確性檢測單元430以及綜合評測單元 440。發(fā)音質(zhì)量檢測單元410，用于針對用戶反饋中的語音，使用語音信息處理技術(shù)進行發(fā)音質(zhì)量和正確性等方面的自動檢測并給出檢測結(jié)果。對于用戶反饋的語音，發(fā)音質(zhì)量檢測單元410計算其短時能量，基頻以及語調(diào)等特征，進行單個音素級別的發(fā)音的響度、音調(diào)、持續(xù)時間長度等正確性的自動檢測，多音節(jié)的發(fā)音的響度、音調(diào)等正確性的自動檢測，孤立詞發(fā)音的響度、音調(diào)、各個音素發(fā)音的正確性自動檢測，整個語句的音素的正確性、音調(diào)、響度等方面的自動檢測。同時還進行語音內(nèi)容的自動識別，并自動進行檢測。在整個檢測過程中需要語音識別，發(fā)音質(zhì)量檢測單元410基于聲學(xué)模型，并結(jié)合語言模型或者詞網(wǎng)絡(luò)，對用戶反饋的語音的特征參數(shù)進行自動識別，分別得到單詞級別和音素級別的序列、對應(yīng)的時間邊界以及相應(yīng)的似然概率值，并與訓(xùn)練內(nèi)容進行比對，得到發(fā) 音質(zhì)量檢測結(jié)果，例如音素的插入、刪除、替代等錯誤。唇部運動檢測單元420用于針對反饋的唇部視頻進行唇部運動正確性自動檢測并給出檢測結(jié)果。唇部運動檢測單元420根據(jù)通過影像采集設(shè)備采集到的用戶臉部視頻，采用人臉檢測算法實時獲得人臉位置，進一步通過統(tǒng)計和模型建立的方法獲取用戶在發(fā)音過程中的唇部視頻(運動圖像)，并結(jié)合發(fā)音質(zhì)量檢測單元410對語音的特征參數(shù)進行識別得到的時間邊界，得到具體音素的唇部動作，并自動檢測其正確性，給出檢測結(jié)果。理解正確性檢測單元430，根據(jù)用戶通過鍵盤、鼠標(biāo)、觸摸屏等對系統(tǒng)的操作動作，結(jié)合訓(xùn)練內(nèi)容自動檢測用戶的理解正確性，并給出檢測結(jié)果。綜合評測單元440綜合發(fā)音質(zhì)量檢測單元410、唇部運動檢測單元420和理解正確性檢測單元430的檢測結(jié)果，對用戶的語音質(zhì)量、唇部運動，以及理解正確性的自動進行綜合評測，形成評測結(jié)果。結(jié)果反饋模塊500將評測結(jié)果反饋給用戶，供用戶對言語訓(xùn)練進行糾正和調(diào)整并對用戶進行指導(dǎo)。該實施例中，結(jié)果反饋模塊500將評測結(jié)果通過多種方式反饋給用戶，包括多媒體反饋，視覺反饋以及場景反饋。其中，多媒體反饋，將使用者的發(fā)音及其操作結(jié)果以圖片、數(shù)字、曲線、聲音、文本等多種形式形象，生動，直觀的表現(xiàn)出來，使得聲音及操作結(jié)果可視化；與此同時，自動對用戶的不標(biāo)準(zhǔn)及錯誤發(fā)音進行對比糾正，使用戶可以明確的知道自己發(fā)音的錯誤所在，進而有目的的進行針對性練習(xí)。視覺反饋，通過內(nèi)置影像采集設(shè)備對用戶言語訓(xùn)練時的嘴唇運動情況進行實時捕捉，并將其以畫面的形式實時顯示，使得用戶可以清楚的觀察到自己發(fā)音過程中的嘴型變化，通過與標(biāo)準(zhǔn)發(fā)音動作對比，找出不足，進而改正并做出正確發(fā)音。場景反饋，用于交互式訓(xùn)練中，將用戶在互動游戲中的發(fā)音或者操作所產(chǎn)生的結(jié) 果融入相應(yīng)的游戲背景元素，以畫面，聲音的形式表現(xiàn)出來，并且在正確完成任務(wù)的情況下會適當(dāng)給予視覺或者聲音獎勵，使得訓(xùn)練更具有趣味性及目標(biāo)性。訓(xùn)練控制模塊600接收評測結(jié)果作為用戶當(dāng)前訓(xùn)練所達水平的參考，依據(jù)存儲模塊700存儲的訓(xùn)練內(nèi)容和用戶信息，自動規(guī)劃用戶下一步訓(xùn)練內(nèi)容制定言語訓(xùn)練安排。或者通過用戶操作，由用戶根據(jù)評測結(jié)果以及自己的意愿制定或者調(diào)整訓(xùn)練內(nèi)容，選擇接下來的言語訓(xùn)練。存儲模塊700用于存儲不同等級難度的訓(xùn)練內(nèi)容和用戶信息。存儲模塊700存儲訓(xùn)練內(nèi)容所包括的呼吸訓(xùn)練、響度訓(xùn)練、單音節(jié)訓(xùn)練、雙音節(jié)訓(xùn) 練、單詞訓(xùn)練、整句訓(xùn)練等，以及相應(yīng)于不同階段不同訓(xùn)練內(nèi)容所需的詞匯，短語，句子，游戲場景等。還存儲用戶信息，作為用戶個人信息記錄檔案，不僅記錄用戶的個人資料信息，還記錄用戶每次的訓(xùn)練內(nèi)容及評測結(jié)果，并將其表示成隨時間變化的學(xué)習(xí)曲線，使得用戶可以直觀的看到自己的學(xué)習(xí)進度及進步情況。上述言語交互訓(xùn)練系統(tǒng)有多種實現(xiàn)方式，例如基于網(wǎng)絡(luò)的客戶端/服務(wù)器 (Client/Server)方式、基于網(wǎng)絡(luò)的瀏覽器/服務(wù)器(Browser/Server)方式、基于嵌入式系統(tǒng)的單機模式等等?；诰W(wǎng)絡(luò)的客戶端、服務(wù)器方式其客戶端是用戶訪問終端，提供語音輸入、音頻播放以及鼠標(biāo)操作，并且對輸入音頻完成靜音檢測、特征提取以及網(wǎng)絡(luò)傳輸、游戲場景生成等功能，其服務(wù)器端完成對輸入語音的音調(diào)檢測，響度檢測，時長檢測，錯誤發(fā)音檢測、錯誤反饋、幫助選項反饋、游戲場景內(nèi)容生成、數(shù)據(jù)庫操作、學(xué)習(xí)信息統(tǒng)計、網(wǎng)絡(luò)傳輸?shù)裙δ?。基于網(wǎng)絡(luò)的瀏覽器、服務(wù)器方式其瀏覽器是用戶訪問終端，提供語音輸入、音頻播放、鼠標(biāo)操作、網(wǎng)絡(luò)傳輸、游戲場景，并通過插件(Plug-in)完成對輸入音頻靜音檢測以及特征提取等操作，其服務(wù)器包括數(shù)據(jù)處理服務(wù)器和Web服務(wù)器，其中數(shù)據(jù)服務(wù)器端完成對輸入語音的音調(diào)檢測，響度檢測，時長檢測，錯誤發(fā)音檢測、錯誤反饋、幫助選項反饋、游戲場景內(nèi)容生成、數(shù)據(jù)庫操作、學(xué)習(xí)信息統(tǒng)計、網(wǎng)絡(luò)傳輸?shù)裙δ?，其中Web服務(wù)器是瀏覽器的訪問服務(wù)器，瀏覽器與數(shù)據(jù)處理服務(wù)器之間進行直接的數(shù)據(jù)傳輸?；谇度胧较到y(tǒng)的單機方式在一個程序框架內(nèi)完成單機方式的語音輸入、音頻播放、音頻靜音檢測、音頻特征提取、輸入語音的音調(diào)檢測，響度檢測，時長檢測、錯誤發(fā)音檢測及錯誤反饋、游戲內(nèi)容生成、數(shù)據(jù)庫操作、學(xué)習(xí)信息統(tǒng)計等。此外，提供一種言語交互訓(xùn)練方法。圖3是一個實施例中言語交互訓(xùn)練方法流程圖。該方法包括S31 為用戶提供多種訓(xùn)練內(nèi)容供用戶選擇，獲取用戶選擇的訓(xùn)練內(nèi)容。訓(xùn)練內(nèi)容是根據(jù)用戶信息、言語訓(xùn)練課程以及用戶選擇形成的，提供給用戶進行言語訓(xùn)練的內(nèi)容，包括對指定內(nèi)容進行發(fā)音時的多種言語訓(xùn)練，如呼吸訓(xùn)練、音調(diào)訓(xùn)練、構(gòu) 音訓(xùn)練、響度訓(xùn)練、單音節(jié)訓(xùn)練、雙音節(jié)訓(xùn)練、單詞訓(xùn)練、整句訓(xùn)練等。該實施例中，為用戶提供交互界面，將訓(xùn)練內(nèi)容提供給用戶，用戶根據(jù)自身言語訓(xùn)練要求通過鍵盤、鼠標(biāo)、觸摸屏等進行選擇，從而獲取用戶選擇的訓(xùn)練內(nèi)容。S32:將用戶選擇的訓(xùn)練內(nèi)容以多模態(tài)的導(dǎo)引方式展示給用戶，導(dǎo)引用戶練習(xí)或者模仿訓(xùn)練內(nèi)容，進行言語訓(xùn)練。由于有些言語障礙用戶存在聽覺障礙等問題，訓(xùn)練內(nèi)容必須以多模態(tài)的導(dǎo)引方式展示給用戶，才能導(dǎo)引任意用戶練習(xí)或者模仿訓(xùn)練內(nèi)容，進行言語訓(xùn)練，發(fā)出指定內(nèi)容的語音。該實施例中，訓(xùn)練內(nèi)容以多模態(tài)的導(dǎo)引方式展示給用戶，包括表現(xiàn)訓(xùn)練內(nèi)容本身意義的圖片、視頻、音頻、文字，訓(xùn)練內(nèi)容結(jié)合某些特定的用于言語訓(xùn)練的場景、訓(xùn)練內(nèi)容結(jié)合游戲方式以及可視化的發(fā)音過程等。其中，表現(xiàn)訓(xùn)練內(nèi)容本身意義的視頻還包含通過影像采集設(shè)備實時捕捉到的用戶人臉，并標(biāo)識出其臉部和唇部，便于提醒用戶觀察自身發(fā)音過程中存在的不足和缺陷。可視化的發(fā)音過程為根據(jù)真實的發(fā)音過程中的舌部、唇部等位置的運動變化形成的二維或三維虛擬頭像，為用戶提供從口腔內(nèi)部多角度觀察具體的發(fā)音過程中的舌部運動、唇部運動，口腔運動，以及氣流及聲帶的振動。由于這些口腔內(nèi)部器官的運動變化控制是整個發(fā)音過程中最困難的地方，通過多模態(tài)方式展示訓(xùn)練內(nèi)容本身，而且利用計算機圖形學(xué)及實際生理數(shù)據(jù)形成的三維虛擬頭像來形象地表示具體訓(xùn)練內(nèi)容的發(fā)音過程中各個發(fā)音器官的變化，便于用戶進行模仿和自我糾正。S33:接收用戶反饋的語音以及對應(yīng)的唇部視頻，對用戶的言語訓(xùn)練進行自動評測并給出評測結(jié)果。該實施例中，接收用戶反饋的語音以及對應(yīng)的唇部視頻，對用戶的言語訓(xùn)練進行自動評測并給出評測結(jié)果具體為接收用戶模仿或者練習(xí)訓(xùn)練內(nèi)容時反饋的語音及其對應(yīng) 的唇部視頻，進行發(fā)音質(zhì)量的自動檢測，唇部運動自動檢測以及理解正確性自動檢測并各自給出檢測結(jié)果，根據(jù)檢測結(jié)果進行綜合評測，給出評測結(jié)果。其中，發(fā)音質(zhì)量檢測，針對用戶反饋中的語音，使用語音信息處理技術(shù)進行發(fā)音質(zhì) 量和正確性等方面的自動檢測。對于用戶反饋的語音，計算其短時能量，基頻以及語調(diào)等特征，進行單個音素級別的發(fā)音的響度、音調(diào)、持續(xù)時間長度等正確性的自動檢測，多音節(jié)的發(fā)音的響度、音調(diào)等正確性的自動檢測，孤立詞發(fā)音的響度、音調(diào)、各個音素發(fā)音的正確性自動檢測，整個語句的音素的正確性、音調(diào)、響度等方面的自動檢測。同時還進行語音內(nèi)容的自動識別，進行檢測。在整個檢測過程中需要語音識別，其基于聲學(xué)模型，并結(jié)合語言模型或者詞網(wǎng)絡(luò)，對用戶反饋的語音的特征參數(shù)進行自動識別，分別得到單詞級別和音素級別的序列、對應(yīng) 的時間邊界以及相應(yīng)的似然概率值，并與訓(xùn)練內(nèi)容進行比對，得到發(fā)音質(zhì)量檢測結(jié)果，例如音素的插入、刪除、替代等錯誤。唇部運動檢測，根據(jù)影像采集設(shè)備采集到的用戶臉部視頻進行唇部運動正確性檢測。首先，對于采集用戶臉部視頻，通過人臉檢測算法實時獲得人臉位置，進一步通過統(tǒng)計和模型建立的方法獲取用戶在發(fā)音過程中的唇部視頻(運動圖像)，并結(jié)合發(fā)音質(zhì)量檢測中對語音的特征參數(shù)進行識別得到的時間邊界，得到具體音素的唇部動作，并自動檢測其正確性，給出檢測結(jié)果。理解正確性檢測，根據(jù)用戶通過鍵盤、鼠標(biāo)、觸摸屏等對系統(tǒng)的操作動作，根據(jù)訓(xùn) 練內(nèi)容自動檢測用戶的理解正確性，并給出檢測結(jié)果。最后，綜合發(fā)音質(zhì)量檢測、唇部運動檢測和理解正確性檢測的檢測結(jié)果，對用戶的語音質(zhì)量、唇部運動，以及理解正確性進行自動綜合評測，形成評測結(jié)果。S34:將評測結(jié)果反饋給用戶，供用戶對言語訓(xùn)練進行糾正和調(diào)整并對用戶進行指導(dǎo)。該實施例中，評測結(jié)果通過多種方式反饋給用戶，包括多媒體反饋，視覺反饋以及場景反饋。其中，多媒體反饋，將使用者的發(fā)音及其操作結(jié)果以圖片、數(shù)字、曲線、聲音、文本等多種形式形象，生動，直觀的表現(xiàn)出來，使得聲音及操作結(jié)果可視化；與此同時，自動對用戶的不標(biāo)準(zhǔn)發(fā)音及錯誤發(fā)音進行對比糾正，使用戶可以明確的知道自己發(fā)音的錯誤所在，進而有目的的進行針對性訓(xùn)練。視覺反饋，通過內(nèi)置影像采集設(shè)備對用戶言語訓(xùn)練時的嘴唇運動情況進行實時捕捉，并將其以畫面的形式實時顯示，使得用戶可以清楚的觀察到自己發(fā)音過程中的嘴型變化，通過與標(biāo)準(zhǔn)發(fā)音動作對比，找出不足進而改正做出正確發(fā)音。場景反饋，用于交互式訓(xùn)練中，將用戶在互動游戲中的發(fā)音或者操作所產(chǎn)生的結(jié) 果融入相應(yīng)的游戲背景元素，以畫面，聲音的形式表現(xiàn)出來，并且在正確完成任務(wù)的情況下會適當(dāng)給予視覺或者聲音獎勵，使得訓(xùn)練更具有趣味性及目標(biāo)性。此外，還包括接收評測結(jié)果作為用戶當(dāng)前訓(xùn)練所達水平的參考，依據(jù)存儲的訓(xùn)練內(nèi)容和用戶信息，自動規(guī)劃用戶下一步訓(xùn)練內(nèi)容制定訓(xùn)練安排。或者通過用戶操作，由用戶根據(jù)評測結(jié)果以及自己的意愿制定或者調(diào)整訓(xùn)練內(nèi)容，選擇接下來的言語訓(xùn)練的步驟。上述言語交互訓(xùn)練系統(tǒng)及方法，采用交互方式，為用戶提供訓(xùn)練內(nèi)容并將用戶選擇的訓(xùn)練內(nèi)容以及多模態(tài)的導(dǎo)引方式展示給用戶，導(dǎo)引用戶進行言語訓(xùn)練，獲取用戶進行言語訓(xùn)練反饋的語音以及與語音對應(yīng)的唇部視頻對用戶的言語訓(xùn)練進行自動評測給出評測結(jié)果，將評測結(jié)果反饋給用戶，用戶根據(jù)評測結(jié)果了解自身言語訓(xùn)練的水平并對自己的言語訓(xùn)練進行糾正和調(diào)整，進一步提高言語訓(xùn)練的水平，從而極大的增強言語障礙的訓(xùn)練效果。以上所述實施例僅表達了本發(fā)明的幾種實施方式，其描述較為具體和詳細，但并不能因此而理解為對本發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是，對于本領(lǐng)域的普通技術(shù)人員來說，在不脫離本發(fā)明構(gòu)思的前提下，還可以做出若干變形和改進，這些都屬于本發(fā)明的保護范圍。因此，本發(fā)明專利的保護范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。
權(quán)利要求
1.一種言語交互訓(xùn)練系統(tǒng)，其特征在于，包括用戶選擇模塊，為用戶提供多種訓(xùn)練內(nèi)容供用戶選擇，獲取用戶選擇的訓(xùn)練內(nèi)容；言語交互訓(xùn)練模塊，將用戶選擇的訓(xùn)練內(nèi)容以多模態(tài)的導(dǎo)引方式展示給用戶，導(dǎo)引用戶練習(xí)或者模仿訓(xùn)練內(nèi)容，進行言語訓(xùn)練；用戶反饋模塊，收集用戶進行言語訓(xùn)練時反饋的語音以及與所述語音對應(yīng)的唇部視頻；言語評測模塊，接收并根據(jù)用戶反饋的語音以及對應(yīng)的唇部視頻，對用戶的言語訓(xùn)練進行自動評測并給出評測結(jié)果；結(jié)果反饋模塊，用于將評測結(jié)果反饋給用戶，供用戶對言語訓(xùn)練進行糾正和調(diào)整。
2.根據(jù)權(quán)利要求1所述的言語交互訓(xùn)練系統(tǒng)，其特征在于，所述訓(xùn)練內(nèi)容為發(fā)出指定內(nèi)容語音時的多種言語訓(xùn)練，包括呼吸訓(xùn)練、音調(diào)訓(xùn)練、構(gòu)音訓(xùn)練、響度訓(xùn)練、單音節(jié)訓(xùn)練、雙音節(jié)訓(xùn)練、單詞訓(xùn)練、整句訓(xùn)練中的至少一種；所述訓(xùn)練內(nèi)容的多模態(tài)的導(dǎo)引方式包括表現(xiàn)訓(xùn)練內(nèi)容本身意義的圖片、視頻、音頻、文字，訓(xùn)練內(nèi)容結(jié)合言語訓(xùn)練的場景，訓(xùn)練內(nèi)容結(jié) 合游戲方式以及可視化的發(fā)音過程中的至少一種。
3.根據(jù)權(quán)利要求2所述的言語交互訓(xùn)練系統(tǒng)，其特征在于，所述言語評測模塊包括發(fā)音質(zhì)量檢測單元，用于針對反饋的語音，采用語音信息處理技術(shù)進行發(fā)音質(zhì)量和正確性的自動檢測，并給出檢測結(jié)果；唇部運動檢測單元，用于針對反饋的唇部視頻進行唇部運動正確性的自動檢測，并給出檢測結(jié)果；理解正確性檢測單元，根據(jù)用戶對系統(tǒng)的操作動作，結(jié)合訓(xùn)練內(nèi)容自動檢測用戶的理解正確性，并給出檢測結(jié)果；綜合評測單元，綜合發(fā)音質(zhì)量檢測單元、唇部運動檢測單元和理解正確性檢測單元的檢測結(jié)果，進行綜合評測，形成評測結(jié)果。
4.根據(jù)權(quán)利要求3所述的言語交互訓(xùn)練系統(tǒng)，其特征在于，所述結(jié)果反饋模塊通過多媒體反饋，視覺反饋以及場景反饋將評測結(jié)果反饋給用戶。
5.根據(jù)權(quán)利要求1至4中任一項所述的言語交互訓(xùn)練系統(tǒng)，其特征在于，所述系統(tǒng)還包括訓(xùn)練控制模塊，接收評測結(jié)果作為用戶當(dāng)前言語訓(xùn)練所達水平的參考，依據(jù)初始存儲的訓(xùn)練內(nèi)容和用戶信息，規(guī)劃用戶下一步訓(xùn)練內(nèi)容，制定言語訓(xùn)練方案。
6.根據(jù)權(quán)利要求1所述的言語交互訓(xùn)練系統(tǒng)，其特征在于，所述系統(tǒng)實現(xiàn)方式包括基于網(wǎng)絡(luò)的客戶端/服務(wù)器方式、基于網(wǎng)絡(luò)的瀏覽器/服務(wù)器方式、基于嵌入式系統(tǒng)的單機模式中的至少一種。
7.一種言語交互訓(xùn)練方法，包括如下步驟為用戶提供多種訓(xùn)練內(nèi)容供用戶選擇，獲取用戶選擇的訓(xùn)練內(nèi)容；將用戶選擇的訓(xùn)練內(nèi)容以多模態(tài)的導(dǎo)引方式展示給用戶，導(dǎo)引用戶練習(xí)或者模仿訓(xùn)練內(nèi)容，進行言語訓(xùn)練；接收并根據(jù)用戶反饋的語音以及與所述語音對應(yīng)的唇部視頻，對用戶的言語訓(xùn)練進行自動評測并給出評測結(jié)果；將評測結(jié)果反饋給用戶，供用戶對言語訓(xùn)練進行糾正和調(diào)整。
8.根據(jù)權(quán)利要求7所述的言語交互訓(xùn)練方法，其特征在于，所述接收并根據(jù)用戶反饋的語音以及與所述語音對應(yīng)的唇部視頻，對用戶的言語訓(xùn)練進行自動評測并給出評測結(jié)果具體為接收用戶模仿或者練習(xí)訓(xùn)練內(nèi)容時反饋的語音及與所述語音對應(yīng)的唇部視頻，進行發(fā)音質(zhì)量的自動檢測，唇部運動自動檢測以及理解正確性自動檢測并各自給出檢測結(jié) 果，自動綜合檢測結(jié)果進行評測，給出評測結(jié)果。
9.根據(jù)權(quán)利要求8所述的言語交互訓(xùn)練方法，其特征在于，所述將評測結(jié)果反饋給用戶采用多媒體反饋，視覺反饋以及場景反饋中的至少一種。
10.根據(jù)權(quán)利要求7或9所述的言語交互訓(xùn)練方法，其特征在于，所述方法還包括將接收的評測結(jié)果作為用戶當(dāng)前言語訓(xùn)練所達水平的參考，依據(jù)初始存儲的訓(xùn)練內(nèi)容和用戶信息，規(guī)劃用戶下一步訓(xùn)練內(nèi)容，制定言語訓(xùn)練方案的步驟。
全文摘要
本發(fā)明涉及一種言語交互訓(xùn)練系統(tǒng)和方法，該系統(tǒng)包括用戶選擇模塊，獲取用戶選擇的訓(xùn)練內(nèi)容；言語交互訓(xùn)練模塊，將訓(xùn)練內(nèi)容以多模態(tài)的導(dǎo)引方式展示給用戶，導(dǎo)引用戶進行言語訓(xùn)練；用戶反饋模塊，收集反饋的語音以及與語音對應(yīng)的唇部視頻；言語評測模塊，接收用戶反饋的語音以及對應(yīng)的唇部視頻，對用戶的言語訓(xùn)練進行自動評測并給出評測結(jié)果；結(jié)果反饋模塊，用于將評測結(jié)果反饋給用戶，供用戶對言語訓(xùn)練進行糾正和調(diào)整。本發(fā)明對用戶的言語訓(xùn)練進行自動評測給出評測結(jié)果，將評測結(jié)果反饋給用戶，用戶根據(jù)評測結(jié)果了解自身言語訓(xùn)練的水平并對自己的言語訓(xùn)練進行糾正和調(diào)整，進一步提高言語水平，從而極大的增強言語障礙者的康復(fù)訓(xùn)練效果。
文檔編號G10L15/24GK102063903SQ20101029211
公開日2011年5月18日申請日期2010年9月25日優(yōu)先權(quán)日2010年9月25日
發(fā)明者李崇國, 王嵐, 蒙美玲, 郝健英申請人:中國科學(xué)院深圳先進技術(shù)研究院

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王嵐;李崇國;郝健英;蒙美玲
技術(shù)所有人：中國科學(xué)院深圳先進技術(shù)研究院
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

言語認知訓(xùn)練評估系統(tǒng)相關(guān)技術(shù)

言語康復(fù)訓(xùn)練相關(guān)技術(shù)

言語訓(xùn)練相關(guān)技術(shù)

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

言語交互訓(xùn)練系統(tǒng)及方法