專利名稱:用于有表現(xiàn)力的語言、發(fā)育失調和情緒評估的系統(tǒng)和方法
技術領域:
本發(fā)明總體上涉及自動化語言評估,具體而言,涉及通過分析兒童使用的音素 (phone)、音素狀(phone-like)聲音和原音素評估關鍵兒童的有表現(xiàn)力的語言發(fā)展,涉及分析記錄以輔助檢測諸如孤獨癥的疾病和失調,并涉及檢測情緒。
背景技術:
如’ 520申請中更詳細論述的,幼兒周圍的語言環(huán)境是兒童發(fā)展的關鍵。在三歲時,兒童的語言和詞匯能力例如能夠表明年齡稍長后在諸如閱讀和數(shù)學的學術主題中的智力和考試成績。提高語言能力通常獲得更高的智商(IQ)以及改進的識字和學校技能。暴露于聽覺豐富或傾聽語言的環(huán)境中,其中,在兒童和成年人之間以大量交互談話的形式說到很多詞匯,較大數(shù)量的肯定之于禁止可以促進兒童語言能力和IQ的提升。年幼兒童周圍的語言環(huán)境對兒童語言能力和IQ的效果可能特別明顯。在人生的頭四年中,部分由于兒童大腦的發(fā)育和成熟,兒童經(jīng)歷高度密集的講話和語言發(fā)展時期。即使在兒童開始上學或讀書之后,兒童的大部分語言能力和詞匯也是從與他人進行談話中發(fā)展起來的,詞匯包括已知的單詞(易于接受的詞匯)和兒童在講話時使用的單詞(有表現(xiàn)力的詞匯)。除了聽其他人對他們講話并應答(即,會話)之外,兒童的語言發(fā)展還可能受到兒童自己講話的促進。兒童自己講話是認知作用的動態(tài)指標,尤其是在兒童一生的頭幾年。已經(jīng)開發(fā)出了研究技術,涉及到統(tǒng)計幼兒的發(fā)聲和講話以及講話的長度,以估計兒童的認知發(fā)展。當前收集信息的過程可以包括通過觀察者和/或錄制兒童講話的錄音獲得數(shù)據(jù)。分析數(shù)據(jù)以提供可以用于分析兒童的語言環(huán)境的量度,可以修改量度以促進兒童語言開發(fā)和 IQ的提升。不過,存在觀察者可能是侵入性的,對兒童行為有影響,成本高昂,且不能充分獲得關于兒童自然環(huán)境和發(fā)展的信息。此外,使用錄音和記錄是獲得與兒童語言環(huán)境相關聯(lián)的數(shù)據(jù)的成本高且耗時的過程。分析這些的數(shù)據(jù)以識別規(guī)范的兒語、統(tǒng)計單詞數(shù)目、確定講話的平均長度和其他發(fā)聲度量并確定所說內容也是非常耗時的。即使對于電子分析系統(tǒng)而言,同時單詞數(shù)目和確定所說內容也可能尤其消耗時間和資源,因為每個單詞都是連同其含義一起被識別的。因此,需要這樣的方法和系統(tǒng),其獨立于內容獲得并分析與兒童語言環(huán)境相關聯(lián)的數(shù)據(jù)并以及時的方式,基于數(shù)據(jù)報告量度。 分析還應當包括自動評估兒童的有表現(xiàn)力的語言發(fā)展。除了自動評估兒童的有表現(xiàn)力的語言發(fā)展之外,還需要開發(fā)特定的量度和方法以確定兒童的特定發(fā)育失調。如上所述,希望這樣一種測試,在提供觀察者方面其非侵入性非常大,且成本低,同時產(chǎn)生大量數(shù)據(jù)。通過分析講話能夠檢測到的這種感興趣的發(fā)育失調之一是孤獨癥。對語言發(fā)展有貢獻的另一項因素可能是情緒。在兒童處在情緒有壓力的環(huán)境中時,他們的學習和語言發(fā)展可能受到影響。因此,用于檢測受檢者交互的情緒內容的系統(tǒng)和方法可能合乎輔助語言開發(fā)的需要。
發(fā)明內容
用于有表現(xiàn)力的語言發(fā)展的系統(tǒng)和方法的某些實施例提供了以較快且有成本效率的方式提供與關鍵兒童的語言環(huán)境和發(fā)展相關聯(lián)的度量的方法和系統(tǒng)??梢允褂枚攘縼泶龠M語言環(huán)境的改善、關鍵兒童的語言發(fā)展和/或跟蹤兒童語言技能的發(fā)展。在本發(fā)明的一個實施例中,提供了一種用于產(chǎn)生與關鍵兒童的語言環(huán)境相關聯(lián)的度量的方法。可以捕獲來自語言環(huán)境的錄音??梢詫浺舴殖啥鄠€片段。可以針對多個片段的每個標識片段 ID。片段ID可以標識記錄片段中的音頻源??梢詮钠沃凶R別關鍵兒童片段。關鍵兒童片段的每個可能具有關鍵兒童作為片段ID。可以部分基于至少一個關鍵兒童片段估計關鍵兒童片段特性。可以獨立于關鍵兒童片段的內容估計關鍵兒童片段特性??梢岳藐P鍵兒童片段特性確定與語言環(huán)境和/或語言發(fā)展相關聯(lián)的至少一個度量。度量的范例包括在預設時間中關鍵兒童所說的單詞或發(fā)聲數(shù)量以及談話輪數(shù)??梢詫⒅辽僖粋€度量輸出到輸出設備。在一些實施例中,可以從片段中識別出成年人片段。每個成年人片段可以具有成年人作為片段ID??梢圆糠只谥辽僖粋€成年人片段估計成年人片段特性。可以獨立于成年人片段的內容估計成年人片段特性??梢岳贸赡耆似翁匦源_定與語言環(huán)境相關聯(lián)的至少一個度量。在用于有表現(xiàn)力的語言發(fā)展的系統(tǒng)和方法的一個實施例中,提供了一種用于提供與關鍵兒童的語言環(huán)境相關聯(lián)的量度的系統(tǒng)。該系統(tǒng)可以包括錄音機和基于處理器的設備。錄音機可以適于從語言環(huán)境捕獲錄音并向基于處理器的設備的提供錄音?;谔幚砥鞯脑O備可以包括具有音頻引擎的應用,其適于將錄音分割成片段并針對每個片段標識片段 ID。至少一個片段可以與關鍵兒童片段ID相關聯(lián)。音頻引擎可以進一步適于部分基于至少一個片段估計關鍵兒童的片段特性,利用關鍵兒童片段特性確定與語言環(huán)境或語言發(fā)展相關聯(lián)的至少一個度量,并向輸出設備輸出至少一個度量。音頻引擎可以獨立于片段內容估計關鍵兒童的片段特性。在用于有表現(xiàn)力的語言發(fā)展的系統(tǒng)和方法的一個實施例中,分析關鍵兒童的發(fā)聲以識別特定音素、音素狀聲音和原音素的出現(xiàn)次數(shù),并計算音素、音素狀聲音和原音素的頻率分布或持續(xù)時間分布??梢元毩⒂诎l(fā)聲的內容進行分析??梢允褂脼橛糜趶某赡耆苏Z音識別內容的自動語音識別系統(tǒng)而設計的音素解碼器識別音素、音素狀聲音和原音素。使用關鍵兒童的實足年齡選擇基于年齡的模型,該模型使用音素、音素狀聲音和原音素的分布, 以及與每個音素、音素狀聲音和原音素相關聯(lián)的基于年齡的權重來評估關鍵兒童的有表現(xiàn)力的語言發(fā)展。評估可能獲得標準分數(shù)、估計的發(fā)育年齡或估計的講話度量的平均長度。在一個實施例中,一種評估關鍵兒童有表現(xiàn)力的語言發(fā)展的方法包括處理在關鍵兒童的語言環(huán)境中獲取的錄音以識別記錄中對應于關鍵兒童發(fā)聲的片段。該方法還包括向片段應用成年人自動語音識別音素解碼器以識別多個雙音素類別的每個的每次發(fā)生。雙音素類別的每個都對應于預定義的語音序列。該方法還包括確定雙音素類別的分布并使用基于年齡的模型中的分布以評估關鍵兒童的有表現(xiàn)力語言發(fā)展。在另一實施例中,一種用于評估關鍵兒童語言發(fā)展的系統(tǒng)包括基于處理器的設備,該設備包括具有音頻引擎的應用,用于處理在關鍵兒童語言環(huán)境中獲取的錄音以識別記錄中對應于關鍵兒童發(fā)聲的片段。該系統(tǒng)還包括成年人自動語音識別音素解碼器,用于處理對應于關鍵兒童發(fā)聲的片段,以識別多個雙音素類別的每個的每次發(fā)生。雙音素類別的每個都對應于預定義的語音序列。該系統(tǒng)還包括用于確定雙音素類別的分布并使用基于年齡的模型中的分布以評估關鍵兒童的有表現(xiàn)力語言發(fā)展的有表現(xiàn)力語言評估部件。基于關鍵兒童的實足年齡選擇基于年齡的模型,基于年齡的模型包括與雙音素類別的每個相關聯(lián)的權重。在用于有表現(xiàn)力的語言發(fā)展的系統(tǒng)和方法的一個實施例中,一種用于在自然語言環(huán)境中檢測孤獨癥的方法包括使用麥克風、錄音機和計算機,利用軟件編程控制用于專門目的的計算機,該目的是處理由麥克風和錄音機組合捕獲的記錄。編程控制計算機以執(zhí)行包括如下操作的方法利用為了專門目的而編程控制的計算機將麥克風和錄音機組合捕獲的音頻信號分割成多個記錄片段。該方法還包括判斷多個記錄片段中哪個對應于關鍵兒童。該方法還包括提取關鍵兒童記錄的聲學參數(shù)并將所述關鍵兒童記錄的聲學參數(shù)與已知的針對兒童的聲學參數(shù)進行比較。該方法返回孤獨癥可能性的確定結果。在另一實施例中,一種用于檢測孤獨癥的方法包括轉換錄音以在從顯示器、打印輸出和音頻輸出構成的組中選擇的輸出機構上顯示孤獨癥指示,通過將錄音與通過分析在自然語言環(huán)境中捕獲的多個錄音的透明參數(shù)開發(fā)的模型進行比較來執(zhí)行錄音的轉換。此外,另一個實施例包括一種利用麥克風、錄音機和計算機檢測自然語言環(huán)境中失調的方法,利用軟件編程控制用于專門目的的計算機,所述專門目的是處理由所述麥克風和錄音機組合捕獲的記錄。編程控制計算機以執(zhí)行一種方法。該方法包括利用為了專門目的而編程控制的計算機將麥克風和錄音機組合捕獲的音頻信號分割成多個記錄片段;判斷多個記錄片段的哪個對應于關鍵受檢者;多個記錄片段中判定為對應于關鍵受檢者的哪個被分類為關鍵受檢者記錄;提取所述關鍵受檢者記錄的聲學參數(shù);將所述關鍵受檢者記錄的聲學參數(shù)與已知的針對受檢者的聲學參數(shù)進行比較;并且確定失調的可能性。在又一實施例中,一種檢測失調的方法包括轉換錄音以在從顯示器、打印輸出和音頻輸出構成的組中選擇的輸出機構上顯示孤獨癥指示,通過將錄音與通過分析在自然語言環(huán)境中捕獲的多個錄音的透明參數(shù)開發(fā)的模型進行比較來執(zhí)行錄音的轉換。對于多個錄音的每個而言,分析包括將錄音分成多個記錄片段,其中錄音是由麥克風和錄音機組合捕獲的;判斷多個記錄片段的哪個對應于關鍵受檢者;多個記錄片段中判定為對應于關鍵受檢者的哪個被分類為關鍵受檢者記錄;以及提取所述關鍵受檢者記錄的聲學參數(shù)。在一個實施例中,一種生成自動語言特性識別系統(tǒng)的方法包括接收多個錄音。對錄音進行分段以針對每個錄音生成多個音頻片段。根據(jù)每個音頻片段的音頻特性對多個音頻片段分群以形成多個音頻片段群。在一個實施例中,一種使用自動語言特性識別系統(tǒng)對語音解碼的方法包括接收多個錄音,以及對多個錄音的每個進行分段以生成針對每個錄音的第一多個音頻片段。該方法還包括根據(jù)每個音頻片段的音頻特性對多個錄音的每個音頻片段分群以形成多個音頻片段群。該方法還包括接收新錄音,對新錄音分段以為新錄音生成第二多個音頻片段;以及判斷第二多個音頻片段的每個片段對應于多個音頻片段群的哪個群。在一個實施例中,一種確定講話情緒的方法包括在包括具有音頻引擎的應用的基于處理器的設備處接收講話。該方法還包括從講話提取與情緒相關的聲學特征。該方法還包括將與情緒相關的聲學特征與表示情緒的多個模型比較。還包括基于比較和輸出與所選模型對應的情緒從多個模型選擇模型。在一個實施例中,一種利用麥克風、錄音機和計算機檢測自然語言環(huán)境中關鍵兒童的孤獨癥的方法包括如下步驟,利用軟件編程控制用于專門目的的計算機,所述專門目的是處理由所述麥克風和錄音機組合捕獲的記錄利用為了專門目的而編程控制的計算機將麥克風和錄音機組合捕獲的音頻信號分割成多個記錄片段。該方法還包括判斷多個記錄片段中哪個對應于關鍵兒童。該方法還包括將多個記錄片段中確定為對應于關鍵兒童的哪個分類為關鍵兒童記錄。此外,該方法包括提取所述關鍵兒童記錄的基于音素的特征;將所述關鍵兒童記錄的基于音素的特征與已知的針對兒童的基于音素的特征比較;以及基于所述比較確定孤獨癥的可能性。在一種替代方案中,比較包括邏輯回歸分析。在另一種替代方案中,比較包括線性判別分析(Linear Discriminate Analysis)。在一種替代方案中,該方法還包括變換用戶的顯示以顯示孤獨癥的可能性。在另一種替代方案中,該方法還包括變換信息存儲設備以存儲孤獨癥的可能性。此外,可以通過多個特征矢量表示基于音素的特征。此外,比較可以包括將多個特征矢量與已知的針對兒童的基于音素的特征比較,以返回多個結果,其中針對多個特征矢量的每個有多個結果中的結果,對多個結果求平均以用于確定。此外,可以對多個特征矢量求平均以獲得用于比較的單個特征矢量。提到這些實施例不是要限制或界定本發(fā)明,而是要提供本發(fā)明實施例的范例以幫助理解。在具體實施方式
中論述了實施例,通過研究具體實施方式
和附圖可以進一步理解本發(fā)明的各實施例。
在參考附圖閱讀以下詳細描述時,本發(fā)明的這些和其他特征、方面和優(yōu)點會得到更好理解,附圖中圖1示出了根據(jù)本發(fā)明的一個實施例的關鍵兒童的語言環(huán)境;圖加是根據(jù)本發(fā)明的一個實施例的衣袋中的錄音機的前視圖;圖2b是圖加的錄音機和口袋的側視圖;圖3是根據(jù)本發(fā)明的一個實施例的記錄處理系統(tǒng);圖4是根據(jù)本發(fā)明的一個實施例用于處理錄音的方法的流程圖;圖5是根據(jù)本發(fā)明的一個實施例用于執(zhí)行另一錄音處理的方法的流程圖;圖6示出了根據(jù)本發(fā)明的一個實施例的片段中的聲能;圖7-12是屏幕快照,示出了根據(jù)本發(fā)明的一個實施例提供到輸出設備的量度;圖13示出了實足年齡和特定音素之間的相關性;圖14示出了圖13的一些音素和實足年齡之間的非線性關系;圖1 和1 在這里統(tǒng)稱為圖15,是示出了根據(jù)本發(fā)明的一個實施例用于有表現(xiàn)力語言索引ζ分數(shù)的權重的表格;圖16為方框圖,示出了根據(jù)本發(fā)明的一個實施例用于評估語言發(fā)展的系統(tǒng);圖17為方框圖,示出了用于檢測個體中的失調或疾病的方法的一個實施例;圖18為方框圖,示出了用于為正常個體和具有正被討論的失調或疾病的個體群體生成趨向的方法的一個實施例;
圖19示出了捕獲并轉換成圖解表示的聲信號;圖20示出了針對共振峰帶寬能夠如何標記清晰發(fā)音水平的經(jīng)驗顯示的圖解表示;圖21示出了發(fā)音發(fā)展的12個聲學參數(shù);圖22示出了非聲學參數(shù)的范例;圖23示出了開發(fā)用于檢測孤獨癥的模型使用的數(shù)據(jù)集;圖M示出了孤獨癥和正常發(fā)育兒童的聲學參數(shù)的趨勢圖;圖25示出了孤獨癥、正常發(fā)育以及語言延遲兒童的聲學參數(shù)的趨勢圖;圖沈示出了正常發(fā)育以及語言延遲兒童的聲學參數(shù)的趨勢圖;圖27示出了正常和孤獨癥兒童的非聲學參數(shù);圖觀示出了孤獨癥、正常發(fā)育以及語言延遲兒童的聲學參數(shù)的趨勢圖;圖四示出了正常發(fā)育以及語言延遲兒童的聲學參數(shù)的趨勢圖;圖30示出了確定正常發(fā)育和孤獨癥個體時使用邏輯回歸分析的結果;圖31示出了表格,示出了采用檢測孤獨癥的系統(tǒng)和方法的一個實施例的機器的精確度;圖32示出了 K-均值群的例示;圖33示出了用于確定講話時情緒的方法;圖34示出了在分析之前檢測矢量組合的檢出率之于后驗概率截止閾值的圖表; 以及圖35示出了在組合之前檢測矢量分析的檢出率之于后驗概率截止閾值的圖表。
具體實施例方式本發(fā)明的特定方面和實施例涉及用于監(jiān)測和分析語言環(huán)境、發(fā)聲和關鍵兒童發(fā)育的系統(tǒng)和方法。這里使用的關鍵兒童可以是兒童、成年人,例如具有發(fā)育問題的成年人,或對其語言發(fā)展感興趣的任何個體??梢员O(jiān)測關鍵兒童的語言環(huán)境和語言發(fā)展而無需對關鍵兒童的活動施加人為限制或需要第三方觀察者。可以分析語言環(huán)境以獨立于內容識別指向關鍵兒童或由關鍵兒童發(fā)聲的單詞或其他噪音。內容可以包括諸如單詞和講話的發(fā)聲含義。分析可以包括兒童和另一個人,例如成年人之間的響應次數(shù)(在這里稱為“交談的輪數(shù)”),以及兒童和/或另一個人所說單詞的數(shù)目,獨立于講話的內容。語言環(huán)境可以包括自然語言環(huán)境或其他環(huán)境,例如臨床或研究環(huán)境。自然語言環(huán)境能夠包括關鍵兒童在其正常日?;顒悠陂g周圍的區(qū)域,包含聲音源,聲音源可以包括關鍵兒童、其他兒童、成年人、電子設備和背景噪聲。臨床或研究環(huán)境可能包括包含預選的或自然聲音源的受控環(huán)境或位置。在本發(fā)明的一些實施例中,關鍵兒童可以佩戴一種布制物品,包括位于口袋中的記錄設備,口袋附著于或與布制物品集成。可以配置記錄設備以記錄和存儲預定量時間內與兒童的語言環(huán)境相關聯(lián)的音頻。錄音可以包括噪聲、沉默、關鍵兒童說的單詞或其他聲音、其他人說的單詞、來自諸如電視和收音機的電子設備的聲音,或來自任何源的任何聲音或單詞。記錄設備的位置優(yōu)選使其能夠記錄關鍵兒童的單詞和噪聲以及涉及關鍵兒童的談話而不會干擾關鍵兒童的正常活動。在預設量時間期間或之后,可以獨立于內容分析記錄設備上存儲的錄音以提供與關鍵兒童的語言環(huán)境或語言發(fā)展相關的特性。例如,可以分析錄音以識別片段并利用最小持續(xù)時間高斯混合模型(MD-GMM)分配片段ID或每個音頻片段的源。每個音頻片段的源可以包括關鍵兒童、成年人、另一位兒童、電子設備或能夠產(chǎn)生聲音的任何人或對象。源還可以包括與特定人或設備無關的一般源。這種一般源的范例包括噪音、沉默和交疊的聲音。在一些實施例中,利用不同類型源的模型分析每個音頻片段以識別源。模型可以包括與每個源共同關聯(lián)的音頻特性。在一些實施例中,為了檢測音頻信號的源類型,檢測沉默。任何非沉默片段仍然可以包含一些短的沉默期間,例如像“P”和“t” 的爆破輔音中涉及的暫停。這樣的短暫低能量區(qū)域可能不包含關于信號源類型的信息;于是,將從非沉默片段的似然計算去除它??梢赃M一步分析將關鍵兒童或成年人識別為源的音頻片段,例如,通過確定與關鍵兒童和/或成年人相關聯(lián)的特定特性,以提供與關鍵兒童的語言環(huán)境或語言發(fā)展相關聯(lián)的量度。在本發(fā)明的一些實施例中,關鍵兒童是年齡介于零歲和四歲之間的兒童。幼兒產(chǎn)生的聲音在若干方面中都與成年人講話不同。例如,兒童可以產(chǎn)生并不相當于單詞的有意義聲音;對于兒童講話來說,從輔音到元音的共振峰過渡或反之,比成年人講話的過渡較不顯著,并且由于兒童聲道的物理變化,兒童的語音在所關心的年齡范圍內有所變化??梢宰R別兒童和成年人語音之間的差異并用于分析兒童語音并將兒童語音與成年人語音區(qū)分開, 例如在識別特定音頻片段的源中使用。本發(fā)明的某些實施例使用的是獨立于內容分析語音的系統(tǒng)而不是使用語音識別以確定內容的系統(tǒng)。這些實施例大大減少了音頻文件的處理時間并需要比使用完整的語音識別系統(tǒng)顯著廉價的系統(tǒng)。在一些實施例中,可以使用語音識別處理,通過獨立于內容分析發(fā)聲來產(chǎn)生關鍵兒童語言環(huán)境和語言發(fā)展的量度。在一個實施例中,推薦的記錄時間為十二小時,最小時間為10小時。為了處理記錄的語音并及時提供有意義的反饋,調節(jié)本發(fā)明的某些實施例以半實時或低于半實時地處理記錄。例如,可以在不到六小時內處理二十四小時的記錄。于是,可以整夜地處理記錄,在次日早晨就獲得結果。根據(jù)感興趣的量度和/或語言環(huán)境,其他記錄時間長度可能足以產(chǎn)生與關鍵兒童的語言環(huán)境和/或語言發(fā)展相關聯(lián)的量度。在一些情況下,例如,在臨床或研究環(huán)境中,一到兩小時的記錄時間可能是足夠的。針對這種記錄時間的處理可能小于一個小時。音頻采集如上所述,可以使用記錄設備來采集、記錄和存儲與關鍵兒童的語言環(huán)境和語言發(fā)展相關聯(lián)的音頻。記錄設備可以是適于采集和存儲音頻并位于兒童語言環(huán)境中或周圍的任何類型的設備。在一些實施例中,記錄設備包括連接到存儲設備并位于關鍵兒童常常所在的一個或多個房間中的一個或多個麥克風。在其他實施例中,記錄設備位于兒童佩戴的布制物品中。圖1示出了語言環(huán)境102中佩戴布制物品104的關鍵兒童,例如兒童100,布制物品104包括口袋106??诖?06可以包括記錄設備(未示出),適于記錄來自語言環(huán)境102 的音頻。語言環(huán)境102可以是兒童100周圍的區(qū)域,包括音頻源(未示出),包括一個或多個成年人、其他兒童和/或電子設備,例如電視、收音機、玩具、背景噪聲或產(chǎn)生聲音的任何其他源。語言環(huán)境102的范例包括自然語言環(huán)境和臨床或研究語言環(huán)境。布制物品104可以是兒童100正常衣服上的馬甲、兒童100的正常衣服或關鍵兒童通常穿戴的任何布制物
P
ΡΠ O在一些實施例中,將記錄器放在關鍵兒童胸部中心或附近。不過,其他放置也是可能的??诖?06中的記錄設備可以是能夠記錄與兒童語言環(huán)境相關聯(lián)的音頻的任何設備。記錄設備的一個范例是LENA系統(tǒng)的數(shù)字記錄器。數(shù)字記錄器可以較小且重量輕, 并可以放在口袋106中??诖?06能夠以不引人注目的方式將記錄器保持在適當?shù)奈恢茫?使得記錄器不會分散關鍵兒童、與關鍵兒童交互的其他兒童和成年人的注意力。圖加和2b 示出了包括記錄器108的口袋106的一個實施例??梢詫⒖诖?06設計成將記錄器108保持在適當?shù)奈恢貌⑹孤曇舾蓴_最小化??诖?06可以包括由主體112和外罩114形成的內部區(qū)域110,外罩114經(jīng)由縫合116或另一連接機構連接到主體112。主體112可以是衣服的一部分或使用縫合或其他方式附著于布制物品104。伸展層118可以位于內部區(qū)域110 中并經(jīng)由縫合116或其他連接機構附著于主體112和外罩114。記錄器108可以位于主體 112和伸展層118之間。伸展層118可以由適于伸展的織物制成,但提供壓緊記錄器108的力,以將記錄器108保持在其位置。例如,伸展層可以由尼龍和彈力纖維的混合物制成,例如85%的尼龍、15%的彈力纖維,這有助于將記錄器保持在適當?shù)奈恢谩M庹?14可以覆蓋伸展層118,并可以包括至少一個開口,記錄器108的麥克風位于那里??梢杂锰峁┨囟ㄆ谕晫W性質的材料覆蓋開口。在一個實施例中,材料為100%的棉??诖?06也可以包括撳鈕連接器120,由此打開和閉合外罩114以安裝或移除記錄器108。在一些實施例中,作為用撳鈕連接器120的補充或替代,可以用拉鏈替換縫合116 中的至少一個,以提供對記錄器108的訪問。如果記錄器108包括多個麥克風,那么口袋106可以包括多個開口,對應于記錄器 108上麥克風的位置??诖?06的特定尺度可能隨著記錄器108的設計改變或隨著麥克風數(shù)量或類型的變化而變化。在一些實施例中,口袋106相對于關鍵兒童的嘴定位麥克風以提供特定的聲學性能并以不會導致摩擦噪音的方式固定麥克風(以及任選的記錄器108)。 可以打開記錄器108,之后記錄音頻,包括關鍵兒童、其他兒童和成年人的語音,以及兒童遇到的其他類型的聲音,包括電視、玩具、環(huán)境噪聲等。可以在記錄器108中存儲音頻。在一些實施例中,可以從口袋106周期性地拿出記錄器,并可以分析存儲的音頻。例示性錄音分析系統(tǒng)實現(xiàn)可以在多種不同系統(tǒng)上實現(xiàn)根據(jù)本發(fā)明各實施例分析來自記錄器的錄音的方法。 圖3中示出了一個這種系統(tǒng)的范例。該系統(tǒng)包括連接到基于處理器的設備200的記錄器 108,設備200包括處理器202和計算機可讀介質,例如存儲器204。可以經(jīng)由導線或以無線方式將記錄器108連接到基于處理器的設備200。在一些實施例中,經(jīng)由USB電纜將記錄器 108連接到設備200。設備200可以是任何類型的基于處理器的設備,其范例包括計算機和服務器。存儲器204可以適于存儲計算機可執(zhí)行代碼和數(shù)據(jù)。計算機可執(zhí)行代碼可以包括應用206,例如數(shù)據(jù)分析應用,其可用于觀察、產(chǎn)生和輸出數(shù)據(jù)分析。應用206可以包括音頻引擎208,如下文更詳細所述,音頻引擎可以適于執(zhí)行根據(jù)本發(fā)明各實施例的方法,以分析錄音并產(chǎn)生與之關聯(lián)的量度。在一些實施例中,音頻引擎208可以是獨立的應用,可以與應用206分開地,任選地與應用206同時執(zhí)行。存儲器204還可以包括數(shù)據(jù)存儲器210,其適于存儲由應用206或音頻引擎208產(chǎn)生的或用戶輸入的數(shù)據(jù)。在一些實施例中,數(shù)據(jù)存儲
1器210可以與設備200分開,但經(jīng)由導線或無線連接而連接到設備200。設備200可以與輸入設備212和輸出設備214通信。輸入設備212可以適于接收用戶輸入并將用戶輸入發(fā)送到設備200。輸入設備212的范例包括鍵盤、鼠標、掃描儀和網(wǎng)絡連接。用戶輸入可以包括讓處理器202執(zhí)行與應用206或音頻引擎208相關聯(lián)的各種功能的命令。輸出設備214可以適于提供來自應用206或音頻引擎208的數(shù)據(jù)或可視輸出。 在一些實施例中,輸出設備214能夠顯示圖形用戶界面(⑶I),其包括一個或多個可選擇的按鈕,它們與應用206或音頻引擎208提供的各種功能相關聯(lián)。輸出設備214的范例包括監(jiān)視器、網(wǎng)絡連接和打印機。輸入設備212可以用于設置或以其他方式配置音頻引擎208。 例如,在設置或配置期間,可以向音頻引擎208提供關鍵兒童的年齡以及與關鍵兒童的學習環(huán)境相關聯(lián)的其他信息并存儲在本地存儲器210中??梢詫⒂涗浧?08上存儲的音頻文件上載到設備200并存儲在本地存儲器210 中。在一個實施例中,以所有權格式上載音頻文件,防止從設備200回放語音或訪問語音的內容,由此促進講話人的身份保護。在其他實施例中,不經(jīng)編碼即上載音頻文件,以允許在本地存儲器210中存儲并回放文件或文件的部分。在一些實施例中,基于處理器的設備200為網(wǎng)絡服務器,組合輸入設備212和輸出設備214以形成計算機系統(tǒng),其經(jīng)由網(wǎng)絡連接向設備200發(fā)送并從設備200接收數(shù)據(jù)。輸入設備212和輸出設備214可用于遠程訪問應用206和音頻引擎208,并令其執(zhí)行根據(jù)本發(fā)明各實施例的各種功能。記錄器108可以連接到輸入設備212和輸出設備214,記錄器108 上存儲的音頻文件可以通過諸如因特網(wǎng)或內部網(wǎng)的網(wǎng)絡被上載到設備200,在設備200中處理音頻文件并向輸出設備214提供量度。在一些實施例中,可以在本地存儲器210中存儲從遠程輸入設備212和輸出設備214接收的音頻文件,并接下來訪問音頻文件,用于研究的目的,例如在兒童的學習環(huán)境上或以其他方式。為了減少記錄器108上需要的存儲器的量,可以壓縮音頻文件。在一個實施例中, 使用DVI-4 ADPCM壓縮方案。如果使用一種壓縮方案,那么在文件上載到設備200之后將其解壓到正常線性PCM音頻格式。用于錄音分析的例示性方法可以使用根據(jù)本發(fā)明各種實施例的各種方法分析錄音。圖4示出了基于來自關鍵兒童語言環(huán)境的錄音分析和提供量度的方法的一個實施例。僅僅出于例示的目的,參考圖 3所示的系統(tǒng)描述這種方法的要素。該方法的其他系統(tǒng)實現(xiàn)也是可能的。在方框302中,音頻引擎208將錄音分成一個或多個音頻片段并為來自從記錄器 108接收的錄音的音頻片段的每個標識片段ID或源。在此將這種過程稱為“分段”或“片段 ID”。音頻片段可以是特定持續(xù)時間并包括在該持續(xù)時間期間與兒童語言環(huán)境相關聯(lián)的聲學特征的錄音部分。錄音可以包括若干音頻片段,每個片段都與片段ID或源相關聯(lián)。源可以是產(chǎn)生音頻片段之內的聲音的個人或設備。例如,音頻片段可以包括關鍵兒童產(chǎn)生的聲音,將關鍵兒童標識為該音頻片段的源。源也可以包括其他兒童、成年人、電子設備、噪音、 疊加的聲音和沉默。電子設備可以包括電視、收音機、電話、玩具和提供記錄的或模擬的聲音(例如人的語音)的任何設備??梢詷俗R與每個音頻片段相關聯(lián)的源以輔助進一步對記錄進行分類和分析。本發(fā)明的一些實施例提供的一些量度包括關于特定源的數(shù)據(jù)并忽略來自其他源的數(shù)據(jù)。例如,可以將與指向關鍵兒童的實時語音關聯(lián)的音頻片段與和電子設備關聯(lián)的音頻片段區(qū)分開, 因為已經(jīng)證明實時語音比暴露于來自電子設備的語音是兒童語言發(fā)展的更好標志和更好促進。為了執(zhí)行分段以產(chǎn)生音頻片段并為每個片段識別源,可以使用與關鍵兒童、其他兒童、成年男性、成年女性、噪音、TV噪音、沉默和交疊對應的若干模型。替代實施例可以使用更多、更少或不同的模型來進行分段并標識對應的片段ID。一種這樣的技術獨立地執(zhí)行分段和片段ID。另一種技術執(zhí)行分段并同時為每個片段標識片段ID。傳統(tǒng)上,曾使用具有最小持續(xù)時間約束的隱藏馬爾可夫模型(HMM)同時進行分段并標識片段ID??梢蕴峁┤舾蒆MM模型,每個模型對應于一個源。該模型的結果可以是具有與每個源相關聯(lián)的似然分數(shù)的源序列??梢岳镁S特比算法或動態(tài)程序設計搜索最佳序列,并基于分數(shù)為每個片段標識“最好的”源。不過,對于一些片段而言,這種方式可能很復雜,部分是因為它使用了從一個片段到另一個的轉移概率,即,每個片段之間的轉移。轉移概率與每個源的持續(xù)時間建模相關。HMM持續(xù)時間模型可能具有分立的幾何分布或連續(xù)的指數(shù)分布,可能不適合有關的聲源。大部分錄音可以包括其持續(xù)時間具有高度變化的片段。盡管在本發(fā)明的一些實施例中可以使用HMM模型,但可以使用替代技術進行分段和片段ID。本發(fā)明一些實施例中用于進行分割和片段ID的替代技術是最小持續(xù)時間高斯混合模型(MD-GMM)。MD-GMM的每個模型可以包括與來自不同源的聲音相關聯(lián)的標準或特性。 MD-GMM模型的范例包括關鍵兒童模型,包括來自關鍵兒童的聲音的特性;成年人模型,包括來自成年人的聲音的特性;電子設備模型,包括來自電子設備的聲音的特性;噪音模型, 包括可歸因于噪音的聲音的特性;其他兒童模型,包括來自除關鍵兒童之外的兒童的聲音的特性;父輩模型,包括成年人聲音的復雜性水平語音標準;年齡依從性關鍵兒童模型,包括不同年齡關鍵兒童的聲音的特性;以及高聲/清晰度檢測模型,包括指向關鍵兒童的聲音的特性。一些模型包括額外的模型。例如,成年人模型可以包括成年男性模型,包括成年男性的聲音特性;以及成年女性模型,包括成年女性的聲音特性。可以使用模型,通過將每個片段中的聲音與每種模型的標準加以比較并判斷一個或多個模型是否存在預設精確度的匹配,確定每個片段中的聲音源。在本發(fā)明的一些實施例中,在將錄音轉換成幀或片段序列時開始MD-GMM技術。利用最大log似然算法,為每種源識別持續(xù)時間為2*D的片段,其中D是最小持續(xù)時間約束。 識別每個片段的最大分數(shù)。對于每個識別的片段,與最大分數(shù)相關聯(lián)的源與片段相關。音頻引擎208可以使用最大似然MD-GMM處理錄音以執(zhí)行分段和片段ID。音頻引擎208可以搜索在最小持續(xù)時間約束下所有可能的片段序列,以識別具有最大似然的片段序列。MD-GMM的一個可能優(yōu)點是,比最小持續(xù)時間兩倍(2*D)長的任何片段都可以等價地分解成若干持續(xù)時間介于最小持續(xù)時間(D)和兩倍最小持續(xù)時間(2*D)之間的片段,使得最大似然搜索過程忽略所有比2*D長的片段。這能夠減少搜索空間和處理時間。以下是使用最大似然MD-GMM的一種實施的解釋。其他實施也是可能的1.聲學特征提取-利用特征提取算法,例如MFCC(Mel頻率對數(shù)倒頻譜系數(shù) (mel-frequency cepstrum coefficient)),將音頻流轉換成特征矢量流{X” &,…,
XT I Xi ^ R11}。
2.針對片段IX1, X2,…,XsI的log似然計算
SLcs = YjlOgifc(Xi))其中fc (X1)是類另ij c中的幀X的似然
/=1 ,下文描述了最大似然MD-GMM搜索的一種流程3.搜索變量的初始化S(c,0,0) = 0,c = 1,…,C,其中c是針對所有片段類別的索引。通常,搜索變量S(c,b,η)代表針對直到幀b-1的片段序列的最大log似然,加上類別c中從幀b到幀η的片段的log似然。4. N = 1,…,T的分數(shù)幀,即所有特征幀S(c,b,n) = S(c,b,n-l)+log(fc(Xn),Vb,c,n-b < 2*D。,即,幀 η 處的當前分數(shù)可以是從幀η-1處的先前分數(shù)導出的。保留針對小于兩倍最小持續(xù)時間的片段的搜索變量。5.保留在幀η處最佳結果的記錄(類似地,將考慮低于兩倍最小持續(xù)時間的片段)S* (n) = max S (c,b,η)c, b, 2*Dc > 9n_b) > DcB氺(η) = arg max S(c, b, η)b,(c,b,2*Dc > (n_b) > DcO(n) = arg max S(c, b, n)c,(c,b,2*Dc > (n_b) > Dc6.針對在幀η開始的片段對新搜索變量進行初始化S(c,n,n) = S*(n),Vc7.重復步驟4到步驟6,直到最后的幀Τ。8.回溯以得到最大似然片段序列。最大似然片段序列的最后片段為(C* (Τ), B* (Τ), Τ),即,從幀Β*(Τ)開始,到幀T 結束的片段,類別ID為C*(T)??梢岳靡韵禄厮萘鞒太@得最佳序列中的剩余片段8. 1.回溯的初始化t = T, m = 1S (m) = C* (t),B* (t),t)8.2.重復進行回溯,直到t 0C_current = C* (t)t = B*(t)如果C* (t) = C_current,則不進行任何操作,否則,m = m+l,S(m) = (C* (t),B* (t),t)可以執(zhí)行額外的處理以進一步細化與作為源的關鍵兒童或成年人相關聯(lián)的片段的標識。如上所述,語言環(huán)境可以包括各種源,在源實際是不同的人或設備時,一開始可以將各種源識別為關鍵兒童或成年人。例如,一開始可能將來自除關鍵兒童之外的兒童的聲音識別為來自關鍵兒童的聲音??赡軐碜噪娮釉O備的聲音與來自成年人的實時語音混淆。此外,可能檢測到一些成年人聲音指向除了關鍵兒童之外的另一個人。本發(fā)明的某些實施例可以實施用于進一步處理和細化分段和片段ID的方法,以減少或消除不精確的源識別,并識別指向關鍵兒童的成年人語音。
進一步的處理可以與上述初始MD-GMM模型同時或在其之后發(fā)生。圖5示出了調節(jié)方法的一個實施例,用于通過修改與初始MD-GMM之后的MD-GMM相關聯(lián)的模型進一步處理錄音。在方框402中,音頻引擎208利用第一 MD-GMM處理錄音。例如,根據(jù)上述MD-GMM 處理錄音以執(zhí)行初始分段和片段ID。在方框404中,音頻引擎208修改MD-GMM的至少一個模型。音頻引擎208可以自動選擇MD-GMM的一個或多個模型以基于預設步驟進行修改。在一些實施例中,如果音頻引擎208檢測到特定類型的片段可能需要進一步考查,它選擇與檢測到的片段類型最相關的 MD-GMM模型進行修改(或用于修改)??梢孕薷呐cMD-GMM相關聯(lián)的任何模型??梢孕薷牡哪P头独ň哂心挲g依從性關鍵兒童模型的關鍵兒童模型;電子設備模型;可以進一步修改關鍵兒童模型和/或成年人模型的高聲/清晰度模型;以及可以進一步修改關鍵兒童模型和/或成年人模型的父輩模型。在方框406中,音頻引擎208再次使用MD-GMM的修改模型處理錄音。第二過程可能導致基于修改的模型的不同分段和/或片段ID,提供與每個片段相關聯(lián)的源的更精確識別。在方框408中,音頻引擎208判斷是否需要額外的模型修改。在一些實施例中,音頻引擎208分析新的分段和/或片段ID以判斷任何片段或片段組是否需要額外的考查。在一些實施例中,音頻引擎208訪問數(shù)據(jù)存儲器210中與語言環(huán)境相關聯(lián)的數(shù)據(jù),使用其判斷是否需要額外的模型修改,例如基于兒童當前年齡的關鍵兒童修改。如果需要額外的模型修改,該過程返回到方框404,進行額外的MD-GMM模型修改。如果不需要額外的模型修改, 該過程前進到方框410以分析片段聲音。下文描述了根據(jù)本發(fā)明各實施例修改示范性模型的某些實施例。在本發(fā)明的某些實施例中可以修改下文所述之外的其他模型。年齡依從性關鍵兒童模型(age-dependentkey child model)在本發(fā)明的一些實施例中,音頻引擎208可以與初始MD-GMM同時或在之后實施年齡依從性關鍵兒童模型,以修改MD-GMM的關鍵兒童模型,以更精確地區(qū)分識別其他兒童是源的片段和關鍵兒童是源的片段。例如,可以修改MD-GMM以在初始或后續(xù)分段和片段ID 期間實施年齡依從性關鍵」L童模型。關鍵兒童模型可能依賴于年齡,因為關鍵兒童發(fā)聲的音頻特性,包括講話和其他聲音,隨著記錄器108可能被使用的時間而顯著變化。盡管在MD-GMM之內使用兩個獨立的模型(一個用于關鍵兒童,一個用于其他兒童)可以識別關鍵兒童的語音,但使用年齡依從性關鍵兒童模型進一步幫助減少關鍵兒童語音和其他兒童語音之間的混淆。在一個實施例中,年齡依從性關鍵兒童模型為1)小于一歲,幻一歲大,幻兩歲大,以及4)三歲大。替代實施例可以使用其他年齡分組和/或可以使用不同年齡組的分組。例如,其他實施例可以使用月齡組或月齡和年齡組的組合。每個模型包括與對該年齡組的兒童共同識別的聲音相關聯(lián)的特性。在本發(fā)明的一個實施例中,在設置或配置期間經(jīng)由輸入設備212向設備200提供關鍵兒童的年齡。音頻引擎208接收關鍵兒童的年齡并基于關鍵兒童的年齡選擇一種或多種關鍵兒童模型。例如,如果關鍵兒童是一年零十個月大,音頻引擎208可以基于關鍵兒童的年齡選擇關鍵兒童模型2 ( 一歲模型)和關鍵兒童模型3 (兩歲模型)或僅選擇關鍵兒童模型2。音頻引擎208可以通過修改MD-GMM模型實施選定的關鍵兒童模型,以執(zhí)行初始或后續(xù)分段和片段ID。電子設備樽型為了更精確地確定指向關鍵兒童的成年人單詞的數(shù)目,可以這樣識別電子設備以電子方式產(chǎn)生的包括聲音的任何片段,聲音例如是單詞或語音,而不是不精確地識別為成年人產(chǎn)生的實時語音。電子設備能夠包括電視、收音機、電話、音頻系統(tǒng)、玩具或產(chǎn)生錄音或模擬人語音的任何電子設備。在本發(fā)明的一些實施例中,音頻引擎208可以修改MD-GMM中的電子設備模型,以更精確地識別來自電子設備源的片段,并將它們與來自實時成年人的片段分開,而無需確定片段的內容,且無需限制講話者的環(huán)境(例如,需要從語言環(huán)境去除或禁止電子設備)。音頻引擎208可以適于與初始MD-GMM過程同時或在之后修改并使用修改的電子設備模型。在一些實施例中,可以在執(zhí)行第一 MD-GMM過程之后實施電子設備模型,并用于調節(jié)MD-GMM,以利用針對同一錄音的MD-GMM進行額外的判斷。音頻引擎208能夠檢查利用第一MD-GMM分段的片段,以進一步識別可靠的電子片段??煽康碾娮悠慰梢允歉赡芘c電子設備源相關聯(lián)且包括特定標準的片段。例如,音頻引擎208能夠判斷一個或多個片段是否包括與來自電子設備的聲音共同關聯(lián)的標準。在一些實施例中,標準包括(1)比預定時間更長的片段或比預定閾值更響;或( 具有預設源模式的一系列片段。一個預定周期的范例是五秒鐘。一種預設源模式的范例可能包括如下內容片段1-電子設備源;片段2-除電子設備源之外的源(例如,成年人);片段3-電子設備源;片段4-除電子設備源之外的源;以及片段5-電子設備源??梢允褂每煽康碾娮釉O備片段調節(jié)MD-GMM以包括自適應電子設備模型,用于進一步處理。例如,音頻引擎208可以使用規(guī)則的K-均值算法作為初始模型并利用期望最大化(EM)算法調諧其。自適應電子設備模型中的高斯型曲線的數(shù)量可以與反饋電子設備數(shù)據(jù)的量成正比并且不超過上限。在一個實施例中,上限為128。音頻引擎208可以通過向序列的每個幀應用自適應電子設備模型再次執(zhí)行 MD-GMM,以針對與電子設備源相關聯(lián)的幀確定新的自適應電子設備log似然分數(shù)??梢詫⑿碌姆謹?shù)與為那些幀先前存儲的log似然分數(shù)進行比較。音頻引擎208可以基于比較選擇更大的log似然分數(shù)??梢允褂酶蟮膌og似然分數(shù)以確定針對那些幀的片段ID。在一些實施例中,可以利用在所有幀上移動的預設數(shù)量的相繼等長度調節(jié)窗口應用使用自適應電子設備模型的MD-GMM修改。可以將記錄信號分成具有預設長度的交疊幀。 根據(jù)本發(fā)明的一個實施例,幀長的范例為25. 6毫秒,具有10毫秒的偏移,導致15. 6毫秒的幀交疊。自適應電子設備模型可以使用利用預設數(shù)量調節(jié)窗口獲得的本地數(shù)據(jù)。在本發(fā)明的一些實施例中可以使用30分鐘的調節(jié)窗口大小。相繼等長度調節(jié)窗口的一種預設數(shù)量的范例為三個。在一些實施例中,調節(jié)窗口的移動不交疊。可以分析每個調節(jié)窗口之內的幀以提取特征的矢量,將來用于統(tǒng)計分析、建模和分類算法中。可以重復自適應電子設備模型以進一步修改MD-GMM過程。例如,可以將該過程重復三次。高聲/清晰度檢測樽型
為了選擇對識別講話者最有用的幀,本發(fā)明的一些實施例使用幀水平近/遠檢測或高聲/清晰度檢測模型??梢栽趫?zhí)行初始MD-GMM過程之后使用似然比檢驗(LRT)執(zhí)行高聲/清晰度檢測模型。在幀水平下,使用LRT識別并丟棄可能混淆識別過程的幀。對于每個幀,計算每個模型的似然性。計算最大可能模型似然性和沉默似然性之間的差異,將該差異與預定閾值進行比較?;谠摫容^,丟棄該幀或用于片段ID。例如,如果差異符合或超過預定閾值,那么使用該幀;但如果差異小于預定閾值,那么丟棄幀。在一些實施例中,根據(jù) LRT對幀加權。音頻引擎208能夠使用LRT識別指向關鍵兒童的片段。例如,音頻引擎208能夠通過確定成年人語音或與片段相關聯(lián)的聲音的高聲/清晰度來判斷成年人語音是否指向關鍵兒童或其他人。一旦執(zhí)行了分段和片段ID,就以類似于幀水平下使用的方式使用LRT 執(zhí)行片段水平的近/遠檢測。對于每個片段,計算每個模型的似然性。計算最大可能模型似然性和沉默似然性之間的差異,將該差異與預定閾值進行比較。基于比較,丟棄片段或進一步處理。父輩樽型在向兒童講話時,有時成年人使用兒童語言或“父輩”語言??赡懿痪_地將包括父輩特征的片段與作為源的兒童或關鍵兒童相關聯(lián),因為語音的特定特性可能類似于關鍵兒童或其他兒童的特性。音頻引擎208可以修改關鍵兒童模型和/或成年人模型以識別包括父輩特征的片段并將片段與成年人源相關聯(lián)。例如,可以修改模型以允許音頻引擎208 檢查片段中包括的語音的復雜性,以識別父輩特征。由于成年人語音的復雜性通常比兒童語音高得多,所以可以將包括較復雜語音的片段的源識別為成年人。如果共振峰結構形成良好,清晰發(fā)音水平良好,且發(fā)聲有充分長時間-與成年人一般提供的語音一致,語音可能是復雜的。來自兒童的語音可以包括清晰度和發(fā)育較差且發(fā)聲通常持續(xù)時間較少的共振峰結構。此外,音頻引擎208能夠分析共振峰頻率以識別包括父輩特征的片段。在成年人使用父輩特征時,片段的共振峰頻率通常不變化??梢源_定包括這種識別出的父輩特征的片段的源是成年人??梢赃M一步修改MD-GMM模型并進一步處理記錄預設的迭代次數(shù),或直到音頻引擎208判定片段ID已經(jīng)以可接受水平的置信度被判定。在完成分段和片段ID時,可以進一步分析識別的片段以提取與關鍵兒童的語言環(huán)境相關聯(lián)的特性。兒童發(fā)聲、哭泣、呆板聲音/固定信號檢測(分類)在執(zhí)行分段和片段ID期間或之后,音頻引擎208可以將關鍵兒童音頻片段分成一個或多個類別。音頻引擎208分析關鍵兒童被識別為源的每個片段并基于每個片段中的聲音確定類別。類別可以包括發(fā)聲、哭泣、呆板的聲音和固定信號聲音。發(fā)聲可以包括單詞、 短語、邊際音節(jié)(marginal syllable),包括基本輔音-元音序列、講話、音素、序列音素、音素狀的聲音、原音素、通常稱為咂舌聲的顫唇音、規(guī)范音節(jié)、重復的嘮叨、間距變化(Pitch variation)或對兒童語言發(fā)展有貢獻的任何有意義聲音,至少表示兒童口頭傳達或利用該能力發(fā)出聲音的嘗試。呆板的聲音包括與呼吸和消化相關的非口唇聲音,例如咳嗽、噴嚏和打嗝。固定信號聲音與對環(huán)境的自發(fā)反應相關,包括笑聲、呻吟、嘆息和咂嘴聲。哭泣是一種固定信號聲音,但是被獨立檢測的,因為哭泣可能是溝通的手段。音頻引擎208可以利用基于規(guī)則的分析和/或統(tǒng)計處理對關鍵兒童音頻片段分類?;谝?guī)則的分析可以包括利用一個或多個規(guī)則分析每個關鍵兒童片段。對于一些規(guī)則而言,音頻引擎208可以分析片段的能量水平或能量水平過渡?;陬A設持續(xù)時間的規(guī)則范例是包括預設持續(xù)時間上或更多時間的能量串,將其識別為哭泣或尖叫聲而非發(fā)聲,但包括小于預設持續(xù)時間的能量串的片段被分類為發(fā)聲?;谂c發(fā)聲和哭泣共同關聯(lián)的特性,一種預設持續(xù)時間的范例是三秒。圖6示出了與關鍵兒童相關聯(lián)的片段中聲音的能量水平并示出了一系列輔音(/b/)和元音(/a/)序列。使用三秒鐘的預設持續(xù)時間,能量串表示發(fā)聲,因為它們少于三秒。第二條規(guī)則可以是將片段分類成包括從輔音到元音的共振峰過渡或反之的發(fā)聲。 圖6示出了從輔音/b/到元音/a/,然后回到輔音/b/的共振峰過渡,表示規(guī)范音節(jié),從而表示發(fā)聲。可以進一步處理不包括這種過渡的片段以確定分類。第三條規(guī)則可以是,如果共振峰帶寬窄于預設帶寬,將片段分類成發(fā)聲。在一些實施例中,基于與發(fā)聲相關聯(lián)的公共帶寬,預設帶寬為1000Hz。第四條規(guī)則可以是將包括具有一串具有預設閾值以上的第一頻譜峰的能量的片段分類為哭泣。在一些實施例中,基于哭泣中共同的特性,預設閾值為1500Hz。第五條規(guī)則可以是確定頻譜傾斜(tilt)的斜率并將其與預設閾值比較。在諸如 300到3000Hz的較低頻率下,比諸如6000到8000Hz的較高頻率下,發(fā)聲常常包括更多能量。在與預設斜率閾值相比時,預計從頻譜的一部分到頻譜結束預計下降30dB,表示具有負斜率的頻譜傾斜和發(fā)聲??梢詫⑿甭瘦^為平坦的片段分類為哭泣,因為對于哭泣而言可能不存在頻譜傾斜??梢跃哂姓甭实钠畏诸悶榇舭迓曇?。第六條規(guī)則可以是將片段的熵與熵閾值進行比較??梢詫⒕哂休^低熵水平的片段分類為發(fā)聲。由于能量的隨機性,可以將具有高熵水平的片段分類為哭泣或呆板聲音。第七條規(guī)則可以是將片段間距與閾值比較??梢詫㈤g距(pitch)介于250到600Hz 之間的片段分類為發(fā)聲??梢詫㈤g距超過600Hz的片段分類為哭泣或尖叫,可以將小于 250Hz的間距分類為咆哮。第八條規(guī)則可以是確定間距輪廓(pitch contour)。可以將間距增大的片段分類為幸福的聲音??梢詫㈤g距減小的片段分類為生氣的聲音。第九條規(guī)則可以是判斷輔音和元音的存在。可以將具有輔音和元音混合的片段分類為發(fā)聲??梢詫⒕哂兴谢虼蟛糠州o音的片段分類為呆板的聲音或固定信號聲音??梢耘c其他規(guī)則獨立地或同時地實施根據(jù)本發(fā)明各實施例的規(guī)則。例如,在一些實施例中,音頻引擎208僅實施一條規(guī)則,而在其他實施例中,音頻引擎208實施兩條或更多規(guī)則。作為基于規(guī)則的分析的補充或替代,可以進行統(tǒng)計處理。統(tǒng)計處理可以包括利用2000或更多高斯型曲線處理具有MD-GMM的片段,其中利用Mel頻率對數(shù)倒頻譜系數(shù)(MFCC)和子帶頻譜質心(SSC)生成模型??梢岳萌舾删哂邢禂?shù)的濾波器庫提取MFCC。在一個實施例中,使用具有36個系數(shù)的40個濾波器庫??梢岳脼V波器庫生成SSC以捕獲共振峰。在300到7500Hz的范圍中,用于捕獲共振峰的濾波器庫數(shù)量可以是7個。其他統(tǒng)計處理可以包括使用與一種或多種以下片段特性相關聯(lián)的統(tǒng)計數(shù)值共振峰(formant);共振峰帶寬;
間距;合聲(voicing)百分比;頻譜熵;以dB為單位的最大頻譜能量;最大頻譜能量的頻率;以及頻譜傾斜??梢韵騇FCC-SCC組合增加關于片段特性的統(tǒng)計數(shù)值以提供額外的分類改善。隨著兒童年齡的變化,由于兒童聲道的成長,與每個關鍵兒童片段類別相關聯(lián)的特性可能變化。在本發(fā)明的一些實施例中,作為上述技術的補充或替代,可以使用年齡依從性模型對關鍵兒童片段進行分類。例如,可以針對每個年齡組生成發(fā)聲、哭泣和固定信號/ 呆板聲音模型。在一個實施例中,與如下組使用12種不同模型組1對應于1到2個月大, 組2對應于3到4個月大,組3對應于5到6個月大,組4對應于7到8個月大,組5對應于9到10個月大,組6對應于11到12個月大,組7對應于13到14個月大,組8對應于15 到18個月大,組9對應于19到22個月大,組10對應于23到沈個月大,組11對應于27 到30個月大,組12對應于31到48個月大。在替代實施例中,可以針對從1個月到48個月年齡的每個月生成發(fā)聲、哭泣和固定信號/呆板聲音模型。這種模型將包括144個模型, 每個類別48種模型。替代實施例可以使用不同數(shù)量的組或將不同年齡范圍與組關聯(lián)。音頻引擎208也可以識別成年人作為源的片段。與成年人源相關聯(lián)的片段可以包括表示談話的聲音或能夠提供用于表示從成年人指向關鍵兒童的單詞量或數(shù)量的估計的量度的數(shù)據(jù)。在一些實施例中,音頻引擎208還識別成年人源片段到關鍵兒童源片段的發(fā)生,以識別談話。在方框304中,音頻引擎208獨立于內容,從至少一些關鍵兒童為源的片段估計關鍵兒童片段特性。例如,可以無需確定或分析關鍵兒童片段中聲音的內容就確定特性。關鍵兒童片段特性可以包括與一種或多種關鍵兒童片段類別相關聯(lián)的任何類型的特性。特性的范例包括哭泣持續(xù)時間、尖叫和咆哮次數(shù)、規(guī)范音節(jié)的存在和個數(shù)、重復嘮叨的存在和次數(shù)、音素的存在和個數(shù)、原音素、音素狀聲音、單詞或發(fā)聲統(tǒng)計或任何可識別的發(fā)聲或聲音要素??梢酝ㄟ^分析哭泣類別中分類的片段估計哭泣長度。哭泣的長度通常隨著兒童年齡或成熟而減小,可以是兒童發(fā)育相對進展的指標??梢酝ㄟ^分析分類為發(fā)聲的片段,基于間距、頻譜強度和發(fā)聲困難估計尖叫和咆哮的次數(shù)。兒童能夠發(fā)出尖叫聲和咆哮可以表示兒童語言能力的進展,因為其指出了關鍵兒童控制間距和聲音強度的能力??梢曰诠舱穹遢喞槍^尖銳的共振峰過渡,通過分析發(fā)聲類別中的片段來估計規(guī)范音節(jié)的存在和數(shù)量,規(guī)范音節(jié)例如是輔音和元音序列??梢酝ㄟ^分析在發(fā)聲類別中分類的片段并應用與共振峰過渡、持續(xù)時間和合聲 (voicing)相關的規(guī)則估計重復嘮叨的存在和次數(shù)。兒語可以包括特定的輔音/元音組合, 包括三個濁音停止和兩個鼻音停止。在一些實施例中,也可以確定規(guī)范兒語的存在和次數(shù)。 不論重復與否,在生成的音節(jié)的15%是規(guī)范的時候,可能發(fā)生規(guī)范的兒語??梢源_定音素、 原音素、或音素狀聲音的存在、持續(xù)時間和數(shù)量。隨著關鍵兒童的語言發(fā)展,音素的頻率和持續(xù)時間增大或減小或以其他方式呈現(xiàn)出與成年人語音相關聯(lián)的模式。可以通過分析在發(fā)聲類別中分類的片段估計關鍵兒童發(fā)出的單詞或其他發(fā)聲數(shù)量。在一些實施例中,利用音素解碼器估計元音數(shù)量和輔音數(shù)量并與諸如能量水平和 MD-GMM log似然差異的其他片段參數(shù)組合??梢詫⒆钚《朔☉糜谠摻M合以估計兒童所說的單詞數(shù)量。在本發(fā)明的一個實施例中,音頻引擎208估計在發(fā)生類別中分類的每個片段中元音和輔音的數(shù)量并將其與和關鍵兒童的母語相關聯(lián)的特性進行比較,以估計關鍵兒童所講的單詞數(shù)量。例如,可以將針對母語每個單詞的輔音和元音平均數(shù)量與輔音和元音數(shù)量比較,以估計單詞數(shù)量。也可以使用其他量度/特性,包括音素、原音素和音素狀聲音。在方框306中,音頻引擎208獨立于內容估計與成年人為源的所識別片段相關聯(lián)的特性。特性的范例包括成年人所說單詞的數(shù)量、成年人講話的持續(xù)時間和若干父輩特征。 可以利用與上文結合關鍵兒童所講單詞數(shù)量所述的類似方法估計成年人所講的單詞數(shù)量。 檢測成年人單詞統(tǒng)計的方法的一個范例依據(jù)的是人注釋的單詞統(tǒng)計,使用最小二乘線性回歸進行訓練。也可以由人注釋的單詞統(tǒng)計指導或訓練模型??梢酝ㄟ^分析成年人源片段中的能量的量估計成年人語音的持續(xù)時間。語言環(huán)境度量在方框308中,音頻引擎208能夠利用關鍵兒童片段特性和/或成年人片段特性確定與語言環(huán)境相關聯(lián)的一個或多個度量。例如,音頻引擎208能夠通過分析與每個片段相關聯(lián)的特性和時間來確定若干談話輪次或“輪換”。在一些實施例中,可以將音頻引擎208 配置成自動確定一種或多種量度。在其他實施例中,音頻引擎208從輸入設備212接收命令以確定特定量度。量度可以包括基于特性的關鍵兒童語言環(huán)境的任何可量化測量。量度也可以是將該特性與針對其他與關鍵兒童具有類似屬性,例如年齡的其他人同種特性的統(tǒng)計平均值進行比較。量度的范例包括關鍵兒童每天表達的平均發(fā)聲次數(shù)、所有實測天數(shù)的平均發(fā)聲、每月的發(fā)聲次數(shù)、一天每小時的發(fā)聲次數(shù)、在選定時間期間從成年人指向兒童的單詞數(shù)量,以及談話的輪次。在一些實施例中,量度可能涉及關鍵兒童的發(fā)育年齡。與預期水平相比,作為識別兒童發(fā)育中延遲和特質的替代或補充,可以開發(fā)出量度,其可以估計這種特質和發(fā)育延遲的原因。原因的范例包括發(fā)育的醫(yī)療條件,例如孤獨癥或聽力問題。在方框310中,音頻引擎208向輸出設備114輸出至少一個度量。例如,音頻引擎 208可以響應于從輸入設備212接收的命令,向輸出設備214輸出與每天兒童所講的單詞數(shù)量相關聯(lián)的度量,在輸出設備中向用戶顯示該度量。圖7-12是示出了輸出設備214上顯示的量度范例的屏幕快照。圖7示出了圖解發(fā)聲報告,示出了可歸因于關鍵兒童的每天發(fā)聲次數(shù)。圖8示出了圖解發(fā)聲時間線,示出了一天中每小時的發(fā)聲次數(shù)。圖9示出了圖解成年人單詞報告,示出了選定月份期間指向關鍵兒童的成年人單詞數(shù)量。圖10示出了圖解單詞時間線,示出了可歸因于關鍵兒童的一天中每小時的單詞數(shù)量。圖11示出了講話權獲取報告的圖解表示,示出了每月選定天中關鍵兒童經(jīng)歷的談話輪次數(shù)量。圖12示出了選定量的時間內針對特定特性關鍵兒童的語言進展的圖解表示。艦在一個實施例中,向用戶提出一系列問題以得到關于關鍵兒童語言技能的信息。
19問題基于兒童學習講話時實現(xiàn)的公知里程碑。問題的范例包括兒童當前是否表達特定的發(fā)聲,例如兒語、單詞、短語和句子。一旦用戶以預定方式對問題做出響應,不提出任何新問題,基于對問題的響應為用戶提供講話者的發(fā)育快照。在一個實施例中,一旦輸入三個“否” 答案,表示兒童未表現(xiàn)出特定技能,系統(tǒng)停止并確定發(fā)育快照??梢灾芷谛缘刂貜吞釂?,并基于答案,在一些實施例中基于來自記錄處理的數(shù)據(jù)對快照顯影??煺盏姆独梢园▓D 12中所示的語言發(fā)展圖。在替代實施例中,通過分析記錄的語音并使用獲得的信息自動回答問題,從而自動回答一系列問題。本發(fā)明的某些實施例不需要向很多語音識別系統(tǒng)需要的那樣要求關鍵兒童或其他講話者訓練系統(tǒng)。通過將該系統(tǒng)做出的特定判斷與審查抄本做出的判斷進行比較,一開始可以為根據(jù)本發(fā)明一些實施例的記錄系統(tǒng)設定基準。為了對分段器的性能設定基準,比較1)關鍵兒童相對于非關鍵兒童以及2、成年人相對于非成年人的識別,以及與片段相關聯(lián)的講話者/源的識別精確度。盡管上文描述了處理記錄的語音以獲得量度,例如字數(shù)和談話輪次,其他類型的處理也是可能的,包括在常規(guī)語音識別系統(tǒng)中使用本發(fā)明的特定方面??梢蕴幚碛涗浀恼Z音文件以識別特定單詞或單詞序列,或者可以保存或共享語音。例如,可以保存兒童第一次說出“mama”或“dada”,就像保存兒童照片或經(jīng)由e-mail與家庭成員分享。有表現(xiàn)力的語言評估每種語言都具有獨特的一組含義上有對比性的聲音,稱為音素清單。英語有42個音素二4個輔音因素和18個元音音素。音素是一種語言中能夠傳達出含義區(qū)別的最小語音單位。如果其在最小單詞對中的存在與含義的差異相關聯(lián),則認為聲音是音素。例如,我們知道/t/和/p/是英語的音素,因為它們在相同環(huán)境中的存在導致含義變化(例如,“cat” 和“cap”具有不同含義)。遵循語言學慣例,在斜線之間表示音素,例如/r八自動評估關鍵兒童的語言發(fā)展的一個實施例使用了來自用于從成年人語音識別內容的自動語音識別(“ASR”)系統(tǒng)的音素解碼器。一個范例是來自Carnegie Mellon University提供的Sphinx ASR系統(tǒng)的音素檢測器部件。音素解碼器識別一組音素或語音, 包括輔音狀的音素,例如“t”和“r”以及元音狀的音素,例如“er”和“ey”。ASR音素是音素的近似;它們在聲學上類似于真實音素,但它們并非始終聽上去像本地講話者分類為音素那樣。在這里將這些偽音素稱為“音素”或“音素類別”,并使用引號表示。例如,“r”表示音素或音素狀的聲音。由于成年人語音和兒童發(fā)聲之間的顯著差異,來自被設計成識別成年人語音的模型未成功用于處理兒童發(fā)聲。在單詞發(fā)音和語言模型兩個方面,兒童發(fā)聲比成年人語音更加多變。兒童從非常年幼的年齡時高度非結構化的語音模式變換為更大年齡更加結構化的模式,最終變得類似于成年人的語音,尤其是在14歲左右。于是,在應用于大約6歲年齡之下的兒童發(fā)聲或語音時,被設計成識別成年人語音的ASR系統(tǒng)不能工作。即使是那些針對兒童語音設計的ASR系統(tǒng)也未很好地工作。例外限于提示兒童發(fā)出特定預定單詞的系統(tǒng)。兒童語音的變化還使得難以開發(fā)針對ASR系統(tǒng)的模型以處理兒童發(fā)聲。大部分 ASR系統(tǒng)識別音素和單詞。非常年幼的兒童(小于12個月年齡)不會發(fā)出真正的音素。他們發(fā)出原音素,它們可能在聲學上看起來,聽起來像音素,但不夠規(guī)則,不足以成為音素,且可能不傳達含義。兒童的音素頻率分布與成年人的音素頻率分布非常不同。
例如,非常年幼的兒童不能發(fā)出音素/r/,因此不會出現(xiàn)很多“r”音素。不過,隨著時間推移,出現(xiàn)越來越多的“r”音素(至少對于說英語的兒童來說),直到兒童實際發(fā)出 Λ/音素為止。非常年幼的兒童可能不會將含義歸于原音素或音素。大約在他們開始講話時(通常在12個月年齡左右),兒童開始發(fā)出真正的音素,但即使那時,也可能僅有非常了解兒童的人能夠識別音素。不過,即使在兒童能夠發(fā)出真實音素之前,也可以使用兒童的發(fā)聲評估兒童的語言發(fā)展。盡管成年人ASR模型對兒童語音效果不好,但本發(fā)明的一個實施例使用針對成年人語音設計的ASR系統(tǒng)的音素解碼器,因為目的是獨立于兒童語音的內容評估兒童的語言發(fā)展。盡管兒童不發(fā)出真實音素,但迫使音素解碼器挑選與兒童發(fā)出的每個音素匹配最好的音素類別。通過選擇適當?shù)囊羲仡悇e加以考慮,可以使用成年人ASR音素解碼器評估兒童的發(fā)聲或語音。如對于“r”音素所示,在音素頻率和實足年齡之間有某種相關性。相關性可以是正的或負的。對于不同年齡范圍,該關系有所變化并且對于一些音素而言是非線性的。圖 13示出了選定音素和實足年齡之間的相關性。如圖13所示,在年齡和“r”音素之間存在正相關,在年齡和“b”音素之間存在負相關。如圖14所示,在所關心的年齡范圍內,相關性可以是非線性的。例如,對于0到6個月,7到13個月以及14到20個月的年齡,“1”音素的相關性是正的,但之后對于21到30個月和31+個月的年齡,變?yōu)樨摰?。為了評估兒童的語言發(fā)展,一個實施例使用了在兒童語言環(huán)境中獲取的一個或多個記錄。處理每個記錄以識別記錄中與具有高置信度的兒童對應的片段。典型地,在兒童發(fā)出最少3000個音素的持續(xù)時間中該記錄大約為12小時。如上文更詳細所述,可以使用多個模型識別關鍵兒童片段,包括,但不限于基于年齡的關鍵兒童模型、其他兒童的模型、 成年男性模型、成年女性模型、電子設備模型、沉默模型和高聲/清晰度模型。使用這些模型允許在兒童的語言環(huán)境中獲取記錄,而不需要在受控或臨床環(huán)境中獲取記錄。音素解碼器處理高置信度關鍵兒童片段(即,視為充分清晰的關鍵兒童片段),并針對每個音素類別做出頻率統(tǒng)計。針對特定音素的頻率統(tǒng)計代表在高置信度關鍵兒童片段中檢測到特定音素的次數(shù)。針對特定音素類別η的音素參數(shù)PCn代表針對該音素類別的頻率統(tǒng)計除以所有音素類別中音素的總數(shù)。一個具體實施例使用了 46個音素類別,其中39 個音素類別對應于語音(參見圖13),7個音素類別對應于非語音或噪音(填補類別),例如對應于呼吸、咳嗽、笑聲、咂嘴聲、“uh”、“uhum”、“um”或沉默的聲音。其他實施例可以使用除了 Sphinx解碼器之外的音素解碼器。由于不同的音素解碼器可以識別不同的音素類別和/或不同的非音素類別,所以使用的特定音素和非音素類別可以與圖12和13所示的不同。為了計算針對關鍵兒童的有表現(xiàn)力的語言索引ζ分數(shù),ELZ (關鍵兒童),在以下方程中使用音素參數(shù)PCn:ELZ (關鍵兒童)=bl (AGE) *PCl+b2 (AGE) *PC2+...+b46 (AGE) *PC46(1)有表現(xiàn)力的語言索引包括與關鍵兒童年齡(AGE)下每個音素類別η相關聯(lián)的權重 bn(age)0例如,bl(12)對應于與12個月年齡的音素類別1相關聯(lián)的權重,b2 (18)對應于與18個月年齡的音素類別2相關聯(lián)的權重。有表現(xiàn)力的語言索引方程中的權重bn(age) 對于不同年齡可能不同,因此對于從2個月到48個月每個月齡有不同方程。在一個實施例中,針對12個月大兒童的方程使用圖15中“12個月”列中所示的權重。下面討論針對權重bn(age)的值的推導。為了增強可判讀性并符合語音語言病理學家(“SLP”)執(zhí)行的語言評估中通用的格式,例如PLS-4 (幼兒園語言尺度-4)和REEL-3 (易于接受的有表現(xiàn)力突發(fā)語言_3),可以對有表現(xiàn)力的語言索引進行標準化。這個步驟是任選的。方程( 將分布從平均值=0和標準偏差=1修改為平均值=100和標準偏差=15,以對有表現(xiàn)力的語言索引進行標準化并生成有表現(xiàn)力的語言標準分數(shù)ELSS。ELSS = 100+15*ELZ(Key Child) (2)SLP執(zhí)行的語言評估工具通常從所觀測行為的次數(shù)估計發(fā)育年齡。利用所關心年齡范圍中大的兒童樣本,將發(fā)育年齡定義為獲得給定原始次數(shù)的中值年齡。在該系統(tǒng)的一個實施例中,音素概率分布不產(chǎn)生所觀測行為的原始次數(shù),以替代方式產(chǎn)生發(fā)育年齡作為對兒童實足年齡的向上或向下調節(jié)。在這一實施例中,調節(jié)的大小既與有表現(xiàn)力的語言標準分數(shù)(ELSS)成比例又與針對兒童的實足年齡觀測的ELSS的變化成比例。應用邊界條件以防止無意義的發(fā)育年齡估計。邊界條件將與平均值之間標準偏差大于2. 33的任何估計(大致等于第1和第99百分位)設置為第1或第99百分位。下文在方程(3)中示出了基于年齡的平滑化變化估計。下文論述方程(3)中所示的除年齡之外的值的確定。SDAGE = 0. 25+0. 02*Age (3)為了確定兒童有表現(xiàn)力的語言發(fā)展年齡ELDA,如下文在方程中所示調節(jié)兒童的實足年齡。下文討論方程中所示恒定值的確定。ELDA = Chronological Age+Constant*SDAGE*ELSS (4)在一個針對12個月大的實施例中,利用實足年齡12和常數(shù)7.81,如下所示計算有表現(xiàn)力的語言發(fā)展年齡ELDA = 12+7. 81*SDAGE*ELSS (5)系統(tǒng)能夠輸出兒童的EL標準分數(shù),ELSS和兒童的EL發(fā)展年齡,ELDA?;蛘撸到y(tǒng)能夠將兒童的實足年齡與計算的發(fā)育年齡比較,并基于該比較,在兩者之間的差異超過閾值時輸出標志或其他指示符。例如,如果ELSS比正常值低超過1.5倍標準偏差,那么可以輸出消息,指出可以延遲語言發(fā)展或表示需要進一步評估。通過將EL標準分數(shù)與EL發(fā)育年齡與從SLP執(zhí)行的評估導出的結果比較來測試EL 模型的有效性。EL發(fā)育年齡與實足年齡(r = 0.95)和來自在r = 0. 92處SLP執(zhí)行的評估的年齡估計很好地相關。EL標準分數(shù)是潛在有表現(xiàn)力的語言延遲的精確預測值。使用 77. 5的閾值分數(shù)(低于平均值1. 5倍標準偏差),EL標準分數(shù)在一項研究中基于SLP評估正確識別了下降到閾值以下的68%的兒童。被識別為可能有延遲的百分之三十二的兒童具有低于平均值的EL分數(shù),但不滿足77. 5閾值分數(shù)?;谄銭L分數(shù),僅有2%的非延遲兒童被識別為具有可能的延遲。增大EL評估精確度的一種方式是對從三個或更多記錄期間導出的EL分數(shù)求平均值。一個實施例對針對同一關鍵兒童在不同天做出的三項記錄導出的三個EL分數(shù)求平均值。由于模型是基于月齡的,所以應當在時間上相當密集地獲取記錄。對三個或更多EL分數(shù)求平均值增加了 EL分數(shù)和SLP評估分數(shù)之間的相關性,Wr = O. 74增加到r = 0. 82。將EL發(fā)育年齡與來自父母問卷的結果組合還提高了 EL評估的精確度。LENA發(fā)育快照問卷是問卷的一個范例,使用針對父母的一系列問題獲得關于兒童語言發(fā)展重要里程碑的信息,例如識別出兒童何時開始呀呀學語,使用特定詞匯或造句。LENA發(fā)育快照基于問題的答案計算發(fā)育年齡。應當在記錄期間發(fā)生時或非常接近這個時間完成問卷。通過對問卷計算的發(fā)育年齡和EL評估計算的發(fā)育年齡求平均值,計算的估計值和SLP估計值之間的相關性增加到大約r = 0. 82。如果對三個或更多EL分數(shù)和問卷結果求平均值,那么相關性更大,大約為r = 0.85。除了簡單求平均值之外的方法將可能產(chǎn)生更高的相關性。如果問卷包括涉及易于接受的語言發(fā)展以及有表現(xiàn)力的語言發(fā)展的問題,那么相關性可以更大。盡管以上范例檢測單個音素并使用單個音素的頻率分布來估計標準分數(shù)和發(fā)育年齡,但也可能以類似方式使用針對特定音素序列的頻率分布。例如,可以在對于針對不同年齡的不同單音素和音素序列包括不同權重的方程中使用單音素和音素序列的頻率分布。在一個實施例中,可以使用雙音素序列代替單音素,在另一實施例中,可以使用三音素序列。在又一實施例中,可以使用音素和雙音素或音素、雙音素和三音素的組合。本發(fā)明不限于用于音素、雙音素或三音素。雙音素(或使用多于一個音素)允許結合序列信息。在語言中,音素傾向于按照邏輯序列發(fā)生;因此,通過不僅分析音素而且分析音素序列獲得了額外的分辨率。雙音素被定義為解碼序列中的每對相鄰音素。例如,解碼音素序列“P A T”包含音素對“P-A”和 “A-T”。從以上范例可知,在這種情況下三音素序列是“P A T”。注意,包括單音素,作為與講話開始或停止標志配對的單音素。然后使用雙音素頻率作為上文針對單音素情形所述的同樣類型線性回歸模型的輸入。引入雙音素或三音素還帶來了挑戰(zhàn)性的技術問題,即,雙音素的維度(雙音素的總數(shù))顯著大于單音素(η的平方之于η),三音素的維度(η次冪之于幻比雙音素和單音素大更多。給定46個音素類別加上講話開始和結束標志,可能的音素對的總數(shù)為48*48 = 2304。 包括線性回歸的這種高維輸入可能是有問題的;預測值的絕對數(shù)量可能容易導致訓練的回歸模型過度擬合到訓練數(shù)據(jù),使得與新樣本的一般化較差。利用充分量的數(shù)據(jù),這個問題可能停止存在。大尺度使得模型尺度更大,需要多得多的數(shù)據(jù)來訓練。主成分分析(PCA)用于將大尺度減小到小尺度。對于雙音素,當前數(shù)據(jù)表明維度從2000減小到大約50給出了最佳結果。為了解決這個問題,在一個替代實施例中,使用主成分分析(PCA)將雙音素空間的尺度從超過2300減小到100以下。PCA是用于數(shù)據(jù)壓縮、尺度減小等的數(shù)據(jù)驅動的統(tǒng)計分析工具。具有大部分數(shù)據(jù)“擴展”或“分布”的數(shù)據(jù)的低得多尺度的子空間是要搜索的主分量子空間。對于一維子空間,可以將數(shù)據(jù)“擴展”量化為方差。大量的試驗表明,將雙音素 PCA空間減小到50尺度提供了最佳結果。將超過2300個雙音素組合減少到50個主分量, 以用作預測基于SLP的分數(shù)的多重線性回歸中的預測器,完全如上文在多音素情形中所述那樣。與單音素(r = 0. 72,ρ < . 01)相比,估計的雙音素方式改善了與基于SLP的有表現(xiàn)力語言合成分數(shù)的相關性(r = 0. 75,p < . 01),兩者都低于留下一個兒童交叉確認的方法。以下是對PCA的簡述。對于一組數(shù)據(jù)IxiIi = 1,…,η},可以通過以下方式構造 PCA最佳線性變換1.計算協(xié)方差矩陣S=E (Xi-m) (Xi-m)τ,其中m是數(shù)據(jù)集的平均值。2.計算經(jīng)分類的本征值和關聯(lián)的本征矢量
[入”入2,...,XnLEv1,…,νη],其中 Svi = λ iVi 且 λ i 彡 λ i+1。3.為了減小線性變換之后的尺度,可以選擇前m個分量以構造線性變換,其中m
< rio4.新特征會是 y= [V1, ···,、]、。在實際試驗中,在去除平均值和不去除平均值的情況下嘗試第一步。對于當前的數(shù)據(jù),它們之間沒有基本差異。另一替代實施例使用音素持續(xù)時間而不是音素頻率。在這一實施例中,音素解碼器確定每種音素類別的時間長度或持續(xù)時間。針對特定音素類別η的音素持續(xù)時間參數(shù) PCn表示針對該音素類別的持續(xù)時間除以所有音素類別中音素的總持續(xù)時間。為了計算針對關鍵兒童的有表現(xiàn)力的語言索引ζ分數(shù),在類似于方程(1)但使用不同權重的方程中使用音素持續(xù)時間參數(shù)。可以通過類似于用于計算頻率分布權重的方式計算權重。估計的講話平均長度語音和語言專業(yè)人員傳統(tǒng)上使用“講話平均長度”(MLU)作為兒童語言復雜性的指標。這種測量一開始由Brown定型,假設由于兒童講話長度隨著年齡而增加,能夠通過了解兒童講話或語句的平均長度來導出兒童有表現(xiàn)力的語言發(fā)展的合理估計。參見 Brown,R. ,A First Language :The Early Stages,Cambridge,Mass. ,Harvard University Press (1973) 0 Brown等人將講話長度與發(fā)育里程碑關聯(lián)起來(例如,生產(chǎn)性地使用抑揚頓挫的形態(tài)),報告了與MLU相關聯(lián)的語言發(fā)展的相容階段。講話長度被認為是直到4到5個詞素的MLU的兒童語言復雜性的可靠指標。為了基于音素頻率分布輔助開發(fā)MLU等效度量,錄制設備為55個15到48個月年齡的兒童計算MLU (大致每個月齡兩個」L童)。錄制設備遵循Mi 1 Ier和Chapman中描述的錄制和詞素統(tǒng)計準則,其又基于Brown的原始規(guī)則。參見Miller,J. F. Chapman,R. S.,‘‘ The Relation between Age and Mean Length of Utterance in Morphemes" , Journal of Speech and Hearing Research,Vol. 24,pp. 154-161 (1981)。他們在每個文件中識別 50 個關鍵兒童的講話并統(tǒng)計每次講話時的詞素數(shù)目。通過將每個錄制文件中的詞素總數(shù)除以50 計算MLU。除了有表現(xiàn)力的語言標準分數(shù)(ELSQ和發(fā)育年齡(ELDA)之外,系統(tǒng)還生成估計的講話平均長度(EMLU)。在一個實施例中,類似于有表現(xiàn)力的語言估計ELZ的估計,通過從音素頻率或音素持續(xù)時間分布直接預測人導出的MLU值可以產(chǎn)生EMLU。在另一實施例中, 可以利用發(fā)育年齡,基于簡單線性回歸產(chǎn)生EMLU,以預測人導出的MLU值。例如,EMLU = 0. 297+0. 067*ELDA (6)。方程倌的推導為了輔助開發(fā)這里所述的用于分析兒童語音的各種模型,收集了在其語言環(huán)境中從2到48個月齡的336個兒童的超過18000小時的記錄。錄制數(shù)百小時的這些記錄,SLP 執(zhí)行超過1900次標準兒童評估,包括PLS-4和/或REEL-3評估。大多數(shù)記錄對應于表現(xiàn)出正常語言發(fā)展的兒童。這種數(shù)據(jù)用于確定方程(1)、0)-(5)和(6)中的值。例如,將針對每個兒童的觀測和評估一起求平均值并轉換成標準ζ分數(shù),以產(chǎn)生針對特定年齡的每個兒童的有表現(xiàn)力的語言指標值。連同多重線性回歸一起,使用從 Sphinx音素解碼器輸出的音素類別信息以確定用于每個年齡的有表現(xiàn)力語言索引的適當權重。使用迭代過程確定用于方程(1)的一組權重(bl (AGE)到b46(AGE))。在第一步中,將針對特定月齡兒童的數(shù)據(jù)分組到一起,以確定針對每個年齡組的一組權重。例如,來自6個月大的數(shù)據(jù)用于生成針對6個月大的有表現(xiàn)力語言索引的一組權重。在下一步中, 將類似年齡兒童的數(shù)據(jù)分組到一起以確定針對每個年齡組的不同組權重。例如,來自5、6 和7個月大的數(shù)據(jù)用于生成針對6個月大的有表現(xiàn)力語言索引的不同組權重。在后續(xù)步驟中,包括針對其他年齡范圍的兒童的數(shù)據(jù)。例如,來自4、5、6、7和8個月大的數(shù)據(jù)用于生成針對6個月大等的有表現(xiàn)力語言索引的不同組權重。針對所有年齡月份并跨越越來越寬的年齡范圍重復這個過程。使用動態(tài)程序設計方法選擇最佳年齡范圍和針對每個月齡組的權重。例如,在一個實施例中,在12個月年齡時,在圖15中的表格中示出了從6個月年齡到 18個月年齡的年齡帶和權重。圖15還示出了針對另一范例的權重,針對6個月年齡的關鍵兒童,年齡帶從3個月到9個月,以及針對18個月的關鍵兒童的權重,年齡帶從11個月到25個月。盡管這些范例中的年齡范圍是對稱的,但年齡范圍不必是對稱的,對于所關心年齡范圍的末尾,通常不是對稱的。經(jīng)由留下一個交叉確認(LOOCV)的方法測試計算的權重。對每個兒童執(zhí)行一次以上迭代過程(N = 336),在每次迭代中,從訓練數(shù)據(jù)集丟棄目標兒童。然后使用所得的模型為目標兒童預測分數(shù)。于是,使用來自每位參加者的數(shù)據(jù)生成N-I輪中的模型參數(shù)。為了證實該模型,考慮所有模型間求平均的預測均方誤差。最終的年齡模型包括適當年齡范圍中的所有兒童。示范性EL系統(tǒng)圖16示出了針對示范性系統(tǒng)的方框圖,該系統(tǒng)計算EL分數(shù)和如上所述的發(fā)育年齡。圖示的系統(tǒng)包括數(shù)字記錄器1602,用于記錄與兒童的語言環(huán)境相關聯(lián)的音頻。由特征提取部件1604以及分段和片段ID部件1606處理記錄的音頻以提取高置信度的關鍵兒童片段。用于識別來自成年人語音的內容的基于模型的音素解碼器1608處理高置信度關鍵兒童片段1607。音素解碼器向EL部件1610提供關于特定音素的頻率分布的信息。如上所述,EL部件使用該信息計算EL分數(shù),估計發(fā)育年齡和/或估計講話的平均長度。報告和顯示部件1612酌情輸出EL信息。盡管圖16示出了利用處理在兒童語言環(huán)境中獲取的記錄的系統(tǒng)(例如LENA系統(tǒng))處理記錄,EL評估能夠利用以任何方式產(chǎn)生的關鍵兒童片段工作,包括在臨床或研究環(huán)境中獲取的記錄或使用自動和人工處理的組合產(chǎn)生的片段。孤獨癥檢測在一個實施例中,用于檢測孤獨癥的系統(tǒng)和方法使用上述自動語言處理系統(tǒng)和方法。處理在自然語言環(huán)境中捕獲的記錄并生成那些已知主題的語言發(fā)展模型。使用足夠大的樣本,可以確定語言發(fā)展中的趨勢。這被稱為規(guī)范性趨勢。通常,如果有希望研究的特定發(fā)育失調,那么研究失調個體和正常個體的語言并發(fā)展出趨勢。這里所述的方法是使用語言分析如何可以檢測特定發(fā)育失調、孤獨癥的范例。不過,可以將該方法和系統(tǒng)應用于多種失調和疾病,例如孤獨癥和阿爾茨海默病??梢酝ㄟ^本實施例檢測可通過分析語言檢測的所有疾病和失調。在孤獨癥的情況下,在孤獨癥頻譜失調(ASD)中描述了個體語音中的畸變。在大量研究中已經(jīng)表明,孤獨癥確實與聲音質量、韻律和其他語音特征的異常相關。參見 R. Paul, A. Augustyn, A.Klin, F. R. Volkmar, Journal of Autism and Developmental Disorders 35, 205(2005) ;W. Pronovost, M. P. ffakstein, D. J. ffakstein, Exceptional Children 33,19(1966);以及 S. J. Sheinkopf,P. Mundy, D. K. Oiler, M. Steffens, Journal of Autism and Developmental Disorders 30,345 (2000)。不過,這些語音特征不容易檢測或識別;因此,孤獨癥的定義(DSM-IV-TR,APA,2000)不包括這樣的特征包括什么的描述。在這一實施例中,可以基于正性標記,基于先前不能執(zhí)行的語音特性,肯定地檢測孤獨癥。通常,利用“負性標記”,例如協(xié)同注意的欠缺,檢測孤獨癥。例如,參見 S.Baron-Cohen, J.J Allen, C.Gillberg, The British Journal of Psychiatry 161, 839(1992) ;K. A. Loveland, S. H. Landry, Journal of Autism and Developmental Disorders 16,335 (1986);以及 P. Mundy, C. Kasari, Μ· Sigman, Infant Behavior and Development 15,377 (1992)。可以將確定兒童孤獨癥使用的方法描述為使用透明參數(shù)的兒童語言分析 (CSATP)。大致上,透明參數(shù)是可以從聲音信號提取并在語言或所發(fā)出聲音的含義方面獨立于聲音信號實際內容的那些參數(shù)。下文進一步論述透明參數(shù)。CSATP包括若干步驟分段; V0C,CRY和VEGFIX分類和發(fā)聲次數(shù);聲學分析;透明參數(shù)的提?。灰约皵?shù)據(jù)集分類。利用這種方法和正常語言發(fā)育、延遲語言發(fā)育以及孤獨癥兒童的充分大小樣本,可以針對這些組發(fā)展出語言趨勢。參見以上相對于音頻引擎208的V0C、CRY和VEGFIX分類的論述,分類可以將關鍵兒童音頻片段分成一個或多個類別。圖17和18分別示出了檢測孤獨癥的方法以及生成趨勢以用于檢測孤獨癥的方法中的方法的流程圖。如上所述參考圖4和方框304執(zhí)行方框1810和1835的分段。在方框 1810中,對針對個體關鍵兒童的數(shù)據(jù)進行分段,在方框1835中,對正常、延遲和孤獨癥兒童的多條記錄進行分段。在分段期間,針對特定一條記錄識別講話者。在已經(jīng)識別了講話者之后,進一步分析來自相關講話者的語言,在這種情況下,講話者為關鍵兒童。圖19在頂部圖中示出了分段過程,并進一步將關鍵兒童片段分解成V0C、CRY和VEGFIX片段。然后分別在方框1815和1840中將在方框1810和1835中被識別為屬于關鍵兒童的片段分解為發(fā)聲(VOC)、哭泣(CRY)以及呆板聲音和固定信號聲音(VEGFIX)。根據(jù)兒童的年齡,發(fā)聲包括各種語音。在0到4個月之間,發(fā)聲僅包括元音狀的聲音。在5個月左右, 兒童開始發(fā)出由非常基本的輔音-元音序列構成的邊際音節(jié)。一些兒童做出被稱為咂舌聲的唇顫音,也被視為發(fā)聲。在七個月左右,兒童的發(fā)聲可以包括規(guī)范音節(jié)和重復的嘮叨,這是構造很好的輔音和元音序列。在這個階段,兒童可以利用間距的變化,產(chǎn)生高間距的尖叫聲和低間距且發(fā)聲困難的咆哮。在一歲左右,兒童開始說孤立的單詞,但一直兒語到18個月左右。到兩歲,兒童將具有相當大的口語詞匯。簡而言之發(fā)聲包括對兒童語言發(fā)展有貢獻的所有有含義聲音。呆板聲音包括所有與呼吸和消化相關的非口頭聲音,例如,咳嗽、嚏噴和打嗝。固定信號是與對環(huán)境的自發(fā)反應相關的聲音,例如笑聲、呻吟、嘆息和咂嘴。集中檢測呆板聲音和固定信號聲音。消除這些類型的聲音,因為它們不提供關于語言完善度的信息。應當指出,哭泣也是一種固定信號。與其他固定信號不同的是,哭泣是非常頻繁的 (取決于年齡)并傳達各種情緒感覺和身體需要。盡管在這種具體方法未執(zhí)行,可以使用根據(jù)所述技術的哭泣分析來檢測失調或疾病,因為在兒童的生命中哭泣也是另一種溝通手段。利用Mel頻率對數(shù)倒頻譜系數(shù)(MFCC)和子帶頻譜質心(SSC)通過統(tǒng)計處理執(zhí)行兒童語音分類??梢允褂闷渌y(tǒng)計處理技術。使用MFCC是用于自動語音識別的標準現(xiàn)有技術方法。雖然不如MFCC普及,另一種可用類型的特征是SSC。在常規(guī)MFCC特征中,對給定子帶中的功率譜進行平滑化,僅保留功率譜的加權幅度,而在SSC中,提取每個子帶的質心頻率。SSC能夠針對語音段跟蹤每個子帶中的峰值頻率,而對于非語音段,其保持在子帶的中心。MFCC自身是比SSC更好的特征,但MFCC和SSC的組合針對成年人語音的自動語音識別展示出更好的性能。為各種應用使用SSC,下面列出了它們中的一些成年人語音識別講話者驗證或識別沖擊音的音色識別盡管MFCC對于提取一般頻譜特征是好的,SSC在檢測共振峰時將是有用的。由于在兒童發(fā)聲而非在呆板聲音/固定信號聲音中發(fā)現(xiàn)了共振峰軌跡(盡管濁音哭泣可能具有共振峰軌跡),但可以在兒童語音處理中跟蹤共振峰輪廓線。對于兒童語音處理,使用具有2000個高斯型曲線的固定邊界高斯混合模型 (FB-GMM)分類器,即,針對在先前階段中識別的每個能量島執(zhí)行統(tǒng)計分類。利用兩組特征生成模型MFCC和SSC。利用具有36個系數(shù)的40個濾波器庫提取MFCC。利用7個濾波器庫生成SSC以僅捕獲共振峰。由于這項研究中使用的音頻具有16KHz的采樣頻率,所以使用 300到7500Hz范圍中的濾波器庫。因此,MFCC-SSC特征具有(36+7 = )43的尺度,利用δ 信息,其變?yōu)?43*2 = )86。在年齡依從性建模的語境中,目的是對三種語音發(fā)聲、哭泣和固定信號/呆板聲音進行分類。不過,兒童的這三個類別隨著年齡變化而極大變化。因此,針對0到48個月的整個年齡范圍的一個模型將不滿足我們的目的。若干研究表明,從出生到四歲大,兒童的聲道可以從大約5cm生長到12cm。其他研究表明,共振峰頻率高度取決于聲道的長度。通
過“聲道的開放管道模型”,由巧⑶-O給出Fi,第i個共振峰頻率和1,聲道長度之間
的關系,其中c是空氣中的聲速(在體溫和適當壓力下,口內部的濕空氣)。這表明聲道長度越大,共振峰頻率越小。因此,由于嬰兒聲道的生長迅速,共振峰頻率變化,因此,總體語音特性幾乎在年齡的每個月都變化。因此,針對從0到48個月兒童的每個月齡生成三個模型 _/voc/、/cry/ 禾口 /vegfix/。利用年齡依從性發(fā)聲、哭泣和固定信號/呆板聲音模型對兒童年齡的先驗知識進行分類。在方框1820和1845中,對VOC島執(zhí)行聲學分析(與極低能量周期劃界的極高能量周期對應的記錄)。然后利用聲學特性進一步分析兒童片段中的島。從VOC島提取以下升學特征1.持續(xù)時間分析假設構成兒童語音的每個能量脈沖必須要有特定持續(xù)時間,以被視為有含義的語音(發(fā)聲)。例如,如果連續(xù)能量段超過3秒鐘,假設語音不是發(fā)聲,但很可能是某種哭泣或尖叫聲(基于其他標準)。圖6示出了發(fā)聲的范例,其是一系列輔音元音序列(hi-ba-ba-bab-bab)。僅有元音是高能量部分,而輔音具有低能量。測量高能量部分的持續(xù)時間以確認發(fā)聲。2.規(guī)范音節(jié)識別在CV、VC、CVC或VCV序列中可能觀察到共振峰躍遷(主要針對 Fl和F2)。圖6是一系列的CV和CVC序列,示出了從/b/到以下元音/a/,然后到/b/的共振峰躍遷。這些類型的共振峰運動表示作為發(fā)聲部分的規(guī)范音節(jié)。3.清晰度分析共振峰帶寬標志著發(fā)音的清楚程度。帶寬越窄,語音越清楚。預計哭泣或其他固定信號(例如咂嘴)或呆板聲音將比真實的發(fā)聲具有更寬的帶寬。圖20示出了對Fl和F2分組如何能夠標記清晰度水平的經(jīng)驗顯示?;诿總€清晰度水平的“優(yōu)良度”向每個清晰度組分配分數(shù)。4.情緒強度分析觀察到高強度語音(例如以全肺的空氣哭泣)具有超過1500Hz 的第一頻譜峰值。正常發(fā)聲在較低頻率(從300到3000Hz)將比較高頻率(6000到8000Hz) 具有更高能量。于是,預計從頻譜的第一部分到頻譜末尾將有30dB的下降,這被稱為具有負斜率的頻譜傾斜。對于哭泣,可能不存在頻譜傾斜,其中頻譜相當平坦。具有正斜率的頻譜傾斜(在較低頻率下能量低,在較高頻率下能量高)表示非口頭聲音(例如呼吸、咂嘴聲)。5.發(fā)聲困難分析假設幾乎由元音構成的正常發(fā)聲使得頻譜呈周期性。另一方面,發(fā)聲困難的聲音具有相當隨機的頻譜,在頻譜中有子諧波。可以通過頻譜的熵測量頻譜的隨機性。熵越高,頻譜越隨機,發(fā)聲困難越大。6.間距分析使用間距來檢測尖叫聲和咆哮。兒童的正常間距介于250到600Hz 的范圍中。如果間距超過600Hz (可以高達3000Hz),將發(fā)聲標記為尖叫聲。類似地,咆哮是間距低于250Hz的發(fā)聲。7.語調分析語調在確定兒童情緒時具有重要的作用。尖叫聲和咆哮是僅在他們游戲和愉快時才有的發(fā)聲。那些高或低間距且發(fā)聲困難的聲音的生氣版本是哭泣。間距輪廓線有助于判斷語音是生氣還是愉快。通常,越來越大的間距是愉快聲音的標志,越來越小的間距是憂愁的聲音。8.合聲分析假設發(fā)聲幾乎由元音構成(合聲的語音),交織有輔音(清音化的語音)。如果整個語音段是清音化的,那么假設它是某種呆板聲音/固定信號聲音(例如,咳嗽、清嗓子等)。對于這種分析,利用線性預測性(LP)分析檢測共振峰和共振峰帶寬,基于自相關計算間距。最后,通過應用平滑濾波器-中值濾波器提取共振峰和間距輪廓線。利用IOM 點的FFT執(zhí)行其他頻譜分析。在圖17和18的方框1825和1850中,提取透明參數(shù)。使用這些參數(shù)判斷受檢者是正常的還是孤獨癥。圖21示出了與確定孤獨癥相關的聲學參數(shù)。圖21和22示出了可以從記錄提取的其他聲學和非聲學參數(shù)。在本實施例中,將圖21和22所示的聲學參數(shù)用于檢測孤獨癥?;蛘?,圖22所示的非聲學參數(shù)可用于檢測孤獨癥。將這些聲學和非聲學參數(shù)統(tǒng)稱為透明參數(shù)。通過使用本實施例的方法,已經(jīng)表明在正常、延遲和孤獨癥兒童中觀察到的透明參數(shù)之間有差異。通常,聲學參數(shù)與關鍵兒童生成的那些發(fā)聲有關,非聲學參數(shù)是涉及交互的那些參數(shù),尤其是關鍵兒童和成年人,以及兒童經(jīng)歷的環(huán)境之間的那些交互的參數(shù)。圖22中示出了九個非聲學參數(shù)。以秒為單位的成年人發(fā)聲長度是指記錄上成年人發(fā)聲的長度。成年人發(fā)生次數(shù)是指成年人發(fā)出的發(fā)聲數(shù)目。兒童發(fā)起的會話次數(shù)是指兒童做出發(fā)聲并且成年人答復的次數(shù)。談話輪數(shù)是指兒童回答成年人發(fā)聲的次數(shù)。兒童發(fā)起的談話中的談話輪數(shù)是指何時兒童發(fā)起談話并然后對成年人發(fā)生做出響應。談話輪次中以秒為單位的兒童發(fā)聲是指在談話輪次中兒童發(fā)生持續(xù)的時間長度。談話輪次中的兒童發(fā)聲次數(shù)是指兒童在談話輪次中做出的發(fā)聲次數(shù)(可能表示回答的復雜性)。與成年人的談話中的兒童發(fā)聲長度是在與成年人的談話中兒童的平均發(fā)聲長度。與成年人談話中的兒童發(fā)聲次數(shù)是在所述與成年人的談話中兒童做出的發(fā)聲次數(shù)。圖21中所示的十二個聲學參數(shù)都被在理論上(基于來自聲音發(fā)展中30年研究的模型)和統(tǒng)計上(如主分量分析所述,PCA)分入與用于語音的基礎設施相關的四組。將十二個參數(shù)的每個分類為正或負。為了針對個體兒童和記錄間發(fā)聲(流暢性)比率的差異以及記錄長度的差異進行調節(jié),針對每個參數(shù),獲取標記為正的發(fā)聲數(shù)目與講話次數(shù)的比例。這樣產(chǎn)生了每個記錄一組12個數(shù)字(每個數(shù)字針對一個參數(shù))。使用這個12維矢量預測聲音的發(fā)展并在分析中將記錄分類為屬于典型地發(fā)育或孤僻兒童。如圖23所示,使用兒童年齡在2-48個月之間跨度的大數(shù)據(jù)集。在同一集合中有 328個兒童的沈82條記錄表現(xiàn)出正常發(fā)育。有30位兒童的300條記錄表現(xiàn)出語言發(fā)展中的延遲。有34為被診斷為孤獨癥的兒童的225條記錄。從這個數(shù)據(jù)集,生成模型和趨勢線。在圖18的方框1855中,基于被收集的要用作模型的記錄生成趨勢。如下文將要解釋的,基于透明參數(shù)的分析揭示出預測的聲音發(fā)展分數(shù)。圖M-四示出了針對預測的聲音發(fā)展分數(shù)的趨勢線和數(shù)據(jù)點。圖M示出了孤獨癥和正常發(fā)育兒童的聲學參數(shù)的趨勢圖。 灰色點表示正常發(fā)育兒童的聲音發(fā)育分數(shù)。灰色線是正常發(fā)育兒童的趨勢線。星號表示孤獨癥兒童的聲音發(fā)育分數(shù)。菱形表示孤獨癥兒童的平均(基于單個兒童的多條記錄)聲音發(fā)育分數(shù)。黑色趨勢線針對孤獨癥兒童。圖25示出了孤獨癥、正常發(fā)育以及語言延遲兒童的聲學參數(shù)的趨勢圖?;疑潜硎菊Z言延遲兒童的平均(基于單個兒童的多條記錄)聲音發(fā)育分數(shù)。黑色菱形表示孤獨癥兒童的平均(基于單個兒童的多條記錄)聲音發(fā)育分數(shù)。 灰色趨勢線針對語言延遲兒童。黑色趨勢線針對孤獨癥兒童。虛線趨勢線針對正常發(fā)育兒童。圖沈示出了正常發(fā)育以及語言延遲兒童的聲學參數(shù)的趨勢圖。灰色點表示正常發(fā)育兒童的聲音發(fā)育分數(shù)。星號表示語言延遲兒童的聲音發(fā)育分數(shù)。黑色星表示語言延遲兒童的平均(基于單個兒童的多條記錄)聲音發(fā)育分數(shù)。黑色趨勢線針對語言延遲兒童?;疑厔菥€針對正常發(fā)育兒童。圖27示出了正常發(fā)育和孤獨癖兒童的非聲學參數(shù)。灰色點表示正常發(fā)育兒童的聲音發(fā)育分數(shù)。灰色線是正常發(fā)育兒童的趨勢線。星號表示孤獨癥兒童的聲音發(fā)育分數(shù)。 菱形表示孤獨癥兒童的平均(基于單個兒童的多條記錄)聲音發(fā)育分數(shù)。黑色趨勢線針對孤獨癥兒童。圖觀示出了孤獨癥、正常發(fā)育以及語言延遲兒童的聲學參數(shù)的趨勢圖?;疑潜硎菊Z言延遲兒童的平均(基于單個兒童的多條記錄)聲音發(fā)育分數(shù)。黑色菱形表示孤獨癥兒童的平均(基于單個兒童的多條記錄)聲音發(fā)育分數(shù)。灰色趨勢線針對語言延遲兒童。黑色趨勢線針對孤獨癥兒童。虛線趨勢線針對正常發(fā)育兒童。圖四示出了正常發(fā)育以及語言延遲兒童的聲學參數(shù)的趨勢圖?;疑c表示正常發(fā)育兒童的聲音發(fā)育分數(shù)。星號表示語言延遲兒童的聲音發(fā)育分數(shù)。黑色星表示語言延遲兒童的平均(基于單個兒童的多條記錄)聲音發(fā)育分數(shù)。黑色趨勢線針對語言延遲兒童。灰色趨勢線針對正常發(fā)育兒童。 如圖M-四所示,可以相對于兒童的月齡投射采用針對群體研究的聲學或非聲學參數(shù)獲得的預測聲音發(fā)育分數(shù)。預測的聲音發(fā)育分數(shù)的生成根據(jù)的是透明參數(shù)(包括聲學或非聲學的)的分析。 例如,對于聲學參數(shù)而言,可以進行多重線性回歸(MLR)分析以獲得發(fā)育和組區(qū)別兩者的了解。在使用聲學參數(shù)的一項試驗(圖21中所示)中,針對典型發(fā)育樣本相對于年齡在每條記錄內對語音相關聲音島(SVI,先前稱為VOC島)與語音相關兒童講話(SCU)的12個聲學參數(shù)比進行回歸,產(chǎn)生相對于發(fā)聲的聲學組織的發(fā)育的規(guī)范模型。在開發(fā)出模型之后,使用其系數(shù)計算針對孤獨癥和語言延遲的記錄的發(fā)育分數(shù)。對于典型發(fā)育的樣本和語言延遲的樣本,而不是孤獨癥樣本,發(fā)現(xiàn)了年齡間發(fā)育分數(shù)的生長,孤獨癥樣本的發(fā)育分數(shù)總體上也顯著低于典型發(fā)育樣本的分數(shù)。圖24- 示出了分析結果。在圖17的方框1830中,將與相關關鍵兒童相關的數(shù)據(jù)集與已知主題的趨勢線比較,以便判斷個體是孤獨癥、延遲還是正常。如圖30所示,使用邏輯回歸分析將兒童的最佳分類基于12個聲學參數(shù)模型化為孤獨癥或非孤獨癥。對于正常發(fā)育的兒童,將很高百分比的正常兒童識別為正常。在圖31中,示出了若干表格,示出了確定孤獨癥似然度的各種方法的精確度。使用邏輯回歸和相等的差錯率(EER),該方法獲得高度成功,同時僅輸出少數(shù)假陽性。例如,在使用.98的概率的情況下,該系統(tǒng)和方法確定那些主題的93%被視為正常的,在確定一些正常個體為孤獨癥時僅具有小的差錯率。同時,在他們真正是孤獨癥時,僅有12%的個體被確定為正常的,88%的孤獨癥個體被正確識別為孤獨癥。表格的底部行示出了替代線性判別分析,并示出了類似結果。盡管針對檢測孤獨癥時的應用描述了以上系統(tǒng)和方法,但也可以將其用于與講話相關的若干不同疾病和失調。通過捕獲關于群體中趨勢的信息,處理信息以確定趨勢并將個體與那些趨勢比較,可以診斷疾病和失調。通常,該模型/趨勢生成根據(jù)圖18所述的相同原理工作。通過在方框1835中對聲音信號分段以揭示要研究的受檢者發(fā)出的那些聲音, 然后進一步將受檢者的聲音細分成至少是發(fā)聲的那些聲音以及方框1840中沒有的那些聲音,可以精確定位要研究的聲音信號。然后通過方框1845和1850中透明參數(shù)的聲學分析和發(fā)展,可以揭示聲音信號的特征。從這些特征,與被研究個體的疾病或失調的流行比較, 可以在方框1855中生成趨勢或模型,可將其用于比較新的主題,以便判斷他們是否患有疾病或失調。根據(jù)圖17以類似方式處理新主題并最終與在方框1830中確定的趨勢比較。此外,盡管以上描述集中在發(fā)聲數(shù)據(jù)上,由于自然語言環(huán)境中兒童記錄的數(shù)據(jù)庫對于非常年幼(小于一歲)的兒童會生長,關于兒童哭泣的數(shù)據(jù)可以揭示出能夠檢測孤獨癥的趨勢。在替代實施例中,單獨使用上述關于兒童語言發(fā)展的音素分析或上述音素分析結合透明特征分析可以檢測孤獨癥(或其他疾病)。利用音素頻率或PCA(主成分分析)尺度減小的雙音素分析,可以通過上述系統(tǒng)和方法的實施例預測人的SLP評估分數(shù)??梢詫⒂糜贏VA的基于音素的特征用于孤獨癥檢測,系統(tǒng)的其余部分不變,包括LDA(線性判別分析)、邏輯回歸等。將基于音素的特征分析加到聲學透明特征分析可以相對于孤獨癥檢測提供額外的分辨率。此外,盡管大部分分析集中在發(fā)聲上,因為自然語言環(huán)境中的兒童記錄的數(shù)據(jù)庫對于非常小(小于一歲)的兒童會生長,但關于兒童哭泣的數(shù)據(jù)可能揭示趨勢?;趨鹚氐墓陋毎Y檢測在替代實施例的范例中,使用基于音素的特征檢測孤獨癥。還包括了結合用于分析單個兒童語言的多個記錄的替代方法。該方法包括結合后驗概率空間中針對兒童的多個記錄,與在輸入特征空間中合并多個記錄相反。在本范例中這些方法特定地針對孤獨癥;不過,可以將它們用于根據(jù)這里所述的任何方法檢測其他失調并分析語音。在本范例中,基于音素的特征比上述透明特征產(chǎn)生了更好的結果。對于區(qū)分孤獨癥與語言延遲,這尤其真實?;居袃煞N類型“透明特征”(參見以上論述)和分析孤獨癥時使用的基于音素的特征,可以在分析可通過分析語音檢測的個體的任何失調或特征時應用這些特征。另一種可能的分析可以包括透明和基于音素的特征的組合。因此“ft-12”代表“透明特征”,“ft” 表示透明特征,12表示透明特征的數(shù)目(如先前實施例中所述);“biph-50”表示基于雙音素的特征,其具有通過PCA (主成分分析)的50個尺度?!敖M合”分析表示將“ft-12”和 “biph-50” 放在一起。所有三種特征,ft-12、biph-50和組合特征都可以是“年齡歸一化的”,即,基于針對集合-N中每個月齡組的特征的平均值和標準偏差,以去除平均值并利用標準偏差縮放 new—feature = (old—feature-mean)/stcL結合來自單個兒童的多條記錄的方法可以有所變化;在本范例中,考慮到使用的數(shù)據(jù),判定使用后驗概率是最有效的。先前,將來自不同記錄的年齡歸一化特征一起求平均值,以形成針對兒童的單個特征矢量?;蛘?,如在本范例中那樣,可以使用每個個體記錄及其特征矢量來獲得后驗概率??梢栽诤篁灨怕士臻g中進行針對兒童的多條記錄的結合??梢詫碜远鄺l記錄的后驗概率一起求平均,以獲得針對兒童的單個平均后驗概率。平均值可以是“幾何的”或“算術的”。A.使用的數(shù)據(jù)本范例中使用的數(shù)據(jù)與上文所述和圖23所示的數(shù)據(jù)相同。這種數(shù)據(jù)包括三組兒童1)典型發(fā)育的或正常兒童(由下面表1中的“N”或“η”表示);2)語言延遲的兒童(由下面表1中的“D”或“d”表示);以及3)孤獨癥兒童(由下面表1中的“A”或“a”表示)。 在集合-N中有3 個兒童和沈78條記錄,在集合-D中有30個兒童和290條記錄,在集合-A中有34個兒童和225條記錄。所有記錄都是一天時間(比12小時長)。數(shù)據(jù)的匯總是集合-A 孤獨癥兒童;34個兒童;225條記錄集合-D 延遲的兒童;30個兒童;290條記錄集合-N 典型兒童;3 個兒童J678條記錄三項基本任務基于集合-N、D、A的每對以查看它們每對的分類1)從延遲分類出孤獨癥;2)從正常分類出延遲;以及3)從正常分類出孤獨癥。對于孤獨癥檢測,從正常集合以及延遲集合檢測孤獨癥是實際的重點。即使對于孤獨癥之于非孤獨癥(延遲+典型),也可以相對于從延遲分離出孤獨癥以及從典型集合分離出孤獨癥的細節(jié)實現(xiàn)額外的分辨率。 以下是六種研究情況的摘要(在表1中反映)a-d 從集合-D到集合_A,利用LOOCV在集合_A、D上訓練和測試;d-n 從集合-N檢測集合-D,利用LOOCV在集合-D、N上訓練和測試;
a-n 從集合-N檢測集合-A,利用LOOCV在集合-K、N上訓練和測試; a-dn 從集合-D和N檢測集合_A,利用LOOCV在集合_A、D、N上訓練和測試;a-dn_a-d 訓練與“a-dn”相同,不過僅僅檢查“a-d”的性能;a-dn_a-n 訓練與“a-dn”相同,不過僅僅檢查“a_n”的性能。B.性能度量在本范例中,利用L00CV(留下一個交叉確認)測試系統(tǒng)性能??梢允褂肔OOCV確認除孤獨癥之外的其他失調或分類的檢測,例如在本公開中其他地方論述的很多失調和分類。作為LOOCV確認的一部分,將主題分成兩類類別-C (對被確認的兒童分類)和其他,可以將其稱為非-C類別。具體而言,無論兒童是否與一個特征矢量相關或兒童是否與幾個特征矢量相關,每次都遺漏模型的一個兒童,一個特征矢量是來自多條記錄的某種組合,幾個特征矢量來自針對該兒童的每條對應記錄。在遺漏兒童時,在利用其余數(shù)據(jù)訓練模型期間遺漏所有其關聯(lián)特征矢量。然后將該模型應用于該兒童,以獲得是類別c的后驗概率,給定特征矢量作為觀測。該過程通過所有兒童循環(huán)。在結束時,每個兒童將具有其作為類別c的后驗概率。可以基于所有兒童的后驗概率繪制ROC曲線(接收機操作特性曲線,這是針對測試的不同可能割點,真陽性率與假陽性率比的比較圖)。同時可以計算等差錯率。具體而言,繪制ROC以及計算等差錯率的流程如下1. Array_p =按遞增順序分類的唯一性后驗概率2. Thre sho ld_array = [array_p(l. · n-1)+array_p (2. · η)]/2,即,相鄰唯一'性后驗概率之間的中點3. Final_threshold_array =
,即,增力口 0 禾口 1 作為閾值4.對于從0到1的每個閾值,如下操作 利用具體閾值,可以做出檢測決定如果任何兒童的后驗概率高于閾值,將其檢測為類別c ;否則,將該兒童檢測為類別非c 針對這個閾值的檢測差錯率和誤報警率為檢測誤差率=類別c的兒童被誤檢測為非c的數(shù)量/類別c兒童的數(shù)量誤報警率=類別非c的兒童被誤檢測為c的數(shù)量/類別非c兒童的數(shù)量5.可以通過連接在步驟4中獲得的每個(比率,閾值)點繪制檢測率(detectioru rate = l-detection_error_rate)或 detection_error_rate 相對于后驗概率閾值的曲線。類似地,可以通過連接在步驟4中獲得的每個點繪制非c檢測率(=l-false_ alarm_rate)或誤報警率相對于后驗概率閾值的曲線。6.等差錯率點是步驟5中提到的兩條曲線的交點。交點的計算是很輕松的,因為兩條曲線是單調增加或減小的。等差錯率被用作比較所用不同方法和不同特征的性能度量。圖34示出了對于LDA方法基線中“a-d”情形的ROC。圖35示出了 biph_50特征的“a-d”情形的ROC以及幾何后驗概率平均值,以組合關鍵兒童的多條記錄。C.分析技術在本范例中,將特征矢量變換成后驗概率;不過,在孤獨癥檢測的語境中解釋,可以將這種技術用于語音的其他分析,以確定個體的特性或失調。使用兩種建模方法執(zhí)行轉換邏輯回歸和LDA (線性判別分析)。邏輯回歸使用以下函數(shù)將特征矢量轉換成后驗概率posterior_probability = 1/(1+exp(A*feature_vector+b))其中A是線性模型矢量,*是內積,b是偏置參數(shù)。A和b都可以使用 Newton-Raphson優(yōu)化算法利用極大似然法估計。LDA自身不能直接提供后驗概率。LDA的目的是找到線性變換,從而在輸出空間中優(yōu)化在線性變換或區(qū)分的輸出空間中優(yōu)化的Fisher-Ratio。一旦確定了最佳LDA線性變換,就可以在高斯(正常)分布的假設下估計每個類別的數(shù)據(jù)分布。利用提供的每個類別的先驗概率,可以計算后驗概率P (c I χ) = P (c) *Ρ (χ I c) /P (χ),P (χ) = sum P (c) *Ρ (χ | c),其中P (c I χ)是給定觀測χ下是類別c的后驗概率;P (c)是類別c的先驗概率;以及P(X|c)是類別c的數(shù)據(jù)分布。 可以在高斯分布的假設下獲得數(shù)據(jù)分布P (x I c)。最大似然解是樣本平均值和樣本方差。如上所述,提供了針對“a-d”、“d-n”和“a-n”情況下的等差錯率。不過,并非人工調節(jié)截止閾值(這可能不精確和相容),而是通過自動算法獲得等差錯率,其更加精確且工作更加相容。此外,增加針對“a-dn”、“a-dn_a-d”和“a-dn_a-n”情形的性能。新結果在表 1中。從基線系統(tǒng)的結果,能夠看到LDA工作的相容性比邏輯回歸更好。目前描述的范例的試驗包括A.上文提到的(并在表1的檢測情況列中反映的)六種檢測情況B.上述三種特征(ft-12,biph-50和組合)C.處在其原始值或年齡歸一化值下的三種特征D.兒童水平性能,利用舊方式通過對年齡歸一化特征一起求平均值組合兒童的多條記錄E.兒童水平性能,利用新方法對兒童的多條記錄的后驗概率求平均值。平均值包括“幾何的”和“算術的”。D.記錄水平性能試驗基于上述遺漏一個的方法,S卩,在其模型的訓練階段期間遺漏一個兒童的所有相關聯(lián)記錄,然后將模型用于遺漏的記錄以獲得針對該兒童的后驗概率。從表1顯然看出,在具有可用數(shù)據(jù)的本范例語境中,可以觀察到以下情況1.由于集合_D(30)和集合-A(34)在樣本中受限,所以一個樣本大約為1/30 = 3%。因此,一個數(shù)據(jù)點的背部(位置)可能具有等差錯率大約3%的差異影響。當查看表格1時,應當記住這種情況。2.基本如上所述,相對于根據(jù)透明特征確定孤獨癥執(zhí)行“ft-12”。3.單一記錄性能比兒童水平更差。換言之,可以使用針對兒童的多條記錄改進兒童水平的性能。4.針對兒童多條記錄的后驗概率的幾何平均值通常好于算術平均值。
5. Biph-50顯著好于ft_12,尤其是對于延遲相對于孤獨癥。Biph_50優(yōu)于ft_12 的地方是在所有情況下都相容。6. Ft-12和biph_50的組合稍好于biph_50 (對于d_a情形沒到那種程度,主要針對n-d和n-a情況)??雌饋砑?N具有大量樣本和更寬的年齡范圍,尤其是年輕年齡 2-15,ft-12對年齡較不敏感,而biph-50對僅存在于集合-N中的2_15或2_10年齡更敏感。在年齡歸一化之后,ft-12和biph-50的組合相對于biph-50的優(yōu)點最小。年齡歸一化顯得有助于針對“d-n”和“a-n”情況而非針對“a_d”情況的biph-50特征,其沒有低于 10個月的小孩。直觀地,集合-N的非常年輕年齡組可能在數(shù)據(jù)中具有某種不規(guī)則,導致針對情況“a-n,,和“ d-n,,的區(qū)分困難。7.組合兒童多條記錄的后部的新方法比為兒童預測后部的求均值特征(包括 ft-12、biph-50及其組合)的舊方法更好。對于“a_d”情況,兒童水平性能比記錄水平性能更差。對于“a-dn_a-d”情況,兒童水平性能比記錄水平性能稍好。這支持如下事實訓練數(shù)據(jù)的量對于一般化很重要。8. LDA的相容性高于邏輯回歸。當然,相信這種分析對于更多數(shù)據(jù)仍然成立,不過有可能將不成立,且針對任何新組的數(shù)據(jù)將比較分析技術。表1等差錯率(%)比較
權利要求
1.一種用于檢測自然語言環(huán)境中關鍵兒童的孤獨癥的系統(tǒng),所述系統(tǒng)包括 麥克風,配置成捕獲關鍵兒童發(fā)聲以產(chǎn)生多個音頻信號;錄音機,配置成存儲所述多個音頻信號;利用軟件編程控制以用于以下專門目的的計算機處理所述麥克風和錄音機組合捕獲的記錄,所述計算機被編程控制以執(zhí)行包括如下步驟的方法(a)使用所述利用軟件編程控制以用于所述專門目的的計算機將所述麥克風和錄音機組合捕獲的音頻信號分割成多個記錄片段;(b)將對應于所述關鍵兒童發(fā)聲的所述多個記錄片段中的每個記錄片段分類成關鍵兒童記錄;(c)提取所述關鍵兒童記錄的基于語音的特征;(d)將所述關鍵兒童記錄的基于語音的特征與已知的針對兒童的基于語音的特征進行比較;以及(e)基于所述關鍵兒童記錄的基于語音的特征與已知的針對兒童的基于語音的特征的比較確定孤獨癥的可能性;以及顯示器,配置成顯示所確定的孤獨癥的可能性。
2.根據(jù)權利要求1所述的系統(tǒng),其中所述基于語音的特征為基于音素的特征。
3.根據(jù)權利要求2所述的系統(tǒng),其中所述基于音素的特征包括雙音素類別。
4.根據(jù)權利要求2所述的系統(tǒng),其中所述基于音素的特征包括由多于兩個音素構成的音素類別。
5.根據(jù)權利要求1所述的系統(tǒng),其中所述基于語音的特征為聲學參數(shù)。
6.根據(jù)權利要求5所述的系統(tǒng),其中所述聲學參數(shù)包括規(guī)范音節(jié),所述聲學參數(shù)被分成四個類別,包括節(jié)奏/音節(jié)類別、低頻譜傾斜和高間距控制類別、寬共振峰帶寬和低間距控制類別、以及講話中島的持續(xù)時間類別。
7.由權利要求1的系統(tǒng)中的計算機執(zhí)行的方法,其中將所述關鍵兒童記錄的基于語音的特征與已知的針對兒童的基于語音的特征的比較包括邏輯回歸分析。
8.由權利要求1的系統(tǒng)中的計算機執(zhí)行的方法,其中將所述關鍵兒童記錄的基于語音的特征與已知的針對兒童的基于語音的特征的比較包括線性判別分析。
9.由權利要求1的系統(tǒng)中的計算機執(zhí)行的方法,還包括(f)提取所述關鍵兒童記錄的聲學參數(shù);(g)將所述關鍵兒童記錄的聲學參數(shù)與已知的針對兒童的聲學參數(shù)進行比較;并且其中確定孤獨癥的可能性也基于所述關鍵兒童記錄的聲學參數(shù)與已知的針對兒童的聲學參數(shù)的比較。
10.一種利用麥克風、錄音機和計算機檢測自然語言環(huán)境中關鍵兒童的孤獨癥的方法, 所述計算機利用軟件編程控制以用于以下專門目的處理由所述麥克風和錄音機組合捕獲的記錄,所述計算機被編程控制以執(zhí)行包括如下步驟的方法(a)使用所述利用軟件編程控制以用于所述專門目的的計算機將所述麥克風和錄音機組合捕獲的音頻信號分割成多個記錄片段;(b)將對應于關鍵兒童發(fā)聲的所述多個記錄片段中的每個記錄片段分類成關鍵兒童記錄;(C)提取所述關鍵兒童記錄的基于語音的特征;(d)將所述關鍵兒童記錄的基于語音的特征與已知的針對兒童的基于語音的特征比較;以及(e)基于所述關鍵兒童記錄的基于語音的特征與已知的針對兒童的基于語音的特征的比較確定孤獨癥的可能性;以及(f)在人可感知的輸出設備上顯示孤獨癥的可能性。
11.根據(jù)權利要求10所述的方法,其中所述基于語音的特征為基于音素的特征。
12.根據(jù)權利要求10所述的方法,其中所述基于語音的特征為聲學參數(shù)。
13.根據(jù)權利要求11所述的方法,還包括(g)提取所述關鍵兒童記錄的聲學參數(shù);(h)將所述關鍵兒童記錄的聲學參數(shù)與已知的針對兒童的聲學參數(shù)進行比較;并且其中基于所述關鍵兒童記錄的基于語音的特征與已知的針對兒童的基于語音的特征的比較而確定孤獨癥的可能性也是基于所述關鍵兒童記錄的聲學參數(shù)與已知的針對兒童的聲學參數(shù)的比較。
14.根據(jù)權利要求10所述的方法,其中將所述關鍵兒童記錄的基于語音的特征與已知的針對兒童的基于語音的特征比較包括邏輯回歸分析。
15.根據(jù)權利要求10所述的方法,其中將所述關鍵兒童記錄的基于語音的特征與已知的針對兒童的基于語音的特征比較包括線性判別分析。
全文摘要
在一個實施例中,一種利用麥克風、錄音機和計算機檢測自然語言環(huán)境中關鍵兒童的孤獨癥的方法包括如下步驟,利用軟件編程控制用于專門目的的計算機,所述專門目的是處理由所述麥克風和錄音機組合捕獲的記錄利用為了專門目的而編程控制的計算機將麥克風和錄音機組合捕獲的音頻信號分割成多個記錄片段。該方法還包括判斷多個記錄片段的哪個對應于關鍵兒童。該方法還包括將多個記錄片段中確定為對應于關鍵兒童的那個分類為關鍵兒童記錄。此外,該方法包括提取所述關鍵兒童記錄的基于音素的特征;將所述關鍵兒童記錄的基于音素的特征與已知的針對兒童的基于音素的特征比較;以及基于所述比較確定孤獨癥的可能性。
文檔編號G06F17/27GK102498485SQ201080013318
公開日2012年6月13日 申請日期2010年1月22日 優(yōu)先權日2009年1月23日
發(fā)明者D·D·許, T·D·保羅 申請人:利納基金會