本發(fā)明涉及多語種文本信息處理領域,具體涉及一種多語種混語文本處理方法及系統(tǒng)。
背景技術(shù):
隨著計算機和互聯(lián)網(wǎng)的普及,及國際化的需要,越來越多的文本采用多種語言的形式表達,經(jīng)常會出現(xiàn)一個文本中同時包含多個語種的字符,即混語文本。由于不同語種字符的發(fā)音及韻律各不相同,從而給使用統(tǒng)一方法處理所述混語文本帶來困難,比如語音合成、語音識別等都需要對不同語種的字符統(tǒng)一處理。
現(xiàn)有的多語種混語文本處理方法一般是主語種使用主語種對應的音素集合表示主語種文本的發(fā)音情況,次語種通過使用次語種對應的音素集合表示次語種文本的發(fā)音情況,然后分別對主語種和次語種進行字音轉(zhuǎn)換,得到主語種語音符號序列和次語種語音符號序列;并且對于主語種包含的次語種音素,直接使用主語種音素表示,對于主語種不包含的次語種音素,映射成相近的主語種音素,得到統(tǒng)一的語音符號序列。
上述方法是將主語種和次語種的語音結(jié)構(gòu)作為不同語音體系進行獨立處理的,當不同語種的語音結(jié)構(gòu)差別較大時,容易造成主語種缺失的次語種音素發(fā)音上的缺失。
技術(shù)實現(xiàn)要素:
本發(fā)明實施例提供一種多語種混語文本處理方法及系統(tǒng),以解決現(xiàn)有技術(shù)中當多語種混語文本對應語音結(jié)構(gòu)差別較大時,容易造成主語種缺失的次語種音素發(fā)音上的缺失的問題。
為此,本發(fā)明實施例提供如下技術(shù)方案:
一種多語種混語文本處理方法,包括:
根據(jù)發(fā)音原理確定用于描述混語文本發(fā)音情況的超音素集合,所述超音素集合包括:元音音素集合和輔音音素集合;
收集包含主語種和次語種的混語文本;
從所述混語文本中提取語法單元;
根據(jù)所述語法單元及所述超音素集合構(gòu)建混語文本的通用詞典,所述通用詞典中包含主語種和次語種中的語法單元及所述語法單元的發(fā)音信息;
根據(jù)所述通用詞典對待處理混語文本進行字音轉(zhuǎn)換,得到對應所述混語文本的語音符號序列。
優(yōu)選的,所述超音素集合根據(jù)以下任意一個或多個原則確定:
將具有明顯發(fā)音差異的音素加入超音素集合中;
不同語種間發(fā)音特征相似的音素使用相同的符號表示;
超音素集合中的音素能夠覆蓋設定數(shù)量語種的發(fā)音情況。
優(yōu)選的,所述確定元音音素集合包括:
根據(jù)各語種元音音素發(fā)音時的舌位高度及舌尖位置確定元音音素集合。
優(yōu)選的,所述確定輔音音素集合包括:
根據(jù)各語種輔音音素發(fā)音時的發(fā)音部位及發(fā)音方法確定輔音音素集合。
優(yōu)選的,所述根據(jù)所述語法單元及所述超音素集合構(gòu)建混語文本的通用詞典包括:
根據(jù)所述語法單元的字符組合劃分與語法單元發(fā)音具有相關(guān)性的語法單元片段;
根據(jù)所述語法單元片段的發(fā)音覆蓋情況選擇需要加入混語文本的通用詞典的語法單元;
采用所述超音素集合描述所述語法單元的發(fā)音,得到混語文本的通用詞典。
優(yōu)選的,所述根據(jù)所述語法單元片段的發(fā)音覆蓋情況選擇需要加入混語文本的通用詞典的語法單元包括:
根據(jù)所述語法單元片段的發(fā)音覆蓋情況,采用機器學習的方法選擇需要加入混語文本的通用詞典的語法單元。
一種多語種混語文本處理系統(tǒng),包括:
超音素集合確定模塊,用于根據(jù)發(fā)音原理確定用于描述混語文本發(fā)音情況的超音素集合,所述超音素集合包括:元音音素集合和輔音音素集合;
混語文本收集模塊,用于收集包含主語種和次語種的混語文本;
語法單元提取模塊,用于從所述混語文本中提取語法單元;
通用詞典構(gòu)建模塊,用于根據(jù)所述語法單元及所述超音素集合構(gòu)建混語文本的通用詞典,所述通用詞典中包含主語種和次語種中的語法單元及所述語法單元的發(fā)音信息;
字音轉(zhuǎn)換模塊,用于根據(jù)所述通用詞典對待處理混語文本進行字音轉(zhuǎn)換,得到對應所述混語文本的語音符號序列。
優(yōu)選的,所述超音素集合確定模塊根據(jù)以下任意一個或多個原則確定超音素集合:
將具有明顯發(fā)音差異的音素加入超音素集合中;
不同語種間發(fā)音特征相似的音素使用相同的符號表示;
超音素集合中的音素能夠覆蓋設定數(shù)量語種的發(fā)音情況。
優(yōu)選的,所述超音素集合確定模塊包括:元音音素集合確定單元及輔音因素集合確定單元;
所述元音音素集合確定單元用于根據(jù)各語種元音音素發(fā)音時的舌位高度及舌尖位置確定元音音素集合;
所述輔音音素集合確定單元用于根據(jù)各語種輔音音素發(fā)音時的發(fā)音部位及發(fā)音方法確定輔音音素集合。
優(yōu)選的,所述通用詞典構(gòu)建模塊包括:
劃分單元,用于根據(jù)所述語法單元的字符組合劃分與語法單元發(fā)音具有相關(guān)性的語法單元片段;
選擇單元,用于根據(jù)所述語法單元片段的發(fā)音覆蓋情況選擇需要加入混語文本的通用詞典的語法單元;
構(gòu)建單元,用于采用所述超音素集合描述所述語法單元的發(fā)音,得到混語文本的通用詞典。
優(yōu)選的,所述選擇單元,具體用于根據(jù)所述語法單元片段的發(fā)音覆蓋情況, 采用機器學習的方法選擇需要加入混語文本的通用詞典的語法單元。
本發(fā)明實施例提供的多語種混語文本處理方法及系統(tǒng),首先根據(jù)發(fā)音原理確定用于描述混語文本發(fā)音情況的超音素集合,該超音素集合包括元音音素集合和輔音音素集合,然后根據(jù)收集的大量混語文本提取其中的語法單元,并根據(jù)所述超音素集合及所述語法單元構(gòu)建包含主語種和次語種信息的混語文本通用詞典,這樣,在對待處理混語文本進行字音轉(zhuǎn)換時,即可直接根據(jù)該通用詞典對其進行字音轉(zhuǎn)換,得到對應所述混語文本的語音符號序列。本發(fā)明實施例提供的方法及系統(tǒng)可以有效減少混語文本中主語種與次語種語音結(jié)構(gòu)差別較大時,主語種缺失的次語種音素發(fā)音缺失的問題,從而提升多語種混語語音系統(tǒng)文本處理的應用效果。
附圖說明
為了更清楚地說明本申請實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明中記載的一些實施例,對于本領域普通技術(shù)人員來講,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是本發(fā)明實施例多語種混語文本處理方法的一種流程圖;
圖2是本發(fā)明實施例的主要元音音素集合的一種二維坐標系示意圖;
圖3是本發(fā)明實施例的主要輔音音素集合的一種二維坐標系示意圖;
圖4是本發(fā)明實施例多語種混語文本處理系統(tǒng)的一種結(jié)構(gòu)示意圖。
具體實施方式
為了使本技術(shù)領域的人員更好地理解本發(fā)明實施例的方案,下面結(jié)合附圖和實施方式對本發(fā)明實施例作進一步的詳細說明。
字音轉(zhuǎn)換是指將文字序列轉(zhuǎn)換成相應的發(fā)音內(nèi)容后,使用語音符號序列表示所述發(fā)音內(nèi)容的過程。對于單一語種文本,可以根據(jù)該語種的發(fā)音特點,實現(xiàn)相應的字音轉(zhuǎn)換。而對于多語種混語文本,傳統(tǒng)方法分別采用主語種及次語種的發(fā)音符號描述混語文本中對應的主語種及次語種的發(fā)音情況,然后將混語文本中次語種的語音符號映射到相應主語種語音符號序列的相應位置,得到混 語文本語音序號序列,當混語文本中不同語種的語音結(jié)構(gòu)差別較大時,容易造成主語種缺失的次語種音素發(fā)音上的缺失。
本發(fā)明實施例的多語種混語文本處理方法及系統(tǒng),根據(jù)包含主語種及次語種音素的超音素集合,以及從大量混語文本中提取的語法單元,構(gòu)建混語文本的通用詞典,即將混語文本中主語種文本和次語種文本的發(fā)音情況直接使用超音素集合中音素描述,然后根據(jù)所述通用詞典對待處理混語文本進行字音轉(zhuǎn)換,得到混語文本語音符號序列。由于根據(jù)超音素集合構(gòu)建的通用詞典包含能描述主語種及次語種的常用語法單元的發(fā)音情況,即使混語文本中不同語種的語音結(jié)構(gòu)差別較大時,只要能通過查通用詞典找到混語文本中的語法單元,也能對主語種及次語種進行字音轉(zhuǎn)換,獲得混語文本語音符號序列。
如圖1所示,是本發(fā)明實施例多語種混語文本處理方法的一種流程圖,包括以下步驟:
步驟101,根據(jù)發(fā)音原理確定用于描述混語文本發(fā)音情況的超音素集合,所述超音素集合包括:元音音素集合和輔音音素集合。
在本實施例中,所述超音素集合是根據(jù)發(fā)音原理來確定的,具體可以根據(jù)以下任意一種或多種原則來確定:
(1)將具有明顯發(fā)音差異的音素加入超音素集合中;
(2)不同語種間發(fā)音特征相似的音素使用相同的符號表示;
(3)超音素集合中的音素能夠覆蓋設定數(shù)量語種的發(fā)音情況。
其中,發(fā)音差異可以根據(jù)人類發(fā)音部位、發(fā)音方法等特征來判斷;同時,所述超音素集合中的音素能夠覆蓋設定數(shù)量語種的發(fā)音情況,具體可以根據(jù)使用人口、經(jīng)濟發(fā)達區(qū)域等因素來確定,覆蓋語種的數(shù)量可以根據(jù)應用需求而進行設定,例如針對具有固定營銷區(qū)域的公司的應用系統(tǒng),可以根據(jù)其具體涉及的語種來確定超音素集合包含的語種音素。
所述超音素集合包括:元音音素集合和輔音音素集合。具體地,可以根據(jù)各語種元音音素發(fā)音時的舌位高度及舌尖位置確定元音音素集合,根據(jù)各語種輔音音素發(fā)音時的發(fā)音部位及發(fā)音方法確定輔音音素集合。下面分別對確定元音音素集合和輔音音素集合的過程進行詳細說明。
元音是在發(fā)音過程中由氣流通過口腔而不受阻礙發(fā)出的音,主要是通過舌 頭在口腔中的動作改變口腔共鳴的效果來形成不同的音色,舌位高度及舌尖位置反映了聲道共鳴的狀況,因此可以根據(jù)舌位高度及舌尖位置對不同語種的音素進行描述。在實際應用中,可以將舌位高度設為高、半高、半低、低4檔;可以將舌尖位置設為前、中、后3檔。以舌位高度及舌尖位置作為坐標軸的二維坐標系標識主語種及次語種的元音音素,將具有明顯發(fā)音差異的元音音素加入元音音素集合中。其中,X軸表示舌位的高度,Y軸表示舌尖的位置,如圖2所示。此外,對于不能直接使用上述二維坐標系標識的元音音素,可以按照就近原則將其映射到相近的元音音素上。
輔音是由發(fā)音部位在聲道中造成阻礙,使氣流通過聲道時發(fā)生摩擦而產(chǎn)生的音色,具有噪音性。控制氣流使其產(chǎn)生摩擦的發(fā)音部位及方法不同,會在頻譜的不同區(qū)域形成能量集中區(qū)而發(fā)出不同的音色。因此,可以通過發(fā)音部位及發(fā)音方式對不同語種的音素進行描述。其中,發(fā)音部位指聲道中發(fā)生阻礙的位置,例如從喉部到口部可分為7個發(fā)音部位,分別是唇齒、齒/舌尖、舌面前、舌面中、舌面后、咽、喉;如塞音‘b’的阻礙位置是唇,‘d’的阻礙位置是齒/舌尖,‘g’的阻礙位置是舌根;發(fā)音方式指發(fā)音器官控制氣流的方式和狀態(tài),包括發(fā)音時構(gòu)成阻礙和克服阻礙的方式、氣流強弱的情況、聲帶是否振動等,例如發(fā)音方式包括塞音、塞送氣、塞擦音、塞擦送氣、擦音、邊音、鼻音、響音、半元音等。以發(fā)音部位及發(fā)音方式作為坐標軸的二維坐標系標識主語種及次語種的輔音音素,將具有明顯發(fā)音差異的輔音音素加入輔音音素集合中。其中,X軸表示發(fā)音部位,Y軸表示發(fā)音方式,對于不能直接使用上述二維坐標系標識的輔音音素,可以按照就近原則將其映射到相近的輔音音素上。
步驟102,收集包含主語種和次語種的混語文本。
所述混語文本中包括一種主語種文本,一種或多種非主語種文本,為了描述方便,將其它非主語種文本統(tǒng)稱為次語種文本。所述主語種和次語種可以是預先確定的。所述主語種和次語種在文本形式上可以分為有詞邊界和無詞邊界兩種情況。
步驟103,從所述混語文本中提取語法單元。
所述語法單元可以為語法詞等,例如,當語法單元為語法詞時,對于有詞邊界的文本可以直接提??;對于無詞邊界的文本,需要先利用分詞算法進行自 動分詞后再提取。如果收集的混語文本中同時包含有詞邊界文本和無詞邊界文本,則有詞邊界文本和無詞邊界文本的分界處一定是語法單元邊界。
步驟104,根據(jù)所述語法單元及所述超音素集合構(gòu)建混語文本的通用詞典,所述通用詞典中包含主語種和次語種中的語法單元及所述語法單元的發(fā)音信息。
采用所述超音素集合描述所有提取的語法單元的發(fā)音,從而得到混語文本的通用詞典。
例如,通用詞典中包括英文語法單元“speech”和中文語法單元“上?!?,使用超音素集合描述詞單元的發(fā)音,形式如下:
speech:s p iy ch
上海:sh a ng h a j其中,語法單元后的音素為超音素集合中音素。
進一步的,可以對上述提取的語法單元進行篩選,獲得能覆蓋混語文本的主語種及次語種信息的語法單元。具體地,可以通過人工預先標出所有語法單元的發(fā)音方式進行,但是由于語法單元數(shù)目過多,人工預先標出所有語法單元的發(fā)音工作量太大。因此,在實際應用中,還可以通過語法單元發(fā)音相關(guān)的語法單元片段的發(fā)音覆蓋情況選擇合適的語法單元加入到通用詞典中。而語法單元片段的發(fā)音標注可以采用規(guī)則的方式或者規(guī)則及人工輔助的標注方式,在保證選擇的語法單元發(fā)音覆蓋率的同時,可以大大減少人工工作量。
由于元音字符和元音發(fā)音有明確的發(fā)音關(guān)聯(lián),輔音字符和輔音發(fā)音有明確的發(fā)音關(guān)聯(lián),根據(jù)元音字符和輔音字符劃分后獲得的語法單元片段的字符組合與語法單元片段的發(fā)音有很高的關(guān)聯(lián)性,因此,在未獲得語法單元發(fā)音的情況下,根據(jù)語法單元的字符進行語法單元片段的劃分,得到與語法單元發(fā)音相關(guān)的語法單元片段,可以間接地得到語法單元的發(fā)音覆蓋情況。然后,再根據(jù)語法單元片段的發(fā)音覆蓋情況提取合適的語法單元。
在一個具體實施例中,可以通過以下步驟判斷提取的語法單元的覆蓋情況:
首先,分析語法單元中出現(xiàn)的所有字符,將所述字符劃分元音字符V和輔音字符C;
然后,根據(jù)所述元音字符和輔音字符劃分語法單元,得到與語法單元發(fā)音 相關(guān)的語法單元片段。
進一步的,進行語法單元劃分時,共分為兩種情況:
1.對于元音附標語言的語法單元,由于經(jīng)常不存在元音字符,因此,只考慮單個輔音字符進行語法單元劃分。例如,根據(jù)每個輔音字符所在的上下文環(huán)境進行語法單元的劃分,如將當前字符的前一個字符,當前字符及當前字符的后一個字符劃分為一個語法單元片段;如語法單元C1C2C3V1C4C5,劃分得到的語法單元片段為C1C2,C1C2C3,C2C3C4,C3C4C5,C4C5。
2.對于非元音附標語言的語法單元,每個語法單元都是輔音字符和元音字符交替組成的,因此需要考慮元音字符和輔音字符進行語法單元劃分,具體劃分時,輔音字符前面作為劃分邊界。例如,語法單元的組成字符為C1C2C3V1C4C5,劃分后得到的語法單元片段為C1|C2|C3V1|C4|C5,其中“|”為語法單元片段分界符。
最后,根據(jù)上述獲取的語法單元片段的發(fā)音覆蓋情況選擇加入到通用詞典的語法單元。
特別的,當同一個語法單元片段在多個語法單元中發(fā)音相同時,只需要選取其中一個語法單元加入到通用詞典中,具體語法單元選擇方法本案不作限制。
以下以機器學習方法中的貪婪算法選擇語法單元為例,描述語法單元的選擇過程,可以如下所述:
假設從文本中抽選出N個語法單元,對所述N個語法單元進行片段劃分,得到每個語法單元包含的語法單元片段。從中提取M個主語種及次語種的常用語法單元加入到通用詞典中,以下為一個可行的實施例:
首先,從N個語法單元中,隨機選擇M個語法單元加入到語法單元侯選集中;
接著,每次從剩下N-M個語法單元中選擇一個語法單元作為當前語法單元,依次替換語法單元侯選集中的每個語法單元,根據(jù)判決準則確定當前語法單元是否最終代替語法單元侯選集中的語法單元,更新語法單元候選集,得到新的語法單元侯選集。
例如將信息增益作為判決準則時,計算當前語法單元代替語法單元侯選集 中語法單元前后語法單元侯選集的信息增益,如果替換后,語法單元侯選集的信息增益增加,則成功替換,否則,從剩下語法單元中重新選擇一個語法單元作為當前語法單元,進行相同操作。計算信息增益時,以語法單元包含的語法單元片段為單位,計算整個語法單元侯選集的信息增益。,信息增益增加,說明當前語法單元為語法單元侯選集帶來的信息量增加,即語法單元片段的發(fā)音覆蓋有所增加。
然后,直到剩下N-M個語法單元都計算結(jié)束,提取語法單元侯選集中所有語法單元,并將其全部作為所述通用詞典的語法單元。
步驟105,根據(jù)所述通用詞典對所述混語文本進行字音轉(zhuǎn)換,得到對應所述混語文本的語音符號序列。
在本實施例中,混語文本的主語種文本及次語種文本的發(fā)音,使用通用詞典描述,得到對應所述混語文本的語音符號序列,具體轉(zhuǎn)換方法本案不作限定。
例如,以英文中混有少量中文的混語文本為例,具體的字音轉(zhuǎn)換過程如下:對于中文文本首先對文本進行分詞,然后通過查通用詞典方式得到每個詞單元的語音符號序列。對于英文文本,具體的字音轉(zhuǎn)換過程如下:首先按照空格對文本進行分詞;然后依次對每個詞查通用詞典,如果是詞典詞,則得到該詞語音符號序列。如果是非詞典詞,則按照規(guī)則或者預先訓練得到的字母-發(fā)音映射模型預測該詞發(fā)音序列;最后連接混語文本中各個詞的語音符號序列得到混語文本語音符號序列。再如,對于英文和德文等同屬音素語言的西方語言混合文本,字音轉(zhuǎn)換無需考慮語言界限,直接采用和單一英文文本相同的手段進行字音轉(zhuǎn)換。
本發(fā)明實施例提供的多語種混語文本處理方法,首先確定用于描述混語文本發(fā)音情況的超音素集合,并用該超音素集合描述從大量混語文本中提取出的語法單元,構(gòu)建包含混語文本的主語種及次語種的混語文本通用詞典,這樣,在對待處理混語文本進行字音轉(zhuǎn)換時,即可直接根據(jù)該通用詞典對其進行字音轉(zhuǎn)換,得到對應所述混語文本的語音符號序列。通過本發(fā)明實施例提供的方法,可以有效減少當混語文本中主語種與次語種的語音結(jié)構(gòu)相差較大時,主語種缺失的次語種音素發(fā)音缺失的問題,提升多語種混語語音系統(tǒng)文本處理的應用效 果。
相應地,本發(fā)明實施例還提供一種多語種混語文本處理系統(tǒng),如圖4所示,是該系統(tǒng)的一種結(jié)構(gòu)示意圖。
在本實施例中,所述系統(tǒng)包括:
超音素集合確定模塊401,用于根據(jù)發(fā)音原理確定用于描述混語文本發(fā)音情況的超音素集合,所述超音素集合包括:元音音素集合和輔音音素集合;
混語文本收集模塊402,用于收集包含主語種和次語種的混語文本;
語法單元提取模塊403,用于從所述混語文本中提取語法單元;
通用詞典構(gòu)建模塊404,用于根據(jù)所述語法單元及所述超音素集合構(gòu)建混語文本的通用詞典504,所述通用詞典504中包含主語種和次語種中的語法單元及所述語法單元的發(fā)音信息;
字音轉(zhuǎn)換模塊405,用于根據(jù)所述通用詞典504對待處理混語文本進行字音轉(zhuǎn)換,得到對應所述混語文本的語音符號序列。
上述超音素集合確定模塊401是根據(jù)發(fā)音原理來確定的。通常,音素可以分為元音音素及輔音因素兩類,相應地,所述超音素集合確定模塊401可以包括:元音音素集合確定單元及輔音音素集合確定單元。其中:
所述元音音素集合確定單元用于根據(jù)各語種元音音素發(fā)音時的舌位高度及舌尖位置確定元音音素集合;
所述輔音音素集合確定單元用于根據(jù)各語種輔音音素發(fā)音時的發(fā)音部位及發(fā)音方法確定輔音音素集合。
在實際應用中,可以采用人工標出所有語法單元發(fā)音的方式構(gòu)建詞典,但是由于語法單元數(shù)目過多,人工預先標出所有語法單元的發(fā)音工作量太大。為了提高構(gòu)建詞典的效率,本發(fā)明實施例中,通用詞典構(gòu)建模塊404還可以通過語法單元發(fā)音相關(guān)的語法單元片段的發(fā)音覆蓋情況選擇合適的語法單元加入到通用詞典504中。而語法單元片段的發(fā)音標注可以采用規(guī)則的方式或者規(guī)則及人工輔助的標注方式,在保證選擇的語法單元發(fā)音覆蓋率的同時,可以大大減少人工工作量。
相應地,通用詞典構(gòu)建模塊404的一種具體結(jié)構(gòu)可以包括以下各單元:
劃分單元,用于根據(jù)所述語法單元的字符組合劃分與語法單元發(fā)音具有相 關(guān)性的語法單元片段;
選擇單元,用于根據(jù)所述語法單元片段的發(fā)音覆蓋情況選擇需要加入混語文本的通用詞典504的語法單元;
構(gòu)建單元,用于采用所述超音素集合描述所述語法單元的發(fā)音,得到混語文本的通用詞典504。
進一步的,所述選擇單元具體可以根據(jù)所述語法單元片段的發(fā)音覆蓋情況,采用機器學習方法,如貪婪算法,選擇需要加入混語文本的通用詞典504的語法單元。該系統(tǒng)通過所述通用詞典504可以進行字音轉(zhuǎn)換,因此,該系統(tǒng)還包括字音轉(zhuǎn)換模塊405,以獲得待處理混語文本的語音符號序列。
當然,在實際應用中,該系統(tǒng)還可進一步包括:存儲模塊(未圖示),用于保存通用詞典504信息,比如:語法單元、超音素集合等。這樣,在處理包含相同主語種及次語種的混語文本時,該系統(tǒng)就不用每次使用時都重新構(gòu)建通用詞典504。
另外,所述系統(tǒng)還可進一步包括:通用詞典選取模塊,用于針對包含語種不同的混語文本選取預先構(gòu)建好的相應通用詞典504,這樣可以提高該系統(tǒng)的字音轉(zhuǎn)換效率。
本發(fā)明實施例提供的多語種混語文本處理系統(tǒng),通過超音素集合確定模塊401確定能描述混語文本發(fā)音情況的超音素集合,并通過該超音素集合,描述語法單元提取模塊403獲取的能覆蓋混語文本發(fā)音情況的語法單元,構(gòu)建混語文本通用詞典504,由于該通用詞典504描述了混語文本中主語種及次語種常用語法單元的發(fā)音情況,即使待處理混語文本中不同語種的語音結(jié)構(gòu)差別較大時,只要能通過查通用詞典504找到混語文本中的語法單元,該系統(tǒng)也能對主語種及次語種進行字音轉(zhuǎn)換,獲得混語文本語音符號序列。
本說明書中的各個實施例均采用遞進的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對于系統(tǒng)實施例而言,由于其基本相似于方法實施例,所以描述得比較簡單,相關(guān)之處參見方法實施例的部分說明即可。以上所描述的系統(tǒng)實施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是 物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡單元上。可以根據(jù)實際的需要選擇其中的部分或者全部模塊來實現(xiàn)本實施例方案的目的。本領域普通技術(shù)人員在不付出創(chuàng)造性勞動的情況下,即可以理解并實施。
以上對本發(fā)明實施例進行了詳細介紹,本文中應用了具體實施方式對本發(fā)明進行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及系統(tǒng);同時,對于本領域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實施方式及應用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應理解為對本發(fā)明的限制。