專(zhuān)利名稱(chēng):電話(huà)紀(jì)要生成系統(tǒng)、通信終端、媒體服務(wù)器及方法
技術(shù)領(lǐng)域:
本發(fā)明涉及通信領(lǐng)域,尤其涉及一種記錄通信過(guò)程中的通話(huà)內(nèi)容的電話(huà)紀(jì)要生成系統(tǒng)和方法,以及包含該電話(huà)紀(jì)要生成系統(tǒng)的通信終端及媒體服務(wù)器。
背景技術(shù):
在語(yǔ)音通信系統(tǒng)中,對(duì)通信過(guò)程信息進(jìn)行記錄是一項(xiàng)常用功能,通過(guò)該記錄功能,可以將通話(huà)內(nèi)容,例如兩方通話(huà)和多方會(huì)議的內(nèi)容等保存下來(lái),以供事后查詢(xún)、回溯使用。
目前,一些電話(huà)終端提供了錄音功能,以記錄通話(huà)過(guò)程中的語(yǔ)音信息,或者按用戶(hù)的要求記錄一些待記錄的語(yǔ)音信息。在現(xiàn)有技術(shù)中,另有一些媒體服務(wù)器也支持錄音功能。下面以電話(huà)終端為例,說(shuō)明現(xiàn)有技術(shù)中實(shí)現(xiàn)錄音功能的錄音系統(tǒng)的具體方案,請(qǐng)同時(shí)參照?qǐng)D1。
在撥打電話(huà)過(guò)程中,由音頻輸入單元11采集音頻數(shù)據(jù)傳送給編碼單元12,編碼單元12將音頻信號(hào)轉(zhuǎn)換成特定的格式后通過(guò)通信單元13發(fā)送出去;而在接聽(tīng)電話(huà)過(guò)程中,由通信單元13將接收到的音頻信號(hào)傳送給解碼單元14,解碼單元14將所述特定格式的數(shù)據(jù)轉(zhuǎn)換成普通格式的音頻數(shù)據(jù)后,傳送給音頻輸出單元15,音頻輸出單元15即可播放該音頻數(shù)據(jù)。其中,所述通信單元13是用于完成該電話(huà)終端與整個(gè)通信系統(tǒng)中其他部件的交互。另外,在該錄音系統(tǒng)中,還包括一個(gè)錄音單元16,其用于分別從音頻輸入單元11、解碼單元14獲得音頻實(shí)時(shí)數(shù)據(jù),并保存到存儲(chǔ)器內(nèi)。
由上述錄音系統(tǒng),可完成語(yǔ)音數(shù)據(jù)的錄制、播放和存儲(chǔ)。
對(duì)于媒體服務(wù)器的語(yǔ)音錄制方式與上述電話(huà)終端類(lèi)似,媒體服務(wù)器獲取解碼后、編碼前的音頻數(shù)據(jù),并保存到存儲(chǔ)器內(nèi),在此不再贅述。
上述現(xiàn)有技術(shù)中實(shí)現(xiàn)錄音的方案雖然能夠錄制語(yǔ)音數(shù)據(jù),卻由于存儲(chǔ)的是語(yǔ)音格式的電話(huà)紀(jì)要,存在不方便對(duì)其內(nèi)容進(jìn)行檢索和占用存儲(chǔ)空間大的缺陷。
發(fā)明內(nèi)容
為了解決上述現(xiàn)有技術(shù)中所指出的問(wèn)題,本發(fā)明提出一種電話(huà)紀(jì)要生成系統(tǒng)和方法,以及包含該電話(huà)紀(jì)要生成系統(tǒng)的通信終端及媒體服務(wù)器。所述電話(huà)紀(jì)要生成系統(tǒng)和方法在語(yǔ)音通信過(guò)程中生成文本格式的電話(huà)紀(jì)要,以方便后續(xù)的檢索、瀏覽,并可占用較少的存儲(chǔ)空間。
根據(jù)本發(fā)明的一較佳實(shí)施例,提出一種自動(dòng)電話(huà)紀(jì)要系統(tǒng),該系統(tǒng)包括通信單元,用于接收音頻數(shù)據(jù);錄音單元,用于對(duì)所述通信單元接收的音頻數(shù)據(jù)進(jìn)行錄音;該系統(tǒng)還包括紀(jì)要生成單元,用于獲取被所述錄音單元錄音的音頻數(shù)據(jù),并采用自動(dòng)語(yǔ)音識(shí)別技術(shù)將所述音頻數(shù)據(jù)轉(zhuǎn)換成文本格式的電話(huà)紀(jì)要,并將所述文本格式的電話(huà)紀(jì)要保存在存儲(chǔ)器中;紀(jì)要接口單元,用于將所述文本格式的電話(huà)紀(jì)要發(fā)布出去。
根據(jù)本發(fā)明的另一較佳實(shí)施例,提出一種自動(dòng)電話(huà)紀(jì)要生成方法,該方法包括接收音頻數(shù)據(jù);對(duì)接收的所述音頻數(shù)據(jù)進(jìn)行錄音;采用自動(dòng)語(yǔ)音識(shí)別技術(shù)對(duì)所述音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別,生成與所述音頻數(shù)據(jù)相應(yīng)的文本格式的電話(huà)紀(jì)要;發(fā)布所述文本格式的電話(huà)紀(jì)要。
本發(fā)明的實(shí)施例達(dá)到的有益效果包括通過(guò)將錄制的語(yǔ)音數(shù)據(jù)自動(dòng)生成文本格式的電話(huà)紀(jì)要,方便后續(xù)檢索、編輯和存檔,且可占用較少的存儲(chǔ)空間。
此處所說(shuō)明的附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,并不構(gòu)成對(duì)本發(fā)明的限定。在附圖中圖1為現(xiàn)有技術(shù)中支持錄音功能的電話(huà)終端的錄音系統(tǒng)結(jié)構(gòu)示意圖;
圖2A-圖2F為本發(fā)明實(shí)施例的電話(huà)紀(jì)要生成系統(tǒng)的結(jié)構(gòu)方框圖;圖3為本發(fā)明實(shí)施例的電話(huà)紀(jì)要方法的流程圖;圖4為根據(jù)本發(fā)明的媒體服務(wù)器實(shí)施例的結(jié)構(gòu)示意圖;圖5為根據(jù)本發(fā)明的終端實(shí)施例的結(jié)構(gòu)示意圖。
具體實(shí)施例方式
為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,下面結(jié)合實(shí)施例和附圖,對(duì)本發(fā)明實(shí)施例做進(jìn)一步詳細(xì)說(shuō)明。在此,本發(fā)明的示意性實(shí)施例及其說(shuō)明用于解釋本發(fā)明,但并不作為對(duì)本發(fā)明的限定。
本發(fā)明的實(shí)施例是,在通話(huà)過(guò)程中,通過(guò)通信終端或媒體服務(wù)器的電話(huà)紀(jì)要生成系統(tǒng)獲取語(yǔ)音數(shù)據(jù),并應(yīng)用自動(dòng)語(yǔ)音識(shí)別(ASRAutomatic SpeechRecognition)技術(shù)將語(yǔ)音數(shù)據(jù)轉(zhuǎn)化為文本數(shù)據(jù),將文本格式的電話(huà)紀(jì)要提供給用戶(hù)。由于存儲(chǔ)的是文本格式的電話(huà)紀(jì)要,大大方便了后續(xù)的檢索、編輯和存檔??蛇x地,本發(fā)明的實(shí)施例還可根據(jù)語(yǔ)音數(shù)據(jù)來(lái)源的不同來(lái)區(qū)分不同的發(fā)言人;也可應(yīng)用聲紋識(shí)別(VPRVoiceprint Recognition)技術(shù)來(lái)識(shí)別發(fā)言人,以對(duì)應(yīng)不同的發(fā)言人生成各自相應(yīng)的文本數(shù)據(jù)。
下面結(jié)合附圖對(duì)本發(fā)明實(shí)施例的電話(huà)紀(jì)要生成系統(tǒng)和方法進(jìn)行說(shuō)明。
如圖2A所示,本發(fā)明實(shí)施例的電話(huà)紀(jì)要生成系統(tǒng)主要包括通信單元21、錄音單元22、紀(jì)要生成單元23以及紀(jì)要接口單元24,其中通信單元21主要用于完成該電話(huà)紀(jì)要生成系統(tǒng)的基本通信功能,并將接收到的音頻數(shù)據(jù)傳送到錄音單元22進(jìn)行錄音。
在本發(fā)明的一較佳實(shí)施例中,該電話(huà)紀(jì)要生成系統(tǒng)包含于通信終端(如電話(huà)終端或其他終端設(shè)備),以實(shí)現(xiàn)通信終端的電話(huà)紀(jì)要功能。在以電話(huà)終端作為實(shí)施例中,電話(huà)紀(jì)要生成系統(tǒng)的通信單元21即為電話(huà)終端的基本通信單元,用于完成電話(huà)終端的呼叫控制、媒體交互等功能。
在本發(fā)明的另一較佳實(shí)施例中,該電話(huà)紀(jì)要生成系統(tǒng)包含于媒體服務(wù)器,以實(shí)現(xiàn)媒體服務(wù)器的電話(huà)紀(jì)要功能。在該實(shí)施例中,電話(huà)紀(jì)要生成系統(tǒng)的通信單元21即為媒體服務(wù)器基本單元,用于完成編解碼、混音等功能。
錄音單元22主要用于完成雙方通話(huà)、多方會(huì)議等的電話(huà)錄音,并將錄制的音頻數(shù)據(jù)提供給紀(jì)要生成單元23,該錄音單元22可以是上述通信單元21的一部分,且該錄音單元22可采用現(xiàn)有技術(shù)實(shí)現(xiàn),在此不再贅述。
紀(jì)要生成單元23主要用于從錄音單元獲取音頻數(shù)據(jù),并采用自動(dòng)語(yǔ)音識(shí)別(ASRAutomatic Speech Recognition)技術(shù)轉(zhuǎn)換成對(duì)應(yīng)的文本數(shù)據(jù),即文本格式的電話(huà)紀(jì)要,并保存在存儲(chǔ)器中。
紀(jì)要接口單元24主要用于將文本格式的電話(huà)紀(jì)要發(fā)布給召集人、紀(jì)要人、與會(huì)人等。發(fā)布形式可采用E-mail發(fā)布、Web發(fā)布、數(shù)據(jù)庫(kù)查詢(xún)、私有協(xié)議發(fā)布等,本發(fā)明并不加以限制。
在本發(fā)明的另一較佳實(shí)施例中,該電話(huà)紀(jì)要生成系統(tǒng)還包括一個(gè)手動(dòng)修改紀(jì)要單元25,如圖2B所示,其分別與紀(jì)要生成單元23與紀(jì)要接口單元24相耦合,用于在生成紀(jì)要后,允許手工修改紀(jì)要,提供人工整理、修正、審核的功能。這里需要說(shuō)明的是,該手動(dòng)修改紀(jì)要單元25是可選的,是為增加該電話(huà)紀(jì)要生成系統(tǒng)的一個(gè)附加功能。
在本發(fā)明的另一較佳實(shí)施例中,該電話(huà)紀(jì)要生成系統(tǒng)還包括一個(gè)區(qū)分識(shí)別單元26,用于區(qū)分識(shí)別不同的發(fā)言人,以便紀(jì)要生成單元23可以對(duì)應(yīng)不同的發(fā)言人生成各自對(duì)應(yīng)的文本格式的電話(huà)紀(jì)要。該區(qū)分識(shí)別單元26可以包含于上述通信單元21,如圖2C所示,用于根據(jù)音頻數(shù)據(jù)來(lái)源不同來(lái)區(qū)分不同的發(fā)言人;或者該區(qū)分識(shí)別單元26也可以包含于上述紀(jì)要生成單元23,如圖2D所示,并應(yīng)用聲紋識(shí)別技術(shù)來(lái)識(shí)別發(fā)言人。這里需要說(shuō)明的是,在本發(fā)明的其他實(shí)施例中,也可以不包括區(qū)分識(shí)別單元26,則紀(jì)要生成單元23不再識(shí)別發(fā)言人,而是直接將所接收的音頻數(shù)據(jù)生成一個(gè)文本格式的電話(huà)紀(jì)要。
在本發(fā)明的另一較佳實(shí)施例中,該電話(huà)紀(jì)要生成系統(tǒng)還可以包括一個(gè)設(shè)定單元27,如圖2E所示,設(shè)定單元27用于給紀(jì)要生成單元設(shè)定定量的音頻數(shù)據(jù),以便該紀(jì)要生成單元23在接收到該定量的音頻數(shù)據(jù)后再進(jìn)行語(yǔ)音識(shí)別,如此更加方便電話(huà)紀(jì)要的存儲(chǔ)。當(dāng)然,本發(fā)明并不限于上述實(shí)施例,該設(shè)定單元27也可以作為紀(jì)要生成單元23的一部分,完成上述功能,如圖2F所示。
在此需要說(shuō)明的是,根據(jù)本發(fā)明上述實(shí)施例的電話(huà)紀(jì)要生成系統(tǒng),其各單元可以部署在一個(gè)物理設(shè)備上,也可以部署在多個(gè)不同的設(shè)備上,本發(fā)明并不以此作為限制。
再請(qǐng)參照?qǐng)D3,本發(fā)明實(shí)施例的電話(huà)紀(jì)要生成方法主要包括下列步驟步驟31錄音單元將通信單元傳輸?shù)囊纛l數(shù)據(jù)提供給紀(jì)要生成單元;步驟32紀(jì)要生成單元采用自動(dòng)語(yǔ)音識(shí)別技術(shù)對(duì)所述音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別,生成相應(yīng)的文本格式的電話(huà)紀(jì)要;步驟33紀(jì)要接口單元將所述文本格式的電話(huà)紀(jì)要發(fā)布出去。
其中,在上述方法的一較佳實(shí)施例中,通信單元可以首先根據(jù)音頻數(shù)據(jù)來(lái)源不同來(lái)區(qū)分不同的發(fā)言人,再將不同發(fā)言人的音頻數(shù)據(jù)分別傳輸給錄音單元,以便紀(jì)要生成單元生成對(duì)應(yīng)不同發(fā)言人的文本格式的電話(huà)紀(jì)要。
或者,在另一較佳實(shí)施例中,紀(jì)要生成單元也可以在接收到錄音單元的音頻數(shù)據(jù)后,首先利用聲紋識(shí)別技術(shù)區(qū)分不同的發(fā)言人,而后再生成對(duì)應(yīng)不同發(fā)言人的文本格式的電話(huà)紀(jì)要。
另外,在生成文本格式的電話(huà)紀(jì)要后,上述方法還可以增加手工修改紀(jì)要的步驟,以便人工對(duì)生成的文本數(shù)據(jù)進(jìn)行整理、修正和審核等,以便該會(huì)議紀(jì)要更為完善。
此外,上述紀(jì)要接口單元發(fā)布文本格式的電話(huà)紀(jì)要的方法也多種多樣,例如可以采用E-mail發(fā)布、Web發(fā)布、數(shù)據(jù)庫(kù)查詢(xún)、私有協(xié)議發(fā)布等等,以便召集人、紀(jì)要人、與會(huì)人等能夠獲取該電話(huà)紀(jì)要,本發(fā)明對(duì)此并不加以限制。
根據(jù)上述方法,紀(jì)要生成單元進(jìn)行語(yǔ)音識(shí)別的步驟可以為在線識(shí)別,也可以為離線識(shí)別。
對(duì)于在線方法,通話(huà)過(guò)程中,錄音單元實(shí)時(shí)地將通信單元傳輸?shù)囊纛l數(shù)據(jù)提供給紀(jì)要生成單元;紀(jì)要生成單元再實(shí)時(shí)地采用自動(dòng)語(yǔ)音識(shí)別技術(shù)進(jìn)行語(yǔ)音識(shí)別,生成相應(yīng)的文本格式的電話(huà)紀(jì)要。
對(duì)于離線方法,錄音單元實(shí)時(shí)或非實(shí)時(shí)地將通信單元傳輸?shù)囊纛l數(shù)據(jù)提供給紀(jì)要生成單元;紀(jì)要生成單元在收集到定量的音頻數(shù)據(jù)后,進(jìn)行語(yǔ)音識(shí)別,生成相應(yīng)的文本格式的電話(huà)紀(jì)要。其中,定量的音頻數(shù)據(jù)是指一次或多次通話(huà)的完整音頻數(shù)據(jù),或者較多的音頻數(shù)據(jù),如預(yù)定時(shí)間內(nèi)傳輸?shù)囊纛l數(shù)據(jù)。例如紀(jì)要生成單元可以在收集到一次通話(huà)的完整音頻數(shù)據(jù)后進(jìn)行語(yǔ)音識(shí)別;也可以在收集24小時(shí)的音頻數(shù)據(jù)后進(jìn)行語(yǔ)音識(shí)別,這種情況下,紀(jì)要生成單元收集的音頻數(shù)據(jù)就可能包括多次通話(huà);又或者,如果24小時(shí)的音頻數(shù)據(jù)過(guò)于龐大,也可以設(shè)定為幾個(gè)小時(shí),例如僅收集兩小時(shí)的音頻數(shù)據(jù)后即進(jìn)行語(yǔ)音識(shí)別。這些都是本發(fā)明的實(shí)施例,而本發(fā)明并不以此作為限制,該功能可以通過(guò)在紀(jì)要生成單元中增加一個(gè)設(shè)定單元來(lái)實(shí)現(xiàn)。
接下來(lái),分別根據(jù)以媒體服務(wù)器為載體的實(shí)施例和以通信終端為載體的實(shí)施例對(duì)本發(fā)明的電話(huà)紀(jì)要生成系統(tǒng)和方法進(jìn)行詳細(xì)說(shuō)明。
實(shí)施例一媒體服務(wù)器為載體在本實(shí)施例中,假設(shè)要完成一個(gè)三方會(huì)議的會(huì)議紀(jì)要,會(huì)議結(jié)束后與會(huì)者通過(guò)E-mail的形式收到該會(huì)議紀(jì)要內(nèi)容,該內(nèi)容為此次會(huì)議中各與會(huì)方發(fā)言對(duì)應(yīng)的文本。另外,在本實(shí)施例中,會(huì)議紀(jì)要內(nèi)容是根據(jù)音頻數(shù)據(jù)來(lái)源的不同來(lái)區(qū)分不同的與會(huì)人。
請(qǐng)參照?qǐng)D4,本實(shí)施例的電話(huà)紀(jì)要生成系統(tǒng)主要包括媒體服務(wù)器基本單元41、錄音單元42、紀(jì)要生成單元43以及紀(jì)要接口單元44,下面結(jié)合各個(gè)單元的工作流程進(jìn)行說(shuō)明。其中媒體服務(wù)器基本單元41在本實(shí)施例中除用于完成編解碼、混音、控制等基本通信功能外,還包括一個(gè)區(qū)分識(shí)別單元(圖未示),用于根據(jù)音頻數(shù)據(jù)來(lái)源的不同,將三個(gè)與會(huì)方的音頻數(shù)據(jù)傳輸給錄音單元42進(jìn)行錄音。
錄音單元42用于接收媒體服務(wù)器基本單元41傳輸?shù)娜齻€(gè)來(lái)源的音頻數(shù)據(jù),對(duì)三個(gè)與會(huì)方分別進(jìn)行錄音,并將所述音頻數(shù)據(jù)提供給紀(jì)要生成單元43,以便紀(jì)要生成單元43對(duì)所接收的音頻數(shù)據(jù)對(duì)應(yīng)的與會(huì)方加以區(qū)分。
紀(jì)要生成單元43用于對(duì)來(lái)自三個(gè)與會(huì)方的音頻數(shù)據(jù)分別應(yīng)用ASR技術(shù)進(jìn)行語(yǔ)音識(shí)別,得到各自的文本信息,再根據(jù)發(fā)言時(shí)間的先后順序,將三份文本信息組合成一份會(huì)議紀(jì)要,并將最終的會(huì)議紀(jì)要提供給紀(jì)要接口單元44。這里,進(jìn)行語(yǔ)音識(shí)別的過(guò)程可以采用前述的在線方法,也可以采用離線方法,如果采用離線方法,還需增設(shè)一個(gè)設(shè)定單元以完成定量音頻數(shù)據(jù)設(shè)定的工作。
紀(jì)要接口單元44用于從紀(jì)要生成單元43獲得文本格式的會(huì)議紀(jì)要的數(shù)據(jù)后,從與該媒體服務(wù)器互連的通信系統(tǒng)的數(shù)據(jù)庫(kù)查詢(xún)到各與會(huì)方的E-mail地址,并將會(huì)議紀(jì)要發(fā)送到各與會(huì)方的E-mail郵箱。
實(shí)踐中,本實(shí)施例的媒體服務(wù)器上的電話(huà)紀(jì)要生成系統(tǒng)的電話(huà)紀(jì)要功能可以作為一項(xiàng)增值業(yè)務(wù)提供給用戶(hù)。
如此一來(lái),相對(duì)于現(xiàn)有技術(shù)的電話(huà)錄音方式,本發(fā)明的該實(shí)施例的電話(huà)紀(jì)要生成系統(tǒng)所提供的記錄更方便后續(xù)的檢索、瀏覽,并由于是文本數(shù)據(jù)而占用較少的存儲(chǔ)空間。
實(shí)施例二通信終端為載體在本實(shí)施例中,假設(shè)要完成對(duì)一次三方會(huì)議的錄音功能,會(huì)議結(jié)束后通過(guò)訪問(wèn)會(huì)議終端中的Web服務(wù)器,瀏覽會(huì)議紀(jì)要,并可以將紀(jì)要以文本格式復(fù)制到其它文件中。
請(qǐng)參照?qǐng)D5,本實(shí)施例的電話(huà)紀(jì)要生成系統(tǒng)主要包括終端基本通信單元51、錄音單元52、紀(jì)要生成單元53以及紀(jì)要接口單元54,下面結(jié)合各個(gè)單元的工作流程進(jìn)行說(shuō)明。其中終端基本通信單元51除用于完成終端設(shè)備的呼叫控制、媒體交互等基本通信功能外,還包括一個(gè)第一區(qū)分識(shí)別單元(圖未示),用于根據(jù)音頻數(shù)據(jù)來(lái)源的不同,將不同來(lái)源的音頻數(shù)據(jù)傳輸?shù)戒浺魡卧?2進(jìn)行錄音。
錄音單元52用于對(duì)本終端輸入的語(yǔ)音和來(lái)自網(wǎng)絡(luò)側(cè)的語(yǔ)音分別進(jìn)行錄音,并在將錄制的音頻數(shù)據(jù)提供給紀(jì)要生成單元53。
紀(jì)要生成單元53用于將音頻數(shù)據(jù)轉(zhuǎn)換為文本數(shù)據(jù),在本實(shí)施例中,該紀(jì)要生成單元53還包括一個(gè)第二區(qū)分識(shí)別單元(VPR),對(duì)于本終端輸入的語(yǔ)音,該紀(jì)要生成單元53直接應(yīng)用ASR技術(shù)進(jìn)行語(yǔ)音識(shí)別,轉(zhuǎn)換成文本;對(duì)于來(lái)源于網(wǎng)絡(luò)側(cè)的語(yǔ)音,先由第二區(qū)分識(shí)別單元應(yīng)用VPR技術(shù)進(jìn)行聲紋識(shí)別,根據(jù)發(fā)言人的不同,分離出不同的音頻數(shù)據(jù),對(duì)分離出來(lái)的音頻數(shù)據(jù)再分別應(yīng)用ASR技術(shù)進(jìn)行語(yǔ)音識(shí)別,得到各自的發(fā)言文本數(shù)據(jù)。最后,根據(jù)發(fā)言時(shí)間的先后順序,將本終端數(shù)據(jù)、網(wǎng)絡(luò)側(cè)各個(gè)發(fā)言人發(fā)言數(shù)據(jù)組合起來(lái),得到最終的會(huì)議紀(jì)要,并保存在存儲(chǔ)器內(nèi)。
紀(jì)要接口單元54用于從紀(jì)要生成單元53獲得文本格式的會(huì)議紀(jì)要,并實(shí)現(xiàn)一個(gè)Web服務(wù)器,將會(huì)議紀(jì)要內(nèi)容放在Web服務(wù)器內(nèi),并支持會(huì)議紀(jì)要內(nèi)容的復(fù)制、保存功能。如此一來(lái),Web客戶(hù)端(瀏覽器)訪問(wèn)服務(wù)器時(shí),選擇相應(yīng)的頁(yè)面后,即可瀏覽到該文本格式的會(huì)議紀(jì)要,同時(shí)也可以下載保存該文本格式的會(huì)議紀(jì)要,方便了檢索、瀏覽和存儲(chǔ)。
應(yīng)當(dāng)理解的是,本申請(qǐng)的保護(hù)范圍不受所述實(shí)施例限制。例如,通話(huà)方數(shù)可以是兩方、三方、任意方;紀(jì)要發(fā)布形式可以是E-mail、傳真、數(shù)據(jù)庫(kù)查詢(xún)或其它任意方式。
以上所述的具體實(shí)施例,對(duì)本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步詳細(xì)說(shuō)明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體實(shí)施例而已,并不用于限定本發(fā)明的保護(hù)范圍,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種電話(huà)紀(jì)要生成系統(tǒng),其包括通信單元,用于接收音頻數(shù)據(jù);錄音單元,用于對(duì)所述通信單元接收的音頻數(shù)據(jù)進(jìn)行錄音;其特征在于,該系統(tǒng)還包括紀(jì)要生成單元,用于獲取被所述錄音單元錄音的音頻數(shù)據(jù),并采用自動(dòng)語(yǔ)音識(shí)別技術(shù)將所述音頻數(shù)據(jù)轉(zhuǎn)換成文本格式的電話(huà)紀(jì)要,并將所述文本格式的電話(huà)紀(jì)要保存在存儲(chǔ)器中;紀(jì)要接口單元,用于將所述文本格式的電話(huà)紀(jì)要發(fā)布出去。
2.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,該系統(tǒng)還包括手動(dòng)修改紀(jì)要單元,連接于所述紀(jì)要生成單元和所述紀(jì)要接口單元之間,用于手工修改由所述紀(jì)要生成單元保存的所述文本格式的電話(huà)紀(jì)要;被手工修改的所述文本格式的電話(huà)紀(jì)要經(jīng)由所述紀(jì)要接口單元發(fā)布出去。
3.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,該系統(tǒng)還包括區(qū)分識(shí)別單元,用于區(qū)分識(shí)別不同的發(fā)言人,以便紀(jì)要生成單元可以對(duì)應(yīng)不同的發(fā)言人生成各自對(duì)應(yīng)的文本格式的電話(huà)紀(jì)要。
4.根據(jù)權(quán)利要求3所述的系統(tǒng),其特征在于,所述區(qū)分識(shí)別單元包含于所述通信單元,用于根據(jù)音頻數(shù)據(jù)的不同來(lái)源來(lái)區(qū)分不同的發(fā)言人。
5.根據(jù)權(quán)利要求3所述的系統(tǒng),其特征在于,所述區(qū)分識(shí)別單元包含于所述紀(jì)要生成單元,用于使用聲紋識(shí)別技術(shù)來(lái)識(shí)別發(fā)言人。
6.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,該系統(tǒng)還包括設(shè)定單元,與所述紀(jì)要生成單元相耦合,用于設(shè)定定量的音頻數(shù)據(jù),以便所述紀(jì)要生成單元在接收到該定量的音頻數(shù)據(jù)后再進(jìn)行語(yǔ)音識(shí)別。
7.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,該系統(tǒng)還包括設(shè)定單元,所述設(shè)定單元包含于所述紀(jì)要生成單元,用于設(shè)定定量的音頻數(shù)據(jù),以便所述紀(jì)要生成單元在接收到該定量的音頻數(shù)據(jù)后再進(jìn)行語(yǔ)音識(shí)別。
8.根據(jù)權(quán)利要求1-7任一項(xiàng)所述的系統(tǒng),其特征在于,該電話(huà)紀(jì)要生成系統(tǒng)包含于媒體服務(wù)器或通信終端。
9.一種電話(huà)紀(jì)要生成方法,其特征在于,該方法包括下列步驟接收音頻數(shù)據(jù);對(duì)接收的所述音頻數(shù)據(jù)進(jìn)行錄音;采用自動(dòng)語(yǔ)音識(shí)別技術(shù)對(duì)所述音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別,生成與所述音頻數(shù)據(jù)相應(yīng)的文本格式的電話(huà)紀(jì)要;發(fā)布所述文本格式的電話(huà)紀(jì)要。
10.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述接收音頻數(shù)據(jù)的步驟具體包括根據(jù)所述音頻數(shù)據(jù)的不同來(lái)源區(qū)分不同的發(fā)言人,以便根據(jù)所述不同的發(fā)言人對(duì)接收的所述音頻數(shù)據(jù)分別進(jìn)行錄音。
11.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述采用自動(dòng)語(yǔ)音識(shí)別技術(shù)對(duì)所述音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別,生成與所述音頻數(shù)據(jù)相應(yīng)的文本格式的電話(huà)紀(jì)要的步驟具體包括紀(jì)要生成單元接收所述音頻數(shù)據(jù);利用聲紋識(shí)別技術(shù)區(qū)分所述音頻數(shù)據(jù)中不同的發(fā)言人;采用自動(dòng)語(yǔ)音識(shí)別技術(shù)將所述音頻數(shù)據(jù)根據(jù)不同的發(fā)言人分別轉(zhuǎn)化成相應(yīng)的文本格式的電話(huà)紀(jì)要。
12.根據(jù)權(quán)利要求9所述的方法,其特征在于, 在生成文本格式的電話(huà)紀(jì)要后,所述方法還包括手工修改紀(jì)要的步驟,以便對(duì)生成的文本格式的電話(huà)紀(jì)要進(jìn)行整理、修正和審核。
13.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述語(yǔ)音識(shí)別的步驟具體包括實(shí)時(shí)地對(duì)接收到的所述音頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別,生成相應(yīng)的文本格式的電話(huà)紀(jì)要。
14.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述語(yǔ)音識(shí)別的步驟具體包括收集到定量的所述音頻數(shù)據(jù)后,進(jìn)行語(yǔ)音識(shí)別,生成相應(yīng)的文本格式的電話(huà)紀(jì)要。
15.根據(jù)權(quán)利要求14所述的方法,其特征在于,所述定量的音頻數(shù)據(jù)為一次通話(huà)的完整音頻數(shù)據(jù),或多次通話(huà)的音頻數(shù)據(jù),或預(yù)定時(shí)間內(nèi)傳輸?shù)囊纛l數(shù)據(jù)。
全文摘要
本發(fā)明提供一種電話(huà)紀(jì)要生成系統(tǒng)、通信終端、媒體服務(wù)器及方法,該系統(tǒng)包括通信單元,用于接收音頻數(shù)據(jù);錄音單元,用于對(duì)所述通信單元接收的音頻數(shù)據(jù)進(jìn)行錄音;該系統(tǒng)還包括紀(jì)要生成單元,用于獲取被所述錄音單元錄音的音頻數(shù)據(jù),并采用自動(dòng)語(yǔ)音識(shí)別技術(shù)將所述音頻數(shù)據(jù)轉(zhuǎn)換成文本格式的電話(huà)紀(jì)要,并將所述文本格式的電話(huà)紀(jì)要保存在存儲(chǔ)器中;紀(jì)要接口單元,用于將所述文本格式的電話(huà)紀(jì)要發(fā)布出去。通過(guò)本發(fā)明,將錄制的語(yǔ)音數(shù)據(jù)生成文本格式的電話(huà)紀(jì)要,方便后續(xù)檢索、編輯和存檔。
文檔編號(hào)H04M3/487GK101068271SQ200710112658
公開(kāi)日2007年11月7日 申請(qǐng)日期2007年6月26日 優(yōu)先權(quán)日2007年6月26日
發(fā)明者馬樟平, 李久, 劉泳 申請(qǐng)人:華為技術(shù)有限公司