一種聲音與文本全自動匹配對齊的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明實例涉及一種聲音與文本全自動匹配對齊的方法,特別是涉及一種音視頻內(nèi)的聲音與講稿、聲音與字幕等文本內(nèi)容全自動匹配及時間軸對齊的方法。
【背景技術(shù)】
[0002]音視頻內(nèi)的聲音與文本匹配對齊的目的主要是用于相關(guān)字幕文件制作。
[0003]目前制作字幕文件的方法主要是經(jīng)相關(guān)專業(yè)技術(shù)培訓的人員通過操作相關(guān)制作軟件或工具、純手工方式、逐行逐句地完成所有文本校對與時間軸對齊的工作。
[0004]這種傳統(tǒng)字幕文件制作的方法具有操作復雜、浪費人力、耗時巨大、輸出結(jié)果編碼不規(guī)范等弊端。
【發(fā)明內(nèi)容】
[0005]針對上述問題,本發(fā)明實例提供了一種能全自動、標準化、無需人工干預的聲音與文本匹配對齊的方法。技術(shù)方案如下:系統(tǒng)接收到用戶提交的音文匹配對齊請求,所述請求中必須包括音視頻文件和對應講稿文本文件。
[0006]系統(tǒng)自動判斷音視頻文件格式,并自動剝離出16bit音軌信號。
[0007]系統(tǒng)自動根據(jù)音軌采樣頻率和發(fā)音停頓點邏輯切割完整音軌為多個短時音軌。
[0008]系統(tǒng)內(nèi)語料庫自動將多個邏輯短時音軌按順序逐一識別為待匹配文本,并為每一個待匹配文本字符添加毫秒級時間軸碼。
[0009]系統(tǒng)自動將已識別的待匹配文本逐字地和講稿文本文件內(nèi)的字符匹配,從而篩選出正確的匹配文本字符并再次確認已添加的毫秒級時間軸碼,如果篩選不成功,系統(tǒng)自動將未篩選成功字符標紅并跳過。
[0010]系統(tǒng)自動將已正確匹配文本字符和添加毫秒級時間軸碼的所有短時音軌文本(包括未篩選成功標紅的字符)重新組合成完整音軌文本。
[0011]系統(tǒng)自動根據(jù)完整音軌文本內(nèi)標點符號斷句、計算每一個斷句的起止時間軸碼、為每一個斷句添加毫秒級時間軸碼。
[0012]系統(tǒng)自動將已添加毫秒級時間軸碼的完整音軌文本內(nèi)容以xml格式輸出結(jié)果給用戶,并同時生成srt、ass等標準格式字幕文件供用戶選擇。
[0013]本發(fā)明實例采用音軌自動剝離、音軌邏輯分割和大語音識別領(lǐng)域等技術(shù),在確保不破壞原始音視頻內(nèi)容的情況下,可高效、智能、準確地幫助用戶批量實現(xiàn)音視頻內(nèi)容的實時音文匹配對齊并根據(jù)用戶需求輸出多種格式的時間軸碼文件。
[0014]說明書附圖
為了更清楚地說明本發(fā)明實例,在說明書附圖頁將對實施例描述中所需要使用的附圖作簡單的介紹,顯而易見,在說明書附圖頁描述中的附圖僅僅是本發(fā)明的一個實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0015]說明書附圖頁內(nèi)的圖1為本發(fā)明實施例中一種聲音與文本全自動匹配對齊的方法的實施流程圖。
【主權(quán)項】
1.一種聲音與文本全自動匹配對齊的方法,其特征在于,所述方法主要包括:音軌自動采樣模塊、音軌語音自動識別模塊、文本字符批量自動匹配模塊以及音軌文本自動合成豐旲塊。2.音軌自動采樣模塊:所述音軌自動采樣模塊用于用戶提供的音視頻音軌自動識別、采樣、剝離以及邏輯切割生成多個短時音軌。3.音軌語音自動識別模塊:所述音軌語音識別模塊用于音軌自動采樣模塊邏輯生成的多個短時音軌的語音轉(zhuǎn)文本字符并為每個文本字符添加對應的起止時間軸碼。4.文本字符批量自動匹配模塊:所述文本字符批量自動匹配模塊用于將音軌語音自動識別模塊所識別出的多個文本字符批量自動與用戶提供的標準文本字符對應匹配正確。5.音軌文本自動合成模塊:所述音軌文本自動合成模塊用于將所有文本字符批量自動匹配模塊所匹配成功的文本字符按序合成為一個完整的音軌文本。6.根據(jù)權(quán)利要求2所述的一種聲音與文本全自動匹配對齊的方法,其特征在于,音軌自動采樣模塊根據(jù)音軌內(nèi)聲音的發(fā)音停頓點全自動以邏輯的方式切割完整音軌為多個短時長音軌并記錄在系統(tǒng)緩存。7.根據(jù)權(quán)利要求3所述的一種聲音與文本全自動匹配對齊的方法,其特征在于,音軌語音自動識別模塊讀取系統(tǒng)緩存內(nèi)記錄的多個邏輯短時長音軌,以多并發(fā)模式通過語音識別將所有邏輯短時長音軌內(nèi)語音轉(zhuǎn)化為文本字符,并自動為每一個文本字符添加對應的起止時間軸碼。8.根據(jù)權(quán)利要求4所述的一種聲音與文本全自動匹配對齊的方法,其特征在于,文本字符批量自動匹配模塊將所有語音識別轉(zhuǎn)換而來的文本字符全自動與用戶提交的標準文本字符批量按序--對應匹配并做一致性對比和正確性判斷。9.根據(jù)權(quán)利要求5所述的一種聲音與文本全自動匹配對齊的方法,其特征在于,音軌文本自動合成模塊將所有已與用戶提交的標準文本字符做完一致性對比和正確性判斷的全部短時長音軌文本字符以全自動的方式重新按序合成為一個完整的音軌文本,并同時根據(jù)文本內(nèi)的標點符號全自動斷句和為每一個斷句添加所對應的起止時間軸碼,最后系統(tǒng)還將全自動將已斷句并添加完對應起止時間軸碼的完整音軌文本內(nèi)容以XML方式輸出結(jié)果給用戶,同時還自動為用戶生成SRT、ASS等標準字幕文件格式的文件以供備選。
【專利摘要】本發(fā)明實例涉及一種聲音與文本全自動匹配對齊的方法,特別是涉及一種音視頻內(nèi)的聲音與講稿、聲音與字幕等文本內(nèi)容全自動匹配及時間軸對齊的方法。本發(fā)明實例提供了一種能全自動、標準化、無需人工干預的聲音與文本匹配對齊的方法。本發(fā)明實例采用音軌自動剝離、音軌邏輯分割和大語音識別領(lǐng)域等技術(shù),在確保不破壞原始音視頻內(nèi)容的情況下,可高效、智能、準確地幫助用戶批量實現(xiàn)音視頻內(nèi)容的實時音文匹配對齊并根據(jù)用戶需求輸出多種格式的時間軸碼文件。
【IPC分類】G10L25/48, G10L15/26
【公開號】CN104900233
【申請?zhí)枴緾N201510238262
【發(fā)明人】常鍇, 羅振坤
【申請人】深圳市東方泰明科技有限公司, 常鍇
【公開日】2015年9月9日
【申請日】2015年5月12日